このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240812となっている論文です。

PDF登録状況(公開日: 20240812)

TitleAuthorsAbstract論文公表日・翻訳日
# StringNET: 遷移経路のニューラルネットワークに基づく変分法

StringNET: Neural Network based Variational Method for Transition Pathways ( http://arxiv.org/abs/2408.12621v1 )

ライセンス: Link先を確認
Jiayue Han, Shuting Gu, Xiang Zhou, (参考訳) ノイズ変動下での準安定系の希少遷移は、多くの非平衡物理および化学過程において重要である。 これらの過程において、反応性フラックスへの主な寄与は、主に2つの準安定状態を結ぶ遷移経路の近くである。 これらの経路の効率的な計算は、計算化学において不可欠である。 本研究では, 温度依存性の最大フラックス経路, 最小エネルギー経路, 最小作用経路を0温度で検討する。 変分定式化とディープラーニング技術を用いて,これらのパスをトレーニングするStringNET法を提案する。 従来のチェーン・オブ・ステートメソッドとは異なり、StringNETはニューラルネットワーク機能を通じて直接パスをパラメータ化し、アーク長パラメータをメイン入力として利用する。 弦法における勾配降下と再パラメータ化のタスクは、損失関数を用いて1つのフレームワークに統合され、ディープニューラルネットワークを訓練する。 さらに、最大フラックスパスの損失関数は、最小エネルギーパスの数値的に挑戦するミニマックス問題に対するソフトマックス近似として解釈される。 本研究は, 最小エネルギー経路を効率よく, 堅牢に計算するために, 初期訓練段階における最大フラックスパス損失を含む事前学習戦略を開発し, 最小エネルギーと行動経路の計算を著しく高速化した。 本手法の優れた性能は, 種々の分析および化学的例, および2次元および4次元ギンズブルグ・ランダウ関数エネルギーを用いて実証した。

Rare transition events in meta-stable systems under noisy fluctuations are crucial for many non-equilibrium physical and chemical processes. In these processes, the primary contributions to reactive flux are predominantly near the transition pathways that connect two meta-stable states. Efficient computation of these paths is essential in computational chemistry. In this work, we examine the temperature-dependent maximum flux path, the minimum energy path, and the minimum action path at zero temperature. We propose the StringNET method for training these paths using variational formulations and deep learning techniques. Unlike traditional chain-of-state methods, StringNET directly parametrizes the paths through neural network functions, utilizing the arc-length parameter as the main input. The tasks of gradient descent and re-parametrization in the string method are unified into a single framework using loss functions to train deep neural networks. More importantly, the loss function for the maximum flux path is interpreted as a softmax approximation to the numerically challenging minimax problem of the minimum energy path. To compute the minimum energy path efficiently and robustly, we developed a pre-training strategy that includes the maximum flux path loss in the early training stage, significantly accelerating the computation of minimum energy and action paths. We demonstrate the superior performance of this method through various analytical and chemical examples, as well as the two- and four-dimensional Ginzburg-Landau functional energy.
翻訳日:2024-09-01 17:02:13 公開日:2024-08-12
# 潜在変数解決のための意味情報理論に基づく意味的変分ベイズ

Semantic Variational Bayes Based on a Semantic Information Theory for Solving Latent Variables ( http://arxiv.org/abs/2408.13122v1 )

ライセンス: Link先を確認
Chenguang Lu, (参考訳) 変分ベイズ法(VB)は、最小自由エネルギー基準で潜在変数の確率分布を解くために用いられる。 この基準は理解しづらいものであり、計算は複雑である。 そこで本研究では,セマンティック変分ベイズ法(SVB)を提案する。 先述したセマンティック情報理論は、レート歪み関数 R(D) を、与えられた意味的相互情報 G に対する最小の相互情報であるレート歪み関数 R(G) に拡張する。 SVBが使用する制約関数には、可能性、真理、メンバーシップ、類似性、歪み関数がある。 SVBは、モデルパラメータを最適化する最大意味情報基準と、シャノンチャネルを最適化する最小相互情報基準とを含む最大情報効率(G/R)基準を使用する。 同じタスクでは、SVBはVBよりも計算がシンプルである。 論文における計算実験には 1) 混合モデルを例として用いて, G/Rが増加するにつれて混合モデルが収束することを示す。 2)データ圧縮におけるSVBの適用を制約としてエラー範囲のグループで実証すること。 3)所定の範囲の制約のある制御タスクにおいて,最大エントロピー制御と強化学習に意味情報尺度とSVBをどのように利用できるかを示し,制御のパーポーブネスと効率のバランスをとるための数値的証拠を提供する。 ニューラルネットワークとディープラーニングにSVBを適用するには、さらなる研究が必要である。

The Variational Bayesian method (VB) is used to solve the probability distributions of latent variables with the minimum free energy criterion. This criterion is not easy to understand, and the computation is complex. For these reasons, this paper proposes the Semantic Variational Bayes' method (SVB). The Semantic Information Theory the author previously proposed extends the rate-distortion function R(D) to the rate-fidelity function R(G), where R is the minimum mutual information for given semantic mutual information G. SVB came from the parameter solution of R(G), where the variational and iterative methods originated from Shannon et al.'s research on the rate-distortion function. The constraint functions SVB uses include likelihood, truth, membership, similarity, and distortion functions. SVB uses the maximum information efficiency (G/R) criterion, including the maximum semantic information criterion for optimizing model parameters and the minimum mutual information criterion for optimizing the Shannon channel. For the same tasks, SVB is computationally simpler than VB. The computational experiments in the paper include 1) using a mixture model as an example to show that the mixture model converges as G/R increases; 2) demonstrating the application of SVB in data compression with a group of error ranges as the constraint; 3) illustrating how the semantic information measure and SVB can be used for maximum entropy control and reinforcement learning in control tasks with given range constraints, providing numerical evidence for balancing control's purposiveness and efficiency. Further research is needed to apply SVB to neural networks and deep learning.
翻訳日:2024-09-01 17:02:13 公開日:2024-08-12
# RISE-iEEG: オブジェクト間電極へのロバストな挿入可変iEEG分類器

RISE-iEEG: Robust to Inter-Subject Electrodes Implantation Variability iEEG Classifier ( http://arxiv.org/abs/2408.14477v1 )

ライセンス: Link先を確認
Maryam Ostadsharif Memar, Navid Ziaei, Behzad Nazari, Ali Yousefi, (参考訳) 脳内脳波(iEEG)の利用は、臨床および脳-コンピュータインターフェースへの応用において急速に増加している。 iEEGは、高空間分解能と時間分解能で神経活動を記録しやすくし、神経力学の研究に好適な神経画像モダリティとなる。 iEEGは、その利点にもかかわらず、電極注入におけるオブジェクト間のばらつきのような課題に直面しており、異なる患者にまたがる統合神経デコーダモデルの開発を困難にしている。 本研究では,物体間電極注入変動に頑健な新しいデコーダモデルを提案する。 我々は、このモデル RISE-iEEG を、ロバスト電極間挿入可変iEEG分類器(Robust Inter-Subject Electrode implantation Variability iEEG Classifier)と呼んでいる。 RISE-iEEGは、患者固有の投影ネットワークに先行するディープニューラルネットワーク構造を採用している。 プロジェクションネットワークは、個々の患者の神経データを共通の低次元空間にマッピングし、移植変動を補償する。 言い換えれば、各患者の電極座標を必要とせずに複数の患者のデータに適用できるiEEGデコーダモデルを開発した。 オーディオ・ビジュアルデータセット、音楽再構成データセット、アッパー・リム・ムーブメントデータセットなど、複数のデータセットにわたるRISE-iEEGのパフォーマンスは、HTNetやEEGNetのような最先端のiEEGデコーダモデルを上回る。 解析の結果, RISE-iEEG は HTNet と EEGNet の F1 スコアよりも 10 % 高い値を示し, 平均 F1 スコアは 83 % であり, 評価手法の最高値である。 さらに、患者間での音楽再構成データセットにおける投影網重みの解析により、上側頭葉が一次符号化神経ノードとして機能することが示唆された。 この発見は聴覚処理生理学と一致している。

Utilization of intracranial electroencephalography (iEEG) is rapidly increasing for clinical and brain-computer interface applications. iEEG facilitates the recording of neural activity with high spatial and temporal resolution, making it a desirable neuroimaging modality for studying neural dynamics. Despite its benefits, iEEG faces challenges such as inter-subject variability in electrode implantation, which makes the development of unified neural decoder models across different patients difficult. In this research, we introduce a novel decoder model that is robust to inter-subject electrode implantation variability. We call this model RISE-iEEG, which stands for Robust Inter-Subject Electrode Implantation Variability iEEG Classifier. RISE-iEEG employs a deep neural network structure preceded by a patient-specific projection network. The projection network maps the neural data of individual patients onto a common low-dimensional space, compensating for the implantation variability. In other words, we developed an iEEG decoder model that can be applied across multiple patients' data without requiring the coordinates of electrode for each patient. The performance of RISE-iEEG across multiple datasets, including the Audio-Visual dataset, Music Reconstruction dataset, and Upper-Limb Movement dataset, surpasses that of state-of-the-art iEEG decoder models such as HTNet and EEGNet. Our analysis shows that the performance of RISE-iEEG is 10\% higher than that of HTNet and EEGNet in terms of F1 score, with an average F1 score of 83\%, which is the highest result among the evaluation methods defined. Furthermore, the analysis of projection network weights in the Music Reconstruction dataset across patients suggests that the Superior Temporal lobe serves as the primary encoding neural node. This finding aligns with the auditory processing physiology.
翻訳日:2024-09-01 16:52:18 公開日:2024-08-12
# フィジカルインフォームド・機械学習による凍結浮動の等級予測

Physics-Informed Machine Learning for Grade Prediction in Froth Flotation ( http://arxiv.org/abs/2408.15267v1 )

ライセンス: Link先を確認
Mahdi Nasiri, Sahel Iqbal, Simo Särkkä, (参考訳) そこで本研究では, 物理インフォームドニューラルネットワークモデルを用いて, 凍結浮動小胞体における金濃度の集中を予測した。 ミネラル処理の自動制御と最適化には,集中グレードの正確な予測が重要である。 第一原理とデータ駆動機械学習の両方が、浮動小数点過程のモデル化に使われている。 第一原理に基づくモデルの複雑さは直接の使用を制限するが、純粋にデータ駆動モデルはしばしば動的産業環境で失敗し、一般化が不十分になる。 これらの制約に対処するため、従来の深層学習法と古典的なフロイテーション過程の数学的モデルを統合し、物理インフォームドニューラルネットワークを構築する。 これらのモデルは、平均二乗誤差と平均相対誤差の2つの浮動小数点セルからのシミュレーションデータに基づいて、純粋にデータ駆動モデルよりも優れた一般化と予測性能を示した。

In this paper, physics-informed neural network models are developed to predict the concentrate gold grade in froth flotation cells. Accurate prediction of concentrate grades is important for the automatic control and optimization of mineral processing. Both first-principles and data-driven machine learning methods have been used to model the flotation process. The complexity of models based on first-principles restricts their direct use, while purely data-driven models often fail in dynamic industrial environments, leading to poor generalization. To address these limitations, this study integrates classical mathematical models of froth flotation processes with conventional deep learning methods to construct physics-informed neural networks. These models demonstrated superior generalization and predictive performance compared to purely data-driven models, on simulated data from two flotation cells, in terms of mean squared error and mean relative error.
翻訳日:2024-09-01 16:42:01 公開日:2024-08-12
# ファジィクラスタリングによる発生過程監視のためのEDFAポンプ電流の時系列異常検出

Anomaly Detection in Time Series of EDFA Pump Currents to Monitor Degeneration Processes using Fuzzy Clustering ( http://arxiv.org/abs/2408.15268v1 )

ライセンス: Link先を確認
Dominic Schneider, Lutz Rapp, Christoph Ament, (参考訳) 本稿では,EDFAシステムのポンプ電流時系列に対するファジィクラスタリングに基づく異常検出手法を提案する。 提案する変更検出フレームワーク(CDF)は,エントロピー解析(EA)と原理成分分析(PCA)とファジィクラスタリングの利点を戦略的に組み合わせている。 本フレームワークでは,特徴空間の削減と計算性能の向上のために,特徴量の動的選択にEAを適用した。 さらに,PCAを用いて生の特徴空間から特徴を抽出し,ファジィクラスタリング手順の一般化を可能にする。 より正確にはファジィクラスタリングアルゴリズム,確率的クラスタリングアルゴリズム,確率的クラスタリングアルゴリズムの3つの異なるファジィクラスタリング手法を性能と一般化のために評価した。 したがって,提案フレームワークは,商業的に使用されているEDFAの最先端のアラームと比較して,任意の操作ポイントの初期段階でポンプ電流時系列の変化を検出する革新的な機能を備えている。 さらに、この手法は実験データを用いて実装およびテストされる。 さらに,光ファイバーネットワークに分散化された予測保守を適用可能なフレームワークを提案する。

This article proposes a novel fuzzy clustering based anomaly detection method for pump current time series of EDFA systems. The proposed change detection framework (CDF) strategically combines the advantages of entropy analysis (EA) and principle component analysis (PCA) with fuzzy clustering procedures. In the framework, EA is applied for dynamic selection of features for reduction of the feature space and increase of computational performance. Furthermore, PCA is utilized to extract features from the raw feature space to enable generalization capability of the subsequent fuzzy clustering procedures. Three different fuzzy clustering methods, more precisely the fuzzy clustering algorithm, a probabilistic clustering algorithm and a possibilistic clustering algorithm are evaluated for performance and generalization. Hence, the proposed framework has the innovative feature to detect changes in pump current time series at an early stage for arbitrary points of operation, compared to state-of-the-art predefined alarms in commercially used EDFAs. Moreover, the approach is implemented and tested using experimental data. In addition, the proposed framework enables further approaches of applying decentralized predictive maintenance for optical fiber networks.
翻訳日:2024-09-01 16:42:01 公開日:2024-08-12
# SkillMimic: デモから再利用可能なバスケットボール選手スキルを学ぶ

SkillMimic: Learning Reusable Basketball Skills from Demonstrations ( http://arxiv.org/abs/2408.15270v1 )

ライセンス: Link先を確認
Yinhuai Wang, Qihan Zhao, Runyi Yu, Ailing Zeng, Jing Lin, Zhengyi Luo, Hok Wai Tsui, Jiwen Yu, Xiu Li, Qifeng Chen, Jian Zhang, Lei Zhang, Ping Tan, (参考訳) 多様なレイアップやドリブルのようなバスケットボールのスキルを習得するには、ボールとの複雑な相互作用が伴い、リアルタイムの調整が必要である。 インタラクションスキルの伝統的な強化学習方法は、異なるスキルをうまく一般化しない、労働集約的で手動で設計された報酬に依存している。 SkillMimicは、人間とボールの両方の動きを模倣して、さまざまなバスケットボールスキルを学習するデータ駆動型アプローチである。 SkillMimicは、人間のボールモーションデータセットから多様なスキルを学ぶために統一された構成を採用し、データセットが成長するにつれてスキルの多様性と一般化が向上する。 このアプローチにより、単一のポリシをトレーニングして複数のスキルを学ぶことができ、参照データセットにこれらのスイッチが存在しない場合でも、スムーズなスキルスイッチが可能になる。 SkillMimicが獲得したスキルは、高レベルのコントローラーで簡単に再利用でき、複雑なバスケットボールのタスクをこなせる。 アプローチを評価するために,単眼のRGBビデオから推定した2つのバスケットボールデータセットと,高度なモーションキャプチャ装置を用いて推定した1つのバスケットボールスキルをまとめて35分間のバスケットボールスキルを含む2つのバスケットボールデータセットを紹介した。 実験により,本手法は,ブラブリング,レイアップ,シューティングなど,データセットに含まれるさまざまなバスケットボールスキルを統一的な構成で効果的に学習できることが示唆された。 さらに、取得したスキルを再利用するために、高いレベルのコントローラをトレーニングすることで、バスケットに向かってドリブルしたり、ドリブルやレイアップをタイミング付けしたり、リバウンドを回収したり、プロセスを繰り返すといった複雑なバスケットボールのタスクを達成できる。 プロジェクトページとビデオデモはhttps://ingrid789.github.io/SkillMimic/で公開されている。

Mastering basketball skills such as diverse layups and dribbling involves complex interactions with the ball and requires real-time adjustments. Traditional reinforcement learning methods for interaction skills rely on labor-intensive, manually designed rewards that do not generalize well across different skills. Inspired by how humans learn from demonstrations, we propose SkillMimic, a data-driven approach that mimics both human and ball motions to learn a wide variety of basketball skills. SkillMimic employs a unified configuration to learn diverse skills from human-ball motion datasets, with skill diversity and generalization improving as the dataset grows. This approach allows training a single policy to learn multiple skills, enabling smooth skill switching even if these switches are not present in the reference dataset. The skills acquired by SkillMimic can be easily reused by a high-level controller to accomplish complex basketball tasks. To evaluate our approach, we introduce two basketball datasets: one estimated through monocular RGB videos and the other using advanced motion capture equipment, collectively containing about 35 minutes of diverse basketball skills. Experiments show that our method can effectively learn various basketball skills included in the dataset with a unified configuration, including various styles of dribbling, layups, and shooting. Furthermore, by training a high-level controller to reuse the acquired skills, we can achieve complex basketball tasks such as layup scoring, which involves dribbling toward the basket, timing the dribble and layup to score, retrieving the rebound, and repeating the process. The project page and video demonstrations are available at https://ingrid789.github.io/SkillMimic/
翻訳日:2024-09-01 16:32:17 公開日:2024-08-12
# リードIアロンからの心電図間隔の推定:監視モデルの外的検証

Estimating ECG Intervals from Lead-I Alone: External Validation of Supervised Models ( http://arxiv.org/abs/2408.15272v1 )

ライセンス: Link先を確認
Ridwan Alam, Collin Stultz, (参考訳) 多くの心血管疾患の診断、予後、治療は、PR、QRS、QT間隔を含む心電図間隔の測定に依存する。 これらの量は、手動または自動アルゴリズムを使用して、12リードのECGから測定される。 しかし、多くのウェアラブルデバイスは、外来でリードI心電図を取得できるため、心電図間隔の臨床的に重要な変化を伴う疾患の院外モニタリングの可能性を高めることができる。 そこで本研究では,リードIECGを用いて,PR,QRS,QT間隔を推定するための一連のディープラーニングモデルを開発した。 マサチューセッツ総合病院の患者からの420万のECGのコーパスから、各モデルを訓練し、検証する。 内部ホールドアウト検証では,QRS間隔が6.3ms,QT間隔が1.9ms,PR間隔が9.2msの平均絶対誤差(MAE)が達成される。 さらに、よく定義されたP波は、心房細動がある場合など、心電図のトレースに常に存在するわけではないので、P波が存在することを識別できるモデルを訓練し、その結果、測定可能なPR間隔を計測した。 私たちは、Brigham and Womens Hospitalの320万心電図、MIMIC-IVの668万、TB-XLの2000万の3つの大きな外部医療データセットでモデルを検証し、同様のパフォーマンスを実現しました。 また、我々のモデルは2つの公開ベースラインアルゴリズムを大きく上回っている。 この研究は、ディープラーニングを使用してリードIECGのみからECG間隔を追跡できることを示し、病院外アプリケーションの可能性を強調している。

The diagnosis, prognosis, and treatment of a number of cardiovascular disorders rely on ECG interval measurements, including the PR, QRS, and QT intervals. These quantities are measured from the 12-lead ECG, either manually or using automated algorithms, which are readily available in clinical settings. A number of wearable devices, however, can acquire the lead-I ECG in an outpatient setting, thereby raising the potential for out-of-hospital monitoring for disorders that involve clinically significant changes in ECG intervals. In this work, we therefore developed a series of deep learning models for estimating the PR, QRS, and QT intervals using lead-I ECG. From a corpus of 4.2 million ECGs from patients at the Massachusetts General Hospital, we train and validate each of the models. At internal holdout validation, we achieve mean absolute errors (MAE) of 6.3 ms for QRS durations and 11.9 ms for QT intervals, and an MAE of 9.2 ms for estimating PR intervals. Moreover, as a well-defined P-wave does not always exist in ECG tracings - for example, when there is atrial fibrillation - we trained a model that can identify when there is a P-wave, and consequently, a measurable PR interval. We validate our models on three large external healthcare datasets without any finetuning or retraining - 3.2 million ECG from the Brigham and Womens Hospital, 668 thousand from MIMIC-IV, and 20 thousand from PTB-XL - and achieve similar performance. Also, our models significantly outperform two publicly available baseline algorithms. This work demonstrates that ECG intervals can be tracked from only lead-I ECG using deep learning, and highlights the potential for out-of-hospital applications.
翻訳日:2024-09-01 16:32:17 公開日:2024-08-12
# ニューラルネットワークとディープラーニング:基礎と理論

Artificial Neural Network and Deep Learning: Fundamentals and Theory ( http://arxiv.org/abs/2408.16002v1 )

ライセンス: Link先を確認
M. M. Hammad, (参考訳) 『人工ニューラルネットワークと深層学習:基礎と理論』は、ニューラルネットワークと深層学習における基礎原理と高度な方法論を包括的に探求するものである。 この本は、記述統計学と確率論において不可欠な概念から始まり、データと確率分布を理解するための確かな基礎を築いた。 読者が進むにつれて、これらは行列計算と勾配最適化に導入され、トレーニングと微調整ニューラルネットワークに不可欠である。 この本は多層フィードフォワードニューラルネットワークに発展し、アーキテクチャ、トレーニングプロセス、バックプロパゲーションアルゴリズムを説明する。 活性化関数飽和、消滅および爆発的勾配、重み初期化など、ニューラルネットワーク最適化における主な課題について論じる。 テキストは様々な学習率スケジュールと適応アルゴリズムをカバーし、トレーニングプロセスを最適化するための戦略を提供する。 ベイズ最適化やガウス過程を含む一般化とハイパーパラメータチューニングの手法も提示され、モデル性能の向上とオーバーフィッティングの防止が図られている。 高度な活性化関数はSigmoid-based、ReLU-based、ELU-based、雑多性、非標準、複合型に分類される。 各アクティベーション関数は、その特性と応用について調査され、読者がニューラルネットワークの振る舞いに与える影響を深く理解する。 最後の章では、複雑な数値を持つニューラルネットワークを紹介し、複雑な数、関数、視覚化、および複雑な計算とバックプロパゲーションアルゴリズムについて論じている。 この本は、先進的なニューラルネットワークモデルの設計と最適化に必要な知識とスキルを読者に提供し、人工知能の継続的な進歩に貢献している。

"Artificial Neural Network and Deep Learning: Fundamentals and Theory" offers a comprehensive exploration of the foundational principles and advanced methodologies in neural networks and deep learning. This book begins with essential concepts in descriptive statistics and probability theory, laying a solid groundwork for understanding data and probability distributions. As the reader progresses, they are introduced to matrix calculus and gradient optimization, crucial for training and fine-tuning neural networks. The book delves into multilayer feed-forward neural networks, explaining their architecture, training processes, and the backpropagation algorithm. Key challenges in neural network optimization, such as activation function saturation, vanishing and exploding gradients, and weight initialization, are thoroughly discussed. The text covers various learning rate schedules and adaptive algorithms, providing strategies to optimize the training process. Techniques for generalization and hyperparameter tuning, including Bayesian optimization and Gaussian processes, are also presented to enhance model performance and prevent overfitting. Advanced activation functions are explored in detail, categorized into sigmoid-based, ReLU-based, ELU-based, miscellaneous, non-standard, and combined types. Each activation function is examined for its properties and applications, offering readers a deep understanding of their impact on neural network behavior. The final chapter introduces complex-valued neural networks, discussing complex numbers, functions, and visualizations, as well as complex calculus and backpropagation algorithms. This book equips readers with the knowledge and skills necessary to design, and optimize advanced neural network models, contributing to the ongoing advancements in artificial intelligence.
翻訳日:2024-09-01 16:32:17 公開日:2024-08-12
# Audit-LLM:ログベースのインサイダー脅威検出のためのマルチエージェント協調

Audit-LLM: Multi-Agent Collaboration for Log-based Insider Threat Detection ( http://arxiv.org/abs/2408.08902v1 )

ライセンス: Link先を確認
Chengyu Song, Linru Ma, Jianming Zheng, Jinzhi Liao, Hongyu Kuang, Lin Yang, (参考訳) ログベースのインサイダー脅威検出(ITD)は、ログエントリの監査によって悪意のあるユーザアクティビティを検出する。 近年,ITD分野において,知識の豊富な大規模言語モデル (LLM) が出現している。 しかし、多種多様なアクティビティタイプやログファイルが多岐にわたる通常のアクティビティの中で悪意のあるものを直接識別する上で、LSMにとって重要な課題となっている。 さらに、LLMからの忠実な幻覚は、ユーザコマンドやアクティビティコンテキストと一致しない可能性があるため、ITDにおけるアプリケーションの難しさを増す。 これらの課題に対応するために、3つの協調エージェントからなるマルチエージェントログベースのインサイダー脅威検出フレームワークであるAudit-LLMを紹介した。 i) Decomposer エージェントは、複雑な ITD タスクを Chain-of-Thought (COT) 推論を用いて管理可能なサブタスクに分解する。 (ii)ツールビルダーエージェントで、LLMのコンテキスト長制限を克服するためにサブタスク用の再利用可能なツールを作成します。 三 施工道具の取消しにより最終検出結論を生ずる執行人代理人。 結論の精度を高めるために,2つの独立実行者が推論交換によって結論を反復的に洗練し,合意に達するという,ペアワイズ・エビデンスに基づくマルチエージェント・ディベート(EMAD)機構を提案する。 CERT r4.2, CERT r5.2, PicoDomain-demonstrate the superiority of our method over existing baselines and show that the proposed EMAD has significantly improve the faithfulness of explanations by LLMs。

Log-based insider threat detection (ITD) detects malicious user activities by auditing log entries. Recently, large language models (LLMs) with strong common sense knowledge have emerged in the domain of ITD. Nevertheless, diverse activity types and overlong log files pose a significant challenge for LLMs in directly discerning malicious ones within myriads of normal activities. Furthermore, the faithfulness hallucination issue from LLMs aggravates its application difficulty in ITD, as the generated conclusion may not align with user commands and activity context. In response to these challenges, we introduce Audit-LLM, a multi-agent log-based insider threat detection framework comprising three collaborative agents: (i) the Decomposer agent, breaking down the complex ITD task into manageable sub-tasks using Chain-of-Thought (COT) reasoning;(ii) the Tool Builder agent, creating reusable tools for sub-tasks to overcome context length limitations in LLMs; and (iii) the Executor agent, generating the final detection conclusion by invoking constructed tools. To enhance conclusion accuracy, we propose a pair-wise Evidence-based Multi-agent Debate (EMAD) mechanism, where two independent Executors iteratively refine their conclusions through reasoning exchange to reach a consensus. Comprehensive experiments conducted on three publicly available ITD datasets-CERT r4.2, CERT r5.2, and PicoDomain-demonstrate the superiority of our method over existing baselines and show that the proposed EMAD significantly improves the faithfulness of explanations generated by LLMs.
翻訳日:2024-08-25 14:21:10 公開日:2024-08-12
# GraphCodeBERTによるソースコードの類似性検出の改善と追加機能の統合

Improving Source Code Similarity Detection Through GraphCodeBERT and Integration of Additional Features ( http://arxiv.org/abs/2408.08903v1 )

ライセンス: Link先を確認
Jorge Martinez-Gil, (参考訳) 本稿では,モデルの性能向上を目的として,新たな出力特徴を分類プロセスに統合したソースコード類似性検出手法を提案する。 我々のアプローチはGraphCodeBERTモデルに基づいており、カスタム出力特徴層と特徴表現を改善するための結合機構で拡張されている。 モデルは訓練され、評価され、精度、リコール、F測定の点で有望な結果が得られた。 モデルアーキテクチャやトレーニング戦略を含む実装の詳細について論じる。 私たちのアプローチを説明するソースコードは、https://www.github.com/jorge-martinez-gil/graphcodebert-feature-integrationからダウンロードできます。

This paper presents a novel approach for source code similarity detection that integrates an additional output feature into the classification process with the goal of improving model performance. Our approach is based on the GraphCodeBERT model, extended with a custom output feature layer and a concatenation mechanism for improved feature representation. The model was trained and evaluated, achieving promising results in terms of precision, recall, and f-measure. The implementation details, including model architecture and training strategies are discussed. The source code that illustrates our approach can be downloaded from https://www.github.com/jorge-martinez-gil/graphcodebert-feature-integration.
翻訳日:2024-08-25 14:21:10 公開日:2024-08-12
# フェデレーション学習におけるプライバシ

Privacy in Federated Learning ( http://arxiv.org/abs/2408.08904v1 )

ライセンス: Link先を確認
Jaydip Sen, Hetvi Waghela, Sneha Rakshit, (参考訳) フェデレーテッド・ラーニング(FL)は、分散機械学習における重要な進歩であり、複数の参加者が生データを共有せずに協力的にモデルをトレーニングすることができる。 この分散化アプローチは、ローカルデバイスにデータを保持することにより、プライバシを高める。 しかしFLは、トレーニング中に共有されたモデル更新が、必然的に機密情報を漏洩する可能性があるため、新たなプライバシの課題を導入している。 この章では、データ再構成のリスク、モデル反転攻撃、メンバシップ推論など、FLの中核的なプライバシに関する懸念を掘り下げている。 これらのリスクを軽減するために設計された、差分プライバシー(DP)やセキュアマルチパーティ計算(SMPC)など、さまざまなプライバシ保護技術について検討している。 この章ではモデルの正確性とプライバシのトレードオフについても検討し、実践的な実装におけるこれらの要因のバランスの重要性を強調している。 さらに、FLのプライバシー標準を形成する上でのGDPRのような規制フレームワークの役割についても論じている。 本章は、FLにおける現在のプライバシーの現状を概観することにより、セキュアな連邦学習環境の複雑さをナビゲートするために必要な知識を研究者や実践者に提供することを目的とする。 この議論は、既存のプライバシー強化技術の可能性と限界の両方を強調し、将来の研究の方向性とより堅牢なソリューションの開発に関する洞察を提供する。

Federated Learning (FL) represents a significant advancement in distributed machine learning, enabling multiple participants to collaboratively train models without sharing raw data. This decentralized approach enhances privacy by keeping data on local devices. However, FL introduces new privacy challenges, as model updates shared during training can inadvertently leak sensitive information. This chapter delves into the core privacy concerns within FL, including the risks of data reconstruction, model inversion attacks, and membership inference. It explores various privacy-preserving techniques, such as Differential Privacy (DP) and Secure Multi-Party Computation (SMPC), which are designed to mitigate these risks. The chapter also examines the trade-offs between model accuracy and privacy, emphasizing the importance of balancing these factors in practical implementations. Furthermore, it discusses the role of regulatory frameworks, such as GDPR, in shaping the privacy standards for FL. By providing a comprehensive overview of the current state of privacy in FL, this chapter aims to equip researchers and practitioners with the knowledge necessary to navigate the complexities of secure federated learning environments. The discussion highlights both the potential and limitations of existing privacy-enhancing techniques, offering insights into future research directions and the development of more robust solutions.
翻訳日:2024-08-25 14:21:10 公開日:2024-08-12
# PATopics: 医薬品特許文書から有用な情報を抽出する自動フレームワーク

PATopics: An automatic framework to extract useful information from pharmaceutical patents documents ( http://arxiv.org/abs/2408.08905v1 )

ライセンス: Link先を確認
Pablo Cecilio, Antônio Perreira, Juliana Santos Rosa Viegas, Washington Cunha, Felipe Viegas, Elisa Tuler, Fabiana Testa Moura de Carvalho Vicentini, Leonardo Rocha, (参考訳) 薬品特許は、コピーからイノベーションを保護することで重要な役割を担っているが、研究者に革新を促し、新製品を作り、集団健康に焦点を当てた破壊的なイノベーションを促進する。 特許管理の研究は通常、徹底的な手動検索を指す。 これは、特許文書が、発明のクレームと方法論/反証の説明に関する多くの詳細で複雑であるからである。 手動検索を緩和するため,薬品特許に関する関連情報を抽出するためのフレームワークであるPATopicsを提案した。 PATopicsは4つのビルディングブロックから構成されており、特許からテキスト情報を抽出し、特許を要約できる関連トピックを構築し、これらのトピックを有用な特許特性と相関させ、その情報を最終ユーザーにフレンドリーなウェブインターフェースで要約する。 PATopicsの一般的な貢献は、特許を中央集権化し、特許を類似性に基づいてグループに管理する能力である。 478社で特許取得された809分子に関する4,832の医薬品特許を用いてフレームワークを広範囲に分析した。 分析では,研究者,化学者,企業という3つのユーザプロファイルの要求を考慮したフレームワークの利用を評価した。 また、フレームワークの適用性を評価するために、現実世界で4つのユースケースを設計しました。 PATopicsが製薬のシナリオでいかに実用的で役に立つか分析した。

Pharmaceutical patents play an important role by protecting the innovation from copies but also drive researchers to innovate, create new products, and promote disruptive innovations focusing on collective health. The study of patent management usually refers to an exhaustive manual search. This happens, because patent documents are complex with a lot of details regarding the claims and methodology/results explanation of the invention. To mitigate the manual search, we proposed PATopics, a framework specially designed to extract relevant information for Pharmaceutical patents. PATopics is composed of four building blocks that extract textual information from the patents, build relevant topics that are capable of summarizing the patents, correlate these topics with useful patent characteristics and then, summarize the information in a friendly web interface to final users. The general contributions of PATopics are its ability to centralize patents and to manage patents into groups based on their similarities. We extensively analyzed the framework using 4,832 pharmaceutical patents concerning 809 molecules patented by 478 companies. In our analysis, we evaluate the use of the framework considering the demands of three user profiles -- researchers, chemists, and companies. We also designed four real-world use cases to evaluate the framework's applicability. Our analysis showed how practical and helpful PATopics are in the pharmaceutical scenario.
翻訳日:2024-08-25 14:21:10 公開日:2024-08-12
# 物理方程式の統計的パターンとメタローの創発

Statistical Patterns in the Equations of Physics and the Emergence of a Meta-Law of Nature ( http://arxiv.org/abs/2408.11065v1 )

ライセンス: Link先を確認
Andrei Constantin, Deaglan Bartlett, Harry Desmond, Pedro G. Ferreira, (参考訳) 物理学は、基礎科学として、自然の法則を理解し、それらを数学的方程式で記述することを目的としている。 物理的な現実は、様々なレベルの複雑さを持つ幅広い現象に現れますが、それらを記述する方程式は特定の統計的規則性やパターンを示しており、ここで探求し始めています。 言語学からインスピレーションを得て、Zipfの法則は、大きなテキストのコーパス内の単語の頻度は、その周波数表のランクにほぼ逆比例すると述べているので、演算子の分布に類似したパターンが物理学の方程式に現れるかどうかを考察する。 我々は3つの公式のコーパスを解析し、洗練された暗黙的様相法を用いて、周波数表におけるそれらのランクの関数としての作用素の周波数は、Zipfの逆パワーローとは対照的に、安定指数を持つ指数法則によって最もよく説明されることを示した。 この統計パターンの背後にある根本的な理由を理解することは、自然の法則を定式化しようとする物理学者の繰り返しのパターンを明らかにするかもしれない。 また、物理現象の記号モデルを生成するために言語モデルを増強する可能性があり、記号回帰の重要な入力を提供するかもしれない。 物理学の方程式における統計正則性の研究の先駆けとして、我々の結果は、全ての物理法則が従う(確率的な)法則である自然のメタ法則の扉を開く。

Physics, as a fundamental science, aims to understand the laws of Nature and describe them in mathematical equations. While the physical reality manifests itself in a wide range of phenomena with varying levels of complexity, the equations that describe them display certain statistical regularities and patterns, which we begin to explore here. By drawing inspiration from linguistics, where Zipf's law states that the frequency of any word in a large corpus of text is roughly inversely proportional to its rank in the frequency table, we investigate whether similar patterns for the distribution of operators emerge in the equations of physics. We analyse three corpora of formulae and find, using sophisticated implicit-likelihood methods, that the frequency of operators as a function of their rank in the frequency table is best described by an exponential law with a stable exponent, in contrast with Zipf's inverse power-law. Understanding the underlying reasons behind this statistical pattern may shed light on Nature's modus operandi or reveal recurrent patterns in physicists' attempts to formalise the laws of Nature. It may also provide crucial input for symbolic regression, potentially augmenting language models to generate symbolic models for physical phenomena. By pioneering the study of statistical regularities in the equations of physics, our results open the door for a meta-law of Nature, a (probabilistic) law that all physical laws obey.
翻訳日:2024-08-25 14:11:11 公開日:2024-08-12
# メタファー理解のための密度行列

Density Matrices for Metaphor Understanding ( http://arxiv.org/abs/2408.11846v1 )

ライセンス: Link先を確認
Jay Owers, Ekaterina Shutova, Martha Lewis, (参考訳) 物理学では密度行列は混合状態、すなわち純状態の確率的混合を表すために用いられる。 この概念は、以前は語彙の曖昧さをモデル化するために用いられてきた。 本稿では,メタファを語彙的曖昧さの一種とみなし,単語感覚の混合を用いてメタファ的意味を効果的にモデル化できるかどうかを検討する。 モデリングのメタファーは他の語彙的曖昧さよりもはるかに難しいが、我々の最も優れた密度行列法は、単純なベースラインやいくつかのニューラルネットワークモデルよりも優れている。

In physics, density matrices are used to represent mixed states, i.e. probabilistic mixtures of pure states. This concept has previously been used to model lexical ambiguity. In this paper, we consider metaphor as a type of lexical ambiguity, and examine whether metaphorical meaning can be effectively modelled using mixtures of word senses. We find that modelling metaphor is significantly more difficult than other kinds of lexical ambiguity, but that our best-performing density matrix method outperforms simple baselines as well as some neural language models.
翻訳日:2024-08-25 13:51:32 公開日:2024-08-12
# Prompto: LLMエンドポイントの非同期クエリのためのオープンソースライブラリ

Prompto: An open source library for asynchronous querying of LLM endpoints ( http://arxiv.org/abs/2408.11847v1 )

ライセンス: Link先を確認
Ryan Sze-Yin Chan, Federico Nanni, Edwin Brown, Ed Chapman, Angus R. Williams, Jonathan Bright, Evelina Gabasova, (参考訳) 近年のLarge Language Model (LLM) の出現は、研究のエキサイティングな道を開いた。 しかしながら、これらのモデルと効率的に対話することは、LLMがプロプライエタリまたはセルフホストのAPIエンドポイントに常駐することが多いため、大きなハードルとなる。 したがって、異なるモデル間で比較研究を行うことは、研究効率と再現性を阻害し、かなりのエンジニアリング努力を必要とする。 これらの課題に対処するため、我々はオープンソースのPythonライブラリであるProductoを紹介した。このライブラリはLLMエンドポイントの非同期クエリを容易にすることで、研究者が効率を最大化し、個々のレート制限を有効活用しながら、複数のLLMを同時に操作することを可能にする。 我々のライブラリーは、研究者や開発者がより効果的にLLMと対話できるようにし、より高速な実験と評価を可能にします。 promptoはMITライセンス下で入門ビデオ(https://youtu.be/-eZAmlV4ypk)とともにリリースされ、GitHubから入手できる(https://github.com/alan-turing-institute/prompto)。

Recent surge in Large Language Model (LLM) availability has opened exciting avenues for research. However, efficiently interacting with these models presents a significant hurdle since LLMs often reside on proprietary or self-hosted API endpoints, each requiring custom code for interaction. Conducting comparative studies between different models can therefore be time-consuming and necessitate significant engineering effort, hindering research efficiency and reproducibility. To address these challenges, we present prompto, an open source Python library which facilitates asynchronous querying of LLM endpoints enabling researchers to interact with multiple LLMs concurrently, while maximising efficiency and utilising individual rate limits. Our library empowers researchers and developers to interact with LLMs more effectively and enabling faster experimentation and evaluation. prompto is released with an introductory video (https://youtu.be/-eZAmlV4ypk) under MIT License and is available via GitHub (https://github.com/alan-turing-institute/prompto).
翻訳日:2024-08-25 13:51:32 公開日:2024-08-12
# 不規則にサンプリングされた時系列のための事前学習言語モデルのパワーを解き放つ

Unleash The Power of Pre-Trained Language Models for Irregularly Sampled Time Series ( http://arxiv.org/abs/2408.08328v1 )

ライセンス: Link先を確認
Weijia Zhang, Chenlong Yin, Hao Liu, Hui Xiong, (参考訳) ChatGPTのような事前学習型言語モデル(PLM)は、自然言語処理の分野を著しく進歩させてきた。 この進歩は、時系列解析へのPLMの適応を探求する一連の革新的な研究にインスピレーションを与え、様々な時系列解析タスクに対処する統一された基礎モデルを作成することを目的としている。 しかしながら、これらの取り組みは、不規則サンプリング時系列(ISTS)がもたらす固有の課題を無視し、通常サンプリング時系列(RSTS)に重点を置いている。 このギャップを埋めるために、ISTS分析のためのPLMの可能性を探る。 本研究は, 実験対象地域におけるPLMの有効性を最大化することを目的として, ISTS を表現するための様々な手法の効果について検討することから始める。 さらに、統合されたPLMベースのフレームワークであるISTS-PLMを提案する。このフレームワークは、タイムアウェアと可変アウェアのPLMを統合し、総合的なイントラタイムおよびイントラタイム・シリーズ・モデリングに適した、学習可能な入力埋め込み層とタスク固有の出力層を備えており、多様なISTS分析タスクに対処する。 包括的なベンチマークにおいて、ISTS-PLMは、シンプルだが効果的なシリーズベース表現を利用して、分類、補間、補間、補間といった様々な分析タスク、および医療やバイオメカニクスのような科学領域にまたがる少数ショットとゼロショットの学習シナリオなど、最先端のパフォーマンスを一貫して達成している。

Pre-trained Language Models (PLMs), such as ChatGPT, have significantly advanced the field of natural language processing. This progress has inspired a series of innovative studies that explore the adaptation of PLMs to time series analysis, intending to create a unified foundation model that addresses various time series analytical tasks. However, these efforts predominantly focus on Regularly Sampled Time Series (RSTS), neglecting the unique challenges posed by Irregularly Sampled Time Series (ISTS), which are characterized by non-uniform sampling intervals and prevalent missing data. To bridge this gap, this work explores the potential of PLMs for ISTS analysis. We begin by investigating the effect of various methods for representing ISTS, aiming to maximize the efficacy of PLMs in this under-explored area. Furthermore, we present a unified PLM-based framework, ISTS-PLM, which integrates time-aware and variable-aware PLMs tailored for comprehensive intra and inter-time series modeling and includes a learnable input embedding layer and a task-specific output layer to tackle diverse ISTS analytical tasks. Extensive experiments on a comprehensive benchmark demonstrate that the ISTS-PLM, utilizing a simple yet effective series-based representation for ISTS, consistently achieves state-of-the-art performance across various analytical tasks, such as classification, interpolation, and extrapolation, as well as few-shot and zero-shot learning scenarios, spanning scientific domains like healthcare and biomechanics.
翻訳日:2024-08-19 17:39:31 公開日:2024-08-12
# カップラーによる光共振ナノ粒子間の可変双極子-双極子カップリング

Coupler enabled tunable dipole-dipole coupling between optically levitated nanoparticles ( http://arxiv.org/abs/2408.06256v1 )

ライセンス: Link先を確認
Mian Wu, Nan Li, Han Cai, Huizhu Hu, (参考訳) 真空中の複数の光学共振粒子は静電相互作用、光結合、あるいは非相互光誘起双極子-双極子相互作用を示し、メソスコピックな絡み合いや複雑な相互作用を探索する上で有望な基盤となる。 しかし、光トラップアレイでは、各トラップの位置と偏光を個別に制御することは困難であり、隣接する粒子間の相互作用の正確な調整が制限される。 この制約は複雑な相互作用系の研究を妨げる。 本研究では,2つの非相互作用ナノ粒子に対して,第3のナノ粒子をカップラとして導入し,第3のナノ粒子を介する可変双極子-双極子カップリングを実現する。 粒子の位相と位置が相互作用強度に及ぼす影響について検討し,その広いチューニング性を示した。 本手法により, 多粒子系における近接粒子間の相互作用の精密制御が可能となり, 絡み合い研究やセンシングにおけるナノ粒子アレイのさらなる利用が容易となった。

Multiple optically levitated particles in vacuum can exhibit electrostatic interactions, optical binding, or non-reciprocal light-induced dipole-dipole interactions, making them promising platforms for exploring mesoscopic entanglement and complex interactions. However, in optical trap arrays, individually controlling the position and polarization of each trap is challenging, limiting the precise tuning of interactions between adjacent particles. This constraint hinders the study of complex interaction systems. In this work, we introduce a third nanoparticle as a coupler to two initially non-interacting nanoparticles, achieving tunable dipole-dipole coupling mediated by the third one. We investigated the effect of the particles' phases and positions on the interaction strength and demonstrated its broad tunability. Our method allows for precise control of interactions between any pair of adjacent particles in multi-particle systems, facilitating the further use of levitated nanoparticle arrays in entanglement research and sensing.
翻訳日:2024-08-16 15:59:30 公開日:2024-08-12
# 拡張事故トライアングルを用いた不均衡安全データの克服

Overcoming Imbalanced Safety Data Using Extended Accident Triangle ( http://arxiv.org/abs/2408.07094v1 )

ライセンス: Link先を確認
Kailai Sun, Tianxiang Lan, Yang Miang Goh, Yueng-Hsiang Huang, (参考訳) 安全分析と機械学習を使って職場事故の防止、特に建設やトラックなどのリスクの高い産業への関心が高まっている。 既存の安全分析研究は目覚ましい進歩を遂げているが、安全分析の一般的な問題である不均衡なデータセットに悩まされ、予測の不正確な結果となった。 これは、例えば、誤ったリソース割り当てや不適切な介入といった管理上の問題を引き起こす可能性がある。 不均衡なデータ問題を克服するため,事故の重大度,事故頻度,事故タイプといった特徴に基づいて,データサンプルの重要性を主張するために,事故三角形の理論を拡張した。 そこで, マイノリティクラスにおけるサンプルに異なる重みを割り当てることで, 3つのオーバーサンプリング手法を提案する。 さまざまな機械学習アルゴリズムの間で、堅牢な改善が見られます。 オープンソースの安全データセットがないため、私たちは3つの不均衡なデータセット、例えば、全国9年間の建設事故記録データセット、およびそれらのコードを共有しています。

There is growing interest in using safety analytics and machine learning to support the prevention of workplace incidents, especially in high-risk industries like construction and trucking. Although existing safety analytics studies have made remarkable progress, they suffer from imbalanced datasets, a common problem in safety analytics, resulting in prediction inaccuracies. This can lead to management problems, e.g., incorrect resource allocation and improper interventions. To overcome the imbalanced data problem, we extend the theory of accident triangle to claim that the importance of data samples should be based on characteristics such as injury severity, accident frequency, and accident type. Thus, three oversampling methods are proposed based on assigning different weights to samples in the minority class. We find robust improvements among different machine learning algorithms. For the lack of open-source safety datasets, we are sharing three imbalanced datasets, e.g., a 9-year nationwide construction accident record dataset, and their corresponding codes.
翻訳日:2024-08-15 15:07:25 公開日:2024-08-12
# マニフォールド分散データセットにおけるFew-Shot, Transfer, Reinforcement Learningを実現する統一的マニフォールド類似度測定

A Unified Manifold Similarity Measure Enhancing Few-Shot, Transfer, and Reinforcement Learning in Manifold-Distributed Datasets ( http://arxiv.org/abs/2408.07095v1 )

ライセンス: Link先を確認
Sayed W Qayyumi, Laureance F Park, Oliver Obst, (参考訳) 多様体分散データセットから平均精度の高い分類器を訓練することは困難である。 この問題は、トレーニングに利用可能なラベルがほとんどない場合にさらに複雑になる。 トランスファーラーニングが機能するためには、ソースとターゲットのデータセットの両方が同様の多様体構造を持つ必要がある。 本研究の一環として, 2つの多様体構造間の類似性を決定する新しい手法を提案する。 この手法は、ターゲットとソースのデータセットが、伝達学習に適した類似した多様体構造を持つかどうかを判断するために用いられる。 そこで我々は,移動学習を用いて,限定ラベル付き多様体分散データセットを分類する数ショット学習法を提案する。 ベースとターゲットのデータセットに基づいて、類似性比較を行い、2つのデータセットが転送学習に適しているかどうかを判断する。 ベースおよびターゲットデータセットから多様体構造とラベル分布を学習する。 構造が類似している場合には、リッチラベル付きソースデータセットからの多様体構造とその関連ラベル情報をターゲットデータセットに転送する。 転送された情報と、対象データセットからのラベルとラベルなしデータを用いて、多様体分布データセットの平均分類精度の高い数ショット分類器を開発する。 本稿の最終部では,強化学習と画像認識への多様体構造類似度尺度の適用について論じる。

Training a classifier with high mean accuracy from a manifold-distributed dataset can be challenging. This problem is compounded further when there are only few labels available for training. For transfer learning to work, both the source and target datasets must have a similar manifold structure. As part of this study, we present a novel method for determining the similarity between two manifold structures. This method can be used to determine whether the target and source datasets have a similar manifold structure suitable for transfer learning. We then present a few-shot learning method to classify manifold-distributed datasets with limited labels using transfer learning. Based on the base and target datasets, a similarity comparison is made to determine if the two datasets are suitable for transfer learning. A manifold structure and label distribution are learned from the base and target datasets. When the structures are similar, the manifold structure and its relevant label information from the richly labeled source dataset is transferred to target dataset. We use the transferred information, together with the labels and unlabeled data from the target dataset, to develop a few-shot classifier that produces high mean classification accuracy on manifold-distributed datasets. In the final part of this article, we discuss the application of our manifold structure similarity measure to reinforcement learning and image recognition.
翻訳日:2024-08-15 15:07:25 公開日:2024-08-12
# 注意: プロセス予測のためにトランスフォーマーモデルが本当に学んだこと

Attention Please: What Transformer Models Really Learn for Process Prediction ( http://arxiv.org/abs/2408.07097v1 )

ライセンス: Link先を確認
Martin Käppel, Lars Ackermann, Stefan Jablonski, Simon Härtl, (参考訳) 予測プロセス監視は、プロセスインスタンスのさらなる進化について様々な予測を行い、実行中のプロセスの実行をサポートすることを目的としている。 近年では、トランスフォーマーアーキテクチャなど、さまざまな予測対象のための最先端のディープラーニングアーキテクチャが確立されている。 トランスアーキテクチャは強力なアテンション機構を備えており、各入力部にアテンションスコアを割り当て、より正確で文脈的な出力につながる最も関連性の高い情報を優先順位付けすることができる。 しかし、ディープラーニングモデルは、主にブラックボックス、すなわち、それらの推論や意思決定プロセスが詳細に理解できないことを代表している。 本稿では, 変圧器をベースとした次活動予測モデルの注意点が, 意思決定の根拠となるかどうかを考察する。 我々は,次の活動予測モデルにおける注意点が説明役として機能し,この事実を2つのグラフに基づく説明手法で活用できることを見出した。 得られた洞察は、予測ビジネスプロセスモデルの改善と、イベントログからプロセスモデルのニューラルネットワークによるマイニングを可能にする、将来の作業に刺激を与える可能性がある。

Predictive process monitoring aims to support the execution of a process during runtime with various predictions about the further evolution of a process instance. In the last years a plethora of deep learning architectures have been established as state-of-the-art for different prediction targets, among others the transformer architecture. The transformer architecture is equipped with a powerful attention mechanism, assigning attention scores to each input part that allows to prioritize most relevant information leading to more accurate and contextual output. However, deep learning models largely represent a black box, i.e., their reasoning or decision-making process cannot be understood in detail. This paper examines whether the attention scores of a transformer based next-activity prediction model can serve as an explanation for its decision-making. We find that attention scores in next-activity prediction models can serve as explainers and exploit this fact in two proposed graph-based explanation approaches. The gained insights could inspire future work on the improvement of predictive business process models as well as enabling a neural network based mining of process models from event logs.
翻訳日:2024-08-15 15:07:25 公開日:2024-08-12
# QTypeMix:不均一および均一な値分解による多エージェント協調戦略の強化

QTypeMix: Enhancing Multi-Agent Cooperative Strategies through Heterogeneous and Homogeneous Value Decomposition ( http://arxiv.org/abs/2408.07098v1 )

ライセンス: Link先を確認
Songchen Fu, Shaojing Zhao, Ta Li, YongHong Yan, (参考訳) 多エージェント協調作業においては、異種エージェントの存在がよく知られている。 同質なエージェント間の協調に比べて、各エージェントに最適なサブタスクを検討する必要がある。 しかし、マルチエージェントシステムの動作は、しばしば大量の複雑な相互作用情報を必要とするため、異種戦略の学習がより困難になる。 関連したマルチエージェント強化学習手法では、グループ化機構を用いてより小さな協調グループを形成したり、ドメイン知識の事前活用によって異なる役割の戦略を学ぶことがある。 対照的に、エージェントは追加情報に頼ることなく、より深い役割機能を学ぶべきです。 そこで我々はQTypeMixを提案する。これは値分解過程を均質および不均一な段階に分割する。 QTypeMixは、TE損失を通じて、地元の歴史的観測からタイプの特徴を抽出することを学ぶ。 さらに、注意機構とハイパーネットを含む高度なネットワーク構造を導入し、表現能力を高め、値分解プロセスを実現する。 提案手法をSMACとSMACv2の14の地図上で検証した結果,QTypeMixは様々な課題において,最先端の性能を達成できることがわかった。

In multi-agent cooperative tasks, the presence of heterogeneous agents is familiar. Compared to cooperation among homogeneous agents, collaboration requires considering the best-suited sub-tasks for each agent. However, the operation of multi-agent systems often involves a large amount of complex interaction information, making it more challenging to learn heterogeneous strategies. Related multi-agent reinforcement learning methods sometimes use grouping mechanisms to form smaller cooperative groups or leverage prior domain knowledge to learn strategies for different roles. In contrast, agents should learn deeper role features without relying on additional information. Therefore, we propose QTypeMix, which divides the value decomposition process into homogeneous and heterogeneous stages. QTypeMix learns to extract type features from local historical observations through the TE loss. In addition, we introduce advanced network structures containing attention mechanisms and hypernets to enhance the representation capability and achieve the value decomposition process. The results of testing the proposed method on 14 maps from SMAC and SMACv2 show that QTypeMix achieves state-of-the-art performance in tasks of varying difficulty.
翻訳日:2024-08-15 15:07:25 公開日:2024-08-12
# グラフサンプリングとアグリゲーションネットワークを用いた軸受異常診断

Bearing Fault Diagnosis using Graph Sampling and Aggregation Network ( http://arxiv.org/abs/2408.07099v1 )

ライセンス: Link先を確認
Jiaying Chen, Xusheng Du, Yurong Qian, Gwanggil Jeon, (参考訳) ベアリング断層診断技術は、工業生産、エネルギー、その他の分野に幅広い実用的応用がある。 軸受欠陥のタイムリーかつ正確な検出は、破滅的な事故の防止と製品品質の確保に重要な役割を果たしている。 従来の信号解析技術と深層学習に基づく故障検出アルゴリズムは、信号間の複雑な相関を考慮に入れておらず、検出精度をさらに向上することは困難である。 この問題を解決するため,グラフサンプリング・アグリゲーション(GraphSAGE)ネットワークを導入し,GSABFD(Graph Smpling and Aggregation)アルゴリズムを提案する。 まず、元の振動信号を固定サイズの非重なり窓を通してスライスし、信号解析法を用いてスライスデータを特徴変換し、変換された振動信号に対して相関を構築し、さらにグラフ内の頂点に変換し、トレーニングにGraphSAGEネットワークを使用し、最終的に、対象物の故障レベルをネットワークの出力層で算出する。 提案アルゴリズムは実世界の公開データセットにおける5つの高度なアルゴリズムと比較し、GSABFDアルゴリズムは次の最良のアルゴリズムと比較してAUC値を5%改善することを示した。

Bearing fault diagnosis technology has a wide range of practical applications in industrial production, energy and other fields. Timely and accurate detection of bearing faults plays an important role in preventing catastrophic accidents and ensuring product quality. Traditional signal analysis techniques and deep learning-based fault detection algorithms do not take into account the intricate correlation between signals, making it difficult to further improve detection accuracy. To address this problem, we introduced Graph Sampling and Aggregation (GraphSAGE) network and proposed GraphSAGE-based Bearing fault Diagnosis (GSABFD) algorithm. The original vibration signal is firstly sliced through a fixed size non-overlapping sliding window, and the sliced data is feature transformed using signal analysis methods; then correlations are constructed for the transformed vibration signal and further transformed into vertices in the graph; then the GraphSAGE network is used for training; finally the fault level of the object is calculated in the output layer of the network. The proposed algorithm is compared with five advanced algorithms in a real-world public dataset for experiments, and the results show that the GSABFD algorithm improves the AUC value by 5% compared with the next best algorithm.
翻訳日:2024-08-15 15:07:25 公開日:2024-08-12
# デュアルモード交通予測のためのパターンマッチング動的メモリネットワーク

Pattern-Matching Dynamic Memory Network for Dual-Mode Traffic Prediction ( http://arxiv.org/abs/2408.07100v1 )

ライセンス: Link先を確認
Wenchao Weng, Mei Wu, Hanyu Jiang, Wanzeng Kong, Xiangjie Kong, Feng Xia, (参考訳) 近年,交通予測分野において深層学習が注目されている。 既存の交通予測モデルは、効率が悪く軽量でない交通ノードの特徴を動的に抽出するために、O(N^2)の複雑さを持つGCNや注意機構に依存していることが多い。 さらに、これらのモデルは通常、予測にターゲット情報の影響を考慮せずに、履歴データのみを使用して予測を行う。 これらの課題に対処するために,パターンマッチング動的メモリネットワーク(PM-DMNet)を提案する。 PM-DMNetは、O(N)の複雑さだけでトラフィックパターンの特徴を捉えるために、新しい動的メモリネットワークを採用している。 PM-DMNetはまた、予測対象の時間的特徴を活用して予測プロセスを支援する再帰的多段階予測(RMP)と並列多段階予測(PMP)の2つの予測手法も導入している。 さらに、転送注意機構をPMPに統合し、履歴データの特徴を変換して予測対象状態との整合性を向上し、傾向変化をより正確に把握し、エラーを低減する。 大規模な実験は、既存のベンチマークよりも提案されたモデルの方が優れていることを示す。 ソースコードは、https://github.com/wengwenchao123/PM-DMNetで入手できる。

In recent years, deep learning has increasingly gained attention in the field of traffic prediction. Existing traffic prediction models often rely on GCNs or attention mechanisms with O(N^2) complexity to dynamically extract traffic node features, which lack efficiency and are not lightweight. Additionally, these models typically only utilize historical data for prediction, without considering the impact of the target information on the prediction. To address these issues, we propose a Pattern-Matching Dynamic Memory Network (PM-DMNet). PM-DMNet employs a novel dynamic memory network to capture traffic pattern features with only O(N) complexity, significantly reducing computational overhead while achieving excellent performance. The PM-DMNet also introduces two prediction methods: Recursive Multi-step Prediction (RMP) and Parallel Multi-step Prediction (PMP), which leverage the time features of the prediction targets to assist in the forecasting process. Furthermore, a transfer attention mechanism is integrated into PMP, transforming historical data features to better align with the predicted target states, thereby capturing trend changes more accurately and reducing errors. Extensive experiments demonstrate the superiority of the proposed model over existing benchmarks. The source codes are available at: https://github.com/wengwenchao123/PM-DMNet.
翻訳日:2024-08-15 15:07:25 公開日:2024-08-12
# 音声対トランスクリプト:音声要約における人間のアノテーションは重要か?

Speech vs. Transcript: Does It Matter for Human Annotators in Speech Summarization? ( http://arxiv.org/abs/2408.07277v1 )

ライセンス: Link先を確認
Roshan Sharma, Suwon Shon, Mark Lindsey, Hira Dhamyal, Rita Singh, Bhiksha Raj, (参考訳) 抽象的な音声要約のための参照要約は、音声録音を聴いたり、録音のテキストの書き起こしを読むことで行うことができる人間のアノテーションを必要とする。 本稿では,アノテータを聴くアノテータに基づく要約と,アノテータが書き起こしを読もうとする要約の相違について検討する。 人的評価,自動計測,LCMに基づく評価,検索に基づく参照フリー手法に基づく既存の内在的評価を用いた。 音声に基づく要約は、転写文に基づく要約よりも、現実的に一貫性があり、情報選択的であることが判明した。 一方、テキストベースの要約はソースの認識エラーの影響を受け、専門家による要約はより情報的で信頼性が高い。 収集したすべてのデータおよび分析コードを公開(https://github.com/cmu-mlsp/interview_humanssum)して、作業の再現を容易にし、この分野の研究を進める。

Reference summaries for abstractive speech summarization require human annotation, which can be performed by listening to an audio recording or by reading textual transcripts of the recording. In this paper, we examine whether summaries based on annotators listening to the recordings differ from those based on annotators reading transcripts. Using existing intrinsic evaluation based on human evaluation, automatic metrics, LLM-based evaluation, and a retrieval-based reference-free method. We find that summaries are indeed different based on the source modality, and that speech-based summaries are more factually consistent and information-selective than transcript-based summaries. Meanwhile, transcript-based summaries are impacted by recognition errors in the source, and expert-written summaries are more informative and reliable. We make all the collected data and analysis code public(https://github.com/cmu-mlsp/interview_humanssum) to facilitate the reproduction of our work and advance research in this area.
翻訳日:2024-08-15 14:25:39 公開日:2024-08-12
# 非凸因子化と多様体の定式化は低ランク行列最適化においてほぼ等価である

Nonconvex Factorization and Manifold Formulations are Almost Equivalent in Low-rank Matrix Optimization ( http://arxiv.org/abs/2108.01772v3 )

ライセンス: Link先を確認
Yuetian Luo, Xudong Li, Anru R. Zhang, (参考訳) 本稿では、広く研究されている多様体の幾何学的地形接続と、低ランク正半定値(PSD)および一般行列最適化における分解公式について考察する。 リーマンおよびユークリッド・ヘッセンのスペクトルのサンドイッチ関係を1次定常点(FOSP)で確立する。 その結果、 FOSPs, 2次定常点 (SOSPs) の集合と、多様体と分解の定式化の間の厳密なサドルとの等価性が得られる。 さらに,サンドイッチの関係は,ある定式化から別の定式化へ,より定量的な幾何学的性質を伝達するために利用できることを示す。 PSDの場合と一般の場合のランドスケープ接続の類似点と相違点について論じる。 我々の知る限り、これは階数制約を扱うための多様体と階数式の間の最初の幾何学的ランドスケープ接続であり、文献で観察された低階行列最適化における分解の同様の経験的性能と多様体アプローチに関する幾何学的説明を提供する。 一般的な低ランク行列最適化では、2つの分解式(非正規化および正規化)のランドスケープ接続も提供される。 これらの幾何学的ランドスケープ接続、特にサンドイッチ関係を適用して、位相探索の幾何学的解析、良条件の低ランク行列最適化、機械学習と信号処理による分解における正規化の役割において、文学における未解決の問題を解き、より強力な結果を確立することができる。

In this paper, we consider the geometric landscape connection of the widely studied manifold and factorization formulations in low-rank positive semidefinite (PSD) and general matrix optimization. We establish a sandwich relation on the spectrum of Riemannian and Euclidean Hessians at first-order stationary points (FOSPs). As a result of that, we obtain an equivalence on the set of FOSPs, second-order stationary points (SOSPs) and strict saddles between the manifold and the factorization formulations. In addition, we show the sandwich relation can be used to transfer more quantitative geometric properties from one formulation to another. Similarities and differences in the landscape connection under the PSD case and the general case are discussed. To the best of our knowledge, this is the first geometric landscape connection between the manifold and the factorization formulations for handling rank constraints, and it provides a geometric explanation for the similar empirical performance of factorization and manifold approaches in low-rank matrix optimization observed in the literature. In the general low-rank matrix optimization, the landscape connection of two factorization formulations (unregularized and regularized ones) is also provided. By applying these geometric landscape connections, in particular, the sandwich relation, we are able to solve unanswered questions in literature and establish stronger results in the applications on geometric analysis of phase retrieval, well-conditioned low-rank matrix optimization, and the role of regularization in factorization arising from machine learning and signal processing.
翻訳日:2024-08-14 23:45:34 公開日:2024-08-12
# NELLIE: グラウンドド、コンポジション、説明可能な推論のためのニューロシンボリック推論エンジン

NELLIE: A Neuro-Symbolic Inference Engine for Grounded, Compositional, and Explainable Reasoning ( http://arxiv.org/abs/2209.07662v5 )

ライセンス: Link先を確認
Nathaniel Weir, Peter Clark, Benjamin Van Durme, (参考訳) 我々のゴールは、NLコーパスの権威的事実に根ざした人間の解釈可能な証明木によって、答えが支持されるような体系的な推論を通じて、質問に答えるための近代的なアプローチである。 このようなシステムは、現代のLMとの解釈可能性や幻覚の課題を緩和し、現在の説明方法(例えばChain-of-Thought)の基盤を欠くのに役立つだろう。 本稿では,手作りルールをニューラルネットワークモデリング,誘導生成,半パラメトリック高密度検索の組み合わせで置き換えるPrologベースの推論エンジンを提案する。 我々の実装であるNELLIEは、テキストから既知の事実を解説する以前の研究を超えて、包括木証明探索として、完全に解釈可能でエンドツーエンドの接地されたQAを示す最初のシステムである。 実験では、NELLIEは知識に基づく説明をしながら、同様の大きさの最先端の推論器(Tafjord et al , 2022)より優れています。 また、NELLIEは半構造化テキストコーパスとNLテキストコーパスの両方を利用して推論を導くことができる。 これらが合わさって、現代のニューラルメソッドと伝統的なシンボリック推論の両方の利点を共同で享受する方法が提案されている。

Our goal is a modern approach to answering questions via systematic reasoning where answers are supported by human interpretable proof trees grounded in an NL corpus of authoritative facts. Such a system would help alleviate the challenges of interpretability and hallucination with modern LMs, and the lack of grounding of current explanation methods (e.g., Chain-of-Thought). This paper proposes a new take on Prolog-based inference engines, where we replace handcrafted rules with a combination of neural language modeling, guided generation, and semiparametric dense retrieval. Our implementation, NELLIE, is the first system to demonstrate fully interpretable, end-to-end grounded QA as entailment tree proof search, going beyond earlier work explaining known-to-be-true facts from text. In experiments, NELLIE outperforms a similar-sized state-of-the-art reasoner [Tafjord et al., 2022] while producing knowledge-grounded explanations. We also find NELLIE can exploit both semi-structured and NL text corpora to guide reasoning. Together these suggest a new way to jointly reap the benefits of both modern neural methods and traditional symbolic reasoning.
翻訳日:2024-08-14 23:38:51 公開日:2024-08-12
# flexBART:カテゴリー予測子を持つ柔軟なベイズ回帰木

flexBART: Flexible Bayesian regression trees with categorical predictors ( http://arxiv.org/abs/2211.04459v3 )

ライセンス: Link先を確認
Sameer K. Deshpande, (参考訳) ベイズ加法回帰木 (BART) のほとんどの実装は、分類的予測を符号化し、それぞれを複数のバイナリインジケータに置き換えている。 これらの指標で構築された回帰木は、1度に1つのレベルを繰り返すことで、個別のカテゴリレベルのセットを分割する。 残念なことに、ほとんどのパーティションは、この戦略で構築できないため、BARTのレベルでデータを部分的にプールする能力は極めて制限されている。 野球データと近隣レベルの犯罪動態の分析により、決定木ノードの両枝に複数のレベルを割り当てる回帰木でBARTを再実装することで、この制限を克服する。 そこで我々は,小領域に集約された空間データをモデル化するために,適宜定義されたネットワークのランダムスパンニングツリーからランダムエッジを削除し,空間的に連続した領域を生成する新しい決定ルールを提案する。 flexBARTパッケージで利用可能な再実装は、しばしばサンプル外の予測性能を改善し、既存のBART実装よりも大きなデータセットにスケールする。

Most implementations of Bayesian additive regression trees (BART) one-hot encode categorical predictors, replacing each one with several binary indicators, one for every level or category. Regression trees built with these indicators partition the discrete set of categorical levels by repeatedly removing one level at a time. Unfortunately, the vast majority of partitions cannot be built with this strategy, severely limiting BART's ability to partially pool data across groups of levels. Motivated by analyses of baseball data and neighborhood-level crime dynamics, we overcame this limitation by re-implementing BART with regression trees that can assign multiple levels to both branches of a decision tree node. To model spatial data aggregated into small regions, we further proposed a new decision rule prior that creates spatially contiguous regions by deleting a random edge from a random spanning tree of a suitably defined network. Our re-implementation, which is available in the flexBART package, often yields improved out-of-sample predictive performance and scales better to larger datasets than existing implementations of BART.
翻訳日:2024-08-14 23:38:51 公開日:2024-08-12
# EvoluNet: グラフ上での動的非IID変換学習の改善

EvoluNet: Advancing Dynamic Non-IID Transfer Learning on Graphs ( http://arxiv.org/abs/2305.00664v6 )

ライセンス: Link先を確認
Haohui Wang, Yuzhen Mao, Yujun Yan, Yaoqing Yang, Jianhui Sun, Kevin Choi, Balaji Veeramani, Alison Hu, Edward Bowen, Tyler Cody, Dawei Zhou, (参考訳) グラフ上の非IID移動学習は多くの高吸収領域において重要である。 既存の作業の大部分は、ソースドメインとターゲットドメインの両方に対して定常的な配布を前提としている。 しかし、現実世界のグラフは本質的に動的であり、ドメインの進化と、ソースとターゲットのドメイン間の動的相違の観点からの課題を提示する。 ラベルリッチなソースグラフとラベルスカースターゲットグラフがどちらも以前のTタイムスタンプで観測されていることを考慮すれば、進化しているドメインの不一致を効果的に特徴づけて、T+1タイムスタンプでターゲットドメインの一般化性能を最適化するにはどうすればよいのか? そこで本研究では,グラフ上での動的非IID移動学習に限定した一般化法を提案する。 理論的結果に触発されて,EvoluNetという新しい汎用フレームワークを導入する。 トランスフォーマーベースのテンポラリエンコーディングモジュールを使用して、進化しているドメインの時間情報をモデル化し、動的ドメイン統一モジュールを使用して、ソースとターゲットドメインをまたいだドメイン不変表現を効率的に学習する。 最後に、EvoluNetは最先端のモデルを最大12.1%向上させ、動的ソースグラフから動的ターゲットグラフへの知識転送の有効性を示した。

Non-IID transfer learning on graphs is crucial in many high-stakes domains. The majority of existing works assume stationary distribution for both source and target domains. However, real-world graphs are intrinsically dynamic, presenting challenges in terms of domain evolution and dynamic discrepancy between source and target domains. To bridge the gap, we shift the problem to the dynamic setting and pose the question: given the label-rich source graphs and the label-scarce target graphs both observed in previous T timestamps, how can we effectively characterize the evolving domain discrepancy and optimize the generalization performance of the target domain at the incoming T+1 timestamp? To answer it, we propose a generalization bound for dynamic non-IID transfer learning on graphs, which implies the generalization performance is dominated by domain evolution and domain discrepancy between source and target graphs. Inspired by the theoretical results, we introduce a novel generic framework named EvoluNet. It leverages a transformer-based temporal encoding module to model temporal information of the evolving domains and then uses a dynamic domain unification module to efficiently learn domain-invariant representations across the source and target domains. Finally, EvoluNet outperforms the state-of-the-art models by up to 12.1%, demonstrating its effectiveness in transferring knowledge from dynamic source graphs to dynamic target graphs.
翻訳日:2024-08-14 23:38:51 公開日:2024-08-12
# 帯域フィードバックを用いた変形予測:再パラメータ化による学習

Performative Prediction with Bandit Feedback: Learning through Reparameterization ( http://arxiv.org/abs/2305.01094v4 )

ライセンス: Link先を確認
Yatong Chen, Wei Tang, Chien-Ju Ho, Yang Liu, (参考訳) Perdomoらによって導入されたPerformative Predictionは、データ分布自体がモデルの展開に応じて変化する社会予測を研究するためのフレームワークである。 この分野での既存の作業は、通常、実行リスクがデプロイされたモデル上で凸である、モデルからデータ分散へのマッピングが事前にモデルデザイナに知られ、実行リスクの第一次情報が利用可能である、という3つの前提に反する。 本稿では,これらの仮定を必要としない性能予測問題の研究を開始する。 具体的には、誘導されたデータ分布の関数として、実行予測対象を再パラメータ化する再パラメータ化フレームワークを開発する。 次に、2段階ゼロ階最適化手法を開発し、第1段階が分布パラメータ空間上で反復最適化を行い、第2段階が各イテレーションで特定のターゲット分布を誘導するモデルを学習する。 穏やかな条件下では、この再パラメータ化により、非凸目標を凸目標に変換し、証明可能な後悔の保証を達成することができる。 特に、得られた実演サンプルの総数において線型であり、モデルパラメータの次元における多項式である後悔境界を提供する。

Performative prediction, as introduced by Perdomo et al, is a framework for studying social prediction in which the data distribution itself changes in response to the deployment of a model. Existing work in this field usually hinges on three assumptions that are easily violated in practice: that the performative risk is convex over the deployed model, that the mapping from the model to the data distribution is known to the model designer in advance, and the first-order information of the performative risk is available. In this paper, we initiate the study of performative prediction problems that do not require these assumptions. Specifically, we develop a reparameterization framework that reparametrizes the performative prediction objective as a function of the induced data distribution. We then develop a two-level zeroth-order optimization procedure, where the first level performs iterative optimization on the distribution parameter space, and the second level learns the model that induces a particular target distribution at each iteration. Under mild conditions, this reparameterization allows us to transform the non-convex objective into a convex one and achieve provable regret guarantees. In particular, we provide a regret bound that is sublinear in the total number of performative samples taken and is only polynomial in the dimension of the model parameter.
翻訳日:2024-08-14 23:38:51 公開日:2024-08-12
# 低次多項式によるグラフオン推定のための計算下界

Computational Lower Bounds for Graphon Estimation via Low-degree Polynomials ( http://arxiv.org/abs/2308.15728v4 )

ライセンス: Link先を確認
Yuetian Luo, Chao Gao, (参考訳) グラフオン推定は、ネットワーク分析における最も基本的な問題の一つであり、過去10年間にかなりの注目を集めてきた。 統計的観点からは、確率ブロックモデルと非パラメトリックグラフトン推定の両方について、Gao et al (2015) により、グラノン推定の最小誤差速度が確立されている。 統計的最適推定子は制約された最小二乗に基づいており、次元において計算複雑性が指数関数的である。 計算の観点からは、最もよく知られた多項式時間推定器は普遍特異値しきい値のしきい値に基づいているが、最小値よりもはるかに遅い推定誤差率しか達成できない。 USVTの計算最適性や、グラノン推定における計算障壁の存在は、長年の未解決問題であった。 本研究では,低次多項式を用いたグラフトン推定における計算障壁の厳密な証拠を提供する。 具体的には,SBMグラノン推定において,低次多項式推定器の場合,その推定誤差は幅広いパラメータ条件下でUSVTの推定値よりも著しく優れていることが示され,非パラメトリックグラノン推定では,低次多項式推定器が推定誤差率を最小値よりも厳密に遅くすることを示す。 我々の結果は、Schramm と Wein (2022) による最近の低次多項式の発展に基づいて証明されている。 また,本研究の主な成果を生かして,SBMにおけるコミュニティ検出におけるクラスタリング誤差の計算的下限も提供し,コミュニティの効率的な回復のためのケステン・スティグムしきい値の新たな証拠を得た。 最後に、計算下界をスパースグラノン推定とビクラスタリングに拡張する。

Graphon estimation has been one of the most fundamental problems in network analysis and has received considerable attention in the past decade. From the statistical perspective, the minimax error rate of graphon estimation has been established by Gao et al (2015) for both stochastic block model and nonparametric graphon estimation. The statistical optimal estimators are based on constrained least squares and have computational complexity exponential in the dimension. From the computational perspective, the best-known polynomial-time estimator is based universal singular value thresholding, but it can only achieve a much slower estimation error rate than the minimax one. The computational optimality of the USVT or the existence of a computational barrier in graphon estimation has been a long-standing open problem. In this work, we provide rigorous evidence for the computational barrier in graphon estimation via low-degree polynomials. Specifically, in SBM graphon estimation, we show that for low-degree polynomial estimators, their estimation error rates cannot be significantly better than that of the USVT under a wide range of parameter regimes and in nonparametric graphon estimation, we show low-degree polynomial estimators achieve estimation error rates strictly slower than the minimax rate. Our results are proved based on the recent development of low-degree polynomials by Schramm and Wein (2022), while we overcome a few key challenges in applying it to the general graphon estimation problem. By leveraging our main results, we also provide a computational lower bound on the clustering error for community detection in SBM with a growing number of communities and this yields a new piece of evidence for the conjectured Kesten-Stigum threshold for efficient community recovery. Finally, we extend our computational lower bounds to sparse graphon estimation and biclustering.
翻訳日:2024-08-14 23:24:38 公開日:2024-08-12
# 4次元走査透過電子顕微鏡における量子情報と古典的フィッシャー情報

Quantum and classical Fisher information in four-dimensional scanning transmission electron microscopy ( http://arxiv.org/abs/2309.04701v3 )

ライセンス: Link先を確認
Christian Dwyer, David M. Paganin, (参考訳) 本研究では, 4次元走査透過電子顕微鏡(4D-STEM)における感度の量子限界を分析する。 4D-STEMは、走査ビームを用いて、各ビーム位置の運動量(回折)空間における散乱分布を記録する間接(計算)イメージング技術である。 試料の静電気電位を測定する際、4D-STEMから得られる量子フィッシャー情報は、実空間位相コントラストイメージングと一致する。 近接最適量子フィッシャー情報は、非局在化スペクトルプローブを用いて達成される。 しかし、回折平面における検出により、4D-STEMは最終的に量子限界の約半分しか許容しないのに対し、ゼルニケ位相コントラストイメージングは光学系によって認められた全ての空間周波数に対する量子制限を可能にする。 一方、4D-STEMは位相コントラストTEMによりアクセス可能な周波数以上の空間周波数の情報を得ることができる。 我々の結論は、コヒーレントスカラー可視光とX線を用いて、類似画像モダリティに拡張する。

We analyze the quantum limit of sensitivity in four-dimensional scanning transmission electron microscopy (4D-STEM), which has emerged as a favored technique for imaging the structure of a wide variety of materials, including biological and other radiation-sensitive materials. 4D-STEM is an indirect (computational) imaging technique, which uses a scanning beam, and records the scattering distribution in momentum (diffraction) space for each beam position. We find that, in measuring a sample's electrostatic potential, the quantum Fisher information from 4D-STEM can match that from real-space phase-contrast imaging. Near-optimum quantum Fisher information is achieved using a delocalized speckled probe. However, owing to the detection in the diffraction plane, 4D-STEM ultimately enables only about half of the quantum limit, whereas Zernike phase-contrast imaging enables the quantum limit for all spatial frequencies admitted by the optical system. On the other hand, 4D-STEM can yield information on spatial frequencies well beyond those accessible by phase-contrast TEM. Our conclusions extend to analogous imaging modalities using coherent scalar visible light and x-rays.
翻訳日:2024-08-14 23:24:38 公開日:2024-08-12
# ジョセフソン共鳴によるフラクトントンネル

Tunneling of fluxons via a Josephson resonant level ( http://arxiv.org/abs/2310.03102v3 )

ライセンス: Link先を確認
T. Vakhtel, P. D. Kurilovich, M. Pita-Vidal, A. Bargerbos, V. Fatemi, B. van Heck, (参考訳) 超伝導ループ内のフラクソンは、ジョセフソン接合のような弱いリンクで起こる量子位相スリップによってコヒーレントに結合することができる。 ジャンクションでのクーパー対トンネルが共鳴レベルを通して起こる場合、量子位相スリップは2 pi$で抑制され、フラクトンは主に4 pi$の量子位相スリップによって結合される。 このシナリオは, 超伝導凝縮体との共鳴によってフラクトン間のカップリングを計算して解析する。 その結果,フラクソニウム量子ビットの典型的な回路パラメータの遷移スペクトルにおいて,4-pi$-dominated regimeを直接観測できることが示唆された。 また、ループの誘導エネルギーがジャンクションのプラズマ周波数よりもはるかに小さい場合、回路の低エネルギーハミルトニアンは、トポロジカル超伝導島のものと二重であることを示す。 これらの知見は、バイフルクソン量子ビットに関する実験や、新しい種類の保護量子ビットの設計を知らせることができる。

Fluxons in a superconducting loop can be coherently coupled by quantum phase slips occurring at a weak link such as a Josephson junction. If Cooper pair tunneling at the junction occurs through a resonant level, $2\pi$ quantum phase slips are suppressed, and fluxons are predominantly coupled by $4\pi$ quantum phase slips. We analyze this scenario by computing the coupling between fluxons as the level is brought into resonance with the superconducting condensate. The results indicate that the $4\pi$-dominated regime can be observed directly in the transition spectrum for circuit parameters typical of a fluxonium qubit. We also show that, if the inductive energy of the loop is much smaller than the plasma frequency of the junction, the low-energy Hamiltonian of the circuit is dual to that of a topological superconducting island. These findings can inform experiments on bifluxon qubits as well as the design of novel types of protected qubits.
翻訳日:2024-08-14 23:24:38 公開日:2024-08-12
# Sync-NeRF: 動的NeRFを非同期ビデオに一般化する

Sync-NeRF: Generalizing Dynamic NeRFs to Unsynchronized Videos ( http://arxiv.org/abs/2310.13356v4 )

ライセンス: Link先を確認
Seoha Kim, Jeongmin Bae, Youngsik Yun, Hahyun Lee, Gun Bang, Youngjung Uh, (参考訳) ニューラルレイディアンスフィールド(NeRF)を用いた4次元シーン再構成の最近の進歩は、マルチビュービデオから動的シーンを表現できることを実証している。 しかし、動的シーンの再構築に失敗し、トレーニングビューでさえ同期しない設定に収まるのに苦労する。 それは、同じフレームのマルチビューイメージが実際には異なるタイミングでキャプチャされている間、フレームに1つの潜伏埋め込みを採用するためである。 この制限に対処するために、個別の非同期ビデオのタイムオフセットを導入し、NeRFと共同でオフセットを最適化する。 設計上,本手法は様々なベースラインに適用可能であり,大きなマージンで改善されている。 さらに、オフセットを見つけることは、手動で動画を同期させるのに自然に役立ちます。 Plenoptic Video Dataset と新たに構築した Unsynchronized Dynamic Blender Dataset を用いて,本手法の性能検証を行った。 プロジェクトページ:https://seoha-kim.github.io/sync-nerf

Recent advancements in 4D scene reconstruction using neural radiance fields (NeRF) have demonstrated the ability to represent dynamic scenes from multi-view videos. However, they fail to reconstruct the dynamic scenes and struggle to fit even the training views in unsynchronized settings. It happens because they employ a single latent embedding for a frame while the multi-view images at the same frame were actually captured at different moments. To address this limitation, we introduce time offsets for individual unsynchronized videos and jointly optimize the offsets with NeRF. By design, our method is applicable for various baselines and improves them with large margins. Furthermore, finding the offsets naturally works as synchronizing the videos without manual effort. Experiments are conducted on the common Plenoptic Video Dataset and a newly built Unsynchronized Dynamic Blender Dataset to verify the performance of our method. Project page: https://seoha-kim.github.io/sync-nerf
翻訳日:2024-08-14 23:14:44 公開日:2024-08-12
# 生成AIを用いた学術書誌のスーパーチャージ技術

Techniques for supercharging academic writing with generative AI ( http://arxiv.org/abs/2310.17143v3 )

ライセンス: Link先を確認
Zhicheng Lin, (参考訳) 学術的な執筆は研究企業にとって欠かせないが退屈な部分である。 このパースペクティブは、生成的人工知能(AI)、特に大きな言語モデル(LLM)を使用するための原則と方法を示し、学術的な文章の質と効率を高める。 我々は、書面におけるAIの関与の根拠(なぜ)、プロセス(方法)、自然(何)を明確にする人間とAIの協調フレームワークを紹介します。 このフレームワークは、エンゲージメントの短期的および長期的理由と、その基盤となるメカニズム(例えば、認知的オフロードと想像的刺激)の両方を指摘します。 これは、人間とAIの共同執筆のための2段階のモデルを通じて概念化された、筆記プロセス全体におけるAIの役割と、筆記支援のタイプとレベルのモデルによって表現される書記におけるAIアシストの性質を明らかにする。 この枠組みに基づいて、我々は、AIを筆記ルーチン(アウトライン、ドラフト、編集)に組み込む効果的なプロンプト技術と、厳格な奨学金の維持、さまざまなジャーナルポリシーの遵守、AIへの過度な依存を避けるための戦略について説明する。 究極的には、AIを学術的な文章に統合することで、コミュニケーションの負担を緩和し、著者に権限を与え、発見を加速し、科学の多様性を促進することができる。

Academic writing is an indispensable yet laborious part of the research enterprise. This Perspective maps out principles and methods for using generative artificial intelligence (AI), specifically large language models (LLMs), to elevate the quality and efficiency of academic writing. We introduce a human-AI collaborative framework that delineates the rationale (why), process (how), and nature (what) of AI engagement in writing. The framework pinpoints both short-term and long-term reasons for engagement and their underlying mechanisms (e.g., cognitive offloading and imaginative stimulation). It reveals the role of AI throughout the writing process, conceptualized through a two-stage model for human-AI collaborative writing, and the nature of AI assistance in writing, represented through a model of writing-assistance types and levels. Building on this framework, we describe effective prompting techniques for incorporating AI into the writing routine (outlining, drafting, and editing) as well as strategies for maintaining rigorous scholarship, adhering to varied journal policies, and avoiding overreliance on AI. Ultimately, the prudent integration of AI into academic writing can ease the communication burden, empower authors, accelerate discovery, and promote diversity in science.
翻訳日:2024-08-14 23:14:44 公開日:2024-08-12
# プルリクエストにおける管理者とコントリビュータの第一応答遅延の予測

Predicting the First Response Latency of Maintainers and Contributors in Pull Requests ( http://arxiv.org/abs/2311.07786v2 )

ライセンス: Link先を確認
SayedHassan Khatoonabadi, Ahmad Abdellatif, Diego Elias Costa, Emad Shihab, (参考訳) プルリクエスト(PR)の成功は、レビュープロセス中のメンテナとコントリビュータの応答性に依存する。 期待される待ち時間に気付くことで、より良いインタラクションと、メンテナとコントリビュータの両方に対する管理された期待につながります。 本稿では,PRの提出後の保守者の最初の応答遅延と,保守者から最初の応答遅延を受信したコントリビュータの最初の応答遅延を予測するための機械学習手法を提案する。 GitHub上で20の大規模で人気のあるオープンソースプロジェクトのデータセットをキュレートし、プロジェクト、コントリビュータ、PR、レビュープロセスを特徴付ける21の機能を抽出します。 これらの特徴を用いて、7種類の分類器を評価し、最高の性能モデルを特定する。 また,予測応答待ち時間に対する特徴量の重要性と影響を理解するために,置換特徴量の重要性とSHAP分析を行った。 CatBoostモデルは、メンテナとコントリビュータの両方の最初のレスポンスレイテンシを予測するのに最も効果的です。 また,週初旬に提出されたPRには平均的なコミット数が含まれており,簡潔な説明があれば,メンテナからのファーストレスポンスがより高速になる可能性が高いことも確認した。 同様に、メンテナからの最初のレスポンスレイテンシが低いPRも、今週初めにメンテナから最初のレスポンスを受け取り、平均的なコミット数を含む場合には、コントリビュータから最初のレスポンスがより高速になる傾向にある。 さらに、プロジェクトの受け入れ率が高く、タイムリーなレスポンスの履歴を持つコントリビュータは、より高速なファーストレスポンスを取得し、提供できる可能性が高い。 さらに,プロジェクト横断環境でのアプローチの有効性を示す。

The success of a Pull Request (PR) depends on the responsiveness of the maintainers and the contributor during the review process. Being aware of the expected waiting times can lead to better interactions and managed expectations for both the maintainers and the contributor. In this paper, we propose a machine-learning approach to predict the first response latency of the maintainers following the submission of a PR, and the first response latency of the contributor after receiving the first response from the maintainers. We curate a dataset of 20 large and popular open-source projects on GitHub and extract 21 features to characterize projects, contributors, PRs, and review processes. Using these features, we then evaluate seven types of classifiers to identify the best-performing models. We also conduct permutation feature importance and SHAP analyses to understand the importance and the impact of different features on the predicted response latencies. We find that our CatBoost models are the most effective for predicting the first response latencies of both maintainers and contributors. We also observe that PRs submitted earlier in the week, containing an average number of commits, and with concise descriptions are more likely to receive faster first responses from the maintainers. Similarly, PRs with a lower first response latency from maintainers, that received the first response of maintainers earlier in the week, and containing an average number of commits tend to receive faster first responses from the contributors. Additionally, contributors with a higher acceptance rate and a history of timely responses in the project are likely to both obtain and provide faster first responses. Moreover, we show the effectiveness of our approach in a cross-project setting.
翻訳日:2024-08-14 23:14:44 公開日:2024-08-12
# 数保存型局所古典影断層撮影の効率化

Efficient Local Classical Shadow Tomography with Number Conservation ( http://arxiv.org/abs/2311.09291v2 )

ライセンス: Link先を確認
Sumner N. Hearth, Michael O. Flynn, Anushya Chandran, Chris R. Laumann, (参考訳) シャドウトモグラフィーは、単純なランダムな測定のシーケンスから量子状態の古典的な記述を構築することを目的としている。 物理的観測物は、結果として生じる古典的な影から再構成される。 単体ランダム測定を使用するシャドウプロトコルは、少数の観測可能な天体を効率的に実装し、捕獲することが簡単であるが、ウルトラコールド原子のような基本数保存法則を持つシステムには適用されない。 このようなシステムに適応した新しいローカルシャドウプロトコルを提案し,解析することで,この問題に対処する。 All-Pairs"プロトコルは、2つのボディゲートの1つのレイヤと、任意の少数のボディオブザーバブルを再構築するために、$\textrm{poly}(V)$サンプルのみを必要とする。 さらに、プロトコルの置換対称性を利用して、線形時間後処理アルゴリズムを導出する。 ハードコアボソン対液中における2点関数と4点関数の再構成を実証する。

Shadow tomography aims to build a classical description of a quantum state from a sequence of simple random measurements. Physical observables are then reconstructed from the resulting classical shadow. Shadow protocols which use single-body random measurements are simple to implement and capture few-body observables efficiently, but do not apply to systems with fundamental number conservation laws, such as ultracold atoms. We address this shortcoming by proposing and analyzing a new local shadow protocol adapted to such systems. The "All-Pairs" protocol requires one layer of two-body gates and only $\textrm{poly}(V)$ samples to reconstruct arbitrary few body observables. Moreover, by exploiting the permutation symmetry of the protocol, we derive a linear time post-processing algorithm. We provide a proof-of-principle reference implementation and demonstrate the reconstruction of 2- and 4-point functions in a paired Luttinger liquid of hardcore bosons.
翻訳日:2024-08-14 23:14:44 公開日:2024-08-12
# 研究ソフトウェアエンジニアの基礎的能力と責任

Foundational Competencies and Responsibilities of a Research Software Engineer ( http://arxiv.org/abs/2311.11457v3 )

ライセンス: Link先を確認
Florian Goth, Renato Alves, Matthias Braun, Leyla Jael Castro, Gerasimos Chourdakis, Simon Christ, Jeremy Cohen, Stephan Druskat, Fredo Erxleben, Jean-Noël Grad, Magnus Hagdorn, Toby Hodges, Guido Juckeland, Dominic Kempf, Anna-Lena Lamprecht, Jan Linxweiler, Frank Löffler, Michele Martone, Moritz Schwarzmeier, Heidi Seibold, Jan Philipp Thiele, Harald von Waldow, Samantha Wittke, (参考訳) リサーチソフトウェアエンジニア(Research Software Engineer, RSE)という用語は、10年ほど前に、リサーチコミュニティで働く個人を表現し、ソフトウェア開発に注力する手段として登場した。 この用語は広く採用されており、RSEとは何かという高レベルな定義がいくつかある。 しかし、RSEの役割は、彼らが働く制度の状況によって異なる。 スペクトルの一端では、RSEの役割は伝統的な研究の役割と似ているかもしれない。 反対に、彼らは業界のソフトウェアエンジニアに似ています。 RSEの役割の多くは、この2つの極端の間の空間に存在する。 したがって、RSEが何を行うのか、どんな経験、スキル、能力が必要なのか、単純で包括的な定義を提供することは困難です。 このコミュニティペーパーでは、RSEとは何かという広い概念を定義し、それらが実行しているさまざまなタイプの作業について検討し、基本的能力のリストと、RSEの一般的なプロファイルを定義する値を定義します。 そこで我々は,これらのスキルのさまざまな側面による進歩,特定のタイプのRSEの役割の考察,組織に対する推奨の提案,将来的な特殊化の例について詳しく検討する。 付録には、このフレームワークに既存のカリキュラムがどのように適合するかが記載されている。

The term Research Software Engineer, or RSE, emerged a little over 10 years ago as a way to represent individuals working in the research community but focusing on software development. The term has been widely adopted and there are a number of high-level definitions of what an RSE is. However, the roles of RSEs vary depending on the institutional context they work in. At one end of the spectrum, RSE roles may look similar to a traditional research role. At the other extreme, they resemble that of a software engineer in industry. Most RSE roles inhabit the space between these two extremes. Therefore, providing a straightforward, comprehensive definition of what an RSE does and what experience, skills and competencies are required to become one is challenging. In this community paper we define the broad notion of what an RSE is, explore the different types of work they undertake, and define a list of fundamental competencies as well as values that define the general profile of an RSE. On this basis, we elaborate on the progression of these skills along different dimensions, looking at specific types of RSE roles, proposing recommendations for organisations, and giving examples of future specialisations. An appendix details how existing curricula fit into this framework.
翻訳日:2024-08-14 23:14:44 公開日:2024-08-12
# ニューラル・ダイナミック・オペレーター:グラディエント・ベース・デリバティブ・フリー最適化法を用いた連続空間時間モデル

Neural Dynamical Operator: Continuous Spatial-Temporal Model with Gradient-Based and Derivative-Free Optimization Methods ( http://arxiv.org/abs/2311.11798v3 )

ライセンス: Link先を確認
Chuanqi Chen, Jin-Long Wu, (参考訳) データ駆動モデリング技術は、多くの工学的応用のための複雑な力学系の時空間モデリングにおいて研究されている。 しかし、体系的なアプローチでは、空間的および時間的解像度の異なる異なるデータ、例えば、異なるタイプのデータからの情報を活用することができず、短期軌跡と長期統計の併用は依然として不十分である。 本研究では,ニューラル演算子の最近の進歩に基づいて,空間と時間の両方で連続的なニューラル力学演算子と呼ばれるデータ駆動モデリングフレームワークを提案する。 神経力学演算子の鍵となる特徴は、時間分解能の異なる豊富なトレーニングデータを必要とせず、空間的および時間的離散化の両方に関して分解能不変性である。 キャリブレーションモデルの長期性能を改善するため,勾配法と微分自由度最適化の両手法を併用し,短期的時系列と長期的統計の双方を効率的に学習するハイブリッド最適化手法を提案する。 本研究では, 粘性バーガース方程式, Navier-Stokes方程式, Kuramoto-Sivashinsky方程式の3つの数値例を用いて, 神経力学演算子の性能について検討した。 その結果,提案するモデリングフレームワークの分解能不変性を確認し,短期時系列データのみを用いた安定な長期シミュレーションを実証した。 さらに,提案手法は,短期データと長期データを組み合わせたハイブリッド最適化手法により,より長期統計を予測できることを示す。

Data-driven modeling techniques have been explored in the spatial-temporal modeling of complex dynamical systems for many engineering applications. However, a systematic approach is still lacking to leverage the information from different types of data, e.g., with different spatial and temporal resolutions, and the combined use of short-term trajectories and long-term statistics. In this work, we build on the recent progress of neural operator and present a data-driven modeling framework called neural dynamical operator that is continuous in both space and time. A key feature of the neural dynamical operator is the resolution-invariance with respect to both spatial and temporal discretizations, without demanding abundant training data in different temporal resolutions. To improve the long-term performance of the calibrated model, we further propose a hybrid optimization scheme that leverages both gradient-based and derivative-free optimization methods and efficiently trains on both short-term time series and long-term statistics. We investigate the performance of the neural dynamical operator with three numerical examples, including the viscous Burgers' equation, the Navier-Stokes equations, and the Kuramoto-Sivashinsky equation. The results confirm the resolution-invariance of the proposed modeling framework and also demonstrate stable long-term simulations with only short-term time series data. In addition, we show that the proposed model can better predict long-term statistics via the hybrid optimization scheme with a combined use of short-term and long-term data.
翻訳日:2024-08-14 23:14:44 公開日:2024-08-12
# 量子時間複雑性のモデリング

Taming Quantum Time Complexity ( http://arxiv.org/abs/2311.15873v2 )

ライセンス: Link先を確認
Aleksandrs Belovs, Stacey Jeffery, Duyal Yolcu, (参考訳) 量子クエリの複雑さは、構成に関していくつかの優れた特性を持っています。 第一に、境界付きエラー量子クエリアルゴリズムは、エラー低減(実行性)を通じてログファクターを発生させることなく構成できる。 第二に、注意深い会計 (thriftiness) を通じて、サブルーチンがより安価な入力で実行される場合、クエリ全体の複雑さは小さくなります。 これらの性質は、以前はスパンプログラムのモデルを通して見られたが、最近の2人の著者 (Belovs, Yolcu 2023) による研究は、量子ラスベガスのクエリ複雑性を定義することによって、スパンプログラムに変換せずにこれらの利点を実現する方法を示した。 独立に、著者の1人(Jeffery 2022)を含む最近の研究は、より現実的に重要な量子時間複雑性の設定に緩和性をもたらすことに取り組んできた。 本研究では,時間的複雑性の設定において,正確さと遠心性を両立させる方法について述べる。 我々はJeffery 2022の量子サブルーチン合成結果を一般化し、特にエラーの低減は不要である。 量子クエリ複雑性のよく知られた結果の時間複雑性版である$Q(f\circ)を与える。 g)=O(Q) (f)\cdot Q (g)$、ログファクタなしで。 我々は、トランスデューサと呼ばれるものに基づいて、量子アルゴリズムの設計に新しいアプローチを適用することで、これを実現する。 スパンプログラムは完全に異なる計算モデルであるが、トランスデューサは量子アルゴリズムの直接的な一般化であり、透明性と制御をより大きくすることができる。 トランスデューサは、決定問題だけでなく、一般的な状態変換を自然に特徴付け、量子ウォークのような他の量子プリミティブの非常に単純な処理を提供し、時間複雑性解析によく役立てる。

Quantum query complexity has several nice properties with respect to composition. First, bounded-error quantum query algorithms can be composed without incurring log factors through error reduction (exactness). Second, through careful accounting (thriftiness), the total query complexity is smaller if subroutines are mostly run on cheaper inputs -- a property that is much less obvious in quantum algorithms than in their classical counterparts. While these properties were previously seen through the model of span programs (alternatively, the dual adversary bound), a recent work by two of the authors (Belovs, Yolcu 2023) showed how to achieve these benefits without converting to span programs, by defining quantum Las Vegas query complexity. Independently, recent works, including by one of the authors (Jeffery 2022), have worked towards bringing thriftiness to the more practically significant setting of quantum time complexity. In this work, we show how to achieve both exactness and thriftiness in the setting of time complexity. We generalize the quantum subroutine composition results of Jeffery 2022 so that, in particular, no error reduction is needed. We give a time complexity version of the well-known result in quantum query complexity, $Q(f\circ g)=O(Q(f)\cdot Q(g))$, without log factors. We achieve this by employing a novel approach to the design of quantum algorithms based on what we call transducers, and which we think is of large independent interest. While a span program is a completely different computational model, a transducer is a direct generalisation of a quantum algorithm, which allows for much greater transparency and control. Transducers naturally characterize general state conversion, rather than only decision problems; provide a very simple treatment of other quantum primitives such as quantum walks; and lend themselves well to time complexity analysis.
翻訳日:2024-08-14 23:14:44 公開日:2024-08-12
# 言語モデルのためのきめ細かい幻覚検出と編集

Fine-grained Hallucination Detection and Editing for Language Models ( http://arxiv.org/abs/2401.06855v4 )

ライセンス: Link先を確認
Abhika Mishra, Akari Asai, Vidhisha Balachandran, Yizhong Wang, Graham Neubig, Yulia Tsvetkov, Hannaneh Hajishirzi, (参考訳) 大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。 本稿では,幻覚の包括的分類を導入し,さまざまな形態で幻覚が現れることを議論する。 そこで本研究では,各領域にまたがる3つのLM出力に対して,約1千個の微粒化人為的判断を含む新しい評価ベンチマークFavaBenchを提案する。 分析の結果,ChatGPT と Llama2-Chat (70B, 7B) は多種多様な幻覚を示すことが明らかとなった。 合成データを慎重に作成し、微細な幻覚を検出・補正することで、検索強化LMであるFAVAを訓練する。 評価の結果, FAVAは, 微粒な幻覚検出においてChatGPTとGPT-4を著しく上回り, FAVAが提案する編集により, LM生成テキストの事実性が向上した。

Large language models (LMs) are prone to generate factual errors, which are often called hallucinations. In this paper, we introduce a comprehensive taxonomy of hallucinations and argue that hallucinations manifest in diverse forms, each requiring varying degrees of careful assessments to verify factuality. We propose a novel task of automatic fine-grained hallucination detection and construct a new evaluation benchmark, FavaBench, that includes about one thousand fine-grained human judgments on three LM outputs across various domains. Our analysis reveals that ChatGPT and Llama2-Chat (70B, 7B) exhibit diverse types of hallucinations in the majority of their outputs in information-seeking scenarios. We train FAVA, a retrieval-augmented LM by carefully creating synthetic data to detect and correct fine-grained hallucinations. On our benchmark, our automatic and human evaluations show that FAVA significantly outperforms ChatGPT and GPT-4 on fine-grained hallucination detection, and edits suggested by FAVA improve the factuality of LM-generated text.
翻訳日:2024-08-14 23:04:59 公開日:2024-08-12
# グラバーミキサーを用いた量子交互演算子アンザッツの解析結果

Analytical results for the Quantum Alternating Operator Ansatz with Grover Mixer ( http://arxiv.org/abs/2401.11056v3 )

ライセンス: Link先を確認
Guilherme Adamatti Bridi, Franklin de Lima Marquezino, (参考訳) グロバー混合器によるQAOAの重要な性質は、その期待値は状態の任意の置換に対して不変であることである。 その結果、アルゴリズムは問題の構造とは無関係である。 この特徴が、非構造化探索問題の限界を克服するアルゴリズムの能力に深刻な疑問を呈する一方で、解析的研究への道を開くことができる。 この意味で、先行研究は、問題ハミルトニアンスペクトルに関連する確率分布に依存する期待値の解析的表現をもたらすGM-QAOAを分析する統計的アプローチを導入した。 この手法は計算における驚くほどの単純化を提供するが、式は指数関数的に層数に依存するため、直接解析処理は不可能である。 本研究では,Grover Mixer Threshold QAOA(Grover Mixer Threshold QAOA, GM-Th-QAOA, GM-QAOAの位相分離演算子を置換してしきい値関数を符号化する変種)のより単純な文脈に解析を拡張した。 その結果,レイヤ数に依存しない期待値の式が得られ,その結果,異なるパフォーマンス指標のバウンダリが提供される。 さらに、Grover-based QAOAと呼ぶGrovermixerを用いて、より一般的なQAOAの文脈まで分析を拡張した。 このフレームワークでは、位相分離演算子がコスト関数の任意のコンパイルを符号化できるので、非構造化探索問題上でのGroverのアルゴリズムの最適性と矛盾する引数を用いて、すべての境界を一般化する。 その結果、この研究の主な貢献は、古典的なブライト力に対してグロバーミキサーが二次的なグロバースタイルのスピードアップを反映するという考えを形式化する期待値によって達成された量子化の漸近的な下界である。

An important property of QAOA with Grover mixer is that its expectation value is invariant over any permutation of states. As a consequence, the algorithm is independent of the structure of the problem. If, on the one hand, this characteristic raises serious doubts about the capacity of the algorithm to overcome the bound of the unstructured search problem, on the other hand, it can pave the way to its analytical study. In this sense, a prior work introduced a statistical approach to analyze GM-QAOA that results in an analytical expression for the expectation value depending on the probability distribution associated with the problem Hamiltonian spectrum. Although the method provides surprising simplifications in calculations, the expression depends exponentially on the number of layers, which makes direct analytical treatment unfeasible. In this work, we extend the analysis to the more simple context of Grover Mixer Threshold QAOA (GM-Th-QAOA), a variant that replaces the phase separation operator of GM-QAOA to encode a threshold function. As a result, we obtain an expression for the expectation value independent of the number of layers and, with it, we provide bounds for different performance metrics. Furthermore, we extend the analysis to a more general context of QAOA with Grover mixer, which we called Grover-based QAOA. In that framework, which allows the phase separation operator to encode any compilation of the cost function, we generalize all the bounds by using an argument by contradiction with the optimality of Grover's algorithm on the unstructured search problem. As a result, we get the main contribution of this work, an asymptotic lower bound on the quantile achieved by the expectation value that formalizes the notion that the Grover mixer, at most, reflects a quadratic Grover-style speed-up over classical brute force.
翻訳日:2024-08-14 23:04:59 公開日:2024-08-12
# 分割グラフニューラルネットワークによるトラック駐車利用予測

Truck Parking Usage Prediction with Decomposed Graph Neural Networks ( http://arxiv.org/abs/2401.12920v2 )

ライセンス: Link先を確認
Rei Tamaru, Yang Cheng, Steven Parker, Ernie Perry, Bin Ran, Soyoung Ahn, (参考訳) 貨物回廊のトラックの駐車は、不十分な駐車場の大きな課題に直面している。 これは、HOS(Hour-of-Service)規制によって悪化し、しばしば許可されていない駐車慣行を引き起こし、安全上の懸念を引き起こす。 正確な駐車場利用予測を提供することは、安全でない駐車慣行を減らすためのコスト効率の高いソリューションであることが示されている。 これを踏まえ、既存の研究では、トラックの駐車場所の使用を予測するための様々な手法を開発し、良好な精度を示してきた。 しかし、これらの研究は1つの駐車場に焦点をあてており、データ不足のため、時空間依存を考慮した複数のトラック駐車施設の利用を予測するためのアプローチがいくつか提案されている。 本稿では,このギャップを埋めることを目的とした地域時間グラフニューラルネットワーク(RegT-GCN)を提案する。 このフレームワークは、トラックの駐車場所と歴史的駐車データのトポロジ的構造を利用して、州全体の時空間依存性を考慮した占有率を予測する。 そこで本研究では,トラックの駐車場所の地理的特徴とその空間的相関を効果的に把握する地域分割手法を提案する。 評価結果は,提案モデルが他のベースラインモデルより優れており,性能が20%以上向上していることを示している。

Truck parking on freight corridors faces the major challenge of insufficient parking spaces. This is exacerbated by the Hour-of-Service (HOS) regulations, which often result in unauthorized parking practices, causing safety concerns. It has been shown that providing accurate parking usage prediction can be a cost-effective solution to reduce unsafe parking practices. In light of this, existing studies have developed various methods to predict the usage of a truck parking site and have demonstrated satisfactory accuracy. However, these studies focus on a single parking site, and few approaches have been proposed to predict the usage of multiple truck parking sites considering spatio-temporal dependencies, due to the lack of data. This paper aims to fill this gap and presents the Regional Temporal Graph Neural Network (RegT-GCN) to predict parking usage across the entire state to provide more comprehensive truck parking information. The framework leverages the topological structures of truck parking site locations and historical parking data to predict the occupancy rate considering spatio-temporal dependencies across a state. To achieve this, we introduce a Regional Decomposition approach, which effectively captures the geographical characteristics of the truck parking locations and their spatial correlations. Evaluation results demonstrate that the proposed model outperforms other baseline models, improving performance by more than 20%.
翻訳日:2024-08-14 23:04:59 公開日:2024-08-12
# Min-Max問題に対する不正確な固定点反復の再検討:確率性と構造的非凸性

Revisiting Inexact Fixed-Point Iterations for Min-Max Problems: Stochasticity and Structured Nonconvexity ( http://arxiv.org/abs/2402.05071v2 )

ライセンス: Link先を確認
Ahmet Alacaoglu, Donghwan Kim, Stephen J. Wright, (参考訳) 我々は、制約付き$L$-smooth、潜在的に確率的かつ非凸的 min-max 問題に、$\rho$-cohypomonotonicity を満たすか、$\rho$-weakly Minty Variational Inequality (MVI) に対する解を認めるかのいずれかに焦点を当てる。 これらの問題クラスには、2つのプレイヤー強化学習、相互作用支配的なmin-max問題、古典的なmin-maxアルゴリズムが失敗する特定の合成テスト問題が含まれる。 一階法は$\rho$より大きい$\frac{1}{L}$を許容できると推測されているが、文献の既存の結果はより厳密な要求$\rho < \frac{1}{2L}$で停滞している。 簡単な議論で、$\rho < \frac{1}{L}$ に対して、コハイモノニック性あるいは弱 MVI 条件で最適あるいは最もよく知られた複雑性を保証する。 収束解析の改善に関する第一の洞察は、最近提案された$\textit{conic nonexpansiveness}$ property of operatorである。 第二に, 制約付き確率凸凸 min-max 問題においても, 必要な不正確なレベルを緩和し, 技術的複雑性を改善する不正確なHalpern 反復に対する洗練された解析を行う。 第三に、仮定が解に関してのみ成り立つとき、マルチレベルモンテカルロ推定器を用いて確率的不変Krasnosel'ski\u{\i}-Mann反復を解析する。

We focus on constrained, $L$-smooth, potentially stochastic and nonconvex-nonconcave min-max problems either satisfying $\rho$-cohypomonotonicity or admitting a solution to the $\rho$-weakly Minty Variational Inequality (MVI), where larger values of the parameter $\rho>0$ correspond to a greater degree of nonconvexity. These problem classes include examples in two player reinforcement learning, interaction dominant min-max problems, and certain synthetic test problems on which classical min-max algorithms fail. It has been conjectured that first-order methods can tolerate a value of $\rho$ no larger than $\frac{1}{L}$, but existing results in the literature have stagnated at the tighter requirement $\rho < \frac{1}{2L}$. With a simple argument, we obtain optimal or best-known complexity guarantees with cohypomonotonicity or weak MVI conditions for $\rho < \frac{1}{L}$. First main insight for the improvements in the convergence analyses is to harness the recently proposed $\textit{conic nonexpansiveness}$ property of operators. Second, we provide a refined analysis for inexact Halpern iteration that relaxes the required inexactness level to improve some state-of-the-art complexity results even for constrained stochastic convex-concave min-max problems. Third, we analyze a stochastic inexact Krasnosel'ski\u{\i}-Mann iteration with a multilevel Monte Carlo estimator when the assumptions only hold with respect to a solution.
翻訳日:2024-08-14 22:55:00 公開日:2024-08-12
# NV$^{-}$センターアンサンブルのゼロフィールドODMRスペクトルによるダイヤモンド導波路のひずみ成分の決定

Determining Strain Components in a Diamond Waveguide from Zero-Field ODMR Spectra of NV$^{-}$ Center Ensembles ( http://arxiv.org/abs/2402.06422v2 )

ライセンス: Link先を確認
M. Sahnawaz Alam, Federico Gorrini, Michał Gawełczyk, Daniel Wigger, Giulio Coccia, Yanzhao Guo, Sajedeh Shahbazi, Vibhav Bharadwaj, Alexander Kubanek, Roberta Ramponi, Paul E. Barclay, Anthony J. Bennett, John P. Hadden, Angelo Bifone, Shane M. Eaton, Paweł Machnikowski, (参考訳) ダイヤモンドの負電荷窒素空孔(NV$^{-}$)中心は、スピン物理の豊富なため、ナノスケールのセンシングと量子情報処理に大きな可能性を示している。 強い発光をもたらす光との効率的な結合は、これらの応用を実現するのに不可欠である。 ダイヤモンド中のレーザーによる導波路は、NV$^{-}$の生成を促進し、光との結合を改善するが、同時に結晶のひずみを誘導する。 誘導ひずみは光誘導に寄与するが、NV$^{-}$中心のエネルギーレベルにも影響を及ぼす。 NV$^{-}$スピン状態は、一般的に使用される連続波ゼロフィールド光磁気共鳴(ODMR)を用いて実験的に探索する。 我々の導波路では、ODMRスペクトルはシフトし、分裂し、一貫した非対称である。 これらの特徴を理解するため,ひずみの存在下でのアンサンブルODMR信号のモデル化を行った。 実験により得られたODMRデータにモデル結果を適用することにより, ひずみテンソル成分を異なる位置で決定し, 導波路のひずみ分布を決定する。 このことは、ゼロフィールドODMR分光法がひずみイメージングツールとして使用できることを示している。 導波管内部のひずみは、導波管構造に横切る圧縮軸成分によって支配され、垂直およびせん断ひずみ成分からの寄与は小さい。

The negatively charged nitrogen-vacancy (NV$^{-}$) center in diamond has shown great potential in nanoscale sensing and quantum information processing due to its rich spin physics. An efficient coupling with light, providing strong luminescence, is crucial for realizing these applications. Laser-written waveguides in diamond promote NV$^{-}$ creation and improve their coupling to light but, at the same time, induce strain in the crystal. The induced strain contributes to light guiding but also affects the energy levels of NV$^{-}$ centers. We probe NV$^{-}$ spin states experimentally with the commonly used continuous-wave zero-field optically detected magnetic resonance (ODMR). In our waveguides, the ODMR spectra are shifted, split, and consistently asymmetric, which we attribute to the impact of local strain. To understand these features, we model ensemble ODMR signals in the presence of strain. By fitting the model results to the experimentally collected ODMR data, we determine the strain tensor components at different positions, thus determining the strain profile across the waveguide. This shows that zero-field ODMR spectroscopy can be used as a strain imaging tool. The resulting strain within the waveguide is dominated by a compressive axial component transverse to the waveguide structure, with a smaller contribution from vertical and shear strain components.
翻訳日:2024-08-14 22:55:00 公開日:2024-08-12
# トポロジ的拡張による実世界の複雑ネットワークにおけるノード表現の強化

Enhancing Node Representations for Real-World Complex Networks with Topological Augmentation ( http://arxiv.org/abs/2402.13033v2 )

ライセンス: Link先を確認
Xiangyu Zhao, Zehui Li, Mingzhu Shen, Guy-Bart Stan, Pietro Liò, Yiren Zhao, (参考訳) グラフ強化手法は,グラフニューラルネットワーク(GNN)の性能向上と一般化機能の向上に重要な役割を果たす。 既存のグラフ拡張法は主にグラフ構造を摂動させ、通常はペアのノード関係に制限される。 これらの手法は実世界の大規模ネットワークの複雑さを完全に解決することはできない。 一方、実世界のグラフデータセットは、高次のエッジを形成するために使用できるデータの不足のため、主に単純なグラフとしてモデル化されている。 したがって、グラフ拡張戦略の統合として高次のエッジを再構成することで、上記の問題に対処するための有望な研究経路が明らかになる。 本稿では、生データから直接仮想ハイパーエッジを構築することで、元のグラフから組合せ複合体を構築する新しいグラフ拡張手法であるトポロジカル拡張(TopoAug)を提案する。 次にTopoAugは、下流タスクにおけるGNNパフォーマンスの向上に使用されるコンビネータコンプレックスから情報を抽出することで、補助ノード機能を生成する。 我々は,(1)グラフ統計による,(2)複数のデータの観点から,(3)マルチモーダリティを活用した,3つの多様な仮想ハイパーエッジ構築戦略を設計する。 さらに、TopoAugの評価を容易にするために、ソーシャルメディア、生物学、電子商取引など、さまざまな領域に23の新たな実世界のグラフデータセットを提供する。 実証実験の結果,TopoAug は GNN のベースラインやグラフ拡張手法を,様々なアプリケーションコンテキストで一貫的に,かつ著しく上回っていることが明らかとなり,実世界の複雑なネットワークにおいて,高次ノード関係をグラフ拡張に効果的に組み込むことが可能であることが明らかになった。

Graph augmentation methods play a crucial role in improving the performance and enhancing generalisation capabilities in Graph Neural Networks (GNNs). Existing graph augmentation methods mainly perturb the graph structures, and are usually limited to pairwise node relations. These methods cannot fully address the complexities of real-world large-scale networks, which often involve higher-order node relations beyond only being pairwise. Meanwhile, real-world graph datasets are predominantly modelled as simple graphs, due to the scarcity of data that can be used to form higher-order edges. Therefore, reconfiguring the higher-order edges as an integration into graph augmentation strategies lights up a promising research path to address the aforementioned issues. In this paper, we present Topological Augmentation (TopoAug), a novel graph augmentation method that builds a combinatorial complex from the original graph by constructing virtual hyperedges directly from the raw data. TopoAug then produces auxiliary node features by extracting information from the combinatorial complex, which are used for enhancing GNN performances on downstream tasks. We design three diverse virtual hyperedge construction strategies to accompany the construction of combinatorial complexes: (1) via graph statistics, (2) from multiple data perspectives, and (3) utilising multi-modality. Furthermore, to facilitate TopoAug evaluation, we provide 23 novel real-world graph datasets across various domains including social media, biology, and e-commerce. Our empirical study shows that TopoAug consistently and significantly outperforms GNN baselines and other graph augmentation methods, across a variety of application contexts, which clearly indicates that it can effectively incorporate higher-order node relations into the graph augmentation for real-world complex networks.
翻訳日:2024-08-14 22:55:00 公開日:2024-08-12
# インフォーマル論理を用いた体系的分解型自然言語推論の強化

Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic ( http://arxiv.org/abs/2402.14798v3 )

ライセンス: Link先を確認
Nathaniel Weir, Kate Sanders, Orion Weller, Shreya Sharma, Dongwei Jiang, Zhengping Jiang, Bhavana Dalvi Mishra, Oyvind Tafjord, Peter Jansen, Peter Clark, Benjamin Van Durme, (参考訳) 最近の言語モデルは、不安定な形式論理に頼らずに、直感的で証明のようなテキストの引き込み木を構築するなど、テキストによる構造化推論の新しい機会を可能にしている。 しかし、この方向の進行は、有効な構成内容を決定するための明確なプロトコルが長い間欠如していることによって妨げられている。 この欠如は、現代のニューロシンボリックエンジンによるノイズの多いデータセットと限られた性能向上を引き起こす。 これらの問題に対処するため,分解的含意を注釈付けするための一貫した理論的なアプローチを定式化し,LLMに基づくテキスト推論への影響を評価する。 新たなデータセットRDTE(Recognizing Decompositional Textual Entailment)は,従来よりも内部一貫性(+9%)が高いことがわかった。 また,RDTE指向の包括的分類器を知識蒸留を用いて訓練し,それを包括木推論エンジンで使用することにより,精度と検証精度を向上し,テキスト推論におけるこの進歩の実用的メリットを実証する。

Recent language models enable new opportunities for structured reasoning with text, such as the construction of intuitive, proof-like textual entailment trees without relying on brittle formal logic. However, progress in this direction has been hampered by a long-standing lack of a clear protocol for determining what valid compositional entailment is. This absence causes noisy datasets and limited performance gains by modern neuro-symbolic engines. To address these problems, we formulate a consistent and theoretically grounded approach to annotating decompositional entailment and evaluate its impact on LLM-based textual inference. We find that our new dataset, RDTE (Recognizing Decompositional Textual Entailment), has a substantially higher internal consistency (+9%) than prior decompositional entailment datasets. We also find that training an RDTE-oriented entailment classifier via knowledge distillation and employing it in an entailment tree reasoning engine significantly improves both accuracy and proof quality, illustrating the practical benefit of this advance for textual inference.
翻訳日:2024-08-14 22:55:00 公開日:2024-08-12
# 特許における自然言語処理に関する調査

Natural Language Processing in Patents: A Survey ( http://arxiv.org/abs/2403.04105v2 )

ライセンス: Link先を確認
Lekang Jiang, Stephan Goetz, (参考訳) 重要な技術的および法的情報をカプセル化した特許は、自然言語処理(NLP)アプリケーションのための豊富なドメインを提供する。 NLP技術が発展するにつれて、大規模言語モデル(LLM)は一般的なテキスト処理や生成タスクにおいて優れた能力を示してきた。 しかし、特許分野におけるLLMの応用は、特許処理の複雑さのため、未調査であり、未開発のままである。 特許分野における特許文書のユニークな特徴と関連研究を理解することは、研究者がこれらのツールを効果的に適用する上で不可欠である。 そこで本稿は,NLP研究者に,この複雑な領域を効率的にナビゲートするために必要な知識を付与することを目的とする。 特に,特許制度に不慣れな読者に対して,特許の基本的側面をしっかりとした背景情報を提供するために紹介する。 さらに、我々は、特許に特有の構造的・言語的特徴を体系的に分解し、特許分析と生成にどのようにNLPを活用できるかを図示する。 さらに,9つの特許分析と4つの特許生成タスクを含む,テキストベースの特許関連タスクのスペクトルを実証する。

Patents, encapsulating crucial technical and legal information, present a rich domain for natural language processing (NLP) applications. As NLP technologies evolve, large language models (LLMs) have demonstrated outstanding capabilities in general text processing and generation tasks. However, the application of LLMs in the patent domain remains under-explored and under-developed due to the complexity of patent processing. Understanding the unique characteristics of patent documents and related research in the patent domain becomes essential for researchers to apply these tools effectively. Therefore, this paper aims to equip NLP researchers with the essential knowledge to navigate this complex domain efficiently. We introduce the relevant fundamental aspects of patents to provide solid background information, particularly for readers unfamiliar with the patent system. In addition, we systematically break down the structural and linguistic characteristics unique to patents and map out how NLP can be leveraged for patent analysis and generation. Moreover, we demonstrate the spectrum of text-based patent-related tasks, including nine patent analysis and four patent generation tasks.
翻訳日:2024-08-14 22:45:05 公開日:2024-08-12
# RepoHyper: Repository-Levelコード補完のためのセマンティックグラフの検索拡張

RepoHyper: Search-Expand-Refine on Semantic Graphs for Repository-Level Code Completionn ( http://arxiv.org/abs/2403.06095v3 )

ライセンス: Link先を確認
Huy N. Phan, Hoang N. Phan, Tien N. Nguyen, Nghi D. Q. Bui, (参考訳) Code Large Language Models (CodeLLMs) は、コード補完タスクにおいて、驚くほどの熟練度を示している。 しかしながら、関係するファイルやクラス階層の複雑さなど、プロジェクトリポジトリの広範なコンテキストを完全に理解するに足りず、その結果、より正確でない補完が得られます。 これらの制限を克服するため、リポジトリレベルのコード補完に関連する複雑な問題に対処するために設計された多面的フレームワークである \tool を提示する。 RepoHYPERの中心は、コードリポジトリの広大なコンテキストをカプセル化する新しいセマンティックグラフ構造である、RSG(Repo-level Semantic Graph)である。 さらに、RepoHyperは、グラフ拡張とRSGに適用されるリンク予測アルゴリズムを含むExpand and Refine検索手法を活用し、関連するコードスニペットの効率的な検索と優先順位付けを可能にする。 評価の結果,<tool>はリポジトリレベルのコード補完において既存の手法よりも優れており,複数の強力なベースラインと比較して,さまざまなデータセットの精度が向上していることがわかった。 RepoHYPERの実装はhttps://github.com/FSoft-AI4Code/RepoHyperで確認できます。

Code Large Language Models (CodeLLMs) have demonstrated impressive proficiency in code completion tasks. However, they often fall short of fully understanding the extensive context of a project repository, such as the intricacies of relevant files and class hierarchies, which can result in less precise completions. To overcome these limitations, we present \tool, a multifaceted framework designed to address the complex challenges associated with repository-level code completion. Central to RepoHYPER is the {\em Repo-level Semantic Graph} (RSG), a novel semantic graph structure that encapsulates the vast context of code repositories. Furthermore, RepoHyper leverages Expand and Refine retrieval method, including a graph expansion and a link prediction algorithm applied to the RSG, enabling the effective retrieval and prioritization of relevant code snippets. Our evaluations show that \tool markedly outperforms existing techniques in repository-level code completion, showcasing enhanced accuracy across various datasets when compared to several strong baselines. Our implementation of RepoHYPER can be found at https://github.com/FSoft-AI4Code/RepoHyper.
翻訳日:2024-08-14 22:45:05 公開日:2024-08-12
# AIを駆使した集団知能

AI-enhanced Collective Intelligence ( http://arxiv.org/abs/2403.10433v3 )

ライセンス: Link先を確認
Hao Cui, Taha Yasseri, (参考訳) 現在の社会的課題は、個人や集団の努力だけでの能力を超えている。 AIが進化するにつれて、人間の集団におけるその役割は、補助ツールから参加メンバへと変化する可能性がある。 人間とAIは、相乗化されると、人間またはAIの集団能力を上回るレベルの集団知性を達成することができる補完的な能力を持っている。 しかしながら、人間とAIシステムの相互作用は本質的に複雑であり、複雑なプロセスと相互依存を含んでいる。 このナラティブレビューは、複雑なネットワーク科学からの視点を取り入れ、認知層、物理層、情報層を含む、人間とAIの集団知性の多層表現を概念化する。 この多層ネットワークでは、人間とAIエージェントは様々な特性を示しており、人間は表面レベルから深層レベルまで様々である。 これらのエージェント間の相互作用は、システム全体の構造とダイナミクスを形成する。 エージェントの多様性と相互作用がシステムの集合的知性にどのように影響するかを考察する。 さらに,AIによって強化された集団知能の実例の分析を行った。 我々は、AIによって強化された集団知能の潜在的な課題に対処し、この分野の今後の発展について展望を提供する。

The current societal challenges exceed the capacity of human individual or collective effort alone. As AI evolves, its role within human collectives is poised to vary from an assistive tool to a participatory member. Humans and AI possess complementary capabilities that, when synergized, can achieve a level of collective intelligence that surpasses the collective capabilities of either humans or AI in isolation. However, the interactions in human-AI systems are inherently complex, involving intricate processes and interdependencies. This narrative review incorporates perspectives from complex network science to conceptualize a multilayer representation of human-AI collective intelligence, comprising cognition, physical, and information layers. Within this multilayer network, humans and AI agents exhibit varying characteristics; humans differ in diversity from surface-level to deep-level attributes, while AI agents range in degrees of functionality and anthropomorphism. The interplay among these agents shapes the overall structure and dynamics of the system. We explore how agents' diversity and interactions influence the system's collective intelligence. Furthermore, we present an analysis of real-world instances of AI-enhanced collective intelligence. We conclude by addressing the potential challenges in AI-enhanced collective intelligence and offer perspectives on future developments in this field.
翻訳日:2024-08-14 22:45:05 公開日:2024-08-12
# メンタルヘルスのための大規模言語モデル:システムレビュー

Large Language Model for Mental Health: A Systematic Review ( http://arxiv.org/abs/2403.15401v3 )

ライセンス: Link先を確認
Zhijun Guo, Alvina Lai, Johan Hilge Thygesen, Joseph Farrington, Thomas Keen, Kezhi Li, (参考訳) 大規模言語モデル(LLM)は、デジタルヘルスの潜在的な応用に対して大きな注目を集めている一方、メンタルヘルスへの応用は、現在進行中の議論の対象となっている。 本研究は, 早期スクリーニング, デジタル介入, 臨床応用の強さと限界に着目し, 精神保健におけるLSMの使用状況を評価することを目的とする。 PRISMAガイドラインに従って,我々は「メンタルヘルス,精神疾患,精神障害,精神医学」「大規模言語モデル」というキーワードを用いて,PubMed,IEEE Xplore,Scopus,JMIR,ACMを検索した。 非英語記事を除いて、2017年1月1日から2024年4月30日までの記事を掲載しました。 30項目が評価され, メンタルヘルスの実態調査, テキストによる自殺思考検出(n=15), メンタルヘルス会話エージェント(n=7), その他のメンタルヘルスにおけるLSMの応用と評価(n=18。 LLMは、メンタルヘルスの問題を検知し、アクセス可能で非スティグマタイズされたeヘルスサービスを提供する上で、かなりの効果を発揮する。 しかし、現在の臨床使用に伴うリスクは、彼らの利益を上回る可能性がある。 この研究は、専門家によって注釈付けされた多言語データセットの欠如、生成されたコンテンツの正確性と信頼性に関する懸念、LCMの「ブラックボックス」の性質による解釈可能性の課題、永続的な倫理的ジレンマなど、いくつかの重要な問題を明らかにしている。 これには、明確な倫理的枠組みの欠如、データのプライバシーへの懸念、セラピストと患者の双方によるLSMへの過度な信頼の可能性が含まれており、従来の医療行為を損なう可能性がある。 これらの問題にもかかわらず、LSMの急速な開発は、新たな臨床支援としての可能性を強調し、この分野における継続的な研究と開発の必要性を強調している。

Large language models (LLMs) have attracted significant attention for potential applications in digital health, while their application in mental health is subject to ongoing debate. This systematic review aims to evaluate the usage of LLMs in mental health, focusing on their strengths and limitations in early screening, digital interventions, and clinical applications. Adhering to PRISMA guidelines, we searched PubMed, IEEE Xplore, Scopus, JMIR, and ACM using keywords: 'mental health OR mental illness OR mental disorder OR psychiatry' AND 'large language models'. We included articles published between January 1, 2017, and April 30, 2024, excluding non-English articles. 30 articles were evaluated, which included research on mental health conditions and suicidal ideation detection through text (n=15), usage of LLMs for mental health conversational agents (CAs) (n=7), and other applications and evaluations of LLMs in mental health (n=18). LLMs exhibit substantial effectiveness in detecting mental health issues and providing accessible, de-stigmatized eHealth services. However, the current risks associated with the clinical use might surpass their benefits. The study identifies several significant issues: the lack of multilingual datasets annotated by experts, concerns about the accuracy and reliability of the content generated, challenges in interpretability due to the 'black box' nature of LLMs, and persistent ethical dilemmas. These include the lack of a clear ethical framework, concerns about data privacy, and the potential for over-reliance on LLMs by both therapists and patients, which could compromise traditional medical practice. Despite these issues, the rapid development of LLMs underscores their potential as new clinical aids, emphasizing the need for continued research and development in this area.
翻訳日:2024-08-14 22:45:05 公開日:2024-08-12
# スペシャリティとVersatilityのバランスをとる - 教師付き微調整大言語モデルのための粗いフレームワーク

Balancing Speciality and Versatility: a Coarse to Fine Framework for Supervised Fine-tuning Large Language Model ( http://arxiv.org/abs/2404.10306v5 )

ライセンス: Link先を確認
Hengyuan Zhang, Yanru Wu, Dawei Li, Sak Yang, Rui Zhao, Yong Jiang, Fei Tan, (参考訳) Aligned Large Language Models (LLMs) は、様々な現実世界のタスクを処理できる優れた汎用性を示す。 一方、アライメントLDMは特殊性を示し、特定の用途に優れると予想されている。 しかし、専門性を得るための一般的な慣習である余分なデータによる微調整は、しばしば以前に獲得された多目的性の破滅的な忘れ(CF)を招き、様々なタスクにおけるモデルの性能を阻害する。 この課題に対応するために,我々は,特殊性と多目的性のバランスを打つために,粗粒度フレームワークであるCoFiTuneを提案する。 粗粒度レベルでは、経験的木探索アルゴリズムを用いて、特殊性に不可欠な特定のモジュールをピンポイントし更新し、他のパラメータを凍結し続ける。 専門性と汎用性の両方の総合評価において、CoFiTuneは、さまざまなタスクとモデルスケールのベースラインメソッドを一貫して上回ります。 フルパラメータのSFTと比較すると、CoFiTuneは約14%の汎用性向上と13Bモデルでの限界特殊性損失をもたらす。 最後に,LLMにおける情報転送プロセスの投機的考察を行い,提案手法の有効性について解説する。 コードはhttps://github.com/rattlesnakey/CoFiTune.comで入手できる。

Aligned Large Language Models (LLMs) showcase remarkable versatility, capable of handling diverse real-world tasks. Meanwhile, aligned LLMs are also expected to exhibit speciality, excelling in specific applications. However, fine-tuning with extra data, a common practice to gain speciality, often leads to catastrophic forgetting (CF) of previously acquired versatility, hindering the model's performance across diverse tasks. In response to this challenge, we propose CoFiTune, a coarse to fine framework in an attempt to strike the balance between speciality and versatility. At the coarse-grained level, an empirical tree-search algorithm is utilized to pinpoint and update specific modules that are crucial for speciality, while keeping other parameters frozen; at the fine-grained level, a soft-masking mechanism regulates the update to the LLMs, mitigating the CF issue without harming speciality. In an overall evaluation of both speciality and versatility, CoFiTune consistently outperforms baseline methods across diverse tasks and model scales. Compared to the full-parameter SFT, CoFiTune leads to about 14% versatility improvement and marginal speciality loss on a 13B model. Lastly, based on further analysis, we provide a speculative insight into the information forwarding process in LLMs, which helps explain the effectiveness of the proposed method. The code is available at https://github.com/rattlesnakey/CoFiTune.
翻訳日:2024-08-14 22:35:03 公開日:2024-08-12
# $r$から$Q^*$:あなたの言語モデルは秘密裏にQ-Functionである

From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function ( http://arxiv.org/abs/2404.12358v2 )

ライセンス: Link先を確認
Rafael Rafailov, Joey Hejna, Ryan Park, Chelsea Finn, (参考訳) Reinforcement Learning From Human Feedback (RLHF)は、次世代のジェネレーティブAIモデルの成功に不可欠である。 古典的なRLHFパイプラインの複雑な性質に応じて、直接優先度最適化(DPO)のような直接アライメントアルゴリズムが代替手法として登場した。 DPOは標準のRLHF設定と同じ目的を達成しているが、2つのアプローチの間にはミスマッチがある。 標準RLHFは、特定のトークンレベルのMDPに強化学習を展開させる一方、DPOは、モデル全体の応答を単一のアームとして扱うバンドイット問題として導出される。 この作業では、この違いを修正します。 我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを理論的に示す。 理論的結果を用いて,3つの具体的経験的洞察を提供する。 まず、トークンレベルの解釈により、DPOはある種の信用代入を行うことができることを示す。 次に、トークンレベルの定式化の下で、最近言語生成分野に応用されたMCTSのような古典的な検索アルゴリズムは、DPOポリシー上の可能性に基づく探索と等価であることを示す。 実験により、単純なビームサーチが基本DPOポリシーよりも有意義な改善をもたらすことを示す。 最後に、参照ポリシーの選択がトレーニング中に暗黙の報酬を減少させるかを示す。 本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンド・ツー・エンドトレーニングなど,我々の研究の応用について論じる。

Reinforcement Learning From Human Feedback (RLHF) has been critical to the success of the latest generation of generative AI models. In response to the complex nature of the classical RLHF pipeline, direct alignment algorithms such as Direct Preference Optimization (DPO) have emerged as an alternative approach. Although DPO solves the same objective as the standard RLHF setup, there is a mismatch between the two approaches. Standard RLHF deploys reinforcement learning in a specific token-level MDP, while DPO is derived as a bandit problem in which the whole response of the model is treated as a single arm. In this work we rectify this difference. We theoretically show that we can derive DPO in the token-level MDP as a general inverse Q-learning algorithm, which satisfies the Bellman equation. Using our theoretical results, we provide three concrete empirical insights. First, we show that because of its token level interpretation, DPO is able to perform some type of credit assignment. Next, we prove that under the token level formulation, classical search-based algorithms, such as MCTS, which have recently been applied to the language generation space, are equivalent to likelihood-based search on a DPO policy. Empirically we show that a simple beam search yields meaningful improvement over the base DPO policy. Finally, we show how the choice of reference policy causes implicit rewards to decline during training. We conclude by discussing applications of our work, including information elicitation in multi-turn dialogue, reasoning, agentic applications and end-to-end training of multi-model systems.
翻訳日:2024-08-14 22:35:03 公開日:2024-08-12
# 自動運転車の安全性の見直し

Redefining Safety for Autonomous Vehicles ( http://arxiv.org/abs/2404.16768v4 )

ライセンス: Link先を確認
Philip Koopman, William Widen, (参考訳) コンピュータベースのシステムの安全性に関する既存の定義と関連する概念的枠組みは、自動運転車の展開から現実の体験に照らして再考されるべきである。 業界安全基準で現在使用されている用語は、特定されたハザードからのリスクの軽減を強調し、人間の監督された車両操作に基づく仮定を実行している。 人間の運転者なしでの運転は、特にオープンワールド環境での運転、運用制限を自己強化する要件、アドホックな社会技術システムへの参加、法的および倫理的制約の両方に準拠する要件により、安全上の問題の範囲を劇的に拡大する。 既存の標準と用語は、これらの新しい課題に部分的に対処するだけである。 我々は、これらの新たな安全課題に対処するための安全なアプローチを進化させる出発点として、これらの追加考慮を含むコアシステム安全概念の更新定義を提案する。 これらの結果は、他の自律システムアプリケーションに対するフレーミング安全用語を通知する可能性がある。

Existing definitions and associated conceptual frameworks for computer-based system safety should be revisited in light of real-world experiences from deploying autonomous vehicles. Current terminology used by industry safety standards emphasizes mitigation of risk from specifically identified hazards, and carries assumptions based on human-supervised vehicle operation. Operation without a human driver dramatically increases the scope of safety concerns, especially due to operation in an open world environment, a requirement to self-enforce operational limits, participation in an ad hoc sociotechnical system of systems, and a requirement to conform to both legal and ethical constraints. Existing standards and terminology only partially address these new challenges. We propose updated definitions for core system safety concepts that encompass these additional considerations as a starting point for evolving safe-ty approaches to address these additional safety challenges. These results might additionally inform framing safety terminology for other autonomous system applications.
翻訳日:2024-08-14 22:25:12 公開日:2024-08-12
# ハイパーパラメータ最適化のためのIn-Context Freeze-Thaw Bayesian Optimization

In-Context Freeze-Thaw Bayesian Optimization for Hyperparameter Optimization ( http://arxiv.org/abs/2404.16795v3 )

ライセンス: Link先を確認
Herilalaina Rakotoarison, Steven Adriaensen, Neeratyoy Mallik, Samir Garibov, Edward Bergman, Frank Hutter, (参考訳) 深層学習に伴う計算コストの増大に伴い、自動ハイパーパラメータ最適化法はブラックボックスベイズ最適化(BO)に強く依存しており、限界に直面している。 Freeze-thaw BOは有望なグレーボックスの代替を提供し、戦略的に不足するリソースを異なる構成に段階的に割り当てる。 しかし、このアプローチに固有の頻繁なサロゲートモデル更新は、既存の手法に課題をもたらし、ニューラルネットワークのサロゲートをオンラインで再トレーニングまたは微調整し、オーバーヘッド、不安定性、ハイパーハイパーパラメータを導入する。 本研究では,フリーズソースタイルBOのための新しいサロゲートであるFT-PFNを提案する。 FT-PFN(FT-PFN)は、トランスフォーマーのコンテキスト内学習能力を利用して、ベイズ学習曲線外挿を1つの前方通過で効率よく確実に行う、事前データ付きネットワーク(PFN)である。 3つのベンチマークスイートを比較検討した結果,FT-PFN による予測は,ガウス過程の深部と深部アンサンブルサロゲートの10~100倍の精度で高速であることがわかった。 さらに,本手法とMFPI-randomの併用により,従来検討されていた3種類の深層学習HPOベンチマークにおいて,実環境における凍結ソーBO法(ifBO)が新たに実現されたことを示す。

With the increasing computational costs associated with deep learning, automated hyperparameter optimization methods, strongly relying on black-box Bayesian optimization (BO), face limitations. Freeze-thaw BO offers a promising grey-box alternative, strategically allocating scarce resources incrementally to different configurations. However, the frequent surrogate model updates inherent to this approach pose challenges for existing methods, requiring retraining or fine-tuning their neural network surrogates online, introducing overhead, instability, and hyper-hyperparameters. In this work, we propose FT-PFN, a novel surrogate for Freeze-thaw style BO. FT-PFN is a prior-data fitted network (PFN) that leverages the transformers' in-context learning ability to efficiently and reliably do Bayesian learning curve extrapolation in a single forward pass. Our empirical analysis across three benchmark suites shows that the predictions made by FT-PFN are more accurate and 10-100 times faster than those of the deep Gaussian process and deep ensemble surrogates used in previous work. Furthermore, we show that, when combined with our novel acquisition mechanism (MFPI-random), the resulting in-context freeze-thaw BO method (ifBO), yields new state-of-the-art performance in the same three families of deep learning HPO benchmarks considered in prior work.
翻訳日:2024-08-14 22:25:12 公開日:2024-08-12
# 逐次最適化を用いた線形逆問題に対するスコアベースモデルの収束特性

Convergence Properties of Score-Based Models for Linear Inverse Problems Using Graduated Optimisation ( http://arxiv.org/abs/2404.18699v2 )

ライセンス: Link先を確認
Pascal Fernsel, Željko Kereta, Alexander Denker, (参考訳) 逆問題に対する変分定式化における生成モデルの正規化は、多数の画像再構成タスクにおいて有効であることが証明されている。 しかし、結果の最適化問題は、しばしば非凸であり、解決は困難である。 本研究では,逆問題の解法として,スコアベース生成モデル (SGM) を逐次最適化フレームワークとして利用できることを示す。 得られた非凸性流れは元の問題の定常点に収束し、2次元玩具の例の数値収束解析を行う。 さらに,計算トモグラフィ画像再構成実験を行い,このフレームワークが初期値とは無関係に高品質な画像を復元可能であることを示す。 実験では、段階最適化フレームワークでSGMを使用する可能性を強調している。 ソースコードはGitHubで公開されている。

The incorporation of generative models as regularisers within variational formulations for inverse problems has proven effective across numerous image reconstruction tasks. However, the resulting optimisation problem is often non-convex and challenging to solve. In this work, we show that score-based generative models (SGMs) can be used in a graduated optimisation framework to solve inverse problems. We show that the resulting graduated non-convexity flow converge to stationary points of the original problem and provide a numerical convergence analysis of a 2D toy example. We further provide experiments on computed tomography image reconstruction, where we show that this framework is able to recover high-quality images, independent of the initial value. The experiments highlight the potential of using SGMs in graduated optimisation frameworks. The source code is publicly available on GitHub.
翻訳日:2024-08-14 22:25:12 公開日:2024-08-12
# Commonsense-T2Iチャレンジ:テキスト・画像生成モデルはCommonsenseを理解することができるか?

Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense? ( http://arxiv.org/abs/2406.07546v2 )

ライセンス: Link先を確認
Xingyu Fu, Muyu He, Yujie Lu, William Yang Wang, Dan Roth, (参考訳) 本稿では,テキスト・トゥ・イメージ(T2I)生成モデルを用いて,実生活におけるコモンセンスと整合した画像を生成するための新しいタスクとベンチマークを提案する。 例えば「電気のない電球」対「電気のない電球」等、同一の動作語を含む2つの対角的テキストプロンプトが与えられた場合、T2Iモデルは「電球はアンライト」と「電球はライト」とに適合する画像を生成する。 Commonsense-T2Iは、予測出力とともにペアワイズテキストプロンプトを提供する。 データセットは、専門家によって慎重に手作業で作成され、モデル動作の分析を支援するために、コモンセンスタイプや期待される出力の可能性といった、きめ細かいラベルで注釈付けされる。 DALL-E 3モデルでさえCommonsense-T2Iでは48.92%しか達成できず、安定した拡散XLモデルは24.92%の精度しか達成できない。 実験の結果,GPTに富んだプロンプトではこの問題は解決できないことが確認された。 我々は,コモンセンス-T2Iが,実生活画像生成の進歩を育み,T2Iコモンセンスチェックの高品質評価ベンチマークとして機能することを目指している。

We present a novel task and benchmark for evaluating the ability of text-to-image(T2I) generation models to produce images that align with commonsense in real life, which we call Commonsense-T2I. Given two adversarial text prompts containing an identical set of action words with minor differences, such as "a lightbulb without electricity" v.s. "a lightbulb with electricity", we evaluate whether T2I models can conduct visual-commonsense reasoning, e.g. produce images that fit "the lightbulb is unlit" vs. "the lightbulb is lit" correspondingly. Commonsense-T2I presents an adversarial challenge, providing pairwise text prompts along with expected outputs. The dataset is carefully hand-curated by experts and annotated with fine-grained labels, such as commonsense type and likelihood of the expected outputs, to assist analyzing model behavior. We benchmark a variety of state-of-the-art (sota) T2I models and surprisingly find that, there is still a large gap between image synthesis and real life photos--even the DALL-E 3 model could only achieve 48.92% on Commonsense-T2I, and the stable diffusion XL model only achieves 24.92% accuracy. Our experiments show that GPT-enriched prompts cannot solve this challenge, and we include a detailed analysis about possible reasons for such deficiency. We aim for Commonsense-T2I to serve as a high-quality evaluation benchmark for T2I commonsense checking, fostering advancements in real life image generation.
翻訳日:2024-08-14 22:15:08 公開日:2024-08-12
# BrainFounder: 神経画像解析のための脳基礎モデルを目指して

BrainFounder: Towards Brain Foundation Models for Neuroimage Analysis ( http://arxiv.org/abs/2406.10395v2 )

ライセンス: Link先を確認
Joseph Cox, Peng Liu, Skylar E. Stolte, Yunchao Yang, Kang Liu, Kyle B. See, Huiwen Ju, Ruogu Fang, (参考訳) 脳の健康研究の急成長する分野は、人工知能(AI)を活用して神経学的データを解釈し分析する。 本研究では,41,400人の参加者から得られた大規模マルチモーダル磁気共鳴画像(MRI)データセットを統合することにより,医療基盤モデルの構築に向けた新たなアプローチを提案する。 本稿では,視覚変換器を用いた2段階事前学習手法を提案する。 第1段階は、一般に健康な脳で解剖学的構造をコードし、異なる脳領域の形状や大きさなどの重要な特徴を特定することを目的としている。 第2段階は、位置や脳構造の相対的な位置といった側面を含む空間情報に集中する。 我々は、脳腫瘍分離(BraTS)課題とストロークv2.0(ATLAS v2.0)データセット後の解剖学的病変追跡(Anatomical Tracings of Lesions)を使用して、我々のモデルであるBrainFounderを厳格に評価する。 BrainFounderは、完全な教師付き学習を使用して、以前の勝利ソリューションの成果を上回る、大幅なパフォーマンス向上を示す。 以上の結果から,MRIを用いた複雑な神経画像タスクにおけるモデルの精度と予測能力を高めるため,モデルの複雑さと,一般に健康な脳から得られるラベルなしトレーニングデータの量の両方をスケールアップする効果が示唆された。 本研究の意義は、医療における変革的洞察と実践的応用を提供し、医療AIの基礎モデルの構築に向けて大きな一歩を踏み出したものである。 事前トレーニングされたモデルとトレーニングコードは、https://github.com/lab-smile/GatorBrain.orgにある。

The burgeoning field of brain health research increasingly leverages artificial intelligence (AI) to interpret and analyze neurological data. This study introduces a novel approach towards the creation of medical foundation models by integrating a large-scale multi-modal magnetic resonance imaging (MRI) dataset derived from 41,400 participants in its own. Our method involves a novel two-stage pretraining approach using vision transformers. The first stage is dedicated to encoding anatomical structures in generally healthy brains, identifying key features such as shapes and sizes of different brain regions. The second stage concentrates on spatial information, encompassing aspects like location and the relative positioning of brain structures. We rigorously evaluate our model, BrainFounder, using the Brain Tumor Segmentation (BraTS) challenge and Anatomical Tracings of Lesions After Stroke v2.0 (ATLAS v2.0) datasets. BrainFounder demonstrates a significant performance gain, surpassing the achievements of the previous winning solutions using fully supervised learning. Our findings underscore the impact of scaling up both the complexity of the model and the volume of unlabeled training data derived from generally healthy brains, which enhances the accuracy and predictive capabilities of the model in complex neuroimaging tasks with MRI. The implications of this research provide transformative insights and practical applications in healthcare and make substantial steps towards the creation of foundation models for Medical AI. Our pretrained models and training code can be found at https://github.com/lab-smile/GatorBrain.
翻訳日:2024-08-14 22:15:08 公開日:2024-08-12
# 量子増強センシングのための絡み合った物質波

Entangled Matter-waves for Quantum Enhanced Sensing ( http://arxiv.org/abs/2406.13616v2 )

ライセンス: Link先を確認
John Drew Wilson, Jarrod T. Reilly, Haoqing Zhang, Chengyi Luo, Anjun Chu, James K. Thompson, Ana Maria Rey, Murray J. Holland, (参考訳) エンタングルメントの生成と利用は、量子センシングとシミュレーションの分野において不可欠であり、超低温の原子空洞システムは、この事業のための原始的なプラットフォームを提供する。 本稿では、電子的相互作用を必要とせず、空洞内の原子の運動状態のみの絡み合いを創り、制御する方法を提案する。 この相互作用は一般の原子空洞モデルから発生し,原子運動に対する共振器の周波数シフトの役割について議論する。 この空洞反応は、原子運動量状態の間の多くの異なる相互作用をもたらす。 さらに, 原子が密度格子を形成すると, 集団運動が一軸ねじれ, 多体エネルギーギャップを生じ, ノイズの存在下でも気象学的に有用な絡み合いを生じさせることを示した。 注目すべきは、この状態が共有キャビティモードにおける原子間の効果的な運動量-交換相互作用をもたらすことを示したことである。 このシステムは高度に調整可能な多体量子センサーとシミュレータを提供する。

The ability to create and harness entanglement is crucial to the fields of quantum sensing and simulation, and ultracold atom-cavity systems offer pristine platforms for this undertaking. Here, we present a method for creating and controlling entanglement between solely the motional states of atoms in a cavity without the need for electronic interactions. We show this interaction arises from a general atom-cavity model, and discuss the role of the cavity frequency shift in response to atomic motion. This cavity response leads to many different squeezing interactions between the atomic momentum states. Furthermore, we show that when the atoms form a density grating, the collective motion leads to one-axis twisting, a many-body energy gap, and metrologically useful entanglement even in the presence of noise. Noteably, an experiment has recently demonstrated this regime leads to an effective momentum-exchange interaction between atoms in a common cavity mode. This system offers a highly tunable, many-body quantum sensor and simulator.
翻訳日:2024-08-14 22:04:55 公開日:2024-08-12
# 内因性自己補正によるモラル向上 : 内因性メカニズムと表面仮説の解析

Intrinsic Self-correction for Enhanced Morality: An Analysis of Internal Mechanisms and the Superficial Hypothesis ( http://arxiv.org/abs/2407.15286v2 )

ライセンス: Link先を確認
Guangliang Liu, Haitao Mao, Jiliang Tang, Kristen Marie Johnson, (参考訳) 大規模言語モデル(LLM)は、ステレオタイプ、識別、毒性を永続するコンテンツを生成できる。 最近提案された道徳的自己補正は、LLMの応答における有害な内容を減らすための計算学的に効率的な方法である。 しかし、自己補正命令の注入方法がLLMの動作を変える過程は未解明のままである。 本稿では,(1)道徳的自己補正作業のシナリオとは何か,という3つの研究課題に答えることで,道徳的自己補正の有効性を検討する。 2)道徳的自己補正の指示に影響されるLLMの内部メカニズム、例えば隠蔽状態はどのようなものか? (3)本質的な道徳的自己補正は実際に表面的であるか? 自己補正は、LLMが隠れた状態に保存されている不道徳性を本当に減らすのではなく、より道徳的に正しいアウトプットのショートカットを見つけるのに役立つと我々は主張する。 言語生成と多選択質問応答の課題に関する実証調査を通じて、結論を下す。 (i)LLMは両課題にまたがって優れた性能を示しており、正解が既に上位にある場合には、自己訂正指示が特に有益である。 二 中間隠蔽状態の道徳レベルは、一方の指示が他方よりも効果的かどうかの指標として強い。 3) 自己訂正行動の中間的隠蔽状態の解析とタスクケーススタディに基づいて,本質的道徳的自己補正が実際に表面的であるという仮説を最初に提案する。

Large Language Models (LLMs) are capable of producing content that perpetuates stereotypes, discrimination, and toxicity. The recently proposed moral self-correction is a computationally efficient method for reducing harmful content in the responses of LLMs. However, the process of how injecting self-correction instructions can modify the behavior of LLMs remains under-explored. In this paper, we explore the effectiveness of moral self-correction by answering three research questions: (1) In what scenarios does moral self-correction work? (2) What are the internal mechanisms of LLMs, e.g., hidden states, that are influenced by moral self-correction instructions? (3) Is intrinsic moral self-correction actually superficial? We argue that self-correction can help LLMs find a shortcut to more morally correct output, rather than truly reducing the immorality stored in hidden states. Through empirical investigation with tasks of language generation and multi-choice question answering, we conclude: (i) LLMs exhibit good performance across both tasks, and self-correction instructions are particularly beneficial when the correct answer is already top-ranked; (ii) The morality levels in intermediate hidden states are strong indicators as to whether one instruction would be more effective than another; (iii) Based on our analysis of intermediate hidden states and task case studies of self-correction behaviors, we are first to propose the hypothesis that intrinsic moral self-correction is in fact superficial.
翻訳日:2024-08-14 21:54:47 公開日:2024-08-12
# 歯科記録から診断データを抽出する人工知能

Artificial Intelligence in Extracting Diagnostic Data from Dental Records ( http://arxiv.org/abs/2407.21050v2 )

ライセンス: Link先を確認
Yao-Shun Chuang, Chun-Teh Lee, Oluwabunmi Tokede, Guo-Hao Lin, Ryan Brandon, Trung Duong Tran, Xiaoqian Jiang, Muhammad F. Walji, (参考訳) 本研究は, 未構造化テキストから診断情報を抽出することにより, 歯科記録に欠落する構造データの問題に対処する。 更新された歯周組織分類システムの複雑さは不完全または構造診断の欠如を増した。 そこで我々は、GPT-4を利用した高度なAIとNLP手法を用いて、RoBERTaモデルの微調整のための合成音符を生成する。 これにより、モデルが医療や歯科の言語を理解する能力が大幅に向上する。 2つのデータセットからランダムに選択した120個の臨床ノートを用いてモデルの評価を行い,診断精度の向上を実証した。 その結果, 歯周状態, ステージ, グレードの診断精度が高く, サイト1は0.99, サイト2は0.98であった。 サブタイプカテゴリーでは、Site 2はSite 1よりも優れたスコアを得た。 この方法は, 抽出精度を高め, 歯科用コンテキストにまたがって使用を拡大する。 この研究は、AIとNLPの変革的な影響がヘルスケアのデリバリとマネジメントに与える影響を強調している。 AIとNLP技術の統合は、複雑な臨床情報を正確に抽出することによって、ドキュメントを強化し、管理作業を単純化する。 このアプローチは歯科診断における課題に効果的に対処する。 LLMから合成トレーニングデータを使用することで、トレーニングプロセスを最適化し、臨床ノートから歯周診断を識別する精度と効率を向上させる。 この革新的な方法は、より広範な医療応用を約束し、患者のケア品質を向上する可能性がある。

This research addresses the issue of missing structured data in dental records by extracting diagnostic information from unstructured text. The updated periodontology classification system's complexity has increased incomplete or missing structured diagnoses. To tackle this, we use advanced AI and NLP methods, leveraging GPT-4 to generate synthetic notes for fine-tuning a RoBERTa model. This significantly enhances the model's ability to understand medical and dental language. We evaluated the model using 120 randomly selected clinical notes from two datasets, demonstrating its improved diagnostic extraction accuracy. The results showed high accuracy in diagnosing periodontal status, stage, and grade, with Site 1 scoring 0.99 and Site 2 scoring 0.98. In the subtype category, Site 2 achieved perfect scores, outperforming Site 1. This method enhances extraction accuracy and broadens its use across dental contexts. The study underscores AI and NLP's transformative impact on healthcare delivery and management. Integrating AI and NLP technologies enhances documentation and simplifies administrative tasks by precisely extracting complex clinical information. This approach effectively addresses challenges in dental diagnostics. Using synthetic training data from LLMs optimizes the training process, improving accuracy and efficiency in identifying periodontal diagnoses from clinical notes. This innovative method holds promise for broader healthcare applications, potentially improving patient care quality.
翻訳日:2024-08-14 21:54:47 公開日:2024-08-12
# Occam's Razor and Bender and Koller's Octopus

Occam's Razor and Bender and Koller's Octopus ( http://arxiv.org/abs/2407.21070v2 )

ライセンス: Link先を確認
Michael Guerzhoy, (参考訳) 本稿では,Bender と Koller の ACL 2020 論文 "Climbing towards NLU: on meaning form, and understanding in the age of data" を論じる。 我々は,論文の主な論点であると考えられるものを提示し,論文の主張に対する自然な反論に学生が関与することを推奨する。 我々は、この話題を学部生に教えるために使用する教材を添付する。

We discuss the teaching of the discussion surrounding Bender and Koller's prominent ACL 2020 paper, "Climbing toward NLU: on meaning form, and understanding in the age of data" \cite{bender2020climbing}. We present what we understand to be the main contentions of the paper, and then recommend that the students engage with the natural counter-arguments to the claims in the paper. We attach teaching materials that we use to facilitate teaching this topic to undergraduate students.
翻訳日:2024-08-14 21:54:47 公開日:2024-08-12
# MIS-ME:土壌水分推定のためのマルチモーダルフレームワーク

MIS-ME: A Multi-modal Framework for Soil Moisture Estimation ( http://arxiv.org/abs/2408.00963v2 )

ライセンス: Link先を確認
Mohammed Rakib, Adil Aman Mohammed, Cole Diggins, Sumit Sharma, Jeff Michael Sadler, Tyson Ochsner, Arun Bagavathi, (参考訳) 土壌水分推定は、灌水、肥料化、収穫のための最適な計画を作成する際に、精密農業を可能にする重要な課題である。 気象予報や土壌特性,作物特性といった従来のデータソースから土壌水分を推定するために,統計的および機械学習モデルを利用するのが一般的である。 しかし, 土壌水分を推定するために, 地空間画像の利用への関心が高まっている。 これらの画像は高解像度の作物の細部を捉えているが、キュレートするのは高価であり、解釈は困難である。 スマートフォンが捉えた視覚的手がかりと天気予報による統計データを使って土壌の水分を予測するAI強化ソフトウェアツールを想像してみてほしい。 この研究は、土壌水分推定のためのマルチモーダルアプローチを開発するための第一歩である。 特に,地上局から撮影した実世界の画像とそれに対応する気象データからなるデータセットをキュレートする。 また, 土壌水分推定のためのマルチモーダルフレームワークMIS-ME-Meteorological & Imageベース土壌水分推定器を提案する。 我々はMIS-MEが10.14%のMAPEを達成し,気象データでは3.25%,画像データでは2.15%のMAPEを削減し,従来手法よりも優れたMAPEを実現した。

Soil moisture estimation is an important task to enable precision agriculture in creating optimal plans for irrigation, fertilization, and harvest. It is common to utilize statistical and machine learning models to estimate soil moisture from traditional data sources such as weather forecasts, soil properties, and crop properties. However, there is a growing interest in utilizing aerial and geospatial imagery to estimate soil moisture. Although these images capture high-resolution crop details, they are expensive to curate and challenging to interpret. Imagine, an AI-enhanced software tool that predicts soil moisture using visual cues captured by smartphones and statistical data given by weather forecasts. This work is a first step towards that goal of developing a multi-modal approach for soil moisture estimation. In particular, we curate a dataset consisting of real-world images taken from ground stations and their corresponding weather data. We also propose MIS-ME - Meteorological & Image based Soil Moisture Estimator, a multi-modal framework for soil moisture estimation. Our extensive analysis shows that MIS-ME achieves a MAPE of 10.14%, outperforming traditional unimodal approaches with a reduction of 3.25% in MAPE for meteorological data and 2.15% in MAPE for image data, highlighting the effectiveness of tailored multi-modal approaches.
翻訳日:2024-08-14 19:58:40 公開日:2024-08-12
# マルチモーダルLCMのユーザ・イン・ザ・ループ評価

User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance ( http://arxiv.org/abs/2408.03160v2 )

ライセンス: Link先を確認
Mrinal Verghese, Brian Chen, Hamid Eghbalzadeh, Tushar Nagarajan, Ruta Desai, (参考訳) 本研究では,大規模言語モデル(LLM)をベースとした現代多モーダル推論モデルの有用性について検討した。 そのようなアシスタントは可能でなければならない 1)アシスタントのセンサー、例えばカメラからの視覚履歴をエンコードする。 2 活動を達成するための将来の行動を予測すること、及び 3) ループ内のユーザに基づくリプラン。 最初の2つの機能を評価するために、視覚履歴と予測を短くて長い地平線で評価するため、オフラインデータセットを用いたビデオベースのアクション予測タスクにおいて、ソクラティックモデルとビジョン条件付き言語モデル(VCLM)という、2つの著名なマルチモーダル LLM アプローチのクラスをベンチマークする。 しかし、これらのオフラインベンチマークでは、ユーザとのループをクローズすることができません。これは、リプラン機能を評価し、アシストシナリオでのアクティビティ完了を成功させるのに不可欠です。 そこで我々は,Ariaと呼ばれる自我中心の観察装置を装着し,マルチモーダルLCMの補助を受けながら,18人の参加者が3つの異なる多段階調理活動を行う,ファースト・オブ・イズ・ユーザー・スタディを行った。 Socraticのアプローチは、オフラインとオンラインの両方でVCLMよりも優れています。 特にVCLMでは、活動支援に共通する長い視覚的履歴が、現在のモデルでは依然として困難なままであり、オフラインメトリクスがオンラインのパフォーマンスを示すものではないことを実証しています。

Our research investigates the capability of modern multimodal reasoning models, powered by Large Language Models (LLMs), to facilitate vision-powered assistants for multi-step daily activities. Such assistants must be able to 1) encode relevant visual history from the assistant's sensors, e.g., camera, 2) forecast future actions for accomplishing the activity, and 3) replan based on the user in the loop. To evaluate the first two capabilities, grounding visual history and forecasting in short and long horizons, we conduct benchmarking of two prominent classes of multimodal LLM approaches -- Socratic Models and Vision Conditioned Language Models (VCLMs) on video-based action anticipation tasks using offline datasets. These offline benchmarks, however, do not allow us to close the loop with the user, which is essential to evaluate the replanning capabilities and measure successful activity completion in assistive scenarios. To that end, we conduct a first-of-its-kind user study, with 18 participants performing 3 different multi-step cooking activities while wearing an egocentric observation device called Aria and following assistance from multimodal LLMs. We find that the Socratic approach outperforms VCLMs in both offline and online settings. We further highlight how grounding long visual history, common in activity assistance, remains challenging in current models, especially for VCLMs, and demonstrate that offline metrics do not indicate online performance.
翻訳日:2024-08-14 19:58:40 公開日:2024-08-12
# SAM 2 は SAM より優れているか?

Is SAM 2 Better than SAM in Medical Image Segmentation? ( http://arxiv.org/abs/2408.04212v2 )

ライセンス: Link先を確認
Sourya Sengupta, Satrajit Chakrabarty, Ravi Soni, (参考訳) Segment Anything Model (SAM) は、自然画像上のゼロショットプロンプト可能なセグメンテーションにおいて、印象的な性能を示した。 先日リリースされたSegment Anything Model 2 (SAM2)は、SAMを画像で上回り、モデルの能力をビデオセグメンテーションに拡張したと主張している。 医用画像セグメンテーションにおけるこの新モデルの性能評価は,特にゼロショット即発的な評価が重要である。 本研究は, SAM と SAM 2 の性能を比較するために, 様々な画像モダリティから得られた複数のデータセットを用いて広範囲にわたる研究を行った。 私たちは2つのポイントプロンプト戦略を採用しました。 (i)1つのプロンプトが対象構造の中心付近に置かれ、残りのプロンプトがランダムに構造内に置かれる複数の正のプロンプト 2) 対象構造物の遠心部付近に1つの正のプロンプトを配置し, 構造物の外側に2つの負のプロンプトを配置し, 正のプロンプトと互いにの距離を最大化する。 腹部, 心構造, 胎児頭部像, 皮膚病変, ポリープ画像など, 11例のMRI, CT, 超音波, 皮膚内視鏡, 内視鏡的データセットを含む24例の臓器モダリティの組み合わせについて検討した。 2D画像に基づく予備的な結果から、SAM 2はいくつかのケースではわずかに改善されるが、一般的にはSAMよりも医療画像のセグメンテーションに勝るものではないことが示唆された。 特に、SAM2は、CTや超音波などの低コントラスト画像のモダリティにおいてSAMよりも悪い。 しかし、MRI画像の場合、SAM 2はSAMと同等かそれ以上に動作する。 SAM 2と同様に、SAM 2は、特に標的臓器の境界がファジィである場合、過剰な分離の問題に悩まされる。

The Segment Anything Model (SAM) has demonstrated impressive performance in zero-shot promptable segmentation on natural images. The recently released Segment Anything Model 2 (SAM 2) claims to outperform SAM on images and extends the model's capabilities to video segmentation. Evaluating the performance of this new model in medical image segmentation, specifically in a zero-shot promptable manner, is crucial. In this work, we conducted extensive studies using multiple datasets from various imaging modalities to compare the performance of SAM and SAM 2. We employed two point-prompt strategies: (i) multiple positive prompts where one prompt is placed near the centroid of the target structure, while the remaining prompts are randomly placed within the structure, and (ii) combined positive and negative prompts where one positive prompt is placed near the centroid of the target structure, and two negative prompts are positioned outside the structure, maximizing the distance from the positive prompt and from each other. The evaluation encompassed 24 unique organ-modality combinations, including abdominal structures, cardiac structures, fetal head images, skin lesions and polyp images across 11 publicly available MRI, CT, ultrasound, dermoscopy, and endoscopy datasets. Preliminary results based on 2D images indicate that while SAM 2 may perform slightly better in a few cases, it does not generally surpass SAM for medical image segmentation. Notably, SAM 2 performs worse than SAM in lower contrast imaging modalities, such as CT and ultrasound. However, for MRI images, SAM 2 performs on par with or better than SAM. Like SAM, SAM 2 also suffers from over-segmentation issues, particularly when the boundaries of the target organ are fuzzy.
翻訳日:2024-08-14 19:48:49 公開日:2024-08-12
# 微分プライバシー最適化を用いた高速ジョン・エリプソイド計算

Fast John Ellipsoid Computation with Differential Privacy Optimization ( http://arxiv.org/abs/2408.06395v1 )

ライセンス: Link先を確認
Jiuxiang Gu, Xiaoyu Li, Yingyu Liang, Zhenmei Shi, Zhao Song, Junwei Yu, (参考訳) John ellipsoid - 凸ポリトープに含まれる最大のボリューム楕円体 - を決定することは、機械学習、最適化、データ分析におけるアプリケーションの根本的な問題である。 近年の研究では、スケッチを用いてジョン楕円体を近似し、スコアサンプリング技術を活用するための高速アルゴリズムが開発されている。 しかし、これらのアルゴリズムは機密入力データに対するプライバシー保証を提供していない。 本稿では,高速なジョン楕円体計算のための微分プライベートアルゴリズムを提案する。 提案手法は, ノイズ摂動とスケッチ処理を統合し, スコアサンプリングを活用し, 効率とプライバシの両立を図る。 我々は、(1)アルゴリズムが$(\epsilon,\delta)$-differential privacyを提供し、(2)プライバシー定義の柔軟性を許容する近隣データセットに対して、プライバシー保証が成り立つことを証明した; (2) アルゴリズムは、なおも$(1+\xi)$-approximation of the optimal John ellipsoid in $O(\xi^{-2}(\log(n/\delta_0) + (L\epsilon_0)^{-2}) において、最適なJohn ellipsoidの$O(\xi^{-2}(\log(n/\delta_0) + (L\epsilon_0)^{-2}) に収束する。 我々の理論的分析はアルゴリズムの収束性とプライバシ特性を示し、ジョン楕円体計算におけるユーティリティとプライバシのバランスをとるための堅牢なアプローチを提供する。 これはジョン楕円体計算のための最初の微分プライベートアルゴリズムであり、将来のプライバシー保護最適化技術の研究への道を開く。

Determining the John ellipsoid - the largest volume ellipsoid contained within a convex polytope - is a fundamental problem with applications in machine learning, optimization, and data analytics. Recent work has developed fast algorithms for approximating the John ellipsoid using sketching and leverage score sampling techniques. However, these algorithms do not provide privacy guarantees for sensitive input data. In this paper, we present the first differentially private algorithm for fast John ellipsoid computation. Our method integrates noise perturbation with sketching and leverage score sampling to achieve both efficiency and privacy. We prove that (1) our algorithm provides $(\epsilon,\delta)$-differential privacy, and the privacy guarantee holds for neighboring datasets that are $\epsilon_0$-close, allowing flexibility in the privacy definition; (2) our algorithm still converges to a $(1+\xi)$-approximation of the optimal John ellipsoid in $O(\xi^{-2}(\log(n/\delta_0) + (L\epsilon_0)^{-2}))$ iterations where $n$ is the number of data point, $L$ is the Lipschitz constant, $\delta_0$ is the failure probability, and $\epsilon_0$ is the closeness of neighboring input datasets. Our theoretical analysis demonstrates the algorithm's convergence and privacy properties, providing a robust approach for balancing utility and privacy in John ellipsoid computation. This is the first differentially private algorithm for fast John ellipsoid computation, opening avenues for future research in privacy-preserving optimization techniques.
翻訳日:2024-08-14 19:38:59 公開日:2024-08-12
# 大規模言語モデルを用いた設計タンパク質:拡張と比較分析

Design Proteins Using Large Language Models: Enhancements and Comparative Analyses ( http://arxiv.org/abs/2408.06396v1 )

ライセンス: Link先を確認
Kamyar Zeinalipour, Neda Jamshidi, Monica Bianchini, Marco Maggini, Marco Gori, (参考訳) 事前学習されたLLMは、要約やエンティティ認識など、従来の自然言語処理(NLP)タスクにまたがる重要な機能を示している。 本稿では,LLMの高品質タンパク質配列生成への応用について検討する。 具体的には、Mistral-7B1、Llama-2-7B2、Llama-3-8B3、gemma-7B4を含む、事前訓練されたLLMのスイートを採用し、有効なタンパク質配列を生成する。 これらのモデルはすべて公開されています。 この分野でのこれまでの研究とは異なり、我々のアプローチは42,000の異なるヒトタンパク質配列からなる比較的小さなデータセットを使用する。 我々はこれらのモデルを再訓練し、タンパク質関連データを処理し、生物学的に実現可能なタンパク質構造の生成を保証する。 実験の結果, 限られたデータであっても, 適応されたモデルは, 数百万のタンパク質配列を訓練したProGen変異体, ProtGPT2, ProLLaMAなど, 確立されたタンパク質中心モデルに匹敵する効率を示した。 pLDDT, RMSD, TMスコア, REUなどの標準指標を用いて, モデルの性能評価と定量化を行う。 さらに,4つのモデルのトレーニング版を公開し,計算生物学の分野における透明性の向上とコラボレーションを促進することを約束する。

Pre-trained LLMs have demonstrated substantial capabilities across a range of conventional natural language processing (NLP) tasks, such as summarization and entity recognition. In this paper, we explore the application of LLMs in the generation of high-quality protein sequences. Specifically, we adopt a suite of pre-trained LLMs, including Mistral-7B1, Llama-2-7B2, Llama-3-8B3, and gemma-7B4, to produce valid protein sequences. All of these models are publicly available.5 Unlike previous work in this field, our approach utilizes a relatively small dataset comprising 42,000 distinct human protein sequences. We retrain these models to process protein-related data, ensuring the generation of biologically feasible protein structures. Our findings demonstrate that even with limited data, the adapted models exhibit efficiency comparable to established protein-focused models such as ProGen varieties, ProtGPT2, and ProLLaMA, which were trained on millions of protein sequences. To validate and quantify the performance of our models, we conduct comparative analyses employing standard metrics such as pLDDT, RMSD, TM-score, and REU. Furthermore, we commit to making the trained versions of all four models publicly available, fostering greater transparency and collaboration in the field of computational biology.
翻訳日:2024-08-14 19:38:59 公開日:2024-08-12
# 分散スタックルバーグ戦略 : 自律型分散学習生産システムのための状態ベースの可能性ゲーム

Distributed Stackelberg Strategies in State-based Potential Games for Autonomous Decentralized Learning Manufacturing Systems ( http://arxiv.org/abs/2408.06397v1 )

ライセンス: Link先を確認
Steve Yuwono, Dorothea Schwung, Andreas Schwung, (参考訳) 本稿では,多目的最適化課題(DS2-SbPGにおける分散Stackelberg Strategies in State-Based Potential Games (DS2-SbPG))を用いて,分散化された製造システムを自律的に最適化するゲーム構造について述べる。 DS2-SbPGは、潜在的なゲームとStackelbergゲームを統合することで、潜在的なゲームの協調的なトレードオフ能力と、Stackelbergゲームによる多目的最適化処理を改善する。 特に、すべてのトレーニング手順は、完全に分散した方法で実行されます。 DS2-SbPGは、自律学習領域における個々のプレイヤー、特にサブシステム間の多様かつ多様な目的を持つ実世界の産業環境において、統合された目的最適化関数を設定する複雑さを排除し、目的間の最適なトレードオフを見つけるための有望なソリューションを提供する。 さらに、DS2-SbPGは、対応する収束保証をもたらす動的ポテンシャルゲームを構成することを証明した。 DS2-SbPGとDS2-SbPG, Stack DS2-SbPG, Stack DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, DS2-SbPG, その結果,実世界のアプリケーションにおけるDS2-SbPGの可能性を示す電力消費の大幅な削減と全体的な性能の向上が示された。

This article describes a novel game structure for autonomously optimizing decentralized manufacturing systems with multi-objective optimization challenges, namely Distributed Stackelberg Strategies in State-Based Potential Games (DS2-SbPG). DS2-SbPG integrates potential games and Stackelberg games, which improves the cooperative trade-off capabilities of potential games and the multi-objective optimization handling by Stackelberg games. Notably, all training procedures remain conducted in a fully distributed manner. DS2-SbPG offers a promising solution to finding optimal trade-offs between objectives by eliminating the complexities of setting up combined objective optimization functions for individual players in self-learning domains, particularly in real-world industrial settings with diverse and numerous objectives between the sub-systems. We further prove that DS2-SbPG constitutes a dynamic potential game that results in corresponding converge guarantees. Experimental validation conducted on a laboratory-scale testbed highlights the efficacy of DS2-SbPG and its two variants, such as DS2-SbPG for single-leader-follower and Stack DS2-SbPG for multi-leader-follower. The results show significant reductions in power consumption and improvements in overall performance, which signals the potential of DS2-SbPG in real-world applications.
翻訳日:2024-08-14 19:38:59 公開日:2024-08-12
# 合成写真検出:AIによる合成画像の識別のためのビジュアルガイダンス

Synthetic Photography Detection: A Visual Guidance for Identifying Synthetic Images Created by AI ( http://arxiv.org/abs/2408.06398v1 )

ライセンス: Link先を確認
Melanie Mathys, Marco Willi, Raphael Meier, (参考訳) 人工知能(AI)ツールは、合成画像を生成するのに驚くほど強力になった。 特に懸念されるのは、現実世界の出来事を表現しようとする写真に類似した生成画像である。 合成写真は、詐欺から国家俳優、騙し、詐欺、詐欺、誤解を招く人々まで、幅広い脅威俳優によって悪用されることがある。 この脅威を緩和するには、通常、基本的な分析的な疑問に答える必要がある。 そこで本研究では,近年の造形拡散モデルの有効性について検討し,その欠点に焦点をあてた。 これらのアーティファクトを分類し、例を示し、検出する上での課題について議論し、我々の研究の実践的応用を提案し、今後の研究方向性を概説する。

Artificial Intelligence (AI) tools have become incredibly powerful in generating synthetic images. Of particular concern are generated images that resemble photographs as they aspire to represent real world events. Synthetic photographs may be used maliciously by a broad range of threat actors, from scammers to nation-state actors, to deceive, defraud, and mislead people. Mitigating this threat usually involves answering a basic analytic question: Is the photograph real or synthetic? To address this, we have examined the capabilities of recent generative diffusion models and have focused on their flaws: visible artifacts in generated images which reveal their synthetic origin to the trained eye. We categorize these artifacts, provide examples, discuss the challenges in detecting them, suggest practical applications of our work, and outline future research directions.
翻訳日:2024-08-14 19:38:59 公開日:2024-08-12
# MetMamba:時空間マンバモデルによる地域気象予報

MetMamba: Regional Weather Forecasting with Spatial-Temporal Mamba Model ( http://arxiv.org/abs/2408.06400v1 )

ライセンス: Link先を確認
Haoyu Qin, Yungang Chen, Qianchuan Jiang, Pengchao Sun, Xiancai Ye, Chao Lin, (参考訳) ディープラーニングに基づく天気予報(DLWP)モデルは、ここ数年で急速に改善され、最先端の天気予報をかなりの差で上回っている。 最適化の取り組みの多くは、グローバルな文脈で予測範囲を拡張するためのトレーニングカリキュラムに焦点が当てられているが、領域モデリングの限定と天気予報のためのより良いバックボーンという2つの側面は検討されていない。 本稿では,最新の状態空間モデルであるMamba上に構築されたDLWPモデルであるMetMambaが,従来のアテンション機構とニューラル演算子を用いた他の一般的なバックボーンに対して,顕著なパフォーマンス向上とユニークなアドバンテージを提供することを示す。 また、グローバルホストモデルと組み合わせたトレーニングにより、ディープラーニングに基づく限定領域モデリングの実現可能性を示す。

Deep Learning based Weather Prediction (DLWP) models have been improving rapidly over the last few years, surpassing state of the art numerical weather forecasts by significant margins. While much of the optimization effort is focused on training curriculum to extend forecast range in the global context, two aspects remains less explored: limited area modeling and better backbones for weather forecasting. We show in this paper that MetMamba, a DLWP model built on a state-of-the-art state-space model, Mamba, offers notable performance gains and unique advantages over other popular backbones using traditional attention mechanisms and neural operators. We also demonstrate the feasibility of deep learning based limited area modeling via coupled training with a global host model.
翻訳日:2024-08-14 19:38:59 公開日:2024-08-12
# マルチスパイクテンソルPCAの高次元最適化

High-dimensional optimization for multi-spiked tensor PCA ( http://arxiv.org/abs/2408.06401v1 )

ライセンス: Link先を確認
Gérard Ben Arous, Cédric Gerbelot, Vanessa Piccolo, (参考訳) 高次元状態におけるマルチスパイクテンソルモデルの枠組みの中で,2つの局所最適化アルゴリズム,オンライン確率勾配勾配勾配(SGD)と勾配流のダイナミクスについて検討した。 このマルチインデックスモデルは、$r$未知の直交信号ベクトルを$N$次元単位球内で推定することを目的としたテンソル主成分分析(PCA)問題から生じる。 自然初期化から未知のスパイクを効率的に回収するために必要なサンプル数と信号対雑音比(SNR)の条件を決定する。 具体的には、各スパイクの正確なリカバリ、すべてのスパイクの置換のリカバリ、信号ベクトルによる正しいサブ空間のリカバリの3つのタイプを区別する。 オンラインSGDでは、ランク1テンソルPCA問題[Ben Arous, Gheissari, Jagannath 2020, 2021]で特定された計算しきい値と整合して、サンプルスケーリングを$N^{p-2}$とするすべてのスパイクを復元することが可能である。 勾配流の場合、第1のスパイクを効率的に回収するアルゴリズムしきい値も$N^{p-2}$である。 しかし、その後の方向を復元するには、サンプルの数を$N^{p-1}$にスケールする必要がある。 この結果は, 推定器とスパイクの相関関係を記述した低次元系の詳細な解析によって得られた。 特に、1つの相関が臨界しきい値を超えると、行または列インデックスを共有するすべての相関が減少し、無視され、その後の相関が成長してマクロ化される。 相関がマクロとなるシーケンスは、初期値と関連するSNRに依存する。

We study the dynamics of two local optimization algorithms, online stochastic gradient descent (SGD) and gradient flow, within the framework of the multi-spiked tensor model in the high-dimensional regime. This multi-index model arises from the tensor principal component analysis (PCA) problem, which aims to infer $r$ unknown, orthogonal signal vectors within the $N$-dimensional unit sphere through maximum likelihood estimation from noisy observations of an order-$p$ tensor. We determine the number of samples and the conditions on the signal-to-noise ratios (SNRs) required to efficiently recover the unknown spikes from natural initializations. Specifically, we distinguish between three types of recovery: exact recovery of each spike, recovery of a permutation of all spikes, and recovery of the correct subspace spanned by the signal vectors. We show that with online SGD, it is possible to recover all spikes provided a number of sample scaling as $N^{p-2}$, aligning with the computational threshold identified in the rank-one tensor PCA problem [Ben Arous, Gheissari, Jagannath 2020, 2021]. For gradient flow, we show that the algorithmic threshold to efficiently recover the first spike is also of order $N^{p-2}$. However, recovering the subsequent directions requires the number of samples to scale as $N^{p-1}$. Our results are obtained through a detailed analysis of a low-dimensional system that describes the evolution of the correlations between the estimators and the spikes. In particular, the hidden vectors are recovered one by one according to a sequential elimination phenomenon: as one correlation exceeds a critical threshold, all correlations sharing a row or column index decrease and become negligible, allowing the subsequent correlation to grow and become macroscopic. The sequence in which correlations become macroscopic depends on their initial values and on the associated SNRs.
翻訳日:2024-08-14 19:38:59 公開日:2024-08-12
# PhaGO:ゲノムコンテキストの統合によるバクテリオファージのタンパク質機能アノテーション

PhaGO: Protein function annotation for bacteriophages by integrating the genomic context ( http://arxiv.org/abs/2408.06402v1 )

ライセンス: Link先を確認
Jiaojiao Guan, Yongxin Ji, Cheng Peng, Wei Zou, Xubo Tang, Jiayu Shang, Yanni Sun, (参考訳) 細菌ファージは細菌を標的とするウイルスであり、微生物生態学において重要な役割を果たす。 ファージタンパク質は、ウイルス感染、複製、進化などのファージ生物学を理解する上で重要である。 メッサージノミクスシークエンシングによって多くの新しいファージが同定されているが、それらの多くは限定的なタンパク質機能アノテーションを持っている。 ファージタンパク質の正確な機能アノテーションは、その固有の多様性や注釈付きタンパク質の不足など、いくつかの課題を呈している。 既存のツールはまだ、アノテートタンパク質の機能において、ファージのユニークな性質を十分に活用していない。 本研究では,ファージゲノムのモジュール構造を利用した新しいタンパク質機能アノテーションツールを提案する。 最新のタンパク質基盤モデルとトランスフォーマーの埋め込みを利用してファージゲノムのタンパク質間のコンテキスト情報をキャプチャすることで、PhaGOは、それぞれ6.78%と13.05%改善した。 PhaGOは、ホモロジー検索を欠いたタンパク質をアノテートすることができ、急速に蓄積するファージゲノムを特徴づけるのに重要である。 食餌中のホリンを688個同定し,PhaGOの有用性を実証した。 以上の結果から,新たに発見された食の理解を深める上でのPhaGOの可能性が示唆された。

Bacteriophages are viruses that target bacteria, playing a crucial role in microbial ecology. Phage proteins are important in understanding phage biology, such as virus infection, replication, and evolution. Although a large number of new phages have been identified via metagenomic sequencing, many of them have limited protein function annotation. Accurate function annotation of phage proteins presents several challenges, including their inherent diversity and the scarcity of annotated ones. Existing tools have yet to fully leverage the unique properties of phages in annotating protein functions. In this work, we propose a new protein function annotation tool for phages by leveraging the modular genomic structure of phage genomes. By employing embeddings from the latest protein foundation models and Transformer to capture contextual information between proteins in phage genomes, PhaGO surpasses state-of-the-art methods in annotating diverged proteins and proteins with uncommon functions by 6.78% and 13.05% improvement, respectively. PhaGO can annotate proteins lacking homology search results, which is critical for characterizing the rapidly accumulating phage genomes. We demonstrate the utility of PhaGO by identifying 688 potential holins in phages, which exhibit high structural conservation with known holins. The results show the potential of PhaGO to extend our understanding of newly discovered phages.
翻訳日:2024-08-14 19:38:59 公開日:2024-08-12
# 診断CTからDTIトラクトグラフィー・ラベルへ: 深層学習による脊髄損傷の評価と脳内出血の予後予測

From Diagnostic CT to DTI Tractography labels: Using Deep Learning for Corticospinal Tract Injury Assessment and Outcome Prediction in Intracerebral Haemorrhage ( http://arxiv.org/abs/2408.06403v1 )

ライセンス: Link先を確認
Olivia N Murray, Hamied Haroon, Paul Ryu, Hiren Patel, George Harston, Marieke Wermer, Wilmar Jolink, Daniel Hanley, Catharina Klijn, Ulrike Hammerbeck, Adrian Parry-Jones, Timothy Cootes, (参考訳) 脳卒中後の運動回復には,皮質脊髄路(CST)の保存が重要である。 CSTをイメージングで評価する金標準法は拡散テンソルトラクトグラフィである。 しかし、ほとんどの脳内出血(ICH)患者には使用できない。 非コントラストCTは、ほとんどのICC診断パイプラインで定期的に利用可能であるが、CTスキャンから白色物質を抽出することは困難である。 我々は,診断CTスキャンと高方向拡散トラクトグラフィーマップを併用して訓練したnnU-Netを用いて,診断CTスキャンのみからCSTを分割し,Dice類似度係数57%でCSTの拡散に基づくトラクトグラフィーマップを再現することを示した。 外科的血腫除去はICH後に行われることがあるが、現在までに臨床試験が公開されており、手術中は死亡率を低下させるが、機能回復の改善の証拠はない。 無傷のCST患者に対する手術の制限は、血腫除去が機能的改善をもたらす患者のサブセットを明らかにする可能性がある。 MISTIE III 臨床試験データセットを用いて,本モデルの臨床的有用性を検討した。 急性期および慢性期におけるICC後のCST整合性は有意に予測され,高度な拡散テンソルイメージングが不可能な患者に予後指標が得られた。 これにより、手術の恩恵を受ける可能性のあるサブグループの将来の調査が可能になる。

The preservation of the corticospinal tract (CST) is key to good motor recovery after stroke. The gold standard method of assessing the CST with imaging is diffusion tensor tractography. However, this is not available for most intracerebral haemorrhage (ICH) patients. Non-contrast CT scans are routinely available in most ICH diagnostic pipelines, but delineating white matter from a CT scan is challenging. We utilise nnU-Net, trained on paired diagnostic CT scans and high-directional diffusion tractography maps, to segment the CST from diagnostic CT scans alone, and we show our model reproduces diffusion based tractography maps of the CST with a Dice similarity coefficient of 57%. Surgical haematoma evacuation is sometimes performed after ICH, but published clinical trials to date show that whilst surgery reduces mortality, there is no evidence of improved functional recovery. Restricting surgery to patients with an intact CST may reveal a subset of patients for whom haematoma evacuation improves functional outcome. We investigated the clinical utility of our model in the MISTIE III clinical trial dataset. We found that our model's CST integrity measure significantly predicted outcome after ICH in the acute and chronic time frames, therefore providing a prognostic marker for patients to whom advanced diffusion tensor imaging is unavailable. This will allow for future probing of subgroups who may benefit from surgery.
翻訳日:2024-08-14 19:38:59 公開日:2024-08-12
# 膨張する宇宙における相互作用するディラック場:動的凝縮と粒子生成

Interacting Dirac fields in an expanding universe: dynamical condensates and particle production ( http://arxiv.org/abs/2408.06405v1 )

ライセンス: Link先を確認
Carlos Fulgado-Claudio, Pablo Sala, Daniel González-Cuadra, Alejandro Bermudez, (参考訳) 曲がった時空における量子場理論の粒子生成の現象は、インフレーションのエポックから宇宙の大規模構造を理解するために重要である。 自由で固定的なバックグラウンドの場合とは対照的に、強い相互作用と後方反応を持つ粒子の生成は、特に摂動論を超えた状況において完全には理解されていない。 本研究では、拡大するフリードマン・ロバートソン・ヴァルカー宇宙におけるディラックフェルミオンの自己相互作用場理論に焦点をあてることで、この方向の進歩を示す。 連続共形時間と再スケールフィールドを持つハミルトン格子正規化を用いることで、このモデルはコールド原子アナログ重力量子シミュレーションまたは動的変分法のいずれかに対応できる。 変分フェルミオンガウス状態の族を利用して、ある破壊対称性に関連するフェルミオン凝縮の生成と動的質量の生成が、自由場理論のよく知られた結果をどのように修正するかを考察する。 特に、非摂動凝縮がどのようにして起こるのか、さらに重要なことは、そのリアルタイム進化が粒子の生成にどのように影響するかである。 ハッブル膨張速度に依存すると、凝縮体に対する非自明なバック反応や生成粒子のパリティ破れスペクトルを含む相互作用と粒子生成の興味深い相互作用が見つかる。

The phenomenon of particle production for quantum field theories in curved spacetimes is crucial to understand the large-scale structure of a universe from an inflationary epoch. In contrast to the free and fixed-background case, the production of particles with strong interactions and back reaction is not completely understood, especially in situations that require going beyond perturbation theory. In this work, we present advances in this direction by focusing on a self-interacting field theory of Dirac fermions in an expanding Friedmann-Robertson-Walker universe. By using a Hamiltonian lattice regularization with continuous conformal time and rescaled fields, this model becomes amenable to either a cold-atom analogue-gravity quantum simulation, or a dynamical variational approach. Leveraging a family of variational fermionic Gaussian states, we investigate how dynamical mass generation and the formation of fermion condensates associated to certain broken symmetries modify some well-known results of the free field theory. In particular, we study how the non-perturbative condensates arise and, more importantly, how their real-time evolution has an impact on particle production. Depending on the Hubble expansion rate, we find an interesting interplay of interactions and particle production, including a non-trivial back reaction on the condensates and a parity-breaking spectrum of produced particles.
翻訳日:2024-08-14 19:38:59 公開日:2024-08-12
# 一般化された量子シュタイン補題の解

A solution of the generalised quantum Stein's lemma ( http://arxiv.org/abs/2408.06410v1 )

ライセンス: Link先を確認
Ludovico Lami, (参考訳) 一般化された量子シュタインの補題を解くことで、エンタングルメントテストに関連するスタイン指数、すなわち、エンタングルド状態$\rho_{AB}$とジェネリック分離状態$\sigma_{A^n:B^n}$とを区別する量子仮説テストタスクが、エンタングルメントの正規化された相対エントロピーと等しいことを証明した。 これはエンタングルメントテストの最終的な性能を決定するだけでなく、漸近的でない操作の下でのエンタングルメント操作の理論の可逆性を確立し、任意の2つの量子状態間の漸近変換速度を管理するエンタングルメントの正規化相対エントロピーを規定する。 この問題を解決するために2つの手法を導入する。 1つ目は私たちが "blurring" と呼ぶプロシージャで、これは非公式に、近くにある型クラスにもっと均等に広げることで、置換対称な状態を変換します。 完全に古典的な場合、ぼやけただけでシュタインの補題を証明するのに十分である。 しかし、量子問題を解くには十分ではないようだ。 そのため、第2の技術的革新は、問題を無限次元のボソニック量子システムに持ち上げるための第2の量子化ステップを実行することです。 むしろ、ぼやけた写像の第二量子化作用は純粋な損失チャネルに対応する。 この第2の量子化ステップを慎重に検討することは、我々の量子解の中核である。

We solve the generalised quantum Stein's lemma, proving that the Stein exponent associated with entanglement testing, namely, the quantum hypothesis testing task of distinguishing between $n$ copies of an entangled state $\rho_{AB}$ and a generic separable state $\sigma_{A^n:B^n}$, equals the regularised relative entropy of entanglement. Not only does this determine the ultimate performance of entanglement testing, but it also establishes the reversibility of the theory of entanglement manipulation under asymptotically non-entangling operations, with the regularised relative entropy of entanglement governing the asymptotic transformation rate between any two quantum states. To solve the problem we introduce two techniques. The first is a procedure that we call "blurring", which, informally, transforms a permutationally symmetric state by making it more evenly spread across nearby type classes. In the fully classical case, blurring alone suffices to prove the generalised Stein's lemma. To solve the quantum problem, however, it does not seem to suffice. Our second technical innovation, therefore, is to perform a second quantisation step to lift the problem to an infinite-dimensional bosonic quantum system; we then solve it there by using techniques from continuous-variable quantum information. Rather remarkably, the second-quantised action of the blurring map corresponds to a pure loss channel. A careful examination of this second quantisation step is the core of our quantum solution.
翻訳日:2024-08-14 19:38:59 公開日:2024-08-12
# 量子物性の証人としての熱

Heat as a witness of quantum properties ( http://arxiv.org/abs/2408.06418v1 )

ライセンス: Link先を確認
A. de Oliveira Junior, Jonatan Bohr Brask, Patryk Lipka-Bartosik, (参考訳) 熱発生に基づく絡み合いやコヒーレンスを含む量子資源を目撃するための新しいアプローチを提案する。 マクスウェルの悪魔の概念に触発され、量子システムと量子メモリによる熱環境の間の熱交換を分析する。 このシナリオで熱伝達の基本的な限界を探索することにより、量子状態は熱環境とのエネルギー交換を通じて古典的でないシグネチャを明らかにすることができる。 このアプローチは、固定エネルギー測定にのみ依存するため、複雑なシステム固有の測定に代わる有望な代替手段を提供する。 本手法の有効性を実証するため, 単モード電磁界と相互作用する2スピン系における等方性状態とコヒーレンスにおける絡み合いの検出に適用した。

We present a new approach for witnessing quantum resources, including entanglement and coherence, based on heat generation. Inspired by the concept of Maxwell's demon, we analyze the heat exchange between a quantum system and a thermal environment assisted by a quantum memory. By exploring the fundamental limitations of heat transfer in this scenario, we find that quantum states can reveal their non-classical signatures via energy exchange with a thermal environment. This approach offers a promising alternative to complex, system-specific measurements, as it relies solely on fixed energy measurements. To demonstrate the effectiveness of our method, we apply it to the detection of entanglement in isotropic states and coherence in a two-spin system interacting with a single-mode electromagnetic field.
翻訳日:2024-08-14 19:38:59 公開日:2024-08-12
# スピンモデルとしてのニューラルネットワーク:学習を通してガラスから隠れた秩序へ

Neural Networks as Spin Models: From Glass to Hidden Order Through Training ( http://arxiv.org/abs/2408.06421v1 )

ライセンス: Link先を確認
Richard Barney, Michael Winer, Victor Galitksi, (参考訳) ニューラルネットワーク(NN)と統計力学的スピンモデルとの1対1の対応について検討し、ニューロンをイジングスピンにマッピングし、重みをスピンスピン結合にマッピングする。 NNのトレーニングプロセスは、トレーニング時間によってパラメータ化されたスピンハミルトンの族を生成する。 トレーニングが進むにつれて, 磁気相と融解遷移温度について検討する。 まず,従来のシェリントン・カークパトリック・スピングラスの層状版にマップしたNNが,レプリカ対称性の破れを示すことを解析的に証明した。 スピングラス-パラ磁性遷移温度を算出する。 さらに、Thouless-Anderson-Palmer(TAP)方程式を用いて、MNISTデータセットで訓練された2種類のNN上の磁気位相の進化を決定する。 2つのNN型は同様の結果をもたらし、スピンガラスの高速破壊と、溶融遷移温度$T_c$がトレーニング時間におけるパワー則として成長する隠蔽秩序の相の出現を示す。 また、スピン系の結合行列のスペクトルの性質を、リッチ対遅延学習の文脈で論じる。 NNのこの統計的機械的視点は、トレーニングプロセスにおいて有用な統一的な視点を提供し、トレーニングタスクに関連する対称性破壊状態の選択と強化とみなすことができることを示唆する。

We explore a one-to-one correspondence between a neural network (NN) and a statistical mechanical spin model where neurons are mapped to Ising spins and weights to spin-spin couplings. The process of training an NN produces a family of spin Hamiltonians parameterized by training time. We study the magnetic phases and the melting transition temperature as training progresses. First, we prove analytically that the common initial state before training--an NN with independent random weights--maps to a layered version of the classical Sherrington-Kirkpatrick spin glass exhibiting a replica symmetry breaking. The spin-glass-to-paramagnet transition temperature is calculated. Further, we use the Thouless-Anderson-Palmer (TAP) equations--a theoretical technique to analyze the landscape of energy minima of random systems--to determine the evolution of the magnetic phases on two types of NNs (one with continuous and one with binarized activations) trained on the MNIST dataset. The two NN types give rise to similar results, showing a quick destruction of the spin glass and the appearance of a phase with a hidden order, whose melting transition temperature $T_c$ grows as a power law in training time. We also discuss the properties of the spectrum of the spin system's bond matrix in the context of rich vs. lazy learning. We suggest that this statistical mechanical view of NNs provides a useful unifying perspective on the training process, which can be viewed as selecting and strengthening a symmetry-broken state associated with the training task.
翻訳日:2024-08-14 19:38:59 公開日:2024-08-12
# テーブルにおけるエンティティの曖昧さに基づく言語モデルの評価

Evaluating Language Models on Entity Disambiguation in Tables ( http://arxiv.org/abs/2408.06423v1 )

ライセンス: Link先を確認
Federico Belotti, Fabio Dadda, Marco Cremaschi, Roberto Avogadro, Riccardo Pozzi, Matteo Palmonari, (参考訳) テーブルは情報の重要なコンテナだが、その意味を理解することは難しいかもしれない。 実際、最近ではセマンティックテーブル解釈(STI:Semantic Table Interpretation)に焦点が当てられている。 長年にわたって、深層学習に基づくデータ駆動アプローチへの関心が高まってきた。 最終時代において、LLM(Large Language Models)の出現は、テーブルアノテーションのための新しいカテゴリのアプローチにつながった。 この研究分野への関心は、複数の課題によって特徴づけられ、異なる手法を用いたアプローチの急増につながっている。 しかし、これらのアプローチは共通の根拠で一貫して評価されておらず、評価と比較が困難である。 本研究は、アリゲータ(元s-elBat)、ダゴバ、TURL、TableLlamaの4つの最先端(SOTA)アプローチを広範囲に評価することを提案する。 主な目的は、分野における新たな研究パスをチャート化することを目的として、エンティティの曖昧さを解消するためのこれらのアプローチの能力を測定することである。

Tables are crucial containers of information, but understanding their meaning may be challenging. Indeed, recently, there has been a focus on Semantic Table Interpretation (STI), i.e., the task that involves the semantic annotation of tabular data to disambiguate their meaning. Over the years, there has been a surge in interest in data-driven approaches based on deep learning that have increasingly been combined with heuristic-based approaches. In the last period, the advent of Large Language Models (LLMs) has led to a new category of approaches for table annotation. The interest in this research field, characterised by multiple challenges, has led to a proliferation of approaches employing different techniques. However, these approaches have not been consistently evaluated on a common ground, making evaluation and comparison difficult. This work proposes an extensive evaluation of four state-of-the-art (SOTA) approaches - Alligator (formerly s-elBat), Dagobah, TURL, and TableLlama; the first two belong to the family of heuristic-based algorithms, while the others are respectively encoder-only and decoder-only LLMs. The primary objective is to measure the ability of these approaches to solve the entity disambiguation task, with the ultimate aim of charting new research paths in the field.
翻訳日:2024-08-14 19:38:59 公開日:2024-08-12
# 非線形多スケール状態空間モデルにおけるベイズ学習

Bayesian Learning in a Nonlinear Multiscale State-Space Model ( http://arxiv.org/abs/2408.06425v1 )

ライセンス: Link先を確認
Nayely Vélez-Cruz, Manfred D. Laubichler, (参考訳) 複雑なシステムにおけるマルチスケール相互作用の普遍性はよく認識されており、発達と遺伝性は、異なる時間スケールのプロセスが相互にどのように影響するかを示す主要な例である。 この研究は、異なる時間スケールで相互作用するシステム間の動的相互作用を、各スケール間のフィードバックで探索する、新しいマルチスケール状態空間モデルを導入している。 本稿では,このマルチスケールモデルにおける未知のプロセスノイズ共分散を学習することにより,未知の状態の推定を行うためのベイズ学習フレームワークを提案する。 本研究では,提案手法の有効性をシミュレーションし,提案手法の有効性を実証するPGASアルゴリズムを開発した。

The ubiquity of multiscale interactions in complex systems is well-recognized, with development and heredity serving as a prime example of how processes at different temporal scales influence one another. This work introduces a novel multiscale state-space model to explore the dynamic interplay between systems interacting across different time scales, with feedback between each scale. We propose a Bayesian learning framework to estimate unknown states by learning the unknown process noise covariances within this multiscale model. We develop a Particle Gibbs with Ancestor Sampling (PGAS) algorithm for inference and demonstrate through simulations the efficacy of our approach.
翻訳日:2024-08-14 19:38:59 公開日:2024-08-12
# セキュアなコードアセスメントのための大規模言語モデル:多言語実証的研究

Large Language Models for Secure Code Assessment: A Multi-Language Empirical Study ( http://arxiv.org/abs/2408.06428v1 )

ライセンス: Link先を確認
Kohei Dozono, Tiago Espinha Gasiba, Andrea Stocco, (参考訳) ほとんどの脆弱性検出研究は、C/C++コードの脆弱性のデータセットに焦点を当てており、言語の多様性が制限されている。 したがって、大規模言語モデル(LLM)を含むディープラーニング手法が、これらの言語を超えたソフトウェア脆弱性の検出に有効であることは、まだ明らかになっていない。 本稿では、異なるプロンプトとロール戦略を用いて、共通弱度列挙(CWE)の検出と分類におけるLCMの有効性を評価する。 GPT-3.5- Turbo, GPT-4 Turbo, GPT-4o, CodeLLama-7B, CodeLLama-13B, Gemini 1.5 Pro)とPython, C, C++, Java, JavaScriptの5つのプログラミング言語を対象として実験を行った。 我々は、複数のソースから多言語脆弱性データセットをコンパイルし、代表性を確保した。 以上の結果から,GPT-4oは脆弱性検出とCWE分類のスコアを数ショット設定で達成できることがわかった。 この結果とは別に,VSCodeと統合されたCODEGUARDIANというライブラリを開発した。 我々はCODEGUARDIANを,業界から22人の開発者を対象としたユーザスタディで評価した。 我々の研究では、CODEGUARDIANを使うことで、開発者はより正確で、より高速に脆弱性を検出します。

Most vulnerability detection studies focus on datasets of vulnerabilities in C/C++ code, offering limited language diversity. Thus, the effectiveness of deep learning methods, including large language models (LLMs), in detecting software vulnerabilities beyond these languages is still largely unexplored. In this paper, we evaluate the effectiveness of LLMs in detecting and classifying Common Weakness Enumerations (CWE) using different prompt and role strategies. Our experimental study targets six state-of-the-art pre-trained LLMs (GPT-3.5- Turbo, GPT-4 Turbo, GPT-4o, CodeLLama-7B, CodeLLama- 13B, and Gemini 1.5 Pro) and five programming languages: Python, C, C++, Java, and JavaScript. We compiled a multi-language vulnerability dataset from different sources, to ensure representativeness. Our results showed that GPT-4o achieves the highest vulnerability detection and CWE classification scores using a few-shot setting. Aside from the quantitative results of our study, we developed a library called CODEGUARDIAN integrated with VSCode which enables developers to perform LLM-assisted real-time vulnerability analysis in real-world security scenarios. We have evaluated CODEGUARDIAN with a user study involving 22 developers from the industry. Our study showed that, by using CODEGUARDIAN, developers are more accurate and faster at detecting vulnerabilities.
翻訳日:2024-08-14 19:27:43 公開日:2024-08-12
# ウェーブレットによる塗装検出

Wavelet based inpainting detection ( http://arxiv.org/abs/2408.06429v1 )

ライセンス: Link先を確認
Barglazan Adrian-Alin, Brad Remus Ovidiu, (参考訳) 画像編集ツールの進歩により、デジタル画像の操作は驚くほど容易になった。 被写体を取り除いたり、画像の一部を埋め込んだりするインペイントは、画像復元と偽造の両方のための強力なツールとして機能する。 本稿では,DT-CWTと階層的特徴セグメンテーションを組み合わせ,ノイズの不整合解析を併用することにより,画像の塗り絵検出に新たなアプローチを提案する。 DT-CWTは、本質的なシフト不変性(inpainting process)や、特定の周波数帯域や方向の塗布によって導入された微妙なアーティファクトを捉えるのに役立つ方向選択性(direction selectivity)など、このタスクにいくつかの利点を提供している。 まずカラー画像のセグメンテーションを適用して各セグメントを解析することにより、DT-CWで得られたノイズの不整合を、塗装偽造のパターンを識別する。 提案手法は,この目的のために作成したベンチマークデータセットを用いて評価し,既存の偽造検出手法と比較した。 インペイント画像の検出において,SOTAと比較して優れた結果が得られた。

With the advancement in image editing tools, manipulating digital images has become alarmingly easy. Inpainting, which is used to remove objects or fill in parts of an image, serves as a powerful tool for both image restoration and forgery. This paper introduces a novel approach for detecting image inpainting forgeries by combining DT-CWT with Hierarchical Feature segmentation and with noise inconsistency analysis. The DT-CWT offers several advantages for this task, including inherent shift-invariance, which makes it robust to minor manipulations during the inpainting process, and directional selectivity, which helps capture subtle artifacts introduced by inpainting in specific frequency bands and orientations. By first applying color image segmentation and then analyzing for each segment, noise inconsistency obtained via DT-CW we can identify patterns indicative of inpainting forgeries. The proposed method is evaluated on a benchmark dataset created for this purpose and is compared with existing forgery detection techniques. Our approach demonstrates superior results compared with SOTA in detecting inpainted images.
翻訳日:2024-08-14 19:27:43 公開日:2024-08-12
# CCC白書の課題と課題

Addressing the Unforeseen Harms of Technology CCC Whitepaper ( http://arxiv.org/abs/2408.06431v1 )

ライセンス: Link先を確認
Nadya Bliss, Kevin Butler, David Danks, Ufuk Topcu, Matthew Turk, (参考訳) 近年、ポジティブとネガティブの両方で、コンピューティング技術の潜在的な影響に対する認識が高まりつつある。 このホワイトペーパーは、予測が難しいかもしれないコンピューティング技術の有害な結果に対処し、それによって軽減または対処する方法を探求する。 テクノロジによる害は,意図的あるいは意図的なものである,という前提から始まったものだ。 それでも、新しいテクノロジーの潜在的な害を予想し、対応することの難しい問題に対処するための具体的なステップがある。

Recent years have seen increased awareness of the potential significant impacts of computing technologies, both positive and negative. This whitepaper explores how to address possible harmful consequences of computing technologies that might be difficult to anticipate, and thereby mitigate or address. It starts from the assumption that very few harms due to technology are intentional or deliberate; rather, the vast majority result from failure to recognize and respond to them prior to deployment. Nonetheless, there are concrete steps that can be taken to address the difficult problem of anticipating and responding to potential harms from new technologies.
翻訳日:2024-08-14 19:27:43 公開日:2024-08-12
# HAT: オンライン・テンポラル・アクション・ローカライゼーションのための履歴強化アンカー・トランス

HAT: History-Augmented Anchor Transformer for Online Temporal Action Localization ( http://arxiv.org/abs/2408.06437v1 )

ライセンス: Link先を確認
Sakib Reza, Yuexi Zhang, Mohsen Moghaddam, Octavia Camps, (参考訳) オンラインビデオ理解はしばしば個々のフレームに依存し、フレーム単位での予測につながる。 オンライン・テンポラル・アクション・ローカライゼーション(Ontal)のような最近の進歩は、このアプローチをインスタンスレベルの予測にまで拡張している。 しかし、既存の手法は主に、歴史的情報を無視する短期的な文脈に焦点を当てている。 これを解決するために,OnTAL の History-Augmented Anchor Transformer (HAT) Framework を紹介する。 歴史的文脈を統合することにより,長期情報と短期情報との相乗効果が向上し,分類やローカライゼーションに欠かせないアンカー特性の質が向上する。 手続き型エゴセントリックデータセット (EGTEA, EPIC) と標準非PREGOオンメタルデータセット (THUMOS, MUSES) を比較した。 その結果,PREGOデータセットでは,PREGOデータセットと同等あるいはわずかに優れたパフォーマンスを達成し,特に手続き的およびエゴシックなアクションシナリオにおいて,長期的履歴を活用することの重要性を浮き彫りにしている。 コードは、https://github.com/sakibreza/ECCV24-HAT/で入手できる。

Online video understanding often relies on individual frames, leading to frame-by-frame predictions. Recent advancements such as Online Temporal Action Localization (OnTAL), extend this approach to instance-level predictions. However, existing methods mainly focus on short-term context, neglecting historical information. To address this, we introduce the History-Augmented Anchor Transformer (HAT) Framework for OnTAL. By integrating historical context, our framework enhances the synergy between long-term and short-term information, improving the quality of anchor features crucial for classification and localization. We evaluate our model on both procedural egocentric (PREGO) datasets (EGTEA and EPIC) and standard non-PREGO OnTAL datasets (THUMOS and MUSES). Results show that our model outperforms state-of-the-art approaches significantly on PREGO datasets and achieves comparable or slightly superior performance on non-PREGO datasets, underscoring the importance of leveraging long-term history, especially in procedural and egocentric action scenarios. Code is available at: https://github.com/sakibreza/ECCV24-HAT/
翻訳日:2024-08-14 19:27:43 公開日:2024-08-12
# 長期交通予測における連続ストリームデータに対する多視点ニューラル微分方程式

Multi-View Neural Differential Equations for Continuous-Time Stream Data in Long-Term Traffic Forecasting ( http://arxiv.org/abs/2408.06445v1 )

ライセンス: Link先を確認
Zibo Liu, Zhe Jiang, Shigang Chen, (参考訳) 長期交通フロー予測は、交通管理者が事前に意思決定を調整できるため、インテリジェント交通において重要な役割を担っている。 しかし、この問題は時空間相関と連続時間ストリームデータにおける複雑な動的パターンにより困難である。 ニューラル微分方程式(Neural Differential Equations, NDE)は、連続時間トラフィックダイナミクスを学習するための最先端の手法の一つである。 しかし、従来のNDEモデルは、遅延したトラフィックパターン、動的エッジ(位置-位置相関)パターン、急激なトレンドパターンの捕捉に失敗するため、長期トラフィック予測の課題に直面している。 このギャップを埋めるために、我々はMulti-View Neural Differential Equationsと呼ばれる新しいNDEアーキテクチャを提案する。 我々のモデルは、ニューラル微分方程式内の潜在多重表現を学習することにより、状態変数(ビュー)の現在の状態、遅延状態、およびトレンドをキャプチャする。 複数の実世界の交通データセットで実施した大規模な実験により,提案手法は最先端の手法より優れ,長期予測やノイズや欠落した入力によるロバスト性に優れた予測精度が得られた。

Long-term traffic flow forecasting plays a crucial role in intelligent transportation as it allows traffic managers to adjust their decisions in advance. However, the problem is challenging due to spatio-temporal correlations and complex dynamic patterns in continuous-time stream data. Neural Differential Equations (NDEs) are among the state-of-the-art methods for learning continuous-time traffic dynamics. However, the traditional NDE models face issues in long-term traffic forecasting due to failures in capturing delayed traffic patterns, dynamic edge (location-to-location correlation) patterns, and abrupt trend patterns. To fill this gap, we propose a new NDE architecture called Multi-View Neural Differential Equations. Our model captures current states, delayed states, and trends in different state variables (views) by learning latent multiple representations within Neural Differential Equations. Extensive experiments conducted on several real-world traffic datasets demonstrate that our proposed method outperforms the state-of-the-art and achieves superior prediction accuracy for long-term forecasting and robustness with noisy or missing inputs.
翻訳日:2024-08-14 19:27:43 公開日:2024-08-12
# S-SAM: SVDを用いた医用画像分割用セグメンテーションモデルの微調整

S-SAM: SVD-based Fine-Tuning of Segment Anything Model for Medical Image Segmentation ( http://arxiv.org/abs/2408.06447v1 )

ライセンス: Link先を確認
Jay N. Paranjape, Shameema Sikder, S. Swaroop Vedula, Vishal M. Patel, (参考訳) 医用画像のセグメンテーションは伝統的に、新しいモダリティやデータセットに対応するために、モデル全体のトレーニングや微調整によってアプローチされてきた。 しかし、このアプローチでは、トレーニング中に多数のパラメータをチューニングする必要があることが多い。 自然画像のセグメンテーションのためのSegment Anything Model(SAM)の導入により、医用画像に効果的に適応し、トレーニング時間とリソースを削減した。 しかしながら、これらのメソッドは、トレーニングや推論中にポイントプロンプトやバウンディングボックスプロンプトという形で、すべてのイメージに対して専門家のアノテーションを必要とするため、実際にそれらを採用するのは面倒である。 本稿では,SAMのパラメータの0.4%に相当するパラメータのみを訓練するS-SAMという適応手法を提案する。 これにより、SAMのチューニングが既存のアダプティブメソッドよりも効率的になるだけでなく、専門家によるプロンプトの提供の負担も軽減される。 内視鏡像,X線像,超音波像,CT像,組織像の5つの異なるモードで評価した。 実験の結果、S-SAMは既存のSAM適応法と同様に最先端の手法よりも優れており、パラメータの数も大幅に少ないことがわかった。 我々はS-SAMのコードをhttps://github.com/JayParanjape/SVDSAMでリリースします。

Medical image segmentation has been traditionally approached by training or fine-tuning the entire model to cater to any new modality or dataset. However, this approach often requires tuning a large number of parameters during training. With the introduction of the Segment Anything Model (SAM) for prompted segmentation of natural images, many efforts have been made towards adapting it efficiently for medical imaging, thus reducing the training time and resources. However, these methods still require expert annotations for every image in the form of point prompts or bounding box prompts during training and inference, making it tedious to employ them in practice. In this paper, we propose an adaptation technique, called S-SAM, that only trains parameters equal to 0.4% of SAM's parameters and at the same time uses simply the label names as prompts for producing precise masks. This not only makes tuning SAM more efficient than the existing adaptation methods but also removes the burden of providing expert prompts. We call this modified version S-SAM and evaluate it on five different modalities including endoscopic images, x-ray, ultrasound, CT, and histology images. Our experiments show that S-SAM outperforms state-of-the-art methods as well as existing SAM adaptation methods while tuning a significantly less number of parameters. We release the code for S-SAM at https://github.com/JayParanjape/SVDSAM.
翻訳日:2024-08-14 19:27:43 公開日:2024-08-12
# 効率的なコード生成のための言語モデルの評価

Evaluating Language Models for Efficient Code Generation ( http://arxiv.org/abs/2408.06450v1 )

ライセンス: Link先を確認
Jiawei Liu, Songrun Xie, Junhao Wang, Yuxiang Wei, Yifeng Ding, Lingming Zhang, (参考訳) 本稿では,高効率コード生成のための大規模言語モデル(LLM)を確実に評価するフレームワークである差分性能評価(DPE)を紹介する。 従来のコーディングベンチマークは、単純なテストインプットへの依存と効果的な複合メトリクスの欠如のため、コードの効率に関する信頼できる洞察を得られないことが多い。 DPEはこれらの問題に対処し、効率性の要求するプログラミングタスクに焦点をあて、パフォーマンス評価のための洞察に富んだ複合指標を確立する。 DPEは、効率データセットをキュレートするために、既存のコーディングベンチマークから効率要求タスクを選択し、計算コストの高い入力を生成し、LLMソリューションの効率を強調する。 コード効率を評価するために、DPEは新しいソリューションをプロファイルし、異なる効率レベルを示す参照ソリューションのセットと比較する。 概念実証として、私たちはDPEを使用して、121のコードタスクのパフォーマンスを満足させるベンチマークであるEvalPerfを作成します。 包括的評価は、モデルサイズ、命令チューニング、プロンプトの効率への影響について興味深い知見を導き出す。 例えば、スケーリング法則はコードの効率を考慮できないが、一般的なインストラクションチューニングはコードの正確性と効率の両方に恩恵がある。 また,DPEの有効性を検討した結果,EvalPerfはプラットフォーム間でも信頼性が高く,便利であることがわかった。

We introduce Differential Performance Evaluation (DPE), a framework designed to reliably evaluate Large Language Models (LLMs) for efficient code generation. Traditional coding benchmarks often fail to provide reliable insights into code efficiency, due to their reliance on simplistic test inputs and the absence of effective compound metrics. DPE addresses these issues by focusing on efficiency-demanding programming tasks and establishing an insightful compound metric for performance evaluation. DPE operates in two phases: To curate efficiency datasets, it selects efficiency-demanding tasks from existing coding benchmarks and generates computationally expensive inputs to stress the efficiency of LLM solutions. To assess the code efficiency, DPE profiles the new solution and compares it globally against a set of reference solutions that exhibit distinct efficiency levels, where the matched level defines its efficiency score. As a proof of concept, we use DPE to create EvalPerf, a benchmark with 121 performance-challenging coding tasks. Our comprehensive evaluation draws interesting findings on the efficiency impact of model sizes, instruction tuning, and prompting. For example, while the scaling law fails to account for code efficiency, general instruction tuning benefits both code correctness and efficiency. We also evaluate the evaluation by examining the effectiveness of DPE, showing that EvalPerf is reliable and convenient to use even across platforms.
翻訳日:2024-08-14 19:27:43 公開日:2024-08-12
# ディープリーニングに基づく屋内位置推定のための無線チャネル認識データ拡張手法

Wireless Channel Aware Data Augmentation Methods for Deep Leaning-Based Indoor Localization ( http://arxiv.org/abs/2408.06452v1 )

ライセンス: Link先を確認
Omer Gokalp Serbetci, Daoud Burghal, Andreas F. Molisch, (参考訳) 屋内のローカライゼーションは、屋外のローカライゼーションとは異なり、普遍的で堅牢なソリューションが欠けている、難しい問題である。 機械学習(ML)、特にディープラーニング(DL)の手法は、有望なアプローチとして研究されている。 このような手法は、顕著なローカライゼーション精度をもたらすが、環境から収集したトレーニングデータに大きく依存する。 データ収集は通常、手間と時間を要する作業だが、この問題を緩和するためにデータ拡張(DA)を使用することができる。 本稿では,従来のDAとは違って,無線伝搬チャネルやデバイスに関するドメイン知識を活用する手法を提案する。 これらの手法は、測定された電力遅延プロファイル(PDP)と組み合わせて、トランシーバー内の典型的なハードウェアコンポーネントのドリフトおよび/またはチャネルの統計的挙動を利用する。 提案手法の有効性を総合的に評価する。 本研究は, 測定数, 増分率, 興味環境などの要因が, 異なるDA法の有効性に与える影響に主に焦点をあてる。 その結果,ローデータ方式では,ローデータ方式では局所化精度が50%まで向上し,高データ方式では非増大結果と一致することがわかった。 また,提案手法は測定データ量の1/4しか使用せず,計測のみのハイデータ性能を最大33%向上させることができる。 また,異なるトレーニングデータ分布と品質がDAの有効性に及ぼす影響を示す。 最後に、ターゲットおよび/またはソース環境におけるデータ不足に対処するため、Transfer Learning(TL)と共に提案手法のパワーを実証する。

Indoor localization is a challenging problem that - unlike outdoor localization - lacks a universal and robust solution. Machine Learning (ML), particularly Deep Learning (DL), methods have been investigated as a promising approach. Although such methods bring remarkable localization accuracy, they heavily depend on the training data collected from the environment. The data collection is usually a laborious and time-consuming task, but Data Augmentation (DA) can be used to alleviate this issue. In this paper, different from previously used DA, we propose methods that utilize the domain knowledge about wireless propagation channels and devices. The methods exploit the typical hardware component drift in the transceivers and/or the statistical behavior of the channel, in combination with the measured Power Delay Profile (PDP). We comprehensively evaluate the proposed methods to demonstrate their effectiveness. This investigation mainly focuses on the impact of factors such as the number of measurements, augmentation proportion, and the environment of interest impact the effectiveness of the different DA methods. We show that in the low-data regime (few actual measurements available), localization accuracy increases up to 50%, matching non-augmented results in the high-data regime. In addition, the proposed methods may outperform the measurement-only high-data performance by up to 33% using only 1/4 of the amount of measured data. We also exhibit the effect of different training data distribution and quality on the effectiveness of DA. Finally, we demonstrate the power of the proposed methods when employed along with Transfer Learning (TL) to address the data scarcity in target and/or source environments.
翻訳日:2024-08-14 19:27:43 公開日:2024-08-12
# ロバストモスキート分類のための高度な視覚変換器とオープンセット学習 : 昆虫学の新しいアプローチ

Advanced Vision Transformers and Open-Set Learning for Robust Mosquito Classification: A Novel Approach to Entomological Studies ( http://arxiv.org/abs/2408.06457v1 )

ライセンス: Link先を確認
Ahmed Akib Jawad Karim, Muhammad Zawad Mahmud, Riasat Khan, (参考訳) モスキート関連疾患は世界の公衆衛生にとって重大な脅威となり、効果的な監視と管理のために効率よく正確な蚊の分類を必要とする。 この研究は、最先端の視覚変換器とオープンセット学習技術を活用することにより、蚊の分類に革新的なアプローチを示す。 トランスフォーマーをベースとしたディープラーニングモデルと包括的データ拡張および前処理手法を統合し、蚊10種の堅牢かつ正確な識別を可能にする新しいフレームワークが導入された。 Swin Transformerモデルは、99.80\%の精度と0.998 F1スコアで、従来のクローズドセット学習において最高のパフォーマンスを達成する。 軽量なMobileViT技術は、パラメータとモデルの複雑さを大幅に減らした98.90\%の精度を実現している。 次に、静的環境における応用ディープラーニングモデルの適応性と一般化性は、トレーニングセットに含まれていない推論段階において、新しいデータサンプルのクラスを使用することによって向上した。 オープンセット学習により、蚊や人間に類似した昆虫のような目に見えないクラスを扱えるフレームワークは、OpenMax技術とWeibull分布を用いた実用性をさらに向上させる。 従来のCNNモデルであるXceptionは、より正確でF1スコアのオープンセット学習で最新のトランスフォーマーを上回っている。 この研究は、昆虫学における先進的なディープラーニングアーキテクチャの変革の可能性を強調し、蚊の監視とベクターコントロールにおける将来の研究と開発のための強力な基盤を提供する。 この研究の意義は蚊の分類を超えて、より広範囲の生態・環境モニタリングアプリケーションに有用な洞察を与えている。

Mosquito-related diseases pose a significant threat to global public health, necessitating efficient and accurate mosquito classification for effective surveillance and control. This work presents an innovative approach to mosquito classification by leveraging state-of-the-art vision transformers and open-set learning techniques. A novel framework has been introduced that integrates Transformer-based deep learning models with comprehensive data augmentation and preprocessing methods, enabling robust and precise identification of ten mosquito species. The Swin Transformer model achieves the best performance for traditional closed-set learning with 99.80\% accuracy and 0.998 F1 score. The lightweight MobileViT technique attains an almost similar accuracy of 98.90\% with significantly reduced parameters and model complexities. Next, the applied deep learning models' adaptability and generalizability in a static environment have been enhanced by using new classes of data samples during the inference stage that have not been included in the training set. The proposed framework's ability to handle unseen classes like insects similar to mosquitoes, even humans, through open-set learning further enhances its practical applicability employing the OpenMax technique and Weibull distribution. The traditional CNN model, Xception, outperforms the latest transformer with higher accuracy and F1 score for open-set learning. The study's findings highlight the transformative potential of advanced deep-learning architectures in entomology, providing a strong groundwork for future research and development in mosquito surveillance and vector control. The implications of this work extend beyond mosquito classification, offering valuable insights for broader ecological and environmental monitoring applications.
翻訳日:2024-08-14 19:27:43 公開日:2024-08-12
# 自律エージェントを目指して:言語モデルにおける適応計画、推論、行動

Towards Autonomous Agents: Adaptive-planning, Reasoning, and Acting in Language Models ( http://arxiv.org/abs/2408.06458v1 )

ライセンス: Link先を確認
Yen-Che Hsiao, Abhishek Dutta, (参考訳) 本稿では,自律型意思決定言語エージェント構築のためのコンテキスト内学習アルゴリズムを提案する。 言語エージェントは、タスクが失敗するたびに自己修正を行うことで、同じタスクを継続的に解決しようとする。 選択した言語エージェントは,テキストベースのゲーム環境でタスクを解く能力を実証する。 提案手法を用いたgemma-2-9b-it言語モデルでは,最初の試みで失敗した6つのタスクのうち2つのタスクを完了することができた。 これは、自己補正を通じて単一言語モデルの問題解決能力を向上し、より高度な自律エージェントへの道を開くアプローチの有効性を強調します。 コードはhttps://github.com/YenCheHsiao/AutonomousLLMAgentwithAdaptingPlanningで公開されている。

We propose a novel in-context learning algorithm for building autonomous decision-making language agents. The language agent continuously attempts to solve the same task by self-correcting each time the task fails. Our selected language agent demonstrates the ability to solve tasks in a text-based game environment. Our results show that the gemma-2-9b-it language model, using our proposed method, can successfully complete two of six tasks that failed in the first attempt. This highlights the effectiveness of our approach in enhancing the problem-solving capabilities of a single language model through self-correction, paving the way for more advanced autonomous agents. The code is publicly available at https://github.com/YenCheHsiao/AutonomousLLMAgentwithAdaptingPlanning.
翻訳日:2024-08-14 19:27:43 公開日:2024-08-12
# InfLocNet:軽度深層学習を用いた胸部X線画像からの肺感染症の局在と疾患検出

InfLocNet: Enhanced Lung Infection Localization and Disease Detection from Chest X-Ray Images Using Lightweight Deep Learning ( http://arxiv.org/abs/2408.06459v1 )

ライセンス: Link先を確認
Md. Asiful Islam Miah, Shourin Paul, Sunanda Das, M. M. A. Hashem, (参考訳) 近年、深層学習技術の医療画像への統合は、特に新型コロナウイルスと肺炎の文脈において、肺疾患の診断と治療に革命をもたらした。 本稿では,胸部X線画像を用いた肺感染症の検出と局所化の促進を目的とした,より軽量な深層学習に基づくセグメンテーション分類ネットワークを提案する。 事前学習したVGG-16重みによる伝達学習のパワーを活用することで、限られたトレーニングデータでも頑健な性能を実現することができる。 アーキテクチャには、UNet++フレームワーク内の洗練されたスキップ接続が含まれており、セグメンテーションタスクのセグメンテーションギャップを減らし、精度を向上させる。 さらに、エンコーダブロックの端で分類モジュールが統合され、同時分類とセグメンテーションが可能となる。 この二重機能はモデルの汎用性を高め、計算効率を最適化しながら包括的な診断洞察を提供する。 実験の結果,提案する軽量ネットワークは,既存の手法よりも精度と計算能力に優れており,リアルタイム・資源制約型医用イメージングアプリケーションにおいて実現可能であることが示された。 さらに、合理化された設計により、エッジデバイスでのハイパーパラメータチューニングやデプロイが容易になる。 この研究は、精密かつ効率的な医用画像解析を通じて臨床結果を改善するための先進的なディープラーニングアーキテクチャの可能性を明らかにする。 IoUは93.59%, Dice similarity Coefficient (DSC)は97.61%, IoUは97.67%, DSCは87.61%であった。 さらに、高い精度93.86%、感度89.55%の胸部疾患の検出を示し、その有効性と信頼性を強調した。

In recent years, the integration of deep learning techniques into medical imaging has revolutionized the diagnosis and treatment of lung diseases, particularly in the context of COVID-19 and pneumonia. This paper presents a novel, lightweight deep learning based segmentation-classification network designed to enhance the detection and localization of lung infections using chest X-ray images. By leveraging the power of transfer learning with pre-trained VGG-16 weights, our model achieves robust performance even with limited training data. The architecture incorporates refined skip connections within the UNet++ framework, reducing semantic gaps and improving precision in segmentation tasks. Additionally, a classification module is integrated at the end of the encoder block, enabling simultaneous classification and segmentation. This dual functionality enhances the model's versatility, providing comprehensive diagnostic insights while optimizing computational efficiency. Experimental results demonstrate that our proposed lightweight network outperforms existing methods in terms of accuracy and computational requirements, making it a viable solution for real-time and resource constrained medical imaging applications. Furthermore, the streamlined design facilitates easier hyperparameter tuning and deployment on edge devices. This work underscores the potential of advanced deep learning architectures in improving clinical outcomes through precise and efficient medical image analysis. Our model achieved remarkable results with an Intersection over Union (IoU) of 93.59% and a Dice Similarity Coefficient (DSC) of 97.61% in lung area segmentation, and an IoU of 97.67% and a DSC of 87.61% for infection region localization. Additionally, it demonstrated high accuracy of 93.86% and sensitivity of 89.55% in detecting chest diseases, highlighting its efficacy and reliability.
翻訳日:2024-08-14 19:27:43 公開日:2024-08-12
# 負荷低減のためのプライバシ対策の評価

Evaluating Privacy Measures for Load Hiding ( http://arxiv.org/abs/2408.06460v1 )

ライセンス: Link先を確認
Vadim Arzamasov, Klemens Böhm, (参考訳) スマートグリッドでは、家庭レベルでの電力消費を測定するためにスマートメーターを使用すると、プライバシー上の懸念が高まる。 これを解決するために、研究者は測定した電力消費を操作する様々な負荷隠蔽アルゴリズムを設計した。 これらのアルゴリズムがいかにプライバシーを保っているかを比較するために、様々なプライバシー対策が提案されている。 しかし、どのプライバシー対策が最も適しているかについては、現時点では合意が得られていない。 本研究では,負荷隠蔽アルゴリズムにおける最も効果的なプライバシ尺度を同定することを目的とする。 我々は,これらの測定の有効性を評価するために,一連の実験を行った。 研究対象の25項目のうち20項目が 有効でないことが分かりました 次に、よく知られた「アプライアンス・ユース・シークレット」に注目し、このシークレットを最もよく扱う尺度を見つけるために合成データを設計した。 相互情報の変種であるそのような尺度が実際に存在することを観察する。

In smart grids, the use of smart meters to measure electricity consumption at a household level raises privacy concerns. To address them, researchers have designed various load hiding algorithms that manipulate the electricity consumption measured. To compare how well these algorithms preserve privacy, various privacy measures have been proposed. However, there currently is no consensus on which privacy measure is most appropriate to use. In this study, we aim to identify the most effective privacy measure(s) for load hiding algorithms. We have crafted a series of experiments to assess the effectiveness of these measures. found 20 of the 25 measures studied to be ineffective. Next, focused on the well-known "appliance usage" secret, we have designed synthetic data to find the measure that best deals with this secret. We observe that such a measure, a variant of mutual information, actually exists.
翻訳日:2024-08-14 19:27:43 公開日:2024-08-12
# Xilinx, Altera, Microsemi デバイスを用いた物理的非拘束機能によるビットストリングの統計的品質比較

Statistical Quality Comparison of the Bitstrings Generated by a Physical Unclonable Function across Xilinx, Altera and Microsemi Devices ( http://arxiv.org/abs/2408.06463v1 )

ライセンス: Link先を確認
Jenilee Jao, Kristi Hoffman, Cheryl Reid, Ryan Thomson, Michael Thompson, Jim Plusquellic, (参考訳) エントロピー(英: Entropy)またはランダムネス(英: randomness)は、キー生成のようなセキュリティ関連の操作における基本的なセキュリティ特性を表す。 キージェネレーションは認証や暗号化といったセキュリティプロトコルの中心となる。 物理的非閉塞関数 (PUF) はハードウェアベースのプリミティブであり、現代のマイクロエレクトロニクスデバイスやアプリケーションでキージェネレーションエンジンとして機能する。 PUFはエントロピー(Entropy)とは、デバイスの内部と、それ以外は同一のコピー間で自然に存在する製造のバリエーションに由来する。 しかし、PUF生成ビットストリングの品質と強く相関するエントロピーを表すランダムな変動のレベルは、メーカーによって異なる。 本稿では,Xilinx,Altera,Microsemiの3つの主要なFPGAベンダーによって製造されたデバイス間のエントロピーを評価する。 評価のために選択されたデバイスは、IoTアプリケーションに関連する分析を行うために、ローエンドの商用デバイスと見なされる。 SiRF PUFは評価に使用されており、3つのベンダーデバイスでほぼ同一に構築されており、PUFアーキテクチャで使用される特定の論理要素プリミティブに存在する微妙な違いを除いて、我々の比較分析にわずかしか影響しない。 SiRF PUFは、各デバイスに埋め込まれた高速の搬送チェーン論理から作られた高分解能の時間-デジタル変換器(TDC)を使用して、エントロピーの源として論理ゲートのエンジニアリングされたネットリストのパス遅延を測定する。 そこで本研究では, PUF生成ビットストリングの統計的評価とともに, 3つのデバイスクラスにまたがる経路遅延の実際の変動を評価する。 また, PUFの重要な統計特性を評価するために, 工業標準温度実験で収集したデータを用いて信頼性解析を行った。

Entropy or randomness represents a foundational security property in security-related operations, such as key generation. Key generation in turn is central to security protocols such as authentication and encryption. Physical unclonable functions (PUF) are hardware-based primitives that can serve as key generation engines in modern microelectronic devices and applications. PUFs derive entropy from manufacturing variations that exist naturally within and across otherwise identical copies of a device. However, the levels of random variations that represent entropy, which are strongly correlated to the quality of the PUF-generated bitstrings, vary from one manufacturer to another. In this paper, we evaluate entropy across a set of devices manufactured by three mainstream FPGA vendors, Xilinx, Altera and Microsemi. The devices selected for evaluation are considered low-end commercial devices to make the analysis relevant to IoT applications. The SiRF PUF is used in the evaluation, and is constructed nearly identically across the three vendor devices, setting aside minor differences that exist in certain logic element primitives used within the PUF architecture, and which have only a minor impact on our comparative analysis. The SiRF PUF uses a high-resolution time-to-digital converter (TDC) crafted from high-speed carry-chain logic embedded within each device to measure path delays in an engineered netlist of logic gates as a source of entropy. Therefore, our analysis includes an evaluation of actual path delay variation as it exists across the three device classes, as well as a statistical evaluation of the PUF-generated bitstrings. A reliablity analysis is also provided using data collected in industrial-standard temperature experiments to round out the evaluation of important statistical properties of the PUF.
翻訳日:2024-08-14 19:27:43 公開日:2024-08-12
# 黄道下出血の観察例における因果グラフによる因果発見

Causal Graph Aided Causal Discovery in an Observational Aneurysmal Subarachnoid Hemorrhage Study ( http://arxiv.org/abs/2408.06464v1 )

ライセンス: Link先を確認
Carlo Berzuini, Davide Luciani, Hiren C. Patel, (参考訳) 観測データに対する因果推論法は、ランダム化臨床試験(RCTs)を補完する貴重な方法として、ますます認識されている。 強い仮定の下では、RTTをエミュレートしたり、焦点を洗練したりできます。 因果推論への我々のアプローチは因果有向非巡回グラフ(DAG)を用いる。 我々は、医学における多くの観察的研究が、その目的を明確に定義せずに始まり、科学的ポテンシャルを意識せず、また、イティネア調整に必要なツールも持っていないという懸念に動機づけられている。 本研究では,本研究のコース中に「中間的洞察」を提供し,研究の範囲内で有意義な因果的質問を識別し,これらの質問に意味のある対処を行うために必要なデータベース強化を指摘する手法を提示し,解説する。 この方法は、識別と肯定の概念に基づいている。 研究中途半端の動脈瘤性くも膜下出血(aSAH)患者が生成したデータの解析を通じて概念が説明され、特にaSAH群層における外心室ドレイン(EVD)の影響に焦点を当てた。 さらに,楽器変数(IV)推論の原理を活用することで,個々のセンターレベルでの実践的変化の影響をモニタリングするマルチセンター研究手法を提案する。

Causal inference methods for observational data are increasingly recognized as a valuable complement to randomized clinical trials (RCTs). They can, under strong assumptions, emulate RCTs or help refine their focus. Our approach to causal inference uses causal directed acyclic graphs (DAGs). We are motivated by a concern that many observational studies in medicine begin without a clear definition of their objectives, without awareness of the scientific potential, and without tools to identify the necessary in itinere adjustments. We present and illustrate methods that provide "midway insights" during study's course, identify meaningful causal questions within the study's reach and point to the necessary data base enhancements for these questions to be meaningfully tackled. The method hinges on concepts of identification and positivity. Concepts are illustrated through an analysis of data generated by patients with aneurysmal Subarachnoid Hemorrhage (aSAH) halfway through a study, focusing in particular on the consequences of external ventricular drain (EVD) in strata of the aSAH population. In addition, we propose a method for multicenter studies, to monitor the impact of changes in practice at an individual center's level, by leveraging principles of instrumental variable (IV) inference.
翻訳日:2024-08-14 19:27:43 公開日:2024-08-12
# 動的システムのデータ適応カーネル学習のための正方形のカーネルサム:大域的最適化アプローチ

Kernel Sum of Squares for Data Adapted Kernel Learning of Dynamical Systems from Data: A global optimization approach ( http://arxiv.org/abs/2408.06465v1 )

ライセンス: Link先を確認
Daniel Lengyel, Panos Parpas, Boumediene Hamzi, Houman Owhadi, (参考訳) 本稿では,Kernel Sum of Squares (KSOS) 法を用いて,特に動的システムの文脈において,データからのカーネル学習を向上する手法について検討する。 従来のカーネルベースの手法は、理論的な音質と数値効率にもかかわらず、最適なベースカーネルの選択とパラメータチューニングにしばしば苦労する。 KSOSは、カーネルベースのサロゲート関数によるグローバル最適化フレームワークを活用することでこれらの問題を緩和し、動的システムのより信頼性と正確な学習を実現する。 ロジスティックマップ、ヘノンマップ、ローレンツシステムに関する総合的な数値実験により、KSOSは相対=$$\rho$メートル法を最小化し、カーネルの精度を向上する上で、一貫して勾配勾配よりも優れていることが示されている。 これらの結果は、カオス力学系の振る舞いを予測するKSOSの有効性を強調し、基盤となる力学にカーネルを適応させ、カーネルベースのアプローチの堅牢性と予測力を高める能力を示す。

This paper examines the application of the Kernel Sum of Squares (KSOS) method for enhancing kernel learning from data, particularly in the context of dynamical systems. Traditional kernel-based methods, despite their theoretical soundness and numerical efficiency, frequently struggle with selecting optimal base kernels and parameter tuning, especially with gradient-based methods prone to local optima. KSOS mitigates these issues by leveraging a global optimization framework with kernel-based surrogate functions, thereby achieving more reliable and precise learning of dynamical systems. Through comprehensive numerical experiments on the Logistic Map, Henon Map, and Lorentz System, KSOS is shown to consistently outperform gradient descent in minimizing the relative-$\rho$ metric and improving kernel accuracy. These results highlight KSOS's effectiveness in predicting the behavior of chaotic dynamical systems, demonstrating its capability to adapt kernels to underlying dynamics and enhance the robustness and predictive power of kernel-based approaches, making it a valuable asset for time series analysis in various scientific fields.
翻訳日:2024-08-14 19:27:43 公開日:2024-08-12
# 歴史サンプルを用いた畳み込みニューラルネットワークによるクロス年作物マッピングの実現のための一般化戦略

Generalization Enhancement Strategies to Enable Cross-year Cropland Mapping with Convolutional Neural Networks Trained Using Historical Samples ( http://arxiv.org/abs/2408.06467v1 )

ライセンス: Link先を確認
Sam Khallaghi, Rahebe Abedi, Hanan Abou Ali, Mary Dziedzorm Asipunu, Ismail Alatise, Nguyen Ha, Boka Luo, Cat Mai, Lei Song, Amos Wussah, Sitian Xiong, Qi Zhang, Lyndon D. Estes, (参考訳) 田畑が小さく、幾何学的に不規則な地域であっても、高解像度の衛星画像と深層学習(DL)モデルにより、広い地域にわたって農地をマッピングする精度は着実に向上している。 しかし、効果的なDLモデルを開発するには、多くの場合、大きくて高価なラベルデータセットが必要である。 これは、農業の慣行や環境条件の変化により、年と地域の間でドメインシフトが発生するため、農業監視に不可欠な年次マップを作成する能力を制限する。 課題は、年間ラベルを必要とせずに、これらのシフトを考慮するのに十分なフレキシブルなモデルを設計することだ。 ドメイン適応技術や半教師付きトレーニングは一般的なソリューションであるが、モデルの一般化能力の強化について検討した。 本結果は,一般化の方法を組み合わせることによって,全体論的なアプローチが不可欠であることを示唆している。 具体的には、Tversky-focal loss (TFL)のような領域に基づく損失関数を用いて、数年にわたって予測を大幅に改善した。 異なる拡張技術を使用することは、異なるタイプの不変性を符号化する助けとなり、特に光度増大は、光度の変化に対して不変性を符号化するが、偽陽性を増大させた。 光度増大、TFL損失、MCドロップアウトの組み合わせは、最も良い結果をもたらしたが、ドロップアウトだけでは、その後の年次予測では、より偽陰性になった。 さらに、入力正規化の選択は、すべての帯域(ラブとガブ)にわたるデータセット全体または局所的に統計が計算されたときに得られる最良の結果に大きく影響した。 我々は、U-Netモデルを用いて、大規模で効率的な多年作物地図を作成できるワークフローを開発した。 私たちのコードは、https://github.com/agroimpacts/cnn- generalization-enhancementで利用可能で、改善とともに定期的に更新されます。

The accuracy of mapping agricultural fields across large areas is steadily improving with high-resolution satellite imagery and deep learning (DL) models, even in regions where fields are small and geometrically irregular. However, developing effective DL models often requires large, expensive label datasets, typically available only for specific years or locations. This limits the ability to create annual maps essential for agricultural monitoring, as domain shifts occur between years and regions due to changes in farming practices and environmental conditions. The challenge is to design a model flexible enough to account for these shifts without needing yearly labels. While domain adaptation techniques or semi-supervised training are common solutions, we explored enhancing the model's generalization power. Our results indicate that a holistic approach is essential, combining methods to improve generalization. Specifically, using an area-based loss function, such as Tversky-focal loss (TFL), significantly improved predictions across multiple years. The use of different augmentation techniques helped to encode different types of invariance, particularly photometric augmentations encoded invariance to brightness changes, though they increased false positives. The combination of photometric augmentation, TFL loss, and MC-dropout produced the best results, although dropout alone led to more false negatives in subsequent year predictions. Additionally, the choice of input normalization had a significant impact, with the best results obtained when statistics were calculated either locally or across the entire dataset over all bands (lab and gab). We developed a workflow that enabled a U-Net model to generate effective multi-year crop maps over large areas. Our code, available at: https://github.com/agroimpacts/cnn-generalization-enhancement, will be regularly updated with improvements.
翻訳日:2024-08-14 19:17:34 公開日:2024-08-12
# IBM量子エンジンコンパイラの設計とアーキテクチャ

Design and architecture of the IBM Quantum Engine Compiler ( http://arxiv.org/abs/2408.06469v1 )

ライセンス: Link先を確認
Michael B. Healy, Reza Jokar, Soolu Thomas, Vincent R. Pascuzzi, Kit Barton, Thomas A. Alexander, Roy Elkabetz, Brian C. Donovan, Hiroshi Horii, Marius Hillenbrand, (参考訳) 本稿では、現在IBMの量子システムで使われているオープンソースのQuantum Engine Compiler(qe-compiler)の設計とアーキテクチャについて述べる。 qeコンパイラはLLVMのMulti-Level Intermediate Representation (MLIR)フレームワークを使用して構築されており、パラメータ化量子計算を複数の抽象化レベルで表現するためのいくつかの方言の定義を含んでいる。 コンパイラはPythonバインディングと診断システムも提供する。 BisonとFlexを使って構築されたオープンソースのLALRレキサとパーサは、高レベルのMLIR方言に変換される抽象構文木を生成する。 コンパイル時の制御システムの異種の性質をモデル化するための拡張可能な階層的ターゲットシステムを含む。 ターゲットベースおよびジェネリックコンパイルパスはパイプラインインターフェースを使用して追加され、入力を低レベルの中間表現(LLVM IRを含む)に変換するとともに、LLVMバックエンドとツールを利用してマシン実行可能なバイナリを生成することができる。 qeコンパイラは拡張性、保守性、パフォーマンス、拡張性を備え、量子コンピューティングの未来をサポートするよう設計されている。

In this work, we describe the design and architecture of the open-source Quantum Engine Compiler (qe-compiler) currently used in production for IBM Quantum systems. The qe-compiler is built using LLVM's Multi-Level Intermediate Representation (MLIR) framework and includes definitions for several dialects to represent parameterized quantum computation at multiple levels of abstraction. The compiler also provides Python bindings and a diagnostic system. An open-source LALR lexer and parser built using Bison and Flex generates an Abstract Syntax Tree that is translated to a high-level MLIR dialect. An extensible hierarchical target system for modeling the heterogeneous nature of control systems at compilation time is included. Target-based and generic compilation passes are added using a pipeline interface to translate the input down to low-level intermediate representations (including LLVM IR) and can take advantage of LLVM backends and tooling to generate machine executable binaries. The qe-compiler is built to be extensible, maintainable, performant, and scalable to support the future of quantum computing.
翻訳日:2024-08-14 19:17:34 公開日:2024-08-12
# 単位円・無バイアス基底・平衡状態の直交多項式

Orthogonal Polynomials on the Unit Circle, Mutually Unbiased Bases, and Balanced States ( http://arxiv.org/abs/2408.06472v1 )

ライセンス: Link先を確認
Graeme Reinhart, Brian Simanek, (参考訳) 量子状態を構成する2つの興味深い現象は、相互に偏りのない基底と平衡状態である。 単位円上の直交多項式を含む各現象に対する構成的アプローチを探索する。 相互に偏りのない基底の場合、このアプローチがそのような基底を創出しないことを示す。 バランス状態の場合、それらに関してバランスの取れた正規直交基底と状態のペアの例を示す。 また、これらのアイデアの無限次元設定への拡張も検討する。

Two interesting phenomena for the construction of quantum states are that of mutually unbiased bases and that of balanced states. We explore a constructive approach to each phenomenon that involves orthogonal polynomials on the unit circle. In the case of mutually unbiased bases, we show that this approach does not produce such bases. In the case of balanced states, we provide examples of pairs of orthonormal bases and states that are balanced with respect to them. We also consider extensions of these ideas to the infinite dimensional setting.
翻訳日:2024-08-14 19:17:34 公開日:2024-08-12
# TOGGL: ラベル付きラベリングで重なり合う音声を翻訳する

TOGGL: Transcribing Overlapping Speech with Staggered Labeling ( http://arxiv.org/abs/2408.06474v1 )

ライセンス: Link先を確認
Chak-Fai Li, William Hartmann, Matthew Snover, (参考訳) 複数の重なり合う話者の音声を翻訳するには、通常、音声を複数のストリームに分離し、それぞれを独立して認識する必要がある。 より最近の作業では、共同で分離し、書き起こしを行うが、各話者に対して別のデコードコンポーネントが必要である。 複数の話者の音声を同時に書き起こすTOGGLモデルを提案する。 TOGGLモデルは特別な出力トークンを使用して、音声を1つのデコーダだけで各話者に属性付けする。 提案手法は,2話者データのみを訓練しても,2話者以上を一般化する。 会話音声データセットにおける競合するアプローチと比較して,優れた性能を示す。 また,本手法は単一話者音声の性能向上にも寄与する。

Transcribing the speech of multiple overlapping speakers typically requires separating the audio into multiple streams and recognizing each one independently. More recent work jointly separates and transcribes, but requires a separate decoding component for each speaker. We propose the TOGGL model to simultaneously transcribe the speech of multiple speakers. The TOGGL model uses special output tokens to attribute the speech to each speaker with only a single decoder. Our approach generalizes beyond two speakers, even when trained only on two-speaker data. We demonstrate superior performance compared to competing approaches on a conversational speech dataset. Our approach also improves performance on single-speaker audio.
翻訳日:2024-08-14 19:17:34 公開日:2024-08-12
# Theorem-Carrying-Transaction: スマートコントラクトトランザクションの安全性を保証するランタイム認証

Theorem-Carrying-Transaction: Runtime Certification to Ensure Safety for Smart Contract Transactions ( http://arxiv.org/abs/2408.06478v1 )

ライセンス: Link先を確認
Nikolaj S. Bjørner, Ashley J. Chen, Shuo Chen, Yang Chen, Zhongxin Guo, Tzu-Han Hsu, Peng Liu, Nanqing Luo, (参考訳) スマートコントラクトのセキュリティバグとトラップドアがEthereumコミュニティに影響を与えている。 概念的には、1.45億ドルのEthereumの契約は、契約間の複雑な参照トポロジーによって振舞いが決定される単一の「巨大プログラム」を形成する。 Ethereumコミュニティは、この巨大なプログラムが、予期せぬコードレベルの複雑さにもかかわらず、設計レベルの安全性特性に準拠していることを保証することができるだろうか? 静的コード検証は、プログラムの巨大スケールと高い多型のために不十分である。 本稿では、この野心的な目標に向けて、コミュニティに実行可能な技術ロードマップを提示する。 我々の技術はTheorem-Carrying-Transaction (TCT)と呼ばれ、具体的実行と記号的証明の利点を組み合わせたものです。 TCTプロトコルの下では、全てのトランザクションは呼び出したコントラクトの特定のプロパティへの準拠を証明する定理を持ち、ランタイムシステムはトランザクションを実行する前にその定理をチェックする。 一度契約でプロパティが特定されると、契約によってなされる無条件保証として確実に扱われる。 ケーススタディでは,TTTが整数オーバーフローや再帰といったコードレベルの複雑さを予見することなく,トークン契約を保証していることを示す。 TCTはUnixwapのコードベースにもうまく適用されており、複雑な分散金融(DeFi)シナリオを示している。 我々のプロトタイプは、最先端のアプローチよりも2桁低い、無視可能なランタイムオーバーヘッドを発生させます。

Security bugs and trapdoors in smart contracts have been impacting the Ethereum community since its inception. Conceptually, the 1.45-million Ethereum's contracts form a single "gigantic program" whose behaviors are determined by the complex reference-topology between the contracts. Can the Ethereum community be assured that this gigantic program conforms to its design-level safety properties, despite unforeseeable code-level intricacies? Static code verification is inadequate due to the program's gigantic scale and high polymorphism. In this paper, we present a viable technological roadmap for the community toward this ambitious goal. Our technology, called Theorem-Carrying-Transaction (TCT), combines the benefits of concrete execution and symbolic proofs. Under the TCT protocol, every transaction carries a theorem that proves its adherence to the specified properties in the invoked contracts, and the runtime system checks the theorem before executing the transaction. Once a property is specified in a contract, it can be treated confidently as an unconditional guarantee made by the contract. As case studies, we demonstrate that TCT secures token contracts without foreseeing code-level intricacies like integer overflow and reentrancy. TCT is also successfully applied to a Uniswap codebase, showcasing a complex decentralized finance (DeFi) scenario. Our prototype incurs a negligible runtime overhead, two orders of magnitude lower than a state-of-the-art approach.
翻訳日:2024-08-14 19:17:34 公開日:2024-08-12
# CAFQA-bootstrapped Variational Quantum Eigensolverのトラップオン量子コンピュータにおける実証

Demonstration of a CAFQA-bootstrapped Variational Quantum Eigensolver on a Trapped-Ion Quantum Computer ( http://arxiv.org/abs/2408.06482v1 )

ライセンス: Link先を確認
Qingfeng Wang, Liudmila Zhukas, Qiang Miao, Aniket S. Dalvi, Peter J. Love, Christopher Monroe, Frederic T. Chong, Gokul Subramanian Ravi, (参考訳) 変分量子固有解法(VQE)を強化するため、CAFQA法は古典的な計算能力を利用してHartree-Fock法よりも優れた初期状態を特定することができる。 これまでの研究では、CAFQAによって提供される初期状態はハートリー・フォック法よりも多くの相関エネルギーを回収し、より高速な収束をもたらすことが示されている。 本研究では,デューク量子センターに所在する高忠実性トラップイオン量子コンピュータにおいて,その優位性を示すことによって,CAFQAの研究を進め,TIデバイスおよび任意の学術量子デバイス上でのCAFQAをブートストラップしたVQEの実験実験である。 VQE実験では、テストケースとしてLiHとBeH$_2$を使用し、CAFQAがより高速な収束を実現し、指定された計算予算の範囲内で低いエネルギー値を得ることを示す。 この学術機器上でのVQEのシームレスな実行を保証するため,回路とハードウェアの両端で独立したソフトウェア環境をサポートするハードウェア・ソフトウェア・インタフェース・フレームワークを開発した。 このメカニズムは、VQEタイプのジョブ実行の自動化を促進し、ランダムなハードウェア中断の影響を軽減する。 このフレームワークは汎用性が高く、閉じ込められたイオン量子コンピュータプラットフォーム以外のさまざまな学術量子デバイスに適用でき、カスタマイズされたパッケージとの統合をサポートする。

To enhance the variational quantum eigensolver (VQE), the CAFQA method can utilize classical computational capabilities to identify a better initial state than the Hartree-Fock method. Previous research has demonstrated that the initial state provided by CAFQA recovers more correlation energy than that of the Hartree-Fock method and results in faster convergence. In the present study, we advance the investigation of CAFQA by demonstrating its advantages on a high-fidelity trapped-ion quantum computer located at the Duke Quantum Center -- this is the first experimental demonstration of CAFQA-bootstrapped VQE on a TI device and on any academic quantum device. In our VQE experiment, we use LiH and BeH$_2$ as test cases to show that CAFQA achieves faster convergence and obtains lower energy values within the specified computational budget limits. To ensure the seamless execution of VQE on this academic device, we develop a novel hardware-software interface framework that supports independent software environments for both the circuit and hardware end. This mechanism facilitates the automation of VQE-type job executions as well as mitigates the impact of random hardware interruptions. This framework is versatile and can be applied to a variety of academic quantum devices beyond the trapped-ion quantum computer platform, with support for integration with customized packages.
翻訳日:2024-08-14 19:17:34 公開日:2024-08-12
# 大規模言語モデルを用いた言語間対話音声要約

Cross-Lingual Conversational Speech Summarization with Large Language Models ( http://arxiv.org/abs/2408.06484v1 )

ライセンス: Link先を確認
Max Nelson, Shannon Wotherspoon, Francis Keith, William Hartmann, Matthew Snover, (参考訳) 言語間会話音声の要約は重要な問題であるが、資源不足に悩まされている。 多くの言語に書き起こしが存在するが、翻訳された会話音声はまれであり、要約を含むデータセットは存在しない。 我々は、要約による翻訳を補足することで、既存のフィッシャー・アンド・コールホームスペイン語音声翻訳コーパスを構築した。 要約は、基準翻訳からGPT-4を用いて生成され、基底真理として扱われる。 課題は、転写エラーや翻訳エラーの存在下で、同様の要約を生成することである。 我々は,オープンソースの音声認識と機械翻訳モデルを用いたベースラインカスケードシステムを構築した。 我々は、要約のためのLLMの範囲を試験し、転写と翻訳の誤りの影響を解析する。 このタスクに対するMistral-7Bモデルの適用は、市販モデルよりも大幅に向上し、GPT-4の性能に匹敵する。

Cross-lingual conversational speech summarization is an important problem, but suffers from a dearth of resources. While transcriptions exist for a number of languages, translated conversational speech is rare and datasets containing summaries are non-existent. We build upon the existing Fisher and Callhome Spanish-English Speech Translation corpus by supplementing the translations with summaries. The summaries are generated using GPT-4 from the reference translations and are treated as ground truth. The task is to generate similar summaries in the presence of transcription and translation errors. We build a baseline cascade-based system using open-source speech recognition and machine translation models. We test a range of LLMs for summarization and analyze the impact of transcription and translation errors. Adapting the Mistral-7B model for this task performs significantly better than off-the-shelf models and matches the performance of GPT-4.
翻訳日:2024-08-14 19:17:34 公開日:2024-08-12
# 量子ビットを用いた量子情報

Quantum information with quantum-like bits ( http://arxiv.org/abs/2408.06485v1 )

ライセンス: Link先を確認
Graziano Amati, Gregory D. Scholes, (参考訳) これまでの研究で我々は、例えば発振器のような大型で複雑な古典的システムと、デコヒーレンスによって損なわれない量子的機能を実現する量子的ビットの構築を提案してきた。 本稿では、量子状態のこのプラットフォームをさらに検討する。 まず,創発的な状態を許容する同期ネットワークの構築方法に関する一般的なプロトコルについて議論する。 次に、これらの状態に対してゲートをどのように実装できるかを研究する。 これは、特別に構築された古典的ネットワーク上での量子ライクな計算の可能性を示している。 最後に、我々のモデルを古典的確率システムから分離する特徴である非コルモゴロフ干渉を可能にする測定の概念を定義する。 本稿では,量子的資源の数学的構造を探究し,これらのシステムにおける創発的状態を操作することで任意のゲートをどのように実現できるかを示す。

In previous work we have proposed a construction of quantum-like bits that could endow a large, complex classical system, for example of oscillators, with quantum-like function that is not compromised by decoherence. In the present paper we investigate further this platform of quantum-like states. Firstly, we discuss a general protocol on how to construct synchronizing networks that allow for emergent states. We then study how gates can be implemented on those states. This suggests the possibility of quantum-like computing on specially-constructed classical networks. Finally, we define a notion of measurement that allows for non-Kolmogorov interference, a feature that separates our model from a classical probabilistic system. This paper aims to explore the mathematical structure of quantum-like resources, and shows how arbitrary gates can be implemented by manipulating emergent states in those systems.
翻訳日:2024-08-14 19:17:34 公開日:2024-08-12
# 精密CFD流れ場予測のためのインプシットニューラル表現法

Implicit Neural Representation For Accurate CFD Flow Field Prediction ( http://arxiv.org/abs/2408.06486v1 )

ライセンス: Link先を確認
Laurent de Vito, Nils Pinnau, Simone Dey, (参考訳) フローフィールド予測のための多くのディープラーニングフレームワークにもかかわらず、そのほとんどは通常のドメイン上のフローフィールドを扱うものであり、最も良いものは不規則なドメインに対処できるが、グラフネットワークに大きく依存しているため、実際の産業アプリケーションはまだ解明されていない。 航空機エンジンタービンと圧縮機のブレードに適用した3次元流れ場予測のためのディープラーニングフレームワークを提案する。 重要なことは、あらゆる3Dフィールドを、バックボーンネットと呼ばれるニューラルネットワークによってモデル化された座標からの関数と見なしている。 座標系 MLP の性質、すなわち無限分解能の任意の位相の領域における流れ場の離散化非依存表現を継承する。 まず, 境界層, ウェイク, 衝撃波などの重要な流れ特性を高精度に描画し, 単刃列の3次元定常シミュレーションを行う際のバックボーンネットソロの性能を示す。 次に,ブレードの表面メッシュをバックボーンネットのパラメータにマッピングするハイパーネットを提案する。 これにより、そのパラメータ化に関係なく、フロー解はブレード幾何学から直接予測できる。 バックボーンネットとハイパーネットは共に、不明瞭なジオメトリをよく一般化したCFDソルバに対して、高精度なメモリ効率のデータ駆動プロキシを形成する。

Despite the plethora of deep learning frameworks for flow field prediction, most of them deal with flow fields on regular domains, and although the best ones can cope with irregular domains, they mostly rely on graph networks, so that real industrial applications remain currently elusive. We present a deep learning framework for 3D flow field prediction applied to blades of aircraft engine turbines and compressors. Crucially, we view any 3D field as a function from coordinates that is modeled by a neural network we call the backbone-net. It inherits the property of coordinate-based MLPs, namely the discretization-agnostic representation of flow fields in domains of arbitrary topology at infinite resolution. First, we demonstrate the performance of the backbone-net solo in regressing 3D steady simulations of single blade rows in various flow regimes: it can accurately render important flow characteristics such as boundary layers, wakes and shock waves. Second, we introduce a hyper-net that maps the surface mesh of a blade to the parameters of the backbone-net. By doing so, the flow solution can be directly predicted from the blade geometry, irrespective of its parameterization. Together, backbone-net and hyper-net form a highly-accurate memory-efficient data-driven proxy to CFD solvers with good generalization on unseen geometries.
翻訳日:2024-08-14 19:17:34 公開日:2024-08-12
# ループの外:最適化ランドスケープの構造近似と非Iterative Quantumtimization

Out of the Loop: Structural Approximation of Optimisation Landscapes and non-Iterative Quantum Optimisation ( http://arxiv.org/abs/2408.06493v1 )

ライセンス: Link先を確認
Tom Krüger, Wolfgang Mauerer, (参考訳) 量子近似最適化アルゴリズム (Quantum Approximate Optimisation Algorithm, Qaoa) は、組合せ最適化のための量子古典的反復ヒューリスティックである。 カオアは複雑性クラスNPの問題を対象としているが、全ての反復で求められる古典的な最適化手順はNPハードであることが知られている。 それでも、古典的アプローチに対する優位性は特定のシナリオでは疑わしいが、その計算力の性質と起源はまだ十分に理解されていない。 解空間構造からカオア最適化景観を効率よく正確に近似する手法を導入することで、新しいアルゴリズムの変種を導き出す: 入力インスタンスごとに反復的な量子古典計算を実行する代わりに、インスタンスに依存しないが問題固有の量子回路をベースとする。 これは計算の労力を減らしたにもかかわらず、重要な組合せ問題に対して単位深度カオアと一致または上回る。 我々のアプローチは、カオのインスタンス非依存構造に関する長年の予想を証明することに基づいている。 一般性を確保することによって、カオアパラメータクラスタリングに関する既存の経験的観測を理論計算機科学の確立されたアプローチにリンクし、解空間の構造的性質と量子最適化とのリンクを理解するための音基盤を提供する。

The Quantum Approximate Optimisation Algorithm (qaoa) is a widely studied quantum-classical iterative heuristic for combinatorial optimisation. While qaoa targets problems in complexity class NP, the classical optimisation procedure required in every iteration is itself known to be NP-hard. Still, advantage over classical approaches is suspected for certain scenarios, but nature and origin of its computational power are not yet satisfactorily understood. By introducing means of efficiently and accurately approximating the qaoa optimisation landscape from solution space structures, we derive a new algorithmic variant: Instead of performing an iterative quantum-classical computation for each input instance, our non-iterative method is based on a quantum circuit that is instance-independent, but problem-specific. It matches or outperforms unit-depth qaoa for key combinatorial problems, despite reduced computational effort. Our approach is based on proving a long-standing conjecture regarding instance-independent structures in qaoa. By ensuring generality, we link existing empirical observations on qaoa parameter clustering to established approaches in theoretical computer science, and provide a sound foundation for understanding the link between structural properties of solution spaces and quantum optimisation.
翻訳日:2024-08-14 19:17:34 公開日:2024-08-12
# カラーコード記事における情報収集を支援する上で,どのようなカラースキームが有効か?

What Color Scheme is More Effective in Assisting Readers to Locate Information in a Color-Coded Article? ( http://arxiv.org/abs/2408.06494v1 )

ライセンス: Link先を確認
Ho Yin Ng, Zeyu He, Ting-Hao 'Kenneth' Huang, (参考訳) カラーコーディングは、特定の色をクラスタ情報タイプに割り当てる手法であり、人間の認知活動、特に読書と理解を支援する利点を証明している。 LLM(Large Language Models)の台頭により、文書のコーディングが合理化され、様々なスキームによる単純な自動テキストラベリングが可能になった。 これにより、カラーコーディングがよりアクセスしやすくなり、より多くのユーザに利益をもたらす可能性がある。 しかし,色選択が情報探索に与える影響について検討する。 コントラスト比を約5.55:1に標準化し,LLM符号化文書における色調の有効性を評価する。 参加者は、カラーコードされた学術論文のタイムド・インフォメーション・タスクを実行した。 結果,非異色および黄色非包括カラースキームでは性能が向上し,後者は参加者の好意も高まった。 これらの知見は、テキストアノテーションのカラースキームの選択方法を改善することができる。 LLMの文書符号化が進むにつれて、カラーコーディング技術の「色」的な側面に焦点をあてた研究がさらに進むことを提唱する。

Color coding, a technique assigning specific colors to cluster information types, has proven advantages in aiding human cognitive activities, especially reading and comprehension. The rise of Large Language Models (LLMs) has streamlined document coding, enabling simple automatic text labeling with various schemes. This has the potential to make color-coding more accessible and benefit more users. However, the impact of color choice on information seeking is understudied. We conducted a user study assessing various color schemes' effectiveness in LLM-coded text documents, standardizing contrast ratios to approximately 5.55:1 across schemes. Participants performed timed information-seeking tasks in color-coded scholarly abstracts. Results showed non-analogous and yellow-inclusive color schemes improved performance, with the latter also being more preferred by participants. These findings can inform better color scheme choices for text annotation. As LLMs advance document coding, we advocate for more research focusing on the "color" aspect of color-coding techniques.
翻訳日:2024-08-14 19:17:34 公開日:2024-08-12
# 常温固体機械共振器の動作側バンド非対称性

Motional sideband asymmetry of a solid-state mechanical resonator at room temperature ( http://arxiv.org/abs/2408.06498v1 )

ライセンス: Link先を確認
Yi Xia, Guanhao Huang, Alberto Beccari, Alessio Zicoschi, Amirali Arabmoheghi, Nils J. Engelsen, Tobias J. Kippenberg, (参考訳) レーザー磁場と相互作用する機械振動子の運動側バンド非対称性は、機械振動子の零点エネルギーがその運動に対する大きな寄与となる量子基底状態に近づく際に観察することができる。 量子光学学の文脈では、原理的には、マクロメカニカル共振器と光学浴との熱平衡のキャリブレーションのない推論を可能にする。 室温では、この現象は浮遊ナノ粒子を用いた先駆的な実験で観測されている。 この効果を固体メカニカル共振器で測定することは、熱間変調ノイズ、ミラー周波数ノイズ、低量子協調性によって合成されている。 ここでは, 室温から量子基底状態に近い膜内中間系のサイドバンド冷却を行い, 2重ホモジン測定で運動側バンド非対称性を観察する。 サイドバンド温度測定により、最低フォノン占有率は$\bar{n}_{eff}=9.5$となる。 我々の研究は、室温での非線形光学力学の洞察を提供し、複雑なフィードバック制御や低温冷却を必要とせずに、アクセス可能な光量子技術を促進する。

The motional sideband asymmetry of a mechanical oscillator interacting with a laser field can be observed when approaching the quantum ground state, where the zero-point energy of the mechanical oscillator becomes a sizable contribution to its motion. In the context of quantum optomechanics, it allows, in principle, calibration-free inference of the thermal equilibrium of a macroscopic mechanical resonator with its optical bath. At room temperature, this phenomenon has been observed in pioneering experiments using levitated nanoparticles. Measuring this effect with solid-state mechanical resonators has been compounded by thermal intermodulation noise, mirror frequency noise and low quantum cooperativity. Here, we sideband-cool a membrane-in-the-middle system close to the quantum ground state from room temperature, and observe motional sideband asymmetry in a dual-homodyne measurement. Sideband thermometry yields a minimum phonon occupancy of $\bar{n}_{eff}=9.5$. Our work provides insights into nonlinear optomechanical dynamics at room temperature and facilitates accessible optomechanical quantum technologies without the need for complex feedback control and cryogenic cooling.
翻訳日:2024-08-14 19:17:34 公開日:2024-08-12
# Music2Latent: 遅延オーディオ圧縮のための一貫性オートエンコーダ

Music2Latent: Consistency Autoencoders for Latent Audio Compression ( http://arxiv.org/abs/2408.06500v1 )

ライセンス: Link先を確認
Marco Pasini, Stefan Lattner, George Fazekas, (参考訳) 圧縮された連続潜時空間における効率的な音声表現は、生成的オーディオモデリングと音楽情報検索(MIR)タスクにおいて重要である。 しかし、既存のオーディオオートエンコーダには、マルチステージトレーニング手順、遅い反復サンプリング、低い再構成品質といった制限がある。 一貫性モデルを活用することでこれらの制限を克服するオーディオオートエンコーダであるMusic2Latentを紹介する。 Music2Latentは、単一エンドツーエンドのトレーニングプロセスにおいて、サンプルを圧縮された連続潜伏空間にエンコードし、高忠実な単一ステップ再構築を可能にする。 主なイノベーションは、アップサンプリングエンコーダ出力の整合性モデルをクロスコネクションを通じてすべてのレベルに条件付けすること、長距離周波数依存性を捉えるために周波数ワイド自己アテンションを使用すること、周波数ワイドのスケーリングを使用して異なるノイズレベルにおける周波数間の様々な値分布を処理することである。 Music2Latentは、その潜在表現を用いて、下流MIRタスクにおける競合性能を達成しつつ、音質と再現精度で既存の連続オーディオオートエンコーダより優れていることを示す。 我々の知る限り、これはエンドツーエンドの一貫性自動エンコーダモデルをトレーニングする最初の試みである。

Efficient audio representations in a compressed continuous latent space are critical for generative audio modeling and Music Information Retrieval (MIR) tasks. However, some existing audio autoencoders have limitations, such as multi-stage training procedures, slow iterative sampling, or low reconstruction quality. We introduce Music2Latent, an audio autoencoder that overcomes these limitations by leveraging consistency models. Music2Latent encodes samples into a compressed continuous latent space in a single end-to-end training process while enabling high-fidelity single-step reconstruction. Key innovations include conditioning the consistency model on upsampled encoder outputs at all levels through cross connections, using frequency-wise self-attention to capture long-range frequency dependencies, and employing frequency-wise learned scaling to handle varying value distributions across frequencies at different noise levels. We demonstrate that Music2Latent outperforms existing continuous audio autoencoders in sound quality and reconstruction accuracy while achieving competitive performance on downstream MIR tasks using its latent representations. To our knowledge, this represents the first successful attempt at training an end-to-end consistency autoencoder model.
翻訳日:2024-08-14 19:17:34 公開日:2024-08-12
# 画像生成モデルのプロンプト回復:離散最適化器の比較検討

Prompt Recovery for Image Generation Models: A Comparative Study of Discrete Optimizers ( http://arxiv.org/abs/2408.06502v1 )

ライセンス: Link先を確認
Joshua Nathaniel Williams, Avi Schwarzschild, J. Zico Kolter, (参考訳) 生成した画像のみに基づいて、画像生成モデルの自然言語プロンプトを復元することは、難しい離散最適化問題である。 そこで本研究では,最近の離散最適化手法の突発的逆転問題に対する直接比較を行った。 我々は、逆プロンプトの品質と、逆プロンプトによって生成された画像の品質に関する様々な評価指標を用いて、グレディ座標勾配(GCG)、PEZ、ランダムサーチ、オートDAN、BLIP2の画像キャプタを評価した。 逆プロンプトと基底真理画像とのCLIP類似性に着目し, 逆プロンプトが生成する画像と基底真理画像との類似性について検討した。 離散オプティマイザは目的を効果的に最小化するが、よく訓練されたキャプタからの応答を使うだけで、元のプロンプトが生成したものとよりよく似た画像が生成される。

Recovering natural language prompts for image generation models, solely based on the generated images is a difficult discrete optimization problem. In this work, we present the first head-to-head comparison of recent discrete optimization techniques for the problem of prompt inversion. We evaluate Greedy Coordinate Gradients (GCG), PEZ , Random Search, AutoDAN and BLIP2's image captioner across various evaluation metrics related to the quality of inverted prompts and the quality of the images generated by the inverted prompts. We find that focusing on the CLIP similarity between the inverted prompts and the ground truth image acts as a poor proxy for the similarity between ground truth image and the image generated by the inverted prompts. While the discrete optimizers effectively minimize their objectives, simply using responses from a well-trained captioner often leads to generated images that more closely resemble those produced by the original prompts.
翻訳日:2024-08-14 19:17:34 公開日:2024-08-12
# グラフニューラルネットワークに基づく固有モチベーションによる不均一なマルチエージェント強化学習における分散協調

Decentralized Cooperation in Heterogeneous Multi-Agent Reinforcement Learning via Graph Neural Network-Based Intrinsic Motivation ( http://arxiv.org/abs/2408.06503v1 )

ライセンス: Link先を確認
Jahir Sadik Monon, Deeparghya Dutta Barua, Md. Mosaddek Khan, (参考訳) MARL(Multi-agent Reinforcement Learning)は、様々な意思決定や制御タスクの鍵となるフレームワークである。 シングルエージェントとは異なり、マルチエージェントシステムはエージェント間の協力を成功させる必要がある。 これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。 これらの課題は、部分観測可能性やエージェントの不均一性に関する事前知識の欠如の下でより顕著になる。 特筆すべき研究は、報酬の空間性や分散された環境における協調に固有のモチベーション(IM)を用いるが、不均一性を扱う人は典型的には集中トレーニング、パラメータ共有、エージェントインデクシングを前提としている。 このような制約を克服するために,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用したCoHetアルゴリズムを提案する。 マルチエージェント粒子環境(MPE)およびベクトル化マルチエージェントシミュレータ(VMAS)ベンチマークにおけるCoHetの評価は,協調型マルチエージェントシナリオにおける最先端技術と比較して,優れた性能を示す。 本研究は,エージェント・ダイナミクス・モデルが内在的モチベーション・モジュールに与える影響,異なるCoHet変異体の性能に関する知見,および多種多種多様なエージェントに対するロバスト性について分析した。

Multi-agent Reinforcement Learning (MARL) is emerging as a key framework for various sequential decision-making and control tasks. Unlike their single-agent counterparts, multi-agent systems necessitate successful cooperation among the agents. The deployment of these systems in real-world scenarios often requires decentralized training, a diverse set of agents, and learning from infrequent environmental reward signals. These challenges become more pronounced under partial observability and the lack of prior knowledge about agent heterogeneity. While notable studies use intrinsic motivation (IM) to address reward sparsity or cooperation in decentralized settings, those dealing with heterogeneity typically assume centralized training, parameter sharing, and agent indexing. To overcome these limitations, we propose the CoHet algorithm, which utilizes a novel Graph Neural Network (GNN) based intrinsic motivation to facilitate the learning of heterogeneous agent policies in decentralized settings, under the challenges of partial observability and reward sparsity. Evaluation of CoHet in the Multi-agent Particle Environment (MPE) and Vectorized Multi-Agent Simulator (VMAS) benchmarks demonstrates superior performance compared to the state-of-the-art in a range of cooperative multi-agent scenarios. Our research is supplemented by an analysis of the impact of the agent dynamics model on the intrinsic motivation module, insights into the performance of different CoHet variants, and its robustness to an increasing number of heterogeneous agents.
翻訳日:2024-08-14 19:17:34 公開日:2024-08-12
# 大規模言語モデルを用いた多言語クラウドベース要求工学

Multilingual Crowd-Based Requirements Engineering Using Large Language Models ( http://arxiv.org/abs/2408.06505v1 )

ライセンス: Link先を確認
Arthur Pilone, Paulo Meirelles, Fabio Kon, Walid Maalej, (参考訳) ソフトウェアプロジェクトの成功を保証するための中心的な課題は、開発者の見解とユーザの見解の収束を保証することである。 ソーシャルメディアやアプリストアのレビュー、サポートチャネルからの大量のユーザデータの提供には多くのメリットがあるが、ソフトウェア開発チームがこのデータをどのように効果的に利用できるのかはいまだ不明だ。 私たちは、アジャイルチームが問題やタスク管理にクラウドベースの要件エンジニアリング(CrowdRE)を使用するのを支援する、DeeperMatcherというLCMベースのアプローチを紹介します。 現在私たちは、開発者が関連するユーザレビューと問題にマッチできるコマンドラインツールを実装しています。 私たちは、よく知られたオープンソースプロジェクトから既存の英語データセットに対するアプローチを検証しました。 さらに、DeeperMatcherが他の言語でどの程度うまく機能しているかを確認するために、ブラジルポルトガル語で問題とユーザフィードバックを持つローカルプロジェクトの開発者と一緒に、シングルケースのメカニズムの実験を行いました。 予備分析の結果,本手法の精度はテキスト埋め込み法に大きく依存していることが示唆された。 我々は,多言語サポートによる信頼性の高いクラウドベース要求工学に必要なさらなる改良について論じる。

A central challenge for ensuring the success of software projects is to assure the convergence of developers' and users' views. While the availability of large amounts of user data from social media, app store reviews, and support channels bears many benefits, it still remains unclear how software development teams can effectively use this data. We present an LLM-powered approach called DeeperMatcher that helps agile teams use crowd-based requirements engineering (CrowdRE) in their issue and task management. We are currently implementing a command-line tool that enables developers to match issues with relevant user reviews. We validated our approach on an existing English dataset from a well-known open-source project. Additionally, to check how well DeeperMatcher works for other languages, we conducted a single-case mechanism experiment alongside developers of a local project that has issues and user feedback in Brazilian Portuguese. Our preliminary analysis indicates that the accuracy of our approach is highly dependent on the text embedding method used. We discuss further refinements needed for reliable crowd-based requirements engineering with multilingual support.
翻訳日:2024-08-14 19:07:10 公開日:2024-08-12
# 近感レーザー走査データを用いた樹木種分類のベンチマーク:For-species20Kデータセットの導入

Benchmarking tree species classification from proximally-sensed laser scanning data: introducing the FOR-species20K dataset ( http://arxiv.org/abs/2408.06507v1 )

ライセンス: Link先を確認
Stefano Puliti, Emily R. Lines, Jana Müllerová, Julian Frey, Zoe Schindler, Adrian Straker, Matthew J. Allen, Lukas Winiwarter, Nataliia Rehush, Hristina Hristova, Brent Murray, Kim Calders, Louise Terryn, Nicholas Coops, Bernhard Höfle, Samuli Junttila, Martin Krůček, Grzegorz Krok, Kamil Král, Shaun R. Levick, Linda Luck, Azim Missarov, Martin Mokroš, Harry J. F. Owen, Krzysztof Stereńczak, Timo P. Pitkänen, Nicola Puletti, Ninni Saarinen, Chris Hopkinson, Chiara Torresan, Enrico Tomelleri, Hannah Weiser, Rasmus Astrup, (参考訳) 確率的にセンシングされたレーザースキャンは、森林データの自動キャプチャーに有意義な可能性を秘めているが、地上データを追加せずに自動的に樹木種を特定することには課題が残る。 ディープラーニング(DL)は自動化を約束するが、大規模で多様性があり、オープンに公開されている単一のツリーポイントクラウドのデータセットが欠如しているため、進歩は鈍化している。 このことは、DLモデルの堅牢性と、種分類のベストプラクティスを確立する能力に影響を及ぼした。 これらの課題を克服するため、For-species20Kベンチマークデータセットが作成され、33種から20,000以上のツリーポイント雲が作成され、地球(TLS)、モバイル(MLS)、およびヨーロッパ各地の森林を横断するドローンレーザースキャン(ULS)を使用してキャプチャされた。 このデータセットは、ポイントクラウドベース(PointNet++、MinkNet、MLP-Mixer、DGCNN)とマルチビューイメージベースメソッド(SimpleView、DetailView、YOLOv5)を含む、ツリー種分類のためのDLモデルのベンチマークを可能にする。 2D画像ベースモデルは、一般的に3Dポイントクラウドベースモデル(平均OA = 0.72)よりも良く(平均OA = 0.77)、異なる走査プラットフォームとセンサーで一貫した結果を得た。 トップモデルであるDetailViewは特に堅牢で、データの不均衡をうまく処理し、ツリーサイズを効果的に一般化する。 FOR-species20Kデータセットはhttps://zenodo.org/records/13255198で利用可能であり、レーザースキャンデータを使用して樹木種分類のためのDLモデルの開発とベンチマークのための重要なリソースであり、この分野における将来の進歩の基礎となる。

Proximally-sensed laser scanning offers significant potential for automated forest data capture, but challenges remain in automatically identifying tree species without additional ground data. Deep learning (DL) shows promise for automation, yet progress is slowed by the lack of large, diverse, openly available labeled datasets of single tree point clouds. This has impacted the robustness of DL models and the ability to establish best practices for species classification. To overcome these challenges, the FOR-species20K benchmark dataset was created, comprising over 20,000 tree point clouds from 33 species, captured using terrestrial (TLS), mobile (MLS), and drone laser scanning (ULS) across various European forests, with some data from other regions. This dataset enables the benchmarking of DL models for tree species classification, including both point cloud-based (PointNet++, MinkNet, MLP-Mixer, DGCNNs) and multi-view image-based methods (SimpleView, DetailView, YOLOv5). 2D image-based models generally performed better (average OA = 0.77) than 3D point cloud-based models (average OA = 0.72), with consistent results across different scanning platforms and sensors. The top model, DetailView, was particularly robust, handling data imbalances well and generalizing effectively across tree sizes. The FOR-species20K dataset, available at https://zenodo.org/records/13255198, is a key resource for developing and benchmarking DL models for tree species classification using laser scanning data, providing a foundation for future advancements in the field.
翻訳日:2024-08-14 19:07:10 公開日:2024-08-12
# 出力シャッフルアタックによるSHAPの処理

Fooling SHAP with Output Shuffling Attacks ( http://arxiv.org/abs/2408.06509v1 )

ライセンス: Link先を確認
Jun Yuan, Aritra Dasgupta, (参考訳) SHAPのような説明可能なAI~(XAI)メソッドは、ブラックボックスモデルの特徴属性を発見するのに役立つ。 モデル出力上の '`保護された特徴'' (例、性別、人種) から重要な帰属を示す場合、そのモデルは不公平であるとみなされる。 しかし、敵攻撃はXAIの検出を覆すことができる。 このような敵モデルを構築するための従来のアプローチは、基礎となるデータ配信へのアクセスを必要とするが、多くの実践的なシナリオでは不可能である。 我々はこの制約を緩和し、データに依存しないシャッフル攻撃と呼ばれる新たな攻撃群を提案する。 提案された攻撃戦略は、トレーニングされた機械学習モデルを使用して、Shapley値ベースの説明を騙すことができる。 我々はShapley値がシャッフル攻撃を検出できないことを証明した。 しかし、線形SHAPやSHAPのようなShapley値を推定するアルゴリズムは、これらの攻撃を様々な効果で検出することができる。 実世界のデータセットを用いて,線形SHAPとSHAPの性能を比較することで,攻撃戦略の有効性を実証する。

Explainable AI~(XAI) methods such as SHAP can help discover feature attributions in black-box models. If the method reveals a significant attribution from a ``protected feature'' (e.g., gender, race) on the model output, the model is considered unfair. However, adversarial attacks can subvert the detection of XAI methods. Previous approaches to constructing such an adversarial model require access to underlying data distribution, which may not be possible in many practical scenarios. We relax this constraint and propose a novel family of attacks, called shuffling attacks, that are data-agnostic. The proposed attack strategies can adapt any trained machine learning model to fool Shapley value-based explanations. We prove that Shapley values cannot detect shuffling attacks. However, algorithms that estimate Shapley values, such as linear SHAP and SHAP, can detect these attacks with varying degrees of effectiveness. We demonstrate the efficacy of the attack strategies by comparing the performance of linear SHAP and SHAP using real-world datasets.
翻訳日:2024-08-14 19:07:10 公開日:2024-08-12
# 学習ランキング機能:短期行動予測から長期ユーザ満足度へ

Learned Ranking Function: From Short-term Behavior Predictions to Long-term User Satisfaction ( http://arxiv.org/abs/2408.06512v1 )

ライセンス: Link先を確認
Yi Wu, Daryl Chang, Jennifer She, Zhe Zhao, Li Wei, Lukasz Heldt, (参考訳) 本稿では,Learnered Ranking Function (LRF) を提案する。LRFは,短期的なユーザの行動予測を入力として受け取り,長期的なユーザの満足度を直接最適化するレコメンデーションのスレートを出力するシステムである。 これまでのほとんどの研究は、ヒューリスティック関数のハイパーパラメーターを最適化することに基づいている。 本稿では,長期ユーザ満足度を最大化することを目的としたスレート最適化問題として,この問題を直接モデル化することを提案する。 また,多目的最適化のための客観的トレードオフを安定化する制約最適化アルゴリズムを開発した。 ライブ実験によるアプローチの評価と,YouTubeへの展開について述べる。

We present the Learned Ranking Function (LRF), a system that takes short-term user-item behavior predictions as input and outputs a slate of recommendations that directly optimizes for long-term user satisfaction. Most previous work is based on optimizing the hyperparameters of a heuristic function. We propose to model the problem directly as a slate optimization problem with the objective of maximizing long-term user satisfaction. We also develop a novel constraint optimization algorithm that stabilizes objective trade-offs for multi-objective optimization. We evaluate our approach with live experiments and describe its deployment on YouTube.
翻訳日:2024-08-14 19:07:10 公開日:2024-08-12
# スクールバスを運転するイエローライク : 言語モデルにおけるセマンティックリーク

Does Liking Yellow Imply Driving a School Bus? Semantic Leakage in Language Models ( http://arxiv.org/abs/2408.06518v1 )

ライセンス: Link先を確認
Hila Gonen, Terra Blevins, Alisa Liu, Luke Zettlemoyer, Noah A. Smith, (参考訳) 広く採用されているにもかかわらず、言語モデルのバイアスや意図しない振る舞いはいまだに理解されていない。 本稿では,これまでに議論されたことのない現象を識別し,その現象をセマンティックリークと呼び,モデルが予期せぬ方法でプロンプトから生成する無関係な情報を漏らす現象を特徴付ける。 本研究では,人間と自動の両方でセマンティックリークを検出するための評価設定を提案し,その振る舞いを診断するための多様なテストスイートをキュレートし,13のフラッグシップモデルにおいて重要なセマンティックリークを測定する。 また、英語以外の言語や、異なる設定や生成シナリオにまたがるセマンティックリークを示すモデルを示す。 この発見は、生成パターンや振る舞いに影響を与える言語モデルにおける別のタイプのバイアスを強調します。

Despite their wide adoption, the biases and unintended behaviors of language models remain poorly understood. In this paper, we identify and characterize a phenomenon never discussed before, which we call semantic leakage, where models leak irrelevant information from the prompt into the generation in unexpected ways. We propose an evaluation setting to detect semantic leakage both by humans and automatically, curate a diverse test suite for diagnosing this behavior, and measure significant semantic leakage in 13 flagship models. We also show that models exhibit semantic leakage in languages besides English and across different settings and generation scenarios. This discovery highlights yet another type of bias in language models that affects their generation patterns and behavior.
翻訳日:2024-08-14 19:07:10 公開日:2024-08-12
# 隠れたモジュール反射を用いた階層型インコンテキスト強化学習の計画

Hierarchical in-Context Reinforcement Learning with Hindsight Modular Reflections for Planning ( http://arxiv.org/abs/2408.06520v1 )

ライセンス: Link先を確認
Chuanneng Sun, Songjun Huang, Dario Pompili, (参考訳) 大規模言語モデル(LLM)は、様々な言語タスクにおいて顕著な能力を示しており、ロボット工学における意思決定の候補として有望である。 階層型強化学習(Hierarchical Reinforcement Learning, HRL)に着想を得て, 複雑なタスクをLLMベースの高レベルポリシーを用いてサブタスクに分解する新しいフレームワークである階層型インコンテキスト強化学習(HCRL)を提案する。 目標によって定義されたサブタスクは、完成する低レベルポリシーに割り当てられる。 LLMエージェントがゴールが完了したと判断すると、新しいゴールが提案される。 マルチエピソード実行におけるエージェントの性能を向上させるために,HMR(Hindsight Modular Reflection)を提案する。これは,全軌道を反射するのではなく,タスク目標を中間目標に置き換え,エージェントを短い軌道に反射させて反射効率を向上させる。 提案するHCRLの判定能力は,ALFWorld,Webshop,HotpotQAの3つのベンチマーク環境で評価する。 その結果,HCRLは強い文脈内学習ベースラインよりも5エピソードで9%,42%,10%の性能向上が達成できた。

Large Language Models (LLMs) have demonstrated remarkable abilities in various language tasks, making them promising candidates for decision-making in robotics. Inspired by Hierarchical Reinforcement Learning (HRL), we propose Hierarchical in-Context Reinforcement Learning (HCRL), a novel framework that decomposes complex tasks into sub-tasks using an LLM-based high-level policy, in which a complex task is decomposed into sub-tasks by a high-level policy on-the-fly. The sub-tasks, defined by goals, are assigned to the low-level policy to complete. Once the LLM agent determines that the goal is finished, a new goal will be proposed. To improve the agent's performance in multi-episode execution, we propose Hindsight Modular Reflection (HMR), where, instead of reflecting on the full trajectory, we replace the task objective with intermediate goals and let the agent reflect on shorter trajectories to improve reflection efficiency. We evaluate the decision-making ability of the proposed HCRL in three benchmark environments--ALFWorld, Webshop, and HotpotQA. Results show that HCRL can achieve 9%, 42%, and 10% performance improvement in 5 episodes of execution over strong in-context learning baselines.
翻訳日:2024-08-14 19:07:10 公開日:2024-08-12
# グラフから量子ビットへ:量子グラフニューラルネットワークの批判的レビュー

From Graphs to Qubits: A Critical Review of Quantum Graph Neural Networks ( http://arxiv.org/abs/2408.06524v1 )

ライセンス: Link先を確認
Andrea Ceschini, Francesco Mauro, Francesca De Falco, Alessandro Sebastianelli, Alessio Verdone, Antonello Rosato, Bertrand Le Saux, Massimo Panella, Paolo Gamba, Silvia L. Ullo, (参考訳) 量子グラフニューラルネットワーク(QGNN)は、量子コンピューティングとグラフニューラルネットワーク(GNN)の新たな融合であり、複雑なリレーショナル構造を持つデータを解析する強力なツールである古典的なGNNに固有の計算とスケーラビリティの課題を克服することを目的としている。 重ね合わせや絡み合いといった原理を活用する量子コンピューティングは、計算能力の向上への道筋を提供する。 本稿では,QGNNの現状を批判的にレビューし,様々なアーキテクチャを探求する。 我々は、高エネルギー物理学、分子化学、ファイナンス、地球科学など多種多様な分野にまたがる応用について論じ、量子的優位性の可能性を強調した。 さらに、ノイズ、デコヒーレンス、スケーラビリティの問題など、QGNNが直面する重要な課題に対処し、これらの問題を緩和するための潜在的な戦略を提案します。 この総合的なレビューは、QGNNの基本的な理解を提供し、この有望な学際分野におけるさらなる研究と開発を促進することを目的としている。

Quantum Graph Neural Networks (QGNNs) represent a novel fusion of quantum computing and Graph Neural Networks (GNNs), aimed at overcoming the computational and scalability challenges inherent in classical GNNs that are powerful tools for analyzing data with complex relational structures but suffer from limitations such as high computational complexity and over-smoothing in large-scale applications. Quantum computing, leveraging principles like superposition and entanglement, offers a pathway to enhanced computational capabilities. This paper critically reviews the state-of-the-art in QGNNs, exploring various architectures. We discuss their applications across diverse fields such as high-energy physics, molecular chemistry, finance and earth sciences, highlighting the potential for quantum advantage. Additionally, we address the significant challenges faced by QGNNs, including noise, decoherence, and scalability issues, proposing potential strategies to mitigate these problems. This comprehensive review aims to provide a foundational understanding of QGNNs, fostering further research and development in this promising interdisciplinary field.
翻訳日:2024-08-14 19:07:10 公開日:2024-08-12
# Gromov-Wasserstein距離のNP硬度

The NP-hardness of the Gromov-Wasserstein distance ( http://arxiv.org/abs/2408.06525v1 )

ライセンス: Link先を確認
Natalia Kravtsova, (参考訳) このノートは、Gromov-Wasserstein (GW) 距離が NP-hard であるという文献でしばしば言及される性質を取り上げている。 入力データの任意のインスタンスに対して有限空間間のGW距離のNP硬度を示すGW最適化問題の非凸性の詳細を提供する。 さらに、いくつかの明示的な例で、問題の非凸性について説明する。

This note addresses the property frequently mentioned in the literature that the Gromov-Wasserstein (GW) distance is NP-hard. We provide the details on the non-convex nature of the GW optimization problem that imply NP-hardness of the GW distance between finite spaces for any instance of an input data. We further illustrate the non-convexity of the problem with several explicit examples.
翻訳日:2024-08-14 19:07:10 公開日:2024-08-12
# ランダム特徴を用いた演算子学習 : 科学計算のためのツール

Operator Learning Using Random Features: A Tool for Scientific Computing ( http://arxiv.org/abs/2408.06526v1 )

ライセンス: Link先を確認
Nicholas H. Nelsen, Andrew M. Stuart, (参考訳) 教師付き演算子学習は、無限次元空間間のマップを推定するために、入力出力ペアの形式でトレーニングデータを使用する。 従来の科学計算を補完する強力なツールとして現れており、しばしば関数の空間間をマッピングする演算子の観点からフレーム化される。 本稿では,スカラー回帰のための古典的ランダム特徴法に基づいて,関数値のランダム特徴法を提案する。 これにより、非線形問題に対して実用的な教師付き演算子学習アーキテクチャが実現されるが、凸2次コストの最適化による効率的なトレーニングを容易にするのに十分な構造になっている。 二次構造のため、訓練されたモデルは収束保証とエラーと複雑性境界を備えており、他のほとんどの演算子学習アーキテクチャでは利用できない特性である。 提案手法は,その中心にランダム演算子の線形結合を構築する。 これは演算子値のカーネルリッジ回帰アルゴリズムの低ランク近似であることが判明し、ガウス過程回帰と強い関係を持つ。 本論文は,パラメトリック偏微分方程式から生じる2つの非線形演算子学習ベンチマーク問題の構造に合わせて,関数値のランダムな特徴を設計する。 数値計算により,関数値のランダム特徴法のスケーラビリティ,離散化不変性,および伝達性を示す。

Supervised operator learning centers on the use of training data, in the form of input-output pairs, to estimate maps between infinite-dimensional spaces. It is emerging as a powerful tool to complement traditional scientific computing, which may often be framed in terms of operators mapping between spaces of functions. Building on the classical random features methodology for scalar regression, this paper introduces the function-valued random features method. This leads to a supervised operator learning architecture that is practical for nonlinear problems yet is structured enough to facilitate efficient training through the optimization of a convex, quadratic cost. Due to the quadratic structure, the trained model is equipped with convergence guarantees and error and complexity bounds, properties that are not readily available for most other operator learning architectures. At its core, the proposed approach builds a linear combination of random operators. This turns out to be a low-rank approximation of an operator-valued kernel ridge regression algorithm, and hence the method also has strong connections to Gaussian process regression. The paper designs function-valued random features that are tailored to the structure of two nonlinear operator learning benchmark problems arising from parametric partial differential equations. Numerical results demonstrate the scalability, discretization invariance, and transferability of the function-valued random features method.
翻訳日:2024-08-14 19:07:10 公開日:2024-08-12
# LLMを用いた戦略プランニング:モチベーション面接における心理療法対話の生成と戦略の対応

Chain-of-Strategy Planning with LLMs: Aligning the Generation of Psychotherapy Dialogue with Strategy in Motivational Interviewing ( http://arxiv.org/abs/2408.06527v1 )

ライセンス: Link先を確認
Xin Sun, Xiao Tang, Abdallah El Ali, Zhuying Li, Xiaoyu Shen, Pengjie Ren, Jan de Wit, Jiahuan Pei, Jos A. Bosch, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、特にモチベーション・インタヴュー(MI)において、精神療法的対話の生成において有望であることを示している。 しかし,モチベーション・インタヴュー(MI)のスキルを駆使して,説明可能性を伴う治療的・一貫性のある会話を創出するには,戦略の活用方法が過小評価されている。 本稿では、まず、MI戦略を推論として予測し、これらの戦略を用いてその後の対話生成を導出する戦略対応対話生成手法を提案する。 これは、生成されたMI対話と治療戦略を整合させることにより、心理療法における制御可能で説明可能な生成の可能性をもたらす。 MI戦略の有効性を検証するために, 自動評価, 人的評価を含む広範囲な実験を行った。 本研究は,LSMが戦略的に整合した対話を創出する可能性を示し,心理療法における実践的応用の方向性を示唆するものである。

Recent advancements in large language models (LLMs) have shown promise in generating psychotherapeutic dialogues, especially in Motivational Interviewing (MI). However, how to employ strategies, a set of motivational interviewing (MI) skills, to generate therapeutic-adherent conversations with explainability is underexplored. We propose an approach called strategy-aware dialogue generation with Chain-of-Strategy (CoS) planning, which first predicts MI strategies as reasoning and utilizes these strategies to guide the subsequent dialogue generation. It brings the potential for controllable and explainable generation in psychotherapy by aligning the generated MI dialogues with therapeutic strategies. Extensive experiments including automatic and human evaluations are conducted to validate the effectiveness of the MI strategy. Our findings demonstrate the potential of LLMs in producing strategically aligned dialogues and suggest directions for practical applications in psychotherapeutic settings.
翻訳日:2024-08-14 19:07:10 公開日:2024-08-12
# 平面ジョーンズ・ロバーツ・ソリトンの熱劣化

Thermal Decay of Planar Jones-Roberts Solitons ( http://arxiv.org/abs/2408.06532v1 )

ライセンス: Link先を確認
Nils A. Krause, Ashton S. Bradley, (参考訳) 均一な平面超流動は、超流動乱流のような非常に励起性の高い状態にも現れる様々な低エネルギー励起を示す。 希薄ガスボース・アインシュタイン凝縮では、ジョーンズ・ロバーツ・ソリトン族は、それぞれ低速と高速の条件下で渦双極子と希土類のパルスを含む。 これらの励起はエネルギーと線形運動量の両方を持ち、その崩壊特性は超流動力学を理解するために重要である。 本研究では,貯水池相互作用の確率射影Gross-Pitaevskii理論で説明されるように,熱影響による平面ソリトン崩壊の理論を発展させる。 我々は、凝縮物と非凝縮物貯水池の間の移動を伴う2つの異なる減衰項を解析した。 我々は,低速度と高速度の両方で解析処理を行い,いずれの機構が支配的な条件を同定する。 以上の結果から,高相空間密度でエネルギー減衰が進行することが示唆された。 これらの理論結果は、渦双極子からレアファクションパルスまでの全速度範囲をカバーする数値的な研究によって支持されている。 相互作用エネルギーを用いて、ボース=アインシュタイン凝縮体における有限温度理論の実験的なテストを行い、渦双極子内の渦間距離に類似したレアファクションパルスを特徴づける。

Homogeneous planar superfluids exhibit a range of low-energy excitations that also appear in highly excited states like superfluid turbulence. In dilute gas Bose-Einstein condensates, the Jones- Roberts soliton family includes vortex dipoles and rarefaction pulses in the low and high velocity regimes, respectively. These excitations carry both energy and linear momentum, making their decay characteristics crucial for understanding superfluid dynamics. In this work, we develop the theory of planar soliton decay due to thermal effects, as described by the stochastic projected Gross-Pitaevskii theory of reservoir interactions. We analyze two distinct damping terms involving transfer between the condensate and the non-condensate reservoir: particle transfer that also involves energy and usually drives condensate growth, and number-conserving energy transfer. We provide analytical treatments for both the low and high velocity regimes and identify conditions under which either mechanism dominates. Our findings indicate that energy damping prevails at high phase space density. These theoretical results are supported by numerical studies covering the entire velocity range from vortex dipole to rarefaction pulse. We use interaction energy to characterize rarefaction pulses, analogous to the distance between vortices in vortex dipoles, offering an experimentally accessible test for finite temperature theory in Bose-Einstein condensates.
翻訳日:2024-08-14 19:07:10 公開日:2024-08-12
# 残差量子化変分オートエンコーダを用いた複数音源の音源分離

Source Separation of Multi-source Raw Music using a Residual Quantized Variational Autoencoder ( http://arxiv.org/abs/2408.07020v1 )

ライセンス: Link先を確認
Leonardo Berti, (参考訳) 残差量子化変分オートエンコーダアーキテクチャに基づくニューラルオーディオコーデックモデルを開発した。 私は、マルチトラックオーディオで構成される音楽ソース分離のための標準データセットであるSlakh2100データセットでモデルをトレーニングします。 モデルはオーディオソースを分離することができ、ほぼSoTA結果を達成することができ、計算能力は大幅に低下する。 コードはgithub.com/LeonardoBerti00/Source-Separation-of-Multi-source-Music-using-Residual-Quantizad-Variatio nal-Autoencoderで公開されている。

I developed a neural audio codec model based on the residual quantized variational autoencoder architecture. I train the model on the Slakh2100 dataset, a standard dataset for musical source separation, composed of multi-track audio. The model can separate audio sources, achieving almost SoTA results with much less computing power. The code is publicly available at github.com/LeonardoBerti00/Source-Separation-of-Multi-source-Music-using-Residual-Quantizad-Variatio nal-Autoencoder
翻訳日:2024-08-14 16:55:31 公開日:2024-08-12
# FDApy: 機能データのためのPythonパッケージ

FDApy: a Python package for functional data ( http://arxiv.org/abs/2101.11003v2 )

ライセンス: Link先を確認
Steven Golovkine, (参考訳) 機能データ分析のためのオープンソースPythonパッケージであるFDApyを紹介する。 このパッケージは、異なる次元領域で定義された(複数の)関数データの表現と、不規則にサンプリングされた関数データのためのツールを提供する。 さらに, 周期的あるいは不規則にサンプリングされる多変量および/または多次元関数データに対して, 次元低減技術が実装されている。 機能データセットを生成するツールボックスも提供される。 ドキュメントにはインストールと使用指示、シミュレートされた実際のデータセットの例、APIの完全な記述が含まれている。 FDApyはMITライセンスでリリースされている。 コードとドキュメントはhttps://github.com/StevenGolovkine/FDApy.comで公開されている。

We introduce FDApy, an open-source Python package for the analysis of functional data. The package provides tools for the representation of (multivariate) functional data defined on different dimensional domains and for functional data that is irregularly sampled. Additionally, dimension reduction techniques are implemented for multivariate and/or multidimensional functional data that are regularly or irregularly sampled. A toolbox for generating functional datasets is also provided. The documentation includes installation and usage instructions, examples on simulated and real datasets and a complete description of the API. FDApy is released under the MIT license. The code and documentation are available at https://github.com/StevenGolovkine/FDApy.
翻訳日:2024-08-14 01:37:20 公開日:2024-08-12
# フェデレーショングラフ学習における局所バイアス処理

Tackling the Local Bias in Federated Graph Learning ( http://arxiv.org/abs/2110.12906v2 )

ライセンス: Link先を確認
Binchi Zhang, Minnan Luo, Shangbin Feng, Ziqi Liu, Jun Zhou, Qinghua Zheng, (参考訳) FGL(Federated Graph Learning)は,実世界のグラフ構造化データのスケールと分散特性の増大に対応する重要な研究トピックとなっている。 FGLでは、グローバルグラフは異なるクライアントに分散され、各クライアントはサブグラフを保持する。 既存のFGL法は、訓練中に構造情報をなくし、クロスクライアントエッジを効果的に活用できないことが多く、また、局所グラフは大きな分布のばらつきを示すことが多い。 これら2つの問題により、FGLにおける局所モデルの方が、集中型グラフ学習よりも望ましい。 そこで本研究では,FGLフレームワークを新たに提案し,一元的に学習したモデルに類似した局所モデルを作成する。 具体的には、クライアント間のエッジを完全に活用して、他のクライアントからの情報を集約する分散学習方式を設計する。 さらに、不均衡なローカルデータを緩和し、トレーニングのオーバーヘッドを著しく低減するラベル誘導サンプリング手法を提案する。 大規模な実験では、局所バイアスがモデルのパフォーマンスを損なう可能性を示し、トレーニング中の収束を遅くする。 実験の結果、我々のフレームワークは局所バイアスを軽減し、時間とメモリのオーバーヘッドが低い他のベースラインよりも優れたパフォーマンスを実現しています。

Federated graph learning (FGL) has become an important research topic in response to the increasing scale and the distributed nature of graph-structured data in the real world. In FGL, a global graph is distributed across different clients, where each client holds a subgraph. Existing FGL methods often fail to effectively utilize cross-client edges, losing structural information during the training; additionally, local graphs often exhibit significant distribution divergence. These two issues make local models in FGL less desirable than in centralized graph learning, namely the local bias problem in this paper. To solve this problem, we propose a novel FGL framework to make the local models similar to the model trained in a centralized setting. Specifically, we design a distributed learning scheme, fully leveraging cross-client edges to aggregate information from other clients. In addition, we propose a label-guided sampling approach to alleviate the imbalanced local data and meanwhile, distinctly reduce the training overhead. Extensive experiments demonstrate that local bias can compromise the model performance and slow down the convergence during training. Experimental results also verify that our framework successfully mitigates local bias, achieving better performance than other baselines with lower time and memory overhead.
翻訳日:2024-08-14 01:37:20 公開日:2024-08-12
# 2サンプルテストによる強化学習における最大化バイアスの対応

Addressing Maximization Bias in Reinforcement Learning with Two-Sample Testing ( http://arxiv.org/abs/2201.08078v4 )

ライセンス: Link先を確認
Martin Waltz, Ostap Okhrin, (参考訳) 価値に基づく強化学習アルゴリズムは、ゲーム、ロボティクス、その他の現実世界のアプリケーションにおいて強力な結果を示している。 過大評価バイアスはこれらのアルゴリズムに対する既知の脅威であり、時には劇的なパフォーマンス低下や完全なアルゴリズムの失敗につながることがある。 バイアス問題を統計的に定式化し、確率変数の集合の最大期待値(MEV)を推定する事例とみなす。 提案手法は, 仮説テストの妥当性を調整し, 過大評価と過小評価を柔軟に補間する, 平均2サンプル検定に基づく$T$-Estimator (TE) を提案する。 K$-Estimator (KE) と呼ばれる一般化も導入し、これはTEと同じバイアスと分散境界に従い、ほぼ任意のカーネル関数に依存する。 本稿では,TE と KE を用いた $Q$-Learning と Bootstrapped Deep $Q$-Network (BDQN) の修正を導入し,表の設定における収束性を証明する。 さらに、TEベースのBDQNの適応的変種を提案し、絶対推定バイアスを最小限に抑えるために、その重要度を動的に調整する。 提案するすべての推定器とアルゴリズムは、TEとKEのバイアス制御と性能ポテンシャルを例示して、様々なタスクと環境に対して徹底的に検証・検証されている。

Value-based reinforcement-learning algorithms have shown strong results in games, robotics, and other real-world applications. Overestimation bias is a known threat to those algorithms and can sometimes lead to dramatic performance decreases or even complete algorithmic failure. We frame the bias problem statistically and consider it an instance of estimating the maximum expected value (MEV) of a set of random variables. We propose the $T$-Estimator (TE) based on two-sample testing for the mean, that flexibly interpolates between over- and underestimation by adjusting the significance level of the underlying hypothesis tests. We also introduce a generalization, termed $K$-Estimator (KE), that obeys the same bias and variance bounds as the TE and relies on a nearly arbitrary kernel function. We introduce modifications of $Q$-Learning and the Bootstrapped Deep $Q$-Network (BDQN) using the TE and the KE, and prove convergence in the tabular setting. Furthermore, we propose an adaptive variant of the TE-based BDQN that dynamically adjusts the significance level to minimize the absolute estimation bias. All proposed estimators and algorithms are thoroughly tested and validated on diverse tasks and environments, illustrating the bias control and performance potential of the TE and KE.
翻訳日:2024-08-14 01:37:20 公開日:2024-08-12
# クラウドリリース準備をサポートするプロセス

A Process To Support Cloud Release Preparation ( http://arxiv.org/abs/2205.01372v2 )

ライセンス: Link先を確認
James J. Cusick, (参考訳) 本稿では,ソフトウェアとシステムリリースの本番環境への準備を支援する概念と方法を提案する。 キーワード:Operational Readiness Review, ORR, IT Services, IT Operations, ITIL, Process Engineering, Reliability, Availability, Software Architecture, Cloud Computing, Networking, Site Reliability Engineering, DevOps, Agile Methods, Quality, Defect Prevention, Release Management, Risk Management, Data Visualization, Organizational Change Management。

This paper presents concepts and methods to support preparing software and system releases to production. Keywords: Operational Readiness Review, ORR, IT Services, IT Operations, ITIL, Process Engineering, Reliability, Availability, Software Architecture, Cloud Computing, Networking, Site Reliability Engineering, DevOps, Agile Methods, Quality, Defect Prevention, Release Management, Risk Management, Data Visualization, Organizational Change Management.
翻訳日:2024-08-14 01:37:20 公開日:2024-08-12
# MoESys:インターネットサービスのための分散的で効率的な訓練と推論システム

MoESys: A Distributed and Efficient Mixture-of-Experts Training and Inference System for Internet Services ( http://arxiv.org/abs/2205.10034v3 )

ライセンス: Link先を確認
Dianhai Yu, Liang Shen, Hongxiang Hao, Weibao Gong, Huachao Wu, Jiang Bian, Lirong Dai, Haoyi Xiong, (参考訳) チャットボット、検索エンジン、オンライン広告などの現代のインターネットサービスは、大規模なディープニューラルネットワーク(DNN)の使用を要求する一方で、異種コンピューティングシステムに対する分散トレーニングと推論は、これらのDNNモデルを促進するために望まれる。 Mixture-of-Experts (MoE) は、モデルやデータの全体サイズに応じたトレーニングコストを、分割/分散方式でゲーティングと並列化によって削減する最も一般的な戦略の1つである。 DeepSpeedは、異種インフラストラクチャ上で大規模なMoEトレーニングを実施するために努力してきたが、トレーニングと推論の効率は、ロードバランシング、通信/計算効率、メモリフットプリント制限など、いくつかのシステム側面からさらに改善される可能性がある。 本研究では,大規模学習と推論の両面で効率を高める新しいMoESyを提案する。 具体的には、トレーニング手順において、提案したMoESysは、2Dプリフェッチと階層ストレージ上のフュージョン通信を備えたElastic MoEトレーニング戦略を採用し、効率的な並列性を享受する。 単一ノードでのスケーラブルな推論、特にモデルサイズがGPUメモリよりも大きい場合、MoESysはCPU-GPUメモリを、モデルをロードするセクションのリングに結合して構築し、効率的な推論のためにラウンドロビン方式でメモリセクション全体で計算タスクを実行する。 我々はMoESysの評価実験を行い、48 A100 GPUカード上で8日間に12BパラメータのSparsely-Gated Mixture-of-Expertsモデルを用いて統一特徴最適化(UFO)モデルをトレーニングした。 最先端と比較すると、MoESysはDeepSpeedを33%、トレーニングでは33%、推論では13%、パフォーマンスは13%向上した。 特に、バランスの取れないMoEタスク、例えばUFOでは、MoESysは64%高いスループットを実現し、18%低いメモリフットプリントを実現した。

While modern internet services, such as chatbots, search engines, and online advertising, demand the use of large-scale deep neural networks (DNNs), distributed training and inference over heterogeneous computing systems are desired to facilitate these DNN models. Mixture-of-Experts (MoE) is one the most common strategies to lower the cost of training subject to the overall size of models/data through gating and parallelism in a divide-and-conquer fashion. While DeepSpeed has made efforts in carrying out large-scale MoE training over heterogeneous infrastructures, the efficiency of training and inference could be further improved from several system aspects, including load balancing, communication/computation efficiency, and memory footprint limits. In this work, we present a novel MoESys that boosts efficiency in both large-scale training and inference. Specifically, in the training procedure, the proposed MoESys adopts an Elastic MoE training strategy with 2D prefetch and Fusion communication over Hierarchical storage, so as to enjoy efficient parallelisms. For scalable inference in a single node, especially when the model size is larger than GPU memory, MoESys builds the CPU-GPU memory jointly into a ring of sections to load the model, and executes the computation tasks across the memory sections in a round-robin manner for efficient inference. We carried out extensive experiments to evaluate MoESys, where MoESys successfully trains a Unified Feature Optimization (UFO) model with a Sparsely-Gated Mixture-of-Experts model of 12B parameters in 8 days on 48 A100 GPU cards. The comparison against the state-of-the-art shows that MoESys outperformed DeepSpeed with 33% higher throughput (tokens per second) in training and 13% higher throughput in inference in general. Particularly, under unbalanced MoE Tasks, e.g., UFO, MoESys achieved 64% higher throughput with 18% lower memory footprints.
翻訳日:2024-08-14 01:37:20 公開日:2024-08-12
# 異なる設定における価値に基づく意思決定時間と背景計画手法の検討

A Look at Value-Based Decision-Time vs. Background Planning Methods Across Different Settings ( http://arxiv.org/abs/2206.08442v3 )

ライセンス: Link先を確認
Safa Alver, Doina Precup, (参考訳) モデルベース強化学習(RL)では、エージェントは学習したモデルを利用して、様々な方法で行動の仕方を改善することができる。 これを行う一般的な方法の2つは、意思決定時間とバックグラウンド計画方法である。 本研究では、これらの2つの計画手法の価値に基づくバージョンが、異なる設定でどのように比較されるかを理解することに興味を持つ。 この目標に向けて、まず、価値に基づく意思決定時間および背景計画手法の最も単純なインスタンス化を検討し、通常のRLと伝達学習設定において、どの手法がより良く機能するか理論的結果を提供する。 次に,それらの近代的なインスタンス化について考察し,同じ設定でより優れた性能を示す仮説を提案する。 最後に,これらの理論的結果と仮説を検証するための実証実験を行った。 全体として,2つの計画手法の値ベースのバージョンは,最も単純なインスタンス化において同等に動作するが,価値ベースの意思決定時間計画手法の現代インスタンス化は,通常のRLと転写学習設定の両方において,価値ベースの背景計画手法の現代インスタンス化よりも同等かそれ以上に実行可能であることが示唆された。

In model-based reinforcement learning (RL), an agent can leverage a learned model to improve its way of behaving in different ways. Two of the prevalent ways to do this are through decision-time and background planning methods. In this study, we are interested in understanding how the value-based versions of these two planning methods will compare against each other across different settings. Towards this goal, we first consider the simplest instantiations of value-based decision-time and background planning methods and provide theoretical results on which one will perform better in the regular RL and transfer learning settings. Then, we consider the modern instantiations of them and provide hypotheses on which one will perform better in the same settings. Finally, we perform illustrative experiments to validate these theoretical results and hypotheses. Overall, our findings suggest that even though value-based versions of the two planning methods perform on par in their simplest instantiations, the modern instantiations of value-based decision-time planning methods can perform on par or better than the modern instantiations of value-based background planning methods in both the regular RL and transfer learning settings.
翻訳日:2024-08-14 01:37:20 公開日:2024-08-12
# 量子アニールを用いたマルチディスククラッチ最適化

Multi-disk clutch optimization using quantum annealing ( http://arxiv.org/abs/2208.05916v3 )

ライセンス: Link先を確認
John D. Malcolm, Alexander Roth, Mladjan Radic, Pablo Martin-Ramiro, Jon Oillarburu, Borja Aizpurua, Roman Orus, Samuel Mugel, (参考訳) 本研究では,クラッチ製造において重要な実用的関連性を持つ組合せ問題を解くために,新しい量子アルゴリズムを開発した。 量子最適化が製造業における実際の産業応用においてどのように役割を果たせるかを示す。 D-Wave Systemsが提供する量子アニールを用いて、量子および量子古典ハイブリッドソルバの性能を分析し、決定論的およびランダムアルゴリズムの古典的ベンチマークソルバと比較する。 量子技術の継続的な進化は、将来のさらなる関連性への期待を示し、製造業における革命的な可能性を強調している。

In this work, we develop a new quantum algorithm to solve a combinatorial problem with significant practical relevance occurring in clutch manufacturing. It is demonstrated how quantum optimization can play a role in real industrial applications in the manufacturing sector. Using the quantum annealer provided by D-Wave Systems, we analyze the performance of the quantum and quantum-classical hybrid solvers and compare them to deterministic- and random-algorithm classical benchmark solvers. The continued evolution of the quantum technology, indicating an expectation for even greater relevance in the future is discussed and the revolutionary potential it could have in the manufacturing sector is highlighted.
翻訳日:2024-08-14 01:37:20 公開日:2024-08-12
# 時系列における教師なし異常検出:最先端手法の大規模評価と解析

Unsupervised Anomaly Detection in Time-series: An Extensive Evaluation and Analysis of State-of-the-art Methods ( http://arxiv.org/abs/2212.03637v3 )

ライセンス: Link先を確認
Nesryne Mejri, Laura Lopez-Fuentes, Kankana Roy, Pavel Chernakov, Enjie Ghorbel, Djamila Aouada, (参考訳) 時系列における教師なし異常検出は文献で広く研究されている。 多くのアプリケーション分野におけるこのトピックの関連性にもかかわらず、現実の制約を考慮に入れた最近の最先端技術に関する包括的かつ広範囲な評価が依然として必要である。 既存の教師なし時系列異常検出手法を厳格に比較するために,いくつかの試みがなされている。 しかしながら、標準的なパフォーマンス指標、すなわち精度、リコール、F1スコアのみが一般的に考慮されている。 したがって、それらの実践的妥当性を評価するための基本的な側面は無視される。 本稿では,近年の時系列における教師なし異常検出手法の詳細な評価手法を提案する。 標準的なパフォーマンス指標にのみ依存するのではなく、さらに重要なメトリクスとプロトコルが考慮される。 特に (i)特に時系列に適した、より精巧なパフォーマンス指標が使用される。 (ii)モデルサイズとモデル安定性について検討する。 三 異常タイプに関する検査方法の分析、並びに (iv) すべての実験に対して明確でユニークなプロトコルが従う。 全体として、この広範な分析は、最先端の時系列異常検出の成熟度を評価し、現実の環境下での適用性に関する洞察を与え、コミュニティにより完全な評価プロトコルを提供することを目的としている。

Unsupervised anomaly detection in time-series has been extensively investigated in the literature. Notwithstanding the relevance of this topic in numerous application fields, a comprehensive and extensive evaluation of recent state-of-the-art techniques taking into account real-world constraints is still needed. Some efforts have been made to compare existing unsupervised time-series anomaly detection methods rigorously. However, only standard performance metrics, namely precision, recall, and F1-score are usually considered. Essential aspects for assessing their practical relevance are therefore neglected. This paper proposes an in-depth evaluation study of recent unsupervised anomaly detection techniques in time-series. Instead of relying solely on standard performance metrics, additional yet informative metrics and protocols are taken into account. In particular, (i) more elaborate performance metrics specifically tailored for time-series are used; (ii) the model size and the model stability are studied; (iii) an analysis of the tested approaches with respect to the anomaly type is provided; and (iv) a clear and unique protocol is followed for all experiments. Overall, this extensive analysis aims to assess the maturity of state-of-the-art time-series anomaly detection, give insights regarding their applicability under real-world setups and provide to the community a more complete evaluation protocol.
翻訳日:2024-08-14 01:29:38 公開日:2024-08-12
# ローレンツ対称性のための量子参照フレーム

Quantum Reference Frames for Lorentz Symmetry ( http://arxiv.org/abs/2212.14081v2 )

ライセンス: Link先を確認
Luca Apadula, Esteban Castro-Ruiz, Časlav Brukner, (参考訳) 最初の導入以来、量子参照フレーム(QRF)変換は広く議論され、量子領域への物理法則の共分散を一般化している。 重要な進歩にもかかわらず、ローレンツ対称性に対するQRF変換の定式化はいまだに欠けている。 本研究は,このギャップを埋めることを目的としている。 まず、好適な時間スライシングの概念に依存しない相対論的量子力学の再構成を導入する。 これに基づいて、異なる相対論的QRFの視点を切り替える変換を定義する。 量子粒子の外部自由度に作用する'量子ローレンツ変換'と'量子ローレンツの促進'の概念を導入する。 時間拡張の重ね合わせと長さ収縮の重ね合わせという2つの効果は、参照フレームが相対論的特徴と量子力学的特徴の両方を示す場合にのみ生じる。 最後に、相対論的QRFから波束拡張を測定することで、その効果がどのように観測できるかについて議論する。

Since their first introduction, Quantum Reference Frame (QRF) transformations have been extensively discussed, generalising the covariance of physical laws to the quantum domain. Despite important progress, a formulation of QRF transformations for Lorentz symmetry is still lacking. The present work aims to fill this gap. We first introduce a reformulation of relativistic quantum mechanics independent of any notion of preferred temporal slicing. Based on this, we define transformations that switch between the perspectives of different relativistic QRFs. We introduce a notion of ''quantum Lorentz transformations'' and ''superposition of Lorentz boosts'', acting on the external degrees of freedom of a quantum particle. We analyse two effects, superposition of time dilations and superposition of length contractions, that arise only if the reference frames exhibit both relativistic and quantum-mechanical features. Finally, we discuss how the effects could be observed by measuring the wave-packet extensions from relativistic QRFs.
翻訳日:2024-08-14 01:29:38 公開日:2024-08-12
# ChatGPT打ち上げ後のスタンス検出技術

How would Stance Detection Techniques Evolve after the Launch of ChatGPT? ( http://arxiv.org/abs/2212.14548v4 )

ライセンス: Link先を確認
Bowen Zhang, Daijun Ding, Liwen Jing, Genan Dai, Nan Yin, (参考訳) スタンス検出(スタンス検出)とは、与えられたテキストの目標に向けて、視点(フェーバー、アタック、ノー)を抽出するタスクである。 このような研究は、ソーシャルメディアコンテンツの普及に伴って注目を集めている。 従来のスタンス検出処理のフレームワークは、テキスト分類タスクに変換する。 ディープラーニングモデルはすでに、そのような問題を解決するためにルールベースのモデルと従来の機械学習モデルを置き換える。 現在のディープニューラルネットワークは、2つの大きな課題に直面している。これは、ソーシャルメディア投稿におけるラベル付きデータと情報、そしてディープラーニングモデルの説明不能な性質である。 2022年11月30日、新しい訓練済み言語モデルであるchatGPTが発売された。 姿勢検出タスクでは,SemEval-2016 や P-Stance などの一般的なデータセットに対して,ChatGPT が SOTA あるいは類似のパフォーマンスを達成可能であることを示す。 同時に、ChatGPTは、既存のモデルの能力を超えた独自の予測を提供することができる。 分類結果を提供することができない場合の説明は特に有用である。 ChatGPTは、NLPにおけるスタンス検出タスクのための最高のAIモデルになり得るか、少なくともこの分野の研究パラダイムを変更する可能性がある。 ChatGPTはまた、スタンス検出のための説明的AIを構築する可能性も開放する。

Stance detection refers to the task of extracting the standpoint (Favor, Against or Neither) towards a target in given texts. Such research gains increasing attention with the proliferation of social media contents. The conventional framework of handling stance detection is converting it into text classification tasks. Deep learning models have already replaced rule-based models and traditional machine learning models in solving such problems. Current deep neural networks are facing two main challenges which are insufficient labeled data and information in social media posts and the unexplainable nature of deep learning models. A new pre-trained language model chatGPT was launched on Nov 30, 2022. For the stance detection tasks, our experiments show that ChatGPT can achieve SOTA or similar performance for commonly used datasets including SemEval-2016 and P-Stance. At the same time, ChatGPT can provide explanation for its own prediction, which is beyond the capability of any existing model. The explanations for the cases it cannot provide classification results are especially useful. ChatGPT has the potential to be the best AI model for stance detection tasks in NLP, or at least change the research paradigm of this field. ChatGPT also opens up the possibility of building explanatory AI for stance detection.
翻訳日:2024-08-14 01:29:38 公開日:2024-08-12
# テキスト誘導型タンパク質設計フレームワーク

A Text-guided Protein Design Framework ( http://arxiv.org/abs/2302.04611v3 )

ライセンス: Link先を確認
Shengchao Liu, Yanjing Li, Zhuoxinran Li, Anthony Gitter, Yutao Zhu, Jiarui Lu, Zhao Xu, Weili Nie, Arvind Ramanathan, Chaowei Xiao, Jian Tang, Hongyu Guo, Anima Anandkumar, (参考訳) 現在のAI支援タンパク質の設計は、主にタンパク質のシーケンシャルな情報と構造的な情報を利用する。 一方、タンパク質の高レベルの機能を記述するテキスト形式には、人間によってキュレーションされた膨大な知識が存在する。 しかし、このようなテキストデータの組み入れがタンパク質設計のタスクに役立つかどうかはまだ検討されていない。 このギャップを埋めるため,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。 タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。 ProteinDTをトレーニングするために,441Kテキストとタンパク質ペアを備えた大規模なデータセットSwissProtCLAPを構築した。 本研究では,(1)テキスト誘導タンパク質生成における90%以上精度,(2)ゼロショットテキスト誘導タンパク質編集タスクにおけるベストヒット率,(3)タンパク質特性予測ベンチマーク6項目中4項目における優れた性能の3つの課題に対するProteinDTの有効性を定量的に検証した。

Current AI-assisted protein design mainly utilizes protein sequential and structural information. Meanwhile, there exists tremendous knowledge curated by humans in the text format describing proteins' high-level functionalities. Yet, whether the incorporation of such text data can help protein design tasks has not been explored. To bridge this gap, we propose ProteinDT, a multi-modal framework that leverages textual descriptions for protein design. ProteinDT consists of three subsequent steps: ProteinCLAP which aligns the representation of two modalities, a facilitator that generates the protein representation from the text modality, and a decoder that creates the protein sequences from the representation. To train ProteinDT, we construct a large dataset, SwissProtCLAP, with 441K text and protein pairs. We quantitatively verify the effectiveness of ProteinDT on three challenging tasks: (1) over 90\% accuracy for text-guided protein generation; (2) best hit ratio on 12 zero-shot text-guided protein editing tasks; (3) superior performance on four out of six protein property prediction benchmarks.
翻訳日:2024-08-14 01:29:38 公開日:2024-08-12
# 逆問題に対するVAEの混合モデルによるマニフォールド学習

Manifold Learning by Mixture Models of VAEs for Inverse Problems ( http://arxiv.org/abs/2303.15244v3 )

ライセンス: Link先を確認
Giovanni S. Alberti, Johannes Hertrich, Matteo Santacesaria, Silvia Sciutto, (参考訳) 生成モデルによる非常に高次元データの多様体を表現することは、実際は計算的に効率的であることが示されている。 しかし、これはデータ多様体が大域パラメータ化を持つ必要がある。 任意の位相の多様体を表現するために,変分オートエンコーダの混合モデルを学習することを提案する。 ここで、すべてのエンコーダ-デコーダ対は多様体の1つのチャートを表す。 モデル重みの最大推定のための損失関数を提案し、チャートとその逆数の解析式を提供するアーキテクチャを選択する。 多様体が学習されると、学習多様体に制限されたデータ忠実度項を最小化することにより、逆問題の解法に使用する。 最小化問題を解くために、学習多様体上のリーマン勾配降下アルゴリズムを提案する。 本手法の低次元玩具実例と,特定の画像多様体上での耐摩耗・電気インピーダンストモグラフィーの性能を実証する。

Representing a manifold of very high-dimensional data with generative models has been shown to be computationally efficient in practice. However, this requires that the data manifold admits a global parameterization. In order to represent manifolds of arbitrary topology, we propose to learn a mixture model of variational autoencoders. Here, every encoder-decoder pair represents one chart of a manifold. We propose a loss function for maximum likelihood estimation of the model weights and choose an architecture that provides us the analytical expression of the charts and of their inverses. Once the manifold is learned, we use it for solving inverse problems by minimizing a data fidelity term restricted to the learned manifold. To solve the arising minimization problem we propose a Riemannian gradient descent algorithm on the learned manifold. We demonstrate the performance of our method for low-dimensional toy examples as well as for deblurring and electrical impedance tomography on certain image manifolds.
翻訳日:2024-08-14 01:18:22 公開日:2024-08-12
# 証明可能な保証付き量子多体状態に対する指数的に改善された効率的な機械学習

Exponentially improved efficient machine learning for quantum many-body states with provable guarantees ( http://arxiv.org/abs/2304.04353v3 )

ライセンス: Link先を確認
Yanming Che, Clemens Gneiting, Franco Nori, (参考訳) 量子多体系の基底状態と基底状態の性質を解くことは、一般に古典的なアルゴリズムにとって難しい課題である。 物理パラメータの$m$次元空間上で定義されるハミルトン系では、任意のパラメータ構成における基底状態とその特性は、所定の予測誤差$\varepsilon$まで機械学習プロトコルを介して予測することができる。 最近の研究(Huang et al , Science 377, eabk3333 (2022))において、そのような一般化に対する厳密な保証が証明された。 残念ながら、証明可能なサンプル複雑性に対する指数的スケーリングである$N=m^{{\cal{O}}\left(\frac{1}{\varepsilon}\right)}$は、一般化されたハミルトン多様体に対して普遍的であることが判明した。 この結果は、パラメータ空間の次元が大きくなる一方、精度でのスケーリングが緊急要因ではない状況に適用できる。 本研究では,予測誤差によるスケーリングが中心的な関心事となる間に,$m$が有限で必ずしも大きな定数であるようなシナリオを考える。 学習プロトコルにおける密度行列の基本的性質を共同保存し、パラメータ範囲における量子状態の連続性を利用することにより、均一な予測誤差$\varepsilon$とqubits$n$に対して、量子多体状態とその性質を予測する多項式サンプル複雑性を厳格に得る。 さらに、局所量子状態の学習に制限された場合、$n$に関するサンプルの数は指数関数的に減少する。 この結果は、量子多体状態とその性質の効率的な学習を理論的に保証するものであり、モデル非依存の応用は、ギャップ付きハミルトンの基底状態に制限されない。

Solving the ground state and the ground-state properties of quantum many-body systems is generically a hard task for classical algorithms. For a family of Hamiltonians defined on an $m$-dimensional space of physical parameters, the ground state and its properties at an arbitrary parameter configuration can be predicted via a machine learning protocol up to a prescribed prediction error $\varepsilon$, provided that a sample set (of size $N$) of the states can be efficiently prepared and measured. In a recent work [Huang et al., Science 377, eabk3333 (2022)], a rigorous guarantee for such a generalization was proved. Unfortunately, an exponential scaling for the provable sample complexity, $N=m^{{\cal{O}}\left(\frac{1}{\varepsilon}\right)}$, was found to be universal for generic gapped Hamiltonians. This result applies to the situation where the dimension of the parameter space is large while the scaling with the accuracy is not an urgent factor. In this work, we consider an alternative scenario where $m$ is a finite, not necessarily large constant while the scaling with the prediction error becomes the central concern. By jointly preserving the fundamental properties of density matrices in the learning protocol and utilizing the continuity of quantum states in the parameter range of interest, we rigorously obtain a polynomial sample complexity for predicting quantum many-body states and their properties, with respect to the uniform prediction error $\varepsilon$ and the number of qubits $n$. Moreover, if restricted to learning local quantum-state properties, the number of samples with respect to $n$ can be further reduced exponentially. Our results provide theoretical guarantees for efficient learning of quantum many-body states and their properties, with model-independent applications not restricted to ground states of gapped Hamiltonians.
翻訳日:2024-08-14 01:18:22 公開日:2024-08-12
# リモートセンシング画像のための数十億ドル規模の基礎モデル

A Billion-scale Foundation Model for Remote Sensing Images ( http://arxiv.org/abs/2304.05215v4 )

ライセンス: Link先を確認
Keumgang Cha, Junghoon Seo, Taekyung Lee, (参考訳) 視覚タスクにおける基礎モデルの可能性に大きな注目を集めているため、下流タスクの前にこれらのモデルを事前訓練することが重要なステップとなっている。 基礎モデルの事前学習における3つの重要な要素は、事前学習方法、事前学習データセットのサイズ、モデルパラメータの数である。 近年,リモートセンシング分野の研究は,モデルパラメータの数に限定して,事前学習手法とデータセットのサイズに重点を置いている。 本稿では, オブジェクトの回転検出やセマンティックセグメンテーションといった下流タスクにおける基礎モデルの性能に及ぼすモデルパラメータ数の増加の影響を検討することで, このギャップを解消する。 86M, 605.26M, 1.3B, 2.4Bなど,様々なパラメータを持つ基礎モデルを事前学習し, パラメータの増加に伴う下流タスクの性能向上を検証した。 我々の知る限りでは、これはリモートセンシング分野における最初の10億ドル規模の基礎モデルである。 さらに,リモートセンシング分野における視覚変換器のスケールアップと微調整に有効な手法を提案する。 下流タスクにおける一般的な性能を評価するために、回転物体検出のためのDOTA v2.0とDIOR-Rベンチマークデータセット、意味的セグメンテーションのためのPotsdamとLoveDAデータセットを用いた。 実験の結果、すべてのベンチマークデータセットとダウンストリームタスクにおいて、基礎モデルの性能とデータ効率が改善し、パラメータの数が増加した。 さらに,本モデルでは,DIOR-R,Postdam,LoveDAなど,いくつかのデータセットで最先端のパフォーマンスを実現している。

As the potential of foundation models in visual tasks has garnered significant attention, pretraining these models before downstream tasks has become a crucial step. The three key factors in pretraining foundation models are the pretraining method, the size of the pretraining dataset, and the number of model parameters. Recently, research in the remote sensing field has focused primarily on the pretraining method and the size of the dataset, with limited emphasis on the number of model parameters. This paper addresses this gap by examining the effect of increasing the number of model parameters on the performance of foundation models in downstream tasks such as rotated object detection and semantic segmentation. We pretrained foundation models with varying numbers of parameters, including 86M, 605.26M, 1.3B, and 2.4B, to determine whether performance in downstream tasks improved with an increase in parameters. To the best of our knowledge, this is the first billion-scale foundation model in the remote sensing field. Furthermore, we propose an effective method for scaling up and fine-tuning a vision transformer in the remote sensing field. To evaluate general performance in downstream tasks, we employed the DOTA v2.0 and DIOR-R benchmark datasets for rotated object detection, and the Potsdam and LoveDA datasets for semantic segmentation. Experimental results demonstrated that, across all benchmark datasets and downstream tasks, the performance of the foundation models and data efficiency improved as the number of parameters increased. Moreover, our models achieve the state-of-the-art performance on several datasets including DIOR-R, Postdam, and LoveDA.
翻訳日:2024-08-14 01:18:22 公開日:2024-08-12
# 制御-A-ビデオ:制御可能テキスト-ビデオ拡散モデル

Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning ( http://arxiv.org/abs/2305.13840v3 )

ライセンス: Link先を確認
Weifeng Chen, Yatai Ji, Jie Wu, Hefeng Wu, Pan Xie, Jiashi Li, Xin Xia, Xuefeng Xiao, Liang Lin, (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルの最近の進歩により、テキスト・プロンプトによって導かれる印象的な画像生成が可能になった。 しかし、これらのテクニックをビデオ生成に拡張することは依然として困難であり、既存のテキスト・ツー・ビデオ(T2V)手法は高品質でモーション・一貫性のあるビデオを作成するのにしばしば苦労している。 本研究では,テキストプロンプトに条件付きビデオを生成する制御可能なT2V拡散モデルであるControl-A-Videoと,エッジや奥行きマップのような参照制御マップを紹介する。 映像品質と動きの整合性の問題に対処するため,拡散型生成プロセスにコンテンツの先行と動きを組み込む新しい手法を提案する。 具体的には、画像領域から映像を転送するための第1フレーム条件スキームを用いる。 さらに、残差ベースおよび光フローベースノイズ初期化を導入し、参照ビデオから動きの先行を注入し、フレッカリングを減らすためのフレームラテント間の関連性を促進する。 さらに、ビデオ品質と動きの整合性のために複数の報酬モデルを用いて、ビデオ拡散モデルを最適化する時空間逆フィードバック学習(ST-ReFL)アルゴリズムを提案する。 包括的実験により、制御可能なテキスト・ビデオ生成における既存の最先端手法と比較して、我々のフレームワークは高品質で一貫性のあるビデオを生成することが示された。

Recent advances in text-to-image (T2I) diffusion models have enabled impressive image generation capabilities guided by text prompts. However, extending these techniques to video generation remains challenging, with existing text-to-video (T2V) methods often struggling to produce high-quality and motion-consistent videos. In this work, we introduce Control-A-Video, a controllable T2V diffusion model that can generate videos conditioned on text prompts and reference control maps like edge and depth maps. To tackle video quality and motion consistency issues, we propose novel strategies to incorporate content prior and motion prior into the diffusion-based generation process. Specifically, we employ a first-frame condition scheme to transfer video generation from the image domain. Additionally, we introduce residual-based and optical flow-based noise initialization to infuse motion priors from reference videos, promoting relevance among frame latents for reduced flickering. Furthermore, we present a Spatio-Temporal Reward Feedback Learning (ST-ReFL) algorithm that optimizes the video diffusion model using multiple reward models for video quality and motion consistency, leading to superior outputs. Comprehensive experiments demonstrate that our framework generates higher-quality, more consistent videos compared to existing state-of-the-art methods in controllable text-to-video generation
翻訳日:2024-08-14 01:18:22 公開日:2024-08-12
# マルチモーダル大言語モデルを用いた文脈オブジェクト検出

Contextual Object Detection with Multimodal Large Language Models ( http://arxiv.org/abs/2305.18279v2 )

ライセンス: Link先を確認
Yuhang Zang, Wei Li, Jun Han, Kaiyang Zhou, Chen Change Loy, (参考訳) 近年のMLLM(Multimodal Large Language Models)は、画像キャプションや質問応答といった視覚言語タスクにおいて顕著であるが、本質的な知覚能力、すなわちオブジェクト検出に欠ける。 本研究では,人間とAIの対話的コンテキストにおける可視物体の理解という,コンテキストオブジェクト検出の新たな研究課題を導入することで,この制限に対処する。 言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。 さらに、視覚的オブジェクトと人間のAIインタラクションのための言語入力を識別、識別、関連付けるために、視覚的コンテキストのエンドツーエンドで微分可能なモデリングが可能な統合マルチモーダルモデルであるContextDETを提案する。 ContextDETには3つの重要なサブモデルがあります。 一 視覚表現を抽出するための視覚エンコーダ (ii)マルチモーダルコンテキスト復号のための事前訓練LDM、及び 三 文脈オブジェクトワードを与えられた境界ボックスを予測する視覚デコーダ。 新しいジェネレーション・then-detectフレームワークにより,人間の語彙内で対象語を検出することができる。 大規模な実験により、提案したCODEベンチマークにおけるContextDETの利点、オープン語彙検出、参照画像セグメント化が示された。 Github:https://github.com/yuhangzang/ContextDET.com

Recent Multimodal Large Language Models (MLLMs) are remarkable in vision-language tasks, such as image captioning and question answering, but lack the essential perception ability, i.e., object detection. In this work, we address this limitation by introducing a novel research problem of contextual object detection -- understanding visible objects within different human-AI interactive contexts. Three representative scenarios are investigated, including the language cloze test, visual captioning, and question answering. Moreover, we present ContextDET, a unified multimodal model that is capable of end-to-end differentiable modeling of visual-language contexts, so as to locate, identify, and associate visual objects with language inputs for human-AI interaction. Our ContextDET involves three key submodels: (i) a visual encoder for extracting visual representations, (ii) a pre-trained LLM for multimodal context decoding, and (iii) a visual decoder for predicting bounding boxes given contextual object words. The new generate-then-detect framework enables us to detect object words within human vocabulary. Extensive experiments show the advantages of ContextDET on our proposed CODE benchmark, open-vocabulary detection, and referring image segmentation. Github: https://github.com/yuhangzang/ContextDET.
翻訳日:2024-08-14 01:18:22 公開日:2024-08-12
# Bernstein-Vaziraniアルゴリズムの性能に及ぼす雑音の影響

Effects of noise on performance of Bernstein-Vazirani algorithm ( http://arxiv.org/abs/2305.19745v2 )

ライセンス: Link先を確認
Archi Gupta, Priya Ghosh, Kornikar Sen, Ujjwal Sen, (参考訳) ベルンシュタイン・ヴァジラニ(Bernstein-Vazirani, BV)アルゴリズムは、関数の隠れビット列を見つける際、例外的な精度を提供する。 実環境において、ノイズが性能を阻害する可能性のある状況において、アルゴリズムがどのように機能するかを考察する。 不完全な機器の影響を評価するため、ベルンシュタイン・ヴァジラーニ回路で用いられるアダマール門の効果に様々な形態のガラス障害を導入する。 我々は, 有限カットオフ, 球状ガウス, 離散円, 球状コーシーローレンツの5種類の障害を加味し, 圧縮した。 その結果,全ての症例において障害強度の増加に伴い,アルゴリズムの有効性が低下することが判明した。 さらに、秘密文字列のビット数が増加するにつれて、文字列を正しく推測する成功確率は、障害の種類に敏感になり、その代わりに、障害の平均と拡散にのみ依存することを示した。 この結果と類似した雑音の存在下での古典的アルゴリズムの性能を比較した。 秘密文字列の長さが小さい場合、量子BVアルゴリズムは、障害の強度が非常に高く、障害が離散円分布に従わない限り、考慮中のほとんど全ての障害に対して古典的なアルゴリズムよりも効率的である。 しかし、極端に大きな秘密文字列に移動すると、乱れたBVアルゴリズムの成功確率は、任意の強みを持つ全ての考察された障害に対して、乱れた古典的アルゴリズムの成功確率とマージされる。 量子アルゴリズムの効率が古典的アルゴリズムと等価になる文字列の長さの制限は、障害の種類ではなく、障害の量に依存する。

The Bernstein-Vazirani (BV) algorithm offers exceptional accuracy in finding the hidden bit string of a function. We explore how the algorithm performs in real-world situations where noise can potentially interfere with its performance. In order to assess the impact of imperfect equipments, we introduce various forms of glassy disorders into the effect of the Hadamard gates used in the Bernstein-Vazirani circuit. We incorporated disorders of five different forms, viz., Haar-uniform with finite cutoff, spherical Gaussian, discrete circular, spherical Cauchy-Lorentz, and squeezed. We find that the effectiveness of the algorithm decreases with increasing disorder strength in all cases. Additionally, we demonstrate that as the number of bits in the secret string increases, the success probability of correctly guessing the string becomes increasingly insensitive to the type of disorder and instead depends only on the mean and spread of the disorder. We compare our results with the performance of the analogous classical algorithm in the presence of similar noise. When the length of the secret string is small or moderate, the quantum BV algorithm is found to be more efficient compared to the classical algorithm for almost all types of disorders under consideration, unless the strength of the disorder is very high and the disorder follows a discrete circular distribution. However, if we move to extremely large secret strings, the success probability of the disordered BV algorithm merges with the success probability of the disordered classical algorithm for all considered disorders having arbitrary strengths. The limit on the length of the string after which the efficiency of the quantum algorithm becomes equivalent to the classical algorithm depends on the amount of disorder and not on the type of disorder.
翻訳日:2024-08-14 01:08:32 公開日:2024-08-12
# Deep Optimal Transport:フォトリアリスティック画像復元のための実践的アルゴリズム

Deep Optimal Transport: A Practical Algorithm for Photo-realistic Image Restoration ( http://arxiv.org/abs/2306.02342v2 )

ライセンス: Link先を確認
Theo Adrai, Guy Ohayon, Tomer Michaeli, Michael Elad, (参考訳) 本稿では,事前学習したモデルの知覚的品質と平均二乗誤差(MSE)を制御し,一方を他方で比較する画像復元アルゴリズムを提案する。 モデルによって復元された画像数十枚を考慮に入れれば、新たな画像に対する知覚的品質および/またはMSEを大幅に向上させることができる。 我々のアプローチは、最小MSE予測器と完全知覚品質制約の下でMSEを最小化する予測器とのリンクという最近の理論的結果によって動機付けられている。 具体的には、その分布がソースデータと一致するように、前者の出力を最適に輸送することで、後者が得られることを示した。 そこで,MSEを最小化するために訓練された予測器の知覚品質を改善するため,実験的な手段と共分散を用いて閉形式で計算した変分オートエンコーダの潜時空間における線形変換による最適輸送を近似した。 理論を超えて、当初高い知覚品質を達成するために訓練されたモデルに同じ手順を適用することは、通常、知覚品質をさらに向上させる。 また,モデルを元の出力と補間することにより,知覚品質を犠牲にしてMSEを改善することができる。 本稿では,任意の次元の一般コンテンツ画像に適用した様々な劣化について述べる。

We propose an image restoration algorithm that can control the perceptual quality and/or the mean square error (MSE) of any pre-trained model, trading one over the other at test time. Our algorithm is few-shot: Given about a dozen images restored by the model, it can significantly improve the perceptual quality and/or the MSE of the model for newly restored images without further training. Our approach is motivated by a recent theoretical result that links between the minimum MSE (MMSE) predictor and the predictor that minimizes the MSE under a perfect perceptual quality constraint. Specifically, it has been shown that the latter can be obtained by optimally transporting the output of the former, such that its distribution matches the source data. Thus, to improve the perceptual quality of a predictor that was originally trained to minimize MSE, we approximate the optimal transport by a linear transformation in the latent space of a variational auto-encoder, which we compute in closed-form using empirical means and covariances. Going beyond the theory, we find that applying the same procedure on models that were initially trained to achieve high perceptual quality, typically improves their perceptual quality even further. And by interpolating the results with the original output of the model, we can improve their MSE on the expense of perceptual quality. We illustrate our method on a variety of degradations applied to general content images of arbitrary dimensions.
翻訳日:2024-08-14 01:08:32 公開日:2024-08-12
# テンソル、群、多項式の同型問題の複雑性III:古典群による作用について

On the complexity of isomorphism problems for tensors, groups, and polynomials III: actions by classical groups ( http://arxiv.org/abs/2306.03135v2 )

ライセンス: Link先を確認
Zhili Chen, Joshua A. Grochow, Youming Qiao, Gang Tang, Chuanqi Zhang, (参考訳) 直交群、ユニタリ群、シンプレクティック群などの古典群による自然な作用の下で、d-ウェイアレイやテンソルの同型問題の複雑性について検討する。 このような問題は、統計データ分析や量子情報において自然に発生する。 複雑性理論に関する2つの質問について検討する。 まず、固定作用型(同型、共役等)に対して、古典群上の同型問題の複雑さと一般線型群上の同型問題を関連付ける。 第二に、固定群型(直交型、ユニタリ型、シンプレクティック型)では、異なる行動に対する決定問題の複雑さを比較する。 主な成果は以下の通りである。 まず、3方向のアレイに作用する直交群とシンプレクティック群に対して、同型問題は一般線型群上の対応する問題に還元される。 第二に、直交群とユニタリ群に対しては、三次元アレイ上の5つの自然な作用の同型問題は多項式時間同型であり、d-テンソル同型問題は任意の固定d>3の3つのテンソル同型問題に還元される。 ユニタリ群について、上記の結果は、三部分量子状態のLOCC分類が、少なくとも任意の d に対して d-部分分量子状態のLOCC分類と同じくらい難しいことを示唆している。 最後に、グラフ同型問題は直交群とユニタリ群上のテンソル同型問題に還元されることを示す。

We study the complexity of isomorphism problems for d-way arrays, or tensors, under natural actions by classical groups such as orthogonal, unitary, and symplectic groups. Such problems arise naturally in statistical data analysis and quantum information. We study two types of complexity-theoretic questions. First, for a fixed action type (isomorphism, conjugacy, etc.), we relate the complexity of the isomorphism problem over a classical group to that over the general linear group. Second, for a fixed group type (orthogonal, unitary, or symplectic), we compare the complexity of the decision problems for different actions. Our main results are as follows. First, for orthogonal and symplectic groups acting on 3-way arrays, the isomorphism problems reduce to the corresponding problem over the general linear group. Second, for orthogonal and unitary groups, the isomorphism problems of five natural actions on 3-way arrays are polynomial-time equivalent, and the d-tensor isomorphism problem reduces to the 3-tensor isomorphism problem for any fixed d>3. For unitary groups, the preceding result implies that LOCC classification of tripartite quantum states is at least as difficult as LOCC classification of d-partite quantum states for any d. Lastly, we also show that the graph isomorphism problem reduces to the tensor isomorphism problem over orthogonal and unitary groups.
翻訳日:2024-08-14 01:08:32 公開日:2024-08-12
# ChatGPTと先週--ChatGPTに関するWeibo研究

Last Week with ChatGPT: A Weibo Study on Social Perspective Regarding ChatGPT for Education and Beyond ( http://arxiv.org/abs/2306.04325v5 )

ライセンス: Link先を確認
Yao Tian, Chengwei Tong, Lik-Hang Lee, Reza Hadi Mogavi, Yong Liao, Pengyuan Zhou, (参考訳) AIを活用したツールの応用は多くの分野、特に学術コミュニティの関心を喚起している。 この研究は、現在最も強力で人気のあるAIツールであるChatGPTを用いて、中国国民が教育と一般的な目的のために大規模言語モデル(LLM)の可能性をどのように認識するかを分析する代表的な例である。 アクセシビリティの課題に直面しながら、我々は、ChatGPTの議論の数は、本土で最も人気のあるChatGPT代替製品であるBaiduが開発したErnie Botの16倍であり、ChatGPTが我々の分析にもっと適していることがわかった。 この研究は、AI技術がより高度でインテリジェントになるにつれて、世論の変化を調査する最初の試みでもある。 この分析によると、まだ高い能力を持っていない先進的なAIに初めて遭遇したとき、一部のソーシャルメディアユーザーはAIの進歩が教育や社会に恩恵をもたらすと信じていたが、一方でChatGPTのような先進的なAIが人間を劣悪に感じさせ、不正行為や道徳原則の低下といった問題を引き起こすことを恐れた。 利用者の大多数は中立のままだった。 興味深いことに、AI能力の急速な開発と改善により、公衆の態度はポジティブな方向にシフトする傾向にある。 本稿では,ChatGPT型モデルの教育等における倫理的適用を確保するために,トレンドシフトの徹底的な分析とロードマップを提案する。

The application of AI-powered tools has piqued the interest of many fields, particularly in the academic community. This study uses ChatGPT, currently the most powerful and popular AI tool, as a representative example to analyze how the Chinese public perceives the potential of large language models (LLMs) for educational and general purposes. Although facing accessibility challenges, we found that the number of discussions on ChatGPT per month is 16 times that of Ernie Bot developed by Baidu, the most popular alternative product to ChatGPT in the mainland, making ChatGPT a more suitable subject for our analysis. The study also serves as the first effort to investigate the changes in public opinion as AI technologies become more advanced and intelligent. The analysis reveals that, upon first encounters with advanced AI that was not yet highly capable, some social media users believed that AI advancements would benefit education and society, while others feared that advanced AI, like ChatGPT, would make humans feel inferior and lead to problems such as cheating and a decline in moral principles. The majority of users remained neutral. Interestingly, with the rapid development and improvement of AI capabilities, public attitudes have tended to shift in a positive direction. We present a thorough analysis of the trending shift and a roadmap to ensure the ethical application of ChatGPT-like models in education and beyond.
翻訳日:2024-08-14 01:08:32 公開日:2024-08-12
# フェアカラムサブセットの選択

Fair Column Subset Selection ( http://arxiv.org/abs/2306.04489v4 )

ライセンス: Link先を確認
Antonis Matakos, Bruno Ordozgoiti, Suhas Thejaswi, (参考訳) 列サブセット選択の問題は、入力行列から列のサブセットを求め、行列は選択された列のスパン内で可能な限り正確に再構成することができる。 自然な拡張は、行列列を2つの群に分割する設定を考えることであり、その目標は、それぞれの最高ランク-k近似に対して、両方の群の最大再構成誤差を最小化する列の部分集合を選択することである。 列サブセット選択の既知の結果をこの公正な設定に拡張することは簡単ではない: あるシナリオでは、各グループごとに列を別々に選択することは避けられない。 フェアセッティングのための決定論的レバレッジスコアサンプリング戦略を提案し、2つのグループが存在する場合、最小サイズのカラムサブセットのサンプリングがNPハードとなることを示す。 これらの否定的な結果にもかかわらず、最適解の1.5倍以内の解を保証する近似アルゴリズムを与える。 また,ランク検索QR因子化に基づく実用的ヒューリスティックアルゴリズムを提案する。 最後に,実世界のデータを用いて実験を行い,本手法の有効性を検証した。

The problem of column subset selection asks for a subset of columns from an input matrix such that the matrix can be reconstructed as accurately as possible within the span of the selected columns. A natural extension is to consider a setting where the matrix rows are partitioned into two groups, and the goal is to choose a subset of columns that minimizes the maximum reconstruction error of both groups, relative to their respective best rank-k approximation. Extending the known results of column subset selection to this fair setting is not straightforward: in certain scenarios it is unavoidable to choose columns separately for each group, resulting in double the expected column count. We propose a deterministic leverage-score sampling strategy for the fair setting and show that sampling a column subset of minimum size becomes NP-hard in the presence of two groups. Despite these negative results, we give an approximation algorithm that guarantees a solution within 1.5 times the optimal solution size. We also present practical heuristic algorithms based on rank-revealing QR factorization. Finally, we validate our methods through an extensive set of experiments using real-world data.
翻訳日:2024-08-14 01:08:32 公開日:2024-08-12
# 準周期駆動量子系における予熱と保存則

Prethermalization and conservation laws in quasi-periodically-driven quantum systems ( http://arxiv.org/abs/2306.14022v3 )

ライセンス: Link先を確認
Matteo Gallone, Beatrice Langella, (参考訳) 本研究では、外部時間依存性の準周期駆動を受ける量子多体系の一般クラスの保存則について検討する。 2) 駆動周波数が十分に大きい場合, 駆動強度が十分小さい場合には, ネホロシェフ型安定性が証明される。 さらに、未摂動ハミルトニアン運動定数の準保存を証明し、凝縮物質や統計物理学との関連性の例として、それらの物理的意味を分析する。

We study conservation laws of a general class of quantum many-body systems subjected to an external time dependent quasi-periodic driving. {When the frequency of the driving is large enough or the strength of the driving is small enough, we prove a Nekhoroshev-type stability result: we show that the system exhibits a prethermal state for stretched exponentially long times in the perturbative parameter}. Moreover, we prove the quasi-conservation of the constants of motion of the unperturbed Hamiltonian and we analyze their physical meaning in examples of relevance to condensed matter and statistical physics.
翻訳日:2024-08-14 01:08:32 公開日:2024-08-12
# MIMONet:マルチ入力マルチ出力オンデバイスディープラーニング

MIMONet: Multi-Input Multi-Output On-Device Deep Learning ( http://arxiv.org/abs/2307.11962v2 )

ライセンス: Link先を確認
Zexin Li, Xiaoxi He, Yufei Li, Wei Yang, Lothar Thiele, Cong Liu, (参考訳) 将来のインテリジェントロボットは、複数の入力(画像や音声データなど)を同時に処理し、人間のように複数の出力(性別や感情など)を生成することが期待されている。 近年の研究では、マルチインプットシングルアウトプット(MISO)ディープニューラルネットワーク(DNN)が従来のシングルインプットシングルアウトプット(SISO)モデルより優れていることが示されており、この目標に向けた重要なステップとなっている。 本稿では,待ち時間,エネルギ,メモリ使用量などの重要なパフォーマンス指標を用いて,高精度かつデバイス上での効率を実現する新しいマルチインプットマルチアウトプット(MIMO)DNNフレームワークMIMONetを提案する。 MIMONetは既存のSISOモデル圧縮技術を活用し、MIMOモデルに特化された新しいディープ圧縮手法を開発した。 この手法はMIMOモデルの特異な非自明な特性を探索し、精度の向上とデバイス上での効率向上をもたらす。 ロボットシステムで一般的に使用される3つの組込みプラットフォームに関する広範な実験と、TurtleBot3ロボットを用いたケーススタディにより、MIMONetは最先端のSISOモデルやMIISOモデルよりも精度が高く、デバイス上での効率が優れていることが実証された。 評価では,MIMONETの現実的な適用性と,知的ロボットシステムの性能を著しく向上させる可能性を強調した。

Future intelligent robots are expected to process multiple inputs simultaneously (such as image and audio data) and generate multiple outputs accordingly (such as gender and emotion), similar to humans. Recent research has shown that multi-input single-output (MISO) deep neural networks (DNN) outperform traditional single-input single-output (SISO) models, representing a significant step towards this goal. In this paper, we propose MIMONet, a novel on-device multi-input multi-output (MIMO) DNN framework that achieves high accuracy and on-device efficiency in terms of critical performance metrics such as latency, energy, and memory usage. Leveraging existing SISO model compression techniques, MIMONet develops a new deep-compression method that is specifically tailored to MIMO models. This new method explores unique yet non-trivial properties of the MIMO model, resulting in boosted accuracy and on-device efficiency. Extensive experiments on three embedded platforms commonly used in robotic systems, as well as a case study using the TurtleBot3 robot, demonstrate that MIMONet achieves higher accuracy and superior on-device efficiency compared to state-of-the-art SISO and MISO models, as well as a baseline MIMO model we constructed. Our evaluation highlights the real-world applicability of MIMONet and its potential to significantly enhance the performance of intelligent robotic systems.
翻訳日:2024-08-14 01:08:32 公開日:2024-08-12
# タイムラインベースのゲームのためのコントローラ合成

Controller Synthesis for Timeline-based Games ( http://arxiv.org/abs/2307.12289v3 )

ライセンス: Link先を確認
Renato Acampora, Luca Geatti, Nicola Gigante, Angelo Montanari, Valentino Picotti, (参考訳) スケジュールに基づく計画手法では、状態変数のセット(タイムライン)の時間的進化は時間的制約によって制御される。 伝統的なタイムラインベースの計画システムは、時間的不確実性に対処して計画と実行を統合するのに優れている。 一般の非決定性を扱うために、タイムラインベースのゲームの概念が最近導入された。 このようなゲームに勝利戦略が存在するかどうかが2EXPTIME完全であることが証明されている。 しかし、そのような戦略を実装したコントローラを合成する具体的なアプローチは欠落している。 本稿では,このギャップを埋めるために,タイムラインベースのゲームに対して,効果的かつ計算学的に最適なコントローラ合成手法を提案する。

In the timeline-based approach to planning, the evolution over time of a set of state variables (the timelines) is governed by a set of temporal constraints. Traditional timeline-based planning systems excel at the integration of planning with execution by handling temporal uncertainty. In order to handle general nondeterminism as well, the concept of timeline-based games has been recently introduced. It has been proved that finding whether a winning strategy exists for such games is 2EXPTIME-complete. However, a concrete approach to synthesize controllers implementing such strategies is missing. This paper fills this gap, by providing an effective and computationally optimal approach to controller synthesis for timeline-based games.
翻訳日:2024-08-14 00:58:29 公開日:2024-08-12
# 境界時間結晶を用いた連続センシングとパラメータ推定

Continuous sensing and parameter estimation with the boundary time-crystal ( http://arxiv.org/abs/2307.13277v2 )

ライセンス: Link先を確認
Albert Cabot, Federico Carollo, Igor Lesanovsky, (参考訳) 境界時間結晶は、コヒーレント駆動と集団散逸の競合によって制御される量子多体系である。 N$2レベルシステムで構成され、静止相と振動相の遷移を特徴とする。 システムがオープンであるという事実は、その量子軌道を継続的に監視し、パラメータの変化への依存を分析することを可能にする。 これにより、監視時間$T$とシステムサイズ$N$の関数として性能を調査するセンサデバイスの実現が可能になる。 達成可能な最高の感度は$\sqrt{T} N$、すなわち時間における標準量子極限と粒子数のハイゼンベルクスケーリングに比例する。 この理論的スケーリングは振動時間-結晶相で達成することができ、創発的量子相関に根ざすことができる。 しかし、主な課題は、この機能を実験的に実現可能な測定プロトコルで利用することである。 標準量子限界は2つの時間結晶をカスケードすることで超えることが示され、一方の時間結晶の量子軌道がもう一方の時間結晶の入力として用いられる。

A boundary time-crystal is a quantum many-body system whose dynamics is governed by the competition between coherent driving and collective dissipation. It is composed of $N$ two-level systems and features a transition between a stationary phase and an oscillatory one. The fact that the system is open allows to continuously monitor its quantum trajectories and to analyze their dependence on parameter changes. This enables the realization of a sensing device whose performance we investigate as a function of the monitoring time $T$ and of the system size $N$. We find that the best achievable sensitivity is proportional to $\sqrt{T} N$, i.e., it follows the standard quantum limit in time and Heisenberg scaling in the particle number. This theoretical scaling can be achieved in the oscillatory time-crystal phase and it is rooted in emergent quantum correlations. The main challenge is, however, to tap this capability in a measurement protocol that is experimentally feasible. We demonstrate that the standard quantum limit can be surpassed by cascading two time-crystals, where the quantum trajectories of one time-crystal are used as input for the other one.
翻訳日:2024-08-14 00:58:29 公開日:2024-08-12
# 動的強化学習

Dyadic Reinforcement Learning ( http://arxiv.org/abs/2308.07843v6 )

ライセンス: Link先を確認
Shuangning Li, Lluis Salvat Niell, Sung Won Choi, Inbal Nahum-Shani, Guy Shani, Susan Murphy, (参考訳) モバイルヘルスは、日々の生活について個人に介入を提供することによって、健康効果を高めることを目的としている。 ケアパートナーやソーシャルサポートネットワークの関与は、個人が負担の多い医療状況を管理するのに不可欠であることがしばしば証明される。 これは、社会的支援を強化することを目的として、ダイアド関係(対象者とケアパートナーの関係)をターゲットにした介入をデザインする機会をモバイルヘルスに提示する。 本稿では,対象者とその介護パートナーの過去の反応と文脈的要因に基づいて介入配信をパーソナライズするオンライン強化学習アルゴリズムであるDyadic RLを開発する。 ここでは、複数の介入が複数の時間間隔でダイアドに影響を与える。 開発されたダイド RL はベイズ的かつ階層的である。 問題設定を正式に導入し, Dyadic RLを開発し, 後悔の束縛を確立する。 本研究は,モバイル健康調査で収集したデータから構築した,おもちゃのシナリオと現実的なテストベッドの両方に関するシミュレーション研究を通じて,ダイアディッドRLの実証性能を実証する。

Mobile health aims to enhance health outcomes by delivering interventions to individuals as they go about their daily life. The involvement of care partners and social support networks often proves crucial in helping individuals managing burdensome medical conditions. This presents opportunities in mobile health to design interventions that target the dyadic relationship -- the relationship between a target person and their care partner -- with the aim of enhancing social support. In this paper, we develop dyadic RL, an online reinforcement learning algorithm designed to personalize intervention delivery based on contextual factors and past responses of a target person and their care partner. Here, multiple sets of interventions impact the dyad across multiple time intervals. The developed dyadic RL is Bayesian and hierarchical. We formally introduce the problem setup, develop dyadic RL and establish a regret bound. We demonstrate dyadic RL's empirical performance through simulation studies on both toy scenarios and on a realistic test bed constructed from data collected in a mobile health study.
翻訳日:2024-08-14 00:58:29 公開日:2024-08-12
# LEGO: ポイントクラウドによるオンラインマルチオブジェクトトラッキングのための学習とグラフ最適化モジュールトラッカー

LEGO: Learning and Graph-Optimized Modular Tracker for Online Multi-Object Tracking with Point Clouds ( http://arxiv.org/abs/2308.09908v4 )

ライセンス: Link先を確認
Zhenrong Zhang, Jianan Liu, Yuxuan Xia, Tao Huang, Qing-Long Han, Hongbin Liu, (参考訳) オンラインマルチオブジェクトトラッキング(MOT)は、自律システムにおいて重要な役割を果たす。 最先端のアプローチは通常、トラッキング・バイ・検出方式を採用し、データアソシエーションが重要な役割を果たす。 本稿では,既存の文献におけるデータ関連性を改善するために,学習とグラフ最適化(LEGO)モジュールトラッカーを提案する。 提案するLEGOトラッカーはグラフ最適化と自己認識機構を統合し,関連スコアマップを効率的に定式化し,時間枠間のオブジェクトの正確なマッチングを容易にする。 状態更新プロセスをさらに強化するため、オブジェクト状態に時間的コヒーレンスを組み込むことで、一貫したトラッキングを保証するために、Kalmanフィルタが追加される。 提案手法は,LiDARとLiDARの融合方式を含む他のオンライン追跡手法と比較して,優れた性能を示した。 LEGOは、KITTIオブジェクトトラッキング評価ランキングボードに結果が提出された時点で第1位であり、本論文提出時点では、KITTI MOTベンチマーク1のオンライントラッカーの中で第2位にとどまっている。

Online multi-object tracking (MOT) plays a pivotal role in autonomous systems. The state-of-the-art approaches usually employ a tracking-by-detection method, and data association plays a critical role. This paper proposes a learning and graph-optimized (LEGO) modular tracker to improve data association performance in the existing literature. The proposed LEGO tracker integrates graph optimization and self-attention mechanisms, which efficiently formulate the association score map, facilitating the accurate and efficient matching of objects across time frames. To further enhance the state update process, the Kalman filter is added to ensure consistent tracking by incorporating temporal coherence in the object states. Our proposed method utilizing LiDAR alone has shown exceptional performance compared to other online tracking approaches, including LiDAR-based and LiDAR-camera fusion-based methods. LEGO ranked 1st at the time of submitting results to KITTI object tracking evaluation ranking board and remains 2nd at the time of submitting this paper, among all online trackers in the KITTI MOT benchmark for cars1
翻訳日:2024-08-14 00:58:29 公開日:2024-08-12
# 時間的量子参照フレームに関する測定イベント

Measurement events relative to temporal quantum reference frames ( http://arxiv.org/abs/2308.10967v2 )

ライセンス: Link先を確認
Ladina Hausmann, Alexander Schmidhuber, Esteban Castro-Ruiz, (参考訳) Page-Wootters形式は、背景に依存し、量子力学的な時間の概念を一般相対性理論の背景依存性と整合させるための提案である。 しかし、この枠組みの物理的意味はいまだに議論されている。 本研究では,Page-Wootters形式に対する2つの一貫したアプローチを比較し,量子時間的参照フレームに対する進化と測定の操作的意味を明らかにする。 いわゆる "twirled observable" アプローチは、ハミルトンの制約に関して不変な作用素として測定を実装している。 代わりに、「純度測定」アプローチは制約自体を変更することによって動的に測定をモデル化する。 どちらの手法も理想時計の極限に一致するが、非理想的、有限リソースクロックの場合に対する純粋測定アプローチの自然な一般化は、根本的に異なる図形をもたらす。 この不一致の物理的起源を論じ、これらのアプローチが運用上異なる状況を記述することを主張する。 さらに,非理想的クロックに対しては,時間的非局所的・非単位的進化を導出し,事象の時間的順序の操作的定義に根本的な制限を与えることを示す。 それでも、その時間が離散的であると仮定すれば、ユニタリティと定時順序を復元することができる。

The Page-Wootters formalism is a proposal for reconciling the background-dependent, quantum-mechanical notion of time with the background-independence of general relativity. However, the physical meaning of this framework remains debated. In this work, we compare two consistent approaches to the Page-Wootters formalism to clarify the operational meaning of evolution and measurements with respect to a quantum temporal reference frame. The so-called "twirled observable" approach implements measurements as operators that are invariant with respect to the Hamiltonian constraint. The "purified measurement" approach instead models measurements dynamically by modifying the constraint itself. While both approaches agree in the limit of ideal clocks, a natural generalization of the purified measurement approach to the case of non-ideal, finite-resource clocks yields a radically different picture. We discuss the physical origin of this discrepancy and argue that the approaches describe operationally distinct situations. Moreover, we show that, for non-ideal clocks, the purified measurement approach yields time non-local, non-unitary evolution and implies a fundamental limitation to the operational definition of the temporal order of events. Nevertheless, unitarity and definite temporal order can be restored if we assume that time is discrete.
翻訳日:2024-08-14 00:58:29 公開日:2024-08-12
# 散逸時間結晶間の非平衡遷移

Nonequilibrium transition between dissipative time crystals ( http://arxiv.org/abs/2308.12080v2 )

ライセンス: Link先を確認
Albert Cabot, Gianluca Giorgi, Roberta Zambrini, (参考訳) 離散時間変換対称性が2つの異なる方法で自発的に破られる非線形量子発振器において、散逸相転移を示す。 対応する規則は離散的あるいは不規則な時間-結晶秩序を示すが、これは観測可能な力学に対処する古典的な極限、異なる(実験および回転)フレームの現象学、リウビリアスペクトルの特徴、量子ゆらぎを数値的に解析する。 実効的な半古典的記述から, 位相拡散は, 平均場励起数と線形に成長する固有モードのバンドとして現れる非共分散時間結晶(あるいは回転フレームにおける連続時間結晶)において支配的であることを示す。 代わりに、離散時間結晶相において、主揺らぎ過程は、指数的に成長する寿命を持つ単一のモードを持つ量子活性化に対応する。 興味深いことに、これらの2つの状態間の遷移は、既に量子状態において、位相拡散と量子活性化の間の例外的な点として、スペクトル特異点として現れている。 最後に、同期現象の文脈における異なる時間-結晶位間のこの遷移について論じる。

We show a dissipative phase transition in a driven nonlinear quantum oscillator in which a discrete time-translation symmetry is spontaneously broken in two different ways. The corresponding regimes display either discrete or incommensurate time-crystal order, which we analyze numerically and analytically beyond the classical limit addressing observable dynamics, phenomenology in different (laboratory and rotating) frames, Liouvillian spectral features, and quantum fluctuations. Via an effective semiclassical description, we show that phase diffusion dominates in the incommensurate time crystal (or continuous time crystal in the rotating frame), which manifests as a band of eigenmodes with a lifetime growing linearly with the mean-field excitation number. Instead, in the discrete time crystal phase, the leading fluctuation process corresponds to quantum activation with a single mode that has an exponentially growing lifetime. Interestingly, the transition between these two regimes manifests itself already in the quantum regime as a spectral singularity, namely as an exceptional point mediating between phase diffusion and quantum activation. Finally, we discuss this transition between different time-crystal orders in the context of synchronization phenomena.
翻訳日:2024-08-14 00:58:29 公開日:2024-08-12
# 分散グラフニューラルネットワークトレーニングのための分割戦略の実験的検討

An Experimental Comparison of Partitioning Strategies for Distributed Graph Neural Network Training ( http://arxiv.org/abs/2308.15602v2 )

ライセンス: Link先を確認
Nikolai Merkel, Daniel Stoll, Ruben Mayer, Hans-Arno Jacobsen, (参考訳) 近年,グラフニューラルネットワーク(GNN)は,グラフ構造化データから学習可能な深層学習の領域として注目されている。 しかし、大規模グラフ上でGNNをトレーニングするための計算とメモリの要求は、トレーニングを分散させる必要がある。 分散GNNトレーニングの前提条件は、入力グラフを計算クラスタの複数のマシンに分散する小さな部分に分割することである。 グラフのパーティショニングはグラフ解析やグラフデータベースに関して研究されているが、GNNのトレーニング性能への影響は明らかになっていない。 結果として、GNNのトレーニングシナリオにおいて、高品質なグラフ分割に計算努力を投資するかどうかは明らかでない。 本稿では,分散GNN学習におけるグラフ分割の有効性について検討する。 本研究の目的は, GNNパラメータ, ミニバッチサイズ, グラフタイプ, 特徴量, スケールアウト係数などの異なる因子が, グラフ分割の有効性にどのように影響するかを理解することである。 ヴァーテックスとエッジパーティショニングを用いた2つの異なるGNNシステムによる実験を行った。 高品質なグラフ分割は、GNNトレーニングを高速化し、メモリ消費を減らすために非常に効果的な最適化であることがわかった。 さらに,GNNのトレーニング時間を削減することで,投資したパーティショニング時間を短縮できることを示す。 分散グラフ処理の研究と比較すると,グラフ分割は分散GNNトレーニングにおいてさらに重要な役割を担っており,グラフ分割問題に対するさらなる研究の動機となっている。

Recently, graph neural networks (GNNs) have gained much attention as a growing area of deep learning capable of learning on graph-structured data. However, the computational and memory requirements for training GNNs on large-scale graphs make it necessary to distribute the training. A prerequisite for distributed GNN training is to partition the input graph into smaller parts that are distributed among multiple machines of a compute cluster. Although graph partitioning has been studied with regard to graph analytics and graph databases, its effect on GNN training performance is largely unexplored. As a consequence, it is unclear whether investing computational efforts into high-quality graph partitioning would pay off in GNN training scenarios. In this paper, we study the effectiveness of graph partitioning for distributed GNN training. Our study aims to understand how different factors such as GNN parameters, mini-batch size, graph type, features size, and scale-out factor influence the effectiveness of graph partitioning. We conduct experiments with two different GNN systems using vertex and edge partitioning. We found that high-quality graph partitioning is a very effective optimization to speed up GNN training and to reduce memory consumption. Furthermore, our results show that invested partitioning time can quickly be amortized by reduced GNN training time, making it a relevant optimization for most GNN scenarios. Compared to research on distributed graph processing, our study reveals that graph partitioning plays an even more significant role in distributed GNN training, which motivates further research on the graph partitioning problem.
翻訳日:2024-08-14 00:58:29 公開日:2024-08-12
# OpenIns3D: 3Dオープン語彙インスタンスセグメンテーションのためのスナップとルックアップ

OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation ( http://arxiv.org/abs/2309.00616v5 )

ライセンス: Link先を確認
Zhening Huang, Xiaoyang Wu, Xi Chen, Hengshuang Zhao, Lei Zhu, Joan Lasenby, (参考訳) 本研究では,3次元オープン語彙シーン理解のための新しい3DインプットオンリーフレームワークであるOpenIns3Dを紹介する。 OpenIns3Dフレームワークは"Mask-Snap-Lookup"スキームを採用している。 Mask"モジュールは3Dポイントクラウド内のクラス非依存マスクの提案を学習し、"Snap"モジュールは複数のスケールで合成シーンレベルの画像を生成し、2D視覚言語モデルを利用して興味深いオブジェクトを抽出し、"Lookup"モジュールは"Snap"の結果を検索して、提案したマスクにカテゴリ名を割り当てる。 このアプローチはシンプルながら、屋内と屋外の両方のデータセット上で、認識、オブジェクト検出、インスタンスセグメンテーションを含む、幅広い3Dオープン語彙タスクで最先端のパフォーマンスを実現する。 さらにOpenIns3Dは、再トレーニングを必要とせずに、異なる2D検出器の切り替えを容易にする。 強力な2次元オープンワールドモデルと統合すると、シーン理解タスクにおいて優れた結果が得られる。 さらに、LLMを使った2Dモデルと組み合わせると、OpenIns3Dは複雑な推論と実世界の知識を必要とする非常に複雑なテキストクエリを理解し、処理する印象的な能力を示す。 プロジェクトページ: https://zheninghuang.github.io/OpenIns3D/

In this work, we introduce OpenIns3D, a new 3D-input-only framework for 3D open-vocabulary scene understanding. The OpenIns3D framework employs a "Mask-Snap-Lookup" scheme. The "Mask" module learns class-agnostic mask proposals in 3D point clouds, the "Snap" module generates synthetic scene-level images at multiple scales and leverages 2D vision-language models to extract interesting objects, and the "Lookup" module searches through the outcomes of "Snap" to assign category names to the proposed masks. This approach, yet simple, achieves state-of-the-art performance across a wide range of 3D open-vocabulary tasks, including recognition, object detection, and instance segmentation, on both indoor and outdoor datasets. Moreover, OpenIns3D facilitates effortless switching between different 2D detectors without requiring retraining. When integrated with powerful 2D open-world models, it achieves excellent results in scene understanding tasks. Furthermore, when combined with LLM-powered 2D models, OpenIns3D exhibits an impressive capability to comprehend and process highly complex text queries that demand intricate reasoning and real-world knowledge. Project page: https://zheninghuang.github.io/OpenIns3D/
翻訳日:2024-08-14 00:58:29 公開日:2024-08-12
# 変化点検出機構を持つハエフディング木を用いた連続学習シナリオの天然ガス消費予測システム

A Natural Gas Consumption Forecasting System for Continual Learning Scenarios based on Hoeffding Trees with Change Point Detection Mechanism ( http://arxiv.org/abs/2309.03720v4 )

ライセンス: Link先を確認
Radek Svoboda, Sebastian Basterrech, Jedrzej Kozal, Jan Platos, Michal Wozniak, (参考訳) 天然ガス消費の予測は、季節性やトレンドを考慮して、その供給と消費を計画し、主に工業企業による生産コストの最適化に不可欠である。 しかし、供給が脅かされる際には、個々の消費者のニーズを満たすためにこの原料の供給を保証し、社会のエネルギー安全を確実にする重要な要素でもある。 本稿では,データストリーム処理を用いた連続学習機能付きモデルコレクション選択のための,変化点検出統合による天然ガス消費の多段階予測について紹介する。 提案手法に基づく予測モデルの性能を,天然ガス消費予測の複雑な実世界のユースケースで評価した。 予測モデルとしてHoeffding Tree Predictionorを用い,変化点検出のためのPruned Exact Linear Time (PELT) アルゴリズムを開発した。 変更点検出統合により、連続した時間フレームに対して異なるモデルコレクションを選択することができる。 そこで、検出された変化点の密度の異なるシナリオを予測するために、3つのモデル収集選択手順(エラーフィードバックループの有無なし)を定義し、評価する。 これらのモデルと変化点非依存のベースラインアプローチを比較した。 実験の結果, 変更点が少ないと, モデルコレクションの選択手順によらず, 予測誤差が小さくなることがわかった。 また、予測誤差フィードバックを省略したモデル収集選択手順は、連続的な学習タスクに適したより堅牢な予測モデルをもたらす。

Forecasting natural gas consumption, considering seasonality and trends, is crucial in planning its supply and consumption and optimizing the cost of obtaining it, mainly by industrial entities. However, in times of threats to its supply, it is also a critical element that guarantees the supply of this raw material to meet individual consumers' needs, ensuring society's energy security. This article introduces a novel multistep ahead forecasting of natural gas consumption with change point detection integration for model collection selection with continual learning capabilities using data stream processing. The performance of the forecasting models based on the proposed approach is evaluated in a complex real-world use case of natural gas consumption forecasting. We employed Hoeffding tree predictors as forecasting models and the Pruned Exact Linear Time (PELT) algorithm for the change point detection procedure. The change point detection integration enables selecting a different model collection for successive time frames. Thus, three model collection selection procedures (with and without an error feedback loop) are defined and evaluated for forecasting scenarios with various densities of detected change points. These models were compared with change point agnostic baseline approaches. Our experiments show that fewer change points result in a lower forecasting error regardless of the model collection selection procedure employed. Also, simpler model collection selection procedures omitting forecasting error feedback leads to more robust forecasting models suitable for continual learning tasks.
翻訳日:2024-08-14 00:58:29 公開日:2024-08-12
# 2次元における監視された自由フェルミオンの絡み合い相、局在および多重フラクタル性

Entanglement phases, localization and multifractality of monitored free fermions in two dimensions ( http://arxiv.org/abs/2309.12391v4 )

ライセンス: Link先を確認
K. Chahine, M. Buchhold, (参考訳) 2次元(2次元)におけるU$(1)$対称性を持つ連続監視自由フェルミオンの絡み合い構造と波動関数特性について検討した。 正確なフェルミオンレプリカ量子マスター方程式を導出することにより、以下の2つのアプローチを導出する。 (i) (2+1) 時空次元における対称性クラス AIII の SU$(R)$-対称場論、あるいは、(2+1) 自由フェルミオンに類似した非線形シグマモデル (ii)二部格子に対して、3番目の量子化は非エルミートSU$(2R)$-対称ハバードモデルにつながる。 正確な数値シミュレーションを用いて,2次元計測されたフェルミオンの絡み合い遷移の現象を考察し,絡み合いエントロピーと波動関数逆参加比を調べた。 弱いモニタリングでは, 金属フェルミ液体に類似した特徴的な$L\log L$エンタングルメント成長と多フラクタル次元$D_q=2$を観察した。 強いモニタリングの下では、波動関数は局所化し、絡み合いは領域法則に向かって飽和する。 これらの状態の間には、創発的共形不変性と最大多フラクタル挙動の両面の絡み合い成長を示す高対称性の点が示される。 この多重フラクタル的挙動はアンダーソン転移の非線形シグマモデルと一致するが、創発的共形不変性はアンダーソンの局所化に典型的には関連しない予期せぬ特徴である。 これらの発見は、2Dモニターされたフェルミオンの研究に新たな次元を与え、$D+1$次元の非単位量子力学と$D+1$次元の量子統計力学との間の関係をさらに探求する必要性を強調している。

We investigate the entanglement structure and wave function characteristics of continuously monitored free fermions with U$(1)$-symmetry in two spatial dimensions (2D). By deriving the exact fermion replica-quantum master equation, we line out two approaches: (i) a nonlinear sigma model analogous to disordered free fermions, resulting in an SU$(R)$-symmetric field theory of symmetry class AIII in (2+1) space-time dimensions, or (ii) for bipartite lattices, third quantization leading to a non-Hermitian SU$(2R)$-symmetric Hubbard model. Using exact numerical simulations, we explore the phenomenology of the entanglement transition in 2D monitored fermions, examining entanglement entropy and wave function inverse participation ratio. At weak monitoring, we observe characteristic $L\log L$ entanglement growth and multifractal dimension $D_q=2$, resembling a metallic Fermi liquid. Under strong monitoring, wave functions localize and the entanglement saturates towards an area law. Between these regimes, we identify a high-symmetry point exhibiting both entanglement growth indicative of emergent conformal invariance and maximal multifractal behavior. While this multifractal behavior aligns with the nonlinear sigma model of the Anderson transition, the emergent conformal invariance is an unexpected feature not typically associated with Anderson localization. These discoveries add a new dimension to the study of 2D monitored fermions and underscore the need to further explore the connection between non-unitary quantum dynamics in $D$ dimensions and quantum statistical mechanics in $D+1$ dimensions.
翻訳日:2024-08-14 00:58:29 公開日:2024-08-12
# フォローアップ質問をしてもよろしいか? : ニューラルネットワークの説明可能性における会話の利点を理解する

May I Ask a Follow-up Question? Understanding the Benefits of Conversations in Neural Network Explainability ( http://arxiv.org/abs/2309.13965v2 )

ライセンス: Link先を確認
Tong Zhang, X. Jessie Yang, Boyang Li, (参考訳) 説明可能なAI(XAI)の研究は、不透明なAIモデルの意思決定プロセスに関する洞察を提供することを目的としている。 現在までに、ほとんどのXAIメソッドは、多様な背景やユーザの理解レベルに対応できない、一対一で静的な説明を提供する。 本稿では,自由形式の会話が静的な説明の理解を高め,説明手法の受容と信頼を高め,人とAIのコラボレーションを促進するかを検討する。 参加者には静的な説明が提示され、続いて人間の専門家と説明について会話する。 我々は,会話が参加者の選択能力に与える影響を,説明と自己報告による理解,受容,信頼に基づいて,最も正確な3つの機械学習モデルから測定した。 経験的な結果は、会話は理解、受け入れ、信頼、コラボレーションを著しく改善することを示している。 本研究は,自由形式の会話形式におけるモデル説明のカスタマイズの重要性を強調し,対話説明の今後の設計について考察する。

Research in explainable AI (XAI) aims to provide insights into the decision-making process of opaque AI models. To date, most XAI methods offer one-off and static explanations, which cannot cater to the diverse backgrounds and understanding levels of users. With this paper, we investigate if free-form conversations can enhance users' comprehension of static explanations, improve acceptance and trust in the explanation methods, and facilitate human-AI collaboration. Participants are presented with static explanations, followed by a conversation with a human expert regarding the explanations. We measure the effect of the conversation on participants' ability to choose, from three machine learning models, the most accurate one based on explanations and their self-reported comprehension, acceptance, and trust. Empirical results show that conversations significantly improve comprehension, acceptance, trust, and collaboration. Our findings highlight the importance of customized model explanations in the format of free-form conversations and provide insights for the future design of conversational explanations.
翻訳日:2024-08-14 00:48:29 公開日:2024-08-12
# CoFiI2P:イメージ・ツー・ポイント・クラウド登録のための粗大な対応

CoFiI2P: Coarse-to-Fine Correspondences for Image-to-Point Cloud Registration ( http://arxiv.org/abs/2309.14660v4 )

ライセンス: Link先を確認
Shuhao Kang, Youqi Liao, Jianping Li, Fuxun Liang, Yuhao Li, Xianghong Zou, Fangning Li, Xieyuanli Chen, Zhen Dong, Bisheng Yang, (参考訳) イメージ・ツー・ポイント・クラウド(I2P)登録は、ロボットと自動運転車がモダリティ間のデータ融合とローカライゼーションを実現するための基本的なタスクである。 現在のI2P登録法は、主に点またはピクセルレベルでの対応を推定することに焦点を当てており、大域的なアライメントを無視することが多い。 結果として、I2Pマッチングは、グローバルな制約から高レベルなガイダンスが欠如している場合、局所的な最適値に容易に収束することができる。 成功率と汎用ロバスト性を改善するために,粗大な方法で対応を抽出する新しいI2P登録ネットワークであるCoFiI2Pを導入する。 まず、画像と点のクラウドデータを2ストリームエンコーダデコーダネットワークを介して処理し、階層的特徴抽出を行う。 第2に、これらの特徴を活用し、ロバストな特徴対応を確立するために、粗大なマッチングモジュールが設計されている。 具体的には、粗いマッチングフェーズにおいて、画像と点クラウドデータから均一なグローバル情報と不均一なグローバル情報の両方をキャプチャするために、新しいI2Pトランスフォーマーモジュールを用いる。 これにより、識別記述子との粗いスーパーポイント/スーパーピクセルマッチングペアを推定できる。 微細マッチングモジュールにおいて、スーパーポイント/スーパーピクセル対応のガイダンスにより、ポイント/ピクセル対を確立する。 最後に、一致するペアに基づいて、変換行列をEPnP-RANSACアルゴリズムで推定する。 KITTIオドメトリーデータセットを用いて行った実験は、CoFiI2Pが1.14度の相対回転誤差(RRE)と0.29mの相対翻訳誤差(RTE)を実時間速度を維持しながら達成できることを示し、Nuscenesデータセットの付加実験により、我々の手法の一般化性が確認された。 プロジェクトページは \url{https://whu-usi3dv.github.io/CoFiI2P} で公開されている。

Image-to-point cloud (I2P) registration is a fundamental task for robots and autonomous vehicles to achieve cross-modality data fusion and localization. Current I2P registration methods primarily focus on estimating correspondences at the point or pixel level, often neglecting global alignment. As a result, I2P matching can easily converge to a local optimum if it lacks high-level guidance from global constraints. To improve the success rate and general robustness, this paper introduces CoFiI2P, a novel I2P registration network that extracts correspondences in a coarse-to-fine manner. First, the image and point cloud data are processed through a two-stream encoder-decoder network for hierarchical feature extraction. Second, a coarse-to-fine matching module is designed to leverage these features and establish robust feature correspondences. Specifically, In the coarse matching phase, a novel I2P transformer module is employed to capture both homogeneous and heterogeneous global information from the image and point cloud data. This enables the estimation of coarse super-point/super-pixel matching pairs with discriminative descriptors. In the fine matching module, point/pixel pairs are established with the guidance of super-point/super-pixel correspondences. Finally, based on matching pairs, the transform matrix is estimated with the EPnP-RANSAC algorithm. Experiments conducted on the KITTI Odometry dataset demonstrate that CoFiI2P achieves impressive results, with a relative rotation error (RRE) of 1.14 degrees and a relative translation error (RTE) of 0.29 meters, while maintaining real-time speed.Additional experiments on the Nuscenes datasets confirm our method's generalizability. The project page is available at \url{https://whu-usi3dv.github.io/CoFiI2P}.
翻訳日:2024-08-14 00:48:29 公開日:2024-08-12
# 評価指標としての大規模言語モデルにおける認知バイアスのベンチマーク

Benchmarking Cognitive Biases in Large Language Models as Evaluators ( http://arxiv.org/abs/2309.17012v2 )

ライセンス: Link先を確認
Ryan Koo, Minhwa Lee, Vipul Raheja, Jong Inn Park, Zae Myung Kim, Dongyeop Kang, (参考訳) 大規模言語モデル(LLM)は、最近、簡単なプロンプトと文脈内学習を備えた自動評価器として有効であることが示されている。 本研究では,4つの異なるサイズ範囲の15個のLLMを組み立て,システムスターがシステムスクエアよりも優れているような評価器として,他のLLMからの優先順位付けによる出力応答の評価を行う。 次に、LCM評価出力の6つの異なる認知バイアスを測定するベンチマークであるCoBBLEr(CoBBLEr)として、LCMの認知バイアスベンチマークを導入したランキングアウトプットの品質を評価する。 LLMはテキスト品質評価器であり、評価器としての頑健性に疑問を呈する評価のそれぞれにおいて、バイアスベンチマーク(すべてのモデルで比較される平均40%)に強い指標を示す。 さらに,人間と機械の嗜好の相関について検討し,平均ランクバイアスオーバーラップ(RBO)スコアを49.6%と算出し,機械選好が人間と不一致であることを示唆した。 以上の結果から,LLMは人間の嗜好に沿った自動アノテーションには利用できない可能性が示唆された。 私たちのプロジェクトページは以下の通りです。

Large Language Models (LLMs) have recently been shown to be effective as automatic evaluators with simple prompting and in-context learning. In this work, we assemble 15 LLMs of four different size ranges and evaluate their output responses by preference ranking from the other LLMs as evaluators, such as System Star is better than System Square. We then evaluate the quality of ranking outputs introducing the Cognitive Bias Benchmark for LLMs as Evaluators (CoBBLEr), a benchmark to measure six different cognitive biases in LLM evaluation outputs, such as the Egocentric bias where a model prefers to rank its own outputs highly in evaluation. We find that LLMs are biased text quality evaluators, exhibiting strong indications on our bias benchmark (average of 40% of comparisons across all models) within each of their evaluations that question their robustness as evaluators. Furthermore, we examine the correlation between human and machine preferences and calculate the average Rank-Biased Overlap (RBO) score to be 49.6%, indicating that machine preferences are misaligned with humans. According to our findings, LLMs may still be unable to be utilized for automatic annotation aligned with human preferences. Our project page is at: https://minnesotanlp.github.io/cobbler.
翻訳日:2024-08-14 00:48:29 公開日:2024-08-12
# 現代的なGPU上のテンソルネットワーク法による効率的な量子回路シミュレーション

Efficient Quantum Circuit Simulation by Tensor Network Methods on Modern GPUs ( http://arxiv.org/abs/2310.03978v2 )

ライセンス: Link先を確認
Feng Pan, Hanfeng Gu, Lvlin Kuang, Bing Liu, Pan Zhang, (参考訳) 量子回路の効率的なシミュレーションは、量子ハードウェアの急速な発展に欠かせないものとなっている。 主なシミュレーション手法は状態ベクトルとテンソルネットワークに基づいている。 現在の量子デバイスでは量子ビットと量子ゲートの数が増加するにつれて、ヒルベルト空間の圧倒的な大きさと広範な絡み合いのため、従来の状態ベクトルベースの量子回路シミュレーション手法は不十分であることが証明される。 その結果、残忍力テンソルネットワークシミュレーションアルゴリズムは、そのようなシナリオで唯一実行可能な解となる。 テンソルネットワークシミュレーションアルゴリズムで直面する2つの主な課題は、最適収縮経路の探索と現代のコンピュータデバイス上での効率的な実行であり、後者は実際の効率を決定する。 本研究では,現代のGPU上でのテンソルネットワークシミュレーションの最適化について検討し,計算効率と精度の2つの側面から一般的な最適化手法を提案する。 まず,重要なアインシュタイン和演算をGEMM演算に変換することを提案し,テンソルネットワークシミュレーションの特性を利用してGPUの効率を向上する。 第2に、量子回路のデータ特性を解析することにより、シミュレーション結果の精度と混合精度を保証し、GPUの可能性を完全に活用し、高速で高精度なシミュレーションを実現する。 数値実験により,Sycamoreの18サイクルにおけるランダムな量子回路サンプルの検証時間を3.96倍に短縮できることを示した。 この方法は20サイクルのケースに容易に拡張でき、最新のCPUベースの結果と比較して12.5倍、最先端のGPUベースの結果と比較して4.48-6.78倍の高速化を実現している。

Efficient simulation of quantum circuits has become indispensable with the rapid development of quantum hardware. The primary simulation methods are based on state vectors and tensor networks. As the number of qubits and quantum gates grows larger in current quantum devices, traditional state-vector based quantum circuit simulation methods prove inadequate due to the overwhelming size of the Hilbert space and extensive entanglement. Consequently, brutal force tensor network simulation algorithms become the only viable solution in such scenarios. The two main challenges faced in tensor network simulation algorithms are optimal contraction path finding and efficient execution on modern computing devices, with the latter determines the actual efficiency. In this study, we investigate the optimization of such tensor network simulations on modern GPUs and propose general optimization strategies from two aspects: computational efficiency and accuracy. Firstly, we propose to transform critical Einstein summation operations into GEMM operations, leveraging the specific features of tensor network simulations to amplify the efficiency of GPUs. Secondly, by analyzing the data characteristics of quantum circuits, we employ extended precision to ensure the accuracy of simulation results and mixed precision to fully exploit the potential of GPUs, resulting in faster and more precise simulations. Our numerical experiments demonstrate that our approach can achieve a 3.96x reduction in verification time for random quantum circuit samples in the 18-cycle case of Sycamore, with sustained performance exceeding 21 TFLOPS on one A100. This method can be easily extended to the 20-cycle case, maintaining the same performance, accelerating by 12.5x compared to the state-of-the-art CPU-based results and 4.48-6.78x compared to the state-of-the-art GPU-based results reported in the literature.
翻訳日:2024-08-14 00:48:29 公開日:2024-08-12
# 量子回路の最適化は一般的に難しい

Optimising quantum circuits is generally hard ( http://arxiv.org/abs/2310.05958v3 )

ライセンス: Link先を確認
John van de Wetering, Matt Amy, (参考訳) 量子計算をできるだけ効率的に行うためには、基礎となる量子回路で使われるゲートの数を最適化することが重要である。 本稿では, ほぼ普遍的な量子回路におけるゲート最適化問題の多くがNPハードであることを示す。 特に、フォールトトレラントな量子計算を行う計算コストの重要な指標であるクリフォード+T回路のTカウントやTディープスを最適化することは、問題をブール適合性に還元することでNPハードであることが示されている。 同様の議論により、クリフォード+T回路におけるCNOTゲート数やアダマールゲート数の最適化もNPハードであることを示す。 同じ議論を繰り返すと、可逆古典回路におけるトフォリゲートの数を最適化する難しさも確立する。 T カウントと Toffoli カウントの問題に対する上限は $\text{NP}^{\text{NQP}}$ である。 最後に、任意のクリフォードゲート $G$ に対して NP-ハードは Clifford+$G$ ゲート集合上の$G$ カウントを最適化することを示した。

In order for quantum computations to be done as efficiently as possible it is important to optimise the number of gates used in the underlying quantum circuits. In this paper we find that many gate optimisation problems for approximately universal quantum circuits are NP-hard. In particular, we show that optimising the T-count or T-depth in Clifford+T circuits, which are important metrics for the computational cost of executing fault-tolerant quantum computations, is NP-hard by reducing the problem to Boolean satisfiability. With a similar argument we show that optimising the number of CNOT gates or Hadamard gates in a Clifford+T circuit is also NP-hard. Again varying the same argument we also establish the hardness of optimising the number of Toffoli gates in a reversible classical circuit. We find an upper bound to the problems of T-count and Toffoli-count of $\text{NP}^{\text{NQP}}$. Finally, we also show that for any non-Clifford gate $G$ it is NP-hard to optimise the $G$-count over the Clifford+$G$ gate set, where we only have to match the target unitary within some small distance in the operator norm.
翻訳日:2024-08-14 00:48:29 公開日:2024-08-12
# LongLLMLingua: Prompt Compressionによる長期シナリオにおけるLCMの高速化と強化

LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression ( http://arxiv.org/abs/2310.06839v2 )

ライセンス: Link先を確認
Huiqiang Jiang, Qianhui Wu, Xufang Luo, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu, (参考訳) 長期のシナリオでは、大きな言語モデル(LLM)は、高い計算コスト、パフォーマンスの低下、位置バイアスという3つの大きな課題に直面します。 LLMの性能は入力プロンプトにおけるキー情報の密度と位置に依存している。 これらの知見に触発されて,LongLLMLinguaを提案する。 LongLLMLinguaはパフォーマンスを向上するだけでなく、コストやレイテンシを大幅に低減します。 例えば、NaturalQuestionsベンチマークでは、LongLLMLinguaはGPT-3.5-Turboのトークンを約4倍減らしてパフォーマンスを21.4%向上させ、大幅なコスト削減を実現している。 LooGLEベンチマークでは94.0%のコスト削減を実現している。 さらに、約10kのトークンを2x-6xの割合で圧縮する場合、LongLLMLinguaはエンドツーエンドのレイテンシを1.4x-2.6xに高速化することができる。 私たちのコードはhttps://aka.ms/LongLLMLingua.comで利用可能です。

In long context scenarios, large language models (LLMs) face three main challenges: higher computational cost, performance reduction, and position bias. Research indicates that LLM performance hinges on the density and position of key information in the input prompt. Inspired by these findings, we propose LongLLMLingua for prompt compression towards improving LLMs' perception of the key information to simultaneously address the three challenges. Our extensive evaluation across various long context scenarios demonstrates that LongLLMLingua not only enhances performance but also significantly reduces costs and latency. For instance, in the NaturalQuestions benchmark, LongLLMLingua boosts performance by up to 21.4% with around 4x fewer tokens in GPT-3.5-Turbo, leading to substantial cost savings. It achieves a 94.0% cost reduction in the LooGLE benchmark. Moreover, when compressing prompts of about 10k tokens at ratios of 2x-6x, LongLLMLingua can accelerate end-to-end latency by 1.4x-2.6x. Our code is available at https://aka.ms/LongLLMLingua.
翻訳日:2024-08-14 00:48:29 公開日:2024-08-12
# 大規模言語モデルはゼロショットの時系列予測言語である

Large Language Models Are Zero-Shot Time Series Forecasters ( http://arxiv.org/abs/2310.07820v3 )

ライセンス: Link先を確認
Nate Gruver, Marc Finzi, Shikai Qiu, Andrew Gordon Wilson, (参考訳) 時系列を数値桁の列として符号化することにより、テキストの次トーケン予測として時系列予測をフレーム化することができる。 このアプローチにより,GPT-3 や LLaMA-2 のような大規模言語モデル(LLM)は,ダウンストリームタスクでトレーニングされた目的構築された時系列モデルに匹敵する,あるいはそれ以上の性能で驚くほどゼロショット・エクスポレート・時系列を生成できることがわかった。 そこで本稿では, 時系列データを効果的にトークン化し, トークン上の離散分布を連続値上の高い柔軟性のある密度に変換する手法を提案する。 時系列におけるLCMの成功は, 季節的傾向の繰り返しなど, 時系列における顕著な特徴に則った, 単純さのバイアスと反復性とともに, 多モーダル分布を自然に表現する能力に起因している,と我々は主張する。 また,LLMが非数値テキストを通さずに自然に欠落したデータを処理し,テキスト側情報を適応し,予測を説明するための質問に答える方法を示す。 モデルサイズの増加は一般的に時系列のパフォーマンスを向上させるが、GPT-4は数値のトークン化の仕方や不確かさの校正によってGPT-3よりも悪化し、RLHFのようなアライメント介入の結果である可能性が示唆された。

By encoding time series as a string of numerical digits, we can frame time series forecasting as next-token prediction in text. Developing this approach, we find that large language models (LLMs) such as GPT-3 and LLaMA-2 can surprisingly zero-shot extrapolate time series at a level comparable to or exceeding the performance of purpose-built time series models trained on the downstream tasks. To facilitate this performance, we propose procedures for effectively tokenizing time series data and converting discrete distributions over tokens into highly flexible densities over continuous values. We argue the success of LLMs for time series stems from their ability to naturally represent multimodal distributions, in conjunction with biases for simplicity, and repetition, which align with the salient features in many time series, such as repeated seasonal trends. We also show how LLMs can naturally handle missing data without imputation through non-numerical text, accommodate textual side information, and answer questions to help explain predictions. While we find that increasing model size generally improves performance on time series, we show GPT-4 can perform worse than GPT-3 because of how it tokenizes numbers, and poor uncertainty calibration, which is likely the result of alignment interventions such as RLHF.
翻訳日:2024-08-14 00:48:29 公開日:2024-08-12
# 非平衡量子温度測定における温度-熱不確かさの関係

Temperature-heat uncertainty relation in nonequilibrium quantum thermometry ( http://arxiv.org/abs/2310.14645v2 )

ライセンス: Link先を確認
Ning Zhang, Si-Yuan Bai, Chong Chen, (参考訳) 非平衡プローブによる温度推定プロセスにおける温度不確かさの関係について検討する。 温度-熱の不確実性関係を通じて温度精度を根本的に決定する熱の揺らぎを実証する。 具体的には, 熱は, 温度計の進化に伴う熱交換と, 温度計と試料の相関関係に関連し, トラジェクティブ熱と相関熱に分けられることがわかった。 2種類の温度計に基づいて、これらの熱項がともに温度精度を高めるための資源であることを示す。 推定精度を高めるための資源を明確化することにより, 様々な量子特性が正確な温度検出に重要である理由だけでなく, 超高感度の量子温度計の設計に有用な洞察を与えることができた。 さらに,熱力学における温度・熱の不確実性関係は,よく知られた温度・エネルギーの不確実性関係と一致することを示した。 情報理論と熱力学の関連性を確立する。

We investigate the temperature uncertainty relation in nonequilibrium probe-based temperature estimation process. We demonstrate that it is the fluctuation of heat that fundamentally determines temperature precision through the temperature-heat uncertainty relation. Specifically, we find that heat is divided into trajectory heat and correlation heat, which are associated with the heat exchange along thermometer's evolution and the correlation between the thermometer and the sample, respectively. Based on two type of thermometers, we show that both of these heat terms are resources for enhancing temperature precision. By clearly distinguishing the resources for enhancing estimation precision, our findings not only explain why various quantum features are crucial for accurate temperature sensing but also provide valuable insights for designing ultrahigh-sensitive quantum thermometers. Additionally, we demonstrate that the temperature-heat uncertainty relation is consistent with the well-known temperature-energy uncertainty relation in thermodynamics. It establishes a connection between the information theory and the thermodynamics.
翻訳日:2024-08-14 00:48:29 公開日:2024-08-12
# Sui Lutris: ブロードキャストとコンセンサスを組み合わせたブロックチェーン

Sui Lutris: A Blockchain Combining Broadcast and Consensus ( http://arxiv.org/abs/2310.18042v4 )

ライセンス: Link先を確認
Sam Blackshear, Andrey Chursin, George Danezis, Anastasios Kichidis, Lefteris Kokoris-Kogias, Xun Li, Mark Logan, Ashok Menon, Todd Nowacki, Alberto Sonnino, Brandon Williams, Lu Zhang, (参考訳) Sui Lutrisは、秒以下のファイナリティを持続的に達成した最初のスマートコントラクトプラットフォームである。 これは、単純な支払いだけでなく、さまざまな取引に対して、合意のない合意を採用することで、この大幅な減少を実現する。 以前の作業とは異なり、Swi Lutrisは表現力もスループットも妥協せず、再起動せずに永久に実行できる。 Sui Lutrisは、クリティカルファイナリティパスから呼び出される高スループットのコンセンサスプロトコルとの合意を安全に統合することで、これを実現するが、トランザクションが一貫性のない同時アクセスのリスクがある場合、その解決は総注文が解決されるまで遅らせる。 このようなハイブリッドアーキテクチャの構築は、リコンフィグレーションイベントにおいて特に微妙であり、システムには、潜在的に構成ミスの可能性のあるクライアントの長期的な生存性を損なうことなく、コンセンサスのないパスの安全性を維持する必要がある。 そこで我々は,コンセンサスのないブロックチェーンの安全かつ効率的な再構成を確実に示すための,新しい再構成プロトコルを開発した。 Sui Lutrisは現在運用中であり、Swiスマートコントラクトプラットフォームを支えている。 アカウントの代わりにObjectsを使用することで、オブジェクトをファーストクラスリソースとして公開するスマートコントラクトの安全な実行が可能になる。 われわれの実験では、Swi Lutrisは、最新の最先端のリアルタイムコンセンサスレイテンシ(3秒)と比較して、秒間最大5,000証明書(トランザクションブロック付き150k ops/s)のスループットで0.5秒未満のレイテンシを実現している。 さらに、バリデータのクラッシュ回復を優雅に処理し、再設定時に目に見えるパフォーマンス劣化を損なわない。

Sui Lutris is the first smart-contract platform to sustainably achieve sub-second finality. It achieves this significant decrease by employing consensusless agreement not only for simple payments but for a large variety of transactions. Unlike prior work, Sui Lutris neither compromises expressiveness nor throughput and can run perpetually without restarts. Sui Lutris achieves this by safely integrating consensuless agreement with a high-throughput consensus protocol that is invoked out of the critical finality path but ensures that when a transaction is at risk of inconsistent concurrent accesses, its settlement is delayed until the total ordering is resolved. Building such a hybrid architecture is especially delicate during reconfiguration events, where the system needs to preserve the safety of the consensusless path without compromising the long-term liveness of potentially misconfigured clients. We thus develop a novel reconfiguration protocol, the first to provably show the safe and efficient reconfiguration of a consensusless blockchain. Sui Lutris is currently running in production and underpins the Sui smart-contract platform. Combined with the use of Objects instead of accounts it enables the safe execution of smart contracts that expose objects as a first-class resource. In our experiments Sui Lutris achieves latency lower than 0.5 seconds for throughput up to 5,000 certificates per second (150k ops/s with transaction blocks), compared to the state-of-the-art real-world consensus latencies of 3 seconds. Furthermore, it gracefully handles validators crash-recovery and does not suffer visible performance degradation during reconfiguration.
翻訳日:2024-08-14 00:48:29 公開日:2024-08-12
# LLM4Drive: 自動運転のための大規模言語モデルの調査

LLM4Drive: A Survey of Large Language Models for Autonomous Driving ( http://arxiv.org/abs/2311.01043v4 )

ライセンス: Link先を確認
Zhenjie Yang, Xiaosong Jia, Hongyang Li, Junchi Yan, (参考訳) 交通と都市移動に革命をもたらす触媒である自動運転技術は、ルールベースのシステムからデータ駆動戦略に移行する傾向にある。 従来のモジュールベースのシステムは、カスケードモジュール間の累積誤差と柔軟性のない事前設定規則によって制約される。 対照的に、エンドツーエンドの自動運転システムは、完全にデータ駆動のトレーニングプロセスによってエラーの蓄積を避ける可能性があるが、その“ブラックボックス”の性質によって透明性が欠如し、決定の検証とトレーサビリティが複雑になることが多い。 近年,大規模言語モデル (LLM) は,文脈理解,論理的推論,回答生成などの能力を示した。 自然の思考は、これらの能力を自律運転に活用することである。 LLMとファンデーションビジョンモデルを組み合わせることで、現在の自律運転システムが欠落しているオープンワールド理解、推論、少数ショット学習への扉を開くことができる。 本稿では,自動走行のための言語モデル (LLM4AD) について,系統的に検討する。 本研究は, 技術進歩の現況を概観し, 主な課題と今後の方向性を概説する。 学術と産業の研究者の利便性のために、この分野の最新の進歩と、指定されたリンクを通じて関連するオープンソースリソースをリアルタイムで更新する。

Autonomous driving technology, a catalyst for revolutionizing transportation and urban mobility, has the tend to transition from rule-based systems to data-driven strategies. Traditional module-based systems are constrained by cumulative errors among cascaded modules and inflexible pre-set rules. In contrast, end-to-end autonomous driving systems have the potential to avoid error accumulation due to their fully data-driven training process, although they often lack transparency due to their "black box" nature, complicating the validation and traceability of decisions. Recently, large language models (LLMs) have demonstrated abilities including understanding context, logical reasoning, and generating answers. A natural thought is to utilize these abilities to empower autonomous driving. By combining LLM with foundation vision models, it could open the door to open-world understanding, reasoning, and few-shot learning, which current autonomous driving systems are lacking. In this paper, we systematically review a research line about \textit{Large Language Models for Autonomous Driving (LLM4AD)}. This study evaluates the current state of technological advancements, distinctly outlining the principal challenges and prospective directions for the field. For the convenience of researchers in academia and industry, we provide real-time updates on the latest advances in the field as well as relevant open-source resources via the designated link: https://github.com/Thinklab-SJTU/Awesome-LLM4AD.
翻訳日:2024-08-14 00:38:36 公開日:2024-08-12
# 極低温電子線トモグラフィーにおける脱神経・脱毛同時再建のための深層学習法

A Deep Learning Method for Simultaneous Denoising and Missing Wedge Reconstruction in Cryogenic Electron Tomography ( http://arxiv.org/abs/2311.05539v3 )

ライセンス: Link先を確認
Simon Wiedemann, Reinhard Heckel, (参考訳) 低温電子トモグラフィー(Cryogenic electron tomography)は、生体試料を3Dで撮影する技術である。 顕微鏡はサンプルの一連の2Dプロジェクションを収集し、その目標は、トモグラフィーと呼ばれるサンプルの3D密度を再構築することである。 2Dプロジェクションはノイズが多く、あらゆる方向から記録できないため、復元は難しい。 従来の逆投射フィルタで再構成された断層図は、欠落したくさびによるノイズや強いアーチファクトに悩まされていた。 本稿では,DeepDeWedgeと呼ばれるウェッジ再構築を同時に行うためのディープラーニング手法を提案する。 このアルゴリズムは、基礎となる真理データを必要としないため、ニューラルネットワークを自己教師付きロスを用いて2次元投影に適合させることに基づいている。 DeepDeWedgeは、現在の最先端のウェッジ再構成手法よりもシンプルで、競合的に機能し、全体的なコントラストを高くしたデノライズトモグラフィを生成する。

Cryogenic electron tomography is a technique for imaging biological samples in 3D. A microscope collects a series of 2D projections of the sample, and the goal is to reconstruct the 3D density of the sample called the tomogram. Reconstruction is difficult as the 2D projections are noisy and can not be recorded from all directions, resulting in a missing wedge of information. Tomograms conventionally reconstructed with filtered back-projection suffer from noise and strong artifacts due to the missing wedge. Here, we propose a deep-learning approach for simultaneous denoising and missing wedge reconstruction called DeepDeWedge. The algorithm requires no ground truth data and is based on fitting a neural network to the 2D projections using a self-supervised loss. DeepDeWedge is simpler than current state-of-the-art approaches for denoising and missing wedge reconstruction, performs competitively and produces more denoised tomograms with higher overall contrast.
翻訳日:2024-08-14 00:38:36 公開日:2024-08-12
# ExpNote: エクスペリエンスノートブックによるブラックボックスの大規模言語モデルの改善

ExpNote: Black-box Large Language Models are Better Task Solvers with Experience Notebook ( http://arxiv.org/abs/2311.07032v2 )

ライセンス: Link先を確認
Wangtao Sun, Xuanqing Yu, Shizhu He, Jun Zhao, Kang Liu, (参考訳) Black-box Large Language Models (LLM) は様々なタスクを解く上で大きな力を示しており、一般的な問題解決者と見なされている。 しかし、LSMはタスク命令を理解しながら、多くの特定のタスクで失敗する。 本稿では,下流の課題を解決するためのブラックボックスLLMの能力向上に焦点をあてる。 テスト中、トレーニングデータから経験を反映し、通知し、それらを外部メモリから取り出すことによって、LLMが慣れないタスクに適応するのに役立つ自動化フレームワークであるExpNoteを提案する。 我々は,複数のタスクに対するExpNoteの評価を行い,提案手法がブラックボックスLLMの性能を大幅に向上することを示した。 データとコードはhttps://github.com/forangel2014/ExpNoteで公開されている。

Black-box Large Language Models (LLMs) have shown great power in solving various tasks and are considered general problem solvers. However, LLMs still fail in many specific tasks although understand the task instruction. In this paper, we focus on the problem of boosting the ability of black-box LLMs to solve downstream tasks. We propose ExpNote, an automated framework to help LLMs better adapt to unfamiliar tasks through reflecting and noting experiences from training data and retrieving them from external memory during testing. We evaluate ExpNote on multiple tasks and the experimental results demonstrate that the proposed method significantly improves the performance of black-box LLMs. The data and code are available at https://github.com/forangel2014/ExpNote
翻訳日:2024-08-14 00:38:36 公開日:2024-08-12
# ポストトレーニング量子化とプルーニングにおける校正データの影響について

On the Impact of Calibration Data in Post-training Quantization and Pruning ( http://arxiv.org/abs/2311.09755v2 )

ライセンス: Link先を確認
Miles Williams, Nikolaos Aletras, (参考訳) 量子化とプルーニングはニューラルネットワークの圧縮の基礎となり、大きな言語モデル(LLM)の効率的な推論を可能にする。 近年,ポストトレーニング環境では,様々な量子化およびプルーニング技術が顕著な性能を示した。 これらは、層アクティベーションを生成するために使用されるラベルなしの小さな例であるキャリブレーションデータに依存している。 しかし, キャリブレーションデータがモデル圧縮法の有効性に与える影響について, 事前調査は行われていない。 本稿では,LLMの性能に及ぼすキャリブレーションデータの影響に関する実験的検討を行った。 さまざまな量子化およびプルーニング手法、データセット、タスク、モデルを試行する。 意外なことに、ダウンストリームタスクのパフォーマンスは、キャリブレーションデータよりもロバスト性が高いことを示す既存の作業と対照的に、かなり変化している。 最後に,LLM量子化およびプルーニングにおけるキャリブレーションデータの有効利用を推奨する。

Quantization and pruning form the foundation of compression for neural networks, enabling efficient inference for large language models (LLMs). Recently, various quantization and pruning techniques have demonstrated remarkable performance in a post-training setting. They rely upon calibration data, a small set of unlabeled examples that are used to generate layer activations. However, no prior work has systematically investigated how the calibration data impacts the effectiveness of model compression methods. In this paper, we present the first extensive empirical study on the effect of calibration data upon LLM performance. We trial a variety of quantization and pruning methods, datasets, tasks, and models. Surprisingly, we find substantial variations in downstream task performance, contrasting existing work that suggests a greater level of robustness to the calibration data. Finally, we make a series of recommendations for the effective use of calibration data in LLM quantization and pruning.
翻訳日:2024-08-14 00:38:36 公開日:2024-08-12
# コヒーレントカオスシステムの量子最適化:カトマンズバスの場合

Quantum optimization of coherent chaotic systems: A case for buses of Kathmandu ( http://arxiv.org/abs/2311.13119v2 )

ライセンス: Link先を確認
Kiran Adhikari, Aman Ganeju, Iva Kumari Lamichhane, Rohit Bhattarai, Manghang Limbu, Nishma Bhattarai, Christian Deppe, (参考訳) 本稿では,カトマンズ市内の交通を最適化する現実的な問題を解決するために,新しい量子コンピューティング手法を提案する。 カスマンドゥの交通システムは混乱しており、交通を管轄する中央機関は存在しない。 我々は、このカオス的特徴を量子最適化の手順で活用する。 量子カオス理論のウィグナー・ダイソン分布は、バス運転手の利益を最大化するために最も効果的なバス間隔分布として浮上した。 実時間GPSバス位置データを用いたバスの統計特性について検討し,カトマンズ市内27km環状道路周辺のバス間隔と区間分布を最適化した。 量子シミュレーション,固有値分布,出力波動関数解析などのツールを用いて,このような最適なバス間隔分布を実現することができることを示す。

In this paper, we propose a novel quantum computing approach to solve the real-world problem of optimizing transportation in bustling Kathmandu city. The transportation system in Kathmandu is chaotic, with no central authority controlling the transportation. We leverage this chaotic feature in our quantum optimization procedure. The quantum chaos theory's Wigner-Dyson distribution surfaced as the most effective bus spacing distribution for a bus driver to maximize their profit. We investigate the statistical properties of the buses with real-time GPS bus location data and optimize bus spacing and interval distribution around the 27 km circular ring road in Kathmandu. Using tools like quantum simulation, eigenvalue distributions, and output wave function analysis, we show that such optimal bus spacing distribution could be achieved.
翻訳日:2024-08-14 00:38:36 公開日:2024-08-12
# 強化と模倣学習を用いた眼科ロボットのサージオンインザループ化に向けて

Toward a Surgeon-in-the-Loop Ophthalmic Robotic Apprentice using Reinforcement and Imitation Learning ( http://arxiv.org/abs/2311.17693v3 )

ライセンス: Link先を確認
Amr Gomaa, Bilal Mahdy, Niko Kleer, Antonio Krüger, (参考訳) ロボットによる手術支援システムは、手術精度の向上と人間の誤りの最小化に有意義な可能性を証明している。 しかし、既存のシステムは個々の外科医の独自の好みや要件を満たせない。 さらに、主に一般的な手術(例えば腹腔鏡)に焦点を合わせており、眼科手術のような高精度な微小手術には適さない。 そこで我々は,眼内白内障手術において,個々の外科医のスキルレベルに適応し,外科的テクニックを優先する,外科医中心の自律エージェントに対する画像誘導アプローチを提案する。 本手法は,白内障手術の切開フェーズのすべてのタスクを実行するために,画像データによって指導されたカリキュラム学習アプローチを用いて,強化学習エージェントと模倣学習エージェントを同時に訓練する。 本手法は,外科医の行動と嗜好をトレーニングプロセスに統合することにより,外科医によるループでのデモンストレーションを通じて,個々の外科医のユニークなテクニックを暗黙的に学習し,適応することを可能にする。 これにより、外科医にとってより直感的でパーソナライズされた外科的経験が得られ、自律型ロボットの見習いには一貫したパフォーマンスが確保される。 提案した指標を用いてシミュレーション環境でのアプローチの有効性を定義し評価し,汎用エージェントと外科医中心の適応エージェントとのトレードオフを強調した。 最後に、我々のアプローチは、他の眼科手術や微小外科手術にまで拡張する可能性があり、新しい世代の外科医の自律手術ロボットへの扉を開く。 我々は、https://github.com/amrgomaaelhady/CataractAdaptSurgRobot.comで、将来の開発と再現性のためのオープンソースのシミュレーションフレームワークを提供する。

Robot-assisted surgical systems have demonstrated significant potential in enhancing surgical precision and minimizing human errors. However, existing systems cannot accommodate individual surgeons' unique preferences and requirements. Additionally, they primarily focus on general surgeries (e.g., laparoscopy) and are unsuitable for highly precise microsurgeries, such as ophthalmic procedures. Thus, we propose an image-guided approach for surgeon-centered autonomous agents that can adapt to the individual surgeon's skill level and preferred surgical techniques during ophthalmic cataract surgery. Our approach trains reinforcement and imitation learning agents simultaneously using curriculum learning approaches guided by image data to perform all tasks of the incision phase of cataract surgery. By integrating the surgeon's actions and preferences into the training process, our approach enables the robot to implicitly learn and adapt to the individual surgeon's unique techniques through surgeon-in-the-loop demonstrations. This results in a more intuitive and personalized surgical experience for the surgeon while ensuring consistent performance for the autonomous robotic apprentice. We define and evaluate the effectiveness of our approach in a simulated environment using our proposed metrics and highlight the trade-off between a generic agent and a surgeon-centered adapted agent. Finally, our approach has the potential to extend to other ophthalmic and microsurgical procedures, opening the door to a new generation of surgeon-in-the-loop autonomous surgical robots. We provide an open-source simulation framework for future development and reproducibility at https://github.com/amrgomaaelhady/CataractAdaptSurgRobot.
翻訳日:2024-08-14 00:38:36 公開日:2024-08-12
# ヘアピン溶接における深部学習による溶接深さと孔容積予測能力の検討

Investigating the ability of deep learning to predict Welding Depth and Pore Volume in Hairpin Welding ( http://arxiv.org/abs/2312.01606v4 )

ライセンス: Link先を確認
Amena Darwish, Stefan Ericson, Rohollah Ghasemi, Tobias Andersson, Dan Lönn, Andreas Andersson Lassila, Kent Salomonsson, (参考訳) 本研究は, 溶接工程における品質保証を向上するため, 2つの臨界溶接部のキー性能特性(KPC)の予測を可能にする深層学習型DLモデルを提案する。 提案手法では, レーザ溶接キー入力特性 (KIC) を広範囲に利用し, 溶接ビームジオメトリー, 溶接供給速度, 溶接ビームジオメトリーの経路繰り返し, およびヘアピン溶接実験から得られた全経路に対する明るい光溶接率について検討した。 溶接入力と出力変数(KPCとKIC)の複雑な非線形関係を捉える際に、ディープニューラルネットワークの能力を調べるために、2つのDLネットワークに複数の隠密層と線形活性化関数が使用される。 DLネットワークを小さな数値実験ヘアピン溶接データセットに適用すると, 平均溶接深さを0.1079, 平均細孔体積を0.0641, 平均絶対誤差を0.1079とする有望な結果が得られた。 このことは溶接結果の制御において大きな利点を約束し、溶接監視における欠陥分類のみに依存する現在の傾向を超えて、溶接パラメータと溶接ジオメトリーの相関を捉えている。

To advance quality assurance in the welding process, this study presents a deep learning DL model that enables the prediction of two critical welds' Key Performance Characteristics (KPCs): welding depth and average pore volume. In the proposed approach, a wide range of laser welding Key Input Characteristics (KICs) is utilized, including welding beam geometries, welding feed rates, path repetitions for weld beam geometries, and bright light weld ratios for all paths, all of which were obtained from hairpin welding experiments. Two DL networks are employed with multiple hidden dense layers and linear activation functions to investigate the capabilities of deep neural networks in capturing the complex nonlinear relationships between the welding input and output variables (KPCs and KICs). Applying DL networks to the small numerical experimental hairpin welding dataset has shown promising results, achieving Mean Absolute Error (MAE) values 0.1079 for predicting welding depth and 0.0641 for average pore volume. This, in turn, promises significant advantages in controlling welding outcomes, moving beyond the current trend of relying only on defect classification in weld monitoring, to capture the correlation between the weld parameters and weld geometries.
翻訳日:2024-08-14 00:28:29 公開日:2024-08-12
# ViscoNet: ControlNet用のビジュアルコンディショニングとテキストコンディショニングのブリッジと調和

ViscoNet: Bridging and Harmonizing Visual and Textual Conditioning for ControlNet ( http://arxiv.org/abs/2312.03154v2 )

ライセンス: Link先を確認
Soon Yau Cheong, Armin Mustafa, Andrew Gilbert, (参考訳) 本稿では,空間条件と視覚条件を同時に行う新しいワンブランチ・アダプタアーキテクチャであるViscoNetを紹介する。 我々の軽量モデルでは、トレーニング可能なパラメータとデータセットサイズが現在の最先端IP-Adapterよりも桁違いに小さくなります。 しかし,本手法は,凍結したテキスト・ツー・イメージ(T2I)のバックボーンの再生力を維持できる。 特に、これまで見過ごされていた広範にわたる問題に対処するモードの崩壊が優れている。 我々の新しいアーキテクチャは、ポーズ再ターゲティング、仮想トライオン、スタイリゼーション、人物の再識別、織物の転送など、さまざまな人間の画像生成タスクにおいて、相反する視覚的テキストバランスを実現するための優れた能力を示します。

This paper introduces ViscoNet, a novel one-branch-adapter architecture for concurrent spatial and visual conditioning. Our lightweight model requires trainable parameters and dataset size multiple orders of magnitude smaller than the current state-of-the-art IP-Adapter. However, our method successfully preserves the generative power of the frozen text-to-image (T2I) backbone. Notably, it excels in addressing mode collapse, a pervasive issue previously overlooked. Our novel architecture demonstrates outstanding capabilities in achieving a harmonious visual-text balance, unlocking unparalleled versatility in various human image generation tasks, including pose re-targeting, virtual try-on, stylization, person re-identification, and textile transfer.Demo and code are available from project page https://soon-yau.github.io/visconet/ .
翻訳日:2024-08-14 00:28:29 公開日:2024-08-12
# MMICT: インコンテキスト例によるマルチモーダルファインチューニングの強化

MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples ( http://arxiv.org/abs/2312.06363v3 )

ライセンス: Link先を確認
Tao Chen, Enwei Zhang, Yuting Gao, Ke Li, Xing Sun, Yan Zhang, Hui Li, Rongrong Ji, (参考訳) In-Context Learning(ICL)は、Large Language Models(LLM)に顕著なパフォーマンス向上をもたらすが、下流タスクの微調整よりも改善は低いままである。 本稿では,マルチモーダル LLM (MM-LLMs) の有望な ICL 機能を完全に活用することにより,マルチモーダル微調整を促進する,新しいマルチモーダル微調整パラダイムであるMMICT を紹介する。 M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。 M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。 さらに、M-Hubの柔軟性を活用して、さまざまなコンテキスト内デモを設計する。 多様な下流マルチモーダルタスクに対する広範囲な実験により、MMICTは従来の微調整戦略と、異なるモーダルからの全ての情報を入力として直接結合するバニラICT法を著しく上回ることを示した。 私たちの実装は、https://github.com/KDEGroup/MMICT.comで利用可能です。

Although In-Context Learning (ICL) brings remarkable performance gains to Large Language Models (LLMs), the improvements remain lower than fine-tuning on downstream tasks. This paper introduces Multi-Modal In-Context Tuning (MMICT), a novel multi-modal fine-tuning paradigm that boosts multi-modal fine-tuning by fully leveraging the promising ICL capability of multi-modal LLMs (MM-LLMs). We propose the Multi-Modal Hub (M-Hub), a unified module that captures various multi-modal features according to different inputs and objectives. Based on M-Hub, MMICT enables MM-LLMs to learn from in-context visual-guided textual features and subsequently generate outputs conditioned on the textual-guided visual features. Moreover, leveraging the flexibility of M-Hub, we design a variety of in-context demonstrations. Extensive experiments on a diverse range of downstream multi-modal tasks demonstrate that MMICT significantly outperforms traditional fine-tuning strategy and the vanilla ICT method that directly takes the concatenation of all information from different modalities as input. Our implementation is available at: https://github.com/KDEGroup/MMICT.
翻訳日:2024-08-14 00:28:29 公開日:2024-08-12
# ControlNet-XS: フィードバック制御系としてのテキスト・画像拡散モデルの制御再考

ControlNet-XS: Rethinking the Control of Text-to-Image Diffusion Models as Feedback-Control Systems ( http://arxiv.org/abs/2312.06573v2 )

ライセンス: Link先を確認
Denis Zavadski, Johann-Friedrich Feiden, Carsten Rother, (参考訳) 画像合成の分野は、ここ数年で大きな進歩を遂げてきた。 テキストプロンプトで所望の出力画像を定義することに加えて、直感的なアプローチは、深度マップのような画像の形で空間的ガイダンスを付加的に使用することである。 最先端のアプローチでは、このガイダンスは、遅延拡散モデルのような事前訓練された画像生成ネットワークを制御する独立した制御モデルによって実現される。 制御系の観点からこのプロセスを理解することは、制御モジュールが生成プロセスからフィードバック信号を受信し、補正信号を返送するフィードバック制御システムを形成することを示す。 既存のシステムを解析すると、フィードバック信号は時間的に疎く、ビット数は少ないことが分かる。 その結果、新たに生成された特徴とこれらの特徴に対する各補正信号との間に長い遅延が発生する可能性がある。 この遅延は制御システムの最も望ましくない側面であることが知られている。 本研究では,既存の制御ネットワーク(ControlNet)を用いて,制御ネットワークと生成プロセス間の通信を高周波かつ大帯域で変更する。 これにより、生成した画像の品質と、制御の忠実性を大幅に向上させることができる。 また、制御ネットワークは明らかに少ないパラメータを必要とするため、推論やトレーニング時間の約2倍の速度である。 小型モデルのもうひとつのメリットは、私たちの領域を民主化し、理解しやすくすることです。 提案するネットワークを ControlNet-XS と呼ぶ。 最先端のアプローチと比較すると、深度、キャニーエッジ、セマンティックセグメンテーションといったピクセルレベルのガイダンスよりも優れており、人間のポーズのゆるいキーポイントガイダンスと同等である。 すべてのコードと事前訓練されたモデルは公開されます。

The field of image synthesis has made tremendous strides forward in the last years. Besides defining the desired output image with text-prompts, an intuitive approach is to additionally use spatial guidance in form of an image, such as a depth map. In state-of-the-art approaches, this guidance is realized by a separate controlling model that controls a pre-trained image generation network, such as a latent diffusion model. Understanding this process from a control system perspective shows that it forms a feedback-control system, where the control module receives a feedback signal from the generation process and sends a corrective signal back. When analysing existing systems, we observe that the feedback signals are timely sparse and have a small number of bits. As a consequence, there can be long delays between newly generated features and the respective corrective signals for these features. It is known that this delay is the most unwanted aspect of any control system. In this work, we take an existing controlling network (ControlNet) and change the communication between the controlling network and the generation process to be of high-frequency and with large-bandwidth. By doing so, we are able to considerably improve the quality of the generated images, as well as the fidelity of the control. Also, the controlling network needs noticeably fewer parameters and hence is about twice as fast during inference and training time. Another benefit of small-sized models is that they help to democratise our field and are likely easier to understand. We call our proposed network ControlNet-XS. When comparing with the state-of-the-art approaches, we outperform them for pixel-level guidance, such as depth, canny-edges, and semantic segmentation, and are on a par for loose keypoint-guidance of human poses. All code and pre-trained models will be made publicly available.
翻訳日:2024-08-14 00:28:29 公開日:2024-08-12
# MS-Twins:医療画像セグメンテーションのためのマルチスケールディープセルフアテンションネットワーク

MS-Twins: Multi-Scale Deep Self-Attention Networks for Medical Image Segmentation ( http://arxiv.org/abs/2312.07128v4 )

ライセンス: Link先を確認
Jing Xu, (参考訳) 胸部X線は胸部疾患の診断において最も一般的な放射線検査の1つである。 近年,放射線画像の自動分類技術が臨床診断や治療計画に広く利用されている。 しかし,各疾患にはそれぞれ異なる応答性受容野があり,胸部疾患分類の課題となっている。 さらに、サンプルデータカテゴリの不均衡は、タスクの難易度をさらに高める。 これらの問題を解決するために,マルチスケールアテンションネットワークに基づく新しいマルチラベル胸部画像分類手法を提案する。 このスキームでは、マルチスケール情報を反復的に融合して、病気の確率の高い地域に集中し、データからより有意義な情報を効果的にマイニングし、分類性能を画像レベルのアノテーションによって改善することができる。 また、画像変換前後の注意領域の整合性を強制することで、視覚知覚の合理性と多ラベル画像分類の性能を向上させるために、新たな損失関数を設計した。 胸部X線画像分類におけるこの手法の有効性を検証するため,公共のChest X-Ray14およびCheXpertデータセットを用いて総合的な実験を行った。

Chest X-ray is one of the most common radiological examination types for the diagnosis of chest diseases. Nowadays, the automatic classification technology of radiological images has been widely used in clinical diagnosis and treatment plans. However, each disease has its own different response characteristic receptive field region, which is the main challenge for chest disease classification tasks. Besides, the imbalance of sample data categories further increases the difficulty of tasks. To solve these problems, we propose a new multi-label chest disease image classification scheme based on a multi-scale attention network. In this scheme, multi-scale information is iteratively fused to focus on regions with a high probability of disease, to effectively mine more meaningful information from data, and the classification performance can be improved only by image level annotation. We also designed a new loss function to improve the rationality of visual perception and the performance of multi-label image classification by forcing the consistency of attention regions before and after image transformation. A comprehensive experiment was carried out on the public Chest X-Ray14 and CheXpert datasets to achieve state of the art results, which verified the effectiveness of this method in chest X-ray image classification.
翻訳日:2024-08-14 00:28:29 公開日:2024-08-12
# SeiT++: Masked Token Modelingはストレージ効率のトレーニングを改善する

SeiT++: Masked Token Modeling Improves Storage-efficient Training ( http://arxiv.org/abs/2312.10105v5 )

ライセンス: Link先を確認
Minhyun Lee, Song Park, Byeongho Heo, Dongyoon Han, Hyunjung Shim, (参考訳) 近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。 しかし、高度に一般化可能で高性能な視覚モデルを実現するには、拡張データセットが必要であるため、かなりのストレージ要求が生じる。 このストレージの課題は、モデルをスケールアップする上で重要なボトルネックである。 SeiTによる最近のブレークスルーでは、視覚分類のためのネットワーク入力としてベクトル量子化(VQ)特徴ベクトル(トークン)が提案されている。 このアプローチは、ストレージの1%しか持たないフルピクセル画像でトレーニングされたモデルの性能の90%を達成した。 SeiTにはラベル付きデータが必要だが、完全に教師付き学習以上のシナリオの可能性はほとんどない。 本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。 ラベルの欠如により、自己組織化されたアプローチがより多くのデータを要求することが多いことを認識し、TokenAdaptとColorAdaptを紹介します。 これらの手法は、トークンフレンドリーなデータ拡張を促進し、自己教師付き学習におけるデータ要求の増加に効果的に対処する。 我々は,ストレージ効率の高いImageNet-1k分類,きめ細かい分類,ADE-20kセマンティックセグメンテーション,ロバストネスベンチマークなど,さまざまなシナリオにおけるアプローチを評価した。 実験の結果,様々な実験において一貫した性能向上が示され,本手法の有効性が検証された。 コードはhttps://github.com/naver-ai/seit.comから入手できる。

Recent advancements in Deep Neural Network (DNN) models have significantly improved performance across computer vision tasks. However, achieving highly generalizable and high-performing vision models requires expansive datasets, resulting in significant storage requirements. This storage challenge is a critical bottleneck for scaling up models. A recent breakthrough by SeiT proposed the use of Vector-Quantized (VQ) feature vectors (i.e., tokens) as network inputs for vision classification. This approach achieved 90% of the performance of a model trained on full-pixel images with only 1% of the storage. While SeiT needs labeled data, its potential in scenarios beyond fully supervised learning remains largely untapped. In this paper, we extend SeiT by integrating Masked Token Modeling (MTM) for self-supervised pre-training. Recognizing that self-supervised approaches often demand more data due to the lack of labels, we introduce TokenAdapt and ColorAdapt. These methods facilitate comprehensive token-friendly data augmentation, effectively addressing the increased data requirements of self-supervised learning. We evaluate our approach across various scenarios, including storage-efficient ImageNet-1k classification, fine-grained classification, ADE-20k semantic segmentation, and robustness benchmarks. Experimental results demonstrate consistent performance improvement in diverse experiments, validating the effectiveness of our method. Code is available at https://github.com/naver-ai/seit.
翻訳日:2024-08-14 00:28:28 公開日:2024-08-12
# 変圧器に関する数学的考察

A mathematical perspective on Transformers ( http://arxiv.org/abs/2312.10794v4 )

ライセンス: Link先を確認
Borjan Geshkovski, Cyril Letrouit, Yury Polyanskiy, Philippe Rigollet, (参考訳) トランスフォーマーは、大きな言語モデルの内部動作において中心的な役割を果たす。 本研究では, 相互作用粒子系として解釈したトランスフォーマーを解析するための数学的枠組みを構築し, クラスタが長時間に出現することを明らかにする。 本研究は、基礎となる理論を探求し、数学者だけでなく計算機科学者にも新たな視点を提供する。

Transformers play a central role in the inner workings of large language models. We develop a mathematical framework for analyzing Transformers based on their interpretation as interacting particle systems, which reveals that clusters emerge in long time. Our study explores the underlying theory and offers new perspectives for mathematicians as well as computer scientists.
翻訳日:2024-08-14 00:28:28 公開日:2024-08-12
# ダイヤモンドにおける暗スピンの磁気ノイズパワースペクトルのキャラクタリゼーション

Characterizing the magnetic noise power spectrum of dark spins in diamond ( http://arxiv.org/abs/2312.12643v2 )

ライセンス: Link先を確認
Ethan Q. Williams, Chandrasekhar Ramanathan, (参考訳) 固体プラットフォームにおけるスピン量子ビットのコヒーレンス時間はスピン浴の存在によって制限されることが多い。 これらの典型的には暗い浴室スピンのいくつかの特性は中心量子ビットによって間接的に特徴づけられるが、直接測定することでそれらの特性を特徴づけることが重要である。 ここでは、パルス電子常磁性共鳴(pEPR)に基づくカル・プルセル・マイボーム・ギル(CPMG)ダイナミックデカップリングを用いて、通常、NV(窒素空洞)中心の浴を形成するダイヤモンド中のP1(置換窒素)中心のアンサンブルの磁気ノイズパワースペクトルを測定する。 実験は, 低 [N] CVD 試料と高 [N] HPHT (高温高圧) 試料を89 mTで行った。 すべてのパワースペクトルは、およそ1/\omega^{0.7-1.0}$のスケールで観測される広い成分と、$^{13}$Cラーモア周波数での顕著なピークの2つの特徴を示す。 広帯域成分の挙動は、最近HPHTダイヤモンドでよく見られるP1中心のクラスター化によるローレンツスペクトルの不均一分布と一致している。 このようなクラスターがCVDダイヤモンドに発生するかどうかは不明である。 我々は、CPMGフィルタ関数の高調波を利用して高周波信号の特性を向上させる手法を開発し、これを$^{13}$C核ラーモア周波数で示す。 190 mT は 2.04 MHz であり、CPMG 変調周波数 (<357$ kHz, ハードウェア制限) の5.7 倍である。 有限パルス幅とフリップ角誤差の存在下での手法のロバスト性を評価する。 ダークスピンの相互作用を理解することで、量子技術のためのダイヤモンド製造の方法がわかる。 これらの技術は、ナノスケールの核磁気共鳴と化学センシングに応用できる。

Coherence times of spin qubits in solid-state platforms are often limited by the presence of a spin bath. While some properties of these typically dark bath spins can be indirectly characterized via the central qubit, it is important to characterize their properties by direct measurement. Here we use pulsed electron paramagnetic resonance (pEPR) based Carr-Purcell-Meiboom-Gill (CPMG) dynamical decoupling to measure the magnetic noise power spectra for ensembles of P1 (substitutional nitrogen) centers in diamond that typically form the bath for NV (nitrogen-vacancy) centers. The experiments on the P1 centers were performed on a low [N] CVD (chemical vapor deposition) sample and a high [N] HPHT (high-temperature, high-pressure) sample at 89 mT. We characterize the NV centers of the latter sample using the same 2.5 GHz pEPR spectrometer. All power spectra show two distinct features, a broad component that is observed to scale as approximately $1/\omega^{0.7-1.0}$, and a prominent peak at the $^{13}$C Larmor frequency. The behavior of the broad component is consistent with an inhomogeneous distribution of Lorentzian spectra due to clustering of P1 centers, which has recently been shown to be prevalent in HPHT diamond. It is unknown if such clustering occurs in CVD diamond. We develop techniques utilizing harmonics of the CPMG filter function to improve characterization of high-frequency signals, which we demonstrate on the $^{13}$C nuclear Larmor frequency. At 190 mT this is 2.04 MHz, 5.7 times higher than the CPMG modulation frequency ($<357$ kHz, hardware-limited). We assess the robustness of our methods in the presence of finite pulse widths and flip angle errors. Understanding the interactions of dark spins will inform methods of diamond fabrication for quantum technology. These techniques are applicable to ac magnetometry for nanoscale nuclear magnetic resonance and chemical sensing.
翻訳日:2024-08-14 00:28:28 公開日:2024-08-12
# 教師-学生設定におけるDense Hopfield Networks

Dense Hopfield Networks in the Teacher-Student Setting ( http://arxiv.org/abs/2401.04191v2 )

ライセンス: Link先を確認
Robin Thériault, Daniele Tantari, (参考訳) デンスホップフィールドネットワークは、プロトタイプの移行と敵の堅牢性に特徴があることで知られている。 しかし、以前の理論的研究は、主に貯蔵能力に関係していた。 教師と教師による教師なしの学習問題の設定において, p-body Hopfield ネットワークの位相図を学習し, プロトタイプや特徴学習体制を連想させる強磁性相を明らかにすることにより, このギャップを埋める。 西森線では,効率的なパターン検索に必要なトレーニングセットの臨界サイズが分かる。 興味深いことに、教師-学生設定の常磁性から強磁性への遷移は、直接モデルの常磁性からスピングラスへの移行、すなわちランダムなパターンと一致していることが分かる。 西森線以外では,推測温度とデータセット雑音との関係について学習性能について検討する。 さらに,教師よりも大きなpを学生に与えることで,学生は騒音に対する寛容感を広く得ることを示す。 次に, ゼロ温度における学生の対角強靭性を測定し, 大規模ニューラルネットワークで観測されたパラメータ数と頑健性との正の相関を相関づける閉形式式を導出した。 また、現在のホップフィールドネットワークのプロトタイプフェーズが逆向きに堅牢である理由を明らかにするために、我々のモデルを使用する。

Dense Hopfield networks are known for their feature to prototype transition and adversarial robustness. However, previous theoretical studies have been mostly concerned with their storage capacity. We bridge this gap by studying the phase diagram of p-body Hopfield networks in the teacher-student setting of an unsupervised learning problem, uncovering ferromagnetic phases reminiscent of the prototype and feature learning regimes. On the Nishimori line, we find the critical size of the training set necessary for efficient pattern retrieval. Interestingly, we find that that the paramagnetic to ferromagnetic transition of the teacher-student setting coincides with the paramagnetic to spin-glass transition of the direct model, i.e. with random patterns. Outside of the Nishimori line, we investigate the learning performance in relation to the inference temperature and dataset noise. Moreover, we show that using a larger p for the student than the teacher gives the student an extensive tolerance to noise. We then derive a closed-form expression measuring the adversarial robustness of such a student at zero temperature, corroborating the positive correlation between number of parameters and robustness observed in large neural networks. We also use our model to clarify why the prototype phase of modern Hopfield networks is adversarially robust.
翻訳日:2024-08-14 00:18:18 公開日:2024-08-12
# ゼロ階最適化を用いた大規模言語モデルのプライベート微調整

Private Fine-tuning of Large Language Models with Zeroth-order Optimization ( http://arxiv.org/abs/2401.04343v2 )

ライセンス: Link先を確認
Xinyu Tang, Ashwinee Panda, Milad Nasr, Saeed Mahloujifar, Prateek Mittal, (参考訳) 個人確率勾配勾配(DP-SGD)は、プライバシ保護方式でモデルを訓練することができるが、基礎モデルの時代までスケールすることが困難であることが証明されている。 DP-ZO(DP-ZO)は,ゼロオーダー最適化手法を民営化することで,大規模言語モデルのためのプライベートな微調整フレームワークである。 我々の手法の設計における重要な洞察は、ゼロ階最適化における勾配の方向がランダムであり、トレーニングデータから得られる唯一の情報はステップサイズ、すなわちスカラーであるということである。 したがって、メモリ効率のよいスカラーステップサイズを民営化するしかありません。 DP-ZOは、さまざまなタスク間で強力なプライバシユーティリティトレードオフを提供し、DP-SGDを$(\varepsilon,\delta)$-DPで同等のモデルサイズを提供する。 特にDP-ZOは、DP-SGDよりもメモリ効率が優れており、Laplaceメカニズムを使用すると、$\varepsilon$-DPで高効率が得られる。

Differentially private stochastic gradient descent (DP-SGD) allows models to be trained in a privacy-preserving manner, but has proven difficult to scale to the era of foundation models. We introduce DP-ZO, a private fine-tuning framework for large language models by privatizing zeroth order optimization methods. A key insight into the design of our method is that the direction of the gradient in the zeroth-order optimization we use is random and the only information from training data is the step size, i.e., a scalar. Therefore, we only need to privatize the scalar step size, which is memory-efficient. DP-ZO provides a strong privacy-utility trade-off across different tasks, and model sizes that are comparable to DP-SGD in $(\varepsilon,\delta)$-DP. Notably, DP-ZO possesses significant advantages over DP-SGD in memory efficiency, and obtains higher utility in $\varepsilon$-DP when using the Laplace mechanism.
翻訳日:2024-08-14 00:18:18 公開日:2024-08-12
# ページ時間前におけるブラックホール内部の絡み合い

Entanglement inside a black hole before the Page time ( http://arxiv.org/abs/2401.04706v3 )

ライセンス: Link先を確認
Yuxuan Liu, Shao-Kai Jian, Yi Ling, Zhuo-Yu Xian, (参考訳) 本研究では, 二重ホログラフィックモデルとSYKモデルの両方の枠組みを用いて, 熱浴と相互作用する密結合系内の絡み合いの進化について検討した。 一般に、システム内の絡み合いは、最初は内部の相互作用によって増加するが、最終的には環境に放出される。 二重ホログラフィックのセットアップでは、バルク内の終末のブレーンを、その放射と地球の熱場二重状態(TFD)の進化と結合した永遠のブラックホールを表すものとみなす。 小さなブラックホールの場合、二分割間の反射エントロピーはランププレート・スランプの挙動を示し、そこでは、ページ時間前のエンタングメント・ウェッジ断面積の位相遷移によってプレートが生じる。 同様に、分割間の相互情報は傾斜安定挙動を示す。 量子力学では、環境と相互作用する永遠のブラックホールに似た、大域的なTFD状態のSYK+バス系の二重複写を考える。 ダブルコピーされたSYKクラスター内のR'enyiの相互情報は、ランププラトー・スロープ安定化挙動を示す。 これら2つのモデルで観測される絡み合い量の動的挙動は、システムの内部相互作用と浴槽との外部相互作用との競合に起因する。 この研究は、ページ時間前にブラックホール内部の絡み合いのダイナミックスをきめ細かな画像で示しています。

We investigate the evolution of entanglement within an open, strongly coupled system interacting with a heat bath as its environment, in the frameworks of both the doubly holographic model and the Sachdev-Ye-Kitaev (SYK) model. Generally, the entanglement within the system initially increases due to internal interactions; however, it eventually dissipates into the environment. In the doubly holographic setup, we consider an end-of-the-world brane in the bulk to represent an eternal black hole coupled with its radiation and the evolution of the global thermofield double (TFD) state. For small black holes, the reflected entropy between the bipartition exhibits a ramp-plateau-slump behavior, where the plateau arises due to the phase transition of the entanglement wedge cross-section before the Page time. Similarly, the mutual information between the bipartition displays a ramp-slop-stabilizing behavior. In quantum mechanics, we consider a double copy of the SYK-plus-bath system in a global TFD state, resembling an eternal black hole interacting with an environment. The R\'enyi mutual information within the double-copied SYK clusters exhibits a ramp-plateau-slope-stabilizing behavior. The dynamic behaviors of the entanglement quantities observed in these two models are attributable to the competition between the internal interaction of the system and the external interaction with the baths. Our study provides a fine-grained picture of the entanglement dynamics inside black holes before their Page time.
翻訳日:2024-08-14 00:18:18 公開日:2024-08-12
# 初期の熱帯性サイクロンの増強に伴う3次元放射パターンの同定

Identifying Three-Dimensional Radiative Patterns Associated with Early Tropical Cyclone Intensification ( http://arxiv.org/abs/2401.09493v5 )

ライセンス: Link先を確認
Frederick Iat-Hin Tam, Tom Beucler, James H. Ruppert Jr, (参考訳) 雲の放射フィードバックは初期の熱帯性サイクロン(TC)の増強に影響を及ぼすが、既存の診断フレームワークの制限により、非対称または過渡的な放射熱の研究には適さない。 本稿では, 実数値シミュレーションTCの表面強度と放射の隠れ関係を学習するための線形変分エンコーダ(VED)を提案する。 VEDモデル入力の制限により、その不確実性を利用して、放射線が強度を高めるためにより重要となる期間を特定することができる。 抽出した3次元放射構造を綿密に調べたところ、内核深部対流と浅部雲からの長波放射強制力はともに強度に寄与し、深部対流は全体的に最も影響が大きいことが示唆された。 浅層雲の深い対流下風は、ハイヤンの激化に欠かせない。 我々の研究は、機械学習が軸対称的あるいは決定論的仮定に頼ることなく熱力学的関係を発見できることを示し、現実的な条件下でTCの強化につながるプロセスの客観的発見への道を開いた。

Cloud radiative feedback impacts early tropical cyclone (TC) intensification, but limitations in existing diagnostic frameworks make them unsuitable for studying asymmetric or transient radiative heating. We propose a linear Variational Encoder-Decoder (VED) to learn the hidden relationship between radiation and the surface intensification of realistic simulated TCs. Limiting VED model inputs enables using its uncertainty to identify periods when radiation has more importance for intensification. A close examination of the extracted 3D radiative structures suggests that longwave radiative forcing from inner core deep convection and shallow clouds both contribute to intensification, with the deep convection having the most impact overall. We find that deep convection downwind of the shallow clouds is critical to the intensification of Haiyan. Our work demonstrates that machine learning can discover thermodynamic-kinematic relationships without relying on axisymmetric or deterministic assumptions, paving the way towards the objective discovery of processes leading to TC intensification in realistic conditions.
翻訳日:2024-08-14 00:18:18 公開日:2024-08-12
# 光を通したp波超伝導線のトポロジカルサイン

Topological signatures of a p-wave superconducting wire through light ( http://arxiv.org/abs/2401.14501v3 )

ライセンス: Link先を確認
Frederick Del Pozo, Karyn Le Hur, (参考訳) 我々は、古典的ベクトルポテンシャル、すなわち、光誘起遷移確率と誘導準粒子群のプロファイルを通して、一次元の位相的p波超伝導体の$\mathbb{Z}_{2}$トポロジカル指数をいかに明らかにできるかを示す。 駆動周波数$\omega$ の関数として、短距離北エフ線の2つの異なる位相位相を分類する共振エンベロープからこの位相不変量の測度を得ることができる。 我々は,光電場の存在下でのグローバル容量の応答と,ワイヤと近接結合バルク超伝導体との間のジョセフソン電流によるモデルにおける位相相転移を探索する。 このシステムはブロッホ球面上でも実装され、回路または空洞量子力学を通して$\mathbb{Z}$と$\mathbb{Z}_2$の位相不変量を測定する別の方法が可能である。

We show how the $\mathbb{Z}_{2}$ topological index of a one-dimensional topological p-wave superconductor can be revealed when driving with a classical vector potential i.e. an electromagnetic wave, through the light-induced transition probabilities and the profile of the induced quasiparticles population. As a function of driving frequency $\omega$, it is possible to obtain a measure of this topological invariant from the resonance envelope classifying the two distinct topological phases of the short-range Kitaev wire. We propose to probe the topological phase transition in the model through the responses of the global capacitance in the presence of the light field and through the Josephson current between the wire and the proximity coupled bulk superconductor. The system may also be implemented on the Bloch sphere allowing alternative ways to measure the $\mathbb{Z}$ and $\mathbb{Z}_2$ topological invariants through circuit or cavity quantum electrodynamics.
翻訳日:2024-08-14 00:18:18 公開日:2024-08-12
# BackdoorBench: バックドア学習の総合ベンチマークと分析

BackdoorBench: A Comprehensive Benchmark and Analysis of Backdoor Learning ( http://arxiv.org/abs/2401.15002v2 )

ライセンス: Link先を確認
Baoyuan Wu, Hongrui Chen, Mingda Zhang, Zihao Zhu, Shaokui Wei, Danni Yuan, Mingli Zhu, Ruotong Wang, Li Liu, Chao Shen, (参考訳) 近年,深層ニューラルネットワークの脆弱性 (DNN) を研究する上では,バックドア学習が注目されている。 しかし、主に多様な設定と、既存の作品の実装と再現性の難しさのために、バックドア学習の統一的で標準化されたベンチマークが欠如しており、不公平な比較と信頼性の低い結論(例えば、誤解を招く、偏見を抱く、あるいは虚偽の結論さえも)を引き起こしている。 したがって、この文献の現在の進捗を評価し、今後の開発ロードマップを設計することは困難である。 このジレンマを軽減するために、BackdoorBenchというバックドア学習の包括的なベンチマークを構築しました。 我々のベンチマークは研究コミュニティに3つの貴重な貢献をしている。 1) 拡張可能なモジュラーベースコードベースに基づいて, 最先端(SOTA) バックドア学習アルゴリズム(現在は16の攻撃と27の防御アルゴリズムを含む)を統合的に実装する。 2) 防犯攻撃12件の総合的評価を4モデルと4データセットに基づいて5件の毒殺率で行い, 合計11,492対の評価を行った。 3) 以上の評価に基づき,8つの視点から18の有用な分析ツールを用いて豊富な分析を行い, バックドア学習に関するいくつかの洞察を与えている。 既存のアルゴリズムを調査し、より革新的なアルゴリズムを開発し、バックドア学習の本質的なメカニズムを探るための、バックドア学習の強固な基盤を構築したいと考えています。 最後に、私たちはhttp://backdoorbench.comでユーザフレンドリーなWebサイトを作成しました。

As an emerging and vital topic for studying deep neural networks' vulnerability (DNNs), backdoor learning has attracted increasing interest in recent years, and many seminal backdoor attack and defense algorithms are being developed successively or concurrently, in the status of a rapid arms race. However, mainly due to the diverse settings, and the difficulties of implementation and reproducibility of existing works, there is a lack of a unified and standardized benchmark of backdoor learning, causing unfair comparisons, and unreliable conclusions (e.g., misleading, biased or even false conclusions). Consequently, it is difficult to evaluate the current progress and design the future development roadmap of this literature. To alleviate this dilemma, we build a comprehensive benchmark of backdoor learning called BackdoorBench. Our benchmark makes three valuable contributions to the research community. 1) We provide an integrated implementation of state-of-the-art (SOTA) backdoor learning algorithms (currently including 16 attack and 27 defense algorithms), based on an extensible modular-based codebase. 2) We conduct comprehensive evaluations of 12 attacks against 16 defenses, with 5 poisoning ratios, based on 4 models and 4 datasets, thus 11,492 pairs of evaluations in total. 3) Based on above evaluations, we present abundant analysis from 8 perspectives via 18 useful analysis tools, and provide several inspiring insights about backdoor learning. We hope that our efforts could build a solid foundation of backdoor learning to facilitate researchers to investigate existing algorithms, develop more innovative algorithms, and explore the intrinsic mechanism of backdoor learning. Finally, we have created a user-friendly website at http://backdoorbench.com, which collects all important information of BackdoorBench, including codebase, docs, leaderboard, and model Zoo.
翻訳日:2024-08-14 00:07:59 公開日:2024-08-12
# cDVGAN:マルチクラス重力波信号と格子生成のためのフレキシブルモデル

cDVGAN: One Flexible Model for Multi-class Gravitational Wave Signal and Glitch Generation ( http://arxiv.org/abs/2401.16356v5 )

ライセンス: Link先を確認
Tom Dooney, Lyana Curier, Daniel Tan, Melissa Lopez, Chris Van Den Broeck, Stefano Bromuri, (参考訳) 重力波(GW)とGW検出器グリッチの現実的な時間領域観測のシミュレーションは、GWデータ解析を前進させるのに役立つ。 シミュレーションされたデータは、信号検索のためのデータセットの拡大、機械学習のためのデータセットのバランス、検出スキームの検証など、下流タスクで使用することができる。 本研究では、重力波(GW)と検出器グリッチを表す複数の時間領域観測のクラスをシミュレートする、ジェネレーティブ・アドバーサリアル・ネットワーク・フレームワークにおける新しい条件モデルである条件微分型GAN(cDVGAN)を提案する。 cDVGANはまた、条件付きクラスベクトルの補間によってクラス間のばらつきにまたがる一般化されたハイブリッドサンプルを生成することもできる。 cDVGANは、GANの典型的な2人対戦ゲームに追加のプレイヤーを導入し、補助判別器が1次微分時間列を解析する。 以上の結果から,元のデータの特徴をよりよく捉えた合成データが得られることがわかった。 cDVGAN条件は3つのクラスで、LIGO blip と Tomte glitch の事象を観測3回目(O3)から2回、そして3回目は2回目(BBH)の融合を表す。 提案したcDVGANは,3つのクラスの特徴を再現する4種類のベースラインGANモデルより優れている。 具体的には、我々の実験により、cDVGAN生成データによる畳み込みニューラルネットワーク(CNN)のトレーニングが、他の最先端のGANモデルからの合成データ以外の検出器ノイズに埋め込まれたサンプルの検出を改善することが示されている。 我々の最高の合成データセットは、ベースラインGANの合成データセットと比較して、AUC(Area-under-the-curve)のパフォーマンスが最大4.2%向上する。 さらに,CNNをcDVGANのハイブリッドサンプルでトレーニングすることで,標準クラスのみをトレーニングし,LIGO検出器バックグラウンドに埋め込まれた実サンプルを同定する(cDVGANの4%のAUC改善)。

Simulating realistic time-domain observations of gravitational waves (GWs) and GW detector glitches can help in advancing GW data analysis. Simulated data can be used in downstream tasks by augmenting datasets for signal searches, balancing data sets for machine learning, and validating detection schemes. In this work, we present Conditional Derivative GAN (cDVGAN), a novel conditional model in the Generative Adversarial Network framework for simulating multiple classes of time-domain observations that represent gravitational waves (GWs) and detector glitches. cDVGAN can also generate generalized hybrid samples that span the variation between classes through interpolation in the conditioned class vector. cDVGAN introduces an additional player into the typical 2-player adversarial game of GANs, where an auxiliary discriminator analyzes the first-order derivative time-series. Our results show that this provides synthetic data that better captures the features of the original data. cDVGAN conditions on three classes, two denoised from LIGO blip and tomte glitch events from its 3rd observing run (O3), and the third representing binary black hole (BBH) mergers. Our proposed cDVGAN outperforms 4 different baseline GAN models in replicating the features of the three classes. Specifically, our experiments show that training convolutional neural networks (CNNs) with our cDVGAN-generated data improves the detection of samples embedded in detector noise beyond the synthetic data from other state-of-the-art GAN models. Our best synthetic dataset yields as much as a 4.2% increase in area-under-the-curve (AUC) performance compared to synthetic datasets from baseline GANs. Moreover, training the CNN with hybrid samples from our cDVGAN outperforms CNNs trained only on the standard classes, when identifying real samples embedded in LIGO detector background (4% AUC improvement for cDVGAN).
翻訳日:2024-08-14 00:07:59 公開日:2024-08-12
# 野生における霊長類行動解析のためのコンピュータビジョン

Computer Vision for Primate Behavior Analysis in the Wild ( http://arxiv.org/abs/2401.16424v2 )

ライセンス: Link先を確認
Richard Vogg, Timo Lüddecke, Jonathan Henrich, Sharmita Dey, Matthias Nuske, Valentin Hassler, Derek Murphy, Julia Fischer, Julia Ostner, Oliver Schülke, Peter M. Kappeler, Claudia Fichtel, Alexander Gail, Stefan Treue, Hansjörg Scherberger, Florentin Wörgötter, Alexander S. Ecker, (参考訳) コンピュータビジョンの進歩と、ますます広まるビデオベースの行動監視は、動物の認知と行動の研究方法を変える大きな可能性を秘めている。 しかし、エキサイティングな展望と、実際に何が達成されるのか、特に野生の動画では、まだかなり大きなギャップがある。 この観点から、我々は、行動科学者に現在の方法から期待できることを導き、コンピュータビジョン研究者を動物行動の研究に関係のある問題へと導くことによって、このギャップを埋めることに貢献したい。 本研究は,物体検出,多個人追跡,個人識別,行動認識など,動物行動の映像ベース研究に直接関係するコンピュータビジョン問題に対する最先端の手法の調査から始める。 次に,実践的な観点からの最大の課題のひとつとして,作業効率のよい学習方法についてレビューする。 最後に、動物行動のためのコンピュータビジョンの新たな分野の展望を概観し、この分野は単一のビデオベースのフレームワークで検出、追跡、識別、および(相互作用)認識を統一するためのアプローチを開発するべきだと論じる。

Advances in computer vision as well as increasingly widespread video-based behavioral monitoring have great potential for transforming how we study animal cognition and behavior. However, there is still a fairly large gap between the exciting prospects and what can actually be achieved in practice today, especially in videos from the wild. With this perspective paper, we want to contribute towards closing this gap, by guiding behavioral scientists in what can be expected from current methods and steering computer vision researchers towards problems that are relevant to advance research in animal behavior. We start with a survey of the state-of-the-art methods for computer vision problems that are directly relevant to the video-based study of animal behavior, including object detection, multi-individual tracking, individual identification, and (inter)action recognition. We then review methods for effort-efficient learning, which is one of the biggest challenges from a practical perspective. Finally, we close with an outlook into the future of the emerging field of computer vision for animal behavior, where we argue that the field should develop approaches to unify detection, tracking, identification and (inter)action recognition in a single, video-based framework.
翻訳日:2024-08-14 00:07:59 公開日:2024-08-12
# Augmented Representation による時間的統計空間のプリミティブの符号化

Encoding Temporal Statistical-space Priors via Augmented Representation ( http://arxiv.org/abs/2401.16808v3 )

ライセンス: Link先を確認
Insu Choi, Woosung Koh, Gimin Kang, Yuntae Jang, Woo Chang Kim, (参考訳) 時系列データのモデリングは、時間次元が多くの領域に固有のため、広範に問題となる。 時系列予測において大きな進歩があったにもかかわらず、高ノイズと信号比、非正規性、非定常性、データ不足は引き続き挑戦的な実践者である。 これに対して,これらの課題を克服するために,単純な表現拡張手法を活用する。 我々の拡張表現は、各時間ステップで符号化される前に統計空間として機能する。 そこで我々は,統計的空間拡張表現法 (SSAR) を考案した。 基礎となる高次元データ生成プロセスは、私たちの表現増強を刺激します。 2つの下流時間学習アルゴリズムを用いた2つのデータセットにおける経験的一般化性能について厳密に検討した。 私たちのアプローチは、最新の5つのベースラインを大きく上回っています。 さらに、このアプローチの高度にモジュール化された性質は、様々な設定に容易に適用できる。 最後に、完全に確立された理論的な視点は、明確で厳密な理解のために、執筆全体を通して利用可能である。

Modeling time series data remains a pervasive issue as the temporal dimension is inherent to numerous domains. Despite significant strides in time series forecasting, high noise-to-signal ratio, non-normality, non-stationarity, and lack of data continue challenging practitioners. In response, we leverage a simple representation augmentation technique to overcome these challenges. Our augmented representation acts as a statistical-space prior encoded at each time step. In response, we name our method Statistical-space Augmented Representation (SSAR). The underlying high-dimensional data-generating process inspires our representation augmentation. We rigorously examine the empirical generalization performance on two data sets with two downstream temporal learning algorithms. Our approach significantly beats all five up-to-date baselines. Moreover, the highly modular nature of our approach can easily be applied to various settings. Lastly, fully-fledged theoretical perspectives are available throughout the writing for a clear and rigorous understanding.
翻訳日:2024-08-14 00:07:59 公開日:2024-08-12
# Formal-LLM:制御可能なLLMエージェントのための形式言語と自然言語の統合

Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents ( http://arxiv.org/abs/2402.00798v4 )

ライセンス: Link先を確認
Zelong Li, Wenyue Hua, Hao Wang, He Zhu, Yongfeng Zhang, (参考訳) 近年のLarge Language Models(LLM)の進歩により、AI Agentsは複雑なタスクを解決するためのマルチステッププランを自動的に生成し実行できるようになる。 しかし、LCMのコンテンツ生成プロセスはほとんど制御できないため、現在のLCMベースのエージェントは、しばしば無効または非実行可能なプランを生成し、生成されたプランの性能を損なうとともに、LCMベースのエージェントに対するユーザの信頼を損なう。 そこで本稿では,自然言語の表現性と形式言語の精度を両立させることにより,LLMをベースとしたエージェントのための新しいフレームワーク"Formal-LLM"を提案する。 具体的には、このフレームワークにより、エージェント開発者は、計画プロセスの要件や制約をオートマトンとして表現することができる。 スタックベースのLCM計画生成プロセスは、自動制御の監督の下で実行され、生成した計画が制約を満たすことを保証し、計画プロセスの制御が可能である。 ベンチマークタスクと実運用タスクの両方で実験を行い、我々のフレームワークは50%以上の全体的なパフォーマンス向上を実現し、フォーマルLLMを用いてエージェントの計画生成を誘導し、エージェントが無効で失敗するのを防ぐことの実現可能性と有効性を検証する。 さらに、より制御可能なLCMベースのエージェントは、高い計画の有効性が不可欠であるアプリケーションシナリオにおいて、LCMのより広範な利用を促進することができる。 この作業のソースコードはhttps://github.com/agiresearch/Formal-LLMで公開されている。

Recent advancements on Large Language Models (LLMs) enable AI Agents to automatically generate and execute multi-step plans to solve complex tasks. However, since LLM's content generation process is hardly controllable, current LLM-based agents frequently generate invalid or non-executable plans, which jeopardizes the performance of the generated plans and corrupts users' trust in LLM-based agents. In response, this paper proposes a novel "Formal-LLM" framework for LLM-based agents by integrating the expressiveness of natural language and the precision of formal language. Specifically, the framework allows agent developers to express their requirements or constraints for the planning process as an automaton. A stack-based LLM plan generation process is then conducted under the supervision of the automaton to ensure that the generated plan satisfies the constraints, making the planning process controllable. We conduct experiments on both benchmark tasks and practical real-life tasks, and our framework achieves over 50% overall performance increase, which validates the feasibility and effectiveness of employing Formal-LLM to guide the plan generation of agents, preventing the agents from generating invalid and unsuccessful plans. Further, more controllable LLM-based agents can facilitate the broader utilization of LLM in application scenarios where high validity of planning is essential. The source code of this work is available at https://github.com/agiresearch/Formal-LLM.
翻訳日:2024-08-14 00:07:59 公開日:2024-08-12
# 投機的復号化復号法

Decoding Speculative Decoding ( http://arxiv.org/abs/2402.01528v3 )

ライセンス: Link先を確認
Minghao Yan, Saurabh Agarwal, Shivaram Venkataraman, (参考訳) 投機的復号化(英: Speculative Decoding)とは、大規模言語モデル(LLM)の推論を、品質を犠牲にすることなく高速化する手法である。 推論を行う場合、投機的復号化は、より小さなドラフトモデルを使用して投機的トークンを生成し、ターゲットのLSMを使用してそれらの投機的トークンを検証する。 投機的復号化によって提供されるスピードアップは、ドラフトモデルの選択に大きく依存する。 本研究では,LLaMA-65B と OPT-66B を用いて350以上の実験を行い,投機的復号化による性能向上に影響を及ぼす要因を明らかにした。 提案実験により, 投機的復号化の性能は, 投機的復号化の遅延に大きく依存しており, 言語モデルにおけるドラフトモデルの性能は投機的復号化の性能と強く相関しないことがわかった。 これらの知見に基づいて、ドラフトモデルのための新しいデザインスペースと、投機的復号化のためのハードウェア効率の良いドラフトモデルについて検討する。 新たに設計されたLLaMA-65Bのドラフトモデルは、既存のドラフトモデルよりも111%高いスループットを提供し、LLaMA-2モデルファミリと教師付き微調整モデルにさらに一般化することができる。

Speculative Decoding is a widely used technique to speed up inference for Large Language Models (LLMs) without sacrificing quality. When performing inference, speculative decoding uses a smaller draft model to generate speculative tokens and then uses the target LLM to verify those draft tokens. The speedup provided by speculative decoding heavily depends on the choice of the draft model. In this work, we perform a detailed study comprising over 350 experiments with LLaMA-65B and OPT-66B using speculative decoding and delineate the factors that affect the performance gain provided by speculative decoding. Our experiments indicate that the performance of speculative decoding depends heavily on the latency of the draft model, and the draft model's capability in language modeling does not correlate strongly with its performance in speculative decoding. Based on these insights we explore a new design space for draft models and design hardware-efficient draft models for speculative decoding. Our newly designed draft model for LLaMA-65B can provide 111% higher throughput than existing draft models and can generalize further to the LLaMA-2 model family and supervised fine-tuned models.
翻訳日:2024-08-14 00:07:59 公開日:2024-08-12
# 非定常遅延自己回帰バンド

Non-Stationary Latent Auto-Regressive Bandits ( http://arxiv.org/abs/2402.03110v2 )

ライセンス: Link先を確認
Anna L. Trella, Walter Dempsey, Finale Doshi-Velez, Susan A. Murphy, (参考訳) 非定常報酬を伴う確率的マルチアームバンディット問題を考える。 本稿では、時間とともに腕の平均報酬の変化が未知の自己回帰(AR)状態のオーダー$k$によって引き起こされる環境における非定常性の新たな定式化について述べる。 われわれはこの新しい環境を潜在ARバンドイットと呼んでいる。 潜伏ARのバンドイットの異なる形態は、特に環境の機械的モデルがほとんどない行動健康や教育のような新興の科学分野において、多くの現実世界に現れる。 この設定で、AR オーダー $k$ が知られている場合、この設定で $\tilde{O}(k\sqrt{T}) を後悔するアルゴリズムを提案する。 経験的に、我々のアルゴリズムは、$k$が誤って指定されたとしても、複数の非定常環境における標準 UCB よりも優れている。

We consider the stochastic multi-armed bandit problem with non-stationary rewards. We present a novel formulation of non-stationarity in the environment where changes in the mean reward of the arms over time are due to some unknown, latent, auto-regressive (AR) state of order $k$. We call this new environment the latent AR bandit. Different forms of the latent AR bandit appear in many real-world settings, especially in emerging scientific fields such as behavioral health or education where there are few mechanistic models of the environment. If the AR order $k$ is known, we propose an algorithm that achieves $\tilde{O}(k\sqrt{T})$ regret in this setting. Empirically, our algorithm outperforms standard UCB across multiple non-stationary environments, even if $k$ is mis-specified.
翻訳日:2024-08-14 00:07:59 公開日:2024-08-12
# カテゴリーデータの統一離散拡散

Unified Discrete Diffusion for Categorical Data ( http://arxiv.org/abs/2402.03701v2 )

ライセンス: Link先を確認
Lingxiao Zhao, Xueying Ding, Lijun Yu, Leman Akoglu, (参考訳) 離散拡散モデルは言語やグラフのような自然に離散的なデータに適用することで注目されている。 離散時間離散拡散はしばらく確立されてきたが、最近になってキャンベルら (2022) が連続時間離散拡散のための最初の枠組みを導入した。 しかし、それらのトレーニングとサンプリングプロセスは離散時間版とは大きく異なり、トラクタビリティの非自明な近似を必要とする。 本稿ではまず,より正確で容易に訓練できる変分下界の数学的単純化について述べる。 さらに, 正確なサンプリングが可能であり, 離散時間および連続時間離散拡散のエレガントな統一を可能にする, 後方復調のための簡易な定式化を導出する。 単純な解析的な定式化のおかげで、前方と後方の両方の確率は、様々なノイズ分布を含むあらゆるノイズ分布に柔軟に対応できる。 実験の結果,提案したUSD3 (Unified Simplified Discrete Denoising Diffusion) は,確立したデータセット上でのSOTAベースラインよりも優れていた。 私たちは統一されたコードをhttps://github.com/LingxiaoShawn/USD3.comでオープンソースにしています。

Discrete diffusion models have seen a surge of attention with applications on naturally discrete data such as language and graphs. Although discrete-time discrete diffusion has been established for a while, only recently Campbell et al. (2022) introduced the first framework for continuous-time discrete diffusion. However, their training and sampling processes differ significantly from the discrete-time version, necessitating nontrivial approximations for tractability. In this paper, we first present a series of mathematical simplifications of the variational lower bound that enable more accurate and easy-to-optimize training for discrete diffusion. In addition, we derive a simple formulation for backward denoising that enables exact and accelerated sampling, and importantly, an elegant unification of discrete-time and continuous-time discrete diffusion. Thanks to simpler analytical formulations, both forward and now also backward probabilities can flexibly accommodate any noise distribution, including different noise distributions for multi-element objects. Experiments show that our proposed USD3 (for Unified Simplified Discrete Denoising Diffusion) outperform all SOTA baselines on established datasets. We open-source our unified code at https://github.com/LingxiaoShawn/USD3.
翻訳日:2024-08-14 00:07:59 公開日:2024-08-12
# KIX:タスク一般化のための知識とインタラクション中心メタ認知フレームワーク

KIX: A Knowledge and Interaction-Centric Metacognitive Framework for Task Generalization ( http://arxiv.org/abs/2402.05346v2 )

ライセンス: Link先を確認
Arun Kumar, Paul Schrater, (参考訳) 人々は、時間とともに取得したハイレベルな知識を再利用し、適用することによって、柔軟性と新しい状況に適応する能力を備えた様々なタスクを解決することで、一般的な知能の振る舞いを適切に示します。 しかし、人工エージェントは専門家に似ており、そのようなジェネラリスト的な行動は欠如している。 人工エージェントは、重要な構造化された知識表現を理解し、活用する必要がある。 本稿では,メタ認知的一般化フレームワークであるKnowledge-Interaction-eXecution(KIX)を提案する。 これは知識を強化学習に統合する自然な方法であり、人工知能システムにおける自律的および汎用的な行動の実現手段として機能することを約束している。

People aptly exhibit general intelligence behaviors in solving a variety of tasks with flexibility and ability to adapt to novel situations by reusing and applying high-level knowledge acquired over time. But artificial agents are more like specialists, lacking such generalist behaviors. Artificial agents will require understanding and exploiting critical structured knowledge representations. We present a metacognitive generalization framework, Knowledge-Interaction-eXecution (KIX), and argue that interactions with objects leveraging type space facilitate the learning of transferable interaction concepts and generalization. It is a natural way of integrating knowledge into reinforcement learning and is promising to act as an enabler for autonomous and generalist behaviors in artificial intelligence systems.
翻訳日:2024-08-13 23:57:57 公開日:2024-08-12
# 量子ワッサーシュタイン発散の計量的性質について

On the metric property of quantum Wasserstein divergences ( http://arxiv.org/abs/2402.13150v3 )

ライセンス: Link先を確認
Gergely Bunth, József Pitrik, Tamás Titkos, Dániel Virosztek, (参考訳) 量子ワッサーシュタインの発散は、チャネルによって定義される量子ワッサーシュタイン距離の修正版であり、デ・パルマとトレビサンによって量子状態空間上の真の計量であると推測される。 分離可能ヒルベルト空間と任意の二次コスト作用素によって記述される全ての量子系に対して、量子ワッサーシュタインの三角形の不等式は、特定の状態が純粋であり、全ての状態が有限エネルギーであるという仮定の下で証明する。 また、三角形の不等式が一般に任意の状態の選択のために成り立つことを示唆する強い数値的な証拠も提示する。

Quantum Wasserstein divergences are modified versions of quantum Wasserstein distances defined by channels, and they are conjectured to be genuine metrics on quantum state spaces by De Palma and Trevisan. We prove triangle inequality for quantum Wasserstein divergences for every quantum system described by a separable Hilbert space and any quadratic cost operator under the assumption that a particular state involved is pure, and all the states have finite energy. We also provide strong numerical evidence suggesting that the triangle inequality holds in general, for an arbitrary choice of states.
翻訳日:2024-08-13 23:57:57 公開日:2024-08-12
# 臨床試験におけるオンライン強化学習アルゴリズムの忠実度モニタリング

Monitoring Fidelity of Online Reinforcement Learning Algorithms in Clinical Trials ( http://arxiv.org/abs/2402.17003v2 )

ライセンス: Link先を確認
Anna L. Trella, Kelly W. Zhang, Inbal Nahum-Shani, Vivek Shetty, Iris Yan, Finale Doshi-Velez, Susan A. Murphy, (参考訳) オンライン強化学習(RL)アルゴリズムは、臨床試験参加者に対するパーソナライズ治療に大きな可能性を秘めている。 しかし、オンラインで自律的なアルゴリズムをハイテイクな医療環境に配置することは、品質管理とデータ品質を特に困難にしている。 本稿では,オンラインRLアルゴリズムを臨床試験に導入するための重要な要件として,アルゴリズムの忠実性を提案する。 本研究は,(1) 参加者を保護し,(2) 裁判後分析におけるデータの科学的有用性を維持するためのアルゴリズムの責務を強調している。 我々はまた、アルゴリズム開発者や臨床研究者がアルゴリズムの忠実性を確保するのに役立つ、事前デプロイ計画とリアルタイムモニタリングのためのフレームワークも提示する。 本フレームワークの実用的応用を説明するために,Oralytics 臨床試験から実例を提示する。 2023年春以降、この試行は、歯科疾患のリスクがある参加者に対する行動介入をパーソナライズするために、自律的なオンラインRLアルゴリズムをうまく展開した。

Online reinforcement learning (RL) algorithms offer great potential for personalizing treatment for participants in clinical trials. However, deploying an online, autonomous algorithm in the high-stakes healthcare setting makes quality control and data quality especially difficult to achieve. This paper proposes algorithm fidelity as a critical requirement for deploying online RL algorithms in clinical trials. It emphasizes the responsibility of the algorithm to (1) safeguard participants and (2) preserve the scientific utility of the data for post-trial analyses. We also present a framework for pre-deployment planning and real-time monitoring to help algorithm developers and clinical researchers ensure algorithm fidelity. To illustrate our framework's practical application, we present real-world examples from the Oralytics clinical trial. Since Spring 2023, this trial successfully deployed an autonomous, online RL algorithm to personalize behavioral interventions for participants at risk for dental disease.
翻訳日:2024-08-13 23:57:57 公開日:2024-08-12
# 可視光速コード補完サービス利用の展望

Insights from the Usage of the Ansible Lightspeed Code Completion Service ( http://arxiv.org/abs/2402.17442v2 )

ライセンス: Link先を確認
Priyam Sahoo, Saurabh Pujar, Ganesh Nalawade, Richard Gebhardt, Louis Mandel, Luca Buratti, (参考訳) コードを生成するLarge Language Models(LLMs)が利用可能になったことで、開発者の生産性を向上させるツールの開発が可能になった。 開発者がソフトウェアを書くのに使用する統合開発環境やIDEは、しばしばLLMと対話するためのインターフェースとして使用される。 このようなツールは多くリリースされているが、そのほとんどは汎用プログラミング言語に重点を置いている。 情報技術(IT)自動化に不可欠なようなドメイン固有言語はあまり注目されていない。 Ansibleは、YAMLベースのIT自動化特化言語のひとつです。 Ansible Lightspeedは、自然言語プロンプトからAnsible YAMLを生成するために明示的に設計されたLLMベースのサービスである。 本稿ではまず,Ansible Lightspeedサービスの設計と実装について述べる。 次に、拡張利用率、ユーザ拒否提案の分析、ユーザ感情の分析など、多様な指標を用いて、その有用性を開発者に評価する。 この分析は、10,696人の実ユーザから収集されたデータに基づいており、3,910人の返却ユーザを含む。 Ansible Lightspeedサービスと分析フレームワークのコードは、他の人が使えるように作られている。 私たちの知る限りでは、ドメイン固有の言語のためのコードアシスタントの評価に何千人ものユーザーを巻き込んだ初めての研究です。 我々は,ユーザ受け入れ率の改善版を提案し,N-Dayユーザ保持数値を提示する最初のコード補完ツールである。 私たちの発見により、ドメイン固有のコンテキストにおいて、小さな、専用のモデルの有効性に関する洞察を提供する。 この研究は、ソフトウェア工学と機械学習の研究者がドメイン固有の言語、特にプログラミング言語のコード補完サービスを探求する際の参考になることを期待している。

The availability of Large Language Models (LLMs) which can generate code, has made it possible to create tools that improve developer productivity. Integrated development environments or IDEs which developers use to write software are often used as an interface to interact with LLMs. Although many such tools have been released, almost all of them focus on general-purpose programming languages. Domain-specific languages, such as those crucial for Information Technology (IT) automation, have not received much attention. Ansible is one such YAML-based IT automation-specific language. Ansible Lightspeed is an LLM-based service designed explicitly to generate Ansible YAML given natural language prompt. This paper first presents the design and implementation of the Ansible Lightspeed service. We then evaluate its utility to developers using diverse indicators, including extended utilization, analysis of user rejected suggestions, as well as analysis of user sentiments. The analysis is based on data collected for 10,696 real users including 3,910 returning users. The code for Ansible Lightspeed service and the analysis framework is made available for others to use. To our knowledge, our study is the first to involve thousands of users in evaluating code assistants for domain-specific languages. We propose an improved version of user acceptance rate and we are the first code completion tool to present N-Day user retention figures. With our findings we provide insights into the effectiveness of small, dedicated models in a domain-specific context. We hope this work serves as a reference for software engineering and machine learning researchers exploring code completion services for domain-specific languages in particular and programming languages in general.
翻訳日:2024-08-13 23:48:12 公開日:2024-08-12
# 雑音データからの深層学習におけるインフォーマティブな特徴と例の優先順位付け

Prioritizing Informative Features and Examples for Deep Learning from Noisy Data ( http://arxiv.org/abs/2403.00013v2 )

ライセンス: Link先を確認
Dongmin Park, (参考訳) 本論文では,開発プロセスの各段階を強化するために,情報的特徴や事例を優先するシステム的枠組みを提案する。 具体的には、情報的特徴と例を優先し、特徴学習、データラベリング、データ選択の性能を向上させる。 まず,目的課題の解決に固有の情報的特徴のみを,補助的なアウト・オブ・ディストリビューションデータを用いて抽出する手法を提案する。 分布外データを用いて,対象分布の雑音特性を非活性化する。 次に、能動学習のラベル付けコストを削減するために、ラベルなしノイズデータから情報的サンプルを優先する手法を提案する。 情報化事例の選択を試み,ノイズの多い事例の選択を誘導する純度情報ジレンマを解決するために,純度と情報化のバランスを最も良くするメタモデルを提案する。 最後に、ラベル付きノイズデータから情報的サンプルを優先して、データ選択の性能を維持するアプローチを提案する。 ラベル付き画像ノイズデータに対しては,近隣サンプルの信頼度を考慮したデータ選択手法を提案する。 ラベル付きテキストノイズデータに対して、命令の質をプロンプトでランク付けすることを考慮して、多様性を考慮した命令選択手法を提案する。 全体として、我々の統合されたフレームワークは、ノイズの多いデータに対して堅牢なディープラーニング開発プロセスを誘導し、現実のアプリケーションにおけるノイズの多い特徴や例を効果的に軽減します。

In this dissertation, we propose a systemic framework that prioritizes informative features and examples to enhance each stage of the development process. Specifically, we prioritize informative features and examples and improve the performance of feature learning, data labeling, and data selection. We first propose an approach to extract only informative features that are inherent to solving a target task by using auxiliary out-of-distribution data. We deactivate the noise features in the target distribution by using that in the out-of-distribution data. Next, we introduce an approach that prioritizes informative examples from unlabeled noisy data in order to reduce the labeling cost of active learning. In order to solve the purity-information dilemma, where an attempt to select informative examples induces the selection of many noisy examples, we propose a meta-model that finds the best balance between purity and informativeness. Lastly, we suggest an approach that prioritizes informative examples from labeled noisy data to preserve the performance of data selection. For labeled image noise data, we propose a data selection method that considers the confidence of neighboring samples to maintain the performance of the state-of-the-art Re-labeling models. For labeled text noise data, we present an instruction selection method that takes diversity into account for ranking the quality of instructions with prompting, thereby enhancing the performance of aligned large language models. Overall, our unified framework induces the deep learning development process robust to noisy data, thereby effectively mitigating noisy features and examples in real-world applications.
翻訳日:2024-08-13 23:48:12 公開日:2024-08-12
# ロータ様量子系の統一的不確実性

Unifying uncertainties for rotor-like quantum systems ( http://arxiv.org/abs/2403.02498v3 )

ライセンス: Link先を確認
Ladislav Mišta Jr., Matouš Mišta, Zdeněk Hradil, (参考訳) 量子ローターは、調和振動子の後、次の明らかな量子系で、角運動量と角運動量におけるユニタリシフト作用素の相補的な対を研究する。 したがって、不確実性の適切な定量化とこれら2つの作用素の不適合性はローターのような量子システムの適用に不可欠である。 角運動量の不確実性は分散によって特徴づけられるが、シフト作用素に対していくつかの不確実性対策が提案され、最も単純な例が分散である。 我々はこれらの測度とそれに対応する不確実性関係の階層を確立し、すべて完全にあるいはほぼ完全に、トモグラフィ的に完備なvon Mises状態の集合によって飽和する。 単位環の慣性モーメントとしての分散の解釈に基づいて、他の測度も同じ機械的解釈を持つことを示す。 この統一的な観点は、すべての測度を単一の一般的な角不確かさ測度の特定の例として表現することができる。 これらの測定の重要性は、角運動量とシフト演算子の最適同時測定を導出するために、最も単純な2つを適用することで強調される。 最後に、量子ローターのモデルは、特異光、ジョセフソン接合を持つ超導電性回路、時間周波数領域における最適なパルス整形などの分野に将来的な応用を期待して、その機械的意味を超えて拡張されていると論じる。 我々の研究は、量子ローターの量子情報と気象学の応用の基礎を築き、その学際的性質を示唆した。

The quantum rotor represents, after the harmonic oscillator, the next obvious quantum system to study the complementary pair of variables: the angular momentum and the unitary shift operator in angular momentum. Proper quantification of uncertainties and the incompatibility of these two operators are thus essential for applications of rotor-like quantum systems. While angular momentum uncertainty is characterized by variance, several uncertainty measures have been proposed for the shift operator, with dispersion the simplest example. We establish a hierarchy of those measures and corresponding uncertainty relations which are all perfectly or almost perfectly saturated by a tomographically complete set of von Mises states. Building on the interpretation of dispersion as the moment of inertia of the unit ring we then show that the other measures also possess the same mechanical interpretation. This unifying perspective allows us to express all measures as a particular instance of a single generic angular uncertainty measure. The importance of these measures is then highlighted by applying the simplest two of them to derive optimal simultaneous measurements of the angular momentum and the shift operator. Finally, we argue that the model of quantum rotor extends beyond its mechanical meaning with promising applications in the fields of singular optics, super-conductive circuits with a Josephson junction or optimal pulse shaping in the time-frequency domain. Our findings lay the groundwork for quantum-information and metrological applications of the quantum rotor and point to its interdisciplinary nature.
翻訳日:2024-08-13 23:48:12 公開日:2024-08-12
# ConspEmoLLM:感情に基づく大言語モデルを用いた陰謀理論の検出

ConspEmoLLM: Conspiracy Theory Detection Using an Emotion-Based Large Language Model ( http://arxiv.org/abs/2403.06765v3 )

ライセンス: Link先を確認
Zhiwei Liu, Boyang Liu, Paul Thompson, Kailai Yang, Sophia Ananiadou, (参考訳) インターネットは社会に利益と害をもたらす。 後者の主な例は、陰謀論を含む誤報であり、ウェブを溢れさせる。 近年の自然言語処理,特に大規模言語モデル(LLM)の出現により,正確な誤情報検出の可能性が向上した。 しかし、LLMに基づく陰謀論の検出へのほとんどのアプローチは、二項分類のみに焦点を当て、誤情報と感情的特徴(感情と感情)の間の重要な関係を説明できない。 本研究では,その特徴を明らかにする共謀テキストの包括的分析により,情緒情報を統合し,共謀理論に関連する多種多様なタスクを実行できる,最初のオープンソースLLMであるConspEmoLLMを提案する。 これらのタスクには陰謀論の検出だけでなく、理論の種類の分類や関連する議論(例えば理論に対する意見)の検出も含まれる。 ConspEmoLLMは、我々の新しいConDIDデータセットを用いて感情指向のLLMに基づいて微調整され、LLMのチューニングと評価をサポートする5つのタスクを含む。 これらのタスクに適用した場合、ConspEmoLLMはいくつかのオープンソース汎用ドメイン LLM や ChatGPT よりも優れており、また、ConDID を用いて微調整されているが、情緒的な機能を使用しない LLM も優れていることを実証する。 このプロジェクトはhttps://github.com/lzw108/ConspEmoLLM/でリリースされる。

The internet has brought both benefits and harms to society. A prime example of the latter is misinformation, including conspiracy theories, which flood the web. Recent advances in natural language processing, particularly the emergence of large language models (LLMs), have improved the prospects of accurate misinformation detection. However, most LLM-based approaches to conspiracy theory detection focus only on binary classification and fail to account for the important relationship between misinformation and affective features (i.e., sentiment and emotions). Driven by a comprehensive analysis of conspiracy text that reveals its distinctive affective features, we propose ConspEmoLLM, the first open-source LLM that integrates affective information and is able to perform diverse tasks relating to conspiracy theories. These tasks include not only conspiracy theory detection, but also classification of theory type and detection of related discussion (e.g., opinions towards theories). ConspEmoLLM is fine-tuned based on an emotion-oriented LLM using our novel ConDID dataset, which includes five tasks to support LLM instruction tuning and evaluation. We demonstrate that when applied to these tasks, ConspEmoLLM largely outperforms several open-source general domain LLMs and ChatGPT, as well as an LLM that has been fine-tuned using ConDID, but which does not use affective features. This project will be released on https://github.com/lzw108/ConspEmoLLM/.
翻訳日:2024-08-13 23:48:12 公開日:2024-08-12
# 気道病変のボリュームセグメンテーションのための2次元および3次元総合的深層学習法のCTによる評価

CT evaluation of 2D and 3D holistic deep learning methods for the volumetric segmentation of airway lesions ( http://arxiv.org/abs/2403.08042v2 )

ライセンス: Link先を確認
Amel Imene Hadj Bouzid, Baudouin Denis de Senneville, Fabien Baldacci, Pascal Desbarats, Patrick Berger, Ilyes Benlala, Gaël Dournes, (参考訳) 本研究は, 嚢胞性線維症 (CF) 病変に着目して, 畳み込みニューラルネットワーク (CNN) の2次元および3次元形式での包括的セグメンテーション能力の比較研究を行った。 この研究は、主要なCF構造変化をカバーした2つのCF参照センターのデータを利用した。 最初は2Dモデルと3Dモデルを比較し、粘液プラグやコンソリデーションといった複雑な特徴を捉えた3Dモデルの優れた能力を強調した。 2Dモデルの性能向上のために, 3Dモデルの性能を上回りながら, 微細構造セグメンテーションに適応した損失を実装, 評価し, 精度を著しく向上させた。 肺機能検査 (PFT) に対する外的評価により, さらに検証を行い, 結果の堅牢性を確認した。 さらに, 本研究は, モデルの解釈可能性と信頼性を総合的に評価し, 臨床応用に有用な洞察を与えている。

This research embarked on a comparative exploration of the holistic segmentation capabilities of Convolutional Neural Networks (CNNs) in both 2D and 3D formats, focusing on cystic fibrosis (CF) lesions. The study utilized data from two CF reference centers, covering five major CF structural changes. Initially, it compared the 2D and 3D models, highlighting the 3D model's superior capability in capturing complex features like mucus plugs and consolidations. To improve the 2D model's performance, a loss adapted to fine structures segmentation was implemented and evaluated, significantly enhancing its accuracy, though not surpassing the 3D model's performance. The models underwent further validation through external evaluation against pulmonary function tests (PFTs), confirming the robustness of the findings. Moreover, this study went beyond comparing metrics; it also included comprehensive assessments of the models' interpretability and reliability, providing valuable insights for their clinical application.
翻訳日:2024-08-13 23:48:12 公開日:2024-08-12
# ループアンロールの形式的定義とテストカバレッジへの応用

A formal definition of loop unrolling with applications to test coverage ( http://arxiv.org/abs/2403.08923v2 )

ライセンス: Link先を確認
Bertrand Meyer, (参考訳) 分岐カバレッジのような様々なテストカバレッジを実現するテクニックは、ループを反復しないのが一般的である。 著者と共同研究者による既存の作業は、完全なブランチカバレッジを保証するテストスイートを生成する。 最近の研究によると、ループをアンロールすることで、アプローチははるかに多くのバグを見つけることができる。 この議論は、このアンロールの概念の理論的基礎と正確な定義を提供する。 最初は、標準的なテストカバレッジプラクティス(ループボディを一度だけ実行する)を改善する必要性から動機付けられたが、テストカバレッジを改善するために、ここで提示されたフレームワークは、ループに関する推論のあらゆる形態に適用できる。

Techniques to achieve various forms of test coverage, such as branch coverage, typically do not iterate loops; in other words, they treat a loop as a conditional, executed zero or one time. Existing work by the author and collaborators produces test suites guaranteeing full branch coverage. More recent work has shown that by "unrolling" loops the approach can find significantly more bugs. The present discussion provides the theoretical basis and precise definition for this concept of unrolling. While initially motivated by the need to improve standard test coverage practices (which execute loop bodies only once), to better testing coverage, the framework presented here is applicable to any form of reasoning about loops.
翻訳日:2024-08-13 23:48:12 公開日:2024-08-12
# RAGGED:検索拡張システムのインフォームドデザインに向けて

RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems ( http://arxiv.org/abs/2403.09040v2 )

ライセンス: Link先を確認
Jennifer Hsia, Afreen Shaikh, Zhiruo Wang, Graham Neubig, (参考訳) Retrieval-augmented Generation (RAG)は、文書ベースの質問応答(DBQA)のようなタスクに追加のコンテキストを提供することで、言語モデル(LM)の性能を大幅に向上させることができる。 しかしながら、RAGの有効性は構成に大きく依存している。 最適構成を体系的に見つけるために,様々なDBQAタスク間でRAG構成を解析するフレームワークであるRAGGEDを導入する。 このフレームワークを用いて、異なる文脈量、文脈品質、検索者に対応する異なるLMの挙動を発見する。 例えば、いくつかのモデルはノイズの多いコンテキストに対して堅牢であり、より多くのコンテキストで単調にパフォーマンスが向上するが、他のモデルはよりノイズに敏感であり、パフォーマンスが低下する前に少数のコンテキストしか有効に使用できない。 このフレームワークはまた、特定の環境条件下での信号や雑音に対するLMの感度を評価することで、これらの違いをより深く分析する。 RAGGEDを使用することで、研究者や実践者は、特定の質問応答タスクに対して、RAGシステムをどのように最適に設定するかについての実用的な洞察を得ることができる。

Retrieval-augmented generation (RAG) can significantly improve the performance of language models (LMs) by providing additional context for tasks such as document-based question answering (DBQA). However, the effectiveness of RAG is highly dependent on its configuration. To systematically find the optimal configuration, we introduce RAGGED, a framework for analyzing RAG configurations across various DBQA tasks. Using the framework, we discover distinct LM behaviors in response to varying context quantities, context qualities, and retrievers. For instance, while some models are robust to noisy contexts, monotonically performing better with more contexts, others are more noise-sensitive and can effectively use only a few contexts before declining in performance. This framework also provides a deeper analysis of these differences by evaluating the LMs' sensitivity to signal and noise under specific context quality conditions. Using RAGGED, researchers and practitioners can derive actionable insights about how to optimally configure their RAG systems for their specific question-answering tasks.
翻訳日:2024-08-13 23:48:12 公開日:2024-08-12
# ニュートラル原子ハードウェアに応用したZX計算による多制御相ゲート合成

Multi-controlled Phase Gate Synthesis with ZX-calculus applied to Neutral Atom Hardware ( http://arxiv.org/abs/2403.10864v2 )

ライセンス: Link先を確認
Korbinian Staudacher, Ludwig Schmid, Johannes Zeiher, Robert Wille, Dieter Kranzlmüller, (参考訳) 量子回路合成は、任意のユニタリ演算を固定された普遍ゲートセットのゲートシーケンスに変換する過程を記述している。 現在の合成アルゴリズムは、単一量子ビットの回転と、CX、CZ、モルマー・ソレンセンゲートなどの2つの量子ビットゲートを絡み合わせるように設計されている。 しかし、中性原子ベースのハードウェアの出現と、2量子ビット以上のゲートのネイティブサポートにより、これらの新しいゲートセットに適した合成アプローチが必要である。 本研究では,ZX計算を用いて多制御位相ゲートを合成する手法を提案する。 量子回路をZX図のようなグラフとして表現することにより、対角ゲートの異なるグラフ構造を利用して、元の回路で明示的に定義されていなくても、いくつかの量子回路に本質的に存在する多重制御相ゲートを識別することができる。 そこで我々は, マルチコントロールゲートをネイティブにサポートした中性原子ベースのハードウェアの回路実行時間について, 様々なベンチマーク回路に対するアプローチを評価し, 標準的なカイスキット合成と比較した。 以上の結果から,現在最先端ハードウェアの利点が示され,任意のサイズのマルチ制御位相ゲートをサポートする最初の正確な合成アルゴリズムが示される。

Quantum circuit synthesis describes the process of converting arbitrary unitary operations into a gate sequence of a fixed universal gate set, usually defined by the operations native to a given hardware platform. Most current synthesis algorithms are designed to synthesize towards a set of single qubit rotations and an additional entangling two qubit gate, such as CX, CZ, or the Molmer Sorensen gate. However, with the emergence of neutral atom based hardware and their native support for gates with more than two qubits, synthesis approaches tailored to these new gate sets become necessary. In this work, we present an approach to synthesize multi controlled phase gates using ZX calculus. By representing quantum circuits as graph like ZX diagrams, one can utilize the distinct graph structure of diagonal gates to identify multi controlled phase gates inherently present in some quantum circuits even if none were explicitly defined in the original circuit. We evaluate the approach on a wide range of benchmark circuits and compare them to the standard Qiskit synthesis regarding its circuit execution time for neutral atom based hardware with native support of multi controlled gates. Our results show possible advantages for current state of the art hardware and represent the first exact synthesis algorithm supporting arbitrary sized multi controlled phase gates.
翻訳日:2024-08-13 23:48:12 公開日:2024-08-12
# 古典シミュレーションにおける効率的なT分解のための手続き最適化ZX-Diagram切削

Procedurally Optimised ZX-Diagram Cutting for Efficient T-Decomposition in Classical Simulation ( http://arxiv.org/abs/2403.10964v2 )

ライセンス: Link先を確認
Matthew Sutcliffe, Aleks Kissinger, (参考訳) 量子回路は、古典的に計算可能な安定化項の和に$t$T-ゲートを分解することで、ZX-計算の助けを借りて古典的に強くシミュレートすることができる。 本稿では,ZX-ダイアグラムにおける頂点カットの最適パターンを見つけるための一般的な手順を紹介し,最も少ないカットのコストでTカウントの削減を最大化する。 Tゲートを直接分解する固定ルーチンに基づいてクリフォード+Tダイアグラムを縮小する代わりに、そのような回路に共通する特定のパターンや構造を利用して、実質的には特定の回路に最適化されたクモ分解の配列を自動的に設計する。 要するに、これはウェイトをバーチカンに割り当てて、ブロックしているT字型のゲートの数に基づいて、そのウェイトを近隣のあらゆる場所に適切に伝播させ、重み付きバーチカンをヒュージングからブロックするなどして機能する。 最終的に、これは関連するノードに一連の重み付けを提供し、各ノードをカットして、最上位の重み付けから始めることができる。 これはヒューリスティックなアプローチであるが、検証可能な回路が十分小さい場合、この手法は711\%の時間で可能な限り最適なカットを実現できることを示す。 さらに、この方法によって達成される効率の上限はなく、原理的には、高度に構造化された回路に対して有効分解効率$\alpha\rightarrow0$が可能である。 ランダムな擬構造回路(CNOT、位相ゲート、Toffolisから生成される)にも適用しても、従来のT-分解アプローチ(つまり$\alpha\approx0.47$)と比較して、T-ゲートを減らすのに必要な安定化項の数が記録され、有効効率は$0.1\lesssim\alpha\lesssim0.2$である。

A quantum circuit may be strongly classically simulated with the aid of ZX-calculus by decomposing its $t$ T-gates into a sum of $2^{\alpha t}$ classically computable stabiliser terms. In this paper, we introduce a general procedure to find an optimal pattern of vertex cuts in a ZX-diagram to maximise its T-count reduction at the cost of the fewest cuts. Rather than reducing a Clifford+T diagram based on a fixed routine of decomposing its T-gates directly (as is the conventional approach), we focus instead on taking advantage of certain patterns and structures common to such circuits to, in effect, design by automatic procedure an arrangement of spider decompositions that is optimised for the particular circuit. In short, this works by assigning weights to vertices based on how many T-like gates they are blocking from fusing/cancelling and then appropriately propagating these weights through any neighbours which are then blocking weighted vertices from fusing, and so on. Ultimately, this then provides a set of weightings on relevant nodes, which can then each be cut, starting from the highest weighted down. While this is a heuristic approach, we show that, for circuits small enough to verify, this method achieves the most optimal set of cuts possible $71\%$ of the time. Furthermore, there is no upper bound for the efficiency achieved by this method, allowing, in principle, an effective decomposition efficiency $\alpha\rightarrow0$ for highly structured circuits. Even applied to random pseudo-structured circuits (produced from CNOTs, phase gates, and Toffolis), we record the number of stabiliser terms required to reduce all T-gates, via our method as compared to that of the more conventional T-decomposition approaches (namely \cite{kissinger21}, with $\alpha\approx0.47$), and show consistent improvements of orders of magnitude, with an effective efficiency $0.1\lesssim\alpha\lesssim0.2$.
翻訳日:2024-08-13 23:48:12 公開日:2024-08-12
# マルチラベルクラスインクリメンタルラーニングのための信頼自己校正

Confidence Self-Calibration for Multi-Label Class-Incremental Learning ( http://arxiv.org/abs/2403.12559v2 )

ライセンス: Link先を確認
Kaile Du, Yifan Zhou, Fan Lyu, Yuyang Li, Chen Lu, Guangcan Liu, (参考訳) MLCIL(Multi-Label Class-Incremental Learning)では、トレーニング中に新しいクラスだけがラベル付けされるのに対して、過去と将来のラベルは利用できない。 この問題は、誤って高い信頼度を持つマルチラベル予測によって偽陽性エラーが増加し、不連続ラベル空間内で破滅的な忘れを悪化させる。 本稿では,MLCILのマルチラベル信頼度校正を改良し,信頼性自己校正(CSC)アプローチを提案する。 まず、ラベル関係の校正のために、学習可能で動的に拡張されたラベル関係グラフを構築することにより、孤立ラベル空間を橋渡しするクラスインクリメンタルグラフ畳み込みネットワークを導入する。 そして、信頼度校正のために、各マルチラベルインクリメントに対して最大エントロピー正規化を示し、過信出力分布のペナル化による自信自己校正を容易にする。 提案手法は,MS-COCOとPASCALのVOCデータセット上でのMLCILタスクにおいて,ラベルの信頼性の校正を手法によって確認した。

The partial label challenge in Multi-Label Class-Incremental Learning (MLCIL) arises when only the new classes are labeled during training, while past and future labels remain unavailable. This issue leads to a proliferation of false-positive errors due to erroneously high confidence multi-label predictions, exacerbating catastrophic forgetting within the disjoint label space. In this paper, we aim to refine multi-label confidence calibration in MLCIL and propose a Confidence Self-Calibration (CSC) approach. Firstly, for label relationship calibration, we introduce a class-incremental graph convolutional network that bridges the isolated label spaces by constructing learnable, dynamically extended label relationship graph. Then, for confidence calibration, we present a max-entropy regularization for each multi-label increment, facilitating confidence self-calibration through the penalization of over-confident output distributions. Our approach attains new state-of-the-art results in MLCIL tasks on both MS-COCO and PASCAL VOC datasets, with the calibration of label confidences confirmed through our methodology.
翻訳日:2024-08-13 23:38:15 公開日:2024-08-12
# LLMLingua-2: 効率的なタスク非依存型プロンプト圧縮のためのデータ蒸留

LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression ( http://arxiv.org/abs/2403.12968v2 )

ライセンス: Link先を確認
Zhuoshi Pan, Qianhui Wu, Huiqiang Jiang, Menglin Xia, Xufang Luo, Jue Zhang, Qingwei Lin, Victor Rühle, Yuqing Yang, Chin-Yew Lin, H. Vicky Zhao, Lili Qiu, Dongmei Zhang, (参考訳) 本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。 自然言語の冗長性を考慮すると、既存のアプローチはLLaMa-7Bのような因果的言語モデルから得られる情報エントロピーに従ってトークンや語彙単位を削除することでプロンプトを圧縮する。 課題は、情報エントロピーが最適以下の圧縮計量であるかもしれないことである。 (i)一方向の文脈のみを利用しており、即時圧縮に必要なすべての必須情報を捕捉できない場合があること。 (ii)即時圧縮目標と一致しない。 これらの課題に対処するため,LLMから知識を抽出し,重要な情報を失うことなくプロンプトを圧縮するデータ蒸留手法を提案し,その間,抽出テキスト圧縮データセットを導入する。 本稿では, プロンプト圧縮をトークン分類問題として定式化し, 圧縮したプロンプトの忠実さを元のプロンプトに保証し, トランスフォーマーエンコーダをベースアーキテクチャとして使用して, 全双方向コンテキストからプロンプト圧縮に必要なすべての情報を取得する。 提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。 本手法は、FundBank、LongBench、ZeroScrolls、GSM8K、BBHを含むドメイン内および外部のデータセットで評価する。 モデルのサイズは小さいが, 強いベースラインよりも高い性能を示し, 異なるLLMに対して頑健な一般化能力を示す。 さらに,本モデルでは,圧縮比が2x-5xのエンドツーエンド遅延を1.6x-2.9xで高速化する一方,既存の高速圧縮方式よりも3x-6倍高速である。 私たちのコードはhttps://aka.ms/LLMLingua-2.comで利用可能です。

This paper focuses on task-agnostic prompt compression for better generalizability and efficiency. Considering the redundancy in natural language, existing approaches compress prompts by removing tokens or lexical units according to their information entropy obtained from a causal language model such as LLaMa-7B. The challenge is that information entropy may be a suboptimal compression metric: (i) it only leverages unidirectional context and may fail to capture all essential information needed for prompt compression; (ii) it is not aligned with the prompt compression objective. To address these issues, we propose a data distillation procedure to derive knowledge from an LLM to compress prompts without losing crucial information, and meantime, introduce an extractive text compression dataset. We formulate prompt compression as a token classification problem to guarantee the faithfulness of the compressed prompt to the original one, and use a Transformer encoder as the base architecture to capture all essential information for prompt compression from the full bidirectional context. Our approach leads to lower latency by explicitly learning the compression objective with smaller models such as XLM-RoBERTa-large and mBERT. We evaluate our method on both in-domain and out-of-domain datasets, including MeetingBank, LongBench, ZeroScrolls, GSM8K, and BBH. Despite its small size, our model shows significant performance gains over strong baselines and demonstrates robust generalization ability across different LLMs. Additionally, our model is 3x-6x faster than existing prompt compression methods, while accelerating the end-to-end latency by 1.6x-2.9x with compression ratios of 2x-5x. Our code is available at https://aka.ms/LLMLingua-2.
翻訳日:2024-08-13 23:38:15 公開日:2024-08-12
# XLAVS-R:ノイズ・ロバスト音声知覚のための言語間音声・ビジュアル音声表現学習

XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception ( http://arxiv.org/abs/2403.14402v2 )

ライセンス: Link先を確認
HyoJung Han, Mohamed Anwar, Juan Pino, Wei-Ning Hsu, Marine Carpuat, Bowen Shi, Changhan Wang, (参考訳) 音声認識と翻訳システムは、現実的な環境で頻繁に発生するノイズの多い入力に対して、性能が良くない。 これらのシステムを視覚信号で拡張することは、ノイズに対する堅牢性を改善する可能性がある。 しかし、オーディオ・ヴィジュアル(AV)データは限られた量でしか使えず、音声のみのリソースよりも少ない言語でしか利用できない。 このギャップに対処するため,100以上の言語で音声認識・翻訳を行う言語間音声視覚表現モデルXLAVS-Rを提案する。 音声のみの多言語事前学習の上に構築し、既存の事前学習スキームを簡素化することにより、限られた多言語AV事前学習データの利点を最大化するように設計されている。 MuAViCベンチマークの広範囲な評価は、XLAVS-Rが下流の音声視覚音声認識および翻訳タスクにおいて、ノイズの多いAV入力を与えられた18.5%のWERと4.7のBLEUに上回り、オーディオのみの微調整で強力なゼロショットオーディオ視覚能力を実現する。

Speech recognition and translation systems perform poorly on noisy inputs, which are frequent in realistic environments. Augmenting these systems with visual signals has the potential to improve robustness to noise. However, audio-visual (AV) data is only available in limited amounts and for fewer languages than audio-only resources. To address this gap, we present XLAVS-R, a cross-lingual audio-visual speech representation model for noise-robust speech recognition and translation in over 100 languages. It is designed to maximize the benefits of limited multilingual AV pre-training data, by building on top of audio-only multilingual pre-training and simplifying existing pre-training schemes. Extensive evaluation on the MuAViC benchmark shows the strength of XLAVS-R on downstream audio-visual speech recognition and translation tasks, where it outperforms the previous state of the art by up to 18.5% WER and 4.7 BLEU given noisy AV inputs, and enables strong zero-shot audio-visual ability with audio-only fine-tuning.
翻訳日:2024-08-13 23:38:15 公開日:2024-08-12
# 大規模言語モデル学習における固有識別器による著作権物質保護

Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training ( http://arxiv.org/abs/2403.15740v2 )

ライセンス: Link先を確認
Shuai Zhao, Linchao Zhu, Ruijie Quan, Yi Yang, (参考訳) 大きな言語モデル(LLM)のトレーニングに関する主要な公的な懸念は、著作権のあるオンラインテキストを悪用するかどうかである。 事前の会員推定法は、大量のトレーニングデータに類似した例によって誤解されることがある。 さらに、これらの方法はしばしば、一般ユーザーが理解し、使用するには複雑すぎるため、中央集権化され、透明性が欠如し、信頼性が損なわれる。 これらの問題に対処するために、Webユーザとコンテンツプラットフォームは、信頼性と独立性のあるメンバシップ推論のために、 \textbf{\textit{uniqueidentations}} を採用することを提唱する、代替的な \textit{insert-and-detection} 手法を提案する。 ユーザとプラットフォームは、独自の識別子を作成し、著作権のあるテキストに埋め込み、将来のLLMでそれらを独立して検出することができる。 最初のデモとして、ランダムな単語からなるパスフレーズからなる、ユニークな識別子の原始的な形式である \textit{ghost sentences} を紹介する。 いくつかの著作権のあるテキストに1つのゴースト文を埋め込むことで、ユーザーはパープレキシティテストと‘textit{user-friendly} last-k$ words testでメンバーシップを検出することができる。 パープレキシティテストは、自然言語で訓練されたLSMが不自然なパスフレーズに遭遇する際に高いパープレキシティを示すという事実に基づいている。 繰り返しが増加するにつれて、ユーザはLLMの冗長な暗記能力を利用して、コードを書かずにLLMとチャットすることで、最後の$kの単語テストを実行することができる。 どちらのテストも、メンバーシップ推論の厳格な統計的保証を提供する。 LLaMA-13Bでは、平均で7回148Kの例で30のゴースト文に対するパープレキシティテストが行われ、0.891のOC AUCが得られた。 OpenLLaMA-3Bでの最後の$kのワードテストでは、16ユーザ中11ユーザがそれぞれ平均24のサンプルを使用して、1.8Mのサンプルからデータを識別することに成功した。

A major public concern regarding the training of large language models (LLMs) is whether they abusing copyrighted online text. Previous membership inference methods may be misled by similar examples in vast amounts of training data. Additionally, these methods are often too complex for general users to understand and use, making them centralized, lacking transparency, and trustworthiness. To address these issues, we propose an alternative \textit{insert-and-detection} methodology, advocating that web users and content platforms employ \textbf{\textit{unique identifiers}} for reliable and independent membership inference. Users and platforms can create their own identifiers, embed them in copyrighted text, and independently detect them in future LLMs. As an initial demonstration, we introduce \textit{ghost sentences}, a primitive form of unique identifiers, consisting primarily of passphrases made up of random words. By embedding one ghost sentences in a few copyrighted texts, users can detect its membership using a perplexity test and a \textit{user-friendly} last-$k$ words test. The perplexity test is based on the fact that LLMs trained on natural language should exhibit high perplexity when encountering unnatural passphrases. As the repetition increases, users can leverage the verbatim memorization ability of LLMs to perform a last-$k$ words test by chatting with LLMs without writing any code. Both tests offer rigorous statistical guarantees for membership inference. For LLaMA-13B, a perplexity test on 30 ghost sentences with an average of 7 repetitions in 148K examples yields a 0.891 ROC AUC. For the last-$k$ words test with OpenLLaMA-3B, 11 out of 16 users, with an average of 24 examples each, successfully identify their data from 1.8M examples.
翻訳日:2024-08-13 23:38:15 公開日:2024-08-12
# イベントカメラを用いた追跡支援物体検出

Tracking-Assisted Object Detection with Event Cameras ( http://arxiv.org/abs/2403.18330v2 )

ライセンス: Link先を確認
Ting-Kang Yen, Igor Morawski, Shusil Dangi, Kai He, Chung-Yi Lin, Jia-Fong Yeh, Hung-Ting Su, Winston Hsu, (参考訳) イベントベースのオブジェクト検出は、高ダイナミックレンジや動きのぼけのないようなイベントカメラの異常な特性のために、コンピュータビジョンコミュニティで最近注目を集めている。 しかし、特徴的不整脈と空間性は、カメラに相対的な動きがないために見えない物体を生じさせ、タスクにおいて重大な課題を生じさせる。 先行研究は、可能な限り多くの時間的手がかりを保持するために様々な暗黙の記憶を研究してきた。 しかし、暗黙の記憶は長期的な特徴を効果的に保つのに苦戦している。 本稿では,これらの見えない物体を擬似隠蔽物体とみなし,隠蔽物体の追跡によって検出することを目的とする。 まず、オブジェクトの可視性属性を導入し、既存のイベントカメラデータセットをクリーニングするだけでなく、それに追加の可視性ラベルを追加する自動ラベルアルゴリズムに貢献する。 第二に、擬似隠蔽オブジェクトのトラッキング戦略を利用して、機能が非常に長い間利用されていない場合でも、その永続性を維持し、バウンディングボックスを維持する。 これらの戦略は、追跡対象によって導かれる明示的な学習メモリとして扱われ、フレーム間のオブジェクトの変位を記録することができる。 最後に,パイプライン全体のロバスト性を高めるために,潜伏する特徴を豊かにするための時空間的特徴集約モジュールと一貫性損失を提案する。 我々は、静止オブジェクトが保持されている場合のメソッドの有効性を検証するため、包括的な実験を行うが、実際の隠蔽オブジェクトは破棄される。 以上の結果から,(1)教師付きトレーニング支援のための可視性ラベルを付加し,(2)最先端の手法よりも優れた7.9%の絶対mAPを達成できた。

Event-based object detection has recently garnered attention in the computer vision community due to the exceptional properties of event cameras, such as high dynamic range and no motion blur. However, feature asynchronism and sparsity cause invisible objects due to no relative motion to the camera, posing a significant challenge in the task. Prior works have studied various implicit-learned memories to retain as many temporal cues as possible. However, implicit memories still struggle to preserve long-term features effectively. In this paper, we consider those invisible objects as pseudo-occluded objects and aim to detect them by tracking through occlusions. Firstly, we introduce the visibility attribute of objects and contribute an auto-labeling algorithm to not only clean the existing event camera dataset but also append additional visibility labels to it. Secondly, we exploit tracking strategies for pseudo-occluded objects to maintain their permanence and retain their bounding boxes, even when features have not been available for a very long time. These strategies can be treated as an explicit-learned memory guided by the tracking objective to record the displacements of objects across frames. Lastly, we propose a spatio-temporal feature aggregation module to enrich the latent features and a consistency loss to increase the robustness of the overall pipeline. We conduct comprehensive experiments to verify our method's effectiveness where still objects are retained, but real occluded objects are discarded. The results demonstrate that (1) the additional visibility labels can assist in supervised training, and (2) our method outperforms state-of-the-art approaches with a significant improvement of 7.9% absolute mAP.
翻訳日:2024-08-13 23:38:15 公開日:2024-08-12
# 環内の量子逆流:最適境界とフラクタル性

Quantum backflow current in a ring: Optimal bounds and fractality ( http://arxiv.org/abs/2403.18586v2 )

ライセンス: Link先を確認
Arseni Goussev, Felix Quinque, Jaewoo Joo, Andrew Burbanks, (参考訳) 円環内を自由に移動する量子粒子の確率密度は、その角運動量と矛盾する局所的な流れパターンを示すことができ、これは量子逆流と呼ばれる現象である。 本研究では,環に制限された量子粒子を,非負の角運動量を持つ低エネルギー固有状態の固定(任意の)数からなる状態に調製する。 リングの周に沿った特定の点における確率電流の時間依存性挙動について検討する。 我々は、この確率電流に対して正確な下限と上限を定め、量子逆流効果の正確なスコープを明記する。 また、理論境界の95%以上に達する記録的なバックフロー確率移動をもたらす量子状態の解析式も提示する。 さらに, 逆流確率移動を最大化する状態に付随する現在の逆時間関数が, 次元が7/4のフラクタル曲線を形成するという予想を支持する, 数値的および解析的な証拠を得る。 観測されたフラクタル性は、確率移動境界付近の量子逆流の特性的、実験的に関連するシグネチャを与える可能性がある。

The probability density of a quantum particle moving freely within a circular ring can exhibit local flow patterns inconsistent with its angular momentum, a phenomenon known as quantum backflow. In this study, we examine a quantum particle confined to a ring and prepared in a state composed of a fixed (yet arbitrary) number of lowest energy eigenstates with non-negative angular momentum. We investigate the time-dependent behavior of the probability current at a specified point along the ring's circumference. We establish precise lower and upper bounds for this probability current, thereby delineating the exact scope of the quantum backflow effect. We also present an analytical expression for a quantum state that yields a record-high backflow probability transfer, reaching over 95% of the theoretical bound. Furthermore, our investigation yields compelling numerical and analytical evidence supporting the conjecture that the current-versus-time function associated with states maximizing backflow probability transfer forms a fractal curve with a dimension of 7/4. The observed fractality may provide a characteristic, experimentally-relevant signature of quantum backflow near the probability-transfer bound.
翻訳日:2024-08-13 23:38:15 公開日:2024-08-12
# 大規模ビジョンランゲージモデルを用いた安全でないユーザ生成コンテンツゲームにおけるオンライン画像のモデレーション

Moderating Illicit Online Image Promotion for Unsafe User-Generated Content Games Using Large Vision-Language Models ( http://arxiv.org/abs/2403.18957v2 )

ライセンス: Link先を確認
Keyan Guo, Ayush Utkarsh, Wenbo Ding, Isabelle Ondracek, Ziming Zhao, Guo Freeman, Nishant Vishwamitra, Hongxin Hu, (参考訳) オンラインユーザ生成コンテンツゲーム(UGCG)は、社会的相互作用とよりクリエイティブなオンラインエンターテイメントのために、子供や青年の間で人気が高まっている。 しかし、露骨なコンテンツに露出するリスクが高くなり、子供や青年のオンライン安全への懸念が高まっている。 これらの懸念にもかかわらず、ソーシャルメディア上での不正な画像ベースUGCGのプロモーションの問題に対処する研究はほとんどない。 この課題は、UGCG画像の総合的なトレーニングデータを得るのが困難であることと、従来の安全でないコンテンツとは異なる、これらの画像のユニークな性質から生じる。 本研究は、安全でないUGCGの違法なプロモーションの脅威を研究するための第一歩となる。 ゲームクリエーターがUGCGをプロモートするために使用する、さまざまな性的・暴力的なコンテンツを表示する2,924枚の画像からなる実世界のデータセットを収集する。 我々の詳細な研究は、この問題に対する新たな理解と、不正なUGCGプロモーションを自動的にフラグ付けする緊急の必要性を明らかにしている。 我々はまた、UGCGプロモーションに使用される画像を効果的に識別するソーシャルメディアプラットフォームを支援するために、最先端システムであるUGCG-Guardを作成した。 このシステムは、最近導入された大型視覚言語モデル(VLM)を活用し、コンテキスト識別のためのチェーン・オブ・シント(CoT)推論とともに、ゼロショット領域適応のための新しい条件付きプロンプト戦略を採用する。 UGCG-Guardは、現実世界のシナリオにおける不正なプロモーションに使用されるこれらの画像の検出において、94%の精度で優れた結果を得る。

Online user generated content games (UGCGs) are increasingly popular among children and adolescents for social interaction and more creative online entertainment. However, they pose a heightened risk of exposure to explicit content, raising growing concerns for the online safety of children and adolescents. Despite these concerns, few studies have addressed the issue of illicit image-based promotions of unsafe UGCGs on social media, which can inadvertently attract young users. This challenge arises from the difficulty of obtaining comprehensive training data for UGCG images and the unique nature of these images, which differ from traditional unsafe content. In this work, we take the first step towards studying the threat of illicit promotions of unsafe UGCGs. We collect a real-world dataset comprising 2,924 images that display diverse sexually explicit and violent content used to promote UGCGs by their game creators. Our in-depth studies reveal a new understanding of this problem and the urgent need for automatically flagging illicit UGCG promotions. We additionally create a cutting-edge system, UGCG-Guard, designed to aid social media platforms in effectively identifying images used for illicit UGCG promotions. This system leverages recently introduced large vision-language models (VLMs) and employs a novel conditional prompting strategy for zero-shot domain adaptation, along with chain-of-thought (CoT) reasoning for contextual identification. UGCG-Guard achieves outstanding results, with an accuracy rate of 94% in detecting these images used for the illicit promotion of such games in real-world scenarios.
翻訳日:2024-08-13 23:38:15 公開日:2024-08-12
# CNN変換器を用いた単パルス電気刺激応答からの静電オンセットゾーンの定位

Localising the Seizure Onset Zone from Single-Pulse Electrical Stimulation Responses with a CNN Transformer ( http://arxiv.org/abs/2403.20324v2 )

ライセンス: Link先を確認
Jamie Norris, Aswin Chari, Dorien van Blooijs, Gerald Cooray, Karl Friston, Martin Tisdall, Richard Rosch, (参考訳) てんかんは最も一般的な神経疾患の1つで、薬が発作を制御できない場合に外科的治療を必要とすることが多い。 効果的な外科的結果を得るためには、てんかん原性焦点の正確な局所化は、しばしばセイズーレ・オンセット・ゾーン(SOZ)を通して近似されるが、依然として重要な課題である。 電気刺激による能動的プローブは、すでにてんかん原性領域を特定するための標準的な臨床実践である。 本研究は,Single-Pulse Electro Stimulation (SPES) 応答を用いたSOZローカライゼーションのための深層学習の応用を推進し,2つの重要な貢献を行った。 まず,2つのSPES分析パラダイム(発散と収束)を比較するために,既存のディープラーニングモデルを実装した。 これらのパラダイムは、それぞれ外向きと内向きの効果的な接続を評価する。 本研究は, 維持試験セットを用いて, 患者と電極配置の一般性を評価するものである。 AUROC:0.574) から収束アプローチ (AUROC: 0.666) への移行において顕著な改善が見られ, この文脈で後者を最初に適用した。 第2に、異種電極配置処理におけるCNN変換器の有効性を実証し、AUROCを0.730に向上させた。 これらの所見は,SPESにおける患者特異的脳波電極配置をモデル化するための重要なステップである。 今後は、これらのモデルを臨床意思決定プロセスに統合して、ディープラーニング研究と実用的な医療応用のギャップを埋めていく予定だ。

Epilepsy is one of the most common neurological disorders, often requiring surgical intervention when medication fails to control seizures. For effective surgical outcomes, precise localisation of the epileptogenic focus - often approximated through the Seizure Onset Zone (SOZ) - is critical yet remains a challenge. Active probing through electrical stimulation is already standard clinical practice for identifying epileptogenic areas. Our study advances the application of deep learning for SOZ localisation using Single-Pulse Electrical Stimulation (SPES) responses, with two key contributions. Firstly, we implement an existing deep learning model to compare two SPES analysis paradigms: divergent and convergent. These paradigms evaluate outward and inward effective connections, respectively. We assess the generalisability of these models to unseen patients and electrode placements using held-out test sets. Our findings reveal a notable improvement in moving from a divergent (AUROC: 0.574) to a convergent approach (AUROC: 0.666), marking the first application of the latter in this context. Secondly, we demonstrate the efficacy of CNN Transformers with cross-channel attention in handling heterogeneous electrode placements, increasing the AUROC to 0.730. These findings represent a significant step in modelling patient-specific intracranial EEG electrode placements in SPES. Future work will explore integrating these models into clinical decision-making processes to bridge the gap between deep learning research and practical healthcare applications.
翻訳日:2024-08-13 23:38:15 公開日:2024-08-12
# ディープラーニングフェーズの回復: データ駆動、物理駆動、あるいは両方を組み合わせるか?

Deep learning phase recovery: data-driven, physics-driven, or combining both? ( http://arxiv.org/abs/2404.01360v2 )

ライセンス: Link先を確認
Kaiqiang Wang, Edmund Y. Lam, (参考訳) 光波の位相をその強度測定から計算する位相回復は、コヒーレント回折イメージング、適応光学、バイオメディカルイメージングなどの様々な用途に欠かせない。 これにより、物体の屈折率分布や地形の再構成や、撮像システムの収差の補正が可能になる。 近年,位相回復問題の解決にディープラーニングが有効であることが証明されている。 最も直接的な深層学習フェーズ回復戦略は、教師付き学習モードを持つデータ駆動型(DD)と、自己教師付き学習モードを持つ物理駆動型(PD)である。 DDとPDは同じ目的を異なる方法で達成し、類似点と相違点を明らかにするために必要な研究を欠いている。 そこで本稿では,これら2つの深層学習位相回復戦略を,時間消費,精度,一般化能力,不適応性,事前能力の観点から総合的に比較する。 さらに,高頻度情報と低周波情報のバランスをとるために,データセットと物理を組み合わせた協調型(CD)戦略を提案する。 DD、PD、CDのコードはhttps://github.com/kqwang/DLPRで公開されている。

Phase recovery, calculating the phase of a light wave from its intensity measurements, is essential for various applications, such as coherent diffraction imaging, adaptive optics, and biomedical imaging. It enables the reconstruction of an object's refractive index distribution or topography as well as the correction of imaging system aberrations. In recent years, deep learning has been proven to be highly effective in addressing phase recovery problems. Two most direct deep learning phase recovery strategies are data-driven (DD) with supervised learning mode and physics-driven (PD) with self-supervised learning mode. DD and PD achieve the same goal in different ways and lack the necessary study to reveal similarities and differences. Therefore, in this paper, we comprehensively compare these two deep learning phase recovery strategies in terms of time consumption, accuracy, generalization ability, ill-posedness adaptability, and prior capacity. What's more, we propose a co-driven (CD) strategy of combining datasets and physics for the balance of high- and low-frequency information. The codes for DD, PD, and CD are publicly available at https://github.com/kqwang/DLPR.
翻訳日:2024-08-13 23:27:39 公開日:2024-08-12
# UniAV:マルチタスクビデオイベントローカライゼーションのための統一型オーディオ・ビジュアル・パーセプション

UniAV: Unified Audio-Visual Perception for Multi-Task Video Event Localization ( http://arxiv.org/abs/2404.03179v2 )

ライセンス: Link先を確認
Tiantian Geng, Teng Wang, Yanfu Zhang, Jinming Duan, Weili Guan, Feng Zheng, Ling shao, (参考訳) ビデオローカライゼーションタスクは、時間的アクションローカライゼーション(TAL)、サウンドイベント検出(SED)、オーディオ視覚イベントローカライゼーション(AVEL)など、ビデオ内の特定のインスタンスを時間的に特定することを目的としている。 既存の方法はタスクごとに過度に特殊化され、これらのインスタンスが同じビデオ内でしばしば発生し、完全なビデオコンテンツを形成するという事実を見落としている。 そこで本研究では, TAL, SED, AVELタスクの協調学習を初めて行うために, Unified Audio-Visual Recognition Network (UniAV) を提案する。 UniAVはタスク固有のデータセットで利用可能な多様なデータを活用することができ、モデルがタスクやモダリティ間で相互に有益な知識を学習し、共有することができる。 データセット(サイズ/ドメイン/デュレーション)とタスク特性の相違による課題に対処するため,全ビデオの視覚的・音声的モダリティを一様にエンコードして汎用表現を導出するとともに,タスク固有の専門家を設計し,各タスクのユニークな知識を捉えることを提案する。 さらに,事前学習したテキストエンコーダを利用して,様々なタイプのインスタンスを柔軟に検出し,推論中のプロンプトを単純に変更することで,従来は見つからなかったものを認識できる統一型言語認識分類器を開発した。 UniAVは、ActivityNet 1.3、DESED、UnAV-100ベンチマークをまたいだ最先端のタスク固有のメソッドと比較して、パラメータの少ないシングルタスクよりもパフォーマンスが優れている。

Video localization tasks aim to temporally locate specific instances in videos, including temporal action localization (TAL), sound event detection (SED) and audio-visual event localization (AVEL). Existing methods over-specialize on each task, overlooking the fact that these instances often occur in the same video to form the complete video content. In this work, we present UniAV, a Unified Audio-Visual perception network, to achieve joint learning of TAL, SED and AVEL tasks for the first time. UniAV can leverage diverse data available in task-specific datasets, allowing the model to learn and share mutually beneficial knowledge across tasks and modalities. To tackle the challenges posed by substantial variations in datasets (size/domain/duration) and distinct task characteristics, we propose to uniformly encode visual and audio modalities of all videos to derive generic representations, while also designing task-specific experts to capture unique knowledge for each task. Besides, we develop a unified language-aware classifier by utilizing a pre-trained text encoder, enabling the model to flexibly detect various types of instances and previously unseen ones by simply changing prompts during inference. UniAV outperforms its single-task counterparts by a large margin with fewer parameters, achieving on-par or superior performances compared to state-of-the-art task-specific methods across ActivityNet 1.3, DESED and UnAV-100 benchmarks.
翻訳日:2024-08-13 23:27:39 公開日:2024-08-12
# バリアリングシェードのフェイク:LLMの幻覚に対する人間の知覚とエンゲージメントの警告がいかに影響するか

Fakes of Varying Shades: How Warning Affects Human Perception and Engagement Regarding LLM Hallucinations ( http://arxiv.org/abs/2404.03745v3 )

ライセンス: Link先を確認
Mahjabin Nahar, Haeseung Seo, Eun-Ju Lee, Aiping Xiong, Dongwon Lee, (参考訳) 大規模言語モデル(LLM)の普及と変革的効果は、不正確で架空のコンテンツを制作する能力に関する懸念を引き起こしている。 幻覚に関連する潜在的なリスクを考えると、人間はそれらを特定することができるはずだ。 本研究の目的は, 幻覚の程度(幻覚, 軽幻覚, 大幻覚)を体系的に変化させ, 警告との相互作用(すなわち, 潜在的な不正確さの警告: 現在と現在)を調べることで, LLM幻覚の人間の知覚を理解することである。 Prolificの参加者(N=419)は、知覚された正確さを評価し、Q/Aフォーマットでコンテンツ(例えば、好き嫌い、共有)に関わった。 参加者は、本質、軽微な幻覚、そして主要な幻覚の順に、コンテンツが真実であると分類し、ユーザエンゲージメントの行動がこのパターンを反映した。 さらに,真の内容の真偽に悪影響を及ぼすことなく,覚醒検出の精度が向上することが確認された。 我々は、幻覚の人的検出を支援するための将来のツールに関する洞察を提供することで、結論付ける。 調査資料、人口統計、セッション後の質問はすべて、https://github.com/MahjabinNahar/fakes-of-shades-survey- Materialsで入手できる。

The widespread adoption and transformative effects of large language models (LLMs) have sparked concerns regarding their capacity to produce inaccurate and fictitious content, referred to as `hallucinations'. Given the potential risks associated with hallucinations, humans should be able to identify them. This research aims to understand the human perception of LLM hallucinations by systematically varying the degree of hallucination (genuine, minor hallucination, major hallucination) and examining its interaction with warning (i.e., a warning of potential inaccuracies: absent vs. present). Participants (N=419) from Prolific rated the perceived accuracy and engaged with content (e.g., like, dislike, share) in a Q/A format. Participants ranked content as truthful in the order of genuine, minor hallucination, and major hallucination, and user engagement behaviors mirrored this pattern. More importantly, we observed that warning improved the detection of hallucination without significantly affecting the perceived truthfulness of genuine content. We conclude by offering insights for future tools to aid human detection of hallucinations. All survey materials, demographic questions, and post-session questions are available at: https://github.com/MahjabinNahar/fakes-of-varying-shades-survey-materials
翻訳日:2024-08-13 23:27:39 公開日:2024-08-12
# オンライングループ討論におけるエソスとパソス:ソーシャルメディアにおける偏極問題のためのコーパス

Ethos and Pathos in Online Group Discussions: Corpora for Polarisation Issues in Social Media ( http://arxiv.org/abs/2404.04889v2 )

ライセンス: Link先を確認
Ewelina Gajewska, Katarzyna Budzynska, Barbara Konat, Marcin Koszowy, Konrad Kiljan, Maciej Uberna, He Zhang, (参考訳) 社会の分極化が進み、科学界やニュースメディアの注目を集め、この現象に特別な問題を注いだ。 同時に、社会的相互作用のデジタル化は、すべての人間の相互作用の重要な特徴である信頼の確立に関する社会科学の概念や、利用可能な大量のデータを処理するための新しい計算ツールを改訂する必要がある。 既存の手法は問題を完全に解決するには不十分に思えるので,オンライン上で議論を偏在させる際に個人が採用する修辞的戦略を調査することによって,この問題にアプローチすることを提案する。 そこで我々は,アリストテレス・レトリックにおける2つの説得様式である,エトスとパスへのアピールのマニュアルアノテーションを付加したマルチトピック・マルチプラットフォームコーパスを開発した。 オンラインコミュニケーション戦略の研究を大規模に進めるために、言語モデルをトレーニングするために使用できる。 コーパスでは, 議論やメディアプラットフォームを対象とし, 偏光交換の繰り返しパターンを探索し, 偏光に繋がる言語構造の定量的, 質的な分析を行う。

Growing polarisation in society caught the attention of the scientific community as well as news media, which devote special issues to this phenomenon. At the same time, digitalisation of social interactions requires to revise concepts from social science regarding establishment of trust, which is a key feature of all human interactions, and group polarisation, as well as new computational tools to process large quantities of available data. Existing methods seem insufficient to tackle the problem fully, thus, we propose to approach the problem by investigating rhetorical strategies employed by individuals in polarising discussions online. To this end, we develop multi-topic and multi-platform corpora with manual annotation of appeals to ethos and pathos, two modes of persuasion in Aristotelian rhetoric. It can be employed for training language models to advance the study of communication strategies online on a large scale. With the use of computational methods, our corpora allows an investigation of recurring patterns in polarising exchanges across topics of discussion and media platforms, and conduct both quantitative and qualitative analyses of language structures leading to and engaged in polarisation.
翻訳日:2024-08-13 23:27:39 公開日:2024-08-12
# マルチヴォールト難読テンプレートを用いたセキュアでプライベートなアンサンブルマッチング

A secure and private ensemble matcher using multi-vault obfuscated templates ( http://arxiv.org/abs/2404.05205v2 )

ライセンス: Link先を確認
Babak Poorebrahim Gilkalaye, Shubhabrata Mukherjee, Reza Derakhshani, (参考訳) 生成AIは、データ生成において前例のないリアリズム、多様性、効率を提供することによって、現代の機械学習に革命をもたらした。 この技術はバイオメトリックスにとって大きな可能性を秘めている。 バイオメトリック・サンプルの無効性とプライバシーの懸念が伴うことを考えると、バイオメトリック・テンプレート・セキュリティとセキュア・マッチングは現代のバイオメトリック・システムにおいて最も求められている特徴である。 本稿では,バイオメトリックテンプレートのセキュリティを高めるために,ジェネレーティブAIを用いた新しい難読化手法を提案する。 提案手法では,GAN(Generative Adversarial Network)が生成した合成顔画像を,セキュアなVaultシステム内で「ランダムなシャフポイント」として利用する。 提案手法は,元のテンプレートからn個のサブテンプレートを生成し,それぞれがm GANチャフポイントで難読化されている。 検証中、バイオメトリッククエリに最も近いベクターは、各ヴォールトから検索され、組み合わせてハッシュ値を生成し、格納されたハッシュ値と比較する。 そこで,本手法は,GAN生成合成画像を用いて,トレーニングおよび展開段階におけるユーザアイデンティティを保護している。 提案プロトコルは,AT&T,GT,LFWの顔データを用いてテストし,それぞれ0.99,0.99,0.90の曲線でROC領域を達成した。 提案手法は,保護されていないテンプレート手法に匹敵する高精度かつ合理的な計算複雑性を維持しつつ,セキュリティとプライバシを大幅に向上させ,バイオメトリックシステムに対する積極的な防御戦略を開発する上でのジェネレーティブAIの可能性を示すものである。

Generative AI has revolutionized modern machine learning by providing unprecedented realism, diversity, and efficiency in data generation. This technology holds immense potential for biometrics, including for securing sensitive and personally identifiable information. Given the irrevocability of biometric samples and mounting privacy concerns, biometric template security and secure matching are among the most sought-after features of modern biometric systems. This paper proposes a novel obfuscation method using Generative AI to enhance biometric template security. Our approach utilizes synthetic facial images generated by a Generative Adversarial Network (GAN) as "random chaff points" within a secure vault system. Our method creates n sub-templates from the original template, each obfuscated with m GAN chaff points. During verification, s closest vectors to the biometric query are retrieved from each vault and combined to generate hash values, which are then compared with the stored hash value. Thus, our method safeguards user identities during the training and deployment phases by employing the GAN-generated synthetic images. Our protocol was tested using the AT&T, GT, and LFW face datasets, achieving ROC areas under the curve of 0.99, 0.99, and 0.90, respectively. Our results demonstrate that the proposed method can maintain high accuracy and reasonable computational complexity comparable to those unprotected template methods while significantly enhancing security and privacy, underscoring the potential of Generative AI in developing proactive defensive strategies for biometric systems.
翻訳日:2024-08-13 23:27:39 公開日:2024-08-12
# スケーラブルなクモの巣(あるいは、非クリフォードゲートをグラフ的にグルークする方法)

Scalable Spider Nests (...Or How to Graphically Grok Transversal Non-Clifford Gates) ( http://arxiv.org/abs/2404.07828v2 )

ライセンス: Link先を確認
Aleks Kissinger, John van de Wetering, (参考訳) これは、ZX-計算を用いてスタビライザコードをいかに理解できるかを研究する一連の「グラフィックグラッキング」論文の第2弾である。 本稿では, クモの巣の恒等性と呼ばれるZX-ダイアグラムを含むある種の複雑な規則を, スケーラブルなZX-計算を用いて簡潔に捕えることができ, クリフォードのZX-計算を用いた1つの新しい規則からこれらすべての同一性が帰納的に証明できることを示す。 これは、最初の "grokking" 論文で開発されたCSSコードのZX図と組み合わせて、任意のCSSコードで実装可能なクリフォード階層の第3レベルにおけるすべての対角ゲートのセットを簡易に特徴付けることができる。

This is the second in a series of "graphical grokking" papers in which we study how stabiliser codes can be understood using the ZX-calculus. In this paper we show that certain complex rules involving ZX-diagrams, called spider nest identities, can be captured succinctly using the scalable ZX-calculus, and all such identities can be proved inductively from a single new rule using the Clifford ZX-calculus. This can be combined with the ZX picture of CSS codes, developed in the first "grokking" paper, to give a simple characterisation of the set of all transversal diagonal gates at the third level of the Clifford hierarchy implementable in an arbitrary CSS code.
翻訳日:2024-08-13 23:27:39 公開日:2024-08-12
# TDANet:ゼロショット機能を備えたオブジェクト指向視覚ナビゲーションのためのターゲット指向アテンションネットワーク

TDANet: Target-Directed Attention Network For Object-Goal Visual Navigation With Zero-Shot Ability ( http://arxiv.org/abs/2404.08353v2 )

ライセンス: Link先を確認
Shiwei Lian, Feitian Zhang, (参考訳) オブジェクト指向ビジュアルナビゲーションのためのエンドツーエンド深層学習(DRL)の一般化は、新しいテスト環境においてオブジェクトクラスと配置が異なるため、長年にわたる課題である。 ドメインに依存しない視覚表現の学習は、訓練されたDRLエージェントが見えないシーンやオブジェクトに一般化できるために重要である。 本稿では,目標指向アテンションネットワーク(TDANet)を提案する。 TDANetは、オブジェクト間の空間的および意味的な関係を学習し、TDANetが最も関連性の高い観測対象にフォーカスするのに役立つ新しいターゲットアテンション(TA)モジュールを備えている。 Siameseアーキテクチャ(SA)設計では、TDANetは現在の状態とターゲット状態の違いを区別し、ドメインに依存しない視覚表現を生成する。 TDANetのナビゲーション性能を評価するため,AI2-THORを具体化したAI環境で広範囲な実験を行った。 シミュレーションの結果,TDANetのシーンや対象物への一般化能力が強く,航法成功率(SR)が向上し,SPLが他の最先端モデルよりも重み付けされた。 TDANetは、TDANetを現実世界に十分に一般化した、車輪付きロボットに現実のシーンに展開する。

The generalization of the end-to-end deep reinforcement learning (DRL) for object-goal visual navigation is a long-standing challenge since object classes and placements vary in new test environments. Learning domain-independent visual representation is critical for enabling the trained DRL agent with the ability to generalize to unseen scenes and objects. In this letter, a target-directed attention network (TDANet) is proposed to learn the end-to-end object-goal visual navigation policy with zero-shot ability. TDANet features a novel target attention (TA) module that learns both the spatial and semantic relationships among objects to help TDANet focus on the most relevant observed objects to the target. With the Siamese architecture (SA) design, TDANet distinguishes the difference between the current and target states and generates the domain-independent visual representation. To evaluate the navigation performance of TDANet, extensive experiments are conducted in the AI2-THOR embodied AI environment. The simulation results demonstrate a strong generalization ability of TDANet to unseen scenes and target objects, with higher navigation success rate (SR) and success weighted by length (SPL) than other state-of-the-art models. TDANet is finally deployed on a wheeled robot in real scenes, demonstrating satisfactory generalization of TDANet to the real world.
翻訳日:2024-08-13 23:27:39 公開日:2024-08-12
# 弱監視対象の局所化評価のための現実的プロトコル

A Realistic Protocol for Evaluation of Weakly Supervised Object Localization ( http://arxiv.org/abs/2404.10034v2 )

ライセンス: Link先を確認
Shakeeb Murtaza, Soufiane Belharbi, Marco Pedersoli, Eric Granger, (参考訳) Weakly Supervised Object Localization (WSOL)は、グローバルなクラスレベルのラベルのみを使用して、分類とローカライゼーション(LOC)のためのディープラーニングモデルのトレーニングを可能にする。 トレーニング中のバウンディングボックス(bbox)の監督が欠如していることは、ハイパーパラメータチューニング、モデル選択、評価に関する文献の課題を提起する。 WSOLメソッドは、モデル選択のためのbboxアノテーションを備えた検証セットと、ローカライゼーションマップからbboxを生成するためのしきい値推定のためのbboxアノテーションを備えたテストセットに依存している。 しかし、このアプローチはWSOLの設定と一致していない。 モデル選択としきい値推定がそれぞれクラスラベルと画像自体に依存している場合のLOC性能は,手動のbboxアノテーションと比較して有意に低下した。 このことは、最適なモデルパフォーマンスのためにbboxラベルを組み込むことの重要性を強調している。 本稿では,手動のbboxアノテーションを必要とせずにLOC情報を提供する新しいWSOL評価プロトコルを提案する。 特に,モデル選択のためのSelective Search, CLIP, RPNなどの事前訓練済みオフザシェルフ領域提案手法から,ノイズの多い擬似ボックスを生成した。 これらのbboxはLOCマップからしきい値を推定するためにも使われ、テストセットのbboxアノテーションの必要性を回避する。 ILSVRC と CUB のデータセットに対する WSOL 手法による実験により,提案した疑似ボックスを用いた検証により,モデル選択としきい値推定が容易であることが確認された。 また、クラスレベルのラベルを使用して選択されたモデルよりも優れ、LOCマップのみに基づいて動的に閾値付けされる。

Weakly Supervised Object Localization (WSOL) allows training deep learning models for classification and localization (LOC) using only global class-level labels. The absence of bounding box (bbox) supervision during training raises challenges in the literature for hyper-parameter tuning, model selection, and evaluation. WSOL methods rely on a validation set with bbox annotations for model selection, and a test set with bbox annotations for threshold estimation for producing bboxes from localization maps. This approach, however, is not aligned with the WSOL setting as these annotations are typically unavailable in real-world scenarios. Our initial empirical analysis shows a significant decline in LOC performance when model selection and threshold estimation rely solely on class labels and the image itself, respectively, compared to using manual bbox annotations. This highlights the importance of incorporating bbox labels for optimal model performance. In this paper, a new WSOL evaluation protocol is proposed that provides LOC information without the need for manual bbox annotations. In particular, we generated noisy pseudo-boxes from a pretrained off-the-shelf region proposal method such as Selective Search, CLIP, and RPN for model selection. These bboxes are also employed to estimate the threshold from LOC maps, circumventing the need for test-set bbox annotations. Our experiments with several WSOL methods on ILSVRC and CUB datasets show that using the proposed pseudo-bboxes for validation facilitates the model selection and threshold estimation, with LOC performance comparable to those selected using GT bboxes on the validation set and threshold estimation on the test set. It also outperforms models selected using class-level labels, and then dynamically thresholded based solely on LOC maps.
翻訳日:2024-08-13 23:17:20 公開日:2024-08-12
# ステップ・アウェアとレイヤー・アウェア・プロンプトによる安定拡散による高現実的な芸術的スタイルの伝達に向けて

Towards Highly Realistic Artistic Style Transfer via Stable Diffusion with Step-aware and Layer-aware Prompt ( http://arxiv.org/abs/2404.11474v3 )

ライセンス: Link先を確認
Zhanjie Zhang, Quanwei Zhang, Huaizhong Lin, Wei Xing, Juncheng Mo, Shuaicheng Huang, Jinheng Xie, Guangyuan Li, Junsheng Luan, Lei Zhao, Dalong Zhang, Lixia Chen, (参考訳) 芸術的スタイルの転送は、学習した芸術的スタイルを任意のコンテンツイメージに転送することを目的としており、芸術的なスタイル化されたイメージを生成する。 既存の生成的対向的ネットワークベースの手法は、非常にリアルなスタイリングされたイメージを生成できず、常に明らかなアーティファクトや不調和なパターンを導入します。 近年,大規模な事前学習拡散モデルが,高度にリアルな芸術的スタイリング画像を生成する新たな方法を生み出している。 しかし、拡散モデルに基づく手法は、通常、入力されたコンテンツ画像のコンテンツ構造をうまく保存することができず、望ましくないコンテンツ構造やスタイルパターンを導入している。 上記の問題に対処するために,LSASTと呼ばれる,事前学習した拡散型芸術的スタイル転送手法を提案する。 具体的には、学習可能なプロンプトの集合であるステップ認識とレイヤ認識のPrompt Spaceを導入し、アート作品のコレクションからスタイル情報を学習し、入力画像のコンテンツ構造とスタイルパターンを動的に調整する。 本研究では,プロンプト空間を学習するために,ステップウェアとレイヤアウェアのPrompt Inversionと呼ばれる新しいインバージョン手法を提案する。 さらに,私たちのLSASTに事前学習したControlNet条件分岐を注入することで,コンテント構造を維持するためのフレームワークの能力をさらに向上する。 大規模な実験により,提案手法は最先端の芸術的スタイル伝達法よりも,よりリアルな芸術的スタイル化画像を生成することができることが示された。

Artistic style transfer aims to transfer the learned artistic style onto an arbitrary content image, generating artistic stylized images. Existing generative adversarial network-based methods fail to generate highly realistic stylized images and always introduce obvious artifacts and disharmonious patterns. Recently, large-scale pre-trained diffusion models opened up a new way for generating highly realistic artistic stylized images. However, diffusion model-based methods generally fail to preserve the content structure of input content images well, introducing some undesired content structure and style patterns. To address the above problems, we propose a novel pre-trained diffusion-based artistic style transfer method, called LSAST, which can generate highly realistic artistic stylized images while preserving the content structure of input content images well, without bringing obvious artifacts and disharmonious style patterns. Specifically, we introduce a Step-aware and Layer-aware Prompt Space, a set of learnable prompts, which can learn the style information from the collection of artworks and dynamically adjusts the input images' content structure and style pattern. To train our prompt space, we propose a novel inversion method, called Step-ware and Layer-aware Prompt Inversion, which allows the prompt space to learn the style information of the artworks collection. In addition, we inject a pre-trained conditional branch of ControlNet into our LSAST, which further improved our framework's ability to maintain content structure. Extensive experiments demonstrate that our proposed method can generate more highly realistic artistic stylized images than the state-of-the-art artistic style transfer methods.
翻訳日:2024-08-13 23:17:20 公開日:2024-08-12
# 等価述語句構造を持つ文間の単語列の探索による教師なし構文解析

Unsupervised Parsing by Searching for Frequent Word Sequences among Sentences with Equivalent Predicate-Argument Structures ( http://arxiv.org/abs/2404.12059v2 )

ライセンス: Link先を確認
Junjie Chen, Xiangheng He, Danushka Bollegala, Yusuke Miyao, (参考訳) 教師なし選挙区構文解析は、ターゲット文の統語単位(すなわち構成詞)を形成する単語列の同定に重点を置いている。 言語学者は、その構成物が非構成物よりも頻繁に現れること(つまり、その構成物は文集合内の頻繁な単語列に対応する)を発見した述語-代名詞構造(PAS)の集合を評価することによって、構成物を特定する。 しかし、これらの周波数情報は、多様なPASで文を観察することによって構成を識別する以前の解析方法では利用できない。 本研究では,PASと等価な文集合において,成分が頻繁な単語列に対応することを実証的に示す。 本研究では,(1)PASと等価な文集合における単語列の周波数としてスパンオーバーラップスコアを計算し,(2)最大スパンオーバーラップスコアを持つ構成木を見つけることによって構成構造を同定する周波数ベースのパーサースパンオーバーラップを提案する。 パーサーは最先端レベルの解析精度を達成し、10言語中8言語で既存の教師なしパーサーより優れている。 さらに, 参加者記述成分は, 対数長のイベント記述成分よりもスパンオーバーラップスコアが高い傾向にあり, 後者よりもPAS等価文の出現頻度が高い傾向にある。 この現象は2つの構成種間の統計的差異を示し、将来のラベル付き教師なし構文解析研究の基礎となる。

Unsupervised constituency parsing focuses on identifying word sequences that form a syntactic unit (i.e., constituents) in target sentences. Linguists identify the constituent by evaluating a set of Predicate-Argument Structure (PAS) equivalent sentences where we find the constituent appears more frequently than non-constituents (i.e., the constituent corresponds to a frequent word sequence within the sentence set). However, such frequency information is unavailable in previous parsing methods that identify the constituent by observing sentences with diverse PAS. In this study, we empirically show that constituents correspond to frequent word sequences in the PAS-equivalent sentence set. We propose a frequency-based parser span-overlap that (1) computes the span-overlap score as the word sequence's frequency in the PAS-equivalent sentence set and (2) identifies the constituent structure by finding a constituent tree with the maximum span-overlap score. The parser achieves state-of-the-art level parsing accuracy, outperforming existing unsupervised parsers in eight out of ten languages. Additionally, we discover a multilingual phenomenon: participant-denoting constituents tend to have higher span-overlap scores than equal-length event-denoting constituents, meaning that the former tend to appear more frequently in the PAS-equivalent sentence set than the latter. The phenomenon indicates a statistical difference between the two constituent types, laying the foundation for future labeled unsupervised parsing research.
翻訳日:2024-08-13 23:17:20 公開日:2024-08-12
# Scatter Image AnnotationによるLiDARセマンティックセマンティックセグメンテーションの弱化

Weakly Supervised LiDAR Semantic Segmentation via Scatter Image Annotation ( http://arxiv.org/abs/2404.12861v2 )

ライセンス: Link先を確認
Yilong Chen, Zongyi Xu, xiaoshui Huang, Ruicheng Zhang, Xinqi Jiang, Xinbo Gao, (参考訳) 弱教師付きLiDARセマンティックセグメンテーションはラベル付きデータでかなりの進歩を遂げた。 しかし、既存のほとんどの手法は、弱い監督下でのネットワークトレーニングに重点を置いているが、効率的なアノテーション戦略はほとんど探索されていない。 このギャップに対処するために,スキャッタ画像アノテーションを用いたLiDARセマンティックセマンティックセマンティックセマンティクスを実装し,効率的なアノテーション戦略とネットワークトレーニングを効果的に統合する。 具体的には、予め訓練された光フロー推定ネットワークと基礎画像セグメンテーションモデルを組み合わせることで、手動アノテーションを画像と点雲の両方の濃密なラベルに迅速に伝播させることにより、LiDAR点雲の注釈付けに散乱画像を用いることを提案する。 さらに、このようなアノテーションによるパフォーマンスギャップを低減するために、3つの重要な戦略を含むネットワークであるScatterNetを提案する。 まず、高密度なセマンティックラベルをイメージブランチの監督に利用し、点雲と画像の間のモダリティの不均衡を緩和する。 次に,マルチモーダルなテクスチャと構造特性を得るため,中間核融合分岐を提案する。 最後に、どの情報を融合する必要があるか、融合プロセス中に破棄する必要があるかを決定するために、知覚整合性損失が導入される。 nuScenesとSemanticKITTIデータセットの大規模な実験により,完全教師付き手法の性能の95%以上を達成するためにラベル付きポイントの0.02%未満が必要であることが実証された。 特に、我々のラベル付きポイントは、最も先進的な弱教師付き手法で使用されるもののうち、わずか5%に過ぎない。

Weakly supervised LiDAR semantic segmentation has made significant strides with limited labeled data. However, most existing methods focus on the network training under weak supervision, while efficient annotation strategies remain largely unexplored. To tackle this gap, we implement LiDAR semantic segmentation using scatter image annotation, effectively integrating an efficient annotation strategy with network training. Specifically, we propose employing scatter images to annotate LiDAR point clouds, combining a pre-trained optical flow estimation network with a foundation image segmentation model to rapidly propagate manual annotations into dense labels for both images and point clouds. Moreover, we propose ScatterNet, a network that includes three pivotal strategies to reduce the performance gap caused by such annotations. Firstly, it utilizes dense semantic labels as supervision for the image branch, alleviating the modality imbalance between point clouds and images. Secondly, an intermediate fusion branch is proposed to obtain multimodal texture and structural features. Lastly, a perception consistency loss is introduced to determine which information needs to be fused and which needs to be discarded during the fusion process. Extensive experiments on the nuScenes and SemanticKITTI datasets have demonstrated that our method requires less than 0.02% of the labeled points to achieve over 95% of the performance of fully-supervised methods. Notably, our labeled points are only 5% of those used in the most advanced weakly supervised methods.
翻訳日:2024-08-13 23:17:20 公開日:2024-08-12
# 香味スカラー散乱における絡み合い

Entanglement in flavored scalar scattering ( http://arxiv.org/abs/2404.13743v2 )

ライセンス: Link先を確認
Kamila Kowalska, Enrico Maria Sessolo, (参考訳) 高エネルギーの2ドルから2ドル程度のスカラー散乱において、スカラーは量子ビットのように振る舞う内部のフレーバー量子数によって特徴づけられる。 摂動理論における1ループ次数において、初期と外部を繋ぐ散乱振幅の関数として最終状態密度行列を構築する。 この構成では、$S$-行列のユニタリ性は光学定理によって要求順序で保証される。 最終状態粒子の運動量とフレーバー度の間の散乱後の絡み合いと2ビットフレーバーサブシステムの絡み合いについて考察する。 それぞれの場合において、ヒルベルト空間の異なる二部部分空間間の絡み合いを生成、破壊、あるいは伝達することができるスカラーポテンシャルのカップリングを同定する。

We investigate quantum entanglement in high-energy $2\to 2$ scalar scattering, where the scalars are characterized by an internal flavor quantum number acting like a qubit. Working at the 1-loop order in perturbation theory, we build the final-state density matrix as a function of the scattering amplitudes connecting the initial to the outgoing state. In this construction, the unitarity of the $S$-matrix is guaranteed at the required order by the optical theorem. We consider the post-scattering entanglement between the momentum and flavor degrees of freedom of the final-state particles, as well as the entanglement of the two-qubit flavor subsystem. In each case we identify the couplings of the scalar potential that can generate, destroy, or transfer entanglement between different bipartite subspaces of the Hilbert space.
翻訳日:2024-08-13 23:17:20 公開日:2024-08-12
# 深部状態空間モデルを用いたニューロモルフィック感覚信号のイベント・バイ・イベント処理

Scalable Event-by-event Processing of Neuromorphic Sensory Signals With Deep State-Space Models ( http://arxiv.org/abs/2404.18508v2 )

ライセンス: Link先を確認
Mark Schöne, Neeraj Mohan Sushma, Jingyue Zhuge, Christian Mayr, Anand Subramoney, David Kappel, (参考訳) イベントベースのセンサは、応答時間の速さと感覚データの符号化が連続した時間差として、リアルタイム処理に適している。 フレームベースのフォーマットに変換されると、高ダイナミックレンジなどのこれらおよびその他の重要な特性が抑制される。 しかし、現在のほとんどのメソッドはイベントをフレームに分解するか、イベントデータをイベント単位で直接処理する際にスケールアップできない。 本研究では,このようなセンサが出力するイベントストリームのイベント・バイ・イベント・モデリングをスケールアップする上で重要な課題に対処する。 従来の手法では、数千の時間ステップを処理できるが、私たちのモデルは、現代的な再帰的な状態空間モデルに基づいて、トレーニングと推論の両方のために数百万のイベントのイベントストリームにスケールする。我々は、その安定なパラメータ化を利用して、長距離依存性、シーケンス次元に沿った並列化可能性、非同期イベントを効果的に統合して、長いイベントストリームにスケールアップする能力を活用します。さらに、これらを、我々のモデルがいくつかのイベントストリームベンチマークで最先端のパフォーマンスにマッチまたは打ち勝つことを可能にする、新しいイベント中心のテクニックで拡張します。 スパイキング音声コマンドタスクでは、最先端を6.6%から87.1%の大差で改善する。 DVS128-Gesturesデータセットでは,フレームや畳み込みニューラルネットワークを使わずに,競合的な結果が得られる。 我々の研究は、完全イベントベースの処理と純粋にリカレントなネットワークを併用して、いくつかのイベントベースのベンチマークで最先端のタスクパフォーマンスを実現することができることを初めて実証した。

Event-based sensors are well suited for real-time processing due to their fast response times and encoding of the sensory data as successive temporal differences. These and other valuable properties, such as a high dynamic range, are suppressed when the data is converted to a frame-based format. However, most current methods either collapse events into frames or cannot scale up when processing the event data directly event-by-event. In this work, we address the key challenges of scaling up event-by-event modeling of the long event streams emitted by such sensors, which is a particularly relevant problem for neuromorphic computing. While prior methods can process up to a few thousand time steps, our model, based on modern recurrent deep state-space models, scales to event streams of millions of events for both training and inference.We leverage their stable parameterization for learning long-range dependencies, parallelizability along the sequence dimension, and their ability to integrate asynchronous events effectively to scale them up to long event streams.We further augment these with novel event-centric techniques enabling our model to match or beat the state-of-the-art performance on several event stream benchmarks. In the Spiking Speech Commands task, we improve state-of-the-art by a large margin of 6.6% to 87.1%. On the DVS128-Gestures dataset, we achieve competitive results without using frames or convolutional neural networks. Our work demonstrates, for the first time, that it is possible to use fully event-based processing with purely recurrent networks to achieve state-of-the-art task performance in several event-based benchmarks.
翻訳日:2024-08-13 23:17:20 公開日:2024-08-12
# 駆動散逸ワニエスターク格子における非平衡非線形効果と動的ボソン凝縮

Nonequilibrium Nonlinear Effects and Dynamical Boson Condensation in a Driven-Dissipative Wannier-Stark Lattice ( http://arxiv.org/abs/2404.18647v2 )

ライセンス: Link先を確認
Arkadiusz Kosior, Karol Gietka, Farokh Mivehvar, Helmut Ritsch, (参考訳) 駆動散逸型光-マター系は、一方は損失と利得過程による集合的非平衡現象を示し、他方は効果的な光子-光子相互作用を示す。 一般例として、格子間の共振周波数を線形に増加させた、駆動散逸結合非線形共振器の配列によって実装されたボソニック格子系について検討する。 モデルはまた、粒子保存制約を伴わない傾きポテンシャルにおいて、駆動散逸型Bose-Hubbardモデルを記述する。 傾斜・トンネル・オンサイト相互作用・損失・利得過程の相互作用から生じる定常状態および非定常状態の多様さを数値的に予測する。 我々の重要な発見は、弱いオンサイト相互作用の下では、ボゾンは期待されるブロッホ振動を示さずに、主に選択された単一粒子のワニエ・スターク状態に凝縮するということである。 オンサイト相互作用の強度が増加するにつれて、非定常状態が出現し、驚くほど周期的なブロッホ型振動が現れる。 系の駆動散逸の性質の直接的な結果として、正則振動を含む非常に非自明な位相図とカオス的力学状態を予測する。 マイクロ波や光学モードを用いた簡単なフォトニック実装は可能であるが、そのような力学は重力や傾斜した外部電位を持つ垂直格子の超低温気体でも観測可能である。

Driven-dissipative light-matter systems can exhibit collective nonequilibrium phenomena due to loss and gain processes on the one hand and effective photon-photon interactions on the other hand. As generic example we study a bosonic lattice system implemented via an array of driven-dissipative coupled nonlinear resonators with linearly increasing resonance frequencies across the lattice. The model also describes a driven-dissipative Bose-Hubbard model in a tilted potential without a particle-conservation constraint. We numerically predict a diverse range of stationary and non-stationary states resulting from the interplay of the tilt, tunneling, on-site interactions and loss and gain processes. Our key finding is that, under weak on-site interactions, the bosons mostly condense into a selected, single-particle Wannier-Stark state without exhibiting the expected Bloch oscillations. As the strength of the onsite interactions increase, a non-stationary regime emerges which, surprisingly, exhibits periodic Bloch-type oscillations. As a direct consequence of the driven-dissipative nature of the system we predict a highly nontrivial phase diagram including regular oscillating as well as chaotic dynamical regimes. While a straightforward photonic implementation using microwave or optical modes is possible, such dynamics might also be observable for an ultracold gas in a vertical lattice with gravity or a tilted external potential.
翻訳日:2024-08-13 23:17:20 公開日:2024-08-12
# 教師なし連続学習における現在と過去の統合

Integrating Present and Past in Unsupervised Continual Learning ( http://arxiv.org/abs/2404.19132v2 )

ライセンス: Link先を確認
Yipeng Zhang, Laurent Charlin, Richard Zemel, Mengye Ren, (参考訳) 我々は、現在および過去のデータに特有の学習目標を、安定性、可塑性、およびクロスタスク統合を包含する、教師なし連続学習(UCL)の統一フレームワークを定式化する。 このフレームワークは、多くの既存のUCLアプローチがクロスタスク統合を見落とし、共有埋め込み空間における可塑性と安定性のバランスをとろうとしていることを明らかにしている。 これにより、タスク内データの多様性の欠如と、現在のタスクの学習効率の低下により、パフォーマンスが低下する。 提案手法であるOsirisは,3つの目的を個別な埋め込み空間上で明示的に最適化し,意味的に構造化されたタスクシーケンスを特徴とする2つの新しいベンチマークを含む,すべてのベンチマークの最先端性能を実現する。 標準的なベンチマークと比較すると、この2つの構造化されたベンチマークは現実世界の環境をナビゲートする際に人間や動物が受ける視覚信号によく似ている。 最後に,このような現実的な学習シナリオから連続モデルが有用であることを示す予備的証拠を示す。

We formulate a unifying framework for unsupervised continual learning (UCL), which disentangles learning objectives that are specific to the present and the past data, encompassing stability, plasticity, and cross-task consolidation. The framework reveals that many existing UCL approaches overlook cross-task consolidation and try to balance plasticity and stability in a shared embedding space. This results in worse performance due to a lack of within-task data diversity and reduced effectiveness in learning the current task. Our method, Osiris, which explicitly optimizes all three objectives on separate embedding spaces, achieves state-of-the-art performance on all benchmarks, including two novel benchmarks proposed in this paper featuring semantically structured task sequences. Compared to standard benchmarks, these two structured benchmarks more closely resemble visual signals received by humans and animals when navigating real-world environments. Finally, we show some preliminary evidence that continual models can benefit from such realistic learning scenarios.
翻訳日:2024-08-13 23:07:09 公開日:2024-08-12
# ボソニックジョセフソン接合におけるスピンスクイージングのツイスト・アンド・ターンダイナミクス--強化ショートカット-断熱アプローチ

Twist-and-turn dynamics of spin squeezing in bosonic Josephson junctions: Enhanced shortcuts-to-adiabaticity approach ( http://arxiv.org/abs/2404.19685v3 )

ライセンス: Link先を確認
Manuel Odelli, Andreas Ruschhaupt, Vladimir M. Stojanovic, (参考訳) スピンスクイージングのツイスト・アンド・ターンのダイナミクスは、一軸ツイスト(集合スピン作用素の非線形)と、下層のリプキン・メシュコフ-グリック型ハミルトン多様体における逆場回転(線型)項の相互作用から生じる。 短絡による断熱 (STA) と最近開発された拡張版 (eSTA) を用いて, このタイプの力学は, ラビ回転を介する2つの異なる内部(超微細)状態 (単一ボソンモード) において, 内部ボソニックなジョセフソン接合におけるスピンスクイーズ状態の高速かつ堅牢な調製に利用できることを示した。 本システムの初期状態が、(時間依存)線形結合強度の与えられた初期値の基底状態であり、非線形結合強度が一定であることを仮定すると、STAおよびeSTAに基づくアプローチを用いてスピンスクイーズ状態の生成を可能にする線形(ラビ)結合強度の時間依存性を決定する。 次に、このシステムの修正されたツイスト・アンド・ターンダイナミクスを、目的のスピン・スクイーズ状態の忠実度だけでなく、コヒーレントなスピン・スクイーズパラメータと数・スクイーズパラメータの評価により特徴づける。 このようにして、eSTAアプローチは、数百の粒子を持つシステムでさえも、その断熱的およびSTAベースのシステムよりも一貫して優れた、特に強スピンスクイーズ状態のロバストな実現を可能にしていることを示す。 また, この手法は, 非ガウス状態の生成にも有効である。

The twist-and-turn dynamics of spin squeezing results from the interplay of the one-axis-twisting (nonlinear in the collective-spin operators) and the transverse-field turning (linear) term in the underlying Lipkin-Meshkov-Glick-type Hamiltonian, both with constant (time-independent) prefactors. Using shortcuts to adiabaticity (STA) and the recently developed enhanced version thereof (eSTA), we demonstrate here that dynamics of this type can be utilized for a fast and robust preparation of spin-squeezed states in internal bosonic Josephson junctions, i.e., condensates of cold bosonic atoms in two different internal (hyperfine) states (single-boson modes) coupled through Rabi rotations. Assuming that the initial state of this system is its ground state for a given initial value of the (time-dependent) linear coupling strength and that the nonlinear coupling strength remains constant, we set out to determine the time dependence of the linear (Rabi) coupling strength that allows for the generation of spin-squeezed states using the STA- and eSTA-based approaches. We then characterize the modified twist-and-turn dynamics of this system by evaluating the coherent spin-squeezing and number-squeezing parameters, as well as the fidelity of the target spin-squeezed states. In this way, we show that the eSTA approach allows for a particularly robust realization of strongly spin-squeezed states in this system, consistently outperforming its adiabatic and STA-based counterparts, even for systems with several hundred particles. Our method could also be employed for the generation of metrologically-useful non-Gaussian states.
翻訳日:2024-08-13 23:07:09 公開日:2024-08-12
# Androidのマルウェアを検出する: BERTroidによるニューラルネットワークの埋め込みから手動検証

Detecting Android Malware: From Neural Embeddings to Hands-On Validation with BERTroid ( http://arxiv.org/abs/2405.03620v2 )

ライセンス: Link先を確認
Meryam Chaieb, Mostafa Anouar Ghorab, Mohamed Aymen Saied, (参考訳) サイバー脅威やマルウェア攻撃が個人と企業の両方を脅かすようになると、積極的なマルウェア対策の緊急性が増す。 これにより、自動機械学習ソリューションへの関心が高まっている。 注目に基づくディープラーニング手法の最先端カテゴリであるTransformersは、目覚ましい成功を収めている。 本稿では,BERTアーキテクチャ上に構築された革新的なマルウェア検出モデルであるBERTroidを提案する。 全体として、BERTroidはAndroidマルウェアと戦うための有望なソリューションとして登場した。 最先端のソリューションに勝る能力は、悪意のあるソフトウェア攻撃に対する積極的な防御メカニズムとしての可能性を示している。 さらに,複数のデータセット上でBERTroidを評価し,その性能をさまざまなシナリオで評価する。 サイバーセキュリティの動的な状況において、我々のアプローチは、Androidシステム上でのマルウェアの急速な進化に対して、有望なレジリエンスを示してきた。 機械学習モデルは幅広いパターンをキャプチャするが、より深い理解とこれらの振る舞いに対する洞察のための手動検証の役割を強調している。 この人間の介入は、複雑な振る舞いと文脈固有の振る舞いを識別し、それによってモデルの発見を検証および強化するために重要である。

As cyber threats and malware attacks increasingly alarm both individuals and businesses, the urgency for proactive malware countermeasures intensifies. This has driven a rising interest in automated machine learning solutions. Transformers, a cutting-edge category of attention-based deep learning methods, have demonstrated remarkable success. In this paper, we present BERTroid, an innovative malware detection model built on the BERT architecture. Overall, BERTroid emerged as a promising solution for combating Android malware. Its ability to outperform state-of-the-art solutions demonstrates its potential as a proactive defense mechanism against malicious software attacks. Additionally, we evaluate BERTroid on multiple datasets to assess its performance across diverse scenarios. In the dynamic landscape of cybersecurity, our approach has demonstrated promising resilience against the rapid evolution of malware on Android systems. While the machine learning model captures broad patterns, we emphasize the role of manual validation for deeper comprehension and insight into these behaviors. This human intervention is critical for discerning intricate and context-specific behaviors, thereby validating and reinforcing the model's findings.
翻訳日:2024-08-13 23:07:09 公開日:2024-08-12
# 高速推論のための視覚トークンを用いたマルチモーダル大言語モデルの構築

Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference ( http://arxiv.org/abs/2405.05803v2 )

ライセンス: Link先を確認
Zhihang Lin, Mingbao Lin, Luxi Lin, Rongrong Ji, (参考訳) マルチモーダル大規模言語モデル (MLLM) は、広範囲なパラメータと視覚情報表現に必要な追加の入力トークンにより、推論にかなりの計算を必要とする。 本稿では,高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介する。 提案手法は,1) LLM でよく見られる注目シンク現象がMLLM にも持続し,初期トークンと最寄りトークンが注目される一方で,中間視覚トークンが深層で最小限の注意を惹きつけること,2)情報マイグレーションの存在により,MLLM の最初の数層で視覚情報が後続のテキストトークンに転送されること,という2つの興味深い現象に着想を得たものである。 その結果,MLLMの深層部では視覚トークンは不要であることが判明した。 したがって、ある層で戦略的に取り除き、後の層でテキストトークンのみを扱えるようにします。 VTWの理想的な層をピンポイントするために、最初は限られたデータセットを分析し、Kullback-Leiblerの発散基準を満たす最初の層を選択する。 我々のVTWアプローチは、様々なマルチモーダルタスクにおいて、性能を維持しながら、計算オーバーヘッドを40倍以上削減できる。 私たちのコードは \url{https://github.com/lzhxmu/VTW} でリリースされています。

Multimodal large language models (MLLMs) demand considerable computations for inference due to the extensive parameters and the additional input tokens needed for visual information representation. Herein, we introduce Visual Tokens Withdrawal (VTW), a plug-and-play module to boost MLLMs for rapid inference. Our approach is inspired by two intriguing phenomena we have observed: (1) the attention sink phenomenon that is prevalent in LLMs also persists in MLLMs, suggesting that initial tokens and nearest tokens receive the majority of attention, while middle vision tokens garner minimal attention in deep layers; (2) the presence of information migration, which implies that visual information is transferred to subsequent text tokens within the first few layers of MLLMs. As per our findings, we conclude that vision tokens are unnecessary in the deep layers of MLLMs. Thus, we strategically withdraw them at a certain layer, enabling only text tokens to engage in subsequent layers. To pinpoint the ideal layer for VTW, we initially analyze a limited set of tiny datasets and choose the first layer that meets the Kullback-Leibler divergence criterion. Our VTW approach can cut computational overhead by over 40\% across diverse multimodal tasks while maintaining performance. Our code is released at \url{https://github.com/lzhxmu/VTW}.
翻訳日:2024-08-13 23:07:09 公開日:2024-08-12
# 多量子クリフォード-シクロトミック回路の精密合成

Exact Synthesis of Multiqutrit Clifford-Cyclotomic Circuits ( http://arxiv.org/abs/2405.08136v5 )

ライセンス: Link先を確認
Andrew N. Glaudell, Neil J. Ross, John van de Wetering, Lia Yeh, (参考訳) Toffoli+Hadamard, Clifford+$T$ あるいはより一般的には、Clifford-cyclotomic gate set がちょうど環 $\mathbb{Z}[1/2,\zeta_k]$ の成分を持つユニタリ行列であることが知られている。 本稿では,四重項に対する類似の対応性を確立する。 古典的なクォートゲートを$X$, $CX$, $CCX$で拡張し、ハダマールゲートを$H$、$T_k$ゲートを$T_k=\mathrm{diag}(1,\omega_k, \omega_k^2)$で拡張することにより、次数のクリフォード-シクロトミックゲートセットを$3^k$と定義する。 このゲートセットは、$k=1$のとき、qutrit Toffoli+Hadamardゲートセット、$k>1$のとき、qutrit Clifford+$T_k$ゲートセットと等価である。 次に、3^n\times 3^n$ のユニタリ行列 $U$ が、次数$3^k$ のクリフォード-シクロトミックゲート集合上の$n$-qutrit 回路で表せることを証明し、$U$ の成分が環 $\mathbb{Z}[1/3,\omega_k]$ にある場合に限る。

It is known that the matrices that can be exactly represented by a multiqubit circuit over the Toffoli+Hadamard, Clifford+$T$, or, more generally, Clifford-cyclotomic gate set are precisely the unitary matrices with entries in the ring $\mathbb{Z}[1/2,\zeta_k]$, where $k$ is a positive integer that depends on the gate set and $\zeta_k$ is a primitive $2^k$-th root of unity. In the present paper, we establish an analogous correspondence for qutrits. We define the multiqutrit Clifford-cyclotomic gate set of degree $3^k$ by extending the classical qutrit gates $X$, $CX$, and $CCX$ with the Hadamard gate $H$ and the $T_k$ gate $T_k=\mathrm{diag}(1,\omega_k, \omega_k^2)$, where $\omega_k$ is a primitive $3^k$-th root of unity. This gate set is equivalent to the qutrit Toffoli+Hadamard gate set when $k=1$, and to the qutrit Clifford+$T_k$ gate set when $k>1$. We then prove that a $3^n\times 3^n$ unitary matrix $U$ can be represented by an $n$-qutrit circuit over the Clifford-cyclotomic gate set of degree $3^k$ if and only if the entries of $U$ lie in the ring $\mathbb{Z}[1/3,\omega_k]$.
翻訳日:2024-08-13 23:07:09 公開日:2024-08-12
# TP3M:Pseudo 3D画像と参照画像のマッチング

TP3M: Transformer-based Pseudo 3D Image Matching with Reference Image ( http://arxiv.org/abs/2405.08434v2 )

ライセンス: Link先を確認
Liming Han, Zhaoxiang Liu, Shiguo Lian, (参考訳) 画像マッチングは、大きな視点や照明の変化、または低いテクスチャを持つシーンでは依然として難しい。 本論文では,トランスフォーマーを用いた擬似3次元画像マッチング手法を提案する。 ソース画像から抽出した2D特徴を基準画像の助けを借りて3D特徴にアップグレードし、粗い3Dマッチングにより目的地画像から抽出した2D特徴と一致する。 我々の重要な発見は、参照画像を導入することで、ソース画像の細かい点をスクリーニングし、さらに特徴記述子を2Dから3Dに富ませることで、目的地画像とのマッチング性能を向上させることである。 複数のデータセットに対する実験結果から,提案手法は,特に挑戦場面におけるホモグラフィー推定,ポーズ推定,視覚的局所化といったタスクにおいて,最先端の手法を実現することが示された。

Image matching is still challenging in such scenes with large viewpoints or illumination changes or with low textures. In this paper, we propose a Transformer-based pseudo 3D image matching method. It upgrades the 2D features extracted from the source image to 3D features with the help of a reference image and matches to the 2D features extracted from the destination image by the coarse-to-fine 3D matching. Our key discovery is that by introducing the reference image, the source image's fine points are screened and furtherly their feature descriptors are enriched from 2D to 3D, which improves the match performance with the destination image. Experimental results on multiple datasets show that the proposed method achieves the state-of-the-art on the tasks of homography estimation, pose estimation and visual localization especially in challenging scenes.
翻訳日:2024-08-13 23:07:09 公開日:2024-08-12
# 局所演算による量子不協和の生成

Generating quantum dissonance via local operations ( http://arxiv.org/abs/2405.08568v2 )

ライセンス: Link先を確認
Gökhan Torun, (参考訳) 相関は様々な方法で量子系に生じ、最も顕著なものは量子絡み合いである。 また、絡み合いがなくても、古典的でない相関関係を示すシステムもある。 量子不協和(quantum dissonance)とは、量子状態における全相関と古典的相関の差である量子不協和(QD)が、絡み合いのないシステムにおいて非古典的相関として現れることを指す。 QDは、古典的でない相関を識別するための、より包括的な視点を提供する可能性があると言えるだろう。 本研究では,ローカル操作による2つのサブシステム間のQD操作の問題に対処する。 非ゼロQDの混合状態である分離可能なワーナー状態を得るための2つの明示的な手順を提案する。 どちらの手法も、古典的に相関した状態の局所的な操作を行ない、分離可能なワーナー状態を得るためのステップバイステップの方法を提供し、既存の方法に代わる(明示的でユーザフレンドリな)方法を提供する。

Correlations may arise in quantum systems through various means, of which the most remarkable one is quantum entanglement. Additionally, there are systems that exhibit non-classical correlations even in the absence of entanglement. Quantum dissonance refers to how quantum discord (QD) -- the difference between the total correlation and the classical correlation in a given quantum state -- appears as a non-classical correlation in a system without entanglement. It could be said that QD has the potential to provide a more inclusive viewpoint for discerning the non-classical correlations. In this work, we address the problem of manipulating the QD between two subsystems through local operations. We propose two explicit procedures for obtaining separable Werner states, a type of mixed state with nonzero QD. Both approaches involve performing local operations on classically correlated states and offers a step-by-step method for obtaining separable Werner states with nonzero discord, providing an alternative (explicit and user-friendly) to existing methods.
翻訳日:2024-08-13 23:07:09 公開日:2024-08-12
# MC-GPT:メモリマップと推論チェーンによる視覚・言語ナビゲーションの強化

MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains ( http://arxiv.org/abs/2405.10620v2 )

ライセンス: Link先を確認
Zhaohuan Zhan, Lisha Yu, Sijie Yu, Guang Tan, (参考訳) Vision-and-Language Navigation (VLN)タスクでは、エージェントは自然言語の指示に従って目的地に向かう必要がある。 学習ベースのアプローチはタスクに対する主要な解決策だが、高いトレーニングコストと解釈可能性の欠如に悩まされている。 近年、Large Language Models (LLMs) は強力な一般化能力のため、VLNにとって有望なツールとして登場した。 しかし、既存のLCMベースの手法は、メモリ構築とナビゲーション戦略の多様性の制限に直面している。 これらの課題に対処するために,我々は一連の手法を提案する。 まず、ナビゲーション履歴を保存し、視点、オブジェクト、空間関係に関する情報を保持するトポロジカルマップを維持する方法を提案する。 この地図はグローバルなアクション空間としても機能する。 さらに、人間のナビゲーション例を利用してナビゲーション戦略の多様性を向上する、思考のナビゲーションチェーンを提案する。 最後に、ナビゲーションメモリと戦略を認識および行動予測モジュールと統合するパイプラインを確立する。 ReVERIEとR2Rデータセットを用いた実験結果から,本手法はLLMのナビゲーション能力を効果的に向上し,ナビゲーション推論の解釈性を向上させることが示された。

In the Vision-and-Language Navigation (VLN) task, the agent is required to navigate to a destination following a natural language instruction. While learning-based approaches have been a major solution to the task, they suffer from high training costs and lack of interpretability. Recently, Large Language Models (LLMs) have emerged as a promising tool for VLN due to their strong generalization capabilities. However, existing LLM-based methods face limitations in memory construction and diversity of navigation strategies. To address these challenges, we propose a suite of techniques. Firstly, we introduce a method to maintain a topological map that stores navigation history, retaining information about viewpoints, objects, and their spatial relationships. This map also serves as a global action space. Additionally, we present a Navigation Chain of Thoughts module, leveraging human navigation examples to enrich navigation strategy diversity. Finally, we establish a pipeline that integrates navigational memory and strategies with perception and action prediction modules. Experimental results on the REVERIE and R2R datasets show that our method effectively enhances the navigation ability of the LLM and improves the interpretability of navigation reasoning.
翻訳日:2024-08-13 23:07:09 公開日:2024-08-12
# FA-Depth:高速かつ高精度な自己監督型単眼深度推定に向けて

FA-Depth: Toward Fast and Accurate Self-supervised Monocular Depth Estimation ( http://arxiv.org/abs/2405.10885v3 )

ライセンス: Link先を確認
Fei Wang, Jun Cheng, (参考訳) 既存の手法の多くは、高い精度でシーンの深さを予測するために複雑なモデルに依存しており、結果としてデプロイメントに適さない推論が遅くなる。 精度と速度のバランスを改善するために,スモールディープスをスモールディープスで設計した。 第二に、推論中に同じ複雑さの条件下での訓練中にSmallDepthの特徴表現能力を高めるために、等価変換モジュール(ETM)を提案する。 第3に,固定されたSmallDepthの場合,各層が異なるコンテキスト情報を知覚し,SmallDepthの左方向への強靭性と照明変化を改善するために,ピラミッドロスを提案する。 第4に、SmallDepthの精度をさらに向上するため、提案した関数近似損失(APX)を用いて、事前訓練されたHQDecv2の知識をSmallDepthに転送した。 大規模実験により,提案した各コンポーネントは,推定中のSmallDepthの複雑さを変化させることなく,SmallDepthの精度を向上することが示された。 コードとモデルはhttps://github.com/fwucas/FA-Depth.comで公開される。

Most existing methods often rely on complex models to predict scene depth with high accuracy, resulting in slow inference that is not conducive to deployment. To better balance precision and speed, we first designed SmallDepth based on sparsity. Second, to enhance the feature representation ability of SmallDepth during training under the condition of equal complexity during inference, we propose an equivalent transformation module(ETM). Third, to improve the ability of each layer in the case of a fixed SmallDepth to perceive different context information and improve the robustness of SmallDepth to the left-right direction and illumination changes, we propose pyramid loss. Fourth, to further improve the accuracy of SmallDepth, we utilized the proposed function approximation loss (APX) to transfer knowledge in the pretrained HQDecv2, obtained by optimizing the previous HQDec to address grid artifacts in some regions, to SmallDepth. Extensive experiments demonstrate that each proposed component improves the precision of SmallDepth without changing the complexity of SmallDepth during inference, and the developed approach achieves state-of-the-art results on KITTI at an inference speed of more than 500 frames per second and with approximately 2 M parameters. The code and models will be publicly available at https://github.com/fwucas/FA-Depth.
翻訳日:2024-08-13 21:12:59 公開日:2024-08-12
# 点データから地理的境界へ:クラウドソースによるレイテンシ測定の地域化

From Point Data to Geographic Boundaries: Regionalizing Crowdsourced Latency Measurements ( http://arxiv.org/abs/2405.11138v3 )

ライセンス: Link先を確認
Taveesh Sharma, Paul Schmitt, Francesco Bronzino, Nick Feamster, Nicole Marwell, (参考訳) アクセスネットワークインフラに多大な投資をしているにもかかわらず、高品質なインターネット接続への普遍的なアクセスは依然として課題である。 政策立案者は、地理的領域にわたるアクセスネットワーク性能の分布を評価するために、大規模でクラウドソースの計測データセットを利用することが多い。 これらの決定は一般的に、インターネットのパフォーマンスが事前に定義された社会的境界内で均一に分散されているという仮定に基づいている。 しかし、この仮定は2つの理由により有効ではないかもしれない: クラウドソースされた測定は、しばしば地理的領域内で一様でないサンプリング密度を示す; 事前定義された社会的境界は、インターネットインフラの実際の境界と一致しない。 本稿では,インターネットのパフォーマンスをサンプリングするための安定な境界を構築するために,クラウドソーシングデータセットの空間的解析を行う。 サンプリング境界における安定性の向上は,データサンプリングのばらつきによって観測された誤解を招くパターンよりも,インターネットの性能格差の真の性質を反映する,という仮説を立てる。 地理的領域におけるインターネット性能の集約、様々なサンプリング単位選択による補間マップのオーバーレイ、類似した性能特性を持つ連続領域を特定するための空間的クラスタ境界ユニットなど、一連の統計手法を適用して評価する。 本手法の有効性は,データセットから得られた月次サンプルについて,結果の境界の類似性を比較することで評価する。 提案手法を組み合わせることで,センサストラクションや地区境界におけるネットワークメトリクスの中央値を直接計算するよりも,高い類似性が得られることを示す。 これらの知見は、インターネット性能の分布を正確に評価し、最適化し、政策、ネットワーク運用、長期計画決定を通知する上で、空間モデルが重要な役割を担っていることを裏付けるものである。

Despite significant investments in access network infrastructure, universal access to high-quality Internet connectivity remains a challenge. Policymakers often rely on large-scale, crowdsourced measurement datasets to assess the distribution of access network performance across geographic areas. These decisions typically rest on the assumption that Internet performance is uniformly distributed within predefined social boundaries. However, this assumption may not be valid for two reasons: crowdsourced measurements often exhibit non-uniform sampling densities within geographic areas; and predefined social boundaries may not align with the actual boundaries of Internet infrastructure. In this paper, we present a spatial analysis on crowdsourced datasets for constructing stable boundaries for sampling Internet performance. We hypothesize that greater stability in sampling boundaries will reflect the true nature of Internet performance disparities than misleading patterns observed as a result of data sampling variations. We apply and evaluate a series of statistical techniques to: aggregate Internet performance over geographic regions; overlay interpolated maps with various sampling unit choices; and spatially cluster boundary units to identify contiguous areas with similar performance characteristics. We assess the effectiveness of the techniques we apply by comparing the similarity of the resulting boundaries for monthly samples drawn from the dataset. Our evaluation shows that the combination of techniques we apply achieves higher similarity compared to directly calculating central measures of network metrics over census tracts or neighborhood boundaries. These findings underscore the important role of spatial modeling in accurately assessing and optimizing the distribution of Internet performance, to inform policy, network operations, and long-term planning decisions.
翻訳日:2024-08-13 21:12:59 公開日:2024-08-12
# 大規模言語モデルは時系列のゼロショット異常検出器となるか?

Large language models can be zero-shot anomaly detectors for time series? ( http://arxiv.org/abs/2405.14755v2 )

ライセンス: Link先を確認
Sarah Alnegheimish, Linh Nguyen, Laure Berti-Equille, Kalyan Veeramachaneni, (参考訳) 近年の研究では、時系列予測など、大規模言語モデルが様々なタスクを遂行できることが示されている。 これらのモデルの柔軟な性質により、多くのアプリケーションで使用することができる。 本稿では,時系列異常検出の課題に用いた大規模言語モデルについて述べる。 この問題は、入力シーケンスの一部(または複数の部分)を異常として識別するモデルの必要性と、従来のテキスト入力ではなく時系列データを扱うモデルの必要性の2つの側面を含む。 大規模言語モデルを用いた時系列異常検出のためのフレームワークであるsigllmを紹介する。 我々のフレームワークには、時系列からテキストへの変換モジュールと、言語モデルに時系列異常検出の実行を促すエンドツーエンドパイプラインが含まれています。 本研究では,大規模言語モデルによる検出タスクの実行能力をテストするための2つのパラダイムについて検討する。 まず,入力のどの要素が異常であるかを直接言語モデルに問い合わせる。 第2に,大言語モデルの予測機能を活用し,異常検出プロセスの導出を行う。 さまざまなソースと10のパイプラインにまたがる11のデータセットで、私たちのフレームワークを評価しました。 その結果, 予測手法はF1スコアに対して, 全11データセットにおいてプロンプト法よりも有意に優れていた。 さらに、大きな言語モデルは異常を見つけることができるが、最先端のディープラーニングモデルは依然として性能に優れており、大きな言語モデルよりも30%良い結果が得られる。

Recent studies have shown the ability of large language models to perform a variety of tasks, including time series forecasting. The flexible nature of these models allows them to be used for many applications. In this paper, we present a novel study of large language models used for the challenging task of time series anomaly detection. This problem entails two aspects novel for LLMs: the need for the model to identify part of the input sequence (or multiple parts) as anomalous; and the need for it to work with time series data rather than the traditional text input. We introduce sigllm, a framework for time series anomaly detection using large language models. Our framework includes a time-series-to-text conversion module, as well as end-to-end pipelines that prompt language models to perform time series anomaly detection. We investigate two paradigms for testing the abilities of large language models to perform the detection task. First, we present a prompt-based detection method that directly asks a language model to indicate which elements of the input are anomalies. Second, we leverage the forecasting capability of a large language model to guide the anomaly detection process. We evaluated our framework on 11 datasets spanning various sources and 10 pipelines. We show that the forecasting method significantly outperformed the prompting method in all 11 datasets with respect to the F1 score. Moreover, while large language models are capable of finding anomalies, state-of-the-art deep learning models are still superior in performance, achieving results 30% better than large language models.
翻訳日:2024-08-13 21:12:59 公開日:2024-08-12
# 視覚言語モデルからの不変因果メカニズムの学習

Learning Invariant Causal Mechanism from Vision-Language Models ( http://arxiv.org/abs/2405.15289v2 )

ライセンス: Link先を確認
Zeen Song, Siyu Zhao, Xingyu Zhang, Jiangmeng Li, Changwen Zheng, Wenwen Qiang, (参考訳) CLIPのような大規模な事前学習された視覚言語モデルは、様々なダウンストリームシナリオに広く適用されている。 現実世界のアプリケーションでは、CLIPモデルはトレーニング中に遭遇したシナリオよりも多様なシナリオで使用されることが多い。 しかし,実験の結果,CLIPは特定の領域で不満足に機能することが判明した。 因果解析により、CLIPの現在の予測プロセスは低いOODリスクを保証できないことがわかった。 最も低いOODリスクは、予測プロセスが不変因果機構、すなわち不変因果因子のみに基づいて予測する場合に達成できる。 しかし、理論解析により、CLIPはこれらの不変潜伏因子を同定していないことが示されている。 そこで我々はCLIPの不変因果メカニズム(CLIP-ICM)を提案する。これはまず、介入データを用いて不変因果関係を識別し、その後、様々な領域にわたって不変な予測を行うフレームワークである。 提案手法は,計算オーバーヘッドを伴わず,単純かつ効果的である。 実験の結果、CLIP-ICMはOODシナリオにおけるCLIPの性能を大幅に改善することが示された。

Large-scale pre-trained vision-language models such as CLIP have been widely applied to a variety of downstream scenarios. In real-world applications, the CLIP model is often utilized in more diverse scenarios than those encountered during its training, a challenge known as the out-of-distribution (OOD) problem. However, our experiments reveal that CLIP performs unsatisfactorily in certain domains. Through a causal analysis, we find that CLIP's current prediction process cannot guarantee a low OOD risk. The lowest OOD risk can be achieved when the prediction process is based on invariant causal mechanisms, i.e., predicting solely based on invariant latent factors. However, theoretical analysis indicates that CLIP does not identify these invariant latent factors. Therefore, we propose the Invariant Causal Mechanism for CLIP (CLIP-ICM), a framework that first identifies invariant latent factors using interventional data and then performs invariant predictions across various domains. Our method is simple yet effective, without significant computational overhead. Experimental results demonstrate that CLIP-ICM significantly improves CLIP's performance in OOD scenarios.
翻訳日:2024-08-13 21:12:59 公開日:2024-08-12
# テキスト生成:課題・評価・課題の体系的文献レビュー

Text Generation: A Systematic Literature Review of Tasks, Evaluation, and Challenges ( http://arxiv.org/abs/2405.15604v2 )

ライセンス: Link先を確認
Jonas Becker, Jan Philip Wahle, Bela Gipp, Terry Ruas, (参考訳) テキスト生成はこれまでになくアクセスしやすくなり、特に大きな言語モデルを用いたシステムへの関心が高まり、関連出版物が増えている。 本稿は,2017年から2024年にかけて244件の論文からなる体系的な文献レビューを行う。 このレビューでは、テキスト生成における作業は、オープンエンドテキスト生成、要約、翻訳、パラフレーズ化、質問応答の5つの主要なタスクに分類する。 各タスクについて、関連する特徴、サブタスク、および特定の課題(例えば、多文書要約のためのデータセットの欠如、ストーリー生成におけるコヒーレンス、質問応答のための複雑な推論)についてレビューする。 さらに、テキスト生成システムの評価と、現在のメトリクスの問題点の確認のための現在のアプローチを評価する。 私たちの調査によると、最近のテキスト生成出版物では、バイアス、推論、幻覚、誤用、プライバシー、解釈可能性、透明性、データセット、コンピューティングという、タスクやサブタスクに共通する9つの顕著な課題が示されています。 われわれはこれらの課題とその潜在的な解決策を詳細に分析し、そのギャップはコミュニティのさらなる関与を必要としている。 この体系的な文献レビューは、自然言語処理の初期の研究者が分野の概要を探究し、研究の方向性を期待する、経験豊富な研究者がタスク、評価方法論、オープンチャレンジ、最近の緩和戦略の詳細なビューを求める、という2つの主要なオーディエンスをターゲットにしている。

Text generation has become more accessible than ever, and the increasing interest in these systems, especially those using large language models, has spurred an increasing number of related publications. We provide a systematic literature review comprising 244 selected papers between 2017 and 2024. This review categorizes works in text generation into five main tasks: open-ended text generation, summarization, translation, paraphrasing, and question answering. For each task, we review their relevant characteristics, sub-tasks, and specific challenges (e.g., missing datasets for multi-document summarization, coherence in story generation, and complex reasoning for question answering). Additionally, we assess current approaches for evaluating text generation systems and ascertain problems with current metrics. Our investigation shows nine prominent challenges common to all tasks and sub-tasks in recent text generation publications: bias, reasoning, hallucinations, misuse, privacy, interpretability, transparency, datasets, and computing. We provide a detailed analysis of these challenges, their potential solutions, and which gaps still require further engagement from the community. This systematic literature review targets two main audiences: early career researchers in natural language processing looking for an overview of the field and promising research directions, as well as experienced researchers seeking a detailed view of tasks, evaluation methodologies, open challenges, and recent mitigation strategies.
翻訳日:2024-08-13 21:12:59 公開日:2024-08-12
# LLMによる全体的評価のファシリテート:シナリオベース実験からの考察

Facilitating Holistic Evaluations with LLMs: Insights from Scenario-Based Experiments ( http://arxiv.org/abs/2405.17728v2 )

ライセンス: Link先を確認
Toru Ishida, Tongxi Liu, Hailong Wang, William K. Cheunga, (参考訳) クリエイティビティを促進するためのワークショップコースが人気を集めている。 しかし、経験豊富な教員チームでさえ、様々な視点に対応する総合的な評価を実現することは困難である。 様々な評価を統合するためには適切な熟考が不可欠であるが、大学はそのような交換の時間を欠いていることが多い。 議論のない平均スコアの導出は、全体的評価の目的を損なう。 そこで本稿では,多様な教員評価を統合するためのファシリテータとして,LLM(Large Language Model)の利用について検討する。 LLMが多様な評価を統合できるかどうかを判断し、基礎となる教育理論を学部に説明するためのシナリオベースの実験を行った。 その結果,LLMは教員の議論を効果的に促進できることが示唆された。 さらに、LLMは、すでに獲得した教育領域の知識を活用して、単一のシナリオベースの実験を一般化することで評価基準を作成する能力を示した。

Workshop courses designed to foster creativity are gaining popularity. However, even experienced faculty teams find it challenging to realize a holistic evaluation that accommodates diverse perspectives. Adequate deliberation is essential to integrate varied assessments, but faculty often lack the time for such exchanges. Deriving an average score without discussion undermines the purpose of a holistic evaluation. Therefore, this paper explores the use of a Large Language Model (LLM) as a facilitator to integrate diverse faculty assessments. Scenario-based experiments were conducted to determine if the LLM could integrate diverse evaluations and explain the underlying pedagogical theories to faculty. The results were noteworthy, showing that the LLM can effectively facilitate faculty discussions. Additionally, the LLM demonstrated the capability to create evaluation criteria by generalizing a single scenario-based experiment, leveraging its already acquired pedagogical domain knowledge.
翻訳日:2024-08-13 21:12:59 公開日:2024-08-12
# FineRadScore:重度スコアによる補正を生成する線量評価手法

FineRadScore: A Radiology Report Line-by-Line Evaluation Technique Generating Corrections with Severity Scores ( http://arxiv.org/abs/2405.20613v2 )

ライセンス: Link先を確認
Alyssa Huang, Oishi Banerjee, Kay Wu, Eduardo Pontes Reis, Pranav Rajpurkar, (参考訳) 生成された胸部X線(CXR)の報告を評価するための現在の金の標準は、放射線検査によるアノテーションである。 しかし、このプロセスは、特に大量のレポートを評価する場合、非常に時間がかかり、コストがかかる可能性がある。 本稿では,Large Language Model(LLM)を用いたCXRレポートの自動評価指標であるFinRadScoreについて述べる。 FineRadScoreは、候補レポートと接地真実レポートが与えられた場合、その候補から接地真実レポートに進むのに必要な行ごとの修正を最小限に設定する。 さらに、FinRadScoreは、修正毎にエラーの重大度評価を提供し、なぜ修正が必要なのかを説明するコメントを生成する。 我々はFinRadScoreの補正と誤差重大度スコアが放射線学者の意見と一致していることを示した。 また、FinRadScoreは、レポートの質を全体として判断するために、放射線学者や現在の最先端の自動CXR評価指標と整合していることも示しています。 最後に、FinRadScoreの欠点を分析し、今後の改善を提案する。

The current gold standard for evaluating generated chest x-ray (CXR) reports is through radiologist annotations. However, this process can be extremely time-consuming and costly, especially when evaluating large numbers of reports. In this work, we present FineRadScore, a Large Language Model (LLM)-based automated evaluation metric for generated CXR reports. Given a candidate report and a ground-truth report, FineRadScore gives the minimum number of line-by-line corrections required to go from the candidate to the ground-truth report. Additionally, FineRadScore provides an error severity rating with each correction and generates comments explaining why the correction was needed. We demonstrate that FineRadScore's corrections and error severity scores align with radiologist opinions. We also show that, when used to judge the quality of the report as a whole, FineRadScore aligns with radiologists as well as current state-of-the-art automated CXR evaluation metrics. Finally, we analyze FineRadScore's shortcomings to provide suggestions for future improvements.
翻訳日:2024-08-13 21:12:59 公開日:2024-08-12
# スペクトル匿名化の漸近的有用性

Asymptotic utility of spectral anonymization ( http://arxiv.org/abs/2405.20779v2 )

ライセンス: Link先を確認
Katariina Perkonoja, Joni Virta, (参考訳) 現代のデータランドスケープでは、複数ソースのデータ収集とサードパーティの共有が特徴であり、個人のプライバシを確保することが重要な関心事である。 様々な匿名化手法が存在するが、それらのユーティリティ保存とプライバシ保証は定量化が難しいままである。 本研究では、スペクトル匿名化(SA)アルゴリズムの有用性とプライバシを、特に漸近的なフレームワークで研究することで、このギャップに対処する。 元のデータを直接修正する従来の匿名化手法とは異なり、SAはデータをスペクトルベースで摂動させ、その後元のベースに戻す。 原版である $\mathcal{P}$-SA とともに、ランダムな置換変換を用いる2つの新しいSA変種: $\mathcal{J}$-spectral anonymization と $\mathcal{O}$-spectral anonymization を導入する。 いくつかの現実的な仮定の下では、これらのSAアルゴリズムが元のデータの第一と第二の瞬間をいかに保存するかを示す。 特に, 共分散推定における3つのSAアルゴリズムの漸近効率は, 原データと比較して正確に50%であることがわかった。 これらの漸近的結果の適用性を評価するために,有限データを用いたシミュレーション研究を行い,距離ベースのレコードリンクを用いて,これらのアルゴリズムが提供するプライバシー保護を評価する。 我々の研究は、有限サンプルユーティリティにおいて明確な優位性を示す手法は存在しないが、$\mathcal{O}$-SAは、計算複雑性が増大しているにもかかわらず、同じレコードを生成しないという例外的なプライバシー保護のために、自分自身を区別していることを明らかにしている。 逆に$\mathcal{P}$-SA は計算効率の良い代替品として現れ、平均推定における未整合効率を示す。

In the contemporary data landscape characterized by multi-source data collection and third-party sharing, ensuring individual privacy stands as a critical concern. While various anonymization methods exist, their utility preservation and privacy guarantees remain challenging to quantify. In this work, we address this gap by studying the utility and privacy of the spectral anonymization (SA) algorithm, particularly in an asymptotic framework. Unlike conventional anonymization methods that directly modify the original data, SA operates by perturbing the data in a spectral basis and subsequently reverting them to their original basis. Alongside the original version $\mathcal{P}$-SA, employing random permutation transformation, we introduce two novel SA variants: $\mathcal{J}$-spectral anonymization and $\mathcal{O}$-spectral anonymization, which employ sign-change and orthogonal matrix transformations, respectively. We show how well, under some practical assumptions, these SA algorithms preserve the first and second moments of the original data. Our results reveal, in particular, that the asymptotic efficiency of all three SA algorithms in covariance estimation is exactly 50% when compared to the original data. To assess the applicability of these asymptotic results in practice, we conduct a simulation study with finite data and also evaluate the privacy protection offered by these algorithms using distance-based record linkage. Our research reveals that while no method exhibits clear superiority in finite-sample utility, $\mathcal{O}$-SA distinguishes itself for its exceptional privacy preservation, never producing identical records, albeit with increased computational complexity. Conversely, $\mathcal{P}$-SA emerges as a computationally efficient alternative, demonstrating unmatched efficiency in mean estimation.
翻訳日:2024-08-13 21:12:59 公開日:2024-08-12
# ReLU-KAN: 行列加算、ドット乗算、ReLUのみを必要とする新しいKolmogorov-Arnoldネットワーク

ReLU-KAN: New Kolmogorov-Arnold Networks that Only Need Matrix Addition, Dot Multiplication, and ReLU ( http://arxiv.org/abs/2406.02075v2 )

ライセンス: Link先を確認
Qi Qiu, Tao Zhu, Helin Gong, Liming Chen, Huansheng Ning, (参考訳) 基底関数(B-スプライン)計算の複雑さによって制限され、KAN(Kolmogorov-Arnold Networks)はGPU上での並列計算能力の制限に悩まされる。 本稿では,kanのコアアイデアを継承する新しいReLU-KANの実装を提案する。 ReLU(Rectified Linear Unit)と点乗算(point-wise multiplication)を採用することにより、kanの基本関数の設計を簡素化し、効率的なCUDA計算のために計算プロセスを最適化する。 提案されているReLU-KANアーキテクチャは、推論とトレーニングの両方に既存のディープラーニングフレームワーク(例えばPyTorch)で容易に実装できる。 実験の結果,ReLU-KANは従来の4層ネットワークのKANと比較して20倍の高速化を実現していることがわかった。 さらに、ReLU-KANは、カンの「破滅的忘れの回避」特性を維持しつつ、より優れた適合能力を有するより安定したトレーニングプロセスを示す。 コードはhttps://github.com/quiqi/relu_kanで取得できます。

Limited by the complexity of basis function (B-spline) calculations, Kolmogorov-Arnold Networks (KAN) suffer from restricted parallel computing capability on GPUs. This paper proposes a novel ReLU-KAN implementation that inherits the core idea of KAN. By adopting ReLU (Rectified Linear Unit) and point-wise multiplication, we simplify the design of KAN's basis function and optimize the computation process for efficient CUDA computing. The proposed ReLU-KAN architecture can be readily implemented on existing deep learning frameworks (e.g., PyTorch) for both inference and training. Experimental results demonstrate that ReLU-KAN achieves a 20x speedup compared to traditional KAN with 4-layer networks. Furthermore, ReLU-KAN exhibits a more stable training process with superior fitting ability while preserving the "catastrophic forgetting avoidance" property of KAN. You can get the code in https://github.com/quiqi/relu_kan
翻訳日:2024-08-13 21:03:04 公開日:2024-08-12
# ディープ・クープマン・オペレーター発見のためのカンの活用

Leveraging KANs For Enhanced Deep Koopman Operator Discovery ( http://arxiv.org/abs/2406.02875v3 )

ライセンス: Link先を確認
George Nehma, Madhur Tiwari, (参考訳) 多層パーセプトロン(MLP)は、非線形力学を線形化するディープ・クープマン作用素の発見に広く利用されている。 MLPニューラルネットのより効率的かつ正確な代替手段としてKAN(Kolmogorov-Arnold Networks)が出現すると、制御付きクープマン演算子を学習する文脈において、各ネットワークタイプの性能の比較が提案される。 本研究では,2BP (2-Body Problem) と線形系力学のデータ駆動発見のための振り子を応用した Kans ベースのディープ・クープマン・フレームワークを提案する。 カンはトレーニングのほぼ全ての面で優れており、学習速度は31倍、パラメータ効率は15倍、予測精度は2BPの場合のMLP Deep Neural Networks(DNN)の1.25倍である。 このように、カンスはディープ・クープマン理論の発展において効率的なツールとなる可能性を示している。

Multi-layer perceptrons (MLP's) have been extensively utilized in discovering Deep Koopman operators for linearizing nonlinear dynamics. With the emergence of Kolmogorov-Arnold Networks (KANs) as a more efficient and accurate alternative to the MLP Neural Network, we propose a comparison of the performance of each network type in the context of learning Koopman operators with control. In this work, we propose a KANs-based deep Koopman framework with applications to an orbital Two-Body Problem (2BP) and the pendulum for data-driven discovery of linear system dynamics. KANs were found to be superior in nearly all aspects of training; learning 31 times faster, being 15 times more parameter efficiency, and predicting 1.25 times more accurately as compared to the MLP Deep Neural Networks (DNNs) in the case of the 2BP. Thus, KANs shows potential for being an efficient tool in the development of Deep Koopman Theory.
翻訳日:2024-08-13 21:03:04 公開日:2024-08-12
# 条件付き情報フロー最大化による表現学習

Representation Learning with Conditional Information Flow Maximization ( http://arxiv.org/abs/2406.05510v2 )

ライセンス: Link先を確認
Dou Hu, Lingwei Wei, Wei Zhou, Songlin Hu, (参考訳) 本稿では,入力データと対象タスクに対する雑音不変表現を抽出するために,条件情報フローの最大化という情報理論表現学習フレームワークを提案する。 学習された表現は、良好な特徴均一性と十分な予測能力を有し、目標タスクに対する事前学習言語モデル(PLM)の一般化を促進することができる。 まず,情報フローの最大化原理を提案し,入力表現と表現ラベルの両相互情報を同時に最大化する。 情報ボトルネックとは異なり、潜在表現の過剰圧縮問題を避けるために、入力表現情報を反対の方法で処理する。 さらに、入力から潜在的な冗長な特徴の負の効果を軽減するため、雑音不変な特徴を保ちながら負の冗長な特徴を除去する条件情報最小化原理を設計する。 13の言語理解ベンチマーク実験により,本手法は分類と回帰のためのPLMの性能を効果的に向上することを示した。 大規模な実験により、学習された表現はより十分で、堅牢で、伝達可能であることが示された。

This paper proposes an information-theoretic representation learning framework, named conditional information flow maximization, to extract noise-invariant sufficient representations for the input data and target task. It promotes the learned representations have good feature uniformity and sufficient predictive ability, which can enhance the generalization of pre-trained language models (PLMs) for the target task. Firstly, an information flow maximization principle is proposed to learn more sufficient representations for the input and target by simultaneously maximizing both input-representation and representation-label mutual information. Unlike the information bottleneck, we handle the input-representation information in an opposite way to avoid the over-compression issue of latent representations. Besides, to mitigate the negative effect of potential redundant features from the input, we design a conditional information minimization principle to eliminate negative redundant features while preserve noise-invariant features. Experiments on 13 language understanding benchmarks demonstrate that our method effectively improves the performance of PLMs for classification and regression. Extensive experiments show that the learned representations are more sufficient, robust and transferable.
翻訳日:2024-08-13 21:03:04 公開日:2024-08-12
# 半教師付きニューラルプロトランゲージ再構成

Semisupervised Neural Proto-Language Reconstruction ( http://arxiv.org/abs/2406.05930v2 )

ライセンス: Link先を確認
Liang Lu, Peirong Xie, David R. Mortensen, (参考訳) 祖先言語(原語)の比較再構成を行う既存の作業は通常、完全な監督を必要とする。 しかし、ラベル付きデータの限られた量でトレーニングできる場合、歴史的復元モデルは実用的価値しか持たない。 本稿では,少数のラベル付きデータ(プロトフォーム付きコガネート集合)と大量のラベル付きデータ(プロトフォームなしコガネート集合)に基づいて,モデルを訓練する半教師付き歴史復元タスクを提案する。 本稿では, 比較再構成のためのニューラルアーキテクチャ (DPD-BiReconstructor) を提案し, 言語学者の比較手法から重要な知見を取り入れ, 再構成された単語は, 娘の単語から再構成可能であるだけでなく, 決定論的に娘の単語に変換可能であることを提案する。 このアーキテクチャは、未ラベルのコグネート集合を利用して、この新しいタスクにおいて強い半教師付きベースラインを達成できることが示される。

Existing work implementing comparative reconstruction of ancestral languages (proto-languages) has usually required full supervision. However, historical reconstruction models are only of practical value if they can be trained with a limited amount of labeled data. We propose a semisupervised historical reconstruction task in which the model is trained on only a small amount of labeled data (cognate sets with proto-forms) and a large amount of unlabeled data (cognate sets without proto-forms). We propose a neural architecture for comparative reconstruction (DPD-BiReconstructor) incorporating an essential insight from linguists' comparative method: that reconstructed words should not only be reconstructable from their daughter words, but also deterministically transformable back into their daughter words. We show that this architecture is able to leverage unlabeled cognate sets to outperform strong semisupervised baselines on this novel task.
翻訳日:2024-08-13 21:03:04 公開日:2024-08-12
# ランダム性とアービタリティ:大規模で信頼性の高い機械学習のいくつかの教訓

Between Randomness and Arbitrariness: Some Lessons for Reliable Machine Learning at Scale ( http://arxiv.org/abs/2406.09548v2 )

ライセンス: Link先を確認
A. Feder Cooper, (参考訳) MLモデルと、それらが組み込まれているシステムに関する厳密な知識を開発するには、信頼できる測定が必要です。 しかし、信頼性の測定は基本的に困難であり、再現性、スケーラビリティ、不確実性定量化、認識論などの問題に焦点をあてている。 この論文は、有意義なメトリクスを設計するための基準と、これらのメトリクスを大規模かつ実践的に信頼性および効率よく測定できることを保証する方法論の両方について、信頼性を真剣に評価するために必要な基準に対処する。 この論文は、機械学習、法学、政策の交差点における新しい学問分野の研究ビジョンを具体化したものである。 本枠組みでは,(1)MLにおける任意性源の定量化と緩和,(2)不確実性推定と最適化アルゴリズムのランダム性を利用した信頼性を犠牲にすることなくスケーラビリティを実現すること,(3)言語モデルにおける記憶の定量化と,オープンライセンスデータに基づく潜時拡散モデルの訓練に特化して,生成AIシステムを評価する方法を提案する。 これら3つのテーマに貢献することで、この論文は、機械学習の信頼性測定に関する研究が法と政策の研究と密接に、不可避的に結びついているという実証的な証拠となる。 これらの異なる分野は、機械学習における信頼性測定に関する同様の研究課題を提起する。 実際、それらは同じ研究ビジョンの2つの補完的な側面であり、それは広く解釈され、より広い社会的価値と結びついた機械学習システムを構築することを目的としている。

To develop rigorous knowledge about ML models -- and the systems in which they are embedded -- we need reliable measurements. But reliable measurement is fundamentally challenging, and touches on issues of reproducibility, scalability, uncertainty quantification, epistemology, and more. This dissertation addresses criteria needed to take reliability seriously: both criteria for designing meaningful metrics, and for methodologies that ensure that we can dependably and efficiently measure these metrics at scale and in practice. In doing so, this dissertation articulates a research vision for a new field of scholarship at the intersection of machine learning, law, and policy. Within this frame, we cover topics that fit under three different themes: (1) quantifying and mitigating sources of arbitrariness in ML, (2) taming randomness in uncertainty estimation and optimization algorithms, in order to achieve scalability without sacrificing reliability, and (3) providing methods for evaluating generative-AI systems, with specific focuses on quantifying memorization in language models and training latent diffusion models on open-licensed data. By making contributions in these three themes, this dissertation serves as an empirical proof by example that research on reliable measurement for machine learning is intimately and inescapably bound up with research in law and policy. These different disciplines pose similar research questions about reliable measurement in machine learning. They are, in fact, two complementary sides of the same research vision, which, broadly construed, aims to construct machine-learning systems that cohere with broader societal values.
翻訳日:2024-08-13 21:03:04 公開日:2024-08-12
# 多変量時系列分類のための説明手法の評価と動作性の改善

Improving the Evaluation and Actionability of Explanation Methods for Multivariate Time Series Classification ( http://arxiv.org/abs/2406.12507v2 )

ライセンス: Link先を確認
Davide Italo Serramazza, Thach Le Nguyen, Georgiana Ifrim, (参考訳) 多変量時系列分類(MTSC)の解説は、現在検討中の重要なトピックである。 定量的な評価手法はほとんどなく、実用的な説明の例も少なく、時系列データ上の特定の計算タスクを客観的に改善する説明法が示される。 本稿では,MTSCに適用された属性手法の最近の評価手法であるInterpretTimeの分析に焦点をあてる。 本稿では,元の方法論のいくつかの重大な弱点を示し,その正確さと効率性の両方を改善するためのアイデアを提案する。 MTSCにおけるチャネル選択のタスクに最適な帰属手法を用いることで、関連する作業とは違って、生成した説明者ランキングの動作可能性を示す。 SHAPやFeature Ablationのような摂動に基づく手法は、データセット、分類器、タスクのセットや、勾配に基づく方法よりも優れていることが分かりました。 MTSCのチャネル選択に最も優れたランク付け説明器を適用し,データサイズを著しく削減し,分類器の精度を向上した。

Explanation for Multivariate Time Series Classification (MTSC) is an important topic that is under explored. There are very few quantitative evaluation methodologies and even fewer examples of actionable explanation, where the explanation methods are shown to objectively improve specific computational tasks on time series data. In this paper we focus on analyzing InterpretTime, a recent evaluation methodology for attribution methods applied to MTSC. We showcase some significant weaknesses of the original methodology and propose ideas to improve both its accuracy and efficiency. Unlike related work, we go beyond evaluation and also showcase the actionability of the produced explainer ranking, by using the best attribution methods for the task of channel selection in MTSC. We find that perturbation-based methods such as SHAP and Feature Ablation work well across a set of datasets, classifiers and tasks and outperform gradient-based methods. We apply the best ranked explainers to channel selection for MTSC and show significant data size reduction and improved classifier accuracy.
翻訳日:2024-08-13 20:53:08 公開日:2024-08-12
# MLAAN: Multilaminar Leap Augmented Auxiliary Network によるローカル学習のスケールアップ

MLAAN: Scaling Supervised Local Learning with Multilaminar Leap Augmented Auxiliary Network ( http://arxiv.org/abs/2406.16633v2 )

ライセンス: Link先を確認
Yuming Zhang, Shouxin Zhang, Peizhe Wang, Feiyu Zhu, Dongzhi Guan, Junhao Su, Jiabin Liu, Changpeng Cai, (参考訳) ディープニューラルネットワーク(DNN)は通常、エンドツーエンド(E2E)のトレーニングパラダイムを採用しており、高いGPUメモリ消費、非効率性、トレーニング中のモデルの並列化の難しさなど、いくつかの課題を提示している。 最近の研究はこれらの問題に対処しようとしており、ある有望なアプローチは局所的な学習である。 この方法は、バックボーンネットワークを勾配分離モジュールに分割し、これらのローカルモジュールをトレーニングするための補助ネットワークを手動で設計することを含む。 既存の手法では、ローカルモジュール間の情報交換を無視することが多く、筋電図上の問題や、E2Eトレーニングと比較してパフォーマンスの差が生じる。 これらの制約に対処するため,Multilaminar Leap Augmented Auxiliary Network (MLAAN)を提案する。 具体的には、MLAAN は Multilaminar Local Modules (MLM) と Leap Augmented Modules (LAM) から構成される。 MLMは、独立およびカスケードされた補助ネットワークを通じて、ローカルおよびグローバル両方の機能をキャプチャし、グローバル機能不足によるパフォーマンス上の問題を緩和する。 しかし、過度に単純化された補助ネットワークは、MLMがグローバル情報をキャプチャする能力を阻害する可能性がある。 そこで我々は,ローカルモジュール間の情報交換を容易にするために,指数移動平均 (EMA) 法を用いた拡張補助ネットワーク LAM をさらに設計する。 MLMとLAMの相乗効果は優れた性能を示した。 CIFAR-10, STL-10, SVHN, ImageNetデータセットを用いた実験により, MLAANは既存のローカル学習フレームワークにシームレスに統合され, 性能を大幅に向上し, エンド・ツー・エンド(E2E)トレーニング手法を超越し,GPUメモリ消費の削減も図っている。

Deep neural networks (DNNs) typically employ an end-to-end (E2E) training paradigm which presents several challenges, including high GPU memory consumption, inefficiency, and difficulties in model parallelization during training. Recent research has sought to address these issues, with one promising approach being local learning. This method involves partitioning the backbone network into gradient-isolated modules and manually designing auxiliary networks to train these local modules. Existing methods often neglect the interaction of information between local modules, leading to myopic issues and a performance gap compared to E2E training. To address these limitations, we propose the Multilaminar Leap Augmented Auxiliary Network (MLAAN). Specifically, MLAAN comprises Multilaminar Local Modules (MLM) and Leap Augmented Modules (LAM). MLM captures both local and global features through independent and cascaded auxiliary networks, alleviating performance issues caused by insufficient global features. However, overly simplistic auxiliary networks can impede MLM's ability to capture global information. To address this, we further design LAM, an enhanced auxiliary network that uses the Exponential Moving Average (EMA) method to facilitate information exchange between local modules, thereby mitigating the shortsightedness resulting from inadequate interaction. The synergy between MLM and LAM has demonstrated excellent performance. Our experiments on the CIFAR-10, STL-10, SVHN, and ImageNet datasets show that MLAAN can be seamlessly integrated into existing local learning frameworks, significantly enhancing their performance and even surpassing end-to-end (E2E) training methods, while also reducing GPU memory consumption.
翻訳日:2024-08-13 20:53:08 公開日:2024-08-12
# AIネイティブメモリ - LLMからAGIへの道

AI-native Memory: A Pathway from LLMs Towards AGI ( http://arxiv.org/abs/2406.18312v3 )

ライセンス: Link先を確認
Jingbo Shang, Zai Zheng, Jiale Wei, Xiang Ying, Felix Tao, Mindverse Team, (参考訳) 大規模言語モデル(LLM)は、人工知能(AGI)の火花で世界を実証している。 LLMに携わるスタートアップの中には、ほとんど無制限のコンテキストを持つLLMはAGIを実現することができる、という意見もある。 しかし, LLMの長期的文脈能力については, (1) 有効文脈長が主張する文脈長よりも著しく小さいこと, (2) 長期的文脈から関連情報を同時に発見し, 簡単な推論を行うことがほぼ不可能であること, など, 楽観的すぎるかもしれない。 本稿では,LLM から AGI への経路を,emph{Memory} の統合により想定する。 AGIはLLMがコアプロセッサとして機能するシステムであるべきだと考えています。 生データに加えて、このシステムのメモリは推論プロセスから派生した多くの重要な結論を格納する。 生データのみを処理する検索拡張生成(RAG)と比較すると,本手法は意味的関連情報をより緊密に接続するだけでなく,クエリ時に複雑な推論を単純化する。 中間段階として、メモリはおそらく自然言語記述の形で、ユーザも直接使用することができる。 究極的には、すべてのエージェント/人それぞれが独自の大きなパーソナルモデルを持ち、すべてのタイプのメモリをパラメータ化して圧縮するディープニューラルネットワークモデル(thus \emph{AI-native})を持つべきである。 最後に、AIネイティブメモリが、AGI時代の(積極的な)エンゲージメント、パーソナライゼーション、配布、ソーシャルの変革的基盤である可能性、および予備的なソリューションによる引き起こされたプライバシとセキュリティ上の課題について論じる。

Large language models (LLMs) have demonstrated the world with the sparks of artificial general intelligence (AGI). One opinion, especially from some startups working on LLMs, argues that an LLM with nearly unlimited context length can realize AGI. However, they might be too optimistic about the long-context capability of (existing) LLMs -- (1) Recent literature has shown that their effective context length is significantly smaller than their claimed context length; and (2) Our reasoning-in-a-haystack experiments further demonstrate that simultaneously finding the relevant information from a long context and conducting (simple) reasoning is nearly impossible. In this paper, we envision a pathway from LLMs to AGI through the integration of \emph{memory}. We believe that AGI should be a system where LLMs serve as core processors. In addition to raw data, the memory in this system would store a large number of important conclusions derived from reasoning processes. Compared with retrieval-augmented generation (RAG) that merely processing raw data, this approach not only connects semantically related information closer, but also simplifies complex inferences at the time of querying. As an intermediate stage, the memory will likely be in the form of natural language descriptions, which can be directly consumed by users too. Ultimately, every agent/person should have its own large personal model, a deep neural network model (thus \emph{AI-native}) that parameterizes and compresses all types of memory, even the ones cannot be described by natural languages. Finally, we discuss the significant potential of AI-native memory as the transformative infrastructure for (proactive) engagement, personalization, distribution, and social in the AGI era, as well as the incurred privacy and security challenges with preliminary solutions.
翻訳日:2024-08-13 20:53:08 公開日:2024-08-12
# メタヒューリスティックスとディープラーニング法を用いた急性リンパ性白血病の診断モデル

A Diagnostic Model for Acute Lymphoblastic Leukemia Using Metaheuristics and Deep Learning Methods ( http://arxiv.org/abs/2406.18568v2 )

ライセンス: Link先を確認
Amir Masoud Rahmani, Parisa Khoshvaght, Hamid Alinejad-Rokny, Samira Sadeghi, Parvaneh Asghari, Zohre Arabi, Mehdi Hosseinzadeh, (参考訳) 急性リンパ性白血病(ALL)重症度は、骨髄および末梢血の爆発細胞(異常な白血球)の存在と比率によって決定される。 手動によるこの疾患の診断は退屈で時間を要する手術であり、プロがブラスト細胞の特徴を正確に調べることは困難である。 この困難に対処するために、研究者はディープラーニングと機械学習を使用している。 本稿では,ResNetをベースとした特徴抽出器を用いて,さまざまな特徴抽出器や分類器とともにALLを検出する。 最良の結果を得るためには、Resnet、VGG、EfficientNet、DensNetファミリなど、さまざまなトランスファー学習モデルが深い特徴抽出器として使用される。 抽出後、遺伝的アルゴリズム、PCA、ANOVA、ランダムフォレスト、Univariate、Mutual Information、Lasso、XGB、Variance、バイナリアリコロニーなど、さまざまな特徴セレクタが使用される。 特徴認定後、様々な分類器が使用され、MLPは他よりも優れている。 推奨されるテクニックは、選択されたデータセットのALLとHEMを分類するために使用される。 この手法は90.71%の精度と95.76%の感度を達成し、このデータセットの指標は他よりも優れていた。

Acute lymphoblastic leukemia (ALL) severity is determined by the presence and ratios of blast cells (abnormal white blood cells) in both bone marrow and peripheral blood. Manual diagnosis of this disease is a tedious and time-consuming operation, making it difficult for professionals to accurately examine blast cell characteristics. To address this difficulty, researchers use deep learning and machine learning. In this paper, a ResNet-based feature extractor is utilized to detect ALL, along with a variety of feature selectors and classifiers. To get the best results, a variety of transfer learning models, including the Resnet, VGG, EfficientNet, and DensNet families, are used as deep feature extractors. Following extraction, different feature selectors are used, including Genetic algorithm, PCA, ANOVA, Random Forest, Univariate, Mutual information, Lasso, XGB, Variance, and Binary ant colony. After feature qualification, a variety of classifiers are used, with MLP outperforming the others. The recommended technique is used to categorize ALL and HEM in the selected dataset which is C-NMC 2019. This technique got an impressive 90.71% accuracy and 95.76% sensitivity for the relevant classifications, and its metrics on this dataset outperformed others.
翻訳日:2024-08-13 20:53:08 公開日:2024-08-12
# モーフィング時間:多目的最適化による複数LLMの可能性の解放

It's Morphing Time: Unleashing the Potential of Multiple LLMs via Multi-objective Optimization ( http://arxiv.org/abs/2407.00487v2 )

ライセンス: Link先を確認
Bingdong Li, Zixiang Di, Yanting Yang, Hong Qian, Peng Yang, Hao Hao, Ke Tang, Aimin Zhou, (参考訳) 本稿では,ブラックボックス多目的最適化アルゴリズムを用いた大規模言語モデル統合のための新しいアプローチを提案する。 モデルマージの目標は、複数のモデルを組み合わせることであり、それぞれが異なるタスクで優れており、個々のソースモデルよりも優れた1つのモデルにまとめることである。 しかし、モデルマージには2つの大きな課題がある: まず、既存の手法は、複数のタスクに取り組むために人間の直感とカスタマイズされた戦略に大きく依存する。 第二に、限られた評価で設定をマージする優れたモデルを探すのは困難です。 これらの課題に対処するため,MM-MOと呼ばれる多目的最適化に基づくモデルマージ手法を提案する。 提案手法は,多目的最適化アルゴリズムを用いて,複数タスクのマージ構成を自動的に検索する。 さらに, モデルマージシナリオに特化して, 多目的ベイズ最適化にいくつかの改良を加えた。 まず, 獲得戦略を改善するために, 弱強法を導入した。 第2に、設定の選択にFisher情報を使用し、優れたモデルマージ構成を発見する可能性をさらに高めました。 第3に、異なるタスク間でのモデルの一般化性能を高めるために、余剰距離を追加最適化の目的として設計した。 我々は,他の主流モデルマージ手法を用いた総合的な実験を行い,その有効性を実証した。 さらに,最適化対象として明示的に目標にされていないタスクにおいても,性能改善が観察され,本手法がモデル全体のポテンシャルを高めることが示唆された。 はぁ...。

In this paper, we introduce a novel approach for large language model merging via black-box multi-objective optimization algorithms. The goal of model merging is to combine multiple models, each excelling in different tasks, into a single model that outperforms any of the individual source models. However, model merging faces two significant challenges: First, existing methods rely heavily on human intuition and customized strategies to tackle multiple tasks. Second, it's difficult to search for the great model merging configuration in limited evaluations. To address these challenges, we propose a multi-objective optimization based model merging method named MM-MO. The proposed method can automatically search merging configurations for multiple tasks with multi-objective optimization algorithms. Moreover, to obtain high-quality model merging configurations within a limited number of evaluation iterations, we have made several improvements to multi-objective Bayesian optimization specifically for model merging scenarios. First, we introduced a weak-to-strong method to improve the acquisition strategy. Second, we employed Fisher information to select configurations, further increasing the chances of discovering superior model merging configurations. Third, we designed a sparsity metric as an additional optimization objective to enhance the model's generalization performance across different tasks. We conducted comprehensive experiments with other mainstream model merging methods, demonstrating that our method consistently outperforms them. Moreover, performance improvements are observed even on the tasks not explicitly targeted as optimization objectives, indicating that our method enhances the overall potential of the model. ...
翻訳日:2024-08-13 20:53:08 公開日:2024-08-12
# 普遍近似理論:大規模言語モデルの基本理論

Universal Approximation Theory: The basic theory for large language models ( http://arxiv.org/abs/2407.00958v2 )

ライセンス: Link先を確認
Wei Wang, Qing Li, (参考訳) 言語モデルは、特にChatGPTのような画期的なイノベーションの導入によって、人工知能に重点を置く重要な領域として登場した。 大規模トランスフォーマーネットワークは、自然言語処理アルゴリズムの進歩において、急速に主要なアプローチとなっている。 Transformerアーキテクチャに基づいて構築されたこれらのモデルは、人間のコミュニケーションを忠実に模倣するインタラクションを可能にし、広範囲の知識を備え、人間のタスクを導くのにも役立てることができる。 目覚ましい能力と複雑さの増大にもかかわらず、大きな言語モデル(LLM)の理論的な基礎は依然として重要な疑問である。 Transformerが翻訳やコーディングといったインテリジェントな言語アプリケーションを動かすのになぜ効果的なのか? インコンテキストラーニング(ICL)におけるLLMの能力はどのようなものか? LoRA方式はLLMの微調整をいかに向上させるか? LLMの実用性を支えるものは何か? これらの重要な問題に対処し、LLM内の技術戦略を探求するために、ユニバーサル近似理論(UAT)を利用して理論的背景を提供し、これらの進歩を支えるメカニズムに光を当てる。

Language models have emerged as a critical area of focus in artificial intelligence, particularly with the introduction of groundbreaking innovations like ChatGPT. Large-scale Transformer networks have quickly become the leading approach for advancing natural language processing algorithms. Built on the Transformer architecture, these models enable interactions that closely mimic human communication and, equipped with extensive knowledge, can even assist in guiding human tasks. Despite their impressive capabilities and growing complexity, a key question remains-the theoretical foundations of large language models (LLMs). What makes Transformer so effective for powering intelligent language applications, such as translation and coding? What underlies LLMs' ability for In-Context Learning (ICL)? How does the LoRA scheme enhance the fine-tuning of LLMs? And what supports the practicality of pruning LLMs? To address these critical questions and explore the technological strategies within LLMs, we leverage the Universal Approximation Theory (UAT) to offer a theoretical backdrop, shedding light on the mechanisms that underpin these advancements.
翻訳日:2024-08-13 20:53:08 公開日:2024-08-12
# 分散情報ネットワーク(DIN)

Decentralized Intelligence Network (DIN) ( http://arxiv.org/abs/2407.02461v3 )

ライセンス: Link先を確認
Abraham Nash, (参考訳) 分散インテリジェンスネットワーク(DIN)は、データの断片化とサイロ化に対処し、データ主権を通じてスケーラブルなAIを可能にする理論的フレームワークである。 さまざまなデータソースにアクセスするための障壁を克服することで、主権ネットワーク内の効果的なAI利用を促進する。 1) 個人データストアは,参加者のコントロール内でデータがセキュアに保持されているデータ主権を保証する。 2) 分散AIトレーニングのためのパブリックブロックチェーン上に実装されたスケーラブルなフェデレーション学習プロトコル。 3) パブリックブロックチェーン上のスケーラブルで信頼性のない暗号化報酬機構により、参加をインセンティブ化し、分散監査プロトコルを通じて公正な報酬配布を保証する。 調整と報酬の分配は、不変レコードでパブリックブロックチェーン上で管理されるため、トレーニングデータへのアクセスを防ぎ、制御したり、金銭的利益に影響を与えることは、このアプローチによって保証される。 このフレームワークは、参加者がデータのコントロールを維持し、金銭的に利益を享受し、集団AIを活用して有益なアルゴリズムを開発する分散型でスケーラブルなエコシステムに貢献することで、効果的なAIトレーニングをサポートする。

Decentralized Intelligence Network (DIN) is a theoretical framework addressing data fragmentation and siloing challenges, enabling scalable AI through data sovereignty. It facilitates effective AI utilization within sovereign networks by overcoming barriers to accessing diverse data sources, leveraging: 1) personal data stores to ensure data sovereignty, where data remains securely within Participants' control; 2) a scalable federated learning protocol implemented on a public blockchain for decentralized AI training, where only model parameter updates are shared, keeping data within the personal data stores; and 3) a scalable, trustless cryptographic rewards mechanism on a public blockchain to incentivize participation and ensure fair reward distribution through a decentralized auditing protocol. This approach guarantees that no entity can prevent or control access to training data or influence financial benefits, as coordination and reward distribution are managed on the public blockchain with an immutable record. The framework supports effective AI training by allowing Participants to maintain control over their data, benefit financially, and contribute to a decentralized, scalable ecosystem that leverages collective AI to develop beneficial algorithms.
翻訳日:2024-08-13 20:53:08 公開日:2024-08-12
# Helios:常時オンのスマートアイウェアのための極めて低消費電力なイベントベースのジェスチャー認識

Helios: An extremely low power event-based gesture recognition for always-on smart eyewear ( http://arxiv.org/abs/2407.05206v3 )

ライセンス: Link先を確認
Prarthana Bhattacharyya, Joshua Mitton, Ryan Page, Owen Morgan, Ben Menzies, Gabriel Homewood, Kemi Jacobs, Paolo Baesso, Dave Trickett, Chris Mair, Taru Muhonen, Rory Clark, Louis Berridge, Richard Vigars, Iain Wallace, (参考訳) 本稿では,スマートアイウェアの日中使用用に設計された,非常に低消費電力でリアルタイムなイベントベースの手ジェスチャー認識システムであるHeliosを紹介する。 拡張現実(AR)が進化するにつれて、Meta Ray-Bansのような現在のスマートグラスは、機能を犠牲にして視覚とウェアラブルの快適さを優先する。 これらのデバイスに既存のヒューマンマシンインタフェース(HMI)(Capacitive Touch and Voice Control)は、エルゴノミクス、プライバシ、電力消費の制限を提示する。 Heliosは、より直感的で快適なユーザエクスペリエンスのために、自然なハンドインタラクションを活用することで、これらの課題に対処する。 本システムは,超低消費電力でコンパクトな3mmx4mm/20mWイベントカメラを用いて,常時オン型スマートアイウェアの自然な手動ジェスチャー認識を行う。 カメラの出力は、NXP Nano UltraLite計算プラットフォーム上で動作する畳み込みニューラルネットワーク(CNN)によって処理され、350mW未満を消費する。 Heliosは、スワイプやピンチなどの微妙なマイクロジェスチャーを含む7種類のジェスチャーを91%の精度で認識できる。 また、60ミリ秒という極めて低いレイテンシで、20ユーザにわたるリアルタイムパフォーマンスを実演しています。 ユーザテストの結果は、先日のAWE-USA-2024でのデモで得られた肯定的なフィードバックと一致しています。

This paper introduces Helios, the first extremely low-power, real-time, event-based hand gesture recognition system designed for all-day on smart eyewear. As augmented reality (AR) evolves, current smart glasses like the Meta Ray-Bans prioritize visual and wearable comfort at the expense of functionality. Existing human-machine interfaces (HMIs) in these devices, such as capacitive touch and voice controls, present limitations in ergonomics, privacy and power consumption. Helios addresses these challenges by leveraging natural hand interactions for a more intuitive and comfortable user experience. Our system utilizes a extremely low-power and compact 3mmx4mm/20mW event camera to perform natural hand-based gesture recognition for always-on smart eyewear. The camera's output is processed by a convolutional neural network (CNN) running on a NXP Nano UltraLite compute platform, consuming less than 350mW. Helios can recognize seven classes of gestures, including subtle microgestures like swipes and pinches, with 91% accuracy. We also demonstrate real-time performance across 20 users at a remarkably low latency of 60ms. Our user testing results align with the positive feedback we received during our recent successful demo at AWE-USA-2024.
翻訳日:2024-08-13 20:43:18 公開日:2024-08-12
# 教師付きローカルラーニングのためのモーメント補助ネットワーク

Momentum Auxiliary Network for Supervised Local Learning ( http://arxiv.org/abs/2407.05623v4 )

ライセンス: Link先を確認
Junhao Su, Changpeng Cai, Feiyu Zhu, Chenghao He, Xiaojie Xu, Dongzhi Guan, Chenyang Si, (参考訳) ディープニューラルネットワークは従来、トレーニングプロセスにエンドツーエンドのバックプロパゲーションを採用しており、生物学的信頼性が欠如し、ネットワークパラメータの更新中にロックジレンマを引き起こし、GPUメモリの使用が大幅に増加する。 ネットワークを独立した補助ネットワークによって更新された複数のローカルブロックに分割する。 しかし、これらの手法は、局所ブロック内でのみ勾配が伝播し、ブロック間の情報交換の欠如が生じるため、より低い精度でエンドツーエンドのトレーニングを置き換えることはできない。 この問題に対処し,ブロック間の情報伝達を確立するために,動的相互作用機構を確立するMomentum Auxiliary Network (MAN)を提案する。 MANは、隣接するローカルブロックからパラメータの指数移動平均(EMA)を利用して情報の流れを強化する。 EMAによって更新されたこの補助ネットワークは、ブロック間の情報ギャップをブリッジするのに役立つ。 それにもかかわらず、EMAパラメータの直接適用には、局所ブロック間の特徴の相違による一定の制限がある。 これを解決するために、学習可能なバイアスを導入し、パフォーマンスをさらに向上します。 我々は,4つの画像分類データセット (CIFAR-10, STL-10, SVHN, ImageNet) で本手法の有効性を検証した。 特に,本手法は,エンドツーエンドのトレーニングに比べ,イメージネットデータセット上でのGPUメモリ使用率を45%以上削減し,高性能化を実現している。 そこで、Momentum Auxiliary Networkは、教師付きローカル学習の新しい視点を提供する。 私たちのコードは、https://github.com/JunhaoSu0/MAN.comで利用可能です。

Deep neural networks conventionally employ end-to-end backpropagation for their training process, which lacks biological credibility and triggers a locking dilemma during network parameter updates, leading to significant GPU memory use. Supervised local learning, which segments the network into multiple local blocks updated by independent auxiliary networks. However, these methods cannot replace end-to-end training due to lower accuracy, as gradients only propagate within their local block, creating a lack of information exchange between blocks. To address this issue and establish information transfer across blocks, we propose a Momentum Auxiliary Network (MAN) that establishes a dynamic interaction mechanism. The MAN leverages an exponential moving average (EMA) of the parameters from adjacent local blocks to enhance information flow. This auxiliary network, updated through EMA, helps bridge the informational gap between blocks. Nevertheless, we observe that directly applying EMA parameters has certain limitations due to feature discrepancies among local blocks. To overcome this, we introduce learnable biases, further boosting performance. We have validated our method on four image classification datasets (CIFAR-10, STL-10, SVHN, ImageNet), attaining superior performance and substantial memory savings. Notably, our method can reduce GPU memory usage by more than 45\% on the ImageNet dataset compared to end-to-end training, while achieving higher performance. The Momentum Auxiliary Network thus offers a new perspective for supervised local learning. Our code is available at: https://github.com/JunhaoSu0/MAN.
翻訳日:2024-08-13 20:43:18 公開日:2024-08-12
# タミル語コンピューティングの現状と将来

Tamil Language Computing: the Present and the Future ( http://arxiv.org/abs/2407.08618v2 )

ライセンス: Link先を確認
Kengatharaiyer Sarveswaran, (参考訳) 本稿では、コンピュータが人間の言語を理解し、解釈し、生成できるようにするLanguage Computingのテキスト処理の側面について述べる。 音声認識、機械翻訳、感情分析、テキスト要約、言語モデリングといったタスクに焦点を当てた言語コンピューティングは、言語学、コンピュータ科学、認知心理学などの分野を統合し、有意義な人間とコンピュータの相互作用を生み出す。 近年のディープラーニングの進歩により、コンピュータはよりアクセスしやすくなり、独立した学習と適応が可能になった。 言語コンピューティングの状況を調べる上で、この論文は、タミルがASCIIからUnicodeに移行し、デジタル通信を強化したエンコーディングのような基礎的な作業を強調している。 効率的な言語処理に必要な生データ、辞書、用語集、注釈付きデータ、計算文法などの計算資源の開発について論じる。 言語アノテーションの課題、ツリーバンクの作成、および大規模言語モデルの訓練についても取り上げ、高品質で注釈付きデータや高度な言語モデルの必要性を強調している。 この論文は、日々のコミュニケーションのニーズに対応するために、Tamilのような言語のための実用的なアプリケーションを構築することの重要性を強調し、現在の技術のギャップを強調している。 研究協力の強化、歴史文書のデジタル化、タミル語処理の包括的な開発を保証するためのデジタル利用の促進、そして最終的にはグローバルなコミュニケーションとデジタルサービスへのアクセスを強化することを求めている。

This paper delves into the text processing aspects of Language Computing, which enables computers to understand, interpret, and generate human language. Focusing on tasks such as speech recognition, machine translation, sentiment analysis, text summarization, and language modelling, language computing integrates disciplines including linguistics, computer science, and cognitive psychology to create meaningful human-computer interactions. Recent advancements in deep learning have made computers more accessible and capable of independent learning and adaptation. In examining the landscape of language computing, the paper emphasises foundational work like encoding, where Tamil transitioned from ASCII to Unicode, enhancing digital communication. It discusses the development of computational resources, including raw data, dictionaries, glossaries, annotated data, and computational grammars, necessary for effective language processing. The challenges of linguistic annotation, the creation of treebanks, and the training of large language models are also covered, emphasising the need for high-quality, annotated data and advanced language models. The paper underscores the importance of building practical applications for languages like Tamil to address everyday communication needs, highlighting gaps in current technology. It calls for increased research collaboration, digitization of historical texts, and fostering digital usage to ensure the comprehensive development of Tamil language processing, ultimately enhancing global communication and access to digital services.
翻訳日:2024-08-13 20:43:18 公開日:2024-08-12
# ホーキング蒸発とランダウアー原理

Hawking evaporation and the Landauer Principle ( http://arxiv.org/abs/2407.08777v2 )

ライセンス: Link先を確認
Marina Cortês, Andrew R Liddle, (参考訳) ホーキングブラックホールの蒸発がランダウアーの熱力学の原理を飽和させることを示す。 以上の結果から,ホーキング蒸発時にブラックホールが経験した情報損失は可能な限り効率的に発生することが示唆された。 また, フラクタル事象水平線の現象論的実現としてのバローエントロピーの場合には, ランダウアー原理(Landauer Principle)がブラックホール温度の異なる選択肢に影響を及ぼす。 我々の知る限り、この研究は2つの結果を同じプロセスの表現として初めて同定したものである。

We show that Hawking black-hole evaporation saturates the Landauer Principle of information thermodynamics. Our result implies that information loss experienced by a black hole during Hawking evaporation takes place as efficiently as possible. We also extend the analysis to the case of Barrow entropy as a phenomenological realization of a fractal event horizon, where the Landauer Principle informs amongst different options for the black hole temperature. To our knowledge, this work is the first identification of the two results as expressions of the same process.
翻訳日:2024-08-13 20:43:18 公開日:2024-08-12
# 知識グラフクエリ埋め込み学習による$SROI^-$オントロジの生成

Generating $SROI^-$ Ontologies via Knowledge Graph Query Embedding Learning ( http://arxiv.org/abs/2407.09212v3 )

ライセンス: Link先を確認
Yunjie He, Daniel Hernandez, Mojtaba Nayyeri, Bo Xiong, Yuqicheng Zhu, Evgeny Kharlamov, Steffen Staab, (参考訳) クエリ埋め込みアプローチは、エンティティ、リレーション、クエリの低次元ベクトル表現を計算し操作することで、不完全知識グラフ(KG)上の複雑な論理的クエリに答える。 しかし、現在のクエリ埋め込みモデルは過度にパラメータ化されたニューラルネットワークに依存しており、グラフから学んだ知識を説明できない。 本稿では,このグラフから得られた知識を,SROI^-$記述論理の公理の形で説明し,従来のアプローチよりもパラメータ効率がよい新しいクエリ埋め込み手法AConEを提案する。 AConEはクエリを$SROI^-$記述ロジックの概念に関連付ける。 任意の$SROI^-$概念は複素ベクトル空間の錐として埋め込まれ、それぞれの$SROI^-$関係は錐を回転させ拡大する変換として埋め込まれる。 理論的には、AConEは$SROI^-$公理を学習でき、演算が1から$SROI^-$記述論理の概念を構成する代数学を定義する。 複数のクエリデータセットに関する実証研究により、AConEはパラメータが少なく、以前のベースラインよりも優れた結果が得られることが示された。 特にWN18RRデータセットでは、AConEはベースラインモデルよりも大幅に改善されている。 我々は,公理を表現する能力が問合せ応答の結果に肯定的な影響を及ぼすことを示す包括的分析を行った。

Query embedding approaches answer complex logical queries over incomplete knowledge graphs (KGs) by computing and operating on low-dimensional vector representations of entities, relations, and queries. However, current query embedding models heavily rely on excessively parameterized neural networks and cannot explain the knowledge learned from the graph. We propose a novel query embedding method, AConE, which explains the knowledge learned from the graph in the form of $SROI^-$ description logic axioms while being more parameter-efficient than most existing approaches. AConE associates queries to a $SROI^-$ description logic concept. Every $SROI^-$ concept is embedded as a cone in complex vector space, and each $SROI^-$ relation is embedded as a transformation that rotates and scales cones. We show theoretically that AConE can learn $SROI^-$ axioms, and defines an algebra whose operations correspond one to one to $SROI^-$ description logic concept constructs. Our empirical study on multiple query datasets shows that AConE achieves superior results over previous baselines with fewer parameters. Notably on the WN18RR dataset, AConE achieves significant improvement over baseline models. We provide comprehensive analyses showing that the capability to represent axioms positively impacts the results of query answering.
翻訳日:2024-08-13 20:43:18 公開日:2024-08-12
# xLSTMTime : xLSTMによる長期時系列予測

xLSTMTime : Long-term Time Series Forecasting With xLSTM ( http://arxiv.org/abs/2407.10240v3 )

ライセンス: Link先を確認
Musleh Alharthi, Ausif Mahmood, (参考訳) 近年,多変量時系列予測(LTSF)では,高い計算要求,時間的ダイナミックス獲得の難しさ,長期依存の管理といった課題に直面しつつも,大きな進歩をみせている。 LTSF-Linearの出現は、その直線的アーキテクチャによって明らかにトランスフォーマーベースのアーキテクチャよりも優れており、時系列予測におけるトランスフォーマーの有用性の再評価につながっている。 そこで本研究では,最近のアーキテクチャである拡張LSTM (xLSTM) をLTSFに適用した。 xLSTM には指数ゲーティングと、LTSF に有望な高容量のメモリ構造が組み込まれている。 LTSF に採用したアーキテクチャは xLSTMTime と呼ばれ、現在のアプローチを超越しています。 我々は、xLSTMTimeの性能を、複数の実世界のダ-タセットにわたる様々な最先端モデルと比較し、優れた予測能力を示す。 この結果から,改良されたリカレントアーキテクチャは,時系列予測のランドスケープを再定義するLTSFタスクにおいて,トランスフォーマーモデルに代わる競合的な代替手段を提供する可能性が示唆された。

In recent years, transformer-based models have gained prominence in multivariate long-term time series forecasting (LTSF), demonstrating significant advancements despite facing challenges such as high computational demands, difficulty in capturing temporal dynamics, and managing long-term dependencies. The emergence of LTSF-Linear, with its straightforward linear architecture, has notably outperformed transformer-based counterparts, prompting a reevaluation of the transformer's utility in time series forecasting. In response, this paper presents an adaptation of a recent architecture termed extended LSTM (xLSTM) for LTSF. xLSTM incorporates exponential gating and a revised memory structure with higher capacity that has good potential for LTSF. Our adopted architecture for LTSF termed as xLSTMTime surpasses current approaches. We compare xLSTMTime's performance against various state-of-the-art models across multiple real-world da-tasets, demonstrating superior forecasting capabilities. Our findings suggest that refined recurrent architectures can offer competitive alternatives to transformer-based models in LTSF tasks, po-tentially redefining the landscape of time series forecasting.
翻訳日:2024-08-13 20:43:18 公開日:2024-08-12
# 大規模言語モデルの LoRA に関する調査

A Survey on LoRA of Large Language Models ( http://arxiv.org/abs/2407.11046v3 )

ライセンス: Link先を確認
Yuren Mao, Yuhang Ge, Yijiang Fan, Wenyi Xu, Yu Mi, Zhonghao Hu, Yunjun Gao, (参考訳) Low-Rank Adaptation~(LoRA)は、高密度ニューラルネットワーク層をプラグ可能な低ランク行列で更新する、パラメータ効率の良い微調整パラダイムの1つである。 さらに、クロスタスクの一般化とプライバシ保護において大きな利点がある。 したがって、LoRAは近年注目を集めており、関連する文献の数は指数関数的な成長を示している。 LoRAの現状を概観する必要がある。 本調査は,(1)ダウンストリーム適応の改善による下流タスクの性能向上,(2)複数のLoRAプラグインを混合してタスク間一般化を実現するクロスタスク一般化手法,(3)LoRAの計算効率を高める効率改善手法,(4)LoRAをフェデレート学習に使用するデータプライバシ保護手法,(5)アプリケーションの観点から,進捗を分類し,レビューする。 また,本調査では今後の方向性についても論じる。 最後に、私たちはGithubページ~\footnote{\href{https://github.com/ZJU-LLMs/Awesome-LoRAs.git}{https://github.com/ZJU-LLMs/Awesome-LoRAs.git}}を読者に提供し、この調査論文の更新を確認し、議論を開始する。

Low-Rank Adaptation~(LoRA), which updates the dense neural network layers with pluggable low-rank matrices, is one of the best performed parameter efficient fine-tuning paradigms. Furthermore, it has significant advantages in cross-task generalization and privacy-preserving. Hence, LoRA has gained much attention recently, and the number of related literature demonstrates exponential growth. It is necessary to conduct a comprehensive overview of the current progress on LoRA. This survey categorizes and reviews the progress from the perspectives of (1) downstream adaptation improving variants that improve LoRA's performance on downstream tasks; (2) cross-task generalization methods that mix multiple LoRA plugins to achieve cross-task generalization; (3) efficiency-improving methods that boost the computation-efficiency of LoRA; (4) data privacy-preserving methods that use LoRA in federated learning; (5) application. Besides, this survey also discusses the future directions in this field. At last, we provide a Github page~\footnote{\href{https://github.com/ZJU-LLMs/Awesome-LoRAs.git}{https://github.com/ZJU-LLMs/Awesome-LoRAs.git}} for readers to check the updates and initiate discussions on this survey paper.
翻訳日:2024-08-13 20:43:18 公開日:2024-08-12
# Kolmogorov Arnold Networks (KAN) に関する総合調査

A Comprehensive Survey on Kolmogorov Arnold Networks (KAN) ( http://arxiv.org/abs/2407.11075v3 )

ライセンス: Link先を確認
Yuntian Hou, Di Zhang, (参考訳) Kolmogorov-Arnold Networks (KAN) の包括的調査を通じて、我々はその理論的基盤、アーキテクチャ設計、アプリケーションシナリオ、そして現在の研究の進捗を深く理解した。 Kanは独自のアーキテクチャと柔軟なアクティベーション機能を備え、複雑なデータパターンと非線形関係の処理に優れ、幅広いアプリケーションの可能性を示している。 課題は残るが、kanは様々な分野における革新的なソリューションの道を切り開いており、複雑な計算問題にどのようにアプローチするかに革命をもたらす可能性がある。

Through this comprehensive survey of Kolmogorov-Arnold Networks(KAN), we have gained a thorough understanding of its theoretical foundation, architectural design, application scenarios, and current research progress. KAN, with its unique architecture and flexible activation functions, excels in handling complex data patterns and nonlinear relationships, demonstrating wide-ranging application potential. While challenges remain, KAN is poised to pave the way for innovative solutions in various fields, potentially revolutionizing how we approach complex computational problems.
翻訳日:2024-08-13 20:43:18 公開日:2024-08-12
# 3Qubit Toffoli-Hadamard回路の音場と完全等式理論

A Sound and Complete Equational Theory for 3-Qubit Toffoli-Hadamard Circuits ( http://arxiv.org/abs/2407.11152v3 )

ライセンス: Link先を確認
Matthew Amy, Neil J. Ross, Scott Wesley, (参考訳) Toffoli-Hadamardゲート集合 {X, CX, CCX, H } 上の3量子量子回路に対して、音場と完全方程式理論を与える。 すなわち、3つの量子ビット上のトフォリ・ハダマール回路間の真の方程式の集まりを導入し、そのような回路間の他の真の方程式を導出するのに十分である。 この方程式理論を得るために、まず最初に、K = HxH となるトフォリ-Kゲート集合 {X, CX, CCX, K } 上の回路を考える。 Toffoli-Hadamard と Toffoli-K のゲートセットは似ているように見えるが、それらは正確に3つのキュービットで決定的に異なる。 実際、この場合、前者は作用素の無限群を生成し、後者はよく知られたE8格子の自己同型有限群を生成する。 この事実と格子の自己同型群の理論を利用して、トフォリ-K回路の健全かつ完全な方程式の集まりを得る。 次に、この方程式理論をトフォリ・ハダード回路に拡張し、トフォリ・ハダード作用素上のLi と al の以前の仕事を活用する。

We give a sound and complete equational theory for 3-qubit quantum circuits over the Toffoli-Hadamard gate set { X, CX, CCX, H }. That is, we introduce a collection of true equations among Toffoli-Hadamard circuits on three qubits that is sufficient to derive any other true equation between such circuits. To obtain this equational theory, we first consider circuits over the Toffoli-K gate set { X, CX, CCX, K }, where K = HxH. The Toffoli-Hadamard and Toffoli-K gate sets appear similar, but they are crucially different on exactly three qubits. Indeed, in this case, the former generates an infinite group of operators, while the latter generates the finite group of automorphisms of the well-known E8 lattice. We take advantage of this fact, and of the theory of automorphism groups of lattices, to obtain a sound and complete collection of equations for Toffoli-K circuits. We then extend this equational theory to one for Toffoli-Hadamard circuits by leveraging prior work of Li et al. on Toffoli-Hadamard operators.
翻訳日:2024-08-13 20:43:18 公開日:2024-08-12
# 量子コヒーレンスの動的キャラクタリゼーション

Dynamical Characterization of Quantum Coherence ( http://arxiv.org/abs/2407.11568v2 )

ライセンス: Link先を確認
Hai Wang, (参考訳) 量子コヒーレンス(quantum coherence)は、量子力学の重ね合わせの性質に根ざした、量子技術の核となる量子資源である。 これまで、コヒーレンスに関する様々な方法、運用上の解釈、一般化が提案されてきた。 しかし、量子力学におけるコヒーレンスの役割についてはまだ明らかになっていない。 この研究において、ユニタリ進化の観点では、コヒーレンスの効果が完全に表れている。 第一に、平均量子距離という新しい概念を導入することで、時間に依存しないハミルトン派では、量子コヒーレンスが平均進化速度であり、その逆であることを示す。 第二に、この平均的な設定を超えて、一般的な場合、コヒーレンスとハミルトンの固有値が、それらのトレードオフが実際にエネルギーの不確実性である瞬間的な進化速度をどのように決定するかを示す。 量子力学におけるコヒーレンスの役割は,量子力学と量子資源の関係から明らかである。

Quantum coherence, rooted in the superposition nature of quantum mechanics, is one core quantum resource in quantum technologies. Until now, various measures, operational interpretations and generalizations about coherence have been proposed. However, it is still not clear about the role coherence playing in quantum dynamics. In this work, in terms of unitary evolutions, the effect of coherence is fully exhibited. Firstly, by introducing the new concept, average quantum distance, we show that for time-independent Hamiltonians, quantum coherence is the average evolution speed and vice versa. Secondly, beyond this average setting, for general cases, we show that how coherence and Hamiltonians' eigenvalues determine the instantaneous evolution speed together, where their trade-off is actually the energy uncertainty. Our results definitely clarify the role coherence playing in quantum systems' dynamics, correlating quantum resources with quantum dynamics.
翻訳日:2024-08-13 20:43:18 公開日:2024-08-12
# プラットフォームと言語を越えて: オランダのインフルエンサーとInstagram、YouTube、TikTok上の法的開示

Across Platforms and Languages: Dutch Influencers and Legal Disclosures on Instagram, YouTube and TikTok ( http://arxiv.org/abs/2407.12451v2 )

ライセンス: Link先を確認
Haoyang Gui, Thales Bertaglia, Catalina Goanta, Sybe de Vries, Gerasimos Spanakis, (参考訳) ソーシャルメディア上のコンテンツ収益化は、インフルエンサー経済を加速させる。 インフルエンサーマーケティングは、ソーシャルメディア上でほとんど公表されていないか、不適切に開示されている。 非開示問題は、ますます厳しい制裁を課し始めている世界各国や超国家当局にとって、優先事項となっている。 本稿では,法的基準に基づいて,インフルエンサーが開示を遵守するかどうかを,透過的に測定する手法を提案する。 我々は,法的に十分な(緑)と法的に不十分な(黄)開示の区別を新たに導入する。 本手法を,最近導入された登録義務に基づき,オランダメディア機関に公に登録された150人のオランダ人インフルエンサーの内容を反映したオリジナルデータセットに適用する。 データセットは292,315のポストで構成され、多言語(英語とオランダ語)とクロスプラットフォーム(Instagram、YouTube、TikTok)で構成されている。 インフルエンサーのマーケティングは、一般的にソーシャルメディア上では公表されていないが、大きなインフルエンサーは必ずしも開示基準に準拠しているとは限らない。

Content monetization on social media fuels a growing influencer economy. Influencer marketing remains largely undisclosed or inappropriately disclosed on social media. Non-disclosure issues have become a priority for national and supranational authorities worldwide, who are starting to impose increasingly harsher sanctions on them. This paper proposes a transparent methodology for measuring whether and how influencers comply with disclosures based on legal standards. We introduce a novel distinction between disclosures that are legally sufficient (green) and legally insufficient (yellow). We apply this methodology to an original dataset reflecting the content of 150 Dutch influencers publicly registered with the Dutch Media Authority based on recently introduced registration obligations. The dataset consists of 292,315 posts and is multi-language (English and Dutch) and cross-platform (Instagram, YouTube and TikTok). We find that influencer marketing remains generally underdisclosed on social media, and that bigger influencers are not necessarily more compliant with disclosure standards.
翻訳日:2024-08-13 20:43:18 公開日:2024-08-12
# SELF-GUIDE: 自己合成ファインタニングによるタスク特定指導の改善

SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning ( http://arxiv.org/abs/2407.12874v2 )

ライセンス: Link先を確認
Chenyang Zhao, Xueying Jia, Vijay Viswanathan, Tongshuang Wu, Graham Neubig, (参考訳) 大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。 しかしながら、モデルのプロンプトは、十分なトレーニングデータでモデルを微調整するよりも、精度の低い予測をすることがしばしばある。 一方、タスク固有のデータ上でのLCMの微調整は、一般的にそのパフォーマンスを改善するが、豊富な注釈付きデータセットは全てのタスクで利用できない。 従来の研究では、最先端のLLMからタスク固有のデータを生成して、このデータを使ってより小さなモデルを微調整する方法が検討されてきたが、このアプローチでは、トレーニング対象以外の言語モデルへのアクセスが必要となり、コスト、スケーラビリティの課題、より強力なLLMに継続的に依存する法的なハードルがもたらされる。 これに対応して,学生LLMからタスク固有の入出力ペアを合成し,これらの入出力ペアを用いて学生LLM自体を微調整する多段階メカニズムであるSELF-GUIDEを提案する。 本研究では,Natural Instructions V2ベンチマークを実証的に評価した結果,SELF-GUIDEによりLLMの性能が大幅に向上することが確認された。 具体的には,分類タスクが約15%,生成タスクが18%の絶対的な改善をベンチマークの指標で報告する。 このことは、LLMが外部の学習信号なしでタスク固有の専門家になるための自己合成データの約束に光を当てている。

Large language models (LLMs) hold the promise of solving diverse tasks when provided with appropriate natural language prompts. However, prompting often leads models to make predictions with lower accuracy compared to finetuning a model with ample training data. On the other hand, while finetuning LLMs on task-specific data generally improves their performance, abundant annotated datasets are not available for all tasks. Previous work has explored generating task-specific data from state-of-the-art LLMs and using this data to finetune smaller models, but this approach requires access to a language model other than the one being trained, which introduces cost, scalability challenges, and legal hurdles associated with continuously relying on more powerful LLMs. In response to these, we propose SELF-GUIDE, a multi-stage mechanism in which we synthesize task-specific input-output pairs from the student LLM, then use these input-output pairs to finetune the student LLM itself. In our empirical evaluation of the Natural Instructions V2 benchmark, we find that SELF-GUIDE improves the performance of LLM by a substantial margin. Specifically, we report an absolute improvement of approximately 15% for classification tasks and 18% for generation tasks in the benchmark's metrics. This sheds light on the promise of self-synthesized data guiding LLMs towards becoming task-specific experts without any external learning signals.
翻訳日:2024-08-13 20:33:33 公開日:2024-08-12
# 境界駆動型XXZスピン鎖における無秩序および無秩序の弾道伝導

Ballistic conductance with and without disorder in a boundary-driven XXZ spin chain ( http://arxiv.org/abs/2407.13816v2 )

ライセンス: Link先を確認
Adam J. McRoberts, Roderich Moessner, (参考訳) 近年の Google の sycamore NISQ プラットフォームにおける XXZ 鎖の非単位周期境界駆動によるスピン輸送に関する実験により,解析的および数値的手段を組み合わせた古典的変種について検討した。 古典的モデルは量子結果を顕著に再現し、スピン輸送の3つの異なる状態、すなわち弾道性(平面)、亜拡散性(等方性)、絶縁性(軸性)の性質と形状を解析的にハンドリングする。 さらに、この現象学は、安定状態に近づく過渡的ダイナミクスが、清潔なケースと乱れたケースの間に質的に異なるにもかかわらず、結合障害の包含に対して著しく堅牢であることを示し、乱れた環境で弾道的輸送のインスタンスを提供する。

Motivated by recent experiments on Google's sycamore NISQ platform on the spin transport resulting from a non-unitary periodic boundary drive of an XXZ chain, we study a classical variant thereof by a combination of analytical and numerical means. We find the classical model reproduces the quantum results in remarkable detail, and provides an analytical handle on the nature and shape of the spin transport's three distinct regimes: ballistic (easy-plane), subdiffusive (isotropic) and insulating (easy-axis). Further, we show that this phenomenology is remarkably robust to the inclusion of bond disorder -- albeit that the transient dynamics approaching the steady states differs qualitatively between the clean and disordered cases -- providing an accessible instance of ballistic transport in a disordered setting.
翻訳日:2024-08-13 20:33:33 公開日:2024-08-12
# Discover-then-Name: 自動概念発見によるタスク非依存の概念ボトルネック

Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery ( http://arxiv.org/abs/2407.14499v2 )

ライセンス: Link先を確認
Sukrut Rao, Sweta Mahajan, Moritz Böhle, Bernt Schiele, (参考訳) 概念ボトルネックモデル(CBM)は、人間の理解可能な概念空間にイメージをマッピングし、次に分類のための概念を線形に組み合わせることで、ディープニューラルネットワークの「ブラックボックス」問題に対処するために最近提案されている。 このようなモデルは通常、まずタスクに関連する概念のセットを思いつき、次にこれらの概念にマップするために特徴抽出器の表現を調整する必要がある。 しかし、CLIPのような強力な基本機能抽出器であっても、特定の概念が検出可能である保証はない。 本研究では、近年の機械的解釈可能性の進歩を活用し、典型的なパラダイムを逆転するDiscover-then-Name-CBM(DN-CBM)と呼ばれる新しいCBMアプローチを提案する。 我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。 我々は,複数のデータセットやCLIPアーキテクチャを包括的に評価し,その手法が意味論的に意味のある概念を導出し,それらに適切な名前を与えて解釈しやすくし,性能的かつ解釈可能なCBMを導出することを示す。 コードはhttps://github.com/neuroexplicit-saar/discover-then-nameで公開されている。

Concept Bottleneck Models (CBMs) have recently been proposed to address the 'black-box' problem of deep neural networks, by first mapping images to a human-understandable concept space and then linearly combining concepts for classification. Such models typically require first coming up with a set of concepts relevant to the task and then aligning the representations of a feature extractor to map to these concepts. However, even with powerful foundational feature extractors like CLIP, there are no guarantees that the specified concepts are detectable. In this work, we leverage recent advances in mechanistic interpretability and propose a novel CBM approach -- called Discover-then-Name-CBM (DN-CBM) -- that inverts the typical paradigm: instead of pre-selecting concepts based on the downstream classification task, we use sparse autoencoders to first discover concepts learnt by the model, and then name them and train linear probes for classification. Our concept extraction strategy is efficient, since it is agnostic to the downstream task, and uses concepts already known to the model. We perform a comprehensive evaluation across multiple datasets and CLIP architectures and show that our method yields semantically meaningful concepts, assigns appropriate names to them that make them easy to interpret, and yields performant and interpretable CBMs. Code available at https://github.com/neuroexplicit-saar/discover-then-name.
翻訳日:2024-08-13 20:33:33 公開日:2024-08-12
# 治療効果の定量化によるバイアス補正基準の改善

Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes ( http://arxiv.org/abs/2407.14861v2 )

ライセンス: Link先を確認
Alexandre Abraham, Andrés Hoyos Idrobo, (参考訳) 行政保健データベースへのアクセスが増加するにつれ、レトロスペクティブ研究は医療治療にとって重要な証拠となっている。 しかし、非ランダム化研究はしばしば選択バイアスに直面し、緩和戦略を必要とする。 確率スコアマッチング(PSM)は、これらのバイアスに、同等の集団を選択することで対処し、さらなる方法論的な制約を伴わない分析を可能にする。 しかし、PSMにはいくつかの欠点がある。 異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。 チェリーピッキングの最良の方法を避けるために、公共機関はフィールドの専門家を巻き込み、研究者と広範囲にわたる議論を行う必要がある。 この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。 A2Aは、元のものを反映した人工的なマッチングタスクを構築し、各マッチングメソッドのパフォーマンスを、確率推定からATE推定まで包括的に評価する。 標準平均差(Standardized Mean difference)と組み合わせると、A2Aはモデル選択の精度を高め、合成タスク間でのATE推定誤差を最大50%削減し、合成データセットと実世界のデータセットの両方で予測されるATE変動率を最大90%削減する。 我々の知る限り、A2Aは選択に関わらない共変量を用いて結果補正の精度を評価することができる最初の指標である。 A2Aを計算するには、数百のPSMを解く必要があるため、PSMパイプラインのすべての手動ステップを自動化する。 我々はPythonとRのPSMメソッド、自動パイプライン、新しいメトリック、再現可能な実験を新しいPythonパッケージであるPopmatchに統合し、再現性とバイアス補正メソッドへのアクセシビリティを向上させる。

With the growing access to administrative health databases, retrospective studies have become crucial evidence for medical treatments. Yet, non-randomized studies frequently face selection biases, requiring mitigation strategies. Propensity score matching (PSM) addresses these biases by selecting comparable populations, allowing for analysis without further methodological constraints. However, PSM has several drawbacks. Different matching methods can produce significantly different Average Treatment Effects (ATE) for the same task, even when meeting all validation criteria. To prevent cherry-picking the best method, public authorities must involve field experts and engage in extensive discussions with researchers. To address this issue, we introduce a novel metric, A2A, to reduce the number of valid matches. A2A constructs artificial matching tasks that mirror the original ones but with known outcomes, assessing each matching method's performance comprehensively from propensity estimation to ATE estimation. When combined with Standardized Mean Difference, A2A enhances the precision of model selection, resulting in a reduction of up to 50% in ATE estimation errors across synthetic tasks and up to 90% in predicted ATE variability across both synthetic and real-world datasets. To our knowledge, A2A is the first metric capable of evaluating outcome correction accuracy using covariates not involved in selection. Computing A2A requires solving hundreds of PSMs, we therefore automate all manual steps of the PSM pipeline. We integrate PSM methods from Python and R, our automated pipeline, a new metric, and reproducible experiments into popmatch, our new Python package, to enhance reproducibility and accessibility to bias correction methods.
翻訳日:2024-08-13 20:33:33 公開日:2024-08-12
# LPGen:拡散モデルによる高忠実景観絵画の創出

LPGen: Enhancing High-Fidelity Landscape Painting Generation through Diffusion Model ( http://arxiv.org/abs/2407.17229v3 )

ライセンス: Link先を確認
Wanggong Yang, Xiaona Wang, Yingrui Qiu, Yifei Zhao, (参考訳) 風景画の生成は、芸術的創造性と想像力の可能性を拡大する。 伝統的な風景画法では、紙に墨や彩色墨を用い、かなりの時間と労力を要する。 これらの手法は誤りや不整合に影響を受けやすく、線や色を正確に制御できない。 本稿では,画像プロンプトを拡散モデルに統合する新しいマルチモーダルフレームワーク,LPGenを提案する。 対象のランドスケープ画像からキャニーエッジを計算し,そのエッジと輪郭を抽出する。 これらは、自然言語のテキストプロンプトや描画スタイルの参照とともに、潜在拡散モデルに条件として入力される。 我々は、画像とテキストのプロンプトの互換性を確保するために、分離されたクロスアテンション戦略を実装し、マルチモーダル画像生成を容易にする。 デコーダは最終画像を生成する。 定量的・定性的な分析により,本手法は風景画の既存の手法よりも優れており,現状を超越していることが示された。 LPGenネットワークは、ランドスケープ絵画の構成と色を効果的に制御し、より正確な画像を生成し、深層学習に基づくランドスケープ絵画生成のさらなる研究を支援する。

Generating landscape paintings expands the possibilities of artistic creativity and imagination. Traditional landscape painting methods involve using ink or colored ink on rice paper, which requires substantial time and effort. These methods are susceptible to errors and inconsistencies and lack precise control over lines and colors. This paper presents LPGen, a high-fidelity, controllable model for landscape painting generation, introducing a novel multi-modal framework that integrates image prompts into the diffusion model. We extract its edges and contours by computing canny edges from the target landscape image. These, along with natural language text prompts and drawing style references, are fed into the latent diffusion model as conditions. We implement a decoupled cross-attention strategy to ensure compatibility between image and text prompts, facilitating multi-modal image generation. A decoder generates the final image. Quantitative and qualitative analyses demonstrate that our method outperforms existing approaches in landscape painting generation and exceeds the current state-of-the-art. The LPGen network effectively controls the composition and color of landscape paintings, generates more accurate images, and supports further research in deep learning-based landscape painting generation.
翻訳日:2024-08-13 20:33:33 公開日:2024-08-12
# ユニバーサル近似理論:深層学習に基づくコンピュータビジョンモデルの基礎理論

Universal Approximation Theory: The basic theory for deep learning-based computer vision models ( http://arxiv.org/abs/2407.17480v2 )

ライセンス: Link先を確認
Wei Wang, Qing Li, (参考訳) コンピュータビジョン(CV)は人工知能において最も重要な分野の一つである。 近年,畳み込みニューラルネットワーク(CNN)とトランスフォーマーに基づく様々なディープラーニングモデルが,CVの多様な問題に対処するために設計されている。 これらのアルゴリズムはロボット工学や顔認識などの分野で実用化されている。 現在のCVモデルのパワーの増大にもかかわらず、いくつかの根本的な疑問は未解決のままである。 CNNの一般化能力はどうなるのか? なぜ残差ベースのネットワークはVGGのような完全な畳み込みネットワークを上回るのか? 残差ベースのCNNとTransformerベースのネットワークの根本的な違いは何ですか? なぜCNNはLoRAとプルーニング技術を利用するのか? これらの疑問の根本原因は、CVにおけるディープラーニングモデルのための堅牢な理論的基盤が欠如していることにある。 これらの重要な問題と技術に対処するため、CVにおける畳み込みモデルとトランスフォーマーモデルの理論基盤を提供するためにユニバーサル近似定理(UAT)を用いる。 そこで我々は,これらの疑問を理論的観点から解明することを目指す。

Computer vision (CV) is one of the most crucial fields in artificial intelligence. In recent years, a variety of deep learning models based on convolutional neural networks (CNNs) and Transformers have been designed to tackle diverse problems in CV. These algorithms have found practical applications in areas such as robotics and facial recognition. Despite the increasing power of current CV models, several fundamental questions remain unresolved: Why do CNNs require deep layers? What ensures the generalization ability of CNNs? Why do residual-based networks outperform fully convolutional networks like VGG? What is the fundamental difference between residual-based CNNs and Transformer-based networks? Why can CNNs utilize LoRA and pruning techniques? The root cause of these questions lies in the lack of a robust theoretical foundation for deep learning models in CV. To address these critical issues and techniques, we employ the Universal Approximation Theorem (UAT) to provide a theoretical basis for convolution- and Transformer-based models in CV. By doing so, we aim to elucidate these questions from a theoretical perspective.
翻訳日:2024-08-13 20:33:33 公開日:2024-08-12
# CSWin-UNet: 医療画像セグメンテーションのためのクロスシェイプWindowsを用いたトランスフォーマーUNet

CSWin-UNet: Transformer UNet with Cross-Shaped Windows for Medical Image Segmentation ( http://arxiv.org/abs/2407.18070v2 )

ライセンス: Link先を確認
Xiao Liu, Peng Gao, Tao Yu, Fei Wang, Ru-Yue Yuan, (参考訳) 深層学習、特に畳み込みニューラルネットワーク(CNN)とトランスフォーマーアーキテクチャは、医用画像セグメンテーションにおける広範な研究の焦点となり、印象的な成果を上げている。 しかし、CNNはより複雑で多様なセグメンテーションシナリオにおいて、その効果を制限する誘導バイアスを伴っている。 逆に、Transformerベースの手法は、グローバルおよび長距離のセマンティックな詳細を捉えるのに優れているが、高い計算要求に悩まされている。 本研究では,CSWin自己保持機構をUNetに組み込んで,水平および垂直のストライプの自己保持を容易にする新しいU字分割手法CSWin-UNetを提案する。 この方法は、計算効率と受容場相互作用の両方を大幅に向上させる。 さらに、我々の革新的なデコーダは、予測されたカーネルによって誘導される特徴を戦略的に再構成するコンテンツ認識再組み立て演算子を用いて、正確な画像解像度の復元を行う。 シナプス多臓器CT, 心臓MRI, 皮膚病変など, 多様なデータセットに対する広範な実験により, CSWin-UNetは高いセグメンテーション精度を達成しつつ, 低モデルの複雑さを維持していることが示された。

Deep learning, especially convolutional neural networks (CNNs) and Transformer architectures, have become the focus of extensive research in medical image segmentation, achieving impressive results. However, CNNs come with inductive biases that limit their effectiveness in more complex, varied segmentation scenarios. Conversely, while Transformer-based methods excel at capturing global and long-range semantic details, they suffer from high computational demands. In this study, we propose CSWin-UNet, a novel U-shaped segmentation method that incorporates the CSWin self-attention mechanism into the UNet to facilitate horizontal and vertical stripes self-attention. This method significantly enhances both computational efficiency and receptive field interactions. Additionally, our innovative decoder utilizes a content-aware reassembly operator that strategically reassembles features, guided by predicted kernels, for precise image resolution restoration. Our extensive empirical evaluations on diverse datasets, including synapse multi-organ CT, cardiac MRI, and skin lesions, demonstrate that CSWin-UNet maintains low model complexity while delivering high segmentation accuracy.
翻訳日:2024-08-13 20:33:33 公開日:2024-08-12
# DINOv2 Rocks Geological Image Analysis: Classification, Segmentation, and Interpretability

DINOv2 Rocks Geological Image Analysis: Classification, Segmentation, and Interpretability ( http://arxiv.org/abs/2407.18100v2 )

ライセンス: Link先を確認
Florent Brondolo, Samuel Beaussant, (参考訳) 本研究では,岩石試料のCTスキャン画像の解釈可能性,分類,セグメンテーションについて検討し,特に地球科学におけるDINOv2の適用性に着目した。 地質画像解析において, その有効性, 効率, 適応性を評価するために, 様々なセグメンテーション手法を比較した。 評価方法は、大津しきい値法、クラスタリング技術(K平均とファジィC平均)、教師付き機械学習アプローチ(ランドムフォレスト)、ディープラーニング手法(UNetとDINOv2)などである。 10個の砂岩データセットと3つの多クラスカルサイトデータセットを用いてこれらの手法を検証した。 まず,DINOv2の特徴を地質学的文脈で網羅的に解析し,その適合性と,CTスキャンによる岩石データの処理能力について論じる。 分類の面では、DINOv2は、CTスキャンが元のトレーニングセットから外れている場合でも、ロック画像を完璧に分類する能力を示している。 セグメンテーション、しきい値設定、教師なしの手法は、高速ながら画像前処理に拘わらず性能が良くないが、教師付き手法はより良い結果を示す。 深層学習の計算的要求を過小評価するが、画像前処理を必要とせず、最小限の介入、高度な一般化、性能を強調している。 さらに,ネットワークの深さとパラメータ数と性能との相関関係の欠如も観察する。 以上の結果から,LoRA微調整DINOv2は分布外セグメンテーションにおいて優れ,マルチクラスセグメンテーションにおいて他の手法よりも優れていた。 これらの手法を体系的に比較することにより、精巧かつ精巧なセグメンテーションタスクの最も効率的な戦略を特定する。 DINOv2は、比較的小さな訓練セットに対して「地道より優れている」と表現できるセグメンテーションを達成するという利点を証明している。

This study investigates the interpretability, classification, and segmentation of CT-scan images of rock samples, with a particular focus on the application of DINOv2 within Geosciences. We compared various segmentation techniques to evaluate their efficacy, efficiency, and adaptability in geological image analysis. The methods assessed include the Otsu thresholding method, clustering techniques (K-means and fuzzy C-means), a supervised machine learning approach (Random Forest), and deep learning methods (UNet and DINOv2). We tested these methods using ten binary sandstone datasets and three multi-class calcite datasets. To begin, we provide a thorough interpretability analysis of DINOv2's features in the geoscientific context, discussing its suitability and inherent ability to process CT-scanned rock data. In terms of classification, the out-of-the-box DINOv2 demonstrates an impressive capability to perfectly classify rock images, even when the CT scans are out of its original training set. Regarding segmentation, thresholding and unsupervised methods, while fast, perform poorly despite image preprocessing, whereas supervised methods show better results. We underscore the computational demands of deep learning but highlight its minimal intervention, superior generalization, and performance without additional image preprocessing. Additionally, we observe a lack of correlation between a network's depth or the number of parameters and its performance. Our results show that a LoRA fine-tuned DINOv2 excels in out-of-distribution segmentation and significantly outperforms other methods in multi-class segmentation. By systematically comparing these methods, we identify the most efficient strategy for meticulous and laborious segmentation tasks. DINOv2 proves advantageous, achieving segmentations that could be described as "better than ground-truth" against relatively small training sets.
翻訳日:2024-08-13 20:23:30 公開日:2024-08-12
# 三元認証方式による複数要素認証の代替

An Alternative to Multi-Factor Authentication with a Triple-Identity Authentication Scheme ( http://arxiv.org/abs/2407.19459v3 )

ライセンス: Link先を確認
Suyun Borjigin, (参考訳) 全てのユーザ認証方式は、ユーザ名、パスワード、ハッシュ値の3つのログイン認証を含むが、そのうちの1つだけがユーザーIDに関連付けられている。 しかし、この単一IDはシステム全体を保護するのに十分な堅牢性を持っておらず、ログインエントリ(ユーザ名とパスワードフォーム)は効果的に認証されていない。 したがって、マルチファクタ認証サービスを利用して、アカウントのセキュリティを保証し、ユーザが使用する余分なファクターを送信する。 2つのログインフォームにより多くのIDを使用すれば、対応するログインクレデンシャルに関連付けることができ、また、識別子がネットワークを介して送信されず、ユーザにもアクセスできない場合、そのようなシステムは、サードパーティのサービスに頼ることなく、より堅牢になる。 これを実現するために、ユーザ名とログインパスワードのIDをそれぞれ定義できるデュアルパスワードログイン認証システムにおいて、トリプルID認証方式を設計する。 そのため、従来のサーバ検証に加えて、ユーザ名とパスワードフォームのユーザIDを同時に検証することもできる。 トリプルID認証では、識別子はユーザーやサードパーティのサービスに一切関与せずにシステムによって完全に管理され、隠蔽され、通信不能で、アクセス不能で、個人情報から独立している。 したがって、このような真のユニークな識別子は、オンライン攻撃では役に立たない。

Every user authentication scheme involves three login credentials, i.e. a username, a password and a hash value, but only one of them is associated with a user identity. However, this single identity is not robust enough to protect the whole system and the login entries (i.e., the username and password forms) have not been effectively authenticated. Therefore, a multi-factor authentication service is utilized to help guarantee the account security by transmitting an extra factor to the user to use. If more identities can be employed for the two login forms to associate with the corresponding login credentials, and if the identifiers are neither transmitted through the network nor accessible to users, such a system can be more robust even without relying on a third-party service. To achieve this, a triple-identity authentication scheme is designed within a dual-password login-authentication system, by which the identities for the username and the login password can be defined respectively. Therefore, in addition to the traditional server verification, the system can also verify the identity of a user at the username and password forms simultaneously. In the triple-identity authentication, the identifiers are entirely managed by the system without involvement of users or any third-party service, and they are concealed, incommunicable, inaccessible and independent of personal information. Thus, such truly unique identifiers are useless in online attacks.
翻訳日:2024-08-13 20:23:30 公開日:2024-08-12
# 効率的かつ効果的に:交通分類のための平文と暗号化テキストのバランスをとるための2段階的アプローチ

Efficiently and Effectively: A Two-stage Approach to Balance Plaintext and Encrypted Text for Traffic Classification ( http://arxiv.org/abs/2407.19687v2 )

ライセンス: Link先を確認
Wei Peng, (参考訳) 暗号化されたトラフィック分類は、暗号化されたネットワークトラフィックに関連するアプリケーションまたはサービスを特定するタスクである。 このタスクの効果的なアプローチは、ディープラーニングを使って生のトラフィックバイトを直接エンコードし、分類のための機能(バイトベースモデル)を自動的に抽出することである。 しかし、現在のバイトベースのモデルでは、平文や暗号化されたテキストのいずれでも、平文や暗号化されたテキストが下流タスクに与える影響を無視して、自動的な特徴抽出のために生のトラフィックバイトを入力している。 さらに、これらのモデルは主に分類精度の改善に重点を置いており、モデルの効率にはほとんど重点を置いていない。 本稿では,原文と暗号化されたテキストがモデルの有効性と効率に与える影響を初めて分析する。 そこで本研究では,トラフィック分類における平文と暗号化テキストのトレードオフを両立させる2段階の手法を提案する。 具体的には、提案したDPCセレクタを用いて、Plainテキストが正確に分類(DPC)できるかどうかを決定する。 この段階では、平文で分類できるサンプルを素早く特定し、平文で明示的なバイト機能を活用してモデルの効率を高める。 ステージ2は、ステージ1の結果を適応的に分類することを目的としている。 この段階では、平文だけで分類できないサンプルに対して暗号化されたテキスト情報を組み込み、トラフィック分類タスクにおけるモデルの有効性を保証する。 2つのデータセットに対する実験により,提案モデルが有効性と効率の両面で最先端の結果が得られることを示した。

Encrypted traffic classification is the task of identifying the application or service associated with encrypted network traffic. One effective approach for this task is to use deep learning methods to encode the raw traffic bytes directly and automatically extract features for classification (byte-based models). However, current byte-based models input raw traffic bytes, whether plaintext or encrypted text, for automated feature extraction, neglecting the distinct impacts of plaintext and encrypted text on downstream tasks. Additionally, these models primarily focus on improving classification accuracy, with little emphasis on the efficiency of models. In this paper, for the first time, we analyze the impact of plaintext and encrypted text on the model's effectiveness and efficiency. Based on our observations and findings, we propose a two-phase approach to balance the trade-off between plaintext and encrypted text in traffic classification. Specifically, Stage one is to Determine whether the Plain text is enough to be accurately Classified (DPC) using the proposed DPC Selector. This stage quickly identifies samples that can be classified using plaintext, leveraging explicit byte features in plaintext to enhance model's efficiency. Stage two aims to adaptively make a classification with the result from stage one. This stage incorporates encrypted text information for samples that cannot be classified using plaintext alone, ensuring the model's effectiveness on traffic classification tasks. Experiments on two datasets demonstrate that our proposed model achieves state-of-the-art results in both effectiveness and efficiency.
翻訳日:2024-08-13 20:23:30 公開日:2024-08-12
# 高周波市場における強化学習

Reinforcement Learning in High-frequency Market Making ( http://arxiv.org/abs/2407.21025v2 )

ライセンス: Link先を確認
Yuheng Zheng, Zihan Ding, (参考訳) 本稿では、高周波市場形成における強化学習(RL)の適用に関する、新しい包括的理論的解析手法を確立する。 我々は、現代RL理論と高周波金融経済学における連続時間統計モデルを橋渡しする。 市場形成問題に対する様々なRL手法の開発に関する方法論研究に関する多くの文献とは異なり、我々の研究は理論的分析を提供するパイロットである。 我々はサンプリング周波数の効果を目標とし、時間インクリメント$\Delta$$-$が小さくなれば、エラーは小さくなるが、複雑さは大きくなる。 また、一般ゲームフレームワーク下での2人プレイヤケースについて検討し、ナッシュ均衡の連続時間ゲーム平衡への収束を$\Delta\rightarrow0$として確立する。 オンラインマルチエージェントRL法であるNash Q-learningアルゴリズムを適用し,その平衡を解く。 我々の理論は, サンプリング頻度を選択するだけでなく, 連続的マルコフ決定プロセスの時間分散化が採用される限り, その他の高周波金融決定問題にも適用可能である。 モンテカルロシミュレーションの証拠は、我々のすべての理論を支持している。

This paper establishes a new and comprehensive theoretical analysis for the application of reinforcement learning (RL) in high-frequency market making. We bridge the modern RL theory and the continuous-time statistical models in high-frequency financial economics. Different with most existing literature on methodological research about developing various RL methods for market making problem, our work is a pilot to provide the theoretical analysis. We target the effects of sampling frequency, and find an interesting tradeoff between error and complexity of RL algorithm when tweaking the values of the time increment $\Delta$ $-$ as $\Delta$ becomes smaller, the error will be smaller but the complexity will be larger. We also study the two-player case under the general-sum game framework and establish the convergence of Nash equilibrium to the continuous-time game equilibrium as $\Delta\rightarrow0$. The Nash Q-learning algorithm, which is an online multi-agent RL method, is applied to solve the equilibrium. Our theories are not only useful for practitioners to choose the sampling frequency, but also very general and applicable to other high-frequency financial decision making problems, e.g., optimal executions, as long as the time-discretization of a continuous-time markov decision process is adopted. Monte Carlo simulation evidence support all of our theories.
翻訳日:2024-08-13 20:23:30 公開日:2024-08-12
# 点雲解析のためのオンザフライポイント特徴表現

On-the-fly Point Feature Representation for Point Clouds Analysis ( http://arxiv.org/abs/2407.21335v2 )

ライセンス: Link先を確認
Jiangyi Wang, Zhongyao Cheng, Na Zhao, Jun Cheng, Xulei Yang, (参考訳) 点雲解析は、不規則性、疎性、不規則性の独特の特徴のために困難である。 先行研究は、座標から幾何学的情報を暗黙的に利用して、畳み込み操作や注意機構によって局所的な関係を捉えようとする。 しかし、これらの手法は明示的な局所幾何学、例えば曲率や向きを記述するには不十分である。 本稿では,曲線特徴生成モジュールを通じて,豊富な幾何学的情報を明示的にキャプチャするOPFR(On-the-fly Point Feature Representation)を提案する。 これはコンピュータビジョンコミュニティのポイント・フィーチャー・ヒストグラム(PFH)にインスパイアされている。 しかしながら、バニラPFHの利用は、大きなデータセットや高密度の点雲に適用する場合、機能生成にかなりの時間を要するため、大きな困難に直面する。 対照的に、三角形集合に基づく局所座標系を近似するローカル参照コンストラクタモジュールを導入する。 このため,OPFRは推論に1.56ms(バニラPFHより65倍速い)と0.012M以上のパラメータしか必要とせず,様々なバックボーン,特にMLPベースおよびTransformerベースのバックボーンの汎用的なプラグイン・アンド・プレイモジュールとして機能する。 さらに,三角集合の品質向上を目的とした新しい階層サンプリングモジュールを導入し,得られた幾何学的特徴の堅牢性を確保する。 提案手法は,ModelNet40の総合精度(OA)を90.7%から94.5%(+3.8%)に改善し,S3DIS Area-5のOAを86.4%から90.0%(+3.6%)に改善し,PointNet++のバックボーン上に構築する。 Point Transformerのバックボーンと統合すると、どちらのタスクでも94.8%のOA、S3DIS Area-5では91.7%のOAが得られる。

Point cloud analysis is challenging due to its unique characteristics of unorderness, sparsity and irregularity. Prior works attempt to capture local relationships by convolution operations or attention mechanisms, exploiting geometric information from coordinates implicitly. These methods, however, are insufficient to describe the explicit local geometry, e.g., curvature and orientation. In this paper, we propose On-the-fly Point Feature Representation (OPFR), which captures abundant geometric information explicitly through Curve Feature Generator module. This is inspired by Point Feature Histogram (PFH) from computer vision community. However, the utilization of vanilla PFH encounters great difficulties when applied to large datasets and dense point clouds, as it demands considerable time for feature generation. In contrast, we introduce the Local Reference Constructor module, which approximates the local coordinate systems based on triangle sets. Owing to this, our OPFR only requires extra 1.56ms for inference (65x faster than vanilla PFH) and 0.012M more parameters, and it can serve as a versatile plug-and-play module for various backbones, particularly MLP-based and Transformer-based backbones examined in this study. Additionally, we introduce the novel Hierarchical Sampling module aimed at enhancing the quality of triangle sets, thereby ensuring robustness of the obtained geometric features. Our proposed method improves overall accuracy (OA) on ModelNet40 from 90.7% to 94.5% (+3.8%) for classification, and OA on S3DIS Area-5 from 86.4% to 90.0% (+3.6%) for semantic segmentation, respectively, building upon PointNet++ backbone. When integrated with Point Transformer backbone, we achieve state-of-the-art results on both tasks: 94.8% OA on ModelNet40 and 91.7% OA on S3DIS Area-5.
翻訳日:2024-08-13 20:23:30 公開日:2024-08-12
# StreetSurfaceVis: 道路面のタイプと品質の半自動アノテーションによるクラウドソースによるストリートレベルの画像のデータセット

StreetSurfaceVis: a dataset of crowdsourced street-level imagery with semi-automated annotations of road surface type and quality ( http://arxiv.org/abs/2407.21454v2 )

ライセンス: Link先を確認
Alexandra Kapp, Edith Hoffmann, Esther Weigmann, Helena Mihaljević, (参考訳) 道路の不均一性は、様々な交通参加者の安全と快適性、特に自転車や車椅子のような脆弱な道路利用者に大きな影響を及ぼす。 本稿では,クラウドソーシングプラットフォームから収集した9,122枚のストリートレベルの画像からなる新しいデータセットであるStreetSurfaceVisを紹介し,道路面のタイプと品質を手動でアノテートする。 このデータセットは、道路ネットワークの総合的な表面評価のためのモデルをトレーニングすることを目的としている。 既存のオープンデータセットは、通常はサイクルウェイとフットウェイを除く、限られた地理空間カバレッジとカメラセットアップによって制限されている。 不均一なデータセットを作成することで、このギャップを埋め、多様な画像ソース間で高い精度を維持する堅牢なモデルを実現することを目指している。 しかし,道路路面のタイプと品質の周波数分布は極めて不均衡である。 様々な外部ラベル予測資源を組み込んだサンプリング戦略を提案することにより,手動によるアノテーションを低減しつつ,クラス毎に十分な画像を確保するという課題に対処する。 より正確には,(1)OpenStreetMapタグによる画像データの充実,(2)カスタム表面型分類モデルの反復的トレーニングと適用,(3)GPT-4oを用いた即時分類,あるいは画像埋め込みを用いた類似検索による下記表現クラスを増幅することの影響を推定する。 これらの戦略を組み合わせることで、十分なクラス表現を確保しつつ、手作業によるアノテーションの作業量を効果的に削減できることを示す。

Road unevenness significantly impacts the safety and comfort of various traffic participants, especially vulnerable road users such as cyclists and wheelchair users. This paper introduces StreetSurfaceVis, a novel dataset comprising 9,122 street-level images collected from a crowdsourcing platform and manually annotated by road surface type and quality. The dataset is intended to train models for comprehensive surface assessments of road networks. Existing open datasets are constrained by limited geospatial coverage and camera setups, typically excluding cycleways and footways. By crafting a heterogeneous dataset, we aim to fill this gap and enable robust models that maintain high accuracy across diverse image sources. However, the frequency distribution of road surface types and qualities is highly imbalanced. We address the challenge of ensuring sufficient images per class while reducing manual annotation by proposing a sampling strategy that incorporates various external label prediction resources. More precisely, we estimate the impact of (1) enriching the image data with OpenStreetMap tags, (2) iterative training and application of a custom surface type classification model, (3) amplifying underrepresented classes through prompt-based classification with GPT-4o or similarity search using image embeddings. We show that utilizing a combination of these strategies effectively reduces manual annotation workload while ensuring sufficient class representation.
翻訳日:2024-08-13 20:23:30 公開日:2024-08-12
# 普遍近似理論:ニューラルネットワークにおける並列性の基礎

Universal Approximation Theory: Foundations for Parallelism in Neural Networks ( http://arxiv.org/abs/2407.21670v3 )

ライセンス: Link先を確認
Wei Wang, Qing Li, (参考訳) ニューラルネットワークは、多くのタスクで優れたパフォーマンスを示す方法であるビッグデータによる大規模モデルのトレーニングに向けて、ますます進化している。 しかし、このアプローチには緊急の問題がある: 現在のディープラーニングモデルは、主にシリアルであり、ネットワーク層の数が増えるにつれて、トレーニングと推論時間も増加する。 ディープラーニングが今後も進むのであれば、これは受け入れがたいことだ。 そこで本研究では,UAT(Universal Approximation Theorem)に基づくディープラーニング並列化戦略を提案する。 そこで我々はPara-Formerという並列ネットワークを設計し,その理論を検証した。 従来のシリアルモデルとは異なり、Para-Formerの推論時間はレイヤ数で増加せず、多層ネットワークの推論速度が著しく向上する。 このネットワークの有効性を実験的に検証した。

Neural networks are increasingly evolving towards training large models with big data, a method that has demonstrated superior performance across many tasks. However, this approach introduces an urgent problem: current deep learning models are predominantly serial, meaning that as the number of network layers increases, so do the training and inference times. This is unacceptable if deep learning is to continue advancing. Therefore, this paper proposes a deep learning parallelization strategy based on the Universal Approximation Theorem (UAT). From this foundation, we designed a parallel network called Para-Former to test our theory. Unlike traditional serial models, the inference time of Para-Former does not increase with the number of layers, significantly accelerating the inference speed of multi-layer networks. Experimental results validate the effectiveness of this network.
翻訳日:2024-08-13 20:23:30 公開日:2024-08-12
# 量子ハードウェア制御のためのオープンソースフレームワーク

An open-source framework for quantum hardware control ( http://arxiv.org/abs/2407.21737v2 )

ライセンス: Link先を確認
Edoardo Pedicillo, Alessandro Candido, Stavros Efthymiou, Hayk Sargsyan, Yuanzheng Paul Tan, Juan Cereijo, Jun Yong Khoo, Andrea Pasquale, Matteo Robbiati, Stefano Carrazza, (参考訳) 量子コンピュータの開発には、様々な量子プラットフォームに特有の電子を制御するための信頼性の高い量子ハードウェアと調整されたソフトウェアが必要である。 ミドルウエア(Middleware)は、量子コンピューティングアルゴリズムのハイレベル実行から、機器を含む特定の実験的な設定に合わせて調整された低レベルドライバ命令まで、パイプライン全体にわたって標準化されたソフトウェアツールを提供することを目的としたコンピュータソフトウェアプログラムの一種である。 本稿では、Qiboの機能を活用して、自己ホスト型量子ハードウェアプラットフォーム上で量子アルゴリズムを実行するソフトウェアライブラリであるQibolabの更新について述べる。 Qibolabは任意のパルスとスイーパーを含むドライバ操作による機器制御のためのアプリケーションプログラミングインターフェース(API)を提供する。 本稿では,Qibolabで実装された新機能の概要として,プラットフォームクラスとチャネルクラスの境界の再定義,量子ハードウェア動作をシミュレートするエミュレータの統合,単一キュービットキャリブレーションルーチンの超伝導に対する実行時間ベンチマークの更新などを紹介する。

The development of quantum computers needs reliable quantum hardware and tailored software for controlling electronics specific to various quantum platforms. Middleware is a type of computer software program that aims to provide standardized software tools across the entire pipeline, from high level execution of quantum computing algorithms to low level driver instructions tailored to specific experimental setups, including instruments. This paper presents updates to Qibolab, a software library that leverages Qibo capabilities to execute quantum algorithms on self hosted quantum hardware platforms. Qibolab offers an application programming interface (API) for instrument control through arbitrary pulses and driver operations including sweepers. This paper offers an overview of the new features implemented in Qibolab, including the redefined boundaries between platform and channel classes, the integration of an emulator for simulating quantum hardware behaviour, and it shows updated execution times benchmarks for superconducting single qubit calibration routines.
翻訳日:2024-08-13 20:23:30 公開日:2024-08-12
# MoMa: Modality-Aware Expertsを併用した効率的な早期フュージョン事前トレーニング

MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts ( http://arxiv.org/abs/2407.21770v3 )

ライセンス: Link先を確認
Xi Victoria Lin, Akshat Shrivastava, Liang Luo, Srinivasan Iyer, Mike Lewis, Gargi Ghosh, Luke Zettlemoyer, Armen Aghajanyan, (参考訳) 混合モーダル・アーリーフュージョン言語モデルの事前学習用に設計された新しいモダリティ対応ミックス・オブ・エキスパート(MoE)アーキテクチャであるMoMaを紹介する。 MoMaは、専門家モジュールをモダリティ固有のグループに分割することで、任意のシーケンスで画像とテキストを処理する。 これらのグループは、意味的にインフォメーションされた適応性を維持するために、各グループ内で学習されたルーティングを使用しながら、指定されたトークンを排他的に処理する。 実験結果から, このモーダリティ比パラメータ割り当てにより, 事前学習効率が著しく向上することがわかった。 1トリルのトレーニング予算の下では、MoMa 1.4Bモデルは4人のテキスト専門家と4人の画像専門家をフィーチャーし、FLOPの大幅な節約を実現している: 全体として3.7倍、テキストは2.6倍、画像処理は5.2倍である。 これは8つの混合モードの専門家による標準的な専門家選択MoEよりも優れており、FLOP全体の3倍の節約(テキストでは3倍、画像では2.8倍)を実現している。 MoMaとミキシング・オブ・ディープス(MoD)を組み合わせることで、FLOPの事前トレーニングは4.2倍(テキスト:3.4倍、画像:5.3倍)に改善されるが、この組み合わせはルータ精度に対する感度の向上による因果推論の性能を損なう。 これらの結果は、MoMaが混合モーダル、アーリーフュージョン言語モデルの事前トレーニングの効率を大幅に向上する可能性を示し、よりリソース効率が高く有能なマルチモーダルAIシステムへの道を開いた。

We introduce MoMa, a novel modality-aware mixture-of-experts (MoE) architecture designed for pre-training mixed-modal, early-fusion language models. MoMa processes images and text in arbitrary sequences by dividing expert modules into modality-specific groups. These groups exclusively process designated tokens while employing learned routing within each group to maintain semantically informed adaptivity. Our empirical results reveal substantial pre-training efficiency gains through this modality-specific parameter allocation. Under a 1-trillion-token training budget, the MoMa 1.4B model, featuring 4 text experts and 4 image experts, achieves impressive FLOPs savings: 3.7x overall, with 2.6x for text and 5.2x for image processing compared to a compute-equivalent dense baseline, measured by pre-training loss. This outperforms the standard expert-choice MoE with 8 mixed-modal experts, which achieves 3x overall FLOPs savings (3x for text, 2.8x for image). Combining MoMa with mixture-of-depths (MoD) further improves pre-training FLOPs savings to 4.2x overall (text: 3.4x, image: 5.3x), although this combination hurts performance in causal inference due to increased sensitivity to router accuracy. These results demonstrate MoMa's potential to significantly advance the efficiency of mixed-modal, early-fusion language model pre-training, paving the way for more resource-efficient and capable multimodal AI systems.
翻訳日:2024-08-13 20:23:30 公開日:2024-08-12
# IN-Sight: 視線によるインタラクティブナビゲーション

IN-Sight: Interactive Navigation through Sight ( http://arxiv.org/abs/2408.00343v2 )

ライセンス: Link先を確認
Philipp Schoch, Fan Yang, Yuntao Ma, Stefan Leutenegger, Marco Hutter, Quentin Leboutet, (参考訳) 現在の視覚ナビゲーションシステムは、しばしば環境を静的として扱い、障害物と適応的に相互作用する能力が欠如している。 この制限は、避けられない障害に遭遇する際のナビゲーション障害を引き起こす。 In-Sightは、自己教師付き経路計画の新しいアプローチであり、障害物との相互作用を通じてより効果的なナビゲーション戦略を実現する。 RGB-Dの観測を利用して、IN-Sightは移動可能性スコアを計算し、それらを意味マップに組み込むことで、複雑な迷路のような環境での長距離経路計画を容易にする。 障害物を正確にナビゲートするために、IN-Sightはローカルプランナーを使用し、表現学習技術を用いて異なるコストマップを命令的に訓練する。 このフレームワークは、最先端のフォトリアリスティックなIntel SPEARシミュレーター内でエンドツーエンドのトレーニングを行っている。 様々なシミュレーションシナリオとアブレーション研究において,IN-Sightの有効性を広範囲なベンチマークにより検証した。 さらに,ゼロショットシミュレートによる実世界の応用性を実証し,ロボットプラットフォームであるANYmalにプランナーを配置し,実環境における対話型ナビゲーションの実現可能性を示す。

Current visual navigation systems often treat the environment as static, lacking the ability to adaptively interact with obstacles. This limitation leads to navigation failure when encountering unavoidable obstructions. In response, we introduce IN-Sight, a novel approach to self-supervised path planning, enabling more effective navigation strategies through interaction with obstacles. Utilizing RGB-D observations, IN-Sight calculates traversability scores and incorporates them into a semantic map, facilitating long-range path planning in complex, maze-like environments. To precisely navigate around obstacles, IN-Sight employs a local planner, trained imperatively on a differentiable costmap using representation learning techniques. The entire framework undergoes end-to-end training within the state-of-the-art photorealistic Intel SPEAR Simulator. We validate the effectiveness of IN-Sight through extensive benchmarking in a variety of simulated scenarios and ablation studies. Moreover, we demonstrate the system's real-world applicability with zero-shot sim-to-real transfer, deploying our planner on the legged robot platform ANYmal, showcasing its practical potential for interactive navigation in real environments.
翻訳日:2024-08-13 20:13:45 公開日:2024-08-12
# CARMIL:全スライド画像のための複数インスタンス学習モデルにおけるコンテキスト認識正規化

CARMIL: Context-Aware Regularization on Multiple Instance Learning models for Whole Slide Images ( http://arxiv.org/abs/2408.00427v2 )

ライセンス: Link先を確認
Thiziri Nait Saada, Valentina Di Proietto, Benoit Schmauch, Katharina Von Loga, Lucas Fidon, (参考訳) マルチインスタンスラーニング(MIL)モデルは全スライド画像のがん予後に有効であることが証明された。 しかし、元のMILの定式化は、同じ画像のパッチが独立であると誤って仮定し、情報がネットワークを流れると空間的コンテキストが失われる。 がん細胞がクラスターを形成する傾向と腫瘍の空間的指標が存在することを考えると、文脈的知識を予測に組み込むことは特に重要である。 最先端の手法では、しばしば注意機構とグラフを組み合わせて空間的知識を捉える。 本稿では、この問題を正則化のレンズを通して解決する、新しい、そして超越的なアプローチを提案する。 空間知識を任意のMILモデルにシームレスに統合する多元的正規化スキームであるCARMIL(Context-Aware Regularization for Multiple Instance Learning)を提案する。 さらに、全スライド画像に適用された場合、MILモデルのコンテキスト認識性を定量化するための新しい一般的な指標を提示し、未探索のギャップを解消する。 グリオブラスト腫 (TCGA GBM) と大腸癌データ (TCGA COAD) の2つの生存解析課題について検討した。

Multiple Instance Learning (MIL) models have proven effective for cancer prognosis from Whole Slide Images. However, the original MIL formulation incorrectly assumes the patches of the same image to be independent, leading to a loss of spatial context as information flows through the network. Incorporating contextual knowledge into predictions is particularly important given the inclination for cancerous cells to form clusters and the presence of spatial indicators for tumors. State-of-the-art methods often use attention mechanisms eventually combined with graphs to capture spatial knowledge. In this paper, we take a novel and transversal approach, addressing this issue through the lens of regularization. We propose Context-Aware Regularization for Multiple Instance Learning (CARMIL), a versatile regularization scheme designed to seamlessly integrate spatial knowledge into any MIL model. Additionally, we present a new and generic metric to quantify the Context-Awareness of any MIL model when applied to Whole Slide Images, resolving a previously unexplored gap in the field. The efficacy of our framework is evaluated for two survival analysis tasks on glioblastoma (TCGA GBM) and colon cancer data (TCGA COAD).
翻訳日:2024-08-13 20:13:45 公開日:2024-08-12
# 局所ハミルトニアンの力学的な$α$-レニーエントロピーは、時間内に最も線形に成長する

The dynamical $α$-Rényi entropies of local Hamiltonians grow at most linearly in time ( http://arxiv.org/abs/2408.00743v2 )

ライセンス: Link先を確認
Daniele Toniolo, Sougato Bose, (参考訳) 長さ$ L $, 厳密な局所的相互作用を持つ任意の大きさの1次元スピン系を考えると、初期積状態の動的 $ \alpha $-R\enyi entropies, $ 0 < \alpha < 1 $ が時間的に最も線形に成長することを証明できる。 この結果は、動的 $ \alpha $-R\enyi エントロピーとリーブ・ロビンソン境界の間の一般的な関係から生じる。 我々は、相互作用の指数的減衰を持つ系にエントロピーの動的生成の限界を延長し、$\alpha$の値が 1 ドルに近づくように拡張する。 我々は、結果を$ O(\log L) $ の低絡み合いを持つ初期純粋状態にまで拡張するための厳密な議論を提供する。 この状態のクラスはスピン系基底状態の多くの例と臨界状態を含む。 我々は、低絡み状態が、少なくとも位数$ \log L $の時間まで持続する効率的なMPS表現を持つことを確立する。 主な技術ツールはリーブ・ロビンソン境界であり、スピン鎖の力学を局所的に近似するものであり、アルファ$-R'enyiエントロピー上のアウデナートの厳密な上界と、その共空性上の有界である。 私たちが付録で提供するそのような境界は、独立した関心を持つことができる。

We consider a generic one dimensional spin system of length $ L $, arbitrarily large, with strictly local interactions, for example nearest neighbor, and prove that the dynamical $ \alpha $-R\'enyi entropies, $ 0 < \alpha < 1 $, of an initial product state grow at most linearly in time. This result arises from a general relation among dynamical $ \alpha $-R\'enyi entropies and Lieb-Robinson bounds. We extend our bound on the dynamical generation of entropy to systems with exponential decay of interactions, for values of $\alpha$ close enough to $ 1 $. We provide a non rigorous argument to extend our results to initial pure states with low entanglement of $ O(\log L) $. This class of states includes many examples of spin systems ground states, and also critical states. We establish that low entanglement states have an efficient MPS representation that persists at least up to times of order $ \log L $. The main technical tools are the Lieb-Robinson bounds, to locally approximate the dynamics of the spin chain, a strict upper bound of Audenaert on $ \alpha $-R\'enyi entropies and a bound on their concavity. Such a bound, that we provide in an appendix, can be of independent interest.
翻訳日:2024-08-13 20:13:45 公開日:2024-08-12
# UNER:ビジュアルリッチドキュメントにおける名前付きエンティティ認識のための統一予測ヘッド

UNER: A Unified Prediction Head for Named Entity Recognition in Visually-rich Documents ( http://arxiv.org/abs/2408.01038v2 )

ライセンス: Link先を確認
Yi Tu, Chong Zhang, Ya Guo, Huan Chen, Jinyang Tang, Huijia Zhu, Qi Zhang, (参考訳) 視覚的にリッチなドキュメント(VrD-NER)における名前付きエンティティの認識は、様々な現実のシナリオやアプリケーションにおいて重要な役割を果たす。 しかしながら、VrD-NERの研究は、複雑なドキュメントレイアウト、誤った読み込み順序、不適切なタスク定式化の3つの大きな課題に直面している。 これらの課題に対処するため、既存のマルチモーダル文書変換器と協調してより堅牢なVrD-NERモデルを開発するために、クエリ対応エンティティ抽出ヘッドであるUNERを提案する。 UNERヘッドは、VrD-NERタスクをシーケンスラベリングと読み込み順序予測の組み合わせとみなし、文書における不連続なエンティティの問題に効果的に対処する。 多様なデータセットの実験的評価は、UNERがエンティティ抽出性能を向上させる効果を示す。 さらに、UNERヘッドは、各種VrD-NERデータセットの教師付き事前学習段階を可能とし、文書トランスフォーマーバックボーンを強化し、事前学習段階から微調整段階への実質的な知識伝達を示す。 普遍的なレイアウト理解を取り入れることで、事前訓練されたUNERベースのモデルは、少数ショットおよび多言語シナリオにおいて大きな利点を示し、ゼロショットエンティティ抽出能力を示す。

The recognition of named entities in visually-rich documents (VrD-NER) plays a critical role in various real-world scenarios and applications. However, the research in VrD-NER faces three major challenges: complex document layouts, incorrect reading orders, and unsuitable task formulations. To address these challenges, we propose a query-aware entity extraction head, namely UNER, to collaborate with existing multi-modal document transformers to develop more robust VrD-NER models. The UNER head considers the VrD-NER task as a combination of sequence labeling and reading order prediction, effectively addressing the issues of discontinuous entities in documents. Experimental evaluations on diverse datasets demonstrate the effectiveness of UNER in improving entity extraction performance. Moreover, the UNER head enables a supervised pre-training stage on various VrD-NER datasets to enhance the document transformer backbones and exhibits substantial knowledge transfer from the pre-training stage to the fine-tuning stage. By incorporating universal layout understanding, a pre-trained UNER-based model demonstrates significant advantages in few-shot and cross-linguistic scenarios and exhibits zero-shot entity extraction abilities.
翻訳日:2024-08-13 20:13:45 公開日:2024-08-12
# PsybORG+:先進的脅威における認知バイアスのモデル化とシミュレーション

PsybORG+: Modeling and Simulation for Detecting Cognitive Biases in Advanced Persistent Threats ( http://arxiv.org/abs/2408.01310v2 )

ライセンス: Link先を確認
Shuo Huang, Fred Jones, Nikolos Gurney, David Pynadath, Kunal Srivastava, Stoney Trent, Peggy Wu, Quanyan Zhu, (参考訳) Advanced Persistent Threats (APT)は、高度でステルスな性質のため、サイバーセキュリティに重大な課題をもたらす。 従来のサイバーセキュリティ対策はAPTに対する防衛に失敗する。 認知的脆弱性は攻撃者の意思決定プロセスに大きな影響を与える可能性がある。 PsybORG$^+$は、認知的脆弱性に影響されたAPTの振る舞いをモデル化するために設計されたマルチエージェントのサイバーセキュリティシミュレーション環境である。 分類モデルは認知的脆弱性推論のために構築され、シミュレータは合成データ生成のために設計されている。 PsybORG$^+$は、損失回避と確認バイアスレベルが異なるAPT攻撃者を効果的にモデル化できることを示す。 分類モデルは、認知的脆弱性を予測する際に少なくとも0.83の精度率を有する。

Advanced Persistent Threats (APTs) bring significant challenges to cybersecurity due to their sophisticated and stealthy nature. Traditional cybersecurity measures fail to defend against APTs. Cognitive vulnerabilities can significantly influence attackers' decision-making processes, which presents an opportunity for defenders to exploit. This work introduces PsybORG$^+$, a multi-agent cybersecurity simulation environment designed to model APT behaviors influenced by cognitive vulnerabilities. A classification model is built for cognitive vulnerability inference and a simulator is designed for synthetic data generation. Results show that PsybORG$^+$ can effectively model APT attackers with different loss aversion and confirmation bias levels. The classification model has at least a 0.83 accuracy rate in predicting cognitive vulnerabilities.
翻訳日:2024-08-13 20:13:45 公開日:2024-08-12
# 量子LDPC符号の時間効率論理演算

Time-efficient logical operations on quantum LDPC codes ( http://arxiv.org/abs/2408.01339v2 )

ライセンス: Link先を確認
Guo Zhang, Ying Li, (参考訳) 任意の可換論理パウリ作用素の集合を演算子数に依存しない時間で測定できるスキームを提案する。 唯一の条件は可換性であり、量子力学における同時測定の基本的な要件である。 量子低密度パリティチェック(LDPC)符号は、フォールトトレラント量子コンピューティングの実現に大いに期待できる。 比較的少ない物理量子ビットを用いて多くの論理量子ビットを符号化できるため、初期のフォールトトレラント技術では特に重要である。 論理演算子の同時測定により、完全に並列化された量子計算が可能となり、計算時間を最小化できる。 提案方式は任意の量子LDPC符号に適用可能であり,複数の論理演算子を同時に測定しながらパリティチェックの低密度を維持する。 これらの結果から, 早期耐故障技術の適用の可能性が高まった。

We propose schemes capable of measuring an arbitrary set of commutative logical Pauli operators in time independent of the number of operators. The only condition is commutativity, a fundamental requirement for simultaneous measurements in quantum mechanics. Quantum low-density parity check (LDPC) codes show great promise for realising fault-tolerant quantum computing. They are particularly significant for early fault-tolerant technologies as they can encode many logical qubits using relatively few physical qubits. By achieving simultaneous measurements of logical operators, our approaches enable fully parallelised quantum computing, thus minimising computation time. Our schemes are applicable to any quantum LDPC codes and maintain the low density of parity checks while measuring multiple logical operators simultaneously. These results enhance the feasibility of applying early fault-tolerant technologies to practical problems.
翻訳日:2024-08-13 20:13:45 公開日:2024-08-12
# 音素と音素の音響的特徴について : 音素と音素の正中性について

Diseño de sonido para producciones audiovisuales e historias sonoras en el aula. Hacia una docencia creativa mediante el uso de herramientas inteligentes ( http://arxiv.org/abs/2408.02113v2 )

ライセンス: Link先を確認
Miguel Civit, Francisco Cuadrado, (参考訳) 本研究の目的は、音響映像制作のための音響設計を教える授業経験を共有することであり、学生が取り組んだ異なるプロジェクトを比較することである。 これは、異なる種類の教養の比較分析ではなく、異なる学級でそれを研究する学生の異なるプロファイルで観察される異なる問題の分析である。 オーディオの世界は、多くの学生にとって非常に興味深い。 音楽の作成と制作、画像との同期、ダビングなど。 これらは一般的に興味深い規律ですが、技術的に非常に複雑なため、導入の障壁が非常に高いのです。 学生にとって必ずしも直感的ではないオーディオ編集プログラムを必要以上に使い始めるのに、何週間も何ヶ月もかかることもある。 PBL手法を用いた学習は、我々の経験から、マスタークラスのような他の授業手法を用いて観察できるものよりもはるかに優れた結果をもたらす。 学生は、個人的に関与するクリエイティブなプロジェクトを開発しながら、技術的なスキルを身につけます。 上記のすべてに拘わらず、教師と学生の相互作用のほとんどは、技術的修正の側面に焦点を当てている。 逆数(先延ばし、崩壊、変調など)の異なるパラメータから、圧縮機やノイズゲートなどを正確に調整する方法まで。 オーディオを扱うツールの数は驚くほど多く、その多くの機能はメーカーによって大きく異なる。

This study aims to share a teaching experience teaching sound design for audiovisual productions and compares different projects tackled by students. It is not intended to be a comparative analysis of different types of teaching but rather an analysis of different problems observed in different profiles of students of the subject who study it in different grades. The world of audio can be very interesting for a large part of the students, both those with creative and technical inclinations. Musical creation and production, synchronization with images, dubbing, etc. They are disciplines that are generally interesting but can have a very high barrier to entry due to their great technical complexity. Sometimes it can take weeks or even months for the uninitiated to begin to use audio editing programs with the necessary ease, which are not always particularly intuitive for students. Learning through the use of PBL methodologies generates, in our experience, results much superior to those that can be observed through the use of other teaching methods such as master classes. Students acquire technical skills while developing creative projects in which they get personally involved. Despite everything mentioned above, most interactions between teachers and students focus on aspects of technical correction. From different parameters in reverbs (such as pre-delay, decay, modulation...) to how to correctly adjust compressors, noise gates, etc.; The number of tools with which to work with audio is incredibly extensive, as well as many of its features that can present serious differences depending on their manufacturers.
翻訳日:2024-08-13 20:13:45 公開日:2024-08-12
# ワンショットコラボレーティブデータ蒸留

One-Shot Collaborative Data Distillation ( http://arxiv.org/abs/2408.02266v2 )

ライセンス: Link先を確認
William Holland, Chandra Thapa, Sarah Ali Siddiqui, Wei Shao, Seyit Camtepe, (参考訳) 大規模な機械学習トレーニングデータセットは、情報的合成データサンプルの小さなコレクションに蒸留することができる。 これらの合成セットは効率的なモデル学習をサポートし、データ共有の通信コストを低減する。 したがって、高忠実度蒸留されたデータは、分散ネットワーク環境における機械学習アプリケーションの効率的なデプロイを支援することができる。 分散環境で合成セットを構築するための簡単な方法は、各クライアントがローカルデータ蒸留を行い、中央サーバでローカルデータ蒸留をマージできるようにすることである。 しかし、結果として得られる集合の品質は、クライアントが保持するローカルデータの分布の不均一性によって損なわれる。 この課題を克服するために、クライアントとサーバ間の1ラウンドの通信しか必要とせず、データのグローバルな分散をキャプチャするCollabDMと呼ばれる、最初のコラボレーティブなデータ蒸留技術を導入する。 本手法は,分散学習環境における歪んだデータに対して,最先端のワンショット学習法より優れる。 また,5Gネットワークにおける攻撃検出に適用した場合に,本手法の有望な実用性を示す。

Large machine-learning training datasets can be distilled into small collections of informative synthetic data samples. These synthetic sets support efficient model learning and reduce the communication cost of data sharing. Thus, high-fidelity distilled data can support the efficient deployment of machine learning applications in distributed network environments. A naive way to construct a synthetic set in a distributed environment is to allow each client to perform local data distillation and to merge local distillations at a central server. However, the quality of the resulting set is impaired by heterogeneity in the distributions of the local data held by clients. To overcome this challenge, we introduce the first collaborative data distillation technique, called CollabDM, which captures the global distribution of the data and requires only a single round of communication between client and server. Our method outperforms the state-of-the-art one-shot learning method on skewed data in distributed learning environments. We also show the promising practical benefits of our method when applied to attack detection in 5G networks.
翻訳日:2024-08-13 20:04:01 公開日:2024-08-12
# Marcus Mappingによる二重確率適応近傍クラスタリング

Doubly Stochastic Adaptive Neighbors Clustering via the Marcus Mapping ( http://arxiv.org/abs/2408.02932v2 )

ライセンス: Link先を確認
Jinghui Yuan, Chusheng Zeng, Fangyuan Xie, Zhe Cao, Mulin Chen, Rong Wang, Feiping Nie, Yuan Yuan, (参考訳) クラスタリングは機械学習とデータサイエンスにおける基本的なタスクであり、類似性グラフベースのクラスタリングはこの領域において重要なアプローチである。 二重確率対称類似性グラフはクラスタリング問題や下流タスクに多くの利点をもたらすが、そのようなグラフの学習は依然として大きな課題である。 マーカスの定理は、厳密な正対称行列は対角行列によって二重確率対称行列に変換できると述べている。 しかし,クラスタリングでは,スパース行列の学習が計算効率に不可欠である。 マーカスの定理は、あるスパース行列が対角行列を介して二重確率対称行列に変換可能であることを示すマーカス写像によって拡張される。 さらに,クラスタリング問題にランク制約を導入し,Marcus Mapping (ANCMM) に基づくDouubly Stochastic Adaptive Neighbors Clusteringアルゴリズムを提案する。 これにより、学習したグラフが、望まれる数のクラスタに自然に分割されることが保証される。 我々は、最先端のアルゴリズムと広範囲に比較して、アルゴリズムの有効性を検証する。 最後に、マーカス写像と最適輸送の関係について検討する。 マーカス写像が特定の種類の最適輸送問題を解くことを証明し、マーカス写像によるこの問題の解法が最適輸送法を直接適用するよりも効率的であることを証明した。

Clustering is a fundamental task in machine learning and data science, and similarity graph-based clustering is an important approach within this domain. Doubly stochastic symmetric similarity graphs provide numerous benefits for clustering problems and downstream tasks, yet learning such graphs remains a significant challenge. Marcus theorem states that a strictly positive symmetric matrix can be transformed into a doubly stochastic symmetric matrix by diagonal matrices. However, in clustering, learning sparse matrices is crucial for computational efficiency. We extend Marcus theorem by proposing the Marcus mapping, which indicates that certain sparse matrices can also be transformed into doubly stochastic symmetric matrices via diagonal matrices. Additionally, we introduce rank constraints into the clustering problem and propose the Doubly Stochastic Adaptive Neighbors Clustering algorithm based on the Marcus Mapping (ANCMM). This ensures that the learned graph naturally divides into the desired number of clusters. We validate the effectiveness of our algorithm through extensive comparisons with state-of-the-art algorithms. Finally, we explore the relationship between the Marcus mapping and optimal transport. We prove that the Marcus mapping solves a specific type of optimal transport problem and demonstrate that solving this problem through Marcus mapping is more efficient than directly applying optimal transport methods.
翻訳日:2024-08-13 20:04:01 公開日:2024-08-12
# テンソル最適化によるエンサンブル法

Achieving More with Less: A Tensor-Optimization-Powered Ensemble Method ( http://arxiv.org/abs/2408.02936v2 )

ライセンス: Link先を確認
Jinghui Yuan, Weijin Jiang, Zhe Cao, Fangyuan Xie, Rong Wang, Feiping Nie, Yuan Yuan, (参考訳) アンサンブル学習(英: Ensemble learning)は、弱い学習者を利用して強力な学習者を生み出す方法である。 しかし、大量の基礎学習者を得るには、かなりの時間と計算資源が必要である。 そのため,多くの基礎学習者を対象に,ごくわずかの時間で得られる演奏の達成方法を研究することが重要である。 これを実現するためには,アンサンブル過程における分類性能と一般化能力の両立が不可欠である。 モデルの精度を高めるために、各弱いベース学習者はより効率的に統合する必要がある。 異なる学習者に対して,異なるクラスを予測する際に,様々な精度の学習者が現れることが観察された。 これを活用するために、信頼テンソル$\tilde{\mathbf{\Theta}}$および$\tilde{\mathbf{\Theta}}_{rst}$を導入する。 我々の知る限りでは、異なるクラス間での基底分類器の性能評価が提案されたのはこれが初めてである。 提案した信頼度テンソルは,各基本分類器の長所と短所を異なるクラスで補正し,より少ない基礎学習者で優れた結果が得られるようにした。 一般化性能を向上させるために,マージンの概念を生かした円滑で凸な目的関数を設計し,学習者の識別性を向上する。 さらに、損失関数の勾配行列において、各列の要素の和がゼロであることが証明され、勾配法を用いて制約付き最適化問題を解くことができる。 そして、アルゴリズムを10倍の大きさのランダムな森林や、多くのデータセットにまたがる古典的な手法と比較し、アプローチの優位性を実証する。

Ensemble learning is a method that leverages weak learners to produce a strong learner. However, obtaining a large number of base learners requires substantial time and computational resources. Therefore, it is meaningful to study how to achieve the performance typically obtained with many base learners using only a few. We argue that to achieve this, it is essential to enhance both classification performance and generalization ability during the ensemble process. To increase model accuracy, each weak base learner needs to be more efficiently integrated. It is observed that different base learners exhibit varying levels of accuracy in predicting different classes. To capitalize on this, we introduce confidence tensors $\tilde{\mathbf{\Theta}}$ and $\tilde{\mathbf{\Theta}}_{rst}$ signifies the degree of confidence that the $t$-th base classifier assigns the sample to class $r$ while it actually belongs to class $s$. To the best of our knowledge, this is the first time an evaluation of the performance of base classifiers across different classes has been proposed. The proposed confidence tensor compensates for the strengths and weaknesses of each base classifier in different classes, enabling the method to achieve superior results with a smaller number of base learners. To enhance generalization performance, we design a smooth and convex objective function that leverages the concept of margin, making the strong learner more discriminative. Furthermore, it is proved that in gradient matrix of the loss function, the sum of each column's elements is zero, allowing us to solve a constrained optimization problem using gradient-based methods. We then compare our algorithm with random forests of ten times the size and other classical methods across numerous datasets, demonstrating the superiority of our approach.
翻訳日:2024-08-13 20:04:01 公開日:2024-08-12
# TestART: 自動生成と修復の同時進化によるLCMベースのユニットテストの改善

TestART: Improving LLM-based Unit Test via Co-evolution of Automated Generation and Repair Iteration ( http://arxiv.org/abs/2408.03095v3 )

ライセンス: Link先を確認
Siqi Gu, Chunrong Fang, Quanjun Zhang, Fangyuan Tian, Jianyi Zhou, Zhenyu Chen, (参考訳) 単体テストは個々のプログラムユニットのバグを検出するのに不可欠だが、時間と労力を消費する。 既存の自動単体テスト生成方法は、主に開発者を解放するための検索ベースのソフトウェアテスト(SBST)と言語モデルに基づいている。 近年,大規模言語モデル (LLM) が顕著な推論と生成能力を示している。 しかしながら, 1) LLMは, 文脈が不十分な場合に, 不正なテストケースを生成でき, コンパイルエラーが発生し, (2) テストやカバレッジのフィードバック情報が不足すると, 実行時のエラーやカバレッジ率の低下が発生する。 (3) 反復抑制問題により, LLMは自己再生や再生の繰り返しループに陥る。 本稿では,LLMの強みを生かした新しい単体テスト生成手法であるTestARTを提案する。 TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。 TestARTはテンプレートベースの修復技術を活用して、LCM生成のテストケースのバグを修正し、プロンプトインジェクションを使用して、次のステップの自動生成をガイドし、繰り返しの抑制を回避する。 さらに、TestARTはパスしたテストケースからカバレッジ情報を抽出し、テストフィードバックとして利用して最終テストケースの効率を高める。 この生成と修復の相乗効果は、生成したテストケースの品質、有効性、可読性を高める。 比較実験では、TestARTの生成したテストケースのパスレートは78.55%であり、ChatGPT-4.0モデルとChatGPT-3.5ベースのChatUniTestの両方よりも約18%高い。 また、テストに合格した焦点メソッドの90.96%のラインカバレッジ率も達成し、EvoSuiteを3.4%上回った。

Unit test is crucial for detecting bugs in individual program units but consumes time and effort. The existing automated unit test generation methods are mainly based on search-based software testing (SBST) and language models to liberate developers. Recently, large language models (LLMs) have demonstrated remarkable reasoning and generation capabilities. However, several problems limit their ability to generate high-quality test cases: (1) LLMs may generate invalid test cases under insufficient context, resulting in compilation errors; (2) Lack of test and coverage feedback information may cause runtime errors and low coverage rates. (3) The repetitive suppression problem causes LLMs to get stuck into the repetition loop of self-repair or re-generation attempts. In this paper, we propose TestART, a novel unit test generation method that leverages the strengths of LLMs while overcoming the limitations mentioned. TestART improves LLM-based unit test via co-evolution of automated generation and repair iteration. TestART leverages the template-based repair technique to fix bugs in LLM-generated test cases, using prompt injection to guide the next-step automated generation and avoid repetition suppression. Furthermore, TestART extracts coverage information from the passed test cases and utilizes it as testing feedback to enhance the sufficiency of the final test case. This synergy between generation and repair elevates the quality, effectiveness, and readability of the produced test cases significantly beyond previous methods. In comparative experiments, the pass rate of TestART-generated test cases is 78.55%, which is approximately 18% higher than both the ChatGPT-4.0 model and the same ChatGPT-3.5-based method ChatUniTest. It also achieves an impressive line coverage rate of 90.96% on the focal methods that passed the test, exceeding EvoSuite by 3.4%.
翻訳日:2024-08-13 20:04:01 公開日:2024-08-12
# 基底集合をもつ第一量子化における化学の量子シミュレーション

Quantum Simulations of Chemistry in First Quantization with any Basis Set ( http://arxiv.org/abs/2408.03145v2 )

ライセンス: Link先を確認
Timothy N. Georges, Marius Bothe, Christoph Sünderhauf, Bjorn K. Berntson, Róbert Izsák, Aleksei V. Ivanov, (参考訳) 分子や物質のエネルギーの量子計算は、フォールトトレラント量子コンピュータの最も有望な応用の1つである。 しかし、実際の応用にはリソース要求の少ないアルゴリズムが必要である。 それまでの研究は、主に第2量子化におけるシステムのハミルトニアンを表している。 第1量子化の既存の方法は、アクティブな空間計算を許さないグリッドベースのアプローチに限られている。 本研究では,任意の基底集合を用いたフォールトトレラント量子コンピュータ上での第一量子化における一般基底状態化学問題の解法を提案する。 これにより、現代の量子化学基底集合を用いた活性空間での計算が可能となる。 化学ハミルトニアンを第一量子化時に線形結合分解し、ハミルトニアンの空間性を利用して効率的なブロック符号化を構築する。 分子軌道基底集合を用いた能動空間計算では, 2次量子化法 (Berry, et al Quantum 3, 208 (2019)) と比較してトフォリゲート数において漸近速度が向上する。 また、物質シミュレーションのための二重平面波についても検討し、物理的に興味深い状況下では、第2量子化法と比較して量子資源の桁違いの改善が達成されていることを見出した。 いくつかの例では、我々の手法はRefsの最初の量子化平面波動アルゴリズムと比較して、類似またはより低いリソースを提供する。 [Babbush, et. al npj Quantum Inf 5(1) 92 (2019), Su et. al PRX Quantum 2(4), 040332 (2021)] この研究は、ハミルトニアンや現代の擬ポテンシャルの分解法を用いて、量子資源を減らす可能性を開く。 さらに,本手法は化学系の振動特性など,他の応用にも適用可能である。

Quantum computation of the energy of molecules and materials is one of the most promising applications of fault-tolerant quantum computers. However, practical applications require algorithms with reduced resource requirements. Previous work has mainly represented the Hamiltonian of the system in second quantization. Existing methods in first quantization are limited to grid-based approaches that do not allow for active space calculations. In this work, we present a method to solve the generic ground-state chemistry problem in first quantization on a fault-tolerant quantum computer using any basis set. This allows for calculations in the active space using modern quantum chemistry basis sets. We derive a linear-combination-of-unitaries decomposition for a chemical Hamiltonian in first quantization and then construct an efficient block encoding, exploiting sparsity of the Hamiltonian. For active space calculations using a molecular orbital basis set, we achieve an asymptotic speed up in Toffoli-gate count compared to the equivalent method in second quantization [Berry, et. al. Quantum 3, 208 (2019)]. We also consider the dual plane waves for materials simulations and find that in physically interesting regimes we achieve orders of magnitude improvement in quantum resources compared to the second quantization counterpart. In some instances, our approach provides similar or even lower resources compared to the first quantization plane wave algorithm of Refs.[Babbush, et. al npj Quantum Inf 5(1) 92 (2019), Su et. al PRX Quantum 2(4), 040332 (2021)] that, unlike our approach, avoids loading the classical data from quantum memory. This work opens up possibilities to reduce quantum resources even further using factorization methods of a Hamiltonian or modern pseudopotentials. Furthermore, our approach can be adapted to other applications, such as the vibrational properties of chemical systems.
翻訳日:2024-08-13 20:04:01 公開日:2024-08-12
# DPOによる選好学習の一般化について

On the Generalization of Preference Learning with DPO ( http://arxiv.org/abs/2408.03459v2 )

ライセンス: Link先を確認
Shawn Im, Yixuan Li, (参考訳) 大きな言語モデル(LLM)は目覚ましい能力を示してきたが、しばしば人間の好みに合わせるのに苦労し、有害または望ましくない出力をもたらす。 嗜好学習は、人間のフィードバックに基づいて、好ましくない反応と好ましくない反応を区別するモデルを訓練するものであり、LLMが人間の価値観と整合することを保証する重要な要素となっている。 現実世界のシステムに広く採用されているにもかかわらず、これらのモデルに対する一般化保証の完全な理論的理解はいまだに欠如している。 本稿では、直接選好最適化(DPO)で訓練されたモデルの一般化保証を解析するための新しい理論的枠組みを導入することにより、このギャップを埋める。 既存の一般化理論は、ほぼ最適損失を達成するための過度パラメータ化されたモデルや、トレーニングプロセスに依存しないモデルに焦点を当てることが多いが、我々のフレームワークは、現実のLLMトレーニングの実践を反映して、有限の勾配ステップの後、いかにうまく一般化するかを厳格に評価する。 トレーニングを通して各サンプルとその軌道に関連付けられた報酬マージンを解析することにより、一般化誤差を効果的に境界付けることができる。 我々は、特定の条件下でDPOで訓練されたモデルが、未確認データに対する好ましくない応答を高い確率で正しく識別できることを示す学習保証を導出する。 これらの知見は, 現代のLLMで実証的に検証され, 理論的知見の実用的妥当性を裏付けるものである。

Large language models (LLMs) have demonstrated remarkable capabilities but often struggle to align with human preferences, leading to harmful or undesirable outputs. Preference learning, which trains models to distinguish between preferred and non-preferred responses based on human feedback, has become a crucial component for ensuring that LLMs align with human values. Despite the widespread adoption in real-world systems, a thorough theoretical understanding of the generalization guarantees for these models remain lacking. This paper bridges that gap by introducing a new theoretical framework to analyze the generalization guarantees of models trained with direct preference optimization (DPO). While existing generalization theory often focuses on overparameterized models achieving near-optimal loss or models independent of the training process, our framework rigorously assesses how well models generalize after a finite number of gradient steps, reflecting real-world LLM training practices. By analyzing the reward margin associated with each sample and its trajectory throughout training, we can effectively bound the generalization error. We derive learning guarantees showing that, under specific conditions, models trained with DPO can correctly discern preferred responses on unseen data with high probability. These insights are empirically validated on contemporary LLMs, underscoring the practical relevance of our theoretical findings.
翻訳日:2024-08-13 20:04:01 公開日:2024-08-12
# MultiHateClip: YouTubeとBilibili上のヘイトフルビデオ検出のための多言語ベンチマークデータセット

MultiHateClip: A Multilingual Benchmark Dataset for Hateful Video Detection on YouTube and Bilibili ( http://arxiv.org/abs/2408.03468v2 )

ライセンス: Link先を確認
Han Wang, Tan Rui Yang, Usman Naseem, Roy Ka-Wei Lee, (参考訳) ヘイトスピーチは、オンラインとオフラインの両方に重大な影響を及ぼす現代社会において、差し迫った問題である。 ヘイトスピーチ検出の最近の研究は、主にテキストベースのメディアに焦点を当てており、主にビデオのようなマルチモーダルコンテンツを見下ろしている。 ヘイトフルなビデオデータセットに関する既存の研究は、主に西洋の文脈における英語コンテンツに焦点を当てており、詳細な文脈情報を持たないバイナリラベル(憎しみや非憎しみ)に限られている。 本研究は,ヘイトレキシコンと人間のアノテーションによって作成された,新しい多言語データセットであるMultiHateClip1を提案する。 英語と中国語の両方のコンテンツを含む、YouTubeやBilibiliなどのプラットフォーム上でのヘイトフルなビデオの検出を強化することを目的としている。 このデータセットは、ヘイトフルネス、不快感、正常さを注釈付けした2000本のビデオで構成されており、ジェンダーベースのヘイトスピーチに関する異文化的な視点を提供する。 人間のアノテーション結果の詳細な検討を通じて、中国語と英語のヘイトフルなビデオの違いを議論し、ヘイトフルなビデオ分析と攻撃的なビデオ分析における異なるモダリティの重要性を浮き彫りにしている。 MultiHateClipでのVLM、GPT-4V、Qwen-VLといった最先端のビデオ分類モデルの評価は、ヘイトフルコンテンツと攻撃的コンテンツを正確に区別する上での既存の課題と、マルチモーダルかつ文化的にニュアンスなモデルに対する緊急の必要性を強調している。 MultiHateClipは、オンラインヘイトスピーチと戦う上で、マルチモーダルで文化的に敏感なアプローチの必要性を強調することによって、ヘイトフルなビデオ検出を強化する基礎的な進歩である。

Hate speech is a pressing issue in modern society, with significant effects both online and offline. Recent research in hate speech detection has primarily centered on text-based media, largely overlooking multimodal content such as videos. Existing studies on hateful video datasets have predominantly focused on English content within a Western context and have been limited to binary labels (hateful or non-hateful), lacking detailed contextual information. This study presents MultiHateClip1 , an novel multilingual dataset created through hate lexicons and human annotation. It aims to enhance the detection of hateful videos on platforms such as YouTube and Bilibili, including content in both English and Chinese languages. Comprising 2,000 videos annotated for hatefulness, offensiveness, and normalcy, this dataset provides a cross-cultural perspective on gender-based hate speech. Through a detailed examination of human annotation results, we discuss the differences between Chinese and English hateful videos and underscore the importance of different modalities in hateful and offensive video analysis. Evaluations of state-of-the-art video classification models, such as VLM, GPT-4V and Qwen-VL, on MultiHateClip highlight the existing challenges in accurately distinguishing between hateful and offensive content and the urgent need for models that are both multimodally and culturally nuanced. MultiHateClip represents a foundational advance in enhancing hateful video detection by underscoring the necessity of a multimodal and culturally sensitive approach in combating online hate speech.
翻訳日:2024-08-13 20:04:01 公開日:2024-08-12
# Time is notough: Time-Frequency based Explanation for Time-Series Black-Box Models

Time is Not Enough: Time-Frequency based Explanation for Time-Series Black-Box Models ( http://arxiv.org/abs/2408.03636v2 )

ライセンス: Link先を確認
Hyunseung Chung, Sumin Jo, Yeonsu Kwon, Edward Choi, (参考訳) 大規模な適用による時系列説明に対する大きな関心にもかかわらず、既存のアプローチの顕著な制限は、時間領域への依存である。 これは、時間的特徴と周波数的特徴の両方を含む時系列データの本質的な特徴を見落としている。 本稿では、時系列ブラックボックス分類器の時間周波数説明を提供するXAIフレームワークであるSpectral eXplanation(SpectralX)を提案する。 この容易に適応可能なフレームワークにより、事前訓練された時系列分類モデルに対して、様々な摂動ベースのXAIメソッドを"プラグイン"して、フレームワークアーキテクチャを変更することなく、説明品質への影響を評価することができる。 さらに,新しい摂動型XAI法であるFeature Importance Approximations (FIA)を導入する。 これらの手法は、時系列分類タスクにおける計算効率とクラス固有の説明を高めるために、特徴挿入、削除、組み合わせ技術から構成される。 生成した合成データセットと様々なUCR時系列データセットを用いて、時間領域と時間周波数領域の両方において、FIAや他の既存の摂動型XAI手法の説明性能を比較検討し、スペクトラルXフレームワークを用いて、時間周波数領域におけるFIAの優位性を示す。 最後に、クラス固有の時間周波数に基づく時系列説明のためのSpectralXフレームワークにおけるFIAの実用性を確認するために、ユーザスタディを実施している。 ソースコードはhttps://github.com/gustmd0121/Time_is_not_Enoughで公開されている。

Despite the massive attention given to time-series explanations due to their extensive applications, a notable limitation in existing approaches is their primary reliance on the time-domain. This overlooks the inherent characteristic of time-series data containing both time and frequency features. In this work, we present Spectral eXplanation (SpectralX), an XAI framework that provides time-frequency explanations for time-series black-box classifiers. This easily adaptable framework enables users to "plug-in" various perturbation-based XAI methods for any pre-trained time-series classification models to assess their impact on the explanation quality without having to modify the framework architecture. Additionally, we introduce Feature Importance Approximations (FIA), a new perturbation-based XAI method. These methods consist of feature insertion, deletion, and combination techniques to enhance computational efficiency and class-specific explanations in time-series classification tasks. We conduct extensive experiments in the generated synthetic dataset and various UCR Time-Series datasets to first compare the explanation performance of FIA and other existing perturbation-based XAI methods in both time-domain and time-frequency domain, and then show the superiority of our FIA in the time-frequency domain with the SpectralX framework. Finally, we conduct a user study to confirm the practicality of our FIA in SpectralX framework for class-specific time-frequency based time-series explanations. The source code is available in https://github.com/gustmd0121/Time_is_not_Enough
翻訳日:2024-08-13 20:04:01 公開日:2024-08-12
# ランダム回路における相互情報ゆらぎと非安定化器性

Mutual information fluctuations and non-stabilizerness in random circuits ( http://arxiv.org/abs/2408.03831v2 )

ライセンス: Link先を確認
Arash Ahmadi, Jonas Helsen, Cagan Karaca, Eliska Greplova, (参考訳) 量子技術の出現は、量子資源のキャラクタリゼーションや、量子プロセスの古典的なシミュラビリティに多くの注目を集めている。 非安定化器性によって定量化される量子資源は、ある理論的アプローチにおいてエントロピックな単調関数の族に結びついている。 本研究では、エントロピーに基づく量子化器のゆらぎを用いた非安定化器性と情報スクランブルの関係を解析的および数値的に実証する。 具体的には、ランダム量子回路によって生じる非安定化性は、相互情報のゆらぎに比例する。 さらに, 測定誘起絡み合い相転移における非安定化剤の役割について検討した。 非安定化度の増加に伴い, 相互情報の変動が減少し, 遷移点の同定が容易になる可能性が示唆された。 我々の研究は、量子資源理論、情報スクランブルおよび測定誘起絡み合い相転移の間の鍵となる接続を確立する。

The emergence of quantum technologies has brought much attention to the characterization of quantum resources as well as the classical simulatability of quantum processes. Quantum resources, as quantified by non-stabilizerness, have in one theoretical approach been linked to a family of entropic, monotonic functions. In this work, we demonstrate both analytically and numerically a simple relationship between non-stabilizerness and information scrambling using the fluctuations of an entropy-based quantifier. Specifically, we find that the non-stabilizerness generated by a random quantum circuit is proportional to fluctuations of mutual information. Furthermore, we explore the role of non-stabilizerness in measurement-induced entanglement phase transitions. We find that the fluctuations of mutual information decrease with increasing non-stabilizerness yielding potentially easier identification of the transition point. Our work establishes a key connection between quantum resource theory, information scrambling and measurement-induced entanglement phase transitions.
翻訳日:2024-08-13 20:04:01 公開日:2024-08-12
# 人的価値を持つ大言語モデルの強弱アライメント

Strong and weak alignment of large language models with human values ( http://arxiv.org/abs/2408.04655v2 )

ライセンス: Link先を確認
Mehdi Khamassi, Marceau Nahon, Raja Chatila, (参考訳) 人工知能(AI)システムの人間社会への悪影響を最小限に抑えるためには、人間の価値観に合わせる必要がある。 しかし、現在のほとんどの研究は、技術的観点からのみこの問題に対処している。例えば、人間のフィードバックからの強化学習に依存し、それが何を意味するのかを無視し、アライメントを行うために必要な現在の手法を改善する。 本稿では,強い値のアライメントと弱い値アライメントを区別することを提案する。 強いアライメントは、エージェントの意図を理解し、推論したり、望ましい効果を因果的に生み出す能力のような認知能力(人間と異なるもの)を必要とする。 これは、大きな言語モデル(LLM)のようなAIシステムにおいて、人間の価値が浮かび上がるリスクを示す状況を認識するために必要である、と我々は主張する。 この区別を説明するために、我々はChatGPT、Gemini、Copilotがこれらの状況を認識しなかったことを示す一連のプロンプトを提示する。 さらに, 単語埋め込みを解析することにより, LLMにおける人間の値に最も近い近傍が, 人間の意味表現と異なることを示す。 そこで我々は,ジョン・サールの有名な提案の延長として,「単語遷移辞書付き中国語室」と呼ばれる新しい思考実験を提案する。 我々は最終的に、いくつかの一般的な状況において統計的に満足できる答えを得られるような、弱いアライメントに向けた現在の有望な研究方向について言及した。

Minimizing negative impacts of Artificial Intelligent (AI) systems on human societies without human supervision requires them to be able to align with human values. However, most current work only addresses this issue from a technical point of view, e.g., improving current methods relying on reinforcement learning from human feedback, neglecting what it means and is required for alignment to occur. Here, we propose to distinguish strong and weak value alignment. Strong alignment requires cognitive abilities (either human-like or different from humans) such as understanding and reasoning about agents' intentions and their ability to causally produce desired effects. We argue that this is required for AI systems like large language models (LLMs) to be able to recognize situations presenting a risk that human values may be flouted. To illustrate this distinction, we present a series of prompts showing ChatGPT's, Gemini's and Copilot's failures to recognize some of these situations. We moreover analyze word embeddings to show that the nearest neighbors of some human values in LLMs differ from humans' semantic representations. We then propose a new thought experiment that we call "the Chinese room with a word transition dictionary", in extension of John Searle's famous proposal. We finally mention current promising research directions towards a weak alignment, which could produce statistically satisfying answers in a number of common situations, however so far without ensuring any truth value.
翻訳日:2024-08-13 19:54:11 公開日:2024-08-12
# XMainframe: メインフレームの近代化のための大規模言語モデル

XMainframe: A Large Language Model for Mainframe Modernization ( http://arxiv.org/abs/2408.04660v2 )

ライセンス: Link先を確認
Anh T. V. Dau, Hieu Trung Dao, Anh Tuan Nguyen, Hieu Trung Tran, Phong X. Nguyen, Nghi D. Q. Bui, (参考訳) メインフレームオペレーティングシステムは1940年代に誕生したにもかかわらず、金融や政府といった重要な分野のサポートを続けている。 しかし、これらのシステムは時代遅れと見なされ、大規模な保守と近代化を必要としている。 この課題に対処するには、レガシーコードベースを理解して操作できる革新的なツールが必要である。 この目的のために,メインフレームレガシシステムやCOBOLコードベースの知識に特化して設計された,最先端の大規模言語モデル(LLM)であるXMainframeを紹介した。 私たちのソリューションは、高品質なトレーニングデータセットを生成するための広範なデータ収集パイプラインの作成と、この特殊なドメインにおけるXMainframeのパフォーマンスの向上です。 さらに、メインフレームの知識を総合的に評価するためのベンチマークであるMainframeBenchを紹介します。 XMainframeは、これらのタスクにおいて、既存の最先端のLCMよりも一貫して優れています。 具体的には、XMainframeは複数の質問に対してDeepSeek-Coderよりも30%高い精度を達成し、質問応答においてMixtral-Instruct 8x7BのBLEUスコアを倍増させ、COBOL要約においてGPT-3.5よりも6倍高いスコアを得る。 我々の研究は、XMainframeがレガシーシステムの管理と近代化において大きな進歩をもたらし、それによって生産性が向上し、ソフトウェア開発者の時間を節約できる可能性を強調しています。

Mainframe operating systems, despite their inception in the 1940s, continue to support critical sectors like finance and government. However, these systems are often viewed as outdated, requiring extensive maintenance and modernization. Addressing this challenge necessitates innovative tools that can understand and interact with legacy codebases. To this end, we introduce XMainframe, a state-of-the-art large language model (LLM) specifically designed with knowledge of mainframe legacy systems and COBOL codebases. Our solution involves the creation of an extensive data collection pipeline to produce high-quality training datasets, enhancing XMainframe's performance in this specialized domain. Additionally, we present MainframeBench, a comprehensive benchmark for assessing mainframe knowledge, including multiple-choice questions, question answering, and COBOL code summarization. Our empirical evaluations demonstrate that XMainframe consistently outperforms existing state-of-the-art LLMs across these tasks. Specifically, XMainframe achieves 30% higher accuracy than DeepSeek-Coder on multiple-choice questions, doubles the BLEU score of Mixtral-Instruct 8x7B on question answering, and scores six times higher than GPT-3.5 on COBOL summarization. Our work highlights the potential of XMainframe to drive significant advancements in managing and modernizing legacy systems, thereby enhancing productivity and saving time for software developers.
翻訳日:2024-08-13 19:54:11 公開日:2024-08-12
# 開不均一$XX$-スピン鎖の非平衡定常状態の電流

Currents in non-equilibrium steady states of open inhomogeneous $XX$-spin chains ( http://arxiv.org/abs/2408.04818v2 )

ライセンス: Link先を確認
Pierre-Antoine Bernard, Ismaël Bussière, Roberto Floreanini, Luc Vinet, (参考訳) 不均一な$XX$-スピン鎖の非平衡定常状態におけるスピンおよび熱電流について検討した。 単粒子ハミルトニアンを対角化する特殊関数を用いて、これらの電流に対して閉形式表現を導出する。 浴槽間の温度差を小さくするために、鎖のミラー対称性を破る不均一性は熱伝導率とスピン伝導率の両方を著しく減少させることを示した。 完全状態移動との接続について論じる。

We investigate spin and heat currents in the non-equilibrium steady state of inhomogeneous $XX$-spin chains, which act as interfaces between two bosonic heat baths. Using special functions that diagonalize the single-particle Hamiltonian, we derive closed-form expressions for these currents. For small temperature differences between the baths, we show that inhomogeneities breaking the mirror symmetry of the chain significantly reduce both heat and spin conductivities. Connections with perfect state transfer are discussed.
翻訳日:2024-08-13 19:54:11 公開日:2024-08-12
# サンプルベース説明書の公理的特徴付け

Axiomatic Characterisations of Sample-based Explainers ( http://arxiv.org/abs/2408.04903v2 )

ライセンス: Link先を確認
Leila Amgoud, Martin C. Cooper, Salim Debbaoui, (参考訳) ブラックボックス分類器の決定を説明することは、重要かつ計算的に困難である。 本稿では,サンプルやデータセットから特徴に基づく説明文を生成する説明文を精査する。 まず、説明者が理想的に満足し、彼らの関係を掘り下げ、それらのいくつかの不整合性を強調する、望ましい性質のセットを提示します。 我々は、他のすべてと互換性のある2つの重要な特性を満たす説明者のファミリー全体を識別する。 その例は、弱い帰納的説明(英語版)と呼ばれる十分な理由を与え、そこで、互換性のある性質のサブセットを満たす様々なサブファミリを解き放つ。 実際、互換性のあるプロパティのサブセットを満たすすべての説明者を完全に特徴づけます。 特に,説明の存在とグローバルな整合性を保証する最初の(広義の)説明文を紹介し,説明文が多項式時間で見つかるような不溶な説明文や代理説明文など,いくつかの事例について論じる。

Explaining decisions of black-box classifiers is both important and computationally challenging. In this paper, we scrutinize explainers that generate feature-based explanations from samples or datasets. We start by presenting a set of desirable properties that explainers would ideally satisfy, delve into their relationships, and highlight incompatibilities of some of them. We identify the entire family of explainers that satisfy two key properties which are compatible with all the others. Its instances provide sufficient reasons, called weak abductive explanations.We then unravel its various subfamilies that satisfy subsets of compatible properties. Indeed, we fully characterize all the explainers that satisfy any subset of compatible properties. In particular, we introduce the first (broad family of) explainers that guarantee the existence of explanations and their global consistency.We discuss some of its instances including the irrefutable explainer and the surrogate explainer whose explanations can be found in polynomial time.
翻訳日:2024-08-13 19:54:11 公開日:2024-08-12
# 人工認知の解き放つ - 複数のAIシステムを統合する

Unleashing Artificial Cognition: Integrating Multiple AI Systems ( http://arxiv.org/abs/2408.04910v2 )

ライセンス: Link先を確認
Muntasir Adnan, Buddhi Gamage, Zhiwei Xu, Damith Herath, Carlos C. N. Kuhn, (参考訳) 本研究では,人工知能の認知を解き明かすために,言語モデルとクエリ分析技術の革新的な融合を提案する。 我々のシステムは、Chessエンジンを言語モデルとシームレスに統合し、動きを予測し、戦略的説明を提供する。 検索可能な回答生成を通じてベクトルデータベースを活用することで、私たちのOpenSI AIシステムは、生の計算と人間のような理解のギャップを埋めながら、意思決定プロセスを解明します。 実演環境としてのChessの選択は、私たちのアプローチの汎用性を強調します。 Chess以外にも、医療診断から財務予測まで、さまざまな応用を約束しています。

In this study, we present an innovative fusion of language models and query analysis techniques to unlock cognition in artificial intelligence. Our system seamlessly integrates a Chess engine with a language model, enabling it to predict moves and provide strategic explanations. Leveraging a vector database through retrievable answer generation, our OpenSI AI system elucidates its decision-making process, bridging the gap between raw computation and human-like understanding. Our choice of Chess as the demonstration environment underscores the versatility of our approach. Beyond Chess, our system holds promise for diverse applications, from medical diagnostics to financial forecasting.
翻訳日:2024-08-13 19:54:11 公開日:2024-08-12
# reCSE: 自己教師型コントラスト学習における文埋め込みのための可搬型変換機能

reCSE: Portable Reshaping Features for Sentence Embedding in Self-supervised Contrastive Learning ( http://arxiv.org/abs/2408.04975v2 )

ライセンス: Link先を確認
Fufangchen Zhao, Gao Jian, Danfeng Yan, (参考訳) 特徴再構成に基づく自己教師付きコントラスト学習文表現フレームワークreCSEを提案する。 このフレームワークは、離散データ拡張手法を使用する現在の先進モデルとは異なるが、代わりに元の文の入力特徴を再評価し、文中の各トークンのグローバル情報を集約し、現在の先進モデルにおける表現極性やGPUメモリ消費の線形増加に関する一般的な問題を緩和する。 さらに,我々のreCSEはセマンティック類似性タスクにおける競合性能を達成している。 また,提案手法は,他の自己指導型コントラスト学習フレームワークに移植し,その表現能力を向上し,最先端の性能を達成できるような,強力な普遍性を有することを示す。 私たちのコードはhttps://github.com/heavenhellchen/reCSEで公開されています。

We propose reCSE, a self supervised contrastive learning sentence representation framework based on feature reshaping. This framework is different from the current advanced models that use discrete data augmentation methods, but instead reshapes the input features of the original sentence, aggregates the global information of each token in the sentence, and alleviates the common problems of representation polarity and GPU memory consumption linear increase in current advanced models. In addition, our reCSE has achieved competitive performance in semantic similarity tasks. And the experiment proves that our proposed feature reshaping method has strong universality, which can be transplanted to other self supervised contrastive learning frameworks and enhance their representation ability, even achieving state-of-the-art performance. Our code is available at https://github.com/heavenhellchen/reCSE.
翻訳日:2024-08-13 19:54:11 公開日:2024-08-12
# LLM開発者の挑戦に関する実証的研究

An Empirical Study on Challenges for LLM Developers ( http://arxiv.org/abs/2408.05002v2 )

ライセンス: Link先を確認
Xiang Chen, Chaoyang Gao, Chunyang Chen, Guangbei Zhang, Yong Liu, (参考訳) 近年,大規模言語モデル (LLM) が急速に進歩し,自然言語処理やソフトウェア工学といった様々な分野に大きな影響を与えた。 OpenAIのChatGPTによって実証されたこれらのLLMは、言語理解と生成タスクへのアプローチ方法に革命をもたらした。 しかしながら、従来のソフトウェア開発プラクティスとは対照的に、LLM開発では、設計、実装、デプロイメントにおいてAI開発者にとって新たな課題が導入されている。 これらの課題はさまざまな領域(プロンプト、API、プラグインなど)にまたがっており、開発者はLSM開発に特有の独自の方法論や考慮をナビゲートする必要がある。 LLMの強い影響にもかかわらず、我々の知る限りでは、これらの課題は過去の実証研究では十分に研究されていない。 このギャップを埋めるために、LLM開発者が直面している課題を理解するための、最初の包括的な研究を紹介する。 具体的には、人気のあるOpenAI開発者フォーラムから29,057の関連質問をクロールして分析します。 私たちはまず彼らの人気と難しさを調べます。 2,364の質問を手動で分析した後、LLM開発者が直面している課題の分類を構築した。 この分類に基づいて、開発者や提供者(特にOpenAI組織)を含むLCM関連ステークホルダーに対する一連の発見と行動可能な意味を要約する。

In recent years, large language models (LLMs) have seen rapid advancements, significantly impacting various fields such as natural language processing, and software engineering. These LLMs, exemplified by OpenAI's ChatGPT, have revolutionized the way we approach language understanding and generation tasks. However, in contrast to traditional software development practices, LLM development introduces new challenges for AI developers in design, implementation, and deployment. These challenges span different areas (such as prompts, APIs, and plugins), requiring developers to navigate unique methodologies and considerations specific to LLM development. Despite the profound influence of LLMs, to the best of our knowledge, these challenges have not been thoroughly investigated in previous empirical studies. To fill this gap, we present the first comprehensive study on understanding the challenges faced by LLM developers. Specifically, we crawl and analyze 29,057 relevant questions from a popular OpenAI developer forum. We first examine their popularity and difficulty. After manually analyzing 2,364 sampled questions, we construct a taxonomy of challenges faced by LLM developers. Based on this taxonomy, we summarize a set of findings and actionable implications for LLM-related stakeholders, including developers and providers (especially the OpenAI organization).
翻訳日:2024-08-13 19:54:11 公開日:2024-08-12
# Rag and Roll: LLMベースのアプリケーションフレームワークにおける間接プロンプト操作のエンドツーエンド評価

Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Application Frameworks ( http://arxiv.org/abs/2408.05025v2 )

ライセンス: Link先を確認
Gianluca De Stefano, Lea Schönherr, Giancarlo Pellegrino, (参考訳) Retrieval Augmented Generation (RAG) は、分散知識を欠くモデルによく用いられる手法である。 このプロセスは、応答を生成するためのLLMへの情報収集、インデックス化、検索、提供を含む。 柔軟性と低コストで人気が高まっているにもかかわらず、RAGのセキュリティへの影響は広く研究されていない。 このようなシステムのデータは、しばしば公開ソースから収集され、攻撃者がモデルの応答を操作する間接的なインジェクションのゲートウェイを提供する。 本稿では,RAGシステムのエンドツーエンドの間接的操作に対する安全性について検討する。 まず、既存のRAGフレームワークパイプラインをレビューし、プロトタイプアーキテクチャを導出し、クリティカルパラメータを識別する。 次に、攻撃者が間接的なプロンプト操作を行うために使用できるテクニックを探索する先行作業について検討する。 最後に、エンドツーエンドのRAGアプリケーションに対する攻撃の有効性を決定するためのフレームワークであるRag 'n Rollを実装した。 その結果,既存の攻撃は検索期間中に悪意のある文書のランキングを上げるために最適化されていることがわかった。 しかし、上位は直ちに信頼できる攻撃にはならない。 ほとんどの攻撃は、様々な構成に対して、40%の成功率に落ち着き、不明瞭な回答を攻撃として考えると60%に上昇する可能性がある。 さらに、最適化されていないドキュメントを使用する場合、ターゲットクエリに2つ(あるいはそれ以上)をデプロイするアタッカーは、最適化されたドキュメントと同じ結果が得られる。 最後に、RAGの構成空間の探索は、最も成功した組み合わせが機能を著しく損なう攻撃の阻止に限られた影響を示した。

Retrieval Augmented Generation (RAG) is a technique commonly used to equip models with out of distribution knowledge. This process involves collecting, indexing, retrieving, and providing information to an LLM for generating responses. Despite its growing popularity due to its flexibility and low cost, the security implications of RAG have not been extensively studied. The data for such systems are often collected from public sources, providing an attacker a gateway for indirect prompt injections to manipulate the responses of the model. In this paper, we investigate the security of RAG systems against end-to-end indirect prompt manipulations. First, we review existing RAG framework pipelines, deriving a prototypical architecture and identifying critical parameters. We then examine prior works searching for techniques that attackers can use to perform indirect prompt manipulations. Finally, we implemented Rag 'n Roll, a framework to determine the effectiveness of attacks against end-to-end RAG applications. Our results show that existing attacks are mostly optimized to boost the ranking of malicious documents during the retrieval phase. However, a higher rank does not immediately translate into a reliable attack. Most attacks, against various configurations, settle around a 40% success rate, which could rise to 60% when considering ambiguous answers as successful attacks (those that include the expected benign one as well). Additionally, when using unoptimized documents, attackers deploying two of them (or more) for a target query can achieve similar results as those using optimized ones. Finally, exploration of the configuration space of a RAG showed limited impact in thwarting the attacks, where the most successful combination severely undermines functionality.
翻訳日:2024-08-13 19:54:11 公開日:2024-08-12
# アラビア語のLLMプロンプトを大規模に作成する

Creating Arabic LLM Prompts at Scale ( http://arxiv.org/abs/2408.05882v1 )

ライセンス: Link先を確認
Abdelrahman El-Sheikh, Ahmed Elmogtaba, Kareem Darwish, Muhammad Elmallah, Ashraf Elneima, Hassan Sawaf, (参考訳) chatGPT と BARD の登場により LLM を用いたテキスト生成による命令の一般化が図られ,自然言語要求を用いて LLM を問うことができ,その要求にマッチする自然言語の回答が得られるようになった。 この方法でLLMに応答するためのトレーニングには、対応するゴールドレスポンスを持つユーザリクエスト(別名プロンプト)の多数の実例が必要となる。 本稿では、アラビア語に対するこのようなプロンプトを安価かつ迅速に作成する2つの方法を紹介する。 最初の方法は、PromptSourceやSuper-Natural Instructionsといった既存のプロンプトデータセットを英語から自動的に翻訳し、マシン翻訳の品質評価を使用して、高品質な翻訳のみを保持する。 2つ目の方法は、既存のアラビアのNLPデータセットの上に自然言語プロンプトを作成することである。 これら2つの方法を用いることで、要約、見出し生成、文法チェック、オープン/クローズドな質問応答、創造的な文章など、さまざまなタスクをカバーする6740万以上のアラビア語プロンプトを作成できるようになりました。 オープンな70億パラメータの大言語モデルであるQwen2 7Bを微調整することで、アラビア語のプロンプトを扱う上で、最先端の70億パラメータ命令チューニングモデル、すなわちLlama3 70Bより優れていることを示す。

The debut of chatGPT and BARD has popularized instruction following text generation using LLMs, where a user can interrogate an LLM using natural language requests and obtain natural language answers that matches their requests. Training LLMs to respond in this manner requires a large number of worked out examples of user requests (aka prompts) with corresponding gold responses. In this paper, we introduce two methods for creating such prompts for Arabic cheaply and quickly. The first methods entails automatically translating existing prompt datasets from English, such as PromptSource and Super-NaturalInstructions, and then using machine translation quality estimation to retain high quality translations only. The second method involves creating natural language prompts on top of existing Arabic NLP datasets. Using these two methods we were able to create more than 67.4 million Arabic prompts that cover a variety of tasks including summarization, headline generation, grammar checking, open/closed question answering, creative writing, etc. We show that fine tuning an open 7 billion parameter large language model, namely base Qwen2 7B, enables it to outperform a state-of-the-art 70 billion parameter instruction tuned model, namely Llama3 70B, in handling Arabic prompts.
翻訳日:2024-08-13 15:05:59 公開日:2024-08-12
# 低ランク近似・適応・その他の物語

Low-Rank Approximation, Adaptation, and Other Tales ( http://arxiv.org/abs/2408.05883v1 )

ライセンス: Link先を確認
Jun Lu, (参考訳) 低ランク近似は、信号処理、機械学習、自然言語処理といった様々な分野に広く利用されている、現代のデータ分析における基本的な技術である。 その普遍性にも拘わらず、低ランク近似の力学と適応への応用は、時に曖昧なものとなり、実践者や研究者はその真の能力と限界について疑問を呈する。 本稿では,その内部動作を明らかにする包括的なガイドを提供することにより,低階近似と適応性を明らかにすることを目的としている。 ここでの焦点は、低ランク近似と適応の動作方法と、それらがなぜこれほど効果的であるかについて、しっかりとした直感を作ることです。 基本概念から始まり、数学的基盤まで徐々に構築し、すべての背景の読者が低ランク近似と適応をより深く理解できるようにします。 我々は、非公式な説明と厳密な数学のバランスを保ち、新参者も経験豊富な専門家もこの調査の恩恵を受けられるように努力している。 さらに、この分野でまだ検討されていない新しい低ランク分解アルゴリズムと適応アルゴリズムを導入し、将来の研究者がその適用可能性について検討することを期待する。

Low-rank approximation is a fundamental technique in modern data analysis, widely utilized across various fields such as signal processing, machine learning, and natural language processing. Despite its ubiquity, the mechanics of low-rank approximation and its application in adaptation can sometimes be obscure, leaving practitioners and researchers with questions about its true capabilities and limitations. This paper seeks to clarify low-rank approximation and adaptation by offering a comprehensive guide that reveals their inner workings and explains their utility in a clear and accessible way. Our focus here is to develop a solid intuition for how low-rank approximation and adaptation operate, and why they are so effective. We begin with basic concepts and gradually build up to the mathematical underpinnings, ensuring that readers of all backgrounds can gain a deeper understanding of low-rank approximation and adaptation. We strive to strike a balance between informal explanations and rigorous mathematics, ensuring that both newcomers and experienced experts can benefit from this survey. Additionally, we introduce new low-rank decomposition and adaptation algorithms that have not yet been explored in the field, hoping that future researchers will investigate their potential applicability.
翻訳日:2024-08-13 15:05:59 公開日:2024-08-12
# 政策グラディエントによるGFlowNetトレーニング

GFlowNet Training by Policy Gradients ( http://arxiv.org/abs/2408.05885v1 )

ライセンス: Link先を確認
Puhua Niu, Shili Wu, Mingzhou Fan, Xiaoning Qian, (参考訳) 生成フローネットワーク(GFlowNets)は、所望の特性を持つ組合せオブジェクトを生成するのに有効であることが示されている。 本稿では,従来のReinforcement-Learning(RL)において,GFlowNetのフローバランスを保ち,期待される累積報酬を最適化するブリッジを,ポリシーに依存した新たなGFlowNetトレーニングフレームワークを提案する。 これにより,新しいポリシベースのGFlowNetトレーニング手法の導出が可能になる。 GFlowNetトレーニングにおける後方ポリシーの設計が効率に影響を及ぼすことが知られている。 我々はさらに,GFlowNetのフォワード・ポリシー・トレーニングとバック・ポリシー・デザインを共同で解決する総合的なトレーニング・ストラテジーを開発する。 性能分析はポリシーに基づくGFlowNetトレーニングの理論的保証を提供する。 シミュレーションと実世界の両方のデータセットの実験により、我々のポリシーベースの戦略が、GFlowNetの性能を改善するために頑健な勾配推定のための高度なRL視点を提供することを確認した。

Generative Flow Networks (GFlowNets) have been shown effective to generate combinatorial objects with desired properties. We here propose a new GFlowNet training framework, with policy-dependent rewards, that bridges keeping flow balance of GFlowNets to optimizing the expected accumulated reward in traditional Reinforcement-Learning (RL). This enables the derivation of new policy-based GFlowNet training methods, in contrast to existing ones resembling value-based RL. It is known that the design of backward policies in GFlowNet training affects efficiency. We further develop a coupled training strategy that jointly solves GFlowNet forward policy training and backward policy design. Performance analysis is provided with a theoretical guarantee of our policy-based GFlowNet training. Experiments on both simulated and real-world datasets verify that our policy-based strategies provide advanced RL perspectives for robust gradient estimation to improve GFlowNet performance.
翻訳日:2024-08-13 15:05:59 公開日:2024-08-12
# オンラインスコア支援フェデレーションラーニング:無線ネットワークにおけるリソース制約の活用

Online-Score-Aided Federated Learning: Taming the Resource Constraints in Wireless Networks ( http://arxiv.org/abs/2408.05886v1 )

ライセンス: Link先を確認
Md Ferdous Pervej, Minseok Choi, Andreas F. Molisch, (参考訳) FLはデータプライバシを保護する分散ML戦略として広く普及しているが、時間変化のある無線ネットワークパラメータと、無線デバイスの異種システム構成は重大な課題である。 ネットワークとクライアントの限られた無線リソースと計算リソースは広く認識されているが、重要な2つの側面は無視されている。 (a)無線端末は、FLタスクに限られたストレージのごく一部だけを割り当てることができる。 b)新しいトレーニングサンプルは、多くの実用的な無線アプリケーションにおいてオンラインに届く可能性がある。 そこで本研究では,これらの実践的考察に基づき,無線アプリケーションに関連するタスクを学習するために,OSAFLと呼ばれる新しいFLアルゴリズムを提案する。 過度なリソース制約の下で、クライアントは任意の数のローカルトレーニングステップを実行でき、これは統計的に不均一なデータ分布の下でクライアントのドリフトを引き起こす可能性があることが長年証明されてきたので、正規化勾配の類似性を活用し、提案したOSAFLアルゴリズムの収束率を促進する最適化スコアに基づいてクライアントの更新を重み付けする。 一般的な4つのMLモデルは、既存の6つの最先端のFLベースラインと比較してOSAFLの有効性を検証する。

While FL is a widely popular distributed ML strategy that protects data privacy, time-varying wireless network parameters and heterogeneous system configurations of the wireless device pose significant challenges. Although the limited radio and computational resources of the network and the clients, respectively, are widely acknowledged, two critical yet often ignored aspects are (a) wireless devices can only dedicate a small chunk of their limited storage for the FL task and (b) new training samples may arrive in an online manner in many practical wireless applications. Therefore, we propose a new FL algorithm called OSAFL, specifically designed to learn tasks relevant to wireless applications under these practical considerations. Since it has long been proven that under extreme resource constraints, clients may perform an arbitrary number of local training steps, which may lead to client drift under statistically heterogeneous data distributions, we leverage normalized gradient similarities and exploit weighting clients' updates based on optimized scores that facilitate the convergence rate of the proposed OSAFL algorithm. Our extensive simulation results on two different tasks -- each with three different datasets -- with four popular ML models validate the effectiveness of OSAFL compared to six existing state-of-the-art FL baselines.
翻訳日:2024-08-13 14:55:41 公開日:2024-08-12
# サイバーセキュリティとAIにおける統合的アプローチ

Integrative Approaches in Cybersecurity and AI ( http://arxiv.org/abs/2408.05888v1 )

ライセンス: Link先を確認
Marwan Omar, (参考訳) 近年、サイバーセキュリティ、人工知能(AI)、データ管理の融合が、現代の技術エコシステムの複雑さと相互依存の増大によって、研究の重要な領域として浮上している。 本稿では、AI技術を利用してサイバーセキュリティフレームワークを強化し、データ管理プラクティスを最適化する統合的アプローチの包括的なレビューと分析を行う。 これらのドメイン間のシナジーを探索することで、組織がデータ保護、分析、活用する方法に革命をもたらす可能性を秘めている重要なトレンド、課題、将来の方向性を特定します。 私たちの発見は、AI駆動の自動化、リアルタイム脅威検出、高度なデータ分析を取り入れて、よりレジリエンスで適応的なセキュリティアーキテクチャを構築するための、学際的な戦略の必要性を強調しています。

In recent years, the convergence of cybersecurity, artificial intelligence (AI), and data management has emerged as a critical area of research, driven by the increasing complexity and interdependence of modern technological ecosystems. This paper provides a comprehensive review and analysis of integrative approaches that harness AI techniques to enhance cybersecurity frameworks and optimize data management practices. By exploring the synergies between these domains, we identify key trends, challenges, and future directions that hold the potential to revolutionize the way organizations protect, analyze, and leverage their data. Our findings highlight the necessity of cross-disciplinary strategies that incorporate AI-driven automation, real-time threat detection, and advanced data analytics to build more resilient and adaptive security architectures.
翻訳日:2024-08-13 14:55:41 公開日:2024-08-12
# トークンレベルの表現学習による医用画像の3次元トランスフォーマーセグメンテーションモデルの構築

Enhancing 3D Transformer Segmentation Model for Medical Image with Token-level Representation Learning ( http://arxiv.org/abs/2408.05889v1 )

ライセンス: Link先を確認
Xinrong Hu, Dewen Zeng, Yawen Wu, Xueyang Li, Yiyu Shi, (参考訳) 医学画像の分野では、Swin Transformerはピクセル単位の密度予測に有望な効果があるが、これらのモデルに余分なデータセットを使わずに事前学習することで、下流セマンティックセグメンテーションの性能をさらに向上させることができるかどうかが不明であり、従来の表現学習手法の適用は、3Dボリュームの限られた数と高い計算コストによって妨げられている。 加えて、Transformer用に特別に設計されたプレテキストタスクのほとんどは、Swin Transformerの階層構造には適用されない。 そこで本研究では,異なる拡張ビューからのトークン埋め込み間の合意を,ボリュームレベルのグローバルな特徴ではなく個別に最大化するトークンレベルの表現学習損失を提案する。 さらに、この新たな損失によってのみ引き起こされる潜在的な表現崩壊を同定する。 この機構は入力ボリュームの1つの拡張ビューを回転・反転させ、後に特徴写像のトークンの順序を復元する。 また、異なるボリュームではなく、同じ位置のトークン間の識別に対処するために、対照的な損失を修正します。 筆者らは2つの公開医療セグメント化データセットで事前トレーニングを行い、下流セグメンテーションタスクの結果は、他の最先端のプレトレーニング手法よりも、我々の方法の改善を示す。

In the field of medical images, although various works find Swin Transformer has promising effectiveness on pixelwise dense prediction, whether pre-training these models without using extra dataset can further boost the performance for the downstream semantic segmentation remains unexplored.Applications of previous representation learning methods are hindered by the limited number of 3D volumes and high computational cost. In addition, most of pretext tasks designed specifically for Transformer are not applicable to hierarchical structure of Swin Transformer. Thus, this work proposes a token-level representation learning loss that maximizes agreement between token embeddings from different augmented views individually instead of volume-level global features. Moreover, we identify a potential representation collapse exclusively caused by this new loss. To prevent collapse, we invent a simple "rotate-and-restore" mechanism, which rotates and flips one augmented view of input volume, and later restores the order of tokens in the feature maps. We also modify the contrastive loss to address the discrimination between tokens at the same position but from different volumes. We test our pre-training scheme on two public medical segmentation datasets, and the results on the downstream segmentation task show more improvement of our methods than other state-of-the-art pre-trainig methods.
翻訳日:2024-08-13 14:55:41 公開日:2024-08-12
# SZKP:ゼロ知識証明のためのスケーラブルなアクセラレータアーキテクチャ

SZKP: A Scalable Accelerator Architecture for Zero-Knowledge Proofs ( http://arxiv.org/abs/2408.05890v1 )

ライセンス: Link先を確認
Alhad Daftardar, Brandon Reagen, Siddharth Garg, (参考訳) Zero-Knowledge Proofs (ZKP) は、検証可能なコンピューティングにおける創発的なパラダイムである。 クラウドコンピューティングのようなアプリケーションのコンテキストにおいて、ZKPはクライアント(検証者と呼ばれる)によって、サービスプロバイダ(証明者と呼ばれる)が実際に公開入力に基づいて正しい計算を行っていることを検証するために使用できる。 ZKPsの最近の顕著な変種はzkSNARKsであり、エンドユーザーが迅速に検証できる簡潔な証明を生成する。 しかし、証明生成自体はトランザクション毎に非常に時間がかかります。 証明生成における2つの重要なプリミティブは、Number Theoretic Transform (NTT)とMulti-scalar Multiplication (MSM)である。 これらのプリミティブはハードウェアアクセラレーションの主要な候補であり、以前の研究ではGPUの実装とカスタムRTLが検討されていた。 しかし、両方のアルゴリズムは複雑なデータフローパターンを伴い、標準的なNTTはステージごとにバタフライ計算のための不規則なメモリアクセスを持ち、ピッペンガーのアルゴリズムを使ったMSMは部分和計算のためのデータ依存メモリアクセスを持つ。 我々はNTTとSMの両方に構造化データフローを活用することにより、チップ上の証明全体を高速化する最初のASICであるスケーラブルなアクセラレータフレームワークであるSZKPを提案する。 SZKPは、400$\times$, 3$\times$, 12$\times$ over CPU, ASIC, GPU実装という保守的な完全なスピードアップを実現している。

Zero-Knowledge Proofs (ZKPs) are an emergent paradigm in verifiable computing. In the context of applications like cloud computing, ZKPs can be used by a client (called the verifier) to verify the service provider (called the prover) is in fact performing the correct computation based on a public input. A recently prominent variant of ZKPs is zkSNARKs, generating succinct proofs that can be rapidly verified by the end user. However, proof generation itself is very time consuming per transaction. Two key primitives in proof generation are the Number Theoretic Transform (NTT) and Multi-scalar Multiplication (MSM). These primitives are prime candidates for hardware acceleration, and prior works have looked at GPU implementations and custom RTL. However, both algorithms involve complex dataflow patterns -- standard NTTs have irregular memory accesses for butterfly computations from stage to stage, and MSMs using Pippenger's algorithm have data-dependent memory accesses for partial sum calculations. We present SZKP, a scalable accelerator framework that is the first ASIC to accelerate an entire proof on-chip by leveraging structured dataflows for both NTTs and MSMs. SZKP achieves conservative full-proof speedups of over 400$\times$, 3$\times$, and 12$\times$ over CPU, ASIC, and GPU implementations.
翻訳日:2024-08-13 14:55:41 公開日:2024-08-12
# CMAB: オープンソースデータとGeoAIから派生した,初の全国規模のマルチ属性ビルディングデータセット

CMAB: A First National-Scale Multi-Attribute Building Dataset Derived from Open Source Data and GeoAI ( http://arxiv.org/abs/2408.05891v1 )

ライセンス: Link先を確認
Yecheng Zhang, Huimin Zhao, Ying Long, (参考訳) 屋上、高さ、構造などの幾何学的属性や、機能、品質、年齢などの指示的属性を含む3次元ビルデータの迅速な取得は、正確な都市分析、シミュレーション、政策更新に不可欠である。 既存の大規模なビルディングデータセットには、正確性、拡張性、表示属性が欠けている。 本稿では,中国初の多属性建築データセット(CMAB)を全国規模で導入し,大規模建築モデリングのための地理空間人工知能(GeoAI)フレームワークを提案する。 データセットは3,667の自然都市をカバーし、総屋上面積は21.3億平方メートル、F1スコアは89.93%である。 都市の行政区分を用いて, ブートストラップを集約したXGBoostモデルを訓練し, 形態, 位置, 機能などの建築特徴を取り入れた。 数十億もの高解像度のGoogle Earth画像と6000万のストリートビュー画像(SVI)を含むマルチソースデータを使用して、各ビルの屋上、高さ、機能、年齢、品質特性を生成しました。 精度は、モデルベンチマーク、既存の類似製品、手動SVI検証を通じて検証された。 結果は都市計画と持続可能な開発に寄与する。

Rapidly acquiring three-dimensional (3D) building data, including geometric attributes like rooftop, height, and structure, as well as indicative attributes like function, quality, and age, is essential for accurate urban analysis, simulations, and policy updates. Existing large-scale building datasets lack accuracy, extensibility and indicative attributes. This paper presents a geospatial artificial intelligence (GeoAI) framework for large-scale building modeling, introducing the first Multi-Attribute Building dataset (CMAB) in China at a national scale. The dataset covers 3,667 natural cities with a total rooftop area of 21.3 billion square meters with an F1-Score of 89.93% in rooftop extraction through the OCRNet. We trained bootstrap aggregated XGBoost models with city administrative classifications, incorporating building features such as morphology, location, and function. Using multi-source data, including billions of high-resolution Google Earth imagery and 60 million street view images (SVI), we generated rooftop, height, function, age, and quality attributes for each building. Accuracy was validated through model benchmarks, existing similar products, and manual SVI validation. The results support urban planning and sustainable development.
翻訳日:2024-08-13 14:55:41 公開日:2024-08-12
# Polyp SAM 2: 大腸癌検出におけるゼロショットポリープセグメンテーションの促進

Polyp SAM 2: Advancing Zero shot Polyp Segmentation in Colorectal Cancer Detection ( http://arxiv.org/abs/2408.05892v1 )

ライセンス: Link先を確認
Mobina Mansoori, Sajjad Shahabodini, Jamshid Abouei, Konstantinos N. Plataniotis, Arash Mohammadi, (参考訳) ポリープ分画は大腸癌の早期発見と診断において重要な役割を担っている。 しかし、正確なセグメンテーションを得るには、しばしば労働集約的なアノテーションと専門的なモデルが必要である。 最近、Meta AI Researchは、いくつかのセグメンテーションタスクで有望なパフォーマンスを示す一般的なセグメンテーションモデル2(SAM2)をリリースした。 そこで本研究では,各種刺激条件下でのセグメンテーションポリプにおけるSAM2の性能評価を行った。 このレポートは,ポリプセグメンテーションの分野を前進させ,将来より興味深い研究を促進するための洞察を提供することを期待している。 このプロジェクトはhttps://github.com/sajjad-sh33/Polyp-SAM-2で公開されている。

Polyp segmentation plays a crucial role in the early detection and diagnosis of colorectal cancer. However, obtaining accurate segmentations often requires labor-intensive annotations and specialized models. Recently, Meta AI Research released a general Segment Anything Model 2 (SAM 2), which has demonstrated promising performance in several segmentation tasks. In this work, we evaluate the performance of SAM 2 in segmenting polyps under various prompted settings. We hope this report will provide insights to advance the field of polyp segmentation and promote more interesting work in the future. This project is publicly available at https://github.com/ sajjad-sh33/Polyp-SAM-2.
翻訳日:2024-08-13 14:55:41 公開日:2024-08-12
# GlyphPattern:視覚言語モデルのための抽象パターン認識

GlyphPattern: An Abstract Pattern Recognition for Vision-Language Models ( http://arxiv.org/abs/2408.05894v1 )

ライセンス: Link先を確認
Zixuan Wu, Yoolim Kim, Carolyn Jane Anderson, (参考訳) 強力な大規模言語モデルの基礎となる視覚言語モデル(VLM)は、視覚データとテキストデータ間の推論において急速に進歩している。 VLMは、訓練中の視覚タスクでよく機能するが、この結果は抽象パターン認識における重要な課題を浮き彫りにしている。 GlyphPatternは、40の筆記システムから318の人による視覚的パターン記述と3つの視覚的提示スタイルをペアリングする、954項目のデータセットである。 GlyphPatternはVLMの抽象的なパターン認識を評価し、モデルが視覚パターンの自然言語記述を理解し判断する必要がある。 グリフパタンパターンは、人間の筆記システムに関する大規模認知科学研究から引き出されたものであり、結果として、それらは空間的参照と構成性に富んでいる。 実験の結果,GlyphPatternは最先端のVLM(GPT-4oは55%の精度しか達成できない)に挑戦していることがわかった。 本稿では,視覚処理,自然言語理解,パターン一般化など,複数のレベルでの課題を明らかにする。

Vision-Language Models (VLMs) building upon the foundation of powerful large language models have made rapid progress in reasoning across visual and textual data. While VLMs perform well on vision tasks that they are trained on, our results highlight key challenges in abstract pattern recognition. We present GlyphPattern, a 954 item dataset that pairs 318 human-written descriptions of visual patterns from 40 writing systems with three visual presentation styles. GlyphPattern evaluates abstract pattern recognition in VLMs, requiring models to understand and judge natural language descriptions of visual patterns. GlyphPattern patterns are drawn from a large-scale cognitive science investigation of human writing systems; as a result, they are rich in spatial reference and compositionality. Our experiments show that GlyphPattern is challenging for state-of-the-art VLMs (GPT-4o achieves only 55% accuracy), with marginal gains from few-shot prompting. Our detailed error analysis reveals challenges at multiple levels, including visual processing, natural language understanding, and pattern generalization.
翻訳日:2024-08-13 14:55:41 公開日:2024-08-12
# Recruiterのジェンダーが違う:サイバーセキュリティ大学院のRecruitmentの研究

Gender of Recruiter Makes a Difference: A study into Cybersecurity Graduate Recruitment ( http://arxiv.org/abs/2408.05895v1 )

ライセンス: Link先を確認
Joanne L. Hall, Asha Rao, (参考訳) グローバルなサイバーセキュリティ業界では、労働力のギャップがずっと広まっているが、多様な人材が利用されていない。 世界のサイバーセキュリティの労働力は25%に過ぎません。 技術系労働者への女性の採用に対する性別バイアスの影響については、多くの研究があるが、採用者の性別(性別の違い)が採用決定にどのように影響するかについては、ほとんど研究されていない。 この研究は、女性のサイバーセキュリティリクルーターが求める非技術スキルと、女性のサイバーセキュリティリクルーターの違いを明らかにする。 前者は人中心のスキルを持つ採用者を探し、後者はタスク中心のスキルを探し、採用パネルにおける性別の多様性の必要性を強調している。 リクルーターは、技術系卒業生の非技術(ソフト)スキルをますます求めている。 これにより、大学におけるSTEMカリキュラムの適合が求められる。 業界対応のサイバーセキュリティカリキュラムを設計するには、これらの非技術スキルの知識が必要である。 サイバーセキュリティの専門家のオンライン調査は、この分野の非技術スキルの後に最も求められているものを決定するために使用された。 データを分析した結果、採用者(採用者ではない)の性別に基づいて、採用者で最も価値の高い非技術スキルの男女差が明らかになった。 発見された男女差は、非技術サイバーセキュリティの役割で雇われた女性の比率が高くない。

An ever-widening workforce gap exists in the global cybersecurity industry but diverse talent is underutilized. The global cybersecurity workforce is only 25% female. Much research exists on the effect of gender bias on the hiring of women into the technical workforce, but little on how the gender of the recruiter (gender difference) affects recruitment decisions. This research reveals differences between the non-technical skills sought by female vs non-female cybersecurity recruiters. The former look for recruits with people-focused skills while the latter look for task-focused skills, highlighting the need for gender diversity in recruitment panels. Recruiters are increasingly seeking non-technical (soft) skills in technical graduate recruits. This requires STEM curriculum in Universities to adapt to match. Designing an industry-ready cybersecurity curriculum requires knowledge of these non-technical skills. An online survey of cybersecurity professionals was used to determine the most sought after non-technical skills in the field. Analysis of the data reveals distinct gender differences in the non-technical skills most valued in a recruit, based on the gender of the recruiter (not the recruited). The gender differences discovered do not correspond to the higher proportion of women employed in non-technical cybersecurity roles.
翻訳日:2024-08-13 14:55:41 公開日:2024-08-12
# モデル解釈可能性のための量子勾配クラス活性化マップ

Quantum Gradient Class Activation Map for Model Interpretability ( http://arxiv.org/abs/2408.05899v1 )

ライセンス: Link先を確認
Hsin-Yi Lin, Huan-Hsin Tseng, Samuel Yen-Chi Chen, Shinjae Yoo, (参考訳) 量子機械学習(QML)は近年,さまざまなトピックにおいて大きな進歩を遂げている。 成功にもかかわらず、QMLアプリケーションの安全性と解釈性は十分に調査されていない。 本研究は,アクティベーションマッピングに変分量子回路(VQC)を用いることで,モデルの透明性を高めることを提案し,量子グラディエントクラスアクティベーションマップ(QGrad-CAM)を導入した。 このハイブリッド量子古典計算フレームワークは、量子強みと古典的強みの両方を活用し、特徴写像の重要性の明示的な公式の導出にアクセスできる。 実験結果から,画像データセットと音声データセットの両方で生成される,目立った,きめ細かな,クラス識別的な視覚的説明が得られた。

Quantum machine learning (QML) has recently made significant advancements in various topics. Despite the successes, the safety and interpretability of QML applications have not been thoroughly investigated. This work proposes using Variational Quantum Circuits (VQCs) for activation mapping to enhance model transparency, introducing the Quantum Gradient Class Activation Map (QGrad-CAM). This hybrid quantum-classical computing framework leverages both quantum and classical strengths and gives access to the derivation of an explicit formula of feature map importance. Experimental results demonstrate significant, fine-grained, class-discriminative visual explanations generated across both image and speech datasets.
翻訳日:2024-08-13 14:55:41 公開日:2024-08-12
# 予測情報を保存することで拡散に基づく逆浄化を指導する分類法

Classifier Guidance Enhances Diffusion-based Adversarial Purification by Preserving Predictive Information ( http://arxiv.org/abs/2408.05900v1 )

ライセンス: Link先を確認
Mingkun Zhang, Jianing Li, Wei Chen, Jiafeng Guo, Xueqi Cheng, (参考訳) 敵の浄化は、敵の攻撃からニューラルネットワークを守るための有望なアプローチの1つである。 近年,拡散確率モデルを用いた手法は,画像分類作業における逆浄化において大きな成功を収めている。 しかし、このような手法はノイズ除去や情報保存の必要性のバランスをとるというジレンマに陥る。 本稿では,拡散モデルに基づく既存の逆方向浄化法が,コアデノナイズプロセス中に徐々にサンプル情報を失うことを指摘し,その後の分類作業において時折ラベルシフトが発生することを指摘した。 対策として,分類者の信頼度からガイダンスを導入することにより,そのような情報損失を抑制することを提案する。 具体的には、分類器決定境界から遠ざかって、逆例を浄化する分類器-cOnfidence gUided Purification (COUP)アルゴリズムを提案する。 実験結果から, COUPは強力な攻撃法でより優れた対向的堅牢性が得られることが示された。

Adversarial purification is one of the promising approaches to defend neural networks against adversarial attacks. Recently, methods utilizing diffusion probabilistic models have achieved great success for adversarial purification in image classification tasks. However, such methods fall into the dilemma of balancing the needs for noise removal and information preservation. This paper points out that existing adversarial purification methods based on diffusion models gradually lose sample information during the core denoising process, causing occasional label shift in subsequent classification tasks. As a remedy, we suggest to suppress such information loss by introducing guidance from the classifier confidence. Specifically, we propose Classifier-cOnfidence gUided Purification (COUP) algorithm, which purifies adversarial examples while keeping away from the classifier decision boundary. Experimental results show that COUP can achieve better adversarial robustness under strong attack methods.
翻訳日:2024-08-13 14:55:41 公開日:2024-08-12
# HcNet:熱伝導方程式を用いた画像モデリング

HcNet: Image Modeling with Heat Conduction Equation ( http://arxiv.org/abs/2408.05901v1 )

ライセンス: Link先を確認
Zhemin Zhang, Xun Gong, (参考訳) CNNやViTのような基礎的なモデルは、画像モデリングの開発に力を入れている。 しかし、モデルアーキテクチャ設計に関する一般的なガイダンスはいまだに欠けている。 残差構造、乗算ゲーティング信号、フィードフォワードネットワークなど、現代の多くのモデルアーキテクチャの設計は、熱伝導方程式の観点から解釈できる。 この発見は、熱伝導方程式による画像のモデル化にインスピレーションを与え、そこでは、画像の特徴を温度として概念化し、その情報相互作用を熱エネルギーの拡散としてモデル化する。 熱伝導方程式の豊富な知識を利用して、新しいより解釈可能なモデルの設計を導くことができる。 一例として, 有限差分法とフーリエ級数を用いた熱伝導方程式の解法に着想を得た熱伝導層とRefine Approximation Layerを提案する。 本論文は, 最先端モデルを提示することではなく, その代わりに, モデル全体のアーキテクチャ設計を熱伝導理論の枠組みに統合することを目的としている。 それでも、私たちのHeat Conduction Network(HcNet)は競争力のあるパフォーマンスを示しています。 コードは \url{https://github.com/ZheminZhang1/HcNet} で公開されている。

Foundation models, such as CNNs and ViTs, have powered the development of image modeling. However, general guidance to model architecture design is still missing. The design of many modern model architectures, such as residual structures, multiplicative gating signal, and feed-forward networks, can be interpreted in terms of the heat conduction equation. This finding inspired us to model images by the heat conduction equation, where the essential idea is to conceptualize image features as temperatures and model their information interaction as the diffusion of thermal energy. We can take advantage of the rich knowledge in the heat conduction equation to guide us in designing new and more interpretable models. As an example, we propose Heat Conduction Layer and Refine Approximation Layer inspired by solving the heat conduction equation using Finite Difference Method and Fourier series, respectively. This paper does not aim to present a state-of-the-art model; instead, it seeks to integrate the overall architectural design of the model into the heat conduction theory framework. Nevertheless, our Heat Conduction Network (HcNet) still shows competitive performance. Code available at \url{https://github.com/ZheminZhang1/HcNet}.
翻訳日:2024-08-13 14:55:41 公開日:2024-08-12
# 時空間プロンプトによる映像異常検出と位置推定の弱さ

Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts ( http://arxiv.org/abs/2408.05905v1 )

ライセンス: Link先を確認
Peng Wu, Xuerong Zhou, Guansong Pang, Zhiwei Yang, Qingsen Yan, Peng Wang, Yanning Zhang, (参考訳) 現在、弱教師付きビデオ異常検出(WSVAD)タスクは、粗いビデオレベルのアノテーションのみを使用してフレームレベルの異常イベント検出を実現することを目的としている。 既存の作業は通常、フル解像度のビデオフレームからグローバルな特徴を抽出し、時間次元の異常を検出するためにフレームレベルの分類器を訓練する。 しかし、ほとんどの異常事象は、ビデオフレーム全体ではなく、局所的な空間領域で発生しがちであり、既存のフレームレベルの特徴に基づく作業は、支配的な背景情報によって誤解され、検出された異常の解釈が欠如している可能性がある。 本稿では,このジレンマに対処するために,事前学習された視覚言語モデル(VLM)に基づいて,弱教師付きビデオ異常検出・局所化(WSVADL)のための時空間埋め込みを学習するSTPromptという新しい手法を提案する。 提案手法は2ストリームのネットワーク構造を用いており、一方のストリームは時間次元に、もう一方は空間次元に重点を置いている。 トレーニング済みのVLMから学んだ知識を活用し,生動画からの自然な動きを取り入れることで,ビデオの時空間(例えば個々のフレームのパッチ)に合わせた迅速な埋め込みを学習し,背景情報の影響を緩和しながら,正確な映像異常検出を可能にする。 詳細な時空間アノテーションや補助オブジェクト検出/追跡に頼ることなく、WSVADLタスクの3つの公開ベンチマークで最先端のパフォーマンスを実現する。

Current weakly supervised video anomaly detection (WSVAD) task aims to achieve frame-level anomalous event detection with only coarse video-level annotations available. Existing works typically involve extracting global features from full-resolution video frames and training frame-level classifiers to detect anomalies in the temporal dimension. However, most anomalous events tend to occur in localized spatial regions rather than the entire video frames, which implies existing frame-level feature based works may be misled by the dominant background information and lack the interpretation of the detected anomalies. To address this dilemma, this paper introduces a novel method called STPrompt that learns spatio-temporal prompt embeddings for weakly supervised video anomaly detection and localization (WSVADL) based on pre-trained vision-language models (VLMs). Our proposed method employs a two-stream network structure, with one stream focusing on the temporal dimension and the other primarily on the spatial dimension. By leveraging the learned knowledge from pre-trained VLMs and incorporating natural motion priors from raw videos, our model learns prompt embeddings that are aligned with spatio-temporal regions of videos (e.g., patches of individual frames) for identify specific local regions of anomalies, enabling accurate video anomaly detection while mitigating the influence of background information. Without relying on detailed spatio-temporal annotations or auxiliary object detection/tracking, our method achieves state-of-the-art performance on three public benchmarks for the WSVADL task.
翻訳日:2024-08-13 14:55:41 公開日:2024-08-12
# AdTEC: 検索エンジン広告におけるテキスト品質評価のための統一ベンチマーク

AdTEC: A Unified Benchmark for Evaluating Text Quality in Search Engine Advertising ( http://arxiv.org/abs/2408.05906v1 )

ライセンス: Link先を確認
Peinan Zhang, Yusuke Sakai, Masato Mita, Hiroki Ouchi, Taro Watanabe, (参考訳) 自然言語生成技術によって自動生成されるより流動的な広告テキストの増加に伴い、これらの創造物の品質を現実の環境で検証する必要性が高まっている。 本稿では,広告キャンペーンの観点から,広告テキストを多面的に評価する最初の公開ベンチマークであるAdTECを提案する。 私たちの貢献は次のとおりです。 一 広告の質を評価し、広告代理店の実際の運用経験に基づくデータセットを構築するための五つのタスクを、通常社内に保管する。 二 既存の事前学習言語モデル(PLM)と人的評価器の性能をデータセット上で検証すること。 三 ベンチマークの特徴を分析し、課題を提供すること。 その結果, PLMはいくつかのタスクにおいてすでに実用レベルに達しているが, 特定の領域では人間の方が優れており, 改善の余地は大きいことが示唆された。

With the increase in the more fluent ad texts automatically created by natural language generation technology, it is in the high demand to verify the quality of these creatives in a real-world setting. We propose AdTEC, the first public benchmark to evaluate ad texts in multiple aspects from the perspective of practical advertising operations. Our contributions are: (i) Defining five tasks for evaluating the quality of ad texts and building a dataset based on the actual operational experience of advertising agencies, which is typically kept in-house. (ii) Validating the performance of existing pre-trained language models (PLMs) and human evaluators on the dataset. (iii) Analyzing the characteristics and providing challenges of the benchmark. The results show that while PLMs have already reached the practical usage level in several tasks, human still outperforms in certain domains, implying that there is significant room for improvement in such area.
翻訳日:2024-08-13 14:55:41 公開日:2024-08-12
# 周期成膜した薄膜窒化リチウム導波路の低温非線形変換過程

Cryogenic nonlinear conversion processes in periodically-poled thin-film lithium niobate waveguides ( http://arxiv.org/abs/2408.05907v1 )

ライセンス: Link先を確認
Yujie Cheng, Xiaoting Li, Lantian Feng, Haochuan Li, Wenzhao Sun, Xinyu Song, Yuyang Ding, Guangcan Guo, Cheng Wang, Xifeng Ren, (参考訳) 効率のよい2次非線形プロセスを可能にする、周期的にポーリングされた薄膜のニオブ酸リチウム(TFLN)導波路は、フォトニック集積回路による古典的および量子信号処理の重要な基盤となる。 適用範囲を拡大するため, 極低温におけるTFLN導波路の非線形変換過程を初めて研究した。 系統的実験により、TFLN導波路は古典的第2高調波発生と量子光子対発生の両過程において、低温および室温の両方で一貫した変換効率を維持しており、低温利用におけるTFLN波長変換装置の有意な可能性を示している。 このブレークスルーは、将来のスケーラブルな量子フォトニクスシステムと、異なる低温プラットフォーム間での光の相互作用を促進する。

Periodically poled thin-film lithium niobate (TFLN) waveguides, which enable efficient quadratic nonlinear processes, serve as crucial foundation for classical and quantum signal processing with photonic integrated circuits. To expand their application scope, we provide, to our best knowledge, the first investigation of nonlinear conversion processes in periodically poled TFLN waveguides at cryogenic condition. Through systematic experimental characterization, we find that the periodically poled TFLN waveguide maintains consistent conversion efficiencies at both cryogenic and room temperatures for both classical second-harmonic generation and quantum photon-pair generation processes, demonstrating the significant potential of TFLN wavelength conversion devices for cryogenic applications. This breakthrough will foster future scalable quantum photonic systems and optical interfacing among different cryogenic platforms.
翻訳日:2024-08-13 14:55:41 公開日:2024-08-12
# RAGとセルフファインチューニングによるインストラクションデータセット生成のための新しいパイプライン

A New Pipeline For Generating Instruction Dataset via RAG and Self Fine-Tuning ( http://arxiv.org/abs/2408.05911v1 )

ライセンス: Link先を確認
Chih-Wei Song, Yu-Kai Lee, Yin-Te Tsai, (参考訳) 近年の大規模言語モデルの急速な発展に伴い、企業や組織のユニークなニーズに対応できるドメイン固有エージェントへの需要が高まっている。 広範にカバーしようとする一般的なモデルとは異なり、これらの特殊なエージェントは、意図したアプリケーションに合わせた、集中したデータセットに依存している。 本研究では、LLMとRetrieval-Augmented Generation関連フレームワークのパワーを活用して、カスタム文書コレクションを使用して特定のドメインを微調整するための高品質な命令データセットを構築するパイプラインを提案する。 ドメイン固有のドキュメントを取り込み、パイプラインは関連性があり、コンテキスト的に適切な命令を生成し、それによって、ターゲットドメイン上の微調整 LLM のための包括的なデータセットを効果的に作成する。 このアプローチは、手作業によるキュレーションやWebスクラッピング技術に依存することが多く、ノイズや無関係なデータを導入する、従来のデータセット作成メソッドの制限を克服する。 特に、私たちのパイプラインは、ドメイン固有のドキュメントコレクションのアップデートや修正に迅速に適応できる動的なソリューションを提供しています。 さらに、限られた初期文書から命令データセットを生成することで、データ不足の課題に対処し、包括的なデータセットが不足している不人気または専門のドメインに適合する。 ケーススタディでは、専門知識と患者情報の繊細な取り扱いを必要とする領域である精神医学の領域にこのアプローチを適用した。 結果として得られた微調整 LLM は,提案手法の可能性を実証し,適合性,正確性,文脈に関係のある言語モデルが不可欠である様々な産業や領域で広く採用される可能性を示している。

With the rapid development of large language models in recent years, there has been an increasing demand for domain-specific Agents that can cater to the unique needs of enterprises and organizations. Unlike general models, which strive for broad coverage, these specialized Agents rely on focused datasets tailored to their intended applications. This research proposes a pipeline that leverages the power of LLMs and the Retrieval-Augmented Generation related framework to construct high-quality instruction datasets for fine-tuning on specific domains using custom document collections. By ingesting domain-specific documents, the pipeline generates relevant and contextually appropriate instructions, thus effectively creating a comprehensive dataset for fine-tuning LLMs on the target domain. This approach overcomes the limitations of traditional dataset creation methods, which often rely on manual curation or web-scraping techniques that may introduce noise and irrelevant data. Notably, our pipeline offers a dynamic solution that can quickly adapt to updates or modifications in the domain-specific document collection, eliminating the need for complete retraining. Additionally, it addresses the challenge of data scarcity by enabling the generation of instruction datasets from a limited set of initial documents, rendering it suitable for unpopular or specialized domains where comprehensive datasets are scarce. As a case study, we apply this approach to the domain of psychiatry, a field requiring specialized knowledge and sensitive handling of patient information. The resulting fine-tuned LLM demonstrates showcases the viability of the proposed approach and underscores its potential for widespread adoption across various industries and domains where tailored, accurate, and contextually relevant language models are indispensable.
翻訳日:2024-08-13 14:55:41 公開日:2024-08-12
# ポリプ再同定のためのDeep Multimodal Collaborative Learning

Deep Multimodal Collaborative Learning for Polyp Re-Identification ( http://arxiv.org/abs/2408.05914v1 )

ライセンス: Link先を確認
Suncheng Xiang, Jincheng Li, Zhengjie Zhang, Shilun Cai, Jiale Guan, Dahong Qian, (参考訳) 大腸内視鏡的ポリープ再同定は,大腸がんの予防と治療に重要な役割を担っている。 しかし、ImageNetデータセットでトレーニングされたCNNモデルを直接適用する従来のオブジェクトReIDでは、ドメインギャップが大きいため、通常は大腸内視鏡的データセットで満足のいく検索性能が得られない。 さらに悪いことに、これらの解は通常、視覚的なサンプルに基づいて単調なモーダル表現を学習し、異なるモーダルから補完的な情報を探索することができない。 この課題に対処するために, DMCL という新しい多目的協調学習フレームワークを提案し, 医療シナリオにおけるモダリティ協調を効果的に促進し, 一般化能力を増強する。 その基礎として、エンドツーエンドのトレーニングによるマルチモーダルフュージョンのための最適化されたマルチモーダル表現を活用するために、動的マルチモーダル特徴融合戦略を導入する。 標準ベンチマークの実験では、特に特殊なマルチモーダル融合戦略と組み合わせた場合、最先端のユニモーダルReIDモデルに対するマルチモーダル設定の利点が示されている。

Colonoscopic Polyp Re-Identification aims to match the same polyp from a large gallery with images from different views taken using different cameras and plays an important role in the prevention and treatment of colorectal cancer in computer-aided diagnosis. However, traditional methods for object ReID directly adopting CNN models trained on the ImageNet dataset usually produce unsatisfactory retrieval performance on colonoscopic datasets due to the large domain gap. Worsely, these solutions typically learn unimodal modal representations on the basis of visual samples, which fails to explore complementary information from different modalities. To address this challenge, we propose a novel Deep Multimodal Collaborative Learning framework named DMCL for polyp re-identification, which can effectively encourage modality collaboration and reinforce generalization capability in medical scenarios. On the basis of it, a dynamic multimodal feature fusion strategy is introduced to leverage the optimized multimodal representations for multimodal fusion via end-to-end training. Experiments on the standard benchmarks show the benefits of the multimodal setting over state-of-the-art unimodal ReID models, especially when combined with the specialized multimodal fusion strategy.
翻訳日:2024-08-13 14:45:05 公開日:2024-08-12
# クラスタ・セグレゲート・パーターブ(CSP):時空間地形予測モデルのためのモデルに依存しない説明可能性パイプライン

Cluster-Segregate-Perturb (CSP): A Model-agnostic Explainability Pipeline for Spatiotemporal Land Surface Forecasting Models ( http://arxiv.org/abs/2408.05916v1 )

ライセンス: Link先を確認
Tushar Verma, Sudipan Saha, (参考訳) 衛星画像は、地域気候変動の影響をモデル化するためにますます重要になっている。 地球表面の予測は、衛星画像と気象データを統合することで、地域気候変動効果の合同進化を捉えている。 しかし、特定の気象変数と陸地表面の進化の間の複雑な関係を理解することは重要な課題である。 この課題を踏まえて,LIMEのような摂動に基づく説明可能性手法とPDPのような大域境界説明可能性技術の両方の原理を統合するパイプラインを導入するとともに,高次元時空間深部モデルに適用する場合の制約に対処する。 本研究は,表層予測モデルとして畳み込み長短期記憶(ConvLSTM)を用い,温度,圧力,降水量などの気象変数から,表層予測の正規化差分植生指数(NDVI)に基づく解析を行った。 研究地域はヨーロッパ各地をカバーしている。 解析の結果,降水量は調査領域で最も高い感度を示し,温度と圧力が続くことがわかった。 圧力はNDVIに直接影響しない。 さらに、気象変数とNDVIの興味深い非線形相関が発見された。

Satellite images have become increasingly valuable for modelling regional climate change effects. Earth surface forecasting represents one such task that integrates satellite images with meteorological data to capture the joint evolution of regional climate change effects. However, understanding the complex relationship between specific meteorological variables and land surface evolution poses a significant challenge. In light of this challenge, our paper introduces a pipeline that integrates principles from both perturbation-based explainability techniques like LIME and global marginal explainability techniques like PDP, besides addressing the constraints of using such techniques when applying them to high-dimensional spatiotemporal deep models. The proposed pipeline simplifies the undertaking of diverse investigative analyses, such as marginal sensitivity analysis, marginal correlation analysis, lag analysis, etc., on complex land surface forecasting models In this study we utilised Convolutional Long Short-Term Memory (ConvLSTM) as the surface forecasting model and did analyses on the Normalized Difference Vegetation Index (NDVI) of the surface forecasts, since meteorological variables like temperature, pressure, and precipitation significantly influence it. The study area encompasses various regions in Europe. Our analyses show that precipitation exhibits the highest sensitivity in the study area, followed by temperature and pressure. Pressure has little to no direct effect on NDVI. Additionally, interesting nonlinear correlations between meteorological variables and NDVI have been uncovered.
翻訳日:2024-08-13 14:45:05 公開日:2024-08-12
# 音響応答符号化ラテント空間を有する変分オートエンコーダによる非パラメータ化換気音響共振器の逆設計

Inverse design of Non-parameterized Ventilated Acoustic Resonator via Variational Autoencoder with Acoustic Response-encoded Latent Space ( http://arxiv.org/abs/2408.05917v1 )

ライセンス: Link先を確認
Min Woo Cho, Seok Hyeon Hwang, Jun-Young Jang, Jin Yeong Song, Sun-kwang Hwang, Kyoung Je Cha, Dong Yong Park, Kyungjun Song, Sang Min Park, (参考訳) 音響メタマテリアルの一種である換気音響共振器(VAR)は、低周波減衰性能とフレキシブルな形状適応性により、換気を必要とする環境における音減衰の代替として出現する。 しかしながら、VARの非線形音響応答のため、VARの設計は一般に限られたパラメータ化設計空間内で得られ、その設計はかなりの計算時間と資源を消費する数値シミュレーションの反復に依存する。 本稿では,非パラメタライズド設計においても,VARの効率的かつ正確な逆設計のための新しい変分オートエンコーダベース生成設計モデルである,音響応答符号化変分オートエンコーダ(AR-VAE)を提案する。 AR-VAEは、高次元音響応答と、次元低減された潜在空間におけるVAR断面画像とを一致させ、ターゲット音響応答を伴う様々な非パラメタライズされたVAR断面画像を生成する。 AR-VAEはターゲット音響応答から非パラメータ化VARを生成し、平均2乗誤差とピーク周波数のばらつきを低くした上で、従来のディープラーニングに基づくパラメータ探索法と比較して平均2乗誤差を25倍に削減した。 逆設計のVARをAR-VAEで組み合わせることで、マルチキャビティVARはブロードバンドとマルチターゲットピーク周波数減衰のために考案された。 提案手法は,高次元非線形物理応答を用いた構造逆設計の新しい手法を提案する。

Ventilated acoustic resonator(VAR), a type of acoustic metamaterial, emerge as an alternative for sound attenuation in environments that require ventilation, owing to its excellent low-frequency attenuation performance and flexible shape adaptability. However, due to the non-linear acoustic responses of VARs, the VAR designs are generally obtained within a limited parametrized design space, and the design relies on the iteration of the numerical simulation which consumes a considerable amount of computational time and resources. This paper proposes an acoustic response-encoded variational autoencoder (AR-VAE), a novel variational autoencoder-based generative design model for the efficient and accurate inverse design of VAR even with non-parametrized designs. The AR-VAE matches the high-dimensional acoustic response with the VAR cross-section image in the dimension-reduced latent space, which enables the AR-VAE to generate various non-parametrized VAR cross-section images with the target acoustic response. AR-VAE generates non-parameterized VARs from target acoustic responses, which show a 25-fold reduction in mean squared error compared to conventional deep learning-based parameter searching methods while exhibiting lower average mean squared error and peak frequency variance. By combining the inverse-designed VARs by AR-VAE, multi-cavity VAR was devised for broadband and multitarget peak frequency attenuation. The proposed design method presents a new approach for structural inverse-design with a high-dimensional non-linear physical response.
翻訳日:2024-08-13 14:45:05 公開日:2024-08-12
# PAFormer: 人物識別のための部分認識変換器

PAFormer: Part Aware Transformer for Person Re-identification ( http://arxiv.org/abs/2408.05918v1 )

ライセンス: Link先を確認
Hyeono Jung, Jangwon Lee, Jiwon Yoo, Dami Ko, Gyeonghwan Kim, (参考訳) 人物再同定(ReID)の領域内では、部分的なReID法が主流であり、サンプル間の身体部分の比較を通じて特徴距離を測定することを目的としている。 しかし、実際には、以前の方法では身体の解剖学的側面に対する十分な認識が欠如しており、その結果、異なるサンプル間で同じ身体部位の特徴を捉えられなかった。 この問題を解決するために,ポーズ推定に基づくReIDモデルである \textbf{Part Aware Transformer (PAFormer)} を導入する。 本研究では,各身体部分と画像の部分領域との相関関係を推定する「目的トークン」と呼ばれる学習可能なパラメータを導入する。 特に、推論フェーズでは、PAFormerはボディ部分のローカライゼーションに関連する追加モジュールなしで動作します。 さらに, PAFormerでは, 身体部位の認知度を高めることによって, 各部位の閉塞度を推定するために, 学習に基づく可視性予測器の利用を提案する。 また,本研究では,可視部分のみを用いてPAFormerをトレーニング可能な,地上の真理可視スコアを用いた教師強制手法を提案する。 提案手法は,よく知られたReIDベンチマークデータセットにおいて,既存の手法よりも優れた性能を示すことを示す。

Within the domain of person re-identification (ReID), partial ReID methods are considered mainstream, aiming to measure feature distances through comparisons of body parts between samples. However, in practice, previous methods often lack sufficient awareness of anatomical aspect of body parts, resulting in the failure to capture features of the same body parts across different samples. To address this issue, we introduce \textbf{Part Aware Transformer (PAFormer)}, a pose estimation based ReID model which can perform precise part-to-part comparison. In order to inject part awareness to pose tokens, we introduce learnable parameters called `pose token' which estimate the correlation between each body part and partial regions of the image. Notably, at inference phase, PAFormer operates without additional modules related to body part localization, which is commonly used in previous ReID methodologies leveraging pose estimation models. Additionally, leveraging the enhanced awareness of body parts, PAFormer suggests the use of a learning-based visibility predictor to estimate the degree of occlusion for each body part. Also, we introduce a teacher forcing technique using ground truth visibility scores which enables PAFormer to be trained only with visible parts. A set of extensive experiments show that our method outperforms existing approaches on well-known ReID benchmark datasets.
翻訳日:2024-08-13 14:45:05 公開日:2024-08-12
# 都市地域の事前学習とプロンプト:グラフに基づくアプローチ

Urban Region Pre-training and Prompting: A Graph-based Approach ( http://arxiv.org/abs/2408.05920v1 )

ライセンス: Link先を確認
Jiahui Jin, Yifan Song, Dong Kan, Haojia Zhu, Xiangguo Sun, Zhicheng Li, Xigang Sun, Jinghui Zhang, (参考訳) 都市域の表現は、様々な都市下流業務に不可欠である。 しかし, 手法の普及とその成功にもかかわらず, 都市部における一般知識の獲得と異なる課題への適応は依然として困難である。 以前の研究は、しばしば実体間の空間構造と機能的レイアウトを無視し、領域間で伝達可能な知識を捕捉する能力を制限する。 さらに、これらの手法は、異なる下流タスクに必要なユニークな特徴や関係を適切に扱えないため、特定の下流タスクに効果的に適応するのに苦労する。 本稿では、地域表現学習のための$\textbf{G}$raph-based $\textbf{U}$rban $\textbf{R}$egion $\textbf{P}$re-trainingおよび$\textbf{P}$rompting framework$\textbf{GURPP}$)を提案する。 具体的には、まず、より効果的な都市域表現のための詳細な空間実体データを統合する都市域グラフを構築する。 そこで我々は,サブグラフ中心の都市域事前学習モデルを構築し,異種・移動可能な実体間の相互作用パターンを抽出する。 異なるタスクへの埋め込みの適応性をさらに向上するため、明示的/隠蔽的なタスク知識を組み込むグラフベースの2つのプロンプト手法を設計する。 GURPPフレームワークの優れた性能を示すため,様々な都市域予測タスクと異なる都市を対象とした大規模な実験を行った。 実装はこのリポジトリで利用可能である。 https://anonymous.4open.science/r/GURPP。

Urban region representation is crucial for various urban downstream tasks. However, despite the proliferation of methods and their success, acquiring general urban region knowledge and adapting to different tasks remains challenging. Previous work often neglects the spatial structures and functional layouts between entities, limiting their ability to capture transferable knowledge across regions. Further, these methods struggle to adapt effectively to specific downstream tasks, as they do not adequately address the unique features and relationships required for different downstream tasks. In this paper, we propose a $\textbf{G}$raph-based $\textbf{U}$rban $\textbf{R}$egion $\textbf{P}$re-training and $\textbf{P}$rompting framework ($\textbf{GURPP}$) for region representation learning. Specifically, we first construct an urban region graph that integrates detailed spatial entity data for more effective urban region representation. Then, we develop a subgraph-centric urban region pre-training model to capture the heterogeneous and transferable patterns of interactions among entities. To further enhance the adaptability of these embeddings to different tasks, we design two graph-based prompting methods to incorporate explicit/hidden task knowledge. Extensive experiments on various urban region prediction tasks and different cities demonstrate the superior performance of our GURPP framework. The implementation is available at this repository: https://anonymous.4open.science/r/GURPP.
翻訳日:2024-08-13 14:45:05 公開日:2024-08-12
# グリーンチャネルプリエントを用いた画像デノーミング

Image Denoising Using Green Channel Prior ( http://arxiv.org/abs/2408.05923v1 )

ライセンス: Link先を確認
Zhaoming Kong, Fangxi Deng, Xiaowei Yang, (参考訳) 実世界の観測のノイズ統計は、局所的な画像の内容と異なる画像チャンネルによって異なる可能性がある。 具体的には、グリーンチャネルは通常、生データの2倍のサンプリングレートを持つ。 ノイズ分散に対処し,そのようなチャネルワイドな事前情報を活用するために,GCPを従来のパッチベースのデノナイズフレームワークに統合した,シンプルで効果的なグリーンチャネル事前画像デノナイズ(GCP-ID)手法を提案する。 簡単に言えば、パッチグループ化の品質を改善し、トランスフォーメーションドメインのスパーシリティを促進することを目的とした、類似したパッチの検索をガイドするために、グリーンチャネルを利用する。 グループ化された画像パッチはRGGB配列に変換され、グリーンサンプルの密度を明示的に特徴付ける。 さらに、GCP-IDの様々な画像コンテンツへの適応性を高めるために、ノイズ推定問題を分類タスクにキャストし、畳み込みニューラルネットワーク(CNN)に基づく効果的な推定器を訓練する。 実世界のデータセットに対する実験は、生およびsRGB空間における画像およびビデオの復調アプリケーションのためのGCP-ID方式の競合性能を示す。 私たちのコードはhttps://github.com/ZhaomingKong/GCP-IDで利用可能です。

Image denoising is an appealing and challenging task, in that noise statistics of real-world observations may vary with local image contents and different image channels. Specifically, the green channel usually has twice the sampling rate in raw data. To handle noise variances and leverage such channel-wise prior information, we propose a simple and effective green channel prior-based image denoising (GCP-ID) method, which integrates GCP into the classic patch-based denoising framework. Briefly, we exploit the green channel to guide the search for similar patches, which aims to improve the patch grouping quality and encourage sparsity in the transform domain. The grouped image patches are then reformulated into RGGB arrays to explicitly characterize the density of green samples. Furthermore, to enhance the adaptivity of GCP-ID to various image contents, we cast the noise estimation problem into a classification task and train an effective estimator based on convolutional neural networks (CNNs). Experiments on real-world datasets demonstrate the competitive performance of the proposed GCP-ID method for image and video denoising applications in both raw and sRGB spaces. Our code is available at https://github.com/ZhaomingKong/GCP-ID.
翻訳日:2024-08-13 14:45:05 公開日:2024-08-12
# 空間的課題に対する基礎モデルの適用

Adapting a Foundation Model for Space-based Tasks ( http://arxiv.org/abs/2408.05924v1 )

ライセンス: Link先を確認
Matthew Foutter, Praneet Bhoj, Rohan Sinha, Amine Elhafsi, Somrita Banerjee, Christopher Agia, Justin Kruger, Tommaso Guffanti, Daniele Gammelli, Simone D'Amico, Marco Pavone, (参考訳) ファンデーションモデル(例えば、大きな言語モデル)は、複雑な非構造的なタスクをナビゲートするのに必要なコンテキスト理解を持つロボットを約束するインテリジェンスの属性を持っている。 宇宙ロボティクスの未来では、宇宙ベースの応用に適応した基礎モデルの使用を動機付ける3つのコア課題が見られます。 1) グラウンド・イン・ザ・ループ操作のスケーラビリティ 2【事前知識の新規環境への一般化】 3)タスクとセンサデータのマルチモーダリティ。 したがって、宇宙ベースのアプリケーションのための基盤モデルを構築するための第一歩として、AI4Marsデータセットを自動的にラベル付けして、視覚的な問合せのタプルの注釈付きデータセットをキュレートする。 我々は、火星表面の空間的推論とナビゲーションを行う能力を持つ視覚言語モデルを実現するために、このデータセット上で事前訓練されたLLaVAチェックポイントを微調整する。 この研究で、私たちはそれを実証します。 1)既存の視覚言語モデルは、空間ベースアプリケーションにおいて不十分な視覚的推論器であり、 2)地球外データを用いた視覚言語モデルの微調整は,数千サンプルの限られたトレーニングデータセットであっても,応答の質を著しく向上させる。

Foundation models, e.g., large language models, possess attributes of intelligence which offer promise to endow a robot with the contextual understanding necessary to navigate complex, unstructured tasks in the wild. In the future of space robotics, we see three core challenges which motivate the use of a foundation model adapted to space-based applications: 1) Scalability of ground-in-the-loop operations; 2) Generalizing prior knowledge to novel environments; and 3) Multi-modality in tasks and sensor data. Therefore, as a first-step towards building a foundation model for space-based applications, we automatically label the AI4Mars dataset to curate a language annotated dataset of visual-question-answer tuples. We fine-tune a pretrained LLaVA checkpoint on this dataset to endow a vision-language model with the ability to perform spatial reasoning and navigation on Mars' surface. In this work, we demonstrate that 1) existing vision-language models are deficient visual reasoners in space-based applications, and 2) fine-tuning a vision-language model on extraterrestrial data significantly improves the quality of responses even with a limited training dataset of only a few thousand samples.
翻訳日:2024-08-13 14:45:05 公開日:2024-08-12
# BI-MDRG:多モード対話応答生成におけるブリッジング画像履歴

BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation ( http://arxiv.org/abs/2408.05926v1 )

ライセンス: Link先を確認
Hee Suk Yoon, Eunseop Yoon, Joshua Tian Jin Tee, Kang Zhang, Yu-Jung Heo, Du-Seong Chang, Chang D. Yoo, (参考訳) MDRG(Multimodal Dialogue Response Generation)は、対話コンテキストに基づいたテキスト、画像、あるいは両者のブレンドで応答を生成する必要があるタスクである。 このタスクに特化して大規模なデータセットがないので、強力な事前訓練モデルを活用するメリットがあるため、以前の研究はエンドツーエンドアプローチを採用するのではなく、画像入力とモデルの出力の両方の中間ステップとして、テキストモダリティに依存していた。 しかし、このアプローチは、画像に関する重要な情報を見落とし、妨げる可能性がある。 1)画像接地テキスト応答と 2)画像応答におけるオブジェクトの整合性。 本稿では,画像内容に対するテキスト応答と連続的な画像応答におけるオブジェクトの整合性との関連性を高めるために,画像履歴情報を活用できるように,応答生成経路をブリッジするBI-MDRGを提案する。 マルチモーダル対話ベンチマークデータセットの広範な実験を通して、BI-MDRGはマルチモーダル対話の質を効果的に向上させることができることを示す。 さらに、マルチモーダル対話における画像整合性を評価するためのベンチマークデータセットのギャップを認識し、会話間のオブジェクト整合性を追跡するために注釈付けされた300の対話セットを作成しました。

Multimodal Dialogue Response Generation (MDRG) is a recently proposed task where the model needs to generate responses in texts, images, or a blend of both based on the dialogue context. Due to the lack of a large-scale dataset specifically for this task and the benefits of leveraging powerful pre-trained models, previous work relies on the text modality as an intermediary step for both the image input and output of the model rather than adopting an end-to-end approach. However, this approach can overlook crucial information about the image, hindering 1) image-grounded text response and 2) consistency of objects in the image response. In this paper, we propose BI-MDRG that bridges the response generation path such that the image history information is utilized for enhanced relevance of text responses to the image content and the consistency of objects in sequential image responses. Through extensive experiments on the multimodal dialogue benchmark dataset, we show that BI-MDRG can effectively increase the quality of multimodal dialogue. Additionally, recognizing the gap in benchmark datasets for evaluating the image consistency in multimodal dialogue, we have created a curated set of 300 dialogues annotated to track object consistency across conversations.
翻訳日:2024-08-13 14:45:05 公開日:2024-08-12
# 拡散モデルにおける高速化サンプリングのための簡易早期実行フレームワーク

A Simple Early Exiting Framework for Accelerated Sampling in Diffusion Models ( http://arxiv.org/abs/2408.05927v1 )

ライセンス: Link先を確認
Taehong Moon, Moonseok Choi, EungGu Yun, Jongmin Yoon, Gayoung Lee, Jaewoong Cho, Juho Lee, (参考訳) 拡散モデルでは、画像、ビデオ、テキスト、オーディオなど、さまざまな領域における生成上の問題に顕著なパフォーマンスを示している。 拡散モデルの現実的なボトルネックは、推測中のスコア推定ネットワークの繰り返し評価によるサンプリング速度である。 本研究では,スコア推定に必要な計算を適応的にアロケートし,拡散モデル全体のサンプリング時間を短縮できる新しいフレームワークを提案する。 我々は、スコア推定に必要な計算量が、スコアを推定する時間ステップに沿って変化する可能性があることを観察する。 そこで,本研究では,時間依存の終了スケジュールに基づいて,スコア推定ネットワークにおけるパラメータのサブセットをスキップする早期退避方式を提案する。 画像合成における拡散モデルを用いて,画像品質を損なうことなく,拡散モデルのサンプリングスループットを大幅に向上させることができることを示す。 さらに,本手法が様々な種類の解法とシームレスに統合され,より高速なサンプリングが可能であることを実証した。 ソースコードと実験は \url{https://github.com/taehong-moon/ee-diffusion} で公開されている。

Diffusion models have shown remarkable performance in generation problems over various domains including images, videos, text, and audio. A practical bottleneck of diffusion models is their sampling speed, due to the repeated evaluation of score estimation networks during the inference. In this work, we propose a novel framework capable of adaptively allocating compute required for the score estimation, thereby reducing the overall sampling time of diffusion models. We observe that the amount of computation required for the score estimation may vary along the time step for which the score is estimated. Based on this observation, we propose an early-exiting scheme, where we skip the subset of parameters in the score estimation network during the inference, based on a time-dependent exit schedule. Using the diffusion models for image synthesis, we show that our method could significantly improve the sampling throughput of the diffusion models without compromising image quality. Furthermore, we also demonstrate that our method seamlessly integrates with various types of solvers for faster sampling, capitalizing on their compatibility to enhance overall efficiency. The source code and our experiments are available at \url{https://github.com/taehong-moon/ee-diffusion}
翻訳日:2024-08-13 14:45:05 公開日:2024-08-12
# 自動車用PDFチャットボットにおけるRAG手法の最適化 : 局所展開オラマモデルを用いた事例研究

Optimizing RAG Techniques for Automotive Industry PDF Chatbots: A Case Study with Locally Deployed Ollama Models ( http://arxiv.org/abs/2408.05933v1 )

ライセンス: Link先を確認
Fei Liu, Zejun Kang, Xing Han, (参考訳) 工業生産環境におけるオフラインのPDFチャットボットの需要が高まり、局所的な低パフォーマンス環境における大規模言語モデル(LLM)の展開を最適化することがますます重要になっている。 本研究では,ローカルにデプロイされたオラマモデルを用いて,複雑な自動車産業用文書の検索・集約生成(RAG)技術の向上に焦点をあてる。 Langchainフレームワークに基づいて,OllamaのローカルRAG実装のための多次元最適化手法を提案する。 本手法は,マルチカラムレイアウトや技術仕様など,自動文書処理における重要な課題に対処する。 本稿では,自動車産業用文書の特色に合わせて,PDF処理,検索機構,コンテキスト圧縮の改善を導入する。 さらに、組み込みパイプラインをサポートするカスタムクラスと、LangGraphベストプラクティスに基づいたセルフRAGをサポートするエージェントを設計する。 提案手法を評価するため,技術報告や企業規制など,典型的な自動車産業文書からなる独自のデータセットを構築した。 我々は、最適化されたRAGモデルと自己RAGエージェントを、自動車産業データセット、QReCC、およびCoQAの3つのデータセットにまたがる単純なRAGベースラインと比較した。 その結果、特に自動車産業のデータセットにおいて、文脈精度、コンテキストリコール、回答関連性、忠実性において顕著な改善が見られた。 本手法は,産業生産環境におけるPDFチャットボットの特定のニーズに対応するため,自動車部門におけるローカルRAGシステムの展開に有効なソリューションを提供する。 本研究は,自動車産業における情報処理と知的生産の促進に重要な意味を持つ。

With the growing demand for offline PDF chatbots in automotive industrial production environments, optimizing the deployment of large language models (LLMs) in local, low-performance settings has become increasingly important. This study focuses on enhancing Retrieval-Augmented Generation (RAG) techniques for processing complex automotive industry documents using locally deployed Ollama models. Based on the Langchain framework, we propose a multi-dimensional optimization approach for Ollama's local RAG implementation. Our method addresses key challenges in automotive document processing, including multi-column layouts and technical specifications. We introduce improvements in PDF processing, retrieval mechanisms, and context compression, tailored to the unique characteristics of automotive industry documents. Additionally, we design custom classes supporting embedding pipelines and an agent supporting self-RAG based on LangGraph best practices. To evaluate our approach, we constructed a proprietary dataset comprising typical automotive industry documents, including technical reports and corporate regulations. We compared our optimized RAG model and self-RAG agent against a naive RAG baseline across three datasets: our automotive industry dataset, QReCC, and CoQA. Results demonstrate significant improvements in context precision, context recall, answer relevancy, and faithfulness, with particularly notable performance on the automotive industry dataset. Our optimization scheme provides an effective solution for deploying local RAG systems in the automotive sector, addressing the specific needs of PDF chatbots in industrial production environments. This research has important implications for advancing information processing and intelligent production in the automotive industry.
翻訳日:2024-08-13 14:45:05 公開日:2024-08-12
# アンダーパフォーマンスシーンにおけるセグメンテーションのためのマルチスケールコントラスト適応学習

Multi-scale Contrastive Adaptor Learning for Segmenting Anything in Underperformed Scenes ( http://arxiv.org/abs/2408.05936v1 )

ライセンス: Link先を確認
Ke Zhou, Zhongwei Qiu, Dongmei Fu, (参考訳) Segment Anything Model (SAM)のような基礎的なビジョンモデルは、大規模なビジュアルデータセットの広範な事前トレーニングを通じて大きなブレークスルーを達成した。 一般的な成功にもかかわらず、これらのモデルは限られたデータを持つ特殊なタスクでは不足する可能性があり、そのような大規模モデルを微調整することは、しばしば実現不可能である。 現在の戦略は、最小限のモデル調整で下流タスクのパフォーマンスを向上させるために、事前訓練されたSAMにアダプタを組み込むことである。 しかし、これらの戦略は適応者に対する最適でない学習アプローチによって妨げられる。 本稿では,MCA-SAMと呼ばれる新しいマルチスケールコントラスト適応学習手法を提案する。 本誌のToken-level Contrastive Adaptor(TC-adaptor)は、パッチトークンの識別性を改善することによって局所的な表現を洗練することに焦点を当て、Sample-level Contrastive Adaptor(SC-adaptor)は異なるサンプル間でのグローバルな理解を増幅する。 これらのアダプタは、サンプル内およびサンプル間の特徴比較を相乗的に強化し、モデルの表現力と新しいタスクに適応する能力を高める。 MCA-SAMは新しいベンチマークを設定し、既存の手法を3つの挑戦的領域(カモフラージュオブジェクト検出、シャドーセグメンテーション、ポリープセグメンテーション)で上回った。 特に、MCA-SAMは、COD10KデータセットでMAEを20.0%改善し、CAMOデータセットでMAEを6.0%改善し、ISTDデータセットでBERを15.4%改善し、Kvasir-SEGデータセットでmDiceを7.9%改善した。

Foundational vision models, such as the Segment Anything Model (SAM), have achieved significant breakthroughs through extensive pre-training on large-scale visual datasets. Despite their general success, these models may fall short in specialized tasks with limited data, and fine-tuning such large-scale models is often not feasible. Current strategies involve incorporating adaptors into the pre-trained SAM to facilitate downstream task performance with minimal model adjustment. However, these strategies can be hampered by suboptimal learning approaches for the adaptors. In this paper, we introduce a novel Multi-scale Contrastive Adaptor learning method named MCA-SAM, which enhances adaptor performance through a meticulously designed contrastive learning framework at both token and sample levels. Our Token-level Contrastive adaptor (TC-adaptor) focuses on refining local representations by improving the discriminability of patch tokens, while the Sample-level Contrastive adaptor (SC-adaptor) amplifies global understanding across different samples. Together, these adaptors synergistically enhance feature comparison within and across samples, bolstering the model's representational strength and its ability to adapt to new tasks. Empirical results demonstrate that MCA-SAM sets new benchmarks, outperforming existing methods in three challenging domains: camouflage object detection, shadow segmentation, and polyp segmentation. Specifically, MCA-SAM exhibits substantial relative performance enhancements, achieving a 20.0% improvement in MAE on the COD10K dataset, a 6.0% improvement in MAE on the CAMO dataset, a 15.4% improvement in BER on the ISTD dataset, and a 7.9% improvement in mDice on the Kvasir-SEG dataset.
翻訳日:2024-08-13 14:45:05 公開日:2024-08-12
# 深部幾何学的モーメントはテキストから3次元生成における形状整合性を促進する

Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation ( http://arxiv.org/abs/2408.05938v1 )

ライセンス: Link先を確認
Utkarsh Nath, Rajeev Goel, Eun Som Jeon, Changhoon Kim, Kyle Min, Yezhou Yang, Yingzhen Yang, Pavan Turaga, (参考訳) 3Dアセットに関連するデータ不足に対処するため、SDS(Score Distillation Sampling)のような2Dリフト技術がテキストから3D生成パイプラインにおいて広く採用されている。 しかし、これらの手法で用いられる拡散モデルは、視点バイアスに傾向があり、従ってヤヌス問題のような幾何学的不整合をもたらす。 これに対応するために,高忠実度3Dオブジェクトを利用したテキストから3D生成モデルMT3Dを導入し,視点バイアスを克服し,幾何学的理解を生成パイプラインに明示的に注入する。 まず,高品質な3Dモデルから得られた深度マップを制御信号とし,生成した2D画像が基本形状や構造を保っていることを保証する。 次に,3次元表現における幾何学的整合性を明確にするために,深部幾何学的モーメントを利用する。 MT3Dは3Dアセットから幾何学的詳細を取り入れることで、多様で幾何学的に一貫したオブジェクトの作成を可能にし、3D表現の品質とユーザビリティを向上させる。

To address the data scarcity associated with 3D assets, 2D-lifting techniques such as Score Distillation Sampling (SDS) have become a widely adopted practice in text-to-3D generation pipelines. However, the diffusion models used in these techniques are prone to viewpoint bias and thus lead to geometric inconsistencies such as the Janus problem. To counter this, we introduce MT3D, a text-to-3D generative model that leverages a high-fidelity 3D object to overcome viewpoint bias and explicitly infuse geometric understanding into the generation pipeline. Firstly, we employ depth maps derived from a high-quality 3D model as control signals to guarantee that the generated 2D images preserve the fundamental shape and structure, thereby reducing the inherent viewpoint bias. Next, we utilize deep geometric moments to ensure geometric consistency in the 3D representation explicitly. By incorporating geometric details from a 3D asset, MT3D enables the creation of diverse and geometrically consistent objects, thereby improving the quality and usability of our 3D representations.
翻訳日:2024-08-13 14:45:05 公開日:2024-08-12
# UniPortrait: アイデンティティ保護のための統一フレームワーク

UniPortrait: A Unified Framework for Identity-Preserving Single- and Multi-Human Image Personalization ( http://arxiv.org/abs/2408.05939v1 )

ライセンス: Link先を確認
Junjie He, Yifeng Geng, Liefeng Bo, (参考訳) UniPortraitは、顔の忠実度、顔の編集性、自由な入力記述、多彩なレイアウト生成を両立させる革新的な人体画像パーソナライゼーションフレームワークである。 UniPortraitは、ID埋め込みモジュールとIDルーティングモジュールの2つのプラグイン・アンド・プレイモジュールで構成されている。 ID埋め込みモジュールは、各IDの切り離し戦略で多彩な編集可能な顔の特徴を抽出し、拡散モデルのコンテキスト空間に埋め込む。 次に、IDルーティングモジュールは、これらの埋め込みを合成画像内の各領域に適応的に結合し、単一のIDと複数のIDをカスタマイズする。 慎重に設計された2段階のトレーニングスキームにより、UniPortraitはシングルIDとマルチIDのカスタマイズにおいて優れたパフォーマンスを実現している。 定量的および定性的な実験は、既存の手法に対する我々の手法の利点を実証し、その優れたスケーラビリティ、例えば、既存の生成制御ツールとの普遍的な互換性を示す。 プロジェクトのページはhttps://aigcdesigngroup.github.io/UniPortrait-Page/にある。

This paper presents UniPortrait, an innovative human image personalization framework that unifies single- and multi-ID customization with high face fidelity, extensive facial editability, free-form input description, and diverse layout generation. UniPortrait consists of only two plug-and-play modules: an ID embedding module and an ID routing module. The ID embedding module extracts versatile editable facial features with a decoupling strategy for each ID and embeds them into the context space of diffusion models. The ID routing module then combines and distributes these embeddings adaptively to their respective regions within the synthesized image, achieving the customization of single and multiple IDs. With a carefully designed two-stage training scheme, UniPortrait achieves superior performance in both single- and multi-ID customization. Quantitative and qualitative experiments demonstrate the advantages of our method over existing approaches as well as its good scalability, e.g., the universal compatibility with existing generative control tools. The project page is at https://aigcdesigngroup.github.io/UniPortrait-Page/ .
翻訳日:2024-08-13 14:45:05 公開日:2024-08-12
# Spb3DTracker:ノイズの多い環境のためのロバストなLiDARベースの人トラッカー

Spb3DTracker: A Robust LiDAR-Based Person Tracker for Noisy Environmen ( http://arxiv.org/abs/2408.05940v1 )

ライセンス: Link先を確認
Eunsoo Im, Changhyun Jee, Jung Kwon Lee, (参考訳) 人検出と追跡(PDT)は、自動運転車分野における2Dカメラベースのシステムによって大幅に進歩し、これらのアルゴリズムが広く採用されている。 しかし、プライバシー問題の増加が大きな問題として浮上し、LiDARベースのPDTへの移行が実現可能な代替手段となっている。 この領域内では、"Tracking-by-Detection"(TBD)が顕著な方法論となっている。 その効果にもかかわらず、LiDARベースのPDTはカメラベースのPDTと同等の性能を達成していない。 本稿では,LiDAR ベースの PDT フレームワークの重要なコンポーネントとして,後処理の検出,データアソシエーション,モーションモデリング,ライフサイクル管理について検討する。 これらの知見に基づいて,多様な環境向けに設計されたロバストな人物トラッカーであるSpbTrackを紹介した。 提案手法は,LiDARをベースとしたトラッカー間における,ノイズの多いデータセットと,KITTIデータセットベンチマークおよびオフィス内カスタムデータセットの最先端性を実現する。 プロジェクトページは匿名。

Person detection and tracking (PDT) has seen significant advancements with 2D camera-based systems in the autonomous vehicle field, leading to widespread adoption of these algorithms. However, growing privacy concerns have recently emerged as a major issue, prompting a shift towards LiDAR-based PDT as a viable alternative. Within this domain, "Tracking-by-Detection" (TBD) has become a prominent methodology. Despite its effectiveness, LiDAR-based PDT has not yet achieved the same level of performance as camera-based PDT. This paper examines key components of the LiDAR-based PDT framework, including detection post-processing, data association, motion modeling, and lifecycle management. Building upon these insights, we introduce SpbTrack, a robust person tracker designed for diverse environments. Our method achieves superior performance on noisy datasets and state-of-the-art results on KITTI Dataset benchmarks and custom office indoor dataset among LiDAR-based trackers. Project page at anonymous.
翻訳日:2024-08-13 14:45:05 公開日:2024-08-12
# 量子系の閉ループ設計による開ループ制御:誤差解析

Closed-Loop Designed Open-Loop Control of Quantum Systems: An Error Analysis ( http://arxiv.org/abs/2408.05943v1 )

ライセンス: Link先を確認
Shikun Zhang, Guofeng Zhang, (参考訳) 量子リプノフ制御(Quantum Lyapunov control)は、リアプノフに基づく理論ツールによって導かれる収束力学を生成することを目的としている。 しかし、古典的なシステムとは異なり、量子測定によって引き起こされる障害は、リアプノフ理論で設計された理論的なフィードバックダイナミクスの直接的かつ正確な実現を妨げている。 この問題に関して、クローズドループ設計のオープンループ制御の考え方は、理論的にクローズドループ力学を設計し、クローズドループシステムをシミュレートし、シミュレーションに基づいて制御パルスを生成し、実際のプラントにオープンループ方式で適用する、という文献に言及されている。 双線形量子制御モデルに基づいて、我々はこの論文において、閉ループ設計されたオープンループ制御の手順によって生じる理論と実システムの時間進化状態の違いを解析する。 任意の時間における誤差が初期化誤差のユニタリ変換に収束することが証明された。 さらに,シミュレーション精度が一定のレベルに達すると,より正確な数値シミュレーション手法(おそらくは高価)を採用することで,効率よく収束を改善できないことがわかった。 また、エラー基準に関する上限と、結果を説明するための例も提示する。

Quantum Lyapunov control, an important class of quantum control methods, aims at generating converging dynamics guided by Lyapunov-based theoretical tools. However, unlike the case of classical systems, disturbance caused by quantum measurement hinders direct and exact realization of the theoretical feedback dynamics designed with Lyapunov theory. Regarding this issue, the idea of closed-loop designed open-loop control has been mentioned in literature, which means to design the closed-loop dynamics theoretically, simulate the closed-loop system, generate control pulses based on simulation and apply them to the real plant in an open-loop fashion. Based on bilinear quantum control model, we analyze in this article the error, i.e., difference between the theoretical and real systems' time-evolved states, incurred by the procedures of closed-loop designed open-loop control. It is proved that the error at an arbitrary time converges to a unitary transformation of initialization error as the number of simulation grids between 0 and that time tends to infinity. Moreover, it is found that once the simulation accuracy reaches a certain level, adopting more accurate (thus possibly more expensive) numerical simulation methods does not efficiently improve convergence. We also present an upper bound on the error norm and an example to illustrate our results.
翻訳日:2024-08-13 14:45:05 公開日:2024-08-12
# MV2DFusion:マルチモーダル3次元検出のためのモダリティ特異的オブジェクトセマンティクスの活用

MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection ( http://arxiv.org/abs/2408.05945v1 )

ライセンス: Link先を確認
Zitian Wang, Zehao Huang, Yulu Gao, Naiyan Wang, Si Liu, (参考訳) 自動運転車の台頭により、堅牢な3Dオブジェクト検出システムへの需要が大幅に増加した。 カメラとLiDARセンサーはそれぞれ独自の利点を提供しているが、カメラは豊かなテクスチャ情報を提供し、LiDARは正確な3D空間データを提供する。 本稿では,MV2DFusionについて述べる。MV2DFusionは,高度なクエリベースの融合機構により,両世界の強みを統合するマルチモーダル検出フレームワークである。 画像固有の属性とポイントクラウドクエリジェネレータに整合する画像クエリジェネレータを導入することで、MV2DFusionは、単一のモダリティに偏りなく、モダリティ固有のオブジェクトセマンティクスを効果的に組み合わせる。 すると、価値あるオブジェクトセマンティクスに基づいてスパース融合プロセスが達成され、様々なシナリオにわたる効率的かつ正確なオブジェクト検出が保証される。 私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。 nuScenesとArgoverse2データセットの大規模な評価は、MV2DFusionが最先端のパフォーマンスを実現し、特に長距離検出シナリオで優れていることを示している。

The rise of autonomous vehicles has significantly increased the demand for robust 3D object detection systems. While cameras and LiDAR sensors each offer unique advantages--cameras provide rich texture information and LiDAR offers precise 3D spatial data--relying on a single modality often leads to performance limitations. This paper introduces MV2DFusion, a multi-modal detection framework that integrates the strengths of both worlds through an advanced query-based fusion mechanism. By introducing an image query generator to align with image-specific attributes and a point cloud query generator, MV2DFusion effectively combines modality-specific object semantics without biasing toward one single modality. Then the sparse fusion process can be accomplished based on the valuable object semantics, ensuring efficient and accurate object detection across various scenarios. Our framework's flexibility allows it to integrate with any image and point cloud-based detectors, showcasing its adaptability and potential for future advancements. Extensive evaluations on the nuScenes and Argoverse2 datasets demonstrate that MV2DFusion achieves state-of-the-art performance, particularly excelling in long-range detection scenarios.
翻訳日:2024-08-13 14:35:18 公開日:2024-08-12
# データフリーな知識伝達による視覚変換器の最適化

Optimizing Vision Transformers with Data-Free Knowledge Transfer ( http://arxiv.org/abs/2408.05952v1 )

ライセンス: Link先を確認
Gousia Habib, Damandeep Singh, Ishfaq Ahmad Malik, Brejesh Lall, (参考訳) 自然言語処理(NLP)タスクにおけるトランスフォーマーの性能は、自己認識機構によって達成された効率と精度のため、従来の畳み込みニューラルネットワーク(CNN)を置き換える結果となった。 この成功は、コンピュータビジョンタスクにおけるトランスフォーマーの使用による長期的意味認識の強化を研究者に促した。 視覚変換器(ViT)は、自己認識機構を用いて長距離依存を捕捉する能力に優れており、様々なコンピュータビジョンタスクに優れていた。 Data Efficient Transformers (DeiT)のような現代のViTは、画像からグローバルセマンティック情報とローカルテクスチャ情報の両方を効果的に学習し、従来のCNNに匹敵するパフォーマンスを達成する。 しかし、その優れたパフォーマンスは、非常に多くのパラメーターのために計算コストが高く、スマートフォン、カメラ、ドローンなどの限られたリソースを持つデバイスへの展開を妨げている。 さらに、ViTはベンチマークCNNモデルに匹敵するパフォーマンスを達成するために、トレーニングのために大量のデータを必要とする。 そこで我々は,より小さなフォームファクターデバイスにViTをデプロイする上で,大きなモデルの高い計算要求と広範なトレーニングデータの必要性という2つの重要な課題を特定した。 これらの課題に対する解決策として,知識蒸留(KD)を用いた大規模なViTモデルの圧縮を提案する。 さらに,同一環境内における物体検出実験を行い,分類課題について検討した。 分析の結果,データフリーな知識蒸留は両問題を克服する有効な方法であり,資源制約の少ないデバイスにViTを配置できることがわかった。

The groundbreaking performance of transformers in Natural Language Processing (NLP) tasks has led to their replacement of traditional Convolutional Neural Networks (CNNs), owing to the efficiency and accuracy achieved through the self-attention mechanism. This success has inspired researchers to explore the use of transformers in computer vision tasks to attain enhanced long-term semantic awareness. Vision transformers (ViTs) have excelled in various computer vision tasks due to their superior ability to capture long-distance dependencies using the self-attention mechanism. Contemporary ViTs like Data Efficient Transformers (DeiT) can effectively learn both global semantic information and local texture information from images, achieving performance comparable to traditional CNNs. However, their impressive performance comes with a high computational cost due to very large number of parameters, hindering their deployment on devices with limited resources like smartphones, cameras, drones etc. Additionally, ViTs require a large amount of data for training to achieve performance comparable to benchmark CNN models. Therefore, we identified two key challenges in deploying ViTs on smaller form factor devices: the high computational requirements of large models and the need for extensive training data. As a solution to these challenges, we propose compressing large ViT models using Knowledge Distillation (KD), which is implemented data-free to circumvent limitations related to data availability. Additionally, we conducted experiments on object detection within the same environment in addition to classification tasks. Based on our analysis, we found that datafree knowledge distillation is an effective method to overcome both issues, enabling the deployment of ViTs on less resourceconstrained devices.
翻訳日:2024-08-13 14:35:18 公開日:2024-08-12
# クラス間およびクラス内におけるFew-shot学習のための簡単なタスク認識型コントラストローカル記述子選択戦略

A Simple Task-aware Contrastive Local Descriptor Selection Strategy for Few-shot Learning between inter class and intra class ( http://arxiv.org/abs/2408.05953v1 )

ライセンス: Link先を確認
Qian Qiao, Yu Xie, Shaoyao Huang, Fanzhang Li, (参考訳) 少ない画像分類は、ラベル付きサンプルの少ない新しいクラスを分類することを目的としている。 近年の研究では、深部局所記述子は表現能力に優れていた。 これらの研究は、背景雑音が分類性能に与える影響を認識する。 一般的に、サポートクラス内のすべてのローカルディスクリプタを使用してクエリ記述子をフィルタリングするか、サポート中のローカルディスクリプタとクエリセット間の双方向選択を行う。 しかし、背景特徴が特定のタスクの分類性能に有用であるという事実を無視する。 本稿では,タスク対応コントラスト型ローカル記述子選択ネットワーク(TCDSNet)を提案する。 まず、サポートクラスの各ローカル記述子に対して、比較的識別スコアを算出し、識別的局所記述子を選択して、サポート記述子サブセットを形成する。 最後に、サポートディスクリプタサブセットを利用して、特定のタスクに対する差別的なクエリ記述子を適応的に選択する。 大規模な実験により,本手法は汎用および微粒なデータセット上で最先端の手法より優れていることが示された。

Few-shot image classification aims to classify novel classes with few labeled samples. Recent research indicates that deep local descriptors have better representational capabilities. These studies recognize the impact of background noise on classification performance. They typically filter query descriptors using all local descriptors in the support classes or engage in bidirectional selection between local descriptors in support and query sets. However, they ignore the fact that background features may be useful for the classification performance of specific tasks. This paper proposes a novel task-aware contrastive local descriptor selection network (TCDSNet). First, we calculate the contrastive discriminative score for each local descriptor in the support class, and select discriminative local descriptors to form a support descriptor subset. Finally, we leverage support descriptor subsets to adaptively select discriminative query descriptors for specific tasks. Extensive experiments demonstrate that our method outperforms state-of-the-art methods on both general and fine-grained datasets.
翻訳日:2024-08-13 14:35:18 公開日:2024-08-12
# 弱教師付き時間的行動局所化のための確率的視覚言語表現法

Probabilistic Vision-Language Representation for Weakly Supervised Temporal Action Localization ( http://arxiv.org/abs/2408.05955v1 )

ライセンス: Link先を確認
Geuntaek Lim, Hyunwoo Kim, Joonsoo Kim, Yukyung Choi, (参考訳) WTAL(Weakly supervised temporal action Localization)は、ビデオレベルのアノテーションのみを使用して、未トリミングビデオ中のアクションインスタンスを検出することを目的としている。 多くの既存の研究は、アクション分類ラベルに基づいてWTALモデルを最適化しているため、タスクの不一致問題(すなわち、ローカライゼーション・バイ・クラス化)に遭遇する。 この問題に対処するために、近年の研究では、視覚言語事前学習(VLP)を通して、アクションカテゴリ名を補助的意味知識として活用しようと試みている。 しかし、現存する研究が不足している地域もある。 それまでのアプローチは、主に言語モデルからのテキスト情報を活用することに焦点を当てていたが、動的人間の行動とVLPの知識の協調性を見落としていた。 さらに、以前の研究で用いられた決定論的表現は、きめ細かい人間の動きを捉えるのに苦労している。 これらの問題に対処するため,確率的埋め込み空間において人間の行動知識とVLP知識を協調させる新しい枠組みを提案する。 さらに,統計的類似性に基づく確率的埋め込み空間を強化するために,分布内および分布間比較学習を提案する。 大規模な実験とアブレーション研究により,本手法は過去の最先端手法よりも著しく優れていたことが明らかとなった。 コードはhttps://github.com/sejong-rcv/PVLRで入手できる。

Weakly supervised temporal action localization (WTAL) aims to detect action instances in untrimmed videos using only video-level annotations. Since many existing works optimize WTAL models based on action classification labels, they encounter the task discrepancy problem (i.e., localization-by-classification). To tackle this issue, recent studies have attempted to utilize action category names as auxiliary semantic knowledge through vision-language pre-training (VLP). However, there are still areas where existing research falls short. Previous approaches primarily focused on leveraging textual information from language models but overlooked the alignment of dynamic human action and VLP knowledge in a joint space. Furthermore, the deterministic representation employed in previous studies struggles to capture fine-grained human motions. To address these problems, we propose a novel framework that aligns human action knowledge and VLP knowledge in a probabilistic embedding space. Moreover, we propose intra- and inter-distribution contrastive learning to enhance the probabilistic embedding space based on statistical similarities. Extensive experiments and ablation studies reveal that our method significantly outperforms all previous state-of-the-art methods. Code is available at https://github.com/sejong-rcv/PVLR.
翻訳日:2024-08-13 14:35:18 公開日:2024-08-12
# マルチキューコントラスト学習による逆気象群カウントの強化

Boosting Adverse Weather Crowd Counting via Multi-queue Contrastive Learning ( http://arxiv.org/abs/2408.05956v1 )

ライセンス: Link先を確認
Tianhang Pan, Zhuoran Zheng, Xiuyi Jia, (参考訳) 現在、ほとんどの群集カウント法は、通常の気象条件下では優れた性能を保っている。 しかし、ドメインの大幅な違いとトレーニング用の悪天候画像の欠如により、極端で悪天候条件下でのパフォーマンスを維持するのに苦労することが多い。 この問題に対処し、悪天候下でのモデルの堅牢性を高めるために、2段階の群集カウント法を提案する。 特に第1段階では、気象クラス不均衡の問題に対処するために、マルチキューのMoCoコントラスト学習戦略を導入する。 この戦略は、モデルによる気象認識表現の学習を促進する。 第2段階では、コントラスト学習の指導の下で表現を洗練し、天気予知表現を通常の気象領域に変換することを提案する。 頑健性は著しく向上するが,本手法はモデルの重量をわずかに増加させるだけである。 また、新しい合成悪天候データセットも作成する。 実験結果から,本手法は競争性能を向上することが示された。

Currently, most crowd counting methods have outstanding performance under normal weather conditions. However, they often struggle to maintain their performance in extreme and adverse weather conditions due to significant differences in the domain and a lack of adverse weather images for training. To address this issue and enhance the model's robustness in adverse weather, we propose a two-stage crowd counting method. Specifically, in the first stage, we introduce a multi-queue MoCo contrastive learning strategy to tackle the problem of weather class imbalance. This strategy facilitates the learning of weather-aware representations by the model. In the second stage, we propose to refine the representations under the guidance of contrastive learning, enabling the conversion of the weather-aware representations to the normal weather domain. While significantly improving the robustness, our method only marginally increases the weight of the model. In addition, we also create a new synthetic adverse weather dataset. Extensive experimental results show that our method achieves competitive performance.
翻訳日:2024-08-13 14:35:18 公開日:2024-08-12
# Nob-MIAs: ポストデータセット構築を伴う大規模言語モデルにおける非バイアスなメンバーシップ推論攻撃の評価

Nob-MIAs: Non-biased Membership Inference Attacks Assessment on Large Language Models with Ex-Post Dataset Construction ( http://arxiv.org/abs/2408.05968v1 )

ライセンス: Link先を確認
Cédric Eichler, Nathan Champeil, Nicolas Anciaux, Alexandra Bensamoun, Heber Hwang Arcolezi, José Maria De Fuentes, (参考訳) LLM(Large Language Models)の台頭は、特にトレーニングデータセットにおける著作権物質の使用に関する法的および倫理的な懸念を引き起こしている。 これは、保護されたコンテンツを無許可で使用したとして訴えられたテック企業に対する訴訟につながった。 メンバーシップ推論攻撃(MIA)は、特定の文書が所定のLLM事前訓練で使用されたかどうかを検出することを目的としているが、その効果は、時間シフトやn-gramオーバーラップのようなバイアスによって損なわれる。 本稿では,メンバーと非メンバーのデータセットに固有の分布バイアスが認められるポスト仮説の下で,LLM上のMIAを部分的に推論可能なトレーニングセットで評価する。 我々は、より公平なMIA評価のための「非バイアス」と「非分類」データセットを作成するアルゴリズムを提案し、検証する。 OpenLammaとPythiaのGutenbergデータセットを用いた実験では、既知のバイアスのみを中和することは不十分であることが示されている。 提案手法は,AUC-ROCスコアを用いた非バイアス付きポストデータセットを生成する。 グローバルに見ると、MIAの収率はランダムに近いが、1つだけがランダムとデータセットの両方で有効であるが、バイアスを取り除くとその性能は低下する。

The rise of Large Language Models (LLMs) has triggered legal and ethical concerns, especially regarding the unauthorized use of copyrighted materials in their training datasets. This has led to lawsuits against tech companies accused of using protected content without permission. Membership Inference Attacks (MIAs) aim to detect whether specific documents were used in a given LLM pretraining, but their effectiveness is undermined by biases such as time-shifts and n-gram overlaps. This paper addresses the evaluation of MIAs on LLMs with partially inferable training sets, under the ex-post hypothesis, which acknowledges inherent distributional biases between members and non-members datasets. We propose and validate algorithms to create ``non-biased'' and ``non-classifiable'' datasets for fairer MIA assessment. Experiments using the Gutenberg dataset on OpenLamma and Pythia show that neutralizing known biases alone is insufficient. Our methods produce non-biased ex-post datasets with AUC-ROC scores comparable to those previously obtained on genuinely random datasets, validating our approach. Globally, MIAs yield results close to random, with only one being effective on both random and our datasets, but its performance decreases when bias is removed.
翻訳日:2024-08-13 14:35:18 公開日:2024-08-12
# もはや見えない: 生成ゼロショットHOI検出のためのCLIPの可能性を解き放つ

Unseen No More: Unlocking the Potential of CLIP for Generative Zero-shot HOI Detection ( http://arxiv.org/abs/2408.05974v1 )

ライセンス: Link先を確認
Yixin Guo, Yu Liu, Jianghao Li, Weimin Wang, Qi Jia, (参考訳) ゼロショット・ヒューマン・オブジェクト・インタラクション(HOI)検出器は、トレーニング中に遭遇しない場合でもHOIカテゴリに一般化することができる。 CLIPが提供する印象的なゼロショット機能にインスパイアされた最新のメソッドは、ゼロショットHOI検出を改善するためにCLIPの埋め込みを活用しようとしている。 しかし、これらの埋め込みベースのメソッドは、参照クラスのみに分類器を訓練し、必然的に推論中にモデルに見知らぬ混乱をもたらす。 さらに, プロンプトチューニングとアダプタを用いることで, 目視精度と目視精度の差が増大することがわかった。 この課題に対処するため,HOIGENと呼ばれるゼロショットHOI検出のためのCLIPを用いた第1世代モデルを提案する。 機能抽出のみではなく、機能生成のためのCLIPの可能性をアンロックすることができる。 そこで我々は,CLIPを注入した特徴発生器を人・物・組合の特徴の生成に応じて開発する。 そして,実例のリアルな特徴を抽出し,それらを合成特徴と組み合わせることで,モデルが目に見えるクラスと目に見えないクラスを共同で訓練することを可能にする。 HOIスコアを豊かにするために、ペアワイズHOI認識ブランチに生成プロトタイプバンクを、画像ワイズHOI認識ブランチに多知識プロトタイプバンクをそれぞれ構築する。 HICO-DETベンチマークの大規模な実験により、HOIGENは、他のトップパフォーマンス手法と比較して、様々なゼロショット設定下で、見えていないクラスと見えないクラスの両方で優れたパフォーマンスを達成できることを示した。 コードは、https://github.com/soberguo/HOIGenで入手できる。

Zero-shot human-object interaction (HOI) detector is capable of generalizing to HOI categories even not encountered during training. Inspired by the impressive zero-shot capabilities offered by CLIP, latest methods strive to leverage CLIP embeddings for improving zero-shot HOI detection. However, these embedding-based methods train the classifier on seen classes only, inevitably resulting in seen-unseen confusion for the model during inference. Besides, we find that using prompt-tuning and adapters further increases the gap between seen and unseen accuracy. To tackle this challenge, we present the first generation-based model using CLIP for zero-shot HOI detection, coined HOIGen. It allows to unlock the potential of CLIP for feature generation instead of feature extraction only. To achieve it, we develop a CLIP-injected feature generator in accordance with the generation of human, object and union features. Then, we extract realistic features of seen samples and mix them with synthetic features together, allowing the model to train seen and unseen classes jointly. To enrich the HOI scores, we construct a generative prototype bank in a pairwise HOI recognition branch, and a multi-knowledge prototype bank in an image-wise HOI recognition branch, respectively. Extensive experiments on HICO-DET benchmark demonstrate our HOIGen achieves superior performance for both seen and unseen classes under various zero-shot settings, compared with other top-performing methods. Code is available at: https://github.com/soberguo/HOIGen
翻訳日:2024-08-13 14:35:18 公開日:2024-08-12
# 言語モデル説明可能性のためのグローバル・ローカルサポートスペクトル

Global-to-Local Support Spectrums for Language Model Explainability ( http://arxiv.org/abs/2408.05976v1 )

ライセンス: Link先を確認
Lucas Agussurja, Xinyang Lu, Bryan Kian Hsiang Low, (参考訳) 既存のサンプルベースの手法、例えば影響関数や代表点は、トレーニングから除去した効果を近似することで、トレーニングポイントの重要性を測定する。 そのため、それらは決定境界に非常に近い外れ値や点に向かって歪められている。 これらのメソッドによって提供される説明は、しばしば静的であり、異なるテストポイントに対して十分に具体的ではない。 本稿では,サポートセットとグローバル・ツー・ローカルの重要度尺度の2つの主要な概念に基づく,サポートスペクトルの形式での説明を生成する手法を提案する。 サポートセットは、予測クラスにおいて、テストポイントと他のクラスのトレーニングポイントの間の'lie in between''のトレーニングポイントのセットです。 それらは、テストポイントが予測されたクラスにないポイントとどれだけうまく区別できるかを示す。 既存のメソッドをグローバルとローカルのコンポーネントに分離して,サポートセット内のポイントを選択することで,グローバルとローカルの重要度を計測する。 この手法を用いることで、特定のテストポイントに合わせた説明を生成できる。 実験では,画像分類とテキスト生成における手法の有効性を示す。

Existing sample-based methods, like influence functions and representer points, measure the importance of a training point by approximating the effect of its removal from training. As such, they are skewed towards outliers and points that are very close to the decision boundaries. The explanations provided by these methods are often static and not specific enough for different test points. In this paper, we propose a method to generate an explanation in the form of support spectrums which are based on two main ideas: the support sets and a global-to-local importance measure. The support set is the set of training points, in the predicted class, that ``lie in between'' the test point and training points in the other classes. They indicate how well the test point can be distinguished from the points not in the predicted class. The global-to-local importance measure is obtained by decoupling existing methods into the global and local components which are then used to select the points in the support set. Using this method, we are able to generate explanations that are tailored to specific test points. In the experiments, we show the effectiveness of the method in image classification and text generation tasks.
翻訳日:2024-08-13 14:35:18 公開日:2024-08-12
# 探索と学習構造:ナビゲーションエージェントにおけるアクティブ推論アプローチ

Exploring and Learning Structure: Active Inference Approach in Navigational Agents ( http://arxiv.org/abs/2408.05982v1 )

ライセンス: Link先を確認
Daria de Tinguy, Tim Verbelen, Bart Dhoedt, (参考訳) 動物ナビゲーション戦略からインスピレーションを得て,生物にインスパイアされた原理に根ざしたナビゲーションとマッピングのための新しい計算モデルを導入する。 動物は、記憶、想像力、戦略的決定を効果的に利用して、複雑で空想的な環境をナビゲートすることで、優れたナビゲーション能力を示す。 これらの知見に基づいて、従来の認知マッピングアプローチとアクティブ推論フレームワーク(AIF)を統合し、環境構造をいくつかのステップで学習する。 長期記憶のためのトポロジカルマッピングとナビゲーション計画と構造学習のためのAIFの導入により,我々のモデルは動的に環境構造を把握し,探索中に予測された信念で内部マップを拡張することができる。 Clone-Structured Graph(CSCG)モデルによる比較実験は、ナビゲーションオーバーラップを最小限に抑えながら、1回で環境構造を迅速に学習するモデルの能力を強調している。 これは、環境の次元や観察の種類に関する事前の知識なしで達成され、あいまいな環境をナビゲートする際の頑丈さと有効性を示す。

Drawing inspiration from animal navigation strategies, we introduce a novel computational model for navigation and mapping, rooted in biologically inspired principles. Animals exhibit remarkable navigation abilities by efficiently using memory, imagination, and strategic decision-making to navigate complex and aliased environments. Building on these insights, we integrate traditional cognitive mapping approaches with an Active Inference Framework (AIF) to learn an environment structure in a few steps. Through the incorporation of topological mapping for long-term memory and AIF for navigation planning and structure learning, our model can dynamically apprehend environmental structures and expand its internal map with predicted beliefs during exploration. Comparative experiments with the Clone-Structured Graph (CSCG) model highlight our model's ability to rapidly learn environmental structures in a single episode, with minimal navigation overlap. this is achieved without prior knowledge of the dimensions of the environment or the type of observations, showcasing its robustness and effectiveness in navigating ambiguous environments.
翻訳日:2024-08-13 14:35:18 公開日:2024-08-12
# Diffuse-UDA: 医用画像分割における教師なし領域適応へのアプローチ : 外観と構造を考慮した拡散モデルによる検討

Diffuse-UDA: Addressing Unsupervised Domain Adaptation in Medical Image Segmentation with Appearance and Structure Aligned Diffusion Models ( http://arxiv.org/abs/2408.05985v1 )

ライセンス: Link先を確認
Haifan Gong, Yitao Wang, Yihan Wang, Jiashun Xiao, Xiang Wan, Haofeng Li, (参考訳) 3次元医用画像におけるボクセルレベルのアノテーションの不足と複雑さは、特に、リソースの少ないセンターからのラベル付きデータセットと、リソースの少ないセンターからのラベルなしデータセットとのドメインギャップが原因で、大きな課題を呈している。 この格差は、医療における人工知能アルゴリズムの公平性に影響を与える。 医用画像セグメンテーションにおけるUnsupervised Domain Adaptation(UDA)に取り組むために拡散モデルを利用した新しい手法であるDiffuse-UDAを紹介する。 Diffuse-UDAは、ターゲット領域の特徴と様々な構造を持つ高品質なイメージマスクペアを生成し、UDAタスクを向上する。 最初は、ターゲットドメインサンプルの擬似ラベルが生成される。 その後、変形可能な拡張を取り入れた特別に調整された拡散モデルが、両方の領域からの画像ラベルまたは画像-擬似ラベルペアで訓練される。 最後に、ソースドメインラベルは拡散モデルをガイドし、ターゲットドメインのイメージラベルペアを生成する。 いくつかのベンチマークによる総合評価では、Diffuse-UDA は UDA や半教師付き戦略よりも優れており、ターゲットのドメインデータに基づいて直接訓練されたモデルの理論的上限に近づいたり超えたりしている。 Diffuse-UDAは、医療画像におけるAIシステムの開発と展開を推進し、医療環境間の格差に対処するための経路を提供する。 このアプローチは、革新的なAI駆動診断ツールの探索を可能にし、結果を改善し、時間を節約し、ヒューマンエラーを減らす。

The scarcity and complexity of voxel-level annotations in 3D medical imaging present significant challenges, particularly due to the domain gap between labeled datasets from well-resourced centers and unlabeled datasets from less-resourced centers. This disparity affects the fairness of artificial intelligence algorithms in healthcare. We introduce Diffuse-UDA, a novel method leveraging diffusion models to tackle Unsupervised Domain Adaptation (UDA) in medical image segmentation. Diffuse-UDA generates high-quality image-mask pairs with target domain characteristics and various structures, thereby enhancing UDA tasks. Initially, pseudo labels for target domain samples are generated. Subsequently, a specially tailored diffusion model, incorporating deformable augmentations, is trained on image-label or image-pseudo-label pairs from both domains. Finally, source domain labels guide the diffusion model to generate image-label pairs for the target domain. Comprehensive evaluations on several benchmarks demonstrate that Diffuse-UDA outperforms leading UDA and semi-supervised strategies, achieving performance close to or even surpassing the theoretical upper bound of models trained directly on target domain data. Diffuse-UDA offers a pathway to advance the development and deployment of AI systems in medical imaging, addressing disparities between healthcare environments. This approach enables the exploration of innovative AI-driven diagnostic tools, improves outcomes, saves time, and reduces human error.
翻訳日:2024-08-13 14:35:18 公開日:2024-08-12
# 暗号マイグレーション問題の定式化

Formalizing the Cryptographic Migration Problem ( http://arxiv.org/abs/2408.05997v1 )

ライセンス: Link先を確認
Daniel Loebenberger, Stefan-Lukas Gazdag, Daniel Herzinger, Eduard Hirsch, Christian Näther, (参考訳) 量子コンピューティングの進歩に伴い、量子後暗号への移行は、現代のシステムのセキュリティを維持するためにますます重要になっている。 本稿では,暗号マイグレーション問題の形式的定義を紹介し,その複雑さを適切な有向グラフモデルを用いて検討する。 得られたマイグレーショングラフの特徴を解析し、トレードオフを議論する。 組合せ論,確率論,組合せ解析の古典的な数学的結果を用いて,<random'の大規模暗号ITインフラの移行の課題を評価する。 我々のモデルに従う十分な大規模なマイグレーションプロジェクトは、多くの依存的な(比較的容易な)マイグレーションステップや、少なくとも1つの複雑なマイグレーションステップのため、本質的に複雑であることを示す。 このことは、適切な意味での暗号マイグレーションが一般的に難しいことを証明している。

With the advancements in quantum computing, transitioning to post-quantum cryptography is becoming increasingly critical to maintain the security of modern systems. This paper introduces a formal definition of the cryptographic migration problem and explores its complexities using a suitable directed graph model. Characteristics of the resulting migration graphs are analyzed and trade-offs discussed. By using classical mathematical results from combinatorics, probability theory and combinatorial analysis, we assess the challenges of migrating ``random'' large cryptographic IT-infrastructures. We show that any sufficiently large migration project that follows our model has an intrinsic complexity, either due to many dependent (comparatively easy) migration steps or due to at least one complicated migration step. This proves that in a suitable sense cryptographic migration is hard in general.
翻訳日:2024-08-13 14:35:18 公開日:2024-08-12
# 画像間変換とスタイル転送に関する一検討

An Analysis for Image-to-Image Translation and Style Transfer ( http://arxiv.org/abs/2408.06000v1 )

ライセンス: Link先を確認
Xiaoming Yu, Jie Tian, Zhenhua Hu, (参考訳) 近年, 深層学習における生成技術の発展に伴い, 画像間翻訳モデルやスタイル伝達モデルが爆発的に出現している。 これら2つの技術は大きな進歩を遂げ、現実的な画像を生成することができる。 しかし、多くのコミュニティは、入力画像に基づいて所望の画像を生成し、コンテンツとスタイルの2つの定義をカバーしているため、この2つを混同する傾向にある。 実際、両者の間には確かに大きな違いがあり、現在、技術の発展に寄与しない2つの技術を区別するための明確な説明が欠けている。 画像間翻訳とスタイル転送の違いと関連性を導入することで、コミュニティ全体にサービスを提供したいと思っています。 議論プロセス全体は、2つの技術のコンセプト、フォーム、トレーニングモード、評価プロセス、可視化結果を含む。 最後に、画像から画像への変換は領域ごとに分割され、領域内の画像の種類は限られており、関連する範囲は小さいが、変換能力は強く、意味的変化も強い。 スタイル転送はイメージタイプを単一のイメージで分割し、関連するスコープは大きいが、転送能力は制限され、画像のテクスチャや色をより多く転送する。

With the development of generative technologies in deep learning, a large number of image-to-image translation and style transfer models have emerged at an explosive rate in recent years. These two technologies have made significant progress and can generate realistic images. However, many communities tend to confuse the two, because both generate the desired image based on the input image and both cover the two definitions of content and style. In fact, there are indeed significant differences between the two, and there is currently a lack of clear explanations to distinguish the two technologies, which is not conducive to the advancement of technology. We hope to serve the entire community by introducing the differences and connections between image-to-image translation and style transfer. The entire discussion process involves the concepts, forms, training modes, evaluation processes, and visualization results of the two technologies. Finally, we conclude that image-to-image translation divides images by domain, and the types of images in the domain are limited, and the scope involved is small, but the conversion ability is strong and can achieve strong semantic changes. Style transfer divides image types by single image, and the scope involved is large, but the transfer ability is limited, and it transfers more texture and color of the image.
翻訳日:2024-08-13 14:35:18 公開日:2024-08-12
# 六方晶窒化ホウ素中のB中心の量子効率

Quantum Efficiency the B-centre in hexagonal boron nitride ( http://arxiv.org/abs/2408.06001v1 )

ライセンス: Link先を確認
Karin Yamamura, Nathan Coste, Helen Zhi Jie Zeng, Milos Toth, Mehran Kianinia, Igor Aharonovich, (参考訳) 六方晶窒化ホウ素(hBN)のB中心は、正確なエミッタ位置決めと高い再現可能な発光波長のため、量子フォトニクスの応用において重要な研究関心を集めている。 ここでは、hBNの層状の性質を利用して、単一のB中心の量子効率(QE)を直接測定する。 欠陥は、電子ビーム照射によりhBNの35nmのフレークで作られ、エミッタを含むフレークの上に250nmhBNのフレークを移すことで局所的な誘電環境が変化した。 測定寿命の変化を解析することにより,hBNの薄いフレーク中のB中心のQEと移動後のQEを決定した。 以上の結果から, 薄いフレーク中のB中心は40%以上のQEを示すことが示唆された。 準ユニティQEは、hBNの厚いフレークに埋め込まれたエミッタのパーセル拡張の下で達成可能であり、量子フォトニクスの応用への期待を強調している。

B-centres in hexagonal boron nitride (hBN) are gaining significant research interest for quantum photonics applications due to precise emitter positioning and highly reproducible emission wavelengths. Here, we leverage the layered nature of hBN to directly measure the quantum efficiency (QE) of single B-centres. The defects were engineered in a 35 nm flake of hBN using electron beam irradiation, and the local dielectric environment was altered by transferring a 250 nm hBN flake on top of the one containing the emitters. By analysing the resulting change in measured lifetimes, we determined the QE of B-centres in the thin flake of hBN, as well as after the transfer. Our results indicate that B-centres located in thin flakes can exhibit QEs higher than 40%. Near-unity QEs are achievable under reasonable Purcell enhancement for emitters embedded in thick flakes of hBN, highlighting their promise for quantum photonics applications.
翻訳日:2024-08-13 14:35:18 公開日:2024-08-12
# LUT Tensor Core: 効率的な低ビットLDM推論高速化を実現するルックアップテーブル

LUT Tensor Core: Lookup Table Enables Efficient Low-Bit LLM Inference Acceleration ( http://arxiv.org/abs/2408.06003v1 )

ライセンス: Link先を確認
Zhiwen Mo, Lei Wang, Jianyu Wei, Zhichen Zeng, Shijie Cao, Lingxiao Ma, Naifeng Jing, Ting Cao, Jilong Xue, Fan Yang, Mao Yang, (参考訳) 大規模言語モデル (LLM) では, より優れたリソースが要求されるため, メモリ使用量を削減し, 推論効率を高めるために低ビット重みを使用する傾向が急速に高まっている。 しかし、これらの低ビット LLM は、より高精度な活性化を伴う低精度重みの乗算を含む決定的かつ未探索な演算である混合精度行列乗算 (mpGEMM) の必要性を導入している。 残念なことに、現在のハードウェアはmpGEMMをネイティブにサポートしていない。 低ビットLLMにおけるmpGEMM要求に対処するため、我々はmpGEMMのルックアップテーブル(LUT)に基づくアプローチを検討した。 しかし、従来のLUT実装はその可能性を欠いている。 LUTベースのmpGEMMのパワーをフル活用するために、低ビットLLM推論に最適化されたソフトウェアハードウェアの共同設計であるLUT Tensor Coreを導入する。 具体的には,ソフトウェアベースの演算子融合とテーブル対称性を導入し,テーブル前処理とテーブル記憶を最適化する。 そこで, LUT Tensor Core は, テーブルの再利用性を高めるため, 拡張型タイリング形状設計と, mpGEMM の様々な精度の組み合わせをサポートするためのビットシリアル設計を特徴とするハードウェア設計を提案する。 さらに,LUTベースのmpGEMMのための新しい命令を用いたエンドツーエンドコンパイルスタックを設計し,効率的なLLMコンパイルと最適化を実現する。 低ビットLLM(例: BitNet, LLAMA)の評価は、LUT Tensor Coreが計算密度とエネルギー効率の両方において最大以上の改善を達成していることを示している。

As large language model (LLM) inference demands ever-greater resources, there is a rapid growing trend of using low-bit weights to shrink memory usage and boost inference efficiency. However, these low-bit LLMs introduce the need for mixed-precision matrix multiplication (mpGEMM), which is a crucial yet under-explored operation that involves multiplying lower-precision weights with higher-precision activations. Unfortunately, current hardware does not natively support mpGEMM, resulting in indirect and inefficient dequantization-based implementations. To address the mpGEMM requirements in low-bit LLMs, we explored the lookup table (LUT)-based approach for mpGEMM. However, a conventional LUT implementation falls short of its potential. To fully harness the power of LUT-based mpGEMM, we introduce LUT Tensor Core, a software-hardware co-design optimized for low-bit LLM inference. Specifically, we introduce software-based operator fusion and table symmetrization techniques to optimize table precompute and table storage, respectively. Then, LUT Tensor Core proposes the hardware design featuring an elongated tiling shape design to enhance table reuse and a bit-serial design to support various precision combinations in mpGEMM. Moreover, we design an end-to-end compilation stack with new instructions for LUT-based mpGEMM, enabling efficient LLM compilation and optimizations. The evaluation on low-bit LLMs (e.g., BitNet, LLAMA) shows that LUT Tensor Core achieves more than a magnitude of improvements on both compute density and energy efficiency.
翻訳日:2024-08-13 14:35:18 公開日:2024-08-12
# LEO衛星間の効率的な結合形成のための量子アニーリングに基づくアルゴリズム

Quantum Annealing-Based Algorithm for Efficient Coalition Formation Among LEO Satellites ( http://arxiv.org/abs/2408.06007v1 )

ライセンス: Link先を確認
Supreeth Mysore Venkatesh, Antonio Macaluso, Marlon Nuske, Matthias Klusch, Andreas Dengel, (参考訳) 低軌道(LEO)衛星の増加は、製造コストの低下と打ち上げコストの低下によるものであり、地球観測ミッションや低遅延インターネット接続にとって貴重なものとなっている。 しかし、衛星の数が増加するにつれて、維持するための通信リンクの数が増加し、この広大なネットワークの管理はますます困難になり、有望な解決策として効率的なグループに衛星をクラスタ化する必要性が強調される。 本稿では、LEO衛星のクラスタリングを連立構造生成(CSG)問題として定式化し、量子アニールを利用して解決する。 衛星ネットワークをグラフとして表現し、GCS-Qと呼ばれるハイブリッド量子古典アルゴリズムを用いて最適分割を求める。 このアルゴリズムは、2次非制約バイナリ最適化(QUBO)の定式化を用いて、各ステップでグラフを反復的に分割することで、トップダウンアプローチに従う。 提案手法の評価には,CelestrakのStarlink衛星のTLE/3LEデータを利用する。 D-Wave Advantage annealer と State-of-the-art solver Gurobi を用いて行った実験により, 量子アニールは, 解の質を維持しながら, 実行時の古典的手法を著しく上回ることを示した。 量子アニールの性能は古典的なコンピュータの能力を超え、大規模衛星ネットワークの管理を最適化する量子コンピューティングの変革の可能性を強調している。

The increasing number of Low Earth Orbit (LEO) satellites, driven by lower manufacturing and launch costs, is proving invaluable for Earth observation missions and low-latency internet connectivity. However, as the number of satellites increases, the number of communication links to maintain also rises, making the management of this vast network increasingly challenging and highlighting the need for clustering satellites into efficient groups as a promising solution. This paper formulates the clustering of LEO satellites as a coalition structure generation (CSG) problem and leverages quantum annealing to solve it. We represent the satellite network as a graph and obtain the optimal partitions using a hybrid quantum-classical algorithm called GCS-Q. The algorithm follows a top-down approach by iteratively splitting the graph at each step using a quadratic unconstrained binary optimization (QUBO) formulation. To evaluate our approach, we utilize real-world three-line element set (TLE/3LE) data for Starlink satellites from Celestrak. Our experiments, conducted using the D-Wave Advantage annealer and the state-of-the-art solver Gurobi, demonstrate that the quantum annealer significantly outperforms classical methods in terms of runtime while maintaining the solution quality. The performance achieved with quantum annealers surpasses the capabilities of classical computers, highlighting the transformative potential of quantum computing in optimizing the management of large-scale satellite networks.
翻訳日:2024-08-13 14:35:18 公開日:2024-08-12
# DEEPTalk:確率的音声駆動型3次元顔アニメーションのための動的感情埋め込み

DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation ( http://arxiv.org/abs/2408.06010v1 )

ライセンス: Link先を確認
Jisoo Kim, Jungbin Cho, Joonho Park, Soonmin Hwang, Da Eun Kim, Geon Kim, Youngjae Yu, (参考訳) 音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。 近年の現実的な唇の動きの進歩にもかかわらず、現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートンを捉え、単調な顔の動きを作り出すことができない。 これらの制限は、鈍く反復的な顔アニメーションをもたらし、ユーザーのエンゲージメントを減らし、適用性を妨げます。 これらの課題に対処するために,音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。 そこで我々はまず,確率論的コントラスト学習を用いたDEC(Dynamic Emotion Embedding)を訓練し,音声と顔の両方に共同感情を埋め込む空間を構築する。 この確率的枠組みは、音声と顔の動きから感情を解釈する不確実性を捉え、その多面空間からの感情ベクトルの導出を可能にする。 さらに, 動的顔の動きを生成するために, VAEやVQ-VAEの限界を克服する前に, TH-VQVAE (Temporally Hierarchical VQ-VAE) を表現的かつ頑健な動きとして設計する。 これらの強みを生かして,非自己回帰的にコードブックの指標を予測して動的顔の動きを生成できる対話型ヘッドジェネレータであるDEEPTalkを開発した。 様々なデータセットに対する広範囲な実験は、正確なリップシンクを維持する多様で感情的に表現力のある会話顔の作成において、我々のアプローチの有効性を実証している。 ソースコードはまもなく公開される予定だ。

Speech-driven 3D facial animation has garnered lots of attention thanks to its broad range of applications. Despite recent advancements in achieving realistic lip motion, current methods fail to capture the nuanced emotional undertones conveyed through speech and produce monotonous facial motion. These limitations result in blunt and repetitive facial animations, reducing user engagement and hindering their applicability. To address these challenges, we introduce DEEPTalk, a novel approach that generates diverse and emotionally rich 3D facial expressions directly from speech inputs. To achieve this, we first train DEE (Dynamic Emotion Embedding), which employs probabilistic contrastive learning to forge a joint emotion embedding space for both speech and facial motion. This probabilistic framework captures the uncertainty in interpreting emotions from speech and facial motion, enabling the derivation of emotion vectors from its multifaceted space. Moreover, to generate dynamic facial motion, we design TH-VQVAE (Temporally Hierarchical VQ-VAE) as an expressive and robust motion prior overcoming limitations of VAEs and VQ-VAEs. Utilizing these strong priors, we develop DEEPTalk, A talking head generator that non-autoregressively predicts codebook indices to create dynamic facial motion, incorporating a novel emotion consistency loss. Extensive experiments on various datasets demonstrate the effectiveness of our approach in creating diverse, emotionally expressive talking faces that maintain accurate lip-sync. Source code will be made publicly available soon.
翻訳日:2024-08-13 14:25:27 公開日:2024-08-12
# シャープネスに基づくアウトオブフォーカスブラの除去機能

A Sharpness Based Loss Function for Removing Out-of-Focus Blur ( http://arxiv.org/abs/2408.06014v1 )

ライセンス: Link先を確認
Uditangshu Aurangabadkar, Darren Ramsook, Anil Kokaram, (参考訳) 現代のディープニューラルネットワーク(DNN)アプローチの成功は、平均絶対誤差(MAE)や平均二乗誤差(MSE)といった標準的な損失を超えた、複雑な最適化基準の使用による可能性がある。 本研究では,Zhu と Milanfar が導入した非参照シャープネス指標 Q を用いて,画像からぼかしを除去する手法を提案する。 また、修復モデルを評価するために、実世界のアウト・オブ・フォーカス画像の新しいデータセットも導入する。 本手法は, 知覚品質(LPIPS)が7.5%向上した画像を生成する。 さらに,最先端(SOTA)法では,Qが6.7%増加し,PSNRが7.25%増加した。

The success of modern Deep Neural Network (DNN) approaches can be attributed to the use of complex optimization criteria beyond standard losses such as mean absolute error (MAE) or mean squared error (MSE). In this work, we propose a novel method of utilising a no-reference sharpness metric Q introduced by Zhu and Milanfar for removing out-of-focus blur from images. We also introduce a novel dataset of real-world out-of-focus images for assessing restoration models. Our fine-tuned method produces images with a 7.5 % increase in perceptual quality (LPIPS) as compared to a standard model trained only on MAE. Furthermore, we observe a 6.7 % increase in Q (reflecting sharper restorations) and 7.25 % increase in PSNR over most state-of-the-art (SOTA) methods.
翻訳日:2024-08-13 14:25:27 公開日:2024-08-12
# HeadGAP: ガウシアン・プライオリティによる3Dヘッドアバター(動画あり)

HeadGAP: Few-shot 3D Head Avatar via Generalizable Gaussian Priors ( http://arxiv.org/abs/2408.06019v1 )

ライセンス: Link先を確認
Xiaozheng Zheng, Chao Wen, Zhaohu Li, Weiyi Zhang, Zhuo Su, Xu Chang, Yang Zhao, Zheng Lv, Xiaoyuan Zhang, Yongjie Zhang, Guidong Wang, Lan Xu, (参考訳) 本稿では,高忠実でアニマタブルなロバスト性を持つ数発のインザワイルドデータから一般化可能な,新しい3Dヘッドアバター作成手法を提案する。 この問題の制約の少ない性質を考えると、事前知識を取り入れることが不可欠である。 そこで本稿では,事前学習とアバター生成フェーズからなるフレームワークを提案する。 先行学習フェーズでは、大規模なマルチビュー動的データセットから派生した3Dヘッドの先行処理を利用し、アバター生成フェーズでは、これらの先行処理を数ショットのパーソナライズに応用する。 提案手法は,ガウスのSplattingをベースとした自動デコーダネットワークと部分的動的モデリングを併用することで,これらの先例を効果的に捉えている。 本手法では,個人識別のためのパーソナライズされた潜在符号を用いたアイデンティティ共有符号化を用いて,ガウスプリミティブの属性を学習する。 アバター作成段階では,インバージョンと微調整戦略を利用して高速な頭部アバターのパーソナライズを実現する。 広汎な実験により、我々のモデルは、効果的にヘッド優先を活用でき、それらを数ショットのパーソナライズに一般化し、フォトリアリスティックなレンダリング品質、マルチビュー整合性、安定したアニメーションを実現する。

In this paper, we present a novel 3D head avatar creation approach capable of generalizing from few-shot in-the-wild data with high-fidelity and animatable robustness. Given the underconstrained nature of this problem, incorporating prior knowledge is essential. Therefore, we propose a framework comprising prior learning and avatar creation phases. The prior learning phase leverages 3D head priors derived from a large-scale multi-view dynamic dataset, and the avatar creation phase applies these priors for few-shot personalization. Our approach effectively captures these priors by utilizing a Gaussian Splatting-based auto-decoder network with part-based dynamic modeling. Our method employs identity-shared encoding with personalized latent codes for individual identities to learn the attributes of Gaussian primitives. During the avatar creation phase, we achieve fast head avatar personalization by leveraging inversion and fine-tuning strategies. Extensive experiments demonstrate that our model effectively exploits head priors and successfully generalizes them to few-shot personalization, achieving photo-realistic rendering quality, multi-view consistency, and stable animation.
翻訳日:2024-08-13 14:25:27 公開日:2024-08-12
# ClickAttention: Click Region similarity Guided Interactive Segmentation

ClickAttention: Click Region Similarity Guided Interactive Segmentation ( http://arxiv.org/abs/2408.06021v1 )

ライセンス: Link先を確認
Long Xu, Shanghong Li, Yongquan Chen, Junkang Chen, Rui Huang, Feng Wu, (参考訳) クリックポイントに基づく対話的セグメンテーションアルゴリズムは近年,研究者から大きな注目を集めている。しかしながら,既存の研究では,主に局所領域に影響を及ぼし,対象対象対象全体に集中する能力に制限があるような,モデル入力としてスパース・クリックマップを用いることが多い。また,ほとんどの既存アルゴリズムは,高いパフォーマンスと効率のバランスが取れない。この問題に対処するために,正クリック領域と全入力の類似性に基づく正クリックの影響範囲を拡大するクリックアテンションアルゴリズムを提案する。また,正クリック領域と負クリック領域間の相互干渉による精度の低下を回避するために,正クリック領域と負クリック領域とのカップリングを回避するための識別的アフィニティ・ロスも提案している。

Interactive segmentation algorithms based on click points have garnered significant attention from researchers in recent years.However, existing studies typically use sparse click maps as model inputs to segment specific target objects, which primarily affect local regions and have limited abilities to focus on the whole target object, leading to increased times of clicks.In addition, most existing algorithms can not balance well between high performance and efficiency.To address this issue, we propose a click attention algorithm that expands the influence range of positive clicks based on the similarity between positively-clicked regions and the whole input.We also propose a discriminative affinity loss to reduce the attention coupling between positive and negative click regions to avoid an accuracy decrease caused by mutual interference between positive and negative clicks.Extensive experiments demonstrate that our approach is superior to existing methods and achieves cutting-edge performance in fewer parameters.An interactive demo and all reproducible codes will be released at https://github.com/hahamyt/ClickAttention.
翻訳日:2024-08-13 14:25:27 公開日:2024-08-12
# 脳波に基づく感情認識に関する総合的調査:グラフに基づく視点

A Comprehensive Survey on EEG-Based Emotion Recognition: A Graph-Based Perspective ( http://arxiv.org/abs/2408.06027v1 )

ライセンス: Link先を確認
Chenyu Liu, Xinliang Zhou, Yihao Wu, Yi Ding, Liming Zhai, Kun Wang, Ziyu Jia, Yang Liu, (参考訳) 他のモダリティと比較すると、脳波に基づく感情認識は人間の脳の感情パターンに直感的に反応し、感情コンピューティングにおいて最も焦点を絞ったタスクの1つとなっている。 感情の性質は、脳領域の接続性に対する生理的、心理的な状態の変化であり、感情認識は特定の脳領域ではなく、脳領域間の依存性に焦点を当てる。 重要なトレンドは、時間次元と空間次元をまたいだノード間の動的機能的接続のような依存をカプセル化するグラフの適用である。 同時に、この依存の背後にある神経科学的な基盤は、この分野におけるグラフの適用を顕著な意味を持つものにしている。 しかし、脳波に基づく感情認識に感情関連グラフを構築するための総合的なレビューやチュートリアルは存在しない。 本稿では,これらの研究を包括的に調査し,方法論的観点から,この分野におけるグラフ関連手法の体系的レビューを行う。 本稿では,この分野におけるグラフアプリケーション統合フレームワークを提案し,これらの手法を分類する。 最後に, 過去の研究に基づいて, この分野におけるいくつかのオープン課題と今後の方向性を示す。

Compared to other modalities, electroencephalogram (EEG) based emotion recognition can intuitively respond to emotional patterns in the human brain and, therefore, has become one of the most focused tasks in affective computing. The nature of emotions is a physiological and psychological state change in response to brain region connectivity, making emotion recognition focus more on the dependency between brain regions instead of specific brain regions. A significant trend is the application of graphs to encapsulate such dependency as dynamic functional connections between nodes across temporal and spatial dimensions. Concurrently, the neuroscientific underpinnings behind this dependency endow the application of graphs in this field with a distinctive significance. However, there is neither a comprehensive review nor a tutorial for constructing emotion-relevant graphs in EEG-based emotion recognition. In this paper, we present a comprehensive survey of these studies, delivering a systematic review of graph-related methods in this field from a methodological perspective. We propose a unified framework for graph applications in this field and categorize these methods on this basis. Finally, based on previous studies, we also present several open challenges and future directions in this field.
翻訳日:2024-08-13 14:25:27 公開日:2024-08-12
# クロスビュー機能プロパゲーションによるグラフクラスタリング

Graph Clustering with Cross-View Feature Propagation ( http://arxiv.org/abs/2408.06029v1 )

ライセンス: Link先を確認
Zhixuan Duan, Zuo Wang, Fanghui Bi, (参考訳) グラフクラスタリングは,従来,エッジ構造と特徴類似性に基づいて類似の頂点をグループ化してアプローチされてきた,基本的かつ困難な学習課題である。本稿では,グラフデータのクラスタ発見にマルチビュー特徴伝搬がどのように影響を与えるかを検討する。この目的のために,グラフデータのクラスタ識別を強化するために,マルチビュー特徴伝搬を利用した新しい手法であるGCCFPを提案する。GCCFPでは,グラフトポロジとマルチビュー頂点機能を利用して,重要な潜在特徴伝搬をサポートするモジュールによって正規化された頂点クラスタメンバシップを決定する,統一的な目的関数を採用している。 この関数を最適化し、有限個の反復でモデル収束を証明し、その計算複雑性を解析するための反復アルゴリズムを導出する。 本実験は,GCCFPのクラスタリング性能が,確立された手法と比較して優れており,様々なシナリオにまたがって有効性を示すものである。

Graph clustering is a fundamental and challenging learning task, which is conventionally approached by grouping similar vertices based on edge structure and feature similarity.In contrast to previous methods, in this paper, we investigate how multi-view feature propagation can influence cluster discovery in graph data.To this end, we present Graph Clustering With Cross-View Feature Propagation (GCCFP), a novel method that leverages multi-view feature propagation to enhance cluster identification in graph data.GCCFP employs a unified objective function that utilizes graph topology and multi-view vertex features to determine vertex cluster membership, regularized by a module that supports key latent feature propagation. We derive an iterative algorithm to optimize this function, prove model convergence within a finite number of iterations, and analyze its computational complexity. Our experiments on various real-world graphs demonstrate the superior clustering performance of GCCFP compared to well-established methods, manifesting its effectiveness across different scenarios.
翻訳日:2024-08-13 14:25:27 公開日:2024-08-12
# ブラックボックスに侵入する:予測インターバルはデータ駆動型クアドロレータモデルの信頼性に洞察を与える

Peaking into the Black-box: Prediction Intervals Give Insight into Data-driven Quadrotor Model Reliability ( http://arxiv.org/abs/2408.06036v1 )

ライセンス: Link先を確認
Jasper van Beers, Coen de Visser, (参考訳) データ駆動型二次モデル予測の信頼性と妥当性の確保は、その受容と実用化に不可欠である。 これは特にグレーボックスやブラックボックスモデルでは、入力の予測へのマッピングが透明ではなく、その後の信頼性の確認が困難であることが知られている。 それでも、そのような手法は頻繁に使われ、四元数モデルの同定に成功している。 予測間隔(PI)は、モデル予測の一貫性と精度に関する洞察を提供するために用いられる。 本稿では,多項式とニューラルネットワーク(ANN)の4次空力モデルに対するそのようなPIを推定する。 ANN PI推定手法としてブートストラップ法と品質駆動法という2つの手法が,既存の高忠実度四重項シミュレーションを用いて,四重項空力モデルに対して数値的に検証されている。 その後、クアドロターの空力モデルが実際のクアドロターの飛行データに基づいて同定され、その実用性を実証し、モデルの補間と外挿に対する感度を探索する。 ANNをベースとしたPIは外挿時にかなり広くなり、外挿時には一定に保たれたり、縮小したりした。 この挙動は多項式PIにも起こるが、等級は低い。 推定されたPIは、PI幅を通して反射されるモデリングおよび測定の不確実性によって、二次モデル出力が嘘をつく可能性のある確率的境界を確立する。

Ensuring the reliability and validity of data-driven quadrotor model predictions is essential for their accepted and practical use. This is especially true for grey- and black-box models wherein the mapping of inputs to predictions is not transparent and subsequent reliability notoriously difficult to ascertain. Nonetheless, such techniques are frequently and successfully used to identify quadrotor models. Prediction intervals (PIs) may be employed to provide insight into the consistency and accuracy of model predictions. This paper estimates such PIs for polynomial and Artificial Neural Network (ANN) quadrotor aerodynamic models. Two existing ANN PI estimation techniques - the bootstrap method and the quality driven method - are validated numerically for quadrotor aerodynamic models using an existing high-fidelity quadrotor simulation. Quadrotor aerodynamic models are then identified on real quadrotor flight data to demonstrate their utility and explore their sensitivity to model interpolation and extrapolation. It is found that the ANN-based PIs widen considerably when extrapolating and remain constant, or shrink, when interpolating. While this behaviour also occurs for the polynomial PIs, it is of lower magnitude. The estimated PIs establish probabilistic bounds within which the quadrotor model outputs will likely lie, subject to modelling and measurement uncertainties that are reflected through the PI widths.
翻訳日:2024-08-13 14:25:27 公開日:2024-08-12
# 雑音表現学習によるロバスト文脈認識による対話音声認識の強化

Enhancing Dialogue Speech Recognition with Robust Contextual Awareness via Noise Representation Learning ( http://arxiv.org/abs/2408.06043v1 )

ライセンス: Link先を確認
Wonjun Lee, San Kim, Gary Geunbae Lee, (参考訳) 最近の対話システムはターンベースの音声対話に依存しており、正確な音声認識(ASR)を必要とする。 ASRのエラーは下流の対話タスクに大きな影響を及ぼす。 これを解決するために,ユーザとエージェントのインタラクションからの対話コンテキストを用いて,その後の発話を翻訳する手法が提案されている。 この方法は、各ターンで生成された蓄積コンテキストを用いて、ユーザの音声の書き起こしとエージェントの応答をモデル入力として組み込む。 しかし、このコンテキストは自動回帰方式でASRモデルによって生成されるため、ASRエラーの影響を受けやすい。 このようなノイズの多いコンテキストは、コンテキスト入力の利点をさらに低下させ、その結果、亜最適ASR性能をもたらす。 本稿では,CNRL(Context Noise Representation Learning)を導入し,雑音に対する堅牢性を向上し,対話音声認識の精度を向上する。 文脈認識の利点を最大化するために,テキストベースの対話データを用いたデコーダ事前学習と,文脈エンコーダのための雑音表現学習を含む。 本手法は,音声対話の評価に基づいて,ベースラインよりも優れた結果を示す。 さらに,本手法の強みは,入力を正確に書き起こすための文脈情報に頼って,実環境の雑音によってユーザの発話がほとんど聞こえない環境において強調される。

Recent dialogue systems rely on turn-based spoken interactions, requiring accurate Automatic Speech Recognition (ASR). Errors in ASR can significantly impact downstream dialogue tasks. To address this, using dialogue context from user and agent interactions for transcribing subsequent utterances has been proposed. This method incorporates the transcription of the user's speech and the agent's response as model input, using the accumulated context generated by each turn. However, this context is susceptible to ASR errors because it is generated by the ASR model in an auto-regressive fashion. Such noisy context can further degrade the benefits of context input, resulting in suboptimal ASR performance. In this paper, we introduce Context Noise Representation Learning (CNRL) to enhance robustness against noisy context, ultimately improving dialogue speech recognition accuracy. To maximize the advantage of context awareness, our approach includes decoder pre-training using text-based dialogue data and noise representation learning for a context encoder. Based on the evaluation of speech dialogues, our method shows superior results compared to baselines. Furthermore, the strength of our approach is highlighted in noisy environments where user speech is barely audible due to real-world noise, relying on contextual information to transcribe the input accurately.
翻訳日:2024-08-13 14:25:27 公開日:2024-08-12
# BooW-VTON:マスクなし擬似データトレーニングによるWild仮想トライオンの強化

BooW-VTON: Boosting In-the-Wild Virtual Try-On via Mask-Free Pseudo Data Training ( http://arxiv.org/abs/2408.06047v1 )

ライセンス: Link先を確認
Xuanpu Zhang, Dan Song, Pengxin Zhan, Qingguo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Anan Liu, (参考訳) 画像ベースの仮想試行は、特定の人のリアルな試行画像を生成するために、ますます人気が高く重要なタスクである。 既存の方法は、常に正確なマスクを用いて、ソース画像の原衣を除去し、強力な拡散モデルに基づいて、単純で従来型の試行錯誤シナリオで現実的な合成画像を実現する。 したがって、これらの手法の試行錯誤には、適切なマスクを取得することが不可欠である。 しかし、特に様々な前景のオクルージョンや人物のポーズを含む複雑なワイルドトライオンデータに対して、正確な塗装マスクを得ることは、図1-Topが示すように容易ではない。 この難しさは、図1-ボトムに示したセルフィーシーンのような、より実用的で挑戦的な現実のシナリオにおいて、しばしばパフォーマンスが低下する。 そこで本研究では,ワイルドシナリオから大規模アンペアトレーニングデータを取得するための,効率的なデータ拡張手法と組み合わせた新たなトレーニングパラダイムを提案する。 さらに、より正確な試行領域をローカライズしてより合理的な試行結果を得るように、試行ローカライズ損失を設計する。 提案手法は,既存の手法に比べてコスト効率が高く,ユーザフレンドリな入力として,基準布画像,原ポーズ画像,原人物画像のみを必要とする。 大規模な定性的および定量的実験は、そのような低要求入力を持つ野生のシナリオにおいて優れた性能を示した。

Image-based virtual try-on is an increasingly popular and important task to generate realistic try-on images of specific person. Existing methods always employ an accurate mask to remove the original garment in the source image, thus achieving realistic synthesized images in simple and conventional try-on scenarios based on powerful diffusion model. Therefore, acquiring suitable mask is vital to the try-on performance of these methods. However, obtaining precise inpainting masks, especially for complex wild try-on data containing diverse foreground occlusions and person poses, is not easy as Figure 1-Top shows. This difficulty often results in poor performance in more practical and challenging real-life scenarios, such as the selfie scene shown in Figure 1-Bottom. To this end, we propose a novel training paradigm combined with an efficient data augmentation method to acquire large-scale unpaired training data from wild scenarios, thereby significantly facilitating the try-on performance of our model without the need for additional inpainting masks. Besides, a try-on localization loss is designed to localize a more accurate try-on area to obtain more reasonable try-on results. It is noted that our method only needs the reference cloth image, source pose image and source person image as input, which is more cost-effective and user-friendly compared to existing methods. Extensive qualitative and quantitative experiments have demonstrated superior performance in wild scenarios with such a low-demand input.
翻訳日:2024-08-13 14:25:27 公開日:2024-08-12
# 創発的な構造をベースとしたドラッグデザインはどんなものか: 表現力は小さすぎるか、多すぎるか?

What Ails Generative Structure-based Drug Design: Too Little or Too Much Expressivity? ( http://arxiv.org/abs/2408.06050v1 )

ライセンス: Link先を確認
Rafał Karczewski, Samuel Kaski, Markus Heinonen, Vikas Garg, (参考訳) 近年,SBDD(Structure-based drug design, 構造に基づく薬物設計)を加速するために, 精密なトレーニングとサンプリングを行ういくつかの生成モデルが提案されているが, 難解なことに, その経験的性能は準最適であることが判明した。 我々はこの現象を理論的・経験的両面からよりよく理解したいと考えている。 これらのモデルの多くはグラフニューラルネットワーク(GNN)を採用しているため、GNNの表現的制限を継承しているのではないかと疑う向きもある。 我々はこの側面を分析し、タンパク質-リガンド複合体の最初の結果を確立した。 妥当な対観は、これらのモデルの過度なパラメータ化を原因として、一般化を犠牲にして表現性を誘導する。 我々はまた、この可能性について単純な計量認識アプローチで検討し、アフィニティの経済的なサロゲートを学習し、未標識の分子グラフを推測し、このグラフと分子特性で条件付けられたラベルに対して最適化する。 結果として得られたモデルは、トレーニング可能なパラメータを100倍少なくし、1000倍のスピードアップを提供する。 私たちの発見は、SBDDの既存のパラダイムと取り組みを再評価し、リダイレクトする必要性を総合的に示しています。

Several generative models with elaborate training and sampling procedures have been proposed recently to accelerate structure-based drug design (SBDD); however, perplexingly, their empirical performance turns out to be suboptimal. We seek to better understand this phenomenon from both theoretical and empirical perspectives. Since most of these models apply graph neural networks (GNNs), one may suspect that they inherit the representational limitations of GNNs. We analyze this aspect, establishing the first such results for protein-ligand complexes. A plausible counterview may attribute the underperformance of these models to their excessive parameterizations, inducing expressivity at the expense of generalization. We also investigate this possibility with a simple metric-aware approach that learns an economical surrogate for affinity to infer an unlabelled molecular graph and optimizes for labels conditioned on this graph and molecular properties. The resulting model achieves state-of-the-art results using 100x fewer trainable parameters and affords up to 1000x speedup. Collectively, our findings underscore the need to reassess and redirect the existing paradigm and efforts for SBDD.
翻訳日:2024-08-13 14:25:27 公開日:2024-08-12
# 行列多様体上の並列輸送と指数的作用

Parallel transport on matrix manifolds and Exponential Action ( http://arxiv.org/abs/2408.06054v1 )

ライセンス: Link先を確認
Du Nguyen, Stefan Sommer, (参考訳) 我々は、行列指数的および指数的作用の観点で擬リーマン計量の族を持ついくつかの共通行列リー群に対する平行輸送を表現する。 並列トランスポートの式は、特定のシナリオの下で商を取ることで保存される。 特に、大きさ$n\times d$ の直交行列のスティーフェル多様体に対して、時間 0 から $t$ までの測地線に沿った平行移動の式を与え、これは小さな$t$ に対して $O(nd^2)$ および大 t に対して $O(td^3)$ の時間複雑性で計算することができ、行列多様体の長年の開問題におけるステップに寄与する。 同様の結果は、標準計量を持つフラッグ多様体に対して成り立つ。 また、一般化線型群に対する平行輸送公式と、これらの測度の下での特殊直交群を示す。

We express parallel transport for several common matrix Lie groups with a family of pseudo-Riemannian metrics in terms of matrix exponential and exponential actions. The expression for parallel transport is preserved by taking the quotient under certain scenarios. In particular, for a Stiefel manifold of orthogonal matrices of size $n\times d$, we give an expression for parallel transport along a geodesic from time zero to $t$, that could be computed with time complexity of $O(nd^2)$ for small $t$, and of $O(td^3)$ for large t, contributing a step in a long-standing open problem in matrix manifolds. A similar result holds for flag manifolds with the canonical metric. We also show the parallel transport formulas for the generalized linear group, and the special orthogonal group under these metrics.
翻訳日:2024-08-13 14:25:27 公開日:2024-08-12
# マイクロ・ナノ・エレクトロメカニカル圧力センサにおけるカシミール力の役割

Role of the Casimir force in micro- and nanoelectromechanical pressure sensors ( http://arxiv.org/abs/2408.06058v1 )

ライセンス: Link先を確認
G. L. Klimchitskaya, A. S. Korotkov, V. V. Loboda, V. M. Mostepanenko, (参考訳) 電磁ゆらぎによるカシミール力は、Si膜およびAu被覆Si基板を用いたマイクロ・ナノ・エレクトロメカニカル圧力センサの構成で計算される。 外部圧力の影響下で、膜と基板の分離が100nm以下に低下すると、カシミール力はセンサーの機能に重大な影響を与えることが示されている。 センサパラメータによって外部圧力の最大値が存在し、不安定な平衡状態にある。 このより大きな圧力のために、カシミールの力はセンサーの崩壊を招き、機能を失う。 より小さな外部圧力では、2つの平衡位置が存在し、そのうちの1つは不安定であり、もう1つはより小さい膜と基板の分離で安定である。 後者は圧力測定に安全に使用できる。 より少ない寸法を持つ次世代のマイクロ・ナノ・エレクトロメカニカル・プレッシャ・センサの設計に,<obtained>の応用の可能性について論じる。

The Casimir force caused by the electromagnetic fluctuations is computed in the configurations of micro- and nanoelectromechanical pressuresensors using Si membranes and either Si or Au-coated Si substrates. It is shown that if, under the influence of external pressure, the membrane-substrate separation drops to below 100 nm, the Casimir force makes a profound effect onthe sensor functioning. There exists the maximum value of external pressure depending on the sensor parameters such that it finds itself in a state of unstable equilibrium. For this and larger pressures, the Casimir force leads to a collapse of the sensor, which loses its functionality. For any smaller external pressures, there exist two equilibrium positions, one of which is unstable and another one is stable, at smaller and larger membrane-substrate separations, respectively. The latter can be safely used for the pressure measurements. Possible applications of the {obtained} results in the design of micro- and nanoelectromechanical pressure sensors of next generations with further decreased dimensions are discussed.
翻訳日:2024-08-13 14:25:27 公開日:2024-08-12
# 未知の測定ラベルを持つオープングラフ上のパウリフロー

Pauli Flow on Open Graphs with Unknown Measurement Labels ( http://arxiv.org/abs/2408.06059v1 )

ライセンス: Link先を確認
Piotr Mitosek, (参考訳) ワンウェイ量子計算(英: One-way quantum computing)は、回路モデルに代わる量子計算の普遍的なモデルである。 計算は準備済みの資源状態の測定と、まだ測定されていない量子ビットへのパウリゲートの適用による望ましくない結果の補正によって進行する。 このモデルの基本的問題は、計算を決定論的に実装できるかどうかを決定することである。 パウリフローは決定性を保証する最も一般的な構造の1つである。 多項式時間アンシラフリー回路抽出にも必須である。 開グラフが与えられたパウリフローの存在を測定ラベリングと共に効率的に決定する方法が知られている。 本研究では,測定ラベリングが未知のとき,与えられた開グラフに対するパウリフローの存在を決定する問題に焦点をあてる。 確率多項式時間アルゴリズムを提供することにより,この問題が RP に含まれることを示す。 そのために、X と Z の測定のみの場合、フローの存在は、隣接行列から導かれる行列の右可逆性に対応することを示すことによって、パウリフローの以前の代数的解釈を拡張する。 また、この解釈を用いて出力量子ビットの数を常に減少させ、フローの存在を保ちながら入力量子ビットの数に一致することを示す。

One-way quantum computation, or measurement-based quantum computation, is a universal model of quantum computation alternative to the circuit model. The computation progresses by measurements of a pre-prepared resource state together with corrections of undesired outcomes via applications of Pauli gates to yet unmeasured qubits. The fundamental question of this model is determining whether computation can be implemented deterministically. Pauli flow is one of the most general structures guaranteeing determinism. It is also essential for polynomial time ancilla-free circuit extraction. It is known how to efficiently determine the existence of Pauli flow given an open graph together with a measurement labelling (a choice of measurements to be performed). In this work, we focus on the problem of deciding the existence of Pauli flow for a given open graph when the measurement labelling is unknown. We show that this problem is in RP by providing a random polynomial time algorithm. To do it, we extend previous algebraic interpretations of Pauli flow, by showing that, in the case of X and Z measurements only, flow existence corresponds to the right-invertibility of a matrix derived from the adjacency matrix. We also use this interpretation to show that the number of output qubits can always be reduced to match the number of input qubits while preserving the existence of flow.
翻訳日:2024-08-13 14:25:27 公開日:2024-08-12
# TruVRF: 機械学習における3つの特異性検証を目指して

TruVRF: Towards Triple-Granularity Verification on Machine Unlearning ( http://arxiv.org/abs/2408.06063v1 )

ライセンス: Link先を確認
Chunyi Zhou, Anmin Fu, Zhiyang Dai, (参考訳) 忘れられる権利の概念は、機械学習への関心を高めているが、信頼性の高い検証方法が欠如しており、不適切なモデルプロバイダがデータコントリビュータを誤解させる機会を生み出している。 バックドアインジェクションのような従来の侵襲的な手法は、レガシーデータでは実現できない。 そこで本研究では,クラスレベル,ボリュームレベル,サンプルレベルの粒度で動作する非侵襲的未学習検証フレームワークであるTruVRFを紹介する。 TruVRFには、Neglecting、Lazy、Decivingという、さまざまなタイプの不適切なサーバを検出するように設計された3つのUnlearning-Metricsが含まれている。 Unlearning-Metric-Iはクラスアライメントをチェックし、Unlearning-Metric-IIはサンプルカウントを確認し、Unlearning-Metric-IIIは特定のサンプル削除を確認する。 3つのデータセットの評価では、TruVRFの堅牢な性能、Metrics IとIIIの90%以上の精度、Metrics IIの4.8%から8.2%の推論偏差が示されている。 TruVRFはまた、様々な条件や、SISAやAmnesiac Unlearningのような最先端の未学習フレームワークを使って、一般化性と実践性を実証している。

The concept of the right to be forgotten has led to growing interest in machine unlearning, but reliable validation methods are lacking, creating opportunities for dishonest model providers to mislead data contributors. Traditional invasive methods like backdoor injection are not feasible for legacy data. To address this, we introduce TruVRF, a non-invasive unlearning verification framework operating at class-, volume-, and sample-level granularities. TruVRF includes three Unlearning-Metrics designed to detect different types of dishonest servers: Neglecting, Lazy, and Deceiving. Unlearning-Metric-I checks class alignment, Unlearning-Metric-II verifies sample count, and Unlearning-Metric-III confirms specific sample deletion. Evaluations on three datasets show TruVRF's robust performance, with over 90% accuracy for Metrics I and III, and a 4.8% to 8.2% inference deviation for Metric II. TruVRF also demonstrates generalizability and practicality across various conditions and with state-of-the-art unlearning frameworks like SISA and Amnesiac Unlearning.
翻訳日:2024-08-13 14:25:27 公開日:2024-08-12
# 円盤周りの計画)? 椎間板有限要素モデルのキャリブレーションのためのニューラルネットワークサロゲートと投射勾配

Don't You (Project Around Discs)? Neural Network Surrogate and Projected Gradient Descent for Calibrating an Intervertebral Disc Finite Element Model ( http://arxiv.org/abs/2408.06067v1 )

ライセンス: Link先を確認
Matan Atad, Gabriel Gruber, Marx Ribeiro, Luis Fernando Nicolini, Robert Graf, Hendrik Möller, Kati Nispel, Ivan Ezhov, Daniel Rueckert, Jan S. Kirschke, (参考訳) ヒト椎間板(IVD)の有限要素モデル(FE)の正確な校正は、その信頼性と脊椎疾患の診断および計画治療への応用に不可欠である。 従来のキャリブレーション法は計算集約的であり、収束するのに数時間や数日を要する反復的な微分自由最適化アルゴリズムを必要とする。 本研究では,ニューラルネットワーク(NN)サロゲートを用いたL4-L5 IVD FEモデルに対して,新しい,効率的かつ効果的なキャリブレーション手法を導入することで,これらの課題に対処する。 NNサロゲートは、シミュレーション結果を高精度に予測し、他の機械学習モデルより優れ、従来のFEシミュレーションに関連する計算コストを大幅に削減する。 次に、NNサロゲートの勾配に導かれるプロジェクテッド・グラディエント・ディフレッシュ(PGD)アプローチを提案し、FEモデルを効率的にキャリブレーションする。 提案手法は, 投射工程による実現可能性を明確に強制し, 最適化プロセス全体を通して材料境界を維持する。 提案手法は, 合成およびin vitro実験データセットに基づいて, 最先端の遺伝的アルゴリズム(GA)と逆モデルベースラインに対して評価する。 提案手法は, 平均絶対誤差(MAE)が0.06であるのに対し, ベースラインのMAEは0.18, 0.54であった。 実験例では,6例中5例において,本法は基準値よりも優れていた。 最も重要なのは、従来のキャリブレーションで必要とされるサンプルにつき最大8日に対して、キャリブレーション時間を3秒未満に短縮することです。 このような効率性は、より複雑なFEモデルを適用し、正確な患者固有のシミュレーションを可能にし、脊椎治療計画を進めるための道を開く。

Accurate calibration of finite element (FE) models of human intervertebral discs (IVDs) is essential for their reliability and application in diagnosing and planning treatments for spinal conditions. Traditional calibration methods are computationally intensive, requiring iterative, derivative-free optimization algorithms that often take hours or days to converge. This study addresses these challenges by introducing a novel, efficient, and effective calibration method for an L4-L5 IVD FE model using a neural network (NN) surrogate. The NN surrogate predicts simulation outcomes with high accuracy, outperforming other machine learning models, and significantly reduces the computational cost associated with traditional FE simulations. Next, a Projected Gradient Descent (PGD) approach guided by gradients of the NN surrogate is proposed to efficiently calibrate FE models. Our method explicitly enforces feasibility with a projection step, thus maintaining material bounds throughout the optimization process. The proposed method is evaluated against state-of-the-art Genetic Algorithm (GA) and inverse model baselines on synthetic and in vitro experimental datasets. Our approach demonstrates superior performance on synthetic data, achieving a Mean Absolute Error (MAE) of 0.06 compared to the baselines' MAE of 0.18 and 0.54, respectively. On experimental specimens, our method outperforms the baseline in 5 out of 6 cases. Most importantly, our approach reduces calibration time to under three seconds, compared to up to 8 days per sample required by traditional calibration. Such efficiency paves the way for applying more complex FE models, enabling accurate patient-specific simulations and advancing spinal treatment planning.
翻訳日:2024-08-13 14:25:27 公開日:2024-08-12
# ControlNeXt:画像と映像の高効率制御

ControlNeXt: Powerful and Efficient Control for Image and Video Generation ( http://arxiv.org/abs/2408.06070v1 )

ライセンス: Link先を確認
Bohao Peng, Jian Wang, Yuechen Zhang, Wenbo Li, Ming-Chang Yang, Jiaya Jia, (参考訳) 拡散モデルは、画像生成とビデオ生成の両方において顕著でロバストな能力を示している。 生成された結果をよりコントロールするために、コンディショニングコントロールを統合するために、ControlNet、Adapters、ReferenceNetなどのアーキテクチャが導入されている。 しかし、現在の制御可能な生成法は、特にビデオ生成において、かなりの計算資源を必要とすることが多く、訓練や弱い制御の際の課題に直面している。 本稿では,制御可能画像と映像生成のための高効率な制御NeXtを提案する。 まず、より単純で効率的なアーキテクチャを設計し、ベースモデルに比べて最小限のコストで重いブランチを置き換えます。 このような簡潔な構造により、我々の手法は他のLoRA重みとシームレスに統合することができ、追加のトレーニングを必要とせずにスタイルの変更を可能にする。 トレーニングでは,学習可能なパラメータの最大90%を,代替案と比較して削減する。 さらに,Zero-Convolutionの代替としてクロス正規化(CN)と呼ばれる別の手法を提案し,高速で安定したトレーニング収束を実現する。 我々は画像とビデオの異なるベースモデルを用いて様々な実験を行い、その頑健さを実証した。

Diffusion models have demonstrated remarkable and robust abilities in both image and video generation. To achieve greater control over generated results, researchers introduce additional architectures, such as ControlNet, Adapters and ReferenceNet, to integrate conditioning controls. However, current controllable generation methods often require substantial additional computational resources, especially for video generation, and face challenges in training or exhibit weak control. In this paper, we propose ControlNeXt: a powerful and efficient method for controllable image and video generation. We first design a more straightforward and efficient architecture, replacing heavy additional branches with minimal additional cost compared to the base model. Such a concise structure also allows our method to seamlessly integrate with other LoRA weights, enabling style alteration without the need for additional training. As for training, we reduce up to 90% of learnable parameters compared to the alternatives. Furthermore, we propose another method called Cross Normalization (CN) as a replacement for Zero-Convolution' to achieve fast and stable training convergence. We have conducted various experiments with different base models across images and videos, demonstrating the robustness of our method.
翻訳日:2024-08-13 14:15:41 公開日:2024-08-12
# CogVideoX:エキスパートトランスフォーマーによるテキストとビデオの拡散モデル

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer ( http://arxiv.org/abs/2408.06072v1 )

ライセンス: Link先を確認
Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, Da Yin, Xiaotao Gu, Yuxuan Zhang, Weihan Wang, Yean Cheng, Ting Liu, Bin Xu, Yuxiao Dong, Jie Tang, (参考訳) テキストプロンプトに基づいてビデオを生成するために設計された大規模拡散トランスフォーマモデルであるCogVideoXを紹介する。 映像データを効率的にモデル化するために,空間次元と時間次元の両方に沿って映像を圧縮する3次元変分オートエンコーダ(VAE)を提案する。 テキスト・ビデオのアライメントを改善するため,両モード間の深い融合を容易にするために,専門家適応型LayerNormを用いたエキスパートトランスフォーマーを提案する。 プログレッシブトレーニング技術を採用することで、CogVideoXは、大きな動きを特徴とするコヒーレントで長期にわたるビデオを生成することに長けている。 さらに,様々なデータ前処理戦略とビデオキャプション方式を含む効率的なテキスト-ビデオデータ処理パイプラインを開発する。 これはCagVideoXの性能向上に大きく貢献し、生成品質とセマンティックアライメントの両方を改善している。 結果は、CogVideoXが複数のマシンメトリクスと人的評価の両方で最先端のパフォーマンスを実証していることを示している。 3D Causal VAEとCogVideoXのモデルウェイトはhttps://github.com/THUDM/CogVideoで公開されている。

We introduce CogVideoX, a large-scale diffusion transformer model designed for generating videos based on text prompts. To efficently model video data, we propose to levearge a 3D Variational Autoencoder (VAE) to compress videos along both spatial and temporal dimensions. To improve the text-video alignment, we propose an expert transformer with the expert adaptive LayerNorm to facilitate the deep fusion between the two modalities. By employing a progressive training technique, CogVideoX is adept at producing coherent, long-duration videos characterized by significant motions. In addition, we develop an effective text-video data processing pipeline that includes various data preprocessing strategies and a video captioning method. It significantly helps enhance the performance of CogVideoX, improving both generation quality and semantic alignment. Results show that CogVideoX demonstrates state-of-the-art performance across both multiple machine metrics and human evaluations. The model weights of both the 3D Causal VAE and CogVideoX are publicly available at https://github.com/THUDM/CogVideo.
翻訳日:2024-08-13 14:15:41 公開日:2024-08-12
# 基準指標を用いた合成医用画像の評価における5つの落とし穴

Five Pitfalls When Assessing Synthetic Medical Images with Reference Metrics ( http://arxiv.org/abs/2408.06075v1 )

ライセンス: Link先を確認
Melanie Dohmen, Tuan Truong, Ivo M. Baltruschat, Matthias Lenga, (参考訳) 2つのイメージを客観的かつ定量的に比較するために、参照メトリクスが開発された。 特に、再構成された画像や圧縮された画像の品質を評価するために、これらの指標は非常に有用であることが示されている。 人工的に歪んだ自然画像のベンチマークにおけるこれらの指標の広範囲な試験により、どの指標が品質の人間の知覚と最もよく相関しているかが明らかになった。 しかし、これらの指標を医用画像における生成モデル評価に直接転送することは、画像の内容、画像データフォーマット、画像解釈に関する仮定がしばしば非常に異なるため、容易に落とし穴につながる可能性がある。 また、基準指標と品質に対する人間の知覚の相関は、様々な種類の歪みに対して強く異なり、SSIM、PSNR、MAEといった一般的なメトリクスは、あらゆる状況において最良の選択肢ではない。 我々は、予期せぬ、おそらく望ましくない基準スコアを示す5つの落とし穴を選択し、それを避けるための戦略について議論した。

Reference metrics have been developed to objectively and quantitatively compare two images. Especially for evaluating the quality of reconstructed or compressed images, these metrics have shown very useful. Extensive tests of such metrics on benchmarks of artificially distorted natural images have revealed which metric best correlate with human perception of quality. Direct transfer of these metrics to the evaluation of generative models in medical imaging, however, can easily lead to pitfalls, because assumptions about image content, image data format and image interpretation are often very different. Also, the correlation of reference metrics and human perception of quality can vary strongly for different kinds of distortions and commonly used metrics, such as SSIM, PSNR and MAE are not the best choice for all situations. We selected five pitfalls that showcase unexpected and probably undesired reference metric scores and discuss strategies to avoid them.
翻訳日:2024-08-13 14:15:41 公開日:2024-08-12
# 脱バイアス高信頼ロジットアライメントによる対人ロバストネスを目指して

Towards Adversarial Robustness via Debiased High-Confidence Logit Alignment ( http://arxiv.org/abs/2408.06079v1 )

ライセンス: Link先を確認
Kejia Zhang, Juanjuan Weng, Zhiming Luo, Shaozi Li, (参考訳) ディープニューラルネットワーク(DNN)が様々な視覚的タスクで達成した大きな進歩にもかかわらず、敵の例に対する脆弱性は依然として現れており、深刻なセキュリティ上の懸念につながっている。 近年, 対人訓練技術は, 対人攻撃を利用して高信頼な実例を生成し, 対人攻撃の分布を対応するクラスの高信頼領域と整合させることを目的としている。 しかし,本研究では,逆方向攻撃による高信頼出力が特徴活性化のバイアスと相関していることを明らかにする。 特に、逆逆の例によるトレーニングは、モデルの注意を背景の特徴へとシフトさせ、刺激的な相関バイアスをもたらす。 このバイアスに対処するため,本研究では, 逆逆対向例から得られた逆向例のロジットと逆向例のデバイアスド高信頼ロジットとを整合させるだけでなく, 前向き対向直交性を高めることで, モデルが通常の状態に注意を向ける新たなアプローチである, 脱バイアス高信頼対向訓練(DHAT)を提案する。 大規模な実験により、DHATは最先端のパフォーマンスを達成し、様々なビジョンデータセットにまたがる堅牢な一般化能力を示すことが示された。 さらに、DHATは既存の高度な敵の訓練技術とシームレスに統合して性能を向上させることができる。

Despite the significant advances that deep neural networks (DNNs) have achieved in various visual tasks, they still exhibit vulnerability to adversarial examples, leading to serious security concerns. Recent adversarial training techniques have utilized inverse adversarial attacks to generate high-confidence examples, aiming to align the distributions of adversarial examples with the high-confidence regions of their corresponding classes. However, in this paper, our investigation reveals that high-confidence outputs under inverse adversarial attacks are correlated with biased feature activation. Specifically, training with inverse adversarial examples causes the model's attention to shift towards background features, introducing a spurious correlation bias. To address this bias, we propose Debiased High-Confidence Adversarial Training (DHAT), a novel approach that not only aligns the logits of adversarial examples with debiased high-confidence logits obtained from inverse adversarial examples, but also restores the model's attention to its normal state by enhancing foreground logit orthogonality. Extensive experiments demonstrate that DHAT achieves state-of-the-art performance and exhibits robust generalization capabilities across various vision datasets. Additionally, DHAT can seamlessly integrate with existing advanced adversarial training techniques for improving the performance.
翻訳日:2024-08-13 14:15:41 公開日:2024-08-12
# 連続変数における双方向量子テレポーテーション

Bidirectional quantum teleportation in continuous variables ( http://arxiv.org/abs/2408.06081v1 )

ライセンス: Link先を確認
E. A. Nesterova, S. B. Korolev, (参考訳) 連続変数における双方向量子テレポーテーションプロトコルを提案する。 私たちは、このプロトコルを実現するために、連続変数のクラスタ状態を主要なリソースとして使用しています。 本稿では、双方向量子テレポーテーションプロトコルの実現に使用できる連続変数におけるクラスタ状態の構成のファミリを得る。 構成の全体から、最小限のエラーでプロトコルを実現するものを選びました。

We propose a bidirectional quantum teleportation protocol in continuous variables. We use a cluster state in continuous variables as the main resource to realize this protocol. In the paper, we obtain a family of configurations of cluster states in continuous variables that can be used to realize the bidirectional quantum teleportation protocol. From the whole family of configurations, we have chosen those that realize the protocol with the smallest possible error.
翻訳日:2024-08-13 14:15:41 公開日:2024-08-12
# 非ランベルト面におけるロバストな単分子深さ推定に向けて

Towards Robust Monocular Depth Estimation in Non-Lambertian Surfaces ( http://arxiv.org/abs/2408.06083v1 )

ライセンス: Link先を確認
Junrui Zhang, Jiaqi Li, Yachuan Huang, Yiran Wang, Jinghong Zheng, Liao Shen, Zhiguo Cao, (参考訳) 単眼深度推定(MDE)の分野では、一般的な場面において優れたゼロショット性能を持つモデルが最近出現している。 しかしながら、これらの手法は、これらの領域のユニークな反射特性のため、透明面やミラー面(ToM)のような非ランベルト面の予測に失敗することが多い。 従来は外部から提供されるToMマスクを利用して,RGB画像の直接インペイントにより,正確な深度マップを得ることが目的であった。 これらの手法は、追加の入力マスクの精度と、塗装中のランダムな色の使用に大きく依存する。 我々は、ベースラインモデルが、よく設計されたトレーニングフレームワークを通して、深度推定のために、非ランベルト面領域の特異性を直接学習できるようにすることを約束する。 そこで我々は、勾配領域からのMDEモデルの予測を制約し、その堅牢性を高める非ランベルト曲面地域ガイダンスを提案する。 この作業において照明が有意な影響があることに気付き、トレーニング中にランダムなトーン・マッピングを用いて、異なる照明入力に対してネットワークが正しい結果を予測できるようにする。 さらに、可変オートエンコーダを用いて複数の画像を融合し、マルチ露光画像が利用可能である場合に、最も有利な入力RGB画像を得るオプションの新規照明融合モジュールを提案する。 提案手法は,非ランベルト面に対するブースターおよびミラー3Dデータセットのゼロショット試験において,Depth Anything V2と比較して,33.39%,5.21%の精度向上を実現している。 TRICKY2024コンペティションテストセットにおけるToM領域のデルタ1.05における90.75の最先端性能は,本手法の有効性を示すものである。

In the field of monocular depth estimation (MDE), many models with excellent zero-shot performance in general scenes emerge recently. However, these methods often fail in predicting non-Lambertian surfaces, such as transparent or mirror (ToM) surfaces, due to the unique reflective properties of these regions. Previous methods utilize externally provided ToM masks and aim to obtain correct depth maps through direct in-painting of RGB images. These methods highly depend on the accuracy of additional input masks, and the use of random colors during in-painting makes them insufficiently robust. We are committed to incrementally enabling the baseline model to directly learn the uniqueness of non-Lambertian surface regions for depth estimation through a well-designed training framework. Therefore, we propose non-Lambertian surface regional guidance, which constrains the predictions of MDE model from the gradient domain to enhance its robustness. Noting the significant impact of lighting on this task, we employ the random tone-mapping augmentation during training to ensure the network can predict correct results for varying lighting inputs. Additionally, we propose an optional novel lighting fusion module, which uses Variational Autoencoders to fuse multiple images and obtain the most advantageous input RGB image for depth estimation when multi-exposure images are available. Our method achieves accuracy improvements of 33.39% and 5.21% in zero-shot testing on the Booster and Mirror3D dataset for non-Lambertian surfaces, respectively, compared to the Depth Anything V2. The state-of-the-art performance of 90.75 in delta1.05 within the ToM regions on the TRICKY2024 competition test set demonstrates the effectiveness of our approach.
翻訳日:2024-08-13 14:15:41 公開日:2024-08-12
# GLMと2重ロバスト関数の局所漸近下でのモーメント推定法

Method-of-Moments Inference for GLMs and Doubly Robust Functionals under Proportional Asymptotics ( http://arxiv.org/abs/2408.06103v1 )

ライセンス: Link先を確認
Xingyu Chen, Lin Liu, Rajarshi Mukherjee, (参考訳) 本稿では,高次元一般化線形モデル(GLMs)における回帰係数と信号対雑音比(SNR)の推定を考察し,高次元観察研究における平均処理効果などの一般的な推定値について考察する。 比例的漸近'型とガウス的共変量と既知の(人口)共分散$\Sigma$の下では、高次元ニュアンス関数とハイパーパラメータチューニングの見積を全くバイパスするメソッド・オブ・モーメント型推定器を通して、推論対象の一貫性および漸近正規性(CAN)推定器を導出する。 さらに、非ガウス共変量の下では、回帰係数と$\Sigma$に関するある種の仮定の下で結果の普遍性を示す。 また、サンプル共分散行列推定器が可逆である場合、$\Sigma$を知ることは提案手法に必須ではないことを示す。 最後に,理論結果を数値実験と既存文献との比較で補完する。

In this paper, we consider the estimation of regression coefficients and signal-to-noise (SNR) ratio in high-dimensional Generalized Linear Models (GLMs), and explore their implications in inferring popular estimands such as average treatment effects in high-dimensional observational studies. Under the ``proportional asymptotic'' regime and Gaussian covariates with known (population) covariance $\Sigma$, we derive Consistent and Asymptotically Normal (CAN) estimators of our targets of inference through a Method-of-Moments type of estimators that bypasses estimation of high dimensional nuisance functions and hyperparameter tuning altogether. Additionally, under non-Gaussian covariates, we demonstrate universality of our results under certain additional assumptions on the regression coefficients and $\Sigma$. We also demonstrate that knowing $\Sigma$ is not essential to our proposed methodology when the sample covariance matrix estimator is invertible. Finally, we complement our theoretical results with numerical experiments and comparisons with existing literature.
翻訳日:2024-08-13 14:15:41 公開日:2024-08-12
# 小さな非相対論的流体の力学への微分の2次量子補正

Quantum corrections at second order in derivatives to the dynamics of small non-relativistic fluids ( http://arxiv.org/abs/2408.06104v1 )

ライセンス: Link先を確認
Lars H. Heyen, Giuliano Giacalone, Stefan Floerchinger, (参考訳) 非常に多くの原子からなるマクロな非相対論的流体の力学を捉えるためには、通常、次数ゼロで勾配の膨張を断ち切るだけでは十分であり、理想的な流体力学、あるいは次数1の流体力学につながり、ナビエ・ストークス理論に繋がる。 少数の原子からなるメソスコピック流体では、二階補正が重要である。 ここでは、特に温度が消える際の超流動を調査し、既に静的な状況に寄与している関連する量子起源の2次項を同定する。 これらの項の一般的な形式はグロス=ピタエフスキー理論の拡張から生じる。 密度汎関数論の文脈において、それらは C. von Weizs\"acker にちなんで名づけられた。 2次元の異方性調和トラップから放出されるメソスコピック超低温フェルミガスの膨張に対する2次流体力学方程式の数値解に対するこれらの項の影響を評価する。

To capture the dynamics of macroscopic non-relativistic fluids consisting of very many atoms, it is typically sufficient to truncate the gradient expansion at order zero, leading to ideal fluid dynamics, or at order one, leading to the Navier-Stokes theory. For mesoscopic fluids consisting of a small number of atoms, second-order corrections can become significant. We investigate here specifically superfluids at vanishing temperature, and identify relevant second-order terms of quantum origin that contribute already in a static situation. The general form of these terms arises from an extension of the Gross-Pitaevskii theory. In the context of density functional theory, they are named after C. von Weizs\"acker. We assess the influence of these terms on numerical solutions of second-order fluid dynamic equations for the expansion of a mesoscopic ultra-cold Fermi gas released from an anisotropic harmonic trap in two spatial dimensions.
翻訳日:2024-08-13 14:15:41 公開日:2024-08-12
# RISurConv: 3Dポイントクラウド分類とセグメンテーションのための回転不変表面アテンション拡張畳み込み

RISurConv: Rotation Invariant Surface Attention-Augmented Convolutions for 3D Point Cloud Classification and Segmentation ( http://arxiv.org/abs/2408.06110v1 )

ライセンス: Link先を確認
Zhiyuan Zhang, Licheng Yang, Zhiyu Xiang, (参考訳) 3Dポイントのクラウド深層学習の進歩にもかかわらず、ほとんどの先行研究は翻訳や点置換に不変な学習機能に焦点を当てており、回転不変性のために非常に限定的な努力がなされている。 いくつかの最近の研究は、低い精度で回転不変性を達成している。 本研究では、3次元点雲の分類とセグメンテーションのための新しい効果的な回転不変アーキテクチャを提案することにより、このギャップを埋める。 従来の点演算の代わりに、より詳細な表面構造を捉えるために局所三角形面を構築し、そこで高度に表現された回転不変な表面特性を抽出し、RISurConvと呼ばれる注意増強された畳み込み演算子に統合し、自己注意層を介して洗練された注意特徴を生成する。 RISurConvに基づいて、高精度を維持しながら任意の回転に不変な3Dポイントクラウド分析のための効果的なニューラルネットワークを構築します。 我々は,従来の最先端技術を上回る最高の結果を得た各種ベンチマークの性能を,大きなマージンで検証した。 ModelNet40では96.0%(+4.7%)、ScanObjectNNでは93.1%(+12.8%)、クラス精度は91.5%(+3.6%)、82.7%(+5.1%)、78.5%(+9.2%)である。 さらに、セグメント化タスクに対してShapeNet上で81.5% (+1.0%) mIoUを達成する。 コードはここにある。 https://github.com/cszyzhang/RISurConv

Despite the progress on 3D point cloud deep learning, most prior works focus on learning features that are invariant to translation and point permutation, and very limited efforts have been devoted for rotation invariant property. Several recent studies achieve rotation invariance at the cost of lower accuracies. In this work, we close this gap by proposing a novel yet effective rotation invariant architecture for 3D point cloud classification and segmentation. Instead of traditional pointwise operations, we construct local triangle surfaces to capture more detailed surface structure, based on which we can extract highly expressive rotation invariant surface properties which are then integrated into an attention-augmented convolution operator named RISurConv to generate refined attention features via self-attention layers. Based on RISurConv we build an effective neural network for 3D point cloud analysis that is invariant to arbitrary rotations while maintaining high accuracy. We verify the performance on various benchmarks with supreme results obtained surpassing the previous state-of-the-art by a large margin. We achieve an overall accuracy of 96.0% (+4.7%) on ModelNet40, 93.1% (+12.8%) on ScanObjectNN, and class accuracies of 91.5% (+3.6%), 82.7% (+5.1%), and 78.5% (+9.2%) on the three categories of the FG3D dataset for the fine-grained classification task. Additionally, we achieve 81.5% (+1.0%) mIoU on ShapeNet for the segmentation task. Code is available here: https://github.com/cszyzhang/RISurConv
翻訳日:2024-08-13 14:15:41 公開日:2024-08-12
# DPDETR:赤外線可視物体検出用分離位置検出変換器

DPDETR: Decoupled Position Detection Transformer for Infrared-Visible Object Detection ( http://arxiv.org/abs/2408.06123v1 )

ライセンス: Link先を確認
Junjie Guo, Chenqiang Gao, Fangcen Liu, Deyu Meng, (参考訳) 赤外可視物体検出は、赤外と可視画像の相補的な情報を活用することにより、堅牢な物体検出を実現することを目的としている。 相補的特徴の融合は困難であり、現在の手法では相補的条件下で両方の相補的対象を正確に見つけることはできない。 本稿では,これらの問題に対処するための分離位置検出変換器(DPDETR)を提案する。 具体的には、対象カテゴリ、可視モダリティ位置、赤外線モダリティ位置を明示的に定式化し、本質的な関係を学習し、両方のモダリティでオブジェクトの正確な位置を出力する。 本稿では,不整合物体の特徴を正確に融合させるために,赤外および可視の基準位置の制約を伴って多スペクトル補完特徴を適応的にサンプリング・集約するデカップリング位置多スペクトルクロスアテンションモジュールを提案する。 さらに,タスク内の3種類のオブジェクト情報間の最適化ギャップに対処するクエリ分離型マルチスペクトルデコーダ構造を設計し,DPDETRの非結合位置学習能力を高めるための非結合位置コントラスト型デノーシングトレーニング戦略を提案する。 DroneVehicleとKAISTデータセットの実験は、他の最先端の方法と比較して大幅に改善されている。 コードはhttps://github.com/gjj45/DPDETRで公開される。

Infrared-visible object detection aims to achieve robust object detection by leveraging the complementary information of infrared and visible image pairs. However, the commonly existing modality misalignment problem presents two challenges: fusing misalignment complementary features is difficult, and current methods cannot accurately locate objects in both modalities under misalignment conditions. In this paper, we propose a Decoupled Position Detection Transformer (DPDETR) to address these problems. Specifically, we explicitly formulate the object category, visible modality position, and infrared modality position to enable the network to learn the intrinsic relationships and output accurate positions of objects in both modalities. To fuse misaligned object features accurately, we propose a Decoupled Position Multispectral Cross-attention module that adaptively samples and aggregates multispectral complementary features with the constraint of infrared and visible reference positions. Additionally, we design a query-decoupled Multispectral Decoder structure to address the optimization gap among the three kinds of object information in our task and propose a Decoupled Position Contrastive DeNosing Training strategy to enhance the DPDETR's ability to learn decoupled positions. Experiments on DroneVehicle and KAIST datasets demonstrate significant improvements compared to other state-of-the-art methods. The code will be released at https://github.com/gjj45/DPDETR.
翻訳日:2024-08-13 14:15:41 公開日:2024-08-12
# 擬ボゾン同値性を用いた2つのスピン鎖間の量子同期

Quantum synchronization between two spin chains using pseudo-bosonic equivalence ( http://arxiv.org/abs/2408.06126v1 )

ライセンス: Link先を確認
Jatin Ghildiyal, Manju, Shubhrangshu Dasgupta, Asoka Biswas, (参考訳) 多くのスピン間の量子同期は興味深い研究領域である。 本稿では,スピン-1/2粒子の2つの有限鎖の量子同期を,中心中間スピン鎖を介する非線形相互作用を用いて検討する。 本稿では,スピン鎖を擬ボゾン系として扱い,調和振動子に対する同期基準を適用するために,ホルシュタイン・プリマコフ変換を用いた新しい手法を提案する。 理論的枠組みと数値シミュレーションにより、スピン鎖は最適条件下で古典的および完全量子同期を達成できることが明らかになった。 量子同期はスピン数やスピン間カップリングの変動に対して頑健であるが、熱雑音の影響を受けうることを示す。 この研究は、マルチスピンシステムにおける同期の理解を促進し、ボソンとフェルミオンの両方に対する一般化同期測度を導入する。

Quantum synchronization among many spins is an intriguing domain of research. In this paper, we explore the quantum synchronization of two finite chains of spin-1/2 particles, via a nonlinear interaction mediated by a a central intermediary spin chain. We introduce a novel approach using the Holstein-Primakoff transformation to treat the spin chains as pseudo-bosonic systems and thereby applying the synchronization criteria for harmonic oscillators. Our theoretical framework and numerical simulations reveal that under optimal conditions, the spin chains can achieve both classical and perfect quantum synchronization. We show that quantum synchronization is robust against variations in the number of spins and inter-spin coupling, though may be affected by thermal noise. This work advances the understanding of synchronization in multi-spin systems and introduces a generalized synchronization measure for both bosons and fermions.
翻訳日:2024-08-13 14:15:41 公開日:2024-08-12
# Clickbait PDF キャンペーンにおけるサポートインフラストラクチャの役割の解明

Uncovering the Role of Support Infrastructure in Clickbait PDF Campaigns ( http://arxiv.org/abs/2408.06133v1 )

ライセンス: Link先を確認
Giada Stivala, Gianluca De Stefano, Andrea Mengascini, Mariano Graziano, Giancarlo Pellegrino, (参考訳) 複数のWeb攻撃のエントリーポイントであるClickbait PDFはSEO中毒で配布され、悪用されたウェブサイトや悪用されたウェブサイトに大量にアップロードされたため、検索結果の上位にランクされている。 クリックベイトPDFの配信におけるこれらのホストの役割はいまだ検討されていないが、攻撃者がPDFアップロードのホスティングタイプを区別するかどうか、ホストへの依存期間、影響した当事者が悪用にどう反応するかは定かではない。 そこで我々は,17ヶ月で177,835ホストが提供した4,648,939個のクリックベイトPDFデータを収集し,ホストのリアルタイム分析を行った。 結果から,ホストは3つの主要なホスティングタイプに分類される,多様なインフラストラクチャが明らかになった。 また,ファイルのアップロードが容易で,クリックベイトPDF配信に利用される可能性のある8つのソフトウェアコンポーネントの存在も確認した。 影響を受けた関係者に連絡を取り、大規模な脆弱性通知を通じてリソースの不正使用を報告しました。 通知後,PDFのクリーンアップ数に関していくつかの効果が見られたが,このインフラの長期的改善は重要ではなかった。 この発見は、悪用と戦うホスティングプロバイダの役割と、脆弱性通知の実際の影響に関する疑問を提起する。

Clickbait PDFs, an entry point for multiple Web attacks, are distributed via SEO poisoning and rank high in search results due to being massively uploaded on abused or compromised websites. The central role of these hosts in the distribution of clickbait PDFs remains understudied, and it is unclear whether attackers differentiate the types of hosting for PDF uploads, how long they rely on hosts, and how affected parties respond to abuse. To address this, we conducted real-time analyses on hosts, collecting data on 4,648,939 clickbait PDFs served by 177,835 hosts over 17 months. Our results revealed a diverse infrastructure, with hosts falling into three main hosting types. We also identified at scale the presence of eight software components which facilitate file uploads and which are likely exploited for clickbait PDF distribution. We contact affected parties to report the misuse of their resources via a large-scale vulnerability notification. While we observed some effectiveness in terms of number of cleaned-up PDFs following the notification, long-term improvement in this infrastructure remained insignificant. This finding raises questions about the hosting providers' role in combating abuse and the actual impact of vulnerability notifications.
翻訳日:2024-08-13 14:15:41 公開日:2024-08-12
# MR3D-Net:LiDARによる集団知覚のための動的マルチリゾリューション3Dスパースボクセルグリッドフュージョン

MR3D-Net: Dynamic Multi-Resolution 3D Sparse Voxel Grid Fusion for LiDAR-Based Collective Perception ( http://arxiv.org/abs/2408.06137v1 )

ライセンス: Link先を確認
Sven Teufel, Jörg Gamerdinger, Georg Volk, Oliver Bringmann, (参考訳) 自動運転車の安全運転は、環境を包括的に知覚する能力に依存している。 しかし、閉塞、センサー範囲、環境要因は知覚能力を制限する。 これらの制限を克服するために、車両は情報を交換することができる。 しかし、この交換された情報を融合することは難しい課題である。 初期核融合法は大量の帯域を必要とするが、中間核融合法は交換可能性の問題に直面している。 共有検出の後期融合は、現在唯一実現可能なアプローチである。 しかし、情報損失により性能が低下することが多い。 この問題に対処するために, MR3D-Netを提案する。 本研究では,様々な解像度の分散ボクセルグリッドが,通信帯域に適応できる有意義でコンパクトな環境表現を提供することを示す。 MR3D-Net は OPV2V 3D オブジェクト検出ベンチマークの最先端性能を達成し、初期核融合と比較して必要な帯域幅を最大94%削減した。 コードはhttps://github.com/ekut-es/MR3D-Netで入手できる。

The safe operation of automated vehicles depends on their ability to perceive the environment comprehensively. However, occlusion, sensor range, and environmental factors limit their perception capabilities. To overcome these limitations, collective perception enables vehicles to exchange information. However, fusing this exchanged information is a challenging task. Early fusion approaches require large amounts of bandwidth, while intermediate fusion approaches face interchangeability issues. Late fusion of shared detections is currently the only feasible approach. However, it often results in inferior performance due to information loss. To address this issue, we propose MR3D-Net, a dynamic multi-resolution 3D sparse voxel grid fusion backbone architecture for LiDAR-based collective perception. We show that sparse voxel grids at varying resolutions provide a meaningful and compact environment representation that can adapt to the communication bandwidth. MR3D-Net achieves state-of-the-art performance on the OPV2V 3D object detection benchmark while reducing the required bandwidth by up to 94% compared to early fusion. Code is available at https://github.com/ekut-es/MR3D-Net
翻訳日:2024-08-13 14:15:41 公開日:2024-08-12
# スパースポイント-ボクセル拡散モデルによる効率的およびスケーラブルな点雲生成

Efficient and Scalable Point Cloud Generation with Sparse Point-Voxel Diffusion Models ( http://arxiv.org/abs/2408.06145v1 )

ライセンス: Link先を確認
Ioannis Romanelis, Vlassios Fotis, Athanasios Kalogeras, Christos Alexakos, Konstantinos Moustakas, Adrian Munteanu, (参考訳) 高速な生成時間を維持しながら高品質で多様な3次元形状を生成できる3次元生成モデリングのための新しいポイントクラウドU-Net拡散アーキテクチャを提案する。 我々のネットワークは、点の高分解能表現とスパースボクセルの計算効率を組み合わせた二重分岐アーキテクチャを採用している。 我々の最も高速な変種は、点雲生成モデルを評価するための最も一般的なベンチマークである無条件形状生成に関するすべての非拡散生成手法を上回り、我々の最大のモデルは拡散法における最先端の結果を達成し、以前の最先端PVDの約70%をランタイムが達成している。 非条件生成以外にも、ShapeNetの全カテゴリの条件生成、大規模データセットへのモデルのスケーラビリティの実証、ネットワークがより少ないタイムステップで高品質なポイントクラウドを生成できる暗黙的な生成など、広範な評価を行い、生成時間を短縮します。 最後に、ポイントクラウドの完了と超解像におけるアーキテクチャの性能を評価する。 我々のモデルは全てのタスクに優れており、ポイントクラウド生成モデルのための最先端の拡散U-Netとして確立されている。 コードはhttps://github.com/JohnRomanelis/SPVD.gitで公開されている。

We propose a novel point cloud U-Net diffusion architecture for 3D generative modeling capable of generating high-quality and diverse 3D shapes while maintaining fast generation times. Our network employs a dual-branch architecture, combining the high-resolution representations of points with the computational efficiency of sparse voxels. Our fastest variant outperforms all non-diffusion generative approaches on unconditional shape generation, the most popular benchmark for evaluating point cloud generative models, while our largest model achieves state-of-the-art results among diffusion methods, with a runtime approximately 70% of the previously state-of-the-art PVD. Beyond unconditional generation, we perform extensive evaluations, including conditional generation on all categories of ShapeNet, demonstrating the scalability of our model to larger datasets, and implicit generation which allows our network to produce high quality point clouds on fewer timesteps, further decreasing the generation time. Finally, we evaluate the architecture's performance in point cloud completion and super-resolution. Our model excels in all tasks, establishing it as a state-of-the-art diffusion U-Net for point cloud generative modeling. The code is publicly available at https://github.com/JohnRomanelis/SPVD.git.
翻訳日:2024-08-13 14:15:41 公開日:2024-08-12
# LipidBERT: METiS de novo Lipid Libraryで事前訓練された言語モデル

LipidBERT: A Lipid Language Model Pre-trained on METiS de novo Lipid Library ( http://arxiv.org/abs/2408.06150v1 )

ライセンス: Link先を確認
Tianhao Yu, Cai Yao, Zhuorui Sun, Feng Shi, Lin Zhang, Kangjie Lyu, Xuan Bai, Andong Liu, Xicheng Zhang, Jiali Zou, Wenshou Wang, Chris Lai, Kai Wang, (参考訳) 本研究では,METiSの内在型デノボ脂質生成アルゴリズムと脂質仮想スクリーニング技術を用いて,1000万個の仮想脂質のデータベースを作成し,維持する。 これらの仮想脂質は、プレトレーニング、脂質表現学習、下流タスク知識伝達のためのコーパスとして機能し、最先端のLNP特性予測性能を達成している。 本稿では,Masked Language Model (MLM) と各種二次タスクを事前学習した BERT ライクなモデルである LipidBERT を提案する。 さらに, 下流タスクにおけるGPT様脂質生成モデルであるLipidBERTとPhatGPTの埋め込み性能を比較した。 提案したバイリンガルリピッドバーストモデルは, イオン化可能な脂質事前学習言語, 室内の乾式脂質構造を用いた言語, 室内のLNPウェットラブデータを利用したLNP微調整言語という2つの言語で機能する。 このデュアル機能は、METiS de novoの脂質ライブラリの新バージョンや、さらに重要なのは、オーグランターゲットLNPのin vivoテストの候補を含む、将来のスクリーニングタスクのための重要なAIベースのフィルタとして、LipidBERTを位置づけている。 我々の知る限り、これは仮想脂質上で事前訓練された言語モデルの能力と、Web-labデータを用いた下流タスクにおける有効性を示す最初の成功例である。 この研究は、METiSのin-house de novoの脂質ライブラリの巧妙な利用と、ドライウェットラボの統合の力を示している。

In this study, we generate and maintain a database of 10 million virtual lipids through METiS's in-house de novo lipid generation algorithms and lipid virtual screening techniques. These virtual lipids serve as a corpus for pre-training, lipid representation learning, and downstream task knowledge transfer, culminating in state-of-the-art LNP property prediction performance. We propose LipidBERT, a BERT-like model pre-trained with the Masked Language Model (MLM) and various secondary tasks. Additionally, we compare the performance of embeddings generated by LipidBERT and PhatGPT, our GPT-like lipid generation model, on downstream tasks. The proposed bilingual LipidBERT model operates in two languages: the language of ionizable lipid pre-training, using in-house dry-lab lipid structures, and the language of LNP fine-tuning, utilizing in-house LNP wet-lab data. This dual capability positions LipidBERT as a key AI-based filter for future screening tasks, including new versions of METiS de novo lipid libraries and, more importantly, candidates for in vivo testing for orgran-targeting LNPs. To the best of our knowledge, this is the first successful demonstration of the capability of a pre-trained language model on virtual lipids and its effectiveness in downstream tasks using web-lab data. This work showcases the clever utilization of METiS's in-house de novo lipid library as well as the power of dry-wet lab integration.
翻訳日:2024-08-13 14:15:41 公開日:2024-08-12
# ランプ素子2分割インピーダンス整合SNAILパラメトリック増幅器

Lumped-element two-section impedance-matched SNAIL parametric amplifier ( http://arxiv.org/abs/2408.06154v1 )

ライセンス: Link先を確認
D. Moskaleva, N. Smirnov, D. Moskalev, A. Ivanov, A. Matanin, D. Baklykov, M. Teleganov, V. Polozov, V. Echeistov, E. Malevannaya, I. Korobenko. A. Kuguk, G. Nikerov, J. Agafonova, I. Rodionov, (参考訳) 広帯域インピーダンス整合ジョセフソンパラメトリック増幅器は、高忠実度シングルショットマルチキュービット読み出しの鍵となる要素である。 現在、いくつかのインピーダンス整合パラメトリック増幅器が提案されており、第1はクロップフェンシュタインテーパーに基づくインピーダンス整合パラメトリック増幅器、第2は補助共振器に基づくインピーダンス整合パラメトリック増幅器である。 本稿では,2ユニットインピーダンス整合変換器を用いた量子制限型3波混合ラム素子SNAILパラメトリック増幅器を提案する。 パラレルプレートコンデンサと超伝導平面コイルに基づく共振器付き2極チェビシェフ整合回路 フラックスポンプモードで動作し、600MHzの帯域で平均15dB$、平均飽和電力で平均107dBm$、量子制限ノイズ温度で平均15dB$を実証した。

Broadband impedance-matched Josephson parametric amplifiers are key components for high-fidelity single-shot multi-qubit readout. Nowadays, several types of impedance matched parametric amplifiers have been proposed: the first is an impedance-matched parametric amplifier based on a Klopfenstein taper, and the second is an impedance-matched parametric amplifier based on auxiliary resonators. Here, we present the quantum-limited 3-wave-mixing lumped-element SNAIL parametric amplifier with two-units impedance matching transformer. A two-pole Chebyshev matching network with shunted resonators based on parallel-plate capacitors and superconducting planar coil. Operating in a flux-pumped mode, we experimentally demonstrate an average gain of $15dB$ across a $600MHz$ bandwidth, along with an average saturation power of $-107dBm$ and quantum-limited noise temperature.
翻訳日:2024-08-13 14:05:56 公開日:2024-08-12
# 拡散誘導型単一画像からの新規ビュー合成

Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance ( http://arxiv.org/abs/2408.06157v1 )

ライセンス: Link先を確認
Taewon Kang, Divya Kothandaraman, Dinesh Manocha, Ming C. Lin, (参考訳) 最近の3次元ビュー合成(NVS)法は、新しい視点から生成された単一対象中心のシーンと複雑な環境との闘いに限られている。 トレーニングには広範囲な3Dデータを必要とすることが多く、トレーニング分布を超えた一般化が欠如している。 逆に、3Dフリーな手法は、退屈な微調整をせずに事前訓練された安定拡散モデルを用いて、複雑なシーンのテキスト制御されたビューを生成することができるが、カメラコントロールは欠如している。 本稿では,単一入力画像からカメラ制御視点を生成する手法であるHawkI++を紹介する。 HawkI++は、3Dデータや広範なトレーニングを必要とせずに、複雑で多様なシーンを処理できる。 広く利用可能な訓練済みのNVSモデルを弱いガイダンスに利用し、この知識を3Dのないビュー合成アプローチに統合して、望まれる結果の効率よく達成する。 実験の結果,HawkI++は定性評価と定量的評価の両方で既存モデルよりも優れており,様々な場面で望まれるカメラアングルで高忠実で一貫した新しいビュー合成を実現していることがわかった。

Recent 3D novel view synthesis (NVS) methods are limited to single-object-centric scenes generated from new viewpoints and struggle with complex environments. They often require extensive 3D data for training, lacking generalization beyond training distribution. Conversely, 3D-free methods can generate text-controlled views of complex, in-the-wild scenes using a pretrained stable diffusion model without tedious fine-tuning, but lack camera control. In this paper, we introduce HawkI++, a method capable of generating camera-controlled viewpoints from a single input image. HawkI++ excels in handling complex and diverse scenes without additional 3D data or extensive training. It leverages widely available pretrained NVS models for weak guidance, integrating this knowledge into a 3D-free view synthesis approach to achieve the desired results efficiently. Our experimental results demonstrate that HawkI++ outperforms existing models in both qualitative and quantitative evaluations, providing high-fidelity and consistent novel view synthesis at desired camera angles across a wide variety of scenes.
翻訳日:2024-08-13 14:05:56 公開日:2024-08-12
# OmniCLIP:空間時間オムニスケール特徴学習による映像認識のためのCLIP適応

OmniCLIP: Adapting CLIP for Video Recognition with Spatial-Temporal Omni-Scale Feature Learning ( http://arxiv.org/abs/2408.06158v1 )

ライセンス: Link先を確認
Mushui Liu, Bozheng Li, Yunlong Yu, (参考訳) 近年の視覚言語モデル (VLMs) \textit{e g } CLIPはビデオ認識において大きな進歩を遂げている。 空間的特徴の抽出に強い視覚的バックボーンがもたらす改善にもかかわらず、CLIPはビデオ認識に不可欠な空間的特徴の捕捉と統合に不足している。 本稿では,OmniCLIPを提案する。OmniCLIPは,空間的・時間的・時間的・時間的・時間的・時間的・時間的・時間的・時間的を包含する包括的特徴を学習することで,CLIPをビデオ認識に適用するフレームワークである。 これは、並列時間適応器(PTA)を含む空間時間ブロックの設計によって実現され、効率的な時間的モデリングを可能にする。 さらに,動的オブジェクト空間の特徴を捉えるために,自己プロンプトジェネレータ(SPG)モジュールを導入する。 PTAとSPGの相乗効果により、OmniCLIPはフレーム間で異なる空間情報を識別し、時間とともにオブジェクトのスケールを評価することができる。 我々は、教師付きビデオ認識、少数ショットビデオ認識、ゼロショット認識タスクにおいて広範な実験を行った。 その結果,本手法の有効性,特にOmniCLIPが16ショットでHMDB51で74.30%の精度でトップ1の精度を達成し,総合的なトレーニングデータにおいても最新のMotionPromptアプローチを上回った。 コードは \url{https://github.com/XiaoBuL/OmniCLIP} で公開されている。

Recent Vision-Language Models (VLMs) \textit{e.g.} CLIP have made great progress in video recognition. Despite the improvement brought by the strong visual backbone in extracting spatial features, CLIP still falls short in capturing and integrating spatial-temporal features which is essential for video recognition. In this paper, we propose OmniCLIP, a framework that adapts CLIP for video recognition by focusing on learning comprehensive features encompassing spatial, temporal, and dynamic spatial-temporal scales, which we refer to as omni-scale features. This is achieved through the design of spatial-temporal blocks that include parallel temporal adapters (PTA), enabling efficient temporal modeling. Additionally, we introduce a self-prompt generator (SPG) module to capture dynamic object spatial features. The synergy between PTA and SPG allows OmniCLIP to discern varying spatial information across frames and assess object scales over time. We have conducted extensive experiments in supervised video recognition, few-shot video recognition, and zero-shot recognition tasks. The results demonstrate the effectiveness of our method, especially with OmniCLIP achieving a top-1 accuracy of 74.30\% on HMDB51 in a 16-shot setting, surpassing the recent MotionPrompt approach even with full training data. The code is available at \url{https://github.com/XiaoBuL/OmniCLIP}.
翻訳日:2024-08-13 14:05:56 公開日:2024-08-12
# 文脈部分空間 Auxiliary-Field Quantum Monte Carlo: 量子リソースの削減によるバイアスの改善

Contextual Subspace Auxiliary-Field Quantum Monte Carlo: Improved bias with reduced quantum resources ( http://arxiv.org/abs/2408.06160v1 )

ライセンス: Link先を確認
Matthew Kiser, Matthias Beuerle, Fedor Simkovic IV, (参考訳) 補助場量子モンテカルロ(QC-AFQMC)のバイアスを軽減するために量子デバイス上に準備された実験波動関数を用いて、強く相関した多くの身体系のシミュレーションに対する有望なハイブリッドアプローチとして確立した。 ここでは、実験波動関数を古典的部分と量子的部分に分解し、それぞれ古典的部分空間射影形式の中で古典的かつ量子的に扱うことにより、必要な量子資源をさらに削減する。 重要なことは,本アルゴリズムが最近開発されたマッチゲートシャドウプロトコルと互換性があり,QC-AFQMCの重複計算を効率的に行うことである。 リチウム系電池における窒素二量体とエチレン炭酸塩の還元分解を調べたところ,本手法は,元の量子ビット数の半数以下で化学的精度を達成しつつ,基底状態エネルギー計算の確立されたアルゴリズムよりも優れていることがわかった。

Using trial wavefunctions prepared on quantum devices to reduce the bias of auxiliary-field quantum Monte Carlo (QC-AFQMC) has established itself as a promising hybrid approach to the simulation of strongly correlated many body systems. Here, we further reduce the required quantum resources by decomposing the trial wavefunction into classical and quantum parts, respectively treated by classical and quantum devices, within the contextual subspace projection formalism. Importantly, we show that our algorithm is compatible with the recently developed matchgate shadow protocol for efficient overlap calculation in QC-AFQMC. Investigating the nitrogen dimer and the reductive decomposition of ethylene carbonate in lithium-based batteries, we observe that our method outperforms a number of established algorithm for ground state energy computations, while reaching chemical accuracy with less than half of the original number of qubits.
翻訳日:2024-08-13 14:05:56 公開日:2024-08-12
# 境界状態アハロノフ・ボーム効果の倉本モデル

A Kuramoto Model for the Bound State Aharonov-Bohm Effect ( http://arxiv.org/abs/2408.06162v1 )

ライセンス: Link先を確認
Alviu Rey Nasir, José Luís Da Silva, Jingle Magallanes, Herry Pribawanto Suryawan, Roshin Marielle Nasir-Britos, (参考訳) アハロノフ・ボームポテンシャルにおける電子の全体的な波動関数式から始め、量子力学系の束縛状態の位相ダイナミクスを記述する倉本モデルのバージョンを導出する。

Starting with the overall wave function expression for the electron in an Aharonov-Bohm potential, we derive a version of the Kuramoto Model describing the phase dynamics of the bound state of the quantum mechanical system.
翻訳日:2024-08-13 14:05:56 公開日:2024-08-12
# Segment Anything Model 2を用いたCTスキャンにおける腹部臓器のゼロショット3次元分割 : 3次元画像診断におけるビデオ追跡機能の適用

Zero-shot 3D Segmentation of Abdominal Organs in CT Scans Using Segment Anything Model 2: Adapting Video Tracking Capabilities for 3D Medical Imaging ( http://arxiv.org/abs/2408.06170v1 )

ライセンス: Link先を確認
Yosuke Yamagishi, Shouhei Hanaoka, Tomohiro Kikuchi, Takahiro Nakao, Yuta Nakamura, Yukihiro Nomura, Soichiro Miki, Takeharu Yoshikawa, Osamu Abe, (参考訳) 目的:CT画像における腹部臓器の3次元分割におけるSegment Anything Model 2 (SAM2) のゼロショット性能を評価することを目的とした。 対象と方法:8施設のTotalSegmentator CTデータセット(n=123)のサブセットを用いて,SAM2の腹腔内8臓器分画能力を評価した。 各臓器の3つの異なるZ座標レベル(内耳,中頭,頭蓋)からセグメンテーションを開始した。 The Dice similarity coefficient (DSC) was measured using the Dice similarity coefficient。 また,結果の文脈化のために臓器体積を分析した。 結果: 肝 0.821(0.898), 左腎 0.870(0.921), 右腎 0.862(0.935), 脾 0.891(0.932), 胆嚢0.531(0.590),膵0.361(0.359),副腎 0.203-0.308(0.109-0.231。 臓器の分節開始開始率によってDSCに有意な差が認められた。 体積サイズとDSC (Spearman's rs = 0.731, P <.001) の間には適度な正の相関が認められた。 DSCは0から1.0付近の臓器内で高い変動を示し、スキャン間のセグメンテーション性能にかなりの矛盾が認められた。 結語:SAM 2は腹部CT検査,特に境界が明瞭な大臓器において,腹腔内臓器の分画において有望なゼロショット性能を示した。 このモデルでは、未確認のターゲットを追加の訓練なしにセグメント化できる能力は、医療画像におけるクロスドメインの一般化の可能性を強調している。 しかし、より小さく、定義の少ない構造には改善が必要である。

Purpose: This study aimed to evaluate the zero-shot performance of Segment Anything Model 2 (SAM 2) in 3D segmentation of abdominal organs in CT scans, leveraging its video tracking capabilities for volumetric medical imaging. Materials and Methods: Using a subset of the TotalSegmentator CT dataset (n=123) from 8 different institutions, we assessed SAM 2's ability to segment 8 abdominal organs. Segmentation was initiated from three different Z-coordinate levels (caudal, mid, and cranial levels) of each organ. Performance was measured using the Dice similarity coefficient (DSC). We also analyzed organ volumes to contextualize the results. Results: As a zero-shot approach, larger organs with clear boundaries demonstrated high segmentation performance, with mean(median) DSCs as follows: liver 0.821(0.898), left kidney 0.870(0.921), right kidney 0.862(0.935), and spleen 0.891(0.932). Smaller or less defined structures showed lower performance: gallbladder 0.531(0.590), pancreas 0.361(0.359), and adrenal glands 0.203-0.308(0.109-0.231). Significant differences in DSC were observed depending on the starting initial slice of segmentation for different organs. A moderate positive correlation was observed between volume size and DSCs (Spearman's rs = 0.731, P <.001 at caudal-level). DSCs exhibited high variability within organs, ranging from near 0 to almost 1.0, indicating substantial inconsistency in segmentation performance between scans. Conclusion: SAM 2 demonstrated promising zero-shot performance in segmenting certain abdominal organs in CT scans, particularly larger organs with clear boundaries. The model's ability to segment previously unseen targets without additional training highlights its potential for cross-domain generalization in medical imaging. However, improvements are needed for smaller and less defined structures.
翻訳日:2024-08-13 14:05:56 公開日:2024-08-12
# より一般化された2量子対称量子ジョイント測定

A more generalized two-qubit symmetric quantum joint measurement ( http://arxiv.org/abs/2408.06179v1 )

ライセンス: Link先を確認
Ying-Qiu He, Dong Ding, Ting Gao, Zan-Jia Li, Feng-Li Yan, (参考訳) 標準的な2キュービットの関節測定はベル状態測定(BSM)であり、各還元状態(1キュービットを抽出)が完全に混合状態である。 近年、エレガントジョイント測定(EJM)と呼ばれる新しい量子ジョイント測定法が提案され、EJM基底の減少状態は四面体対称性を持つ。 本研究ではまず5パラメータの絡み合った状態を提案し,その固有対称性を明らかにする。 これに基づいて、より一般化された EJM を $z$, $\varphi$, $\theta$ でパラメータ化し、これらの基底状態の準備と検出のための量子回路を提供する。 主な結果は3つある。 i) 前の単パラメータ EJM は、パラメータ $z$ と $\varphi$; (ii)正四面体四頂点に関する初期単位ベクトルは、元の選択に限らず、円筒座標におけるすべての単位ベクトルは、EJM基底を形成するのに適しているわけではない。 3) 現在のEJM基底の減少状態は、常に2つの鏡像四面体を形成することができ、そのエレガントな性質をしっかりと保っている。 我々は、EJMベースがどの状態に属するのかを明らかにすることに集中し、より一般化された3パラメータのEJMを構築する方法を提供し、マルチセット計測や量子情報処理への応用に寄与する可能性がある。

A standard two-qubit joint measurement is the well-known Bell state measurement (BSM), in which each reduced state (traced out one qubit) is the completely mixed state. Recently, a novel quantum joint measurement named elegant joint measurement (EJM) has been proposed, where the reduced states of the EJM basis have tetrahedral symmetry. In this work, we first suggest a five-parameter entangled state and reveal its inherent symmetry. Based on this, we define a more generalized EJM parameterized by $z$, $\varphi$ and $\theta$, and provide the quantum circuits for preparing and detecting these basis states. There are three main results: (i) the previous single-parameter EJM can be directly obtained by specifying the parameters $z$ and $\varphi$; (ii) the initial unit vectors related to the four vertices of the regular tetrahedron are not limited to the original choice and not all the unit vectors in cylindrical coordinates are suitable for forming the EJM basis; and (iii) the reduced states of the present EJM basis can always form two mirrorimage tetrahedrons, robustly preserving its elegant properties. We focus on figuring out what kind of states the EJM basis belongs to and providing a method for constructing the more generalized three-parameter EJM, which may contribute to the multi-setting measurement and the potential applications for quantum information processing.
翻訳日:2024-08-13 14:05:56 公開日:2024-08-12
# UCIデータセットを用いた集中型心疾患分類モデルとそのShapley-value Based Interpretability

Centralized and Federated Heart Disease Classification Models Using UCI Dataset and their Shapley-value Based Interpretability ( http://arxiv.org/abs/2408.06183v1 )

ライセンス: Link先を確認
Mario Padilla Rodriguez, Mohamed Nafea, (参考訳) 心臓血管疾患は世界中で死亡の第一の要因であり、正確な診断方法の必要性を浮き彫りにしている。 本研究は、米国、ハンガリー、スイスの4つの病院の患者記録を含むUCIデータセットを用いて、心臓病分類のための集中型および連合型機械学習アルゴリズムをベンチマークする。 本ベンチマークは,特徴の分類の重要性を定量化するために,Shapley-value Interpretability解析によって支援されている。 集中的な設定では、様々なバイナリ分類アルゴリズムがプールされたデータに基づいて訓練され、支持ベクトルマシン(SVM)が83.3\%の試験精度を達成し、78.7\%の確立されたベンチマークをロジスティック回帰で上回っている。 さらに、4つのクライアント(ホスピタル)を備えたフェデレーション学習アルゴリズムを探索し、データセットの自然なパーティションを活用して、精度を犠牲にすることなくプライバシを向上させる。 フェデレーションSVM(Federated SVM)は、文献で珍しいアプローチであり、トップテストの精度は73.8\%に達する。 我々の解釈可能性分析は、心臓病の指標に関する既存の医学的知識と一致している。 本研究は、患者のプライバシを維持しつつ、心臓病に対する効率的かつ解釈可能なプレスクリーニングツールのベンチマークを確立する。

Cardiovascular diseases are a leading cause of mortality worldwide, highlighting the need for accurate diagnostic methods. This study benchmarks centralized and federated machine learning algorithms for heart disease classification using the UCI dataset which includes 920 patient records from four hospitals in the USA, Hungary and Switzerland. Our benchmark is supported by Shapley-value interpretability analysis to quantify features' importance for classification. In the centralized setup, various binary classification algorithms are trained on pooled data, with a support vector machine (SVM) achieving the highest testing accuracy of 83.3\%, surpassing the established benchmark of 78.7\% with logistic regression. Additionally, federated learning algorithms with four clients (hospitals) are explored, leveraging the dataset's natural partition to enhance privacy without sacrificing accuracy. Federated SVM, an uncommon approach in the literature, achieves a top testing accuracy of 73.8\%. Our interpretability analysis aligns with existing medical knowledge of heart disease indicators. Overall, this study establishes a benchmark for efficient and interpretable pre-screening tools for heart disease while maintaining patients' privacy.
翻訳日:2024-08-13 14:05:56 公開日:2024-08-12
# Hi-SAM:平均場ゲームを用いた衛星地上ゼロトラストシステムの高スケール認証モデル

Hi-SAM: A high-scalable authentication model for satellite-ground Zero-Trust system using mean field game ( http://arxiv.org/abs/2408.06185v1 )

ライセンス: Link先を確認
Xuesong Wu, Tianshuai Zheng, Runfang Wu, Jie Ren, Junyan Guo, Ye Du, (参考訳) 衛星ネットワークに接続されるIoT(Internet of Thing)デバイスが増えるにつれて、Zero-Trust Architectureは衛星地上システムに動的セキュリティをもたらす一方で、頻繁な認証はシステムの可用性に課題をもたらす。 システムにより多くのIoTデバイスを対応させるため,ハイスケーラブル認証モデル(Hi-SAM)を提案する。 Hi-SAMは認証にProof-of-Workの概念を導入し、デバイスが周波数に基づいてネットワークリソースを取得することを可能にする。 周波数を最適化するために、デバイス間の競争に平均フィールドゲームが使用され、大規模な集団ゲームの決定空間を削減できる。 また、動的時間範囲メッセージ認証コードは、セキュリティのために設計されている。 大規模な集団スケールでの試験から、Hi-SAMは認証作業負荷の最適化と異常検出効率の最適化に優れている。

As more and more Internet of Thing (IoT) devices are connected to satellite networks, the Zero-Trust Architecture brings dynamic security to the satellite-ground system, while frequent authentication creates challenges for system availability. To make the system's accommodate more IoT devices, this paper proposes a high-scalable authentication model (Hi-SAM). Hi-SAM introduces the Proof-of-Work idea to authentication, which allows device to obtain the network resource based on frequency. To optimize the frequency, mean field game is used for competition among devices, which can reduce the decision space of large-scale population games. And a dynamic time-range message authentication code is designed for security. From the test at large population scales, Hi-SAM is superior in the optimization of authentication workload and the anomaly detection efficiency.
翻訳日:2024-08-13 14:05:56 公開日:2024-08-12
# FruitNeRF: 統合ニューラルラジアンスフィールドに基づくFruit Counting Framework

FruitNeRF: A Unified Neural Radiance Field based Fruit Counting Framework ( http://arxiv.org/abs/2408.06190v1 )

ライセンス: Link先を確認
Lukas Meyer, Andreas Gilson, Ute Schmidt, Marc Stamminger, (参考訳) FruitNeRFは、最先端のビュー合成手法を利用して、3Dで直接果物のタイプをカウントする、統一された新しい果物カウントフレームワークである。 われわれのフレームワークは、単眼カメラで捉えたポーズ画像の無秩序なセットを取り、各画像に果物を分割する。 果実の種類に依存しないシステムを実現するために,果実に二分節マスクを生成する基礎モデルを用いる。 モーダル性、RGB、セマンティック性を利用して、セマンティック・ニューラル・ラディアンス・フィールドを訓練する。 暗黙の果実畑の均一な体積サンプリングにより,果実のみの点雲が得られる。 抽出した点群にカスケードクラスタリングを適用することにより, 実測値の精度向上を実現し, 物体追跡や光流といった従来の手法に比べて, ニューラルラジアンス場の利用は, カウント自体を3Dに引き上げる上で大きなメリットをもたらす。 本手法は,実生と合成の両方のデータセットを用いて,果実の倍数化を防止し,無関係な果実を数えるのを防ぐ。 実世界のデータセットは,手動で数えるリンゴ3本と,1列・接地したリンゴ1本と,1列・接地したリンゴ1本と,リンゴ,梅,レモン,ナシ,桃,マンゴー3本からなる。

We introduce FruitNeRF, a unified novel fruit counting framework that leverages state-of-the-art view synthesis methods to count any fruit type directly in 3D. Our framework takes an unordered set of posed images captured by a monocular camera and segments fruit in each image. To make our system independent of the fruit type, we employ a foundation model that generates binary segmentation masks for any fruit. Utilizing both modalities, RGB and semantic, we train a semantic neural radiance field. Through uniform volume sampling of the implicit Fruit Field, we obtain fruit-only point clouds. By applying cascaded clustering on the extracted point cloud, our approach achieves precise fruit count.The use of neural radiance fields provides significant advantages over conventional methods such as object tracking or optical flow, as the counting itself is lifted into 3D. Our method prevents double counting fruit and avoids counting irrelevant fruit.We evaluate our methodology using both real-world and synthetic datasets. The real-world dataset consists of three apple trees with manually counted ground truths, a benchmark apple dataset with one row and ground truth fruit location, while the synthetic dataset comprises various fruit types including apple, plum, lemon, pear, peach, and mango.Additionally, we assess the performance of fruit counting using the foundation model compared to a U-Net.
翻訳日:2024-08-13 14:05:56 公開日:2024-08-12
# Lancelot: 完全同型暗号化におけるビザンチン・ロバスト・フェデレーション学習の効率化とプライバシ保護を目指して

Lancelot: Towards Efficient and Privacy-Preserving Byzantine-Robust Federated Learning within Fully Homomorphic Encryption ( http://arxiv.org/abs/2408.06197v1 )

ライセンス: Link先を確認
Siyang Jiang, Hao Yang, Qipeng Xie, Chuan Ma, Sen Wang, Guoliang Xing, (参考訳) データガバナンスが厳格な規制要件の対象となっている金融や医療などの分野では、データの交換と利用が特に難しい。 フェデレートラーニング(FL)は、データ分散化を維持しながら、複数の機関間で協調的なモデルトレーニングを可能にする、分散機械学習パラダイムのパイオニアとして台頭した。 その利点にもかかわらず、FLは敵の脅威、特に中央サーバが管理するプロセスであるモデルアグリゲーション中の攻撃に対して脆弱である。 しかしながら、これらのシステムでは、ニューラルネットワークモデルには、意図せず記憶し、個々のトレーニングインスタンスを公開する能力がある。 攻撃者は、モデル自体に含まれる情報を活用することで、プライベートデータを再構築することができる。 既存のソリューションは、情報漏洩と計算効率の両方に対して完全に安全である、実用的でプライバシ保護のBRFLシステムを提供していない。 これらの問題に対処するため,データプライバシを保ちながら悪意あるクライアントアクティビティを保護し,完全同型暗号化(FHE)を利用する,革新的で効率的なBRFLフレームワークであるLancelotを提案する。 医用画像診断や広く使用されている公開画像データセットを含む大規模なテストでは、Lancelotが既存の手法を著しく上回り、データのプライバシを維持しながら、処理速度が20倍以上に向上することを示した。

In sectors such as finance and healthcare, where data governance is subject to rigorous regulatory requirements, the exchange and utilization of data are particularly challenging. Federated Learning (FL) has risen as a pioneering distributed machine learning paradigm that enables collaborative model training across multiple institutions while maintaining data decentralization. Despite its advantages, FL is vulnerable to adversarial threats, particularly poisoning attacks during model aggregation, a process typically managed by a central server. However, in these systems, neural network models still possess the capacity to inadvertently memorize and potentially expose individual training instances. This presents a significant privacy risk, as attackers could reconstruct private data by leveraging the information contained in the model itself. Existing solutions fall short of providing a viable, privacy-preserving BRFL system that is both completely secure against information leakage and computationally efficient. To address these concerns, we propose Lancelot, an innovative and computationally efficient BRFL framework that employs fully homomorphic encryption (FHE) to safeguard against malicious client activities while preserving data privacy. Our extensive testing, which includes medical imaging diagnostics and widely-used public image datasets, demonstrates that Lancelot significantly outperforms existing methods, offering more than a twenty-fold increase in processing speed, all while maintaining data privacy.
翻訳日:2024-08-13 14:05:56 公開日:2024-08-12
# 高速ウォルシュ・アダマール変換によるパウリ分解

Pauli Decomposition via the Fast Walsh-Hadamard Transform ( http://arxiv.org/abs/2408.06206v1 )

ライセンス: Link先を確認
Timothy N. Georges, Bjorn K. Berntson, Christoph Sünderhauf, Aleksei V. Ivanov, (参考訳) 平方行列をパウリ弦の和に分解することは、多くの量子アルゴリズムを実現するのに必要な古典的な前処理ステップである。 このような分解は、大きな行列に対して重要な計算資源を必要とする。 パウリの弦係数に対して,効率の良いアルゴリズムを導出する,新しい正確かつ明示的な公式を提案する。 より具体的には、行列要素の置換まで、分解係数は一般化されたアダマール行列の乗算によって元の行列と関連していることを示す。 これにより、Fast Walsh-Hadamard変換を使用し、$\mathcal{O}(N^2\log N)$時間で全てのパウリ分解係数を計算し、$\mathcal{O}(1)$追加メモリを$N\times N$行列に使用することができる。 方程式の数値的な実装は、現在利用可能な解よりも優れている。

The decomposition of a square matrix into a sum of Pauli strings is a classical pre-processing step required to realize many quantum algorithms. Such a decomposition requires significant computational resources for large matrices. We present a new exact and explicit formula for the Pauli string coefficients which inspires an efficient algorithm to compute them. More specifically, we show that up to a permutation of the matrix elements, the decomposition coefficients are related to the original matrix by a multiplication of a generalised Hadamard matrix. This allows one to use the Fast Walsh-Hadamard transform and calculate all Pauli decomposition coefficients in $\mathcal{O}(N^2\log N)$ time and using $\mathcal{O}(1)$ additional memory, for an $N\times N$ matrix. A numerical implementation of our equation outperforms currently available solutions.
翻訳日:2024-08-13 14:05:56 公開日:2024-08-12
# リアリスティックトポロジーにおけるマルチツリー量子ルーティング

Multi-tree Quantum Routing in Realistic Topologies ( http://arxiv.org/abs/2408.06207v1 )

ライセンス: Link先を確認
Zebo Yang, Ali Ghubaish, Raj Jain, Ramana Kompella, Hassan Shapourian, (参考訳) 絡み合い分布ネットワークでは、2つのノード間の通信は、中間ノードでの絡み合いスワップによるエンドツーエンドの絡み合いの発生を必要とする。 長距離でのエンドツーエンドの絡み合いを効果的に作成することが、重要な目標です。 非同期ルーティングに関する先行研究において、ノードの絡み合いリンクの局所的知識のみを活用することにより、これらの絡み合い率を高めた。 これはツリー構造、特にデスティネーション指向の非循環グラフ(DODAG)やスパンニングツリーを作成し、同期操作を排除し、未使用の絡み合いリンクを保存することで達成された。 本稿では,大規模ネットワークにおけるエンド・ツー・エンドの絡み合い率の向上を目的とした複数のDODAGを用いたマルチツリー手法を提案する。 シミュレーションでは, 単木法と比較して, 特定のトポロジに対するエンドツーエンドの絡み合い率を著しく改善した。 本研究では,異なるネットワークトポロジ間の非同期ルーティングの有効性を強調し,優れたルーティング手法を提案する。

In entanglement distribution networks, communication between two nodes necessitates the generation of end-to-end entanglement by entanglement swapping at intermediate nodes. Efficiently creating end-to-end entanglements over long distances is a key objective. In our prior study on asynchronous routing, we enhanced these entanglement rates by leveraging solely the local knowledge of the entanglement links of a node. This was achieved by creating a tree structure, particularly a destination-oriented directed acyclic graph (DODAG) or a spanning tree, eliminating synchronous operations and conserving unused entanglement links. In this article, we present a multi-tree approach with multiple DODAGs designed to improve end-to-end entanglement rates in large-scale networks, specifically catering to a range of network topologies, including grids and barbells, as well as realistic topologies found in research testbeds like ESnet and Internet2. Our simulations show a marked improvement in end-to-end entanglement rates for specific topologies compared to the single-tree method. This study underscores the promise of asynchronous routing schemes in quantum networks, highlighting the effectiveness of asynchronous routing across different network topologies and proposing a superior routing tactic.
翻訳日:2024-08-13 14:05:56 公開日:2024-08-12
# 分類と深層学習の計算可能性:理論限界から量子化による実用可能性へ

Computability of Classification and Deep Learning: From Theoretical Limits to Practical Feasibility through Quantization ( http://arxiv.org/abs/2408.06212v1 )

ライセンス: Link先を確認
Holger Boche, Vit Fojtik, Adalbert Fono, Gitta Kutyniok, (参考訳) 過去10年間のディープラーニングの成功は、様々な分野におけるディープラーニング手法の普及に繋がった。 しかし、ディープラーニングの欠点、特に信頼性の欠如は、より厳格なパフォーマンス保証を必要とする安全クリティカルなアプリケーションや高責任なアプリケーションと互換性がない可能性がある。 近年,Deep Learning アプリケーションのいくつかの例は,計算可能性に関する理論的制限の対象となり,実世界のコンピュータでの使用による性能保証の実現性を損なうことが示されている。 我々は、ディープラーニングフレームワークにおける計算可能性について、2つの視点から研究する:分類問題の文脈における応用的視点と、ニューラルネットワークのトレーニングの文脈における一般的な制限的視点から。 特に,計算における故障検出のアルゴリズム的検出を不可能とする分類問題のアルゴリズム的解法性に対する制約を示す。 その後、根底にある問題が十分に解決された場合でも、ディープニューラルネットワークを訓練する際のアルゴリズム上の制限を証明した。 最後に、分類と深層ネットワークトレーニングの定量化バージョンにおいて、計算可能性の制限は発生せず、一定の程度まで克服可能であることを示す。

The unwavering success of deep learning in the past decade led to the increasing prevalence of deep learning methods in various application fields. However, the downsides of deep learning, most prominently its lack of trustworthiness, may not be compatible with safety-critical or high-responsibility applications requiring stricter performance guarantees. Recently, several instances of deep learning applications have been shown to be subject to theoretical limitations of computability, undermining the feasibility of performance guarantees when employed on real-world computers. We extend the findings by studying computability in the deep learning framework from two perspectives: From an application viewpoint in the context of classification problems and a general limitation viewpoint in the context of training neural networks. In particular, we show restrictions on the algorithmic solvability of classification problems that also render the algorithmic detection of failure in computations in a general setting infeasible. Subsequently, we prove algorithmic limitations in training deep neural networks even in cases where the underlying problem is well-behaved. Finally, we end with a positive observation, showing that in quantized versions of classification and deep network training, computability restrictions do not arise or can be overcome to a certain degree.
翻訳日:2024-08-13 14:05:56 公開日:2024-08-12
# オーストリアの中性子スピンエコー干渉計CaNISIUS

CANISIUS The Austrian Neutron Spin Echo Interferometer ( http://arxiv.org/abs/2408.06216v1 )

ライセンス: Link先を確認
Niels Geerits, Simon Hack, Ad van Well, Steven R. Parnell, Hartmut Abele, Stephan Sponar, (参考訳) 広帯域共振スピンエコー干渉計CANISIUSについて述べる。 CANISIUSは、連続した広帯域ビームとパルスのタイム・オブ・フライトビームの両方で操作できるように、多用途に構築されている。 この汎用性はまた、中性子共鳴スピンエコー、スピンエコー(変調された)小型アングル中性子散乱、およびコヒーレント平均化などの機器で利用できるモードにも拡張され、散乱のための構造波動関数が生成される。 この計器は干渉計としても使用でき、量子力学の基本的な問題を探索することができる。 本稿では,この機器の連続飛行と時間飛行の両選択肢について詳述する。 また, 干渉計の白色ビームにおける超小角度散乱への適用性を実証した。 最後に、2つの経路状態の不完全な再結合を用いて、特別な構造を持つ複合波動関数を生成する新しいスピンエコー干渉法を示す。 特に、この方法では、2つの量子力学的OAMモード、l =+1 または -1 の重ね合わせに存在する中性子波動関数が生成されることを示す。

The broad band resonant spin echo interferometer, CANISIUS, is presented. CANISIUS is built in a versatile way, such that it can be operated in both a continuous broad band beam or a pulsed Time of Flight beam. This versatility also extends to the modes available to the instrument, such as Neutron Resonant Spin Echo, Spin Echo (Modulated) Small Angle Neutron Scattering and coherent averaging to produce structured wavefunctions for scattering. The instrument may also be used as an interferometer, to probe fundamental questions in quantum mechanics. In this paper we detail both the continuous and Time of Flight options of the instruments. In addition we demonstrate the applicability of our interferometer to ultra small angle scattering in a white beam. Finally we demonstrate a new spin echo interferometry tool, which uses incomplete recombination of the two path states to generate composite wavefunctions with special structure. In particular we show that this method produces neutron wavefunctions that exist in a superposition of two quantum mechanical OAM modes, l =+1 or -1 We illustrate that just as this method can be used to generate certain structured waves, it may also be used to characterize the structure of the input wavefunction.
翻訳日:2024-08-13 14:05:56 公開日:2024-08-12
# ロバスト予測保守のための機械学習を活用したディジタルツインフレームワーク:タイアヘルスモニタリングの強化

A Digital Twin Framework Utilizing Machine Learning for Robust Predictive Maintenance: Enhancing Tire Health Monitoring ( http://arxiv.org/abs/2408.06220v1 )

ライセンス: Link先を確認
Vispi Karkaria, Jie Chen, Christopher Luey, Chase Siuta, Damien Lim, Robert Radulescu, Wei Chen, (参考訳) 本稿では,長期的物理システムの予測保守のための新しいデジタルツインフレームワークを提案する。 タイヤの健康状態のモニタリングをアプリケーションとして使用することにより、自動車の安全性と効率を高めるためにデジタルツインフレームワークをどのように使用できるか、そして3段階のアプローチで技術的課題を克服できるかを示す。 まず、長い操作範囲でデータ複雑性を管理するために、歴史的性能と使用法データを用いて物理的タイヤを簡潔に表現するために、データ削減技術を用いる。 これらのデータに基づいて、高速なリアルタイム予測のために、当社の簡潔データセット上でトランスフォーマーベースのモデルをオフラインでトレーニングし、Remaining Casing Potential(RCP)として表される、将来的なタイヤの状態を予測します。 提案手法は, 疫学的およびアレタリックな不確実性の両方を定量的に評価し, 予測されたRCPの周囲に信頼性の高い信頼区間を提供する。 第二に、リアルタイムデータを組み込むために、ディジタルツイン・フレームワークの予測モデルを更新し、ハイブリッド・モデリングと不一致関数の活用により、その精度を生涯にわたって確保する。 第3に, タイヤ交換のタイミングを, 変圧器モデルにより予測されたRCPに基づいて戦略的に決定するタイヤ状態決定アルゴリズムを実装した。 このアプローチにより、ディジタルツインがシステムの健全性を正確に予測し、デジタル表現を継続的に洗練し、予測保守決定をサポートする。 我々のフレームワークは物理的システムを効果的に具体化し、予測保守、モデル更新、意思決定にビッグデータと機械学習を活用する。

We introduce a novel digital twin framework for predictive maintenance of long-term physical systems. Using monitoring tire health as an application, we show how the digital twin framework can be used to enhance automotive safety and efficiency, and how the technical challenges can be overcome using a three-step approach. Firstly, for managing the data complexity over a long operation span, we employ data reduction techniques to concisely represent physical tires using historical performance and usage data. Relying on these data, for fast real-time prediction, we train a transformer-based model offline on our concise dataset to predict future tire health over time, represented as Remaining Casing Potential (RCP). Based on our architecture, our model quantifies both epistemic and aleatoric uncertainty, providing reliable confidence intervals around predicted RCP. Secondly, to incorporate real-time data, we update the predictive model in the digital twin framework, ensuring its accuracy throughout its life span with the aid of hybrid modeling and the use of discrepancy function. Thirdly, to assist decision making in predictive maintenance, we implement a Tire State Decision Algorithm, which strategically determines the optimal timing for tire replacement based on RCP forecasted by our transformer model. This approach ensures our digital twin accurately predicts system health, continually refines its digital representation, and supports predictive maintenance decisions. Our framework effectively embodies a physical system, leveraging big data and machine learning for predictive maintenance, model updates, and decision-making.
翻訳日:2024-08-13 13:56:12 公開日:2024-08-12
# パラメトリック駆動に対する量子基底状態の応答

Response of the Quantum Ground State to a Parametric Drive ( http://arxiv.org/abs/2408.06228v1 )

ライセンス: Link先を確認
Ranjani Seshadri, (参考訳) パラメトリック共鳴(PR)現象は古典システムにおいて非常によく研究されており、教科書の例の1つは、サスペンション点が垂直に振動するときの逆配置におけるKapitzaの振り子の安定化である。 古典的PRと通常の共鳴を区別する重要な側面の1つは、前者は、系の初期エネルギーが最小({\dot x}={x}=0$)であれば、システムは進化しないということである。 しかし、量子系では、系が最小エネルギー(基底)状態であっても、基底状態の波動関数の非局在性のため、システムはPRの下では非自明な進化をする。 ここでは、古典的なアナログを持たない純粋に量子効果を示すような系の進化を研究する。 特に、パラボリックポテンシャル、すなわち量子調和振動子の周波数の変化によるPRの量子力学的アナログに焦点を当てる。

The phenomenon of Parametric Resonance (PR) is very well studied in classical systems with one of the textbook examples being the stabilization of a Kapitza's pendulum in the inverted configuration when the suspension point is oscillated vertically. One important aspect that distinguishes between classical PR and ordinary resonance is that in the former, if the initial energy of the system is at its minimum (${\dot x}={x}=0$), the system does not evolve. In a quantum system, however, even when the system is in the minimum energy (ground) state, the system has non-trivial evolution under PR due to the delocalized nature of the ground state wavefunction. Here we study the evolution of such a system which exhibits a purely quantum effect with no classical analog. In particular, we focus on the quantum mechanical analog of PR by varying with time the parabolic potential i.e. the frequency of the quantum harmonic oscillator
翻訳日:2024-08-13 13:56:12 公開日:2024-08-12
# ソーラーパネルエレクトロルミネッセンス画像の分類における機械学習手法の性能に関する総合的研究

A Comprehensive Case Study on the Performance of Machine Learning Methods on the Classification of Solar Panel Electroluminescence Images ( http://arxiv.org/abs/2408.06229v1 )

ライセンス: Link先を確認
Xinyi Song, Kennedy Odongo, Francis G. Pascual, Yili Hong, (参考訳) 太陽光発電(PV)は、再生可能エネルギーの重要な形態である太陽エネルギーの回収に広く用いられている。 太陽電池アレイは、太陽電池から構築された複数の太陽電池パネルで構成されている。 磁場中の太陽電池は様々な欠陥に対して脆弱であり、エレクトロルミネッセンス(EL)イメージングはこれらの欠陥を検出するために効果的で非破壊的な診断を提供する。 複数の従来の機械学習モデルと最新のディープラーニングモデルを用いて、EL太陽電池の画像を異なる機能/欠陥カテゴリに分類する。 機能的対欠陥細胞数の非対称性のため、EL画像データに不均衡ラベル問題が発生する。 現在の文献では、モデルトレーニングと予測に使用する方法やメトリクスについての洞察が欠けている。 本稿では,単結晶および多結晶モジュールからの太陽電池EL画像の分類において,異なる性能指標の下で異なる機械学習手法とディープラーニング手法を総合的に比較する。 私たちはさまざまなメトリクスについて包括的な議論をしています。 本研究は,予測手法と評価指標の選択における実践者に対する洞察とガイドラインを提供する。

Photovoltaics (PV) are widely used to harvest solar energy, an important form of renewable energy. Photovoltaic arrays consist of multiple solar panels constructed from solar cells. Solar cells in the field are vulnerable to various defects, and electroluminescence (EL) imaging provides effective and non-destructive diagnostics to detect those defects. We use multiple traditional machine learning and modern deep learning models to classify EL solar cell images into different functional/defective categories. Because of the asymmetry in the number of functional vs. defective cells, an imbalanced label problem arises in the EL image data. The current literature lacks insights on which methods and metrics to use for model training and prediction. In this paper, we comprehensively compare different machine learning and deep learning methods under different performance metrics on the classification of solar cell EL images from monocrystalline and polycrystalline modules. We provide a comprehensive discussion on different metrics. Our results provide insights and guidelines for practitioners in selecting prediction methods and performance metrics.
翻訳日:2024-08-13 13:56:12 公開日:2024-08-12
# ホログラフィック量子誤差補正によるゼロレートハッシュ境界の克服

Overcoming the Zero-Rate Hashing Bound with Holographic Quantum Error Correction ( http://arxiv.org/abs/2408.06232v1 )

ライセンス: Link先を確認
Junyu Fan, Matthew Steinberg, Alexander Jahn, Charles Cao, Sebastian Feld, (参考訳) 単一量子クリフォード作用素を用いた位相符号の修正手法は、純パウリ雑音に対して高い抵抗性を示す。 これらの発見の傍ら、いくつかの変種は、しばしばバイアスノイズに対する符号容量ノイズチャネルの既知のベンチマークであるゼロレートハッシュバウンドを達成または超過するエラーしきい値を示す。 さらに、ハッシュ境界と直接比較すると、いくつかの位相符号が有限パウリ雑音バイアスの点においてハッシュ境界より優れていることが示されている。 これらの観測により、ゼロレートのホログラフィック量子誤り訂正符号を解析し、テンソルネットワークデコード手法を用いて、多彩で有限バイアスのノイズチャネルの下で非常に高いしきい値を検出する。 テストした全ての符号は、純粋な2-Pauliノイズ(\eta = 0$)から純粋な1-Pauliノイズ(\eta = +\infty$)まで、様々な点でハッシュ境界を達成または超越していることが証明された。 このような知見は,現実的なノイズチャネルに適した高閾値符号を構築するための構造的かつ体系的な手法の存在を示唆している。 我々の知る限り、この研究は純粋な2-パウリノイズ状態と有限バイアスノイズチャネルに対する安定化器量子符号におけるこのような顕著なしきい値の挙動の最初の例でもある。

Several recent techniques for modifying topological codes with single-qubit Clifford operators have shown high resilience against pure Pauli noise. Paramount to these findings has been the demonstration that several variants exhibit error thresholds often attaining or exceeding the zero-rate hashing bound, a known benchmark for code-capacity noise channels, for biased noise. Additionally, direct comparison with the hashing bound has shown that several topological codes outperform the hashing bound at points of finite Pauli noise biases. Motivated by these observations, we study zero-rate holographic quantum error correction codes, discovering very high threshold values under diverse and finitely-biased noise channels using a tensor-network decoding approach. Our results establish that all codes tested achieve or surpass the hashing bound at various points, ranging from pure 2-Pauli noise ($\eta = 0$) to pure 1-Pauli noise ($\eta = +\infty$), thereby demonstrating that holographic codes exhibit excellent error tolerance in the code-capacity picture. Such findings imply the existence of a structured and systematic method for constructing high-threshold codes suitable for realistically motivated noise channels. To our knowledge, this work is also the first instance of such remarkable threshold behavior in stabilizer quantum codes for the pure 2-Pauli noise regime, as well as for finitely-biased noise channels.
翻訳日:2024-08-13 13:56:12 公開日:2024-08-12
# 相関重み付きプロトタイプによる医用画像の自己スーパービジョンワンショット分割

Correlation Weighted Prototype-based Self-Supervised One-Shot Segmentation of Medical Images ( http://arxiv.org/abs/2408.06235v1 )

ライセンス: Link先を確認
Siladittya Manna, Saumik Bhattacharya, Umapada Pal, (参考訳) 医用画像セグメンテーションは、十分な注釈付きデータが入手できない領域の1つである。 これは、少数ショット学習のような低データフレームワークの適用を必要とする。 現代のプロトタイプベースのフレームワークは、サポートやクエリイメージの機能の変化を考慮しないことが多いため、プロトタイプのアライメントに大きなばらつきが生じる。 本研究では,スーパーピクセルから生成された擬似ラベルを用いたプロトタイプベースのワンショット学習フレームワークを用いて,セマンティックセグメンテーションタスク自体を学習する。 相関に基づく確率スコアを用いて,サポート特徴写像から得られたプロトタイプの袋から,各クエリ画素の動的プロトタイプを生成する。 この重み付け方式は、文脈的に関連するプロトタイプよりも高い重み付けを与えるのに役立つ。 また,従来のドメイン情報を利用して不要な偽陽性を排除し,下流セグメンテーションタスクにおける二次マスキング戦略を提案する。 腹部CTおよびMRデータセットの広範な実験と評価を行い,提案手法が最先端の手法と同等に機能することを示す。

Medical image segmentation is one of the domains where sufficient annotated data is not available. This necessitates the application of low-data frameworks like few-shot learning. Contemporary prototype-based frameworks often do not account for the variation in features within the support and query images, giving rise to a large variance in prototype alignment. In this work, we adopt a prototype-based self-supervised one-way one-shot learning framework using pseudo-labels generated from superpixels to learn the semantic segmentation task itself. We use a correlation-based probability score to generate a dynamic prototype for each query pixel from the bag of prototypes obtained from the support feature map. This weighting scheme helps to give a higher weightage to contextually related prototypes. We also propose a quadrant masking strategy in the downstream segmentation task by utilizing prior domain information to discard unwanted false positives. We present extensive experimentations and evaluations on abdominal CT and MR datasets to show that the proposed simple but potent framework performs at par with the state-of-the-art methods.
翻訳日:2024-08-13 13:56:12 公開日:2024-08-12
# ニューラルラジアンス場(NeRF)を用いた多視点AFM画像からのタンパク質構造の3次元再構成

3D Reconstruction of Protein Structures from Multi-view AFM Images using Neural Radiance Fields (NeRFs) ( http://arxiv.org/abs/2408.06244v1 )

ライセンス: Link先を確認
Jaydeep Rade, Ethan Herron, Soumik Sarkar, Anwesha Sarkar, Adarsh Krishnamurthy, (参考訳) 近年の3Dタンパク質構造予測のための深層学習の進歩は、特にタンパク質配列やCryo-Electron microscopy (Cryo-EM)画像などの入力を利用する場合に有望である。 しかしながら、これらの技術は、複数のタンパク質を含むタンパク質複合体(PC)の構造を予測する際にしばしば不足する。 本研究では,原子間力顕微鏡(AFM)と深層学習を組み合わせてPCの3次元構造を予測する。 AFMは、様々なランダムな方向でPCを描写する高さマップを生成し、ニューラルネットワークをトレーニングして3D構造を予測するための豊富な情報を提供する。 次に、3次元再構成のためのインスタンス固有のNeRFモデルをトレーニングするために、事前訓練されたUpFusionモデル(新しいビューを合成するための条件拡散モデルを利用する)を用いる。 AFM画像を用いた3Dタンパク質構造のゼロショット予測によりUpFusionの性能を評価する。 しかし課題は、実際のAFM画像の収集という、時間集約的で非現実的な性質にある。 そこで我々は,PDBを仮想AFM画像に変換する仮想AFMイメージングプロセスを用いて,ボリュームレンダリング技術を用いて,マルチビュー2D仮想AFM画像に変換する。 仮想および実際のマルチビューAFM画像を用いて、UpFusionアーキテクチャを広範囲に検証する。 結果は、様々な数のビューと異なるビューのセットで予測される構造の比較を含む。 この新しいアプローチは、UpFusionネットワークをさらに微調整することで、タンパク質複合体構造予測の精度を高める重要な可能性を持っている。

Recent advancements in deep learning for predicting 3D protein structures have shown promise, particularly when leveraging inputs like protein sequences and Cryo-Electron microscopy (Cryo-EM) images. However, these techniques often fall short when predicting the structures of protein complexes (PCs), which involve multiple proteins. In our study, we investigate using atomic force microscopy (AFM) combined with deep learning to predict the 3D structures of PCs. AFM generates height maps that depict the PCs in various random orientations, providing a rich information for training a neural network to predict the 3D structures. We then employ the pre-trained UpFusion model (which utilizes a conditional diffusion model for synthesizing novel views) to train an instance-specific NeRF model for 3D reconstruction. The performance of UpFusion is evaluated through zero-shot predictions of 3D protein structures using AFM images. The challenge, however, lies in the time-intensive and impractical nature of collecting actual AFM images. To address this, we use a virtual AFM imaging process that transforms a `PDB' protein file into multi-view 2D virtual AFM images via volume rendering techniques. We extensively validate the UpFusion architecture using both virtual and actual multi-view AFM images. Our results include a comparison of structures predicted with varying numbers of views and different sets of views. This novel approach holds significant potential for enhancing the accuracy of protein complex structure predictions with further fine-tuning of the UpFusion network.
翻訳日:2024-08-13 13:56:12 公開日:2024-08-12
# 低照度画像強調のための潜時歪み

Latent Disentanglement for Low Light Image Enhancement ( http://arxiv.org/abs/2408.06245v1 )

ライセンス: Link先を確認
Zhihao Zheng, Mooi Choo Chuah, (参考訳) 多くの学習に基づく低照度画像強調(LLIE)アルゴリズムはRetinex理論に基づいている。 しかし、そのようなモデルにおけるRetinexベースの分解技術は、その強化性能を制限する汚職を導入している。 本稿では,低照度視覚タスクのためのLatent Disentangle-based Enhancement Network (LDE-Net)を提案する。 潜伏不絡モジュールは、非絡合コンテンツおよび照度成分に汚損が残らないように、潜伏空間で入力画像を非絡合する。 LLIEタスクでは、コンテンツ機能を利用してイルミネーションコンポーネントの強化を指示するContent-Aware Embedding (CAE) モジュールを設計する。 ダウンストリームタスク(例えば、夜間UAV追跡と低照度物体検出)に対しては、潜時ゆがみフレームワークに基づく効果的な軽量エンハンサを開発する。 総合的な定量的および定性的な実験により,LDE-Netは様々なLLIEベンチマークにおいて最先端の手法を大幅に上回っていることが示された。 さらに、下流タスクに我々のフレームワークを適用することで得られる大きな成果は、我々の潜在的非絡み設計の有用性を示すものである。

Many learning-based low-light image enhancement (LLIE) algorithms are based on the Retinex theory. However, the Retinex-based decomposition techniques in such models introduce corruptions which limit their enhancement performance. In this paper, we propose a Latent Disentangle-based Enhancement Network (LDE-Net) for low light vision tasks. The latent disentanglement module disentangles the input image in latent space such that no corruption remains in the disentangled Content and Illumination components. For LLIE task, we design a Content-Aware Embedding (CAE) module that utilizes Content features to direct the enhancement of the Illumination component. For downstream tasks (e.g. nighttime UAV tracking and low-light object detection), we develop an effective light-weight enhancer based on the latent disentanglement framework. Comprehensive quantitative and qualitative experiments demonstrate that our LDE-Net significantly outperforms state-of-the-art methods on various LLIE benchmarks. In addition, the great results obtained by applying our framework on the downstream tasks also demonstrate the usefulness of our latent disentanglement design.
翻訳日:2024-08-13 13:56:12 公開日:2024-08-12
# ユニバーサルイベントベース表現によるビデオの再考

Rethinking Video with a Universal Event-Based Representation ( http://arxiv.org/abs/2408.06248v1 )

ライセンス: Link先を確認
Andrew Freeman, (参考訳) 伝統的に、ビデオは離散画像フレームのシーケンスとして構成される。 しかし,近年,ビデオフレームを完全に取り除く新しいビデオセンシングパラダイムが出現している。 これらの「イベント」センサーは、人間の視覚システムを非同期センシングで模倣することを目的としており、各ピクセルは独立してスパースなデータストリームを持つ。 これらのカメラは高速かつ高ダイナミックレンジのセンシングを可能にするが、研究者はしばしば既存のアプリケーションのためのイベントデータのフレーム化された表現に戻したり、特定のカメラのイベントデータタイプのためのbespokeアプリケーションを構築する。 同時に、古典的なビデオシステムは、非圧縮領域のフレーム間で画素サンプルが繰り返されるため、アプリケーション層において大きな計算冗長性を持つ。 既存のシステムの欠点に対処するために、新しい中間映像表現およびシステムフレームワークであるAD{\Delta}ER(address, Decimation, {\Delta}t Event Representation)を紹介します。 このフレームワークは、さまざまなフレームおよびイベントカメラソースを単一のイベントベース表現に変換し、ソースモデルによる損失圧縮と、従来のフレームベースのアプリケーションとの後方互換性をサポートする。 AD{\Delta}ERは時間的冗長性の高いシーンに対して最先端のアプリケーション速度と圧縮性能を実現することを実証する。 重要なのは、AD{\Delta}ERが完全に新しいコンピュータビジョンの制御機構を解き放つ方法です。 最後に、大規模ビデオ監視とリソース制約センシングにおけるイベントベースビデオの影響について論じる。

Traditionally, video is structured as a sequence of discrete image frames. Recently, however, a novel video sensing paradigm has emerged which eschews video frames entirely. These "event" sensors aim to mimic the human vision system with asynchronous sensing, where each pixel has an independent, sparse data stream. While these cameras enable high-speed and high-dynamic-range sensing, researchers often revert to a framed representation of the event data for existing applications, or build bespoke applications for a particular camera's event data type. At the same time, classical video systems have significant computational redundancy at the application layer, since pixel samples are repeated across frames in the uncompressed domain. To address the shortcomings of existing systems, I introduce Address, Decimation, {\Delta}t Event Representation (AD{\Delta}ER, pronounced "adder"), a novel intermediate video representation and system framework. The framework transcodes a variety of framed and event camera sources into a single event-based representation, which supports source-modeled lossy compression and backward compatibility with traditional frame-based applications. I demonstrate that AD{\Delta}ER achieves state-of-the-art application speed and compression performance for scenes with high temporal redundancy. Crucially, I describe how AD{\Delta}ER unlocks an entirely new control mechanism for computer vision: application speed can correlate with both the scene content and the level of lossy compression. Finally, I discuss the implications for event-based video on large-scale video surveillance and resource-constrained sensing.
翻訳日:2024-08-13 13:56:12 公開日:2024-08-12
# 最適制御下における浮遊質量間の非平衡絡み合い

Nonequilibrium entanglement between levitated masses under optimal control ( http://arxiv.org/abs/2408.06251v1 )

ライセンス: Link先を確認
Alexander N. Poddubny, Klemens Winkler, Benjamin A. Stickler, Uroš Delić, Markus Aspelmeyer, Anton V. Zasedatelev, (参考訳) 本稿では,1/r^{n}$電位を介して直接相互作用する2つの質量間の無条件絡み合い生成を最大化するプロトコルを提案する。 このプロトコルは、継続的に測定される質量の最適量子制御と、時間依存的な相互作用強度によって駆動される非平衡力学を結合する。 静電相互作用により結合した光捕捉サブミクロン粒子の対に適用することにより, 既往の定常状態のアプローチと比較して, 条件状態の基本的限界における無条件絡み合いの発生が可能となり, 質量間の相互作用のオーダーが大幅に小さくなった。

We present a protocol that maximizes unconditional entanglement generation between two masses interacting directly through $1/r^{n}$ potential. The protocol combines optimal quantum control of continuously measured masses with their non-equilibrium dynamics, driven by a time-dependent interaction strength. Applied to a pair of optically trapped sub-micron particles coupled via electrostatic interaction, our protocol enables unconditional entanglement generation at the fundamental limit of the conditional state and with an order of magnitude smaller interaction between the masses compared to the existing steady-state approaches.
翻訳日:2024-08-13 13:56:12 公開日:2024-08-12
# DUNE: 月毎,季節毎,年毎の気候予測に対する深層UNet++ベースのアンサンブルアプローチ

DUNE: A Machine Learning Deep UNet++ based Ensemble Approach to Monthly, Seasonal and Annual Climate Forecasting ( http://arxiv.org/abs/2408.06262v1 )

ライセンス: Link先を確認
Pratik Shukla, Milton Halem, (参考訳) ERA5は、高分解能な再分析に基づく平均的大気・気候の長期データ記録を最近利用可能にしており、深層学習アーキテクチャは、物理学に基づく日次天気予報(S2S)と年次手段の代替手段を提供する。 Deep UNet++ベースの新しいエンサンブル(DUNE)ニューラルアーキテクチャを導入し、残留ブロックを持つマルチエンコーダデコーダ構造を採用した。 このアーキテクチャは、前月または年より初期化されると、2メートル温度(T2m)と海面温度(SST)の月平均、季節、または年平均のAIベースの最初の平均値を生み出した。 ERA5月平均データは、陸上でのT2m、海洋でのSST、月40年間の大気上における太陽放射の入力として使用される。 検証予測はさらに2年間実施され、続いて自然の年次変動を考慮した5年間の予測評価が行われる。 AIでトレーニングされた推論予測の重みは、数秒で予測を生成し、季節予測のアンサンブルを可能にする。 ルート平均正方形誤差(RMSE)、異常相関係数(ACC)、ハイドケスキルスコア(HSS)の統計は、世界各地で報告されている。 これらの予測は、すべての領域に対する持続性、気候学、多重線形回帰よりも優れる。 DUNEの予測は、NOAAの月間および季節の確率的見通しに匹敵する統計的正確さを示しているが、かなり高い解像度である。 最近のAIベースの日次予測のRMSEとACCエラー統計も、DUNEベースの予測よりも優れたパフォーマンスを示している。 DUNEモデルのアンサンブルデータ同化サイクルへの適用は、単一の高解像度モデルと同等の予測精度を示し、外挿データセットの再トレーニングを不要にする可能性がある。

Capitalizing on the recent availability of ERA5 monthly averaged long-term data records of mean atmospheric and climate fields based on high-resolution reanalysis, deep-learning architectures offer an alternative to physics-based daily numerical weather predictions for subseasonal to seasonal (S2S) and annual means. A novel Deep UNet++-based Ensemble (DUNE) neural architecture is introduced, employing multi-encoder-decoder structures with residual blocks. When initialized from a prior month or year, this architecture produced the first AI-based global monthly, seasonal, or annual mean forecast of 2-meter temperatures (T2m) and sea surface temperatures (SST). ERA5 monthly mean data is used as input for T2m over land, SST over oceans, and solar radiation at the top of the atmosphere for each month of 40 years to train the model. Validation forecasts are performed for an additional two years, followed by five years of forecast evaluations to account for natural annual variability. AI-trained inference forecast weights generate forecasts in seconds, enabling ensemble seasonal forecasts. Root Mean Squared Error (RMSE), Anomaly Correlation Coefficient (ACC), and Heidke Skill Score (HSS) statistics are presented globally and over specific regions. These forecasts outperform persistence, climatology, and multiple linear regression for all domains. DUNE forecasts demonstrate comparable statistical accuracy to NOAA's operational monthly and seasonal probabilistic outlook forecasts over the US but at significantly higher resolutions. RMSE and ACC error statistics for other recent AI-based daily forecasts also show superior performance for DUNE-based forecasts. The DUNE model's application to an ensemble data assimilation cycle shows comparable forecast accuracy with a single high-resolution model, potentially eliminating the need for retraining on extrapolated datasets.
翻訳日:2024-08-13 13:56:12 公開日:2024-08-12
# コンピュータ・オーディションのためのオーディオ・エンハンスメント-サンプル・コンパタンスを用いた反復訓練パラダイム

Audio Enhancement for Computer Audition -- An Iterative Training Paradigm Using Sample Importance ( http://arxiv.org/abs/2408.06264v1 )

ライセンス: Link先を確認
Manuel Milling, Shuo Liu, Andreas Triantafyllopoulos, Ilhan Aslan, Björn W. Schuller, (参考訳) 音声認識(ASR)や音響シーン分類(ASC)などの音声タスクのためのニューラルネットワークモデルは,実生活における騒音汚染の影響を受けやすい。 オーディオ品質を向上させるために、個別に開発できる拡張モジュールは、ターゲットオーディオアプリケーションのフロントエンドで明示的に使用される。 本稿では,音声強調(AE)モデルとその後の応用を協調的に最適化するエンド・ツー・エンドの学習ソリューションを提案する。 AEモジュールの最適化を対象のアプリケーションに導くため,特に難しいサンプルを克服するために,サンプルの重要度を示す指標として,サンプルワイド性能測定を用いている。 実験では、ASR、音声コマンド認識(SCR)、音声感情認識(SER)、ASCの4つの代表的な応用について検討する。 これらのアプリケーションは意味的・非意味的特徴、過渡的・グローバルな情報に関する音声・非音声タスクと関連付けられており、本提案手法は、特に低信号-雑音比(SNR)において、日常的な雑音環境下での幅広いコンピュータオーディションタスクにおいて、モデルのノイズロバスト性を大幅に向上させることができることを示す。

Neural network models for audio tasks, such as automatic speech recognition (ASR) and acoustic scene classification (ASC), are susceptible to noise contamination for real-life applications. To improve audio quality, an enhancement module, which can be developed independently, is explicitly used at the front-end of the target audio applications. In this paper, we present an end-to-end learning solution to jointly optimise the models for audio enhancement (AE) and the subsequent applications. To guide the optimisation of the AE module towards a target application, and especially to overcome difficult samples, we make use of the sample-wise performance measure as an indication of sample importance. In experiments, we consider four representative applications to evaluate our training paradigm, i.e., ASR, speech command recognition (SCR), speech emotion recognition (SER), and ASC. These applications are associated with speech and non-speech tasks concerning semantic and non-semantic features, transient and global information, and the experimental results indicate that our proposed approach can considerably boost the noise robustness of the models, especially at low signal-to-noise ratios (SNRs), for a wide range of computer audition tasks in everyday-life noisy environments.
翻訳日:2024-08-13 13:56:12 公開日:2024-08-12
# RAGに基づくサイバーアタック調査と属性調査のための質問回答ソリューション

A RAG-Based Question-Answering Solution for Cyber-Attack Investigation and Attribution ( http://arxiv.org/abs/2408.06272v1 )

ライセンス: Link先を確認
Sampath Rajapaksha, Ruby Rani, Erisa Karafili, (参考訳) サイバーセキュリティの絶え間なく進化している分野では、サイバー攻撃の捜査と帰属に役立つ最新の攻撃トレンドと関連する情報をアナリストが守ることが不可欠である。 本研究では,サイバー攻撃の調査と帰属について,サイバーセキュリティの専門家に情報を提供するQAモデルとその応用について紹介する。 我々のQAモデルは,Large Language Model (LLM) とともに検索型拡張生成(RAG)技術に基づいており,サイバー攻撃の調査や帰属に関するキュレートされた情報を含む知識ベース (KB) あるいはユーザが提供する外部リソースに基づいて,ユーザの質問に対する回答を提供する。 我々は、KBベースの、メタデータベースの、KBからの特定の文書、外部ソースベースの質問など、様々な種類の質問を用いて、QAモデルを検証、評価してきた。 KB ベースの質問に対する回答を OpenAI の GPT-3.5 と最新の GPT-4o LLM の回答と比較した。 提案したQAモデルは,回答のソースを提供し,GPTモデルの幻覚的限界を克服することで,OpenAIのGPTモデルより優れている。 さらに分析の結果,RAG QAモデルにゼロショット命令ではなく少数ショット例が与えられる場合,クエリに加えてサンプルが提供されない場合に比べ,より優れた回答が得られることがわかった。

In the constantly evolving field of cybersecurity, it is imperative for analysts to stay abreast of the latest attack trends and pertinent information that aids in the investigation and attribution of cyber-attacks. In this work, we introduce the first question-answering (QA) model and its application that provides information to the cybersecurity experts about cyber-attacks investigations and attribution. Our QA model is based on Retrieval Augmented Generation (RAG) techniques together with a Large Language Model (LLM) and provides answers to the users' queries based on either our knowledge base (KB) that contains curated information about cyber-attacks investigations and attribution or on outside resources provided by the users. We have tested and evaluated our QA model with various types of questions, including KB-based, metadata-based, specific documents from the KB, and external sources-based questions. We compared the answers for KB-based questions with those from OpenAI's GPT-3.5 and the latest GPT-4o LLMs. Our proposed QA model outperforms OpenAI's GPT models by providing the source of the answers and overcoming the hallucination limitations of the GPT models, which is critical for cyber-attack investigation and attribution. Additionally, our analysis showed that when the RAG QA model is given few-shot examples rather than zero-shot instructions, it generates better answers compared to cases where no examples are supplied in addition to the query.
翻訳日:2024-08-13 13:56:12 公開日:2024-08-12
# Mipmap-GS: アンチエイリアスレンダリングのためのスケール固有のMipmapでガウシアンを変形させる

Mipmap-GS: Let Gaussians Deform with Scale-specific Mipmap for Anti-aliasing Rendering ( http://arxiv.org/abs/2408.06286v1 )

ライセンス: Link先を確認
Jiameng Li, Yue Shi, Jiezhang Cao, Bingbing Ni, Wenjun Zhang, Kai Zhang, Luc Van Gool, (参考訳) 3D Gaussian Splatting (3DGS) は、高いレンダリング効率と高忠実さのために、新規なビュー合成において大きな注目を集めている。 しかし、訓練されたガウス人は、単一スケールの訓練から派生した調整不能な表現のために、急激なズームダウンに悩まされる。 いくつかの方法は、プリミティブに対する選択的レンダリングやフィルタリングといった後処理技術によってこの問題に対処しようとするが、スケール固有の情報はガウスには関与しない。 本稿では,基本特性(eg,色,形状,サイズ)と分布(eg,位置)を自己調整することにより,任意のスケールでガウスを適応させる統一最適化手法を提案する。 ミップマップ技術に触発されて、ターゲットスケールのための擬似基底構造を設計し、3次元ガウスアンにスケール情報を注入するスケール一貫性誘導損失を提案する。 本手法は,任意の3DGSモデルに適用可能なプラグインモジュールであり,ズームインおよびズームアウトエイリアスを解く。 大規模な実験により,本手法の有効性が示された。 特に,本手法は,NRF合成データセット上でのズームインでは平均9.25dB,ズームアウトでは10.40dB,PSNRでは平均9.25dBで3DGSより優れていた。

3D Gaussian Splatting (3DGS) has attracted great attention in novel view synthesis because of its superior rendering efficiency and high fidelity. However, the trained Gaussians suffer from severe zooming degradation due to non-adjustable representation derived from single-scale training. Though some methods attempt to tackle this problem via post-processing techniques such as selective rendering or filtering techniques towards primitives, the scale-specific information is not involved in Gaussians. In this paper, we propose a unified optimization method to make Gaussians adaptive for arbitrary scales by self-adjusting the primitive properties (e.g., color, shape and size) and distribution (e.g., position). Inspired by the mipmap technique, we design pseudo ground-truth for the target scale and propose a scale-consistency guidance loss to inject scale information into 3D Gaussians. Our method is a plug-in module, applicable for any 3DGS models to solve the zoom-in and zoom-out aliasing. Extensive experiments demonstrate the effectiveness of our method. Notably, our method outperforms 3DGS in PSNR by an average of 9.25 dB for zoom-in and 10.40 dB for zoom-out on the NeRF Synthetic dataset.
翻訳日:2024-08-13 13:56:12 公開日:2024-08-12
# 耐久試験安定剤状態

Tolerant testing stabilizer states ( http://arxiv.org/abs/2408.06289v1 )

ライセンス: Link先を確認
Srinivasan Arunachalam, Arkopal Dutt, (参考訳) あるアルゴリズムが未知の$n$-qubit量子状態 $|\psi\rangle$ promise $のコピーを与えられると仮定する。 (i)$ $|\psi\rangle$ is $\varepsilon_1$-close to a stabler state in fidelity or $ (ii)$$|\psi\rangle$ はすべての安定化状態から$\varepsilon_2$-far であり、どちらが成り立つかを決定する。 a $\textsf{poly}(1/\varepsilon_1)$-sample and $n\cdot \textsf{poly}(1/\varepsilon_1)$-time algorithm for every $\varepsilon_1>0$ and $\varepsilon_2\leq 2^{-\textsf{poly}(1/\varepsilon_1)}$ 我々の証明には、量子状態に対するガウワーズノルムの新しい定義、状態のガウワーズ-$3$のノルムに対する逆定理、加法組合せ論の結果を用いてパウリスの構造的部分集合を被覆する安定化子上の新しい境界が含まれる。

We consider the following task: suppose an algorithm is given copies of an unknown $n$-qubit quantum state $|\psi\rangle$ promised $(i)$ $|\psi\rangle$ is $\varepsilon_1$-close to a stabilizer state in fidelity or $(ii)$ $|\psi\rangle$ is $\varepsilon_2$-far from all stabilizer states, decide which is the case. We give a $\textsf{poly}(1/\varepsilon_1)$-sample and $n\cdot \textsf{poly}(1/\varepsilon_1)$-time algorithm for this task for every $\varepsilon_1>0$ and $\varepsilon_2\leq 2^{-\textsf{poly}(1/\varepsilon_1)}$. Our proof includes a new definition of Gowers norm for quantum states, an inverse theorem for the Gowers-$3$ norm of states and new bounds on stabilizer covering for structured subsets of Paulis using results in additive combinatorics.
翻訳日:2024-08-13 13:56:12 公開日:2024-08-12
# Mambular: タブラルディープラーニングのためのシーケンスモデル

Mambular: A Sequential Model for Tabular Deep Learning ( http://arxiv.org/abs/2408.06291v1 )

ライセンス: Link先を確認
Anton Frederik Thielmann, Manish Kumar, Christoph Weisser, Arik Reuter, Benjamin Säfken, Soheila Samiee, (参考訳) 表型データの解析は伝統的に, 階層的および数値的特徴が混在する習熟度で知られている, 勾配型決定木(GBDT)が支配的であった。 しかし、最近のディープラーニングのイノベーションは、この支配に挑戦している。 本稿では,表データに最適化されたMambularアーキテクチャについて紹介する。 我々は、ニューラルネットワークやツリーベースの手法を含む最先端モデルに対してMambularを広範囲にベンチマークし、多様なデータセット間での競合性能を実証した。 さらに, 表型データの有効性を理解するために, 各種のMambular適応について検討する。 本研究では,異なるプール手法,機能相互作用機構,双方向処理について検討する。 解析の結果、特徴をシーケンスとして解釈し、それらをMamba層に渡すと驚くほど高性能なモデルが得られることがわかった。 この結果は、表型データ分析のための汎用的で強力なアーキテクチャとして、Mambularsの可能性を強調し、この領域におけるディープラーニングアプリケーションの範囲を広げた。 ソースコードはhttps://github.com/basf/mamba-tabular.comで入手できる。

The analysis of tabular data has traditionally been dominated by gradient-boosted decision trees (GBDTs), known for their proficiency with mixed categorical and numerical features. However, recent deep learning innovations are challenging this dominance. We introduce Mambular, an adaptation of the Mamba architecture optimized for tabular data. We extensively benchmark Mambular against state-of-the-art models, including neural networks and tree-based methods, and demonstrate its competitive performance across diverse datasets. Additionally, we explore various adaptations of Mambular to understand its effectiveness for tabular data. We investigate different pooling strategies, feature interaction mechanisms, and bi-directional processing. Our analysis shows that interpreting features as a sequence and passing them through Mamba layers results in surprisingly performant models. The results highlight Mambulars potential as a versatile and powerful architecture for tabular data analysis, expanding the scope of deep learning applications in this domain. The source code is available at https://github.com/basf/mamba-tabular.
翻訳日:2024-08-13 13:56:12 公開日:2024-08-12
# Hound: 深層学習を用いた非同期サイドチャネルトレースにおける暗号プリミティブの配置

Hound: Locating Cryptographic Primitives in Desynchronized Side-Channel Traces Using Deep-Learning ( http://arxiv.org/abs/2408.06296v1 )

ライセンス: Link先を確認
Davide Galli, Giuseppe Chiari, Davide Zoni, (参考訳) サイドチャネル攻撃は、部分的に計算されたデータと測定されたサイドチャネル信号とを関連付けて、暗号プリミティブから機密情報を抽出することができる。 生のサイドチャネルトレースから始めて、サイドチャネルトレースの前処理により、各暗号プリミティブが実行される時刻をピンポイントし、さらに、収集したデータをこの特定の時間に再調整することは、サイドチャネル攻撃を成功させる重要なステップを示す。 隠れテクニックの使用は、サイドチャネルトレースの事前処理を妨げるため、実際のシナリオでのサイドチャネル攻撃を制限するために、低コストのソリューションとして広く採用されている。 この研究は、動的周波数スケーリングアクチュエータを用いて導入されたトレース変形の存在下でも、サイドチャネルトレース内で暗号プリミティブの実行を検出するための、新しいディープラーニングベースのパイプラインであるHoundを紹介する。 Houndは、RISC-V CPUを内蔵したFPGAベースのシステムオンチップ上で実行される様々な暗号プリミティブに対する攻撃が成功し、動的周波数スケーリングがアクティブである。 DFSで変形した側チャネルトレースにおける暗号プリミティブの同定の可能性を示す実験結果が得られた。

Side-channel attacks allow to extract sensitive information from cryptographic primitives by correlating the partially known computed data and the measured side-channel signal. Starting from the raw side-channel trace, the preprocessing of the side-channel trace to pinpoint the time at which each cryptographic primitive is executed, and, then, to re-align all the collected data to this specific time represent a critical step to setup a successful side-channel attack. The use of hiding techniques has been widely adopted as a low-cost solution to hinder the preprocessing of side-channel traces thus limiting side-channel attacks in real scenarios. This work introduces Hound, a novel deep learning-based pipeline to locate the execution of cryptographic primitives within the side-channel trace even in the presence of trace deformations introduced by the use of dynamic frequency scaling actuators. Hound has been validated through successful attacks on various cryptographic primitives executed on an FPGA-based system-on-chip incorporating a RISC-V CPU, while dynamic frequency scaling is active. Experimental results demonstrate the possibility of identifying the cryptographic primitives in DFS-deformed side-channel traces.
翻訳日:2024-08-13 13:46:08 公開日:2024-08-12
# LEARN: オープンなロバストなオンライン最適化のためのインベックス損失

LEARN: An Invex Loss for Outlier Oblivious Robust Online Optimization ( http://arxiv.org/abs/2408.06297v1 )

ライセンス: Link先を確認
Adarsh Barik, Anand Krishna, Vincent Y. F. Tan, (参考訳) 本研究では,学習者に対して未知の任意のラウンド数kにおける損失関数を破損させることにより,外乱を回避できるロバストなオンライン凸最適化フレームワークについて検討する。 我々の焦点は、リプシッツの仮定に頼らずに、非有界な領域と損失に対する大きな勾配を許容する新しい設定である。 我々は、ログ指数調整ロバストとiNvex損失(LEARN)、非凸(凸)ロバスト損失関数を導入し、外乱の影響を緩和し、LEARN損失を利用してオンライン勾配降下アルゴリズムのロバスト変種を開発する。 不安定なラウンドに関して、ダイナミックな設定で(定数まで)厳密な後悔の保証を確立し、我々の理論を検証する実験を行う。 さらに,非凸(凸)損失に対するオンライン最適化アルゴリズムを開発するための統合分析フレームワークを提案する。

We study a robust online convex optimization framework, where an adversary can introduce outliers by corrupting loss functions in an arbitrary number of rounds k, unknown to the learner. Our focus is on a novel setting allowing unbounded domains and large gradients for the losses without relying on a Lipschitz assumption. We introduce the Log Exponential Adjusted Robust and iNvex (LEARN) loss, a non-convex (invex) robust loss function to mitigate the effects of outliers and develop a robust variant of the online gradient descent algorithm by leveraging the LEARN loss. We establish tight regret guarantees (up to constants), in a dynamic setting, with respect to the uncorrupted rounds and conduct experiments to validate our theory. Furthermore, we present a unified analysis framework for developing online optimization algorithms for non-convex (invex) losses, utilizing it to provide regret bounds with respect to the LEARN loss, which may be of independent interest.
翻訳日:2024-08-13 13:46:08 公開日:2024-08-12
# 安定化器エンタングルメント蒸留と高能率耐故障エンコーダ

Stabilizer Entanglement Distillation and Efficient Fault-Tolerant Encoder ( http://arxiv.org/abs/2408.06299v1 )

ライセンス: Link先を確認
Yu Shi, Ashlesha Patil, Saikat Guha, (参考訳) 絡み合いは量子情報処理には不可欠であるが、ノイズによって制限される。 本研究は,高収率蒸留プロトコルを開発し,いくつかの改良を加えて解決する。 1) 単一ビット誤りの訂正が可能なn-to-(n-1) プロトコルに, 2-to-1 繰り返しエンタングルメント蒸留プロトコルを拡張した。 これらのプロトコルは、忠実度と収率に着目した数値シミュレーションによって評価される。 また,ハダードゲートを組み込むことで,ビットフリップと位相フリップの両方の誤りを訂正できる古典的誤り訂正符号を交絡蒸留に適応させる手法についても概説する。 2) 1量子ビット計測を用いて論理状態から物理状態へ変換する安定化器符号のための定数深さデコーダを提案する。 このデコーダは、絡み込み蒸留プロトコルに適用され、回路深さを減らし、高度な量子誤り訂正符号から導出されるプロトコルを可能にする。 本研究では, 表面符号と量子畳み込み符号に基づいて, 絡み込み蒸留プロトコルの回路複雑性を評価することでこれを実証する。 (3) 安定化器の絡み合った蒸留技術は量子コンピューティングを推し進める。 量子低密度パリティチェック(qLDPC)符号や表面符号に適用可能な,任意の量子状態の一定深度符号化および復号化のためのフォールトトレラントプロトコルを提案する。 このプロトコルは最先端の再構成可能な原子配列で実現可能であり、従来の対数深度エンコーダの限界を超えている。 本研究は, 安定化器形式, 測定ベース量子コンピューティング, エンタングルメント蒸留を総合的に統合し, 量子通信と計算の両方を進展させる。

Entanglement is essential for quantum information processing but is limited by noise. We address this by developing high-yield entanglement distillation protocols with several advancements. (1) We extend the 2-to-1 recurrence entanglement distillation protocol to higher-rate n-to-(n-1) protocols that can correct any single-qubit errors. These protocols are evaluated through numerical simulations focusing on fidelity and yield. We also outline a method to adapt any classical error-correcting code for entanglement distillation, where the code can correct both bit-flip and phase-flip errors by incorporating Hadamard gates. (2) We propose a constant-depth decoder for stabilizer codes that transforms logical states into physical ones using single-qubit measurements. This decoder is applied to entanglement distillation protocols, reducing circuit depth and enabling protocols derived from advanced quantum error-correcting codes. We demonstrate this by evaluating the circuit complexity for entanglement distillation protocols based on surface codes and quantum convolutional codes. (3) Our stabilizer entanglement distillation techniques advance quantum computing. We propose a fault-tolerant protocol for constant-depth encoding and decoding of arbitrary quantum states, applicable to quantum low-density parity-check (qLDPC) codes and surface codes. This protocol is feasible with state-of-the-art reconfigurable atom arrays and surpasses the limits of conventional logarithmic depth encoders. Overall, our study integrates stabilizer formalism, measurement-based quantum computing, and entanglement distillation, advancing both quantum communication and computing.
翻訳日:2024-08-13 13:46:08 公開日:2024-08-12
# グラフ空間におけるプログラム可能な非線形機能応答を持つ逆設計メタマテリアル

Inverse designing metamaterials with programmable nonlinear functional responses in graph space ( http://arxiv.org/abs/2408.06300v1 )

ライセンス: Link先を確認
Marco Maurizi, Derek Xu, Yu-Tong Wang, Desheng Yao, David Hahn, Mourad Oudich, Anish Satpati, Mathieu Bauchy, Wei Wang, Yizhou Sun, Yun Jing, Xiaoyu Rayne Zheng, (参考訳) 非線形曲線として表される静的および動的刺激に対する材料応答は、構造的支持、衝撃保護、音響およびフォトニックバンドギャップのような工学的機能のための設計目標である。 三次元メタマテリアルは内部構造のために大きなチューニング性を提供するが、既存の手法は複雑な振る舞いと構造の関係を捉えるのに苦労する。 プログラム可能な応答と任意の製造制約を持つ3次元メタマテリアルを設計できるグラフベースのフレームワークであるGraphMetaMatを提案する。 グラフネットワーク、物理バイアス、強化学習、木探索を統合することで、GraphMetaMatは4桁のスケールと複雑な振る舞いにまたがる応力-ひずみ曲線、および様々な減衰ギャップを持つ粘弾性伝達応答を目標にすることができる。 GraphMetaMatは、電気自動車用の防護具や振動減衰パネル用のクッション材料を作成し、商用材料より優れ、オンデマンド機能を持つ材料の自動設計を可能にする。

Material responses to static and dynamic stimuli, represented as nonlinear curves, are design targets for engineering functionalities like structural support, impact protection, and acoustic and photonic bandgaps. Three-dimensional metamaterials offer significant tunability due to their internal structure, yet existing methods struggle to capture their complex behavior-to-structure relationships. We present GraphMetaMat, a graph-based framework capable of designing three-dimensional metamaterials with programmable responses and arbitrary manufacturing constraints. Integrating graph networks, physics biases, reinforcement learning, and tree search, GraphMetaMat can target stress-strain curves spanning four orders of magnitude and complex behaviors, as well as viscoelastic transmission responses with varying attenuation gaps. GraphMetaMat can create cushioning materials for protective equipment and vibration-damping panels for electric vehicles, outperforming commercial materials, and enabling the automatic design of materials with on-demand functionalities.
翻訳日:2024-08-13 13:46:08 公開日:2024-08-12
# 制御フローの検証 - 概念,ソリューション,オープンな課題

Control-Flow Attestation: Concepts, Solutions, and Open Challenges ( http://arxiv.org/abs/2408.06304v1 )

ライセンス: Link先を確認
Zhanyu Sha, Carlton Shepherd, Amir Rafi, Konstantinos Markantonakis, (参考訳) 制御フロー検証(CFA)は、ターゲットのランタイム動作を測定して報告することにより、制御フローの完全性とプラットフォーム検証の世界を統一する。 ターゲットの信頼保証は、その実行が認可された制御フローパスに従うかどうかをテストすることによって提供される。 この問題は、サイバー物理システムの信頼性、IoTデバイス、クラウドプラットフォームなど、さまざまな環境で調査されてきた。 近年、かなりの数の提案がなされているが、その領域は断片化されており、異なる敵の振る舞い、検証パラダイム、デプロイメントの課題に対処している。 本稿では、制御フローの検証に関する最初の調査を行い、最先端のスキームにおける中核的な考え方と解決策について考察する。 2016~2024年の間に発行された30以上の論文を調査し、主要な特徴の統合と比較を行い、この分野の今後の研究にいくつかの課題と勧告を提示した。

Control-flow attestation (CFA) unifies the worlds of control-flow integrity and platform attestation by measuring and reporting a target's run-time behaviour to a verifier. Trust assurances in the target are provided by testing whether its execution follows an authorised control-flow path. The problem has been explored in various settings, such as assessing the trustworthiness of cyber-physical systems, Internet of Things devices, cloud platforms, and many others. Despite a significant number of proposals being made in recent years, the area remains fragmented, addressing different adversarial behaviours, verification paradigms, and deployment challenges. In this paper, we present the first survey of control-flow attestation, examining the core ideas and solutions in state-of-the-art schemes. In total, we survey over 30 papers published between 2016-2024, consolidate and compare their key features, and pose several challenges and recommendations for future research in the area.
翻訳日:2024-08-13 13:46:08 公開日:2024-08-12
# SAMからSAM 2: Metaのセグメンテーションモデルの改善を探る

From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model ( http://arxiv.org/abs/2408.06305v1 )

ライセンス: Link先を確認
Athulya Sundaresan Geetha, Muhammad Hussain, (参考訳) SAM(Segment Anything Model)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された、テキスト、クリック、バウンディングボックスなどのプロンプトに基づいた画像中のオブジェクトの自動セグメンテーションを可能にする画期的なツールである。 SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。 SAM 2は、この機能をビデオに拡張し、前後のフレームからのメモリを活用して、ビデオ全体の正確なセグメンテーションを生成し、ほぼリアルタイムのパフォーマンスを実現する。 この比較は、SAMが様々なアプリケーションにおいて、正確かつ効率的なセグメンテーションの必要性の高まりに対応するためにどのように進化してきたかを示している。 この研究は、SAMのようなモデルの将来的な進歩がコンピュータビジョン技術の改善に不可欠であることを示唆している。

The Segment Anything Model (SAM), introduced to the computer vision community by Meta in April 2023, is a groundbreaking tool that allows automated segmentation of objects in images based on prompts such as text, clicks, or bounding boxes. SAM excels in zero-shot performance, segmenting unseen objects without additional training, stimulated by a large dataset of over one billion image masks. SAM 2 expands this functionality to video, leveraging memory from preceding and subsequent frames to generate accurate segmentation across entire videos, enabling near real-time performance. This comparison shows how SAM has evolved to meet the growing need for precise and efficient segmentation in various applications. The study suggests that future advancements in models like SAM will be crucial for improving computer vision technology.
翻訳日:2024-08-13 13:46:08 公開日:2024-08-12
# 翻訳不変多体系におけるモメンタム依存型量子ルエル・ポリコット共鳴

Momentum dependent quantum Ruelle-Pollicott resonances in translationally invariant many-body systems ( http://arxiv.org/abs/2408.06307v1 )

ライセンス: Link先を確認
Marko Znidaric, (参考訳) 無限系上の運動量分解作用素プロパゲータのスペクトルを用いて、変換不変な量子多体系におけるルエル・ポリコット共鳴を研究する。 モメンタム依存は相関関数の崩壊に関する洞察を与え、それらの対称性によって、一般に異なる速度で崩壊する相関関数が異なることを示す。 キックされたイジングモデルに焦点をあてると、スペクトルは典型的には、我々が理論的に予測する環のような環状のランダム行列から成り、孤立共鳴は少ない。 相関関数のパワー-ロー崩壊を伴う混合状態を含むいくつかの興味深い規則を同定する。 この体制では、異なる相関関数の時間スケールの大きな違いも観察する。 作用素プロパゲータの特異値に対する正確な式が予想され、特別な点で特異となることを示す。

We study Ruelle-Pollicott resonances in translationally invariant quantum many-body systems via spectra of momentum-resolved operator propagator on infinite systems. Momentum dependence gives insight into decay of correlation functions, showing that, depending on their symmetries, different correlation functions in general decay with different rates. Focusing on the kicked Ising model the spectrum seems to be typically composed of an annular random matrix like ring whose size we theoretically predict, and few isolated resonances. We identify several interesting regimes, including a mixing regime with a power-law decay of correlation functions. In that regime we also observe a huge difference in time-scales of different correlation functions. An exact expression for the singular values of the operator propagator is conjectured, showing that it becomes singular at a special point.
翻訳日:2024-08-13 13:46:08 公開日:2024-08-12
# 不整合性保存性の動的資源理論

Dynamical resource theory of incompatibility preservability ( http://arxiv.org/abs/2408.06315v1 )

ライセンス: Link先を確認
Chung-Yun Hsieh, Benjamin Stratton, Chao-Hsien Wu, Huan-Yu Ku, (参考訳) 不確実性原理は量子理論の最も基本的な特徴の1つである。 単一の量子系の2つの物理観測可能量は、必ずしも同時に測定されるとは限らない。 基本的に重要であることとは別に、測定不整合性は、暗号、通信、乱数生成、デバイスに依存しないタスクに広く応用される幅広い量子科学と技術において、強力なリソースである。 すべての物理系は必然的にノイズに晒されるため、重要な、しかしまだ開いている問題として、量子力学のノイズが測定不整合性を維持する能力をどのように特徴付けるかがあげられる。 この研究は、この能力に関する最初の資源理論を提供することにより、このギャップを埋める。 我々は、ロバストネス尺度で不整合性保存性を定量化する。 そこで本稿では,頑健性対策と不整合性の変換を両立させるために,操作タスク,絡み合い支援フィルタゲームを導入する。 この結果から,ノイズ力学が不確実性原理のシグネチャにどのように影響するかを記述するための一般的な枠組みが得られた。

The uncertainty principle is one of quantum theory's most foundational features. It underpins a quantum phenomenon called measurement incompatibility -- two physical observables of a single quantum system may not always be measured simultaneously. Apart from being fundamentally important, measurement incompatibility is also a powerful resource in the broad quantum science and technologies, with wide applications to cryptography, communication, random number generation, and device-independent tasks. Since every physical system is unavoidably subject to noise, an important, yet still open, question is how to characterise the ability of noisy quantum dynamics to preserve measurement incompatibility. This work fills this gap by providing the first resource theory of this ability, termed incompatibility preservability. We quantify incompatibility preservability by a robustness measure. Then, we introduce an operational task, entanglement-assisted filter game, to completely characterise both the robustness measure and the conversion of incompatibility preservability. Our results provide a general framework to describe how noisy dynamics affect the uncertainty principle's signature.
翻訳日:2024-08-13 13:46:07 公開日:2024-08-12
# 簡単な光学系における1-4次元超立方体クラスター状態の生成

Generation of hypercubic cluster states in 1-4 dimensions in a simple optical system ( http://arxiv.org/abs/2408.06317v1 )

ライセンス: Link先を確認
Zhifan Zhou, Luís E. E. de Araujo, Matt Dimario, Jie Zhao, Jing Su, Meng-Chang Wu, B. E. Anderson, Kevin M. Jones, Paul D. Lett, (参考訳) 絡み合ったグラフ状態は量子センシングや計算用途に利用できる。 測定に基づく量子コンピューティングスキームにおける誤差補正は、少なくとも3次元のクラスター状態の構築を必要とする。 ここでは、複数の周波数で駆動される電気光学変調器(EOM)を介して、ブロードバンド2モードの真空印加光を送信することにより、1次元、2次元、3次元、4次元の光周波数モードクラスタ状態を生成する。 我々は、Zhuらによって提案されたように、Rb原子蒸気中の4波長の混合を用いて圧縮光を生成し、EOMを用いてサイドバンド周波数(qumodes)を混合し、数百のqumodを含む連続変数グラフ状態を構成する絡み合い相関パターンを生成する。 我々は、ホモダイン測定を用いて絡み合い構造を検証し、共分散行列を構築し、無効化器を評価する。 この技術は、損失を増大させることなく、複数の次元に光クラスター状態のスケーリングを可能にする。

Entangled graph states can be used for quantum sensing and computing applications. Error correction in measurement-based quantum computing schemes will require the construction of cluster states in at least 3 dimensions. Here we generate 1-, 2-, 3-, and 4-dimensional optical frequency-mode cluster states by sending broadband 2-mode vacuum-squeezed light through an electro-optical modulator (EOM) driven with multiple frequencies. We create the squeezed light using 4-wave mixing in Rb atomic vapor and mix the sideband frequencies (qumodes) using an EOM, as proposed by Zhu et al. (1), producing a pattern of entanglement correlations that constitute continuous-variable graph states containing up to several hundred qumodes. We verify the entanglement structure by using homodyne measurements to construct the covariance matrices and evaluate the nullifiers. This technique enables scaling of optical cluster states to multiple dimensions without increasing loss.
翻訳日:2024-08-13 13:46:07 公開日:2024-08-12
# EqNIO: 準同変神経慣性オドメトリー

EqNIO: Subequivariant Neural Inertial Odometry ( http://arxiv.org/abs/2408.06321v1 )

ライセンス: Link先を確認
Royina Karegoudra Jayanth, Yinshuang Xu, Ziyun Wang, Evangelos Chatzipantazis, Daniel Gehrig, Kostas Daniilidis, (参考訳) 現在、ニューラルネットワークは、フィルタの更新ステップの測定と不確実性として拡張カルマンフィルタ(EKF)のような確率的フィルタネットワークに統合可能な慣性測定ユニット(IMU)データから2次元変位と関連する不確実性を正確に推定するために広く使用されている。 しかし、そのようなニューラルアプローチはモデル一般化にとって決定的な帰納的バイアスである対称性を見落としている。 この監視は注目すべきです。 一 物理法則が重力軸を考えるときの対称性の原則に従属すること。つまり、物理的実体と結果の軌道の両方に同じ変換が存在すること。 (ii)慣性フレームが変化するとき、変位はフレーム変換と等しくなる。 これを解決するために、以下に示すような変分フレームワークを提案する。 i) ベクトルとスカラーの列を扱うように設計された、準同変ネットワークのための線形層や非線形層などの基本層を導出すること。 (2)等変ネットワークを用いて慣性測定の順序の同変フレームを予測する。 この予測フレームは、任意のネットワークアーキテクチャと統合されたプロジェクションを通じて不変な特徴を抽出するために利用することができる。 三 フレーム変換により不変出力を変換し、等変変位と共分散を得る。 本稿では,TLIOおよびAriaデータセットに対するTLIOアーキテクチャを用いたフィルタベースのアプローチと,RONIN,RIDI,OxIODデータセットに対するRONINアーキテクチャを用いたエンドツーエンドディープラーニングアプローチについて,Equivariant Frameworkの有効性と一般化を実証する。

Presently, neural networks are widely employed to accurately estimate 2D displacements and associated uncertainties from Inertial Measurement Unit (IMU) data that can be integrated into stochastic filter networks like the Extended Kalman Filter (EKF) as measurements and uncertainties for the update step in the filter. However, such neural approaches overlook symmetry which is a crucial inductive bias for model generalization. This oversight is notable because (i) physical laws adhere to symmetry principles when considering the gravity axis, meaning there exists the same transformation for both the physical entity and the resulting trajectory, and (ii) displacements should remain equivariant to frame transformations when the inertial frame changes. To address this, we propose a subequivariant framework by: (i) deriving fundamental layers such as linear and nonlinear layers for a subequivariant network, designed to handle sequences of vectors and scalars, (ii) employing the subequivariant network to predict an equivariant frame for the sequence of inertial measurements. This predicted frame can then be utilized for extracting invariant features through projection, which are integrated with arbitrary network architectures, (iii) transforming the invariant output by frame transformation to obtain equivariant displacements and covariances. We demonstrate the effectiveness and generalization of our Equivariant Framework on a filter-based approach with TLIO architecture for TLIO and Aria datasets, and an end-to-end deep learning approach with RONIN architecture for RONIN, RIDI and OxIOD datasets.
翻訳日:2024-08-13 13:46:07 公開日:2024-08-12
# HeLiMOS: 異種LiDARセンサから3次元点雲に物体セグメンテーションを移動させるデータセット

HeLiMOS: A Dataset for Moving Object Segmentation in 3D Point Clouds From Heterogeneous LiDAR Sensors ( http://arxiv.org/abs/2408.06328v1 )

ライセンス: Link先を確認
Hyungtae Lim, Seoyeon Jang, Benedikt Mersch, Jens Behley, Hyun Myung, Cyrill Stachniss, (参考訳) 3次元光検出・測光センサ(LiDAR)を用いた移動物体セグメンテーション(MOS)は,移動物体のシーン理解と識別に不可欠である。 様々な種類の3DLiDARセンサーが市場に出回っているにもかかわらず、MOSの研究は依然として機械的に回転する全方位LiDARセンサーの3D点雲に重点を置いている。 したがって、例えば、不規則な走査パターンを持つ固体LiDARセンサから点雲のMOSラベル付きデータセットを欠いている。 本稿では,2つの固体LiDARセンサを含む4つの異種LiDARセンサ上でMOSアプローチをテストするためのラベル付きデータセットである‘textit{HeLiMOS} を提案する。 さらに,人間のアノテータから必要なラベリング作業を大幅に削減するために,新しい自動ラベリング手法を提案する。 この目的のために、我々のフレームワークはインスタンス対応の静的マップ構築アプローチと追跡ベースの偽ラベルフィルタリングを利用する。 最後に,センサ非依存型MOSの新たな方向を示唆するHeLiMOS上での最先端MOS手法の性能に関する実験結果を示す。 私たちのデータセットはhttps://sites.google.com/view/helimos.comで公開されています。

Moving object segmentation (MOS) using a 3D light detection and ranging (LiDAR) sensor is crucial for scene understanding and identification of moving objects. Despite the availability of various types of 3D LiDAR sensors in the market, MOS research still predominantly focuses on 3D point clouds from mechanically spinning omnidirectional LiDAR sensors. Thus, we are, for example, lacking a dataset with MOS labels for point clouds from solid-state LiDAR sensors which have irregular scanning patterns. In this paper, we present a labeled dataset, called \textit{HeLiMOS}, that enables to test MOS approaches on four heterogeneous LiDAR sensors, including two solid-state LiDAR sensors. Furthermore, we introduce a novel automatic labeling method to substantially reduce the labeling effort required from human annotators. To this end, our framework exploits an instance-aware static map building approach and tracking-based false label filtering. Finally, we provide experimental results regarding the performance of commonly used state-of-the-art MOS approaches on HeLiMOS that suggest a new direction for a sensor-agnostic MOS, which generally works regardless of the type of LiDAR sensors used to capture 3D point clouds. Our dataset is available at https://sites.google.com/view/helimos.
翻訳日:2024-08-13 13:46:07 公開日:2024-08-12
# スマートシステムにおけるブロックチェーンの統合 - リアルタイムセンサデータストレージの問題と機会

Integration of blockchain in smart systems: problems and opportunities for real-time sensor data storage ( http://arxiv.org/abs/2408.06331v1 )

ライセンス: Link先を確認
Naseem Alsadi, Syed Zaidi, Mankaran Rooprai, Stephen A. Gadsden, John Yawney, (参考訳) モノのインターネット(IoT)やその他の新興ユビキタス技術は、安全でオープンで分散化されたデータストレージソリューションの必要性を根拠に、スマートシステムの急速な普及を支援している。 本質的に分散化と不変性によって、ブロックチェーンは、これらの要件に対する潜在的なソリューションとして自らを提供する。 しかし、ブロックチェーンをリアルタイムセンサーデータストレージシステムに組み込むことの実用性は、詳細な検査を必要とするトピックである。 ブロックチェーンは、整合性のないデータセキュリティと監査の可能性を約束する一方で、スケーラビリティの制限、トランザクション遅延、ストレージ要求のエスカレーションといった、固有の性質によって、リアルタイムセンサーに典型的な高周波で光沢のあるデータコンテキストへのシームレスなデプロイメントを妨げている。 このエッセイは、これらの困難に対する方法論的な調査を開始し、その根本原因、潜在的な効果、潜在的な対策を明らかにしている。 さらに、スマートシステムエコシステムにブロックチェーンベースのソリューションをデプロイするメリットとデメリットについて、さらに議論した上で、スマートシステムアプリケーションのためのブロックチェーンの実践的なセットアップと分析について紹介する。

The internet of things (IoT) and other emerging ubiquitous technologies are supporting the rapid spread of smart systems, which has underlined the need for safe, open, and decentralized data storage solutions. With its inherent decentralization and immutability, blockchain offers itself as a potential solution for these requirements. However, the practicality of incorporating blockchain into real-time sensor data storage systems is a topic that demands in-depth examination. While blockchain promises unmatched data security and auditability, some intrinsic qualities, namely scalability restrictions, transactional delays, and escalating storage demands, impede its seamless deployment in high-frequency, voluminous data contexts typical of real-time sensors. This essay launches a methodical investigation into these difficulties, illuminating their underlying causes, potential effects, and potential countermeasures. In addition, we present a novel pragmatic experimental setup and analysis of blockchain for smart system applications, with an extended discussion of the benefits and disadvantages of deploying blockchain based solutions for smart system ecosystems.
翻訳日:2024-08-13 13:46:07 公開日:2024-08-12
# 一般化ランダウパラダイムにおける絡み合いと密度行列再正規化群

Entanglement and the density matrix renormalisation group in the generalised Landau paradigm ( http://arxiv.org/abs/2408.06334v1 )

ライセンス: Link先を確認
Laurens Lootens, Clement Delcamp, Frank Verstraete, (参考訳) 対称1次元量子格子モデルのギャップ位相と双対性の間の相互作用を利用して、構造が準粒子励起を符号化する双対(生成)対称性の最大破れによって、全ての位相が効率的に特徴づけられることを示す。 この結果は、変分テンソルネットワーク法を用いた多体システムのシミュレーションの複雑さに強い影響を及ぼす。 位相図のすべての位相について、すべての対称性を破る基底状態の双対表現は、絡み合いエントロピーと必要な変分パラメータの数の両方を最小化する。 本稿では, ヒルベルト空間上の一般化密度行列再正規化群アルゴリズムを開発し, 従来のDMRG法で得られた計算ゲインを, 摂動ハイゼンベルクモデルで定量化することにより, この考え方の適用性を実証する。 本研究は,高相関系のナッツ・ボルトシミュレーションにおける一般化非可逆対称性の有用性とそれらの形式的カテゴリー論的記述を検証した。

We leverage the interplay between gapped phases and dualities of symmetric one-dimensional quantum lattice models to demonstrate that every phase is efficiently characterised by the maximal breaking of the dual (genereralised) symmetry whose structure encodes the quasiparticle excitations. This result has strong implications for the complexity of simulating many-body systems using variational tensor network methods. For every phase in the phase diagram, the dual representation of the ground state that breaks all symmetries minimises both the entanglement entropy and the required number of variational parameters. We demonstrate the applicability of this idea by developing a generalised density matrix renormalisation group algorithm that works on (dual) constrained Hilbert spaces, and quantify the computational gains obtained over traditional DMRG methods in a perturbed Heisenberg model. Our work testifies to the usefulness of generalised non-invertible symmetries and their formal category theoretic description for the nuts and bolts simulation of strongly correlated systems.
翻訳日:2024-08-13 13:46:07 公開日:2024-08-12
# Moo-ving beyond Tradition:Revolutionizing Cattle Behavioural Phenotyping with Pose Estimation Techniques

Moo-ving Beyond Tradition: Revolutionizing Cattle Behavioural Phenotyping with Pose Estimation Techniques ( http://arxiv.org/abs/2408.06336v1 )

ライセンス: Link先を確認
Navid Ghassemi, Ali Goldani, Ian Q. Whishaw, Majid H. Mohajerani, (参考訳) 牛産業は米国やカナダを含む多くの国の経済に大きく貢献している。 人工知能(AI)の統合は、このセクターに革命をもたらし、スケーラブルで自動化された監視と介入のプラクティスを可能にすることによって、すべての産業における変革的な影響を反映している。 AIはまた、健康検査を含むコンピュータビジョンの助けを借りて、以前人間の労働によって行われた多くのタスクを自動化するツールや方法も導入している。 これらの方法のうち、ポーズ推定には特別な場所があり、ポーズ推定は動物の画像における関節の位置を見つける過程である。 動物のポーズを分析することで、動物の動きと身体部分の動きを正確に識別し、追跡することができる。 映像と画像データをポーズ推定を用いて動きと関節の位置に要約し,その情報を解析することにより,健康モニタリング,行動表現,福祉の懸念に焦点をあてて,牛経営におけるスケーラビリティの課題に対処することができる。 本研究は, ポーズ推定手法の最近の進歩, 牛産業改善への適用性, 既存の課題, この分野におけるギャップについて検討した。 さらに,本研究分野におけるオープンサイエンスの枠組みを強化するための取り組みとして,産学と産学を結びつけるためのプラットフォームを立ち上げる。

The cattle industry has been a major contributor to the economy of many countries, including the US and Canada. The integration of Artificial Intelligence (AI) has revolutionized this sector, mirroring its transformative impact across all industries by enabling scalable and automated monitoring and intervention practices. AI has also introduced tools and methods that automate many tasks previously performed by human labor with the help of computer vision, including health inspections. Among these methods, pose estimation has a special place; pose estimation is the process of finding the position of joints in an image of animals. Analyzing the pose of animal subjects enables precise identification and tracking of the animal's movement and the movements of its body parts. By summarizing the video and imagery data into movement and joint location using pose estimation and then analyzing this information, we can address the scalability challenge in cattle management, focusing on health monitoring, behavioural phenotyping and welfare concerns. Our study reviews recent advancements in pose estimation methodologies, their applicability in improving the cattle industry, existing challenges, and gaps in this field. Furthermore, we propose an initiative to enhance open science frameworks within this field of study by launching a platform designed to connect industry and academia.
翻訳日:2024-08-13 13:46:07 公開日:2024-08-12
# 普遍量子プロセッサにおける中心電荷の測定

Measuring central charge on a universal quantum processor ( http://arxiv.org/abs/2408.06342v1 )

ライセンス: Link先を確認
Nazlı Uğur Köylüoğlu, Swarndeep Majumder, Mirko Amico, Sarah Mostame, Ewout van den Berg, M. A. Rajabpour, Zlatko Minev, Khadijeh Najafi, (参考訳) 中心電荷は共形場理論(CFT)の基本量であり、二次元系の臨界点の普遍性クラスを決定する上で重要な役割を果たす。 その重要性にもかかわらず、中心電荷の測定はいまだに解明されていない。 そこで本研究では,量子プロセッサを用いた中心電荷の実験的決定について述べる。 古典的に最適化された変分量子回路と高度な誤差緩和技術を用いて、臨界点における様々な1+1D$量子スピンチェーンモデルの基底状態の調製に成功した。 IBM量子プロセッサのヘビーヘックス構造を利用して、周期的境界条件を実装し、境界効果を軽減することができる。 次に、古典シャノンエントロピーの R{\'{e}}nyi という部分リード項のスケーリングの挙動から中心電荷を抽出し、共形基底 (\sigma^{z}$ および $\sigma^x$) の局所パウリ測度に対して計算する。 実験結果は、横フィールドIsing (TFI) チェーン (c=0.5$) とXXZ チェーン (c=1$) の既知の中心電荷値と一致し、相対誤差を5%以下にする。

Central charge is a fundamental quantity in conformal field theories (CFT), and plays a crucial role in determining universality classes of critical points in two-dimensional systems. Despite its significance, the measurement of central charge has remained elusive thus far. In this work, we present the first experimental determination of the central charge using a universal quantum processor. Using a classically optimized variational quantum circuit and employing advanced error mitigation techniques, we successfully prepare ground states of various $1+1D$ quantum spin chain models at their critical point. Leveraging the heavy-hex structure of IBM quantum processors, we are able to implement periodic boundary conditions and mitigate boundary effects. We then extract the central charge from the scaling behavior of the sub-leading term of R{\'{e}}nyi generalizations of classical Shannon entropy, computed for local Pauli measurements in the conformal bases ($\sigma^{z}$ and $\sigma^x$). The experimental results are consistent with the known central charge values for the transverse field Ising (TFI) chain ($c=0.5$) and the XXZ chain ($c=1$), achieving relative errors as low as 5 percent.
翻訳日:2024-08-13 13:46:07 公開日:2024-08-12
# フィッシングWebページの検出と識別のためのマルチモーダル大言語モデル

Multimodal Large Language Models for Phishing Webpage Detection and Identification ( http://arxiv.org/abs/2408.05941v1 )

ライセンス: Link先を確認
Jehyun Lee, Peiyuan Lim, Bryan Hooi, Dinil Mon Divakaran, (参考訳) フィッシングWebページの検出という課題に対処するため、研究者は機械学習(ML)アルゴリズムに基づく多くのソリューションを開発した。 中でも、あるWebページが有名ブランドを模倣しているかどうかを検出するために、Computer Visionのモデルを使用するブランドベースのフィッシング検出は、広く注目を集めている。 しかしながら、このようなモデルは、定期的に継続的に収集される必要があるラベル付きデータセットで再トレーニングされる必要があるため、コストが高く、メンテナンスが難しい。 さらに、優れたパフォーマンスを得るためには、よく知られたWebサイトと関連するメタデータの参照リストを維持する必要がある。 本研究では,大規模言語モデル(LLM),特にマルチモーダル LLM のフィッシングWebページの検出における有効性について検討する。 LLMは大規模なデータコーパスで事前訓練されているので、Webページの異なる側面(ログ、テーマ、ファビコンなど)の理解を活用して、指定されたWebページのブランドを特定し、識別されたブランドとURLのドメイン名を比較してフィッシング攻撃を検出する。 両フェーズにLLMを用いた2相システムを提案する。第1フェーズはブランド識別に焦点を当て,第2フェーズはドメインを検証する。 新たに収集したデータセットに対して総合的な評価を行う。 実験の結果,LLMに基づくシステムは高い精度で高い検出率を達成できることが判明した。 また,既存のブランドベースのフィッシング検出システムよりも,2つの敵攻撃に対する堅牢性を実証し,性能を著しく向上させた。

To address the challenging problem of detecting phishing webpages, researchers have developed numerous solutions, in particular those based on machine learning (ML) algorithms. Among these, brand-based phishing detection that uses models from Computer Vision to detect if a given webpage is imitating a well-known brand has received widespread attention. However, such models are costly and difficult to maintain, as they need to be retrained with labeled dataset that has to be regularly and continuously collected. Besides, they also need to maintain a good reference list of well-known websites and related meta-data for effective performance. In this work, we take steps to study the efficacy of large language models (LLMs), in particular the multimodal LLMs, in detecting phishing webpages. Given that the LLMs are pretrained on a large corpus of data, we aim to make use of their understanding of different aspects of a webpage (logo, theme, favicon, etc.) to identify the brand of a given webpage and compare the identified brand with the domain name in the URL to detect a phishing attack. We propose a two-phase system employing LLMs in both phases: the first phase focuses on brand identification, while the second verifies the domain. We carry out comprehensive evaluations on a newly collected dataset. Our experiments show that the LLM-based system achieves a high detection rate at high precision; importantly, it also provides interpretable evidence for the decisions. Our system also performs significantly better than a state-of-the-art brand-based phishing detection system while demonstrating robustness against two known adversarial attacks.
翻訳日:2024-08-13 13:35:58 公開日:2024-08-12
# ConvKGYarn: 大きな言語モデルを用いたスピンニング構成可能でスケーラブルな会話型知識グラフQAデータセット

ConvKGYarn: Spinning Configurable and Scalable Conversational Knowledge Graph QA datasets with Large Language Models ( http://arxiv.org/abs/2408.05948v1 )

ライセンス: Link先を確認
Ronak Pradeep, Daniel Lee, Ali Mousavi, Jeff Pound, Yisi Sang, Jimmy Lin, Ihab Ilyas, Saloni Potdar, Mostafa Arefiyan, Yunyao Li, (参考訳) 大規模言語モデル(LLM)と会話アシスタントの急速な進歩は、トレーニングと評価のために動的でスケーラブルで構成可能な会話データセットを必要とする。 これらのデータセットは、テキストや音声を含む多様なユーザーインタラクションモードに対応できなければならない。 知識グラフ(KG)は構造的かつ進化的な性質を持ち、現在の正確な知識に理想的な基盤を提供する。 人間によるKGベースの会話データセットは存在するが、急速に変化するユーザー情報のニーズに合わせるのに苦労している。 ConvKGarnは、最新のかつ構成可能な会話型KGQAデータセットを生成するスケーラブルな方法である。 定性的な心理測定分析により、一般的な会話型KGQAデータセットに匹敵する高品質なデータセットを生成するとともに、それを大規模に提供し、幅広いヒューマンインタラクション構成をカバーできることを確認した。 同じKGファクトセットに異なる構成を持つ会話型KGQA集合のモデル挙動を探索する。 本研究は,KGQAの基礎を改良し,LLMのパラメトリック知識を評価するConvKGYarnの能力を強調した。

The rapid advancement of Large Language Models (LLMs) and conversational assistants necessitates dynamic, scalable, and configurable conversational datasets for training and evaluation. These datasets must accommodate diverse user interaction modes, including text and voice, each presenting unique modeling challenges. Knowledge Graphs (KGs), with their structured and evolving nature, offer an ideal foundation for current and precise knowledge. Although human-curated KG-based conversational datasets exist, they struggle to keep pace with the rapidly changing user information needs. We present ConvKGYarn, a scalable method for generating up-to-date and configurable conversational KGQA datasets. Qualitative psychometric analyses confirm our method can generate high-quality datasets rivaling a popular conversational KGQA dataset while offering it at scale and covering a wide range of human-interaction configurations. We showcase its utility by testing LLMs on diverse conversations - exploring model behavior on conversational KGQA sets with different configurations grounded in the same KG fact set. Our results highlight the ability of ConvKGYarn to improve KGQA foundations and evaluate parametric knowledge of LLMs, thus offering a robust solution to the constantly evolving landscape of conversational assistants.
翻訳日:2024-08-13 13:35:58 公開日:2024-08-12
# リーンスパイク列車アンサンブル符号からの連続時間信号のロバストオンライン再構成

Robust online reconstruction of continuous-time signals from a lean spike train ensemble code ( http://arxiv.org/abs/2408.05950v1 )

ライセンス: Link先を確認
Anik Chattopadhyay, Arunava Banerjee, (参考訳) 動物の感覚刺激は神経細胞によってスパイクトレインに符号化され、空間性、エネルギー効率、高時間分解能などの利点を提供する。 本稿では, 連続時間信号を生物学的に実現可能なスパイクトレインに決定的に符号化し, 表現可能な信号クラスと再構成境界に関する問題に対処する信号処理フレームワークを提案する。 このフレームワークは、神経細胞のアンサンブルによって生成されたスパイクトレインを経由した信号の符号化を、様々なコンボリューションカーネルを持つコンボリューブ・スレッショルド機構を用いて検討する。 スパイクトレインから信号再構成までの逆問題に対する閉形式解は、シフトしたカーネル関数のヒルベルト空間から導出され、一般化されたFRI(Finite Rate of Innovation)クラスの信号の疎表現が保証される。 さらに、生物学的システムにおけるリアルタイム処理に触発されて、過去のスパイクの有限ウィンドウのみを考慮した効率的な最適再構成の反復バージョンが定式化され、不条件符号化に対する技術の堅牢性を確保し、ウィンドウ化された再構成の最適解への収束を保証する。 大規模なオーディオデータセットの実験では、スパイクレートがNyquistレートの5分の1以下であるのに対して、スパイクレートの低い状態での最先端のスパース符号化技術と比較して、明らかな競争上の優位性を示している。

Sensory stimuli in animals are encoded into spike trains by neurons, offering advantages such as sparsity, energy efficiency, and high temporal resolution. This paper presents a signal processing framework that deterministically encodes continuous-time signals into biologically feasible spike trains, and addresses the questions about representable signal classes and reconstruction bounds. The framework considers encoding of a signal through spike trains generated by an ensemble of neurons using a convolve-then-threshold mechanism with various convolution kernels. A closed-form solution to the inverse problem, from spike trains to signal reconstruction, is derived in the Hilbert space of shifted kernel functions, ensuring sparse representation of a generalized Finite Rate of Innovation (FRI) class of signals. Additionally, inspired by real-time processing in biological systems, an efficient iterative version of the optimal reconstruction is formulated that considers only a finite window of past spikes, ensuring robustness of the technique to ill-conditioned encoding; convergence guarantees of the windowed reconstruction to the optimal solution are then provided. Experiments on a large audio dataset demonstrate excellent reconstruction accuracy at spike rates as low as one-fifth of the Nyquist rate, while showing clear competitive advantage in comparison to state-of-the-art sparse coding techniques in the low spike rate regime.
翻訳日:2024-08-13 13:35:58 公開日:2024-08-12
# Markov Senior - ユーザ指定コンテンツを生成するためにMarkov Junior Grammarsを学ぶ

Markov Senior -- Learning Markov Junior Grammars to Generate User-specified Content ( http://arxiv.org/abs/2408.05959v1 )

ライセンス: Link先を確認
Mehmet Kayra Oğuz, Alexander Dockhorn, (参考訳) マルコフ・ジュニア(Markov Junior)は、様々なドメインにまたがる手続き的コンテンツ生成に使用される確率的プログラミング言語である。 しかし、手作業で作成・調整された確率的ルールセット(文法とも呼ばれる)に依存しているため、例から規則を学習できるアプローチから逸脱した、重大なボトルネックが提示される。 本稿では,階層型ルールセットを自動学習するための遺伝的プログラミングに基づく最適化フレームワークを導入することで,この問題に対する新たな解決策を提案する。 提案手法である<Markov Senior'は,Markov Juniorが使用する確率的ルールを構築するために,単一入力サンプルから位置関係と距離関係を抽出することに焦点を当てている。 Kullback-Leibler の発散度に基づく適合度尺度を用いて文法を探索し,与えられたサンプルと一貫性のあるコンテンツを生成する。 スケーラビリティを向上させるため,大規模コンテンツの効率的な生成を可能にする分割・分散戦略を導入する。 我々は,画像ベースのコンテンツとスーパーマリオレベルの生成実験を通じて,その柔軟性と有効性を実証し,そのアプローチを検証する。 このようにして、 ``Markov Senior'' は、例が利用可能なタスクに対して Markov Junior のより広範な適用を可能にするが、生成ルールセットの設計は不可能である。

Markov Junior is a probabilistic programming language used for procedural content generation across various domains. However, its reliance on manually crafted and tuned probabilistic rule sets, also called grammars, presents a significant bottleneck, diverging from approaches that allow rule learning from examples. In this paper, we propose a novel solution to this challenge by introducing a genetic programming-based optimization framework for learning hierarchical rule sets automatically. Our proposed method ``Markov Senior'' focuses on extracting positional and distance relations from single input samples to construct probabilistic rules to be used by Markov Junior. Using a Kullback-Leibler divergence-based fitness measure, we search for grammars to generate content that is coherent with the given sample. To enhance scalability, we introduce a divide-and-conquer strategy that enables the efficient generation of large-scale content. We validate our approach through experiments in generating image-based content and Super Mario levels, demonstrating its flexibility and effectiveness. In this way, ``Markov Senior'' allows for the wider application of Markov Junior for tasks in which an example may be available, but the design of a generative rule set is infeasible.
翻訳日:2024-08-13 13:35:58 公開日:2024-08-12
# Match Point AI - データ駆動テニス戦略を評価するための新しいAIフレームワーク

Match Point AI: A Novel AI Framework for Evaluating Data-Driven Tennis Strategies ( http://arxiv.org/abs/2408.05960v1 )

ライセンス: Link先を確認
Carlo Nübel, Alexander Dockhorn, Sanaz Mostaghim, (参考訳) ゲームにおける人工知能の分野における多くの研究は、彼らのメカニックを再実装することが容易であるため、ボードゲームやビデオゲームに焦点を当てている。 実世界のスポーツにおける意思決定問題は、そのような領域と多くの類似点を共有している。 しかし、スポーツゲームに関する枠組みはほとんど存在しない。 本稿では,実世界のデータ駆動型ボット戦略に対抗できる,テニスマッチシミュレーション環境 \textit{Match Point AI} を提案する。 フレームワークの発表の次は、MCTSがテニスにおけるショット方向選択問題を最適化するために、マッチポイントAIでどのように使用できるかを説明することで、その能力を強調する。 このフレームワークは将来的に拡張されるが、最初の実験では、シミュレーションされたテニスの試合で生成されたショット・バイ・ショットのデータが、実世界のデータと比較して現実的な特徴を示していることが明らかになった。 同時に、現実のテニスの試合で見られるものと類似した、合理的なショット配置戦略が出現する。

Many works in the domain of artificial intelligence in games focus on board or video games due to the ease of reimplementing their mechanics. Decision-making problems in real-world sports share many similarities to such domains. Nevertheless, not many frameworks on sports games exist. In this paper, we present the tennis match simulation environment \textit{Match Point AI}, in which different agents can compete against real-world data-driven bot strategies. Next to presenting the framework, we highlight its capabilities by illustrating, how MCTS can be used in Match Point AI to optimize the shot direction selection problem in tennis. While the framework will be extended in the future, first experiments already reveal that generated shot-by-shot data of simulated tennis matches show realistic characteristics when compared to real-world data. At the same time, reasonable shot placement strategies emerge, which share similarities to the ones found in real-world tennis matches.
翻訳日:2024-08-13 13:35:58 公開日:2024-08-12
# 改良型YOLOv5による安全保護具のターゲット検出

Target Detection of Safety Protective Gear Using the Improved YOLOv5 ( http://arxiv.org/abs/2408.05964v1 )

ライセンス: Link先を確認
Hao Liu, Xue Qin, (参考訳) リスクの高い鉄道建設において、個人用防護機器の監視は重要であるが、小型で頻繁に妨害される標的のために困難である。 本稿では, 背骨の畳み込み層にECAを組み込むことにより, 安全度検出を向上し, ハードハットなどの極小物体の識別性を向上する革新的モデルであるYOLO-EAを提案する。 YOLO-EAは、GIoUをEIoU損失に置き換えることで、閉塞下での目標認識をさらに洗練する。 YOLO-EAの有効性は、実際の鉄道建設現場の監視映像から得られたデータセットを用いて実証的に実証された。 YOLOv5は98.9%の精度、94.7%のリコール、それぞれ2.5%と0.5%、リアルタイムのパフォーマンスは70.774 fpsである。 この高効率で高精度なYOLO-EAは、複雑な建設シナリオに実用的な応用を約束し、複雑な鉄道建設計画において厳格な安全コンプライアンスを強制する。

In high-risk railway construction, personal protective equipment monitoring is critical but challenging due to small and frequently obstructed targets. We propose YOLO-EA, an innovative model that enhances safety measure detection by integrating ECA into its backbone's convolutional layers, improving discernment of minuscule objects like hardhats. YOLO-EA further refines target recognition under occlusion by replacing GIoU with EIoU loss. YOLO-EA's effectiveness was empirically substantiated using a dataset derived from real-world railway construction site surveillance footage. It outperforms YOLOv5, achieving 98.9% precision and 94.7% recall, up 2.5% and 0.5% respectively, while maintaining real-time performance at 70.774 fps. This highly efficient and precise YOLO-EA holds great promise for practical application in intricate construction scenarios, enforcing stringent safety compliance during complex railway construction projects.
翻訳日:2024-08-13 13:35:58 公開日:2024-08-12
# 機械部品からのフリーハンドスケッチ生成

Freehand Sketch Generation from Mechanical Components ( http://arxiv.org/abs/2408.05966v1 )

ライセンス: Link先を確認
Zhichao Liao, Di Huang, Heming Fang, Yue Ma, Fengyuan Piao, Xinghui Li, Long Zeng, Pingfa Feng, (参考訳) AIベースのエンジニアリングモデリングのためのマルチメディアデバイス上の機械部品のフリーハンドスケッチは、新しいトレンドとなっている。 しかし、既存の研究はデータ駆動研究に適したスケッチを作成できないため、その開発は妨げられている。 これらの作品はフリーハンドスタイルを欠いたスケッチを生成するか、そもそもこのタスクのために設計されていない生成モデルを利用するかのいずれかで、効果は低い。 この問題を解決するために,機械部品に適したヒューマノイドフリーハンドスケッチを初めて作成したMSFormerという,人間のスケッチ動作パターンを模倣した2段階の生成フレームワークを設計した。 第1段階では、Open CASCADE技術を用いて、機械部品からマルチビューの輪郭スケッチを取得し、続く生成プロセスのために摂動信号をフィルタリングする。 一方、情報豊富なスケッチを抽出するために、人間のスケッチ中に視点選択タスクをシミュレートするビューセレクタを設計する。 第2ステージでは、輪郭スケッチをトランスフォーマーベースのジェネレータによるフリーハンドスケッチに変換する。 できるだけ重要なモデリング機能を維持し,脳卒中分布を合理化するために,新しいエッジ制約脳卒中初期化を導入する。 さらに,CLIPビジョンエンコーダとハウスドルフ距離を組み込んだ新たな損失関数を用いて,モデルの一般化性とロバスト性を向上させる。 機械的領域におけるフリーハンドスケッチを生成するために,本手法が最先端の性能を実現することを実証した。 プロジェクトページ: https://mcfreeskegen.github.io 。

Drawing freehand sketches of mechanical components on multimedia devices for AI-based engineering modeling has become a new trend. However, its development is being impeded because existing works cannot produce suitable sketches for data-driven research. These works either generate sketches lacking a freehand style or utilize generative models not originally designed for this task resulting in poor effectiveness. To address this issue, we design a two-stage generative framework mimicking the human sketching behavior pattern, called MSFormer, which is the first time to produce humanoid freehand sketches tailored for mechanical components. The first stage employs Open CASCADE technology to obtain multi-view contour sketches from mechanical components, filtering perturbing signals for the ensuing generation process. Meanwhile, we design a view selector to simulate viewpoint selection tasks during human sketching for picking out information-rich sketches. The second stage translates contour sketches into freehand sketches by a transformer-based generator. To retain essential modeling features as much as possible and rationalize stroke distribution, we introduce a novel edge-constraint stroke initialization. Furthermore, we utilize a CLIP vision encoder and a new loss function incorporating the Hausdorff distance to enhance the generalizability and robustness of the model. Extensive experiments demonstrate that our approach achieves state-of-the-art performance for generating freehand sketches in the mechanical domain. Project page: https://mcfreeskegen.github.io .
翻訳日:2024-08-13 13:35:58 公開日:2024-08-12
# 出版物モデリングにおけるローコード手法の影響に関するメタサイエンス研究

A Metascience Study of the Impact of Low-Code Techniques in Modeling Publications ( http://arxiv.org/abs/2408.05975v1 )

ライセンス: Link先を確認
Mauro Dalle Lucca Tosi, Javier Luis Cánovas Izquierdo, Jordi Cabot, (参考訳) 近年、モデル関連の出版物は、異なる領域におけるモデリング技術の応用を探求している。 最初はUMLとモデル駆動アーキテクチャのアプローチに重点を置いていたが、この文献はモデル駆動開発やモデル駆動工学といったより一般的な概念の利用に向けて進化してきた。 低コードソフトウェア開発プラットフォームが出現し、モデリングコミュニティはこれらの2つの分野が相互にどのように結合し、利益をもたらすかについて研究してきた。 本稿では,Low-Codeのメタサイエンス研究について述べる。 本研究は,(1)新興のローコードコミュニティの構成(サイズと多様性)を検討すること,(2)このコミュニティが「古典的」モデル主導のコミュニティとどう違うのかを,人,会場,出版物のタイプの観点から検討すること,の2つのアプローチを有する。 本研究は、より広いモデリングコミュニティとの関係をよりよく理解することで、ローコードコミュニティに利益をもたらすことを目的としている。 最終的には、新しい研究分野としての統合の一環として、ローコードコミュニティの現在と将来的な進化について議論を起こそうとしています。

In the last years, model-related publications have been exploring the application of modeling techniques in different domains. Initially focused on UML and the Model-Driven Architecture approach, the literature has been evolving towards the usage of more general concepts such as Model-Driven Development or Model-Driven Engineering. With the emergence of Low-Code software development platforms, the modeling community has been studying how these two fields may combine and benefit from each other, thus leading to the publication of a number of works in recent years. In this paper, we present a metascience study of Low-Code. Our study has a two-fold approach: (1) to examine the composition (size and diversity) of the emerging Low-Code community; and (2) to investigate how this community differs from the "classical" model-driven community in terms of people, venues, and types of publications. Through this study, we aim to benefit the low-code community by helping them better understand its relationship with the broader modeling community. Ultimately, we hope to trigger a discussion about the current and possible future evolution of the low-code community as part of its consolidation as a new research field.
翻訳日:2024-08-13 13:35:58 公開日:2024-08-12
# Traumaの言語: 説明可能なAIによるドメイン間のトラウマ的イベント記述のモデル化

The Language of Trauma: Modeling Traumatic Event Descriptions Across Domains with Explainable AI ( http://arxiv.org/abs/2408.05977v1 )

ライセンス: Link先を確認
Miriam Schirmer, Tobias Leemann, Gjergji Kasneci, Jürgen Pfeffer, David Jurgens, (参考訳) 心理的外傷は、様々な悲惨な出来事の後に現れ、様々なオンラインの文脈で捉えられる。 しかしながら、伝統的に研究はトラウマの1つの側面に焦点を当てており、しばしば異なるシナリオにおける発見の伝達可能性を無視している。 我々は、ジェノサイド関連裁判所データ、外傷後ストレス障害(PTSD)に関するRedditデータセット、カウンセリング会話、インセルフォーラムポストなど、外傷関連データセットの複雑さを増す言語モデルをトレーニングすることで、このギャップに対処する。 以上の結果から, 微調整されたRoBERTaモデルは, GPT-4のような大規模言語モデルよりも若干優れており, ドメイン間の外傷事象の予測に優れることがわかった。 さらに、SLALOM-feature scoresと概念的説明は、トラウマに関連する言語を効果的に区別し、クラスタ化し、異なるトラウマの側面を強調し、すべてのデータセットで共通のトラウマイベントとして死に関連する性的虐待や経験を特定する。 この伝達性は、多様な個体群や環境における外傷の検出と介入を強化するツールの開発を可能にするため、重要である。

Psychological trauma can manifest following various distressing events and is captured in diverse online contexts. However, studies traditionally focus on a single aspect of trauma, often neglecting the transferability of findings across different scenarios. We address this gap by training language models with progressing complexity on trauma-related datasets, including genocide-related court data, a Reddit dataset on post-traumatic stress disorder (PTSD), counseling conversations, and Incel forum posts. Our results show that the fine-tuned RoBERTa model excels in predicting traumatic events across domains, slightly outperforming large language models like GPT-4. Additionally, SLALOM-feature scores and conceptual explanations effectively differentiate and cluster trauma-related language, highlighting different trauma aspects and identifying sexual abuse and experiences related to death as a common traumatic event across all datasets. This transferability is crucial as it allows for the development of tools to enhance trauma detection and intervention in diverse populations and settings.
翻訳日:2024-08-13 13:35:58 公開日:2024-08-12
# マルコフスイッチングを用いた非線形波動方程式のパラメータ推定

Parameters Inference for Nonlinear Wave Equations with Markovian Switching ( http://arxiv.org/abs/2408.05990v1 )

ライセンス: Link先を確認
Yi Zhang, Zhikun Zhang, Xiangjun Wang, (参考訳) 定数係数を持つ伝統的な偏微分方程式は、しばしば実世界の現象の急激な変化を捉えるのに苦労し、可変係数 PDE とマルコフスイッチングモデルの開発に繋がる。 近年,マルコフスイッチングモデルを用いたPDEの概念を導入し,その有効性を確立し,数値的手法を提案する。 しかし,これらのモデルでは,ジャンプ係数のパラメータ推定について限定的な議論がなされている。 本稿では,マルコフスイッチングを用いた波動方程式のパラメータ推定に着目し,このギャップに対処する。 離散スパースベイズ学習を用いたベイズ統計フレームワークを提案し,その収束と一様誤差境界を確立する。 提案手法では,各セグメント毎のパラメータ推定問題に対して,各セグメント毎の独立なパラメータ推定が可能となる。 本手法の有効性は,マルコフスイッチングを伴う異なる波動方程式の時空間ノイズデータを含む3つの数値ケースを用いて実証した。 その結果,変数係数PDEのパラメータ推定では高い性能を示した。

Traditional partial differential equations with constant coefficients often struggle to capture abrupt changes in real-world phenomena, leading to the development of variable coefficient PDEs and Markovian switching models. Recently, research has introduced the concept of PDEs with Markov switching models, established their well-posedness and presented numerical methods. However, there has been limited discussion on parameter estimation for the jump coefficients in these models. This paper addresses this gap by focusing on parameter inference for the wave equation with Markovian switching. We propose a Bayesian statistical framework using discrete sparse Bayesian learning to establish its convergence and a uniform error bound. Our method requires fewer assumptions and enables independent parameter inference for each segment by allowing different underlying structures for the parameter estimation problem within each segmented time interval. The effectiveness of our approach is demonstrated through three numerical cases, which involve noisy spatiotemporal data from different wave equations with Markovian switching. The results show strong performance in parameter estimation for variable coefficient PDEs.
翻訳日:2024-08-13 13:35:58 公開日:2024-08-12
# 分散型製造システムにおけるプロセス最適化のための状態ベースポテンシャルゲームへの移行学習

Transfer learning of state-based potential games for process optimization in decentralized manufacturing systems ( http://arxiv.org/abs/2408.05992v1 )

ライセンス: Link先を確認
Steve Yuwono, Dorothea Schwung, Andreas Schwung, (参考訳) 本稿では,製造システムにおける分散自己最適化の促進を目的とした,状態ベースポテンシャルゲーム(TL-SbPG)における新しいトランスファー学習手法を提案する。 提案手法は, 大規模システムにおける自己学習のメカニズムを改善するために, 類似プレイヤー間の知識の共有と伝達を行う実践的な産業環境に焦点をあてる。 TL-SbPGでは、獲得した知識を他のプレイヤーが再利用してポリシーを最適化し、プレイヤーの学習結果を改善し、学習プロセスの加速を図ることができる。 この目標を達成するために,プレイヤーの移動学習概念と類似性基準を開発し,2つの異なる設定を提供する。 a) プレーヤとプレーヤの事前定義された類似性 (b) トレーニング中に選手間の類似性を動的に推定した。 我々は、転写学習におけるSbPGフレームワークの適用性を正式に証明する。 さらに,学習段階における伝達学習手順の最適タイミングと重み付けを決定するための効率的な手法を提案する。 実験室規模のテストベッドを用いた実験により, TL-SbPGは生産効率を著しく向上するとともに, 生産スケジュールの消費電力を低減し, ネイティブSbPGよりも優れた性能を示した。

This paper presents a novel transfer learning approach in state-based potential games (TL-SbPGs) for enhancing distributed self-optimization in manufacturing systems. The approach focuses on the practical relevant industrial setting where sharing and transferring gained knowledge among similar-behaved players improves the self-learning mechanism in large-scale systems. With TL-SbPGs, the gained knowledge can be reused by other players to optimize their policies, thereby improving the learning outcomes of the players and accelerating the learning process. To accomplish this goal, we develop transfer learning concepts and similarity criteria for players, which offer two distinct settings: (a) predefined similarities between players and (b) dynamically inferred similarities between players during training. We formally prove the applicability of the SbPG framework in transfer learning. Additionally, we introduce an efficient method to determine the optimal timing and weighting of the transfer learning procedure during the training phase. Through experiments on a laboratory-scale testbed, we demonstrate that TL-SbPGs significantly boost production efficiency while reducing power consumption of the production schedules while also outperforming native SbPGs.
翻訳日:2024-08-13 13:35:58 公開日:2024-08-12
# 入射ニューラル表現を用いた不確かさインフォームドボリュームの可視化

Uncertainty-Informed Volume Visualization using Implicit Neural Representation ( http://arxiv.org/abs/2408.06018v1 )

ライセンス: Link先を確認
Shanu Saklani, Chitwan Goel, Shrey Bansal, Zhe Wang, Soumya Dutta, Tushar M. Athawale, David Pugmire, Christopher R. Johnson, (参考訳) ディープニューラルネットワーク(DNN)の採用が増加し、多くの科学的可視化タスクに応用されている。 高度なDNNは優れた一般化機能を提供するが、モデル予測品質、堅牢性、不確実性などの理解要因は不可欠である。 これらの洞察により、ドメイン科学者はデータに関する情報的な決定をすることができる。 しかし、DNNは本質的に予測の不確実性を推定する能力に欠けており、様々な可視化タスクに適した堅牢な不確実性認識可視化技術を構築するために新しい研究を必要としている。 本研究では,スカラーフィールドデータセットをモデル化するための不確実性を考慮した暗黙的ニューラル表現を提案する。 本研究では,(1)Deep Ensemble と (2) Monte Carlo Dropout (MCDropout) の2つの手法の有効性を評価する。 これらの技術はスカラーフィールドデータセットにおける不確実なインフォームドボリュームの可視化を可能にする。 複数のデータセットを網羅した広範な探索により、不確実性を考慮したモデルが情報量可視化の結果をもたらすことを示す。 さらに、予測の不確実性の統合により、我々のDNNモデルの信頼性が向上し、実世界の科学的ボリュームデータセットを堅牢に分析し視覚化するのに適している。

The increasing adoption of Deep Neural Networks (DNNs) has led to their application in many challenging scientific visualization tasks. While advanced DNNs offer impressive generalization capabilities, understanding factors such as model prediction quality, robustness, and uncertainty is crucial. These insights can enable domain scientists to make informed decisions about their data. However, DNNs inherently lack ability to estimate prediction uncertainty, necessitating new research to construct robust uncertainty-aware visualization techniques tailored for various visualization tasks. In this work, we propose uncertainty-aware implicit neural representations to model scalar field data sets effectively and comprehensively study the efficacy and benefits of estimated uncertainty information for volume visualization tasks. We evaluate the effectiveness of two principled deep uncertainty estimation techniques: (1) Deep Ensemble and (2) Monte Carlo Dropout (MCDropout). These techniques enable uncertainty-informed volume visualization in scalar field data sets. Our extensive exploration across multiple data sets demonstrates that uncertainty-aware models produce informative volume visualization results. Moreover, integrating prediction uncertainty enhances the trustworthiness of our DNN model, making it suitable for robustly analyzing and visualizing real-world scientific volumetric data sets.
翻訳日:2024-08-13 13:35:58 公開日:2024-08-12
# 情報コンテンツ曲線マッチングによる音楽生成の素性制御

Controlling Surprisal in Music Generation via Information Content Curve Matching ( http://arxiv.org/abs/2408.06022v1 )

ライセンス: Link先を確認
Mathias Rose Bjare, Stefan Lattner, Gerhard Widmer, (参考訳) 近年、音楽生成システムに対する品質と大衆の関心が高まり、これらのシステムを制御する様々な方法の研究が奨励されている。 そこで本研究では,シーケンスモデルを用いた音楽生成における副次的制御手法を提案する。 この目的を達成するために,IIC(Instantaneous Information Content)と呼ばれる指標を定義した。 IICは、(確率モデルから推定される)知覚された音楽推定のプロキシ機能として機能し、楽曲内の任意の点で計算することができる。 これにより、不規則な時間間隔で音楽イベントが発生したとしても、異なる音楽コンテンツ間での補間を比較することができる。 我々はビームサーチを用いて、IIC曲線が所定の目標ICに近似した音楽材料を生成する。 実験により,IICは高調波およびリズムの複雑さと音符密度に相関があることが判明した。 相関はIICの推定に用いる音楽文脈の長さに比例して減少する。 最後に、人間の聴取者がそれぞれの音楽素材を生成する際にターゲットとして使用したICC曲線を識別できるかどうかを定性的なユーザスタディで検証する。 https://github.com/muthissar/iic.comでICC補間とICC視覚化を作成するためのコードを提供します。

In recent years, the quality and public interest in music generation systems have grown, encouraging research into various ways to control these systems. We propose a novel method for controlling surprisal in music generation using sequence models. To achieve this goal, we define a metric called Instantaneous Information Content (IIC). The IIC serves as a proxy function for the perceived musical surprisal (as estimated from a probabilistic model) and can be calculated at any point within a music piece. This enables the comparison of surprisal across different musical content even if the musical events occur in irregular time intervals. We use beam search to generate musical material whose IIC curve closely approximates a given target IIC. We experimentally show that the IIC correlates with harmonic and rhythmic complexity and note density. The correlation decreases with the length of the musical context used for estimating the IIC. Finally, we conduct a qualitative user study to test if human listeners can identify the IIC curves that have been used as targets when generating the respective musical material. We provide code for creating IIC interpolations and IIC visualizations on https://github.com/muthissar/iic.
翻訳日:2024-08-13 13:35:58 公開日:2024-08-12
# 層比最適化:感度に基づく畳み込み層に基づく基底探索

Layer-Specific Optimization: Sensitivity Based Convolution Layers Basis Search ( http://arxiv.org/abs/2408.06024v1 )

ライセンス: Link先を確認
Vasiliy Alekseev, Ilya Lukashevich, Ilia Zharikov, Ilya Vasiliev, (参考訳) ディープニューラルネットワークモデルは複雑なアーキテクチャを持ち、過パラメータ化されている。 パラメータの数はデータセット全体よりも多く、非常にリソースを消費します。 これにより、アプリケーションを複雑化し、異なるデバイスでの使用を制限する。 ネットワークパラメータ数の削減は、モデルのサイズを減らすのに役立つが、同時に、思慮せずに適用することで、ネットワークの品質が低下する可能性がある。 モデルパラメータの数を減らす一つの方法は行列分解であり、行列はより小さい行列の積として表される。 本稿では,畳み込み層の重みに関して行列分解を適用する新しい方法を提案する。 この方法の本質は、すべての畳み込みを訓練するだけでなく、畳み込みのサブセット(基底畳み込み)のみを訓練し、残りを基底の線形結合として表現することである。 ResNetファミリとCIFAR-10データセットによるモデル実験では、ベース畳み込みはモデルのサイズを減らすだけでなく、ネットワークの前方および後方通過を加速する。 この研究のもう1つの貢献は、行列分解を用いて最終モデルの品質を劣化させないネットワーク層のサブセットを選択する高速な方法を提案することである。

Deep neural network models have a complex architecture and are overparameterized. The number of parameters is more than the whole dataset, which is highly resource-consuming. This complicates their application and limits its usage on different devices. Reduction in the number of network parameters helps to reduce the size of the model, but at the same time, thoughtlessly applied, can lead to a deterioration in the quality of the network. One way to reduce the number of model parameters is matrix decomposition, where a matrix is represented as a product of smaller matrices. In this paper, we propose a new way of applying the matrix decomposition with respect to the weights of convolutional layers. The essence of the method is to train not all convolutions, but only the subset of convolutions (basis convolutions), and represent the rest as linear combinations of the basis ones. Experiments on models from the ResNet family and the CIFAR-10 dataset demonstrate that basis convolutions can not only reduce the size of the model but also accelerate the forward and backward passes of the network. Another contribution of this work is that we propose a fast method for selecting a subset of network layers in which the use of matrix decomposition does not degrade the quality of the final model.
翻訳日:2024-08-13 13:35:58 公開日:2024-08-12
# BPMN Analyzer 2.0: 現実的なBPMNモデルのための即時、理解可能、そして固定可能な制御フロー分析

BPMN Analyzer 2.0: Instantaneous, Comprehensible, and Fixable Control Flow Analysis for Realistic BPMN Models ( http://arxiv.org/abs/2408.06028v1 )

ライセンス: Link先を確認
Tim Kräuter, Patrick Stünkel, Adrian Rutle, Yngve Lamo, Harald König, (参考訳) 多くのビジネスプロセスモデルには、デッドロックやライブロックのような制御フローエラーが含まれており、適切な実行を妨げる。 本稿では、BPMNモデルにおける制御フローエラーを瞬時に識別し、モデリング者に対して理解できるようにし、修正を提案する新しいツールを提案する。 私たちは、ツールを、サイズと状態空間の複雑さが増大する合成BPMNモデルと、現実的なモデルとをベンチマークすることによって、検出が瞬時に行われることを実証します。 さらに、インタラクティブな可視化を含むモデル内の検出されたエラーを直接表示し、それらを解決する修正を提案する。 このツールはオープンソースで拡張可能で、人気のあるBPMNモデリングツールに統合されています。

Many business process models contain control flow errors, such as deadlocks or livelocks, which hinder proper execution. In this paper, we introduce a new tool that can instantaneously identify control flow errors in BPMN models, make them understandable for modelers, and suggest corrections to resolve them. We demonstrate that detection is instantaneous by benchmarking our tool against synthetic BPMN models with increasing size and state space complexity, as well as realistic models. Moreover, the tool directly displays detected errors in the model, including an interactive visualization, and suggests fixes to resolve them. The tool is open source, extensible, and integrated into a popular BPMN modeling tool.
翻訳日:2024-08-13 13:35:58 公開日:2024-08-12
# Hyperion: LLMとDataflow-Guided Symbolic Executionを使用したDAppの不整合の解消

Hyperion: Unveiling DApp Inconsistencies using LLM and Dataflow-Guided Symbolic Execution ( http://arxiv.org/abs/2408.06037v1 )

ライセンス: Link先を確認
Shuo Yang, Xingwei Lin, Jiachi Chen, Qingyuan Zhong, Lei Xiao, Renke Huang, Yanlin Wang, Zibin Zheng, (参考訳) ブロックチェーンプラットフォームの急速な進歩は、分散アプリケーション(DApps)の成長を著しく加速させた。 従来のアプリケーションと同じように、DAppsは、ユーザを引き付ける機能を示すフロントエンド記述と、ビジネスロジックを実行するためのバックエンドスマートコントラクトを統合している。 しかし、フロントエンドで宣伝された機能と契約で実際に実装された機能との矛盾は、ユーザを混乱させ、DAppsの信頼性を損なう可能性がある。 本稿では,まず,実世界のDAppで実証された7種類の不整合を同定するための実証的研究を行った。 さらに,DAppにおけるフロントエンド記述とバックエンドコード実装の矛盾を自動的に識別するアプローチであるHYPERIONを紹介する。 本手法はDApp記述の解析に微調整された大言語モデルLLaMA2を使用し,データフロー誘導型シンボル実行を用いてコントラクトバイトコード解析を行う。 最後に、HYPERIONは事前に定義された検出パターンに基づいて矛盾を報告する。 54のDAppからなる地上真実データセットの実験は、HYPERIONが全体のリコールの84.06%、DAppの不整合の報告の全体的な精度が92.06%に達したことを示している。 また,実世界の835のDAppを解析するためにHYPERIONを実装した。 実験の結果,HYPERIONは少なくとも1つの矛盾を含む459個の現実世界のDAppを発見した。

The rapid advancement of blockchain platforms has significantly accelerated the growth of decentralized applications (DApps). Similar to traditional applications, DApps integrate front-end descriptions that showcase their features to attract users, and back-end smart contracts for executing their business logic. However, inconsistencies between the features promoted in front-end descriptions and those actually implemented in the contract can confuse users and undermine DApps's trustworthiness. In this paper, we first conducted an empirical study to identify seven types of inconsistencies, each exemplified by a real-world DApp. Furthermore, we introduce HYPERION, an approach designed to automatically identify inconsistencies between front-end descriptions and back-end code implementation in DApps. This method leverages a fine-tuned large language model LLaMA2 to analyze DApp descriptions and employs dataflow-guided symbolic execution for contract bytecode analysis. Finally, HYPERION reports the inconsistency based on predefined detection patterns. The experiment on our ground truth dataset consisting of 54 DApps shows that HYPERION reaches 84.06% overall recall and 92.06% overall precision in reporting DApp inconsistencies. We also implement HYPERION to analyze 835 real-world DApps. The experimental results show that HYPERION discovers 459 real-world DApps containing at least one inconsistency.
翻訳日:2024-08-13 13:23:51 公開日:2024-08-12
# Spacetime $E(n)$-transformer:時空間グラフの同変アテンション

Spacetime $E(n)$-Transformer: Equivariant Attention for Spatio-temporal Graphs ( http://arxiv.org/abs/2408.06039v1 )

ライセンス: Link先を確認
Sergio G. Charles, (参考訳) 時空間グラフデータに対する$E(n)$-equivariant Transformerアーキテクチャを提案する。 回転, 変換, 置換等分散の帰納バイアスを時空ともに付与することにより, 時空$E(n)$-transformer (SET) が対称性保存性のない純粋に空間的および時間的モデルより優れていることを示す。 我々は、複雑な力学を持つ単純な物理系である電荷付き$N$-body問題において、上記のモデルに対してSETをベンチマークする。 既存の時空間グラフニューラルネットワークはシーケンシャルモデリングに重点を置いているが、基礎となるドメイン対称性を活用することでグラフ上の力学系をモデル化するための大幅な改善が得られたことを実証的に示す。

We introduce an $E(n)$-equivariant Transformer architecture for spatio-temporal graph data. By imposing rotation, translation, and permutation equivariance inductive biases in both space and time, we show that the Spacetime $E(n)$-Transformer (SET) outperforms purely spatial and temporal models without symmetry-preserving properties. We benchmark SET against said models on the charged $N$-body problem, a simple physical system with complex dynamics. While existing spatio-temporal graph neural networks focus on sequential modeling, we empirically demonstrate that leveraging underlying domain symmetries yields considerable improvements for modeling dynamical systems on graphs.
翻訳日:2024-08-13 13:23:51 公開日:2024-08-12
# ARPA:大規模言語モデルとトランスフォーマーを用いた視覚的単語の曖昧性向上のためのハイブリッドモデル

ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers ( http://arxiv.org/abs/2408.06040v1 )

ライセンス: Link先を確認
Aristi Papastavrou, Maria Lymperaiou, Giorgos Stamou, (参考訳) 自然言語処理とコンピュータビジョンの急速に発展する分野において、Visual Word Sense Disambiguation (VWSD) は批判的だが難しい課題である。 シームレスに統合し、マルチモーダルデータを解釈できるモデルの探求は、これまで以上に迫っている。 人間の認識の深さとニュアンスで言語を理解することができるシステムを想像してみてほしい。 変換器の高度な特徴抽出機能を備えた大規模言語モデルの非並列的文脈理解を融合したアーキテクチャであるARPAを、独自のグラフニューラルネットワーク(GNN)層を通過して、データ内の複雑な関係や微妙なニュアンスを学習する。 この革新的なアーキテクチャは、視覚的単語の曖昧さの新しいベンチマークを設定するだけでなく、コンポーネントの相乗的強みを活用し、最も複雑な曖昧さのシナリオにおいても堅牢なパフォーマンスを確保することによって、言語的および視覚的データの相互作用を変革する万能なフレームワークも導入している。 一連の実験と比較分析を通じて、我々のモデルの実質的な利点を明らかにし、この分野における標準を再定義する可能性を明らかにする。 私たちのアーキテクチャは、そのアーキテクチャだけでなく、高度なデータ拡張やマルチモーダルトレーニング技術など、実験的な拡張を通じて優れています。 ARPAの導入は、言語と視覚のモダリティのギャップを埋める魅力的なソリューションを提供する、視覚的な単語の曖昧さにおいて重要なマイルストーンとなる。 我々は研究者や実践者たちに、このようなハイブリッドモデルが人工知能の先例のない進歩を後押しする未来を想像して、我々のモデルの能力を探求するよう依頼する。

In the rapidly evolving fields of natural language processing and computer vision, Visual Word Sense Disambiguation (VWSD) stands as a critical, yet challenging task. The quest for models that can seamlessly integrate and interpret multimodal data is more pressing than ever. Imagine a system that can understand language with the depth and nuance of human cognition, while simultaneously interpreting the rich visual context of the world around it. We present ARPA, an architecture that fuses the unparalleled contextual understanding of large language models with the advanced feature extraction capabilities of transformers, which then pass through a custom Graph Neural Network (GNN) layer to learn intricate relationships and subtle nuances within the data. This innovative architecture not only sets a new benchmark in visual word disambiguation but also introduces a versatile framework poised to transform how linguistic and visual data interact by harnessing the synergistic strengths of its components, ensuring robust performance even in the most complex disambiguation scenarios. Through a series of experiments and comparative analysis, we reveal the substantial advantages of our model, underscoring its potential to redefine standards in the field. Beyond its architectural prowess, our architecture excels through experimental enrichments, including sophisticated data augmentation and multi-modal training techniques. ARPA's introduction marks a significant milestone in visual word disambiguation, offering a compelling solution that bridges the gap between linguistic and visual modalities. We invite researchers and practitioners to explore the capabilities of our model, envisioning a future where such hybrid models drive unprecedented advancements in artificial intelligence.
翻訳日:2024-08-13 13:23:51 公開日:2024-08-12
# ブラックボックスサーバを用いたフェデレーション学習におけるビザンチンのロバストさの理解

Understanding Byzantine Robustness in Federated Learning with A Black-box Server ( http://arxiv.org/abs/2408.06042v1 )

ライセンス: Link先を確認
Fangyuan Zhao, Yuexiang Xie, Xuebin Ren, Bolin Ding, Shusen Yang, Yaliang Li, (参考訳) フェデレーテッド・ラーニング(FL)は、一部の参加者が悪質なモデルの更新を送信することで、学習モデルの有用性を損なう傾向にあるビザンチン攻撃に対して脆弱になる。 以前の研究では、様々な種類のビザンツ攻撃に対して参加者からの更新を集約するために堅牢なルールを適用することを提案したが、同時に攻撃者は特定のアグリゲーションルールを既知の時にターゲットとする高度なビザンツ攻撃アルゴリズムを設計することができる。 実際には、FLシステムにはブラックボックスサーバが組み込まれており、採用されているアグリゲーションルールは参加者にアクセスできないため、ビザンティン攻撃を自然に防御したり弱めたりすることができる。 本稿では,ブラックボックスサーバを用いたFLシステムのビザンチン強靭性に関する深い理解を提供する。 本研究は,動的防衛戦略を用いたブラックボックスサーバのビザンチン堅牢性の向上を実証する。 我々は,ブラックボックスサーバが最悪の攻撃の影響を最大レベルから予想レベルまで軽減できることを示す実証的証拠と理論的解析の両方を提供する。これはブラックボックスサーバが提供する固有の到達不能性とランダム性に起因する。ソースコードはhttps://github.com/alibaba/FederatedScope/tree/Byzantine_ attack_defenseで公開されており,コミュニティのさらなる研究を促進することができる。

Federated learning (FL) becomes vulnerable to Byzantine attacks where some of participators tend to damage the utility or discourage the convergence of the learned model via sending their malicious model updates. Previous works propose to apply robust rules to aggregate updates from participators against different types of Byzantine attacks, while at the same time, attackers can further design advanced Byzantine attack algorithms targeting specific aggregation rule when it is known. In practice, FL systems can involve a black-box server that makes the adopted aggregation rule inaccessible to participants, which can naturally defend or weaken some Byzantine attacks. In this paper, we provide an in-depth understanding on the Byzantine robustness of the FL system with a black-box server. Our investigation demonstrates the improved Byzantine robustness of a black-box server employing a dynamic defense strategy. We provide both empirical evidence and theoretical analysis to reveal that the black-box server can mitigate the worst-case attack impact from a maximum level to an expectation level, which is attributed to the inherent inaccessibility and randomness offered by a black-box server.The source code is available at https://github.com/alibaba/FederatedScope/tree/Byzantine_attack_defense to promote further research in the community.
翻訳日:2024-08-13 13:23:51 公開日:2024-08-12
# DiagESC:感情支援会話への抑うつ診断の統合のための対話合成

DiagESC: Dialogue Synthesis for Integrating Depression Diagnosis into Emotional Support Conversation ( http://arxiv.org/abs/2408.06044v1 )

ライセンス: Link先を確認
Seungyeon Seo, Gary Geunbae Lee, (参考訳) メンタルヘルスケアのための対話システムは、精神的な苦痛を経験する個人に適切な支援を提供することを目的としている。 適切な感情的支援を提供するために広範な研究が行われてきたが、既存の研究は専門的な医療介入を必要とし、適切なガイダンスを提供することができない個人を特定することはできない。 先進的なメンタルヘルスマネジメントシステムのための診断感情支援会話タスクについて紹介する。 我々は,タスク固有の発話生成プロンプトと厳密なフィルタリングアルゴリズムを利用して,抑うつ症状の評価を行うDESCデータセットを開発した。 専門的な心理学的カウンセラーによる評価は、DESCが既存のデータよりもうつ病を診断する能力に優れていることを示している。 さらに、会話品質の評価により、DESCは流動的で一貫性があり、一貫性のある対話を維持していることが明らかになった。

Dialogue systems for mental health care aim to provide appropriate support to individuals experiencing mental distress. While extensive research has been conducted to deliver adequate emotional support, existing studies cannot identify individuals who require professional medical intervention and cannot offer suitable guidance. We introduce the Diagnostic Emotional Support Conversation task for an advanced mental health management system. We develop the DESC dataset to assess depression symptoms while maintaining user experience by utilizing task-specific utterance generation prompts and a strict filtering algorithm. Evaluations by professional psychological counselors indicate that DESC has a superior ability to diagnose depression than existing data. Additionally, conversational quality evaluation reveals that DESC maintains fluent, consistent, and coherent dialogues.
翻訳日:2024-08-13 13:23:51 公開日:2024-08-12
# ゲームにおける意思決定スタイルと政策多様性の知覚的類似性

Perceptual Similarity for Measuring Decision-Making Style and Policy Diversity in Games ( http://arxiv.org/abs/2408.06051v1 )

ライセンス: Link先を確認
Chiu-Chou Lin, Wei-Chen Chiu, I-Chen Wu, (参考訳) プレイスタイルとして知られる意思決定スタイルの定義と測定はゲームにおいて重要であり、これらのスタイルは個人性と多様性の幅広い範囲を反映している。 しかし、これらのスタイルに対して普遍的に適用可能な尺度を見つけることは困難である。 ゲーム画面と生のアクションに基づいてプレイスタイルの類似度を測定する最初の教師なし指標であるPlaystyle Distanceをベースとして,様々な状態の粒度を持つマルチスケール分析,心理学に根ざした知覚核,効率的評価のためのクロスオーバー・ユニオン法の利用という,精度向上のための3つの拡張を導入する。 これらの革新は測定精度を向上するだけでなく、人間の類似性認知に関する洞察も提供する。 2つのレースゲームと7つのアタリゲームの間で、我々の技術はゼロショットプレイスタイルの分類の精度を大幅に向上させ、512組未満の観察アクションペアで90%を超える精度を実現した。 さらに,2048年とGoを用いた実験では,パズルやボードゲームにおける個別のプレイスタイル尺度の可能性を示した。 また,これらの指標を用いて意思決定の多様性を評価するアルゴリズムを開発した。 そこで本研究では,エンド・ツー・エンドのゲーム分析と,多種多様なプレイスタイルのための人工知能の進化について検討した。

Defining and measuring decision-making styles, also known as playstyles, is crucial in gaming, where these styles reflect a broad spectrum of individuality and diversity. However, finding a universally applicable measure for these styles poses a challenge. Building on Playstyle Distance, the first unsupervised metric to measure playstyle similarity based on game screens and raw actions, we introduce three enhancements to increase accuracy: multiscale analysis with varied state granularity, a perceptual kernel rooted in psychology, and the utilization of the intersection-over-union method for efficient evaluation. These innovations not only advance measurement precision but also offer insights into human cognition of similarity. Across two racing games and seven Atari games, our techniques significantly improve the precision of zero-shot playstyle classification, achieving an accuracy exceeding 90 percent with fewer than 512 observation-action pairs, which is less than half an episode of these games. Furthermore, our experiments with 2048 and Go demonstrate the potential of discrete playstyle measures in puzzle and board games. We also develop an algorithm for assessing decision-making diversity using these measures. Our findings improve the measurement of end-to-end game analysis and the evolution of artificial intelligence for diverse playstyles.
翻訳日:2024-08-13 13:23:51 公開日:2024-08-12
# 合成テキスト処理のための量子アルゴリズム

Quantum Algorithms for Compositional Text Processing ( http://arxiv.org/abs/2408.06061v1 )

ライセンス: Link先を確認
Tuomas Laakkonen, Konstantinos Meichanetzidis, Bob Coecke, (参考訳) 量子コンピューティングとAIは、自然言語処理の分野で実りある交差点を発見した。 本稿では、最近提案された自然言語用DisCoCircフレームワークに注目し、量子適応QDisCoCircを提案する。 これはAIを解釈可能なものにするための構成的アプローチによって動機付けられている:全体の振る舞いは、部品の振る舞いとそれらが組み立てられる方法の観点から理解することができる。 テキスト類似性のモデルネイティブなプリミティブ演算では、QDisCoCirc内での質問応答の問題を解くためにフォールトトレラント量子コンピュータの量子アルゴリズムを導出し、これがBQPハードであることを示し、他の自然言語処理モデルでは質問応答の複雑さを考慮しないことに留意する。 広く支持された予想を仮定すると、提案されたモデルを古典的に実装するには超ポリノミカルな資源が必要である。 したがって、実用的な量子プロセッサのパワーを有意義に実証することができる。 モデル構築は、合成量子自然言語処理における以前の研究に基づいている。 ワード埋め込みはパラメータ化された量子回路として符号化され、ここでの合成性は、量子回路がテキストの言語構造に従って構成されることを意味する。 本稿では,短期量子プロセッサ上でのモデル評価手法について概説し,量子ハードウェア上での最近の実装について報告する。 さらに、最も近いベクトル問題に対して量子アルゴリズムを適用することにより、モデルに対するフォールトトレラントな状態において、Groverのようなスピードアップが得られる。 これは、ある状況において任意の古典的アルゴリズムに対して条件のない二次的スピードアップを提供し、将来の研究で経験的に検証する。

Quantum computing and AI have found a fruitful intersection in the field of natural language processing. We focus on the recently proposed DisCoCirc framework for natural language, and propose a quantum adaptation, QDisCoCirc. This is motivated by a compositional approach to rendering AI interpretable: the behavior of the whole can be understood in terms of the behavior of parts, and the way they are put together. For the model-native primitive operation of text similarity, we derive quantum algorithms for fault-tolerant quantum computers to solve the task of question-answering within QDisCoCirc, and show that this is BQP-hard; note that we do not consider the complexity of question-answering in other natural language processing models. Assuming widely-held conjectures, implementing the proposed model classically would require super-polynomial resources. Therefore, it could provide a meaningful demonstration of the power of practical quantum processors. The model construction builds on previous work in compositional quantum natural language processing. Word embeddings are encoded as parameterized quantum circuits, and compositionality here means that the quantum circuits compose according to the linguistic structure of the text. We outline a method for evaluating the model on near-term quantum processors, and elsewhere we report on a recent implementation of this on quantum hardware. In addition, we adapt a quantum algorithm for the closest vector problem to obtain a Grover-like speedup in the fault-tolerant regime for our model. This provides an unconditional quadratic speedup over any classical algorithm in certain circumstances, which we will verify empirically in future work.
翻訳日:2024-08-13 13:23:51 公開日:2024-08-12
# 数のある表について, 数を持つ表について

On Tables with Numbers, with Numbers ( http://arxiv.org/abs/2408.06062v1 )

ライセンス: Link先を確認
Konstantinos Kogkalidis, Stergios Chatzikyriakidis, (参考訳) 本稿では,現代計算言語学のエピステミック・カルチャーに対する批判的考察である。 我々は,その疫学的無関係,環境への影響,社会的不平等の有効化と悪化における役割,商業的応用と利益主導型研究との深い結びつきを踏まえて,数表について論じる。 我々は,過去10年間の計算言語学研究のメタ分析から得られた経験的証拠を用いて,我々の議論を裏付ける。

This paper is a critical reflection on the epistemic culture of contemporary computational linguistics, framed in the context of its growing obsession with tables with numbers. We argue against tables with numbers on the basis of their epistemic irrelevance, their environmental impact, their role in enabling and exacerbating social inequalities, and their deep ties to commercial applications and profit-driven research. We substantiate our arguments with empirical evidence drawn from a meta-analysis of computational linguistics research over the last decade.
翻訳日:2024-08-13 13:23:51 公開日:2024-08-12
# 説明可能な音声ヘイト音声検出に関する検討

An Investigation Into Explainable Audio Hate Speech Detection ( http://arxiv.org/abs/2408.06065v1 )

ライセンス: Link先を確認
Jinmyeong An, Wonjun Lee, Yejin Jeon, Jungseul Ok, Yunsu Kim, Gary Geunbae Lee, (参考訳) ヘイトスピーチの研究は、文章の入力からの検出と解釈を中心に大きく発展し、言葉の内容はほとんど探索されていないままである。 音声入力におけるヘイトスピーチの検出は限定的に検討されているが、解釈可能性の側面は見過ごされている。 そこで本稿では,音声ヘイトスピーチ検出のための新しいタスクを提案する。 具体的には、ヘイトスピーチ分類の証拠となる音声フレームレベルの有理数と呼ばれる正確な時間間隔を特定することを目的とする。 この目的のために,カスケーディングとEnd-to-End(E2E)の2つのアプローチを提案する。 カスケーディング方式は、最初は音声を文字起こしに変換し、これらの文字起こしの中でヘイトスピーチを識別し、その後対応する音声時間フレームを特定する。 逆にE2Eアプローチは、音声の発話を直接処理し、特定の時間枠内でヘイトスピーチを特定できる。 さらに、音声フレームレベルの合理性を含む説明可能な音声ヘイトスピーチデータセットが欠如しているため、私たちは、モデルをトレーニングするために合成オーディオデータセットをキュレートしました。 さらに、実際の人間の発話におけるこれらのモデルの有効性を検証した結果、E2Eアプローチは、音声フレームのIoU(Intersection over Union)メートル法において、カスケーディング法よりも優れていることがわかった。 さらに,フレームレベルの有理性を含むと,E2E手法のヘイトスピーチ検出精度が著しく向上することがわかった。 textbf{Disclaimer} 読者は攻撃的あるいは憎悪的な性質のコンテンツに遭遇する可能性がある。 しかし、その作品の性質を考えると、これは避けられない。

Research on hate speech has predominantly revolved around detection and interpretation from textual inputs, leaving verbal content largely unexplored. While there has been limited exploration into hate speech detection within verbal acoustic speech inputs, the aspect of interpretability has been overlooked. Therefore, we introduce a new task of explainable audio hate speech detection. Specifically, we aim to identify the precise time intervals, referred to as audio frame-level rationales, which serve as evidence for hate speech classification. Towards this end, we propose two different approaches: cascading and End-to-End (E2E). The cascading approach initially converts audio to transcripts, identifies hate speech within these transcripts, and subsequently locates the corresponding audio time frames. Conversely, the E2E approach processes audio utterances directly, which allows it to pinpoint hate speech within specific time frames. Additionally, due to the lack of explainable audio hate speech datasets that include audio frame-level rationales, we curated a synthetic audio dataset to train our models. We further validated these models on actual human speech utterances and found that the E2E approach outperforms the cascading method in terms of the audio frame Intersection over Union (IoU) metric. Furthermore, we observed that including frame-level rationales significantly enhances hate speech detection accuracy for the E2E approach. \textbf{Disclaimer} The reader may encounter content of an offensive or hateful nature. However, given the nature of the work, this cannot be avoided.
翻訳日:2024-08-13 13:23:51 公開日:2024-08-12
# 進化的最適化を用いたカリキュラム学習スケジューリングのオンライン最適化

Online Optimization of Curriculum Learning Schedules using Evolutionary Optimization ( http://arxiv.org/abs/2408.06068v1 )

ライセンス: Link先を確認
Mohit Jiwatode, Leon Schlecht, Alexander Dockhorn, (参考訳) 本稿では,RHEA CL と RHEA を組み合わせることで,強化学習エージェントの訓練中に有効なカリキュラムを自動生成する手法を提案する。 RHEA CLは進化的アルゴリズムを用いてキュリキュラの個体群を最適化し、次の訓練エポックの出発点として最高の成績のカリキュラムを選択する。 パフォーマンス評価は、すべての環境におけるカリキュラムの各ステップ後に行われる。 このアルゴリズムはMinigrid フレームワーク内の \textit{DoorKey} および \textit{DynamicObstacles} 環境上で評価する。 適応性と一貫した改善を示し、特に初期の段階では、後で安定したパフォーマンスに到達し、他のカリキュラム学習者よりも優れたパフォーマンスを発揮する。 他のカリキュラムのスケジュールと比較して、RHEA CLは、トレーニング中に追加評価を犠牲にして、最終強化学習(RL)エージェントの性能改善をもたらすことが示されている。

We propose RHEA CL, which combines Curriculum Learning (CL) with Rolling Horizon Evolutionary Algorithms (RHEA) to automatically produce effective curricula during the training of a reinforcement learning agent. RHEA CL optimizes a population of curricula, using an evolutionary algorithm, and selects the best-performing curriculum as the starting point for the next training epoch. Performance evaluations are conducted after every curriculum step in all environments. We evaluate the algorithm on the \textit{DoorKey} and \textit{DynamicObstacles} environments within the Minigrid framework. It demonstrates adaptability and consistent improvement, particularly in the early stages, while reaching a stable performance later that is capable of outperforming other curriculum learners. In comparison to other curriculum schedules, RHEA CL has been shown to yield performance improvements for the final Reinforcement learning (RL) agent at the cost of additional evaluation during training.
翻訳日:2024-08-13 13:23:51 公開日:2024-08-12
# 確率微分方程式による完全ベイズ微分ガウス過程

Fully Bayesian Differential Gaussian Processes through Stochastic Differential Equations ( http://arxiv.org/abs/2408.06069v1 )

ライセンス: Link先を確認
Jian Xu, Zhiqi Lin, Min Chen, Junmei Yang, Delu Zeng, John Paisley, (参考訳) 従来の深いガウス過程は離散的な階層を用いてデータ進化をモデル化するが、微分ガウス過程(DIFFGP)は無限に深いガウス過程として進化を表現する。 しかし、以前のDIFFGP法は、しばしばカーネルハイパーパラメータの不確実性を見落とし、それらを固定時間不変であると仮定し、連続時間モデルと近似推論の間のユニークな相乗効果を利用できない。 本研究では、カーネルハイパーパラメータを確率変数として扱い、結合確率微分方程式(SDE)を構築して、その後部分布と誘導点を学習する完全ベイズ的手法を提案する。 ハイパーパラメータに対する推定の不確かさを組み込むことで,モデルの柔軟性と複雑な力学への適応性を向上する。 さらに,本手法は,SDE法による結合変数による時間変化,包括的,現実的な後部近似を提供する。 実験の結果,従来の手法に比べて,柔軟性,精度,その他の指標で優れた性能を示すことができた。 我々の研究はベイズ的推論を推し進めるためのエキサイティングな研究の道を開き、継続的なガウス的プロセスのための強力なモデリングツールを提供する。

Traditional deep Gaussian processes model the data evolution using a discrete hierarchy, whereas differential Gaussian processes (DIFFGPs) represent the evolution as an infinitely deep Gaussian process. However, prior DIFFGP methods often overlook the uncertainty of kernel hyperparameters and assume them to be fixed and time-invariant, failing to leverage the unique synergy between continuous-time models and approximate inference. In this work, we propose a fully Bayesian approach that treats the kernel hyperparameters as random variables and constructs coupled stochastic differential equations (SDEs) to learn their posterior distribution and that of inducing points. By incorporating estimation uncertainty on hyperparameters, our method enhances the model's flexibility and adaptability to complex dynamics. Additionally, our approach provides a time-varying, comprehensive, and realistic posterior approximation through coupling variables using SDE methods. Experimental results demonstrate the advantages of our method over traditional approaches, showcasing its superior performance in terms of flexibility, accuracy, and other metrics. Our work opens up exciting research avenues for advancing Bayesian inference and offers a powerful modeling tool for continuous-time Gaussian processes.
翻訳日:2024-08-13 13:23:51 公開日:2024-08-12
# A-BDD: 逆天候と照明における安全な自律運転のためのデータ拡張

A-BDD: Leveraging Data Augmentations for Safe Autonomous Driving in Adverse Weather and Lighting ( http://arxiv.org/abs/2408.06071v1 )

ライセンス: Link先を確認
Felix Assion, Florens Gressner, Nitin Augustine, Jona Klemenc, Ahmed Hammam, Alexandre Krattinger, Holger Trittenbach, Sascha Riemer, (参考訳) 自動運転車の機能は、環境を理解するために機械学習(ML)アルゴリズムに依存している。 天気予報のシナリオでは顕著な性能を示すが、認識アルゴリズムは悪天候や照明条件の影響を強く受けている。 これらの困難を克服するため、MLエンジニアは主に、包括的な現実世界のデータセットに依存している。 しかし,操作設計領域(ODD)の重要な領域における実世界のデータ収集の難しさは,認識訓練や安全性検証に合成データを必要とすることが少なくない。 このようにして、A-BDDは、意味的セグメンテーションとバウンディングボックスアノテーション(BDD100Kデータセットから継承された)を備えた、BDD100Kに基づく6万以上の合成拡張画像の大規模なセットである。 データセットには、雨、霧、曇り、日陰、日陰の増設データが含まれており、強度レベルは様々である。 さらに、FIDやCMMDのような特徴ベースの画像品質指標を活用する新しい戦略を導入し、機械学習のトレーニングとテストに有用な拡張現実および実世界のデータを特定するのに役立ちます。 A-BDDの実験を行うことで、悪天候や照明条件におけるパフォーマンスギャップを埋める上で、データ拡張が重要な役割を果たすことを示す。

High-autonomy vehicle functions rely on machine learning (ML) algorithms to understand the environment. Despite displaying remarkable performance in fair weather scenarios, perception algorithms are heavily affected by adverse weather and lighting conditions. To overcome these difficulties, ML engineers mainly rely on comprehensive real-world datasets. However, the difficulties in real-world data collection for critical areas of the operational design domain (ODD) often means synthetic data is required for perception training and safety validation. Thus, we present A-BDD, a large set of over 60,000 synthetically augmented images based on BDD100K that are equipped with semantic segmentation and bounding box annotations (inherited from the BDD100K dataset). The dataset contains augmented data for rain, fog, overcast and sunglare/shadow with varying intensity levels. We further introduce novel strategies utilizing feature-based image quality metrics like FID and CMMD, which help identify useful augmented and real-world data for ML training and testing. By conducting experiments on A-BDD, we provide evidence that data augmentations can play a pivotal role in closing performance gaps in adverse weather and lighting conditions.
翻訳日:2024-08-13 13:23:51 公開日:2024-08-12
# モデルレス強化学習による境界値比較のない逐次サンプリング

Sequential sampling without comparison to boundary through model-free reinforcement learning ( http://arxiv.org/abs/2408.06080v1 )

ライセンス: Link先を確認
Jamal Esmaily, Rani Moran, Yasser Roudi, Bahador Bahrami, (参考訳) 境界モデルへのエビデンス統合は、不確実性の下での意思決定において、幅広い行動データと神経データをうまく説明しているが、動物が境界を学習し、最適化する方法は未解決のままである。 本稿では,決定境界の概念と証拠蓄積を完全に排除した不確実性の下での知覚決定のためのモデルフリー強化学習アルゴリズムを提案する。 我々のモデルは、利用可能な証拠を与えられた決定にコミットするか、あるいは情報収集をコストで継続するかを学習する。 我々は, 精度と反応時間による証拠強度の依存性, ペイオフ体制による速度精度トレードオフの調整など, 知覚的意思決定の規範的特徴を再現した。 同じ枠組み内で学習と意思決定を統一することにより、このモデルはトレーニング中に不安定な振る舞いを考慮し、訓練後の動作を安定させ、意思決定科学文献における大量の捨てられたトレーニングデータを再考する扉を開くことができる。

Although evidence integration to the boundary model has successfully explained a wide range of behavioral and neural data in decision making under uncertainty, how animals learn and optimize the boundary remains unresolved. Here, we propose a model-free reinforcement learning algorithm for perceptual decisions under uncertainty that dispenses entirely with the concepts of decision boundary and evidence accumulation. Our model learns whether to commit to a decision given the available evidence or continue sampling information at a cost. We reproduced the canonical features of perceptual decision-making such as dependence of accuracy and reaction time on evidence strength, modulation of speed-accuracy trade-off by payoff regime, and many others. By unifying learning and decision making within the same framework, this model can account for unstable behavior during training as well as stabilized post-training behavior, opening the door to revisiting the extensive volumes of discarded training data in the decision science literature.
翻訳日:2024-08-13 13:23:51 公開日:2024-08-12
# AutoCheck: データ依存分析によるチェックポイントのための変数の自動識別

AutoCheck: Automatically Identifying Variables for Checkpointing by Data Dependency Analysis ( http://arxiv.org/abs/2408.06082v1 )

ライセンス: Link先を確認
Xiang Fu, Weiping Zhang, Xin Huang, Shiman Meng, Wubiao Xu, Luanzheng Guo, Kento Sato, (参考訳) Checkpoint/Restart(C/R)は、多くのHPCシステム、クラウド、産業データセンターに広くデプロイされており、通常はシステムエンジニアが運用している。 それでも、ドメインの専門知識のないシステムエンジニアを支援する既存のアプローチは存在せず、システムフォールトトレランスの知識のないドメイン科学者は、C/Rの障害時に正しいアプリケーション実行の復元を行うための重要な変数を特定します。 そこで本研究では,C/Rのチェックポイントに重要な変数を自動的に識別する解析モデルとツール(AutoCheck)を提案する。 AutoCheckは、変数と他のアプリケーション実行状態間のデータ依存を分析的に追跡し、最適化する第1の方法と、洗練されたデータ依存グラフ(DDG)からチェックポイントする重要な変数を識別するヒューリスティックのセットに依存している。 AutoCheckを使うと、プログラマは重要な変数を数分間で素早くチェックポイントできる。 我々はAutoCheckを14の代表的なHPCベンチマークで評価し、チェックポイントに対する正確なクリティカル変数を効率的に識別できることを実証した。

Checkpoint/Restart (C/R) has been widely deployed in numerous HPC systems, Clouds, and industrial data centers, which are typically operated by system engineers. Nevertheless, there is no existing approach that helps system engineers without domain expertise, and domain scientists without system fault tolerance knowledge identify those critical variables accounted for correct application execution restoration in a failure for C/R. To address this problem, we propose an analytical model and a tool (AutoCheck) that can automatically identify critical variables to checkpoint for C/R. AutoCheck relies on first, analytically tracking and optimizing data dependency between variables and other application execution state, and second, a set of heuristics that identify critical variables for checkpointing from the refined data dependency graph (DDG). AutoCheck allows programmers to pinpoint critical variables to checkpoint quickly within a few minutes. We evaluate AutoCheck on 14 representative HPC benchmarks, demonstrating that AutoCheck can efficiently identify correct critical variables to checkpoint.
翻訳日:2024-08-13 13:23:51 公開日:2024-08-12
# 契約自動化のための実用的なシステムアーキテクチャ:設計と利用

A Practical System Architecture for Contract Automation: Design and Uses ( http://arxiv.org/abs/2408.06084v1 )

ライセンス: Link先を確認
Emanuel Palm, Ulf Bodin, Olov Schelén, (参考訳) ブロックチェーンベースのスマートコントラクトは、少なくともIndustrial 4.0の文脈では、この10年でホットな研究トピックとなっているが、現在、その現実世界のアプリケーションを禁止する、法律的および技術的な欠点がよく知られている。 これらの欠点は、(1)スマートコントラクトは、法的義務を記述した文書ではなく、コンピュータプログラムである、(2)ブロックチェーンベースのシステムの使用と運用が複雑である、という点にある。 本稿では,ブロックチェーンの領域から重要な技術を取り出して,機械可読パラメータを持つデジタル形式での従来型の契約であるリカルド契約に適用する作業の概要について述べる。 契約ネットワークアーキテクチャのコンテキストにリカード契約を組み込むことで、契約の提供、交渉、実行、再交渉、終了に必要なインフラストラクチャを、完全にディジタルで自動化可能な方法で促進します。 当社のアーキテクチャは、従来の契約と非常によく似たアーティファクトと、関連するノード間でのみコンセンサスを必要とする運用上の複雑さによって、ブロックチェーンの法的問題を回避します。 また,1)個人データ購入,(2)財務管理,(3)注文駆動製造,(4)自動装置のオンボード化などに用いる方法を示す。

While the blockchain-based smart contract has become a hot topic of research over the last decade, not the least in the context of Industry 4.0, it now has well-known legal and technical shortcomings that currently prohibit its real-world application. These shortcomings come from (1) that a smart contract is a computer program, not a document describing legal obligations, and (2) that blockchain-based systems are complicated to use and operate. In this paper, we present a refined and extended summary of our work taking key technologies from the blockchain sphere and applying them to the ricardian contract, which is a traditional contract in digital form with machine-readable parameters. By putting the ricardian contract in the context of our contract network architecture, we facilitate the infrastructure required for contracts to be offered, negotiated, performed, renegotiated and terminated in a completely digital and automatable fashion. Our architecture circumvents the legal issues of blockchains by facilitating an artifact very much alike a traditional contract, as well as its operational complexity by requiring consensus only between nodes representing directly involved parties. To demonstrate its utility, we also present how it could be used for (1) private data purchasing, (2) treasury management, (3) order-driven manufacturing and (4) automated device on-boarding.
翻訳日:2024-08-13 13:23:51 公開日:2024-08-12
# 言語モデルレジームによる意思決定モデルの構築

Building Decision Making Models Through Language Model Regime ( http://arxiv.org/abs/2408.06087v1 )

ライセンス: Link先を確認
Yu Zhang, Haoxiang Liu, Feijun Jiang, Weihua Luo, Kaifu Zhang, (参考訳) 本稿では,大規模言語モデル(LLM)の一般化機能を活用した意思決定問題に対する新しいアプローチを提案する。 エキスパートシステム、計画アルゴリズム、強化学習といった伝統的な手法は、特定のタスクごとに新しいモデルのトレーニングを必要とするため、限定的な一般化を示すことが多い。 対照的に、LLMは様々な言語タスクにまたがる一般化を成功させ、意思決定モデルをトレーニングするための新しい戦略を刺激した。 我々のアプローチは"Learning then Using" (LTU)と呼ばれ、2段階のプロセスを必要とする。 当初、‘textit{learning} フェーズは、さまざまなドメインからの多様な知識と意思決定コンテキストを統合することによって、堅牢な基本的な意思決定モデルを開発する。 その後の‘textit{using} フェーズは、特定の意思決定シナリオのための基盤モデルを洗練します。 教師付き学習による意思決定にLLMを用いる他の研究とは違い,LTU法では,広範囲な事前学習と目標とする微調整を組み合わせた多目的学習手法が採用されている。 広告や検索最適化などのeコマース分野の実験では、LTUアプローチは意思決定能力や一般化において従来の教師付き学習体制よりも優れていることが示されている。 LTUアプローチは、ゲームドメインやロボットドメインを越えて適用可能なLLMと組み合わせた、シングルステップおよびマルチステップの意思決定タスクのための最初の実践的なトレーニングアーキテクチャである。 意思決定のための堅牢で適応可能なフレームワークを提供し、さまざまな課題に対処する上で、さまざまなシステムの有効性と柔軟性を高める。

We propose a novel approach for decision making problems leveraging the generalization capabilities of large language models (LLMs). Traditional methods such as expert systems, planning algorithms, and reinforcement learning often exhibit limited generalization, typically requiring the training of new models for each unique task. In contrast, LLMs demonstrate remarkable success in generalizing across varied language tasks, inspiring a new strategy for training decision making models. Our approach, referred to as "Learning then Using" (LTU), entails a two-stage process. Initially, the \textit{learning} phase develops a robust foundational decision making model by integrating diverse knowledge from various domains and decision making contexts. The subsequent \textit{using} phase refines this foundation model for specific decision making scenarios. Distinct from other studies that employ LLMs for decision making through supervised learning, our LTU method embraces a versatile training methodology that combines broad pre-training with targeted fine-tuning. Experiments in e-commerce domains such as advertising and search optimization have shown that LTU approach outperforms traditional supervised learning regimes in decision making capabilities and generalization. The LTU approach is the first practical training architecture for both single-step and multi-step decision making tasks combined with LLMs, which can be applied beyond game and robot domains. It provides a robust and adaptable framework for decision making, enhances the effectiveness and flexibility of various systems in tackling various challenges.
翻訳日:2024-08-13 13:13:27 公開日:2024-08-12
# 数個の非バイナリ感性属性に直面したモデルにおける識別の近似

Approximating Discrimination Within Models When Faced With Several Non-Binary Sensitive Attributes ( http://arxiv.org/abs/2408.06099v1 )

ライセンス: Link先を確認
Yijun Bian, Yujie Luo, Ping Xu, (参考訳) 機械学習(ML)モデルによる差別緩和は、階層的かつ歴史的に複数の要因が相互に織り合わされるため、複雑になる可能性がある。 しかし、複数の機密属性に直面した上で、MLモデル内の差別レベルをキャプチャできる既存の公正度対策はほとんどない。 このギャップを埋めるために,2つのオプション版を持つ「多様体による調和公正度尺度(HFM)」と呼ばれる,多様体の観点からの集合間の距離に基づく公正度尺度を提案する。 さらに,集合の距離の計算を高速化するため,複数の値を持つ1つの感度属性に対する集合間の距離の近似 (ApproxDist) と,複数の値を持つ複数の感度属性に対する集合間の距離の近似 (ExtendDist) という2つの近似アルゴリズムを提案する。 さらに,ApproxDistのアルゴリズムによる有効性解析を行い,その有効性を説明する。 実験の結果,提案した公正度測定法は有効であり,近似アルゴリズム(ApproxDistとExtendedDist)は有効かつ効率的であることがわかった。

Discrimination mitigation with machine learning (ML) models could be complicated because multiple factors may interweave with each other including hierarchically and historically. Yet few existing fairness measures are able to capture the discrimination level within ML models in the face of multiple sensitive attributes. To bridge this gap, we propose a fairness measure based on distances between sets from a manifold perspective, named as 'harmonic fairness measure via manifolds (HFM)' with two optional versions, which can deal with a fine-grained discrimination evaluation for several sensitive attributes of multiple values. To accelerate the computation of distances of sets, we further propose two approximation algorithms named 'Approximation of distance between sets for one sensitive attribute with multiple values (ApproxDist)' and 'Approximation of extended distance between sets for several sensitive attributes with multiple values (ExtendDist)' to respectively resolve bias evaluation of one single sensitive attribute with multiple values and that of several sensitive attributes with multiple values. Moreover, we provide an algorithmic effectiveness analysis for ApproxDist under certain assumptions to explain how well it could work. The empirical results demonstrate that our proposed fairness measure HFM is valid and approximation algorithms (i.e., ApproxDist and ExtendDist) are effective and efficient.
翻訳日:2024-08-13 13:13:27 公開日:2024-08-12
# 流体力学におけるメッシュグラフネットの未確認測地への一般化

Generalization capabilities of MeshGraphNets to unseen geometries for fluid dynamics ( http://arxiv.org/abs/2408.06101v1 )

ライセンス: Link先を確認
Robin Schmöcker, Alexander Henkes, Julian Roth, Thomas Wick, (参考訳) 本研究は,メッシュグラフネット(MGN) [Pfaff et al Learning Mesh-based Simulation with Graph Networks. ICML 2021] の流体力学の未確認領域に対する一般化能力について検討する。 この目的のために,データ駆動型計算流体力学(CFD)のための新しいベンチマークデータセットを作成し,異なる形状と複数のオブジェクトを含むシリンダデータセットまわりのDeepMindの流れを拡張する。 次に、新しいデータセットを使用して、MGNがどのようにして異なる形状に一般化できるかをテストすることによって、DeepMindがMGN上で行った一般化実験を拡張する。 数値実験では、ある障害物形状のデータセットをトレーニングし、別の障害物形状のデータセットを試験することにより、MGNが様々な形状によく一般化できることが示されている。

This works investigates the generalization capabilities of MeshGraphNets (MGN) [Pfaff et al. Learning Mesh-Based Simulation with Graph Networks. ICML 2021] to unseen geometries for fluid dynamics, e.g. predicting the flow around a new obstacle that was not part of the training data. For this purpose, we create a new benchmark dataset for data-driven computational fluid dynamics (CFD) which extends DeepMind's flow around a cylinder dataset by including different shapes and multiple objects. We then use this new dataset to extend the generalization experiments conducted by DeepMind on MGNs by testing how well an MGN can generalize to different shapes. In our numerical tests, we show that MGNs can sometimes generalize well to various shapes by training on a dataset of one obstacle shape and testing on a dataset of another obstacle shape.
翻訳日:2024-08-13 13:13:27 公開日:2024-08-12
# 文脈が重要である: 深層学習システムにおけるフェアネステストにおける文脈的影響に関する実証的研究

Contexts Matter: An Empirical Study on Contextual Influence in Fairness Testing for Deep Learning Systems ( http://arxiv.org/abs/2408.06102v1 )

ライセンス: Link先を確認
Chengwen Du, Tao Chen, (参考訳) 背景: ディープラーニングシステムの公平性テストはますます重要になっている。 しかしながら、多くの作業は、正確性のための十分に調整されたハイパーパラメータ、データの修正されたバイアス、ラベル付けにおける緩和されたバイアスなど、他の部分からの完全なコンテキストと条件を前提としている。 しかし、これらはリソースや作業集約的な性質のため、実際は達成が難しいことが多い。 Aims: この論文では、さまざまなコンテキストがフェアネステストの結果にどのように影響するかを理解することを目的としています。 方法:我々は10,800ドルのケースをカバーする広範な実証的研究を行い、既存の仮定に対してモデルレベルでの公平性テスト結果をどのように変更できるかを調査した。 また,相関・適合性ランドスケープ解析のレンズから結果が得られた理由についても検討した。 結果: コンテクストの異なるタイプや設定がテストに大きく影響することを示し, 主に異なるコンテキスト下でのフィットネスランドスケープの変化が原因である。 結論: この知見は, 実践者がテストジェネレータを評価し, 今後の研究方向性を示唆する上で重要な知見となる。

Background: Fairness testing for deep learning systems has been becoming increasingly important. However, much work assumes perfect context and conditions from the other parts: well-tuned hyperparameters for accuracy; rectified bias in data, and mitigated bias in the labeling. Yet, these are often difficult to achieve in practice due to their resource-/labour-intensive nature. Aims: In this paper, we aim to understand how varying contexts affect fairness testing outcomes. Method:We conduct an extensive empirical study, which covers $10,800$ cases, to investigate how contexts can change the fairness testing result at the model level against the existing assumptions. We also study why the outcomes were observed from the lens of correlation/fitness landscape analysis. Results: Our results show that different context types and settings generally lead to a significant impact on the testing, which is mainly caused by the shifts of the fitness landscape under varying contexts. Conclusions: Our findings provide key insights for practitioners to evaluate the test generators and hint at future research directions.
翻訳日:2024-08-13 13:13:27 公開日:2024-08-12
# ChatGPTがメディアのAIに関する物語をどう変えたか:フレームセマンティックスによる半自動ナラティブ分析

How ChatGPT Changed the Media's Narratives on AI: A Semi-Automated Narrative Analysis Through Frame Semantics ( http://arxiv.org/abs/2408.06120v1 )

ライセンス: Link先を確認
Igor Ryazanov, Carl Öhman, Johanna Björklund, (参考訳) 最近のAIへの注目の爆発は、間違いなくテクノロジーのメディア報道で最大のものの一つだ。 本研究は,AIに言及した5846のニュース記事から収集した49,000以上の文のデータセットに対して,複合手法のフレームセマンティクスに基づく分析を行う。 データセットは、OpenAIのチャットボットChatGPTのローンチを中心とした12ヶ月をカバーし、最もアクセスしやすい英語ニュースパブリッシャから収集される。 以上の結果から,ローンチ後半年でメディアの注目度が10倍に上昇したことが示唆された。 この期間、言論は専門家や政治指導者を中心になってきており、AIは危険やリスクと密接に関連している。 データのより深いレビューは、AIが表す脅威の種類の質的な変化と、それに関連する人為的特性も示唆している。

The recent explosion of attention to AI is arguably one of the biggest in the technology's media coverage. To investigate the effects it has on the discourse, we perform a mixed-method frame semantics-based analysis on a dataset of more than 49,000 sentences collected from 5846 news articles that mention AI. The dataset covers the twelve-month period centred around the launch of OpenAI's chatbot ChatGPT and is collected from the most visited open-access English-language news publishers. Our findings indicate that during the half year succeeding the launch, media attention rose tenfold$\unicode{x2014}$from already historically high levels. During this period, discourse has become increasingly centred around experts and political leaders, and AI has become more closely associated with dangers and risks. A deeper review of the data also suggests a qualitative shift in the types of threat AI is thought to represent, as well as the anthropomorphic qualities ascribed to it.
翻訳日:2024-08-13 13:13:27 公開日:2024-08-12
# 動的知識グラフを用いた異常検出の一手法

A Methodological Report on Anomaly Detection on Dynamic Knowledge Graphs ( http://arxiv.org/abs/2408.06121v1 )

ライセンス: Link先を確認
Xiaohua Lu, Leshanshui Yang, (参考訳) 本稿では、動的知識グラフの異常検出に対するさまざまなアプローチについて、特にKubernetesアプリケーションのためのマイクロサービス環境で検討する。 提案手法では,シーケンシャルデータ,ワンホップグラフ構造,および2ホップグラフ構造という3つの動的知識グラフ表現について検討する。 各フェーズには、さまざまな機械学習モデルとディープラーニングモデルが含まれている。 実験的にそれらの性能を分析し,これらのモデルのアンサンブル学習に基づくアプローチを提案する。 ISWC 2024 Dynamic Knowledge Graph Anomaly Detection データセットのベースラインを著しく上回り、動的複素データにおける異常検出のための堅牢なソリューションを提供する。

In this paper, we explore different approaches to anomaly detection on dynamic knowledge graphs, specifically in a microservices environment for Kubernetes applications. Our approach explores three dynamic knowledge graph representations: sequential data, one-hop graph structure, and two-hop graph structure, with each representation incorporating increasingly complex structural information. Each phase includes different machine learning and deep learning models. We empirically analyse their performance and propose an approach based on ensemble learning of these models. Our approach significantly outperforms the baseline on the ISWC 2024 Dynamic Knowledge Graph Anomaly Detection dataset, providing a robust solution for anomaly detection in dynamic complex data.
翻訳日:2024-08-13 13:13:27 公開日:2024-08-12
# ウィキペディアのカテゴリ名を翻訳するためのトランスフォーマーの利用

Utilize Transformers for translating Wikipedia category names ( http://arxiv.org/abs/2408.06124v1 )

ライセンス: Link先を確認
Hoang-Thang Ta, Quoc Thang La, (参考訳) Wikipediaでは、記事は読者が効率的にコンテンツをナビゲートするのを助けるために分類される。 新たなカテゴリを手作業で作成することは、手間と時間を要する可能性がある。 この問題に対処するため,ウィキペディアのカテゴリを英語からベトナム語に翻訳する言語モデルを構築した。 その後、シーケンシャル・ツー・シーケンスアーキテクチャを持つ小型・中規模トランスフォーマーの事前訓練モデルがカテゴリ変換のために微調整された。 実験の結果、OPUS-MT-en-viはモデルストレージが小さいにもかかわらずBLEUスコア0.73で最高性能を達成した。 コンピュータリソースが限られている翻訳タスクの代替ソリューションとして,私たちの論文が期待できる。

On Wikipedia, articles are categorized to aid readers in navigating content efficiently. The manual creation of new categories can be laborious and time-intensive. To tackle this issue, we built language models to translate Wikipedia categories from English to Vietnamese with a dataset containing 15,000 English-Vietnamese category pairs. Subsequently, small to medium-scale Transformer pre-trained models with a sequence-to-sequence architecture were fine-tuned for category translation. The experiments revealed that OPUS-MT-en-vi surpassed other models, attaining the highest performance with a BLEU score of 0.73, despite its smaller model storage. We expect our paper to be an alternative solution for translation tasks with limited computer resources.
翻訳日:2024-08-13 13:13:27 公開日:2024-08-12
# Curio:コラボレーティブな都市ビジュアルアナリティクスのためのデータフローベースのフレームワーク

Curio: A Dataflow-Based Framework for Collaborative Urban Visual Analytics ( http://arxiv.org/abs/2408.06139v1 )

ライセンス: Link先を確認
Gustavo Moreira, Maryam Hosseini, Carolina Veiga, Lucas Alexandre, Nicola Colaninno, Daniel de Oliveira, Nivan Ferreira, Marcos Lage, Fabio Miranda, (参考訳) 過去10年間で、交通、天気、不動産などさまざまな分野で都市が直面している課題に対処するために、いくつかの都市視覚分析システムとツールが提案されている。 これらのツールの多くは、複雑な都市分析ワークフローをインタラクティブなヴィジュアライゼーションとインターフェースに融合させることを目的として、都市の専門家とのコラボレーションを通じて設計されている。 しかし、これらのツールの設計、実装、実用化はいまだにサイロ化されたアプローチに依存しており、結果として再現や拡張が困難になる。 設計レベルでは、これらのツールは都市の専門家によるリッチなデータワークフローを過小評価し、典型的にはデータプロバイダや評価者としてのみ扱う。 実装レベルでは、他の技術的なフレームワークとの相互運用性が欠如しています。 実践的な利用レベルでは、特定の分野に限定し、ドメイン間のコラボレーションの障壁を必然的に生み出す傾向があります。 これらのギャップに対処するため、都市間視覚分析を協調的に行うフレームワークであるCurioを紹介した。 Curioは、複数の抽象化レベル(コード、文法、GUI要素)を持つデータフローモデルを使用して、ビジュアル分析コンポーネントの設計と実装のコラボレーションを容易にする。 このフレームワークは、専門家がコードや視覚化の実績を追跡しながら、データ前処理、管理、視覚化のステージをインタートすることを可能にする。 都市の専門家と共同で,都市のアクセシビリティ,都市微小気候,日光アクセスを対象とする多様な利用シナリオを通じて,キュリオを評価する。 これらのシナリオでは、さまざまなタイプのデータとドメインの方法論を使用して、社会的課題に対処する際のCurioの柔軟性を示しています。 Curioはhttps://urbantk.org/curio.comで入手できる。

Over the past decade, several urban visual analytics systems and tools have been proposed to tackle a host of challenges faced by cities, in areas as diverse as transportation, weather, and real estate. Many of these tools have been designed through collaborations with urban experts, aiming to distill intricate urban analysis workflows into interactive visualizations and interfaces. However, the design, implementation, and practical use of these tools still rely on siloed approaches, resulting in bespoke applications that are difficult to reproduce and extend. At the design level, these tools undervalue rich data workflows from urban experts, typically treating them only as data providers and evaluators. At the implementation level, they lack interoperability with other technical frameworks. At the practical use level, they tend to be narrowly focused on specific fields, inadvertently creating barriers to cross-domain collaboration. To address these gaps, we present Curio, a framework for collaborative urban visual analytics. Curio uses a dataflow model with multiple abstraction levels (code, grammar, GUI elements) to facilitate collaboration across the design and implementation of visual analytics components. The framework allows experts to intertwine data preprocessing, management, and visualization stages while tracking the provenance of code and visualizations. In collaboration with urban experts, we evaluate Curio through a diverse set of usage scenarios targeting urban accessibility, urban microclimate, and sunlight access. These scenarios use different types of data and domain methodologies to illustrate Curio's flexibility in tackling pressing societal challenges. Curio is available at https://urbantk.org/curio.
翻訳日:2024-08-13 13:13:27 公開日:2024-08-12
# Med42-v2 : 臨床用LLMのスイート

Med42-v2: A Suite of Clinical LLMs ( http://arxiv.org/abs/2408.06142v1 )

ライセンス: Link先を確認
Clément Christophe, Praveen K Kanithi, Tathagata Raha, Shadab Khan, Marco AF Pimentel, (参考訳) Med42-v2は、医療設定におけるジェネリックモデルの制限に対処するために設計された臨床用大規模言語モデル(LLM)のスイートを導入した。 これらのモデルはLlama3アーキテクチャに基づいて構築され、特殊な臨床データを用いて微調整される。 彼らは自然の刺激に効果的に対応するために多段階の選好調整を行った。 Med42-v2は、この制限を克服するために特別に訓練されており、臨床設定での使用を可能にしている。 Med42-v2モデルは、もともとのLlama3モデルと比較して、8Bおよび70Bパラメータ設定と、様々な医療ベンチマークにおけるGPT-4で優れた性能を示す。 これらのLSMは、臨床クエリを理解し、推論タスクを実行し、臨床環境で貴重な支援を提供するために開発されている。 モデルは、現在 \href{https://huggingface.co/m42-health}{https://huggingface.co/m42-health} で公開されている。

Med42-v2 introduces a suite of clinical large language models (LLMs) designed to address the limitations of generic models in healthcare settings. These models are built on Llama3 architecture and fine-tuned using specialized clinical data. They underwent multi-stage preference alignment to effectively respond to natural prompts. While generic models are often preference-aligned to avoid answering clinical queries as a precaution, Med42-v2 is specifically trained to overcome this limitation, enabling its use in clinical settings. Med42-v2 models demonstrate superior performance compared to the original Llama3 models in both 8B and 70B parameter configurations and GPT-4 across various medical benchmarks. These LLMs are developed to understand clinical queries, perform reasoning tasks, and provide valuable assistance in clinical environments. The models are now publicly available at \href{https://huggingface.co/m42-health}{https://huggingface.co/m42-health}.
翻訳日:2024-08-13 13:13:27 公開日:2024-08-12
# ソフトウェアテストエンジニアの教育・訓練に関する実践的研究--学術・産業のさらなる連携が必要である

A pragmatic look at education and training of software test engineers: Further cooperation of academia and industry is needed ( http://arxiv.org/abs/2408.06144v1 )

ライセンス: Link先を確認
Vahid Garousi, Alper Buğra Keleş, (参考訳) 大学におけるソフトウェアテスティング教育に加えて、業界におけるソフトウェアテスティングトレーニング活動に多大な労力とリソースが費やされている。 例えば、国際ソフトウェアテスト資格委員会(ISTQB)が提供するもので、これまでに914万以上のテスターに発行されている。 また、明日の高度に資格のあるテストエンジニアを育成するためには、学業におけるソフトウェアテスティング教育の状況と業界におけるトレーニングを意識し、これらの2つのアプローチの関係を分析し、教育・トレーニングの現場を改善する方法を評価することが重要である。 この目的のために,本論文は,この問題の実践的概要を提供し,いくつかの推奨事項を提示するとともに,業界と学界の間でのさらなる議論の引き金となり,現状をどう改善するか,ソフトウェアテスタのより効果的な教育・訓練のためのさらなるベストプラクティスを見出すことを期待する。 この論文は、テストエンジニアリングにおける2人の著者の技術的経験の40年、および6カ国以上でテスト教育とトレーニングを提供するための30年の経験の合計に基づいている。

Alongside software testing education in universities, a great extent of effort and resources are spent on software-testing training activities in industry. For example, there are several international certification schemes in testing, such as those provided by the International Software Testing Qualifications Board (ISTQB), which have been issued to more than 914K testers so far. To train the highly qualified test engineers of tomorrow, it is important for both university educators and trainers in industry to be aware of the status of software testing education in academia versus its training in industry, to analyze the relationships of these two approaches, and to assess ways on how to improve the education / training landscape. For that purpose, this paper provides a pragmatic overview of the issue, presents several recommendations, and hopes to trigger further discussions in the community, between industry and academia, on how to further improve the status-quo, and to find further best practices for more effective education and training of software testers. The paper is based on combined ~40 years of the two authors' technical experience in test engineering, and their ~30 years of experience in providing testing education and training in more than six countries.
翻訳日:2024-08-13 13:13:27 公開日:2024-08-12
# Webアプリケーションのモデルベーステストにおけるカバレッジ測定:ツールサポートと産業経験報告

Coverage measurement in model-based testing of web applications: Tool support and an industrial experience report ( http://arxiv.org/abs/2408.06148v1 )

ライセンス: Link先を確認
Vahid Garousi, Alper Buğra Keleş, Yunus Balaman, Alper Mermer, Zeynep Özdemir Güler, (参考訳) テストカバレッジとコードカバレッジを測定するツールが広く使用されている。 テストカバレッジは、テストスイートによってカバーされる要件やその他の非コードアーティファクトの比率であり、コードカバレッジは、テストによってカバーされるソースコードの比率である。 ほとんどすべてのカバレッジツールは、いくつかのカバレッジ値を示しており、ほとんど常にテストカバレッジかコードカバレッジのどちらかです。 大規模な産業用Webアプリケーションのテスト環境では、いくつかの種類のカバレッジデータを"統合"する必要がありました(フロントエンドとバックエンドのコードカバレッジと要件カバレッジを含む)。 上記のニーズに対処する既製のツールセットを見つけることができず、MBTCoverというMBTに特化したオープンソースのテストカバレッジツールを開発した。 コードカバレッジに加えて、ツールが要求とモデルカバレッジを計測し、レポートする。 本稿では,MBTCoverツールの特徴と,実際に複数の大規模テスト自動化プロジェクトで使用した経験について述べる。 WebアプリケーションテストやMBTを行う他のソフトウェアテストエンジニアは、自分たちのプロジェクトで便利なツールを見つけるかもしれない。

There are many widely used tools for measuring test-coverage and code-coverage. Test coverage is the ratio of requirements or other non-code artifacts covered by a test suite, while code-coverage is the ratio of source code covered by tests. Almost all coverage tools show a few certain subset of coverage values, and almost always either test-coverage or code-coverage measures. In a large-scale industrial web-application-testing setting, we were faced with the need to "integrate" several types of coverage data (including front-end and back-end code coverage with requirements coverage), and to see all of them "live" as large model-based test suites were running. By being unable to find any off-the-shelf toolset to address the above need, we have developed an open-source test coverage tool, specific for MBT, named MBTCover. In addition to code coverage, the tool measures and reports requirements and model coverage, "live" as a given MBT test suite is executing. In this paper, we present the features of the MBTCover tool and our experience from using it in multiple large test-automation projects in practice. Other software test engineers, who conduct web application testing and MBT, may find the tool useful in their projects.
翻訳日:2024-08-13 13:13:27 公開日:2024-08-12
# Palantir: 超高精細ライブストリーミングのための高効率超解像を目指して

Palantir: Towards Efficient Super Resolution for Ultra-high-definition Live Streaming ( http://arxiv.org/abs/2408.06152v1 )

ライセンス: Link先を確認
Xinqi Jin, Zhui Zhu, Xikai Sun, Fan Dang, Jiangchuan Liu, Jingao Xu, Kebin Liu, Xinlei Chen, Yunhao Liu, (参考訳) 超高解像度ディープニューラルネットワークによるニューラルエンハンスメントは、既存のエンコーディングとネットワークインフラストラクチャ上での超高精細ライブストリーミングの新たな可能性を開く。 しかし、重いSR DNN推論のオーバーヘッドは、重大なデプロイメントの課題に繋がる。 オーバヘッドを低減するため、既存のシステムは、軽量リユースベースのSRアプローチを用いて非アンカーフレームをアップスケーリングしながら、選択したアンカーフレームにのみDNNベースのSRを適用することを提案する。 しかし、フレームレベルのスケジューリングは粗い粒度であり、最適な効率が得られない。 本研究では,ニューラルネットワークによるUHDライブストリーミングシステムPalantirを提案する。 提案手法では,予測オーバヘッド最適化のためのスケジューリング決定を良好に行い,スケジューリング遅延を低減するために,2つの新しい手法が組み込まれている。 まず、先駆的および理論的解析の指導のもと、Palantirは任意のアンカーパッチセットの下で軽量かつ正確な品質推定のための有向非巡回グラフ(DAG)を構築した。 第2に、スケジューリング遅延をさらに最適化するために、Palantirは、推定プロセスの計算サブプロデューサをスパース行列行列行列乗算演算にリファクタリングすることにより、並列化性を向上させる。 評価結果は、Palantirが、エンドツーエンドのレイテンシ要件の5.7%未満で、無視可能なスケジュール遅延を発生していることを示唆している。 最先端のリアルタイムフレームレベルのスケジューリング戦略と比較すると、PalantirはSR統合されたモバイルクライアントのエネルギーオーバーヘッドを最大38.1%(平均22.4%)、クラウドベースのSRの金融コストを最大80.1%(平均38.4%)削減している。

Neural enhancement through super-resolution deep neural networks opens up new possibilities for ultra-high-definition live streaming over existing encoding and networking infrastructure. Yet, the heavy SR DNN inference overhead leads to severe deployment challenges. To reduce the overhead, existing systems propose to apply DNN-based SR only on selected anchor frames while upscaling non-anchor frames via the lightweight reusing-based SR approach. However, frame-level scheduling is coarse-grained and fails to deliver optimal efficiency. In this work, we propose Palantir, the first neural-enhanced UHD live streaming system with fine-grained patch-level scheduling. In the presented solutions, two novel techniques are incorporated to make good scheduling decisions for inference overhead optimization and reduce the scheduling latency. Firstly, under the guidance of our pioneering and theoretical analysis, Palantir constructs a directed acyclic graph (DAG) for lightweight yet accurate quality estimation under any possible anchor patch set. Secondly, to further optimize the scheduling latency, Palantir improves parallelizability by refactoring the computation subprocedure of the estimation process into a sparse matrix-matrix multiplication operation. The evaluation results suggest that Palantir incurs a negligible scheduling latency accounting for less than 5.7% of the end-to-end latency requirement. When compared to the state-of-the-art real-time frame-level scheduling strategy, Palantir reduces the energy overhead of SR-integrated mobile clients by 38.1% at most (and 22.4% on average) and the monetary costs of cloud-based SR by 80.1% at most (and 38.4% on average).
翻訳日:2024-08-13 13:13:27 公開日:2024-08-12
# ACCELEATION:高分解能画像再構成と時間外挿を用いた連続走査型DECTイメージング

ACCELERATION: Sequentially-scanning DECT Imaging Using High Temporal Resolution Image Reconstruction And Temporal Extrapolation ( http://arxiv.org/abs/2408.06163v1 )

ライセンス: Link先を確認
Qiaoxin Li, Dong Liang, Yinsheng Li, (参考訳) Dual-Energy Computed Tomography (DECT) は画像の定量的な元素組成を得るために広く用いられている。 先進的なX線源および/または検出器技術を利用する既存のハイエンドDECTと比較して、DECTを実装するためのシーケンシャルスキャンデータ取得スキームの使用は、特別なハードウェア設計を必要としないため、臨床実践に大きな影響を与える可能性がある。 しかし、撮像対象物中のヨウ素化コントラスト剤の濃度は時間とともに変化するため、2つの管電位で取得された逐次走査されたデータセットは時間的に矛盾する。 DECTの既存の物質分解アプローチは、2つの管電位で得られたデータセットが時間的に一貫したものであると仮定するので、この仮定の違反はヨウ素濃度の不正確な定量化精度をもたらす。 本研究では,高分解能画像再構成と時間外挿を用いた逐次走査型DECTイメージングを実現する手法を開発し,逐次走査型DECTの時間的不整合に起因する技術的課題に対処し,連続走査型DECTにおけるヨウ素定量化精度を向上させる。 臨床対象検診から得られた数値シミュレーションデータセットを用いて,アクセレーションの有効性を検証・評価した。 その結果, ヨウ素定量精度はACCELERATIONにより向上した。

Dual-energy computed tomography (DECT) has been widely used to obtain quantitative elemental composition of imaged subjects for personalized and precise medical diagnosis. Compared with existing high-end DECT leveraging advanced X-ray source and/or detector technologies, the use of the sequentially-scanning data acquisition scheme to implement DECT may make broader impact on clinical practice because this scheme requires no specialized hardware designs. However, since the concentration of iodinated contrast agent in the imaged subject varies over time, sequentially-scanned data sets acquired at two tube potentials are temporally inconsistent. As existing material decomposition approaches for DECT assume that the data sets acquired at two tube potentials are temporally consistent, the violation of this assumption results in inaccurate quantification accuracy of iodine concentration. In this work, we developed a technique to achieve sequentially-scanning DECT imaging using high temporal resolution image reconstruction and temporal extrapolation, ACCELERATION in short, to address the technical challenge induced by temporal inconsistency of sequentially-scanned data sets and improve iodine quantification accuracy in sequentially-scanning DECT. ACCELERATION has been validated and evaluated using numerical simulation data sets generated from clinical human subject exams. Results demonstrated the improvement of iodine quantification accuracy using ACCELERATION.
翻訳日:2024-08-13 13:13:27 公開日:2024-08-12
# Blind-Match: プライバシー保護生体認証のための効率的な同型暗号化ベース1:Nマッチング

Blind-Match: Efficient Homomorphic Encryption-Based 1:N Matching for Privacy-Preserving Biometric Identification ( http://arxiv.org/abs/2408.06167v1 )

ライセンス: Link先を確認
Hyunmin Choi, Jiwon Kim, Chiyoung Song, Simon S. Woo, Hyoungshick Kim, (参考訳) Blind-Matchは,同型暗号(HE)を利用した生体認証システムである。 Blind-MatchはHE最適化コサイン類似性計算法を導入し、特徴ベクトルをベクトル全体を一度に計算するのではなく、より小さな部分に分割する。 これらの部品数を最適化することで、Blind-MatchはHEによるデータのプライバシを確保しながら、実行時間を最小化する。 Blind-Matchは、さまざまなバイオメトリックデータセットにわたる最先端の手法と比較して、優れたパフォーマンスを実現している。 LFWの顔データセットでは、Blind-Matchは128次元の特徴ベクトルで99.63%のランク-1の精度を達成し、顔認識タスクの堅牢性を示している。 指紋認証において、Blind-Matchは、コンパクトな16次元特徴ベクトルであっても、PolyUデータセット上で99.55%のランク-1精度を達成し、最先端の方法であるBlind-Touchを著しく上回り、59.17%しか達成していない。 さらに、Blind-Matchは、Naver CloudのFaceSignのような大規模生体認証シナリオにおいて、0.74秒で6,144個の生体認証サンプルを128次元の特徴ベクトルで処理することで、実用的効率を示す。

We present Blind-Match, a novel biometric identification system that leverages homomorphic encryption (HE) for efficient and privacy-preserving 1:N matching. Blind-Match introduces a HE-optimized cosine similarity computation method, where the key idea is to divide the feature vector into smaller parts for processing rather than computing the entire vector at once. By optimizing the number of these parts, Blind-Match minimizes execution time while ensuring data privacy through HE. Blind-Match achieves superior performance compared to state-of-the-art methods across various biometric datasets. On the LFW face dataset, Blind-Match attains a 99.63% Rank-1 accuracy with a 128-dimensional feature vector, demonstrating its robustness in face recognition tasks. For fingerprint identification, Blind-Match achieves a remarkable 99.55% Rank-1 accuracy on the PolyU dataset, even with a compact 16-dimensional feature vector, significantly outperforming the state-of-the-art method, Blind-Touch, which achieves only 59.17%. Furthermore, Blind-Match showcases practical efficiency in large-scale biometric identification scenarios, such as Naver Cloud's FaceSign, by processing 6,144 biometric samples in 0.74 seconds using a 128-dimensional feature vector.
翻訳日:2024-08-13 13:13:27 公開日:2024-08-12
# ブラックボックスLCMの構造多様性向上

Improving Structural Diversity of Blackbox LLMs via Chain-of-Specification Prompting ( http://arxiv.org/abs/2408.06186v1 )

ライセンス: Link先を確認
Halley Young, Yimeng Zeng, Jacob Gardner, Osbert Bastani, (参考訳) 多様なテキストを生成する能力は、大きな言語モデル(LLM)に直面する重要な課題である。 これまでのところ、多様性は$n$-gramの多様性やBERT埋め込みの多様性などを通じて研究されている。 しかし、このような多様性については、利用者は多様性が考慮される次元をほとんど制御できない。 例えば、詩文領域では韻律やメートル法で多様性を求めるが、コード領域では問題解決に使用される表現の種類で多様性を求めることがある。 そこで本研究では,ユーザが生成したテキストから,興味のある多様性を捉えた特徴までをマッピングする,構造的多様性と呼ばれる多様性指標を提案する。 さらに,まずLLMに1つの構造的特徴をコードする仕様を作成した上で,これらの特徴を満足するテキストを生成することで,多様性の向上を促す「チェーン・オブ・セグメンテーション(CoS)」という新たな戦略を提案する。 実験では,詩文やコード領域の構造的多様性に対して,CoSはいくつかのベースラインに比べて多様性を著しく向上させることを示した。

The capability to generate diverse text is a key challenge facing large language models (LLMs). Thus far, diversity has been studied via metrics such as $n$-gram diversity or diversity of BERT embeddings. However, for these kinds of diversity, the user has little control over the dimensions along which diversity is considered. For example, in the poetry domain, one might desire diversity in terms of rhyme and meter, whereas in the code domain, one might desire diversity in terms of the kinds of expressions used to solve a problem. We propose a diversity metric called structural diversity, where the user provides a mapping from generated text to features capturing the kinds of diversity that they care about. In addition, we propose a novel strategy called chain-of-specification (CoS) prompting for improving diversity by first having the LLM generate a specification encoding one instance of structural features, and then prompting the LLM to generate text that satisfies these features; notably, our strategy works with blackbox LLMs. In our experiments, we show that for structural diversity in the poetry and code domains, CoS significantly improves diversity compared to several baselines.
翻訳日:2024-08-13 13:13:27 公開日:2024-08-12
# より小さなLSMをより強力な問題ソーバにする相互推論

Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers ( http://arxiv.org/abs/2408.06195v1 )

ライセンス: Link先を確認
Zhenting Qi, Mingyuan Ma, Jiahang Xu, Li Lyna Zhang, Fan Yang, Mao Yang, (参考訳) 本稿では,小型言語モデル(SLM)の推論能力を大幅に向上する自己演奏型相互推論手法であるrStarを紹介する。 rStarは推論を自己再生的相互世代識別プロセスに分離する。 第一に、ターゲットSLMはモンテカルロ木探索(MCTS)を強化し、より高品質な推論トラジェクトリを構築するために、人間のような推論アクションを多用する。 次に、目標SLMに類似した機能を持つ別のSLMが、目標SLMが生成した各軌道を検証する判別器として機能する。 相互に合意された推論軌跡は相互に一致していると考えられるため、より正確である可能性が高い。 5つのSLMにわたる大規模な実験により、rStarはGSM8K、GSM-Hard、MATH、SVAMP、StrategyQAを含む様々な推論問題を効果的に解決できることを示した。 rStarは、LLaMA2-7BではGSM8Kの精度を12.51%から63.91%に、Mistral-7Bでは36.46%から81.88%に、LLaMA3-8Bでは74.53%から91.13%に向上させた。 コードはhttps://github.com/zhentingqi/rStar.comから入手できる。

This paper introduces rStar, a self-play mutual reasoning approach that significantly improves reasoning capabilities of small language models (SLMs) without fine-tuning or superior models. rStar decouples reasoning into a self-play mutual generation-discrimination process. First, a target SLM augments the Monte Carlo Tree Search (MCTS) with a rich set of human-like reasoning actions to construct higher quality reasoning trajectories. Next, another SLM, with capabilities similar to the target SLM, acts as a discriminator to verify each trajectory generated by the target SLM. The mutually agreed reasoning trajectories are considered mutual consistent, thus are more likely to be correct. Extensive experiments across five SLMs demonstrate rStar can effectively solve diverse reasoning problems, including GSM8K, GSM-Hard, MATH, SVAMP, and StrategyQA. Remarkably, rStar boosts GSM8K accuracy from 12.51% to 63.91% for LLaMA2-7B, from 36.46% to 81.88% for Mistral-7B, from 74.53% to 91.13% for LLaMA3-8B-Instruct. Code will be available at https://github.com/zhentingqi/rStar.
翻訳日:2024-08-13 13:03:23 公開日:2024-08-12
# 予測されたモデルカウントのための動的ブロッククロース除去

Dynamic Blocked Clause Elimination for Projected Model Counting ( http://arxiv.org/abs/2408.06199v1 )

ライセンス: Link先を確認
Jean-Marie Lagniez, Pierre Marquis, Armin Biere, (参考訳) 本稿では,プロジェクテッドモデルカウントにおけるブロック節除去の適用について検討する。 これは、モデル ||\exists X の数を決定する問題である。 変数の与えられた集合 X を実存的に排除した後、命題公式 {\Sigma} の {\Sigma}|| が成立する。 ブロックされた節の除去はSATの解法としてよく知られている手法であるが、モデルカウントへの直接適用は、一般的にはモデル数を変更するため困難である。 しかし, ブロック節探索において, 予測変数に着目して, 正しいモデル数を保持しつつ, ブロック節除去を活用できることを実証する。 モデルカウント中にブロック節の除去を効率的に行うために、新しいデータ構造と関連するアルゴリズムを導入する。 提案手法はモデルカウンタd4に実装されている。 本実験は,予測モデルカウントのためのブロック節除去手法の計算的利点を実証するものである。

In this paper, we explore the application of blocked clause elimination for projected model counting. This is the problem of determining the number of models ||\exists X.{\Sigma}|| of a propositional formula {\Sigma} after eliminating a given set X of variables existentially. Although blocked clause elimination is a well-known technique for SAT solving, its direct application to model counting is challenging as in general it changes the number of models. However, we demonstrate, by focusing on projected variables during the blocked clause search, that blocked clause elimination can be leveraged while preserving the correct model count. To take advantage of blocked clause elimination in an efficient way during model counting, a novel data structure and associated algorithms are introduced. Our proposed approach is implemented in the model counter d4. Our experiments demonstrate the computational benefits of our new method of blocked clause elimination for projected model counting.
翻訳日:2024-08-13 13:03:23 公開日:2024-08-12
# セキュリティのための120のドメイン特化言語

120 Domain-Specific Languages for Security ( http://arxiv.org/abs/2408.06219v1 )

ライセンス: Link先を確認
Markus Krausz, Sven Peldszus, Francesco Regazzoni, Thorsten Berger, Tim Tim Güneysu, (参考訳) セキュリティエンジニアリングは、セキュリティ要件エンジニアリングから暗号プロトコルの実装まで、しばしばドメイン固有言語(DSL)によってサポートされます。 残念ながら、これらのDSLに関する知識の欠如、例えば、どのセキュリティ面に対処され、いつ、その効果的な利用を妨げるか、さらに調査する。 本稿では,セキュリティ面と目標,言語固有の特徴,ソフトウェア開発ライフサイクルへの統合(SDLC),DSLの有効性に関する6つの調査質問に基づいて,120のセキュリティ指向DSLについて検討する。 高度な断片化を観察することで、統合の機会が得られます。 また、セキュリティDSLのユーザビリティと評価も改善する必要があります。

Security engineering, from security requirements engineering to the implementation of cryptographic protocols, is often supported by domain-specific languages (DSLs). Unfortunately, a lack of knowledge about these DSLs, such as which security aspects are addressed and when, hinders their effective use and further research. This systematic literature review examines 120 security-oriented DSLs based on six research questions concerning security aspects and goals, language-specific characteristics, integration into the software development lifecycle (SDLC), and effectiveness of the DSLs. We observe a high degree of fragmentation, which leads to opportunities for integration. We also need to improve the usability and evaluation of security DSLs.
翻訳日:2024-08-13 13:03:23 公開日:2024-08-12
# 大規模言語モデルアンラーニングにおけるステアリング潜在表現の効果について

On Effects of Steering Latent Representation for Large Language Model Unlearning ( http://arxiv.org/abs/2408.06223v1 )

ライセンス: Link先を確認
Dang Huu-Tien, Trung-Tin Pham, Hoang Thanh-Tung, Naoya Inoue, (参考訳) Representation Misdirection for Unlearning (RMU)は、中間層におけるモデル表現を対象のランダム表現に操り、大規模言語モデル(LLM)アンラーニングに有効な方法である。 高い性能にもかかわらず、根底にある原因と説明は未解明のままである。 本稿では,まず,中間層における表現を忘れることによってトークンの信頼度が低下し,LCMが間違った応答やナンセンスな応答を生じさせることを理論的に実証する。 第二に、この係数がランダムな方向の誤りサンプル表現のアライメントにどのように影響するかを調査し、異なるネットワーク層をまたがる効果的なアンラーニングのための最適係数値を示唆する。 第3に、RMU未学習モデルは敵の脱獄攻撃に対して堅牢であることを示す。 最後に,LLMの中間層および後層に適用した場合,RMUは効果が低いことを示す実験的検討を行った。 この欠点を解決するために、ほとんどのレイヤで非学習を効果的にする、シンプルで効果的な代替手法であるAdaptive RMUを提案する。 大規模な実験により、Adaptive RMUは未学習のパフォーマンスを先行技術に比べて大幅に向上する一方で、追加の計算コストは発生しないことが示された。

Representation Misdirection for Unlearning (RMU), which steers model representation in the intermediate layer to a target random representation, is an effective method for large language model (LLM) unlearning. Despite its high performance, the underlying cause and explanation remain underexplored. In this paper, we first theoretically demonstrate that steering forget representations in the intermediate layer reduces token confidence, causing LLMs to generate wrong or nonsense responses. Second, we investigate how the coefficient influences the alignment of forget-sample representations with the random direction and hint at the optimal coefficient values for effective unlearning across different network layers. Third, we show that RMU unlearned models are robust against adversarial jailbreak attacks. Last, our empirical analysis shows that RMU is less effective when applied to the middle and later layers in LLMs. To resolve this drawback, we propose Adaptive RMU -- a simple yet effective alternative method that makes unlearning effective with most layers. Extensive experiments demonstrate that Adaptive RMU significantly improves the unlearning performance compared to prior art while incurring no additional computational cost.
翻訳日:2024-08-13 13:03:23 公開日:2024-08-12
# ML対応ソフトウェアシステムにおけるモデル統合に関する大規模研究

A Large-Scale Study of Model Integration in ML-Enabled Software Systems ( http://arxiv.org/abs/2408.06226v1 )

ライセンス: Link先を確認
Yorick Sens, Henriette Knopp, Sven Peldszus, Thorsten Berger, (参考訳) 機械学習(ML)の台頭とシステムへの組み込みは、ソフトウェア集約システムのエンジニアリングを大きく変えた。 伝統的に、ソフトウェア工学は、ソースコードやそれらを作成するプロセスのような手作業で作成したアーティファクトや、それらを統合するためのベストプラクティス、すなわちソフトウェアアーキテクチャに焦点を当てている。 対照的に、MLアーチファクト、すなわちMLモデルの開発は、データサイエンスから生まれ、MLモデルとそのトレーニングデータに焦点を当てている。 しかし、エンドユーザーに価値を提供するには、これらのMLモデルは従来のソフトウェアに組み込まれなければならず、しばしば複雑なトポロジを形成する。 実際、ML対応ソフトウェアは、容易に多くの異なるMLモデルを組み込むことができる。 ML対応システム構築の課題と実践は、孤立した例以外にもある程度研究されているが、現実のML対応システムの特徴についてはほとんど分かっていない。 MLモデルをシステムに適切に組み込んで、メンテナンスや再利用が容易になるようにすることは、決して簡単ではない。 GitHub上で2,928以上のオープンソースシステムをカバーする、実際のML対応ソフトウェアシステムに関する最初の大規模な研究を提示することで、このようなシステムに対する経験的理解を改善する必要があります。 MLモデルと関連するコードとそれらのシステムのアーキテクチャを再利用するためのプラクティスと同様に、それらの特性を分類して分析した。 我々の発見は、実践者や研究者にMLモデルの埋め込みと統合のプラクティスに関する洞察を与え、データサイエンスとソフトウェア工学をより緊密に融合させる。

The rise of machine learning (ML) and its embedding in systems has drastically changed the engineering of software-intensive systems. Traditionally, software engineering focuses on manually created artifacts such as source code and the process of creating them, as well as best practices for integrating them, i.e., software architectures. In contrast, the development of ML artifacts, i.e. ML models, comes from data science and focuses on the ML models and their training data. However, to deliver value to end users, these ML models must be embedded in traditional software, often forming complex topologies. In fact, ML-enabled software can easily incorporate many different ML models. While the challenges and practices of building ML-enabled systems have been studied to some extent, beyond isolated examples, little is known about the characteristics of real-world ML-enabled systems. Properly embedding ML models in systems so that they can be easily maintained or reused is far from trivial. We need to improve our empirical understanding of such systems, which we address by presenting the first large-scale study of real ML-enabled software systems, covering over 2,928 open source systems on GitHub. We classified and analyzed them to determine their characteristics, as well as their practices for reusing ML models and related code, and the architecture of these systems. Our findings provide practitioners and researchers with insight into practices for embedding and integrating ML models, bringing data science and software engineering closer together.
翻訳日:2024-08-13 13:03:23 公開日:2024-08-12
# 分散インテリジェンスヘルスネットワーク(DIHN)

Decentralized Intelligence Health Network (DIHN) ( http://arxiv.org/abs/2408.06240v1 )

ライセンス: Link先を確認
Abraham Nash, (参考訳) 分散インテリジェンスヘルスネットワーク(DIHN)は、提供者や機関間でのデータ断片化によって引き起こされる医療における、健康データ主権とAI利用に関する重要な課題に対処する理論フレームワークである。 そして、多様な医療データソースにアクセスする障壁を克服することで、効果的なAI利用を促進する。 この包括的なフレームワークは下記の通りである。 1) 健康データ主権の前提条件として、自己主権のアイデンティティ・アーキテクチャと個人健康記録(PHR)を併用すること。 2)医療における分散AIトレーニングのためのパブリックブロックチェーン上に実装されたスケーラブルなフェデレーションラーニング(FL)プロトコル。 3) 参加のインセンティブを与え、公平な報酬配分を確保するための、スケーラブルで信頼できない報酬メカニズム。 このフレームワークは、参加者が提供した健康データに対するトレーニングの防止や制御、あるいは金銭的利益の決定を可能にする。 医療における効果的なAIトレーニングをサポートし、患者が健康データをコントロールし、経済的に利益を享受し、集団AIを活用して有益な医療アルゴリズムを開発する分散型でスケーラブルなエコシステムに貢献できるようにする。 患者はFLプロトコルにオプトインするためのインセンティブとしてデジタルウォレットに報酬を受け取る。 このアプローチは、個人のニーズに適応し、既存のシステムを補完し、普遍的なカバレッジを再定義する、新しい自己完結型医療モデルを導入します。 患者を力づけながら、医療データ管理とAI利用を変革する可能性を強調している。

Decentralized Intelligence Health Network (DIHN) is a theoretical framework addressing significant challenges of health data sovereignty and AI utilization in healthcare caused by data fragmentation across providers and institutions. It establishes a sovereign architecture for healthcare provision as a prerequisite to a sovereign health network, then facilitates effective AI utilization by overcoming barriers to accessing diverse medical data sources. This comprehensive framework leverages: 1) self-sovereign identity architecture coupled with a personal health record (PHR) as a prerequisite for health data sovereignty; 2) a scalable federated learning (FL) protocol implemented on a public blockchain for decentralized AI training in healthcare, where health data remains with participants and only model parameter updates are shared; and 3) a scalable, trustless rewards mechanism to incentivize participation and ensure fair reward distribution. This framework ensures that no entity can prevent or control access to training on health data offered by participants or determine financial benefits, as these processes operate on a public blockchain with an immutable record and without a third party. It supports effective AI training in healthcare, allowing patients to maintain control over their health data, benefit financially, and contribute to a decentralized, scalable ecosystem that leverages collective AI to develop beneficial healthcare algorithms. Patients receive rewards into their digital wallets as an incentive to opt-in to the FL protocol, with a long-term roadmap to funding decentralized insurance solutions. This approach introduces a novel, self-financed healthcare model that adapts to individual needs, complements existing systems, and redefines universal coverage. It highlights the potential to transform healthcare data management and AI utilization while empowering patients.
翻訳日:2024-08-13 13:03:23 公開日:2024-08-12
# 潜時空間混合による深層学習システム境界試験

Deep Learning System Boundary Testing through Latent Space Style Mixing ( http://arxiv.org/abs/2408.06258v1 )

ライセンス: Link先を確認
Amr Abdellatif, Xingcheng Chen, Vincenzo Riccio, Andrea Stocco, (参考訳) ディープラーニング(DL)システムの行動フロンティアを評価することは,その一般化性と堅牢性を理解する上で重要である。 しかし, 高次元入力空間のため, 境界試験は困難である。 生成人工知能は、コンパクトな潜在空間表現内のデータ分布をモデル化することにより、よりきめ細かい探索を容易にすることによって、有望なソリューションを提供する。 本研究では,これらの潜在表現を活用して,テスト中のDLシステムのフロンティア入力を生成する,新しいブラックボックスシステム非依存テストジェネレータMIMICRYを紹介する。 具体的には、MIMICRYはスタイルベースの生成敵ネットワークを使用して、非絡み合った特徴を持つ入力の表現を学習する。 この表現は、ソースとターゲットの入力の間にスタイル混合操作を埋め込むことができ、それらの特徴を組み合わせてそれらの境界を探索する。 一般的な4つのDL画像分類システムにおける境界入力生成におけるMIMICRY構成の有効性を評価した。 この結果から,潜伏空間の操作により,行動フロンティアの効率的かつ効率的な探索が可能であることが示唆された。 モデルベースのベースラインとは対照的に、MIMICRYはより近い入力を含む振る舞いの高品質なフロンティアを生成する。 さらに,これらの入力の有効性を評価し,人間の評価者による高い妥当性を明らかにした。

Evaluating the behavioral frontier of deep learning (DL) systems is crucial for understanding their generalizability and robustness. However, boundary testing is challenging due to their high-dimensional input space. Generative artificial intelligence offers a promising solution by modeling data distribution within compact latent space representations, thereby facilitating finer-grained explorations. In this work, we introduce MIMICRY, a novel black-box system-agnostic test generator that leverages these latent representations to generate frontier inputs for the DL systems under test. Specifically, MIMICRY uses style-based generative adversarial networks trained to learn the representation of inputs with disentangled features. This representation enables embedding style-mixing operations between a source and a target input, combining their features to explore the boundary between them. We evaluated the effectiveness of different MIMICRY configurations in generating boundary inputs for four popular DL image classification systems. Our results show that manipulating the latent space allows for effective and efficient exploration of behavioral frontiers. As opposed to a model-based baseline, MIMICRY generates a higher quality frontier of behaviors which includes more and closer inputs. Additionally, we assessed the validity of these inputs, revealing a high validity rate according to human assessors.
翻訳日:2024-08-13 13:03:23 公開日:2024-08-12
# ビジュアル・プレフィックス・チューニングとコントラスト学習によるコンテキスト認識型ビジュアルストーリーテリング

Context-aware Visual Storytelling with Visual Prefix Tuning and Contrastive Learning ( http://arxiv.org/abs/2408.06259v1 )

ライセンス: Link先を確認
Yingjin Song, Denis Paperno, Albert Gatt, (参考訳) ビジュアルストーリーテリングシステムは、画像シーケンスから多文ストーリーを生成する。 このタスクでは、コンテキスト情報をキャプチャし、視覚的なバリエーションをブリッジすることで、さらなる課題が生じる。 我々は,事前学習した基礎モデルの一般化機能を活用しつつ,モダリティを接続する軽量な視覚言語マッピングネットワークをトレーニングし,コヒーレンスを高めるためにコンテキストを取り入れた,シンプルで効果的なフレームワークを提案する。 視覚的関連性やストーリー情報性も向上するマルチモーダルなコントラスト目標を提案する。 自動測定と人的評価の両方にわたる大規模な実験結果は、我々のフレームワークによって生成されたストーリーが多様で、一貫性があり、情報的であり、興味深いことを実証している。

Visual storytelling systems generate multi-sentence stories from image sequences. In this task, capturing contextual information and bridging visual variation bring additional challenges. We propose a simple yet effective framework that leverages the generalization capabilities of pretrained foundation models, only training a lightweight vision-language mapping network to connect modalities, while incorporating context to enhance coherence. We introduce a multimodal contrastive objective that also improves visual relevance and story informativeness. Extensive experimental results, across both automatic metrics and human evaluations, demonstrate that the stories generated by our framework are diverse, coherent, informative, and interesting.
翻訳日:2024-08-13 13:03:23 公開日:2024-08-12
# Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment

Anchored Preference Optimization and Contrastive Revisions: Addressing Underspecification in Alignment ( http://arxiv.org/abs/2408.06266v1 )

ライセンス: Link先を確認
Karel D'Oosterlinck, Winnie Xu, Chris Develder, Thomas Demeester, Amanpreet Singh, Christopher Potts, Douwe Kiela, Shikib Mehri, (参考訳) 大規模言語モデル(LLM)は、しばしばコントラスト的なアライメント目標と選好ペアデータセットを使って整列される。 モデル、ペアデータ、および目的間の相互作用は複雑な手順を作り、時にサブパー結果を生成する。 私たちはこれを研究し、それを見つけます 二 嗜好データにより、基礎となる応答が対照的な場合に、より良い学習信号が得られること。 (ii)アライメントの目的は、トレーニング中にモデルに対するさらなるコントロールを指定すると、パフォーマンスが向上する。 これらの知見に基づき、よりコントラスト的な選好ペアを生み出すデータ生成手法であるContrastive Learning from AI Revisions (CLAIR)と、制御可能でより安定したアライメント目的であるAnchored Preference Optimization (APO)を紹介する。 我々はLlama-3-8B-Instructを、様々な類似したデータセットとアライメント目標を用いて調整し、MixEval-Hardスコアを測定する。 CLAIRの選好はすべてのデータセットの中で最強のパフォーマンスをもたらし、APOは一貫してコントロール可能な目標よりも優れています。 我々の最良のモデルは、APOで32K CLAIRの選好に基づいて訓練され、Llama-3-8B-Instructを7.65%改善し、GPT4-turboとのギャップを45%短縮しました。 私たちのコードはhttps://github.com/ContextualAI/CLAIR_and_APO.orgで公開されています。

Large Language Models (LLMs) are often aligned using contrastive alignment objectives and preference pair datasets. The interaction between model, paired data, and objective makes alignment a complicated procedure, sometimes producing subpar results. We study this and find that (i) preference data gives a better learning signal when the underlying responses are contrastive, and (ii) alignment objectives lead to better performance when they specify more control over the model during training. Based on these insights, we introduce Contrastive Learning from AI Revisions (CLAIR), a data-creation method which leads to more contrastive preference pairs, and Anchored Preference Optimization (APO), a controllable and more stable alignment objective. We align Llama-3-8B-Instruct using various comparable datasets and alignment objectives and measure MixEval-Hard scores, which correlate highly with human judgments. The CLAIR preferences lead to the strongest performance out of all datasets, and APO consistently outperforms less controllable objectives. Our best model, trained on 32K CLAIR preferences with APO, improves Llama-3-8B-Instruct by 7.65%, closing the gap with GPT4-turbo by 45%. Our code is available at https://github.com/ContextualAI/CLAIR_and_APO.
翻訳日:2024-08-13 13:03:23 公開日:2024-08-12
# MovieSum:映画脚本のための抽象的な要約データセット

MovieSum: An Abstractive Summarization Dataset for Movie Screenplays ( http://arxiv.org/abs/2408.06281v1 )

ライセンス: Link先を確認
Rohit Saxena, Frank Keller, (参考訳) 長い入力コンテキストと映画特有の様々な要素を理解する必要があるため、映画の脚本の要約は困難である。 大規模言語モデルは文書要約の大幅な進歩を示しているが、長い入力コンテキストの処理に苦慮することが多い。 また、近年はテレビの脚本も注目されているが、映画脚本の要約はいまだに未検討である。 そこで本研究では,映画画面の抽象的な要約のための新しいデータセットであるMovieSumを提案する。 このデータセットはウィキペディアのプロットサマリーを伴って2200の映画脚本で構成されている。 映画の脚本を手動で書式化し、それらの構成要素を表現した。 既存のデータセットと比較して、MovieSumにはいくつかの特徴がある。(1)テレビ番組の脚本よりも長い映画の脚本を含む。 2) 以前の上映データセットの2倍の大きさである。 (3)追加の外部知識へのアクセスを容易にするため、IMDb IDのメタデータを提供する。 また,最近リリースされた大規模言語モデルを用いてデータセットの要約を行い,詳細なベースラインを提供する。

Movie screenplay summarization is challenging, as it requires an understanding of long input contexts and various elements unique to movies. Large language models have shown significant advancements in document summarization, but they often struggle with processing long input contexts. Furthermore, while television transcripts have received attention in recent studies, movie screenplay summarization remains underexplored. To stimulate research in this area, we present a new dataset, MovieSum, for abstractive summarization of movie screenplays. This dataset comprises 2200 movie screenplays accompanied by their Wikipedia plot summaries. We manually formatted the movie screenplays to represent their structural elements. Compared to existing datasets, MovieSum possesses several distinctive features: (1) It includes movie screenplays, which are longer than scripts of TV episodes. (2) It is twice the size of previous movie screenplay datasets. (3) It provides metadata with IMDb IDs to facilitate access to additional external knowledge. We also show the results of recently released large language models applied to summarization on our dataset to provide a detailed baseline.
翻訳日:2024-08-13 13:03:23 公開日:2024-08-12
# LLMを用いた臨床ノートからの合成患者-物理対話生成

Synthetic Patient-Physician Dialogue Generation from Clinical Notes Using LLM ( http://arxiv.org/abs/2408.06285v1 )

ライセンス: Link先を確認
Trisha Das, Dina Albassam, Jimeng Sun, (参考訳) 医療対話システム(MDS)は、患者と医師のコミュニケーションを強化し、医療のアクセシビリティを改善し、コストを削減する。 しかし、これらのシステムの訓練に適したデータを取得することは大きな課題である。 プライバシーに関する懸念は、実際の会話の使用を防ぎ、合成代替手段を必要とする。 一般公開された臨床論文からの合成対話生成は、プライバシーを保護しながら現実的なデータを提供するという、この問題に対する有望な解決策を提供する。 我々のアプローチであるSynDialは、ゼロショットプロンプトとフィードバックループを備えた単一のLLMを反復的に使用し、高品質な合成対話を生成し、洗練する。 フィードバックは、類似性と抽出性のための重み付け評価スコアで構成される。 反復処理は、対話が予め定義されたしきい値を満たすことを保証し、フィードバックループの結果、優れた抽出性を達成する。 さらに, 評価の結果, 生成した対話は, 基準値と比較して実測値に優れており, GPT4と同等の多様性スコアを有することがわかった。

Medical dialogue systems (MDS) enhance patient-physician communication, improve healthcare accessibility, and reduce costs. However, acquiring suitable data to train these systems poses significant challenges. Privacy concerns prevent the use of real conversations, necessitating synthetic alternatives. Synthetic dialogue generation from publicly available clinical notes offers a promising solution to this issue, providing realistic data while safeguarding privacy. Our approach, SynDial, uses a single LLM iteratively with zero-shot prompting and a feedback loop to generate and refine high-quality synthetic dialogues. The feedback consists of weighted evaluation scores for similarity and extractiveness. The iterative process ensures dialogues meet predefined thresholds, achieving superior extractiveness as a result of the feedback loop. Additionally, evaluation shows that the generated dialogues excel in factuality metric compared to the baselines and has comparable diversity scores with GPT4.
翻訳日:2024-08-13 13:03:23 公開日:2024-08-12
# AI科学者:完全に自動化されたオープンな科学発見を目指す

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery ( http://arxiv.org/abs/2408.06292v1 )

ライセンス: Link先を確認
Chris Lu, Cong Lu, Robert Tjarko Lange, Jakob Foerster, Jeff Clune, David Ha, (参考訳) 人工知能の大きな課題の1つは、科学的研究を行い、新しい知識を発見することができるエージェントを開発することである。 フロンティアモデルはすでに人間の科学者の助けとして使われており、例えばブレインストーミングのアイデア、コードを書くこと、予測タスクなどは、まだ科学プロセスのごく一部しか行っていない。 本稿では、フロンティア大言語モデルが独立して研究を行い、研究結果を伝達することのできる、完全自動科学的発見のための最初の包括的枠組みを提案する。 我々は、新しい研究アイデアを生成し、コードを書き、実験を実行し、結果を視覚化し、完全な科学論文を書き、その結果を記述し、シミュレーションされたレビュープロセスを実行し、評価を行うAI Scientistを紹介します。 原則として、このプロセスは、人間の科学コミュニティのように行動しながら、オープンな方法でアイデアを反復的に発展させることができる。 我々は、拡散モデリング、トランスフォーマーベース言語モデリング、学習力学の3つの異なるサブフィールドに適用することで、その汎用性を実証する。 それぞれのアイデアは、紙1枚につき15ドル以下で、完全な紙に実装され、開発される。 生成した論文を評価するため,自動レビュアーを設計,検証し,紙のスコアを評価する上で,ほぼ人間に近い性能を発揮することを示す。 AI Scientistは、私たちの自動レビュアーが判断するように、トップクラスの機械学習カンファレンスで、受け入れ閾値を超える論文を作成できる。 このアプローチは、機械学習における科学的発見の新しい時代の始まりである。AIエージェントの変革的なメリットをAI自体の研究プロセス全体にもたらすこと、そして、無限に手頃な価格の創造性とイノベーションが、世界の最も困難な問題に解き放たれる世界へと私たちを近づけること。 私たちのコードはhttps://github.com/SakanaAI/AI-Scientistでオープンソース化されています

One of the grand challenges of artificial general intelligence is developing agents capable of conducting scientific research and discovering new knowledge. While frontier models have already been used as aids to human scientists, e.g. for brainstorming ideas, writing code, or prediction tasks, they still conduct only a small part of the scientific process. This paper presents the first comprehensive framework for fully automatic scientific discovery, enabling frontier large language models to perform research independently and communicate their findings. We introduce The AI Scientist, which generates novel research ideas, writes code, executes experiments, visualizes results, describes its findings by writing a full scientific paper, and then runs a simulated review process for evaluation. In principle, this process can be repeated to iteratively develop ideas in an open-ended fashion, acting like the human scientific community. We demonstrate its versatility by applying it to three distinct subfields of machine learning: diffusion modeling, transformer-based language modeling, and learning dynamics. Each idea is implemented and developed into a full paper at a cost of less than $15 per paper. To evaluate the generated papers, we design and validate an automated reviewer, which we show achieves near-human performance in evaluating paper scores. The AI Scientist can produce papers that exceed the acceptance threshold at a top machine learning conference as judged by our automated reviewer. This approach signifies the beginning of a new era in scientific discovery in machine learning: bringing the transformative benefits of AI agents to the entire research process of AI itself, and taking us closer to a world where endless affordable creativity and innovation can be unleashed on the world's most challenging problems. Our code is open-sourced at https://github.com/SakanaAI/AI-Scientist
翻訳日:2024-08-13 13:03:23 公開日:2024-08-12
# 盲人と低視者からの視覚的質問に対する長期回答

Long-Form Answers to Visual Questions from Blind and Low Vision People ( http://arxiv.org/abs/2408.06303v1 )

ライセンス: Link先を確認
Mina Huh, Fangyuan Xu, Yi-Hao Peng, Chongyan Chen, Hansika Murugu, Danna Gurari, Eunsol Choi, Amy Pavel, (参考訳) 視覚言語モデルは、画像に関する質問に対するロングフォームな回答(LFVQA)を生成することができる。 視覚障害者(BLV)による視覚的質問に対する長文回答のデータセットであるVizWiz-LFをコントリビュートする。 VizWiz-LFには、600の視覚的質問に対する4.2kの長文の回答が含まれており、人間の専門家記述子と6つのVQAモデルから収集されている。 我々は,LFVQAの文の機能的役割を開発し,長文回答には説明や提案などの質問応答以外の情報が含まれていることを実証する。 さらに,BLVによる自動的,人為的評価を行い,長期的回答を評価する。 BLVの人々は、人間によって書かれた長文の回答と、それが生成した長文の回答の両方が妥当であると認識するが、生成された答えは、しばしば不正確な視覚的詳細(例えば、ぼやけた画像、無関係の画像)を幻覚させる。 幻覚を抑えるために,複数のプロンプト戦略にまたがる解決不可能な疑問に答えることを禁じるVQAモデルの有効性を評価する。

Vision language models can now generate long-form answers to questions about images - long-form visual question answers (LFVQA). We contribute VizWiz-LF, a dataset of long-form answers to visual questions posed by blind and low vision (BLV) users. VizWiz-LF contains 4.2k long-form answers to 600 visual questions, collected from human expert describers and six VQA models. We develop and annotate functional roles of sentences of LFVQA and demonstrate that long-form answers contain information beyond the question answer such as explanations and suggestions. We further conduct automatic and human evaluations with BLV and sighted people to evaluate long-form answers. BLV people perceive both human-written and generated long-form answers to be plausible, but generated answers often hallucinate incorrect visual details, especially for unanswerable visual questions (e.g., blurry or irrelevant images). To reduce hallucinations, we evaluate the ability of VQA models to abstain from answering unanswerable questions across multiple prompting strategies.
翻訳日:2024-08-13 13:03:23 公開日:2024-08-12
# VisualAgentBench: Visual Foundation Agentsとして大規模マルチモーダルモデルを目指す

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents ( http://arxiv.org/abs/2408.06327v1 )

ライセンス: Link先を確認
Xiao Liu, Tianjie Zhang, Yu Gu, Iat Long Iong, Yifan Xu, Xixuan Song, Shudan Zhang, Hanyu Lai, Xinyi Liu, Hanlin Zhao, Jiadai Sun, Xinyue Yang, Yu Yang, Zehan Qi, Shuntian Yao, Xueqiao Sun, Siyi Cheng, Qinkai Zheng, Hao Yu, Hanchen Zhang, Wenyi Hong, Ming Ding, Lihang Pan, Xiaotao Gu, Aohan Zeng, Zhengxiao Du, Chan Hee Song, Yu Su, Yuxiao Dong, Jie Tang, (参考訳) 大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。 これらのエージェントは無数のタスクにまたがって実行され、汎用人工知能に接近する可能性がある。 しかし、既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。 このギャップに対処するために、我々は、Embodied、Graphical User Interface、Visual Designを含む様々なシナリオにおいて、LMMをビジュアル基盤エージェントとして訓練し評価するための、包括的で先駆的なベンチマークであるVisualAgentBench (VAB)を紹介した。 9つのプロプライエタリなLMM APIと8つのオープンモデルにわたる厳密なテストを通じて、これらのモデルのエージェント能力がまだかなり発展していないことを実証する。 さらに、VABはプログラムベースソルバー、LMMエージェントブートストラッピング、ヒューマンデモといったハイブリッド手法によって構築された軌道訓練セットを構築し、行動クローニングによるLMMの性能向上を促進させる。 我々の研究は、既存のモデルをベンチマークするだけでなく、将来のビジュアルファウンデーションエージェントの開発のためのしっかりとした基盤も提供します。 Code, train \& test data, and part of fine-tuned open LMMs are available at \url{https://github.com/THUDM/VisualAgentBench}.

Large Multimodal Models (LMMs) have ushered in a new era in artificial intelligence, merging capabilities in both language and vision to form highly capable Visual Foundation Agents. These agents are postulated to excel across a myriad of tasks, potentially approaching general artificial intelligence. However, existing benchmarks fail to sufficiently challenge or showcase the full potential of LMMs in complex, real-world environments. To address this gap, we introduce VisualAgentBench (VAB), a comprehensive and pioneering benchmark specifically designed to train and evaluate LMMs as visual foundation agents across diverse scenarios, including Embodied, Graphical User Interface, and Visual Design, with tasks formulated to probe the depth of LMMs' understanding and interaction capabilities. Through rigorous testing across nine proprietary LMM APIs and eight open models, we demonstrate the considerable yet still developing agent capabilities of these models. Additionally, VAB constructs a trajectory training set constructed through hybrid methods including Program-based Solvers, LMM Agent Bootstrapping, and Human Demonstrations, promoting substantial performance improvements in LMMs through behavior cloning. Our work not only aims to benchmark existing models but also provides a solid foundation for future development into visual foundation agents. Code, train \& test data, and part of fine-tuned open LMMs are available at \url{https://github.com/THUDM/VisualAgentBench}.
翻訳日:2024-08-13 13:03:23 公開日:2024-08-12
# LOLgorithm:Hummor分類のための意味・構文・文脈要素の統合

LOLgorithm: Integrating Semantic,Syntactic and Contextual Elements for Humor Classification ( http://arxiv.org/abs/2408.06335v1 )

ライセンス: Link先を確認
Tanisha Khurana, Kaushik Pillalamarri, Vikram Pande, Munindar Singh, (参考訳) 本稿では,自然言語処理における計算手法よりも構文,意味,文脈的特徴を優先して,言語レンズによるユーモア検出について検討する。 我々は,語彙,構造統計,Word2Vec,WordNet,音声スタイルなど,特徴を構文,意味,文脈の次元に分類する。 提案モデルであるColbertはBERT埋め込みと並列隠蔽層を用いて文の一致を捉える。 統語的、意味的、文脈的特徴を組み合わせることで、ユーモア検出のためにコルバートを訓練する。 特徴工学はBERT埋め込みと共に、重要な構文的および意味的特徴を調べる。 SHAPの解釈と決定木は、影響のある特徴を識別し、全体論的アプローチにより、見えないデータに対するユーモア検出精度が向上することを明らかにした。 異なる次元から言語的手がかりを統合することで、従来の計算方法を超えてユーモアの複雑さを理解する能力が向上する。

This paper explores humor detection through a linguistic lens, prioritizing syntactic, semantic, and contextual features over computational methods in Natural Language Processing. We categorize features into syntactic, semantic, and contextual dimensions, including lexicons, structural statistics, Word2Vec, WordNet, and phonetic style. Our proposed model, Colbert, utilizes BERT embeddings and parallel hidden layers to capture sentence congruity. By combining syntactic, semantic, and contextual features, we train Colbert for humor detection. Feature engineering examines essential syntactic and semantic features alongside BERT embeddings. SHAP interpretations and decision trees identify influential features, revealing that a holistic approach improves humor detection accuracy on unseen data. Integrating linguistic cues from different dimensions enhances the model's ability to understand humor complexity beyond traditional computational methods.
翻訳日:2024-08-13 13:03:23 公開日:2024-08-12
# サイズ制約のある状態抽象化による戦略ゲームプレイング

Strategy Game-Playing with Size-Constrained State Abstraction ( http://arxiv.org/abs/2408.06202v1 )

ライセンス: Link先を確認
Linjie Xu, Diego Perez-Liebana, Alexander Dockhorn, (参考訳) 戦略ゲームは人工知能(AI)にとって難しい問題である。 主な課題の1つは、ゲームコンポーネントの多様さによる巨大な検索スペースである。 最近の研究では、状態抽象化が検索ベースのゲームAIに適用され、パフォーマンスが大幅に向上した。 状態抽象化技術は、類似した状態を集約することで、例えば検索スペースを減らすことに依存している。 しかし、これらの抽象化の応用は、抽象の質を評価するのが難しいため妨げられている。 それまでの作業では、検索の途中で抽象化を放棄して、検索を局所的な最適化に偏らないようにしていた。 このメカニズムは、現在の状態抽象化を捨てる時間を決定するためのハイパーパラメータを導入します。 本研究では,グループ化されたノードの最大数を制限したサイズ制約状態抽象化(SCSA)を提案する。 SCSAでは抽象化を放棄する必要はありません。 戦略ゲーム3ドルの実験結果から、SCSAエージェントは従来の手法よりも優れ、異なるゲームに対して堅牢な性能が得られることが示された。 コードは \url{https://github.com/GAIGResearch/Stratega} でオープンソース化されている。

Playing strategy games is a challenging problem for artificial intelligence (AI). One of the major challenges is the large search space due to a diverse set of game components. In recent works, state abstraction has been applied to search-based game AI and has brought significant performance improvements. State abstraction techniques rely on reducing the search space, e.g., by aggregating similar states. However, the application of these abstractions is hindered because the quality of an abstraction is difficult to evaluate. Previous works hence abandon the abstraction in the middle of the search to not bias the search to a local optimum. This mechanism introduces a hyper-parameter to decide the time to abandon the current state abstraction. In this work, we propose a size-constrained state abstraction (SCSA), an approach that limits the maximum number of nodes being grouped together. We found that with SCSA, the abstraction is not required to be abandoned. Our empirical results on $3$ strategy games show that the SCSA agent outperforms the previous methods and yields robust performance over different games. Codes are open-sourced at \url{https://github.com/GAIGResearch/Stratega}.
翻訳日:2024-08-13 12:53:36 公開日:2024-08-12
# Certified Safe:フロンティアAIの承認規則

Certified Safe: A Schematic for Approval Regulation of Frontier AI ( http://arxiv.org/abs/2408.06210v1 )

ライセンス: Link先を確認
Cole Salvador, (参考訳) 近年の非制限能力の進歩には、パッチワークではなく、フロンティア人工知能(AI)の規制を包括的に求める声が伴っている。 承認規制は有望な候補として浮上している。 承認規制スキームは、その商品の安全性を示す実験に基づいて、規制当局の明確な承認を受けずに、企業が法的に市場を拡大できない場合、または、場合によっては製品を開発する場合である。 このアプローチはFDAとFAAがうまく利用している。 さらに、フロンティアAIへの適用は、多くの著名な利害関係者によって公に支持されている。 本報告では、トレーニング前に精査を開始し、デプロイ後の監視を継続する、最大規模のAIプロジェクトのみに対する承認規制スキーマを提案する。 スキーマの中心は2つの主要な承認ゲートであり、第1は大規模トレーニングの承認を必要とし、第2は配備の承認を必要とする。 5つの大きな課題は、非承認デプロイメントによる非コンプライアンス、デプロイメントの可読性要件の仕様、信頼性のあるモデル実験、プロセス前に安全なモデルをフィルタリングすること、規制のオーバーヘッドを最小限にすることである。 本報告は、承認規制の実現可能性を高めるための重要な勧告を多数実施するが、そのうちのいくつかは、近い将来にその体制が成功する場合には緊急に続行しなければならない。 このレポートの分析によって得られたさらなる勧告により、フロンティアAIの規制体制の有効性が向上する可能性がある。

Recent and unremitting capability advances have been accompanied by calls for comprehensive, rather than patchwork, regulation of frontier artificial intelligence (AI). Approval regulation is emerging as a promising candidate. An approval regulation scheme is one in which a firm cannot legally market, or in some cases develop, a product without explicit approval from a regulator on the basis of experiments performed upon the product that demonstrate its safety. This approach is used successfully by the FDA and FAA. Further, its application to frontier AI has been publicly supported by many prominent stakeholders. This report proposes an approval regulation schematic for only the largest AI projects in which scrutiny begins before training and continues through to post-deployment monitoring. The centerpieces of the schematic are two major approval gates, the first requiring approval for large-scale training and the second for deployment. Five main challenges make implementation difficult: noncompliance through unsanctioned deployment, specification of deployment readiness requirements, reliable model experimentation, filtering out safe models before the process, and minimizing regulatory overhead. This report makes a number of crucial recommendations to increase the feasibility of approval regulation, some of which must be followed urgently if such a regime is to succeed in the near future. Further recommendations, produced by this report's analysis, may improve the effectiveness of any regulatory regime for frontier AI.
翻訳日:2024-08-13 12:53:36 公開日:2024-08-12
# AIによるテスト自動化に関する多年次Grey Literatureのレビュー

A Multi-Year Grey Literature Review on AI-assisted Test Automation ( http://arxiv.org/abs/2408.06224v1 )

ライセンス: Link先を確認
Filippo Ricca, Alessandro Marchetto, Andrea Stocco, (参考訳) コンテキスト: テスト自動化(TA)技術はソフトウェアエンジニアリングの品質保証には不可欠ですが、高いテストスイートのメンテナンスコストや広範なプログラミングスキルの必要性といった制限に直面しています。 人工知能(AI)は、自動化と改善されたプラクティスを通じて、これらの問題に対処する新たな機会を提供する。 目的: この研究は、グレーの文献を調査し、AIがTAでどのように採用されているかを調査し、解決する問題、ソリューション、利用可能なツールに焦点を当てる。 さらに、この研究は、TAにおけるAIの現在と将来の役割を理解するために、専門家の洞察を集める。 Methods: ブログやホワイトペーパー,ユーザマニュアルを含む5年間で3,600以上のグレイ文学資料をレビューし,最終的に342のドキュメントをフィルタリングして,TA問題とAIソリューションの分類学を開発した。 また、100のAI駆動型TAツールをカタログ化し、5人のソフトウェアテスタにインタビューして、TAにおけるAIの現在と将来の役割について見識を得た。 結果: TAでは,手動のテストコードの開発とメンテナンスが主な課題であることがわかった。 対照的に、自動テスト生成と自己修復テストスクリプトは、最も一般的なAIソリューションである。 私たちはAIベースの100のTAツールを特定し、Applitools、Testim、Functionize、AccelQ、Mablが最も採用されています。 結論: 灰色文学分析と専門家インタビューを通じて,AIがTAに与える影響を概観する。 TA問題とAIソリューションの新たな分類体系を提示し、AI駆動ツールのカタログを提供し、問題に対するソリューションとツールをソリューションに関連付ける。 インタビューの洞察は、TAにおけるAIの現状と将来の可能性をさらに明らかにした。 本研究は,TAツールの選択と今後の研究指針の導出を支援する。

Context: Test Automation (TA) techniques are crucial for quality assurance in software engineering but face limitations such as high test suite maintenance costs and the need for extensive programming skills. Artificial Intelligence (AI) offers new opportunities to address these issues through automation and improved practices. Objectives: This study surveys grey literature to explore how AI is adopted in TA, focusing on the problems it solves, its solutions, and the available tools. Additionally, the study gathers expert insights to understand AI's current and future role in TA. Methods: We reviewed over 3,600 grey literature sources over five years, including blogs, white papers, and user manuals, and finally filtered 342 documents to develop taxonomies of TA problems and AI solutions. We also cataloged 100 AI-driven TA tools and interviewed five expert software testers to gain insights into AI's current and future role in TA. Results: The study found that manual test code development and maintenance are the main challenges in TA. In contrast, automated test generation and self-healing test scripts are the most common AI solutions. We identified 100 AI-based TA tools, with Applitools, Testim, Functionize, AccelQ, and Mabl being the most adopted in practice. Conclusion: This paper offers a detailed overview of AI's impact on TA through grey literature analysis and expert interviews. It presents new taxonomies of TA problems and AI solutions, provides a catalog of AI-driven tools, and relates solutions to problems and tools to solutions. Interview insights further revealed the state and future potential of AI in TA. Our findings support practitioners in selecting TA tools and guide future research directions.
翻訳日:2024-08-13 12:53:36 公開日:2024-08-12
# FLEURS-R:タスク生成のための復元多言語音声コーパス

FLEURS-R: A Restored Multilingual Speech Corpus for Generation Tasks ( http://arxiv.org/abs/2408.06227v1 )

ライセンス: Link先を確認
Min Ma, Yuma Koizumi, Shigeki Karita, Heiga Zen, Jason Riesa, Haruko Ishikawa, Michiel Bacchiani, (参考訳) 本稿では,FLEURSコーパスのFew-shot Learning Evaluation of Universal Representations of Speech (FLEURS) コーパスの音声復元版であるFLEURS-Rを紹介する。 FLEURS-Rは102言語でNウェイ並列音声コーパスをFLEURSとして維持し、音声復元モデルであるMiipherを適用して、音質と忠実度を向上させる。 FLEURS-Rの目的は、より多くの言語における音声技術の進歩と、低リソース言語におけるテキスト音声(TTS)やその他の音声生成タスクを含む研究を触媒することである。 新しいコーパスから訓練した復元音声とTSベースラインモデルによる包括的評価は、音声の意味的内容を維持しながら、新しいコーパスが音声品質を著しく改善したことを示している。 コーパスはHugging Faceを通じて公開されている。

This paper introduces FLEURS-R, a speech restoration applied version of the Few-shot Learning Evaluation of Universal Representations of Speech (FLEURS) corpus. FLEURS-R maintains an N-way parallel speech corpus in 102 languages as FLEURS, with improved audio quality and fidelity by applying the speech restoration model Miipher. The aim of FLEURS-R is to advance speech technology in more languages and catalyze research including text-to-speech (TTS) and other speech generation tasks in low-resource languages. Comprehensive evaluations with the restored speech and TTS baseline models trained from the new corpus show that the new corpus obtained significantly improved speech quality while maintaining the semantic contents of the speech. The corpus is publicly released via Hugging Face.
翻訳日:2024-08-13 12:53:36 公開日:2024-08-12
# 相互学習

Reciprocal Learning ( http://arxiv.org/abs/2408.06257v1 )

ライセンス: Link先を確認
Julian Rodemann, Christoph Jansen, Georg Schollmeyer, (参考訳) 我々は、幅広い機械学習アルゴリズムが1つのパラダイムの特定の例であることを示した。 これらのインスタンスは、マルチアームのバンディットに関するアクティブな学習から、自己学習まで多岐にわたる。 これらのアルゴリズムは、データからパラメータを学習するだけでなく、その逆も示す: 現在のモデルに適合する方法で、トレーニングデータを反復的に変更する。 本稿では,これらのアルゴリズムの一般化として,決定論の言語を用いた相互学習を紹介する。 これにより、どの条件で収束するかを研究できます。 鍵となるのは、バナッハの不動点定理が適用されるような相互学習契約を保証することである。 このようにして、相反学習アルゴリズムは損失関数の比較的穏やかな仮定の下で線形速度でほぼ最適モデルに収束する。 我々はこれらの知見を解釈し、特定のアクティブラーニング、自己学習、およびバンディットのアルゴリズムに関連づけられたコースを提供する。

We demonstrate that a wide array of machine learning algorithms are specific instances of one single paradigm: reciprocal learning. These instances range from active learning over multi-armed bandits to self-training. We show that all these algorithms do not only learn parameters from data but also vice versa: They iteratively alter training data in a way that depends on the current model fit. We introduce reciprocal learning as a generalization of these algorithms using the language of decision theory. This allows us to study under what conditions they converge. The key is to guarantee that reciprocal learning contracts such that the Banach fixed-point theorem applies. In this way, we find that reciprocal learning algorithms converge at linear rates to an approximately optimal model under relatively mild assumptions on the loss function, if their predictions are probabilistic and the sample adaption is both non-greedy and either randomized or regularized. We interpret these findings and provide corollaries that relate them to specific active learning, self-training, and bandit algorithms.
翻訳日:2024-08-13 12:53:36 公開日:2024-08-12
# 分子生成のためのオープンソースの分子処理パイプライン

Open-Source Molecular Processing Pipeline for Generating Molecules ( http://arxiv.org/abs/2408.06261v1 )

ライセンス: Link先を確認
Shreyas V, Jose Siguenza, Karan Bania, Bharath Ramsundar, (参考訳) 分子の生成モデルは、計算化学での使用をかなり約束しているが、非専門家での使用は困難である。 このような理由から,我々は生成分子モデルを簡単に構築するためのオープンソース基盤を,堅牢で再利用可能な分子生成パイプラインの構築を目的として,広く使用されているDeepChem [Ramsundar et al , 2019]ライブラリに導入した。 特に、PyTorch [Paszke et al , 2019] の分子生成逆数ネットワーク (MolGAN) [Cao and Kipf, 2022] と正規化フロー [Papamakarios et al , 2021] の実装を高品質に追加する。 Kuznetsov と Polykovskiy, 2021, Cao と Kipf, 2022] に匹敵するパフォーマンスを示している。

Generative models for molecules have shown considerable promise for use in computational chemistry, but remain difficult to use for non-experts. For this reason, we introduce open-source infrastructure for easily building generative molecular models into the widely used DeepChem [Ramsundar et al., 2019] library with the aim of creating a robust and reusable molecular generation pipeline. In particular, we add high quality PyTorch [Paszke et al., 2019] implementations of the Molecular Generative Adversarial Networks (MolGAN) [Cao and Kipf, 2022] and Normalizing Flows [Papamakarios et al., 2021]. Our implementations show strong performance comparable with past work [Kuznetsov and Polykovskiy, 2021, Cao and Kipf, 2022].
翻訳日:2024-08-13 12:53:36 公開日:2024-08-12
# FuxiTranyu: バランスデータでトレーニングされた多言語大言語モデル

FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data ( http://arxiv.org/abs/2408.06273v1 )

ライセンス: Link先を確認
Haoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Dui, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong, (参考訳) 大規模言語モデル (LLM) は様々なタスクに長けている。 しかし、多くのLLMは、ハイソース言語と低リソース言語の間に大きな性能差がある。 この課題を軽減するため,オープンソースの多言語LLMであるFuxiTranyuを紹介した。 80億のパラメータを持つベースモデルであるFuxiTranyu-8Bは、43の自然言語と16のプログラミング言語をカバーする600億のトークンを含む、厳密にバランスの取れた多言語データリポジトリ上で、ゼロからトレーニングされている。 ベースモデルに加えて,多言語命令データセットを微調整したFuxiTranyu-8B-SFTと,アライメント能力を高めるためにDPOでさらに改良したFuxiTranyu-8B-DPOという2つの命令チューニングモデルも開発している。 広範囲にわたる多言語ベンチマーク実験により、既存の多言語LLM(例えば、BLOOM-7B、PolyLM-13B、Llama-2-Chat-7B、Mistral-7B-Instruct)に対するFuxiTranyuの競合性能が示された。 ニューロンと表現レベルでの解釈可能性の解析は、フキシトラユが異なる言語で一貫した多言語表現を学習できることを示している。 多言語LLMとその動作機構のさらなる研究を促進するために,HuggingFaceとGithubの58の事前学習チェックポイントとともに,ベースモデルと命令指定のFuxiTranyuモデルの両方をリリースする。

Large language models (LLMs) have demonstrated prowess in a wide range of tasks. However, many LLMs exhibit significant performance discrepancies between high- and low-resource languages. To mitigate this challenge, we present FuxiTranyu, an open-source multilingual LLM, which is designed to satisfy the need of the research community for balanced and high-performing multilingual capabilities. FuxiTranyu-8B, the base model with 8 billion parameters, is trained from scratch on a meticulously balanced multilingual data repository that contains 600 billion tokens covering 43 natural languages and 16 programming languages. In addition to the base model, we also develop two instruction-tuned models: FuxiTranyu-8B-SFT that is fine-tuned on a diverse multilingual instruction dataset, and FuxiTranyu-8B-DPO that is further refined with DPO on a preference dataset for enhanced alignment ability. Extensive experiments on a wide range of multilingual benchmarks demonstrate the competitive performance of FuxiTranyu against existing multilingual LLMs, e.g., BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B and Mistral-7B-Instruct. Interpretability analyses at both the neuron and representation level suggest that FuxiTranyu is able to learn consistent multilingual representations across different languages. To promote further research into multilingual LLMs and their working mechanisms, we release both the base and instruction-tuned FuxiTranyu models together with 58 pretraining checkpoints at HuggingFace and Github.
翻訳日:2024-08-13 12:53:36 公開日:2024-08-12
# 推薦のための大規模言語モデルを用いたレビュー駆動パーソナライズされた選好推論

Review-driven Personalized Preference Reasoning with Large Language Models for Recommendation ( http://arxiv.org/abs/2408.06276v1 )

ライセンス: Link先を確認
Jieyong Kim, Hyunseo Kim, Hyunjin Cho, SeongKu Kang, Buru Chang, Jinyoung Yeo, Dongha Lee, (参考訳) 近年のLarge Language Models (LLM) の進歩は、幅広いタスクにまたがって例外的な性能を示し、レコメンデーションシステムへの応用に大きな関心を惹き付けている。 しかし、既存の手法は LLM の可能性に完全には乗じておらず、しばしば入力情報の制限や高度な推論能力の活用に失敗している。 これらの制約に対処するために,ユーザおよび項目レビューに含まれるリッチな嗜好情報を活用するために,LLMをベースとした新しいレコメンデーションであるEXP3RTを紹介する。 EXP3RTは、教師のLLMから蒸留して3つの重要なタスクを順に実行する。 EXP3RTは、まず、生のレビューから重要な主観的嗜好を抽出し、カプセル化し、それらを特定の基準に従って集約し、ユーザとアイテムプロファイルを作成する。 そして、ユーザ/イデムプロファイルと項目記述からの主観的情報と客観的情報の両方を考慮することにより、詳細なステップバイステップの推論と予測された評価、すなわち推論強化された評価予測を生成する。 EXP3RTからのパーソナライズされた選好推論は、評価予測の精度を高め、また、推奨のために忠実で合理的な説明を提供する。 総合実験の結果,EXP3RTは評価予測と候補項目の再評価において既存手法よりも優れており,推薦システムの説明可能性も著しく向上していることがわかった。

Recent advancements in Large Language Models (LLMs) have demonstrated exceptional performance across a wide range of tasks, generating significant interest in their application to recommendation systems. However, existing methods have not fully capitalized on the potential of LLMs, often constrained by limited input information or failing to fully utilize their advanced reasoning capabilities. To address these limitations, we introduce EXP3RT, a novel LLM-based recommender designed to leverage rich preference information contained in user and item reviews. EXP3RT is basically fine-tuned through distillation from a teacher LLM to perform three key tasks in order: EXP3RT first extracts and encapsulates essential subjective preferences from raw reviews, aggregates and summarizes them according to specific criteria to create user and item profiles. It then generates detailed step-by-step reasoning followed by predicted rating, i.e., reasoning-enhanced rating prediction, by considering both subjective and objective information from user/item profiles and item descriptions. This personalized preference reasoning from EXP3RT enhances rating prediction accuracy and also provides faithful and reasonable explanations for recommendation. Extensive experiments show that EXP3RT outperforms existing methods on both rating prediction and candidate item reranking for top-k recommendation, while significantly enhancing the explainability of recommendation systems.
翻訳日:2024-08-13 12:53:36 公開日:2024-08-12
# 反復参照によるマルチマルジナルシュレーディンガー橋

Multi-marginal Schrödinger Bridges with Iterative Reference ( http://arxiv.org/abs/2408.06277v1 )

ライセンス: Link先を確認
Yunyi Shen, Renato Berlinghieri, Tamara Broderick, (参考訳) 実践者は、しばしば複数の時点のサンプルスナップショットを用いて、観測されていない人口軌道を推測することを目的としている。 例えば、単一細胞のシークエンシングでは、遺伝子発現が時間の経過とともにどのように進化するかを学びたい。 しかし、どの細胞もシークエンシングすることでその細胞は破壊される。 したがって、あらゆる細胞の完全な軌道にアクセスすることはできないが、多くの細胞からのスナップショットサンプルにアクセスすることができる。 確率微分方程式は、完全な個人軌道アクセスを持つ系を解析するために一般的に用いられるが、ここではサンプルスナップショットしか持たないため、これらの手法は適用できない。 ディープラーニングコミュニティは先頃、Schr\"odinger Bridges(SBs)とその拡張を使って、これらのダイナミクスを見積もっている。 しかしながら、これらの手法は(1) ちょうど2つの時間点の間を補間するか、または(2) SB 内の単一の固定された参照ダイナミクスを必要とする。 しかし、隣接する時間ポイントから断片的に学ぶことは、長期的な依存関係を捉えるのに失敗する可能性がある。 そして、実践者は一般的に参照のダイナミックなモデルクラスを指定できますが、その中のパラメータの正確な値ではありません。 そこで本研究では,(1)複数時点にわたるサンプルスナップショットから未観測軌跡を学習する手法を提案する。 特に、Schr\"odinger Bridges にインスパイアされた反復射影法を提案し、観測されていない軌道上の断片的 SB の学習と学習された SB を用いて参照クラス内のダイナミクスの最良の推算を洗練させることを交互に行う。 本手法の利点は,エコロジーからのシミュレーションパラメトリックモデル,システム生物学からのシミュレーションおよび実データ,実際のモーションキャプチャーデータを用いて実証する。

Practitioners frequently aim to infer an unobserved population trajectory using sample snapshots at multiple time points. For instance, in single-cell sequencing, scientists would like to learn how gene expression evolves over time. But sequencing any cell destroys that cell. So we cannot access any cell's full trajectory, but we can access snapshot samples from many cells. Stochastic differential equations are commonly used to analyze systems with full individual-trajectory access; since here we have only sample snapshots, these methods are inapplicable. The deep learning community has recently explored using Schr\"odinger bridges (SBs) and their extensions to estimate these dynamics. However, these methods either (1) interpolate between just two time points or (2) require a single fixed reference dynamic within the SB, which is often just set to be Brownian motion. But learning piecewise from adjacent time points can fail to capture long-term dependencies. And practitioners are typically able to specify a model class for the reference dynamic but not the exact values of the parameters within it. So we propose a new method that (1) learns the unobserved trajectories from sample snapshots across multiple time points and (2) requires specification only of a class of reference dynamics, not a single fixed one. In particular, we suggest an iterative projection method inspired by Schr\"odinger bridges; we alternate between learning a piecewise SB on the unobserved trajectories and using the learned SB to refine our best guess for the dynamics within the reference class. We demonstrate the advantages of our method via a well-known simulated parametric model from ecology, simulated and real data from systems biology, and real motion-capture data.
翻訳日:2024-08-13 12:53:36 公開日:2024-08-12
# 曖昧さのパターンを見つける: 決定における解釈可能なストレステスト -境界-

Finding Patterns in Ambiguity: Interpretable Stress Testing in the Decision~Boundary ( http://arxiv.org/abs/2408.06302v1 )

ライセンス: Link先を確認
Inês Gomes, Luís F. Teixeira, Jan N. van Rijn, Carlos Soares, André Restivo, Luís Cunha, Moisés Santos, (参考訳) さまざまな領域にわたるディープラーニングの利用の増加は、これらのブラックボックスモデルの意思決定プロセスを理解することの重要性を強調している。 深層分類器の決定境界に焦点をあてた最近の研究は、信頼性の低い領域で生成された合成インスタンスに依存し、モデルと人間の両方に挑戦するサンプルを明らかにする。 本稿では, 決定境界(プロトタイプ)から代表サンプルを選択し, モデル後説明アルゴリズムを適用することによって, ディープバイナリ分類器の解釈可能性を高める新しい手法を提案する。 2次元可視化とグラディエントSHAP解析によるアプローチの有効性を評価した。 提案手法の可能性を実証し,低信頼度決定に繋がる重要な特徴を捉えた,明瞭でコンパクトなクラスタと多種多様なプロトタイプを明らかにした。 ディープ分類器の意思決定境界をより集約したビューを提供することで、我々の仕事は信頼性の高い機械学習システムの開発とデプロイに寄与する。

The increasing use of deep learning across various domains highlights the importance of understanding the decision-making processes of these black-box models. Recent research focusing on the decision boundaries of deep classifiers, relies on generated synthetic instances in areas of low confidence, uncovering samples that challenge both models and humans. We propose a novel approach to enhance the interpretability of deep binary classifiers by selecting representative samples from the decision boundary - prototypes - and applying post-model explanation algorithms. We evaluate the effectiveness of our approach through 2D visualizations and GradientSHAP analysis. Our experiments demonstrate the potential of the proposed method, revealing distinct and compact clusters and diverse prototypes that capture essential features that lead to low-confidence decisions. By offering a more aggregated view of deep classifiers' decision boundaries, our work contributes to the responsible development and deployment of reliable machine learning systems.
翻訳日:2024-08-13 12:53:36 公開日:2024-08-12
# OWL2Vec4OA: オントロジーアライメントのための知識グラフ埋め込みの設計

OWL2Vec4OA: Tailoring Knowledge Graph Embeddings for Ontology Alignment ( http://arxiv.org/abs/2408.06310v1 )

ライセンス: Link先を確認
Sevinj Teymurova, Ernesto Jiménez-Ruiz, Tillman Weyde, Jiaoyan Chen, (参考訳) 交差するドメインをカバーするオントロジーの数が増えるにつれて、オントロジーのアライメントはセマンティック・インターオペラビリティの実現に不可欠である。 本稿では、オントロジー埋め込みシステムOWL2Vec*の拡張であるOWL2Vec4OAを提案する。 OWL2Vec*は、オントロジー埋め込みの強力なテクニックとして登場したが、現在、オントロジーアライメントタスクへの埋め込みを調整するためのメカニズムが欠如している。 OWL2Vec4OAは、種子マッピングからのエッジ信頼値を組み込んでランダムウォーク戦略を導出する。 本稿では,提案する拡張の理論的基礎,実装の詳細,および実験的評価を行い,オントロジーアライメントタスクの有効性を実証する。

Ontology alignment is integral to achieving semantic interoperability as the number of available ontologies covering intersecting domains is increasing. This paper proposes OWL2Vec4OA, an extension of the ontology embedding system OWL2Vec*. While OWL2Vec* has emerged as a powerful technique for ontology embedding, it currently lacks a mechanism to tailor the embedding to the ontology alignment task. OWL2Vec4OA incorporates edge confidence values from seed mappings to guide the random walk strategy. We present the theoretical foundations, implementation details, and experimental evaluation of our proposed extension, demonstrating its potential effectiveness for ontology alignment tasks.
翻訳日:2024-08-13 12:53:36 公開日:2024-08-12
# ボディー・トランスフォーマー:政策学習のためのロボット・エボディメントの活用

Body Transformer: Leveraging Robot Embodiment for Policy Learning ( http://arxiv.org/abs/2408.06316v1 )

ライセンス: Link先を確認
Carmelo Sferrazza, Dun-Ming Huang, Fangchen Liu, Jongmin Lee, Pieter Abbeel, (参考訳) 近年、トランスフォーマーアーキテクチャは自然言語処理やコンピュータビジョンに応用された機械学習アルゴリズムのデファクトスタンダードとなっている。 ロボット学習の文脈におけるこのアーキテクチャの展開が成功したという顕著な証拠にもかかわらず、我々は、バニラトランスフォーマーはロボット学習問題の構造を完全に活用していないと主張している。 そこで本研究では,学習過程をガイドする帰納バイアスを提供することで,ロボットの体現化を活用するアーキテクチャであるBody Transformer(BoT)を提案する。 我々はロボットの体をセンサーとアクチュエータのグラフとして表現し、建築全体を通してプール情報にマスキングされた注意を頼りにしている。 その結果、バニラ変換器と古典的な多層パーセプトロンは、模倣または強化学習ポリシーを表現する際に、タスク完了、スケーリング特性、計算効率の点で優れている。 オープンソースコードを含む追加資料はhttps://sferrazza.cc/bot_site.comで公開されている。

In recent years, the transformer architecture has become the de facto standard for machine learning algorithms applied to natural language processing and computer vision. Despite notable evidence of successful deployment of this architecture in the context of robot learning, we claim that vanilla transformers do not fully exploit the structure of the robot learning problem. Therefore, we propose Body Transformer (BoT), an architecture that leverages the robot embodiment by providing an inductive bias that guides the learning process. We represent the robot body as a graph of sensors and actuators, and rely on masked attention to pool information throughout the architecture. The resulting architecture outperforms the vanilla transformer, as well as the classical multilayer perceptron, in terms of task completion, scaling properties, and computational efficiency when representing either imitation or reinforcement learning policies. Additional material including the open-source code is available at https://sferrazza.cc/bot_site.
翻訳日:2024-08-13 12:53:36 公開日:2024-08-12
# LLMエージェントによる長期計画作成は可能か?TravelPlannerを例に

Can We Rely on LLM Agents to Draft Long-Horizon Plans? Let's Take TravelPlanner as an Example ( http://arxiv.org/abs/2408.06318v1 )

ライセンス: Link先を確認
Yanan Chen, Ali Pesaranghader, Tanmana Sadhu, Dong Hoon Yi, (参考訳) 大規模言語モデル(LLM)は、有望な一般化と創発的能力のために、自律エージェントを人工知能(AGI)に近づけた。 しかし、LLMベースのエージェントがどのように振る舞うのか、なぜ失敗する可能性があるのか、そしてどのように改善するか、特に現実世界の計画タスクを要求しているのかについての研究が不足している。 本稿では,このギャップを埋めるために,エージェントが複数の制約を満たして正確な計画を生成する,現実的なベンチマークであるTravelPlannerを用いて検討を行った。 1)LLMエージェントは、推論や計画に関して、長く、騒々しいコンテキストに十分頑丈か? 2) 長時間のシナリオにおいて,LLMエージェントの性能に悪影響を及ぼすおそれがあるか? (3) 計画改善に改良に頼ることができ、(4) 肯定的・否定的なフィードバックによる微調整が更なる改善につながるか。 総合的な実験から、LLMは、広範囲な参照情報や少数例を扱う能力にもかかわらず、長いコンテキストの重要な部分への参加に失敗することが少なく、また、長い計画の分析に苦慮し、改善のための正確なフィードバックを提供できないことを示し、第3に、肯定的なフィードバックと否定的なフィードバックの両方を活用するフィードバック・アウェア・ファイン・チューニング(FAFT)を提案し、その結果、スーパービジョン・ファイン・チューニング(SFT)よりも大幅に向上することを示した。 実世界の計画アプリケーションに関連するさまざまな側面について,コミュニティに深い洞察を提供する。

Large language models (LLMs) have brought autonomous agents closer to artificial general intelligence (AGI) due to their promising generalization and emergent capabilities. There is, however, a lack of studies on how LLM-based agents behave, why they could potentially fail, and how to improve them, particularly in demanding real-world planning tasks. In this paper, as an effort to fill the gap, we present our study using a realistic benchmark, TravelPlanner, where an agent must meet multiple constraints to generate accurate plans. We leverage this benchmark to address four key research questions: (1) are LLM agents robust enough to lengthy and noisy contexts when it comes to reasoning and planning? (2) can few-shot prompting adversely impact the performance of LLM agents in scenarios with long context? (3) can we rely on refinement to improve plans, and (4) can fine-tuning LLMs with both positive and negative feedback lead to further improvement? Our comprehensive experiments indicate that, firstly, LLMs often fail to attend to crucial parts of a long context, despite their ability to handle extensive reference information and few-shot examples; secondly, they still struggle with analyzing the long plans and cannot provide accurate feedback for refinement; thirdly, we propose Feedback-Aware Fine-Tuning (FAFT), which leverages both positive and negative feedback, resulting in substantial gains over Supervised Fine-Tuning (SFT). Our findings offer in-depth insights to the community on various aspects related to real-world planning applications.
翻訳日:2024-08-13 12:53:36 公開日:2024-08-12
# Animate, or inanimate, That is the Question for Large Language Models

Animate, or Inanimate, That is the Question for Large Language Models ( http://arxiv.org/abs/2408.06332v1 )

ライセンス: Link先を確認
Leonardo Ranaldi, Giulia Pucci, Fabio Massimo Zanzotto, (参考訳) 人間の認知の本質は、記憶、視覚、多層言語理解の形成において重要な役割を果たすアニマシーの概念と深く絡み合っている。 アニマシーは動詞や形容詞のニュアンス制約によって言語に現れるが、言語外情報を通じて学習され、洗練される。 同様に、LLMが自然言語を処理する能力に制限があることは、これらのモデルがテキストでのみ訓練されているという事実によって動機づけられていると仮定する。 LLMは、デジタルの知恵において、人間がするのと同じような方法で、アニマシーを処理できるか? 次に,提案手法による系統解析を提案する。 特に、アニメーション、不生、通常、見知らぬ文脈を用いて、異なるLLMを探索する。 その結果, LLMはテキストデータに基づいて主に訓練されているものの, 従来の研究と一致して, 典型的なアニメートや不生長の実体に直面すると, 人間の様の行動を示すことが明らかとなった。 したがって、LLMは、人間がアニメーションを分解するために頼っている無意味な認知的トリガーとインタフェースを必要とせずに、奇異をアニメーションとして認識することで、伝統的な状況を理解するために適応することができる。

The cognitive essence of humans is deeply intertwined with the concept of animacy, which plays an essential role in shaping their memory, vision, and multi-layered language understanding. Although animacy appears in language via nuanced constraints on verbs and adjectives, it is also learned and refined through extralinguistic information. Similarly, we assume that the LLMs' limited abilities to understand natural language when processing animacy are motivated by the fact that these models are trained exclusively on text. Hence, the question this paper aims to answer arises: can LLMs, in their digital wisdom, process animacy in a similar way to what humans would do? We then propose a systematic analysis via prompting approaches. In particular, we probe different LLMs by prompting them using animate, inanimate, usual, and stranger contexts. Results reveal that, although LLMs have been trained predominantly on textual data, they exhibit human-like behavior when faced with typical animate and inanimate entities in alignment with earlier studies. Hence, LLMs can adapt to understand unconventional situations by recognizing oddities as animated without needing to interface with unspoken cognitive triggers humans rely on to break down animations.
翻訳日:2024-08-13 12:53:36 公開日:2024-08-12
# FastFiD:文選択によるオープンドメイン質問回答の推論効率の向上

FastFiD: Improve Inference Efficiency of Open Domain Question Answering via Sentence Selection ( http://arxiv.org/abs/2408.06333v1 )

ライセンス: Link先を確認
Yufei Huang, Xu Han, Maosong Sun, (参考訳) Open Domain Question Answering (ODQA) は近年急速に進展しており、密流路検索や事前学習言語モデルに大きな進展が進んでいる。 現在のモデルは一般的に、エンコーダ・デコーダ・ニューラルリーダーと共にニューラルレトリバーによって構成されるFiDフレームワークを組み込んでいる。 回答生成プロセスでは、検索者は多数のパス(例えば100)を検索し、それぞれがエンコーダによって個別に符号化される。 その後、デコーダはこれらの符号化されたパスに基づいて予測を行う。 しかしながら、この枠組みは比較的時間がかかり、特に収集された通路の幅が広いためである。 そこで本稿では,符号化された文に対して文選択を行う新しい手法であるFastFiDを紹介する。 これにより、価値ある文を保持するのに役立ち、回答を生成するのに必要な文脈長を減らすことができる。 3つの一般的なデータセット(Natural Questions、TriviaQA、ASQA)の実験では、モデルの性能を同時に維持しながら、2.3X-5.7Xの推論速度を向上できることを示した。 さらに、モデルの注意を詳細に分析した結果、選択した文が最終的な回答に実質的な貢献をすることが明らかとなった。 コードはhttps://github.com/thunlp/FastFiD.comで公開されている。

Open Domain Question Answering (ODQA) has been advancing rapidly in recent times, driven by significant developments in dense passage retrieval and pretrained language models. Current models typically incorporate the FiD framework, which is composed by a neural retriever alongside an encoder-decoder neural reader. In the answer generation process, the retriever will retrieve numerous passages (around 100 for instance), each of which is then individually encoded by the encoder. Subsequently, the decoder makes predictions based on these encoded passages. Nevertheless, this framework can be relatively time-consuming, particularly due to the extensive length of the gathered passages. To address this, we introduce FastFiD in this paper, a novel approach that executes sentence selection on the encoded passages. This aids in retaining valuable sentences while reducing the context length required for generating answers. Experiments on three commonly used datasets (Natural Questions, TriviaQA and ASQA) demonstrate that our method can enhance the inference speed by 2.3X-5.7X, while simultaneously maintaining the model's performance. Moreover, an in-depth analysis of the model's attention reveals that the selected sentences indeed hold a substantial contribution towards the final answer. The codes are publicly available at https://github.com/thunlp/FastFiD.
翻訳日:2024-08-13 12:53:36 公開日:2024-08-12