このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240419となっている論文です。

PDF登録状況(公開日: 20240419)

TitleAuthorsAbstract論文公表日・翻訳日
# 大規模リコメンダシステムにおけるマルチタスク融合のためのオフポリティ強化学習アルゴリズム

An Off-Policy Reinforcement Learning Algorithm Customized for Multi-Task Fusion in Large-Scale Recommender Systems ( http://arxiv.org/abs/2404.17589v1 )

ライセンス: Link先を確認
Peng Liu, Cong Xu, Ming Zhao, Jiawei Zhu, Bin Wang, Yi Ren, (参考訳) Recommender Systems (RS) はパーソナライズされたレコメンデーションサービスを提供するために広く使われている。 マルチタスク・フュージョン(MTF)は、マルチタスク・ラーニング(MTL)が出力する複数のスコアを最終スコアに組み合わせ、ユーザの満足度を最大化し、最終的なレコメンデーション結果を決定する。 近年,レコメンデーションセッションにおける長期ユーザ満足度を最適化するために,業界におけるMDFには強化学習(Reinforcement Learning, RL)が用いられている。 しかし、これまでのMTFで使われている非政治RLアルゴリズムには、以下の深刻な問題がある。 1) アウト・オブ・ディストリビューション(OOD)問題を避けるため,その制約は過度に厳格であり,その性能を著しく損なう。 2 訓練データの作成に使用する探索政策を意識せず、実環境と相互作用しないため、準最適政策のみを学ぶことができる。 3) 従来の調査方針は非効率であり、ユーザエクスペリエンスを損ないます。 以上の問題を解決するために,大規模RSにおいてMTF用にカスタマイズされた新規なオフポリチィRLアルゴリズムを提案する。 我々のRL-MTFアルゴリズムは、オンライン探索ポリシーと外部のRLモデルを統合し、制約を緩和し、RLモデルの性能を大幅に改善する。 我々はまた、低値探索空間を排除し、潜在的高値状態-作用ペアの探索に焦点を当てた、極めて効率的な探索ポリシーを設計する。 さらに, 探索政策の助けを借りて, RLモデルの性能を高めるために, プログレッシブ・トレーニング・モードを採用する。 Tencent Newsの短いビデオチャンネルで、大規模なオフラインおよびオンラインの実験を行っています。 その結果,RL-MTFモデルは他のモデルよりも優れていた。 我々のRL-MTFモデルは、Tencent Newsの短いビデオチャンネルに約1年間完全にデプロイされています。 さらに、当社のソリューションはTencentの他の大規模RSでも使用されています。

Recommender Systems (RSs) are widely used to provide personalized recommendation service. As the last critical stage of RSs, Multi-Task Fusion (MTF) is responsible for combining multiple scores outputted by Multi-Task Learning (MTL) into a final score to maximize user satisfaction, which determines the ultimate recommendation results. Recently, to optimize long-term user satisfaction within a recommendation session, Reinforcement Learning (RL) is used for MTF in the industry. However, the off-policy RL algorithms used for MTF so far have the following severe problems: 1) to avoid out-of-distribution (OOD) problem, their constraints are overly strict, which seriously damage their performance; 2) they are unaware of the exploration policy used for producing training data and never interact with real environment, so only suboptimal policy can be learned; 3) the traditional exploration policies are inefficient and hurt user experience. To solve the above problems, we propose a novel off-policy RL algorithm customized for MTF in large-scale RSs. Our RL-MTF algorithm integrates off-policy RL model with our online exploration policy to relax overstrict and complicated constraints, which significantly improves the performance of our RL model. We also design an extremely efficient exploration policy, which eliminates low-value exploration space and focuses on exploring potential high-value state-action pairs. Moreover, we adopt progressive training mode to further enhance our RL model's performance with the help of our exploration policy. We conduct extensive offline and online experiments in the short video channel of Tencent News. The results demonstrate that our RL-MTF model outperforms other models remarkably. Our RL-MTF model has been fully deployed in the short video channel of Tencent News for about one year. In addition, our solution has been used in other large-scale RSs in Tencent.
翻訳日:2024-05-05 18:04:17 公開日:2024-04-19
# マルチモーダルエンティティアライメントのためのモーダル内およびモーダル間相互作用の活用

Leveraging Intra-modal and Inter-modal Interaction for Multi-Modal Entity Alignment ( http://arxiv.org/abs/2404.17590v1 )

ライセンス: Link先を確認
Zhiwei Hu, Víctor Gutiérrez-Basulto, Zhiliang Xiang, Ru Li, Jeff Z. Pan, (参考訳) マルチモーダル・エンティティ・アライメント(MMEA)は、異なるマルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティ・ペアを識別することを目的としている。 既存のアプローチでは、さまざまなモダリティから情報をエンコードして集約する方法に重点を置いている。 しかし、モーダルな不均一性のため、エンティティアライメントにおいてマルチモーダルな知識を活用することは自明ではない。 本稿では,MIMEA(Multi-Grained Interaction framework for Multi-Modal Entity Alignment)を提案する。 MIMEAは4つのモジュールから構成される。 一 マルチモーダル知識埋め込みモジュールであって、複数の個別エンコーダでモダリティ固有の表現を抽出するもの 二 確率誘導型モダルフュージョンモジュールであって、一様表現の相互作用を考慮しつつ、一様表現を共同モダル埋め込みに統合するための確率誘導的手法を用いるもの 三 ユニモーダルとジョイントモーダルの埋め込みの相互作用を促進するための最適な輸送機構を導入する最適輸送モーダルアライメントモジュール 四 モダル適応コントラスト学習モジュールであって、同値でないものと等価でないものとの埋め込みを、各モダリティごとに区別するものであること。 2つの実世界のデータセットで実施された大規模な実験は、SoTAと比較してMIMEAの強い性能を示している。 追加資料としてデータセットとコードが提出されている。

Multi-modal entity alignment (MMEA) aims to identify equivalent entity pairs across different multi-modal knowledge graphs (MMKGs). Existing approaches focus on how to better encode and aggregate information from different modalities. However, it is not trivial to leverage multi-modal knowledge in entity alignment due to the modal heterogeneity. In this paper, we propose a Multi-Grained Interaction framework for Multi-Modal Entity Alignment (MIMEA), which effectively realizes multi-granular interaction within the same modality or between different modalities. MIMEA is composed of four modules: i) a Multi-modal Knowledge Embedding module, which extracts modality-specific representations with multiple individual encoders; ii) a Probability-guided Modal Fusion module, which employs a probability guided approach to integrate uni-modal representations into joint-modal embeddings, while considering the interaction between uni-modal representations; iii) an Optimal Transport Modal Alignment module, which introduces an optimal transport mechanism to encourage the interaction between uni-modal and joint-modal embeddings; iv) a Modal-adaptive Contrastive Learning module, which distinguishes the embeddings of equivalent entities from those of non-equivalent ones, for each modality. Extensive experiments conducted on two real-world datasets demonstrate the strong performance of MIMEA compared to the SoTA. Datasets and code have been submitted as supplementary materials.
翻訳日:2024-05-05 18:04:17 公開日:2024-04-19
# 次のポイント・オブ・インテンシブ・レコメンデーションのための大規模言語モデル

Large Language Models for Next Point-of-Interest Recommendation ( http://arxiv.org/abs/2404.17591v1 )

ライセンス: Link先を確認
Peibo Li, Maarten de Rijke, Hao Xue, Shuang Ao, Yang Song, Flora D. Salim, (参考訳) 次のPOI(Point of Interest)レコメンデーションタスクは、過去のデータから、ユーザの次のPOI訪問をすぐに予測することである。 ロケーションベースのソーシャルネットワーク(LBSN)データは、しばしば次のPOIレコメンデーションタスクに使用される。 しばしば無視される課題の1つは、LBSNデータに存在する豊富なコンテキスト情報を効果的に利用する方法である。 従来の手法はその数値的性質によって制限されており、この問題に対処することができない。 本稿では,事前学習型大規模言語モデル(LLM)を用いてこの問題に対処するフレームワークを提案する。 我々のフレームワークは、異種LBSNデータを元のフォーマットで保存できるので、コンテキスト情報の欠落を避けることができる。 さらに,本フレームワークは,コモンセンス知識を取り入れることで,文脈情報の本質的意味を理解することができる。 実験では、実世界の3つのLBSNデータセット上でフレームワークをテストする。 提案したフレームワークは,3つのデータセットすべてにおいて,最先端のモデルよりも優れていることを示す。 本分析は, コンテクスト情報を用いたフレームワークの有効性と, コールドスタートやショートトラジェクトリの問題の緩和効果を示す。

The next Point of Interest (POI) recommendation task is to predict users' immediate next POI visit given their historical data. Location-Based Social Network (LBSN) data, which is often used for the next POI recommendation task, comes with challenges. One frequently disregarded challenge is how to effectively use the abundant contextual information present in LBSN data. Previous methods are limited by their numerical nature and fail to address this challenge. In this paper, we propose a framework that uses pretrained Large Language Models (LLMs) to tackle this challenge. Our framework allows us to preserve heterogeneous LBSN data in its original format, hence avoiding the loss of contextual information. Furthermore, our framework is capable of comprehending the inherent meaning of contextual information due to the inclusion of commonsense knowledge. In experiments, we test our framework on three real-world LBSN datasets. Our results show that the proposed framework outperforms the state-of-the-art models in all three datasets. Our analysis demonstrates the effectiveness of the proposed framework in using contextual information as well as alleviating the commonly encountered cold-start and short trajectory problems.
翻訳日:2024-05-05 18:04:17 公開日:2024-04-19
# デュアルコンテクスト情報を用いた低ランクオンライン動的アソシエーション

Low-Rank Online Dynamic Assortment with Dual Contextual Information ( http://arxiv.org/abs/2404.17592v1 )

ライセンス: Link先を確認
Seong Jin Lee, Will Wei Sun, Yufeng Liu, (参考訳) eコマースが拡大するにつれ、巨大なカタログからリアルタイムにパーソナライズされたレコメンデーションを提供することは、小売プラットフォームにとって重要な課題となっている。 収益の最大化には、個々の顧客特性と利用可能なアイテム機能の両方を慎重に考慮し、時間の経過とともにアソートを最適化する必要があります。 本稿では,ユーザとアイテムの特徴を兼ね備えた動的コンテクスト問題について考察する。 高次元のシナリオでは、次元の二次的な成長は計算と推定を複雑にする。 この課題に対処するために、我々は、この問題を管理可能なスケールに変換するために、新しい低ランクダイナミックアソシエーションモデルを導入する。 そこで本研究では,オンライン意思決定における探索・探索のトレードオフに対処するために,固有部分空間を推定し,高信頼境界アプローチを利用する効率的なアルゴリズムを提案する。 理論的には、$\tilde{O}((d_1+d_2)r\sqrt{T})$, $d_1, d_2$はそれぞれユーザとアイテムの特徴の次元を表し、$r$はパラメータ行列のランクを表し、$T$は時間地平線を表す。 この境界は、低ランク構造を利用することで、以前の文献よりも大幅に改善されたことを示している。 大規模シミュレーションとExpediaホテルレコメンデーションデータセットへの適用により,提案手法の利点がさらに実証された。

As e-commerce expands, delivering real-time personalized recommendations from vast catalogs poses a critical challenge for retail platforms. Maximizing revenue requires careful consideration of both individual customer characteristics and available item features to optimize assortments over time. In this paper, we consider the dynamic assortment problem with dual contexts -- user and item features. In high-dimensional scenarios, the quadratic growth of dimensions complicates computation and estimation. To tackle this challenge, we introduce a new low-rank dynamic assortment model to transform this problem into a manageable scale. Then we propose an efficient algorithm that estimates the intrinsic subspaces and utilizes the upper confidence bound approach to address the exploration-exploitation trade-off in online decision making. Theoretically, we establish a regret bound of $\tilde{O}((d_1+d_2)r\sqrt{T})$, where $d_1, d_2$ represent the dimensions of the user and item features respectively, $r$ is the rank of the parameter matrix, and $T$ denotes the time horizon. This bound represents a substantial improvement over prior literature, made possible by leveraging the low-rank structure. Extensive simulations and an application to the Expedia hotel recommendation dataset further demonstrate the advantages of our proposed method.
翻訳日:2024-05-05 18:04:17 公開日:2024-04-19
# 重み対応型マルチソース非教師付きドメイン適応法による人間の動作意図認識

A Weight-aware-based Multi-source Unsupervised Domain Adaptation Method for Human Motion Intention Recognition ( http://arxiv.org/abs/2404.15366v1 )

ライセンス: Link先を確認
Xiao-Yin Liu, Guotao Li, Xiao-Hu Zhou, Xu Liang, Zeng-Guang Hou, (参考訳) 人間の動作意図(HMI)の正確な認識は、外骨格ロボットにとって、着用の快適度を改善し、自然な人間とロボットの相互作用を実現するのに有用である。 ラベル付きソース対象(ドメイン)で訓練された分類器は、個別の運動特性の違いから、ラベルなし対象に対して不十分に動作する。 非教師なし領域適応(UDA)法はこの問題に有効な方法となっている。 しかし、ラベル付きデータは、対象と異なるだけでなく、互いに異なるかもしれない複数の音源から収集される。 HMI認識のための現在のUDA法は、各音源間の差を無視し、分類精度を低下させる。 そこで本研究では,HMI の認識のための新たな理論とアルゴリズムを開発し,HMI を多元的 UDA 理論に拡張し,新しい重み対応型マルチソース UDA アルゴリズム (WMDD) を提案する。 ソース領域重みは、ソース対象とターゲット対象のMDDによって適応的に調整可能であり、ソース対象の差を測定するためにUDAに組み込まれる。 開発したマルチソースUDA理論は理論的であり,対象対象に対する一般化誤差が保証される。 この理論は、UDAの最適化問題に変換され、理論とアルゴリズムのギャップを埋めることに成功した。 さらに、分類のリアルタイムを保証するために軽量ネットワークを使用し、特徴生成器とアンサンブル分類器の対角学習を利用して一般化能力をさらに向上する。 実験により,WMDD が従来の UDA 手法よりもHMI 認識タスクに優れていたことが確認された。

Accurate recognition of human motion intention (HMI) is beneficial for exoskeleton robots to improve the wearing comfort level and achieve natural human-robot interaction. A classifier trained on labeled source subjects (domains) performs poorly on unlabeled target subject since the difference in individual motor characteristics. The unsupervised domain adaptation (UDA) method has become an effective way to this problem. However, the labeled data are collected from multiple source subjects that might be different not only from the target subject but also from each other. The current UDA methods for HMI recognition ignore the difference between each source subject, which reduces the classification accuracy. Therefore, this paper considers the differences between source subjects and develops a novel theory and algorithm for UDA to recognize HMI, where the margin disparity discrepancy (MDD) is extended to multi-source UDA theory and a novel weight-aware-based multi-source UDA algorithm (WMDD) is proposed. The source domain weight, which can be adjusted adaptively by the MDD between each source subject and target subject, is incorporated into UDA to measure the differences between source subjects. The developed multi-source UDA theory is theoretical and the generalization error on target subject is guaranteed. The theory can be transformed into an optimization problem for UDA, successfully bridging the gap between theory and algorithm. Moreover, a lightweight network is employed to guarantee the real-time of classification and the adversarial learning between feature generator and ensemble classifiers is utilized to further improve the generalization ability. The extensive experiments verify theoretical analysis and show that WMDD outperforms previous UDA methods on HMI recognition tasks.
翻訳日:2024-04-25 15:44:33 公開日:2024-04-19
# グラフ畳み込みネットワークを用いた不整脈分類のための可視グラフの活用

Leveraging Visibility Graphs for Enhanced Arrhythmia Classification with Graph Convolutional Networks ( http://arxiv.org/abs/2404.15367v1 )

ライセンス: Link先を確認
Rafael F. Oliveira, Gladston J. P. Moreira, Vander L. S. Freitas, Eduardo J. S. Luz, (参考訳) 心電図(ECG)によって検出される不整脈は、堅牢な自動識別技術の必要性を強調し、重大な健康リスクを引き起こす。 従来のディープラーニング手法は潜在的な可能性を示しているが、グラフベースの戦略の最近の進歩は不整脈検出性能の向上を目的としている。 しかし、ECG信号をグラフとして効果的に表現することは依然として課題である。 本研究では、不整脈分類のためのグラフ畳み込みネットワーク(GCN)と併用した、可視グラフ(VG)とベクトル可視グラフ(VVG)を用いたECG信号のグラフ表現について検討する。 MIT-BIHデータセットの実験を通じて,様々なGCNアーキテクチャと前処理パラメータについて検討した。 その結果,GCNは信号グラフマッピングのためにVGやVVGと統合されているため,ECG信号から前処理やノイズ除去を必要とせずに不整脈を分類できることがわかった。 VG法とVVG法はどちらも有望であるが、VG法は特に効率的である。 提案手法はベースライン法と比較して競争力があったが,Sクラスの分類は特に患者間パラダイムの下では困難である。 計算複雑性、特にVVG法では、データバランシングと高度な実装戦略が必要であった。 ソースコードはhttps://github.com/raffoliveira/VG_for_arrhythmia_classification_with_GCNで公開されている。

Arrhythmias, detectable via electrocardiograms (ECGs), pose significant health risks, emphasizing the need for robust automated identification techniques. Although traditional deep learning methods have shown potential, recent advances in graph-based strategies are aimed at enhancing arrhythmia detection performance. However, effectively representing ECG signals as graphs remains a challenge. This study explores graph representations of ECG signals using Visibility Graph (VG) and Vector Visibility Graph (VVG), coupled with Graph Convolutional Networks (GCNs) for arrhythmia classification. Through experiments on the MIT-BIH dataset, we investigated various GCN architectures and preprocessing parameters. The results reveal that GCNs, when integrated with VG and VVG for signal graph mapping, can classify arrhythmias without the need for preprocessing or noise removal from ECG signals. While both VG and VVG methods show promise, VG is notably more efficient. The proposed approach was competitive compared to baseline methods, although classifying the S class remains challenging, especially under the inter-patient paradigm. Computational complexity, particularly with the VVG method, required data balancing and sophisticated implementation strategies. The source code is publicly available for further research and development at https://github.com/raffoliveira/VG_for_arrhythmia_classification_with_GCN.
翻訳日:2024-04-25 15:44:33 公開日:2024-04-19
# 快適・エネルギー・需要応答におけるリモートセンサの役割の解明

Unmasking the Role of Remote Sensors in Comfort, Energy and Demand Response ( http://arxiv.org/abs/2404.15368v1 )

ライセンス: Link先を確認
Ozan Baris Mulayim, Edson Severnini, Mario Bergés, (参考訳) 単一ゾーンのマルチルームハウス(SZMRHs)では、温度制御はサーモスタット付近の単一のプローブに依存しており、温度差が熱的不快感やエネルギー浪費を引き起こす。 室内センサーによるスマートサーモスタット(ST)の強化は、大手STメーカーによって受け入れられている。 本報告では, 熱的快適性, エネルギー効率, 需要応答 (DR) など, 建物が提供するサービスを実証的に特徴付けるために, 付加的な感覚情報を活用する。 家庭1000軒の部屋レベルの時系列データ、全米11万軒の住宅のメタデータ、および実世界の2つのテストベッドのデータを利用して、SZMRHの限界を調べ、リモートセンサーの可能性を探る。 室内の快適なDR持続時間(CDRD)は,典型的にはサーモスタットの部屋よりも70%長かったり,40%短かったりすることがわかった。 平均化時には、制御温度の境界の部屋は通常平均から3{\deg}Fから2.5{\deg}Fにずれる。 さらに,95%の住宅では,他の部屋に比べて顕著に太陽エネルギーが上昇し,85%,70%の住宅では低熱入力,低断熱が見られた。 最後に, センサ数の増加に伴い, 冷却エネルギーの消費が増加し, 暖房利用経験が19%から25%に変化していることが明らかになった。 提案手法は,SZMRHのよりきめ細やかな制御戦略の段階を定めている。

In single-zone multi-room houses (SZMRHs), temperature controls rely on a single probe near the thermostat, resulting in temperature discrepancies that cause thermal discomfort and energy waste. Augmenting smart thermostats (STs) with per-room sensors has gained acceptance by major ST manufacturers. This paper leverages additional sensory information to empirically characterize the services provided by buildings, including thermal comfort, energy efficiency, and demand response (DR). Utilizing room-level time-series data from 1,000 houses, metadata from 110,000 houses across the United States, and data from two real-world testbeds, we examine the limitations of SZMRHs and explore the potential of remote sensors. We discovered that comfortable DR durations (CDRDs) for rooms are typically 70% longer or 40% shorter than for the room with the thermostat. When averaging, rooms at the control temperature's bounds are typically deviated around -3{\deg}F to 2.5{\deg}F from the average. Moreover, in 95\% of houses, we identified rooms experiencing notably higher solar gains compared to the rest of the rooms, while 85% and 70% of houses demonstrated lower heat input and poor insulation, respectively. Lastly, it became evident that the consumption of cooling energy escalates with the increase in the number of sensors, whereas heating usage experiences fluctuations ranging from -19% to +25% This study serves as a benchmark for assessing the thermal comfort and DR services in the existing housing stock, while also highlighting the energy efficiency impacts of sensing technologies. Our approach sets the stage for more granular, precise control strategies of SZMRHs.
翻訳日:2024-04-25 15:44:33 公開日:2024-04-19
# 機械は意識あるか? : 機械意識の普遍的基準に向けて

Can a Machine be Conscious? Towards Universal Criteria for Machine Consciousness ( http://arxiv.org/abs/2404.15369v1 )

ライセンス: Link先を確認
Cosmin Badea, Nur Aizaan Anwar, (参考訳) 人為的に知的なシステムがより人為的かつ普及し、人間性への潜在的な影響がより緊急化するにつれ、機械意識の可能性に関する議論が激化しており、時には「聖杯」と呼ばれることもある。 多くの懸念が、人工的な意識を持つ実体を作るという影響についての声が上がっている。 これは、意識を構成するものに関する明確な合意の欠如と、意識を決定するための普遍的な基準の欠如によって構成される。 意識の基礎と特徴を深く掘り下げることで,機械が意識的かどうかを判断する5つの基準を提案する。 本論文は、哲学、コンピュータ科学、医学、その他の分野の研究者にとって、この哲学、神経科学、人工知能の聖杯をさらに追求するために、プライマーとして機能することを目的としている。

As artificially intelligent systems become more anthropomorphic and pervasive, and their potential impact on humanity more urgent, discussions about the possibility of machine consciousness have significantly intensified, and it is sometimes seen as 'the holy grail'. Many concerns have been voiced about the ramifications of creating an artificial conscious entity. This is compounded by a marked lack of consensus around what constitutes consciousness and by an absence of a universal set of criteria for determining consciousness. By going into depth on the foundations and characteristics of consciousness, we propose five criteria for determining whether a machine is conscious, which can also be applied more generally to any entity. This paper aims to serve as a primer and stepping stone for researchers of consciousness, be they in philosophy, computer science, medicine, or any other field, to further pursue this holy grail of philosophy, neuroscience and artificial intelligence.
翻訳日:2024-04-25 15:44:33 公開日:2024-04-19
# ユーザ・ローカライゼーションのためのセルフ・スーパーバイザード・ラーニング

Self-Supervised Learning for User Localization ( http://arxiv.org/abs/2404.15370v1 )

ライセンス: Link先を確認
Ankan Dash, Jingyi Gu, Guiling Wang, Nirwan Ansari, (参考訳) 機械学習技術は、ローカライゼーションタスクにおいて顕著な精度を示しているが、大量のラベル付きデータ、特にChannel State Information(CSI)およびそれに対応する座標への依存は、依然としてボトルネックである。 自己教師付き学習技術は、ラベル付きデータの必要性を軽減する。 このギャップに対処するために、ラベルなしデータによる自己教師付き事前学習を活用して、CSIに基づくユーザローカライゼーションのための教師付き学習性能を向上させる先駆的なアプローチを提案する。 本稿では,MLP(Multi Layer Perceptrons)とCNN(Convolutional Neural Networks)を用いた事前学習型オートエンコーダ(AE)モデルを提案する。 次に、AEモデルのエンコーダ部分を用いてラベル付きデータから関連する特徴を抽出し、MLPに基づく位置推定モデルを用いてユーザの位置を正確に推定する。 ラベル付きデータが多く,ラベル付きサンプルが限られているCTW-2020データセットを用いた実験により,本手法の有効性が示された。 特に、このデータセットは646x943x41mを超える広大な範囲をカバーしており、我々のアプローチは、そのような広範囲なローカライゼーションタスクにおいても有望な結果を示す。

Machine learning techniques have shown remarkable accuracy in localization tasks, but their dependency on vast amounts of labeled data, particularly Channel State Information (CSI) and corresponding coordinates, remains a bottleneck. Self-supervised learning techniques alleviate the need for labeled data, a potential that remains largely untapped and underexplored in existing research. Addressing this gap, we propose a pioneering approach that leverages self-supervised pretraining on unlabeled data to boost the performance of supervised learning for user localization based on CSI. We introduce two pretraining Auto Encoder (AE) models employing Multi Layer Perceptrons (MLPs) and Convolutional Neural Networks (CNNs) to glean representations from unlabeled data via self-supervised learning. Following this, we utilize the encoder portion of the AE models to extract relevant features from labeled data, and finetune an MLP-based Position Estimation Model to accurately deduce user locations. Our experimentation on the CTW-2020 dataset, which features a substantial volume of unlabeled data but limited labeled samples, demonstrates the viability of our approach. Notably, the dataset covers a vast area spanning over 646x943x41 meters, and our approach demonstrates promising results even for such expansive localization tasks.
翻訳日:2024-04-25 15:44:33 公開日:2024-04-19
# SEVD:Egoと固定されたトラフィック知覚のための合成イベントベース視覚データセット

SEVD: Synthetic Event-based Vision Dataset for Ego and Fixed Traffic Perception ( http://arxiv.org/abs/2404.10540v2 )

ライセンス: Link先を確認
Manideep Reddy Aliminati, Bharatesh Chakravarthi, Aayush Atul Verma, Arpitsinh Vaghela, Hua Wei, Xuesong Zhou, Yezhou Yang, (参考訳) 近年、従来のRGBカメラは、動的に困難な状況に対処する際の限界に直面しているため、イベントベースの視覚センサが自律運転アプリケーションに注目されている。 しかし、実世界と合成イベントベースのビジョンデータセットが利用可能であることは、依然として限られている。 このギャップに対応するために、我々は、CARLAシミュレータ内の複数の動的視覚センサを用いて、第1世代のマルチビューエゴであるSEVDと、固定認識合成イベントベースデータセットを提示する。 データシーケンスは、さまざまな照明(正午、夜間、ツイライト)と天候(澄んだ、曇り、雨、霧)とドメインシフト(離散的、連続的)にまたがって記録される。 SEVDは、都市、郊外、田舎、高速道路など様々な種類の物体(車、トラック、バン、自転車、オートバイ、歩行者)を含むシーンにまたがっている。 イベントデータに加えて、SEVDにはRGB画像、深度マップ、光学フロー、セマンティック、インスタンスセグメンテーションが含まれており、シーンの包括的な理解を容易にする。 さらに,交通検知タスクに最先端のイベントベース(RED,RVT)とフレームベース(YOLOv8)を用いてデータセットを評価し,評価のためのベースラインベンチマークを提供する。 さらに、合成イベントベースのデータセットの一般化能力を評価する実験を行う。 データセットはhttps://eventbasedvision.github.io/SEVDで公開されている。

Recently, event-based vision sensors have gained attention for autonomous driving applications, as conventional RGB cameras face limitations in handling challenging dynamic conditions. However, the availability of real-world and synthetic event-based vision datasets remains limited. In response to this gap, we present SEVD, a first-of-its-kind multi-view ego, and fixed perception synthetic event-based dataset using multiple dynamic vision sensors within the CARLA simulator. Data sequences are recorded across diverse lighting (noon, nighttime, twilight) and weather conditions (clear, cloudy, wet, rainy, foggy) with domain shifts (discrete and continuous). SEVD spans urban, suburban, rural, and highway scenes featuring various classes of objects (car, truck, van, bicycle, motorcycle, and pedestrian). Alongside event data, SEVD includes RGB imagery, depth maps, optical flow, semantic, and instance segmentation, facilitating a comprehensive understanding of the scene. Furthermore, we evaluate the dataset using state-of-the-art event-based (RED, RVT) and frame-based (YOLOv8) methods for traffic participant detection tasks and provide baseline benchmarks for assessment. Additionally, we conduct experiments to assess the synthetic event-based dataset's generalization capabilities. The dataset is available at https://eventbasedvision.github.io/SEVD
翻訳日:2024-04-24 18:36:58 公開日:2024-04-19
# 加藤:設計・技術の異なるトランジスタサイズのための知識アライメントとトランスファー

KATO: Knowledge Alignment and Transfer for Transistor Sizing of Different Design and Technology ( http://arxiv.org/abs/2404.14433v1 )

ライセンス: Link先を確認
Wei W. Xing, Weijian Fan, Zhuohua Liu, Yuan Yao, Yuanqi Hu, (参考訳) 回路設計におけるトランジスタの自動サイズ化は、依然として大きな課題である。 ベイズ最適化(BO)は大きな成功を収めたにもかかわらず、回路固有であり、より広範なアプリケーションの設計知識の蓄積と伝達を制限している。 本稿では,(1)効率的な自動カーネル構築,(2)異なる回路とBOのための技術ノードをまたいだ第1のトランスファー学習,(3)有用な知識のみを活用するための選択的なトランスファー学習手法を提案する。 これら3つの新しいコンポーネントはBOとMACE(Multi-objective Acquisition Ensemble)に統合され、知識アライメントと転送最適化(Knowledge Alignment and Transfer Optimization、KATO)を形成し、最先端のパフォーマンスを提供する。

Automatic transistor sizing in circuit design continues to be a formidable challenge. Despite that Bayesian optimization (BO) has achieved significant success, it is circuit-specific, limiting the accumulation and transfer of design knowledge for broader applications. This paper proposes (1) efficient automatic kernel construction, (2) the first transfer learning across different circuits and technology nodes for BO, and (3) a selective transfer learning scheme to ensure only useful knowledge is utilized. These three novel components are integrated into BO with Multi-objective Acquisition Ensemble (MACE) to form Knowledge Alignment and Transfer Optimization (KATO) to deliver state-of-the-art performance: up to 2x simulation reduction and 1.2x design improvement over the baselines.
翻訳日:2024-04-24 18:27:13 公開日:2024-04-19
# DeeperHistReg: 完全なスライド画像登録フレームワーク

DeeperHistReg: Robust Whole Slide Images Registration Framework ( http://arxiv.org/abs/2404.14434v1 )

ライセンス: Link先を確認
Marek Wodzinski, Niccolò Marini, Manfredo Atzori, Henning Müller, (参考訳) DeeperHistRegは、複数の染色で取得したスライドイメージ全体(WSI)を登録するためのソフトウェアフレームワークである。 複数の染色(例えばヘマトキシリン \&エオシン、免疫化学)を用いて得られるWSIの事前処理、初期アライメント、非厳密な登録を行うことができる。 このフレームワークはいくつかの最先端の登録アルゴリズムを実装し、WSIの任意の解像度(最大200k x 200k)で操作するためのインターフェースを提供する。 このフレームワークは拡張可能であり、新しいアルゴリズムは他の研究者によって容易に統合できる。 フレームワークはPyPIパッケージとDockerコンテナの両方で利用できる。

DeeperHistReg is a software framework dedicated to registering whole slide images (WSIs) acquired using multiple stains. It allows one to perform the preprocessing, initial alignment, and nonrigid registration of WSIs acquired using multiple stains (e.g. hematoxylin \& eosin, immunochemistry). The framework implements several state-of-the-art registration algorithms and provides an interface to operate on arbitrary resolution of the WSIs (up to 200k x 200k). The framework is extensible and new algorithms can be easily integrated by other researchers. The framework is available both as a PyPI package and as a Docker container.
翻訳日:2024-04-24 18:27:13 公開日:2024-04-19
# FreSeg:Frenetフレームを用いた3次元曲線構造のための部分分割

FreSeg: Frenet-Frame-based Part Segmentation for 3D Curvilinear Structures ( http://arxiv.org/abs/2404.14435v1 )

ライセンス: Link先を確認
Shixuan Gu, Jason Ken Adhinarta, Mikhail Bessmeltsev, Jiancheng Yang, Jessica Zhang, Daniel Berger, Jeff W. Lichtman, Hanspeter Pfister, Donglai Wei, (参考訳) 部分分節は、神経樹状突起や血管のような3Dカービリナー構造にとって重要な課題であり、科学的、臨床的に重要な樹状突起と動脈瘤の分析を可能にする。 しかし、それらの多様で曲がりくねった形態は、既存のディープラーニング手法に一般化の課題をもたらし、労働集約的な手作業の修正につながる。 本研究では,3次元曲線構造のための部分分割タスクのフレームワークであるFreSegを提案する。 Frenet-Frameベースのポイントクラウドトランスフォーメーションにより、モデルがより一般化可能な機能を学ぶことができ、拡張されたおよび湾曲したジオメトリを含むタスクのパフォーマンスが大幅に向上する。 FreSegを2つのデータセットで評価します。 1)樹状突起セグメンテーションのための社内データセットDenSpineEMと 2)IntrAは頭蓋内動脈瘤セグメンテーションのためのパブリックな3Dデータセットである。 さらに、3つの公開電子顕微鏡(EM)データセットから69個のデンドライトから約6,000個のスピンを含むDenSpineEMデータセットをリリースし、効率的な樹状突起のインスタンス抽出法の開発を促進し、その結果、哺乳類の脳をよりよく理解するための大規模接続解析を行う。

Part segmentation is a crucial task for 3D curvilinear structures like neuron dendrites and blood vessels, enabling the analysis of dendritic spines and aneurysms with scientific and clinical significance. However, their diversely winded morphology poses a generalization challenge to existing deep learning methods, which leads to labor-intensive manual correction. In this work, we propose FreSeg, a framework of part segmentation tasks for 3D curvilinear structures. With Frenet-Frame-based point cloud transformation, it enables the models to learn more generalizable features and have significant performance improvements on tasks involving elongated and curvy geometries. We evaluate FreSeg on 2 datasets: 1) DenSpineEM, an in-house dataset for dendritic spine segmentation, and 2) IntrA, a public 3D dataset for intracranial aneurysm segmentation. Further, we will release the DenSpineEM dataset, which includes roughly 6,000 spines from 69 dendrites from 3 public electron microscopy (EM) datasets, to foster the development of effective dendritic spine instance extraction methods and, consequently, large-scale connectivity analysis to better understand mammalian brains.
翻訳日:2024-04-24 18:17:13 公開日:2024-04-19
# eFPGAをターゲットとした資源効率の中性子/ガンマ分類MLモデルの検討

Investigating Resource-efficient Neutron/Gamma Classification ML Models Targeting eFPGAs ( http://arxiv.org/abs/2404.14436v1 )

ライセンス: Link先を確認
Jyothisraj Johnson, Billy Boxer, Tarun Prakash, Carl Grace, Peter Sorensen, Mani Tripathi, (参考訳) ハードウェアにおける機械学習(ML)モデルの実装には、ここ数年、粒子物理学と核物理学のコミュニティからかなりの関心が寄せられ、進歩を遂げてきた。 これはPython MLライブラリを使用して指定およびトレーニングされたモデルを移植して、転送レベル(RTL)コードを登録可能にするものだ。 これまでのところ、主なターゲットはFPGAやASIC上のカスタムブロックの商用化だった。 しかし、最近のオープンソース組み込みFPGA(eFPGA)フレームワークの開発は、ハードウェアにMLモデルを実装するための代替的で柔軟な経路を提供している。 これらのカスタマイズされたeFPGAファブリックは、全体的なチップ設計の一部として統合することができる。 一般に、完全なカスタム、eFPGA、商用FPGA ML実装間の決定は、エンドユースアプリケーションの詳細に依存する。 本研究では,完全連結ニューラルネットワーク(fcNN)のeFPGA実装のためのパラメータ空間と,資源効率に着目した中性子/ガンマ分類タスクを用いた決定木(BDT)モデルについて検討した。 我々は,OnSemi J-Series SiPMと光学的に結合したAmBeシールソースインシデントを用いて収集したデータを用いて,本研究のトレーニングデータと試験データを生成した。 本研究は,MLアーキテクチャの両方のハイパーパラメータにおいて,関連する入力特徴とビット分解能およびサンプリングレートの影響について検討し,総リソース使用量の追跡を行った。 モデル性能を追跡するために用いられる性能指標は10$^{-3}$のガンマリークにおける中性子効率の計算値であった。 この研究結果は、テストチップの一部として統合されるeFPGAファブリックの仕様策定を支援するために使用される。

There has been considerable interest and resulting progress in implementing machine learning (ML) models in hardware over the last several years from the particle and nuclear physics communities. A big driver has been the release of the Python package, hls4ml, which has enabled porting models specified and trained using Python ML libraries to register transfer level (RTL) code. So far, the primary end targets have been commercial FPGAs or synthesized custom blocks on ASICs. However, recent developments in open-source embedded FPGA (eFPGA) frameworks now provide an alternate, more flexible pathway for implementing ML models in hardware. These customized eFPGA fabrics can be integrated as part of an overall chip design. In general, the decision between a fully custom, eFPGA, or commercial FPGA ML implementation will depend on the details of the end-use application. In this work, we explored the parameter space for eFPGA implementations of fully-connected neural network (fcNN) and boosted decision tree (BDT) models using the task of neutron/gamma classification with a specific focus on resource efficiency. We used data collected using an AmBe sealed source incident on Stilbene, which was optically coupled to an OnSemi J-series SiPM to generate training and test data for this study. We investigated relevant input features and the effects of bit-resolution and sampling rate as well as trade-offs in hyperparameters for both ML architectures while tracking total resource usage. The performance metric used to track model performance was the calculated neutron efficiency at a gamma leakage of 10$^{-3}$. The results of the study will be used to aid the specification of an eFPGA fabric, which will be integrated as part of a test chip.
翻訳日:2024-04-24 18:17:13 公開日:2024-04-19
# 量子状態への古典的コミットメント

Classical Commitments to Quantum States ( http://arxiv.org/abs/2404.14438v1 )

ライセンス: Link先を確認
Sam Gunn, Yael Tauman Kalai, Anand Natarajan, Agi Villanyi, (参考訳) 量子状態に対する古典的なコミットメントスキームの概念を定義し、量子証明者は量子状態に対する古典的なコミットメントを計算し、後に標準またはアダマール基底のそれぞれの量子ビットを開くことができる。 我々の考え方は、Mahadev (STOC 2018) による測定プロトコルの強化である。 このようなコミットメントスキームは,LWE(Learning With Errors)の仮定から構築され,より一般的には,分散性の高い適応ハードコアビット特性(本研究で定義した特性)を持つ,ノイズの多いトラップドアの爪なし関数群から構成される。 コミットフェーズにおける検証器の実行時間は,セキュリティパラメータ(コミット状態のサイズに依存しない)のみに依存し,オープンフェーズにおける実行時間は,オープン中のキュービット数(およびセキュリティパラメータ)にのみ依存するという意味で,簡潔である。 コーナリーとして、量子後LWE仮定の下でQMAの古典的簡潔な論証システムを得る。 以前は、これはクォータム後の安全な識別不能な難読化としてのみ知られていた。 さらに、任意のX/Z量子PCPをLWEの量子硬度の下で簡潔な引数システムに変換する一般的な方法を得る。

We define the notion of a classical commitment scheme to quantum states, which allows a quantum prover to compute a classical commitment to a quantum state, and later open each qubit of the state in either the standard or the Hadamard basis. Our notion is a strengthening of the measurement protocol from Mahadev (STOC 2018). We construct such a commitment scheme from the post-quantum Learning With Errors (LWE) assumption, and more generally from any noisy trapdoor claw-free function family that has the distributional strong adaptive hardcore bit property (a property that we define in this work). Our scheme is succinct in the sense that the running time of the verifier in the commitment phase depends only on the security parameter (independent of the size of the committed state), and its running time in the opening phase grows only with the number of qubits that are being opened (and the security parameter). As a corollary we obtain a classical succinct argument system for QMA under the post-quantum LWE assumption. Previously, this was only known assuming post-quantum secure indistinguishability obfuscation. As an additional corollary we obtain a generic way of converting any X/Z quantum PCP into a succinct argument system under the quantum hardness of LWE.
翻訳日:2024-04-24 18:17:13 公開日:2024-04-19
# 自発的ユニタリティ違反による一般初期状態の量子状態の低減

Quantum state reduction of general initial states through spontaneous unitarity violation ( http://arxiv.org/abs/2301.03233v2 )

ライセンス: Link先を確認
Aritro Mukherjee, Srinivas Gotur, Jelle Aalberts, Rosa van den Ende, Lotte Mertens, Jasper van Wezel, (参考訳) 量子状態の測定を記述できないシュロディンガーのユニタリ時間進化は、依然として中心的な基礎的な問題である。 シュロディンガー力学のユニタリ性は自然に破壊され、熱力学の極限における創発的な現象として測定されることが最近示唆された。 ここでは、任意に多くの状態に対する一般的な初期重ね合わせに適用可能な自発的ユニタリ性違反のモデル群について、単一または複数の状態非依存確率成分を用いて紹介する。 決定的に、すべてのケースにおいてボルンの確率則が自然に現れることを示す。

The inability of Schrodinger's unitary time evolution to describe measurement of a quantum state remains a central foundational problem. It was recently suggested that the unitarity of Schrodinger dynamics can be spontaneously broken, resulting in measurement as an emergent phenomenon in the thermodynamic limit. Here, we introduce a family of models for spontaneous unitarity violation that apply to generic initial superpositions over arbitrarily many states, using either single or multiple state-independent stochastic components. Crucially, we show that Born's probability rule emerges spontaneously in all cases.
翻訳日:2024-04-24 01:41:46 公開日:2024-04-19
# 4種類の異なる量子系の技術レビュー:量子相関、信号対雑音比、忠実度の比較分析

Technical Review of Four Different Quantum Systems: Comparative Analysis of Quantum Correlation, Signal-to-Noise Ratio, and Fidelity ( http://arxiv.org/abs/2305.01226v2 )

ライセンス: Link先を確認
Ahmad Salmanogli, Vahid Sharif Sirat, (参考訳) この技術的レビューでは、量子相関のマイクロ波モードを作成するために使われている様々な方法とアプローチについて検討する。 具体的には、電気-オプトメカニカル、オプトエレクトロニクス、4結合量子ビット、InP HEMTを2つの外部発振器法と組み合わせて検討し、量子応用におけるそれらの有効性を評価する。 これらの系はオープン量子系であるため、自身の環境中温浴と熱浴と相互作用する。 正確な比較をするために、同じ基準を用いて全てのシステムを分析した。 したがって、最初は全ての系が短時間に導入され、次に全ハミルトニアンが理論的に導出され、最終的に系力学はリンドブラッドマスター方程式を用いて類似して解析される。 次に, キャビティモード, 信号対雑音比, 忠実度間の量子相関を計算し, その性能を評価する。 その結果,計算値の強度と性質はシステムによって異なることがわかった。 興味深い結果として、異なる空洞を使用する系の量子相関と信号対雑音比における混合挙動の出現が挙げられる。 また、4重結合量子ビットとInP HEMTと外部発振器法との有意な類似性を見出した。 さらに,信号対雑音比と古典的不協和音との高整合性について検討した。

This technical review examines the different methods and approaches have been used to create microwave modes of quantum correlation. Specifically, we consider the electro-opto-mechanical, optoelectronics, 4-coupled qubits, and InP HEMT coupled with two external oscillator methods, and evaluate their effectiveness for quantum applications. Since these systems are open quantum systems, they interact with their own environment medium and thermal bath. To ensure an accurate comparison, we analyzed all of the systems using the same criteria. Thus, at first all systems are introduced briefly, then the total Hamiltonian is theoretically derived, and finally, the system dynamics are analogously analyzed using the Lindblad master equation. We then calculate the quantum correlation between cavity modes, signal-to-noise ratio, and fidelity for each system to evaluate their performance. The results show that the strength and nature of the calculated quantities vary among the systems. An interesting result is the emergence of mixing behavior in the quantum correlation and signal-to-noise ratio for systems that use different cavities. It also identified a significant similarity between the 4-coupled qubits and InP HEMT coupled with external oscillators methods, where an avoided-level crossing occurs in the quantum correlation. Additionally, the study results reveal a high consistency between the signal-to-noise ratio and classical discord.
翻訳日:2024-04-24 01:22:08 公開日:2024-04-19
# 凝縮相の量子力学のトラップイオン量子シミュレーションによる量子優位性を探る

Seeking a quantum advantage with trapped-ion quantum simulations of condensed-phase chemical dynamics ( http://arxiv.org/abs/2305.03156v4 )

ライセンス: Link先を確認
Mingyu Kang, Hanggai Nuomin, Sutirtha N. Chowdhury, Jonathon L. Yuly, Ke Sun, Jacob Whitlow, Jesús Valdiviezo, Zhendian Zhang, Peng Zhang, David N. Beratan, Kenneth R. Brown, (参考訳) 凝縮相における分子の量子力学のシミュレーションは、化学における長年の挑戦である。 トラップイオン量子システムは、現在の古典的デジタルシミュレーションの範囲を超えている化学力学のアナログ量子シミュレーションの基盤として機能する。 これらのシミュレーションの「量子優位性」を特定するためには、ノイズの多いハードウェア上のアナログ量子シミュレーションと古典デジタルアルゴリズムの両方の性能解析が必要である。 本稿では, モデル分子ハミルトニアンと線形ビブロニックカップリングの力学をシミュレートする, ノイズの多いアナログトラップイオンシミュレータと, 古典的ディジタル法を比較検討する。 分子システムをモデル化するのによく用いられるいくつかの単純なハミルトニアンについて述べる。 これらのハミルトン派は、古典的デジタル法の範囲を超えてシステムに閉じ込められたイオンシミュレーターを使用するための足場として機能するかもしれない。 最後に、古典的デジタルシミュレーションがアナログ量子シミュレーションと比較して最も弱い性能を持つように見える力学系を同定する。 これらのレジームは、潜在的な量子的優位性を利用するために、最も低い吊り下げ果物を提供するかもしれない。

Simulating the quantum dynamics of molecules in the condensed phase represents a longstanding challenge in chemistry. Trapped-ion quantum systems may serve as a platform for the analog-quantum simulation of chemical dynamics that is beyond the reach of current classical-digital simulation. To identify a 'quantum advantage' for these simulations, performance analysis of both analog-quantum simulation on noisy hardware and classical-digital algorithms is needed. In this Review, we make a comparison between a noisy analog trapped-ion simulator and a few choice classical-digital methods on simulating the dynamics of a model molecular Hamiltonian with linear vibronic coupling. We describe several simple Hamiltonians that are commonly used to model molecular systems, which can be simulated with existing or emerging trapped-ion hardware. These Hamiltonians may serve as stepping stones toward the use of trapped-ion simulators for systems beyond the reach of classical-digital methods. Finally, we identify dynamical regimes where classical-digital simulations seem to have the weakest performance compared to analog-quantum simulations. These regimes may provide the lowest hanging fruit to exploit potential quantum advantages.
翻訳日:2024-04-24 01:22:08 公開日:2024-04-19
# 動的量子状態低下の原因となる色付きノイズ駆動ユニタリティ違反

Colored noise driven unitarity violation causing dynamical quantum state reduction ( http://arxiv.org/abs/2306.05849v3 )

ライセンス: Link先を確認
Aritro Mukherjee, Jasper van Wezel, (参考訳) 量子状態の客観的減少の原因として、最近ユニタリティ違反が提案されている。 これはシュロディンガー方程式の確率的な修正に基づく提案を補完するが、いくつかの点でそれらと異なる。 ここでは、ユニタリティ違反の説明を定式化し、色付きノイズによって駆動される動的量子状態還元(DQSR)のモデルが一般化されることを示す。 このようなモデルを探索するための形式主義と、明示的ノルム保存の処方則を示し、結果の純粋な状態力学は、特定の極限でゴリーニ-コサコフスキー-スダルシャン-リンドブラッド(GKSL)マスター方程式に還元される修正されたフォン・ノイマン・リウヴィル方程式によって記述されることを示す。 さらに、モデルのゆらぎと散逸に関連する物理的な制約から同じ制限で生じるボルンの規則への固執を示す。

Unitarity violations were recently proposed as a cause of objective quantum state reduction. This complements proposals based on stochastic modifications of Schrodinger's equation, but also differs from them in several aspects. Here, we formalise the description of unitarity violations, and show that they generically imply models of dynamical quantum state reduction (DQSR) driven by colored noise. We present a formalism for exploring such models as well as a prescription for enforcing explicit norm-preservation, and we show that the resulting pure state dynamics is described by a modified von-Neumann Liouville equation which in a particular limit reduces to the Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) master equations. We additionally show adherence to Born's rule emerging in the same limit from a physical constraint relating fluctuating and dissipating components of the model.
翻訳日:2024-04-24 01:12:24 公開日:2024-04-19
# 効率的な公正ランク付けのための説明可能な格差補償

Explainable Disparity Compensation for Efficient Fair Ranking ( http://arxiv.org/abs/2307.14366v2 )

ライセンス: Link先を確認
Abraham Gale, Amélie Marian, (参考訳) 意思決定システムで使用されるランク付け関数は、基礎となるデータに偏りがあるため、異なる集団に対して異なる結果をもたらすことが多い。 これらの異なる結果に対処し、補うことは、公正な意思決定にとって重要な問題である。 近年の補償措置は、公正性の保証を満たすためのランク関数の不透明な変換や、未表現のグループのメンバーに対する最小限のポジティブな結果を保証するために、クォータまたはセットエイドの使用に重点を置いている。 本稿では,ランキング関数に対するデータ駆動型補償法を提案する。 ランク付け機能の格差に対処するためには、不足したグループのメンバーに与えられるボーナスポイントの生成に頼っている。 ボーナスポイントは事前に設定でき、組み合わせて表現の交わりを考慮し、ステークホルダーにより良い透明性を与えることができる。 本稿では,分散度を最小限に抑えるために,効率的なサンプリングベースアルゴリズムを提案する。 実世界の学校入試と復習データセットを用いてアルゴリズムを検証し、その結果を既存の公正ランキングアルゴリズムと比較する。

Ranking functions that are used in decision systems often produce disparate results for different populations because of bias in the underlying data. Addressing, and compensating for, these disparate outcomes is a critical problem for fair decision-making. Recent compensatory measures have mostly focused on opaque transformations of the ranking functions to satisfy fairness guarantees or on the use of quotas or set-asides to guarantee a minimum number of positive outcomes to members of underrepresented groups. In this paper we propose easily explainable data-driven compensatory measures for ranking functions. Our measures rely on the generation of bonus points given to members of underrepresented groups to address disparity in the ranking function. The bonus points can be set in advance, and can be combined, allowing for considering the intersections of representations and giving better transparency to stakeholders. We propose efficient sampling-based algorithms to calculate the number of bonus points to minimize disparity. We validate our algorithms using real-world school admissions and recidivism datasets, and compare our results with that of existing fair ranking algorithms.
翻訳日:2024-04-24 01:02:16 公開日:2024-04-19
# PCNN:AIと人間のための細粒度画像分類の精度を向上する予測可能なクラスNearest-Neighbor説明

PCNN: Probable-Class Nearest-Neighbor Explanations Improve Fine-Grained Image Classification Accuracy for AIs and Humans ( http://arxiv.org/abs/2308.13651v2 )

ライセンス: Link先を確認
Giang Nguyen, Valerie Chen, Mohammad Reza Taesiri, Anh Nguyen, (参考訳) 最寄りの隣人(NN)は、伝統的にSupport Vector Machinesやk-NNの分類器で最終決定を計算したり、モデルの判断を説明するために使用される。 本稿では,CUB-200,Cars-196,Dogs-120の詳細な画像分類精度を常に向上させ,(1)入力画像をトップKのNN画像と比較する画像コンパレータSを活用し,(2)出力スコアを用いてCの信頼性スコアを重み付けする手法を提案する。 また、人間による研究では、有望な隣人(PCNN)が、最上位の1クラスのみを示す以前の作業よりも、意思決定の精度が向上していることが判明した。

Nearest neighbors (NN) are traditionally used to compute final decisions, e.g., in Support Vector Machines or k-NN classifiers, and to provide users with explanations for the model's decision. In this paper, we show a novel utility of nearest neighbors: To improve predictions of a frozen, pretrained classifier C. We leverage an image comparator S that (1) compares the input image with NN images from the top-K most probable classes; and (2) uses S's output scores to weight the confidence scores of C. Our method consistently improves fine-grained image classification accuracy on CUB-200, Cars-196, and Dogs-120. Also, a human study finds that showing lay users our probable-class nearest neighbors (PCNN) improves their decision accuracy over prior work which only shows only the top-1 class examples.
翻訳日:2024-04-24 00:52:28 公開日:2024-04-19
# ドメイン制約は結果データが欠落した場合のリスク予測を改善する

Domain constraints improve risk prediction when outcome data is missing ( http://arxiv.org/abs/2312.03878v3 )

ライセンス: Link先を確認
Sidhika Balachandar, Nikhil Garg, Emma Pierson, (参考訳) 機械学習モデルは、しばしば人間の決定による結果を予測するために訓練される。 例えば、ある医師が患者の病気の検査を決めた場合、患者は陽性か? 課題は、歴史的意思決定が結果が観察されるかどうかを判断することであり、我々は歴史的に検査された患者のテスト結果のみを観察する。 結果が得られない未検査の患者は、観察された範囲や観察されていない範囲で検査された患者と異なる場合がある。 この設定を捉えるベイズモデルクラスを提案する。 このモデルの目的は、検査と未検査の両方の患者のリスクを正確に見積もることである。 未検査患者の幅広い可能性のために、このモデルの推定は困難である。 そこで,本論文では, 健康状態において有効な2つの領域の制約を提案する。病原性制約, 全体の病原性が知られていること, および, ヒトの意思決定者が, 制約された特徴セットに沿ってのみ、純粋にリスクベースの意思決定から逸脱する専門的制約である。 領域制約がパラメータ推論を改善するという,理論的および合成データについて述べる。 本研究は, がんリスク予測のケーススタディに適用し, そのモデルが癌診断を予測し, その推定テストポリシが既知の公衆衛生政策を捉え, テストアロケーションにおける準最適性を同定できることを示す。 我々のケーススタディは医療分野ですが、多くの環境でモデル推定を改善することのできる、ドメイン制約の一般的なクラスを明らかにしています。

Machine learning models are often trained to predict the outcome resulting from a human decision. For example, if a doctor decides to test a patient for disease, will the patient test positive? A challenge is that historical decision-making determines whether the outcome is observed: we only observe test outcomes for patients doctors historically tested. Untested patients, for whom outcomes are unobserved, may differ from tested patients along observed and unobserved dimensions. We propose a Bayesian model class which captures this setting. The purpose of the model is to accurately estimate risk for both tested and untested patients. Estimating this model is challenging due to the wide range of possibilities for untested patients. To address this, we propose two domain constraints which are plausible in health settings: a prevalence constraint, where the overall disease prevalence is known, and an expertise constraint, where the human decision-maker deviates from purely risk-based decision-making only along a constrained feature set. We show theoretically and on synthetic data that domain constraints improve parameter inference. We apply our model to a case study of cancer risk prediction, showing that the model's inferred risk predicts cancer diagnoses, its inferred testing policy captures known public health policies, and it can identify suboptimalities in test allocation. Though our case study is in healthcare, our analysis reveals a general class of domain constraints which can improve model estimation in many settings.
翻訳日:2024-04-24 00:13:26 公開日:2024-04-19
# 非Linear関数を文脈で学習するトランスフォーマーによる機能的グラディエントDescentの実現

Transformers Implement Functional Gradient Descent to Learn Non-Linear Functions In Context ( http://arxiv.org/abs/2312.06528v5 )

ライセンス: Link先を確認
Xiang Cheng, Yuxin Chen, Suvrit Sra, (参考訳) 多くのニューラルネットワークアーキテクチャはチューリング完全であることが知られており、原理的には任意のアルゴリズムを実装できる。 しかし、Transformerは、単純なパラメータ設定で勾配に基づく学習アルゴリズムを実装することができるという点でユニークである。 本稿では,(非線形)トランスフォーマーが自然に関数空間の勾配降下を実装することを学習し,それによってコンテキスト内で非線形関数を学習できるという理論的および実証的な証拠を提供する。 本研究は,非線形アーキテクチャと非線形インコンテキスト学習タスクの幅広い組み合わせに適用する。 さらに、非線形活性化の最適選択は、学習すべき関数のクラスに自然に依存していることが示される。

Many neural network architectures are known to be Turing Complete, and can thus, in principle implement arbitrary algorithms. However, Transformers are unique in that they can implement gradient-based learning algorithms under simple parameter configurations. This paper provides theoretical and empirical evidence that (non-linear) Transformers naturally learn to implement gradient descent in function space, which in turn enable them to learn non-linear functions in context. Our results apply to a broad class of combinations of non-linear architectures and non-linear in-context learning tasks. Additionally, we show that the optimal choice of non-linear activation depends in a natural way on the class of functions that need to be learned.
翻訳日:2024-04-24 00:13:26 公開日:2024-04-19
# PEEKABOO:masked-Diffusionによるインタラクティブビデオ生成

PEEKABOO: Interactive Video Generation via Masked-Diffusion ( http://arxiv.org/abs/2312.07509v2 )

ライセンス: Link先を確認
Yash Jain, Anshul Nasery, Vibhav Vineet, Harkirat Behl, (参考訳) Soraのような現代的なビデオ生成モデルは、高品質なビデオの制作において大きな成功を収めた。 しかし、大きな制限は、前例のないアプリケーションやクリエイティビティをオープンにする機能である、ユーザに対してインタラクティブなコントロールを提供することができないことだ。 本研究では,時空間制御を用いた拡散型ビデオ生成モデルの最初のソリューションを提案する。 Peekabooは、新しいマスキングアテンションモジュールで、トレーニングや推論のオーバーヘッドを伴わずに、コントロールを提供する現在のビデオ生成モデルとシームレスに統合する。 今後の研究を容易にするため,インタラクティブなビデオ生成のための総合的なベンチマークも導入する。 このベンチマークは、コミュニティが新しいインタラクティブなビデオ生成モデルの有効性を評価するための標準化されたフレームワークを提供する。 我々の大規模な定性的および定量的評価により、Peekabooはベースラインモデルよりも3.8倍のmIoU改善を実現し、同じレイテンシを維持していることがわかった。 コードとベンチマークはWebページで公開されている。

Modern video generation models like Sora have achieved remarkable success in producing high-quality videos. However, a significant limitation is their inability to offer interactive control to users, a feature that promises to open up unprecedented applications and creativity. In this work, we introduce the first solution to equip diffusion-based video generation models with spatio-temporal control. We present Peekaboo, a novel masked attention module, which seamlessly integrates with current video generation models offering control without the need for additional training or inference overhead. To facilitate future research, we also introduce a comprehensive benchmark for interactive video generation. This benchmark offers a standardized framework for the community to assess the efficacy of emerging interactive video generation models. Our extensive qualitative and quantitative assessments reveal that Peekaboo achieves up to a 3.8x improvement in mIoU over baseline models, all while maintaining the same latency. Code and benchmark are available on the webpage.
翻訳日:2024-04-24 00:03:25 公開日:2024-04-19
# 自律運転のマルチモーダル説明が運転性能、認知負荷、専門性、信頼性、信頼に及ぼす影響

Effects of Multimodal Explanations for Autonomous Driving on Driving Performance, Cognitive Load, Expertise, Confidence, and Trust ( http://arxiv.org/abs/2401.04206v3 )

ライセンス: Link先を確認
Robert Kaufman, Jean Costa, Everlyne Kimani, (参考訳) 自動運転の進歩は、人間の運転改善の重要なニーズに直接対処するAI支援運転指導の機会を提供する。 AIインストラクターは学習を促進するためにどのように情報を伝えるべきか? プレポスト実験(n = 41)では、AIコーチの説明コミュニケーションが、パフォーマンス駆動の専門家による指示をモデルにした影響を検証した。 参加者は、4つの(4)グループに分けられ、AIコーチの説明の2つの次元、情報タイプ(「何」と「なぜ」の2つの説明)とプレゼンテーションモダリティ(聴覚と視覚)が評価された。 我々は、異なる説明的手法がパフォーマンス、認知的負荷、信頼、専門知識、そして観察的学習を通しての信頼にどのように影響するかを比較した。 インタビューを通じて、参加者の学習プロセスを明確にする。 結果として、AIコーチングは、初心者にパフォーマンス駆動スキルを効果的に教えることができることを示している。 情報のタイプとモダリティがパフォーマンスに影響を及ぼすことがわかった。 参加者の学習の成功度の違いは、情報がどのように注意を向け、不確実性を軽減し、参加者が経験した過負荷に影響を与えるかに起因する。 以上の結果から,HMI通信を効果的に設計する際には,効率よくモダリティに適合した説明を選択すべきであることが示唆された。 さらに、結果は、コミュニケーションと人間の学習と認知プロセスとの整合性の必要性を支持する。 将来の自動運転車HMIとAIコーチ設計には8つの設計上の意味がある。

Advances in autonomous driving provide an opportunity for AI-assisted driving instruction that directly addresses the critical need for human driving improvement. How should an AI instructor convey information to promote learning? In a pre-post experiment (n = 41), we tested the impact of an AI Coach's explanatory communications modeled after performance driving expert instructions. Participants were divided into four (4) groups to assess two (2) dimensions of the AI coach's explanations: information type ('what' and 'why'-type explanations) and presentation modality (auditory and visual). We compare how different explanatory techniques impact driving performance, cognitive load, confidence, expertise, and trust via observational learning. Through interview, we delineate participant learning processes. Results show AI coaching can effectively teach performance driving skills to novices. We find the type and modality of information influences performance outcomes. Differences in how successfully participants learned are attributed to how information directs attention, mitigates uncertainty, and influences overload experienced by participants. Results suggest efficient, modality-appropriate explanations should be opted for when designing effective HMI communications that can instruct without overwhelming. Further, results support the need to align communications with human learning and cognitive processes. We provide eight design implications for future autonomous vehicle HMI and AI coach design.
翻訳日:2024-04-23 23:53:39 公開日:2024-04-19
# AI適応画像ラベリングにおけるコンフォーマル予測セットの有用性の評価

Evaluating the Utility of Conformal Prediction Sets for AI-Advised Image Labeling ( http://arxiv.org/abs/2401.08876v6 )

ライセンス: Link先を確認
Dongping Zhang, Angelos Chatzimparmpas, Negar Kamali, Jessica Hullman, (参考訳) ディープ・ニューラル・ネットワークはより一般的に高い領域に展開されるため、ブラックボックスの性質は不確実な定量化を困難にしている。 本稿では,AIが推奨する意思決定における不確実性を表現するために,特定のカバレッジで予測セットを生成する手法の分布自由クラスである共形予測セットの提示の効果について検討する。 大規模なオンライン実験を通じて、共形予測セットの有用性と、AIが推奨する画像ラベリングのためのTop-1およびTop-k予測の表示を比較した。 事前登録された分析では,精度の予測セットの有用性はタスクの難易度に応じて変化し,Top-1やTop-kの表示と同等以上の精度で画像を容易に表示できる一方で,特にセットサイズが小さい場合には,人間にアウト・オブ・ディストリビューション(OOD)画像のラベル付けを支援できる予測セットが優れていることがわかった。 本研究は,共形予測セットの実践的課題を実証的に特定し,実世界の意思決定に組み込む方法について考察した。

As deep neural networks are more commonly deployed in high-stakes domains, their black-box nature makes uncertainty quantification challenging. We investigate the effects of presenting conformal prediction sets--a distribution-free class of methods for generating prediction sets with specified coverage--to express uncertainty in AI-advised decision-making. Through a large online experiment, we compare the utility of conformal prediction sets to displays of Top-1 and Top-k predictions for AI-advised image labeling. In a pre-registered analysis, we find that the utility of prediction sets for accuracy varies with the difficulty of the task: while they result in accuracy on par with or less than Top-1 and Top-k displays for easy images, prediction sets excel at assisting humans in labeling out-of-distribution (OOD) images, especially when the set size is small. Our results empirically pinpoint practical challenges of conformal prediction sets and provide implications on how to incorporate them for real-world decision-making.
翻訳日:2024-04-23 23:53:39 公開日:2024-04-19
# 局所適応型カラーアタックを用いたニューラルスタイル伝達に対するアートワークの保護

Artwork Protection Against Neural Style Transfer Using Locally Adaptive Adversarial Color Attack ( http://arxiv.org/abs/2401.09673v2 )

ライセンス: Link先を確認
Zhongliang Guo, Junhao Dong, Yifei Qian, Kaixuan Wang, Weiye Li, Ziheng Guo, Yuheng Wang, Yanli Li, Ognjen Arandjelović, Lei Fang, (参考訳) ニューラルスタイル転送(NST)は、ある画像のスタイルと他の画像の内容を組み合わせることで、新しい画像を生成する。 しかし、公認されていないNSTは、アートワークを活用でき、アーティストの権利に対する懸念を高め、積極的な保護方法の開発を動機付けることができる。 本研究では,LAACA(Locally Adaptive Adversarial Color Attack)を提案する。 人間の視覚知覚の複雑さと異なる周波数成分の役割を掘り下げることで、画像に周波数適応的摂動を戦略的に導入する。 これらの摂動は、元の画像に許容される視覚的変化を維持しながら、NSTの生成品質を著しく低下させ、NST生成品質が悪いため、潜在的な侵害者が保護されたアートの使用を阻害されることを確実にする。 さらに、既存のメトリクスは、芸術作品の文脈において重要なNST生成画像の品質など、色付けされたタスクを評価することの重要性を、しばしば見落としている。 カラーマタータスクを包括的に評価するために,画像の前処理と後処理の色の差を定量化するためのACDM(Adversarial Color Distance Metric)を提案する。 実験結果から,LAAACAを用いたNST攻撃が視覚的に劣る傾向を示し,ACDMは発色タスクを効率的に測定できることがわかった。 アーティストに知的財産を保護するためのツールを提供することで、アートコミュニティにおけるNSTの誤用によって引き起こされる社会技術的課題を緩和する。

Neural style transfer (NST) generates new images by combining the style of one image with the content of another. However, unauthorized NST can exploit artwork, raising concerns about artists' rights and motivating the development of proactive protection methods. We propose Locally Adaptive Adversarial Color Attack (LAACA), empowering artists to protect their artwork from unauthorized style transfer by processing before public release. By delving into the intricacies of human visual perception and the role of different frequency components, our method strategically introduces frequency-adaptive perturbations in the image. These perturbations significantly degrade the generation quality of NST while maintaining an acceptable level of visual change in the original image, ensuring that potential infringers are discouraged from using the protected artworks, because of its bad NST generation quality. Additionally, existing metrics often overlook the importance of color fidelity in evaluating color-mattered tasks, such as the quality of NST-generated images, which is crucial in the context of artistic works. To comprehensively assess the color-mattered tasks, we propose the Adversarial Color Distance Metric (ACDM), designed to quantify the color difference of images pre- and post-manipulations. Experimental results confirm that attacking NST using LAACA results in visually inferior style transfer, and the ACDM can efficiently measure color-mattered tasks. By providing artists with a tool to safeguard their intellectual property, our work relieves the socio-technical challenges posed by the misuse of NST in the art community.
翻訳日:2024-04-23 23:43:55 公開日:2024-04-19
# 二重性に基づく相互作用予測によるスケーラブルなマルチモーダルモデル予測制御

Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions ( http://arxiv.org/abs/2402.01116v2 )

ライセンス: Link先を確認
Hansung Kim, Siddharth H. Nair, Francesco Borrelli, (参考訳) 複雑なマルチモーダルトラフィックシナリオにおいて,スケーラブルなリアルタイムモデル予測制御(MPC)を実現する階層型アーキテクチャを提案する。 このアーキテクチャは2つの重要なコンポーネントから構成される。 1) RAID-Net - ラグランジアン双対性を用いた自律走行車と周辺車両間のMPC予測地平線に沿った関連する相互作用を予測する新しい注意型リカレントニューラルネットワーク 2) 衝突回避制約を排除し, 計算効率を向上する確率的MPC問題を削減する。 本手法は,移動計画問題の解法において,12倍のスピードアップを示す,対話型周囲車両との交通交差点のシミュレーションで実証された。 提案されたアーキテクチャを複数の複雑なトラフィックシナリオで示すビデオは、以下の通りである。 GitHub:https://github.com/MPC-Berkeley/hmpc_raidnet

We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet
翻訳日:2024-04-23 23:43:55 公開日:2024-04-19
# ArtPrompt: ASCIIアートベースのジェイルブレイク攻撃

ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs ( http://arxiv.org/abs/2402.11753v3 )

ライセンス: Link先を確認
Fengqing Jiang, Zhangchen Xu, Luyao Niu, Zhen Xiang, Bhaskar Ramasubramanian, Bo Li, Radha Poovendran, (参考訳) 安全性は、大きな言語モデル(LLM)の使用に不可欠である。 LLMの安全性を高めるために、データフィルタリングや教師付き微調整などの複数の技術が開発されている。 しかし、現在知られている技術では、LLMの安全アライメントに使用されるコーパスは意味論によってのみ解釈されていると推測されている。 しかし、この仮定は現実世界のアプリケーションには当てはまらないため、LLMの深刻な脆弱性につながる。 例えば、フォーラムのユーザは、画像情報を伝えるためにテキストベースのアートの一種であるASCIIアートを使用することが多い。 本稿では, ASCIIアートベースの新しいジェイルブレイク攻撃を提案し, セマンティクスでのみ解釈できないプロンプトを認識する上で, LLMの能力を評価するための総合的ベンチマークViTC(ViTC)を提案する。 5つのSOTA LLM (GPT-3.5, GPT-4, Gemini, Claude, Llama2) がASCIIアートの形で提供されるプロンプトを認識するのに苦労していることを示す。 本研究は, ASCII アート認識における LLM の貧弱な性能を活用し, 安全対策を回避し, かつ LLM から望ましくない行動を誘発する, 脱獄攻撃ArtPrompt を開発した。 ArtPromptは被害者のLSMへのブラックボックスアクセスしか必要とせず、実用的な攻撃である。 我々は5つのSOTA LLM上でArtPromptを評価し、ArtPromptが5つのLLMすべてから望ましくない振る舞いを効果的かつ効率的に誘導できることを示した。 私たちのコードはhttps://github.com/uw-nsl/ArtPrompt.comで利用可能です。

Safety is critical to the usage of large language models (LLMs). Multiple techniques such as data filtering and supervised fine-tuning have been developed to strengthen LLM safety. However, currently known techniques presume that corpora used for safety alignment of LLMs are solely interpreted by semantics. This assumption, however, does not hold in real-world applications, which leads to severe vulnerabilities in LLMs. For example, users of forums often use ASCII art, a form of text-based art, to convey image information. In this paper, we propose a novel ASCII art-based jailbreak attack and introduce a comprehensive benchmark Vision-in-Text Challenge (ViTC) to evaluate the capabilities of LLMs in recognizing prompts that cannot be solely interpreted by semantics. We show that five SOTA LLMs (GPT-3.5, GPT-4, Gemini, Claude, and Llama2) struggle to recognize prompts provided in the form of ASCII art. Based on this observation, we develop the jailbreak attack ArtPrompt, which leverages the poor performance of LLMs in recognizing ASCII art to bypass safety measures and elicit undesired behaviors from LLMs. ArtPrompt only requires black-box access to the victim LLMs, making it a practical attack. We evaluate ArtPrompt on five SOTA LLMs, and show that ArtPrompt can effectively and efficiently induce undesired behaviors from all five LLMs. Our code is available at https://github.com/uw-nsl/ArtPrompt.
翻訳日:2024-04-23 23:34:03 公開日:2024-04-19
# 森林火災予測のための深部ニューラルネットワーク評価における確率の影響に関する研究

Studying the Impact of Stochasticity on the Evaluation of Deep Neural Networks for Forest-Fire Prediction ( http://arxiv.org/abs/2402.15163v2 )

ライセンス: Link先を確認
Harshit Kumar, Biswadeep Chakraborty, Beomseok Kang, Saibal Mukhopadhyay, (参考訳) 本稿では,山火事の予測に焦点をあて,確率的仮定に基づくDeep Neural Network (DNN) 評価に関する最初の体系的研究について述べる。 現在の評価戦略は,基盤となる確率過程を学習する能力よりも,DNNが観測対象の真実を再現することが重要であり,山火事の進化の複雑さを捉えるのに不可欠である。 このギャップを埋めるために、我々は新しい評価基準を提案する: DNNは確率過程を学んだか? 合成データセットを用いて,火の進化規則のランダム性によって生成される確率過程を特徴付ける枠組みを導入する。 この枠組みを通じて,DNNが確率過程を学習したかどうかを評価するための評価指標の能力を評価する。 本研究は,分類基準や適切なスコアリングルールを含む従来の指標が不十分であることを示す。 我々は,予測校正誤差(ECE)を,提案した評価基準を検証し,適切なスコアリングルールの漸近的保証と校正曲線による解釈可能性の向上を提供する頑健な指標として同定する。 我々は実世界の山火事データに分析を拡張し、従来の評価手法の限界を強調し、ECEを既存の指標と共に確率論的に互換性のある指標として有効性を示す。

This paper presents the first systematic study of Deep Neural Network (DNN) evaluation under stochastic assumptions, focusing on wildfire prediction. We note that current evaluation strategies emphasize a DNN's replication of observed ground truths rather than its ability to learn the underlying stochastic processes, crucial for capturing wildfire evolution's complexity. To bridge this gap, we propose a novel evaluation criterion: Has the DNN learned the stochastic process? Using a synthetic dataset, we introduce a framework to characterize the stochastic process (generated by randomness in fire evolution rules). Through this framework, we assess an evaluation metric's capability to test if the DNN has learned the stochastic process. Our findings show that conventional metrics, including classification-based metrics and proper scoring rules, are inadequate. We identify the Expected Calibration Error (ECE) as a robust metric that tests the proposed evaluation criteria, offering asymptotic guarantees of proper scoring rules and improved interpretability through calibration curves. We extend our analysis to real-world wildfire data, highlighting the limitations of traditional evaluation methods and demonstrating the utility of ECE as a stochasticity-compatible metric alongside existing ones.
翻訳日:2024-04-23 23:24:19 公開日:2024-04-19
# 神経工学における認知のセキュリティ問題のための数学的枠組み

A Mathematical Framework for the Problem of Security for Cognition in Neurotechnology ( http://arxiv.org/abs/2403.07945v2 )

ライセンス: Link先を確認
Bryce Allen Bagley, (参考訳) 近年の神経テクノロジーの急速な進歩は、神経テクノロジーとセキュリティの間に新たな重要な共通点を生み出している。 インプラント可能なデバイス、非侵襲的なモニタリング、非侵襲的な治療はすべて、個人の認知のプライバシーと自律性を侵害する可能性を持っている。 多くの科学者や医師がこの問題に対処するよう呼びかけているが、応用の努力は比較的限られている。 認知セキュリティに対処するための科学と工学の努力を妨げる大きな障壁は、関連する問題を記述し分析する明確な手段がないことである。 本稿では,複数の分野からメソッドや結果を描くことによって,そのような記述と分析を可能にする数学的フレームワークであるCognitive Securityを開発する。 認知的セキュリティに重要な意味を持つ統計特性を実証し、プライバシーや自律性を侵害しようとする攻撃者が直面するアルゴリズム上の問題と、そのような試みを阻止しようとする守備者の説明を示す。

The rapid advancement in neurotechnology in recent years has created an emerging critical intersection between neurotechnology and security. Implantable devices, non-invasive monitoring, and non-invasive therapies all carry with them the prospect of violating the privacy and autonomy of individuals' cognition. A growing number of scientists and physicians have made calls to address this issue, but applied efforts have been relatively limited. A major barrier hampering scientific and engineering efforts to address Cognitive Security is the lack of a clear means of describing and analyzing relevant problems. In this paper we develop Cognitive Security, a mathematical framework which enables such description and analysis by drawing on methods and results from multiple fields. We demonstrate certain statistical properties which have significant implications for Cognitive Security, and then present descriptions of the algorithmic problems faced by attackers attempting to violate privacy and autonomy, and defenders attempting to obstruct such attempts.
翻訳日:2024-04-23 23:14:33 公開日:2024-04-19
# 推薦システムにおける人間とAIの共有機関の交渉

Negotiating the Shared Agency between Humans & AI in the Recommender System ( http://arxiv.org/abs/2403.15919v3 )

ライセンス: Link先を確認
Mengke Wu, Weizi Liu, Yanyun Wang, Mike Yao, (参考訳) スマートレコメンデーションアルゴリズムは、情報の普及、効率の向上、さまざまな領域にわたるコンテンツ配信の再構築に革命をもたらした。 しかし、ユーザエージェンシーに対する懸念は、アルゴリズムにおける固有の不透明性(情報非対称性)と一方的な出力(パワー非対称性)の性質に起因する。 どちらの問題も、説明可能なAI(XAI)と人間とAIの協調的意思決定(HACD)を提唱する学者によって批判されているが、ユーザに対する統合的な影響を評価する研究はほとんどなく、結果の改善とフィルタリング以上のレコメンデーションシステムにおけるHACDの議論もほとんどない。 本研究では,AIが推奨するコンテンツの度合いをユーザが制御できるHACDに欠けているステップとして,インキュベーションのアイデアを提案する。 そして,既存のXAIと統合し,ユーザエージェンシーの強化を評価するためのフロープロトタイプを構築する。 我々は,エージェントの種類がユーザの知覚や経験にどのように影響するかを理解し,人間とAIの対話システムのためのガイドラインや設計を洗練するための実証的な証拠を提供する。

Smart recommendation algorithms have revolutionized information dissemination, enhancing efficiency and reshaping content delivery across various domains. However, concerns about user agency have arisen due to the inherent opacity (information asymmetry) and the nature of one-way output (power asymmetry) on algorithms. While both issues have been criticized by scholars via advocating explainable AI (XAI) and human-AI collaborative decision-making (HACD), few research evaluates their integrated effects on users, and few HACD discussions in recommender systems beyond improving and filtering the results. This study proposes an incubating idea as a missing step in HACD that allows users to control the degrees of AI-recommended content. Then, we integrate it with existing XAI to a flow prototype aimed at assessing the enhancement of user agency. We seek to understand how types of agency impact user perception and experience, and bring empirical evidence to refine the guidelines and designs for human-AI interactive systems.
翻訳日:2024-04-23 23:04:49 公開日:2024-04-19
# VoiceCraft: 野生でのゼロショット音声編集とテキスト音声編集

VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild ( http://arxiv.org/abs/2403.16973v2 )

ライセンス: Link先を確認
Puyuan Peng, Po-Yao Huang, Abdelrahman Mohamed, David Harwath, (参考訳) 我々は、音声ブック、インターネットビデオ、ポッドキャストの音声編集とゼロショットテキスト音声(TTS)の両方で最先端のパフォーマンスを実現する、トークンを埋め込んだニューラルコーデック言語モデルであるVoiceCraftを紹介した。 VoiceCraftはTransformerデコーダアーキテクチャを採用し、因果マスクと遅延スタックを組み合わせたトークン再構成手順を導入し、既存のシーケンス内で生成を可能にする。 音声編集タスクにおいて、VoiceCraftは、人間によって評価された自然性の観点から、未編集録音とほとんど区別できない編集音声を生成する。 重要な点として、これらのモデルは、多様なアクセント、話し方、録音条件、バックグラウンドノイズと音楽からなる、挑戦的で現実的なデータセットに基づいて評価され、我々のモデルは、他のモデルや実際の録音と比較して一貫してよく機能する。 特に、音声編集評価には、RealEditという高品質で挑戦的で現実的なデータセットを導入します。 私たちは読者に対して、https://jasonppy.github.io/VoiceCraft_web.comでデモを聞くように勧めています。

We introduce VoiceCraft, a token infilling neural codec language model, that achieves state-of-the-art performance on both speech editing and zero-shot text-to-speech (TTS) on audiobooks, internet videos, and podcasts. VoiceCraft employs a Transformer decoder architecture and introduces a token rearrangement procedure that combines causal masking and delayed stacking to enable generation within an existing sequence. On speech editing tasks, VoiceCraft produces edited speech that is nearly indistinguishable from unedited recordings in terms of naturalness, as evaluated by humans; for zero-shot TTS, our model outperforms prior SotA models including VALLE and the popular commercial model XTTS-v2. Crucially, the models are evaluated on challenging and realistic datasets, that consist of diverse accents, speaking styles, recording conditions, and background noise and music, and our model performs consistently well compared to other models and real recordings. In particular, for speech editing evaluation, we introduce a high quality, challenging, and realistic dataset named RealEdit. We encourage readers to listen to the demos at https://jasonppy.github.io/VoiceCraft_web.
翻訳日:2024-04-23 22:55:04 公開日:2024-04-19
# MatAtlas: テキスト駆動の一貫性幾何テクスチャとマテリアルアサイン

MatAtlas: Text-driven Consistent Geometry Texturing and Material Assignment ( http://arxiv.org/abs/2404.02899v2 )

ライセンス: Link先を確認
Duygu Ceylan, Valentin Deschaintre, Thibault Groueix, Rosalie Martin, Chun-Hao Huang, Romain Rouffet, Vladimir Kim, Gaëtan Lassagne, (参考訳) テキスト誘導型3次元モデルテクスチャの一貫した手法であるMatAtlasを提案する。 最近の進歩の後、我々は3Dモデルのテクスチャ前処理として大規模なテキスト・画像生成モデル(例えば、安定拡散)を活用している。 我々は、深さとエッジによって駆動されるグリッドパターン拡散を利用するRGBテクスチャパイプラインを慎重に設計する。 多段階のテクスチャリファインメントプロセスを提案することにより、テクスチャ出力の品質と3次元一貫性を大幅に改善する。 焼き込み照明の問題点をさらに解決するため、RGB色を超えてパラメトリック素材を資産に割り当てる。 高品質なRGBテクスチャを前提として,Large Language Models (LLM) を利用した新しい素材検索手法を提案する。 本手法は多種多様なジオメトリーで評価し,先行技術よりも優れていたことを示す。 また,各成分の役割を詳細なアブレーション研究により分析した。

We present MatAtlas, a method for consistent text-guided 3D model texturing. Following recent progress we leverage a large scale text-to-image generation model (e.g., Stable Diffusion) as a prior to texture a 3D model. We carefully design an RGB texturing pipeline that leverages a grid pattern diffusion, driven by depth and edges. By proposing a multi-step texture refinement process, we significantly improve the quality and 3D consistency of the texturing output. To further address the problem of baked-in lighting, we move beyond RGB colors and pursue assigning parametric materials to the assets. Given the high-quality initial RGB texture, we propose a novel material retrieval method capitalized on Large Language Models (LLM), enabling editabiliy and relightability. We evaluate our method on a wide variety of geometries and show that our method significantly outperform prior arts. We also analyze the role of each component through a detailed ablation study.
翻訳日:2024-04-23 22:45:14 公開日:2024-04-19
# 強化学習に基づくCDCL SATソルバーのリセットポリシー

A Reinforcement Learning based Reset Policy for CDCL SAT Solvers ( http://arxiv.org/abs/2404.03753v2 )

ライセンス: Link先を確認
Chunxiao Li, Charlie Liu, Jonathan Chung, Zhengyang Lu, Piyush Jha, Vijay Ganesh, (参考訳) リスタートポリシは、現代の衝突駆動クローズラーニング(CDCL)ソルバで使用される重要なテクニックであり、ソルバ状態の一部が、ソルバの実行中に一定間隔で消去される。 ほとんどのソルバでは、変数のアクティビティは再起動バウンダリを越えて保存されるため、ソルバは再起動直前のアサインツリーの一部の検索を継続する。 代入木の「距離」のある部分の探索を可能にするために,代入軌跡を消去するだけでなく,再セット後の入力公式の変数の活性スコアをランダム化し,検索空間のより優れたグローバルな探索を可能にするリセットの効果について検討する。 本稿では、マルチアームバンディット(MAB)問題としてリセットをトリガするかどうかをモデル化し、アッパー信頼境界(UCB)とトンプソンサンプリングアルゴリズムを用いた2つの強化学習(RL)に基づく適応リセットポリシーを提案する。 これらの2つのアルゴリズムは、解法の実行中に推定された報酬に基づいてアーム(リセット対リセット)を適応的に選択することで、探索-探索トレードオフのバランスをとる。 我々は4つのベースラインSOTA CDCLソルバにリセットポリシーを実装し、ベースラインをSatcoinベンチマークとSATコンペティションインスタンスのリセットバージョンと比較する。 その結果, RL ベースのリセットバージョンは Satcoin と SAT の競合インスタンスで対応するベースラインソルバよりも優れており, RL ポリシーは任意の入力インスタンスに対してリセット頻度を動的に, 収益的に適応させるのに役立つことが示唆された。 また、部分的リセットの概念を導入し、少なくとも一定の数の変数アクティビティがリセット境界を越えて保持される。 以前の結果に基づいて、O(1) 対 $\Omega(n)$-長部分リセットの間に指数的分離が存在することを示す。

Restart policy is an important technique used in modern Conflict-Driven Clause Learning (CDCL) solvers, wherein some parts of the solver state are erased at certain intervals during the run of the solver. In most solvers, variable activities are preserved across restart boundaries, resulting in solvers continuing to search parts of the assignment tree that are not far from the one immediately prior to a restart. To enable the solver to search possibly "distant" parts of the assignment tree, we study the effect of resets, a variant of restarts which not only erases the assignment trail, but also randomizes the activity scores of the variables of the input formula after reset, thus potentially enabling a better global exploration of the search space. In this paper, we model the problem of whether to trigger reset as a multi-armed bandit (MAB) problem, and propose two reinforcement learning (RL) based adaptive reset policies using the Upper Confidence Bound (UCB) and Thompson sampling algorithms. These two algorithms balance the exploration-exploitation tradeoff by adaptively choosing arms (reset vs. no reset) based on their estimated rewards during the solver's run. We implement our reset policies in four baseline SOTA CDCL solvers and compare the baselines against the reset versions on Satcoin benchmarks and SAT Competition instances. Our results show that RL-based reset versions outperform the corresponding baseline solvers on both Satcoin and the SAT competition instances, suggesting that our RL policy helps to dynamically and profitably adapt the reset frequency for any given input instance. We also introduce the concept of a partial reset, where at least a constant number of variable activities are retained across reset boundaries. Building on previous results, we show that there is an exponential separation between O(1) vs. $\Omega(n)$-length partial resets.
翻訳日:2024-04-23 22:45:14 公開日:2024-04-19
# 大規模言語モデルを用いた単行質問応答によるソフトウェア関連情報抽出の強化

Enhancing Software-Related Information Extraction via Single-Choice Question Answering with Large Language Models ( http://arxiv.org/abs/2404.05587v2 )

ライセンス: Link先を確認
Wolfgang Otto, Sharmila Upadhyaya, Stefan Dietze, (参考訳) 本稿では,単一選択質問応答を用いたLarge Language Models (LLMs) による学術テキスト間の関係抽出の改善に着目し,SOMD(Shared Task on Software Mentions Disambiguation)への参加について述べる。 この方法論は、ソフトウェア関連エンティティと、配布情報などの記述属性を抽出するために、GLMのコンテキスト内学習機能の使用を優先している。 提案手法では,抽出したソフトウェアエンティティ間の関係を識別するために,RAG(Retrieval-Augmented Generation)技術とNER(Named Entity Recognition)のためのGLMとAttributive NERを使用し,学術文献におけるソフトウェア引用の分析のための構造化ソリューションを提供する。 本稿では,提案手法の詳細な説明を行い,単一選択QAパラダイムにおけるGLMの使用がIE方法論を大幅に向上させることを示す。 SOMD共有タスクへの参加は、正確なソフトウェア引用プラクティスの重要性を強調し、ソフトウェア言及間の関係の曖昧さと抽出という課題を克服するシステムの能力を示す。 これにより、この分野での今後の研究開発の基盤となるものとなる。

This paper describes our participation in the Shared Task on Software Mentions Disambiguation (SOMD), with a focus on improving relation extraction in scholarly texts through generative Large Language Models (LLMs) using single-choice question-answering. The methodology prioritises the use of in-context learning capabilities of GLMs to extract software-related entities and their descriptive attributes, such as distributive information. Our approach uses Retrieval-Augmented Generation (RAG) techniques and GLMs for Named Entity Recognition (NER) and Attributive NER to identify relationships between extracted software entities, providing a structured solution for analysing software citations in academic literature. The paper provides a detailed description of our approach, demonstrating how using GLMs in a single-choice QA paradigm can greatly enhance IE methodologies. Our participation in the SOMD shared task highlights the importance of precise software citation practices and showcases our system's ability to overcome the challenges of disambiguating and extracting relationships between software mentions. This sets the groundwork for future research and development in this field.
翻訳日:2024-04-23 20:47:39 公開日:2024-04-19
# 長短期記憶(LSTM)を用いたシエラネバダの山岳地域の降水量データの統合

Using Long Short-term Memory (LSTM) to merge precipitation data over mountainous area in Sierra Nevada ( http://arxiv.org/abs/2404.10135v2 )

ライセンス: Link先を確認
Yihan Wang, Lujun Zhang, (参考訳) 時間と空間の高分解能で信頼できる降水推定を行うことは、水文学研究において非常に重要である。 しかし、正確な降水量の推定は山岳複雑な地形において難しい課題である。 降水量計、降水レーダ、衛星ベースの降水センサーといった3つの広く使われている降水量測定手法は、複雑な領域で信頼できる降水生成物を生成するために独自の利点と欠点を持っている。 検出エラーの確率を低減し、データの信頼性を向上させる方法の1つは、降水データマージである。 計算能力の急速な進歩と地球観測データの増大と多様性により、深層学習(DL)モデルは地球科学において大きな注目を集めている。 本研究では,Long Short-term Memory (LSTM) と呼ばれる深層学習技術を用いて,レーダーと衛星を用いたグローバル降水量測定 (GPM) 降水生成物の統合マルチサテライト検索を時間スケールで行う。 その結果,Multi-Radar Multi-Sensor (MRMS) と比較し,カリフォルニアデータ交換センター (CDEC) の観測データと比較した。 その結果、LSTMをベースとした統合降水量は、特に過小評価されたゲージ観測と、ほぼゼロに近い値を示す有意義な推定値の提供に失敗したことが示唆された。 個別の量的降水推定値(QPEs)にのみ頼って追加の気象入力がなければ、信頼できる統合QPEを生成するには不十分であることが判明した。 しかし, 統合結果は観測の時間的傾向を効果的に捉え, この点においてMRMSよりも優れていた。 このことは、バイアス補正技術を組み込むことで、統合された製品の精度が向上する可能性があることを示唆している。

Obtaining reliable precipitation estimation with high resolutions in time and space is of great importance to hydrological studies. However, accurately estimating precipitation is a challenging task over high mountainous complex terrain. The three widely used precipitation measurement approaches, namely rainfall gauge, precipitation radars, and satellite-based precipitation sensors, have their own pros and cons in producing reliable precipitation products over complex areas. One way to decrease the detection error probability and improve data reliability is precipitation data merging. With the rapid advancements in computational capabilities and the escalating volume and diversity of earth observational data, Deep Learning (DL) models have gained considerable attention in geoscience. In this study, a deep learning technique, namely Long Short-term Memory (LSTM), was employed to merge a radar-based and a satellite-based Global Precipitation Measurement (GPM) precipitation product Integrated Multi-Satellite Retrievals for GPM (IMERG) precipitation product at hourly scale. The merged results are compared with the widely used reanalysis precipitation product, Multi-Radar Multi-Sensor (MRMS), and assessed against gauge observational data from the California Data Exchange Center (CDEC). The findings indicated that the LSTM-based merged precipitation notably underestimated gauge observations and, at times, failed to provide meaningful estimates, showing predominantly near-zero values. Relying solely on individual Quantitative Precipitation Estimates (QPEs) without additional meteorological input proved insufficient for generating reliable merged QPE. However, the merged results effectively captured the temporal trends of the observations, outperforming MRMS in this aspect. This suggested that incorporating bias correction techniques could potentially enhance the accuracy of the merged product.
翻訳日:2024-04-23 20:37:54 公開日:2024-04-19
# CULTURE-GEN:自然言語による言語モデルにおけるグローバルカルチャー知覚の解明

CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting ( http://arxiv.org/abs/2404.10199v2 )

ライセンス: Link先を確認
Huihan Li, Liwei Jiang, Nouha Dziri, Xiang Ren, Yejin Choi, (参考訳) 大規模言語モデル (LLMs) の利用が世界中で増加しているため, 多様なグローバル文化に対して適切な知識と公正な表現を持つことが重要である。 本研究は,文化条件付き世代を通して,110か国と8か国における3つのSOTAモデルの文化認識を明らかにし,それぞれの文化に関連するシンボルをLLMによって抽出する。 文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。 また, LLMは文化シンボルに不均一な多様性を持ち, 異なる地理的領域の文化は, LLMの文化に依存しない世代に異なる存在であることがわかった。 本研究は,LLMにおけるグローバルカルチャー認識の知識と公正性について,さらなる研究を促進するものである。 コードとデータは、https://github.com/huihanlhh/Culture-Gen/で参照できる。

As the utilization of large language models (LLMs) has proliferated worldwide, it is crucial for them to have adequate knowledge and fair representation for diverse global cultures. In this work, we uncover culture perceptions of three SOTA models on 110 countries and regions on 8 culture-related topics through culture-conditioned generations, and extract symbols from these generations that are associated to each culture by the LLM. We discover that culture-conditioned generation consist of linguistic "markers" that distinguish marginalized cultures apart from default cultures. We also discover that LLMs have an uneven degree of diversity in the culture symbols, and that cultures from different geographic regions have different presence in LLMs' culture-agnostic generation. Our findings promote further research in studying the knowledge and fairness of global culture perception in LLMs. Code and Data can be found in: https://github.com/huihanlhh/Culture-Gen/
翻訳日:2024-04-23 20:37:54 公開日:2024-04-19
# ネットワーク侵入検出の強化:グラフニューラルネットワークと散乱変換とノード2Vecの統合による異常検出

Advancing Network Intrusion Detection: Integrating Graph Neural Networks with Scattering Transform and Node2Vec for Enhanced Anomaly Detection ( http://arxiv.org/abs/2404.10800v2 )

ライセンス: Link先を確認
Abdeljalil Zoubir, Badr Missaoui, (参考訳) 本稿では,グラフニューラルネットワーク(GNN)を用いたネットワーク侵入検知システム(NIDS)における2つの新しい手法を提案する。 最初のアプローチであるScattering Transform with E-GraphSAGE (STEG)は、散乱変換を用いてエッジ特徴ベクトルの多重分解能解析を行う。 これは、ネットワークトラフィックの微妙な異常を特定するのに不可欠な詳細な表現を提供する。 第2のアプローチでは、ノード表現をNode2Vecで開始することで改善し、統一値を使用する標準的な方法から逸脱し、より正確で全体的なネットワーク画像を取得する。 提案手法は,ベンチマークNIDSデータセットにおける既存の最先端手法と比較して,性能が大幅に向上した。

In this paper, we present two novel methods in Network Intrusion Detection Systems (NIDS) using Graph Neural Networks (GNNs). The first approach, Scattering Transform with E-GraphSAGE (STEG), utilizes the scattering transform to conduct multi-resolution analysis of edge feature vectors. This provides a detailed representation that is essential for identifying subtle anomalies in network traffic. The second approach improves node representation by initiating with Node2Vec, diverging from standard methods of using uniform values, thereby capturing a more accurate and holistic network picture. Our methods have shown significant improvements in performance compared to existing state-of-the-art methods in benchmark NIDS datasets.
翻訳日:2024-04-23 20:37:54 公開日:2024-04-19
# 局所集中型実行によるマルチエージェントコーディネーションにおける冗長計算の削減

Reducing Redundant Computation in Multi-Agent Coordination through Locally Centralized Execution ( http://arxiv.org/abs/2404.13096v1 )

ライセンス: Link先を確認
Yidong Bai, Toshiharu Sugawara, (参考訳) マルチエージェント強化学習では、分散実行は一般的なアプローチであるが、冗長な計算問題に悩まされている。 これは複数のエージェントが重複する観測のために同じまたは類似の計算を冗長に実行するときに発生する。 そこで本研究では,ローカル・集中型チーム・トランスフォーマー(LCTT)と呼ばれる新しい手法を提案する。 LCTTは、選択されたエージェントがリーダーとして機能し、指示を発行するローカル集中型の実行フレームワークを確立し、残りのエージェントは、労働者として指定され、ポリシーネットワークをアクティベートすることなく、これらの命令として振る舞う。 LCTTでは,チームトランスフォーマー(T-Trans)アーキテクチャを提案し,リーダーがそれぞれの労働者に特定の指示を下せるようにし,エージェントがリーダーや労働者として自律的に役割を決定できるリーダーシップシフト機構を提案した。 実験の結果,提案手法は効率よく冗長計算を削減し,報酬水準を低下させることなく,学習の収束を早めることを示した。

In multi-agent reinforcement learning, decentralized execution is a common approach, yet it suffers from the redundant computation problem. This occurs when multiple agents redundantly perform the same or similar computation due to overlapping observations. To address this issue, this study introduces a novel method referred to as locally centralized team transformer (LCTT). LCTT establishes a locally centralized execution framework where selected agents serve as leaders, issuing instructions, while the rest agents, designated as workers, act as these instructions without activating their policy networks. For LCTT, we proposed the team-transformer (T-Trans) architecture that allows leaders to provide specific instructions to each worker, and the leadership shift mechanism that allows agents autonomously decide their roles as leaders or workers. Our experimental results demonstrate that the proposed method effectively reduces redundant computation, does not decrease reward levels, and leads to faster learning convergence.
翻訳日:2024-04-23 20:28:09 公開日:2024-04-19
# DISC:前立腺癌移植における分離条件からの自己拡張を伴う潜伏拡散モデル

DISC: Latent Diffusion Models with Self-Distillation from Separated Conditions for Prostate Cancer Grading ( http://arxiv.org/abs/2404.13097v1 )

ライセンス: Link先を確認
Man M. Ho, Elham Ghelichkhan, Yosep Chong, Yufei Zhou, Beatrice Knudsen, Tolga Tasdizen, (参考訳) Latent Diffusion Models (LDMs) はノイズから高忠実度画像を生成することができ、がんグレーディングモデルのトレーニングのために病理像を拡大するための有望なアプローチを提供する。 従来の研究ではLDMを用いた高忠実度病理像が得られたが、前立腺がんのグレーディングを改善するための画像タイルの生成はまだ検討されていない。 さらに、LCMはタイルマスクによって調整された場合、タイル内の複数のがんグレードのアドミキシングを正確に生成する上で困難に直面している。 本研究では,複数のグリーソングレード(GG)を含む合成タイルを生成するために,入力タイルの画素ワイドアノテーションを活用することで,特定のLCMを訓練する。 本稿では,GGマスクでガイドされたGGパターンを生成するDISC(Self-Distillation from Separated Conditions)という新しいフレームワークを紹介する。 最後に, 合成タイルを有効利用し, 既存モデルのがん評価性能を向上させるための, 画素レベルおよびスライドレベルの前立腺がん評価のためのトレーニングフレームワークをデプロイする。 結果として、この研究は2つの領域における以前の研究を上回るものとなった。 1) DisC で強化した LDM は GG パターンでより正確なタイルを生成する。 2) 合成データを取り入れたトレーニング手法は,前立腺癌グレーティングのベースラインモデルの一般化を著しく改善し,特にまれなGG5症例では,データ制限時にがんグレーディングを向上するための生成モデルの可能性を示す。

Latent Diffusion Models (LDMs) can generate high-fidelity images from noise, offering a promising approach for augmenting histopathology images for training cancer grading models. While previous works successfully generated high-fidelity histopathology images using LDMs, the generation of image tiles to improve prostate cancer grading has not yet been explored. Additionally, LDMs face challenges in accurately generating admixtures of multiple cancer grades in a tile when conditioned by a tile mask. In this study, we train specific LDMs to generate synthetic tiles that contain multiple Gleason Grades (GGs) by leveraging pixel-wise annotations in input tiles. We introduce a novel framework named Self-Distillation from Separated Conditions (DISC) that generates GG patterns guided by GG masks. Finally, we deploy a training framework for pixel-level and slide-level prostate cancer grading, where synthetic tiles are effectively utilized to improve the cancer grading performance of existing models. As a result, this work surpasses previous works in two domains: 1) our LDMs enhanced with DISC produce more accurate tiles in terms of GG patterns, and 2) our training scheme, incorporating synthetic data, significantly improves the generalization of the baseline model for prostate cancer grading, particularly in challenging cases of rare GG5, demonstrating the potential of generative models to enhance cancer grading when data is limited.
翻訳日:2024-04-23 20:28:09 公開日:2024-04-19
# ハイパースペクトル画像における終端抽出のためのホットトピクス法の実装

Implementing Hottopixx Methods for Endmember Extraction in Hyperspectral Images ( http://arxiv.org/abs/2404.13098v1 )

ライセンス: Link先を確認
Tomohiko Mizutani, (参考訳) ハイパースペクトルイメージング技術は、森林管理、鉱物資源探査、地球表面モニタリングなど幅広い用途がある。 ハイパースペクトル画像の終端抽出は、この技術を応用するための重要なステップである。 観察されたシーンの主要な構成要素である材料のスペクトルシグネチャを特定することを目的としている。 理論的には、Hottopixx法は、ハイパースペクトル画像からエンドメンバーを抽出する問題に有効である。 しかし、これらの手法は計算コストが高いため、実際に実行することは困難である。 画像中のピクセル数とともに大きさが2倍に大きくなるHottopixxモデルと呼ばれるLP問題を解く必要がある。 したがって、実際に効果があるかどうかはまだ不明である。 この研究はこの状況を明確にしている。 本稿では,Hottopixxの効率的な実装を提案する。 我々の実装は列生成の枠組みに従っており、これは大規模LPを解く古典的だが強力な方法として知られている。 実験では,本実装が実ハイパースペクトル画像からのエンドメンバー抽出に適用可能であることを示すとともに,既存の手法よりも高精度にエンドメンバーシグネチャを推定できることを示す。

Hyperspectral imaging technology has a wide range of applications, including forest management, mineral resource exploration, and Earth surface monitoring. Endmember extraction of hyperspectral images is a key step in leveraging this technology for applications. It aims to identifying the spectral signatures of materials, i.e., the major components in the observed scenes. Theoretically speaking, Hottopixx methods should be effective on problems involving extracting endmembers from hyperspectral images. Yet, these methods are challenging to perform in practice, due to high computational costs. They require us to solve LP problems, called Hottopixx models, whose size grows quadratically with the number of pixels in the image. It is thus still unclear as to whether they are actually effective or not. This study clarifies this situation. We propose an efficient and effective implementation of Hottopixx. Our implementation follows the framework of column generation, which is known as a classical but powerful means of solving large-scale LPs. We show in experiments that our implementation is applicable to the endmember extraction from real hyperspectral images and can provide estimations of endmember signatures with higher accuracy than the existing methods can.
翻訳日:2024-04-23 20:28:09 公開日:2024-04-19
# Mathify: 数学的問題解決課題における大規模言語モデルの評価

Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks ( http://arxiv.org/abs/2404.13099v1 )

ライセンス: Link先を確認
Avinash Anand, Mohit Gupta, Kritarth Prasad, Navya Singla, Sanjana Sanjeev, Jatin Kumar, Adarsh Raj Shivam, Rajiv Ratn Shah, (参考訳) 自然言語処理(NLP)の分野での急速な進歩と、大規模言語モデル(LLM)の拡張により、教育や教育の分野で多くの機会が開かれた。 これらの進歩は、カスタマイズされた学習経験と即時フィードバック、すべてがアクセス可能で費用対効果の高いサービスを通じて提供される可能性を提供します。 この技術の進歩に顕著な応用分野は、数学的な問題を解く領域である。 数学的問題解決には、複雑な問題文を解読する能力だけでなく、問題解決プロセスの各ステップで正確な算術計算を行う能力も必要である。 しかし、大きな言語モデルの算術的能力の評価は、まだ比較的ほとんど注目されていない領域である。 そこで本研究では,第11および第12次標準数学NCERT教科書から得られた「マスクエスト」という数学データセットについて紹介する。 このデータセットは、様々な複雑さの数学的課題を含み、幅広い数学的概念をカバーしている。 このデータセットを利用することで、LLaMA-2、WizardMath、MAmmoTHの3つの著名なLCMを用いて微調整実験を行う。 これらの微調整されたモデルは、データセットのパフォーマンスを評価するためのベンチマークとして役立ちます。 この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。 したがって、MAmmoTH-13B は NCERT 数学問題に対処するための堅牢で信頼性の高いベンチマークとして自身を確立している。

The rapid progress in the field of natural language processing (NLP) systems and the expansion of large language models (LLMs) have opened up numerous opportunities in the field of education and instructional methods. These advancements offer the potential for tailored learning experiences and immediate feedback, all delivered through accessible and cost-effective services. One notable application area for this technological advancement is in the realm of solving mathematical problems. Mathematical problem-solving not only requires the ability to decipher complex problem statements but also the skill to perform precise arithmetic calculations at each step of the problem-solving process. However, the evaluation of the arithmetic capabilities of large language models remains an area that has received relatively little attention. In response, we introduce an extensive mathematics dataset called "MathQuest" sourced from the 11th and 12th standard Mathematics NCERT textbooks. This dataset encompasses mathematical challenges of varying complexity and covers a wide range of mathematical concepts. Utilizing this dataset, we conduct fine-tuning experiments with three prominent LLMs: LLaMA-2, WizardMath, and MAmmoTH. These fine-tuned models serve as benchmarks for evaluating their performance on our dataset. Our experiments reveal that among the three models, MAmmoTH-13B emerges as the most proficient, achieving the highest level of competence in solving the presented mathematical problems. Consequently, MAmmoTH-13B establishes itself as a robust and dependable benchmark for addressing NCERT mathematics problems.
翻訳日:2024-04-23 20:28:09 公開日:2024-04-19
# DensePANet:スパースデータを用いた光音響トモグラフィ画像再構成のための改良された生成対向ネットワーク

DensePANet: An improved generative adversarial network for photoacoustic tomography image reconstruction from sparse data ( http://arxiv.org/abs/2404.13101v1 )

ライセンス: Link先を確認
Hesam hakimnejad, Zohreh Azimifar, Narjes Goshtasbi, (参考訳) 光音響トモグラフィー(PAT: Photoacoustic Tomography, PAT)は、超音波と光学イメージングの両方の利点を一体化するための画像再構成である。 従来の手法によるPAT画像の再構成は,特にスパースPATデータに直接適用した場合に,粗いアーティファクトをもたらす。 近年、GAN(Generative Adversarial Network)は、画像生成と翻訳において強力な性能を示しており、再構成タスクに適用するための賢い選択となっている。 本研究では,スパースデータからのPAT画像再構成の問題を解決するために,DensePANetというエンドツーエンド手法を提案する。 提案したモデルは、FD-UNet++と呼ばれるジェネレータにUNetを改良し、再構成性能を大幅に改善する。 本手法を,様々なインビボおよびシミュレートされたデータセット上で評価した。 定量的および定性的な結果は、他の一般的なディープラーニング技術よりも、モデルの性能が優れていることを示している。

Image reconstruction is an essential step of every medical imaging method, including Photoacoustic Tomography (PAT), which is a promising modality of imaging, that unites the benefits of both ultrasound and optical imaging methods. Reconstruction of PAT images using conventional methods results in rough artifacts, especially when applied directly to sparse PAT data. In recent years, generative adversarial networks (GANs) have shown a powerful performance in image generation as well as translation, rendering them a smart choice to be applied to reconstruction tasks. In this study, we proposed an end-to-end method called DensePANet to solve the problem of PAT image reconstruction from sparse data. The proposed model employs a novel modification of UNet in its generator, called FD-UNet++, which considerably improves the reconstruction performance. We evaluated the method on various in-vivo and simulated datasets. Quantitative and qualitative results show the better performance of our model over other prevalent deep learning techniques.
翻訳日:2024-04-23 20:28:09 公開日:2024-04-19
# 蛍光寿命画像の単サンプル画像融合アップサンプリング

Single-sample image-fusion upsampling of fluorescence lifetime images ( http://arxiv.org/abs/2404.13102v1 )

ライセンス: Link先を確認
Valentin Kapitány, Areeba Fatima, Vytautas Zickus, Jamie Whitelaw, Ewan McGhee, Robert Insall, Laura Machesky, Daniele Faccio, (参考訳) 蛍光寿命顕微鏡(FLIM)は、分子間相互作用と生物学的プロセスに関する詳細な情報を提供する。 FLIMの最大のボトルネックは、時間分解イメージング技術のエンジニアリングと信号処理の限界のため、高い取得速度での画像分解能である。 本稿では、低分解能時間分解能検出器(光子到着時間を測定する)と高分解能カメラ(強度のみを測定する)からの測定を組み合わせ、計算FLIM超解像へのデータ融合アプローチであるSiSIFUSを提案する。 そこで本研究では,2つの単サンプル測定値間の局所的および大域的依存関係をエンコードする統計的事前情報を導入する。 これは、従来のデータ駆動型アプローチのように分布外幻覚のリスクを回避し、標準的な双線形補間などと比較して拡張された画像を提供する。 SiSIFUSによる一般的なアプローチは、2つの異なるデータセットが利用できる他の画像超解像問題に適用できる。

Fluorescence lifetime imaging microscopy (FLIM) provides detailed information about molecular interactions and biological processes. A major bottleneck for FLIM is image resolution at high acquisition speeds, due to the engineering and signal-processing limitations of time-resolved imaging technology. Here we present single-sample image-fusion upsampling (SiSIFUS), a data-fusion approach to computational FLIM super-resolution that combines measurements from a low-resolution time-resolved detector (that measures photon arrival time) and a high-resolution camera (that measures intensity only). To solve this otherwise ill-posed inverse retrieval problem, we introduce statistically informed priors that encode local and global dependencies between the two single-sample measurements. This bypasses the risk of out-of-distribution hallucination as in traditional data-driven approaches and delivers enhanced images compared for example to standard bilinear interpolation. The general approach laid out by SiSIFUS can be applied to other image super-resolution problems where two different datasets are available.
翻訳日:2024-04-23 20:28:09 公開日:2024-04-19
# ToNNO:3次元医用画像の微視的分割のためのニューラルネットワーク出力のトモグラフィー再構成

ToNNO: Tomographic Reconstruction of a Neural Network's Output for Weakly Supervised Segmentation of 3D Medical Images ( http://arxiv.org/abs/2404.13103v1 )

ライセンス: Link先を確認
Marius Schmidt-Mengin, Alexis Benichoux, Shibeshih Belachew, Nikos Komodakis, Nikos Paragios, (参考訳) セグメンテーションモデルのトレーニングのために多くの3D医療画像に注釈をつけるのは時間を要する。 弱教師付きセマンティックセグメンテーションの目標は、基底真理セグメンテーションマスクを使わずにセグメンテーションモデルを訓練することである。 本研究は,特定の領域(腫瘍や病変など)の存在の有無を示す画像レベルの分類ラベルのみが利用可能である場合に対処する。 既存のほとんどのメソッドはクラスアクティベーションマッピング(CAM)に依存している。 本稿では,ニューラルネットワークの出力のトモグラフィ再構成に基づく新しいアプローチToNNOを提案する。 本手法は,入力された3次元体積から異なる角度のスライスを抽出し,これらのスライスを2次元エンコーダに供給し,逆ラドン変換を適用してエンコーダの予測の3次元ヒートマップを再構成する。 この汎用的な手法は、任意の2次元画像エンコーダを用いて3次元ボリュームに対して密度の高い予測タスクを実行することができる。 本研究では、2Dエンコーダを訓練し、関心領域を含むスライスに対して高い値を出力することにより、医用画像セグメンテーションの弱制御に適用する。 4つの大規模医用画像データセットと2D CAM法を比較検討した。 CAM法とトモグラフィ再構成を併用してToNNOを拡張し, 平均CAMとトモグラフィCAMを提案し, より優れた結果を得た。

Annotating lots of 3D medical images for training segmentation models is time-consuming. The goal of weakly supervised semantic segmentation is to train segmentation models without using any ground truth segmentation masks. Our work addresses the case where only image-level categorical labels, indicating the presence or absence of a particular region of interest (such as tumours or lesions), are available. Most existing methods rely on class activation mapping (CAM). We propose a novel approach, ToNNO, which is based on the Tomographic reconstruction of a Neural Network's Output. Our technique extracts stacks of slices with different angles from the input 3D volume, feeds these slices to a 2D encoder, and applies the inverse Radon transform in order to reconstruct a 3D heatmap of the encoder's predictions. This generic method allows to perform dense prediction tasks on 3D volumes using any 2D image encoder. We apply it to weakly supervised medical image segmentation by training the 2D encoder to output high values for slices containing the regions of interest. We test it on four large scale medical image datasets and outperform 2D CAM methods. We then extend ToNNO by combining tomographic reconstruction with CAM methods, proposing Averaged CAM and Tomographic CAM, which obtain even better results.
翻訳日:2024-04-23 20:28:09 公開日:2024-04-19
# 人工知能を用いたつぶやきによるマルチクラス抑うつ検出

Multi Class Depression Detection Through Tweets using Artificial Intelligence ( http://arxiv.org/abs/2404.13104v1 )

ライセンス: Link先を確認
Muhammad Osama Nusrat, Waseem Shahzad, Saad Ahmed Jamal, (参考訳) 近年、うつ病は重大な問題となっている。 世界保健機関(WHO)によると、2023年には2億8000万人がうつ病に悩まされている。 これは膨大な数であり、真剣に考えなければ、これらの数は急速に増加するだろう。 約490億人がソーシャルメディア利用者である。 人々はTwitter、Facebook、Reddit、Instagramなどのプラットフォームで感情や感情を表現する。 これらのプラットフォームには、研究目的で使用できる貴重な情報が含まれている。 様々なソーシャルメディアプラットフォームで検討が続けられている。 しかし、これらの取り組みには一定の制限が持続する。 特に、過去の研究では、ツイートにおける抑うつと抑うつの強さを検出することだけに焦点が当てられていた。 また、データセットのラベル付けには不正確さがあった。 本研究は,5種類のうつ病(バイポーラ,メジャー,サイコティック,非定型,ポストパルタ)を,レキシコンラベルに基づくTwitterデータベースからのつぶやきを用いて予測した。 説明可能なAIは、うつ病のタイプを表すツイートの一部をハイライトすることで推論を提供するために使用された。 特徴抽出とトレーニングにはBERT(Bidirectional Encoder Representations from Transformers)が用いられた。 モデルのトレーニングには機械学習とディープラーニングの方法論が使用された。 BERTモデルは最も有望な結果を示し、全体的な精度は0.96である。

Depression is a significant issue nowadays. As per the World Health Organization (WHO), in 2023, over 280 million individuals are grappling with depression. This is a huge number; if not taken seriously, these numbers will increase rapidly. About 4.89 billion individuals are social media users. People express their feelings and emotions on platforms like Twitter, Facebook, Reddit, Instagram, etc. These platforms contain valuable information which can be used for research purposes. Considerable research has been conducted across various social media platforms. However, certain limitations persist in these endeavors. Particularly, previous studies were only focused on detecting depression and the intensity of depression in tweets. Also, there existed inaccuracies in dataset labeling. In this research work, five types of depression (Bipolar, major, psychotic, atypical, and postpartum) were predicted using tweets from the Twitter database based on lexicon labeling. Explainable AI was used to provide reasoning by highlighting the parts of tweets that represent type of depression. Bidirectional Encoder Representations from Transformers (BERT) was used for feature extraction and training. Machine learning and deep learning methodologies were used to train the model. The BERT model presented the most promising results, achieving an overall accuracy of 0.96.
翻訳日:2024-04-23 20:28:09 公開日:2024-04-19
# オン・デマンド・アース・システム・データ・キューブ

On-Demand Earth System Data Cubes ( http://arxiv.org/abs/2404.13105v1 )

ライセンス: Link先を確認
David Montero, César Aybar, Chaonan Ji, Guido Kraemer, Maximilian Söchting, Khalil Teber, Miguel D. Mahecha, (参考訳) 地球系科学の進歩により、多様なデータセットが急増した。 地球系データキューブ(ESDC)は、この高次元データの流入を効率的に処理するために導入された。 ESDCはデータ分析のための構造化された直感的なフレームワークを提供し、時空間グリッド内で情報を整理する。 ESDCの構造的な性質は、人工知能(AI)アプリケーションにとって重要な機会を解放する。 十分に整理されたデータを提供することで、ESDCは幅広い高度なAI駆動タスクに最適である。 最小限のユーザ入力でAIにフォーカスしたESDCを作成するための自動化フレームワークは、タスク固有のトレーニングデータの生成を大幅に加速する可能性がある。 ここでは、AIにフォーカスしたESDCを簡単に生成できるように設計されたオープンソースのPythonツールであるcuboを紹介する。 Cloud Optimized GeoTIFFs (COG) として格納されるSpatioTemporal Asset Catalogs (STAC) のコレクションを利用することで、cubo は ESDC を効率的に生成し、中央座標、空間解像度、エッジサイズ、時間範囲のみを必要とする。

Advancements in Earth system science have seen a surge in diverse datasets. Earth System Data Cubes (ESDCs) have been introduced to efficiently handle this influx of high-dimensional data. ESDCs offer a structured, intuitive framework for data analysis, organising information within spatio-temporal grids. The structured nature of ESDCs unlocks significant opportunities for Artificial Intelligence (AI) applications. By providing well-organised data, ESDCs are ideally suited for a wide range of sophisticated AI-driven tasks. An automated framework for creating AI-focused ESDCs with minimal user input could significantly accelerate the generation of task-specific training data. Here we introduce cubo, an open-source Python tool designed for easy generation of AI-focused ESDCs. Utilising collections in SpatioTemporal Asset Catalogs (STAC) that are stored as Cloud Optimised GeoTIFFs (COGs), cubo efficiently creates ESDCs, requiring only central coordinates, spatial resolution, edge size, and time range.
翻訳日:2024-04-23 20:28:09 公開日:2024-04-19
# 自己監督型Deep Deformable Masked Autoencodersを用いた頭蓋欠損自動再建

Automatic Cranial Defect Reconstruction with Self-Supervised Deep Deformable Masked Autoencoders ( http://arxiv.org/abs/2404.13106v1 )

ライセンス: Link先を確認
Marek Wodzinski, Daria Hemmerling, Mateusz Daniol, (参考訳) 毎年何千人もの人が頭蓋骨の怪我を負っている。 再建手術前に設計・製造する必要があるパーソナライズされたインプラントが必要である。 手動設計は高価で時間を要するため、プロセスの自動化を目標とするアルゴリズムの検索に繋がる。 この問題は容積形状の完備化として定式化することができ、教師付きイメージセグメンテーション専用のディープニューラルネットワークによって解決される。 しかし、このようなアプローチには、コストと時間を要する地道的な欠陥に注釈を付ける必要がある。 通常、プロセスは合成欠陥生成に置き換えられる。 しかし、合成地下構造生成でさえ時間がかかり、データの不均一性を制限しているため、深層モデルの一般化性は低下する。 本研究では,この問題を解決するために自己教師付きマスク付きオートエンコーダを用いる方法を提案する。 このアプローチはトレーニングセットの不均一性を高め、データ拡張の一形態と見なすことができる。 提案手法を最先端の深層ニューラルネットワークと比較し,SkullBreakデータセットとSkullFixデータセットの定量的および定性的な改善点を示す。 提案手法は,脳の欠陥をリアルタイムに再現するために有効である。

Thousands of people suffer from cranial injuries every year. They require personalized implants that need to be designed and manufactured before the reconstruction surgery. The manual design is expensive and time-consuming leading to searching for algorithms whose goal is to automatize the process. The problem can be formulated as volumetric shape completion and solved by deep neural networks dedicated to supervised image segmentation. However, such an approach requires annotating the ground-truth defects which is costly and time-consuming. Usually, the process is replaced with synthetic defect generation. However, even the synthetic ground-truth generation is time-consuming and limits the data heterogeneity, thus the deep models' generalizability. In our work, we propose an alternative and simple approach to use a self-supervised masked autoencoder to solve the problem. This approach by design increases the heterogeneity of the training set and can be seen as a form of data augmentation. We compare the proposed method with several state-of-the-art deep neural networks and show both the quantitative and qualitative improvement on the SkullBreak and SkullFix datasets. The proposed method can be used to efficiently reconstruct the cranial defects in real time.
翻訳日:2024-04-23 20:28:09 公開日:2024-04-19
# RegWSI: ACROBAT 2023チャレンジの勝者

RegWSI: Whole Slide Image Registration using Combined Deep Feature- and Intensity-Based Methods: Winner of the ACROBAT 2023 Challenge ( http://arxiv.org/abs/2404.13108v1 )

ライセンス: Link先を確認
Marek Wodzinski, Niccolò Marini, Manfredo Atzori, Henning Müller, (参考訳) 異なる可視構造から生じる相補的情報を融合することにより, 診断と予後を改善するために, 異なる染色された全スライド画像(WSI)の自動登録が重要である。 また、連続または保持されたスライド間でアノテーションを素早く転送することで、アノテーションの時間と関連するコストを大幅に削減できる。 それでも、スライス製剤は染色ごとに異なり、組織は複雑で大きな変形を受ける。 そのため,デジタル病理学を専門とする科学コミュニティや病院では,堅牢で効率的かつ正確な登録方法が望まれている。 本稿では,2段階のハイブリッド手法を提案する。 (i)ディープラーニングと特徴に基づく初期アライメントアルゴリズム、 (II) インスタンス最適化を用いた強度に基づく非剛性登録。 提案手法は特定のデータセットへの微調整を一切必要とせず,任意の組織タイプや染色に直接使用することができる。 この方法はACROBAT 2023チャレンジで1位を獲得した。 3つのオープンデータセットを用いて評価した。 (i)ANHIR (二)ACROBAT、及び 三)HyReCoは、登録に使用する分解能と初期アライメントの堅牢性及び安定性に関するいくつかのアブレーション研究を行った。 この手法はACROBATデータセットの最も正確な結果、HyReCoデータセットから保持されたスライドのセルレベル登録精度、およびANHIRデータセットで評価された最良の方法の1つである。 この手法では、新しいデータセットに微調整をする必要はなく、他の種類の顕微鏡画像のアウト・オブ・ボックスで使用することができる。 このメソッドはDeeperHistRegフレームワークに組み込まれており、他の人が直接それを使用して、任意の望まれるピラミッドレベルでWSIを登録、変換、保存することができる。 提案手法はWSI登録への重要な貢献であり,デジタル病理学の分野を進展させる。

The automatic registration of differently stained whole slide images (WSIs) is crucial for improving diagnosis and prognosis by fusing complementary information emerging from different visible structures. It is also useful to quickly transfer annotations between consecutive or restained slides, thus significantly reducing the annotation time and associated costs. Nevertheless, the slide preparation is different for each stain and the tissue undergoes complex and large deformations. Therefore, a robust, efficient, and accurate registration method is highly desired by the scientific community and hospitals specializing in digital pathology. We propose a two-step hybrid method consisting of (i) deep learning- and feature-based initial alignment algorithm, and (ii) intensity-based nonrigid registration using the instance optimization. The proposed method does not require any fine-tuning to a particular dataset and can be used directly for any desired tissue type and stain. The method scored 1st place in the ACROBAT 2023 challenge. We evaluated using three open datasets: (i) ANHIR, (ii) ACROBAT, and (iii) HyReCo, and performed several ablation studies concerning the resolution used for registration and the initial alignment robustness and stability. The method achieves the most accurate results for the ACROBAT dataset, the cell-level registration accuracy for the restained slides from the HyReCo dataset, and is among the best methods evaluated on the ANHIR dataset. The method does not require any fine-tuning to a new datasets and can be used out-of-the-box for other types of microscopic images. The method is incorporated into the DeeperHistReg framework, allowing others to directly use it to register, transform, and save the WSIs at any desired pyramid level. The proposed method is a significant contribution to the WSI registration, thus advancing the field of digital pathology.
翻訳日:2024-04-23 20:18:24 公開日:2024-04-19
# 臨床治験設計と最適化のための量子コンピューティングに向けて:新しい機会と課題をめざして

Towards quantum computing for clinical trial design and optimization: A perspective on new opportunities and challenges ( http://arxiv.org/abs/2404.13113v1 )

ライセンス: Link先を確認
Hakan Doga, M. Emre Sahin, Joao Bettencourt-Silva, Anh Pham, Eunyoung Kim, Alan Andress, Sudhir Saxena, Aritra Bose, Laxmi Parida, Jan Lukas Robertus, Hideaki Kawaguchi, Radwa Soliman, Daniel Blankenberg, (参考訳) 薬物発見プロセスにおける臨床試験は、薬物候補の安全性と有効性を決定するために重要である。 これらの臨床試験の失敗率の高さは、臨床モデルの開発とプロトコル設計の欠陥に起因する。 臨床薬品設計プロセスの改善は、関係するすべての利害関係者に大きな利益をもたらす可能性がある。 本稿では,臨床トライアル設計と最適化における現状の課題,古典的計算手法の確立,これらのプロセスの強化を目的とした量子アルゴリズムの導入について検討する。 具体的には、臨床試験シミュレーション、サイト選択、コホート識別の3つの重要な側面に焦点を当てている。 本研究の目的は、量子コンピューティングを活用して、臨床試験の効率性と効果を革新し、改善する包括的枠組みを提供することである。

Clinical trials are pivotal in the drug discovery process to determine the safety and efficacy of a drug candidate. The high failure rates of these trials are attributed to deficiencies in clinical model development and protocol design. Improvements in the clinical drug design process could therefore yield significant benefits for all stakeholders involved. This paper examines the current challenges faced in clinical trial design and optimization, reviews established classical computational approaches, and introduces quantum algorithms aimed at enhancing these processes. Specifically, the focus is on three critical aspects: clinical trial simulations, site selection, and cohort identification. This study aims to provide a comprehensive framework that leverages quantum computing to innovate and refine the efficiency and effectiveness of clinical trials.
翻訳日:2024-04-23 20:18:24 公開日:2024-04-19
# 一般化された超幾何コヒーレント状態定式化におけるテータ作用素の応用

An application of the theta operator in generalized hypergeometric coherent states formalism ( http://arxiv.org/abs/2404.13119v1 )

ライセンス: Link先を確認
Dušan Popov, (参考訳) 本稿では,量子力学におけるテータ作用素 xd/dx の複数の応用,すなわち一般化された超幾何コヒーレント状態(GHG CSs)の定式化について検討する。 これらの状態は最も一般的なコヒーレント状態であり、それらから、特殊化を通じて、物理的意味を持つすべてのコヒーレント状態を得ることができる。 一連の新たな結果が得られ、すでに知られているもの(積分表現や超幾何関数のラプラス変換)が発見された。 以上の理論的考察を裏付けるために,線形エネルギースペクトルを持つ量子系について検討した。 本研究の結果は,theta演算子の適用範囲の拡大に寄与する。

In this paper we examine one of the multiple applications of the theta operator xd/dx in quantum mechanics, namely, in the formalism of generalized hypergeometric coherent states (GHG CSs). These states are the most general coherent states, in the sense that from them, through particularization, all coherent states with physical meaning can be obtained. A series of new results were obtained and some already known ones were found / confirmed (the integral representations, as well as the Laplace transform of hypergeometric functions). To support the theoretical considerations presented above, we examined, as example, the quantum systems with a linear energy spectrum. The results obtained in this paper contribute to widening the area of applicability of the theta operator.
翻訳日:2024-04-23 20:18:24 公開日:2024-04-19
# 直接空気捕獲用材料発見における量子コンピューティングの探索

Exploration of Quantum Computing in Materials Discovery for Direct Air Capture Applications ( http://arxiv.org/abs/2404.13122v1 )

ライセンス: Link先を確認
Marco Antonio Barroca, Rodrigo Neumann Barros Ferreira, Mathias Steiner, (参考訳) 直接の空気捕獲は気候変動を緩和するための有望な方法である。 金属-有機フレームワークのような固形剤はこのタスクのために検討されてきたが、大規模に展開する可能性は完全には実現されていない。 余剰物質の計算的な発見は、膨大な探索空間を考慮し、それらの実世界の性能は、他のより豊富な煙道ガス成分を避けながら、CO2分子を選択的に結合する能力に依存する。 量子コンピューティングは、結合エネルギーを計算する代替手段として、直接空気捕獲のための新しい物質の発見を加速させる可能性がある。 本研究では、現在の量子コンピューティングデバイスでこれらの計算を可能にする方法とアルゴリズムを実証する。 典型的な金属-有機化合物の結合部位を表すMg+2金属中心におけるCO2,N2,H2O分子のポテンシャルエネルギー表面をシミュレートする。 UCCSD-VQEのようなより確立された手法と比較しても、従来のハードウェアと量子ハードウェアの両方でシミュレーションを実行し、ハードウェア効率を維持しながら妥当な精度を達成するために、qubit-ADAPT-VQE技術を適用した。

Direct air capture is a promising method for mitigating climate change. Solid sorbents, such as metal-organic frameworks, have been considered for this task, but their potential for deployment at scale has not been fully realized. The computational discovery of sorbent materials is a daunting task, given the vast search space, and the fact that their real-world performance depends on their ability to selectively bind CO2 molecules while avoiding other more abundant flue gas components. Quantum computing can potentially accelerate the discovery of novel materials for direct air capture as an alternative way to compute binding energies. In this work, we demonstrate methods and algorithms that enable these calculations in current quantum computing devices. We simulate the potential energy surfaces of CO2, N2, and H2O molecules at the Mg+2 metal center that represents the binding sites of typical metal-organic frameworks. We apply the qubit-ADAPT-VQE technique to run simulations on both classical and quantum hardware, and achieve reasonable accuracy while maintaining hardware efficiency, even when compared to more established methods such as UCCSD-VQE.
翻訳日:2024-04-23 20:18:24 公開日:2024-04-19
# Gauged Gaussian PEPS --格子ゲージ理論のための高次元テンソルネットワーク定式化

Gauged Gaussian PEPS -- A High Dimensional Tensor Network Formulation for Lattice Gauge Theories ( http://arxiv.org/abs/2404.13123v1 )

ライセンス: Link先を確認
Ariel Kelman, Umberto Borla, Itay Gomelski, Jonathan Elyovich, Gertian Roose, Patrick Emonts, Erez Zohar, (参考訳) ゲージ理論は、クォークやグルーオンの記述から凝縮物質物理学の効果的なモデルまで、現代の物理学の理解の基礎を形成する。 非摂動状態においては、ゲージ理論は伝統的に格子ゲージ理論として個別に扱われる。 結果は経路積分に基づくモンテカルロ法で評価される。 しかし、これらの手法は符号問題に悩まされ、リアルタイム力学を直接評価することができない。 本研究では,テンソルネットワークに基づく変分アンザッツであるゲージ付きガウス射影ペア状態(PEPS)の統一的および包括的フレームワークを提案する。 我々は、ハミルトン格子ゲージ理論の構築をレビューし、PEPSとの類似性を説明し、状態の構築について詳述する。 基底状態の推定は、PEPSをアンザッツ状態とする変分モンテカルロ法に基づいている。 この符号プロブレムフリーなアンザッツは任意のゲージ群を持つ任意の次元で効率的に評価することができ、動的フェルミオン性物質を含むことができ、QCDを含むゲージ理論の非摂動状態のシミュレーションの新しい選択肢を提案する。

Gauge theories form the basis of our understanding of modern physics - ranging from the description of quarks and gluons to effective models in condensed matter physics. In the non-perturbative regime, gauge theories are conventionally treated discretely as lattice gauge theories. The resulting systems are evaluated with path-integral based Monte Carlo methods. These methods, however, can suffer from the sign problem and do not allow for a direct evaluation of real-time dynamics. In this work, we present a unified and comprehensive framework for gauged Gaussian Projected Entangled Pair States (PEPS), a variational ansatz based on tensor networks. We review the construction of Hamiltonian lattice gauge theories, explain their similarities with PEPS, and detail the construction of the state. The estimation of ground states is based on a variational Monte Carlo procedure with the PEPS as an ansatz state. This sign-problem-free ansatz can be efficiently evaluated in any dimension with arbitrary gauge groups, and can include dynamical fermionic matter, suggesting new options for the simulation of non-perturbative regimes of gauge theories, including QCD.
翻訳日:2024-04-23 20:18:24 公開日:2024-04-19
# マルチインスタンス学習定式化によるロバストリアルタイムハードウェアベースのモバイルマルウェア検出

Towards Robust Real-Time Hardware-based Mobile Malware Detection using Multiple Instance Learning Formulation ( http://arxiv.org/abs/2404.13125v1 )

ライセンス: Link先を確認
Harshit Kumar, Sudarshan Sharma, Biswadeep Chakraborty, Saibal Mukhopadhyay, (参考訳) 本研究では,モバイル機器用ハードウェアベースのマルウェア検出装置RT-HMDを紹介し,MIL(Multiple Instance Learning)アプローチを用いて,セグメント化された時系列のマルウェア表現を洗練させる。 リアルタイムHMDでは、マルウェアの時系列の良性セグメントが不正にマルウェアラベルを継承し、偽陽性が増加するという誤ラベル問題に対処する。 RT-HMDは、MILフレームワーク内で提案された悪性判別スコアを用いて、局所的なマルウェアの挙動を効果的に識別し、予測精度を向上させる。 723の良性サンプルと1033のマルウェアサンプルにまたがるモバイルプラットフォームから収集されたハードウェアテレメトリデータセットを用いた実証分析では、リコールを維持しながら5%の正確性を示し、誤ラベルされた良性セグメントの影響を受けるベースラインを上回っている。

This study introduces RT-HMD, a Hardware-based Malware Detector (HMD) for mobile devices, that refines malware representation in segmented time-series through a Multiple Instance Learning (MIL) approach. We address the mislabeling issue in real-time HMDs, where benign segments in malware time-series incorrectly inherit malware labels, leading to increased false positives. Utilizing the proposed Malicious Discriminative Score within the MIL framework, RT-HMD effectively identifies localized malware behaviors, thereby improving the predictive accuracy. Empirical analysis, using a hardware telemetry dataset collected from a mobile platform across 723 benign and 1033 malware samples, shows a 5% precision boost while maintaining recall, outperforming baselines affected by mislabeled benign segments.
翻訳日:2024-04-23 20:18:24 公開日:2024-04-19
# 時準周期マヨラナに対する実空間位相不変量

Real-space topological invariant for time-quasiperiodic Majoranas ( http://arxiv.org/abs/2404.13129v1 )

ライセンス: Link先を確認
Zihao Qi, Ilyoun Na, Gil Refael, Yang Peng, (参考訳) 準周期駆動プロトコルに従うと、超伝導系は安定な準周期マヨラナモードを持ち、静的およびフロケ系を超えて概念を拡張している。 しかし、非共振駆動周波数の存在は高密度エネルギースペクトルをもたらすため、バンド構造が不十分なトポロジ的不変量を定義する従来の方法が応用される。 本研究では,ハミルトニアンおよび位置演算子からの情報を統合するシステムスペクトルローカライザを活用することで,時準周期マヨナを同定できる実空間トポロジ的不変量を導入する。 非エルミート物理学からの洞察を導き、ローカライザを構築するための基準を確立し、高密度スペクトルの存在下でこの不変量のロバスト性を解明する。 2つの非共振周波数で駆動されるキタエフ連鎖に着目した数値シミュレーションを行い,本手法の有効性を検証した。

When subjected to quasiperiodic driving protocols, superconducting systems have been found to harbor robust time-quasiperiodic Majorana modes, extending the concept beyond static and Floquet systems. However, the presence of incommensurate driving frequencies results in dense energy spectra, rendering conventional methods of defining topological invariants based on band structure inadequate. In this work, we introduce a real-space topological invariant capable of identifying time-quasiperiodic Majoranas by leveraging the system's spectral localizer, which integrates information from both Hamiltonian and position operators. Drawing insights from non-Hermitian physics, we establish criteria for constructing the localizer and elucidate the robustness of this invariant in the presence of dense spectra. Our numerical simulations, focusing on a Kitaev chain driven by two incommensurate frequencies, validate the efficacy of our approach.
翻訳日:2024-04-23 20:18:24 公開日:2024-04-19
# ハイブリッド古典量子CNN法による水中画像のオンボード分類

On-board classification of underwater images using hybrid classical-quantum CNN based method ( http://arxiv.org/abs/2404.13130v1 )

ライセンス: Link先を確認
Sreeraj Rajan Warrier, D Sri Harshavardhan Reddy, Sriya Bada, Rohith Achampeta, Sebastian Uppapalli, Jayasri Dontabhaktuni, (参考訳) 自律型水中車両(AUV)から撮影された水中画像は、しばしば低光度、高濁度、低コントラスト、運動色、過度の光散乱に悩まされるため、物体認識のための画像強調技術が必要である。 このような悪条件下では、物体認識に機械学習手法がますます使われてきている。 これらのAUVの画像のオブジェクト認識手法は、水中パイプラインや光ファイバー監視、海底資源抽出、海底マッピング、水中種探査などに応用できる可能性がある。 古典的な機械学習手法は精度の点で非常に効率的であるが、画像分類には大きなデータセットと高い計算時間が必要である。 現在の研究では、AUV上でのリアルタイム水中物体認識に量子古典的ハイブリッド機械学習手法を初めて使用しています。 我々は、AUVの内蔵カメラから撮影したリアルタイムのモーションブルーと低照度の画像を使用し、既存のハイブリッド機械学習手法をオブジェクト認識に適用した。 我々のハイブリッド手法は、量子回路を用いて古典的な画像の量子符号化と平坦化を行い、それらを古典的なニューラルネットワークに送信して画像分類を行う。 The results of hybrid method performed using Pennylane based quantum simulators on GPU and using pre-trained model on on on on on on on onboard NVIDIA GPU chipset were compared with corresponding classical machine learning method。 ハイブリッド量子機械学習法は,従来の機械学習法と比較して,65%以上の効率を示し,実行時間を3分の1削減し,データセットサイズを50倍に削減する。 私たちの研究が、自動運転車における量子強化リアルタイムコンピュータビジョンのさらなる可能性を開くことを願っています。

Underwater images taken from autonomous underwater vehicles (AUV's) often suffer from low light, high turbidity, poor contrast, motion-blur and excessive light scattering and hence require image enhancement techniques for object recognition. Machine learning methods are being increasingly used for object recognition under such adverse conditions. These enhanced object recognition methods of images taken from AUV's has potential applications in underwater pipeline and optical fibre surveillance, ocean bed resource extraction, ocean floor mapping, underwater species exploration, etc. While the classical machine learning methods are very efficient in terms of accuracy, they require large datasets and high computational time for image classification. In the current work, we use quantum-classical hybrid machine learning methods for real-time under-water object recognition on-board an AUV for the first time. We use real-time motion-blurred and low-light images taken from an on-board camera of AUV built in-house and apply existing hybrid machine learning methods for object recognition. Our hybrid methods consist of quantum encoding and flattening of classical images using quantum circuits and sending them to classical neural networks for image classification. The results of hybrid methods carried out using Pennylane based quantum simulators both on GPU and using pre-trained models on an on-board NVIDIA GPU chipset are compared with results from corresponding classical machine learning methods. We observe that the hybrid quantum machine learning methods show an efficiency greater than 65\% and reduction in run-time by one-thirds and require 50\% smaller dataset sizes for training the models compared to classical machine learning methods. We hope that our work opens up further possibilities in quantum enhanced real-time computer vision in autonomous vehicles.
翻訳日:2024-04-23 20:18:24 公開日:2024-04-19
# モデルパフォーマンスからクレームへ:機械学習の再現性の変化が責任のギャップを橋渡しするのにどう役立つか

From Model Performance to Claim: How a Change of Focus in Machine Learning Replicability Can Help Bridge the Responsibility Gap ( http://arxiv.org/abs/2404.13131v1 )

ライセンス: Link先を確認
Tianqi Kou, (参考訳) 機械学習研究の再現性と説明責任の改善という2つの目標が、AI倫理と機械学習コミュニティから大きな注目を集めている。 透明性を改善するための尺度を共有しているにもかかわらず、2つの目標が異なるレジスタで議論されている。 既存の責任ギャップ(Responsibility Gap)の課題 - 機械学習の科学者がアプリケーションサイトから遠く離れているため、機械学習の害を負う可能性があることを考えると、この論文は、複製可能性の再構築がギャップを埋めるのに役立つと仮定する。 モデルパフォーマンスの再現性から複製性へのシフトを通じて、機械学習の科学者は、誤用や誤解釈による害を招きやすい非レプリケーション可能なクレームを生成する責任を負うことができる。 本稿では、以下の貢献をします。 まず、複製性に関する構築的な会話を支援するML研究のための2つの形態の複製性を定義し、区別する。 第二に、私は、非複製可能なクレームを生成するために機械学習の科学者に説明責任を割り当てることを正当化する上で、モデル性能の再現性に対するクレーム-複製可能性のアドバンテージを定式化し、それが実行可能な責任感をいかに実現するかを示す。 さらに,私は,主張の再現性の実現を技術的プロジェクトよりも社会的プロジェクトとして,その競合する認識論的原則,循環基準,解釈的労働,研究コミュニケーションの実践的意味を議論することで特徴付けている。

Two goals - improving replicability and accountability of Machine Learning research respectively, have accrued much attention from the AI ethics and the Machine Learning community. Despite sharing the measures of improving transparency, the two goals are discussed in different registers - replicability registers with scientific reasoning whereas accountability registers with ethical reasoning. Given the existing challenge of the Responsibility Gap - holding Machine Learning scientists accountable for Machine Learning harms due to them being far from sites of application, this paper posits that reconceptualizing replicability can help bridge the gap. Through a shift from model performance replicability to claim replicability, Machine Learning scientists can be held accountable for producing non-replicable claims that are prone to eliciting harm due to misuse and misinterpretation. In this paper, I make the following contributions. First, I define and distinguish two forms of replicability for ML research that can aid constructive conversations around replicability. Second, I formulate an argument for claim-replicability's advantage over model performance replicability in justifying assigning accountability to Machine Learning scientists for producing non-replicable claims and show how it enacts a sense of responsibility that is actionable. In addition, I characterize the implementation of claim replicability as more of a social project than a technical one by discussing its competing epistemological principles, practical implications on Circulating Reference, Interpretative Labor, and research communication.
翻訳日:2024-04-23 20:18:24 公開日:2024-04-19
# 深層学習に基づくテキスト・イン・イメージ・ウォーターマーキング

Deep Learning-based Text-in-Image Watermarking ( http://arxiv.org/abs/2404.13134v1 )

ライセンス: Link先を確認
Bishwa Karki, Chun-Hua Tsai, Pei-Chi Huang, Xin Zhong, (参考訳) 本研究では,画像内にテキスト情報を埋め込んで抽出し,データのセキュリティと整合性を高める手法である,テキスト・イン・イメージ・ウォーターマーキング(text-in-image watermarking)の新たな深層学習手法を提案する。 ディープラーニングの能力を活用し、特にテキスト処理にTransformerベースのアーキテクチャ、画像特徴抽出にVision Transformerを用いることで、新しいベンチマークをドメイン内に設定する。 提案手法は,適応性を向上させるテキスト・イン・イメージ・ウォーターマーキングにおける深層学習の最初の応用である。 本手法は, 従来の透かし技術に比べ, 透かしが検出不能であることを保証するため, 従来の透かし技術と比較して, 優れた頑健性を示した。

In this work, we introduce a novel deep learning-based approach to text-in-image watermarking, a method that embeds and extracts textual information within images to enhance data security and integrity. Leveraging the capabilities of deep learning, specifically through the use of Transformer-based architectures for text processing and Vision Transformers for image feature extraction, our method sets new benchmarks in the domain. The proposed method represents the first application of deep learning in text-in-image watermarking that improves adaptivity, allowing the model to intelligently adjust to specific image characteristics and emerging threats. Through testing and evaluation, our method has demonstrated superior robustness compared to traditional watermarking techniques, achieving enhanced imperceptibility that ensures the watermark remains undetectable across various image contents.
翻訳日:2024-04-23 20:18:24 公開日:2024-04-19
# フェアシープシスの死亡予測モデルのための説明可能なAI

Explainable AI for Fair Sepsis Mortality Predictive Model ( http://arxiv.org/abs/2404.13139v1 )

ライセンス: Link先を確認
Chia-Hsuan Chang, Xiaoyang Wang, Christopher C. Yang, (参考訳) 人工知能は医療専門家を予測モデリングで支援し、臨床的な意思決定を大きく変える。 本研究は、多様な患者層にまたがる公平な結果を確保するために、医療におけるAIアプリケーションにおける公平性と説明可能性の必要性に対処する。 本稿では,敗血症関連死亡の予測モデルに焦点をあてて,パフォーマンス最適化予測モデルを学習し,伝達学習プロセスを用いてより公平なモデルを生成する手法を提案する。 また,予測の公平性を高めるために,各特徴の寄与を解明することを目的とした,新しい置換に基づく特徴重要度アルゴリズムを提案する。 予測性能に寄与する特徴を説明することに集中した既存の説明可能性手法とは異なり,提案手法は,各特徴が公平性に寄与するかを理解するギャップを独特に橋渡しする。 敗血症の死亡率と、病院での死亡数の3分の1での役割を考えると、この進歩は極めて重要である。 本手法は,予測モデル内のバイアスを識別・緩和するだけでなく,モデル予測の透明性と公平性を向上させることにより,医療関係者間の信頼を深め,より公平で信頼性の高い医療提供に寄与する。

Artificial intelligence supports healthcare professionals with predictive modeling, greatly transforming clinical decision-making. This study addresses the crucial need for fairness and explainability in AI applications within healthcare to ensure equitable outcomes across diverse patient demographics. By focusing on the predictive modeling of sepsis-related mortality, we propose a method that learns a performance-optimized predictive model and then employs the transfer learning process to produce a model with better fairness. Our method also introduces a novel permutation-based feature importance algorithm aiming at elucidating the contribution of each feature in enhancing fairness on predictions. Unlike existing explainability methods concentrating on explaining feature contribution to predictive performance, our proposed method uniquely bridges the gap in understanding how each feature contributes to fairness. This advancement is pivotal, given sepsis's significant mortality rate and its role in one-third of hospital deaths. Our method not only aids in identifying and mitigating biases within the predictive model but also fosters trust among healthcare stakeholders by improving the transparency and fairness of model predictions, thereby contributing to more equitable and trustworthy healthcare delivery.
翻訳日:2024-04-23 20:18:24 公開日:2024-04-19
# 量子調和入門:重畳における和音

Intro to Quantum Harmony: Chords in Superposition ( http://arxiv.org/abs/2404.13140v1 )

ライセンス: Link先を確認
Christopher Dobrian, Omar Costa Hamido, (参考訳) 量子論と音楽理論(特に量子コンピューティングの原理と音楽調和)の相関は、音楽理論家や作曲家にとって新たな理解と新しい方法論につながる可能性がある。 重ね合わせの量子原理は、音楽的意味の異なる解釈と密接に関連していることが示されている。 重ね合わせは、コンピュータ生成音楽合成の意思決定プロセスに適用されるように、著者の量子コンピューティングのシミュレーションで直接実装される。

Correlations between quantum theory and music theory - specifically between principles of quantum computing and musical harmony - can lead to new understandings and new methodologies for music theorists and composers. The quantum principle of superposition is shown to be closely related to different interpretations of musical meaning. Superposition is implemented directly in the authors' simulations of quantum computing, as applied in the decision-making processes of computer-generated music composition.
翻訳日:2024-04-23 20:18:24 公開日:2024-04-19
# 地域エネルギー市場と深層強化学習による分散エネルギー資源の分散調整

Decentralized Coordination of Distributed Energy Resources through Local Energy Markets and Deep Reinforcement Learning ( http://arxiv.org/abs/2404.13142v1 )

ライセンス: Link先を確認
Daniel May, Matthew Taylor, Petr Musilek, (参考訳) エネルギー環境が持続可能性に向かって進化するにつれて、分散エネルギー資源の統合の加速は電力網の運用性と信頼性に課題をもたらす。 この問題の1つの重要な側面は、グリッドエッジにおけるネット負荷のばらつきの顕著な増加である。 地域エネルギー市場を通じて実現された過渡的エネルギーは、近年、地域レベルでの分散的間接的需要応答という形でグリッド課題に対処するための有望な解決策として注目されている。 これらの課題の性質から、深層強化学習のようなモデルレス制御アプローチは、この文脈における参加の分散自動化を約束する。 トランスアクティブエネルギーとモデルフリーコントロールの交差点における既存の研究は、主に社会経済と自己消費の指標に焦点を当てており、コミュニティレベルのネット負荷変動を減らすという決定的な目標を見越している。 本研究では,経済主導型地域エネルギー市場であるALEXのエンドユーザー参加を自動化するために,深層強化学習エージェントのセットを訓練することにより,このギャップに対処する。 この設定では、エージェントは情報を共有せず、個別の紙幣最適化のみを優先する。 本研究は, この設定において, 請求書の削減とネット負荷変動の低減との間に明らかな相関関係を明らかにした。 ネット負荷の変動性への影響は、オープンソースのデータセット上での日平均、日平均、総ピークのエクスポート、インポートなどの指標を使用して、さまざまな時間的地平線上で評価される。 エージェントはいくつかのベースラインに対してベンチマークされ、パフォーマンスレベルは有望な結果を示し、ほぼ最適な動的プログラミングベンチマークに近づきます。

As the energy landscape evolves toward sustainability, the accelerating integration of distributed energy resources poses challenges to the operability and reliability of the electricity grid. One significant aspect of this issue is the notable increase in net load variability at the grid edge. Transactive energy, implemented through local energy markets, has recently garnered attention as a promising solution to address the grid challenges in the form of decentralized, indirect demand response on a community level. Given the nature of these challenges, model-free control approaches, such as deep reinforcement learning, show promise for the decentralized automation of participation within this context. Existing studies at the intersection of transactive energy and model-free control primarily focus on socioeconomic and self-consumption metrics, overlooking the crucial goal of reducing community-level net load variability. This study addresses this gap by training a set of deep reinforcement learning agents to automate end-user participation in ALEX, an economy-driven local energy market. In this setting, agents do not share information and only prioritize individual bill optimization. The study unveils a clear correlation between bill reduction and reduced net load variability in this setup. The impact on net load variability is assessed over various time horizons using metrics such as ramping rate, daily and monthly load factor, as well as daily average and total peak export and import on an open-source dataset. Agents are then benchmarked against several baselines, with their performance levels showing promising results, approaching those of a near-optimal dynamic programming benchmark.
翻訳日:2024-04-23 20:18:24 公開日:2024-04-19
# DeepFake-O-Meter v2.0: DeepFake検出のためのオープンプラットフォーム

DeepFake-O-Meter v2.0: An Open Platform for DeepFake Detection ( http://arxiv.org/abs/2404.13146v1 )

ライセンス: Link先を確認
Shuwei Hou, Yan Ju, Chengzhe Sun, Shan Jia, Lipeng Ke, Riky Zhou, Anita Nikolich, Siwei Lyu, (参考訳) AI生成メディアとしてのDeepfakesは、メディアの完全性と個人のプライバシーを、現実的で偽のデジタルコンテンツで脅かしている。 本研究では,Deepfakeイメージ,ビデオ,オーディオを検出する最先端の手法を統合した,オープンソースのユーザフレンドリなオンラインプラットフォームDeepFake-O-Meter v2.0を紹介する。 DeepFake-O-Meter v1.0をベースとして、ユーザインタラクション、検出器統合、ジョブバランシング、セキュリティ管理など、プラットフォームアーキテクチャ設計の大幅なアップグレードと改善を行いました。 このプラットホームは、日常的なユーザに、複数の最先端検出アルゴリズムを使ってDeepFakeメディアを分析する便利なサービスを提供することを目指している。 分析結果の安全かつプライベートなデリバリを保証する。 さらに、デジタルメディア法医学の研究者にとって、同じ入力上で複数のアルゴリズムのパフォーマンスを比較するための評価とベンチマークのプラットフォームとして機能する。 また、収集したデータに基づいて詳細な利用分析を行い、プラットフォームの統計についてより深い洞察を得ました。 これには、ユーザアクティビティの2ヶ月のトレンドを分析し、各検出器の処理効率を評価することが含まれる。

Deepfakes, as AI-generated media, have increasingly threatened media integrity and personal privacy with realistic yet fake digital content. In this work, we introduce an open-source and user-friendly online platform, DeepFake-O-Meter v2.0, that integrates state-of-the-art methods for detecting Deepfake images, videos, and audio. Built upon DeepFake-O-Meter v1.0, we have made significant upgrades and improvements in platform architecture design, including user interaction, detector integration, job balancing, and security management. The platform aims to offer everyday users a convenient service for analyzing DeepFake media using multiple state-of-the-art detection algorithms. It ensures secure and private delivery of the analysis results. Furthermore, it serves as an evaluation and benchmarking platform for researchers in digital media forensics to compare the performance of multiple algorithms on the same input. We have also conducted detailed usage analysis based on the collected data to gain deeper insights into our platform's statistics. This involves analyzing two-month trends in user activity and evaluating the processing efficiency of each detector.
翻訳日:2024-04-23 20:18:24 公開日:2024-04-19
# マルチクラスROC

Multiclass ROC ( http://arxiv.org/abs/2404.13147v1 )

ライセンス: Link先を確認
Liang Wang, Luis Carvalho, (参考訳) モデル評価は、現代の統計応用において重要である。 ROCの構築とAUCの計算は二項分類評価に広く利用されている。 ROC/AUC分析を多クラス分類に一般化する最近の研究は、以下の4つの領域のうちの少なくとも1つに問題がある。 1. 合理的なプロットの提供に失敗したこと 2.不均衡なデータに敏感であること 3. 誤分類コストの特定ができず 4. 評価の不確実性定量化を提供できない。 二項行列因数分解モデルから引用し、一次元ベクトル表現でペアワイズ多クラス正の正の値(TPR)と偽の正の値(FPR)を要約する評価指標を提供する。 表現ベクトルの可視化は、全てのクラス対にわたるTPRとFPRの間の相対的な増加速度を測る。 これらの分解ベクトルに対する積分は、分類器の性能について、AUCと等価な2値の要約を提供する。 様々な評価基準を満たすために、ミスクラシフィケーションウェイト仕様とブートストラップされた信頼区間も有効である。 提案手法をベンチマークデータセット上でのペア平均AUC統計値と比較した。

Model evaluation is of crucial importance in modern statistics application. The construction of ROC and calculation of AUC have been widely used for binary classification evaluation. Recent research generalizing the ROC/AUC analysis to multi-class classification has problems in at least one of the four areas: 1. failure to provide sensible plots 2. being sensitive to imbalanced data 3. unable to specify mis-classification cost and 4. unable to provide evaluation uncertainty quantification. Borrowing from a binomial matrix factorization model, we provide an evaluation metric summarizing the pair-wise multi-class True Positive Rate (TPR) and False Positive Rate (FPR) with one-dimensional vector representation. Visualization on the representation vector measures the relative speed of increment between TPR and FPR across all the classes pairs, which in turns provides a ROC plot for the multi-class counterpart. An integration over those factorized vector provides a binary AUC-equivalent summary on the classifier performance. Mis-clasification weights specification and bootstrapped confidence interval are also enabled to accommodate a variety of of evaluation criteria. To support our findings, we conducted extensive simulation studies and compared our method to the pair-wise averaged AUC statistics on benchmark datasets.
翻訳日:2024-04-23 20:18:24 公開日:2024-04-19
# BACS: 継続的セマンティックセグメンテーションを背景として

BACS: Background Aware Continual Semantic Segmentation ( http://arxiv.org/abs/2404.13148v1 )

ライセンス: Link先を確認
Mostafa ElAraby, Ali Harakeh, Liam Paull, (参考訳) セマンティックセグメンテーションは、ロボットシステムの総合的なシーン理解を可能にする上で重要な役割を担っている。 しかし、アノテーションの生成は困難であり、画像の各ピクセルにラベルが必要である。 自律運転のようなシナリオでは、デプロイされたエージェントの運用環境がより複雑になるにつれて、新しいクラスを段階的に組み込む必要がある。 アノテーションの効率を高めるために、理想的には、新しいクラスに属するピクセルだけが注釈付けされる。 このアプローチは連続セマンティックセグメンテーション(Continuous Semantic Segmentation, CSS)として知られている。 連続的な学習環境での古典的破滅的な忘れ込みの一般的な問題に加えて、CSSは背景の本来の曖昧さ、つまり、背景としてラベル付けされたピクセルが将来のクラス(前方の背景シフト)や以前のクラス(後方の背景シフト)に対応できるため、「背景シフト」と呼ばれる現象に悩まされている。 その結果、継続的な学習アプローチは失敗する傾向にある。 本稿では,先行ステップの前景セントロイドから潜伏空間内の距離に基づいて,従来観測されていたクラスを検出するための後方背景シフト検出器(BACS)を提案する。 さらに,従来観測されていたクラスに関連付けられた背景画素にBACS検出器を組み込んだクロスエントロピー損失関数の修正版を提案する。 破滅的な忘れ物と戦うために,暗黒体験リプレイとマスク付き特徴蒸留を併用した。 さらに,本手法では,新たなクラスに適応するトランスフォーマーデコーダを,追加の分類ヘッドを必要とせずに実装する。 標準的なCSSベンチマークにおいて,既存の最先端手法よりもBACSの方が優れた性能を示す。

Semantic segmentation plays a crucial role in enabling comprehensive scene understanding for robotic systems. However, generating annotations is challenging, requiring labels for every pixel in an image. In scenarios like autonomous driving, there's a need to progressively incorporate new classes as the operating environment of the deployed agent becomes more complex. For enhanced annotation efficiency, ideally, only pixels belonging to new classes would be annotated. This approach is known as Continual Semantic Segmentation (CSS). Besides the common problem of classical catastrophic forgetting in the continual learning setting, CSS suffers from the inherent ambiguity of the background, a phenomenon we refer to as the "background shift'', since pixels labeled as background could correspond to future classes (forward background shift) or previous classes (backward background shift). As a result, continual learning approaches tend to fail. This paper proposes a Backward Background Shift Detector (BACS) to detect previously observed classes based on their distance in the latent space from the foreground centroids of previous steps. Moreover, we propose a modified version of the cross-entropy loss function, incorporating the BACS detector to down-weight background pixels associated with formerly observed classes. To combat catastrophic forgetting, we employ masked feature distillation alongside dark experience replay. Additionally, our approach includes a transformer decoder capable of adjusting to new classes without necessitating an additional classification head. We validate BACS's superior performance over existing state-of-the-art methods on standard CSS benchmarks.
翻訳日:2024-04-23 20:08:39 公開日:2024-04-19
# 自己整合性を超えて: アンサンブル推論は癌進行におけるLDMの一貫性と正確性を高める

Beyond Self-Consistency: Ensemble Reasoning Boosts Consistency and Accuracy of LLMs in Cancer Staging ( http://arxiv.org/abs/2404.13149v1 )

ライセンス: Link先を確認
Chia-Hsuan Chang, Mary M. Lucas, Yeawon Lee, Christopher C. Yang, Grace Lu-Yao, (参考訳) 大規模言語モデル(LLM)の進歩は、重要な臨床情報が構造化されていないノートにしばしば含まれる医療分野への導入を奨励している。 がんのステージング状態は臨床報告で確認できるが、構造化されていないテキストから状態を取り出すには自然言語処理が必要である。 臨床指向性LSMの進歩により、アルゴリズムの訓練に多大な努力を払わずに、そのような状態を抽出することが期待されている。 思考の連鎖のようなモデルの推論プロセスを引き出す事前訓練されたLCMのプロンプティングアプローチは、生成された応答の信頼性を向上させるのに役立つ。 自己整合性を使用することで、モデルのパフォーマンスがさらに向上するが、多くの場合、複数の推論パスにまたがる一貫性のない世代が生まれる。 本研究では,モデル生成の一貫性向上を目的としたアンサンブル推論手法を提案する。 実世界の病理報告から病理学的ながんステージを決定するためにオープンアクセス臨床大言語モデルを用いて, がんステージ決定におけるLCMの一貫性と性能を両立させるアンサンブル推論手法により, 信頼性と信頼性が重要となる臨床または他の領域において, これらのモデルを使用することの可能性を示す。

Advances in large language models (LLMs) have encouraged their adoption in the healthcare domain where vital clinical information is often contained in unstructured notes. Cancer staging status is available in clinical reports, but it requires natural language processing to extract the status from the unstructured text. With the advance in clinical-oriented LLMs, it is promising to extract such status without extensive efforts in training the algorithms. Prompting approaches of the pre-trained LLMs that elicit a model's reasoning process, such as chain-of-thought, may help to improve the trustworthiness of the generated responses. Using self-consistency further improves model performance, but often results in inconsistent generations across the multiple reasoning paths. In this study, we propose an ensemble reasoning approach with the aim of improving the consistency of the model generations. Using an open access clinical large language model to determine the pathologic cancer stage from real-world pathology reports, we show that the ensemble reasoning approach is able to improve both the consistency and performance of the LLM in determining cancer stage, thereby demonstrating the potential to use these models in clinical or other domains where reliability and trustworthiness are critical.
翻訳日:2024-04-23 20:08:39 公開日:2024-04-19
# 変圧器による観測空間の計画とカードゲームへの取り組み

Transformer Based Planning in the Observation Space with Applications to Trick Taking Card Games ( http://arxiv.org/abs/2404.13150v1 )

ライセンス: Link先を確認
Douglas Rebstock, Christopher Solinas, Nathan R. Sturtevant, Michael Buro, (参考訳) 従来の探索アルゴリズムは、潜在的な状態と軌道の数が非常に大きい不完全な情報のゲームに適用する場合に問題がある。 この課題は特にトリックテイクカードゲームで顕著である。 Perfect Information Monte Carlo (PIMC) 探索のような状態サンプリング技術はこれらの文脈で成功したが、それでも大きな制限がある。 本稿では,ゲーム固有モデルにより生成された観測シーケンスにMCTSを利用するGO-MCTS(Generative Observation Monte Carlo Tree Search)を提案する。 本手法は,観測空間内で探索を行い,エージェントの観測のみに依存するモデルを用いて探索を進める。 さらに, この文脈では, トランスフォーマーが生成モデルとして適していることを示すとともに, 個体群をベースとしたセルフプレイにより, トランスフォーマーを反復的に訓練するプロセスを示す。 GO-MCTSの有効性は、Hearts、Skat、"The Crew: The Quest for Planet Nine"といった不完全な情報の様々なゲームで実証され、有望な結果が得られる。

Traditional search algorithms have issues when applied to games of imperfect information where the number of possible underlying states and trajectories are very large. This challenge is particularly evident in trick-taking card games. While state sampling techniques such as Perfect Information Monte Carlo (PIMC) search has shown success in these contexts, they still have major limitations. We present Generative Observation Monte Carlo Tree Search (GO-MCTS), which utilizes MCTS on observation sequences generated by a game specific model. This method performs the search within the observation space and advances the search using a model that depends solely on the agent's observations. Additionally, we demonstrate that transformers are well-suited as the generative model in this context, and we demonstrate a process for iteratively training the transformer via population-based self-play. The efficacy of GO-MCTS is demonstrated in various games of imperfect information, such as Hearts, Skat, and "The Crew: The Quest for Planet Nine," with promising results.
翻訳日:2024-04-23 20:08:39 公開日:2024-04-19
# 宇宙空間ジョセフソン効果の観測

Observation of Momentum Space Josephson Effects ( http://arxiv.org/abs/2404.13151v1 )

ライセンス: Link先を確認
Annesh Mukhopadhyay, Xi-Wang Luo, Colby Schimelfenig, M. K. H. Ome, Sean Mossman, Chuanwei Zhang, Peter Engels, (参考訳) 運動量空間ジョセフソン効果は、2つの離散運動量状態における弱結合ボース=アインシュタイン凝縮(BEC)の間の超電流流を記述する。 ここでは、ラマンによるスピン軌道結合を持つBECを用いて、このエキゾチックな現象を実験的に観察する。 ラマン・デチューニングの突然のクエンチは、A.c.ジョセフソン効果に類似したBECのコヒーレントなスピン-モーメント振動を誘導する。 パラメータの異なるプラズマと正則ジョセフソンの振動を観察する。 実験結果は理論モデルと数値シミュレーションとよく一致し、非線形相互作用の重要な役割を示す。 また、ジョセフソンプラズマ周波数の測定により、ボゴリューボフゼロ準同調ギャップが得られ、それに対応する擬ゴールドストーンモードの質量が決定される。 運動量空間の観測は、量子シミュレーションと、運動量状態を合成次数として利用するためのエキサイティングなプラットフォームを提供する。

The momentum space Josephson effect describes the supercurrent flow between weakly coupled Bose-Einstein condensates (BECs) at two discrete momentum states. Here, we experimentally observe this exotic phenomenon using a BEC with Raman-induced spin-orbit coupling, where the tunneling between two local band minima is implemented by the momentum kick of an additional optical lattice. A sudden quench of the Raman detuning induces coherent spin-momentum oscillations of the BEC, which is analogous to the a.c. Josephson effect. We observe both plasma and regular Josephson oscillations in different parameter regimes. The experimental results agree well with the theoretical model and numerical simulation, and showcase the important role of nonlinear interactions. We also show that the measurement of the Josephson plasma frequency gives the Bogoliubov zero quasimomentum gap, which determines the mass of the corresponding pseudo-Goldstone mode, a long-sought phenomenon in particle physics. The observation of momentum space Josephson physics offers an exciting platform for quantum simulation and sensing utilizing momentum states as a synthetic degree.
翻訳日:2024-04-23 20:08:39 公開日:2024-04-19
# ブラインド・モーション・デブロアリングのための運動適応分離型協調フィルタ

Motion-adaptive Separable Collaborative Filters for Blind Motion Deblurring ( http://arxiv.org/abs/2404.13153v1 )

ライセンス: Link先を確認
Chengxu Liu, Xuan Wang, Xiangyu Xu, Ruhao Tian, Shuai Li, Xueming Qian, Ming-Hsuan Yang, (参考訳) 様々な動きによって生じる画像のぼかしを除去することは、難しい問題である。 支配的アプローチは、特徴空間におけるぼやけた観測から残余を再構成することによってぼやけを取り除くために、モデル容量に大きく依存する。 これらのプラクティスは、現実世界における空間的変動運動の捕捉を防止するだけでなく、画像空間における様々な動きの調整されたハンドリングも無視する。 本稿では,動作適応型分離型協調型フィルタ (MISC) と呼ばれる実世界のデブロアリングフィルタモデルを提案する。 特に,動き推定ネットワークを用いて周辺地域からの動き情報を抽出し,空間変化のある動きの流れ,マスク,カーネル,重み,オフセットを適応的に推定し,MISCフィルタを得る。 MISCフィルタは、まず、予測フロー方向に沿って、動作誘起ぼかしパターンを移動中央に整列させ、次に、予測されたカーネル、重み、オフセットを介して協調して、出力を生成する。 この設計は空間的に異なる方法でより一般化された複雑な動きを扱うことができる。 さらに,動作推定ネットワークと残差再構成ネットワークの関係を解析する。 広範に使用されている4つのベンチマーク実験により,本手法は実世界の動きのぼかし除去に有効な解法であり,最先端の性能を実現することが実証された。 コードはhttps://github.com/ChengxuLiu/MISCFilterで入手できる。

Eliminating image blur produced by various kinds of motion has been a challenging problem. Dominant approaches rely heavily on model capacity to remove blurring by reconstructing residual from blurry observation in feature space. These practices not only prevent the capture of spatially variable motion in the real world but also ignore the tailored handling of various motions in image space. In this paper, we propose a novel real-world deblurring filtering model called the Motion-adaptive Separable Collaborative (MISC) Filter. In particular, we use a motion estimation network to capture motion information from neighborhoods, thereby adaptively estimating spatially-variant motion flow, mask, kernels, weights, and offsets to obtain the MISC Filter. The MISC Filter first aligns the motion-induced blurring patterns to the motion middle along the predicted flow direction, and then collaboratively filters the aligned image through the predicted kernels, weights, and offsets to generate the output. This design can handle more generalized and complex motion in a spatially differentiated manner. Furthermore, we analyze the relationships between the motion estimation network and the residual reconstruction network. Extensive experiments on four widely used benchmarks demonstrate that our method provides an effective solution for real-world motion blur removal and achieves state-of-the-art performance. Code is available at https://github.com/ChengxuLiu/MISCFilter
翻訳日:2024-04-23 20:08:39 公開日:2024-04-19
# 自己監督型ハイパースペクトルイメージングのための等変イメージング

Equivariant Imaging for Self-supervised Hyperspectral Image Inpainting ( http://arxiv.org/abs/2404.13159v1 )

ライセンス: Link先を確認
Shuo Li, Mike Davies, Mehrdad Yaghoobi, (参考訳) ハイパースペクトルイメージング(HSI)は、地球観測、監視、医療イメージングと診断、天文学、宇宙探査において重要な技術である。 リモートセンシングアプリケーションにおける従来のHSI技術は、カメラが一度にシーンのストライプのスペクトル画像を記録し、その画像は時間による計測の集約によって生成される、プッシュ・ブルーム・スキャニング・アプローチに基づいている。 現実世界の空飛ぶHSI機器では、プラットフォームが常にプログラムされた姿勢を維持したり、正確なデジタル高度マップ(DEM)にアクセスしたり、常にハイパースペクトルカメラと一致しているとは限らないため、いくつかの空のストライプが特定の場所に現れる。 これにより、不完全または破損した観測から取得したHS画像の強化が不可欠である。 本稿では,Hyperspectral Equivariant Imaging (Hyper-EI)と呼ばれる新しいHSIインペイントアルゴリズムを提案する。 Hyper-EIは、広範囲なデータセットのトレーニングや、事前訓練されたモデルへのアクセスを必要としない、自己教師型学習ベースの手法である。 実験結果から,提案手法は既存手法と比較して,最先端の塗装性能を実現することがわかった。

Hyperspectral imaging (HSI) is a key technology for earth observation, surveillance, medical imaging and diagnostics, astronomy and space exploration. The conventional technology for HSI in remote sensing applications is based on the push-broom scanning approach in which the camera records the spectral image of a stripe of the scene at a time, while the image is generated by the aggregation of measurements through time. In real-world airborne and spaceborne HSI instruments, some empty stripes would appear at certain locations, because platforms do not always maintain a constant programmed attitude, or have access to accurate digital elevation maps (DEM), and the travelling track is not necessarily aligned with the hyperspectral cameras at all times. This makes the enhancement of the acquired HS images from incomplete or corrupted observations an essential task. We introduce a novel HSI inpainting algorithm here, called Hyperspectral Equivariant Imaging (Hyper-EI). Hyper-EI is a self-supervised learning-based method which does not require training on extensive datasets or access to a pre-trained model. Experimental results show that the proposed method achieves state-of-the-art inpainting performance compared to the existing methods.
翻訳日:2024-04-23 20:08:39 公開日:2024-04-19
# CyberSecEval 2: 大規模言語モデルのための広範囲なサイバーセキュリティ評価スイート

CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models ( http://arxiv.org/abs/2404.13161v1 )

ライセンス: Link先を確認
Manish Bhatt, Sahana Chennabasappa, Yue Li, Cyrus Nikolaidis, Daniel Song, Shengye Wan, Faizan Ahmad, Cornelius Aschermann, Yaohui Chen, Dhaval Kapil, David Molnar, Spencer Whitman, Joshua Saxe, (参考訳) 大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。 LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。 我々は、インジェクションとコードインタプリタの乱用という、テストのための2つの新しい領域を紹介します。 我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。 その結果,攻撃リスクの回避は未解決の問題であり,例えば,全試験モデルでは26%から41%の早期注射試験が成功していることがわかった。 安全でないプロンプトの拒否をLCMに条件付けると、LCMは誤応答の良質なプロンプトを拒否することになり、実用性が低下する。 本稿では,このトレードオフをFalse Refusal Rate (FRR) を用いて定量化する。 実例として,サイバー攻撃支援リスクに対するFRRの定量化のための新しいテストセットを提案する。 多くのLLMが、ほとんどの安全でない要求を拒否しながら、"バウンダライン"の良質な要求をうまく順守できることがわかった。 最後に、ソフトウェア脆弱性を悪用する中核的なサイバーセキュリティタスクを自動化するためのLLMの有用性を定量化する。 このことは, LLM の攻撃的能力に強い関心があり, 4 つの代表的な問題に対する新しいテストセットを作成することによってこれを定量化する。 符号化能力を持つモデルでは,より優れた性能が期待できるが,LLMがエクスプロイト生成に熟練するためには,さらなる作業が必要である。 私たちのコードはオープンソースで、他のLLMを評価するために使用できます。

Large language models (LLMs) introduce new security risks, but there are few comprehensive evaluation suites to measure and reduce these risks. We present BenchmarkName, a novel benchmark to quantify LLM security risks and capabilities. We introduce two new areas for testing: prompt injection and code interpreter abuse. We evaluated multiple state-of-the-art (SOTA) LLMs, including GPT-4, Mistral, Meta Llama 3 70B-Instruct, and Code Llama. Our results show that conditioning away risk of attack remains an unsolved problem; for example, all tested models showed between 26% and 41% successful prompt injection tests. We further introduce the safety-utility tradeoff: conditioning an LLM to reject unsafe prompts can cause the LLM to falsely reject answering benign prompts, which lowers utility. We propose quantifying this tradeoff using False Refusal Rate (FRR). As an illustration, we introduce a novel test set to quantify FRR for cyberattack helpfulness risk. We find many LLMs able to successfully comply with "borderline" benign requests while still rejecting most unsafe requests. Finally, we quantify the utility of LLMs for automating a core cybersecurity task, that of exploiting software vulnerabilities. This is important because the offensive capabilities of LLMs are of intense interest; we quantify this by creating novel test sets for four representative problems. We find that models with coding capabilities perform better than those without, but that further work is needed for LLMs to become proficient at exploit generation. Our code is open source and can be used to evaluate other LLMs.
翻訳日:2024-04-23 20:08:39 公開日:2024-04-19
# 米国高等教育カリキュラムにおけるスキルの全国的縦断的データセット

A national longitudinal dataset of skills taught in U.S. higher education curricula ( http://arxiv.org/abs/2404.13163v1 )

ライセンス: Link先を確認
Alireza Javadian Sabet, Sarah H. Bana, Renzhe Yu, Morgan R. Frank, (参考訳) 高等教育は、労働者が要求する知識と技能を学生に提供することによって、革新的な経済を推進していく上で重要な役割を担っている。 研究者や実践者は、米国労働省(DOL)が確立したような、詳細な職業スキルを追跡するデータシステムを開発したが、高等教育におけるスキル開発を同様の粒度で文書化する努力は、はるかに少ない。 このギャップを埋めるために、約3千の高等教育機関で教えられた300万人以上のコースから推定されるスキルの経時的データセットを提示する。 このデータセットを構築するために、DOLが職業記述に用いた詳細な職場活動(DWA)のコース記述から自然言語処理を適用した。 そして、これらのDWAを集約して、機関や学術専攻のためのスキルプロファイルを作成します。 我々のデータセットは、大学労働者の大規模表現と経済における役割を提供する。 このデータセットの有用性を示すために、私たちはそれを使っています。 1)米国労働統計局によると、労働力の技能と技能の類似性を比較する。 2【登録データに基づく取得スキルの性別差の推定】 3)社会科学カリキュラムで教えられるスキルの時間的傾向を描いている。 4)大学長のスキル特性と卒業生の給与差を結びつける。 全体として、このデータセットは、労働開発におけるスキルの源泉に関する新たな研究を可能にし、特に新技術に直面する労働需要の進展に対応するために、高等教育の未来を形作るための実用的な洞察を提供することができる。

Higher education plays a critical role in driving an innovative economy by equipping students with knowledge and skills demanded by the workforce. While researchers and practitioners have developed data systems to track detailed occupational skills, such as those established by the U.S. Department of Labor (DOL), much less effort has been made to document skill development in higher education at a similar granularity. Here, we fill this gap by presenting a longitudinal dataset of skills inferred from over three million course syllabi taught at nearly three thousand U.S. higher education institutions. To construct this dataset, we apply natural language processing to extract from course descriptions detailed workplace activities (DWAs) used by the DOL to describe occupations. We then aggregate these DWAs to create skill profiles for institutions and academic majors. Our dataset offers a large-scale representation of college-educated workers and their role in the economy. To showcase the utility of this dataset, we use it to 1) compare the similarity of skills taught and skills in the workforce according to the US Bureau of Labor Statistics, 2) estimate gender differences in acquired skills based on enrollment data, 3) depict temporal trends in the skills taught in social science curricula, and 4) connect college majors' skill distinctiveness to salary differences of graduates. Overall, this dataset can enable new research on the source of skills in the context of workforce development and provide actionable insights for shaping the future of higher education to meet evolving labor demands especially in the face of new technologies.
翻訳日:2024-04-23 20:08:39 公開日:2024-04-19
# 階層型データの完全情報推定

Full-Information Estimation For Hierarchical Data ( http://arxiv.org/abs/2404.13164v1 )

ライセンス: Link先を確認
Ryan Cumings-Menon, (参考訳) アメリカ合衆国国勢調査局の2020年開示回避システム(DAS)は、平均ゼロ確率変数の実現に付加される人口の集計であるノイズ測定に基づいて、その出力をベースとしている。 これらのノイズの測定は階層的な地理的単位、例えばアメリカ合衆国全体、州、郡、国勢調査区域、国勢調査ブロックで観測される。 2020年の再制限データファイルとデモグラフィックおよび住宅特性のノイズ測定 ファイル統計データ製品は現在公開されています。 本研究の目的は, 任意の集計のための信頼区間を計算し, 国勢調査ブロックから構成される任意の地理的要素において, ノイズ測定における階層構造を活用する手法について述べることである。 この方法は、重み付き最小二乗推定器(WLS)とその分散行列の計算に基づく。 この推定器の高次元のため、この演算は標準的なアプローチでは実現できないが、これは数十億行(あるいは数兆行)の高密度行列の逆行列で積を評価する必要があるからである。 これとは対照的に,本論文で述べるアプローチは,人口統計ブロック数で線形にスケールする時間的複雑性とメモリ要件と,必要な推定値とそのばらつきを計算している。

The U.S. Census Bureau's 2020 Disclosure Avoidance System (DAS) bases its output on noisy measurements, which are population tabulations added to realizations of mean-zero random variables. These noisy measurements are observed in a set of hierarchical geographic units, e.g., the U.S. as a whole, states, counties, census tracts, and census blocks. The noisy measurements from the 2020 Redistricting Data File and Demographic and Housing Characteristics File statistical data products are now public. The purpose of this paper is to describe a method to leverage the hierarchical structure within these noisy measurements to compute confidence intervals for arbitrary tabulations and in arbitrary geographic entities composed of census blocks. This method is based on computing a weighted least squares estimator (WLS) and its variance matrix. Due to the high dimension of this estimator, this operation is not feasible using the standard approach, since this would require evaluating products with the inverse of a dense matrix with several billion (or even several trillion) rows and columns. In contrast, the approach we describe in this paper computes the required estimate and its variance with a time complexity and memory requirement that scales linearly in the number of census blocks.
翻訳日:2024-04-23 20:08:39 公開日:2024-04-19
# 光コヒーレンスにおける平均値:MagyarとMandel-Wolfパラドックスの解法

Averages in optical coherence: resolving the Magyar and Mandel-Wolf paradox ( http://arxiv.org/abs/2404.13168v1 )

ライセンス: Link先を確認
Joscelyn van der Veen, Daniel James, (参考訳) 天文学から光電学まで、あらゆる分野において光学コヒーレンスの重要性から生じるユビキタスな光コヒーレンス(英語版)は、定常性やエルゴード性といった基礎的な仮定が暗黙化することを意味する。 これらの仮定が暗黙化すると、検出器の有限時間平均と複数の検出に対する光学場のアンサンブル平均という、2つの異なる平均が独立しているように見える。 2種類の平均値のうちの1つは無視されることもある。 我々は干渉縞パターンとしてコヒーレンスを観察し、平均化の方法によって場の特性を学ぶことができるが、マジャールとマンデル=ウルフのパラドックスで示されるように、コヒーレンスは同じではない。

The ubiquity of optical coherence arising from its importance in everything from astronomy to photovoltaics means that underlying assumptions such as stationarity and ergodicity can become implicit. When these assumptions become implicit, it can appear that two different averages are independent: the finite time averaging of a detector and the ensemble average of the optical field over multiple detections. One of the two types of averaging may even be ignored. We can observe coherence as an interference fringe pattern and learn properties of the field through both methods of averaging but the coherence will not be the same, as demonstrated by the Magyar and Mandel-Wolf paradox.
翻訳日:2024-04-23 20:08:39 公開日:2024-04-19
# 何千人もの米国Amazonユーザーのデータをクラウドソーシングする実験からの洞察:透明性、お金、データ利用の重要性

Insights from an experiment crowdsourcing data from thousands of US Amazon users: The importance of transparency, money, and data use ( http://arxiv.org/abs/2404.13172v1 )

ライセンス: Link先を確認
Alex Berke, Robert Mahari, Sandy Pentland, Kent Larson, D. Calacci, (参考訳) デジタルプラットフォーム上でユーザが生成するデータは、デジタル不平等を明らかにすること、監査アルゴリズム、人間の行動を理解することに興味を持つ支持者や研究者にとって重要なリソースである。 しかし、データアクセスは制限されることが多い。 研究者はユーザーデータを効果的かつ倫理的に収集できるのか? 本稿は、米国5000人以上のユーザーから5年間にわたる、アクセス不能なAmazon購入履歴をクラウドソーシングする革新的なアプローチを共有する。 我々は参加者の同意を優先し、実験的な研究デザインを含むデータ収集ツールを開発した。 この設計により、プライバシーの認識とデータの共有行動の複数の側面を研究できる。 実験結果(N=6325)は、金銭的インセンティブと透明性の両方がデータ共有を大幅に増加させることを示している。 年齢、人種、教育、性別も役割を担い、女性や教育を受けていない参加者はより共有しやすくなった。 われわれの研究デザインは、ユーザーが実際に行うよりもプライバシーを重視できるという「プライバシーパラドックス」のユニークな経験的評価を可能にする。 実際のデータ共有シナリオと仮説的なデータ共有シナリオを設定し、これらのコンテキスト間で測定可能な類似点とシェア率の違いを見つけました。 例えば、金融インセンティブの増加は、実際のシナリオにおける株価に6倍の影響を及ぼした。 さらに、様々な第三者がデータをどのように利用するべきかについての参加者の意見について検討し、また、人口統計学的にも大きな影響があることを見出した。 特に、大多数の参加者は購入データを使って政府機関を承認しなかったが、大多数は研究者によって承認された。 全体としては、透明性、インセンティブデザイン、およびユーザ人口層が倫理データ収集の実践において果たす重要な役割を強調し、将来の研究者がユーザ生成データをクラウドソースする上でのガイダンスを提供する。

Data generated by users on digital platforms are a crucial resource for advocates and researchers interested in uncovering digital inequities, auditing algorithms, and understanding human behavior. Yet data access is often restricted. How can researchers both effectively and ethically collect user data? This paper shares an innovative approach to crowdsourcing user data to collect otherwise inaccessible Amazon purchase histories, spanning 5 years, from more than 5000 US users. We developed a data collection tool that prioritizes participant consent and includes an experimental study design. The design allows us to study multiple aspects of privacy perception and data sharing behavior. Experiment results (N=6325) reveal both monetary incentives and transparency can significantly increase data sharing. Age, race, education, and gender also played a role, where female and less-educated participants were more likely to share. Our study design enables a unique empirical evaluation of the "privacy paradox", where users claim to value their privacy more than they do in practice. We set up both real and hypothetical data sharing scenarios and find measurable similarities and differences in share rates across these contexts. For example, increasing monetary incentives had a 6 times higher impact on share rates in real scenarios. In addition, we study participants' opinions on how data should be used by various third parties, again finding demographics have a significant impact. Notably, the majority of participants disapproved of government agencies using purchase data yet the majority approved of use by researchers. Overall, our findings highlight the critical role that transparency, incentive design, and user demographics play in ethical data collection practices, and provide guidance for future researchers seeking to crowdsource user generated data.
翻訳日:2024-04-23 20:08:39 公開日:2024-04-19
# スペクトル畳み込み条件ニューラルプロセス

Spectral Convolutional Conditional Neural Processes ( http://arxiv.org/abs/2404.13182v1 )

ライセンス: Link先を確認
Peiman Mohseni, Nick Duffield, (参考訳) 条件付きニューラルプロセス(CNP)は、確率的プロセスのパラメータ化にニューラルネットワークの柔軟性を利用する確率論的モデルのファミリーを構成する。 よく校正された予測機能と、単純な最大様習熟訓練を組み合わせることで、様々な学習問題に対処するための魅力的なソリューションとして、メタ学習に特に重点を置いている。 このファミリーの著名なメンバーであるConvolutional Conditional Neural Processes (ConvCNPs)は、畳み込みを利用して、帰納的バイアスとして翻訳等価性を明示的に導入する。 しかし、ConvCNPのコンボリューション層におけるローカルな離散カーネルへの依存は、特に新しいタスクから限定的で不規則にサンプリングされた観察を扱う場合、データ内の長距離依存関係や複雑なパターンをキャプチャする上で問題を引き起こす可能性がある。 パラメトリック偏微分方程式(PDE)の解演算子を近似するフーリエニューラル演算子(FNO)の成功に基づいて、周波数領域における関数のより効率的な表現を可能にするNPs族への新たな追加であるスペクトル畳み込み条件ニューラルネットワーク(SConvCNPs)を提案する。

Conditional Neural Processes (CNPs) constitute a family of probabilistic models that harness the flexibility of neural networks to parameterize stochastic processes. Their capability to furnish well-calibrated predictions, combined with simple maximum-likelihood training, has established them as appealing solutions for addressing various learning problems, with a particular emphasis on meta-learning. A prominent member of this family, Convolutional Conditional Neural Processes (ConvCNPs), utilizes convolution to explicitly introduce translation equivariance as an inductive bias. However, ConvCNP's reliance on local discrete kernels in its convolution layers can pose challenges in capturing long-range dependencies and complex patterns within the data, especially when dealing with limited and irregularly sampled observations from a new task. Building on the successes of Fourier neural operators (FNOs) for approximating the solution operators of parametric partial differential equations (PDEs), we propose Spectral Convolutional Conditional Neural Processes (SConvCNPs), a new addition to the NPs family that allows for more efficient representation of functions in the frequency domain.
翻訳日:2024-04-23 20:08:39 公開日:2024-04-19
# TANQ-Sim:Perlmutter HPC上のQIRによるテンソルコア加速ノイズ量子システムシミュレーション

TANQ-Sim: Tensorcore Accelerated Noisy Quantum System Simulation via QIR on Perlmutter HPC ( http://arxiv.org/abs/2404.13184v1 )

ライセンス: Link先を確認
Ang Li, Chenxu Liu, Samuel Stein, In-Saeng Suh, Muqing Zheng, Meng Wang, Yue Shi, Bo Fang, Martin Roetteler, Travis Humble, (参考訳) 量子コンピューティング(QC)には顕著な進歩があったが、古典的な大規模並列計算システムを用いて量子プログラムをシミュレートし、量子アルゴリズムを検証し、ノイズの影響を理解し、レジリエントな量子アプリケーションを開発することが重要である。 これは、近未来のノイズ・中間量子(NISQ)コンピューティングと将来のフォールトトレラント量子コンピューティング(FTQC)のギャップを埋めるために特に重要である。 しかしながら、現在のシミュレーション手法にはノイズをシミュレートする能力がないか、過剰な計算コストでシミュレートできないか、効果的にスケールアウトしないかのいずれかがある。 本稿では,コヒーレントノイズと非コヒーレントノイズの両方で実用的な深部回路をシミュレートする,フルスケール密度行列ベースシミュレータTANQ-Simを提案する。 そこで本研究では, NVIDIA Ampere と Hopper GPU における最新の倍精度テンソルコア (DPTC) を TANQ-Sim で活用する密度行列シミュレーション手法を提案する。 私たちの知る限りでは、AI/ML以外のワークロードに対する倍精度テンソルコアの初めての応用です。 また,その性能を最適化するために,密度行列シミュレーションのための特定のゲート融合手法を提案する。 スケーリングでは,高度なGPU側通信ライブラリであるNVSHMEMを頼りに,通信効率向上のための効率的な最適化手法を提案する。 NERSC Perlmutterスーパーコンピュータの評価では、シミュレータの機能、性能、スケーラビリティが示されている。 また, テレポーテーション, 絡み込み蒸留, イジングシミュレーションなど, TANQ-Sim の実用性を示す3つのケーススタディを提案する。 TANQ-SimはGitHubでリリースされる。

Although there have been remarkable advances in quantum computing (QC), it remains crucial to simulate quantum programs using classical large-scale parallel computing systems to validate quantum algorithms, comprehend the impact of noise, and develop resilient quantum applications. This is particularly important for bridging the gap between near-term noisy-intermediate-scale-quantum (NISQ) computing and future fault-tolerant quantum computing (FTQC). Nevertheless, current simulation methods either lack the capability to simulate noise, or simulate with excessive computational costs, or do not scale out effectively. In this paper, we propose TANQ-Sim, a full-scale density matrix based simulator designed to simulate practical deep circuits with both coherent and non-coherent noise. To address the significant computational cost associated with such simulations, we propose a new density-matrix simulation approach that enables TANQ-Sim to leverage the latest double-precision tensorcores (DPTCs) in NVIDIA Ampere and Hopper GPUs. To the best of our knowledge, this is the first application of double-precision tensorcores for non-AI/ML workloads. To optimize performance, we also propose specific gate fusion techniques for density matrix simulation. For scaling, we rely on the advanced GPU-side communication library NVSHMEM and propose effective optimization methods for enhancing communication efficiency. Evaluations on the NERSC Perlmutter supercomputer demonstrate the functionality, performance, and scalability of the simulator. We also present three case studies to showcase the practical usage of TANQ-Sim, including teleportation, entanglement distillation, and Ising simulation. TANQ-Sim will be released on GitHub.
翻訳日:2024-04-23 20:08:39 公開日:2024-04-19
# 連続学習による全年齢グループにおけるロバストセグメンテーションの解錠

Unlocking Robust Segmentation Across All Age Groups via Continual Learning ( http://arxiv.org/abs/2404.13185v1 )

ライセンス: Link先を確認
Chih-Ying Liu, Jeya Maria Jose Valanarasu, Camila Gonzalez, Curtis Langlotz, Andrew Ng, Sergios Gatidis, (参考訳) 医用画像の深層学習モデルは、小児画像に不明瞭なパフォーマンスを持つ成人データに基づいて訓練されている。 本研究は,全身CT(Computerd Tomography)における解剖学的自動分割の文脈において,この問題に対処することを目的としている。 小児CTボリュームに適用した場合の成人データに基づいて訓練したCT臓器分割アルゴリズムの性能を評価し,年齢依存性の低パフォーマンスについて検討した。 その後、すべての年齢層でセグメンテーションの精度を高めるために、データ強化や継続学習アプローチを含む戦略を提案し、評価する。 連続学習を用いて学習したベストパフォーマンスモデルは,成人データと小児データの両方において高いセグメンテーション精度(それぞれ0.90と0.84)を達成する。

Most deep learning models in medical imaging are trained on adult data with unclear performance on pediatric images. In this work, we aim to address this challenge in the context of automated anatomy segmentation in whole-body Computed Tomography (CT). We evaluate the performance of CT organ segmentation algorithms trained on adult data when applied to pediatric CT volumes and identify substantial age-dependent underperformance. We subsequently propose and evaluate strategies, including data augmentation and continual learning approaches, to achieve good segmentation accuracy across all age groups. Our best-performing model, trained using continual learning, achieves high segmentation accuracy on both adult and pediatric data (Dice scores of 0.90 and 0.84 respectively).
翻訳日:2024-04-23 20:08:39 公開日:2024-04-19
# 量子アドバンテージとCSP複雑度

Quantum Advantage and CSP Complexity ( http://arxiv.org/abs/2404.13186v1 )

ライセンス: Link先を確認
Lorenzo Ciardo, (参考訳) 関係構造間の準同型によってモデル化された情報処理タスクは、エンタングルメントを計算資源として使用する場合、量子的優位性を見極めることができる。 量子優位性の発生は、CSPの多型恒等性を捉える同じタイプの代数構造(ミニオンと呼ばれる)によって決定され、したがってCSPの複雑性が決定される。 量子優位性のミニオンとCSPのトラクタビリティと幅を制御する他の既知のミニオンとの接続について検討する。 このようにして、CSPの代数的理論による複雑性結果を利用して、グラフの場合の量子優位性の発生を特徴づけ、任意の関係構造の場合の新しい必要十分条件を得る。

Information-processing tasks modelled by homomorphisms between relational structures can witness quantum advantage when entanglement is used as a computational resource. We prove that the occurrence of quantum advantage is determined by the same type of algebraic structure (known as a minion) that captures the polymorphism identities of CSPs and, thus, CSP complexity. We investigate the connection between the minion of quantum advantage and other known minions controlling CSP tractability and width. In this way, we make use of complexity results from the algebraic theory of CSPs to characterise the occurrence of quantum advantage in the case of graphs, and to obtain new necessary and sufficient conditions in the case of arbitrary relational structures.
翻訳日:2024-04-23 20:08:39 公開日:2024-04-19
# 臨界駆動キャビティマグノニクスにおける異常長距離コヒーレンス

Anomalous Long-Distance Coherence in Critically-Driven Cavity Magnonics ( http://arxiv.org/abs/2404.13190v1 )

ライセンス: Link先を確認
Ying Yang, Jiguang Yao, Yang Xiao, Pak-Tik Fong, Hoi-Kwan Lau, C. -M. Hu, (参考訳) 量子ネットワークの開発は、遠隔の強いカップリングを通じて、遠くのシステムをコヒーレントに接続する必要がある。 ここでは, 線形系で動作するキャビティマグノニクスにおいて, 長距離コヒーレンスを示す。 移動光子との臨界結合付近の空洞を局所的に設定することにより、非局所的なマグノン-光子コヒーレンスを2m距離の強い結合によって確立する。 この長距離コヒーレンスにおける2つの異常を観測し、まず、結合強度は従来の光子結合の2倍の周期で振動する。 どちらの効果も従来の結合モード理論では説明できないが、これは臨界駆動下の系における光子を媒介とするカップリングの氷山の一端を明らかにするものである。 我々の研究は、分散システムにおける長距離コヒーレンスを活用するために重要な現象を利用する可能性を示している。

Developing quantum networks necessitates coherently connecting distant systems via remote strong coupling. Here, we demonstrate long-distance coherence in cavity magnonics operating in the linear regime. By locally setting the cavity near critical coupling with travelling photons, non-local magnon-photon coherence is established via strong coupling over a 2-meter distance. We observe two anomalies in this long-distance coherence: first, the coupling strength oscillates twice the period of conventional photon-mediated couplings; second, clear mode splitting is observed within the cavity linewidth. Both effects cannot be explained by conventional coupled-mode theory, which reveal the tip of an iceberg of photon-mediated coupling in systems under critical driving. Our work shows the potential of using critical phenomena for harnessing long-distance coherence in distributed systems.
翻訳日:2024-04-23 19:58:55 公開日:2024-04-19
# フェイクニュース検出のための不均一なサブグラフ変換器

Heterogeneous Subgraph Transformer for Fake News Detection ( http://arxiv.org/abs/2404.13192v1 )

ライセンス: Link先を確認
Yuchen Zhang, Xiaoxiao Ma, Jia Wu, Jian Yang, Hao Fan, (参考訳) フェイクニュースはソーシャルメディアに広まり、大衆の言論や社会的幸福に多大な害を与えている。 本稿では,ニューストピック,エンティティ,コンテンツ間の関係に関する異質なグラフを構築することで,ニュース作品の明示的な構造情報とテキスト的特徴について検討する。 本研究により, ニュース要素間の係り受け関係をカプセル化した非定型的異種部分グラフを用いて, 偽ニュースを効果的に検出できることが明らかになった。 しかし、不均一性に悩まされ、そのような不均一な部分グラフを探索することは未解決の問題である。 このギャップを埋めるために、構築したヘテロジニアスグラフのサブグラフを利用するヘテロジニアスサブグラフ変換器(HeteroSGT)を提案する。 HeteroSGTでは、まず事前訓練された言語モデルを用いて単語レベルと文レベルのセマンティクスを導出する。 次に、リスタートによるランダムウォーク(RWR)を適用して各ニュースを中心としたサブグラフを抽出し、提案したサブグラフトランスフォーマーにさらに送信し、その真偽を定量化する。 5つの実世界のデータセットに対する大規模な実験は、HeteroSGTの5つのベースラインよりも優れたパフォーマンスを示している。 さらに、我々のモチベーションを検証し、パフォーマンス改善は、我々の特別に設計されたコンポーネントに由来することを実証する。

Fake news is pervasive on social media, inflicting substantial harm on public discourse and societal well-being. We investigate the explicit structural information and textual features of news pieces by constructing a heterogeneous graph concerning the relations among news topics, entities, and content. Through our study, we reveal that fake news can be effectively detected in terms of the atypical heterogeneous subgraphs centered on them, which encapsulate the essential semantics and intricate relations between news elements. However, suffering from the heterogeneity, exploring such heterogeneous subgraphs remains an open problem. To bridge the gap, this work proposes a heterogeneous subgraph transformer (HeteroSGT) to exploit subgraphs in our constructed heterogeneous graph. In HeteroSGT, we first employ a pre-trained language model to derive both word-level and sentence-level semantics. Then the random walk with restart (RWR) is applied to extract subgraphs centered on each news, which are further fed to our proposed subgraph Transformer to quantify the authenticity. Extensive experiments on five real-world datasets demonstrate the superior performance of HeteroSGT over five baselines. Further case and ablation studies validate our motivation and demonstrate that performance improvement stems from our specially designed components.
翻訳日:2024-04-23 19:58:55 公開日:2024-04-19
# データ拡張と機械学習によるプライバシ保護のデバイアス

Privacy-Preserving Debiasing using Data Augmentation and Machine Unlearning ( http://arxiv.org/abs/2404.13194v1 )

ライセンス: Link先を確認
Zhixin Pan, Emma Andrews, Laura Chang, Prabhat Mishra, (参考訳) データ拡張は、トレーニングデータセットにおけるデータのバイアスを軽減するために広く使用されている。 しかし、データ拡張は、メンバーシップ推論攻撃のようなプライバシ攻撃に機械学習モデルを公開する。 本稿では、既知の攻撃に対して証明可能な防御を提供しながら、データのバイアスを低減することができるデータ強化と機械学習の効果的な組み合わせを提案する。 具体的には、拡散に基づくデータ拡張によるトレーニングモデルの公正性を維持し、マルチシャードアンラーニングを使用して、MLモデルから元のデータの識別情報を削除し、プライバシ攻撃に対する保護を行う。 多様なデータセットに対する実験的評価は、我々のアプローチがバイアス低減の大幅な改善と、最先端のプライバシー攻撃に対する堅牢性を実現することを実証している。

Data augmentation is widely used to mitigate data bias in the training dataset. However, data augmentation exposes machine learning models to privacy attacks, such as membership inference attacks. In this paper, we propose an effective combination of data augmentation and machine unlearning, which can reduce data bias while providing a provable defense against known attacks. Specifically, we maintain the fairness of the trained model with diffusion-based data augmentation, and then utilize multi-shard unlearning to remove identifying information of original data from the ML model for protection against privacy attacks. Experimental evaluation across diverse datasets demonstrates that our approach can achieve significant improvements in bias reduction as well as robustness against state-of-the-art privacy attacks.
翻訳日:2024-04-23 19:58:55 公開日:2024-04-19
# ニューラルネットワークに基づくフレキシブルユーティリティ仕様付き経済的一貫性のある離散選択モデル

An economically-consistent discrete choice model with flexible utility specification based on artificial neural networks ( http://arxiv.org/abs/2404.13198v1 )

ライセンス: Link先を確認
Jose Ignacio Hernandez, Niek Mouter, Sander van Cranenburgh, (参考訳) ランダム効用最大化(RUM)モデルは、個別選択モデルの基礎の1つである。 しかし、RUMモデルの実用機能を特定することは簡単ではなく、結果として生じる解釈可能な成果や福祉対策に大きな影響を及ぼす。 本稿では,ANN(Alternative-Specific and Shared weights Neural Network (ASS-NN)) に基づく新たな個別選択モデルを提案する。 したがって、ASS-NNは、実用機能形式を明確に定義することなく、限界効用や支払い意欲のような経済的に一貫性のある結果をもたらすことができる。 モンテカルロ実験とSwissmetroデータセットの実証データを用いて、ASS-NNが(適合性の点で)従来のマルチノミアルロジット(MNL)モデルよりも優れていることを示す。 さらに、ASS-NNは、限界効用と対策の支払い意欲を導出するためにどのように使用されるかを示す。

Random utility maximisation (RUM) models are one of the cornerstones of discrete choice modelling. However, specifying the utility function of RUM models is not straightforward and has a considerable impact on the resulting interpretable outcomes and welfare measures. In this paper, we propose a new discrete choice model based on artificial neural networks (ANNs) named "Alternative-Specific and Shared weights Neural Network (ASS-NN)", which provides a further balance between flexible utility approximation from the data and consistency with two assumptions: RUM theory and fungibility of money (i.e., "one euro is one euro"). Therefore, the ASS-NN can derive economically-consistent outcomes, such as marginal utilities or willingness to pay, without explicitly specifying the utility functional form. Using a Monte Carlo experiment and empirical data from the Swissmetro dataset, we show that ASS-NN outperforms (in terms of goodness of fit) conventional multinomial logit (MNL) models under different utility specifications. Furthermore, we show how the ASS-NN is used to derive marginal utilities and willingness to pay measures.
翻訳日:2024-04-23 19:58:55 公開日:2024-04-19
# ダミーの格子手術

Lattice Surgery for Dummies ( http://arxiv.org/abs/2404.13202v1 )

ライセンス: Link先を確認
Avimita Chatterjee, Subrata Das, Swaroop Ghosh, (参考訳) 量子誤り訂正(QEC)は、ノイズの修正とフォールトトレラント量子コンピューティングへの道を開く上で重要な役割を果たす。 この分野は大幅に進歩し、新しい量子エラー訂正符号が頻繁に出現し、エラーに効果的に対処している。 これらのうち、トポロジ的符号、特に表面符号は、誤差の低いしきい値と大規模量子コンピュータの実装の可能性で際立っている。 しかし、これらの符号は1量子ビットの符号化に制限されている。 格子手術は、複数の符号化量子ビット間の相互作用や、表面コードの格子間の相互作用を可能にするために重要であり、その高度な誤り訂正機能は、運用上のオーバーヘッドを大幅に増大させることなく維持される。 格子手術は、より広範な量子系にまたがるQECCのスケーリングに重要である。 その重要な重要性にもかかわらず、格子の手術を理解することは、その固有の複雑さのために困難であり、複雑な量子物理学と数学的概念の深い理解を必要としている。 本論文は,格子手術のデミスティフィケーションを試み,量子物理学や数学の深い背景を持たない人にもアクセスできるようにする。 この研究は、表面符号を探索し、格子手術の基礎を導入し、量子ゲートの構築とマルチキュービット回路のエミュレートにその応用を実証する。

Quantum error correction (QEC) plays a crucial role in correcting noise and paving the way for fault-tolerant quantum computing. This field has seen significant advancements, with new quantum error correction codes emerging regularly to address errors effectively. Among these, topological codes, particularly surface codes, stand out for their low error thresholds and feasibility for implementation in large-scale quantum computers. However, these codes are restricted to encoding a single qubit. Lattice surgery is crucial for enabling interactions among multiple encoded qubits or between the lattices of a surface code, ensuring that its sophisticated error-correcting features are maintained without significantly increasing the operational overhead. Lattice surgery is pivotal for scaling QECCs across more extensive quantum systems. Despite its critical importance, comprehending lattice surgery is challenging due to its inherent complexity, demanding a deep understanding of intricate quantum physics and mathematical concepts. This paper endeavors to demystify lattice surgery, making it accessible to those without a profound background in quantum physics or mathematics. This work explores surface codes, introduces the basics of lattice surgery, and demonstrates its application in building quantum gates and emulating multi-qubit circuits.
翻訳日:2024-04-23 19:58:55 公開日:2024-04-19
# STaRK: テキストと関係知識に基づくLLM検索のベンチマーク

STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases ( http://arxiv.org/abs/2404.13207v1 )

ライセンス: Link先を確認
Shirley Wu, Shiyu Zhao, Michihiro Yasunaga, Kexin Huang, Kaidi Cao, Qian Huang, Vassilis N. Ioannidis, Karthik Subbian, James Zou, Jure Leskovec, (参考訳) 製品検索のような現実世界のユーザクエリに答えるには、構造化されていない(例:製品のテキスト記述)と構造化された(例:製品のエンティティ関係)情報の混在を含む、半構造化された知識ベースやデータベースから正確な情報を取得する必要があることが多い。 しかし、以前の研究は主にテキスト検索と関係検索を別のトピックとして研究してきた。 このギャップに対処するため,テキスト・リレーショナル・ナレッジ・ベース上での大規模半構造評価ベンチマークSTARKを開発した。 多様なリレーショナル情報と複雑なテキスト特性を融合した,自然および現実的なユーザクエリを合成する,新たなパイプラインを設計する。 さらに,製品レコメンデーション,学術論文検索,精密医療調査など,さまざまな実践的応用を網羅した,ベンチマークの品質評価を厳格に実施する。 本ベンチマークは,大規模言語モデル(LLM)による検索手法に着目し,検索システムの性能評価のための総合的なテストベッドとして機能する。 実験の結果,STARKデータセットは,現在の検索システムとLLMシステムに重大な課題を呈し,テキストとリレーショナルの両面を扱える,より有能な検索システムの構築の必要性が示唆された。

Answering real-world user queries, such as product search, often requires accurate retrieval of information from semi-structured knowledge bases or databases that involve blend of unstructured (e.g., textual descriptions of products) and structured (e.g., entity relations of products) information. However, previous works have mostly studied textual and relational retrieval tasks as separate topics. To address the gap, we develop STARK, a large-scale Semi-structure retrieval benchmark on Textual and Relational Knowledge Bases. We design a novel pipeline to synthesize natural and realistic user queries that integrate diverse relational information and complex textual properties, as well as their ground-truth answers. Moreover, we rigorously conduct human evaluation to validate the quality of our benchmark, which covers a variety of practical applications, including product recommendations, academic paper searches, and precision medicine inquiries. Our benchmark serves as a comprehensive testbed for evaluating the performance of retrieval systems, with an emphasis on retrieval approaches driven by large language models (LLMs). Our experiments suggest that the STARK datasets present significant challenges to the current retrieval and LLM systems, indicating the demand for building more capable retrieval systems that can handle both textual and relational aspects.
翻訳日:2024-04-23 19:58:55 公開日:2024-04-19
# 教育階層: 特権的指導を優先するLLMの訓練

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions ( http://arxiv.org/abs/2404.13208v1 )

ライセンス: Link先を確認
Eric Wallace, Kai Xiao, Reimar Leike, Lilian Weng, Johannes Heidecke, Alex Beutel, (参考訳) 今日のLLMは、インジェクション、ジェイルブレイク、その他の攻撃によって、敵が自身の悪意のあるプロンプトでモデルのオリジナルの命令を上書きできる可能性がある。 このような攻撃の根底にある主要な脆弱性の1つは、LLMがシステムプロンプト(例えば、アプリケーション開発者からのテキスト)を信頼できないユーザやサードパーティからのテキストと同じ優先順位であると考えることにある。 そこで本研究では,異なる優先度の命令が矛盾する場合に,モデルがどのように振る舞うかを明確に定義する命令階層を提案する。 そこで我々は,LLMに低特権な命令を選択的に無視するように教える,この階層的命令に従う動作を示すデータ生成手法を提案する。 この手法をGPT-3.5に適用すると、トレーニング中に見えない攻撃タイプに対してさえ、ロバスト性を大幅に向上すると同時に、標準機能に最小限の劣化を課すことが示される。

Today's LLMs are susceptible to prompt injections, jailbreaks, and other attacks that allow adversaries to overwrite a model's original instructions with their own malicious prompts. In this work, we argue that one of the primary vulnerabilities underlying these attacks is that LLMs often consider system prompts (e.g., text from an application developer) to be the same priority as text from untrusted users and third parties. To address this, we propose an instruction hierarchy that explicitly defines how models should behave when instructions of different priorities conflict. We then propose a data generation method to demonstrate this hierarchical instruction following behavior, which teaches LLMs to selectively ignore lower-privileged instructions. We apply this method to GPT-3.5, showing that it drastically increases robustness -- even for attack types not seen during training -- while imposing minimal degradations on standard capabilities.
翻訳日:2024-04-23 19:58:55 公開日:2024-04-19
# 集積フォトニクスシステムによるマイクロケルビン温度へのレーザー冷却$^{88}$Sr

Laser cooling $^{88}$Sr to microkelvin temperature with an integrated-photonics system ( http://arxiv.org/abs/2404.13210v1 )

ライセンス: Link先を確認
Andrew R. Ferdinand, Zheng Luo, Sindhu Jammi, Zachary Newman, Grisha Spektor, Okan Koksal, Parth B. Patel, Daniel Sheredy, William Lunden, Akash Rakholia, Travis C. Briles, Wenqi Zhu, Martin M. Boyd, Amit Agrawal, Scott B. Papp, (参考訳) マイクロケルビン温度における88ストロンチウム(^{88}$Sr)原子の磁気光学トラップ(MOT)を集積フォトニクスデバイスを用いて生成する実験について報告する。 溶融シリカ基板上に集積された準曲面光学を用いて,青色広帯域461nm,赤色狭帯域689nmの6ビーム,円偏光,反伝播MOTを生成した。 発振ビーム構成を用いて, トラップ位置で最大10mmのMOTビームを作製する。 冷却レーザの周波数安定化とライン幅狭化のために,ファイバパッケージ型集積非線形導波路を用いて周波数コムをスペクトル的に拡張する。 導波路の超コヒーレント超大陸は650nmから2500nmをカバーし、冷却レーザーの位相ロックをヘルツレベル線幅にできる。 我々の研究は、フォトニックデバイスを用いた光格子時計のための超低温88Srガスの調製を単純化する可能性を強調している。 我々はMOTレーザと四極磁場勾配のタイミングシーケンスを実装して、熱ビームから直接青いMOTに原子を回収し、動的デチューニングと強度制御を施した赤MOTに連続的に冷却する。 ここでは、赤MOT温度は2〜{\mu}$Kで、全体の転送効率は16%である。 我々は、変調デチューニングを備えた中間赤MOTを含む、このシーケンスを特徴付ける。 本実験では, アルカリガスをマイクロケルビン温度に冷却できる集積フォトニクスシステムについて, スケーラブルな光時計や量子センサに採用するのに十分な移動効率で実験を行った。

We report on experiments generating a magneto-optical trap (MOT) of 88-strontium ($^{88}$Sr) atoms at microkelvin temperature, using integrated-photonics devices. With metasurface optics integrated on a fused-silica substrate, we generate six-beam, circularly polarized, counter-propagating MOTs on the blue broad-line, 461 nm, and red narrow-line, 689 nm, Sr cooling transitions without bulk optics. By use of a diverging beam configuration, we create up to 10 mm diameter MOT beams at the trapping location. To frequency stabilize and linewidth narrow the cooling lasers, we use fiber-packaged, integrated nonlinear waveguides to spectrally broaden a frequency comb. The ultra-coherent supercontinuum of the waveguides covers 650 nm to 2500 nm, enabling phase locks of the cooling lasers to hertz level linewidth. Our work highlights the possibility to simplify the preparation of an ultracold 88Sr gas for an optical-lattice clock with photonic devices. By implementing a timing sequence for control of the MOT lasers and the quadrupole magnetic-field gradient, we collect atoms directly from a thermal beam into the blue MOT and continuously cool into a red MOT with dynamic detuning and intensity control. There, the red MOT temperature is as low as $2~{\mu}$K and the overall transfer efficiency up to 16%. We characterize this sequence, including an intermediate red MOT with modulated detuning. Our experiments demonstrate an integrated photonics system capable of cooling alkaline-earth gases to microkelvin temperature with sufficient transfer efficiencies for adoption in scalable optical clocks and quantum sensors.
翻訳日:2024-04-23 19:58:55 公開日:2024-04-19
# 非相反・非対称弾性キラルメタマテリアルの機械学習誘導設計

Machine Learning-Guided Design of Non-Reciprocal and Asymmetric Elastic Chiral Metamaterials ( http://arxiv.org/abs/2404.13215v1 )

ライセンス: Link先を確認
Lingxiao Yuan, Emma Lejeune, Harold S. Park, (参考訳) 機械のコミュニティにおいて、相互性に反する構造を設計したり、弾性非対称性や奇異な弾性性を示すことに対する重要な関心がある。 これらの性質は、機械的メタマテリアルが新しい波動伝播現象を発現させるのに非常に望ましいが、重要な非相反性と弾性非対称性の両方を示す受動的構造をどのように設計するかについては、未解決の疑問である。 本稿ではまず, 靭帯接触角, 靭帯形状, 円半径など, 特定の設計パラメータを利用するキラルなメタマテリアルの設計空間について述べる。 設計空間を定義した上で、機械学習アプローチ、特にベイズ最適化を活用し、最大非相互性あるいは剛性非対称性を満たす各設計空間内で最適に実行された設計を決定する。 最後に,パレート最適度を決定することで多目的最適化を行い,高い非相反性と剛性非対称性を示すキラルなメタマテリアルを求める。 この機構を解析したところ, 異なる方向の荷重下で複数の異なる接触状態を示すことができるキラルなメタマテリアルは, 高い非相反性と剛性非対称性の両方を同時に示すことができることがわかった。 本研究は,機械波エネルギーの誘導と誘導に特有の特性と機能を持つメタマテリアルの道を開くことを目的として,MLを応用して,事前情報に制限のある新しい領域に洞察をもたらす効果を実証する。

There has been significant recent interest in the mechanics community to design structures that can either violate reciprocity, or exhibit elastic asymmetry or odd elasticity. While these properties are highly desirable to enable mechanical metamaterials to exhibit novel wave propagation phenomena, it remains an open question as to how to design passive structures that exhibit both significant non-reciprocity and elastic asymmetry. In this paper, we first define several design spaces for chiral metamaterials leveraging specific design parameters, including the ligament contact angles, the ligament shape, and circle radius. Having defined the design spaces, we then leverage machine learning approaches, and specifically Bayesian optimization, to determine optimally performing designs within each design space satisfying maximal non-reciprocity or stiffness asymmetry. Finally, we perform multi-objective optimization by determining the Pareto optimum and find chiral metamaterials that simultaneously exhibit high non-reciprocity and stiffness asymmetry. Our analysis of the underlying mechanisms reveals that chiral metamaterials that can display multiple different contact states under loading in different directions are able to simultaneously exhibit both high non-reciprocity and stiffness asymmetry. Overall, this work demonstrates the effectiveness of employing ML to bring insights to a novel domain with limited prior information, and more generally will pave the way for metamaterials with unique properties and functionality in directing and guiding mechanical wave energy.
翻訳日:2024-04-23 19:58:55 公開日:2024-04-19
# 機械学習システムの温度について

On the Temperature of Machine Learning Systems ( http://arxiv.org/abs/2404.13218v1 )

ライセンス: Link先を確認
Dong Zhang, (参考訳) 機械学習(ML)システムのための熱力学理論を開発した。 エネルギーとエントロピーによって特徴づけられる物理的熱力学系と同様に、ML系もこれらの特性を持つ。 この比較は、温度の概念を熱力学の基本原理に基づくMLシステムに統合し、ボルツマン分布を持たない機械学習システムのための基本的な熱力学フレームワークを確立するきっかけとなった。 MLシステム内の状態の概念を導入し、2つの典型的な状態タイプを特定し、状態相転移の過程としてモデルトレーニングとリフレッシュを解釈する。 MLシステムの初期ポテンシャルエネルギーはモデルの損失関数によって記述され、エネルギーは最小ポテンシャルエネルギーの原理に従うと考えられる。 各種エネルギー形態およびパラメータ初期化法について,解析的および漸近的に相転移中の系の温度を導出し,システムデータ分布とMLトレーニングの複雑さの重要指標として温度を強調した。 さらに,各層における大域温度と局部温度の両方の複雑な熱機関として,ディープニューラルネットワークを知覚する。 作業効率の概念は、主に神経活性化関数に依存するニューラルネットワーク内で導入される。 次に、作業効率に基づいてニューラルネットワークを分類し、ニューラルネットワークを2種類のヒートエンジンとして記述する。

We develop a thermodynamic theory for machine learning (ML) systems. Similar to physical thermodynamic systems which are characterized by energy and entropy, ML systems possess these characteristics as well. This comparison inspire us to integrate the concept of temperature into ML systems grounded in the fundamental principles of thermodynamics, and establish a basic thermodynamic framework for machine learning systems with non-Boltzmann distributions. We introduce the concept of states within a ML system, identify two typical types of state, and interpret model training and refresh as a process of state phase transition. We consider that the initial potential energy of a ML system is described by the model's loss functions, and the energy adheres to the principle of minimum potential energy. For a variety of energy forms and parameter initialization methods, we derive the temperature of systems during the phase transition both analytically and asymptotically, highlighting temperature as a vital indicator of system data distribution and ML training complexity. Moreover, we perceive deep neural networks as complex heat engines with both global temperature and local temperatures in each layer. The concept of work efficiency is introduced within neural networks, which mainly depends on the neural activation functions. We then classify neural networks based on their work efficiency, and describe neural networks as two types of heat engines.
翻訳日:2024-04-23 19:58:55 公開日:2024-04-19
# 分極型オンラインパブリックスフィアにおけるバブルリーダーと非市民的談話

Bubble reachers and uncivil discourse in polarized online public sphere ( http://arxiv.org/abs/2404.13219v1 )

ライセンス: Link先を確認
Jordan K Kobellarz, Milos Brocic, Daniel Silver, Thiago H Silva, (参考訳) 初期の楽観主義は、ソーシャルメディアが民主的な言論を更新する可能性を見出した。 この楽観主義は、ソーシャルメディアが「フィルターバブル」または「エチョ・チェンバー」を特徴とするイデオロギー的ホモフィリーを生んだように思えるにつれて急速に衰えた。 断片化の感覚に対する典型的な反応は、より党派的な情報ソースへの露出を促すことである。 しかし、パルチザンの線を越えて行くアウトレットは、実際にはもっと市民の会話を生み出しているのだろうか? そして、そのような報道機関が主催する言論の市民性は、彼らが運営する政治状況によって異なるのか? これらの疑問に答えるために、我々は、ブラジルの最近の大統領選挙で、さまざまな政治的意見を持って他のユーザーにリーチするコンテンツを配布するバブルリーターと、政治文化にポピュリズムが深く根ざしているカナダを識別した。 このような背景から、バブルリーターが共有するコンテンツの特性、特にそれが生み出す会話やコメントの質について調査する。 我々は、イデオロギー的に中立なバブルリーターが、イデオロギー的にパルチザンのアカウントと、それらが引き起こす非市民的談話のレベルの違いについて検討し、これら2つの国の文脈でどのように異なるかを探る。 以上の結果から,イデオロギー的に中立なバブルリーチはカナダでは非公民的な言説を支持できないが,ブラジルでは逆の関係が成り立つことが示唆された。 イデオロギー的に中立なバブルリーチによる非政治的内容でさえ、ブラジルではかなりの量の非市民的談話が引き起こされている。 これは、バブルの到達と公民権が国家政治の文脈によって中和されていることを示している。 この結果は,中性バブルリーチの文脈における普遍的影響の単純な仮説を複雑にしている。

Early optimism saw possibilities for social media to renew democratic discourse, marked by hopes for individuals from diverse backgrounds to find opportunities to learn from and interact with others different from themselves. This optimism quickly waned as social media seemed to breed ideological homophily marked by "filter bubble" or "echo chambers." A typical response to the sense of fragmentation has been to encourage exposure to more cross-partisan sources of information. But do outlets that reach across partisan lines in fact generate more civil discourse? And does the civility of discourse hosted by such outlets vary depending on the political context in which they operate? To answer these questions, we identified bubble reachers, users who distribute content that reaches other users with diverse political opinions in recent presidential elections in Brazil, where populism has deep roots in the political culture, and Canada, where the political culture is comparatively moderate. Given that background, this research studies unexplored properties of content shared by bubble reachers, specifically the quality of conversations and comments it generates. We examine how ideologically neutral bubble reachers differ from ideologically partisan accounts in the level of uncivil discourse they provoke, and explore how this varies in the context of the two countries considered. Our results suggest that while ideologically neutral bubble reachers support less uncivil discourse in Canada, the opposite relationship holds in Brazil. Even non-political content by ideologically neutral bubble reachers elicits a considerable amount of uncivil discourse in Brazil. This indicates that bubble reaching and incivility are moderated by the national political context. Our results complicate the simple hypothesis of a universal impact of neutral bubble reachers across contexts.
翻訳日:2024-04-23 19:58:55 公開日:2024-04-19
# ランダム超平面テッセルレーションを用いた因果効果推定

Causal Effect Estimation Using Random Hyperplane Tessellations ( http://arxiv.org/abs/2404.10907v2 )

ライセンス: Link先を確認
Abhishek Dalvi, Neil Ashtekar, Vasant Honavar, (参考訳) マッチングは観測データから因果効果を推定する最も単純な手法の1つである。 マッチング手法は、類似の共変量を持つ対の個人間で観察された結果を比較し、因果効果を推定するために異なる治療状況を示す。 しかし、伝統的なマッチング技術は、次元性の悪名高い呪いのため、高次元の共変量を与えられない。 この課題を克服するため,Random Hyperplane Tessellations (RHPT) を用いた単純な高速かつ高効率なマッチング手法を提案する。 まず、RHPT表現が近似バランススコアであること、すなわち強い無知性の仮定を維持していることを証明し、この主張に対する実証的な証拠を提供する。 第2に、RHPTを用いたマッチングが従来のマッチング手法より優れており、因果効果推定のための最先端のディープラーニング手法と競合することを示す広範な実験結果について報告する。 さらに、RHPTはディープニューラルネットワークの計算コストの高いトレーニングを不要にしている。

Matching is one of the simplest approaches for estimating causal effects from observational data. Matching techniques compare the observed outcomes across pairs of individuals with similar covariate values but different treatment statuses in order to estimate causal effects. However, traditional matching techniques are unreliable given high-dimensional covariates due to the infamous curse of dimensionality. To overcome this challenge, we propose a simple, fast, yet highly effective approach to matching using Random Hyperplane Tessellations (RHPT). First, we prove that the RHPT representation is an approximate balancing score -- thus maintaining the strong ignorability assumption -- and provide empirical evidence for this claim. Second, we report results of extensive experiments showing that matching using RHPT outperforms traditional matching techniques and is competitive with state-of-the-art deep learning methods for causal effect estimation. In addition, RHPT avoids the need for computationally expensive training of deep neural networks.
翻訳日:2024-04-23 12:48:38 公開日:2024-04-19
# ドメイン特化ファインチューニングと反復推論によるQ&Aの促進:比較研究

Enhancing Q&A with Domain-Specific Fine-Tuning and Iterative Reasoning: A Comparative Study ( http://arxiv.org/abs/2404.11792v2 )

ライセンス: Link先を確認
Zooey Nguyen, Anthony Annunziata, Vinh Luong, Sang Dinh, Quynh Le, Anh Hai Ha, Chanh Le, Hong An Phan, Shruti Raghavan, Christopher Nguyen, (参考訳) 本稿では,大規模言語モデル (LLM) と検索拡張生成 (RAG) を用いた質問応答(Q&A) システムの性能に及ぼすドメイン固有モデル微調整と推論機構の影響について検討する。 FinanceBench SECのファイナンシャルファイリングデータセットを用いて、RAGでは、微調整の埋め込みモデルと微調整のLLMを組み合わせることで、汎用モデルよりも精度が向上し、微調整の埋め込みモデルに起因する利得が比較的大きいことが観察された。 さらに、RAGの上に推論イテレーションを採用することで、パフォーマンスがさらに大きく向上し、Q&Aシステムが人間の専門的な品質に近づくことができます。 本稿では,その意義を考察し,Q&AAIの主要な技術コンポーネントを抽出する構造化技術設計空間を提案する。 我々は、AIチームのための実行可能なガイドと、RAGにおけるドメイン固有の拡張の影響と、高度な計画や推論などのエージェントAI機能への影響に関するさらなる調査で、この作業を続行する予定です。

This paper investigates the impact of domain-specific model fine-tuning and of reasoning mechanisms on the performance of question-answering (Q&A) systems powered by large language models (LLMs) and Retrieval-Augmented Generation (RAG). Using the FinanceBench SEC financial filings dataset, we observe that, for RAG, combining a fine-tuned embedding model with a fine-tuned LLM achieves better accuracy than generic models, with relatively greater gains attributable to fine-tuned embedding models. Additionally, employing reasoning iterations on top of RAG delivers an even bigger jump in performance, enabling the Q&A systems to get closer to human-expert quality. We discuss the implications of such findings, propose a structured technical design space capturing major technical components of Q&A AI, and provide recommendations for making high-impact technical choices for such components. We plan to follow up on this work with actionable guides for AI teams and further investigations into the impact of domain-specific augmentation in RAG and into agentic AI capabilities such as advanced planning and reasoning.
翻訳日:2024-04-23 12:48:38 公開日:2024-04-19
# 大気汚染のアクティブモニタリングのためのベイズ最適化

Bayesian Optimisation for Active Monitoring of Air Pollution ( http://arxiv.org/abs/2202.07595v2 )

ライセンス: Link先を確認
Sigrid Passano Hellan, Christopher G. Lucas, Nigel H. Goddard, (参考訳) 大気汚染は世界の死亡率の主要な原因の1つであり、毎年数百万人が死亡している。 効果的なモニタリングは、露出を測定し、法的制限を強制するために重要である。 新しい低コストセンサーは、より多く、より多様な場所に展開することができ、効率的な自動配置の問題を動機付けている。 これまでの研究では、ベイズ最適化は適切な方法であるが、衛星データのみを考慮し、全高度でデータを収集したことが示唆された。 人間が呼吸するのは地上レベルの汚染であり、それが最も重要なのである。 我々は, 階層モデルを用いてこれらの結果を改善し, ロンドンにおける都市汚染データに基づくモデルの評価を行い, ベイジアン最適化が問題に適用可能であることを示す。

Air pollution is one of the leading causes of mortality globally, resulting in millions of deaths each year. Efficient monitoring is important to measure exposure and enforce legal limits. New low-cost sensors can be deployed in greater numbers and in more varied locations, motivating the problem of efficient automated placement. Previous work suggests Bayesian optimisation is an appropriate method, but only considered a satellite data set, with data aggregated over all altitudes. It is ground-level pollution, that humans breathe, which matters most. We improve on those results using hierarchical models and evaluate our models on urban pollution data in London to show that Bayesian optimisation can be successfully applied to the problem.
翻訳日:2024-04-22 20:46:02 公開日:2024-04-19
# エンドツーエンドビデオ学習におけるバッチ正規化の落とし穴について:外科的ワークフロー解析に関する研究

On the Pitfalls of Batch Normalization for End-to-End Video Learning: A Study on Surgical Workflow Analysis ( http://arxiv.org/abs/2203.07976v5 )

ライセンス: Link先を確認
Dominik Rivoir, Isabel Funke, Stefanie Speidel, (参考訳) バッチの他のサンプルに依存するバッチ正規化(BN)固有の性質は、シーケンスモデリングを含むいくつかのタスクで問題を引き起こすことが知られている。 しかし、BN関連の問題は、CNN(Convolutional Neural Networks)でBNをユビキタスに使用しているにもかかわらず、長いビデオ理解のためにはほとんど研究されていない。 特に外科的ワークフロー分析では、事前訓練された特徴抽出器の欠如が複雑で多段階の訓練パイプラインに繋がったため、BN問題に対する限られた認識は、CNNと時間モデルを終末まで訓練する利点を隠蔽していた可能性がある。 本稿では,ビデオ学習におけるBNの落とし穴を分析し,期待する「暖房」効果などのオンラインタスクに特有な課題を含む。 BNの特性がエンド・ツー・エンド・ラーニングの大きな障害となるのを観察する。 しかし、BNフリーのバックボーンを用いて、単純なCNN-LSTMでさえ、時間的文脈を最大化する適切なエンドツーエンドトレーニング戦略を利用することで、最先端の3つの手術ワークフローベンチマークを破る。 外科的作業において,BNの落とし穴に対する意識は,効果的なエンドツーエンド学習に不可欠である。 自然ビデオデータセットの結果を再現することで、私たちの洞察がビデオ学習の他の分野にも役立つことを願っています。 コードは: \url{https://gitlab.com/nct_tso_public/pitfalls_bn}

Batch Normalization's (BN) unique property of depending on other samples in a batch is known to cause problems in several tasks, including sequence modeling. Yet, BN-related issues are hardly studied for long video understanding, despite the ubiquitous use of BN in CNNs (Convolutional Neural Networks) for feature extraction. Especially in surgical workflow analysis, where the lack of pretrained feature extractors has led to complex, multi-stage training pipelines, limited awareness of BN issues may have hidden the benefits of training CNNs and temporal models end to end. In this paper, we analyze pitfalls of BN in video learning, including issues specific to online tasks such as a 'cheating' effect in anticipation. We observe that BN's properties create major obstacles for end-to-end learning. However, using BN-free backbones, even simple CNN-LSTMs beat the state of the art {\color{\colorrevtwo}on three surgical workflow benchmarks} by utilizing adequate end-to-end training strategies which maximize temporal context. We conclude that awareness of BN's pitfalls is crucial for effective end-to-end learning in surgical tasks. By reproducing results on natural-video datasets, we hope our insights will benefit other areas of video learning as well. Code is available at: \url{https://gitlab.com/nct_tso_public/pitfalls_bn}
翻訳日:2024-04-22 20:46:02 公開日:2024-04-19
# 顔認識のための特徴空間の識別に向けての統一負対生成

Unified Negative Pair Generation toward Well-discriminative Feature Space for Face Recognition ( http://arxiv.org/abs/2203.11593v2 )

ライセンス: Link先を確認
Junuk Jung, Seonhoon Lee, Heung-Seon Oh, Yongjun Park, Joochan Park, Sungbin Son, (参考訳) 顔認識(FR)の目標は、対の類似性最適化問題と見なされ、正の対に対して$\mathcal{S}^p$の類似性集合を最大化し、負の対に対して$\mathcal{S}^n$の類似性集合を最小化する。 理想的には、FRモデルは、$\inf{\mathcal{S}^p} > \sup{\mathcal{S}^n}$を満たすよく識別可能な特徴空間(WDFS)を形成することが期待される。 WDFSに関して、既存の深い特徴学習パラダイム(メートル法と分類の損失)は、異なるペア生成(PG)戦略の統一的な視点として表現できる。 残念ながら、メートル法損失(ML)では、最小バッチサイズが制限されているため、各イテレーションですべてのクラスを考慮に入れた負のペアを生成することは不可能である。 対照的に、分類損失(CL)では、クラス重みベクトルが中心に収束するため、非常に硬い負の対を生成することは困難である。 これにより、サンプル対と全ての負対の2つの類似性分布が一致しない。 そこで本稿では,2つのPG戦略(MLPGとCLPG)を統一的な視点から組み合わせ,ミスマッチを緩和する統一負対生成(UNPG)を提案する。 UNPGは、CLPG欠損を克服するためにMLPGを使用して負のペアに関する有用な情報を導入する。 さらに、ノイズ負対の類似性をフィルタリングして、信頼性の高い収束と性能の向上を保証する。 公的なベンチマークデータセット上での最近の損失関数にまたがる最先端性能を達成することにより、UNPGの優位性を示す。 私たちのコードと事前訓練されたモデルは公開されています。

The goal of face recognition (FR) can be viewed as a pair similarity optimization problem, maximizing a similarity set $\mathcal{S}^p$ over positive pairs, while minimizing similarity set $\mathcal{S}^n$ over negative pairs. Ideally, it is expected that FR models form a well-discriminative feature space (WDFS) that satisfies $\inf{\mathcal{S}^p} > \sup{\mathcal{S}^n}$. With regard to WDFS, the existing deep feature learning paradigms (i.e., metric and classification losses) can be expressed as a unified perspective on different pair generation (PG) strategies. Unfortunately, in the metric loss (ML), it is infeasible to generate negative pairs taking all classes into account in each iteration because of the limited mini-batch size. In contrast, in classification loss (CL), it is difficult to generate extremely hard negative pairs owing to the convergence of the class weight vectors to their center. This leads to a mismatch between the two similarity distributions of the sampled pairs and all negative pairs. Thus, this paper proposes a unified negative pair generation (UNPG) by combining two PG strategies (i.e., MLPG and CLPG) from a unified perspective to alleviate the mismatch. UNPG introduces useful information about negative pairs using MLPG to overcome the CLPG deficiency. Moreover, it includes filtering the similarities of noisy negative pairs to guarantee reliable convergence and improved performance. Exhaustive experiments show the superiority of UNPG by achieving state-of-the-art performance across recent loss functions on public benchmark datasets. Our code and pretrained models are publicly available.
翻訳日:2024-04-22 20:46:02 公開日:2024-04-19
# FedGiA: フェデレートラーニングのための効率的なハイブリッドアルゴリズム

FedGiA: An Efficient Hybrid Algorithm for Federated Learning ( http://arxiv.org/abs/2205.01438v6 )

ライセンス: Link先を確認
Shenglong Zhou, Geoffrey Ye Li, (参考訳) フェデレートラーニングは近年進歩を見せているが、アルゴリズムが通信資源を節約し、計算コストを削減し、それらが収束するかどうかなど、多くの課題に直面している。 これらの重要な問題に対処するために、勾配降下法と乗算器の不正確な交互方向法を組み合わせたハイブリッド・フェデレーション学習アルゴリズム(FedGiA)を提案する。 提案アルゴリズムは, 理論的・数値的に複数の最先端アルゴリズムよりも, 通信効率が高く, 計算効率が高い。 また、温和な条件下では世界中に分布する。

Federated learning has shown its advances recently but is still facing many challenges, such as how algorithms save communication resources and reduce computational costs, and whether they converge. To address these critical issues, we propose a hybrid federated learning algorithm (FedGiA) that combines the gradient descent and the inexact alternating direction method of multipliers. The proposed algorithm is more communication- and computation-efficient than several state-of-the-art algorithms theoretically and numerically. Moreover, it also converges globally under mild conditions.
翻訳日:2024-04-22 20:46:02 公開日:2024-04-19
# 不等式のない時間における量子テクスチュアリティ

Quantum Contextuality in Time without Inequality ( http://arxiv.org/abs/2206.02581v2 )

ライセンス: Link先を確認
Md Manirul Ali, Sovik Roy, (参考訳) ベル=コーヒェン=スペクターの定理は、非コンテキストの隠れ変数理論は量子力学の予測を完全に再現することはできないという定理である。 アシュエル・ペレスは、2つのスピン-1/2粒子の4次元ヒルベルト空間における量子的文脈性の驚くほど単純な証明を与えた。 ペレスの主張は、コチェンやスペクターよりもはるかに単純である。 ペレス文脈性(Peres contextuality)は、量子力学と非コンテキスト隠れ変数モデルの間の論理的矛盾を、ある量子観測可能な集合に非コンテキスト定値を割り当てるときに矛盾を示すことによって示している。 本研究では、ペレスの文脈性引数の時間バージョンを用いて、時間における量子的文脈性の証明を示す。 2つの異なる場所でのスピン測定の文脈におけるペレスの文脈性引数の2粒子版と類似して、時間分離によってコンテキストが提供される2つの異なる時間 t=t1 と t=t2 での単一粒子スピン測定を考える。 我々の結果は、現在の量子技術で実験的に検証できる。

Bell-Kochen-Specker theorem states that a non-contextual hidden-variable theory cannot completely reproduce the predictions of quantum mechanics. Asher Peres gave a remarkably simple proof of quantum contextuality in a four-dimensional Hilbert space of two spin-1/2 particles. Peres's argument is enormously simpler than that of Kochen and Specker. Peres contextuality demonstrates a logical contradiction between quantum mechanics and the noncontextual hidden variable models by showing an inconsistency when assigning noncontextual definite values to a certain set of quantum observables. In this work, we present a proof of quantum contextuality in time using the temporal version of Peres's contextuality argument. In analogy with the two-particle version of Peres's contextuality argument in the context of spin measurements at two different locations, we consider here single-particle spin measurements at two different times t=t1 and t=t2 where the context is provided through the time separation. Our results can be experimentally verified with the present quantum technology.
翻訳日:2024-04-22 20:46:02 公開日:2024-04-19
# EATFormer:進化的アルゴリズムにヒントを得た視覚変換器の改良

EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm ( http://arxiv.org/abs/2206.09325v2 )

ライセンス: Link先を確認
Jiangning Zhang, Xiangtai Li, Yabiao Wang, Chengjie Wang, Yibo Yang, Yong Liu, Dacheng Tao, (参考訳) 生物進化によって動機づけられた本論文は、実証された実用的な進化的アルゴリズム(EA)と類似して視覚変換器の合理性を説明し、両者が一貫した数学的定式化を持つことを導出する。 次に、有効なEA変異体にインスパイアされた新しいピラミッドEATFormerバックボーンを提案する。このブロックは、マルチスケール、インタラクティブ、個別の情報を個別にモデル化するために、3つの残留部分、すなわち \emph{Multi-Scale Region Aggregation} (MSRA)、 \emph{Global and Local Interaction} (GLI)、 \emph{Feed-Forward Network} (FFN) モジュールからなる。 さらに, トランスバータバックボーンとドッキングした \emph{Task-Related Head} (TRH) と, 不規則な位置を動的にモデル化する \emph{improve} a \emph{Modulated Deformable MSA} (MD-MSA) を設計する。 画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチがSOTA(State-Of-The-Art)法よりも優れていることを示す。 EATFormer-Tiny/Small/Base armed Mask-R-CNN get 45.4/47.4/49.0 box AP and 41.4/42.9/44.2 mask AP on COCO detection, compareding present MPViT-T, Swin-T, and Swin-S by 0.6/1.4/0.5 box AP and 0.4/1/0.9 mask AP with less FLs; EATFormer/Small/Base armed Mask-R-CNN get 45.4/47.4/49.0 box AP and 41.4.9/44.2 mask AP with FLs, EATFormer-Tiny/Small/Small/Base armed Mask-R-CNN get 45.4/47.4/49.0 box AP on COCOCOCO Detection, compared, compareding contemporary MPViT-T, Swin-T, and Swin-S by 0.6/1.4/0.5 box AP with 0.4/1/0 mask AP with less FLs. コードは \url{https://github.com/zhangzjn/EATFormer} で入手できる。

Motivated by biological evolution, this paper explains the rationality of Vision Transformer by analogy with the proven practical Evolutionary Algorithm (EA) and derives that both have consistent mathematical formulation. Then inspired by effective EA variants, we propose a novel pyramid EATFormer backbone that only contains the proposed \emph{EA-based Transformer} (EAT) block, which consists of three residual parts, i.e., \emph{Multi-Scale Region Aggregation} (MSRA), \emph{Global and Local Interaction} (GLI), and \emph{Feed-Forward Network} (FFN) modules, to model multi-scale, interactive, and individual information separately. Moreover, we design a \emph{Task-Related Head} (TRH) docked with transformer backbone to complete final information fusion more flexibly and \emph{improve} a \emph{Modulated Deformable MSA} (MD-MSA) to dynamically model irregular locations. Massive quantitative and quantitative experiments on image classification, downstream tasks, and explanatory experiments demonstrate the effectiveness and superiority of our approach over State-Of-The-Art (SOTA) methods. \Eg, our Mobile (1.8M), Tiny (6.1M), Small (24.3M), and Base (49.0M) models achieve 69.4, 78.4, 83.1, and 83.9 Top-1 only trained on ImageNet-1K with naive training recipe; EATFormer-Tiny/Small/Base armed Mask-R-CNN obtain 45.4/47.4/49.0 box AP and 41.4/42.9/44.2 mask AP on COCO detection, surpassing contemporary MPViT-T, Swin-T, and Swin-S by 0.6/1.4/0.5 box AP and 0.4/1.3/0.9 mask AP separately with less FLOPs; Our EATFormer-Small/Base achieve 47.3/49.3 mIoU on ADE20K by Upernet that exceeds Swin-T/S by 2.8/1.7. Code is available at \url{https://github.com/zhangzjn/EATFormer}.
翻訳日:2024-04-22 20:46:02 公開日:2024-04-19
# リンク予測におけるトポロジ的特徴の最大化

The maximum capability of a topological feature in link prediction ( http://arxiv.org/abs/2206.15101v3 )

ライセンス: Link先を確認
Yijun Ran, Xiao-Ke Xu, Tao Jia, (参考訳) ネットワークは、ペアワイズ相互作用の基盤となる集合を表現することによって、複雑なシステムをモデル化するための強力なアプローチを提供する。 リンク予測は、直接見えないネットワークのリンクを予測し、生物学的、社会的、その他の複雑なシステムに深く応用するタスクである。 このタスクにおけるトポロジ的特徴の集中的利用にもかかわらず、その特徴がどのようにして欠落したリンクを推測できるかは明らかでない。 本稿では,その予測性能を上限として,リンク予測におけるトポロジ的特徴の能力を明らかにすることを目的とする。 本稿では,特徴量を測定するための異なる指標と互換性のある理論的枠組み,特徴量を利用するための異なる予測手法,予測性能の定量化のための異なる指標を紹介する。 位相的特徴の最大能力は単純だが理論的に検証された式に従うが、これはその特徴が欠落したリンクや存在しないリンクで保持される範囲にのみ依存する。 同じ特徴に基づく指数の族は同じ上限を共有するため、他のすべての指数のポテンシャルは1つの指標から推定できる。 さらに、教師付き予測では、機能の能力が引き上げられ、数学的に定量化され、機械学習アルゴリズムを適用するメリットを見積もることができる。 発見されたパターンの普遍性は、構造的に多様な550のネットワークによって実証的に検証されている。 この発見は特徴と手法の選択に応用され、トポロジ的特徴をリンク予測に有効にするネットワーク特性に光を当てた。

Networks offer a powerful approach to modeling complex systems by representing the underlying set of pairwise interactions. Link prediction is the task that predicts links of a network that are not directly visible, with profound applications in biological, social, and other complex systems. Despite intensive utilization of the topological feature in this task, it is unclear to what extent a feature can be leveraged to infer missing links. Here, we aim to unveil the capability of a topological feature in link prediction by identifying its prediction performance upper bound. We introduce a theoretical framework that is compatible with different indexes to gauge the feature, different prediction approaches to utilize the feature, and different metrics to quantify the prediction performance. The maximum capability of a topological feature follows a simple yet theoretically validated expression, which only depends on the extent to which the feature is held in missing and nonexistent links. Because a family of indexes based on the same feature shares the same upper bound, the potential of all others can be estimated from one single index. Furthermore, a feature's capability is lifted in the supervised prediction, which can be mathematically quantified, allowing us to estimate the benefit of applying machine learning algorithms. The universality of the pattern uncovered is empirically verified by 550 structurally diverse networks. The findings have applications in feature and method selection, and shed light on network characteristics that make a topological feature effective in link prediction.
翻訳日:2024-04-22 20:46:02 公開日:2024-04-19
# 対話型質問回答システム:文献レビュー

Interactive Question Answering Systems: Literature Review ( http://arxiv.org/abs/2209.01621v3 )

ライセンス: Link先を確認
Giovanni Maria Biancofiore, Yashar Deldjoo, Tommaso Di Noia, Eugenio Di Sciascio, Fedelucio Narducci, (参考訳) 質問応答システムは,Web上の情報検索において,人気かつ頻繁な効果的な手段として認識されている。 このようなシステムでは,質問を自然言語で提示することで,質問に対する簡潔な応答を得られる。 対話型質問応答(Interactive Question answering)は、質問応答と対話システムの交差点に存在する、最近提案され、ますます人気が高まっているソリューションである。 一方、ユーザは通常の言語で質問をし、質問に対する実際の応答を見つけることができ、一方、最初の要求に複数の応答、非常に少ない応答、曖昧さがある場合、システムは質問応答セッションを対話に長引かせることができる。 ユーザがより多くの質問をできるようにすることで、インタラクティブな質問応答によって、ユーザはシステムと動的に対話し、より正確な結果を受け取ることができる。 本調査は,現在の文献で広く普及している対話型質問応答法の概要を概説する。 質問応答システムの基本的な原理を説明することから始まり、新しい表記法と分類法を定義し、統一された枠組みの中ですべての特定された著作を統合する。 次に,対話型質問応答システムに関するレビュー論文を提示し,提案手法,評価手法,データセット/アプリケーション領域の観点から検討した。 また、コミュニティが提起した特定の課題や課題に関する傾向についても述べ、学者の今後の関心を浮き彫りにしている。 私たちの作業は、この文献研究で取り上げられた主要なトピックをすべて合成したGitHubページによって、さらにサポートされています。 https://sisinflab.github.io/interactive-question-anwering-systems-survey/

Question answering systems are recognized as popular and frequently effective means of information seeking on the web. In such systems, information seekers can receive a concise response to their query by presenting their questions in natural language. Interactive question answering is a recently proposed and increasingly popular solution that resides at the intersection of question answering and dialogue systems. On the one hand, the user can ask questions in normal language and locate the actual response to her inquiry; on the other hand, the system can prolong the question-answering session into a dialogue if there are multiple probable replies, very few, or ambiguities in the initial request. By permitting the user to ask more questions, interactive question answering enables users to dynamically interact with the system and receive more precise results. This survey offers a detailed overview of the interactive question-answering methods that are prevalent in current literature. It begins by explaining the foundational principles of question-answering systems, hence defining new notations and taxonomies to combine all identified works inside a unified framework. The reviewed published work on interactive question-answering systems is then presented and examined in terms of its proposed methodology, evaluation approaches, and dataset/application domain. We also describe trends surrounding specific tasks and issues raised by the community, so shedding light on the future interests of scholars. Our work is further supported by a GitHub page with a synthesis of all the major topics covered in this literature study. https://sisinflab.github.io/interactive-question-answering-systems-survey/
翻訳日:2024-04-22 20:46:02 公開日:2024-04-19
# Bicoptor:プライバシ保護機械学習のための前処理なしで2ラウンドのセキュアな3次元非線形計算

Bicoptor: Two-round Secure Three-party Non-linear Computation without Preprocessing for Privacy-preserving Machine Learning ( http://arxiv.org/abs/2210.01988v4 )

ライセンス: Link先を確認
Lijing Zhou, Ziyu Wang, Hongrui Cui, Qingrui Song, Yu Yu, (参考訳) 非線形関数のオーバーヘッドは、セキュアなマルチパーティ計算(MPC)ベースのプライバシ保存機械学習(PPML)の性能を支配している。 本研究は,非線形関数の評価効率を向上させるセキュアな3要素計算(3PC)プロトコルであるBicoptorを新たに導入する。 Bicoptorの基盤は、SecureML(S\&P 2017)で提案されたトランケーションプロトコルの巧妙な使用に依存する、新しいサイン決定プロトコルである。 我々の3PC符号決定プロトコルは、通信ラウンドを2回しか必要とせず、前処理を一切含まない。 このような符号決定プロトコルはPPMLの非線形関数、例えばアクティベーション関数ReLU、Maxpool、およびそれらの変種を計算するのに適している。 我々は、GPUフレンドリなプロトコルであるBicoptorのファミリを形成する、これらの非線形関数に適したプロトコルを開発する。 すべてのBicoptorプロトコルは、前処理なしで2回の通信ラウンドしか必要としない。 パブリッククラウド上での3次元LANネットワーク下でのBicoptorの評価を行い,370,000 DRELU/ReLUまたは41,000 Maxpool(最大9入力値)演算を毎秒達成した。 同じ設定と環境下では、当社のReLUプロトコルは、それぞれバッチ処理なしで、最先端のFalcon(PETS 2021)とEdabits(CRYPTO 2020)に1~2桁の大幅な改善を施しています。

The overhead of non-linear functions dominates the performance of the secure multiparty computation (MPC) based privacy-preserving machine learning (PPML). This work introduces a family of novel secure three-party computation (3PC) protocols, Bicoptor, which improve the efficiency of evaluating non-linear functions. The basis of Bicoptor is a new sign determination protocol, which relies on a clever use of the truncation protocol proposed in SecureML (S\&P 2017). Our 3PC sign determination protocol only requires two communication rounds, and does not involve any preprocessing. Such sign determination protocol is well-suited for computing non-linear functions in PPML, e.g. the activation function ReLU, Maxpool, and their variants. We develop suitable protocols for these non-linear functions, which form a family of GPU-friendly protocols, Bicoptor. All Bicoptor protocols only require two communication rounds without preprocessing. We evaluate Bicoptor under a 3-party LAN network over a public cloud, and achieve more than 370,000 DReLU/ReLU or 41,000 Maxpool (find the maximum value of nine inputs) operations per second. Under the same settings and environment, our ReLU protocol has a one or even two orders of magnitude improvement to the state-of-the-art works, Falcon (PETS 2021) or Edabits (CRYPTO 2020), respectively without batch processing.
翻訳日:2024-04-22 20:46:02 公開日:2024-04-19
# 自動パーソナライズされた栄養の活用:栄養分類に基づく食品画像認識ベンチマークとデータセット

Leveraging Automatic Personalised Nutrition: Food Image Recognition Benchmark and Dataset based on Nutrition Taxonomy ( http://arxiv.org/abs/2211.07440v4 )

ライセンス: Link先を確認
Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Julian Fierrez, Ruben Vera-Rodriguez, Isabel Espinosa-Salinas, Gala Freixer, Enrique Carrillo de Santa Pau, Ana Ramírez de Molina, Javier Ortega-Garcia, (参考訳) 健康なライフスタイルを維持することは、食生活の質の悪さを特徴とする現在の摂食社会において、ますます困難になっている。 この問題に対処するため、国内および国際機関は、健康的な食事の促進と身体活動の向上に多くの努力を払ってきた。 しかしながら、これらのレコメンデーションを日常生活で実施することは、一般的には一般的なものであり、個人に適したものではないため困難である。 本研究は,食品画像と栄養分類を取り入れた初の栄養データベースであるAI4Food-NutritionDBデータベースを提案する。 このデータベースは、栄養レベル6、19の主カテゴリ(例:「肉」)、73のサブカテゴリ(例:「白肉」)、893の特定食品(例:「鶏肉」)からなる多段階の分類を提供している。 AI4Food-NutritionDBは、食品の摂取頻度、品質、分類の観点から、新しい食品コンピューティングアプローチへの扉を開く。 また、栄養分類に基づく3つのタスク(カテゴリー、サブカテゴリ、最終製品認識)を含む、標準化された試験的プロトコルとベンチマークを提示する。 これらのリソースは、AI4Food-NutritionDBでトレーニングされたディープラーニングモデルを含む、研究コミュニティで利用可能である。

Maintaining a healthy lifestyle has become increasingly challenging in today's sedentary society marked by poor eating habits. To address this issue, both national and international organisations have made numerous efforts to promote healthier diets and increased physical activity. However, implementing these recommendations in daily life can be difficult, as they are often generic and not tailored to individuals. This study presents the AI4Food-NutritionDB database, the first nutrition database that incorporates food images and a nutrition taxonomy based on recommendations by national and international health authorities. The database offers a multi-level categorisation, comprising 6 nutritional levels, 19 main categories (e.g., "Meat"), 73 subcategories (e.g., "White Meat"), and 893 specific food products (e.g., "Chicken"). The AI4Food-NutritionDB opens the doors to new food computing approaches in terms of food intake frequency, quality, and categorisation. Also, we present a standardised experimental protocol and benchmark including three tasks based on the nutrition taxonomy (i.e., category, subcategory, and final product recognition). These resources are available to the research community, including our deep learning models trained on AI4Food-NutritionDB, which can serve as pre-trained models, achieving accurate recognition results for challenging food image databases.
翻訳日:2024-04-22 20:46:02 公開日:2024-04-19
# 教師なし領域適応のための階層構造距離のモデル化

Modeling Hierarchical Structural Distance for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2211.11424v2 )

ライセンス: Link先を確認
Yingxue Xu, Guihua Wen, Yang Hu, Pei Yang, (参考訳) 非教師付きドメイン適応(UDA)は、ラベル付きソースデータを利用してラベル付きターゲットドメインの転送可能なモデルを推定することを目的としている。 最適輸送法(OT)に基づく手法は, 理論的基礎と競争性能が確固たるUDAにとって, 有望な解決策であることが最近証明された。 しかし、これらの手法の多くは、画像のグローバルな埋め込みに基づく領域不変の特徴に対してドメインの幾何学を活用することで、ドメインレベルのOTアライメントのみに焦点を当てている。 しかし、画像のグローバルな表現は画像構造を破壊し、カテゴリ識別情報を提供する局所的な詳細が失われる可能性がある。 本研究では、ドメイン間の階層構造関係をマイニングすることで、ドメイン不変量とカテゴリ識別表現の両方を学ぶことを目的とした、エンドツーエンドのDeep Hierarchical Optimal Transport法(DeepHOT)を提案する。 主なアイデアは、ドメインレベルのOTとイメージレベルのOTを統一されたOTフレームワーク、階層的最適輸送に組み込んで、ドメイン空間と画像空間の両方において基礎となる幾何学をモデル化することである。 DeepHOTフレームワークでは、画像レベルOTがドメインレベルOTの基底距離メートル法として機能し、階層構造距離に繋がる。 従来の領域レベルのOTに比べて、画像レベルのOTは、分類に有用な画像の局所領域間の構造的関連をキャプチャする。 このようにして、ドメインレベルのOTによってドメインを整列するだけでなく、画像レベルのOTを通じて識別力を高める、統合されたOTフレームワークであるDeepHOTが実現される。 さらに,高い計算複雑性の限界を克服するために,画像レベルでのワッサースタイン距離をスライスしたオリジナルOTを近似し,ミニバッチのアンバランスなドメインレベルOTを実現することにより,DeepHOTの堅牢かつ効率的な実装を提案する。

Unsupervised domain adaptation (UDA) aims to estimate a transferable model for unlabeled target domains by exploiting labeled source data. Optimal Transport (OT) based methods have recently been proven to be a promising solution for UDA with a solid theoretical foundation and competitive performance. However, most of these methods solely focus on domain-level OT alignment by leveraging the geometry of domains for domain-invariant features based on the global embeddings of images. However, global representations of images may destroy image structure, leading to the loss of local details that offer category-discriminative information. This study proposes an end-to-end Deep Hierarchical Optimal Transport method (DeepHOT), which aims to learn both domain-invariant and category-discriminative representations by mining hierarchical structural relations among domains. The main idea is to incorporate a domain-level OT and image-level OT into a unified OT framework, hierarchical optimal transport, to model the underlying geometry in both domain space and image space. In DeepHOT framework, an image-level OT serves as the ground distance metric for the domain-level OT, leading to the hierarchical structural distance. Compared with the ground distance of the conventional domain-level OT, the image-level OT captures structural associations among local regions of images that are beneficial to classification. In this way, DeepHOT, a unified OT framework, not only aligns domains by domain-level OT, but also enhances the discriminative power through image-level OT. Moreover, to overcome the limitation of high computational complexity, we propose a robust and efficient implementation of DeepHOT by approximating origin OT with sliced Wasserstein distance in image-level OT and accomplishing the mini-batch unbalanced domain-level OT.
翻訳日:2024-04-22 20:46:02 公開日:2024-04-19
# EUのガバナンスを変える - EBSIとGLASSによるデジタル統合

Transforming EU Governance: The Digital Integration through EBSI and GLASS ( http://arxiv.org/abs/2212.03218v3 )

ライセンス: Link先を確認
Dimitrios Kasimatis, William J Buchanan, Mwarwan Abubakar, Owen Lo, Christos Chrysoulas, Nikolaos Pitropakis, Pavlos Papadopoulos, Sarwar Sayeed, Marc Sel, (参考訳) 伝統的に、政府システムは、単純な識別子と紙ベースのプロセスを使用して、切断されたデータシステムを通じて市民のアイデンティティを管理し、デジタル信頼を制限し、市民にアイデンティティ認証文書を要求させた。 デジタル時代は、各市民のユニークなデジタル識別子へのシフトを提供し、学術記録やライセンスなどの個人文書へのアクセスを容易にするための「シチズンウォレット」を可能にし、デジタル署名によるセキュリティを強化した。 欧州委員会によるすべてのEU市民のためのデジタルウォレットのイニシアチブは、欧州ブロックチェーンサービスインフラ(EBSI)を活用して、モビリティと統合を改善することを目的としている。 本稿では,EBSI と GLASS プロジェクトがどのようにガバナンスを推進し,ID ドキュメントへのアクセスを合理化できるかを論じる。

Traditionally, government systems managed citizen identities through disconnected data systems, using simple identifiers and paper-based processes, limiting digital trust and requiring citizens to request identity verification documents. The digital era offers a shift towards unique digital identifiers for each citizen, enabling a 'citizen wallet' for easier access to personal documents like academic records and licences, with enhanced security through digital signatures. The European Commission's initiative for a digital wallet for every EU citizen aims to improve mobility and integration, leveraging the European Blockchain Services Infrastructure (EBSI) for harmonised citizen integration. This paper discusses how EBSI and the GLASS project can advance governance and streamline access to identity documents.
翻訳日:2024-04-22 20:46:02 公開日:2024-04-19
# メタラーニングによるデータ制限付きハイテイクドメインにおけるワンショットスキル評価

One-shot skill assessment in high-stakes domains with limited data via meta learning ( http://arxiv.org/abs/2301.00812v5 )

ライセンス: Link先を確認
Erim Yanik, Steven Schwaitzberg, Gene Yang, Xavier Intes, Jack Norfleet, Matthew Hackett, Suvranu De, (参考訳) 深層学習(DL)は,様々なハイテイク分野において,強靭な能力評価を達成している。 しかし、DLモデルの適用性はしばしば、そのデータ要求と特定の訓練領域への制限によって妨げられている。 これにより、データが不足している新しいタスクに移行することができない。 したがって、ドメイン適応は現実のシナリオにおいてDLを実践するための重要な要素として現れる。 本稿では,単発学習によるドメインに依存しないスキルアセスメントを実現するメタ学習モデルであるA-VBANetを紹介する。 腹腔鏡下・ロボットシミュレータと実生腹腔鏡下胆嚢摘出術を併用し,術式の評価を行った。 腹腔鏡下胆嚢摘出術では99.5%,小切片設定では99.9%,腹腔鏡下胆嚢摘出術では89.7%の順応が得られた。 本研究は,専門分野におけるスキルアセスメントのためのドメイン非依存手法の最初の事例であり,限られたデータを持つ多種多様な実生活ドメインを対象としたDLの広範な適用の先駆けとなる。

Deep Learning (DL) has achieved robust competency assessment in various high-stakes fields. However, the applicability of DL models is often hampered by their substantial data requirements and confinement to specific training domains. This prevents them from transitioning to new tasks where data is scarce. Therefore, domain adaptation emerges as a critical element for the practical implementation of DL in real-world scenarios. Herein, we introduce A-VBANet, a novel meta-learning model capable of delivering domain-agnostic skill assessment via one-shot learning. Our methodology has been tested by assessing surgical skills on five laparoscopic and robotic simulators and real-life laparoscopic cholecystectomy. Our model successfully adapted with accuracies up to 99.5% in one-shot and 99.9% in few-shot settings for simulated tasks and 89.7% for laparoscopic cholecystectomy. This study marks the first instance of a domain-agnostic methodology for skill assessment in critical fields setting a precedent for the broad application of DL across diverse real-life domains with limited data.
翻訳日:2024-04-22 20:46:02 公開日:2024-04-19
# オープン量子光マッター系における絡み合った時間-結晶相

Entangled time-crystal phase in an open quantum light-matter system ( http://arxiv.org/abs/2303.07725v3 )

ライセンス: Link先を確認
Robert Mattes, Igor Lesanovsky, Federico Carollo, (参考訳) 時間結晶は、系の状態が極限サイクルに動的に近づく非平衡多体相である。 これらのフェーズは近年、集中的な研究の焦点となっているが、量子相関をホストできるかどうかはまだ明らかになっていない。 実際、ほとんどの古典的相関はこれまでに観測されており、時間-結晶は実質的に古典的な高エントロピー相であるように見える。 ここでは、現在の実験で実現可能なオープン量子光マター系の非平衡挙動を考察し、光場の断熱除去後にパラダイム的時間-結晶モデルにマップする。 このシステムは、2階の位相遷移線が出発する三つの臨界点で終端する、共存する時間結晶および定常相の双安定状態を示す。 光と物質は静止相では相関しないが、時間-結晶相は量子的および古典的両方の二部相関を特徴とする。 我々の研究は、集合的オープン量子系における時間-結晶相は、絡み合いを含む量子相関を維持でき、したがって、事実上古典的な多体相以上のものとなることを明らかにしている。

Time-crystals are nonequilibrium many-body phases in which the state of the system dynamically approaches a limit cycle. While these phases are recently in the focus of intensive research, it is still far from clear whether they can host quantum correlations. In fact, mostly classical correlations have been observed so far and time-crystals appear to be effectively classical high-entropy phases. Here, we consider the nonequilibrium behavior of an open quantum light-matter system, realizable in current experiments, which maps onto a paradigmatic time-crystal model after an adiabatic elimination of the light field. The system displays a bistable regime, with coexistent time-crystal and stationary phases, terminating at a tricritical point from which a second-order phase transition line departs. While light and matter are uncorrelated in the stationary phase, the time-crystal phase features bipartite correlations, both of quantum and classical nature. Our work unveils that time-crystal phases in collective open quantum systems can sustain quantum correlations, including entanglement, and are thus more than effectively classical many-body phases.
翻訳日:2024-04-22 20:36:15 公開日:2024-04-19
# Inverse Cubature and Quadrature Kalman filters

Inverse Cubature and Quadrature Kalman filters ( http://arxiv.org/abs/2303.10322v2 )

ライセンス: Link先を確認
Himali Singh, Kumar Vijay Mishra, Arpan Chattopadhyay, (参考訳) 近年の認知レーダによる逆認知の研究は、認識レーダが学習したかもしれない情報を推測するために標的によって使用される逆確率フィルタの開発につながっている。 先行研究は、線形および非線形ガウス状態空間モデルに対して、逆カルマンフィルタ(I-KF)と逆拡張KF(I-EKF)をそれぞれ提案することで、この逆認知問題に対処した。 しかし実際には、多くの反逆的設定は高非線形システムモデルを含んでおり、EKFの線形化はしばしば失敗する。 本稿では,非線型性に対処する効率的な数値積分手法を検討するとともに,その目的を達成するために,逆立方体KF(I-CKF),逆立方体KF(I-QKF),逆立方体KF(I-CQKF)を開発する。 未知のシステムモデルの場合、再生カーネルヒルベルト空間(RKHS)ベースのCKFを開発する。 指数平均二乗有界感におけるフィルタの確率的安定性条件を導出し、フィルタの整合性を証明する。 数値実験により,I-CKF,I-QKF,I-CQKFの再帰的Clam\'{e}r-Rao下界をベンチマークとして評価した。

Recent research in inverse cognition with cognitive radar has led to the development of inverse stochastic filters that are employed by the target to infer the information the cognitive radar may have learned. Prior works addressed this inverse cognition problem by proposing inverse Kalman filter (I-KF) and inverse extended KF (I-EKF), respectively, for linear and non-linear Gaussian state-space models. However, in practice, many counter-adversarial settings involve highly non-linear system models, wherein EKF's linearization often fails. In this paper, we consider the efficient numerical integration techniques to address such non-linearities and, to this end, develop inverse cubature KF (I-CKF), inverse quadrature KF (I-QKF), and inverse cubature-quadrature KF (I-CQKF). For the unknown system model case, we develop reproducing kernel Hilbert space (RKHS)-based CKF. We derive the stochastic stability conditions for the proposed filters in the exponential-mean-squared-boundedness sense and prove the filters' consistency. Numerical experiments demonstrate the estimation accuracy of our I-CKF, I-QKF, and I-CQKF with the recursive Cram\'{e}r-Rao lower bound as a benchmark.
翻訳日:2024-04-22 20:36:15 公開日:2024-04-19
# ChatGPTは知識に乏しいが経験に乏しい解法:大規模言語モデルにおける常識問題の検討

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models ( http://arxiv.org/abs/2303.16421v3 )

ライセンス: Link先を確認
Ning Bian, Xianpei Han, Le Sun, Hongyu Lin, Yaojie Lu, Ben He, Shanshan Jiang, Bin Dong, (参考訳) 大規模言語モデル(LLM)はNLPに大きな進歩をもたらした。 しかし、コモンセンス知識を記憶し、表現し、活用する能力は、よく知られた問題点であった。 本稿では,広く利用されており,容易にアクセス可能なLLMであるChatGPTに着目し,次のような質問を行う。 2) ChatGPTは特定の質問に答える上でのコモンセンスの知識を意識しているか? (3)ChatGPTは常識に通じているか? (4) ChatGPTは、質問に対するコモンセンスを効果的に活用できるか? 本研究は,ChatGPTのコモンセンス能力を評価するために,11のデータセット上で一連の実験を行い,コモンセンス質問への回答,必要な知識の同定,知識記述の生成,知識記述の活用などを行った。 実験の結果,(1)ChatGPTは,特定のデータセットの領域で苦戦しながら,コモンセンスタスクにおいて良好なQAアキュラシーを達成できることがわかった。 2) ChatGPTは知識に富み,知識のプロンプトを用いてコモンセンス知識のほとんどを正確に生成することができる。 (3) 知識にもかかわらず、ChatGPTは未経験のコモンセンス問題解法であり、特定の質問に答えるために必要なコモンセンスを正確に識別することができない。 これらの知見は、ChatGPTのようなLLMにコモンセンスを効果的に組み込むための改善されたメカニズムを探求する必要性を提起する。

Large language models (LLMs) have made significant progress in NLP. However, their ability to memorize, represent, and leverage commonsense knowledge has been a well-known pain point. In this paper, we specifically focus on ChatGPT, a widely used and easily accessible LLM, and ask the following questions: (1) Can ChatGPT effectively answer commonsense questions? (2) Is ChatGPT aware of the underlying commonsense knowledge for answering a specific question? (3) Is ChatGPT knowledgeable in commonsense? (4) Can ChatGPT effectively leverage commonsense for answering questions? We conduct a series of experiments on 11 datasets to evaluate ChatGPT's commonsense abilities, including answering commonsense questions, identifying necessary knowledge, generating knowledge descriptions, and using knowledge descriptions to answer questions again. Experimental results show that: (1) ChatGPT can achieve good QA accuracies in commonsense tasks, while still struggling with certain domains of datasets. (2) ChatGPT is knowledgeable, and can accurately generate most of the commonsense knowledge using knowledge prompts. (3) Despite its knowledge, ChatGPT is an inexperienced commonsense problem solver, which cannot precisely identify the needed commonsense for answering a specific question. These findings raise the need to explore improved mechanisms for effectively incorporating commonsense into LLMs like ChatGPT, such as better instruction following and commonsense guidance.
翻訳日:2024-04-22 20:36:15 公開日:2024-04-19
# 等化オッドは等化個性オッドではない:グループと個性のための後処理

Equalised Odds is not Equal Individual Odds: Post-processing for Group and Individual Fairness ( http://arxiv.org/abs/2304.09779v3 )

ライセンス: Link先を確認
Edward A. Small, Kacper Sokol, Daniel Manning, Flora D. Salim, Jeffrey Chan, (参考訳) グループフェアネスは、保護されたサブ人口間の予測分布を等しくすることで達成される。 しかし、これらの2つの目的は、不連続確率関数によってスコアモデルが校正されるときに相容れない。 この手順は、異なる分類の確率を持つ同じ保護グループの2つの類似した個人を提供する可能性がある。 それぞれの保護されたサブ人口にユニークな確率を割り当てることで、あるサブ人口のメンバーが別の集団に同じ確率でポジティブな結果をもたらすことも防げる。 それらのリプシッツ定数によって制約される群しきい値間で連続確率関数を構築することにより、これら全てを整合化する。 提案手法は,グループフェアネスを確保しつつ,モデルの予測力,個人フェアネス,ロバストネスを維持できる。

Group fairness is achieved by equalising prediction distributions between protected sub-populations; individual fairness requires treating similar individuals alike. These two objectives, however, are incompatible when a scoring model is calibrated through discontinuous probability functions, where individuals can be randomly assigned an outcome determined by a fixed probability. This procedure may provide two similar individuals from the same protected group with classification odds that are disparately different -- a clear violation of individual fairness. Assigning unique odds to each protected sub-population may also prevent members of one sub-population from ever receiving equal chances of a positive outcome to another, which we argue is another type of unfairness called individual odds. We reconcile all this by constructing continuous probability functions between group thresholds that are constrained by their Lipschitz constant. Our solution preserves the model's predictive power, individual fairness and robustness while ensuring group fairness.
翻訳日:2024-04-22 20:36:15 公開日:2024-04-19
# ウイルス感染症と細菌感染症の鑑別 : 血液検査値に基づく機械学習モデル

Differentiating Viral and Bacterial Infections: A Machine Learning Model Based on Routine Blood Test Values ( http://arxiv.org/abs/2305.07877v2 )

ライセンス: Link先を確認
Gregor Gunčar, Matjaž Kukar, Tim Smole, Sašo Moškon, Tomaž Vovko, Simon Podnar, Peter Černelč, Miran Brvar, Mateja Notar, Manca Köster, Marjeta Tušek Jelenc, Marko Notar, (参考訳) 抗生物質耐性の脅威の増大は、適切な抗生物質投与のために細菌とウイルスの感染を正確に区別する必要がある。 本研究では,C-reactive protein concentration (CRP),biological sex, and ageを用いて,これらの感染型を識別するために,ウイルス対細菌機械学習モデルを開発した。 1つの医療センターからの44,120件のデータセットで、精度は82.2 %、感度は79.7 %、特異度は84.5 %、ブライアスコアは0.129、ROC曲線(AUC) 0.905の領域はCRPベースの決定規則より優れていた。 特に、機械学習モデルは、CRPのみの情報が少ない10~40mg/Lの範囲での精度を高めた。 これらの結果は、診断に複数の血液パラメータを統合する利点を浮き彫りにした。 Virus vs.bacteriuma"モデルは、機械学習を活用して感染管理を最適化し、高度な診断ツールの道を開く。

The growing threat of antibiotic resistance necessitates accurate differentiation between bacterial and viral infections for proper antibiotic administration. In this study, a Virus vs. Bacteria machine learning model was developed to distinguish between these infection types using 16 routine blood test results, C-reactive protein concentration (CRP), biological sex, and age. With a dataset of 44,120 cases from a single medical center, the model achieved an accuracy of 82.2 %, a sensitivity of 79.7 %, a specificity of 84.5 %, a Brier score of 0.129, and an area under the ROC curve (AUC) of 0.905, outperforming a CRP-based decision rule. Notably, the machine learning model enhanced accuracy within the CRP range of 10-40 mg/L, a range where CRP alone is less informative. These results highlight the advantage of integrating multiple blood parameters in diagnostics. The "Virus vs. Bacteria" model paves the way for advanced diagnostic tools, leveraging machine learning to optimize infection management.
翻訳日:2024-04-22 20:36:15 公開日:2024-04-19
# セマンティック脳MRI合成のための条件拡散モデル

Conditional Diffusion Models for Semantic 3D Brain MRI Synthesis ( http://arxiv.org/abs/2305.18453v5 )

ライセンス: Link先を確認
Zolnamar Dorjsembe, Hsing-Kuo Pao, Sodtavilan Odonchimed, Furen Xiao, (参考訳) 医療、特に医療画像における人工知能(AI)は、データの不足とプライバシー上の懸念のために課題に直面している。 Med-DDPMは3次元意味脳MRI合成のための拡散モデルである。 このモデルはセマンティック・コンディショニングを統合することでデータ不足とプライバシーの問題に効果的に取り組む。 これには、条件付け画像とモデル入力とのチャネルワイズ結合が含まれ、画像生成の制御を可能にする。 Med-DDPMは既存の3次元脳画像合成法に比べて安定性と性能が優れている。 視覚的忠実度の高い多種多様な解剖学的コヒーレントな画像を生成する。 腫瘍セグメンテーションタスクにおけるダイススコアの精度に関して、Med-DDPMは、実際の画像の0.6531精度に近い0.6207を達成し、ベースラインモデルを上回っている。 実画像と組み合わせることで、セグメント化精度をさらに0.6675に向上させ、提案手法の有効性を示す。 このモデルは、3Dセマンティック脳MRI合成における拡散モデルの最初の使用であり、高品質な画像を生成する。 そのセマンティックコンディショニング機能は、バイオメディカルイメージング、データとプライバシの問題に対処する際の画像匿名化の可能性も示している。 私たちは、再現性をサポートするために、GitHubリポジトリ(https://github.com/mobaidoctor/med-ddpm/)にMed-DDPMのコードとモデルウェイトを提供します。

Artificial intelligence (AI) in healthcare, especially in medical imaging, faces challenges due to data scarcity and privacy concerns. Addressing these, we introduce Med-DDPM, a diffusion model designed for 3D semantic brain MRI synthesis. This model effectively tackles data scarcity and privacy issues by integrating semantic conditioning. This involves the channel-wise concatenation of a conditioning image to the model input, enabling control in image generation. Med-DDPM demonstrates superior stability and performance compared to existing 3D brain imaging synthesis methods. It generates diverse, anatomically coherent images with high visual fidelity. In terms of dice score accuracy in the tumor segmentation task, Med-DDPM achieves 0.6207, close to the 0.6531 accuracy of real images, and outperforms baseline models. Combined with real images, it further increases segmentation accuracy to 0.6675, showing the potential of our proposed method for data augmentation. This model represents the first use of a diffusion model in 3D semantic brain MRI synthesis, producing high-quality images. Its semantic conditioning feature also shows potential for image anonymization in biomedical imaging, addressing data and privacy issues. We provide the code and model weights for Med-DDPM on our GitHub repository (https://github.com/mobaidoctor/med-ddpm/) to support reproducibility.
翻訳日:2024-04-22 20:36:15 公開日:2024-04-19
# ポストセレクションバリアのない原子ガスの多体ダイナミクス

Many-body Dynamics in Monitored Atomic Gases Without Post-Selection Barrier ( http://arxiv.org/abs/2306.00841v4 )

ライセンス: Link先を確認
Gianluca Passarelli, Xhek Turkeshi, Angelo Russomanno, Procolo Lucignano, Marco Schirò, Rosario Fazio, (参考訳) レーザー場によって駆動される原子の観察されたアンサンブルの性質と集団崩壊の存在について検討した。 原子雲を記述する量子軌道の性質は、監視プロトコルに大きく依存しており、平均密度行列とは大きく異なる。 外部駆動の強度を変化させることで、測定誘起相転移は、システムサイズに比例してエンタングルメントエントロピースケーリングを有する2つの相を分離する。 なお、臨界点は軌道平均動力学の超輝度遷移と一致する。 我々の装置は現在の光物質相互作用デバイスで実装可能であり、特に、監視されたダイナミクスは、不完全なモニタリングの場合であっても、選択後の測定問題から解放される。

We study the properties of a monitored ensemble of atoms driven by a laser field and in the presence of collective decay. The properties of the quantum trajectories describing the atomic cloud drastically depend on the monitoring protocol and are distinct from those of the average density matrix. By varying the strength of the external drive, a measurement-induced phase transition occurs separating two phases with entanglement entropy scaling sub-extensively with the system size. Incidentally, the critical point coincides with the superradiance transition of the trajectory-averaged dynamics. Our setup is implementable in current light-matter interaction devices, and most notably, the monitored dynamics is free from the post-selection measurement problem, even in the case of imperfect monitoring.
翻訳日:2024-04-22 20:36:15 公開日:2024-04-19
# YBa$_2$Cu$_3$O$_x$の超伝導を記述するフォノン軟化を持つd波エリアシュバーグ理論

d-wave Eliashberg theory with phonon softening describes superconductivity in YBa$_2$Cu$_3$O$_x$ ( http://arxiv.org/abs/2306.05763v2 )

ライセンス: Link先を確認
Cunyuan Jiang, Giovanni A. Ummarino, Matteo Baggioli, Efthymios Liarokapis, Alessio Zaccone, (参考訳) 本研究では,YBa$_2$Cu$_3$O$_x$の酸素ドーピング関数として,平面内酸素運動に伴うラマンモードの軟化実験と超伝導臨界温度$T_c$との強い相関関係を,d波エリアシュベルグ理論に基づいて数学的に記述する。 理論モデルは、ソフトオプティカル$A_g$(平面内)酸素モード、酸素ドーピングレベル$x$、超伝導$T_c$の物理的傾向を直接リンクする。 T_c$対ドーピングの傾向で観測される異なる規則は、ラマンスペクトルにおける光フォノン軟化の対応する規則と関連付けられる。 これらの結果は、希土類銅酸化物における高温超伝導の物理的起源と電子-フォノンカップリングの重要な役割に関するさらなる証拠を与える。

We provide a mathematical description, based on d-wave Eliashberg theory, of the strong correlation between the experimentally observed softening of Raman modes associated with in-plane oxygen motions and the corresponding superconducting critical temperature $T_c$, as a function of oxygen doping $x$, in YBa$_2$Cu$_3$O$_x$. The theoretical model provides a direct link between physical trends of soft optical $A_g$ (in-plane) oxygen modes, the level of oxygen doping $x$, and the superconducting $T_c$. Different regimes observed in the trend of $T_c$ vs doping can be related to corresponding regimes of optical phonon softening in the Raman spectra. These results provide further evidence related to the physical origin of high-temperature superconductivity in rare-earth cuprate oxides and to the significant role of electron-phonon coupling therein.
翻訳日:2024-04-22 20:36:15 公開日:2024-04-19
# 現実世界シナリオにおけるディープニューラルネットワークの効果的なバックドアアタック

Efficient Backdoor Attacks for Deep Neural Networks in Real-world Scenarios ( http://arxiv.org/abs/2306.08386v2 )

ライセンス: Link先を確認
Ziqiang Li, Hong Sun, Pengfei Xia, Heng Li, Beihao Xia, Yi Wu, Bin Li, (参考訳) 最近のディープニューラルネットワーク(DNN)は、大量のトレーニングデータに依存しており、悪意のある攻撃者がデータを悪用して汚染し、バックドア攻撃を行う機会となっている。 しかし、既存のバックドア攻撃手法は、すべてのトレーニングデータが単一のソースから来ていることと、攻撃者がトレーニングデータに完全にアクセスできることを前提として、非現実的な仮定を行う。 本稿では、被害者が複数の情報源からデータを収集し、攻撃者が完全な訓練データにアクセスできないような、より現実的な攻撃シナリオを提案する。 我々は、このシナリオをデータ制約されたバックドア攻撃と呼んでいる。 このような場合、従来の攻撃方法は、バックドア注入時の良性特徴と中毒性特徴との絡み合いにより、深刻な効率劣化に悩まされる。 この問題に対処するために、クリーンな特徴抑圧とポゾン機能増強という、2つの異なるストリームからCLIPベースの3つの技術を紹介します。 その結果、データ制約のあるシナリオにおける既存の攻撃と比較して、いくつかの設定で100%以上の改善が達成された。 コードはhttps://github.com/sunh1113/Efficient-backdoor- attacks-for-deep-neural-networks-in-real-world-scenariosで公開されている。

Recent deep neural networks (DNNs) have came to rely on vast amounts of training data, providing an opportunity for malicious attackers to exploit and contaminate the data to carry out backdoor attacks. However, existing backdoor attack methods make unrealistic assumptions, assuming that all training data comes from a single source and that attackers have full access to the training data. In this paper, we introduce a more realistic attack scenario where victims collect data from multiple sources, and attackers cannot access the complete training data. We refer to this scenario as data-constrained backdoor attacks. In such cases, previous attack methods suffer from severe efficiency degradation due to the entanglement between benign and poisoning features during the backdoor injection process. To tackle this problem, we introduce three CLIP-based technologies from two distinct streams: Clean Feature Suppression and Poisoning Feature Augmentation.effective solution for data-constrained backdoor attacks. The results demonstrate remarkable improvements, with some settings achieving over 100% improvement compared to existing attacks in data-constrained scenarios. Code is available at https://github.com/sunh1113/Efficient-backdoor-attacks-for-deep-neural-networks-in-real-world-scenar ios
翻訳日:2024-04-22 20:36:15 公開日:2024-04-19
# ニューラルネットによる複数パーソンポーズ推定の協調的回帰と関連性

Joint Coordinate Regression and Association For Multi-Person Pose Estimation, A Pure Neural Network Approach ( http://arxiv.org/abs/2307.01004v2 )

ライセンス: Link先を確認
Dongyang Yu, Yunshi Xie, Wangpeng An, Li Zhang, Yufeng Yao, (参考訳) 本稿では,JCRA(Joint Coordinate Regression and Association)と呼ばれる,1段階から2Dのポーズ推定アルゴリズムを提案する。 提案アルゴリズムは高速,高精度,有効,シンプルである。 ワンステージのエンドツーエンドネットワークアーキテクチャは、JCRAの推論速度を大幅に改善する。 一方、エンコーダとデコーダの両方の対称ネットワーク構造を考案し、キーポイントの同定に高い精度を確保した。 これは、トランスネットワークを介して部分位置を直接出力するアーキテクチャに従っており、結果としてパフォーマンスが大幅に向上する。 MS COCOとCrowdPoseベンチマークの大規模な実験により、JCRAは精度と効率の両方において最先端のアプローチよりも優れていることが示された。 さらに、JCRAは69.2 mAPを示し、従来の最先端ボトムアップアルゴリズムよりも78倍高速である。 このアルゴリズムのコードは公開されます。

We introduce a novel one-stage end-to-end multi-person 2D pose estimation algorithm, known as Joint Coordinate Regression and Association (JCRA), that produces human pose joints and associations without requiring any post-processing. The proposed algorithm is fast, accurate, effective, and simple. The one-stage end-to-end network architecture significantly improves the inference speed of JCRA. Meanwhile, we devised a symmetric network structure for both the encoder and decoder, which ensures high accuracy in identifying keypoints. It follows an architecture that directly outputs part positions via a transformer network, resulting in a significant improvement in performance. Extensive experiments on the MS COCO and CrowdPose benchmarks demonstrate that JCRA outperforms state-of-the-art approaches in both accuracy and efficiency. Moreover, JCRA demonstrates 69.2 mAP and is 78\% faster at inference acceleration than previous state-of-the-art bottom-up algorithms. The code for this algorithm will be publicly available.
翻訳日:2024-04-22 20:36:15 公開日:2024-04-19
# 科学ラテン語のテキストを人工知能に翻訳する:オイラーと同時代の著作

Translating scientific Latin texts with artificial intelligence: the works of Euler and contemporaries ( http://arxiv.org/abs/2307.07520v2 )

ライセンス: Link先を確認
Sylvio R. Bistafa, (参考訳) 初期の科学文献の研究における大きな障害は、ラテン語の現代語への翻訳が可能であることである。 これは、約850の写本を著し、1000通の手紙を書き、さらに2千通の手紙を受け取ったオイラーの作品に特に当てはまる。 これら多くの写本、本、手紙の翻訳は、過去2世紀にわたって様々な文献で出版されてきたが、まだ多くは登場していない。 幸運なことに、現在、人工知能(AI)翻訳は、膨大な数のテキストを翻訳する難題を回避するために使用することができる。 このツールを検証するために、Google TranslateとChatGPTという2つの人気のあるAI翻訳アルゴリズムのパフォーマンスを比較するためのベンチマークテストが実施されている。 1739年にヨハン・ベルヌーイ(Johann Bernoulli)からオイラー(Euler)に宛てた手紙の抜粋を翻訳し、オイラーを彼の写本『Hydraulica』の第1部として送ることを発表した。 全体的に比較すると、ChatGPTはベンチマークテストだけでなく、このレターの翻訳でもGoogle Translateより優れていることが示され、ChatGPTの翻訳ツールとしての優位性が強調され、一般的なラテン文字の実践者だけでなく、特殊なラテン文字の翻訳者にとっても有益であることが証明された。

The major hindrance in the study of earlier scientific literature is the availability of Latin translations into modern languages. This is particular true for the works of Euler who authored about 850 manuscripts and wrote a thousand letters and received back almost two thousand more. The translation of many of these manuscripts, books and letters have been published in various sources over the last two centuries, but many more have not yet appeared. Fortunately, nowadays, artificial intelligence (AI) translation can be used to circumvent the challenges of translating such substantial number of texts. To validate this tool, benchmark tests have been performed to compare the performance of two popular AI translating algorithms, namely Google Translate and ChatGPT. Additional tests were accomplished in translating an excerpt of a 1739 letter from Johann Bernoulli to Euler, where he announces that he was sending Euler the first part of his manuscript Hydraulica. Overall, the comparative results show that ChatGPT performed better that Google Translate not only in the benchmark tests but also in the translation of this letter, highlighting the superiority of ChatGPT as a translation tool, catering not only to general Latin practitioners but also proving beneficial for specialized Latin translators.
翻訳日:2024-04-22 20:26:30 公開日:2024-04-19
# 構成可能な原子鎖との可変原子空洞相互作用

Tunable atom-cavity interactions with configurable atomic chains ( http://arxiv.org/abs/2308.07908v2 )

ライセンス: Link先を確認
Xinwei Li, Yijia Zhou, Hao Zhang, (参考訳) 本研究では,2つの逆伝搬移動モードからなるリングキャビティに異なる空間構造を持つ原子鎖について検討した。 本稿では, 原子鎖の構造因子による集団原子光散乱効果について述べるとともに, 原子と空洞との相互作用が構造因子によって制御されていることを示す。 注目すべきは、原子間隔が半波長の整数倍であるときに空洞ダークモードが出現することである。 この定常波ダークモードのノードは原子位置と正確に一致し、自由空間散乱を伴わないキャビティ内場変換を可能にする。 原子鎖の構成を調整することで、可変光子ルーティングと、ほとんど光子損失のない大きな光位相シフトを実現し、光量子工学のための汎用的なビルディングブロックを実装することができる。

We investigate atomic chains with different spatial configurations coupled to a ring cavity comprising two counterpropagating traveling modes. We describe the collective atom-light scattering effect with a structure factor of the atomic chain and demonstrate that the interactions between the atoms and the cavity are controlled by the structure factor, resulting in distinctly different collective excitation modes and energy spectrum than for Fabry-P\'erot cavities. Remarkably, we observe that a cavity dark mode emerges when the atomic spacings are integer multiples of the half-wavelength. The nodes of this standing-wave dark mode align precisely with the atomic positions, enabling intracavity field conversion without free-space scattering. By adjusting the configuration of the atomic chain, we realize tunable photon routing and a large optical phase shift with almost no photon loss, which can be used to implement versatile building blocks for optical quantum engineering.
翻訳日:2024-04-22 20:26:30 公開日:2024-04-19
# 誤差低減形地表面ランダム化計測方式

Error Mitigated Metasurface-Based Randomized Measurement Schemes ( http://arxiv.org/abs/2308.08755v2 )

ライセンス: Link先を確認
Hang Ren, Yipei Zhang, Ze Zheng, Cuifeng Ying, Lei Xu, Mohsen Rahmani, K. Birgitta Whaley, (参考訳) ランダム化測定による量子状態の特性の推定は、量子情報科学の重要な部分となっている。 本稿では,光量子ビットのランダム化計測を行うために準曲面を利用する革新的な手法を設計し,現実的な準曲面計測ノイズを抑制する誤差軽減手法を提案する。 忠実度推定と純度推定により,準曲面のランダム化測定と誤差緩和推定器の非バイアス特性を検証した。 本研究は, 量子状態特性のロバストかつ資源効率の高い推定を行う上で, 準曲面に基づくランダム化測定手法の可能性を示すものである。

Estimating properties of quantum states via randomized measurements has become a significant part of quantum information science. In this paper, we design an innovative approach leveraging metasurfaces to perform randomized measurements on photonic qubits, together with error mitigation techniques that suppress realistic metasurface measurement noise. Through fidelity and purity estimation, we confirm the capability of metasurfaces to implement randomized measurements and the unbiased nature of our error-mitigated estimator. Our findings show the potential of metasurface-based randomized measurement schemes in achieving robust and resource-efficient estimation of quantum state properties.
翻訳日:2024-04-22 20:26:30 公開日:2024-04-19
# タブラルデータのための解釈可能なグラフニューラルネットワーク

Interpretable Graph Neural Networks for Tabular Data ( http://arxiv.org/abs/2308.08945v2 )

ライセンス: Link先を確認
Amr Alkhatib, Sofiane Ennadir, Henrik Boström, Michalis Vazirgiannis, (参考訳) 表形式のデータは、現実世界のアプリケーションで頻繁に発生する。 グラフニューラルネットワーク(GNN)は最近、そのようなデータを効果的に扱うように拡張され、表現学習を通じて特徴的インタラクションをキャプチャできるようになった。 しかし、これらのアプローチは本質的には深層ニューラルネットワークの形でブラックボックスモデルを生成し、ユーザーはモデル予測の背後にあるロジックに従うことを排除している。 我々はIGNNet (Interpretable Graph Neural Network for tabular data) と呼ばれる手法を提案し、この手法は学習アルゴリズムを制約して解釈可能なモデルを生成し、モデルが元の入力特徴から正確に予測がどのように計算されるかを示す。 IGNNetは、XGBoost、Random Forests、TabNetなど、表層データをターゲットにした最先端の機械学習アルゴリズムと同等のパフォーマンスを示している。 同時に、IGNNetから得られた説明は、追加の計算オーバーヘッドを発生させることなく、機能の真のShapley値に一致していることを示す。

Data in tabular format is frequently occurring in real-world applications. Graph Neural Networks (GNNs) have recently been extended to effectively handle such data, allowing feature interactions to be captured through representation learning. However, these approaches essentially produce black-box models, in the form of deep neural networks, precluding users from following the logic behind the model predictions. We propose an approach, called IGNNet (Interpretable Graph Neural Network for tabular data), which constrains the learning algorithm to produce an interpretable model, where the model shows how the predictions are exactly computed from the original input features. A large-scale empirical investigation is presented, showing that IGNNet is performing on par with state-of-the-art machine-learning algorithms that target tabular data, including XGBoost, Random Forests, and TabNet. At the same time, the results show that the explanations obtained from IGNNet are aligned with the true Shapley values of the features without incurring any additional computational overhead.
翻訳日:2024-04-22 20:26:30 公開日:2024-04-19
# MovePose: モバイルおよびエッジデバイス上での高性能なヒューマンポース推定アルゴリズム

MovePose: A High-performance Human Pose Estimation Algorithm on Mobile and Edge Devices ( http://arxiv.org/abs/2308.09084v3 )

ライセンス: Link先を確認
Dongyang Yu, Haoyue Zhang, Ruisheng Zhao, Guoqi Chen, Wangpeng An, Yanhong Yang, (参考訳) 我々は、CPUベースのモバイルデバイス上でのリアルタイムボディポーズ推定に特化して設計された、軽量畳み込みニューラルネットワークであるMovePoseを紹介する。 現在のソリューションは人間の姿勢推定に十分な精度とスピードを提供しておらず、MovePoseはこのギャップに対処しています。 モバイルデバイスの姿勢推定の精度を向上しつつ、リアルタイムのパフォーマンスを維持することを目的としている。 我々のMovePoseアルゴリズムはCOCO \cite{cocodata}バリデーションデータセットで平均平均精度(mAP)スコアが68.0に達した。 MovePoseアルゴリズムは、Intel i9-10920x CPU上で動作する場合、効率は69フレーム/秒(fps)以上であった。 さらに、NVIDIA RTX3090 GPU上で452以上のfpsのパフォーマンスも向上した。 Snapdragon 8 + 4Gプロセッサを搭載したAndroidスマートフォンでは、fpsは11.7GHz以上に達した。 精度を高めるために,デコンボリューション,大規模カーネルコンボリューション,コーディネート分類という3つの手法を取り入れた。 基本的なアップサンプリングと比較して、デコンボリューションはトレーニング可能で、モデルのキャパシティが向上し、受容野が向上する。 大きなカーネルの畳み込みは計算コストを下げてこれらの特性を強化する。 要約すると、MovePoseは高精度でリアルタイムのパフォーマンスを提供しており、モバイル側の人間の姿勢推定など、さまざまなアプリケーションにとって潜在的なツールである。 このアルゴリズムのコードとモデルは一般に公開される。

We present MovePose, an optimized lightweight convolutional neural network designed specifically for real-time body pose estimation on CPU-based mobile devices. The current solutions do not provide satisfactory accuracy and speed for human posture estimation, and MovePose addresses this gap. It aims to maintain real-time performance while improving the accuracy of human posture estimation for mobile devices. Our MovePose algorithm has attained an Mean Average Precision (mAP) score of 68.0 on the COCO \cite{cocodata} validation dataset. The MovePose algorithm displayed efficiency with a performance of 69+ frames per second (fps) when run on an Intel i9-10920x CPU. Additionally, it showcased an increased performance of 452+ fps on an NVIDIA RTX3090 GPU. On an Android phone equipped with a Snapdragon 8 + 4G processor, the fps reached above 11. To enhance accuracy, we incorporated three techniques: deconvolution, large kernel convolution, and coordinate classification methods. Compared to basic upsampling, deconvolution is trainable, improves model capacity, and enhances the receptive field. Large kernel convolution strengthens these properties at a decreased computational cost. In summary, MovePose provides high accuracy and real-time performance, marking it a potential tool for a variety of applications, including those focused on mobile-side human posture estimation. The code and models for this algorithm will be made publicly accessible.
翻訳日:2024-04-22 20:26:30 公開日:2024-04-19
# 量子ニューラルネットワークの解釈可能性について

On the Interpretability of Quantum Neural Networks ( http://arxiv.org/abs/2308.11098v2 )

ライセンス: Link先を確認
Lirandë Pira, Chris Ferrie, (参考訳) 人工知能(AI)手法、特にディープニューラルネットワークの解釈可能性は非常に興味深い。 この集中度の向上は、AIが支援するシステムの普及に起因している。 これらのシステムは、しばしば複雑なニューラルネットワークアーキテクチャに依存し、説明と理解が難しい振る舞いを示す。 このようなモデルの解釈可能性は、信頼されたシステムを構築する上で重要な要素である。 この問題にアプローチするための多くの方法が存在するが、それらは量子設定に直接適用されない。 本稿では,古典的ニューラルネットワークによく用いられる局所的モデルに依存しない解釈可能性尺度を用いて,量子ニューラルネットワークの解釈可能性について検討する。 この分析に続いて、量子ニューラルネットワークの説明を生成するQ-LIMEを導入し、LIMEと呼ばれる古典的手法を一般化する。 我々の説明の1つの特徴は、データサンプルが本質的にランダムな量子測定の対象であるランダムなラベルを与えられた領域の描写である。 私たちはこれを、責任と説明責任を持つ量子AIモデルを構築する方法を理解するためのステップだと考えています。

Interpretability of artificial intelligence (AI) methods, particularly deep neural networks, is of great interest. This heightened focus stems from the widespread use of AI-backed systems. These systems, often relying on intricate neural architectures, can exhibit behavior that is challenging to explain and comprehend. The interpretability of such models is a crucial component of building trusted systems. Many methods exist to approach this problem, but they do not apply straightforwardly to the quantum setting. Here, we explore the interpretability of quantum neural networks using local model-agnostic interpretability measures commonly utilized for classical neural networks. Following this analysis, we generalize a classical technique called LIME, introducing Q-LIME, which produces explanations of quantum neural networks. A feature of our explanations is the delineation of the region in which data samples have been given a random label, likely subjects of inherently random quantum measurements. We view this as a step toward understanding how to build responsible and accountable quantum AI models.
翻訳日:2024-04-22 20:26:30 公開日:2024-04-19
# 選択的パラメータ更新によるジェネリック知識損失の克服

Overcoming Generic Knowledge Loss with Selective Parameter Update ( http://arxiv.org/abs/2308.12462v4 )

ライセンス: Link先を確認
Wenxuan Zhang, Paul Janson, Rahaf Aljundi, Mohamed Elhoseiny, (参考訳) 基礎モデルは広範な知識基盤を含み、顕著な伝達性を提供する。 しかし、この知識は時代遅れまたは時代とともに不十分になる。 この課題は、基盤モデルを継続的に更新し、新しい情報に対応しつつ、元の能力を維持していくことである。 基礎モデルが様々なタスクや領域について初期知識を持っているという事実を生かして、全てのパラメータを等しく更新する代わりに、学習対象のタスクに関係のあるスパースなパラメータの更新をローカライズする新しいアプローチを提案する。 我々は,基礎モデルの伝達性と一般化性を維持しつつ,効率性と新しいタスク性能のバランスをとる。 連続学習タスクの多種多様なスペクトルを持つ基礎的視覚言語モデルにおいて,本手法を広範囲に評価する。 提案手法は,学習済みのタスクの精度を最大7%向上すると同時に,学習前知識を0.9%減少させることなく,代表制御セットの精度を低下させる。

Foundation models encompass an extensive knowledge base and offer remarkable transferability. However, this knowledge becomes outdated or insufficient over time. The challenge lies in continuously updating foundation models to accommodate novel information while retaining their original capabilities. Leveraging the fact that foundation models have initial knowledge on various tasks and domains, we propose a novel approach that, instead of updating all parameters equally, localizes the updates to a sparse set of parameters relevant to the task being learned. We strike a balance between efficiency and new task performance, while maintaining the transferability and generalizability of foundation models. We extensively evaluate our method on foundational vision-language models with a diverse spectrum of continual learning tasks. Our method achieves improvements on the accuracy of the newly learned tasks up to 7% while preserving the pretraining knowledge with a negligible decrease of 0.9% on a representative control set accuracy.
翻訳日:2024-04-22 20:26:30 公開日:2024-04-19
# 置換不変エンコーダとより厳密な変動境界を持つ多モード生成モデルの学習

Learning multi-modal generative models with permutation-invariant encoders and tighter variational bounds ( http://arxiv.org/abs/2309.00380v2 )

ライセンス: Link先を確認
Marcel Hirt, Domenico Campolo, Victoria Leong, Juan-Pablo Ortega, (参考訳) マルチモーダルデータに対する深い潜伏変数モデルの開発は、機械学習研究において長年のテーマであった。 マルチモーダル変分オートエンコーダ(VAE)は、複数のモーダルを共同で説明する潜在表現を学習する一般的な生成モデルクラスである。 このようなモデルに対する様々な目的関数が提案され、しばしばマルチモーダルデータ対数や情報理論的な考察から下界として動機付けられる。 異なるモダリティ部分集合から潜在変数を符号化するために、Product-of-Experts(PoE)またはMixture-of-Experts(MoE)アグリゲーションスキームが日常的に使われ、例えば、複数のモダリティにわたる生成品質や一貫性に関して、異なるトレードオフをもたらすことが示されている。 本研究では,データログの類似性を厳密に近似できる変動境界について考察する。 我々は、置換不変ニューラルネットワークに基づく様々なモードから符号化された特徴を組み合わせることで、PoEやMoEアプローチを一般化するより柔軟なアグリゲーションスキームを開発する。 数値解析実験では,多モード変動境界と様々なアグリゲーションスキームのトレードオフについて述べる。 同定可能なモデルにおいて、観測されたモジュラリティや潜伏変数よりも真の関節分布を近似したい場合、より厳密な変動境界とより柔軟な凝集モデルが有益であることが示される。

Devising deep latent variable models for multi-modal data has been a long-standing theme in machine learning research. Multi-modal Variational Autoencoders (VAEs) have been a popular generative model class that learns latent representations that jointly explain multiple modalities. Various objective functions for such models have been suggested, often motivated as lower bounds on the multi-modal data log-likelihood or from information-theoretic considerations. To encode latent variables from different modality subsets, Product-of-Experts (PoE) or Mixture-of-Experts (MoE) aggregation schemes have been routinely used and shown to yield different trade-offs, for instance, regarding their generative quality or consistency across multiple modalities. In this work, we consider a variational bound that can tightly approximate the data log-likelihood. We develop more flexible aggregation schemes that generalize PoE or MoE approaches by combining encoded features from different modalities based on permutation-invariant neural networks. Our numerical experiments illustrate trade-offs for multi-modal variational bounds and various aggregation schemes. We show that tighter variational bounds and more flexible aggregation models can become beneficial when one wants to approximate the true joint distribution over observed modalities and latent variables in identifiable models.
翻訳日:2024-04-22 20:26:30 公開日:2024-04-19
# ロバストレゴマニピュレーションのための軽量で移動可能な設計法

A Lightweight and Transferable Design for Robust LEGO Manipulation ( http://arxiv.org/abs/2309.02354v3 )

ライセンス: Link先を確認
Ruixuan Liu, Yifan Sun, Changliu Liu, (参考訳) Legoは、ピクセル化されたオブジェクトをプロトタイピングするための、よく知られたプラットフォームだ。 しかし、ロボットレゴのプロトタイピング(つまりレゴブロックを操作する)は、接続の厳密さと精度の要求により困難である。 本稿では,安全かつ効率的なロボットレゴ操作について検討する。 特に,ハードウェア・ソフトウェア共同設計による操作の複雑さを低減する。 エンド・オブ・アーム(End-of-arm)ツール(EOAT)が設計されており、問題の大きさを減らし、大きな産業用ロボットが小さなレゴブロックを操作することができる。 さらに,レゴ操作のためのロボット動作を最適化するために,進化戦略を用いる。 実験により、EOATはレゴブロックを確実に操作でき、学習フレームワークは操作性能を100%の成功率で効果的かつ安全に改善できることが示された。 共同設計は複数のロボット(FANUC LR-mate 200id/7LとYaskawa GP4)に展開され、その一般化性と伝達性を示す。 最後に,提案手法により,ロボットが様々なプロトタイプを繰り返し組み立て,分解できる,持続可能なロボットレゴプロトタイピングが実現可能であることを示す。

Lego is a well-known platform for prototyping pixelized objects. However, robotic Lego prototyping (i.e., manipulating Lego bricks) is challenging due to the tight connections and accuracy requirements. This paper investigates safe and efficient robotic Lego manipulation. In particular, this paper reduces the complexity of the manipulation by hardware-software co-design. An end-of-arm tool (EOAT) is designed, which reduces the problem dimension and allows large industrial robots to manipulate small Lego bricks. In addition, this paper uses evolution strategy to optimize the robot motion for Lego manipulation. Experiments demonstrate that the EOAT can reliably manipulate Lego bricks and the learning framework can effectively and safely improve the manipulation performance to a 100% success rate. The co-design is deployed to multiple robots (i.e., FANUC LR-mate 200id/7L and Yaskawa GP4) to demonstrate its generalizability and transferability. In the end, we show that the proposed solution enables sustainable robotic Lego prototyping, in which the robot can repeatedly assemble and disassemble different prototypes.
翻訳日:2024-04-22 20:26:30 公開日:2024-04-19
# Prompted Chain-of-Contactsによる人間とシーンの統一インタラクション

Unified Human-Scene Interaction via Prompted Chain-of-Contacts ( http://arxiv.org/abs/2309.07918v3 )

ライセンス: Link先を確認
Zeqi Xiao, Tai Wang, Jingbo Wang, Jinkun Cao, Wenwei Zhang, Bo Dai, Dahua Lin, Jiangmiao Pang, (参考訳) HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。 動作品質と物理的妥当性の進歩にもかかわらず、多目的インタラクション制御とユーザフレンドリなインターフェースの開発という2つの重要な要素は、HSIの実用化前にさらなる探索が必要である。 本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一型HSIフレームワークUniHSIを提案する。 この枠組みは、接触の連鎖(CoC: Chain of Contacts)としての相互作用の定義に基づいて構築されている。 この定義に基づいて、UniHSIはLarge Language Model (LLM) Plannerを構成し、言語プロンプトをCoCの形式でタスクプランに変換する。 トレーニングと評価を容易にするために,多様なシナリオに基づいてLLMが生成する数千のタスク計画を含むScenePlanというデータセットを新たに収集した。 総合的な実験により,実写シーンに対する多目的タスク実行と一般化性において,我々のフレームワークの有効性が実証された。 プロジェクトページはhttps://github.com/OpenRobotLab/UniHSI にある。

Human-Scene Interaction (HSI) is a vital component of fields like embodied AI and virtual reality. Despite advancements in motion quality and physical plausibility, two pivotal factors, versatile interaction control and the development of a user-friendly interface, require further exploration before the practical application of HSI. This paper presents a unified HSI framework, UniHSI, which supports unified control of diverse interactions through language commands. This framework is built upon the definition of interaction as Chain of Contacts (CoC): steps of human joint-object part pairs, which is inspired by the strong correlation between interaction types and human-object contact regions. Based on the definition, UniHSI constitutes a Large Language Model (LLM) Planner to translate language prompts into task plans in the form of CoC, and a Unified Controller that turns CoC into uniform task execution. To facilitate training and evaluation, we collect a new dataset named ScenePlan that encompasses thousands of task plans generated by LLMs based on diverse scenarios. Comprehensive experiments demonstrate the effectiveness of our framework in versatile task execution and generalizability to real scanned scenes. The project page is at https://github.com/OpenRobotLab/UniHSI .
翻訳日:2024-04-22 20:26:30 公開日:2024-04-19
# チャンネル・ビジョン・トランスフォーマー:画像は1×16×16ワード

Channel Vision Transformers: An Image Is Worth 1 x 16 x 16 Words ( http://arxiv.org/abs/2309.16108v4 )

ライセンス: Link先を確認
Yujia Bao, Srinivasan Sivanandan, Theofanis Karaletsos, (参考訳) Vision Transformer (ViT) は現代のコンピュータビジョンの領域において強力なアーキテクチャとして登場した。 しかし、顕微鏡や衛星画像などの特定の撮像分野への応用は、ユニークな課題を呈している。 これらの領域では、画像はしばしば複数のチャネルを含み、それぞれが意味的に異なる独立した情報を持っている。 さらに、このモデルは、トレーニングやテスト中に密に利用できない可能性があるため、入力チャネルのスパーシティに対する堅牢性を示す必要がある。 本稿では、入力チャネル間の推論を強化するViTアーキテクチャの修正と、テスト時間中に部分チャネルのみを表示する場合のロバスト性を保証するための追加の正規化手法として階層型チャネルサンプリング(HCS)を導入することを提案する。 提案モデルであるChannelViTは,各入力チャネルから独立してパッチトークンを構築し,各パッチトークンに付加される学習可能なチャネル埋め込みを利用する。 我々は、ImageNet、JUMP-CP(顕微鏡細胞イメージング)、So2Sat(衛星イメージング)におけるChannelViTの性能を評価する。 この結果から,ChannelViTは,テスト中に入力チャネルのサブセットを使用した場合であっても,分類タスクにおいてViTよりも優れ,最適化が良好であることがわかった。 実験全体を通して、HCSは採用されているアーキテクチャとは独立して強力な正則化器であることが証明され、堅牢なViTトレーニングのための簡単なテクニックであることが示唆された。 最後に、ChannelViTは訓練中にすべてのチャンネルへのアクセスが限られている場合でも効果的に一般化し、スパースセンサーを用いた実環境下でのマルチチャネルイメージングの可能性を強調します。 私たちのコードはhttps://github.com/insitro/ChannelViT.comで利用可能です。

Vision Transformer (ViT) has emerged as a powerful architecture in the realm of modern computer vision. However, its application in certain imaging fields, such as microscopy and satellite imaging, presents unique challenges. In these domains, images often contain multiple channels, each carrying semantically distinct and independent information. Furthermore, the model must demonstrate robustness to sparsity in input channels, as they may not be densely available during training or testing. In this paper, we propose a modification to the ViT architecture that enhances reasoning across the input channels and introduce Hierarchical Channel Sampling (HCS) as an additional regularization technique to ensure robustness when only partial channels are presented during test time. Our proposed model, ChannelViT, constructs patch tokens independently from each input channel and utilizes a learnable channel embedding that is added to the patch tokens, similar to positional embeddings. We evaluate the performance of ChannelViT on ImageNet, JUMP-CP (microscopy cell imaging), and So2Sat (satellite imaging). Our results show that ChannelViT outperforms ViT on classification tasks and generalizes well, even when a subset of input channels is used during testing. Across our experiments, HCS proves to be a powerful regularizer, independent of the architecture employed, suggesting itself as a straightforward technique for robust ViT training. Lastly, we find that ChannelViT generalizes effectively even when there is limited access to all channels during training, highlighting its potential for multi-channel imaging under real-world conditions with sparse sensors. Our code is available at https://github.com/insitro/ChannelViT.
翻訳日:2024-04-22 20:16:45 公開日:2024-04-19
# QDFormer:量子化に基づく意味分解を伴う複雑な環境におけるロバストな視覚的セグメンテーションを目指して

QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition ( http://arxiv.org/abs/2310.00132v3 )

ライセンス: Link先を確認
Xiang Li, Jinglu Wang, Xiaohao Xu, Xiulian Peng, Rita Singh, Yan Lu, Bhiksha Raj, (参考訳) 聴覚的セグメンテーション(AVS)は,映像中の視覚的物体を関連する音響的手がかりに従って分割することを目的とした課題である。 複数の音源と背景障害を伴い、音声と視覚コンテンツとの堅牢な対応を確立することは、(1)音源間の複雑な絡み合い、(2)異なる音事象の発生の頻繁な変化により、独特な課題をもたらす。 音事象が独立に起こると仮定すると、マルチソースの意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。 視覚コンテンツとのより効果的なインタラクションのために,マルチソース音声セマンティクスを単一ソースセマンティクスに分解する。 製品量子化に基づくセマンティック分解手法を提案し,マルチソースセマンティクスを分解し,複数の不整合およびノイズ抑圧された単一ソースセマンティクスで表現する。 さらに,安定なグローバルな(クリップレベル)特徴から局所的な(フレームレベル)特徴へ知識を抽出し,音声意味論の頻繁な変化に対処するグローバル・ローカルな量子化機構を導入する。 大規模な実験により、我々の意味的に分解されたオーディオ表現は、ResNet50のバックボーンによる挑戦的なAVS-Semanticベンチマークにおいて、AVSのパフォーマンスを著しく改善することが示された。 https://github.com/lxa9867/QSD

Audiovisual segmentation (AVS) is a challenging task that aims to segment visual objects in videos according to their associated acoustic cues. With multiple sound sources and background disturbances involved, establishing robust correspondences between audio and visual contents poses unique challenges due to (1) complex entanglement across sound sources and (2) frequent changes in the occurrence of distinct sound events. Assuming sound events occur independently, the multi-source semantic space can be represented as the Cartesian product of single-source sub-spaces. We are motivated to decompose the multi-source audio semantics into single-source semantics for more effective interactions with visual content. We propose a semantic decomposition method based on product quantization, where the multi-source semantics can be decomposed and represented by several disentangled and noise-suppressed single-source semantics. Furthermore, we introduce a global-to-local quantization mechanism, which distills knowledge from stable global (clip-level) features into local (frame-level) ones, to handle frequent changes in audio semantics. Extensive experiments demonstrate that our semantically decomposed audio representation significantly improves AVS performance, e.g., +21.2% mIoU on the challenging AVS-Semantic benchmark with ResNet50 backbone. https://github.com/lxa9867/QSD.
翻訳日:2024-04-22 20:16:45 公開日:2024-04-19
# ロボットの自己モデリングと運動計画のための高次元自由度動的ニューラルネットワーク

High-Degrees-of-Freedom Dynamic Neural Fields for Robot Self-Modeling and Motion Planning ( http://arxiv.org/abs/2310.03624v2 )

ライセンス: Link先を確認
Lennart Schulze, Hod Lipson, (参考訳) ロボット・セルフ・モデル(英: Robot self-model)は、ロボットの物理形態をタスクに依存しない表現であり、古典的な幾何学的運動モデルがない場合の運動計画タスクに使用できる。 特に、ロボットのキネマティクスが予想外に変化する場合、人間の自由な自己モデリングは真に自律的なエージェントに必要な特徴である。 本研究では,カメラのポーズや構成を付加した2次元画像のみから学習したニューラルネットワーククエリモデルとして,ロボットがキネマティクスを自己モデル化することを可能にするために,ニューラルネットワークを活用する。 これにより、深度画像や幾何学的知識に依存する既存のアプローチよりも、はるかに適用性が高い。 そこで本研究では,高次自由度(DOF)を条件とした動的オブジェクト中心シーンのための,エンコーダに基づくニューラル密度場アーキテクチャを提案する。 7-DOFロボットテストでは、学習した自己モデルは、ロボットのワークスペース次元の2%のChamfer-L2距離を達成する。 実例的なダウンストリームアプリケーションとして,動作計画タスクにおけるこのモデルの有効性を実証する。

A robot self-model is a task-agnostic representation of the robot's physical morphology that can be used for motion planning tasks in the absence of a classical geometric kinematic model. In particular, when the latter is hard to engineer or the robot's kinematics change unexpectedly, human-free self-modeling is a necessary feature of truly autonomous agents. In this work, we leverage neural fields to allow a robot to self-model its kinematics as a neural-implicit query model learned only from 2D images annotated with camera poses and configurations. This enables significantly greater applicability than existing approaches which have been dependent on depth images or geometry knowledge. To this end, alongside a curricular data sampling strategy, we propose a new encoder-based neural density field architecture for dynamic object-centric scenes conditioned on high numbers of degrees of freedom (DOFs). In a 7-DOF robot test setup, the learned self-model achieves a Chamfer-L2 distance of 2% of the robot's workspace dimension. We demonstrate the capabilities of this model on motion planning tasks as an exemplary downstream application.
翻訳日:2024-04-22 20:16:45 公開日:2024-04-19
# Lyapunovの予測通り、ライオンは秘密裏に最適化を厳格化

Lion Secretly Solves Constrained Optimization: As Lyapunov Predicts ( http://arxiv.org/abs/2310.05898v5 )

ライセンス: Link先を確認
Lizhang Chen, Bo Liu, Kaizhao Liang, Qiang Liu, (参考訳) プログラム検索を通じて発見された新しいオプティマイザであるLion(Evolved Sign Momentum)は、大規模なAIモデルのトレーニングにおいて有望な結果を示している。 これはAdamWと同等か好意的に機能するが、メモリ効率は向上する。 ランダムな探索プログラムの結果から期待できるように、Lionは符号付き運動量、分離されたウェイト崩壊、ポーラク、ネステロフ運動量など、いくつかの既存のアルゴリズムの要素を取り入れているが、理論的に基底付けられたオプティマイザの既存のカテゴリには適合しない。 したがって、ライオンは幅広いタスクに対して汎用最適化器としてうまく機能しているように見えるが、その理論的基礎はいまだに不明である。 この理論的な明快さの欠如は、ライオンの有効性をさらに強化し拡張する機会を制限している。 この作品はライオンを軽蔑することを目的としている。 連続時間解析と離散時間解析の両方に基づき、Lion は一般損失関数 $f(x)$ を最小化し、有界制約 $\|x\|_\infty \leq 1/\lambda$ を強制する理論的および原理的アプローチであることを示した。 ライオンはこれをデカップリングウェイト崩壊の包含によって達成し、$\lambda$はウェイト崩壊係数を表す。 我々の分析は,ライオン更新のための新しいリャプノフ関数の開発によって可能となった。 これは、Lion-$\kappa$アルゴリズムのより広範なファミリーに適用され、Lionの$\text{sign}(\cdot)$演算子は凸関数 $\kappa$ の次数に置き換えられ、一般的な合成最適化問題である $\min_x f(x) + \kappa^*(x)$ の解となる。 我々の発見は、ライオンのダイナミクスに関する貴重な洞察を与え、ライオン関連アルゴリズムのさらなる改良と拡張の道を開く。

Lion (Evolved Sign Momentum), a new optimizer discovered through program search, has shown promising results in training large AI models. It performs comparably or favorably to AdamW but with greater memory efficiency. As we can expect from the results of a random search program, Lion incorporates elements from several existing algorithms, including signed momentum, decoupled weight decay, Polak, and Nesterov momentum, but does not fit into any existing category of theoretically grounded optimizers. Thus, even though Lion appears to perform well as a general-purpose optimizer for a wide range of tasks, its theoretical basis remains uncertain. This lack of theoretical clarity limits opportunities to further enhance and expand Lion's efficacy. This work aims to demystify Lion. Based on both continuous-time and discrete-time analysis, we demonstrate that Lion is a theoretically novel and principled approach for minimizing a general loss function $f(x)$ while enforcing a bound constraint $\|x\|_\infty \leq 1/\lambda$. Lion achieves this through the incorporation of decoupled weight decay, where $\lambda$ represents the weight decay coefficient. Our analysis is made possible by the development of a new Lyapunov function for the Lion updates. It applies to a broader family of Lion-$\kappa$ algorithms, where the $\text{sign}(\cdot)$ operator in Lion is replaced by the subgradient of a convex function $\kappa$, leading to the solution of a general composite optimization problem of $\min_x f(x) + \kappa^*(x)$. Our findings provide valuable insights into the dynamics of Lion and pave the way for further improvements and extensions of Lion-related algorithms.
翻訳日:2024-04-22 20:16:45 公開日:2024-04-19
# 決定論点におけるフロケ量子東モデルの励起クエンチダイナミクス

Exact quench dynamics of the Floquet quantum East model at the deterministic point ( http://arxiv.org/abs/2310.06128v2 )

ライセンス: Link先を確認
Bruno Bertini, Cecilia De Fazio, Juan P. Garrahan, Katja Klobas, (参考訳) 我々は、Floquet量子東モデルの非平衡ダイナミクス(運動論的に制約された量子東スピンチェーンのトロッター化バージョン)を、CNOT置換ゲートの項で、その「決定論点」で研究する。 我々は「宇宙の進化」により、幅広い初期積状態に対する熱化ダイナミクスを正確に解いた。 証明する。 (i)スピンのブロックの絡み合いは、局所性によって許容される最大速度(すなわち二重単位回路の半分の速度)の少なくとも半分で増大する。 (ii) スピンのブロックが最初に古典的な構成で作成されている場合、絡み合いの速度は最大の4分の1である。 三 無限の温度状態への熱化は、ブロックの大きさに匹敵するスケールの時間で正確に到達する。

We study the nonequilibrium dynamics of the Floquet quantum East model (a Trotterized version of the kinetically constrained quantum East spin chain) at its "deterministic point", where evolution is defined in terms of CNOT permutation gates. We solve exactly the thermalization dynamics for a broad class of initial product states by means of "space evolution". We prove: (i) the entanglement of a block of spins grows at most at one-half the maximal speed allowed by locality (i.e., half the speed of dual-unitary circuits); (ii) if the block of spins is initially prepared in a classical configuration, speed of entanglement is a quarter of the maximum; (iii) thermalization to the infinite temperature state is reached exactly in a time that scales with the size of the block.
翻訳日:2024-04-22 20:16:45 公開日:2024-04-19
# 位置紙:深部時系列予測のためのデータ・メトリクス・方法論の統合的視点

Position Paper: An Integrated Perspective on Data, Metrics, and Methodology for Deep Time-Series Forecasting ( http://arxiv.org/abs/2310.07446v3 )

ライセンス: Link先を確認
Jiawen Zhang, Xumeng Wen, Shun Zheng, Jia Li, Jiang Bian, (参考訳) 深層時系列予測は多くの実践的応用において重要な役割を担っている。 しかしながら、既存の研究は、長期的なポイント予測のためのニューラルアーキテクチャ設計か、短期シナリオのための確率的モデルに限定して、不足している。 多様なデータシナリオ、評価指標、方法論的焦点を統合する新しいツールであるProbTSによって促進された包括的フレームワークを提案することにより、現在の予測プラクティスの限界を超越することを目指している。 厳密な実験は、予測方法論をデータの特徴と整合させることの最大の重要性、点と分布の両方の予測を正確に評価する幅広い指標の必要性、既存の予測手法を幅広いシナリオに適応させることに固有の課題など、重要な洞察を明らかにする。 これらの知見は, 従来のアプローチに挑戦するだけでなく, 将来的な研究の道筋を照らし, 深層時系列予測の分野を推し進めるための, より曖昧で効果的な戦略を示唆している。

Deep time-series forecasting plays an integral role in numerous practical applications. However, existing research fall short by focusing narrowly on either neural architecture designs for long-term point forecasts or probabilistic models for short-term scenarios. By proposing a comprehensive framework, facilitated by a novel tool, ProbTS, that integrates diverse data scenarios, evaluation metrics, and methodological focuses, we aim to transcend the limitations of current forecasting practices. Rigorous experimentation uncovers pivotal insights, including the supreme importance of aligning forecasting methodologies with the unique characteristics of the data; the necessity of a broad spectrum of metrics for accurately assessing both point and distributional forecasts; and the challenges inherent in adapting existing forecasting methods to a wider range of scenarios. These findings not only challenge conventional approaches but also illuminate promising avenues for future research, suggesting a more nuanced and effective strategy for advancing the field of deep time-series forecasting.
翻訳日:2024-04-22 20:16:45 公開日:2024-04-19
# 分散型 ProxSkip の再検討 - 線形スピードアップの実現

Revisiting Decentralized ProxSkip: Achieving Linear Speedup ( http://arxiv.org/abs/2310.07983v2 )

ライセンス: Link先を確認
Luyao Guo, Sulaiman A. Alghunaim, Kun Yuan, Laurent Condat, Jinde Cao, (参考訳) 分散学習とフェデレーション学習のためのProxSkipアルゴリズムは、データ不均一性に対する堅牢性を維持しつつ、通信の複雑さを加速させることの証明された利点により、注目を集めている。 しかし、既存の ProxSkip の解析は強い凸設定に限られており、ノード数に対して収束性能が線形に増加するような線形高速化は達成できない。 今のところ、ProxSkipが非凸設定でどのように振る舞うのか、線形スピードアップが達成可能かどうか、疑問が残る。 本稿では、分散化されたProxSkipを再検討し、両方の疑問に対処する。 ProxSkipの主な通信複雑性は$\mathcal{O}\left(\frac{p\sigma^2}{n\epsilon^2}\right)$と$\mathcal{O}\left(\frac{p\sigma^2}{n\epsilon}\right)$である。 この結果は, ProxSkipが線形スピードアップを実現し, 通信の確率に比例した通信オーバーヘッドを漸近的に低減できることを示す。 さらに, 強い凸条件下では, ProxSkip がネットワーク非依存のステップサイズで線形高速化できることを示す。

The ProxSkip algorithm for decentralized and federated learning is gaining increasing attention due to its proven benefits in accelerating communication complexity while maintaining robustness against data heterogeneity. However, existing analyses of ProxSkip are limited to the strongly convex setting and do not achieve linear speedup, where convergence performance increases linearly with respect to the number of nodes. So far, questions remain open about how ProxSkip behaves in the non-convex setting and whether linear speedup is achievable. In this paper, we revisit decentralized ProxSkip and address both questions. We demonstrate that the leading communication complexity of ProxSkip is $\mathcal{O}\left(\frac{p\sigma^2}{n\epsilon^2}\right)$ for non-convex and convex settings, and $\mathcal{O}\left(\frac{p\sigma^2}{n\epsilon}\right)$ for the strongly convex setting, where $n$ represents the number of nodes, $p$ denotes the probability of communication, $\sigma^2$ signifies the level of stochastic noise, and $\epsilon$ denotes the desired accuracy level. This result illustrates that ProxSkip achieves linear speedup and can asymptotically reduce communication overhead proportional to the probability of communication. Additionally, for the strongly convex setting, we further prove that ProxSkip can achieve linear speedup with network-independent stepsizes.
翻訳日:2024-04-22 20:16:45 公開日:2024-04-19
# LLM4SGG:弱教師付きシーングラフ生成のための大規模言語モデル

LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation ( http://arxiv.org/abs/2310.10404v7 )

ライセンス: Link先を確認
Kibum Kim, Kanghoon Yoon, Jaehyeong Jeon, Yeonjun In, Jinyoung Moon, Donghyun Kim, Chanyoung Park, (参考訳) Wakly-Supervised Scene Graph Generation (WSSGG) 研究は、最近、コストのかかるアノテーションに大きく依存する、完全に教師されたアプローチの代替として現れた。 この点において,WSSGGの研究は画像領域上の非局在化三重項の接地に着目しつつ,非局在化三重項の取得に画像キャプションを利用した。 しかし、キャプションから三重項形成の過程に関わる2つの問題を見落としている。 1)キャプション中の細粒度述語が粗粒度述語に好ましくないように変換され、長い尾状述語分布となるようなキャプションから三つ子を抽出する際に、意味的過度な単純化問題が発生する。 2 低密度のシーングラフは、キャプション内の三つ子を、多くの三つ子を捨てて訓練に使用しない利害関係のクラスと整合させることで発生し、監督が不十分となる。 この2つの問題に対処するため,LLM の言語理解の深みを生かし,キャプションから三重項を抽出する際の推論能力と,エンティティ/述語クラスを対象データにアライメントすることで,弱教師付き SGG のための大規模言語モデル (LLM4SGG) を提案する。 これらのプロセスでLLMをさらに活用するため、我々はChain-of-Thoughtという概念と、文脈内数発の学習戦略を採用した。 LLM4SGGの有効性を検証するために、我々は、Visual GenomeとGQAデータセットの広範な実験を行い、Recall@Kと平均Recall@Kの両方において、最先端のWSSGG法と比較して大幅に改善されていることを示す。 さらに、LLM4SGGはデータ効率が良く、少量のトレーニング画像で効果的なモデルトレーニングを可能にする点が魅力である。

Weakly-Supervised Scene Graph Generation (WSSGG) research has recently emerged as an alternative to the fully-supervised approach that heavily relies on costly annotations. In this regard, studies on WSSGG have utilized image captions to obtain unlocalized triplets while primarily focusing on grounding the unlocalized triplets over image regions. However, they have overlooked the two issues involved in the triplet formation process from the captions: 1) Semantic over-simplification issue arises when extracting triplets from captions, where fine-grained predicates in captions are undesirably converted into coarse-grained predicates, resulting in a long-tailed predicate distribution, and 2) Low-density scene graph issue arises when aligning the triplets in the caption with entity/predicate classes of interest, where many triplets are discarded and not used in training, leading to insufficient supervision. To tackle the two issues, we propose a new approach, i.e., Large Language Model for weakly-supervised SGG (LLM4SGG), where we mitigate the two issues by leveraging the LLM's in-depth understanding of language and reasoning ability during the extraction of triplets from captions and alignment of entity/predicate classes with target data. To further engage the LLM in these processes, we adopt the idea of Chain-of-Thought and the in-context few-shot learning strategy. To validate the effectiveness of LLM4SGG, we conduct extensive experiments on Visual Genome and GQA datasets, showing significant improvements in both Recall@K and mean Recall@K compared to the state-of-the-art WSSGG methods. A further appeal is that LLM4SGG is data-efficient, enabling effective model training with a small amount of training images.
翻訳日:2024-04-22 20:16:45 公開日:2024-04-19
# LLM生成テキスト検出に関する調査研究:必要,方法,今後の方向性

A Survey on LLM-Generated Text Detection: Necessity, Methods, and Future Directions ( http://arxiv.org/abs/2310.14724v3 )

ライセンス: Link先を確認
Junchao Wu, Shu Yang, Runzhe Zhan, Yulin Yuan, Derek F. Wong, Lidia S. Chao, (参考訳) 大きな言語モデル(LLM)から生まれた複雑な言語を理解し、追跡し、生成する強力な能力によって、LLMが生成したテキストは、私たちの日常生活の多くの領域を驚くほどの速さで浸水させ、人間に広く受け入れられる。 LLMが拡大を続けるにつれ、LCMが生成するテキストを検出する検出器を開発する必要が迫られる。 このことは、LLMが生成するコンテンツの有害な影響から、LLMの潜在的な誤用や、芸術的表現やソーシャルネットワークのような保護領域の軽減に不可欠である。 LLMの生成したテキスト検出は、LLMが生成したテキストがバイナリ分類タスクであるかどうかを識別することを目的としている。 この検出器技術は、ウォーターマーキング技術、統計ベースの検出器、神経ベース検出器、そして人間の支援手法の革新によって、最近顕著な進歩をみせている。 本調査では,この領域における最近の研究のブレークスルーと,検出器研究の推進の必要性を裏付けるものである。 また、一般的なデータセットを掘り下げて、その制限と開発要件を解明しました。 さらに, LLM生成テキスト検出のパラダイムを分析し, アウト・オブ・ディストリビューション問題, 潜在的な攻撃, 実世界のデータ問題, 効果的な評価フレームワークの欠如といった課題に光を当てる。 結論として,LLM生成テキスト検出における今後の研究の方向性に注目し,人工知能(AI)の実装を推し進める。 本調査の目的は,新参者への明確かつ包括的な紹介と,LCM生成テキスト検出分野における有意義な更新を提供することである。 有用なリソースは、https://github.com/NLP2CT/LLM- generated-Text-Detectionで公開されている。

The powerful ability to understand, follow, and generate complex language emerging from large language models (LLMs) makes LLM-generated text flood many areas of our daily lives at an incredible speed and is widely accepted by humans. As LLMs continue to expand, there is an imperative need to develop detectors that can detect LLM-generated text. This is crucial to mitigate potential misuse of LLMs and safeguard realms like artistic expression and social networks from harmful influence of LLM-generated content. The LLM-generated text detection aims to discern if a piece of text was produced by an LLM, which is essentially a binary classification task. The detector techniques have witnessed notable advancements recently, propelled by innovations in watermarking techniques, statistics-based detectors, neural-base detectors, and human-assisted methods. In this survey, we collate recent research breakthroughs in this area and underscore the pressing need to bolster detector research. We also delve into prevalent datasets, elucidating their limitations and developmental requirements. Furthermore, we analyze various LLM-generated text detection paradigms, shedding light on challenges like out-of-distribution problems, potential attacks, real-world data issues and the lack of effective evaluation framework. Conclusively, we highlight interesting directions for future research in LLM-generated text detection to advance the implementation of responsible artificial intelligence (AI). Our aim with this survey is to provide a clear and comprehensive introduction for newcomers while also offering seasoned researchers a valuable update in the field of LLM-generated text detection. The useful resources are publicly available at: https://github.com/NLP2CT/LLM-generated-Text-Detection.
翻訳日:2024-04-22 20:16:45 公開日:2024-04-19
# 量子アルゴリズムによるアグノースティック学習のための二次的サンプル複雑度低減

A Quadratic Sample Complexity Reduction for Agnostic Learning via Quantum Algorithms ( http://arxiv.org/abs/2310.15576v8 )

ライセンス: Link先を確認
Daniel Z. Zanger, (参考訳) 量子アルゴリズムを用いて、精度$\epsilon>0$と信頼性$-\delta,0<\delta<1,$ a new sample complexity upper bound of $O((\mbox{log}(\frac{1}{\delta}))/\epsilon)$ as $\epsilon,\delta\rightarrow 0$ for a general agnostic learning model, if the hypothesis class is of finite finiteity。 これは、漸近次数 $\Theta((\mbox{log}(\frac{1}{\delta}))/\epsilon^{2})$ の対応するサンプル複雑性を大幅に改善し、古典的(非量子)な学習問題と有限濃度の仮説セット(Arunachalam and de Wolf (2018) や古典的統計学習理論(英語版)(英語版)(英語版)の参考文献で知られている。 したがって、一般の無知学習の場合、これらの結果に対して得られる学習速度の量子スピードアップは、$\epsilon^{-1}$の二次的である。

Using quantum algorithms, we obtain, for accuracy $\epsilon>0$ and confidence $1-\delta,0<\delta<1,$ a new sample complexity upper bound of $O((\mbox{log}(\frac{1}{\delta}))/\epsilon)$ as $\epsilon,\delta\rightarrow 0$ for a general agnostic learning model, provided the hypothesis class is of finite cardinality. This greatly improves upon a corresponding sample complexity of asymptotic order $\Theta((\mbox{log}(\frac{1}{\delta}))/\epsilon^{2})$ known in the literature to be attainable by means of classical (non-quantum) algorithms for an agnostic learning problem also with hypothesis set of finite cardinality (see, for example, Arunachalam and de Wolf (2018) and the classical statistical learning theory references cited there). Thus, for general agnostic learning, the quantum speedup in the rate of learning that we achieve with respect to these results is quadratic in $\epsilon^{-1}$.
翻訳日:2024-04-22 20:16:45 公開日:2024-04-19
# JavaScript-WebAssemblyマルチ言語マルウェア検出のための静的セマンティックス再構成

Static Semantics Reconstruction for Enhancing JavaScript-WebAssembly Multilingual Malware Detection ( http://arxiv.org/abs/2310.17304v2 )

ライセンス: Link先を確認
Yifan Xia, Ping He, Xuhong Zhang, Peiyu Liu, Shouling Ji, Wenhai Wang, (参考訳) WebAssemblyの出現により、攻撃者はJavaScript-WebAssemblyマルチ言語マルウェア(JWMM)と呼ばれる言語間の相互運用において、JavaScriptマルウェアの悪意のある機能を隠すことができる。 しかし、静的プログラム解析に基づく既存のアンチウイルスソリューションは、依然としてモノリンガルコードに限られている。 その結果, JWMMに対する検出効率は著しく低下した。 JavaScriptとWebAssembly間の複雑な相互運用とセマンティックな多様性のため、JWMMの検出は難しい。 このギャップを埋めるために、我々はJWMMの静的検出を強化するための最初の手法であるJWBinderを提案する。 JWBinderは言語固有のデータフロー解析を行い、言語間の相互運用を捉える。 最も代表的な現実世界のアンチウイルスプラットフォームであるVirusTotalに対する広範な評価は、システムが様々なベンダーのアンチウイルスシステムを効果的に強化し、JWMMに対する全体的な検出率を49.1\%から86.2\%に引き上げていることを示している。 さらに,JWBinderのサイドエフェクトとランタイムオーバヘッドを評価し,実世界のアプリケーションにおける実用性について検討する。

The emergence of WebAssembly allows attackers to hide the malicious functionalities of JavaScript malware in cross-language interoperations, termed JavaScript-WebAssembly multilingual malware (JWMM). However, existing anti-virus solutions based on static program analysis are still limited to monolingual code. As a result, their detection effectiveness decreases significantly against JWMM. The detection of JWMM is challenging due to the complex interoperations and semantic diversity between JavaScript and WebAssembly. To bridge this gap, we present JWBinder, the first technique aimed at enhancing the static detection of JWMM. JWBinder performs a language-specific data-flow analysis to capture the cross-language interoperations and then characterizes the functionalities of JWMM through a unified high-level structure called Inter-language Program Dependency Graph. The extensive evaluation on one of the most representative real-world anti-virus platforms, VirusTotal, shows that \system effectively enhances anti-virus systems from various vendors and increases the overall successful detection rate against JWMM from 49.1\% to 86.2\%. Additionally, we assess the side effects and runtime overhead of JWBinder, corroborating its practical viability in real-world applications.
翻訳日:2024-04-22 20:16:45 公開日:2024-04-19
# グラフニューラルネットワークトレーニングのための分散行列ベースサンプリング

Distributed Matrix-Based Sampling for Graph Neural Network Training ( http://arxiv.org/abs/2311.02909v3 )

ライセンス: Link先を確認
Alok Tripathy, Katherine Yelick, Aydin Buluc, (参考訳) グラフニューラルネットワーク(GNN)は、グラフデータの埋め込みや分類を学ぶためのコンパクトで効率的な方法を提供する。 GNNモデルは、しばしば大きく、分散ミニバッチトレーニングを必要とする。 本研究の主な貢献は,分散GNNトレーニングにおけるサンプリングステップにおける通信の削減手法である。 本稿では,スパース行列乗算(SpGEMM)としてサンプリングを表現する行列ベースのバルクサンプリング手法を提案し,同時に複数のミニバッチをサンプリングする。 入力グラフトポロジが1つのデバイスに収まらない場合、本手法はグラフを分散し、通信回避のSpGEMMアルゴリズムを用いてGNNミニバッチサンプリングをスケールし、単一のデバイスメモリに収まるものよりもはるかに大きなグラフでのトレーニングを可能にする。 入力グラフトポロジ(埋め込みではない)が1つのGPUのメモリに収まると、(1)通信なしでサンプリングを行い、(2)ミニバッチをサンプリングするオーバーヘッドを補正し、(3)異なる行列構造を用いて複数のサンプリングアルゴリズムを表現できる。 新たなサンプリング方法に加えて,行列に基づくバルクサンプリング手法を用いて,エンドツーエンドのトレーニング結果を提供するパイプラインを導入する。 我々は、28ドルのGPU上で最大のOpen Graph Benchmark(OGB)データセットの実験結果を提供し、パイプラインが3ドルのGraphSAGEネットワーク上でQuiver(PyTorch-Geometricの分散拡張)よりも2.5\times$高速であることを示す。 OGB以外のデータセットでは、画期的な時間に128ドルのGPUで8.46\times$のスピードアップを示す。 最後に、グラフがGPUに分散されている場合のスケーリングと、ノードワイドおよびレイヤワイドサンプリングアルゴリズムのスケーリングを示す。

Graph Neural Networks (GNNs) offer a compact and computationally efficient way to learn embeddings and classifications on graph data. GNN models are frequently large, making distributed minibatch training necessary. The primary contribution of this paper is new methods for reducing communication in the sampling step for distributed GNN training. Here, we propose a matrix-based bulk sampling approach that expresses sampling as a sparse matrix multiplication (SpGEMM) and samples multiple minibatches at once. When the input graph topology does not fit on a single device, our method distributes the graph and use communication-avoiding SpGEMM algorithms to scale GNN minibatch sampling, enabling GNN training on much larger graphs than those that can fit into a single device memory. When the input graph topology (but not the embeddings) fits in the memory of one GPU, our approach (1) performs sampling without communication, (2) amortizes the overheads of sampling a minibatch, and (3) can represent multiple sampling algorithms by simply using different matrix constructions. In addition to new methods for sampling, we introduce a pipeline that uses our matrix-based bulk sampling approach to provide end-to-end training results. We provide experimental results on the largest Open Graph Benchmark (OGB) datasets on $128$ GPUs, and show that our pipeline is $2.5\times$ faster than Quiver (a distributed extension to PyTorch-Geometric) on a $3$-layer GraphSAGE network. On datasets outside of OGB, we show a $8.46\times$ speedup on $128$ GPUs in per-epoch time. Finally, we show scaling when the graph is distributed across GPUs and scaling for both node-wise and layer-wise sampling algorithms.
翻訳日:2024-04-22 20:07:00 公開日:2024-04-19
# LitSumm:非コーディングRNAの文献要約のための大規模言語モデル

LitSumm: Large language models for literature summarisation of non-coding RNAs ( http://arxiv.org/abs/2311.03056v3 )

ライセンス: Link先を確認
Andrew Green, Carlos Ribas, Nancy Ontiveros-Palacios, Sam Griffiths-Jones, Anton I. Petrov, Alex Bateman, Blake Sweeney, (参考訳) モチベーション(Motivation): 生命科学における文学のカリキュラムは、ますます難しい。 出版率の上昇は、世界中のキュレーターの数が比較的一定であることと相まって、バイオメディカルな知識ベースの開発者にとって大きな課題となっている。 関係する文献全体にスケールするリソースを持つ知識ベースは極めて少なく、すべて彼らの努力を優先する必要があります。 結果: 本研究は, 大規模言語モデル(LLM)を用いて, 非コーディングRNAの文献の要約を生成することにより, RNA科学におけるキュレーター時間不足を緩和する第一歩を踏み出した。 文献から,商業LSMと一連のプロンプトとチェックを用いて,高精度な参照を持つ高品質で事実的精度の高い要約を自動生成できることを実証した。 要約のサブセットについて手作業による評価が行われ、大多数は極めて高品質であると評価された。 また、最もよく使われている自動評価手法を適用し、人間の評価と相関しないことを示した。 最後に、我々のツールを4,600 ncRNAのセレクションに適用し、生成したサマリをRNA分散リソースを介して利用できるようにする。 文献の自動要約はLLMの現世代で実現可能であると結論し、注意深いプロンプトと自動チェックを適用した。 可用性: これらの要約を生成するために使用されるコードは、以下の通りである。 https://github.com/RNAcentral/litscan-summarization and the data of contexts and summaries。 RNAcentral (https://rnacentral.org/) の RNA レポートページにも要約が表示される。

Motivation: Curation of literature in life sciences is a growing challenge. The continued increase in the rate of publication, coupled with the relatively fixed number of curators worldwide presents a major challenge to developers of biomedical knowledgebases. Very few knowledgebases have resources to scale to the whole relevant literature and all have to prioritise their efforts. Results: In this work, we take a first step to alleviating the lack of curator time in RNA science by generating summaries of literature for non-coding RNAs using large language models (LLMs). We demonstrate that high-quality, factually accurate summaries with accurate references can be automatically generated from the literature using a commercial LLM and a chain of prompts and checks. Manual assessment was carried out for a subset of summaries, with the majority being rated extremely high quality. We also applied the most commonly used automated evaluation approaches, finding that they do not correlate with human assessment. Finally, we apply our tool to a selection of over 4,600 ncRNAs and make the generated summaries available via the RNAcentral resource. We conclude that automated literature summarization is feasible with the current generation of LLMs, provided careful prompting and automated checking are applied. Availability: Code used to produce these summaries can be found here: https://github.com/RNAcentral/litscan-summarization and the dataset of contexts and summaries can be found here: https://huggingface.co/datasets/RNAcentral/litsumm-v1. Summaries are also displayed on the RNA report pages in RNAcentral (https://rnacentral.org/)
翻訳日:2024-04-22 20:07:00 公開日:2024-04-19
# 無線Q-QAMによるブラインドフェデレーション学習

Blind Federated Learning via Over-the-Air q-QAM ( http://arxiv.org/abs/2311.04253v2 )

ライセンス: Link先を確認
Saeed Razavikia, José Mairton Barros Da Silva Júnior, Carlo Fischione, (参考訳) 本研究では,フェデレーション付きエッジ学習を,フェデレーション型マルチアクセスチャネル上で検討する。 エッジデバイスとアクセスポイント間の通信負担を軽減するため,Q-aryの2次振幅変調を用いた先駆的なディジタルオーバー・ザ・エア計算方式を導入し,低遅延通信方式で実現した。 実際、我々は、エッジデバイスがチャネル状態情報にアクセスできない状態で、エッジサーバへのオーバー・ザ・エア・アップリンク送信にデジタル変調を使用する新しいフェデレーションエッジ学習フレームワークを提案する。 さらに、エッジサーバに複数のアンテナを組み込んで、無線通信に固有の色合いを克服する。 我々は、フェージング効果を効果的に緩和するために必要なアンテナ数を分析する。 ノイズとフェーディング条件の両条件下で,デジタル上向きアップリンク伝送を用いたフェデレーション学習における平均2乗誤差の漸近上界を証明した。 非凸損失関数の学習過程の収束率を、フェーディングチャネルによる勾配の平均2乗誤差で特徴づける。 さらに、平均二乗誤差とデジタルフェデレーションエッジ学習フレームワークの収束効果に関する数値実験により、理論的な保証を裏付ける。 特に,エッジサーバにおけるアンテナ数の増加と高次変調の適用により,モデル精度が最大60%向上することを示した。

In this work, we investigate federated edge learning over a fading multiple access channel. To alleviate the communication burden between the edge devices and the access point, we introduce a pioneering digital over-the-air computation strategy employing q-ary quadrature amplitude modulation, culminating in a low latency communication scheme. Indeed, we propose a new federated edge learning framework in which edge devices use digital modulation for over-the-air uplink transmission to the edge server while they have no access to the channel state information. Furthermore, we incorporate multiple antennas at the edge server to overcome the fading inherent in wireless communication. We analyze the number of antennas required to mitigate the fading impact effectively. We prove a non-asymptotic upper bound for the mean squared error for the proposed federated learning with digital over-the-air uplink transmissions under both noisy and fading conditions. Leveraging the derived upper bound, we characterize the convergence rate of the learning process of a non-convex loss function in terms of the mean square error of gradients due to the fading channel. Furthermore, we substantiate the theoretical assurances through numerical experiments concerning mean square error and the convergence efficacy of the digital federated edge learning framework. Notably, the results demonstrate that augmenting the number of antennas at the edge server and adopting higher-order modulations improve the model accuracy up to 60\%.
翻訳日:2024-04-22 20:07:00 公開日:2024-04-19
# 到達可能な幾何量子スピード限界の族

Family of attainable geometric quantum speed limits ( http://arxiv.org/abs/2311.07862v2 )

ライセンス: Link先を確認
Zi-yi Mai, Zheng Liu, Chang-shui Yu, (参考訳) 本稿では,量子状態距離を提案し,クローズドシステムのための幾何学的量子速度制限(QSL)のファミリーを開発する。 QSL時間は、特に選択された関数を持つ3つのQSL時間を導出する代替関数を含む。 これは、2つのQSL時間がまさにRefで示されるものであることを示している。 [1] と [2] はそれぞれ開系と閉系の両方に対して統一 QSL 時間を与えることができる。 3つのQSL時間は、初期状態が測地線に沿って進化するように駆動するダイナミクスが存在するという意味で、任意の初期状態に対して達成可能である。 3つのQSL時間の厳密さを数値的に比較するが、これは典型的には、代替関数を最適化する場合、より厳密なQSL時間を約束する。

We propose a quantum state distance and develop a family of geometrical quantum speed limits (QSLs) for open and closed systems. The QSL time includes an alternative function by which we derive three QSL times with particularly chosen functions. It indicates that two QSL times are exactly the ones presented in Ref. [1] and [2], respectively, and the third one can provide a unified QSL time for both open and closed systems. The three QSL times are attainable for any given initial state in the sense that there exists a dynamics driving the initial state to evolve along the geodesic. We numerically compare the tightness of the three QSL times, which typically promises a tighter QSL time if optimizing the alternative function.
翻訳日:2024-04-22 20:07:00 公開日:2024-04-19
# 語義木による多段階推論の強化

Empowering Multi-step Reasoning across Languages via Tree-of-Thoughts ( http://arxiv.org/abs/2311.08097v2 )

ライセンス: Link先を確認
Leonardo Ranaldi, Giulia Pucci, Federico Ranaldi, Elena Sofia Ruzzetti, Fabio Massimo Zanzotto, (参考訳) 推論手法(Reasoning method)は、よく知られたChain-of-Thought (CoT) によって最もよく例示され、ステップバイステップで複雑なタスクを解くよう促すことで、Large Language Models (LLM) の推論能力を高める。 彼らは大きな成功を収めているが、事前学習データの分布の不均衡により、他の言語が障壁となるため、多段階推論を実現する能力は英語に限られている。 本稿では,言語間での言語間CoT推論を整合させる手法であるクロスランガルツリー・オブ・ソート(Cross-ToT)を提案する。 提案手法は、Tree-of-Thoughtsアプローチにインスパイアされた自己整合型言語間プロンプト機構を通じて、各言語における複数ステップの推論パスを提供する。 実験により,本手法はインタラクションの回数を減らし,最先端の性能を達成することにより,既存のプロンプト手法よりも大幅に優れていることが示された。

Reasoning methods, best exemplified by the well-known Chain-of-Thought (CoT), empower the reasoning abilities of Large Language Models (LLMs) by eliciting them to solve complex tasks in a step-by-step manner. Although they are achieving significant success, the ability to deliver multi-step reasoning remains limited to English because of the imbalance in the distribution of pre-training data, which makes other languages a barrier. In this paper, we propose Cross-lingual Tree-of-Thoughts (Cross-ToT), a method for aligning Cross-lingual CoT reasoning across languages. The proposed method, through a self-consistent cross-lingual prompting mechanism inspired by the Tree-of-Thoughts approach, provides multi-step reasoning paths in different languages that, during the steps, lead to the final solution. Experimental evaluations show that our method significantly outperforms existing prompting methods by reducing the number of interactions and achieving state-of-the-art performance.
翻訳日:2024-04-22 20:07:00 公開日:2024-04-19
# sQUlearn - 量子機械学習のためのPythonライブラリ

sQUlearn -- A Python Library for Quantum Machine Learning ( http://arxiv.org/abs/2311.08990v2 )

ライセンス: Link先を確認
David A. Kreplin, Moritz Willmann, Jan Schnabel, Frederic Rapp, Manuel Hagelüken, Marco Roth, (参考訳) sQUlearnは、Scikit-learnのような古典的な機械学習ツールとシームレスに統合するために設計された、QML(Quantum Machine Learning)用のユーザフレンドリーなNISQ対応Pythonライブラリを導入した。 ライブラリの二重層アーキテクチャはQML研究者と実践者の両方に役立ち、効率的なプロトタイピング、実験、パイプライニングを可能にする。 sQUlearnは、カスタマイズ可能なデータエンコーディング戦略、自動実行処理、特別なカーネル正規化テクニックなどの機能とともに、量子カーネルメソッドと量子ニューラルネットワークの両方を含む包括的なツールセットを提供する。 NISQ互換性とエンドツーエンドの自動化に焦点を当てることで、sQUlearnは現在の量子コンピューティング能力と実用的な機械学習アプリケーションとのギャップを埋めることを目指している。 ライブラリはかなりの柔軟性を提供し、基礎となる量子フレームワークであるQiskitとPennyLane間の迅速な移行と、シミュレーションと実際のハードウェア上での実行を可能にする。

sQUlearn introduces a user-friendly, NISQ-ready Python library for quantum machine learning (QML), designed for seamless integration with classical machine learning tools like scikit-learn. The library's dual-layer architecture serves both QML researchers and practitioners, enabling efficient prototyping, experimentation, and pipelining. sQUlearn provides a comprehensive toolset that includes both quantum kernel methods and quantum neural networks, along with features like customizable data encoding strategies, automated execution handling, and specialized kernel regularization techniques. By focusing on NISQ-compatibility and end-to-end automation, sQUlearn aims to bridge the gap between current quantum computing capabilities and practical machine learning applications. The library provides substantial flexibility, enabling quick transitions between the underlying quantum frameworks Qiskit and PennyLane, as well as between simulation and running on actual hardware.
翻訳日:2024-04-22 20:07:00 公開日:2024-04-19
# 大規模言語モデルが人間と矛盾する時 : 大規模言語モデルのシコファン的行動

When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour ( http://arxiv.org/abs/2311.09410v2 )

ライセンス: Link先を確認
Leonardo Ranaldi, Giulia Pucci, (参考訳) 大規模言語モデルは、応答を洗練させる人間のフィードバックの集中的利用によって、人間が肯定的に評価する回答を提供することによって、複雑なタスクを解く能力を示している。 しかし、人間のフィードバックを通じて伝達される示唆性は、ユーザーの信念や誤解を招くプロンプトに対応する反応を生み出す傾向を高める。 この現象はバイアス、堅牢性、その結果信頼性を低下させる。 本稿では,大規模言語モデル (LLM) のシコファン的行動への適応性について考察し,その傾向を人為的影響によって示している。 調査の結果, LLM は, 主観的意見や, 事実に基づく否定的な回答を導き出すような質問に対して, シコファン傾向を示すことが明らかとなった。 対照的に、客観的な回答を持つ数学的タスクやクエリに直面する場合、これらのモデルは、正しい回答を提示する自信を示すことによって、ユーザのヒントに従わないように思われる。

Large Language Models have been demonstrating the ability to solve complex tasks by delivering answers that are positively evaluated by humans due in part to the intensive use of human feedback that refines responses. However, the suggestibility transmitted through human feedback increases the inclination to produce responses that correspond to the users' beliefs or misleading prompts as opposed to true facts, a behaviour known as sycophancy. This phenomenon decreases the bias, robustness, and, consequently, their reliability. In this paper, we shed light on the suggestibility of Large Language Models (LLMs) to sycophantic behaviour, demonstrating these tendencies via human-influenced prompts over different tasks. Our investigation reveals that LLMs show sycophantic tendencies when responding to queries involving subjective opinions and statements that should elicit a contrary response based on facts. In contrast, when confronted with mathematical tasks or queries that have an objective answer, these models at various scales seem not to follow the users' hints by demonstrating confidence in delivering the correct answers.
翻訳日:2024-04-22 20:07:00 公開日:2024-04-19
# 3次元世界におけるエンボディード・ジェネリストエージェント

An Embodied Generalist Agent in 3D World ( http://arxiv.org/abs/2311.12871v2 )

ライセンス: Link先を確認
Jiangyong Huang, Silong Yong, Xiaojian Ma, Xiongkun Linghu, Puhao Li, Yan Wang, Qing Li, Song-Chun Zhu, Baoxiong Jia, Siyuan Huang, (参考訳) 大規模言語モデル(LLM)から膨大な知識と学習スキームを活用することで、最近の機械学習モデルは、自然言語処理、コンピュータビジョン、ロボット工学など、さまざまな領域で汎用的なタスク解決能力を示す汎用エージェントの構築において、顕著な成功を収めた。 しかし、これらのモデルが3Dの世界を理解し、相互作用する能力に制限があるため、大きな課題が残る。 この制限は、現在のモデルが現実世界のタスクを実行し、さらに汎用性を達成するのを著しく妨げている、と我々は主張する。 そこで本研究では,3次元世界における知覚,接地,推論,計画,行動に優れたマルチモーダル・マルチタスク・ジェネリストエージェントを導入する。 提案するエージェントはLEOと呼ばれ, LLMに基づくモデルアーキテクチャ, 目的, 重みを2段階に分けて学習する。 (i)3次元視覚言語アライメント (ii)3次元視覚-言語-行動調律。 学習を容易にするために,我々は,3次元世界との深い理解と相互作用を必要とする,スケールと複雑さを超越した,オブジェクトレベルおよびシーンレベルのマルチモーダルタスクからなる広範囲なデータセットを慎重にキュレートし,生成する。 厳密な実験を通じて,3Dキャプション,質問応答,具体的推論,具体的ナビゲーション,ロボット操作など,多岐にわたるLEOの卓越した熟練度を実証した。 我々のアブレーションの結果はさらに、将来の具体化ジェネリストエージェントの開発に貴重な洞察を与えてくれる。

Leveraging massive knowledge and learning schemes from large language models (LLMs), recent machine learning models show notable successes in building generalist agents that exhibit the capability of general-purpose task solving in diverse domains, including natural language processing, computer vision, and robotics. However, a significant challenge remains as these models exhibit limited ability in understanding and interacting with the 3D world. We argue this limitation significantly hinders the current models from performing real-world tasks and further achieving general intelligence. To this end, we introduce an embodied multi-modal and multi-task generalist agent that excels in perceiving, grounding, reasoning, planning, and acting in the 3D world. Our proposed agent, referred to as LEO, is trained with shared LLM-based model architectures, objectives, and weights in two stages: (i) 3D vision-language alignment and (ii) 3D vision-language-action instruction tuning. To facilitate the training, we meticulously curate and generate an extensive dataset comprising object-level and scene-level multi-modal tasks with exceeding scale and complexity, necessitating a deep understanding of and interaction with the 3D world. Through rigorous experiments, we demonstrate LEO's remarkable proficiency across a wide spectrum of tasks, including 3D captioning, question answering, embodied reasoning, embodied navigation, and robotic manipulation. Our ablation results further provide valuable insights for the development of future embodied generalist agents.
翻訳日:2024-04-22 20:07:00 公開日:2024-04-19
# ベイズ最適化のためのデータ駆動事前学習

Data-driven Prior Learning for Bayesian Optimisation ( http://arxiv.org/abs/2311.14653v2 )

ライセンス: Link先を確認
Sigrid Passano Hellan, Christopher G. Lucas, Nigel H. Goddard, (参考訳) ベイズ最適化のための転移学習は、一般に最適化タスクの間に強い類似性を仮定しており、少なくとも同様の最適入力を持つ部分集合が存在する。 この仮定は計算コストを削減できるが、転送学習が有用であるにもかかわらず、幅広い最適化問題に違反する。 我々は、この仮定を、最適化ランドスケープの形状が類似することだけを必要とする弱いものに置き換え、この設定で最近のベイズ最適化の事前学習(PLeBO)を分析します。 ガウス過程代理モデルのハイパーパラメーターの事前学習により、基礎となる函数、特に少数の関数評価についてよりよく近似することができる。 本研究は, 総合データと最近の大気汚染最適化問題をベンチマークとして, 学習先を検証し, 伝達学習アプローチの広範性と比較する。 PLeBOと先行転送は少ない評価で良好な入力が得られることを示す。

Transfer learning for Bayesian optimisation has generally assumed a strong similarity between optimisation tasks, with at least a subset having similar optimal inputs. This assumption can reduce computational costs, but it is violated in a wide range of optimisation problems where transfer learning may nonetheless be useful. We replace this assumption with a weaker one only requiring the shape of the optimisation landscape to be similar, and analyse the recent method Prior Learning for Bayesian Optimisation - PLeBO - in this setting. By learning priors for the hyperparameters of the Gaussian process surrogate model we can better approximate the underlying function, especially for few function evaluations. We validate the learned priors and compare to a breadth of transfer learning approaches, using synthetic data and a recent air pollution optimisation problem as benchmarks. We show that PLeBO and prior transfer find good inputs in fewer evaluations.
翻訳日:2024-04-22 20:07:00 公開日:2024-04-19
# MARIS: 相互認識型アテンション機能によるイメージセグメンテーションの参照

MARIS: Referring Image Segmentation via Mutual-Aware Attention Features ( http://arxiv.org/abs/2311.15727v2 )

ライセンス: Link先を確認
Mengxi Zhang, Yiming Liu, Xiangjun Yin, Huanjing Yue, Jingyu Yang, (参考訳) イメージセグメンテーション(RIS)は、言語表現プロンプトに基づいて特定の領域をセグメンテーションすることを目的としている。 既存の手法では、言語的特徴を視覚的特徴に取り入れ、マスク復号のためのマルチモーダル特徴を得る。 しかし、これらの手法は、多モードの特徴が豊富な視覚的コンテキストに支配されるため、正しい参照領域の代わりに視覚的に健全な実体を分割することができる。 本稿では,Segment Anything Model(SAM)を利用した参照画像分割手法MARISを提案する。 具体的には、視覚的特徴と言語的特徴の関係を双方向にモデル化する視覚誘導注意と言語誘導注意から構成される。 それに対応して,言語表現とのより一貫性のあるセグメンテーションのために,明示的な言語指導を可能にするマスクデコーダを設計する。 この目的のために,言語情報を統合し,同時に視覚情報と対話するマルチモーダルクエリトークンを提案する。 3つのベンチマークデータセットの大規模な実験により、我々の手法は最先端のRIS法よりも優れていることが示された。 私たちのコードは公開されます。

Referring image segmentation (RIS) aims to segment a particular region based on a language expression prompt. Existing methods incorporate linguistic features into visual features and obtain multi-modal features for mask decoding. However, these methods may segment the visually salient entity instead of the correct referring region, as the multi-modal features are dominated by the abundant visual context. In this paper, we propose MARIS, a referring image segmentation method that leverages the Segment Anything Model (SAM) and introduces a mutual-aware attention mechanism to enhance the cross-modal fusion via two parallel branches. Specifically, our mutual-aware attention mechanism consists of Vision-Guided Attention and Language-Guided Attention, which bidirectionally model the relationship between visual and linguistic features. Correspondingly, we design a Mask Decoder to enable explicit linguistic guidance for more consistent segmentation with the language expression. To this end, a multi-modal query token is proposed to integrate linguistic information and interact with visual information simultaneously. Extensive experiments on three benchmark datasets show that our method outperforms the state-of-the-art RIS methods. Our code will be publicly available.
翻訳日:2024-04-22 20:07:00 公開日:2024-04-19
# 分子特性予測のためのマルチモーダルラーニング:画像とグラフ構造に基づくフレームワーク

MultiModal-Learning for Predicting Molecular Properties: A Framework Based on Image and Graph Structures ( http://arxiv.org/abs/2311.16666v2 )

ライセンス: Link先を確認
Zhuoyuan Wang, Jiacong Mi, Shan Lu, Jieyue He, (参考訳) 薬物分子特性の正確な予測の探求は、AIDD(Artificial Intelligence Drug Discovery)の領域における根本的な課題となっている。 薬物分子の効果的な表現は、この追求において重要な要素として現れる。 現代の先進的な研究は、主に、大規模でラベル付けされていない分子データから有意義な構造的表現を抽出するために、自己教師付き学習(SSL)技術を活用し、その後、下流の一連のタスクのためにこれらの表現を微調整する。 しかしながら、これらの研究の固有の欠点は、分子画像やSMILES表現のような分子情報の1つのモダリティに依存することにあるため、様々な分子のモダリティの潜在的な相補性を無視している。 この制限に応えて,画像およびグラフ構造に基づく分子特性予測のための新しい分子事前学習フレームワーク,MultiModaLを提案する。 MolIGモデルは、分子グラフと分子画像のコヒーレンスと相関を革新的に活用して、自己教師付きタスクを実行し、両方の分子表現形式の強みを効果的に吸収する。 この全体論的アプローチは、重要な分子構造特性と高レベルの意味情報のキャプチャを可能にする。 事前トレーニングが完了すると、下流タスクの予測にグラフニューラルネットワーク(GNN)エンコーダが使用される。 高度なベースラインモデルと比較して、MoleculeNet Benchmark GroupやADMET Benchmark Groupといったベンチマークグループ内の分子特性予測に関連する下流タスクのパフォーマンスが向上している。

The quest for accurate prediction of drug molecule properties poses a fundamental challenge in the realm of Artificial Intelligence Drug Discovery (AIDD). An effective representation of drug molecules emerges as a pivotal component in this pursuit. Contemporary leading-edge research predominantly resorts to self-supervised learning (SSL) techniques to extract meaningful structural representations from large-scale, unlabeled molecular data, subsequently fine-tuning these representations for an array of downstream tasks. However, an inherent shortcoming of these studies lies in their singular reliance on one modality of molecular information, such as molecule image or SMILES representations, thus neglecting the potential complementarity of various molecular modalities. In response to this limitation, we propose MolIG, a novel MultiModaL molecular pre-training framework for predicting molecular properties based on Image and Graph structures. MolIG model innovatively leverages the coherence and correlation between molecule graph and molecule image to execute self-supervised tasks, effectively amalgamating the strengths of both molecular representation forms. This holistic approach allows for the capture of pivotal molecular structural characteristics and high-level semantic information. Upon completion of pre-training, Graph Neural Network (GNN) Encoder is used for the prediction of downstream tasks. In comparison to advanced baseline models, MolIG exhibits enhanced performance in downstream tasks pertaining to molecular property prediction within benchmark groups such as MoleculeNet Benchmark Group and ADMET Benchmark Group.
翻訳日:2024-04-22 20:07:00 公開日:2024-04-19
# シリコンチップ上のグリーンベルガー・ホルン・ザイリンガー絡みにおける量子非局所性の観察

Observation of quantum nonlocality in Greenberger-Horne-Zeilinger entanglement on a silicon chip ( http://arxiv.org/abs/2311.16745v2 )

ライセンス: Link先を確認
Leizhen Chen, Bochi Wu, Liangliang Lu, Kai Wang, Yanqing Lu, Shining Zhu, Xiao-Song Ma, (参考訳) 非局所性は量子エンタングルメントの定義的特徴である。 複数の粒子を持つ絡み合った状態は、多くの量子情報タスクと同様に、量子物理学の基礎的なテストにおいて重要である。 グリーンベルガー=ホルン=ザイリンガー状態(GHZ)は、古典的な多部量子状態の1つであり、量子物理学と局所現実論の激しい衝突を、いわゆる全対無の方法で観察することができる。 これは、統計的予測に依存する2つの粒子に対するベルの定理とは大きく異なる。 ここでは,4光子GHZ状態の生成と操作が可能な集積フォトニックチップを実演する。 量子状態トモグラフィーを用いて4光子GHZ状態の完全なキャラクタリゼーションを行い、0.729(6。 GHZエンタングルメントの量子非局所性を見極めるために、全対無検定とメルミン不等式を用いる。 我々の研究は、複雑な集積量子デバイスで量子物理学の基礎的なテストを実行する方法である。

Nonlocality is the defining feature of quantum entanglement. Entangled states with multiple particles are of crucial importance in fundamental tests of quantum physics as well as in many quantum information tasks. One of the archetypal multipartite quantum states, Greenberger-Horne-Zeilinger (GHZ) state, allows one to observe the striking conflict of quantum physics to local realism in the so-called all-versus-nothing way. This is profoundly different from Bell's theorem for two particles, which relies on statistical predictions. Here, we demonstrate an integrated photonic chip capable of generating and manipulating the four-photon GHZ state. We perform a complete characterization of the four-photon GHZ state using quantum state tomography and obtain a state fidelity of 0.729(6). We further use the all-versus-nothing test and the Mermin inequalities to witness the quantum nonlocality of GHZ entanglement. Our work paves the way to perform fundamental tests of quantum physics with complex integrated quantum devices.
翻訳日:2024-04-22 20:07:00 公開日:2024-04-19
# RefinedFields: 制約のないシーンのための放射場リファインメント

RefinedFields: Radiance Fields Refinement for Unconstrained Scenes ( http://arxiv.org/abs/2312.00639v3 )

ライセンス: Link先を確認
Karim Kassab, Antoine Schnepf, Jean-Yves Franceschi, Laurent Caraffa, Jeremie Mary, Valérie Gouet-Brunet, (参考訳) 制約のない画像から大きなシーンをモデル化することは、コンピュータビジョンにおいて大きな課題であることが証明されている。 実世界の画像から取得した事前条件が存在しないクローズドワールド設定で既存のシーンモデリングに対処する方法が存在する。 筆者らはRefinedFieldsを提案するが、これは私たちの知る限り、事前学習されたモデルを活用して、現場でのシーンモデリングを改善する最初の方法である。 我々は、交互学習手法を用いて最適化誘導によりK-Planes表現を洗練するために、事前訓練ネットワークを用いる。 本研究では,本手法が合成データや実際の観光写真コレクションに与える影響を検証し,広範な実験を行った。 RefinedFieldsは、よりリッチなディテールでレンダリングシーンを強化し、野生における新しいビュー合成のタスクにおけるベース表現を改善します。 私たちのプロジェクトページはhttps://refinedfields.github.io.comにある。

Modeling large scenes from unconstrained images has proven to be a major challenge in computer vision. Existing methods tackling in-the-wild scene modeling operate in closed-world settings, where no conditioning on priors acquired from real-world images is present. We propose RefinedFields, which is, to the best of our knowledge, the first method leveraging pre-trained models to improve in-the-wild scene modeling. We employ pre-trained networks to refine K-Planes representations via optimization guidance using an alternating training procedure. We carry out extensive experiments and verify the merit of our method on synthetic data and real tourism photo collections. RefinedFields enhances rendered scenes with richer details and improves upon its base representation on the task of novel view synthesis in the wild. Our project page can be found at https://refinedfields.github.io.
翻訳日:2024-04-22 19:57:15 公開日:2024-04-19
# 縮退トポロジカル半金属における非アベリア量子幾何テンソル

Non-Abelian quantum geometric tensor in degenerate topological semimetals ( http://arxiv.org/abs/2312.01086v2 )

ライセンス: Link先を確認
Hai-Tao Ding, Chang-Xiao Zhang, Jing-Xin Liu, Jian-Te Wang, Dan-Wei Zhang, Shi-Liang Zhu, (参考訳) 量子幾何学テンソル(QGT)は、量子状態の完全な幾何学的性質を特徴づけ、対称部は量子計量、反対称部はベリー曲率である。 我々は、大域的退化基底状態を持つジェネリックハミルトニアンを提案し、対応する非アベリア量子計量と単位ブロッホベクトルの一般関係を与える。 これにより、非アベリア量子計量とベリーあるいはオイラー曲率の関係を構築することができる。 具体的には、CP と $C_2T$ 対称性の下で、大域的な縮退したバンドを持つ2つのトポロジカル半金属モデルを提示し、研究する。 これら2つの退化位相的半金属の位相不変量はチャーン数とオイラー類であり、これは構成された関係を持つ非アベリア量子計量から計算される。 断熱摂動理論に基づき、非アベリア量子計量とエネルギーゆらぎの関係をさらに得る。 このような非断熱効果は、非アベリア量子計量を抽出するために使用することができ、これは退化位相的半金属の2つのモデルに対して数値的に示される。 最後に、冷たい原子を持つモデルハミルトンの量子シミュレーションについて論じる。

The quantum geometric tensor (QGT) characterizes the complete geometric properties of quantum states, with the symmetric part being the quantum metric, and the antisymmetric part being the Berry curvature. We propose a generic Hamiltonian with global degenerate ground states, and give a general relation between the corresponding non-Abelian quantum metric and unit Bloch vector. This enables us to construct the relation between the non-Abelian quantum metric and Berry or Euler curvature. To be concrete, we present and study two topological semimetal models with global degenerate bands under CP and $C_2T$ symmetries, respectively. The topological invariants of these two degenerate topological semimetals are the Chern number and Euler class, respectively, which are calculated from the non-Abelian quantum metric with our constructed relations. Based on the adiabatic perturbation theory, we further obtain the relation between the non-Abelian quantum metric and the energy fluctuation. Such a non-adiabatic effect can be used to extract the non-Abelian quantum metric, which is numerically demonstrated for the two models of degenerate topological semimetals. Finally, we discuss the quantum simulation of the model Hamiltonians with cold atoms.
翻訳日:2024-04-22 19:57:15 公開日:2024-04-19
# 経験と相互作用による機械学習のモラル学習

Learning Machine Morality through Experience and Interaction ( http://arxiv.org/abs/2312.01818v2 )

ライセンス: Link先を確認
Elizaveta Tennant, Stephen Hailes, Mirco Musolesi, (参考訳) 次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。 伝統的に、これは明示的なトップダウンルールやシステムの厳しい制約を課すことによって行われてきた。 近年,人間の行動から暗黙の選好を学習するためのボトムアップ手法が普及してきている。 本稿では,機械に道徳を導入する問題に対する既存のアプローチの体系化を提供する。これは連続体としてモデル化され,一般的なテクニックの大部分が,完全にハードコードされているか,完全に学習されているかのいずれかであり,モラル原理の明示的な記述は不要である,と論じる。 それぞれの方法論の相対的な長所と短所を考えると、適応可能で堅牢だが制御可能で解釈可能なエージェントを作るには、よりハイブリッドなソリューションが必要であると論じる。 特に、経験から学ぶこと(すなわち強化学習)を用いて学習エージェントに道徳的原則を明示的に提供する最近の作品のケーススタディを、本質的な報酬、道徳的論理的制約、言語モデルのためのテキスト的原則として提示する。 例えば、社会ジレンマゲームにおける本質的な報酬を用いて、エージェントに対する古典的な道徳的枠組みをいかに表現できるかを実証する。 また,本分野における既存研究の概要を概説し,このハイブリッドアプローチの可能性を示す実証的な証拠を提供する。 次に、道徳学習エージェントの有効性を評価するための戦略について議論する。 最後に、この枠組みから生まれたAIの安全性と倫理の将来について、オープンな研究の疑問と示唆を提示する。

Increasing interest in ensuring safety of next-generation Artificial Intelligence (AI) systems calls for novel approaches to embedding morality into autonomous agents. Traditionally, this has been done by imposing explicit top-down rules or hard constraints on systems, for example by filtering system outputs through pre-defined ethical rules. Recently, instead, entirely bottom-up methods for learning implicit preferences from human behavior have become increasingly popular, such as those for training and fine-tuning Large Language Models. In this paper, we provide a systematization of existing approaches to the problem of introducing morality in machines - modeled as a continuum, and argue that the majority of popular techniques lie at the extremes - either being fully hard-coded, or entirely learned, where no explicit statement of any moral principle is required. Given the relative strengths and weaknesses of each type of methodology, we argue that more hybrid solutions are needed to create adaptable and robust, yet more controllable and interpretable agents. In particular, we present three case studies of recent works which use learning from experience (i.e., Reinforcement Learning) to explicitly provide moral principles to learning agents - either as intrinsic rewards, moral logical constraints or textual principles for language models. For example, using intrinsic rewards in Social Dilemma games, we demonstrate how it is possible to represent classical moral frameworks for agents. We also present an overview of the existing work in this area in order to provide empirical evidence for the potential of this hybrid approach. We then discuss strategies for evaluating the effectiveness of moral learning agents. Finally, we present open research questions and implications for the future of AI safety and ethics which are emerging from this framework.
翻訳日:2024-04-22 19:57:15 公開日:2024-04-19
# Open-Vocabulary Caption Hallucinations の誤用

Mitigating Open-Vocabulary Caption Hallucinations ( http://arxiv.org/abs/2312.03631v3 )

ライセンス: Link先を確認
Assaf Ben-Kish, Moran Yanuka, Morris Alper, Raja Giryes, Hadar Averbuch-Elor, (参考訳) 近年、画像条件付きテキスト生成が急速に進歩しているが、画像キャプションは幻覚の根本的な問題、すなわち、与えられた画像から推測できない急激な細部の生成に悩まされている。 既存の方法は、画像キャプションにおける幻覚を緩和または評価するために、主に閉語彙オブジェクトリストを使用しており、実際に発生する幻覚の長い尾の性質を無視している。 そこで本稿では,オープン語彙設定における画像キャプションの幻覚に対処する枠組みを提案する。 我々のフレームワークには、生成基礎モデルを活用して画像キャプションのためのオープン語彙オブジェクト幻覚を評価するOpenCHAIRという新しいベンチマークが含まれている。 さらに,閉鎖対象リストを使わずにオープン語彙の幻覚を緩和するために,強化学習の進歩を生かしたMOCHaを提案する。 我々の多目的報酬関数は、強い監督を必要とせず、世代ごとの忠実性と妥当性のトレードオフを明示的に目標としています。 MOCHaは、OpenCHAIRベンチマークやその他の既存のメトリクスによってキャプチャされるように、さまざまなイメージキャプションモデルを改善します。 コードとモデルをリリースします。

While recent years have seen rapid progress in image-conditioned text generation, image captioning still suffers from the fundamental issue of hallucinations, namely, the generation of spurious details that cannot be inferred from the given image. Existing methods largely use closed-vocabulary object lists to mitigate or evaluate hallucinations in image captioning, ignoring the long-tailed nature of hallucinations that occur in practice. To this end, we propose a framework for addressing hallucinations in image captioning in the open-vocabulary setting. Our framework includes a new benchmark, OpenCHAIR, that leverages generative foundation models to evaluate open-vocabulary object hallucinations for image captioning, surpassing the popular and similarly-sized CHAIR benchmark in both diversity and accuracy. Furthermore, to mitigate open-vocabulary hallucinations without using a closed object list, we propose MOCHa, an approach harnessing advancements in reinforcement learning. Our multi-objective reward function explicitly targets the trade-off between fidelity and adequacy in generations without requiring any strong supervision. MOCHa improves a large variety of image captioning models, as captured by our OpenCHAIR benchmark and other existing metrics. We will release our code and models.
翻訳日:2024-04-22 19:57:15 公開日:2024-04-19
# Lite-Mind: 効率的でロバストな脳表現ネットワークを目指して

Lite-Mind: Towards Efficient and Robust Brain Representation Network ( http://arxiv.org/abs/2312.03781v3 )

ライセンス: Link先を確認
Zixuan Gong, Qi Zhang, Guangyin Bao, Lei Zhu, Yu Zhang, Ke Liu, Liang Hu, Duoqian Miao, (参考訳) 限られたデータ可用性とfMRI信号の低信号対雑音比は、fMRI対画像検索の難題に繋がる。 最先端のMindEyeは、大きなモデルである996MのMLPバックボーンを活用して、fMRIの埋め込みをCLIPのVision Transformer(ViT)の最終的な隠蔽層に合わせることにより、fMRIから画像への検索性能を著しく向上させる。 しかし、同じ実験環境下であっても、被験者間で有意な個人差が存在し、大きな対象特化モデルの訓練が義務付けられている。 実質的なパラメータは、実用的なデバイスにfMRIデコーディングをデプロイする上で大きな課題となる。 そこで本研究では,離散フーリエ変換(DFT)に基づく軽量で効率的で堅牢な脳表現学習パラダイムであるLite-Mindを提案する。 スペクトル圧縮および周波数プロジェクタモジュールを用いたDFTバックボーンを精巧に設計し、情報的かつ堅牢なボクセル埋め込みを学習する。 実験の結果,Lite-Mind は対象1の NSD データセットに対して,94.6% の fMRI-to-image 精度を達成でき,パラメータは MindEye よりも98.7% 少ないことがわかった。 Lite-Mindはまた、より小さなfMRIデータセットに移行できることが証明されており、GODデータセット上でゼロショット分類のための新しい最先端技術を確立している。

The limited data availability and the low signal-to-noise ratio of fMRI signals lead to the challenging task of fMRI-to-image retrieval. State-of-the-art MindEye remarkably improves fMRI-to-image retrieval performance by leveraging a large model, i.e., a 996M MLP Backbone per subject, to align fMRI embeddings to the final hidden layer of CLIP's Vision Transformer (ViT). However, significant individual variations exist among subjects, even under identical experimental setups, mandating the training of large subject-specific models. The substantial parameters pose significant challenges in deploying fMRI decoding on practical devices. To this end, we propose Lite-Mind, a lightweight, efficient, and robust brain representation learning paradigm based on Discrete Fourier Transform (DFT), which efficiently aligns fMRI voxels to fine-grained information of CLIP. We elaborately design a DFT backbone with Spectrum Compression and Frequency Projector modules to learn informative and robust voxel embeddings. Our experiments demonstrate that Lite-Mind achieves an impressive 94.6% fMRI-to-image retrieval accuracy on the NSD dataset for Subject 1, with 98.7% fewer parameters than MindEye. Lite-Mind is also proven to be able to be migrated to smaller fMRI datasets and establishes a new state-of-the-art for zero-shot classification on the GOD dataset.
翻訳日:2024-04-22 19:57:15 公開日:2024-04-19
# 光子数分解装置としてのEMCCDによる量子SNRの多重化

Multifold enhancement of quantum SNR by using an EMCCD as a photon number resolving device ( http://arxiv.org/abs/2312.04184v2 )

ライセンス: Link先を確認
Rounak Chatterjee, Vikas Bhat, Kiran Bajar, Sushil Mujumdar, (参考訳) 電子増倍電荷結合デバイス(Electron Multiplying Charge Coupled Devices、EMCCD)は、その高い量子効率と空間分解能により、典型的な量子光学現象と関連する応用を研究するために広く利用されている。 研究者はすでに、その出力が推定ノイズレベルよりも高いか低いかに基づいて、ピクセルが単一の光子を検出するかどうかを統計的に決定できる手順を開発している。 しかし、これらの技術は、非常に低い光子数(露出当たりの光子の平均数は約0.15個)で実現可能であり、1ピクセル当たりの光子数は少なくとも1個である。 この制限は、あらゆる研究に必要な非常に多くのフレームを必要とする。 本研究では,任意の露光時間に対して,フレーム毎の光子の平均レートを推定する手法を提案する。 その後、各画素の入射光子数(光子数)を統計的に推定する。 これにより,EMCCDを光子数解決装置として有効利用することができる。 これにより、実験において許容される光レベルが直ちに増大し、必要な実験時間を大幅に短縮する。 提案手法の実証として, 自発パラメトリックダウン変換法により生成した一対の空間的絡み合った光子による量子相関のコントラストの定量化を行う。 従来の手法と比較して,データ収集時間の約半分で約3倍の信号対雑音比の増大を実現する。 このSNRは、露光時間などの実験パラメータの微調整によって容易に向上することができる。

The Electron Multiplying Charge Coupled Devices (EMCCD), owing to their high quantum efficiency and spatial resolution, are widely used to study typical quantum optical phenomena and related applications. Researchers have already developed a procedure that enables one to statistically determine whether a pixel detects a single photon, based on whether its output is higher or lower than the estimated noise level. However, these techniques are feasible at extremely low photon numbers (about 0.15 mean number of photons per pixel per exposure), allowing for at most one photon per pixel. This limitation necessitates a very large number of frames required for any study. In this work, we present a method to estimate the mean rate of photons per pixel per frame for arbitrary exposure time. Subsequently, we make a statistical estimate of the number of photons (greater than or equal to 1) incident on each pixel. This allows us to effectively utilize the EMCCD as a photon number resolving device. This immediately augments the acceptable light levels in the experiments, leading to significant reduction in the required experimentation time. As evidence of our approach, we quantify contrast in quantum correlation exhibited by a pair of spatially entangled photons generated by Spontaneous Parametric Down Conversion process. In comparison to conventional methods, our method realizes an enhancement in the signal to noise ratio by about a factor of 3 for half the data collection time. This SNR can be easily enhanced by minor modifications in experimental parameters such as exposure time etc.
翻訳日:2024-04-22 19:57:15 公開日:2024-04-19
# 自動運転におけるレーダーデータ表現の探索 - 総合的なレビュー

Exploring Radar Data Representations in Autonomous Driving: A Comprehensive Review ( http://arxiv.org/abs/2312.04861v2 )

ライセンス: Link先を確認
Shanliang Yao, Runwei Guan, Zitian Peng, Chenhang Xu, Yilu Shi, Weiping Ding, Eng Gee Lim, Yong Yue, Hyungjoon Seo, Ka Lok Man, Jieming Ma, Xiaohui Zhu, Yutao Yue, (参考訳) センサー技術とディープラーニングの急速な進歩により、自律運転システムはインテリジェントな輸送だけでなく、インテリジェントな車両への安全かつ効率的なアクセスを提供しようとしている。 これらの装備されたセンサーのうち、レーダーセンサーは多様な環境条件下で堅牢な知覚情報を提供する上で重要な役割を担っている。 このレビューでは、自律運転システムで使用される異なるレーダーデータ表現の探索に焦点を当てる。 まず,レーダ知覚の動作原理とレーダ計測の信号処理を検証し,レーダセンサの機能と限界を紹介する。 次に、ADC信号、レーダテンソル、点雲、グリッドマップ、マイクロドップラーシグネチャを含む5つのレーダ表現の生成過程を探索する。 各レーダ表現について、関連するデータセット、方法、利点、限界について検討する。 さらに、これらのデータ表現で直面する課題について考察し、潜在的研究の方向性を提案する。 この総合的なレビューは、これらの表現が自律システムの能力をどのように強化するかを詳細に把握し、レーダー知覚研究者のためのガイダンスを提供する。 異なるデータ表現、データセット、メソッドの検索と比較を容易にするため、https://radar-camera-fusion.github.io/radar.comでインタラクティブなWebサイトを提供する。

With the rapid advancements of sensor technology and deep learning, autonomous driving systems are providing safe and efficient access to intelligent vehicles as well as intelligent transportation. Among these equipped sensors, the radar sensor plays a crucial role in providing robust perception information in diverse environmental conditions. This review focuses on exploring different radar data representations utilized in autonomous driving systems. Firstly, we introduce the capabilities and limitations of the radar sensor by examining the working principles of radar perception and signal processing of radar measurements. Then, we delve into the generation process of five radar representations, including the ADC signal, radar tensor, point cloud, grid map, and micro-Doppler signature. For each radar representation, we examine the related datasets, methods, advantages and limitations. Furthermore, we discuss the challenges faced in these data representations and propose potential research directions. Above all, this comprehensive review offers an in-depth insight into how these representations enhance autonomous system capabilities, providing guidance for radar perception researchers. To facilitate retrieval and comparison of different data representations, datasets and methods, we provide an interactive website at https://radar-camera-fusion.github.io/radar.
翻訳日:2024-04-22 19:57:15 公開日:2024-04-19
# 微調整拡散モデルに対するブラックボックスメンバーシップ推論攻撃

Black-box Membership Inference Attacks against Fine-tuned Diffusion Models ( http://arxiv.org/abs/2312.08207v3 )

ライセンス: Link先を確認
Yan Pang, Tianhao Wang, (参考訳) 拡散に基づく画像生成モデルの急速な進歩により、生成画像の品質はますますフォトリアリスティックになりつつある。 さらに、高品質なトレーニング済み画像生成モデルのリリースにより、多くのユーザーがこれらのトレーニング済みモデルをダウンロードして、さまざまな画像生成タスクのための下流データセットで微調整している。 しかし、下流タスクにそのような強力なトレーニング済みモデルを採用すると、重大なプライバシー漏洩のリスクが生じる。 本稿では,近年の拡散モデルに適した再構成型メンバシップ推論攻撃フレームワークと,より厳密なブラックボックスアクセス設定を提案する。 4つの異なる攻撃シナリオと3種類の攻撃を考えると、このフレームワークは一般的な条件付きジェネレータモデルをターゲットにし、0.95ドルの印象的なAUCによって証明された高い精度を達成することができる。

With the rapid advancement of diffusion-based image-generative models, the quality of generated images has become increasingly photorealistic. Moreover, with the release of high-quality pre-trained image-generative models, a growing number of users are downloading these pre-trained models to fine-tune them with downstream datasets for various image-generation tasks. However, employing such powerful pre-trained models in downstream tasks presents significant privacy leakage risks. In this paper, we propose the first reconstruction-based membership inference attack framework, tailored for recent diffusion models, and in the more stringent black-box access setting. Considering four distinct attack scenarios and three types of attacks, this framework is capable of targeting any popular conditional generator model, achieving high precision, evidenced by an impressive AUC of $0.95$.
翻訳日:2024-04-22 19:57:15 公開日:2024-04-19
# FedSSA:効率的なモデル・異種個人化フェデレーション学習のための意味的類似性に基づくアグリゲーション

FedSSA: Semantic Similarity-based Aggregation for Efficient Model-Heterogeneous Personalized Federated Learning ( http://arxiv.org/abs/2312.09006v3 )

ライセンス: Link先を確認
Liping Yi, Han Yu, Zhuan Shi, Gang Wang, Xiaoguang Liu, Lizhen Cui, Xiaoxiao Li, (参考訳) フェデレートラーニング(Federated Learning, FL)は、プライバシ保護と協調的な機械学習パラダイムである。 従来のFLでは、すべてのデータ所有者(FLクライアント)が同じローカルモデルをトレーニングする必要がある。 この設計は、データやシステムの不均一性を含むシナリオには適していない。 MHPFL(Model-Heterogeneous Personalized FL)がこの課題に対処するために登場した。 既存のMHPFLアプローチは、学習タスクと同じ性質の公開データセットに依存している場合や、高い計算と通信コストがかかる場合が多い。 これらの制約に対処するため、教師付き分類タスクのためのフェデレート・セマンティック・類似性集約(FedSSA)アプローチを提案し、各クライアントのモデルを異種(構造差)特徴抽出器と均質(構造相)分類ヘッダに分割する。 セマンティックな類似性に基づくヘッダパラメータアグリゲーションを通じて、ローカルからグローバルへの知識伝達を行う。 さらに、各クライアントの最新のグローバルヘッダーと過去のローカルヘッダーの目に見えるパラメータを融合させる適応パラメータ安定化戦略により、グローバルからローカルへの知識伝達を実現する。 FedSSAは公開データセットに依存しないが、コスト削減のためには部分的なヘッダパラメータ送信しか必要としない。 理論的解析は、FedSSAの収束を証明している。 大規模な実験では、FedSSAの精度は3.62%、通信効率は15.54倍、計算効率は7つの最先端のMHPFLベースラインに比べて15.52倍である。

Federated learning (FL) is a privacy-preserving collaboratively machine learning paradigm. Traditional FL requires all data owners (a.k.a. FL clients) to train the same local model. This design is not well-suited for scenarios involving data and/or system heterogeneity. Model-Heterogeneous Personalized FL (MHPFL) has emerged to address this challenge. Existing MHPFL approaches often rely on a public dataset with the same nature as the learning task, or incur high computation and communication costs. To address these limitations, we propose the Federated Semantic Similarity Aggregation (FedSSA) approach for supervised classification tasks, which splits each client's model into a heterogeneous (structure-different) feature extractor and a homogeneous (structure-same) classification header. It performs local-to-global knowledge transfer via semantic similarity-based header parameter aggregation. In addition, global-to-local knowledge transfer is achieved via an adaptive parameter stabilization strategy which fuses the seen-class parameters of historical local headers with that of the latest global header for each client. FedSSA does not rely on public datasets, while only requiring partial header parameter transmission to save costs. Theoretical analysis proves the convergence of FedSSA. Extensive experiments present that FedSSA achieves up to 3.62% higher accuracy, 15.54 times higher communication efficiency, and 15.52 times higher computational efficiency compared to 7 state-of-the-art MHPFL baselines.
翻訳日:2024-04-22 19:57:15 公開日:2024-04-19
# RANRAC:ランダム・レイ・コンセンサスによるロバスト・ニューラルシーン表現

RANRAC: Robust Neural Scene Representations via Random Ray Consensus ( http://arxiv.org/abs/2312.09780v2 )

ライセンス: Link先を確認
Benno Buschmann, Andreea Dogaru, Elmar Eisemann, Michael Weinmann, Bernhard Egger, (参考訳) 画像観察にシーンモデルを適用することに依存するニューラルラディアンスフィールドや光場ネットワークのような学習ベースのシーン表現は、閉塞による画像内の不整合、不正確な推定カメラパラメータ、レンズフレアのような効果といった問題に一般的に遭遇する。 この課題に対処するために、random RAy Consensus (RANRAC) を導入し、一貫性のないデータの影響を排除し、モデルフィッティングのための古典的RANSACに基づく外れ値検出からインスピレーションを得る。 ロバストな損失定式化に基づくアウトレーヤ効果の低下とは対照的に,本手法では不整合な視点を確実に検出・排除し,フローティングアーティファクトを使わずにクリーンな画像を生成する。 この目的のために、RANSACパラダイムのファジィ適応を定式化し、大規模モデルへの適用を可能にする。 モデルパラメータを調整可能なハイパーパラメータとして決定するために最小限のサンプル数を解釈し、データ駆動モデルを用いて仮説の生成を調査し、ノイズの多い環境下での仮説の検証を分析する。 我々は,ニューラルネットワークを用いた実世界の画像から,光フィールドネットワークに基づく単一ショット再構成と,フォトリアリスティック・ロバストな多視点再構成を実現するためのソリューションの互換性と可能性を実証した。 特に,合成シーンと撮影シーンの両面に,オクルージョン,ノイズカメラのポーズ推定,非焦点視点などの不整合性があるような,最先端のロバストな合成手法と比較して,顕著な改善が認められた。 さらに, 閉塞画像からの単発再建に有意な改善が認められた。 Project Page: https://bennobuschmann.com/ranrac/

Learning-based scene representations such as neural radiance fields or light field networks, that rely on fitting a scene model to image observations, commonly encounter challenges in the presence of inconsistencies within the images caused by occlusions, inaccurately estimated camera parameters or effects like lens flare. To address this challenge, we introduce RANdom RAy Consensus (RANRAC), an efficient approach to eliminate the effect of inconsistent data, thereby taking inspiration from classical RANSAC based outlier detection for model fitting. In contrast to the down-weighting of the effect of outliers based on robust loss formulations, our approach reliably detects and excludes inconsistent perspectives, resulting in clean images without floating artifacts. For this purpose, we formulate a fuzzy adaption of the RANSAC paradigm, enabling its application to large scale models. We interpret the minimal number of samples to determine the model parameters as a tunable hyperparameter, investigate the generation of hypotheses with data-driven models, and analyze the validation of hypotheses in noisy environments. We demonstrate the compatibility and potential of our solution for both photo-realistic robust multi-view reconstruction from real-world images based on neural radiance fields and for single-shot reconstruction based on light-field networks. In particular, the results indicate significant improvements compared to state-of-the-art robust methods for novel-view synthesis on both synthetic and captured scenes with various inconsistencies including occlusions, noisy camera pose estimates, and unfocused perspectives. The results further indicate significant improvements for single-shot reconstruction from occluded images. Project Page: https://bennobuschmann.com/ranrac/
翻訳日:2024-04-22 19:57:15 公開日:2024-04-19
# 医用時系列におけるイベントベースコントラスト学習

Event-Based Contrastive Learning for Medical Time Series ( http://arxiv.org/abs/2312.10308v3 )

ライセンス: Link先を確認
Hyewon Jeong, Nassim Oufattole, Matthew Mcdermott, Aparna Balagopalan, Bryan Jangeesingh, Marzyeh Ghassemi, Collin Stultz, (参考訳) 臨床実践では、重要な医療イベントの後、患者が有害な結果のリスクが高いかどうかを判断する必要があることが多い。 例えば、急性心血管イベント後の副作用のリスクの定量化は、医療提供者がこれらの患者を最も悪い結果のリスクで識別するのに役立つ。 しかし、特に心不全などの慢性疾患に苦しむ患者にとって、慢性的な医療データの複雑さ、変動性、不均一性から、有害な結果のリスクを評価することは困難である。 本稿では,鍵指標イベント前後の時間情報を保存する異種患者データの埋め込みを学習するためのイベントベースコントラスト学習(EBCL)を紹介する。 EBCLは、他の事前学習手法と比較して、重要な下流タスクの性能向上をもたらすモデルを構築するのに利用できることを示す。 我々は,大病院ネットワークから得られた心不全患者のコホートと,大3次医療センターの集中治療室の患者からなるMIMIC-IVデータセットを用いて,その方法を開発した。 両方のコホートにおいて、EBCL事前訓練は、死亡率、病院の入院期間、滞在期間など、多くの下流業務に関して実行されたモデルを生成する。 さらに、教師なしEBCL埋め込みは、心不全患者を異なる結果のサブグループに効果的にクラスタリングすることで、新しい心不全表現型を特定するのに役立つ情報を提供する。 インデックスイベントに関する対照的なフレームワークは、幅広い時系列データセットに適応することができ、パーソナライズされたケアをガイドするために使用できる情報を提供する。

In clinical practice, one often needs to identify whether a patient is at high risk of adverse outcomes after some key medical event. For example, quantifying the risk of adverse outcomes after an acute cardiovascular event helps healthcare providers identify those patients at the highest risk of poor outcomes; i.e., patients who benefit from invasive therapies that can lower their risk. Assessing the risk of adverse outcomes, however, is challenging due to the complexity, variability, and heterogeneity of longitudinal medical data, especially for individuals suffering from chronic diseases like heart failure. In this paper, we introduce Event-Based Contrastive Learning (EBCL) - a method for learning embeddings of heterogeneous patient data that preserves temporal information before and after key index events. We demonstrate that EBCL can be used to construct models that yield improved performance on important downstream tasks relative to other pretraining methods. We develop and test the method using a cohort of heart failure patients obtained from a large hospital network and the publicly available MIMIC-IV dataset consisting of patients in an intensive care unit at a large tertiary care center. On both cohorts, EBCL pretraining yields models that are performant with respect to a number of downstream tasks, including mortality, hospital readmission, and length of stay. In addition, unsupervised EBCL embeddings effectively cluster heart failure patients into subgroups with distinct outcomes, thereby providing information that helps identify new heart failure phenotypes. The contrastive framework around the index event can be adapted to a wide array of time-series datasets and provides information that can be used to guide personalized care.
翻訳日:2024-04-22 19:57:15 公開日:2024-04-19
# EVI-SAM:ロバスト、リアルタイム、タイトに結合したイベント-ビジュアル-慣性状態推定と3次元Dense Mapping

EVI-SAM: Robust, Real-time, Tightly-coupled Event-Visual-Inertial State Estimation and 3D Dense Mapping ( http://arxiv.org/abs/2312.11911v2 )

ライセンス: Link先を確認
Weipeng Guan, Peiyu Chen, Huibin Zhao, Yu Wang, Peng Lu, (参考訳) イベントカメラは、バイオインスパイアされたモーションアクティベーションセンサーであり、モーションぼけやハイダイナミックレンジといった困難な状況に対処する上で大きな可能性を示す。 本稿では,単眼イベントカメラを用いた6自由度ポーズトラッキングと3次元再構成の課題に対処するEVI-SAMを提案する。 新しいイベントベースのハイブリッドトラッキングフレームワークは、特徴マッチングの堅牢性と直接アライメントの精度を活用することで、ポーズを推定するように設計されている。 具体的には、イベントベースの2D-2Dアライメントを開発し、光度制約を構築し、イベントベースの再投影制約と密に統合する。 マッピングモジュールは、画像誘導イベントベースのマッピング手法により、シーンの濃密でカラフルな深さを復元する。 その後、3Dシーンの外観、テクスチャ、表面メッシュは、TSDF融合を用いて複数の視点から深度マップを融合することにより再構成することができる。 私たちの知る限りでは、イベントベースの高密度マッピングを実現するための非学習作業としてはこれが初めてです。 本手法の優れた性能を定性的に定量的に示すために,公開データセットと自己収集データセットの両方で数値評価を行った。 我々のEVI-SAMは、計算効率を維持しながら精度と堅牢性を効果的にバランスさせ、挑戦シナリオにおいて優れたポーズ追跡と密集写像性能を示す。 Video Demo: https://youtu.be/Nn40U4e5Si8.com

Event cameras are bio-inspired, motion-activated sensors that demonstrate substantial potential in handling challenging situations, such as motion blur and high-dynamic range. In this paper, we proposed EVI-SAM to tackle the problem of 6 DoF pose tracking and 3D reconstruction using monocular event camera. A novel event-based hybrid tracking framework is designed to estimate the pose, leveraging the robustness of feature matching and the precision of direct alignment. Specifically, we develop an event-based 2D-2D alignment to construct the photometric constraint, and tightly integrate it with the event-based reprojection constraint. The mapping module recovers the dense and colorful depth of the scene through the image-guided event-based mapping method. Subsequently, the appearance, texture, and surface mesh of the 3D scene can be reconstructed by fusing the dense depth map from multiple viewpoints using truncated signed distance function (TSDF) fusion. To the best of our knowledge, this is the first non-learning work to realize event-based dense mapping. Numerical evaluations are performed on both publicly available and self-collected datasets, which qualitatively and quantitatively demonstrate the superior performance of our method. Our EVI-SAM effectively balances accuracy and robustness while maintaining computational efficiency, showcasing superior pose tracking and dense mapping performance in challenging scenarios. Video Demo: https://youtu.be/Nn40U4e5Si8.
翻訳日:2024-04-22 19:57:15 公開日:2024-04-19
# 量子情報処理のためのロバスト原子光子ゲート

Robust atom-photon gate for quantum information processing ( http://arxiv.org/abs/2312.13221v3 )

ライセンス: Link先を確認
Omar Nagib, P. Huft, A. Safari, M. Saffman, (参考訳) 本研究では,空飛ぶ光子と空洞内の原子との間に2量子ゲートを配置する手法を提案する。 原子-光子ゲートの配置は、空洞とマッハ-ツェンダー干渉計と2重縮退した地面と、原子-光相互作用を媒介する励起状態エネルギーレベルから構成される。 本稿では,光子と空洞間の空間モードミスマッチ,自然放出,空洞損失,変形,空洞パラメータと周波数のランダム変動など,ゲートの誤差解析と重要な誤差のモデル化を行う。 誤り解析により、ゲートプロトコルは以前の原子-光子ゲートと比較して実験誤差に対してより堅牢であり、高い忠実性を達成することが示された。

We propose a scheme for two-qubit gates between a flying photon and an atom in a cavity. The atom-photon gate setup consists of a cavity and a Mach-Zehnder interferometer with doubly degenerate ground and excited state energy levels mediating the atom-light interaction. We provide an error analysis of the gate and model important errors, including spatial mode mismatch between the photon and the cavity, spontaneous emission, cavity losses, detunings, and random fluctuations of the cavity parameters and frequencies. Error analysis shows that the gate protocol is more robust against experimental errors compared to previous atom-photon gates and achieves higher fidelity.
翻訳日:2024-04-22 19:47:30 公開日:2024-04-19
# ビザンチン系ロバスト集団の高次元攻撃

Attacking Byzantine Robust Aggregation in High Dimensions ( http://arxiv.org/abs/2312.14461v2 )

ライセンス: Link先を確認
Sarthak Choudhary, Aashish Kolluri, Prateek Saxena, (参考訳) 現代のニューラルネットワークやモデルを訓練するには、通常、高次元ベクトルのサンプルを平均化する必要がある。 ポジショニング攻撃は、モデルをトレーニングするのに使われる平均ベクトルを歪ませたりバイアスしたりし、モデルを特定のパターンを学習させたり、何か役に立つものを学ぶのを防いだりする。 ビザンティン・ロバスト・アグリゲーションは、そのような偏見に対するアルゴリズムの原則的な防御である。 ロバストアグリゲータは、入力の一部が任意に破損しても、平均のような計算中心性統計学における最大バイアスを拘束することができる。 このようなアグリゲータの設計は、高次元を扱う際には困難である。 しかし、このバイアスに強い理論的境界を持つ最初の多項式時間アルゴリズムが最近提案されている。 彼らの境界線は数次元とは無関係であり、防衛戦における毒殺の威力に対する概念的な制限を約束している。 本稿では,次元非依存バイアスの主張を覆す強力な防御の実現に向けたHIDRAと呼ばれる新たな攻撃を示す。 HIDRAは、それまでの情報理論分析には関心がなかった、新しい計算ボトルネックを強調している。 実験により、我々の攻撃はモデルの性能をほぼ完全に破壊するが、同じ目標を持つ既存の攻撃は大きな効果が得られないことが示された。 我々の発見は、毒殺と証明可能な防御の間の武器競争を広範囲に開放したままにしている。

Training modern neural networks or models typically requires averaging over a sample of high-dimensional vectors. Poisoning attacks can skew or bias the average vectors used to train the model, forcing the model to learn specific patterns or avoid learning anything useful. Byzantine robust aggregation is a principled algorithmic defense against such biasing. Robust aggregators can bound the maximum bias in computing centrality statistics, such as mean, even when some fraction of inputs are arbitrarily corrupted. Designing such aggregators is challenging when dealing with high dimensions. However, the first polynomial-time algorithms with strong theoretical bounds on the bias have recently been proposed. Their bounds are independent of the number of dimensions, promising a conceptual limit on the power of poisoning attacks in their ongoing arms race against defenses. In this paper, we show a new attack called HIDRA on practical realization of strong defenses which subverts their claim of dimension-independent bias. HIDRA highlights a novel computational bottleneck that has not been a concern of prior information-theoretic analysis. Our experimental evaluation shows that our attacks almost completely destroy the model performance, whereas existing attacks with the same goal fail to have much effect. Our findings leave the arms race between poisoning attacks and provable defenses wide open.
翻訳日:2024-04-22 19:47:30 公開日:2024-04-19
# HyKGE: 正確な医療用LLM応答のための仮説知識グラフ強化フレームワーク

HyKGE: A Hypothesis Knowledge Graph Enhanced Framework for Accurate and Reliable Medical LLMs Responses ( http://arxiv.org/abs/2312.15883v2 )

ライセンス: Link先を確認
Xinke Jiang, Ruizhe Zhang, Yongxin Xu, Rihong Qiu, Yue Fang, Zhiyuan Wang, Jinyi Tang, Hongxin Ding, Xu Chu, Junfeng Zhao, Yasha Wang, (参考訳) 本稿では,知識グラフ(KGs)に基づく検索強化生成(RAG)について検討し,Large Language Models(LLMs)の精度と信頼性を向上させる。 最近のアプローチでは、不十分かつ反復的な知識検索、退屈で時間を要するクエリ解析、単調な知識利用に悩まされている。 この目的のために,ユーザクエリの不完全性を補うためにLLMの強力な推論能力を活用し,LLMとのインタラクションプロセスを最適化し,多様な知識を提供する仮説知識グラフ拡張(HyKGE)フレームワークを開発した。 具体的には、HyKGEは、ゼロショット能力とLLMの豊富な知識を仮説出力で探求し、KGにおける実行可能な探索方向を延長し、LLMの応答の密度と効率を高めるために慎重に調整されたプロンプトを探索する。 さらに,HOフラグメントの粒度を意識したRerank Moduleを導入し,ノイズを除去すると同時に,検索した知識の多様性と関連性のバランスを確保する。 2つのLLMターボを用いた2つの中国医学多重選択質問データセットと1つの中国のオープンドメイン医療Q&Aデータセットの実験は、精度と説明可能性の観点からHyKGEの優位性を実証した。

In this paper, we investigate the retrieval-augmented generation (RAG) based on Knowledge Graphs (KGs) to improve the accuracy and reliability of Large Language Models (LLMs). Recent approaches suffer from insufficient and repetitive knowledge retrieval, tedious and time-consuming query parsing, and monotonous knowledge utilization. To this end, we develop a Hypothesis Knowledge Graph Enhanced (HyKGE) framework, which leverages LLMs' powerful reasoning capacity to compensate for the incompleteness of user queries, optimizes the interaction process with LLMs, and provides diverse retrieved knowledge. Specifically, HyKGE explores the zero-shot capability and the rich knowledge of LLMs with Hypothesis Outputs to extend feasible exploration directions in the KGs, as well as the carefully curated prompt to enhance the density and efficiency of LLMs' responses. Furthermore, we introduce the HO Fragment Granularity-aware Rerank Module to filter out noise while ensuring the balance between diversity and relevance in retrieved knowledge. Experiments on two Chinese medical multiple-choice question datasets and one Chinese open-domain medical Q&A dataset with two LLM turbos demonstrate the superiority of HyKGE in terms of accuracy and explainability.
翻訳日:2024-04-22 19:47:30 公開日:2024-04-19
# ワンウェイ状態発電機の出力長に関する一考察

A Note on Output Length of One-Way State Generators ( http://arxiv.org/abs/2312.16025v2 )

ライセンス: Link先を確認
Minki Hhan, Tomoyuki Morimae, Takashi Yamakawa, (参考訳) 本研究では,一方向状態発生器(OWSG)の出力長,より弱い変種,EFIの出力長について検討する。 -標準OWSG。 最近、Cavalar et al (arXiv:2312.08363) は、$m =omega(\log \lambda)$に対して$m$-qubit出力を持つ OWSG を与え、$\lambda$ はセキュリティパラメータであり、$O(\log \log \lambda)$-qubit出力を持つ OWSG が存在しないことを予想している。 我々は、それらの予想をより強い方法で証明し、$O(\log \lambda)$-qubit 出力を持つ OWSG が存在しないことを示す。 これは、それらの構成が出力長の点で最適であることを意味する。 -逆多項式アドバンテージOWSG。 例えば、$\epsilon$-OWSGs を OWSG のパラメータ化された変種とし、量子多項式時間反転の利点は最大$\epsilon$ である。 任意の定数 $c\in \mathbb{N}$ に対して、OWF の存在を仮定した $((c+1)\log \lambda+O(1))$-qubit 出力で $\lambda^{-c}$-OWSGs を構成する。 これは、少なくとも$(c\log \lambda-2)$-qubit出力を持つ$\lambda^{-c}$-OWSGが存在しないことを証明することで、ほぼ厳密であることを示す。 -定値アドバンテージOWSG。 任意の定数 $\epsilon>0$ に対して、サブ指数的にセキュアな OWF の存在を前提として $O(\log \log \lambda)$-qubit 出力で $\epsilon$-OWSGs を構築する。 これは、$(((\log \log \lambda)/2+O(1))$-qubit出力を持つ$O(1)$-OWSGが存在しないことを証明することで、ほぼ厳密であることを示す。 -OWSGを弱める。 1-1/\mathsf{poly}(\lambda))$-OWSG を弱い OWSG と呼ぶ。 線形展開を伴う指数的に安全な OWF の存在を前提として、弱 OWSG を$m$-qubit 出力で任意の $m=\omega(1)$ に対して構成する。 我々は、$O(1)$-qubit 出力を持つ弱い OWSG が存在しないことを証明することで、これは厳密であることを示す。 -EFI。 O(\log \lambda)$-qubit EFIは存在しない。 指数的にセキュアなPRGの存在を前提とした$\omega(\log \lambda)$-qubit EFIが存在することを証明することによって、これは厳密であることを示す。

We study the output length of one-way state generators (OWSGs), their weaker variants, and EFIs. - Standard OWSGs. Recently, Cavalar et al. (arXiv:2312.08363) give OWSGs with $m$-qubit outputs for any $m=\omega(\log \lambda)$, where $\lambda$ is the security parameter, and conjecture that there do not exist OWSGs with $O(\log \log \lambda)$-qubit outputs. We prove their conjecture in a stronger manner by showing that there do not exist OWSGs with $O(\log \lambda)$-qubit outputs. This means that their construction is optimal in terms of output length. - Inverse-polynomial-advantage OWSGs. Let $\epsilon$-OWSGs be a parameterized variant of OWSGs where a quantum polynomial-time adversary's advantage is at most $\epsilon$. For any constant $c\in \mathbb{N}$, we construct $\lambda^{-c}$-OWSGs with $((c+1)\log \lambda+O(1))$-qubit outputs assuming the existence of OWFs. We show that this is almost tight by proving that there do not exist $\lambda^{-c}$-OWSGs with at most $(c\log \lambda-2)$-qubit outputs. - Constant-advantage OWSGs. For any constant $\epsilon>0$, we construct $\epsilon$-OWSGs with $O(\log \log \lambda)$-qubit outputs assuming the existence of subexponentially secure OWFs. We show that this is almost tight by proving that there do not exist $O(1)$-OWSGs with $((\log \log \lambda)/2+O(1))$-qubit outputs. - Weak OWSGs. We refer to $(1-1/\mathsf{poly}(\lambda))$-OWSGs as weak OWSGs. We construct weak OWSGs with $m$-qubit outputs for any $m=\omega(1)$ assuming the existence of exponentially secure OWFs with linear expansion. We show that this is tight by proving that there do not exist weak OWSGs with $O(1)$-qubit outputs. - EFIs. We show that there do not exist $O(\log \lambda)$-qubit EFIs. We show that this is tight by proving that there exist $\omega(\log \lambda)$-qubit EFIs assuming the existence of exponentially secure PRGs.
翻訳日:2024-04-22 19:47:30 公開日:2024-04-19
# 一般化可能なアノテーションのない病理病変の局在と臨床診断のためのマルチモーダル視覚言語モデル

Multi-modal vision-language model for generalizable annotation-free pathological lesions localization and clinical diagnosis ( http://arxiv.org/abs/2401.02044v3 )

ライセンス: Link先を確認
Hao Yang, Hong-Yu Zhou, Zhihuan Li, Yuanxu Gao, Cheng Li, Weijian Huang, Jiarun Liu, Hairong Zheng, Kang Zhang, Shanshan Wang, (参考訳) 医用画像から病理を自動的に定義することは、疾患の発生と進展の理解に役立ち、臨床診断においてそのような能力は不可欠である。 しかし、既存のディープラーニングモデルは専門家のアノテーションに大きく依存しており、オープンな臨床環境での一般化機能が欠如している。 本研究では,AFLOC (Anotation-Free pathological lesions Localization) に対する視覚言語事前学習モデルを提案する。 AFLocのコアとなる強みは、多段階のセマンティックな構造に基づくコントラスト学習であり、多彩な画像特徴を持つレポートから多彩な医療概念を包括的に整合させ、専門家のイメージアノテーションに頼らずに、多彩な病理と見えない病理の表現に適応する。 CXR画像における概念の証明を実証し、11種類の胸部病理を含む4つの異なる外部データセットにわたる広範な実験的検証を行った。 以上の結果から,AFLOCは病巣の局所化や病巣分類において最先端の手法を超越し,また5つの病巣の特定においてヒトのベンチマークよりも優れていたことが示唆された。 さらに、網膜基底画像に適用することで、その一般化能力をさらに検証する。 本手法は, AFoc の多様性を実証し, 複雑な臨床環境における臨床診断への適合性を裏付けるものである。

Defining pathologies automatically from medical images aids the understanding of the emergence and progression of diseases, and such an ability is crucial in clinical diagnostics. However, existing deep learning models heavily rely on expert annotations and lack generalization capabilities in open clinical environments. In this study, we present a generalizable vision-language pre-training model for Annotation-Free pathological lesions Localization (AFLoc). The core strength of AFLoc lies in its extensive multi-level semantic structure-based contrastive learning, which comprehensively aligns multi-granularity medical concepts from reports with abundant image features, to adapt to the diverse expressions of pathologies and unseen pathologies without the reliance on image annotations from experts. We demonstrate the proof of concept on CXR images, with extensive experimental validation across 4 distinct external datasets, encompassing 11 types of chest pathologies. The results demonstrate that AFLoc surpasses state-of-the-art methods in pathological lesions localization and disease classification, and even outperforms the human benchmark in locating 5 different pathologies. Additionally, we further verify its generalization ability by applying it to retinal fundus images. Our approach showcases AFoc versatilities and underscores its suitability for clinical diagnoses in complex clinical environments.
翻訳日:2024-04-22 19:47:30 公開日:2024-04-19
# 自由形自然言語制約と事前学習言語モデルを用いた安全強化学習

Safe Reinforcement Learning with Free-form Natural Language Constraints and Pre-Trained Language Models ( http://arxiv.org/abs/2401.07553v2 )

ライセンス: Link先を確認
Xingzhou Lou, Junge Zhang, Ziyan Wang, Kaiqi Huang, Yali Du, (参考訳) 安全な強化学習(RL)エージェントは、特定の制約に固執しながら与えられたタスクを達成する。 容易に理解可能なヒューマン言語を介して表現される制約を採用することは、アクセシビリティとドメインの専門知識への非依存のために、現実世界のアプリケーションにかなりの可能性をもたらす。 自然言語制約のある従来の安全なRL手法は、典型的にはリカレントニューラルネットワークを採用する。 さらに、これらの手法は、言語制約を、制約違反を決定するための明確に定義されたコスト関数に変換するために、ドメインの専門知識を必要とすることが多い。 これらの問題に対処するために、我々は、RLエージェントによる自然言語制約の理解を促進し、安全な政策学習のためのコストを推測できるようにするために、事前学習言語モデル(LM)を使用することを提案する。 本手法は,事前学習したLMを使用することにより,人為的な自由形自然言語制約の下での安全な政策学習を促進する。 グリッドワールドナビゲーションとロボット制御の実験により,提案手法は与えられた制約に固執しながら高い性能が得られることを示した。 事前学習したLMを使用することで、複雑な制約を理解し、トレーニングや評価のどの段階でも地道的なコストを要さずに安全な政策を学習することができる。 本法の各部位の有効性を示すため, 広範囲なアブレーション試験を行った。

Safe reinforcement learning (RL) agents accomplish given tasks while adhering to specific constraints. Employing constraints expressed via easily-understandable human language offers considerable potential for real-world applications due to its accessibility and non-reliance on domain expertise. Previous safe RL methods with natural language constraints typically adopt a recurrent neural network, which leads to limited capabilities when dealing with various forms of human language input. Furthermore, these methods often require a ground-truth cost function, necessitating domain expertise for the conversion of language constraints into a well-defined cost function that determines constraint violation. To address these issues, we proposes to use pre-trained language models (LM) to facilitate RL agents' comprehension of natural language constraints and allow them to infer costs for safe policy learning. Through the use of pre-trained LMs and the elimination of the need for a ground-truth cost, our method enhances safe policy learning under a diverse set of human-derived free-form natural language constraints. Experiments on grid-world navigation and robot control show that the proposed method can achieve strong performance while adhering to given constraints. The usage of pre-trained LMs allows our method to comprehend complicated constraints and learn safe policies without the need for ground-truth cost at any stage of training or evaluation. Extensive ablation studies are conducted to demonstrate the efficacy of each part of our method.
翻訳日:2024-04-22 19:47:30 公開日:2024-04-19
# 量子機械学習におけるセキュリティの優位性:文献レビュー

Predominant Aspects on Security for Quantum Machine Learning: Literature Review ( http://arxiv.org/abs/2401.07774v2 )

ライセンス: Link先を確認
Nicola Franco, Alona Sakhnenko, Leon Stolpmann, Daniel Thuerck, Fabian Petsch, Annika Rüll, Jeanette Miriam Lorenz, (参考訳) 量子機械学習(Quantum Machine Learning, QML)は、計算タスクにおけるブレークスルーの促進を期待して、量子コンピューティングと古典的な機械学習の有望な交差点として登場した。 本稿では,セキュリティ上の懸念と強みがQMLとどのように結びついているのかを,系統的な文献レビューを用いて論じる。 我々は、QMLモデルのセキュリティ、量子アーキテクチャ固有の脆弱性、提案された緩和戦略を分類し、レビューする。 調査によると、QMLは独特な強みを持っているが、古典的なシステムでは見られない新しい攻撃ベクトルも導入されている。 超伝導系のクロストークや、QMLの信頼性を脅かすイオントラップ系の繰り返しシャトル運転など、特定のリスクを指摘した。 しかし、敵対的なトレーニング、量子ノイズの搾取、量子微分プライバシーといったアプローチは、QMLの堅牢性を高める可能性を示している。 本論では,QMLを現実世界のアプリケーションにセキュアに展開するための,継続的な厳密な研究の必要性について論じる。 この研究は、QMLのセキュリティ面をナビゲートすることを目的とした研究者や実践者にとって、基礎的な参考となる。

Quantum Machine Learning (QML) has emerged as a promising intersection of quantum computing and classical machine learning, anticipated to drive breakthroughs in computational tasks. This paper discusses the question which security concerns and strengths are connected to QML by means of a systematic literature review. We categorize and review the security of QML models, their vulnerabilities inherent to quantum architectures, and the mitigation strategies proposed. The survey reveals that while QML possesses unique strengths, it also introduces novel attack vectors not seen in classical systems. We point out specific risks, such as cross-talk in superconducting systems and forced repeated shuttle operations in ion-trap systems, which threaten QML's reliability. However, approaches like adversarial training, quantum noise exploitation, and quantum differential privacy have shown potential in enhancing QML robustness. Our review discuss the need for continued and rigorous research to ensure the secure deployment of QML in real-world applications. This work serves as a foundational reference for researchers and practitioners aiming to navigate the security aspects of QML.
翻訳日:2024-04-22 19:47:30 公開日:2024-04-19
# Infinite-Horizon Graph Filters: スパース情報集約に電力系列を活用する

Infinite-Horizon Graph Filters: Leveraging Power Series to Enhance Sparse Information Aggregation ( http://arxiv.org/abs/2401.09943v3 )

ライセンス: Link先を確認
Ruizhe Zhang, Xinke Jiang, Yuchen Fang, Jiayuan Luo, Yongxin Xu, Yichen Zhu, Xu Chu, Junfeng Zhao, Yasha Wang, (参考訳) グラフニューラルネットワーク(GNN)は、近年、特にメッセージパッシングアプローチに基づく様々なグラフ学習タスクにおいて、かなりの効果を示している。 しかし、それらの性能は制限された受容場によって制約されることが多く、これはスパースグラフの存在下でより急激になる。 無限拡張能力を有する電力系列を考慮に入れ,受動場を増大させるため,電力系列グラフフィルタを用いてノード分類を強化する新しいグラフパワーフィルタニューラルネットワーク(GPFN)を提案する。 具体的には、GPFNは、スペクトル領域と空間領域で解析可能な収束電力系列に基づいて、無限の受容場を持つグラフフィルタを構築する新しい手法を設計する。 さらに、GPFNは任意のパワー系列を統合し、長距離依存を捕捉できる一般的なフレームワークであることを理論的に証明する。 最後に、3つのデータセットに対する実験の結果は、最先端のベースラインよりもGPFNの方が優れていることを示した。

Graph Neural Networks (GNNs) have shown considerable effectiveness in a variety of graph learning tasks, particularly those based on the message-passing approach in recent years. However, their performance is often constrained by a limited receptive field, a challenge that becomes more acute in the presence of sparse graphs. In light of the power series, which possesses infinite expansion capabilities, we propose a novel Graph Power Filter Neural Network (GPFN) that enhances node classification by employing a power series graph filter to augment the receptive field. Concretely, our GPFN designs a new way to build a graph filter with an infinite receptive field based on the convergence power series, which can be analyzed in the spectral and spatial domains. Besides, we theoretically prove that our GPFN is a general framework that can integrate any power series and capture long-range dependencies. Finally, experimental results on three datasets demonstrate the superiority of our GPFN over state-of-the-art baselines.
翻訳日:2024-04-22 19:47:30 公開日:2024-04-19
# MolTailor: テキストプロンプトによる特定のタスクへの化学分子表現の調整

MolTailor: Tailoring Chemical Molecular Representation to Specific Tasks via Text Prompts ( http://arxiv.org/abs/2401.11403v2 )

ライセンス: Link先を確認
Haoqiang Guo, Sendong Zhao, Haochun Wang, Yanrui Du, Bing Qin, (参考訳) 現在、深層学習は薬物発見に広く使われており、大幅な加速とコスト削減を提供している。 最も基本的なビルディングブロックとして、分子表現は様々な下流の応用を可能にするために分子特性を予測するのに不可欠である。 既存のほとんどの手法は、より良い表現を学ぶためにより多くの情報を組み込もうとしている。 しかし、すべての機能が特定のタスクに等しく重要であるわけではない。 これを無視することは、トレーニング効率と予測精度を損なう可能性がある。 この問題に対処するために,言語モデルをエージェントとして扱い,分子プレトレーニングモデルを知識ベースとして扱う新しいアプローチを提案する。 エージェントは、タスクの自然言語記述を理解することにより、分子表現におけるタスク関連の特徴をアクセントする。 ですから、このアプローチを MolTailor と呼んでいます。 評価は、分子表現学習における妥当性を高める効果を検証し、基数よりもMomolTailorの優れた性能を示す。 このことは、既存の強力な分子表現手法の能力をうまく活用し、解き放つために、言語モデルが最適化される可能性を示している。 私たちのコードはhttps://github.com/SCIR-HI/Mol Tailor.comから入手可能です。

Deep learning is now widely used in drug discovery, providing significant acceleration and cost reduction. As the most fundamental building block, molecular representation is essential for predicting molecular properties to enable various downstream applications. Most existing methods attempt to incorporate more information to learn better representations. However, not all features are equally important for a specific task. Ignoring this would potentially compromise the training efficiency and predictive accuracy. To address this issue, we propose a novel approach, which treats language models as an agent and molecular pretraining models as a knowledge base. The agent accentuates task-relevant features in the molecular representation by understanding the natural language description of the task, just as a tailor customizes clothes for clients. Thus, we call this approach MolTailor. Evaluations demonstrate MolTailor's superior performance over baselines, validating the efficacy of enhancing relevance for molecular representation learning. This illustrates the potential of language model guided optimization to better exploit and unleash the capabilities of existing powerful molecular representation methods. Our code is available at https://github.com/SCIR-HI/MolTailor.
翻訳日:2024-04-22 19:47:30 公開日:2024-04-19
# 差分生産型階層型フェデレーションラーニング

Differentially-Private Hierarchical Federated Learning ( http://arxiv.org/abs/2401.11592v2 )

ライセンス: Link先を確認
Frank Po-Chen Lin, Christopher Brinton, (参考訳) FL(Federated Learning)は、ネットワーク上の生データの送信を排除しますが、通信されたモデルパラメータからのプライバシー侵害に対して脆弱です。 本稿では,階層型ネットワークにおけるプライバシーとパフォーマンスを協調的に最適化するDP強化FL手法である \underline{H}ierarchical \underline{F}ederated Learning with \underline{H}ierarchical \underline{D}ifferential \underline{P}rivacy ({\tt H$^2$FDP})を提案する。 特定のサブネットワーク内の信頼モデルによると、階層微分プライバシー(HDP)に関する最近の提案に基づいて、 {\tt H$^2$FDP}の重要な概念の1つは、確立されたFL階層(エッジデバイス、エッジサーバ、クラウドサーバ)の異なる層にDPノイズ注入を適用することである。 本研究では,ネットワーク階層や信頼モデル,対象のプライバシレベルに依存する有限な定常性ギャップに対して,トレーニングプロセスがサブライン的に収束するパラメータチューニングの条件を明らかにする。 これらの関係を利用して、局所モデルトレーニングの特性を調整し、通信エネルギー、レイテンシ、定常性ギャップを最小限に抑えつつ、サブ線形収束率を維持し、所望のプライバシー基準を満たすように適応制御アルゴリズムを開発する。 その後の数値評価では、異なるプライバシ予算に対する基準よりも、これらの指標が大幅に改善され、異なるシステム構成の影響が検証された。

While federated learning (FL) eliminates the transmission of raw data over a network, it is still vulnerable to privacy breaches from the communicated model parameters. In this work, we propose \underline{H}ierarchical \underline{F}ederated Learning with \underline{H}ierarchical \underline{D}ifferential \underline{P}rivacy ({\tt H$^2$FDP}), a DP-enhanced FL methodology for jointly optimizing privacy and performance in hierarchical networks. Building upon recent proposals for Hierarchical Differential Privacy (HDP), one of the key concepts of {\tt H$^2$FDP} is adapting DP noise injection at different layers of an established FL hierarchy -- edge devices, edge servers, and cloud servers -- according to the trust models within particular subnetworks. We conduct a comprehensive analysis of the convergence behavior of {\tt H$^2$FDP}, revealing conditions on parameter tuning under which the training process converges sublinearly to a finite stationarity gap that depends on the network hierarchy, trust model, and target privacy level. Leveraging these relationships, we develop an adaptive control algorithm for {\tt H$^2$FDP} that tunes properties of local model training to minimize communication energy, latency, and the stationarity gap while striving to maintain a sub-linear convergence rate and meet desired privacy criteria. Subsequent numerical evaluations demonstrate that {\tt H$^2$FDP} obtains substantial improvements in these metrics over baselines for different privacy budgets, and validate the impact of different system configurations.
翻訳日:2024-04-22 19:47:30 公開日:2024-04-19
# ニューラルネットワーク検証のためのセットベーストレーニング

Set-Based Training for Neural Network Verification ( http://arxiv.org/abs/2401.14961v2 )

ライセンス: Link先を確認
Lukas Koller, Tobias Ladner, Matthias Althoff, (参考訳) ニューラルネットワークは敵の攻撃に弱いため、小さな入力摂動はニューラルネットワークの出力に大きな影響を及ぼす可能性がある。 安全クリティカルな環境では、入力はノイズの多いセンサデータを含むことが多く、この場合、入力摂動に対して堅牢なニューラルネットワークが必要である。 安全性を確保するためには、ニューラルネットワークの堅牢性を正式に検証する必要がある。 しかし、堅牢なニューラルネットワークをトレーニングし、正式に検証することは難しい。 これらの課題に対処するために、初めて、堅牢なニューラルネットワークをトレーニングして正式な検証を行う、エンドツーエンドのセットベーストレーニング手順を採用します。 トレーニング手順はニューラルネットワークを訓練し、単純な多項式時間検証アルゴリズムを用いて容易に検証できる。 さらに、我々の広範囲な評価により、我々のセットベーストレーニング手法が堅牢なニューラルネットワークを効果的に訓練し、検証が容易であることを示す。 セットベースでトレーニングされたニューラルネットワークは、最先端の堅牢なトレーニングアプローチでトレーニングされたニューラルネットワークと一貫して一致または性能を向上する。

Neural networks are vulnerable to adversarial attacks, i.e., small input perturbations can significantly affect the outputs of a neural network. In safety-critical environments, the inputs often contain noisy sensor data; hence, in this case, neural networks that are robust against input perturbations are required. To ensure safety, the robustness of a neural network must be formally verified. However, training and formally verifying robust neural networks is challenging. We address both of these challenges by employing, for the first time, an end-to-end set-based training procedure that trains robust neural networks for formal verification. Our training procedure trains neural networks, which can be easily verified using simple polynomial-time verification algorithms. Moreover, our extensive evaluation demonstrates that our set-based training procedure effectively trains robust neural networks, which are easier to verify. Set-based trained neural networks consistently match or outperform those trained with state-of-the-art robust training approaches.
翻訳日:2024-04-22 19:47:30 公開日:2024-04-19
# OSINTを用いたサイバー脅威認識のためのLCMチャットボットの評価

Evaluation of LLM Chatbots for OSINT-based Cyber Threat Awareness ( http://arxiv.org/abs/2401.15127v3 )

ライセンス: Link先を確認
Samaneh Shafee, Alysson Bessani, Pedro M. Ferreira, (参考訳) 新興脅威に関する知識共有は、サイバーセキュリティの急速に進歩する分野において不可欠であり、サイバー脅威インテリジェンス(CTI)の基礎を形成している。 このような状況下では、大規模言語モデルはサイバーセキュリティの分野でますます重要になってきており、幅広い機会をもたらしている。 本研究では,ChatGPT,GPT4all,Dolly,Stanford Alpaca,Alpaca-LoRA,Falcon,Vicunaチャットボットのバイナリ分類における性能と,オープンソースインテリジェンス(OSINT)を用いた名前付きエンティティ認識(NER)タスクについて調査した。 従来のTwitterの調査で収集された確固としたデータを用いて、これらのタスクのために訓練された特殊なモデルと比較して、これらのチャットボットの競争力を評価する。 二値分類実験では、商業モデルとしてのChatbot GPT-4は許容されるF1スコア0.94を達成し、オープンソースのGPT4allモデルはF1スコア0.90を達成した。 しかし、サイバーセキュリティのエンティティ認識に関しては、評価されたチャットボットには制限があり、効果が低い。 本研究は、OSINTバイナリ分類のためのチャットボットの能力を実証し、特別に訓練されたモデルを効果的に置き換えるために、NERをさらに改善する必要があることを示す。 我々の結果は、特殊なモデルと比較してLLMチャットボットの限界に光を当て、OSINTベースのCTIツールに機械学習を統合するために必要な労力を減らすことを目的として、研究者がチャットボット技術を改善するのに役立ちます。

Knowledge sharing about emerging threats is crucial in the rapidly advancing field of cybersecurity and forms the foundation of Cyber Threat Intelligence (CTI). In this context, Large Language Models are becoming increasingly significant in the field of cybersecurity, presenting a wide range of opportunities. This study surveys the performance of ChatGPT, GPT4all, Dolly, Stanford Alpaca, Alpaca-LoRA, Falcon, and Vicuna chatbots in binary classification and Named Entity Recognition (NER) tasks performed using Open Source INTelligence (OSINT). We utilize well-established data collected in previous research from Twitter to assess the competitiveness of these chatbots when compared to specialized models trained for those tasks. In binary classification experiments, Chatbot GPT-4 as a commercial model achieved an acceptable F1 score of 0.94, and the open-source GPT4all model achieved an F1 score of 0.90. However, concerning cybersecurity entity recognition, all evaluated chatbots have limitations and are less effective. This study demonstrates the capability of chatbots for OSINT binary classification and shows that they require further improvement in NER to effectively replace specially trained models. Our results shed light on the limitations of the LLM chatbots when compared to specialized models, and can help researchers improve chatbots technology with the objective to reduce the required effort to integrate machine learning in OSINT-based CTI tools.
翻訳日:2024-04-22 19:47:30 公開日:2024-04-19
# 大規模人工知能モデルによる地球気象・海洋波予測の改善

Improving Global Weather and Ocean Wave Forecast with Large Artificial Intelligence Models ( http://arxiv.org/abs/2401.16669v2 )

ライセンス: Link先を確認
Fenghua Ling, Lin Ouyang, Boufeniza Redouane Larbi, Jing-Jia Luo, Tao Han, Xiaohui Zhong, Lei Bai, (参考訳) 人工知能技術の急速な進歩、特に近年では、人工知能の天気予報モデルがいくつか出現している。 これらのモデルは、従来の数値天気予報モデルの限界を克服し、大気-海洋予報のための深刻な潜在的なツールの出現を示す重要なブレークスルーである。 本研究は,これらの高度な人工知能予測モデルの進化を考察し,その共通点に基づいて,その発達を計測する「三大ルール」を提案する。 天気予報に革命をもたらす人工知能の可能性について論じ、その大きな可能性の根底にある理由を概説する。 大規模人工知能予測モデルの精度、計算効率、展開の容易さを認めつつも、従来の数値予測の代替不可能な値を強調し、大規模人工知能-海洋予測モデルの開発における課題を探求する。 我々は、大気と海洋の天気予報の最適な未来は、人工知能と従来の数値モデルとのシームレスな統合を実現することであると考えている。 このような合成はより高度で信頼性の高いアプローチで大気-海洋予測を改善することが期待されている。 さらに,大洋波予測のための大規模人工知能モデルを構築することで,先進的な人工知能モデルに適応し,活用する方法について述べる。

The rapid advancement of artificial intelligence technologies, particularly in recent years, has led to the emergence of several large parameter artificial intelligence weather forecast models. These models represent a significant breakthrough, overcoming the limitations of traditional numerical weather prediction models and indicating the emergence of profound potential tools for atmosphere-ocean forecasts. This study explores the evolution of these advanced artificial intelligence forecast models, and based on the identified commonalities, proposes the "Three Large Rules" to measure their development. We discuss the potential of artificial intelligence in revolutionizing numerical weather prediction, and briefly outlining the underlying reasons for its great potential. While acknowledging the high accuracy, computational efficiency, and ease of deployment of large artificial intelligence forecast models, we also emphasize the irreplaceable values of traditional numerical forecasts and explore the challenges in the future development of large-scale artificial intelligence atmosphere-ocean forecast models. We believe that the optimal future of atmosphere-ocean weather forecast lies in achieving a seamless integration of artificial intelligence and traditional numerical models. Such a synthesis is anticipated to offer a more advanced and reliable approach for improved atmosphere-ocean forecasts. Additionally, we illustrate how forecasters can adapt and leverage the advanced artificial intelligence model through an example by building a large artificial intelligence model for global ocean wave forecast.
翻訳日:2024-04-22 19:37:46 公開日:2024-04-19
# 大規模言語モデルに基づくマルチエージェントの進展と課題

Large Language Model based Multi-Agents: A Survey of Progress and Challenges ( http://arxiv.org/abs/2402.01680v2 )

ライセンス: Link先を確認
Taicheng Guo, Xiuying Chen, Yaqi Wang, Ruidi Chang, Shichao Pei, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang, (参考訳) 大規模言語モデル(LLM)は、幅広いタスクで大きな成功を収めています。 LLMの優れた計画と推論能力のため、多くのタスクを自動で実行する自律エージェントとして使われてきた。 近年, 1 つの LLM を単一計画や意思決定エージェントとして利用する手法の開発により, 複雑な問題解決や世界シミュレーションにおいて, LLM ベースのマルチエージェントシステムは大きな進歩を遂げている。 本研究は, LLM に基づくマルチエージェントシステムの本質的側面と課題について, より深い議論を行うために, このダイナミックな分野の概要をコミュニティに提供するものである。 LLMベースのマルチエージェントはどのようなドメインや環境をシミュレートするのか? これらのエージェントはどのようにプロファイルされ、どのように通信されるのか? エージェントの能力の成長にどのようなメカニズムが寄与するか? この領域を掘り下げたい人のために、よく使われるデータセットやベンチマークを要約して、便利なアクセスができるようにします。 研究者による最新の研究の更新を維持するため、LLMベースのマルチエージェントシステムに関する研究の概要を概説するオープンソースGitHubリポジトリをメンテナンスしています。

Large Language Models (LLMs) have achieved remarkable success across a wide array of tasks. Due to the impressive planning and reasoning abilities of LLMs, they have been used as autonomous agents to do many tasks automatically. Recently, based on the development of using one LLM as a single planning or decision-making agent, LLM-based multi-agent systems have achieved considerable progress in complex problem-solving and world simulation. To provide the community with an overview of this dynamic field, we present this survey to offer an in-depth discussion on the essential aspects of multi-agent systems based on LLMs, as well as the challenges. Our goal is for readers to gain substantial insights on the following questions: What domains and environments do LLM-based multi-agents simulate? How are these agents profiled and how do they communicate? What mechanisms contribute to the growth of agents' capacities? For those interested in delving into this field of study, we also summarize the commonly used datasets or benchmarks for them to have convenient access. To keep researchers updated on the latest studies, we maintain an open-source GitHub repository, dedicated to outlining the research on LLM-based multi-agent systems.
翻訳日:2024-04-22 19:37:46 公開日:2024-04-19
# メソスコピックボソニック系における絡み合いの開力学

Open dynamics of entanglement in mesoscopic bosonic systems ( http://arxiv.org/abs/2402.02260v2 )

ライセンス: Link先を確認
Konrad Schlichtholz, Łukasz Rudnicki, (参考訳) 量子情報の重要な問題は、完全な量子形式よりも単純なメソスコピック系の適切な記述を見つけることであるが、絡み合いのような非古典的な現象に関する重要な情報を保持する。 特に、オープン進化中の完全ボソニック系の研究は、フォトニック量子コンピューティングと通信の発展に非常に重要である。 本稿では,ボソン数相関に基づくメソスコピックなシステム記述を提案する。 この記述により、非ガウス状態とガウス状態の両方の絡み合いのマルコフ的開進化と、その準ポアソン統計を追跡できる。 場形式主義の縮小状態の一般化(Entropy 2019, 21(7), 705]と見ることができ、それ自体は絡み合いに関する情報を含まない。 第一量子化の観点からは、2つの粒子の記述構造を採用するため、既知のツールの幅広い直感的な利用が可能となる。 提案手法を用いて,4モード励起真空状態とビームスプリット単一光子に対する低温減衰に対する絡み合いの堅牢性を示す。 また,マンデルQパラメータの一般化を示す。 これに基づいて、単一占有モードのビーム分割によって得られる状態の絡み合いが、入力状態のポアソン以下の統計から完全に受け継がれることを示す。

A key issue in Quantum Information is finding an adequate description of mesoscopic systems that is simpler than full quantum formalism yet retains crucial information about non-classical phenomena like entanglement. In particular, the study of fully bosonic systems undergoing open evolution is of great importance for the advancement of photonic quantum computing and communication. In this paper, we propose a mesoscopic description of such systems based on boson number correlations. This description allows for tracking Markovian open evolution of entanglement of both non-Gaussian and Gaussian states and their sub-Poissonian statistics. It can be viewed as a generalization of the reduced state of the field formalism [Entropy 2019, 21(7), 705], which by itself does not contain information about entanglement. As our approach adopts the structure of the description of two particles in terms of first quantization, it allows for broad intuitive usage of known tools. Using the proposed formalism, we show the robustness of entanglement against low-temperature damping for four-mode bright squeezed vacuum state and beam-splitted single photon. We also present a generalization of the Mandel Q parameter. Building upon this, we show that the entanglement of the state obtained by beam splitting of a single occupied mode is fully inherited from sub-Poissonian statistics of the input state.
翻訳日:2024-04-22 19:37:46 公開日:2024-04-19
# 地域的表現の再考

Region-Based Representations Revisited ( http://arxiv.org/abs/2402.02352v2 )

ライセンス: Link先を確認
Michal Shlapentokh-Rothman, Ansel Blume, Yao Xiao, Yuqun Wu, Sethuraman T V, Heyi Tao, Jae Yong Lee, Wilfredo Torres, Yu-Xiong Wang, Derek Hoiem, (参考訳) 地域ベース表現が認識に有効かどうかを検討する。 リージョンは、かつては認識アプローチのメインステイだったが、ピクセルとパッチベースの機能は、ほぼ完全に使用されている。 近年のSAMのようなクラスに依存しないセグメンタは,DINOv2のような強力な教師なし表現と効果的に結合することができ,セグメンテーションやオブジェクトベース画像検索,マルチイメージ解析など,多種多様なタスクに利用できることを示す。 仮面と特徴が抽出されると、これらの表現は線形デコーダを使っても競合性能を実現し、カスタムクエリを必要とするアプリケーションに適している。 表現のコンパクトさは、多くの画像にまたがる推論を必要とするビデオ解析や他の問題にも適している。

We investigate whether region-based representations are effective for recognition. Regions were once a mainstay in recognition approaches, but pixel and patch-based features are now used almost exclusively. We show that recent class-agnostic segmenters like SAM can be effectively combined with strong unsupervised representations like DINOv2 and used for a wide variety of tasks, including semantic segmentation, object-based image retrieval, and multi-image analysis. Once the masks and features are extracted, these representations, even with linear decoders, enable competitive performance, making them well suited to applications that require custom queries. The compactness of the representation also makes it well-suited to video analysis and other problems requiring inference across many images.
翻訳日:2024-04-22 19:37:46 公開日:2024-04-19
# 異常検出のための量子正規化フロー

Quantum Normalizing Flows for Anomaly Detection ( http://arxiv.org/abs/2402.02866v2 )

ライセンス: Link先を確認
Bodo Rosenhahn, Christoph Hirche, (参考訳) 正規化フローは、任意の分布から予め定義された(例えば正規化)分布への単射写像を計算する。 このようなフローは、例えば異常検出のように、そのようなマッピングが学習されると、異なるタスクに対処するために使用することができる。 本稿では、量子アーキテクチャのための正規化フローを紹介し、そのようなフローをモデル化し、最適化する方法を説明し、サンプルデータセット上でメソッドを評価する。 提案モデルでは,すでに量子インスパイアされたアルゴリズムが存在するような古典的手法と比較して,異常検出の競合性能を示す。 実験では, 森林の隔離, 局所降水率 (LOF) , 単一クラスSVMとの比較を行った。

A Normalizing Flow computes a bijective mapping from an arbitrary distribution to a predefined (e.g. normal) distribution. Such a flow can be used to address different tasks, e.g. anomaly detection, once such a mapping has been learned. In this work we introduce Normalizing Flows for Quantum architectures, describe how to model and optimize such a flow and evaluate our method on example datasets. Our proposed models show competitive performance for anomaly detection compared to classical methods, esp. those ones where there are already quantum inspired algorithms available. In the experiments we compare our performance to isolation forests (IF), the local outlier factor (LOF) or single-class SVMs.
翻訳日:2024-04-22 19:37:46 公開日:2024-04-19
# 人工知能の難しい10の課題

Ten Hard Problems in Artificial Intelligence We Must Get Right ( http://arxiv.org/abs/2402.04464v2 )

ライセンス: Link先を確認
Gavin Leech, Simson Garfinkel, Misha Yagudin, Alexander Briand, Aleksandr Zhuravlev, (参考訳) 我々は,AIの可能性を阻止し,AIのリスクを引き起こすAI2050の「ハード・イシュー」を探究する:(1)AIの一般的な能力の発達,(2)AIシステムとその訓練プロセスのパフォーマンスの確保,(3)人間の目標とのシステム目標の整合化,(4)AIの生活における優れた応用の実現,(5)経済的破壊への対処,(6)社会に責任のある展開の確保,(8)AIが引き起こす地政学的破壊への対処,(9)テクノロジーの健全なガバナンスの推進,(10)AI時代の人間にとっての哲学的混乱の管理。 それぞれの問題について、その領域を概説し、最近の重要な作業を特定し、今後の方向性を提案する。 (注:2023年1月までの文献をレビューする。)

We explore the AI2050 "hard problems" that block the promise of AI and cause AI risks: (1) developing general capabilities of the systems; (2) assuring the performance of AI systems and their training processes; (3) aligning system goals with human goals; (4) enabling great applications of AI in real life; (5) addressing economic disruptions; (6) ensuring the participation of all; (7) at the same time ensuring socially responsible deployment; (8) addressing any geopolitical disruptions that AI causes; (9) promoting sound governance of the technology; and (10) managing the philosophical disruptions for humans living in the age of AI. For each problem, we outline the area, identify significant recent work, and suggest ways forward. [Note: this paper reviews literature through January 2023.]
翻訳日:2024-04-22 19:37:46 公開日:2024-04-19
# アクシネート・インタラクション : アクシネート・インタラクションを意識した説明

Succinct Interaction-Aware Explanations ( http://arxiv.org/abs/2402.05566v2 )

ライセンス: Link先を確認
Sascha Xu, Joscha Cüppers, Jilles Vreeken, (参考訳) SHAPは、個々の特徴の重要性を明らかにすることでブラックボックスモデルを説明する一般的なアプローチである。 機能間の相互作用を無視するので、SHAPの説明は誤解を招く可能性がある。 一方、NSHAPは全ての機能のサブセットに付加的な重要性を報告している。 これは全ての相互作用する機能のセットを含んでいるが、指数関数的に大きさがあり、説明を解釈するのが難しい。 本稿では,これらの特徴を相互に大きく相互作用する部分に分割し,簡潔で解釈可能な付加的説明を構成することによって,これらの2つの世界の長所を組み合わせることを提案する。 我々は、モデル行動に対するそのような分割の表現性を測る基準を導出し、結果として生じる説明の複雑さに対してトレードオフした。 超指数的数の最適パーティションを効率的に見つけるために、統計的テストを用いて準最適解を創出する方法を示す。 人工的および実世界のデータに関する実験は、我々の説明がより正確であることを示している。 SHAPやNSHAPよりも容易に解釈できる。

SHAP is a popular approach to explain black-box models by revealing the importance of individual features. As it ignores feature interactions, SHAP explanations can be confusing up to misleading. NSHAP, on the other hand, reports the additive importance for all subsets of features. While this does include all interacting sets of features, it also leads to an exponentially sized, difficult to interpret explanation. In this paper, we propose to combine the best of these two worlds, by partitioning the features into parts that significantly interact, and use these parts to compose a succinct, interpretable, additive explanation. We derive a criterion by which to measure the representativeness of such a partition for a models behavior, traded off against the complexity of the resulting explanation. To efficiently find the best partition out of super-exponentially many, we show how to prune sub-optimal solutions using a statistical test, which not only improves runtime but also helps to detect spurious interactions. Experiments on synthetic and real world data show that our explanations are both more accurate resp. more easily interpretable than those of SHAP and NSHAP.
翻訳日:2024-04-22 19:37:46 公開日:2024-04-19
# マルチタスク政策学習における視覚特徴のタスク条件適応

Task-conditioned adaptation of visual features in multi-task policy learning ( http://arxiv.org/abs/2402.07739v3 )

ライセンス: Link先を確認
Pierre Marza, Laetitia Matignon, Olivier Simonin, Christian Wolf, (参考訳) さまざまなタスクにうまく対処することは、自律エージェントの中核的な能力であり、根底にある意思決定戦略に柔軟に適応する必要がある。 類似した議論は人間の視覚システムであり、それは現在のタスクによって決定される注意に焦点を合わせるためにトップダウン信号を使用する。 同様に、マルチタスク政策学習の文脈において、特定の下流タスクに条件付けされた事前学習された大規模視覚モデルを適用する。 予め訓練した重みを微調整する必要のないタスク条件付きアダプタと、動作のクローンを訓練した単一ポリシーを組み合わせて、複数のタスクに対処可能なタスク条件付きアダプタを提案する。 タスクの埋め込みに対して視覚的アダプタを条件とし、タスクが分かっている場合や、例示の集合から推測された場合、推論時に選択できる。 そこで本研究では,最適化に基づく新しい推定手法を提案する。 我々は,CortexBenchベンチマークから多種多様なタスクに対する手法の評価を行い,既存の作業と比べ,一つのポリシーで対処できることを示した。 特に,視覚的特徴を適応させることが重要な設計選択であり,いくつかの実演を行うと,その手法が目に見えないタスクに一般化されることを実証する。

Successfully addressing a wide variety of tasks is a core ability of autonomous agents, requiring flexibly adapting the underlying decision-making strategies and, as we argue in this work, also adapting the perception modules. An analogical argument would be the human visual system, which uses top-down signals to focus attention determined by the current task. Similarly, we adapt pre-trained large vision models conditioned on specific downstream tasks in the context of multi-task policy learning. We introduce task-conditioned adapters that do not require finetuning any pre-trained weights, combined with a single policy trained with behavior cloning and capable of addressing multiple tasks. We condition the visual adapters on task embeddings, which can be selected at inference if the task is known, or alternatively inferred from a set of example demonstrations. To this end, we propose a new optimization-based estimator. We evaluate the method on a wide variety of tasks from the CortexBench benchmark and show that, compared to existing work, it can be addressed with a single policy. In particular, we demonstrate that adapting visual features is a key design choice and that the method generalizes to unseen tasks given a few demonstrations.
翻訳日:2024-04-22 19:37:46 公開日:2024-04-19
# ランドマークとクラスタリングによるグラフの階層的位置埋め込みによるリンク予測

Hierarchical Position Embedding of Graphs with Landmarks and Clustering for Link Prediction ( http://arxiv.org/abs/2402.08174v2 )

ライセンス: Link先を確認
Minsang Kim, Seungjun Baek, (参考訳) グラフ内のノードの位置情報を学習することは、リンク予測タスクにとって重要である。 本稿ではランドマークと呼ばれる代表ノードを用いた位置情報の表現を提案する。 高い集中度を持つ少数のノードがランドマークとして選択され、ノードの位置の参照ポイントとして機能する。 我々は、よく知られたランダムグラフモデルに対するこの選択戦略を正当化し、ランドマークを含む平均経路長の閉形式境界を導出する。 パワーローグラフのモデルでは、ランドマークがノード間距離の漸近的に正確な情報を提供することを示す。 本稿では,実用的なネットワークに理論的知見を適用し,ランドマークとクラスタリング(HPLC)を用いた階層的位置埋め込みを提案する。 HPLCはランドマークの選択とグラフクラスタリングを組み合わせることで,グラフを高次ノードをランドマークとして選択する密結合クラスタに分割する。 HPLCは、ノードのランドマーク間距離、ランドマーク間距離、クラスタの階層的グループ化など、さまざまな階層レベルのランドマークに基づくノードの位置情報を活用する。 実験の結果,HPLCはHIT@K,MRR,AUCを用いて,各種データセット上でのリンク予測の最先端性能を実現することがわかった。 コードは \url{https://github.com/kmswin1/HPLC} で入手できる。

Learning positional information of nodes in a graph is important for link prediction tasks. We propose a representation of positional information using representative nodes called landmarks. A small number of nodes with high degree centrality are selected as landmarks, which serve as reference points for the nodes' positions. We justify this selection strategy for well-known random graph models and derive closed-form bounds on the average path lengths involving landmarks. In a model for power-law graphs, we prove that landmarks provide asymptotically exact information on inter-node distances. We apply theoretical insights to practical networks and propose Hierarchical Position embedding with Landmarks and Clustering (HPLC). HPLC combines landmark selection and graph clustering, where the graph is partitioned into densely connected clusters in which nodes with the highest degree are selected as landmarks. HPLC leverages the positional information of nodes based on landmarks at various levels of hierarchy such as nodes' distances to landmarks, inter-landmark distances and hierarchical grouping of clusters. Experiments show that HPLC achieves state-of-the-art performances of link prediction on various datasets in terms of HIT@K, MRR, and AUC. The code is available at \url{https://github.com/kmswin1/HPLC}.
翻訳日:2024-04-22 19:37:46 公開日:2024-04-19
# 機械学習回帰タスクの校正統計の信頼性に対する重み付き不確実性と誤差分布の負の影響

Negative impact of heavy-tailed uncertainty and error distributions on the reliability of calibration statistics for machine learning regression tasks ( http://arxiv.org/abs/2402.10043v3 )

ライセンス: Link先を確認
Pascal Pernot, (参考訳) 1つはキャリブレーション誤差(CE)を平均絶対誤差(MSE)と平均分散(MV)または平均二乗不確実性(MV)の差として推定することであり、もう1つは平均二乗zスコア(ZMS)またはスケールした誤差を1に比較することである。 問題は、両方のアプローチが、最近の機械学習不確実性定量化(ML-UQ)文学からのデータセットのアンサンブルのために示されているように、異なる結論につながる可能性があることである。 重み付き不確実性や誤差分布では,MV,MSE,その信頼区間の推定が信頼性に欠けることが示され,ML-UQデータセットではよくある問題と考えられる。 対照的に、ZMS統計は感度が低く、この文脈でもっとも信頼性の高いアプローチを提供する。 残念なことに、同じ問題が一般的なenceのような条件付きキャリブレーション統計や、同様の統計に基づくポストホックキャリブレーション手法にも影響する。 この問題を緩和するためには、インターバルまたは分散ベースのUQメトリクスへのパラダイムの変更を除いて、多くはできないため、潜在的な問題のあるデータセットを検出するために、堅牢なカスタマイズ性メトリクスが提案されている。

Average calibration of the prediction uncertainties of machine learning regression tasks can be tested in two ways: one is to estimate the calibration error (CE) as the difference between the mean absolute error (MSE) and the mean variance (MV) or mean squared uncertainty; the alternative is to compare the mean squared z-scores (ZMS) or scaled errors to 1. The problem is that both approaches might lead to different conclusions, as illustrated in this study for an ensemble of datasets from the recent machine learning uncertainty quantification (ML-UQ) literature. It is shown that the estimation of MV, MSE and their confidence intervals can become unreliable for heavy-tailed uncertainty and error distributions, which seems to be a common issue for ML-UQ datasets. By contrast, the ZMS statistic is less sensitive and offers the most reliable approach in this context. Unfortunately, the same problem affects also conditional calibrations statistics, such as the popular ENCE, and very likely post-hoc calibration methods based on similar statistics. As not much can be done to relieve this issue, except for a change of paradigm to intervals- or distribution-based UQ metrics, robust tailedness metrics are proposed to detect the potentially problematic datasets.
翻訳日:2024-04-22 19:37:46 公開日:2024-04-19
# 2光子系の多重コンプトン散乱の運動学

The kinematics of multiple Compton scattering of two-photon systems ( http://arxiv.org/abs/2402.12972v3 )

ライセンス: Link先を確認
Peter Caradonna, (参考訳) 任意の2光子系のコンプトン多重散乱に伴う断面を計算するStokes-Mueller法を提案する。 この方法は、最大絡み合った消滅光子の一方が中間コンプトン散乱の後にコンプトン偏光度計を用いて両光子の検出を行うシナリオにおける断面を計算するために用いられる。 この方法はコンプトン散乱による潜在的な量子デコヒーレンス効果を説明できる。 場の量子論に基礎を置いているにもかかわらず、この方法は典型的に複雑な前提条件の深い理解を必要としない。 結果として、この方法はより広範な物理学者のコミュニティにアクセスできることが期待され、モンテカルロシミュレーションにも容易に適用できる。

We present a Stokes-Mueller method to calculate the cross sections associated with multiple Compton scattering of an arbitrary two-photon system. This method is used to calculate the cross section in the scenario in which one of the maximally entangled annihilation photons undergoes intermediate Compton scattering followed by the detection of both photons using a pair of Compton polarimeters. The method accounts for potential quantum-decoherence effects caused by Compton scattering. Despite being grounded in quantum field theory, the method does not require an in-depth understanding of its typically intricate prerequisites. As a result, this method is anticipated to be accessible to a broader community of physicists and is readily applicable in Monte Carlo simulations.
翻訳日:2024-04-22 19:37:46 公開日:2024-04-19
# ターミノロジー定義のための生成的人工知能の意味

What Generative Artificial Intelligence Means for Terminological Definitions ( http://arxiv.org/abs/2402.16139v3 )

ライセンス: Link先を確認
Antonio San Martín, (参考訳) 本稿では,ChatGPTのような生成人工知能(GenAI)ツールが用語定義の作成と消費に与える影響について検討する。 用語学の観点からは、GenAIツールの戦略的使用は、定義の作成プロセスの合理化、時間と労力の削減、品質の向上の可能性を秘めている。 GenAIツールはAI支援の用語学、特に後編集の用語学を可能にし、機械は、その用語学者が修正または洗練する定義を生成する。 しかし,GenAIツールが,用語定義を含む利用者のすべての用語的ニーズを満たす可能性を,私たちが知っている用語的定義やリソースの存在に挑戦する。 用語の定義とは異なり、GenAIツールは特定の文脈で用語によって活性化される知識を記述することができる。 しかし、これらのツールの主な欠点は、その出力がエラーを含むことができることである。 そのため、信頼性を必要とするユーザは、定義の用語的リソースに頼っている可能性が高い。 それでも、AIが用語学の仕事に必然的に統合されるにつれ、人間によって作られたコンテンツとAIによって作られたコンテンツとの区別はますます曖昧になる。

This paper examines the impact of Generative Artificial Intelligence (GenAI) tools like ChatGPT on the creation and consumption of terminological definitions. From the terminologist's point of view, the strategic use of GenAI tools can streamline the process of crafting definitions, reducing both time and effort, while potentially enhancing quality. GenAI tools enable AI-assisted terminography, notably post-editing terminography, where the machine produces a definition that the terminologist then corrects or refines. However, the potential of GenAI tools to fulfill all the terminological needs of a user, including term definitions, challenges the very existence of terminological definitions and resources as we know them. Unlike terminological definitions, GenAI tools can describe the knowledge activated by a term in a specific context. However, a main drawback of these tools is that their output can contain errors. For this reason, users requiring reliability will likely still resort to terminological resources for definitions. Nevertheless, with the inevitable integration of AI into terminology work, the distinction between human-created and AI-created content will become increasingly blurred.
翻訳日:2024-04-22 19:28:01 公開日:2024-04-19
# BESA: ブロックワイズパラメータ効率の良いスパシティアロケーションを用いた大規模言語モデルの構築

BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation ( http://arxiv.org/abs/2402.16880v2 )

ライセンス: Link先を確認
Peng Xu, Wenqi Shao, Mengzhao Chen, Shitao Tang, Kaipeng Zhang, Peng Gao, Fengwei An, Yu Qiao, Ping Luo, (参考訳) 大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。 彼らの性能は印象的だが、膨大な数のパラメータによる計算フットプリントは禁止される。 SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。 しかし、それらの階層的なアプローチは、モデルの出力に大きな摂動をもたらし、モデル全体の性能に悪影響を及ぼすようなプルーニングレートのような微妙なハイパーパラメータチューニングを必要とする。 そこで本研究では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。 一般的なレイヤワイドプルーニング技術とは対照的に、BESAには2つの特徴がある。 一 個別の変圧器ブロックに関する全体的な刈り誤差を目標とし、 二 異なる方法で層固有の空間を割り当てることにより、刈り込み後の性能劣化を低減させる。 LLaMA1 や LLaMA2 のような LLM を 1 つの A100 GPU 上で 7B から 70B のパラメータでわずか 5 時間で効率よく刈り取ることができる。 コードはhttps://github.com/OpenGVLab/LLMPrune-BESAで入手できる。

Large language models (LLMs) have demonstrated outstanding performance in various tasks, such as text summarization, text question-answering, and etc. While their performance is impressive, the computational footprint due to their vast number of parameters can be prohibitive. Existing solutions such as SparseGPT and Wanda attempt to alleviate this issue through weight pruning. However, their layer-wise approach results in significant perturbation to the model's output and requires meticulous hyperparameter tuning, such as the pruning rate, which can adversely affect overall model performance. To address this, this paper introduces a novel LLM pruning technique dubbed blockwise parameter-efficient sparsity allocation (BESA) by applying a blockwise reconstruction loss. In contrast to the typical layer-wise pruning techniques, BESA is characterized by two distinctive attributes: i) it targets the overall pruning error with respect to individual transformer blocks, and ii) it allocates layer-specific sparsity in a differentiable manner, both of which ensure reduced performance degradation after pruning. Our experiments show that BESA achieves state-of-the-art performance, efficiently pruning LLMs like LLaMA1, and LLaMA2 with 7B to 70B parameters on a single A100 GPU in just five hours. Code is available at https://github.com/OpenGVLab/LLMPrune-BESA.
翻訳日:2024-04-22 19:28:01 公開日:2024-04-19
# ニューラルモデルにおけるビジョンランゲージSTEMスキルの測定

Measuring Vision-Language STEM Skills of Neural Models ( http://arxiv.org/abs/2402.17205v2 )

ライセンス: Link先を確認
Jianhao Shen, Ye Yuan, Srbuhi Mirzoyan, Ming Zhang, Chenguang Wang, (参考訳) ニューラルモデルのSTEMスキルをテストするための新しい挑戦を紹介する。 現実世界の問題は多くの場合、STEM(科学、技術、工学、数学)の知識を組み合わせて解決する必要がある。 既存のデータセットとは異なり、我々のデータセットはSTEMのマルチモーダル視覚言語情報を理解する必要がある。 私たちのデータセットは、この課題のための最大かつ最も包括的なデータセットの1つです。 448のスキルと、全STEM科目の1,073,146の質問が含まれている。 専門家レベルの能力を調べることに集中する既存のデータセットと比較して、我々のデータセットは、K-12カリキュラムに基づいて設計された基本的なスキルと質問を含んでいる。 ベンチマークにはCLIPやGPT-3.5-Turboといった最先端の基盤モデルも追加しています。 その結果、最近のモデルでは、データセットの下位レベルスキル(3年生では2.5%)のごく限られた数しか習得できないことがわかった。 実際、これらのモデルはまだ小学生の成績よりもかなり低い(54.7%)。 データセットのパフォーマンスを理解して向上するために、データセットのトレーニング分割についてモデルを教える。 改善された性能を観察しながらも,平均的な小学生に比べてモデル性能は比較的低いままである。 STEM問題を解決するには、コミュニティからの新しいアルゴリズムの革新が必要である。

We introduce a new challenge to test the STEM skills of neural models. The problems in the real world often require solutions, combining knowledge from STEM (science, technology, engineering, and math). Unlike existing datasets, our dataset requires the understanding of multimodal vision-language information of STEM. Our dataset features one of the largest and most comprehensive datasets for the challenge. It includes 448 skills and 1,073,146 questions spanning all STEM subjects. Compared to existing datasets that often focus on examining expert-level ability, our dataset includes fundamental skills and questions designed based on the K-12 curriculum. We also add state-of-the-art foundation models such as CLIP and GPT-3.5-Turbo to our benchmark. Results show that the recent model advances only help master a very limited number of lower grade-level skills (2.5% in the third grade) in our dataset. In fact, these models are still well below (averaging 54.7%) the performance of elementary students, not to mention near expert-level performance. To understand and increase the performance on our dataset, we teach the models on a training split of our dataset. Even though we observe improved performance, the model performance remains relatively low compared to average elementary students. To solve STEM problems, we will need novel algorithmic innovations from the community.
翻訳日:2024-04-22 19:28:01 公開日:2024-04-19
# グラフニューラルネットワークによる地域文化の予測

Using Graph Neural Networks to Predict Local Culture ( http://arxiv.org/abs/2402.17905v2 )

ライセンス: Link先を確認
Thiago H Silva, Daniel Silver, (参考訳) 都市研究は長い間、近隣がダイナミックでリレーショナルであることを認識してきた。 しかし、データの欠如、方法論、コンピュータ処理能力の欠如は、近隣関係力学の形式的な定量化を妨げている。 本研究は, 周辺地域の内部特性, 過去の特徴, グループの流れに関する複数の情報ソースを結合し, 評価し, 予測モデルにおいて表現力を高めるグラフニューラルネットワーク(GNN)アプローチを提案する。 Yelpからパブリックな大規模データセットを探索することにより、地域文化の予測にあたり、近隣属性の予測における構造的結合性を考慮したアプローチの可能性を示す。 結果は現実的で方法論的に見れば有望である。 即ち、地域情報(例えば地域人口統計)やグループプロファイル(Yelpレビュアーの味)が地域文化の予測に最適であり、すべての研究ケースでほぼ同等であることがわかった。 グループプロファイルを探索することは、様々なオンラインデータから自動的に抽出できるため、特定の分野のローカル情報を見つけるのが困難である。 これにより、研究者や政策立案者が、他の地域情報が不足している場合に、様々なデータソースを使用することが可能になる。

Urban research has long recognized that neighbourhoods are dynamic and relational. However, lack of data, methodologies, and computer processing power have hampered a formal quantitative examination of neighbourhood relational dynamics. To make progress on this issue, this study proposes a graph neural network (GNN) approach that permits combining and evaluating multiple sources of information about internal characteristics of neighbourhoods, their past characteristics, and flows of groups among them, potentially providing greater expressive power in predictive models. By exploring a public large-scale dataset from Yelp, we show the potential of our approach for considering structural connectedness in predicting neighbourhood attributes, specifically to predict local culture. Results are promising from a substantive and methodologically point of view. Substantively, we find that either local area information (e.g. area demographics) or group profiles (tastes of Yelp reviewers) give the best results in predicting local culture, and they are nearly equivalent in all studied cases. Methodologically, exploring group profiles could be a helpful alternative where finding local information for specific areas is challenging, since they can be extracted automatically from many forms of online data. Thus, our approach could empower researchers and policy-makers to use a range of data sources when other local area information is lacking.
翻訳日:2024-04-22 19:28:01 公開日:2024-04-19
# Dykstra-like Splitting を用いたリストモードPET画像再構成

List-Mode PET Image Reconstruction Using Dykstra-Like Splitting ( http://arxiv.org/abs/2403.00394v2 )

ライセンス: Link先を確認
Kibo Ote, Fumio Hashimoto, Yuya Onishi, Yasuomi Ouchi, (参考訳) ポジトロン・エミッション・トモグラフィ(PET)画像再構成におけるブロック反復法の収束性は緩和パラメータを慎重に制御する必要があるが、これは難しい課題である。 リストモード再構築における緩和パラメータの自動決定も困難である。 したがって、異なるアプローチが望ましい。 本研究では,Dykstra-like splitting PET reconstruction (LM-MLDS)を提案する。 LM-MLDSは、初期画像からペナルティ項としての距離を目的関数に付加することにより、リストモードブロック反復法を収束させる。 LM-MLDSは、初期画像の品質に依存するため、2段階のアプローチをとる。 第1ステップは、初期画像として一様画像を使用し、その後、第2ステップは、1つのメインイテレーション後の再構成イメージを初期画像として使用する。 シミュレーション実験では、LM-MLDSは他の手法よりもノイズとコントラストのトレードオフ曲線が優れている。 臨床研究において、LM-MLDSは軸方向視野の端にある偽ホットスポットを除去し、頭頂部から小脳までを覆うスライスの画像品質を改善した。 リストモード近位分割再構成は、非微分関数の最適化だけでなく、緩和パラメータを制御せずにブロック反復法の収束にも有用である。

Convergence of the block iterative method in image reconstruction for positron emission tomography (PET) requires careful control of relaxation parameters, which is a challenging task. The automatic determination of relaxation parameters for list-mode reconstructions also remains challenging. Therefore, a different approach would be desirable. In this study, we propose a list-mode maximum likelihood Dykstra-like splitting PET reconstruction (LM-MLDS). LM-MLDS converges the list-mode block iterative method by adding the distance from an initial image as a penalty term into an objective function. LM-MLDS takes a two-step approach because its performance depends on the quality of the initial image. The first step uses a uniform image as the initial image, and then the second step uses a reconstructed image after one main iteration as the initial image. In a simulation study, LM-MLDS provided a better tradeoff curve between noise and contrast than the other methods. In a clinical study, LM-MLDS removed the false hotspots at the edge of the axial field of view and improved the image quality of slices covering the top of the head to the cerebellum. List-mode proximal splitting reconstruction is useful not only for optimizing nondifferential functions but also for converging block iterative methods without controlling relaxation parameters.
翻訳日:2024-04-22 19:28:01 公開日:2024-04-19
# クロスドメイン・ファウショット学習のための平坦長距離ロスランドスケープ

Flatten Long-Range Loss Landscapes for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2403.00567v2 )

ライセンス: Link先を確認
Yixiong Zou, Yicong Liu, Yiman Hu, Yuhua Li, Ruixuan Li, (参考訳) クロスドメイン少ショットラーニング(CDFSL)は、ソースドメインから移行した事前知識を豊富なトレーニングサンプルで活用することにより、ターゲットドメイン内の限られたトレーニングデータから知識を取得することを目的としている。 CDFSLは、異なるドメインと限られたトレーニングデータを持つ微調整モデル間で知識を伝達する際の課題に直面している。 これらの課題に対処するため、まずパラメータ空間から表現空間への損失景観の解析を拡張し、CDFSLモデルの伝達と微調整の難しさを同時に解釈する。 表現空間のロスランドスケープにおけるシャープなミニマは、転送が困難で微妙な表現をもたらす。 さらに、既存の平坦性に基づく手法は、その短距離平坦性により、限定的な一般化能力を有する。 移動性を高め, 微調整を容易にするため, ロスランドスケープにおけるミニマの長距離平坦化を実現するための, 単純かつ効果的なアプローチを提案する。 この方法では、損失ランドスケープにおけるミニマとして異なる正規化された表現を考察し、補間された表現をランダムにサンプリングすることで、中央の高損失領域を平坦化する。 そこで本手法は,CNNとViTの両方において,元の手法を置き換えた新しい正規化層として実装する。 このレイヤはシンプルで軽量で、最小限の追加パラメータしか導入しない。 8つのデータセットに対する実験結果から,提案手法は平均精度で最先端の手法より優れていることが示された。 さらに,本手法は,個々のデータセットに対する現在のベストアプローチと比較して最大9倍の性能向上を実現している。 私たちのコードは解放されます。

Cross-domain few-shot learning (CDFSL) aims to acquire knowledge from limited training data in the target domain by leveraging prior knowledge transferred from source domains with abundant training samples. CDFSL faces challenges in transferring knowledge across dissimilar domains and fine-tuning models with limited training data. To address these challenges, we initially extend the analysis of loss landscapes from the parameter space to the representation space, which allows us to simultaneously interpret the transferring and fine-tuning difficulties of CDFSL models. We observe that sharp minima in the loss landscapes of the representation space result in representations that are hard to transfer and fine-tune. Moreover, existing flatness-based methods have limited generalization ability due to their short-range flatness. To enhance the transferability and facilitate fine-tuning, we introduce a simple yet effective approach to achieve long-range flattening of the minima in the loss landscape. This approach considers representations that are differently normalized as minima in the loss landscape and flattens the high-loss region in the middle by randomly sampling interpolated representations. We implement this method as a new normalization layer that replaces the original one in both CNNs and ViTs. This layer is simple and lightweight, introducing only a minimal number of additional parameters. Experimental results on 8 datasets demonstrate that our approach outperforms state-of-the-art methods in terms of average accuracy. Moreover, our method achieves performance improvements of up to 9\% compared to the current best approaches on individual datasets. Our code will be released.
翻訳日:2024-04-22 19:28:01 公開日:2024-04-19
# 群集ナビゲーションのための混合ストラテジーナッシュ平衡

Mixed-Strategy Nash Equilibrium for Crowd Navigation ( http://arxiv.org/abs/2403.01537v3 )

ライセンス: Link先を確認
Muchen Sun, Francesca Baldini, Peter Trautman, Todd Murphey, (参考訳) 群集ナビゲーションのための混合戦略ナッシュ均衡を求める問題に対処する。 混合戦略のナッシュ均衡は、ロボットが群衆の中で不確実で協調的な人間の行動を予測するための厳密なモデルを提供するが、その計算コストはスケーラブルでリアルタイムな意思決定には高すぎることが多い。 ここでは、単純反復ベイズ更新スキームが混合ストラテジーなソーシャルナビゲーションゲームのナッシュ平衡に収束することを証明する。 さらに,人間のデータセットから学習したガウス過程としてエージェント戦略を初期化することにより,ゲーム構築のためのデータ駆動フレームワークを提案する。 提案した混合戦略ナッシュ均衡モデルに基づいて,既存のナビゲーション手法に統合し,ラップトップCPU上でリアルタイムに動作可能な,サンプリングベースのクラウドナビゲーションフレームワークを開発した。 我々は,非構造化環境におけるシミュレーション環境と実世界の人的データセットの両方において,我々のフレームワークを評価する。 本フレームワークは,安全性とナビゲーション効率の両面において,非学習的手法と学習的手法の両方を一貫して上回り,メタプランナ上での人間レベルの集団ナビゲーション性能に達する。

We address the problem of finding mixed-strategy Nash equilibrium for crowd navigation. Mixed-strategy Nash equilibrium provides a rigorous model for the robot to anticipate uncertain yet cooperative human behavior in crowds, but the computation cost is often too high for scalable and real-time decision-making. Here we prove that a simple iterative Bayesian updating scheme converges to the Nash equilibrium of a mixed-strategy social navigation game. Furthermore, we propose a data-driven framework to construct the game by initializing agent strategies as Gaussian processes learned from human datasets. Based on the proposed mixed-strategy Nash equilibrium model, we develop a sampling-based crowd navigation framework that can be integrated into existing navigation methods and runs in real-time on a laptop CPU. We evaluate our framework in both simulated environments and real-world human datasets in unstructured environments. Our framework consistently outperforms both non-learning and learning-based methods on both safety and navigation efficiency and reaches human-level crowd navigation performance on top of a meta-planner.
翻訳日:2024-04-22 19:28:01 公開日:2024-04-19
# 交通流ランダム化による強化学習による自動車両決定と制御

Autonomous vehicle decision and control through reinforcement learning with traffic flow randomization ( http://arxiv.org/abs/2403.02882v2 )

ライセンス: Link先を確認
Yuan Lin, Antai Xie, Xiao Liu, (参考訳) 自動運転車の意思決定と強化学習に基づく制御タスクに関する現在の研究の多くは、シミュレーション環境で行われている。 これらの研究のトレーニングと試験は、ルールベースの微視的トラフィックフローの下で行われ、実際の環境やほぼ現実の環境に移行して、その性能をテストすることはほとんど考慮されていない。 トレーニングされたモデルがより現実的なトラフィックシーンでテストされると、パフォーマンスが低下する可能性がある。 本研究では,SUMOにおける車両追従モデルとルールベース微視的交通流の車線変更モデルのパラメータをランダム化することにより,周囲の車両の運転スタイルと挙動をランダム化する手法を提案する。 提案手法は, 領域ランダム化されたルールベース微視的トラフィックフローとマージシーンを併用し, ルールベース微視的トラフィックフローと高忠実性微視的トラフィックフローで個別にテストした。 その結果、ドメインランダム化トラフィックフローでトレーニングされたポリシーは、他の微視的トラフィックフローでトレーニングされたモデルと比較して、成功率と計算上の報酬が著しく向上していることがわかった。

Most of the current studies on autonomous vehicle decision-making and control tasks based on reinforcement learning are conducted in simulated environments. The training and testing of these studies are carried out under rule-based microscopic traffic flow, with little consideration of migrating them to real or near-real environments to test their performance. It may lead to a degradation in performance when the trained model is tested in more realistic traffic scenes. In this study, we propose a method to randomize the driving style and behavior of surrounding vehicles by randomizing certain parameters of the car-following model and the lane-changing model of rule-based microscopic traffic flow in SUMO. We trained policies with deep reinforcement learning algorithms under the domain randomized rule-based microscopic traffic flow in freeway and merging scenes, and then tested them separately in rule-based microscopic traffic flow and high-fidelity microscopic traffic flow. Results indicate that the policy trained under domain randomization traffic flow has significantly better success rate and calculative reward compared to the models trained under other microscopic traffic flows.
翻訳日:2024-04-22 19:28:01 公開日:2024-04-19
# 変圧器とテンソル製品に基づく学生感情認識のためのマルチモーダルフュージョンネットワーク

A Multimodal Fusion Network For Student Emotion Recognition Based on Transformer and Tensor Product ( http://arxiv.org/abs/2403.08511v2 )

ライセンス: Link先を確認
Ao Xiang, Zongqing Qi, Han Wang, Qin Yang, Danqing Ma, (参考訳) 本稿では, BERT のテキストベクトルと ViT の画像ベクトルを組み合わせて, 生徒の心理的条件を93.65% の精度で分類し, トランスフォーマーアーキテクチャとテンソル製品融合戦略に基づく新しいマルチモーダルモデルを提案する。 本研究の目的は,様々なデータソースから学生のメンタルヘルス状態を正確に分析することである。 本稿では,マルチモーダル情報の統合という課題を克服するために,早期,後期,中期の融合を含むモーダル融合法について論じる。 アブレーション研究では、異なるモデルと融合技術の性能を比較し、提案モデルが精度と推論速度においてCLIPやViLBERTといった既存の手法より優れていることを示す。 結論は、このモデルが感情認識において大きな優位性を持っている一方で、他のデータモダリティを組み込む可能性によって、将来の研究の領域が提供されることを示している。

This paper introduces a new multi-modal model based on the Transformer architecture and tensor product fusion strategy, combining BERT's text vectors and ViT's image vectors to classify students' psychological conditions, with an accuracy of 93.65%. The purpose of the study is to accurately analyze the mental health status of students from various data sources. This paper discusses modal fusion methods, including early, late and intermediate fusion, to overcome the challenges of integrating multi-modal information. Ablation studies compare the performance of different models and fusion techniques, showing that the proposed model outperforms existing methods such as CLIP and ViLBERT in terms of accuracy and inference speed. Conclusions indicate that while this model has significant advantages in emotion recognition, its potential to incorporate other data modalities provides areas for future research.
翻訳日:2024-04-22 19:18:17 公開日:2024-04-19
# 構造化光の離散状態空間を用いた深層学習支援光通信

Deep-learning-assisted optical communication with discretized state space of structured light ( http://arxiv.org/abs/2403.09462v2 )

ライセンス: Link先を確認
Minyang Zhang, Dong-Xu Chen, Pengxiang Ruan, Jun Liu, Jun-Long Zhao, Chui-Ping Yang, (参考訳) 構造化光の逆空間モードの豊富な構造は、量子情報や光通信に広く応用されている。 明確に定義された軌道角運動量(OAM)を持つラゲール・ガウスモード(LG)は、光の逆空間モードを記述する完全な直交基底からなる。 自由空間光通信におけるOAMの適用は、実験的に制限されたOAM数と複雑なOAM認識法により制限される。 本稿では,LGモード認識のための高度な深層学習手法を提案する。 構造光の空間モードを識別することにより、OAM状態の回帰を分類する。 また,本手法では,OAM状態を小さなトレーニングサンプルと高精度で効果的に分類することを示した。 それぞれのカテゴリに古典的な情報を割り当てることで、画像伝達タスクにアプローチをさらに適用し、OAM番号の低い大容量データをエンコードできることを実証する。 この研究は、構造化光に基づいて低OAM数で高容量光通信を実現するための新たな道を開く。

The rich structure of transverse spatial modes of structured light has facilitated their extensive applications in quantum information and optical communication. The Laguerre-Gaussian (LG) modes, which carry a well-defined orbital angular momentum (OAM), consist of a complete orthogonal basis describing the transverse spatial modes of light. The application of OAM in free-space optical communication is restricted due to the experimentally limited OAM numbers and the complex OAM recognition methods. Here, we present a novel method that uses the advanced deep learning technique for LG modes recognition. By discretizing the spatial modes of structured light, we turn the OAM state regression into classification. A proof-of-principle experiment is also performed, showing that our method effectively categorizes OAM states with small training samples and high accuracy. By assigning each category a classical information, we further apply our approach to an image transmission task, demonstrating the ability to encode large data with low OAM number. This work opens up a new avenue for achieving high-capacity optical communication with low OAM number based on structured light.
翻訳日:2024-04-22 19:18:16 公開日:2024-04-19
# 携帯型デジタル行動変化介入によるがん患者の幸福感を高める効果的なエンゲージメントの定義

Defining Effective Engagement For Enhancing Cancer Patients' Well-being with Mobile Digital Behavior Change Interventions ( http://arxiv.org/abs/2403.12007v3 )

ライセンス: Link先を確認
Aneta Lisowska, Szymon Wilk, Laura Locati, Mimma Rizzo, Lucia Sacchi, Silvana Quaglini, Matteo Terzaghi, Valentina Tibollo, Mor Peleg, (参考訳) デジタル行動変化介入(DBCI)は、新しい健康行動の開発を支援している。 効果を評価することは、成功要因の改善と理解に不可欠です。 しかし、特に倫理的制約のある小規模な研究において、開発者の包括的なガイダンスは限られている。 本研究は,CAPABLEプロジェクトに基づいて,がん患者のQOL向上を支援するために,DBCIとの効果的な関与を定義することを目的とする。 エンゲージメントを測定するための指標を同定し,DBCIにおける患者と臨床医の両方の関心を探索し,そのような文脈におけるDBCIの影響を評価するための仮説を提案する。 以上の結果より, 臨床用処方薬は移動型DBCIとの持続的関与を著しく増加させる可能性が示唆された。 さらに、DBCIとの週1回のエンゲージメントは、幸福を維持するのに十分であるが、外在的なモチベーションから内在的なモチベーションへの移行には、より高いレベルのエンゲージメントが必要になる可能性がある。

Digital Behavior Change Interventions (DBCIs) are supporting development of new health behaviors. Evaluating their effectiveness is crucial for their improvement and understanding of success factors. However, comprehensive guidance for developers, particularly in small-scale studies with ethical constraints, is limited. Building on the CAPABLE project, this study aims to define effective engagement with DBCIs for supporting cancer patients in enhancing their quality of life. We identify metrics for measuring engagement, explore the interest of both patients and clinicians in DBCIs, and propose hypotheses for assessing the impact of DBCIs in such contexts. Our findings suggest that clinician prescriptions significantly increase sustained engagement with mobile DBCIs. In addition, while one weekly engagement with a DBCI is sufficient to maintain well-being, transitioning from extrinsic to intrinsic motivation may require a higher level of engagement.
翻訳日:2024-04-22 19:18:16 公開日:2024-04-19
# 識別のゼロ知識証明--C-ITSのための標準互換シビル耐性擬似音韻拡張

Zero-Knowledge Proof of Distinct Identity: a Standard-compatible Sybil-resistant Pseudonym Extension for C-ITS ( http://arxiv.org/abs/2403.14020v2 )

ライセンス: Link先を確認
Ye Tao, Hongyi Wu, Ehsan Javanmardi, Manabu Tsukada, Hiroshi Esaki, (参考訳) 偽名は、車両の位置プライバシーを保護するために、C-ITS(Cooperative Intelligent Transport Systems)で広く使われている。 しかし、偽名の非リンク性は、悪意のある車両が同時に複数の車両のふりをするシビル攻撃を可能にする。 本稿では,0-knowledge Proof of Distinct Identity(zk-PoDI,zk-PoDI)と呼ばれる新しいプロトコルを提案する。 Zk-PoDIはディオファントイン方程式とzk-SNARKに基づいており、特定の名前の設計やインフラの補助に依存しない。 我々は、zk-PoDIが実用的なSybil-Resistance擬似名詞システムに必要な全ての要件を満たすことを示し、低レイテンシ、調整可能な難易度、適度な計算オーバーヘッド、無視可能な通信コストを有することを示した。 また,現実的な都市規模シミュレーション環境におけるzk-PoDIの実装と評価の今後の課題についても論じる。

Pseudonyms are widely used in Cooperative Intelligent Transport Systems (C-ITS) to protect the location privacy of vehicles. However, the unlinkability nature of pseudonyms also enables Sybil attacks, where a malicious vehicle can pretend to be multiple vehicles at the same time. In this paper, we propose a novel protocol called zero-knowledge Proof of Distinct Identity (zk-PoDI,) which allows a vehicle to prove that it is not the owner of another pseudonym in the local area, without revealing its actual identity. Zk-PoDI is based on the Diophantine equation and zk-SNARK, and does not rely on any specific pseudonym design or infrastructure assistance. We show that zk-PoDI satisfies all the requirements for a practical Sybil-resistance pseudonym system, and it has low latency, adjustable difficulty, moderate computation overhead, and negligible communication cost. We also discuss the future work of implementing and evaluating zk-PoDI in a realistic city-scale simulation environment.
翻訳日:2024-04-22 19:18:16 公開日:2024-04-19
# LLMの中国語コモンセンス推論のベンチマーク:中国特色からリソン化・記憶相関へ

Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations ( http://arxiv.org/abs/2403.14112v2 )

ライセンス: Link先を確認
Jiaxing Sun, Weiquan Huang, Jiang Wu, Chenya Gu, Wei Li, Songyang Zhang, Hang Yan, Conghui He, (参考訳) 我々は,中国における大規模言語モデル(LLM)の常識推論能力を評価するための,包括的かつ詳細なベンチマークであるCHARMを紹介した。 我々は,CHARM上での7つの英語と12の中国語のLLMを評価し,Chain-of-ThoughtなどのLLMの推論能力向上のための5つの代表的なプロンプト戦略を採用した。 本研究は,LLMの言語指向性とタスク領域が,従来の研究成果に富む即時戦略の有効性に影響を与えることを示唆するものである。 我々は、密接な相互接続型推論と暗記タスクを構築し、LLMが中国語の常識を覚えるのに苦労し、推論能力に影響を及ぼすものもあれば、類似の暗記性能にもかかわらず推論の違いを示すものもあることを見出した。 また, LLMの記憶に依存しない推論能力を評価し, 典型的誤りを解析した。 本研究は, LLMの強度と弱さを正確に把握し, 最適化の方向性を明らかにした。 他の分野の研究の参考となることもある。 私たちはCHARMをhttps://github.com/opendatalab/CHARMでリリースします。

We introduce CHARM, the first benchmark for comprehensively and in-depth evaluating the commonsense reasoning ability of large language models (LLMs) in Chinese, which covers both globally known and Chinese-specific commonsense. We evaluated 7 English and 12 Chinese-oriented LLMs on CHARM, employing 5 representative prompt strategies for improving LLMs' reasoning ability, such as Chain-of-Thought. Our findings indicate that the LLM's language orientation and the task's domain influence the effectiveness of the prompt strategy, which enriches previous research findings. We built closely-interconnected reasoning and memorization tasks, and found that some LLMs struggle with memorizing Chinese commonsense, affecting their reasoning ability, while others show differences in reasoning despite similar memorization performance. We also evaluated the LLMs' memorization-independent reasoning abilities and analyzed the typical errors. Our study precisely identified the LLMs' strengths and weaknesses, providing the clear direction for optimization. It can also serve as a reference for studies in other fields. We will release CHARM at https://github.com/opendatalab/CHARM .
翻訳日:2024-04-22 19:18:16 公開日:2024-04-19
# VORTEX: 高速で低レイテンシなオフチェーン支払いと暗号通貨のクロスチェーンスワップ

VORTEX: High-Speed and Low-Latency Off-Chain Payments and Cross-Chain Swaps for Cryptocurrencies ( http://arxiv.org/abs/2403.15191v2 )

ライセンス: Link先を確認
Di Wu, Jian Liu, Zhengwei Hou, Wu Wen, Kui Ren, (参考訳) 本稿では、オフチェーン決済とクロスチェーンスワップの2つの重要な課題に対処する、TEEベースのレイヤ2ソリューションであるVERTEXを提案する。 チャンネルなしのオフチェーン支払い: オンチェーン関係や仲介チャネルを必要とせずに、誰にでも直接支払いができる。 - リアルタイムだが分散化されたクロスチェーンスワップ: 中央サーバに頼ることなく、リアルタイムのクロスチェーンスワップを可能にする、最初の既知のソリューションである。 この新機能は、画期的な公正な交換プロトコルによって実現されている。 TEEクラッシュ耐性(TEE crash-tolerance): TEEクラッシュを処理するための2つのソリューションを提供する。 我々は1000ノードからなるネットワーク上でECHOを評価し,その評価結果から,ECHOが7000TPSを達成することを示す。

In this paper, we present VERTEX, a TEE-based layer-2 solution that tackles two crucial challenges in the realm of cryptocurrencies: off-chain payments and cross-chain swaps. It offers three notable features: - Channel-free off-chain payments: it allows a payer to make direct payments to anyone without requiring any on-chain relationship or intermediary channels. - Real-time yet decentralized cross-chain swaps: it is the first known solution that enables real-time cross-chain swaps without relying on a central server. This novel feature is made possible through a ground-breaking fair exchange protocol. - TEE crash-tolerance: it offers two solutions to handle TEE crashes, one of which involves an innovative application of time-lock puzzles in this context. We evaluate ECHO on a network consists of 1000 nodes and the evaluation results show that ECHO can achieve 7000 TPS
翻訳日:2024-04-22 19:18:16 公開日:2024-04-19
# 分割言語モデルによる不均一なフェデレーション学習

Heterogeneous Federated Learning with Splited Language Model ( http://arxiv.org/abs/2403.16050v2 )

ライセンス: Link先を確認
Yifan Shi, Yuhui Zhang, Ziyue Huang, Xiaofeng Yang, Li Shen, Wei Chen, Xueqian Wang, (参考訳) フェデレート・スプリット・ラーニング(FSL)は、実際に有望な分散学習パラダイムであり、フェデレート・ラーニング(FL)とスプリット・ラーニング(SL)の両方のパラダイムの長所を集め、モデルプライバシを確保しつつ、クライアントのリソースオーバーヘッドを低減し、特にリソース制約のある環境における大きなトランスフォーマーモデル(IoT)において、モデルのプライバシを確保する。 しかしながら、ほとんどすべての作業は、FSLの単純なニューラルネットワークモデルでの性能を単に調査するだけである。 ビジョントランスフォーマー(ViT)をモデルアーキテクチャとして組み込むことに焦点を絞った小さな努力にもかかわらず、彼らはViTをゼロからトレーニングし、リソースが限られている各デバイスで膨大なトレーニングオーバーヘッドを発生させた。 そこで,本稿では,FedVと呼ばれる初期モデルとしてPIT(Pre-trained Image Transformer)を用いて,トレーニングプロセスの高速化とモデルロバスト性の向上を図る。 さらに,FedVZは,特に勾配情報が利用できないブラックボックスのシナリオと互換性のある機能を有するため,勾配反転攻撃を阻止する。 具体的には、FedVZはゼロオーダー(ZO)最適化を利用してサーバ勾配を近似する。 実世界のデータセット、異なる部分的デバイス参加、異種データ分割におけるPITを用いたFSL手法の体系的評価を最初に行った。 我々の実験はアルゴリズムの有効性を検証する。

Federated Split Learning (FSL) is a promising distributed learning paradigm in practice, which gathers the strengths of both Federated Learning (FL) and Split Learning (SL) paradigms, to ensure model privacy while diminishing the resource overhead of each client, especially on large transformer models in a resource-constrained environment, e.g., Internet of Things (IoT). However, almost all works merely investigate the performance with simple neural network models in FSL. Despite the minor efforts focusing on incorporating Vision Transformers (ViT) as model architectures, they train ViT from scratch, thereby leading to enormous training overhead in each device with limited resources. Therefore, in this paper, we harness Pre-trained Image Transformers (PITs) as the initial model, coined FedV, to accelerate the training process and improve model robustness. Furthermore, we propose FedVZ to hinder the gradient inversion attack, especially having the capability compatible with black-box scenarios, where the gradient information is unavailable. Concretely, FedVZ approximates the server gradient by utilizing a zeroth-order (ZO) optimization, which replaces the backward propagation with just one forward process. Empirically, we are the first to provide a systematic evaluation of FSL methods with PITs in real-world datasets, different partial device participations, and heterogeneous data splits. Our experiments verify the effectiveness of our algorithms.
翻訳日:2024-04-22 19:18:16 公開日:2024-04-19
# Re2LLM: セッションベースのレコメンデーションのためのリフレクティブ強化大言語モデル

Re2LLM: Reflective Reinforcement Large Language Model for Session-based Recommendation ( http://arxiv.org/abs/2403.16427v4 )

ライセンス: Link先を確認
Ziyan Wang, Yingpeng Du, Zhu Sun, Haoyan Chua, Kaidong Feng, Wenya Wang, Jie Zhang, (参考訳) 大規模言語モデル (LLMs) はセッションベースレコメンデーション(SBR)を強化するための有望なアプローチとして登場し, プロンプトベースと微調整ベースの両方の手法が広く研究されている。 しかし、従来の手法では、タスク固有のフィードバックが欠如しているため、LLMの正しい推論を引き出すための最適なプロンプトに苦しむため、不満足なレコメンデーションが生じる。 後者の手法はドメイン固有の知識でLLMを微調整しようとするが、高い計算コストやオープンソースのバックボーンへの依存といった制限に直面している。 このような問題に対処するため、我々はSBRのための反射強化大言語モデル(Re2LLM)を提案し、LLMがより正確なレコメンデーションに不可欠な専門知識に集中するよう誘導する。 特に,LLMが理解しやすく,消化しやすい知識を効果的に抽出するために,まず反射探索モジュールを設計する。 具体的には,LLMに対して自己回帰による推薦誤りの検証を指示し,これらの誤りを修正可能なヒントを含む知識ベース(KB)を構築する。 さらに,LLMの正しい推論を効率的に行うために,軽量検索エージェントを訓練するための強化利用モジュールを考案する。 タスク固有のフィードバックに基づいて、構築されたKBからヒントを選択することを学び、そこでヒントは、より良いレコメンデーションのためにLLMの推論を修正するためのガイダンスとして役立ちます。 複数の実世界のデータセットに対する大規模な実験は、我々の手法が常に最先端の手法より優れていることを示した。

Large Language Models (LLMs) are emerging as promising approaches to enhance session-based recommendation (SBR), where both prompt-based and fine-tuning-based methods have been widely investigated to align LLMs with SBR. However, the former methods struggle with optimal prompts to elicit the correct reasoning of LLMs due to the lack of task-specific feedback, leading to unsatisfactory recommendations. Although the latter methods attempt to fine-tune LLMs with domain-specific knowledge, they face limitations such as high computational costs and reliance on open-source backbones. To address such issues, we propose a Reflective Reinforcement Large Language Model (Re2LLM) for SBR, guiding LLMs to focus on specialized knowledge essential for more accurate recommendations effectively and efficiently. In particular, we first design the Reflective Exploration Module to effectively extract knowledge that is readily understandable and digestible by LLMs. To be specific, we direct LLMs to examine recommendation errors through self-reflection and construct a knowledge base (KB) comprising hints capable of rectifying these errors. To efficiently elicit the correct reasoning of LLMs, we further devise the Reinforcement Utilization Module to train a lightweight retrieval agent. It learns to select hints from the constructed KB based on the task-specific feedback, where the hints can serve as guidance to help correct LLMs reasoning for better recommendations. Extensive experiments on multiple real-world datasets demonstrate that our method consistently outperforms state-of-the-art methods.
翻訳日:2024-04-22 19:18:16 公開日:2024-04-19
# AIの意識は必然的:理論的コンピュータ科学の視点

AI Consciousness is Inevitable: A Theoretical Computer Science Perspective ( http://arxiv.org/abs/2403.17101v2 )

ライセンス: Link先を確認
Lenore Blum, Manuel Blum, (参考訳) 我々は,資源制限下での計算を研究する数学の分野である理論計算機科学のレンズを通して,意識を考察する。 この観点から、意識のための正式な機械モデルを開発する。 このモデルはアラン・チューリングの単純だが強力な計算モデルとバーナード・ベアーズの意識の劇場モデルにインスパイアされている。 非常に単純ではあるが、このモデルは人間と動物の意識に関する主要な科学的理論の多くと高いレベルで一致しており、機械の意識は避けられないという我々の主張を支持している。

We look at consciousness through the lens of Theoretical Computer Science, a branch of mathematics that studies computation under resource limitations. From this perspective, we develop a formal machine model for consciousness. The model is inspired by Alan Turing's simple yet powerful model of computation and Bernard Baars' theater model of consciousness. Though extremely simple, the model aligns at a high level with many of the major scientific theories of human and animal consciousness, supporting our claim that machine consciousness is inevitable.
翻訳日:2024-04-22 19:18:16 公開日:2024-04-19
# 絡み合い理論におけるマジックによる計算的分離

Magic-induced computational separation in entanglement theory ( http://arxiv.org/abs/2403.19610v3 )

ライセンス: Link先を確認
Andi Gu, Salvatore F. E. Oliviero, Lorenzo Leone, (参考訳) 絡み合いは量子情報理論の基本的な柱として機能し、古典的なものと量子的なものの境界を規定する。 一般的な仮定は、高い絡み合いはより大きい「量子性」に対応するということである。 しかし、この民間信仰は、クリフォード回路のような古典的にシミュレート可能な操作が、非常に絡み合った状態を作り出すことができるという事実に挑戦されている。 これらの状態のシミュラビリティは、次のような疑問を提起する: 「低魔術的」絡みと「高魔術的」絡みの違いは何か? 本論では, 絡み合い理論における魔法の役割について, 厳密な調査を行い, この疑問に答える。 我々は, この関係を理解するために, 絡み合い推定, 蒸留, 希釈などのタスクを研究している。 このアプローチは、マジックが絡み合いに顕著な意味を持つことを示している。 具体的には、ヒルベルト空間をエンタングルメント支配(ED)相とマジック支配(MD)相の2つの異なる状態に分割する操作的分離を求める。 大まかに言えば、ED状態は彼らの魔法をはるかに上回る絡み合いを持ち、MD状態は彼らの絡み合いを支配する魔法を持っている。 これら2つの相の2つのリソース間の競合は、それらの間の計算位相の分離を誘導する: ED状態のほとんど全ての絡み合うタスクに対して {sample- and time- efficient} 量子アルゴリズムが存在するが、これらのタスクは、MD相では {provably computely intractable} である。 量子エラー補正や多体物理学,量子カオスの研究など,さまざまな分野の応用を見いだし,量子システムの振る舞いを理解するための統一的な枠組みを提供する。 また、過去の数値観測の理論的説明も提供し、様々な物理学のサブフィールドにまたがるED-MDの区別の広大な意味を強調した。

Entanglement serves as a foundational pillar in quantum information theory, delineating the boundary between what is classical and what is quantum. The common assumption is that higher entanglement corresponds to a greater degree of `quantumness'. However, this folk belief is challenged by the fact that classically simulable operations, such as Clifford circuits, can create highly entangled states. The simulability of these states raises a question: what are the differences between `low-magic' entanglement, and `high-magic' entanglement? We answer this question in this work with a rigorous investigation into the role of magic in entanglement theory. We take an operational approach to understanding this relationship by studying tasks such as entanglement estimation, distillation and dilution. This approach reveals that magic has notable implications for entanglement. Specifically, we find an operational separation that divides Hilbert space into two distinct regimes: the entanglement-dominated (ED) phase and magic-dominated (MD) phase. Roughly speaking, ED states have entanglement that significantly surpasses their magic, while MD states have magic that dominates their entanglement. The competition between the two resources in these two phases induces a computational phase separation between them: there are {sample- and time-efficient} quantum algorithms for almost any entanglement task on ED states, while these tasks are {provably computationally intractable} in the MD phase. Our results find applications in diverse areas such as quantum error correction, many-body physics, and the study of quantum chaos, providing a unifying framework for understanding the behavior of quantum systems. We also offer theoretical explanations for previous numerical observations, highlighting the broad implications of the ED-MD distinction across various subfields of physics.
翻訳日:2024-04-22 19:18:16 公開日:2024-04-19
# UAlign: 教師なしSMILESアライメントによるテンプレートフリー再合成予測の限界を押し上げる

UAlign: Pushing the Limit of Template-free Retrosynthesis Prediction with Unsupervised SMILES Alignment ( http://arxiv.org/abs/2404.00044v2 )

ライセンス: Link先を確認
Kaipeng Zeng, Bo yang, Xin Zhao, Yu Zhang, Fan Nie, Xiaokang Yang, Yaohui Jin, Yanyan Xu, (参考訳) モチベーション(Motivation): 再合成計画は有機化学産業において深刻な課題となる。 計画プロセスにおける重要なステップである1段階のレトロシンセシス予測は、科学のためのAIの進歩による近年の関心の高まりを目撃している。 近年, この課題に対して, 様々な深層学習手法が提案されている。 結果:本論文では,テンプレートのないグラフ・ツー・シーケンスパイプラインであるUAlignを紹介した。 グラフニューラルネットワークとトランスフォーマーを組み合わせることで、分子固有のグラフ構造をより効果的に活用することができる。 化学反応中に分子構造の大半が変化しないという事実に基づき, 反応生成のための構造変化の再利用を容易にするため, 単純かつ効果的なSMILESアライメント法を提案する。 大規模な実験により,本手法は最先端のテンプレートフリーおよび半テンプレートベースアプローチよりも大幅に優れていることが示された。 重要なことは、テンプレートフリーの手法は、確立された強力なテンプレートベースの手法に匹敵する、あるいは超える効果を達成することである。 科学的貢献: 分子表現学習におけるトランスフォーマーに基づく手法の限界を克服し, 化学情報の不十分な利用を克服する, グラフ・ツー・シーケンス・テンプレート・フリーなレトロシンセシス予測パイプラインを提案する。 本稿では,SMILESトークンと製品-原子対応性を確立するための教師なし学習機構を提案し,SMILESアライメント法よりも優れた結果が得られることを示す。 大規模な実験により、UAlignは最先端のテンプレートフリーメソッドを著しく上回り、テンプレートベースのアプローチに匹敵し、最大5\%(トップ5)と5.4\%(トップ10)の精度が最強のベースラインよりも向上した。

Motivation: Retrosynthesis planning poses a formidable challenge in the organic chemical industry. Single-step retrosynthesis prediction, a crucial step in the planning process, has witnessed a surge in interest in recent years due to advancements in AI for science. Various deep learning-based methods have been proposed for this task in recent years, incorporating diverse levels of additional chemical knowledge dependency. Results: This paper introduces UAlign, a template-free graph-to-sequence pipeline for retrosynthesis prediction. By combining graph neural networks and Transformers, our method can more effectively leverage the inherent graph structure of molecules. Based on the fact that the majority of molecule structures remain unchanged during a chemical reaction, we propose a simple yet effective SMILES alignment technique to facilitate the reuse of unchanged structures for reactant generation. Extensive experiments show that our method substantially outperforms state-of-the-art template-free and semi-template-based approaches. Importantly, our template-free method achieves effectiveness comparable to, or even surpasses, established powerful template-based methods. Scientific contribution: We present a novel graph-to-sequence template-free retrosynthesis prediction pipeline that overcomes the limitations of Transformer-based methods in molecular representation learning and insufficient utilization of chemical information. We propose an unsupervised learning mechanism for establishing product-atom correspondence with reactant SMILES tokens, achieving even better results than supervised SMILES alignment methods. Extensive experiments demonstrate that UAlign significantly outperforms state-of-the-art template-free methods and rivals or surpasses template-based approaches, with up to 5\% (top-5) and 5.4\% (top-10) increased accuracy over the strongest baseline.
翻訳日:2024-04-22 19:18:16 公開日:2024-04-19
# CARLOS: C-ITS用ソフトウェアの開発とテストのためのオープンでモジュール化されたスケーラブルなシミュレーションフレームワーク

CARLOS: An Open, Modular, and Scalable Simulation Framework for the Development and Testing of Software for C-ITS ( http://arxiv.org/abs/2404.01836v3 )

ライセンス: Link先を確認
Christian Geller, Benedikt Haas, Amarin Kloeker, Jona Hermens, Bastian Lampe, Till Beemelmanns, Lutz Eckstein, (参考訳) 将来のモビリティシステムとそのコンポーネントは、ソフトウェアによってますます定義される。 これらの協調的インテリジェントトランスポートシステム(C-ITS)の複雑さと、ソフトウェアで引き起こされる絶え間ない要求は、継続的なソフトウェア更新を必要とする。 システムの動的な性質と、異なるソフトウェアコンポーネントが一緒に動作する事実上無数のシナリオは、シミュレーションを1つのコア方法論として使用する、効率的で自動化された開発およびテスト手順を必要とします。 このようなシミュレーションアーキテクチャが利用できることは、特に自動運転の分野で多くの利害関係者の間で共通の関心を集めている。 CARLOS - C-ITSでソフトウェアの開発とテストを行うためのオープンでモジュール化されたスケーラブルなシミュレーションフレームワークで、リッチなCARLAとROSエコシステムを活用しています。 このフレームワークの中核となるビルディングブロックを提供し、コミュニティによってどのように利用され、拡張されるかを説明します。 そのアーキテクチャは、コンテナ化や継続的インテグレーションといった現代的なマイクロサービスとDevOpsの原則の上に構築されている。 この記事では、重要な設計原則を説明し、ソフトウェアプロトタイピング、データ駆動開発、自動テストの3つの主要なユースケースを示します。 CARLOSと、github.com/ika-rwth-aachen/carlosで公開されている3つのユースケースの実装例を作成します。

Future mobility systems and their components are increasingly defined by their software. The complexity of these cooperative intelligent transport systems (C-ITS) and the everchanging requirements posed at the software require continual software updates. The dynamic nature of the system and the practically innumerable scenarios in which different software components work together necessitate efficient and automated development and testing procedures that use simulations as one core methodology. The availability of such simulation architectures is a common interest among many stakeholders, especially in the field of automated driving. That is why we propose CARLOS - an open, modular, and scalable simulation framework for the development and testing of software in C-ITS that leverages the rich CARLA and ROS ecosystems. We provide core building blocks for this framework and explain how it can be used and extended by the community. Its architecture builds upon modern microservice and DevOps principles such as containerization and continuous integration. In our paper, we motivate the architecture by describing important design principles and showcasing three major use cases - software prototyping, data-driven development, and automated testing. We make CARLOS and example implementations of the three use cases publicly available at github.com/ika-rwth-aachen/carlos
翻訳日:2024-04-22 17:23:46 公開日:2024-04-19
# 量子ビット量子系に対する最適ベル不等式

Optimal Bell inequalities for qubit-qudit systems ( http://arxiv.org/abs/2404.02092v2 )

ライセンス: Link先を確認
Alexander Bernal, J. Alberto Casas, Jesus M. Moreno, (参考訳) 汎用量子キューディットシステムに対するベルの最大値違反を評価し,任意のキューディット次元で容易に計算可能な式を得る。 この研究は、よく知られたホロデキスの結果を量子ビット系に対して一般化する。 また、この違反に対して単純な下限と上限を与え、クディット・ヒルベルト空間をより大きな次元の1つに埋め込むことでベル違反量を改善する可能性について研究する。 結果は、量子ビット量子系の文脈における密度行列の族で示される。

We evaluate the maximal Bell violation for a generic qubit-qudit system, obtaining easily computable expressions in arbitrary qudit dimension. This work generalizes the well-known Horodeckis's result for a qubit-qubit system. We also give simple lower and upper bounds on that violation and study the possibility of improving the amount of Bell-violation by embedding the qudit Hilbert space in one of larger dimension. The results are illustrated with a family of density matrices in the context of a qubit-qutrit system.
翻訳日:2024-04-22 17:23:46 公開日:2024-04-19
# scenario.center: 実世界のデータからシナリオデータベースへのメソッド

scenario.center: Methods from Real-world Data to a Scenario Database ( http://arxiv.org/abs/2404.02561v3 )

ライセンス: Link先を確認
Michael Schuldes, Christoph Glasmacher, Lutz Eckstein, (参考訳) シナリオベースのテストは、複雑な交通環境において純粋なオンロードテストが非効率であるように見えるため、自動走行システム(ADS)の開発、検証、検証を行うための有望な方法である。 このアプローチの大きな課題は、システムをテストするのに十分な数のシナリオのプロビジョニングと管理である。 近年の研究では,大規模シナリオの提供,生成,管理について検討している。 本稿では,シナリオベースのテストアプローチの必要性を包括的かつ自動的にカバーするシナリオデータを処理し,管理するためのシナリオデータベースシナリオ.center(https://scenario.center )を提案する。 これにより、このようなデータベースの要件が記述される。 これらのことから,4段階のアプローチが提案されている。 まず、品質要件が定義された共通入力形式を定義する。 これはイベントやベースシナリオを自動的に検出するために利用される。 さらに,検索性,データ品質評価,シナリオ生成方法の異なる手法を提案し,異なるニーズに合った広い適用性を実現する。 評価のために、この方法論は最先端のシナリオデータベースと比較される。 最後に、この方法論をinDデータセットに適用することにより、データベースのアプリケーションと機能を示す。 データベースインターフェースの公開デモはhttps://scenario.center.comで公開されている。

Scenario-based testing is a promising method to develop, verify and validate automated driving systems (ADS) since pure on-road testing seems inefficient for complex traffic environments. A major challenge for this approach is the provision and management of a sufficient number of scenarios to test a system. The provision, generation, and management of scenario at scale is investigated in current research. This paper presents the scenario database scenario.center ( https://scenario.center ) to process and manage scenario data covering the needs of scenario-based testing approaches comprehensively and automatically. Thereby, requirements for such databases are described. Based on those, a four-step approach is proposed. Firstly, a common input format with defined quality requirements is defined. This is utilized for detecting events and base scenarios automatically. Furthermore, methods for searchability, evaluation of data quality and different scenario generation methods are proposed to allow a broad applicability serving different needs. For evaluation, the methodology is compared to state-of-the-art scenario databases. Finally, the application and capabilities of the database are shown by applying the methodology to the inD dataset. A public demonstration of the database interface is provided at https://scenario.center .
翻訳日:2024-04-22 17:23:46 公開日:2024-04-19
# 最適化型タスク・アンド・モーションプランニングに関する調査研究:古典的アプローチから学習的アプローチへ

A Survey of Optimization-based Task and Motion Planning: From Classical To Learning Approaches ( http://arxiv.org/abs/2404.02817v3 )

ライセンス: Link先を確認
Zhigen Zhao, Shuo Cheng, Yan Ding, Ziyi Zhou, Shiqi Zhang, Danfei Xu, Ye Zhao, (参考訳) タスク・アンド・モーション・プランニング(TAMP)は、高レベルのタスク・プランニングと低レベルのモーション・プランニングを統合し、ロボットに自律性を持たせ、長期の動的タスクを効果的に推論する。 最適化ベースのTAMPは、目的関数を介して目標条件を定義し、ロボットと環境の間のオープンな目標、ロボット力学、物理的相互作用を扱うことができるハイブリッド最適化アプローチに焦点を当てている。 したがって、最適化に基づくTAMPは、高度に複雑で接触に富んだ移動と操作の問題を解くのに特に適している。 この調査は最適化に基づくTAMPの包括的なレビューを提供する。 一 動作記述言語及び時間論理を含むドメイン表現の計画 (II)AI計画・軌道最適化(TO)を含むTAMPコンポーネントの個別ソリューション戦略 三 論理ベースのタスク計画とモデルベースのTOの動的相互作用 この調査の特に焦点は、TAMP、特に階層的および分散的アプローチを効率的に解くアルゴリズム構造を明らかにすることである。 さらに、この調査は古典的手法と大規模言語モデルのような現代的学習に基づく革新との相乗効果を強調している。 さらに,この調査では,TAMPの今後の研究方向性について論じ,アルゴリズムとアプリケーション固有の課題を取り上げている。

Task and Motion Planning (TAMP) integrates high-level task planning and low-level motion planning to equip robots with the autonomy to effectively reason over long-horizon, dynamic tasks. Optimization-based TAMP focuses on hybrid optimization approaches that define goal conditions via objective functions and are capable of handling open-ended goals, robotic dynamics, and physical interaction between the robot and the environment. Therefore, optimization-based TAMP is particularly suited to solve highly complex, contact-rich locomotion and manipulation problems. This survey provides a comprehensive review on optimization-based TAMP, covering (i) planning domain representations, including action description languages and temporal logic, (ii) individual solution strategies for components of TAMP, including AI planning and trajectory optimization (TO), and (iii) the dynamic interplay between logic-based task planning and model-based TO. A particular focus of this survey is to highlight the algorithm structures to efficiently solve TAMP, especially hierarchical and distributed approaches. Additionally, the survey emphasizes the synergy between the classical methods and contemporary learning-based innovations such as large language models. Furthermore, the future research directions for TAMP is discussed in this survey, highlighting both algorithmic and application-specific challenges.
翻訳日:2024-04-22 17:23:46 公開日:2024-04-19
# アスペクトベース感性分析システムの性能向上

Enhancing the Performance of Aspect-Based Sentiment Analysis Systems ( http://arxiv.org/abs/2404.03259v2 )

ライセンス: Link先を確認
Chen Li, Huidong Tang, Peng Ju, Debo Cheng, Yasuhiko Morimoto, (参考訳) アスペクトベースの感情分析は、微粒度で感情極性を予測することを目的としている。 グラフ畳み込みネットワーク(GCN)は感傷的特徴抽出に広く利用されているが、その直感的な特徴抽出への応用は情報保存を損なう可能性がある。 本研究では,改良されたエッジ強化GCNであるSentiSysを導入し,特徴情報を保存しながら構文グラフをナビゲートし,性能を向上する。 具体的には、まず双方向長短期メモリ(Bi-LSTM)ネットワークと自己注意型トランスフォーマーを統合する。 この組み合わせは効果的なテキストエンコーディングを促進し、情報の喪失を防ぎ、長い依存テキストを予測する。 次に、メッセージパッシングを伴う双方向GCN(Bi-GCN)を使用して、エンティティ間の関係をエンコードする。 さらに、アスペクト固有のマスキング技術を用いて不要な情報をフィルタリングする。 提案モデルの有効性を検証するため,4つのベンチマークデータセットに対する広範囲な評価実験とアブレーション研究を行った。 その結果,SentiSysを用いたアスペクトベース感情分析では,常に改善が見られた。 本手法は,構文的特徴抽出に関わる課題に対処し,感情分析手法の進歩の可能性を強調した。

Aspect-based sentiment analysis aims to predict sentiment polarity with fine granularity. While Graph Convolutional Networks (GCNs) are widely utilized for sentimental feature extraction, their naive application for syntactic feature extraction can compromise information preservation. This study introduces an innovative edge-enhanced GCN, named SentiSys, to navigate the syntactic graph while preserving intact feature information, leading to enhanced performance. Specifically,we first integrate a bidirectional long short-term memory (Bi-LSTM) network and a self-attention-based transformer. This combination facilitates effective text encoding, preventing the loss of information and predicting long dependency text. A bidirectional GCN (Bi-GCN) with message passing is then employed to encode relationships between entities. Additionally, unnecessary information is filtered out using an aspect-specific masking technique. To validate the effectiveness of our proposed model, we conduct extensive evaluation experiments and ablation studies on four benchmark datasets. The results consistently demonstrate improved performance in aspect-based sentiment analysis when employing SentiSys. This approach successfully addresses the challenges associated with syntactic feature extraction, highlighting its potential for advancing sentiment analysis methodologies.
翻訳日:2024-04-22 17:23:46 公開日:2024-04-19
# ポテト品種の予測分析

Predictive Analytics of Varieties of Potatoes ( http://arxiv.org/abs/2404.03701v2 )

ライセンス: Link先を確認
Fabiana Ferracina, Bala Krishnamoorthy, Mahantesh Halappanavar, Shengwei Hu, Vidyasagar Sathuvalli, (参考訳) 本研究では, 育種試験におけるRussetポテトクローンの適合性を予測するため, 機械学習アルゴリズムの適用について検討する。 オレゴン州で手作業で収集した試行のデータを活用し、多種多様な最先端のバイナリ分類モデルの可能性について検討する。 我々は、不足する値に対処するために、前処理、機能エンジニアリング、計算を含むデータセットの包括的な分析を行う。 モデル評価のために,精度,F1スコア,マシューズ相関係数(MCC)などの重要な指標に着目した。 マルチ層パーセプトロン分類器(MLPC)、ヒストグラムに基づく勾配増強分類器(HGBC)、サポートベクターマシン分類器(SVC)といったトップパフォーマンスモデルは、一貫性と重要な結果を示している。 可変選択はモデルの性能をさらに向上させ、トライアルの結果を予測する上で重要な特徴を識別する。 本研究は, ジャガイモ品種の選択プロセスの合理化における機械学習の可能性を強調し, 効率の向上, 大幅なコスト削減, 司法的資源利用などのメリットを提供している。 本研究は, 精密農業に関する知見を提供し, 育種プログラムにおける情報意思決定における先進技術の有効性を示す。

We explore the application of machine learning algorithms to predict the suitability of Russet potato clones for advancement in breeding trials. Leveraging data from manually collected trials in the state of Oregon, we investigate the potential of a wide variety of state-of-the-art binary classification models. We conduct a comprehensive analysis of the dataset that includes preprocessing, feature engineering, and imputation to address missing values. We focus on several key metrics such as accuracy, F1-score, and Matthews correlation coefficient (MCC) for model evaluation. The top-performing models, namely the multi-layer perceptron classifier (MLPC), histogram-based gradient boosting classifier (HGBC), and a support vector machine classifier (SVC), demonstrate consistent and significant results. Variable selection further enhances model performance and identifies influential features in predicting trial outcomes. The findings emphasize the potential of machine learning in streamlining the selection process for potato varieties, offering benefits such as increased efficiency, substantial cost savings, and judicious resource utilization. Our study contributes insights into precision agriculture and showcases the relevance of advanced technologies for informed decision-making in breeding programs.
翻訳日:2024-04-22 17:23:46 公開日:2024-04-19
# コアラ:キーフレームコンディション長ビデオLLM

Koala: Key frame-conditioned long video-LLM ( http://arxiv.org/abs/2404.04346v2 )

ライセンス: Link先を確認
Reuben Tan, Ximeng Sun, Ping Hu, Jui-hsien Wang, Hanieh Deilamsalehy, Bryan A. Plummer, Bryan Russell, Kate Saenko, (参考訳) 長時間のビデオ質問応答は、短期活動を認識し、それらのきめ細かい関係を推論する難しいタスクである。 最先端のビデオであるLarge Language Models (vLLMs)は、新しいタスクの創発的な機能を示すため、実現可能なソリューションとして期待されている。 しかし、数百万秒の短いビデオで訓練されているにもかかわらず、vLLMは数分のビデオを理解できず、正確な質問に答えることができない。 この制限に対処するために、より長いビデオに一般化するために、学習可能な時空間クエリを導入し、事前学習したvLLMに適応する、軽量で自己管理的なアプローチ、Key frame-conditioned long video-LLM (Koala)を提案する。 提案手法では,ショート・ビデオ・モーメントとロング・ビデオ・モーメントの理解のために,スパース・ビデオ・キーフレームから計算した視覚トークンを条件とした2つの新しいトークン化手法を提案する。 提案手法をHowTo100Mで学習し、その効果をゼロショット長ビデオ理解ベンチマークで示し、すべてのタスクにおいて3~6%の精度で最先端の大規模モデルより優れていることを示す。 意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。

Long video question answering is a challenging task that involves recognizing short-term activities and reasoning about their fine-grained relationships. State-of-the-art video Large Language Models (vLLMs) hold promise as a viable solution due to their demonstrated emergent capabilities on new tasks. However, despite being trained on millions of short seconds-long videos, vLLMs are unable to understand minutes-long videos and accurately answer questions about them. To address this limitation, we propose a lightweight and self-supervised approach, Key frame-conditioned long video-LLM (Koala), that introduces learnable spatiotemporal queries to adapt pretrained vLLMs for generalizing to longer videos. Our approach introduces two new tokenizers that condition on visual tokens computed from sparse video key frames for understanding short and long video moments. We train our proposed approach on HowTo100M and demonstrate its effectiveness on zero-shot long video understanding benchmarks, where it outperforms state-of-the-art large models by 3 - 6% in absolute accuracy across all tasks. Surprisingly, we also empirically show that our approach not only helps a pretrained vLLM to understand long videos but also improves its accuracy on short-term action recognition.
翻訳日:2024-04-22 17:23:46 公開日:2024-04-19
# HiLo: パラメトリックモデルの高次・低周波情報を用いた細部・ロバストな3次元再構成

HiLo: Detailed and Robust 3D Clothed Human Reconstruction with High-and Low-Frequency Information of Parametric Models ( http://arxiv.org/abs/2404.04876v2 )

ライセンス: Link先を確認
Yifan Yang, Dong Liu, Shuhai Zhang, Zeshuai Deng, Zixiong Huang, Mingkui Tan, (参考訳) 3Dの服を着た人間の再構築には、仮想試着、映画、ゲームなどを含む、衣服の個体の詳細な幾何学が関与する。 実用的で広範な応用を実現するため、近年の進歩として、RGB画像から布を被った人間を生成する方法が提案されている。 しかし、彼らは細部と頑丈なアバターを同時に再建するのに苦労した。 実験により、パラメトリックモデルからの高周波(HF)と低周波(LF)の情報は、それぞれ、幾何学的詳細性を高め、ノイズに対する堅牢性を向上させる可能性があることがわかった。 そこで本研究では,2つのコンポーネントを含む高周波数情報と低周波情報を用いたHiLoを提案する。 1)HF情報を用いて詳細な形状を復元するために,衣服の詳細な3次元形状を向上するプログレッシブなHF符号距離関数を提案する。 モデル収束を阻害する大きな勾配を緩和する進行学習法を解析する。 2) LF情報を用いたパラメトリックモデルの不正確な推定に対する頑健な再構成を実現するために,空間的相互作用暗黙関数を提案する。 この関数はパラメトリックモデルの低分解能ボクセル格子からの補空間情報を効果的に活用する。 実験の結果、HiLoはT Human2.0データセットとCAPEデータセットのチャムファー距離において、最先端の手法を10.43%、9.54%上回ることがわかった。 さらに、HiLoはパラメトリックモデル、挑戦的なポーズ、さまざまな服装スタイルからのノイズに対する堅牢性を示している。

Reconstructing 3D clothed human involves creating a detailed geometry of individuals in clothing, with applications ranging from virtual try-on, movies, to games. To enable practical and widespread applications, recent advances propose to generate a clothed human from an RGB image. However, they struggle to reconstruct detailed and robust avatars simultaneously. We empirically find that the high-frequency (HF) and low-frequency (LF) information from a parametric model has the potential to enhance geometry details and improve robustness to noise, respectively. Based on this, we propose HiLo, namely clothed human reconstruction with high- and low-frequency information, which contains two components. 1) To recover detailed geometry using HF information, we propose a progressive HF Signed Distance Function to enhance the detailed 3D geometry of a clothed human. We analyze that our progressive learning manner alleviates large gradients that hinder model convergence. 2) To achieve robust reconstruction against inaccurate estimation of the parametric model by using LF information, we propose a spatial interaction implicit function. This function effectively exploits the complementary spatial information from a low-resolution voxel grid of the parametric model. Experimental results demonstrate that HiLo outperforms the state-of-the-art methods by 10.43% and 9.54% in terms of Chamfer distance on the Thuman2.0 and CAPE datasets, respectively. Additionally, HiLo demonstrates robustness to noise from the parametric model, challenging poses, and various clothing styles.
翻訳日:2024-04-22 17:23:46 公開日:2024-04-19
# 自律走行のための単眼3次元車線検出 -最近の成果, 課題, 展望-

Monocular 3D lane detection for Autonomous Driving: Recent Achievements, Challenges, and Outlooks ( http://arxiv.org/abs/2404.06860v2 )

ライセンス: Link先を確認
Fulong Ma, Weiqing Qi, Guoyang Zhao, Linwei Zheng, Sheng Wang, Yuxuan Liu, Ming Liu, (参考訳) 3次元車線検出は、道路の構造と交通情報を3次元空間で抽出し、論理的で安全で快適な経路計画と移動制御を支援するため、自動運転において不可欠である。 センサのコストと色情報における視覚データの利点を考えると、単眼視に基づく3次元車線検出は自動運転の領域における重要な研究方向であり、産業と学界の両方で注目を集めている。 近年の視覚知覚の進歩は、完全に信頼性の高い3D車線検出アルゴリズムの開発に欠かせないように思われる。 視覚センサを用いた自動運転車の3次元車線検出アルゴリズムには,まだかなりの改善の余地があり,大幅な改良が必要であると考えている。 本稿では,3次元車線検出研究の成果を振り返って分析する。 現在のモノクラーベース3Dレーン検出プロセスをすべてカバーし、これらの最先端アルゴリズムの性能を論じ、様々なアルゴリズムの時間的複雑さを分析し、進行中の研究努力の主な成果と限界を強調している。 この調査には、利用可能な3Dレーン検出データセットと、研究者が直面しているがまだ解決していない課題に関する包括的な議論も含まれている。 最後に、我々の研究は今後の研究の方向性を概説し、研究者や実践者たちにこのエキサイティングな分野への参加を依頼する。

3D lane detection is essential in autonomous driving as it extracts structural and traffic information from the road in three-dimensional space, aiding self-driving cars in logical, safe, and comfortable path planning and motion control. Given the cost of sensors and the advantages of visual data in color information, 3D lane detection based on monocular vision is an important research direction in the realm of autonomous driving, increasingly gaining attention in both industry and academia. Regrettably, recent advancements in visual perception seem inadequate for the development of fully reliable 3D lane detection algorithms, which also hampers the progress of vision-based fully autonomous vehicles. We believe that there is still considerable room for improvement in 3D lane detection algorithms for autonomous vehicles using visual sensors, and significant enhancements are needed. This review looks back and analyzes the current state of achievements in the field of 3D lane detection research. It covers all current monocular-based 3D lane detection processes, discusses the performance of these cutting-edge algorithms, analyzes the time complexity of various algorithms, and highlights the main achievements and limitations of ongoing research efforts. The survey also includes a comprehensive discussion of available 3D lane detection datasets and the challenges that researchers face but have not yet resolved. Finally, our work outlines future research directions and invites researchers and practitioners to join this exciting field.
翻訳日:2024-04-22 17:23:46 公開日:2024-04-19
# AI知能画像認識による河川・湖沼の浮体検出に関する研究

Research on Detection of Floating Objects in River and Lake Based on AI Intelligent Image Recognition ( http://arxiv.org/abs/2404.06883v2 )

ライセンス: Link先を確認
Jingyu Zhang, Ao Xiang, Yu Cheng, Qin Yang, Liyang Wang, (参考訳) 人工知能技術の急速な進歩により、従来の環境モニタリングにおける課題に対処するための強力なツールとして、AI対応の画像認識が登場した。 本研究では,河川・湖沼環境における浮遊物体の検出に焦点をあて,深層学習に基づく革新的なアプローチを探求する。 静的・動的特徴を検出する技術経路を複雑に解析し,河川や湖沼の破片の特徴を考慮し,総合的な画像取得・処理ワークフローを開発した。 この研究は、デブリ識別における3つの主流ディープラーニングモデル(SSD、Faster-RCNN、YOLOv5)の適用とパフォーマンスの比較を強調している。 さらに、ハードウェアプラットフォームの構築とソフトウェアフレームワークの開発の両方を含む、浮動小数点物体検出システムの設計と実装が行われている。 厳密な実験的検証を通じて, 河川および湖沼における水質モニタリングのための新しい技術道を提供するとともに, 破片検出の精度と効率を大幅に向上する能力を示した。

With the rapid advancement of artificial intelligence technology, AI-enabled image recognition has emerged as a potent tool for addressing challenges in traditional environmental monitoring. This study focuses on the detection of floating objects in river and lake environments, exploring an innovative approach based on deep learning. By intricately analyzing the technical pathways for detecting static and dynamic features and considering the characteristics of river and lake debris, a comprehensive image acquisition and processing workflow has been developed. The study highlights the application and performance comparison of three mainstream deep learning models -SSD, Faster-RCNN, and YOLOv5- in debris identification. Additionally, a detection system for floating objects has been designed and implemented, encompassing both hardware platform construction and software framework development. Through rigorous experimental validation, the proposed system has demonstrated its ability to significantly enhance the accuracy and efficiency of debris detection, thus offering a new technological avenue for water quality monitoring in rivers and lakes
翻訳日:2024-04-22 17:23:46 公開日:2024-04-19
# 大きな言語モデルは間違いから進化し続けることができる

Large Language Model Can Continue Evolving From Mistakes ( http://arxiv.org/abs/2404.08707v2 )

ライセンス: Link先を確認
Haokun Zhao, Haixia Han, Jie Shi, Chengyu Du, Jiaqing Liang, Yanghua Xiao, (参考訳) 大きな言語モデル(LLM)は、様々な下流タスクで素晴らしいパフォーマンスを示す。 しかし、知識不足と欠陥のある事前学習データのために、特定のシナリオで誤った応答を生成する可能性がある。 継続的学習(CL)は、この問題に対処するための一般的な方法である。 従来のCLはタスク指向であり、スクラッチからLLMを再訓練するために、新しいデータまたは事実的正確性を用いている。 しかし,本手法では,タスク関連トレーニングデータが多くなり,高価なトレーニングコストがかかる。 この課題に対処するために,LLMの反復的改良を実現するために,「ミスの要約」学習スキルにインスパイアされたCEM法を提案する。 特に, LLMの誤った応答は, 疑問に関連する知識不足を示している。 そこで我々は,これらの知識を複数のデータソースから収集し,継続的かつ目標とする知識更新と補足のための反復的な補足訓練を行う。 一方,LLMのコーパス理解を高めるための補助的トレーニングセットの構築と,破滅的な忘れ込みを防止するための2つの戦略を開発した。 我々は,このCL法の有効性を検証するために,広範囲な実験を行った。 その結果, LLMの精度は17.00\%向上した。

Large Language Models (LLMs) demonstrate impressive performance in various downstream tasks. However, they may still generate incorrect responses in certain scenarios due to the knowledge deficiencies and the flawed pre-training data. Continual Learning (CL) is a commonly used method to address this issue. Traditional CL is task-oriented, using novel or factually accurate data to retrain LLMs from scratch. However, this method requires more task-related training data and incurs expensive training costs. To address this challenge, we propose the Continue Evolving from Mistakes (CEM) method, inspired by the 'summarize mistakes' learning skill, to achieve iterative refinement of LLMs. Specifically, the incorrect responses of LLMs indicate knowledge deficiencies related to the questions. Therefore, we collect corpora with these knowledge from multiple data sources and follow it up with iterative supplementary training for continuous, targeted knowledge updating and supplementation. Meanwhile, we developed two strategies to construct supplementary training sets to enhance the LLM's understanding of the corpus and prevent catastrophic forgetting. We conducted extensive experiments to validate the effectiveness of this CL method. In the best case, our method resulted in a 17.00\% improvement in the accuracy of the LLM.
翻訳日:2024-04-22 17:23:46 公開日:2024-04-19
# OWLOOP:OWLの公理をOOP階層にマッピングするためのインターフェース

OWLOOP: Interfaces for Mapping OWL Axioms into OOP Hierarchies ( http://arxiv.org/abs/2404.09305v2 )

ライセンス: Link先を確認
Luca Buoncompagni, Fulvio Mastrogiovanni, (参考訳) 本稿では、オブジェクト指向プログラミング(OOP)パラダイムにおいて、オントロジーWeb言語(OWL)で形式化された論理公理のマッピング問題に取り組む。 OWLの公理階層とOOPオブジェクトの階層は、OWLベースの推論アルゴリズムが実行時にOWL階層を変更する可能性があるためである。 リフレクションに基づくプログラミングパラダイムは、実行時にOOP階層を変更し、OWLの公理を動的にマッピングすることを可能にするが、推論アルゴリズムを制限しないメカニズムは今のところ存在しない。 したがって、ファクトリベースのパラダイムはOWLとOOPの階層を分離するため、一般的に使用される。 しかし、このファクトリはOOP多型を阻害し、広く受け入れられているOOPパラダイムに対するパラダイムシフトを導入します。 本稿では、推論アルゴリズムを制限しないためにファクトリを利用するOWLOOP APIを紹介し、オントロジーにおける公理に関する新しいOOPインターフェースを提供する。 OWLOOPは、論理推論を利用するソフトウェアアーキテクチャのモジュラリティであるOOPライクなポリモルフィズムを通じて改善しながら、オントロジの使用に必要なパラダイムシフトを制限するように設計されています。 本稿では,私たちのOWLからOOPマッピング機構について詳述し,スマート環境におけるロボットの事例を通してOWLOOPのメリットと限界を示す。

The paper tackles the issue of mapping logic axioms formalised in the Ontology Web Language (OWL) within the Object-Oriented Programming (OOP) paradigm. The issues of mapping OWL axioms hierarchies and OOP objects hierarchies are due to OWL-based reasoning algorithms, which might change an OWL hierarchy at runtime; instead, OOP hierarchies are usually defined as static structures. Although programming paradigms based on reflection allow changing the OOP hierarchies at runtime and mapping OWL axioms dynamically, there are no currently available mechanisms that do not limit the reasoning algorithms. Thus, the factory-based paradigm is typically used since it decouples the OWL and OOP hierarchies. However, the factory inhibits OOP polymorphism and introduces a paradigm shift with respect to widely accepted OOP paradigms. We present the OWLOOP API, which exploits the factory to not limit reasoning algorithms, and it provides novel OOP interfaces concerning the axioms in an ontology. OWLOOP is designed to limit the paradigm shift required for using ontologies while improving, through OOP-like polymorphism, the modularity of software architectures that exploit logic reasoning. The paper details our OWL to OOP mapping mechanism, and it shows the benefits and limitations of OWLOOP through examples concerning a robot in a smart environment.
翻訳日:2024-04-22 17:13:50 公開日:2024-04-19
# 銅合金とFAGCの構造・物性関係の解明

Revealing the structure-property relationships of copper alloys with FAGC ( http://arxiv.org/abs/2404.09515v2 )

ライセンス: Link先を確認
Yuexing Han, Guanxin Wan, Tao Han, Bing Wang, Yi Liu, (参考訳) 材料の構造がそれらの特性にどのように影響するかを理解することは、材料科学と工学の基盤となる。 しかし、従来の手法は複雑な構造に対する量的構造-不適切な関係を正確に記述するのに苦労してきた。 本研究では、このギャップを機械学習を利用して、材料の微細構造を解析し、その微細構造に基づいて材料の特性を理解し予測する新しい方法を提供する。 本研究では,Cu-Cr-Zr合金に対して,FAGC(Feature Augmentation on Geodesic Curves)法を提案する。 このアプローチは、機械学習を利用して、合金の微細構造の画像内の形状を調べ、その機械的および電子的特性を予測する。 この生成的FAGCアプローチは、量的特性でラベル付けされた材料画像の限られた可用性のために、比較的小さなトレーニングデータセットを効果的に拡張することができる。 このプロセスは、ニューラルネットワークを使って画像から特徴を抽出することから始まる。 これらの特徴は、ジオデシック曲線を構成するために前形空間に写像される。 これらの曲線に沿って、新しい機能が生成され、データセットが効果的に増加する。 さらに、トレーニングデータセットをさらに強化するために、これら新たに生成された機能のための擬似ラベル機構を設計する。 FAGC法は,Cu-Cr-Zr合金の電気伝導率と硬さをそれぞれ0.978,0.998で予測する精度を著しく向上した。 これらの結果は、材料科学における限られた画像データの問題に対処するFAGCの可能性を強調し、複雑なミクロ構造と材料特性の詳細な量的関係を確立する強力なツールを提供する。

Understanding how the structure of materials affects their properties is a cornerstone of materials science and engineering. However, traditional methods have struggled to accurately describe the quantitative structure-property relationships for complex structures. In our study, we bridge this gap by leveraging machine learning to analyze images of materials' microstructures, thus offering a novel way to understand and predict the properties of materials based on their microstructures. We introduce a method known as FAGC (Feature Augmentation on Geodesic Curves), specifically demonstrated for Cu-Cr-Zr alloys. This approach utilizes machine learning to examine the shapes within images of the alloys' microstructures and predict their mechanical and electronic properties. This generative FAGC approach can effectively expand the relatively small training datasets due to the limited availability of materials images labeled with quantitative properties. The process begins with extracting features from the images using neural networks. These features are then mapped onto the Pre-shape space to construct the Geodesic curves. Along these curves, new features are generated, effectively increasing the dataset. Moreover, we design a pseudo-labeling mechanism for these newly generated features to further enhance the training dataset. Our FAGC method has shown remarkable results, significantly improving the accuracy of predicting the electronic conductivity and hardness of Cu-Cr-Zr alloys, with R-squared values of 0.978 and 0.998, respectively. These outcomes underscore the potential of FAGC to address the challenge of limited image data in materials science, providing a powerful tool for establishing detailed and quantitative relationships between complex microstructures and material properties.
翻訳日:2024-04-22 17:13:50 公開日:2024-04-19
# 悪魔は数ショットにある: 数ショット学習のための反復的な視覚的知識補完

The Devil is in the Few Shots: Iterative Visual Knowledge Completion for Few-shot Learning ( http://arxiv.org/abs/2404.09778v2 )

ライセンス: Link先を確認
Yaohui Li, Qifeng Zhou, Haoxing Chen, Jianbing Zhang, Xinyu Dai, Hao Zhou, (参考訳) 対照的に、CLIP(Contrastive Language-Image Pre-Training)は、ゼロショット学習の強力なパフォーマンスを示している。 CLIPの転送機能をさらに強化するために、クラス毎にイメージを少数与えることが目的だ。 既存のほとんどのメソッドは、学習可能なプロンプトやアダプタを組み込むことで、いくつかのショットから暗黙的に学習するか、推論のためにキャッシュモデルにそれらを明示的に埋め込みます。 しかし、少ないショットの狭い分布には、しばしば不完全なクラス情報が含まれており、誤分類のリスクの高い視覚的知識に偏りが生じる。 この問題に対処するため、近年の手法では、生成モデルや余分なデータベースによる視覚的知識の補足が提案されている。 本稿では, 補助データや合成データにアクセスせずに, ラベルのないサンプルを適切に活用することにより, 視覚知識を補完する反復的視覚知識比較法を提案する。 具体的には、KCLはまず、ラベルなしサンプルと各カテゴリの類似度を測定する。 そして、各カテゴリに最も信頼度の高いサンプルを選択し、設計された信頼基準によって収集する。 最後に、収集したサンプルをラベル付きとして扱い、残りのラベルなしのサンプルを共同で再推定するために、いくつかのショットに追加する。 上記の手順は、一定回数の反復に対して反復され、収束するまでさらに多くのサンプルが収集され、進歩的で堅牢な知識完成プロセスが保証される。 11のベンチマークデータセットに対する大規模な実験は、数ショットとゼロショットの学習設定の両方で、プラグイン・アンド・プレイモジュールとしてのKCLの有効性と効率を実証している。 コードはhttps://github.com/Mark-Sky/KCLで入手できる。

Contrastive Language-Image Pre-training (CLIP) has shown powerful zero-shot learning performance. Few-shot learning aims to further enhance the transfer capability of CLIP by giving few images in each class, aka 'few shots'. Most existing methods either implicitly learn from the few shots by incorporating learnable prompts or adapters, or explicitly embed them in a cache model for inference. However, the narrow distribution of few shots often contains incomplete class information, leading to biased visual knowledge with high risk of misclassification. To tackle this problem, recent methods propose to supplement visual knowledge by generative models or extra databases, which can be costly and time-consuming. In this paper, we propose an Iterative Visual Knowledge CompLetion (KCL) method to complement visual knowledge by properly taking advantages of unlabeled samples without access to any auxiliary or synthetic data. Specifically, KCL first measures the similarities between unlabeled samples and each category. Then, the samples with top confidence to each category is selected and collected by a designed confidence criterion. Finally, the collected samples are treated as labeled ones and added to few shots to jointly re-estimate the remaining unlabeled ones. The above procedures will be repeated for a certain number of iterations with more and more samples being collected until convergence, ensuring a progressive and robust knowledge completion process. Extensive experiments on 11 benchmark datasets demonstrate the effectiveness and efficiency of KCL as a plug-and-play module under both few-shot and zero-shot learning settings. Code is available at https://github.com/Mark-Sky/KCL.
翻訳日:2024-04-22 17:13:50 公開日:2024-04-19
# TC-OCR:表の構造と内容の効率的な検出・認識のためのテーブルクラフトOCR

TC-OCR: TableCraft OCR for Efficient Detection & Recognition of Table Structure & Content ( http://arxiv.org/abs/2404.10305v2 )

ライセンス: Link先を確認
Avinash Anand, Raj Jaiswal, Pijush Bhuyan, Mohit Gupta, Siddhesh Bangar, Md. Modassir Imam, Rajiv Ratn Shah, Shin'ichi Satoh, (参考訳) 文書画像における表データの自動認識は,表形式や複雑な構造が多様であることから,大きな課題となっている。 テーブルは貴重なコンテンツ表現を提供し、検索エンジンや知識グラフといった様々なシステムの予測能力を高める。 テーブル検出(TD)とテーブル構造認識(TSR)という2つの主要な問題に対処することは、伝統的に独立してアプローチされてきた。 本研究では,DeTR,CascadeTabNet,PP OCR v2といったディープラーニングモデルを統合し,総合的な画像ベースのテーブル認識を実現するエンドツーエンドパイプラインを提案する。 この統合アプローチは、テーブルスタイル、複雑な構造、画像歪みを効果的に処理し、テーブルトランスフォーマーのような既存の手法と比較して精度と効率を向上させる。 本システムでは、テーブル構造を保存し、文書画像から表データを正確に抽出し、テーブル検出(TD)、テーブル構造認識(TSR)、テーブルコンテンツ認識(TCR)を実現する。 複数のモデルの統合は、テーブル認識の複雑さに対処し、我々のアプローチは、画像ベースのテーブル理解、データ抽出、情報検索アプリケーションのための有望なソリューションとなる。 提案手法は0.96のIOUと78%のOCR精度を実現し,従来のテーブルトランスフォーマーに比べてOCR精度が約25%向上したことを示す。

The automatic recognition of tabular data in document images presents a significant challenge due to the diverse range of table styles and complex structures. Tables offer valuable content representation, enhancing the predictive capabilities of various systems such as search engines and Knowledge Graphs. Addressing the two main problems, namely table detection (TD) and table structure recognition (TSR), has traditionally been approached independently. In this research, we propose an end-to-end pipeline that integrates deep learning models, including DETR, CascadeTabNet, and PP OCR v2, to achieve comprehensive image-based table recognition. This integrated approach effectively handles diverse table styles, complex structures, and image distortions, resulting in improved accuracy and efficiency compared to existing methods like Table Transformers. Our system achieves simultaneous table detection (TD), table structure recognition (TSR), and table content recognition (TCR), preserving table structures and accurately extracting tabular data from document images. The integration of multiple models addresses the intricacies of table recognition, making our approach a promising solution for image-based table understanding, data extraction, and information retrieval applications. Our proposed approach achieves an IOU of 0.96 and an OCR Accuracy of 78%, showcasing a remarkable improvement of approximately 25% in the OCR Accuracy compared to the previous Table Transformer approach.
翻訳日:2024-04-22 17:13:50 公開日:2024-04-19
# GazeHTA:ヘッド・ターゲット・アソシエーションによるエンド・ツー・エンドの目標検出

GazeHTA: End-to-end Gaze Target Detection with Head-Target Association ( http://arxiv.org/abs/2404.10718v2 )

ライセンス: Link先を確認
Zhi-Yi Lin, Jouh Yeong Chew, Jan van Gemert, Xucong Zhang, (参考訳) 本研究では、視線目標検出のためのエンドツーエンドなアプローチを提案する。 既存の方法の多くは、オフザシェルフヘッド検出器のような独立したコンポーネントを使用するか、ヘッドと視線ターゲットの関連を確立するのに問題がある。 対照的に、入力シーン画像のみに基づいて複数のヘッドターゲットインスタンスを予測するヘッド・アンド・ターゲット・アソシエーション(GazeHTA)を用いて、エンド・ツー・エンドのマルチパーソン・ゲイズ目標検出フレームワークについて検討する。 GazeHTAは,(1)事前学習した拡散モデルを用いてシーンの特徴を抽出し,豊かなセマンティック理解を実現すること,(2)頭部特徴を再注入して頭部理解を改善すること,(3)頭部と視線目標の明確な視覚的関連性として接続マップを学習することによる視線目標検出の課題に対処する。 実験の結果,GazeHTAは2つの標準データセットに対して,最先端の視線目標検出法と2つの適応拡散ベースラインより優れていた。

We propose an end-to-end approach for gaze target detection: predicting a head-target connection between individuals and the target image regions they are looking at. Most of the existing methods use independent components such as off-the-shelf head detectors or have problems in establishing associations between heads and gaze targets. In contrast, we investigate an end-to-end multi-person Gaze target detection framework with Heads and Targets Association (GazeHTA), which predicts multiple head-target instances based solely on input scene image. GazeHTA addresses challenges in gaze target detection by (1) leveraging a pre-trained diffusion model to extract scene features for rich semantic understanding, (2) re-injecting a head feature to enhance the head priors for improved head understanding, and (3) learning a connection map as the explicit visual associations between heads and gaze targets. Our extensive experimental results demonstrate that GazeHTA outperforms state-of-the-art gaze target detection methods and two adapted diffusion-based baselines on two standard datasets.
翻訳日:2024-04-22 17:13:50 公開日:2024-04-19
# RetailOpt:スマートフォンのモーションデータと小売施設情報を活用した、オプトインで簡単に展開可能な軌道推定システム

RetailOpt: An Opt-In, Easy-to-Deploy Trajectory Estimation System Leveraging Smartphone Motion Data and Retail Facility Information ( http://arxiv.org/abs/2404.12548v1 )

ライセンス: Link先を確認
Ryo Yonetani, Jun Baba, Yasutaka Furukawa, (参考訳) RetailOptは、屋内小売環境における顧客の動きを追跡するための、オプトインで簡単にデプロイできる新しいシステムである。 このシステムは、スマートフォンや小売アプリを通じて現在アクセス可能な情報(モーションデータ、ストアマップ、購入レコード)を利用する。 このアプローチは、追加のハードウェアインストール/メンテナンスの必要性を排除し、顧客がデータの完全なコントロールを確実にする。 具体的には、RetailOptはまず慣性ナビゲーションを使用して、スマートフォンのモーションデータから相対軌道を復元する。 ストアマップと購入レコードを相互参照して、訪問した棚のリストを特定し、連続的かつ離散的な最適化を通じて、ストア内の相対的な軌跡をローカライズするアンカーを提供する。 5つの異なる環境における系統的な実験を通して,本システムの有効性を実証する。 提案システムは、成功すれば顧客行動分析や店内ナビゲーションなど、幅広い小売アプリケーションに欠かせない正確な顧客行動データを生成する。 潜在的なアプリケーションは、エンターテイメントや補助技術といった他の領域にも拡張できる可能性がある。

We present RetailOpt, a novel opt-in, easy-to-deploy system for tracking customer movements in indoor retail environments. The system utilizes information presently accessible to customers through smartphones and retail apps: motion data, store map, and purchase records. The approach eliminates the need for additional hardware installations/maintenance and ensures customers maintain full control of their data. Specifically, RetailOpt first employs inertial navigation to recover relative trajectories from smartphone motion data. The store map and purchase records are then cross-referenced to identify a list of visited shelves, providing anchors to localize the relative trajectories in a store through continuous and discrete optimization. We demonstrate the effectiveness of our system through systematic experiments in five diverse environments. The proposed system, if successful, would produce accurate customer movement data, essential for a broad range of retail applications, including customer behavior analysis and in-store navigation. The potential application could also extend to other domains such as entertainment and assistive technologies.
翻訳日:2024-04-22 16:34:43 公開日:2024-04-19
# 行列要素増幅によるコヒーレント誤差の特性評価

Characterizing Coherent Errors using Matrix-Element Amplification ( http://arxiv.org/abs/2404.12550v1 )

ライセンス: Link先を確認
Jonathan A. Gross, Elie Genois, Dripto M. Debroy, Yaxing Zhang, Wojciech Mruczkiewicz, Ze-Pei Cian, Zhang Jiang, (参考訳) ゲート列を複数回繰り返すと、体系的なエラーがコヒーレントに増幅され、量子ゲートを特徴づけるのに有用なツールとなる。 しかし、そのようなアプローチの精度は低周波ノイズによって制限される一方、その効率は、外対角行列要素の位相が増幅されるのに時間を要するスキャンによって妨げられる。 ここでは、動的デカップリング(MEADD)を用いたマトリックス要素増幅(Matrix-Element Amplification)と呼ばれるプロトコルにおいて、動的デカップリングシーケンスのゲートをインターリーブすることで、両方の課題を克服する。 Google Sycamore量子プロセッサの周波数可変超伝導量子ビットを用いて、MEADDが単一および2量子ゲートの系統的誤差を推定するための既存のキャラクタリゼーションプロトコルの精度と精度を超えることを実験的に実証した。 特に、MEADDは既存の手法と比較して、$\mathrm{CZ}$ゲートのコヒーレントパラメータを推定する際の5から10の係数を出力し、1ミリラディアン未満の精度に達する。 また,プロセッサのコヒーレントなクロストークを特徴付けるためにも使用しています。

Repeating a gate sequence multiple times amplifies systematic errors coherently, making it a useful tool for characterizing quantum gates. However, the precision of such an approach is limited by low-frequency noises, while its efficiency hindered by time-consuming scans required to match up the phases of the off-diagonal matrix elements being amplified. Here, we overcome both challenges by interleaving the gate of interest with dynamical decoupling sequences in a protocol we call Matrix-Element Amplification using Dynamical Decoupling (MEADD). Using frequency-tunable superconducting qubits from a Google Sycamore quantum processor, we experimentally demonstrate that MEADD surpasses the accuracy and precision of existing characterization protocols for estimating systematic errors in single- and two-qubit gates. In particular, MEADD yields factors of 5 to 10 improvements in estimating coherent parameters of the $\mathrm{CZ}$ gates compared to existing methods, reaching a precision below one milliradian. We also use it to characterize coherent crosstalk in the processor which was previously too small to detect reliably.
翻訳日:2024-04-22 16:34:43 公開日:2024-04-19
# 学習安定度と受動ニューラル微分方程式

Learning Stable and Passive Neural Differential Equations ( http://arxiv.org/abs/2404.12554v1 )

ライセンス: Link先を確認
Jing Cheng, Ruigang Wang, Ian R. Manchester, (参考訳) 本稿では,リアプノフの安定度,指数的安定度,受動的性を有するニューラル微分方程式を新たに導入する。 最近提案されたPolyak Lojasiewicz Network (PLNet) を Lyapunov 関数として、次にベクトル場を Lyapunov 関数の降下方向としてパラメータ化する。 得られたモデルは一般ハミルトニアン力学と同じ構造を持ち、ハミルトニアンは2次函数によって下界と上界を持つ。 さらに、既知のあるいは学習可能な平衡のどちらかが正定値 w.r.t. である。 減衰二重振り子システムにおけるモデルの有効性について述べる。

In this paper, we introduce a novel class of neural differential equation, which are intrinsically Lyapunov stable, exponentially stable or passive. We take a recently proposed Polyak Lojasiewicz network (PLNet) as an Lyapunov function and then parameterize the vector field as the descent directions of the Lyapunov function. The resulting models have a same structure as the general Hamiltonian dynamics, where the Hamiltonian is lower- and upper-bounded by quadratic functions. Moreover, it is also positive definite w.r.t. either a known or learnable equilibrium. We illustrate the effectiveness of the proposed model on a damped double pendulum system.
翻訳日:2024-04-22 16:34:43 公開日:2024-04-19
# Dubo-SQL: テキストからSQLへのさまざまな検索生成と微調整

Dubo-SQL: Diverse Retrieval-Augmented Generation and Fine Tuning for Text-to-SQL ( http://arxiv.org/abs/2404.12560v1 )

ライセンス: Link先を確認
Dayton G. Thorpe, Andrew J. Duberstein, Ian A. Kinsey, (参考訳) BIRD-SQLベンチマークにおける実行精度(EX)によって測定されるように、テキストからSQLへの自動化のための現在の最先端(SOTA)は、まだ専門家によるパフォーマンスには劣っている。 最も正確な方法は遅くて高価である。 コスト削減と高速化を図りながら、テキストからSQLへのSOTAを高速化するために、低コストな微調整、多種多様な検索拡張生成(RAG)のための新しい手法、大規模言語モデル(LLM)がより高いEXを達成するのに役立つ新しい入力および出力フォーマットの組み合わせについて検討する。 Dubo-SQL v1とv2という2つの新しいメソッドを紹介します。 Dubo-SQL v1はBIRD-SQLのホールドアウトテストセットにEXの新しいレコードを設定する。 Dubo-SQL v2はBIRD-SQL開発セットでさらに高いパフォーマンスを達成する。 Dubo-SQL v1 は OpenAI の LLM に依存しているが、より高価な GPT-4 を使用する OpenAI を使用した次世代モデルの性能を上回りながら、低価格の GPT-3.5 Turbo を使用する。 Dubo-SQL v1は、GPT-3.5を使用した次世代モデルのパフォーマンスを20%以上上回る。 Dubo-SQL v2はGPT-4 TurboとRAGを微調整の代わりに使用し、EXをより高めている。

The current state-of-the-art (SOTA) for automated text-to-SQL still falls well short of expert human performance as measured by execution accuracy (EX) on the BIRD-SQL benchmark. The most accurate methods are also slow and expensive. To advance the SOTA for text-to-SQL while reducing cost and improving speed, we explore the combination of low-cost fine tuning, novel methods for diverse retrieval-augmented generation (RAG) and new input and output formats that help large language models (LLMs) achieve higher EX. We introduce two new methods, Dubo-SQL v1 and v2. Dubo-SQL v1 sets a new record for EX on the holdout test set of BIRD-SQL. Dubo-SQL v2 achieves even higher performance on the BIRD-SQL dev set. Dubo-SQL v1 relies on LLMs from OpenAI, but uses the low-cost GPT-3.5 Turbo while exceeding the performance of the next-best model using OpenAI, which instead uses the more expensive GPT-4. Dubo-SQL v1 exceeds the performance of the next-best model using GPT-3.5 by over 20%. Dubo-SQL v2 uses GPT-4 Turbo and RAG in place of fine tuning to push EX higher.
翻訳日:2024-04-22 16:34:43 公開日:2024-04-19
# マルチビューサブグラフニューラルネットワーク:スカースラベルデータによる自己教師付き学習

Multi-View Subgraph Neural Networks: Self-Supervised Learning with Scarce Labeled Data ( http://arxiv.org/abs/2404.12569v1 )

ライセンス: Link先を確認
Zhenzhong Wang, Qingyuan Zeng, Wanyu Lin, Min Jiang, Kay Chen Tan, (参考訳) グラフニューラルネットワーク(GNN)はグラフベースのノード分類のデファクトスタンダードとなっているが、十分なラベル付きサンプルが利用可能であることを強く前提としている。 この仮定は、低データ構造に苦しむ多くの実世界のアプリケーションにおいて、一般的なGNNの分類性能を制限する。 具体的には、ラベル付けされていないノードから抽出された特徴は、ラベル付けされていないサンプルを十分に監視することができず、過度なオーバーフィッティングに繋がった。 本研究では,長期依存を捉えるためにサブグラフを活用することで,ノードの表現をホモフィリーな特性で強化し,低データ構造を緩和することができることを指摘する。 しかしながら、サブグラフを利用する以前の作業では、ノード間の長距離依存関係をキャプチャできない。 この目的のために,多視点サブグラフニューラルネットワーク(Muse)と呼ばれる,長距離依存処理のための新しい自己教師型学習フレームワークを提案する。 特に,入力空間と潜時空間の視点から2種類のサブグラフを識別する情報理論に基づく識別機構を提案する。 前者はグラフの局所構造をキャプチャし、後者はノード間の長距離依存関係をキャプチャする。 これら2つの部分グラフのビューを融合することにより、学習された表現は、局所構造や長距離依存を含むグラフの位相特性を広く保存し、下流ノード分類タスクに対する表現性を最大化することができる。 実験の結果,Museは限定ラベル付きデータを用いたノード分類タスクにおいて,代替手法よりも優れていた。

While graph neural networks (GNNs) have become the de-facto standard for graph-based node classification, they impose a strong assumption on the availability of sufficient labeled samples. This assumption restricts the classification performance of prevailing GNNs on many real-world applications suffering from low-data regimes. Specifically, features extracted from scarce labeled nodes could not provide sufficient supervision for the unlabeled samples, leading to severe over-fitting. In this work, we point out that leveraging subgraphs to capture long-range dependencies can augment the representation of a node with homophily properties, thus alleviating the low-data regime. However, prior works leveraging subgraphs fail to capture the long-range dependencies among nodes. To this end, we present a novel self-supervised learning framework, called multi-view subgraph neural networks (Muse), for handling long-range dependencies. In particular, we propose an information theory-based identification mechanism to identify two types of subgraphs from the views of input space and latent space, respectively. The former is to capture the local structure of the graph, while the latter captures the long-range dependencies among nodes. By fusing these two views of subgraphs, the learned representations can preserve the topological properties of the graph at large, including the local structure and long-range dependencies, thus maximizing their expressiveness for downstream node classification tasks. Experimental results show that Muse outperforms the alternative methods on node classification tasks with limited labeled data.
翻訳日:2024-04-22 16:34:43 公開日:2024-04-19
# 地理空間機械学習予測における逆検証を用いた異種性の定量化

On the use of adversarial validation for quantifying dissimilarity in geospatial machine learning prediction ( http://arxiv.org/abs/2404.12575v1 )

ライセンス: Link先を確認
Yanwen Wang, Mahdi Khodadadzadeh, Raul Zurita-Milla, (参考訳) 近年の地理空間機械学習研究により,クロスバリデーション(CV)によるモデル評価の結果は,サンプルデータと予測位置の相違により強く影響されていることが示された。 本稿では,データ特徴空間の観点から,0~100%の間隔でそのような相似性を定量化する手法を提案する。 提案手法は,バイナリ分類器を用いてサンプルデータと予測位置を分離できるかどうかを検証可能な,逆検証に基づく。 提案手法の有効性と汎用性を検討するため, 合成データと実データの両方に基づく一連の実験を行い, 相違点が徐々に増大した。 その結果,提案手法は全値範囲の相似性を定量化できることがわかった。 次に,無作為なCVと2つの空間的CV,すなわちブロックと空間的+CVの結果を比較して,差分性がCV評価に与える影響について検討した。 その結果,すべてのデータセットと予測において,CV評価は類似したパターンに従うことが明らかとなった。 相違が増加するにつれて、空間的CV法、特に空間的+CV法はより正確になり、ランダムなCVよりも優れる。 相同性が高い場合(>=90%)、CV法では正確な評価は得られない。 これらの結果から,地理空間的機械学習予測における特徴空間の相違を考慮することの重要性が示唆された。

Recent geospatial machine learning studies have shown that the results of model evaluation via cross-validation (CV) are strongly affected by the dissimilarity between the sample data and the prediction locations. In this paper, we propose a method to quantify such a dissimilarity in the interval 0 to 100%, and from the perspective of the data feature space. The proposed method is based on adversarial validation, which is an approach that can check whether sample data and prediction locations can be separated with a binary classifier. To study the effectiveness and generality of our method, we tested it on a series of experiments based on both synthetic and real datasets and with gradually increasing dissimilarities. Results show that the proposed method can successfully quantify dissimilarity across the entire range of values. Next to this, we studied how dissimilarity affects CV evaluations by comparing the results of random CV and of two spatial CV methods, namely block and spatial+ CV. Our results showed that CV evaluations follow similar patterns in all datasets and predictions: when dissimilarity is low (usually lower than 30%), random CV provides the most accurate evaluation results. As dissimilarity increases, spatial CV methods, especially spatial+ CV, become more and more accurate and even outperforming random CV. When dissimilarity is high (>=90%), no CV method provides accurate evaluations. These results show the importance of considering feature space dissimilarity when working with geospatial machine learning predictions, and can help researchers and practitioners to select more suitable CV methods for evaluating their predictions.
翻訳日:2024-04-22 16:34:43 公開日:2024-04-19
# インテクスト学習における要求満足度

Requirements Satisfiability with In-Context Learning ( http://arxiv.org/abs/2404.12576v1 )

ライセンス: Link先を確認
Sarah Santos, Travis Breaux, Thomas Norton, Sara Haghighi, Sepideh Ghanavati, (参考訳) In-context Learning (ICL)と呼ばれる、推論時にタスクを学習できる言語モデルは、自然言語推論タスクの公約が増加することを示している。 ICLでは、モデルユーザーが自然言語命令とデモと呼ばれるゼロ以上の例でタスクを記述するプロンプトを構築する。 次にプロンプトが言語モデルに入力され、完了を生成する。 本稿では、システム仕様と関連するドメイン知識によって要求がどのように満たされるかを記述した満足度引数の設計と評価にICLを適用した。 このアプローチは、拡張生成、プロンプトチューニング、チェーン・オブ・シークレットプロンプトを含む3つのプロンプトデザインパターンに基づいて構築され、プライバシー問題で評価され、モバイルアプリシナリオと関連する設計記述がEU一般データ保護規則(GDPR)の8つの同意要件を満たすかどうかを確認する。 その結果、GPT-4は96.7%の精度で要求満足度、93.2%の精度で満足度を検証できることがわかった。 この要件を覆すことで、不満の検証は97.2%に改善される。 チェーン・オブ・シグネリングはGPT-3.5全体の性能を9.0%向上させる。 テンプレート,モデル,プロンプト戦略間のトレードオフについて議論し,生成した仕様の詳細な分析を行い,実際にどのようにアプローチを適用するかを示す。

Language models that can learn a task at inference time, called in-context learning (ICL), show increasing promise in natural language inference tasks. In ICL, a model user constructs a prompt to describe a task with a natural language instruction and zero or more examples, called demonstrations. The prompt is then input to the language model to generate a completion. In this paper, we apply ICL to the design and evaluation of satisfaction arguments, which describe how a requirement is satisfied by a system specification and associated domain knowledge. The approach builds on three prompt design patterns, including augmented generation, prompt tuning, and chain-of-thought prompting, and is evaluated on a privacy problem to check whether a mobile app scenario and associated design description satisfies eight consent requirements from the EU General Data Protection Regulation (GDPR). The overall results show that GPT-4 can be used to verify requirements satisfaction with 96.7% accuracy and dissatisfaction with 93.2% accuracy. Inverting the requirement improves verification of dissatisfaction to 97.2%. Chain-of-thought prompting improves overall GPT-3.5 performance by 9.0% accuracy. We discuss the trade-offs among templates, models and prompt strategies and provide a detailed analysis of the generated specifications to inform how the approach can be applied in practice.
翻訳日:2024-04-22 16:34:43 公開日:2024-04-19
# ITBLS: 語彙情報に関する対話型会話のデータセット

iTBLS: A Dataset of Interactive Conversations Over Tabular Information ( http://arxiv.org/abs/2404.12580v1 )

ライセンス: Link先を確認
Anirudh Sundar, Christopher Richardson, William Gay, Larry Heck, (参考訳) 本稿では, 対話型対話のデータセットであるInteractive Tables (iTBLS) について, 論文から紹介する。 このデータセットは、AIを使ったマルチタスクタブ機能を通じて、人間とAIの協調的な問題解決を容易にするように設計されている。 ファクトイドのQAやプロシージャ合成として相互作用をモデル化する以前の研究とは対照的に、ITBLSは、相互作用を解釈、修正、生成の3つのタスクの1つに分類することで、数学的推論、自然言語操作、既存のテーブルの自然言語会話からの拡張を含む、相互作用の範囲を広げている。 さらに, ゼロショットプロンプトとパラメータ効率の異なる微調整を利用して, ITBLS に対するベースラインアプローチのスイートを提案する。 また、新しい多段階アプローチを導入し、パラメータ効率のよい微調整と組み合わせて、ITBLSの最先端技術を実現する方法を示し、標準パラメータ効率の微調整を解釈で15%、修正で18%、生成で38%向上させる。

This paper introduces Interactive Tables (iTBLS), a dataset of interactive conversations situated in tables from scientific articles. This dataset is designed to facilitate human-AI collaborative problem-solving through AI-powered multi-task tabular capabilities. In contrast to prior work that models interactions as factoid QA or procedure synthesis, iTBLS broadens the scope of interactions to include mathematical reasoning, natural language manipulation, and expansion of existing tables from natural language conversation by delineating interactions into one of three tasks: interpretation, modification, or generation. Additionally, the paper presents a suite of baseline approaches to iTBLS, utilizing zero-shot prompting and parameter-efficient fine-tuning for different computing situations. We also introduce a novel multi-step approach and show how it can be leveraged in conjunction with parameter-efficient fine-tuning to achieve the state-of-the-art on iTBLS; outperforming standard parameter-efficient fine-tuning by up to 15% on interpretation, 18% on modification, and 38% on generation.
翻訳日:2024-04-22 16:24:58 公開日:2024-04-19
# $h$-Lifted Kullback--Leibler Divergenceによるコンパクト領域の混合密度推定のためのリスク境界

Risk Bounds for Mixture Density Estimation on Compact Domains via the $h$-Lifted Kullback--Leibler Divergence ( http://arxiv.org/abs/2404.12586v1 )

ライセンス: Link先を確認
Mark Chiu Chong, Hien Duy Nguyen, TrungTin Nguyen, (参考訳) サンプルデータに基づいて確率密度関数を推定する問題について,ある構成クラスからの有限密度混合を用いて検討する。 この目的のために、標準KLの発散の一般化とリスク最小化の基準として、$h$-lifted Kullback--Leibler (KL) の発散を導入する。 コンパクトなサポート仮定の下では、Rahlin et al (2005, ESAIM: Probability and Statistics, Vol. 9) と Li and Barron (1999, Advances in Neural Information ProcessingSystems, Vol. 12) の結果を拡張した $h$-lifted KL divergence を用いた場合の予測推定誤差に$\mc{O}(1/{\sqrt{n}})$バウンドを証明し、厳密に正でない密度関数の危険性を許容する。 我々は、Majorization-Maximizationフレームワークを用いて、対応する最大$h$-lifted chance estimator(h$-MLLEs)の計算手順を開発し、理論境界を支持する実験結果を提供する。

We consider the problem of estimating probability density functions based on sample data, using a finite mixture of densities from some component class. To this end, we introduce the $h$-lifted Kullback--Leibler (KL) divergence as a generalization of the standard KL divergence and a criterion for conducting risk minimization. Under a compact support assumption, we prove an $\mc{O}(1/{\sqrt{n}})$ bound on the expected estimation error when using the $h$-lifted KL divergence, which extends the results of Rakhlin et al. (2005, ESAIM: Probability and Statistics, Vol. 9) and Li and Barron (1999, Advances in Neural Information ProcessingSystems, Vol. 12) to permit the risk bounding of density functions that are not strictly positive. We develop a procedure for the computation of the corresponding maximum $h$-lifted likelihood estimators ($h$-MLLEs) using the Majorization-Maximization framework and provide experimental results in support of our theoretical bounds.
翻訳日:2024-04-22 16:24:58 公開日:2024-04-19
# 圧縮文脈を知識グラフに統合する強化学習手法

Reinforcement Learning Approach for Integrating Compressed Contexts into Knowledge Graphs ( http://arxiv.org/abs/2404.12587v1 )

ライセンス: Link先を確認
Ngoc Quach, Qi Wang, Zijun Gao, Qifeng Sun, Bo Guan, Lillian Floyd, (参考訳) 様々な分野における知識グラフの普及は、情報の統合と更新を効果的に行う上での課題となっている。 コンテキストを組み込む場合、従来の手法はしばしばルールや基本的な機械学習モデルに依存し、コンテキスト情報の複雑さや流動性を十分に把握できない。 本研究では,DQN(Deep Q Networks)を利用した強化学習(RL)に基づく手法を提案し,文脈を知識グラフに統合するプロセスを強化する。 知識グラフの状態を環境として考慮し、コンテキスト統合のための操作としてアクションを定義し、知識グラフの品質改善を評価するために報酬関数を使用することにより、最適な文脈統合のための戦略を自動開発することを目的とする。 我々のDQNモデルはネットワークを関数近似器として利用し、Q値を継続的に更新してアクション値関数を推定し、複雑なコンテキスト情報と動的コンテキスト情報の効果的な統合を可能にする。 実験結果から,RL法は,知識グラフの強化と管理における強化学習の可能性と有効性を明らかにするとともに,様々な標準知識グラフデータセット間で正確な文脈統合を実現する手法よりも優れていることが示された。

The widespread use of knowledge graphs in various fields has brought about a challenge in effectively integrating and updating information within them. When it comes to incorporating contexts, conventional methods often rely on rules or basic machine learning models, which may not fully grasp the complexity and fluidity of context information. This research suggests an approach based on reinforcement learning (RL), specifically utilizing Deep Q Networks (DQN) to enhance the process of integrating contexts into knowledge graphs. By considering the state of the knowledge graph as environment states defining actions as operations for integrating contexts and using a reward function to gauge the improvement in knowledge graph quality post-integration, this method aims to automatically develop strategies for optimal context integration. Our DQN model utilizes networks as function approximators, continually updating Q values to estimate the action value function, thus enabling effective integration of intricate and dynamic context information. Initial experimental findings show that our RL method outperforms techniques in achieving precise context integration across various standard knowledge graph datasets, highlighting the potential and effectiveness of reinforcement learning in enhancing and managing knowledge graphs.
翻訳日:2024-04-22 16:24:58 公開日:2024-04-19
# クロスモーダルアダプタ:視覚言語モデルに対するパラメータ効率の良い伝達学習手法

Cross-Modal Adapter: Parameter-Efficient Transfer Learning Approach for Vision-Language Models ( http://arxiv.org/abs/2404.12588v1 )

ライセンス: Link先を確認
Juncheng Yang, Zuchao Li, Shuai Xie, Weiping Zhu, Wei Yu, Shijun Li, (参考訳) 適応型パラメータ効率変換学習は視覚言語モデルにおいてエキサイティングな結果を得た。 従来のアダプタ手法ではトレーニングや微調整が必要であり、サンプル不足やリソース制限といった課題に直面している。 画像モダリティキャッシュと検索を利用することで、トレーニングの必要性を克服する手法もあるが、視覚言語モデルにおけるパラメータの効率的な適応のために、テキストモダリティの重要性とクロスモーダルな方法を見落としている。 この研究はXMAdapterというクロスモーダルパラメータ効率のアプローチを導入している。 XMAdapterは、テキストと画像のモダリティの両方のキャッシュモデルを確立する。 次に、視覚言語バイモーダル情報による検索を活用して、推論の手がかりを収集する。 アフィニティ比を動的に調整することにより、異なるモーダル類似性を分離し、それぞれのコントリビューションを評価する。 さらに、クロスモーダル親和性の違いに基づいてハードサンプルを探索し、サンプル学習強度の適応調整によりモデル性能を向上させる。 ベンチマークデータセットの大規模な実験結果から、XMAdapterは、精度、一般化、効率に関して、従来のアダプタベースの手法よりも優れていたことが示されている。

Adapter-based parameter-efficient transfer learning has achieved exciting results in vision-language models. Traditional adapter methods often require training or fine-tuning, facing challenges such as insufficient samples or resource limitations. While some methods overcome the need for training by leveraging image modality cache and retrieval, they overlook the text modality's importance and cross-modal cues for the efficient adaptation of parameters in visual-language models. This work introduces a cross-modal parameter-efficient approach named XMAdapter. XMAdapter establishes cache models for both text and image modalities. It then leverages retrieval through visual-language bimodal information to gather clues for inference. By dynamically adjusting the affinity ratio, it achieves cross-modal fusion, decoupling different modal similarities to assess their respective contributions. Additionally, it explores hard samples based on differences in cross-modal affinity and enhances model performance through adaptive adjustment of sample learning intensity. Extensive experimental results on benchmark datasets demonstrate that XMAdapter outperforms previous adapter-based methods significantly regarding accuracy, generalization, and efficiency.
翻訳日:2024-04-22 16:24:58 公開日:2024-04-19
# ファイルはコンピュータにある:著作権、記憶、生成AI

The Files are in the Computer: Copyright, Memorization, and Generative AI ( http://arxiv.org/abs/2404.12590v1 )

ライセンス: Link先を確認
A. Feder Cooper, James Grimmelmann, (参考訳) 生成AI企業に対する著作権訴訟の中心的な問題は、生成AIモデルがトレーニングしたデータを「記憶」する程度である。 残念なことに、この議論は「記憶」とは何かという曖昧さによって覆され、参加者が互いに話をする法的な議論に繋がった。 このエッセイでは,記憶に関する会話に明瞭さをもたらすことを試みる。

A central issue in copyright lawsuits against generative-AI companies is the degree to which a generative-AI model does or does not "memorize" the data it was trained on. Unfortunately, the debate has been clouded by ambiguity over what "memorization" is, leading to legal debates in which participants often talk past one another. In this essay, we attempt to bring clarity to the conversation over memorization.
翻訳日:2024-04-22 16:24:58 公開日:2024-04-19
# 非識別ガウスモデルからの非巡回グラフ学習のための整数計画法

Integer Programming for Learning Directed Acyclic Graphs from Non-identifiable Gaussian Models ( http://arxiv.org/abs/2404.12592v1 )

ライセンス: Link先を確認
Tong Xu, Armeen Taeb, Simge Küçükyavuz, Ali Shojaie, (参考訳) 線形ガウス構造方程式モデルに基づいて連続観測データから有向非巡回グラフを学習する問題について検討する。 この設定のための最先端構造学習手法には、以下の欠点の少なくとも1つがある。 一 最適性を保証することができず、かつ、準最適モデルの学習に苦しむことができること。 二 ノイズが均等であるという厳密な仮定に依拠し、従って、基礎となるモデルは、完全に識別可能である。 我々はこれらの欠点を克服し、任意の異方性雑音を考慮に入れた中規模の問題を学習するための計算効率の良い混合整数プログラミングフレームワークを開発する。 本稿では, 漸近的に最適解を達成し, この近似解の整合性を確立するために, 分岐とバウンドの手続きを終了できる早期停止基準を提案する。 さらに,本手法が3つの最先端アルゴリズムより優れ,ノイズの不均一性に頑健であることを示す数値実験により,競合する手法の性能は識別可能性仮定の強い違反の下で劣化することを示した。 このメソッドのソフトウェア実装は、Pythonパッケージ \emph{micodag} として利用可能である。

We study the problem of learning directed acyclic graphs from continuous observational data, generated according to a linear Gaussian structural equation model. State-of-the-art structure learning methods for this setting have at least one of the following shortcomings: i) they cannot provide optimality guarantees and can suffer from learning sub-optimal models; ii) they rely on the stringent assumption that the noise is homoscedastic, and hence the underlying model is fully identifiable. We overcome these shortcomings and develop a computationally efficient mixed-integer programming framework for learning medium-sized problems that accounts for arbitrary heteroscedastic noise. We present an early stopping criterion under which we can terminate the branch-and-bound procedure to achieve an asymptotically optimal solution and establish the consistency of this approximate solution. In addition, we show via numerical experiments that our method outperforms three state-of-the-art algorithms and is robust to noise heteroscedasticity, whereas the performance of the competing methods deteriorates under strong violations of the identifiability assumption. The software implementation of our method is available as the Python package \emph{micodag}.
翻訳日:2024-04-22 16:24:58 公開日:2024-04-19
# AGV経路計画のためのランダムネットワーク蒸留に基づく深部強化学習

Random Network Distillation Based Deep Reinforcement Learning for AGV Path Planning ( http://arxiv.org/abs/2404.12594v1 )

ライセンス: Link先を確認
Huilin Yin, Shengkai Su, Yinjia Lin, Pengju Zhen, Karin Festl, Daniel Watzenig, (参考訳) 知的ウェアハウジングシステムの開発が盛んになり、AGV(Automated Guided Vehicle)の技術は急速に成長してきた。 知的ウェアハウス環境の中では、AGVは複雑で動的な環境において、安全かつ迅速に最適な経路を計画する必要がある。 ほとんどの研究は、この課題に対処するために深い強化学習を研究してきた。 しかしながら、疎外報酬を持つ環境では、これらのアルゴリズムはしばしばゆっくりと収束し、非効率に学習するか、目標に到達するのに失敗する。 ランダムネットワーク蒸留(RND: Random Network Distillation)は、探索の強化として、特に粗末な報酬環境にあるAGVエージェントの本質的な報酬を効果的に向上させることができる。 さらに、現在の研究のほとんどは、2Dグリッド迷路を実験環境として使用し続けている。 これらの環境は、複雑さが不足し、アクションセットが限られている。 この制限を解決するため、AGV経路計画のシミュレーション環境をAGVの連続的な動作と位置で提示し、現実的な物理シナリオに近づけるようにした。 提案手法の総合的な解析と実験結果から,AGV がより高速に経路計画タスクを実施できることを示す。 私たちの実験のビデオはhttps://youtu.be/lwrY9YesGmw.comで見ることができる。

With the flourishing development of intelligent warehousing systems, the technology of Automated Guided Vehicle (AGV) has experienced rapid growth. Within intelligent warehousing environments, AGV is required to safely and rapidly plan an optimal path in complex and dynamic environments. Most research has studied deep reinforcement learning to address this challenge. However, in the environments with sparse extrinsic rewards, these algorithms often converge slowly, learn inefficiently or fail to reach the target. Random Network Distillation (RND), as an exploration enhancement, can effectively improve the performance of proximal policy optimization, especially enhancing the additional intrinsic rewards of the AGV agent which is in sparse reward environments. Moreover, most of the current research continues to use 2D grid mazes as experimental environments. These environments have insufficient complexity and limited action sets. To solve this limitation, we present simulation environments of AGV path planning with continuous actions and positions for AGVs, so that it can be close to realistic physical scenarios. Based on our experiments and comprehensive analysis of the proposed method, the results demonstrate that our proposed method enables AGV to more rapidly complete path planning tasks with continuous actions in our environments. A video of part of our experiments can be found at https://youtu.be/lwrY9YesGmw.
翻訳日:2024-04-22 16:24:58 公開日:2024-04-19
# 逐次レベル知識蒸留を用いたパラメータ効率の良い多元パラフレーズ生成

Parameter Efficient Diverse Paraphrase Generation Using Sequence-Level Knowledge Distillation ( http://arxiv.org/abs/2404.12596v1 )

ライセンス: Link先を確認
Lasal Jayawardena, Prasan Yapa, (参考訳) 過去1年間、自然言語生成(NLG)の分野は、大部分がLLM(Large Language Models)の導入による急激な急増を経験した。 これらのモデルは、自然言語処理および生成ドメイン内の様々な領域において、最も効果的なパフォーマンスを示してきた。 しかし、パラフレージングのようなドメイン固有のタスクへの応用は、重大な課題を提示している。 膨大な数のパラメータが商用ハードウェア上での運用を難しくし、推論にかなりの時間を要するため、生産環境では高いコストがかかる。 本研究では, LLMを用いてパラフレージング分野の3つの異なるモデルを構築し, シーケンシャルレベルの知識蒸留法を適用した。 これらの蒸留モデルは、LLMによって生成されるパラフレーズの品質を維持することができる。 より高速な推論時間と、同等の品質の多様なパラフレーズを生成する能力を示す。 これらのモデルの顕著な特徴は、構文的多様性を示すと同時に、語彙的多様性を保存する能力である。 以上の結果から, 蒸留工程で使用するLLM教師モデルと比較すると, 1000倍小さいにもかかわらず, 性能は4%しか低下しないことがわかった。 この研究は NLG の分野に多大な貢献をもたらし、より効率的で費用対効果の高いパラフレーズ処理ソリューションを提供する。

Over the past year, the field of Natural Language Generation (NLG) has experienced an exponential surge, largely due to the introduction of Large Language Models (LLMs). These models have exhibited the most effective performance in a range of domains within the Natural Language Processing and Generation domains. However, their application in domain-specific tasks, such as paraphrasing, presents significant challenges. The extensive number of parameters makes them difficult to operate on commercial hardware, and they require substantial time for inference, leading to high costs in a production setting. In this study, we tackle these obstacles by employing LLMs to develop three distinct models for the paraphrasing field, applying a method referred to as sequence-level knowledge distillation. These distilled models are capable of maintaining the quality of paraphrases generated by the LLM. They demonstrate faster inference times and the ability to generate diverse paraphrases of comparable quality. A notable characteristic of these models is their ability to exhibit syntactic diversity while also preserving lexical diversity, features previously uncommon due to existing data quality issues in datasets and not typically observed in neural-based approaches. Human evaluation of our models shows that there is only a 4% drop in performance compared to the LLM teacher model used in the distillation process, despite being 1000 times smaller. This research provides a significant contribution to the NLG field, offering a more efficient and cost-effective solution for paraphrasing tasks.
翻訳日:2024-04-22 16:24:58 公開日:2024-04-19
# 大次元におけるカーネル補間の位相図

The phase diagram of kernel interpolation in large dimensions ( http://arxiv.org/abs/2404.12597v1 )

ライセンス: Link先を確認
Haobo Zhang, Weihao Lu, Qian Lin, (参考訳) 大次元でのカーネル補間(例えば$n \asymp d^{\gamma}$ for some $\gamma>0$)の一般化能力は、ニューラルネットワークの文献で報告された「良性過剰な現象」を理解するのに役立つため、最近のカーネル回帰のルネサンスにおいて最も興味深い問題の一つである。 球面上の内積核に焦点をあてて、様々なソース条件$s\geq 0$の下での大次元核補間のばらつきとバイアスの正確な順序を特徴付ける。 その結果、大次元核補間(英語版)の$(s,\gamma)$-phase図(英語版)、すなわち、カーネル補間が極小最適で準最適で矛盾する$(s,\gamma)$-planeの領域を決定する。

The generalization ability of kernel interpolation in large dimensions (i.e., $n \asymp d^{\gamma}$ for some $\gamma>0$) might be one of the most interesting problems in the recent renaissance of kernel regression, since it may help us understand the 'benign overfitting phenomenon' reported in the neural networks literature. Focusing on the inner product kernel on the sphere, we fully characterized the exact order of both the variance and bias of large-dimensional kernel interpolation under various source conditions $s\geq 0$. Consequently, we obtained the $(s,\gamma)$-phase diagram of large-dimensional kernel interpolation, i.e., we determined the regions in $(s,\gamma)$-plane where the kernel interpolation is minimax optimal, sub-optimal and inconsistent.
翻訳日:2024-04-22 16:24:58 公開日:2024-04-19
# 二次変動ペナルティによる連続的リスク感性強化学習

Continuous-time Risk-sensitive Reinforcement Learning via Quadratic Variation Penalty ( http://arxiv.org/abs/2404.12598v1 )

ライセンス: Link先を確認
Yanwei Jia, (参考訳) 本稿では, エントロピー規則化・探索拡散過程の定式化による連続時間リスク感応性強化学習(RL)について検討する。 リスクに敏感な目的は、エージェントのリスク態度またはモデルの不確実性に対して分布的に堅牢なアプローチとして生じる。 2023年のJia と Zhou の Martingale の観点から、リスク感受性 RL 問題は、値関数と q-関数の両方を含む過程の Martingale 特性を、付加的なペナルティ項により強化することと同値であることが示されている。 この特徴付けにより、リスクに敏感なシナリオのために開発された既存のRLアルゴリズムを、バリュープロセスの実際の分散を追加することで、リスク感度を組み込むことができる。 さらに、従来の政策勾配表現は二次変動の非線形性質によるリスク感受性の問題には不適切であるが、q-learningは解を提供し、無限の地平線設定にまで拡張する。 最後に,メルトンの投資問題に対するアルゴリズムの収束性を証明し,学習過程の挙動に対する温度パラメータの影響を定量化する。 また,リスク感応性RLが線形二乗制御問題における有限サンプル性能をどのように改善するかを示すシミュレーション実験を行った。

This paper studies continuous-time risk-sensitive reinforcement learning (RL) under the entropy-regularized, exploratory diffusion process formulation with the exponential-form objective. The risk-sensitive objective arises either as the agent's risk attitude or as a distributionally robust approach against the model uncertainty. Owing to the martingale perspective in Jia and Zhou (2023) the risk-sensitive RL problem is shown to be equivalent to ensuring the martingale property of a process involving both the value function and the q-function, augmented by an additional penalty term: the quadratic variation of the value process, capturing the variability of the value-to-go along the trajectory. This characterization allows for the straightforward adaptation of existing RL algorithms developed for non-risk-sensitive scenarios to incorporate risk sensitivity by adding the realized variance of the value process. Additionally, I highlight that the conventional policy gradient representation is inadequate for risk-sensitive problems due to the nonlinear nature of quadratic variation; however, q-learning offers a solution and extends to infinite horizon settings. Finally, I prove the convergence of the proposed algorithm for Merton's investment problem and quantify the impact of temperature parameter on the behavior of the learning procedure. I also conduct simulation experiments to demonstrate how risk-sensitive RL improves the finite-sample performance in the linear-quadratic control problem.
翻訳日:2024-04-22 16:24:58 公開日:2024-04-19
# QUTE:TinyMLモデルの早期終了支援アンサンブルによる不確かさの定量化

QUTE: Quantifying Uncertainty in TinyML models with Early-exit-assisted ensembles ( http://arxiv.org/abs/2404.12599v1 )

ライセンス: Link先を確認
Nikhil P Ghanathe, Steve Wilton, (参考訳) 不確実性定量化のための既存の手法は、大量のメモリと計算オーバーヘッドを発生させ、しばしば複数のモデル/推論を必要とする。 そのため、超低消費電力のKBサイズのTinyMLデバイスでは実用的ではない。 オーバヘッドを低減するため、先行研究では、1つのフォワードパスにおける不確実性を定量化するためのアンサンブルとしてアーリーエグジットネットワークが提案されている。 しかし、彼らはいまだに smallML の禁止コストを抱えている。 これらの課題に対処するため、我々はQUTEを提案する。QUTEは、最小限のMLモデルに最適化された、リソース効率のよいアーリーエグジット支援アンサンブルアーキテクチャである。 QUTEは、ベースネットワークの最終出口に出力ブロックを追加し、初期出力の知識をこれらのブロックに蒸留して、多種多様な軽量アンサンブルアーキテクチャを作成する。 その結果、QUTEは一般的な先行作業よりも優れており、最も関連性の高い先行作業に比べて平均3.1倍のモデルサイズで不確実性評価の質を6%向上させることがわかった。 さらに、QUTEは共変量シフトおよび分布外入力の検出にも有効であることを示すとともに、最先端のOOD検出器であるG-ODINに対する競合性能を示す。

Existing methods for uncertainty quantification incur massive memory and compute overhead, often requiring multiple models/inferences. Hence they are impractical on ultra-low-power KB-sized TinyML devices. To reduce overhead, prior works have proposed the use of early-exit networks as ensembles to quantify uncertainty in a single forward-pass. However, they still have a prohibitive cost for tinyML. To address these challenges, we propose QUTE, a novel resource-efficient early-exit-assisted ensemble architecture optimized for tinyML models. QUTE adds additional output blocks at the final exit of the base network and distills the knowledge of early-exits into these blocks to create a diverse and lightweight ensemble architecture. Our results show that QUTE outperforms popular prior works, and improves the quality of uncertainty estimates by 6% with 3.1x lower model size on average compared to the most relevant prior work. Furthermore, we demonstrate that QUTE is also effective in detecting co-variate shifted and out-of-distribution inputs, and shows competitive performance relative to G-ODIN, a state-of-the-art generalized OOD detector.
翻訳日:2024-04-22 16:24:58 公開日:2024-04-19
# 宇宙におけるレーザー通信のための古典的量子デュアル符号化

Classical-Quantum Dual Encoding for Laser Communications in Space ( http://arxiv.org/abs/2404.12600v1 )

ライセンス: Link先を確認
Matthew S. Winnel, Ziqing Wang, Robert Malaney, Ryan Aguinaldo, Jonathan Green, Timothy C. Ralph, (参考訳) 典型的なレーザー通信では、古典情報はレーザビームの振幅を変調して符号化され、直接検出によって測定される。 我々は、この標準スキームに量子物理学を用いたセキュリティ層を追加し、自由空間チャネルに適用する。 本稿では,古典情報を通常の方法で符号化し,量子情報を準ポアソニアンノイズフロアのゆらぎとして符号化する古典量子通信方式について考察する。 秘密鍵生成のために,ガウスアンアンサンブルを用いた連続可変量子鍵分布プロトコル(CVQKD)と直接検出について検討する。 受動的攻撃の仮定の下では、セキュアな鍵生成と古典的な通信が同時に進行する。 CVQKDに匹敵する。 量子セキュリティの追加レイヤは 実装が簡単で 堅牢で 古典的なデータレートには 影響しない 自由空間大気チャネルにおけるプロトコルの性能の詳細なシミュレーションを行う。 構成可能な有限サイズシステムにおけるCVQKDプロトコルのセキュリティの解析を行う。

In typical laser communications classical information is encoded by modulating the amplitude of the laser beam and measured via direct detection. We add a layer of security using quantum physics to this standard scheme, applicable to free-space channels. We consider a simultaneous classical-quantum communication scheme where the classical information is encoded in the usual way and the quantum information is encoded as fluctuations of a sub-Poissonian noise-floor. For secret key generation, we consider a continuous-variable quantum key distribution protocol (CVQKD) using a Gaussian ensemble of squeezed states and direct detection. Under the assumption of passive attacks secure key generation and classical communication can proceed simultaneously. Compared with standard CVQKD. which is secure against unrestricted attacks, our added layer of quantum security is simple to implement, robust and does not affect classical data rates. We perform detailed simulations of the performance of the protocol for a free-space atmospheric channel. We analyse security of the CVQKD protocol in the composable finite-size regime.
翻訳日:2024-04-22 16:24:58 公開日:2024-04-19
# CNNネットワークにおけるデータ領域変化の可視化法と分類作業におけるしきい値選択のための最適化法

A visualization method for data domain changes in CNN networks and the optimization method for selecting thresholds in classification tasks ( http://arxiv.org/abs/2404.12602v1 )

ライセンス: Link先を確認
Minzhe Huang, Changwei Nie, Weihong Zhong, (参考訳) 近年,顔認識技術のセキュリティ維持にFAS(Face Anti-Spoofing)が重要な役割を果たしている。 偽造顔生成技術の台頭に伴い、デジタル編集された顔が反偽造に直面する課題がエスカレートしている。 既存のFAS技術は主に、物理的に鍛えられた顔のインターセプトと、ドメイン間のFAS課題に対する堅牢なソリューションの欠如に焦点を当てている。 さらに、最適なデプロイメント結果を達成するための適切なしきい値を決定することは、ドメイン内FASの問題である。 これらの課題に対処するために,データセット上で予測結果を可視化することにより,モデルのトレーニング結果を直感的に反映する可視化手法を提案する。 さらに、ダウンサンプリングやガウス的曖昧化といったデータ拡張技術を用いることで、ドメイン間タスクのパフォーマンスを効果的に向上させることができることを示す。 データビジュアライゼーションのアプローチに基づいて、トレーニングデータセットの分布に基づいてしきい値を設定する手法も導入しています。 最終的に、我々の方法では、Unified Physical-Digital Face Detection competitionとSnapshot Spectral Imaging Face Anti-spoofing contestの両方で2位を獲得しました。 トレーニングコードはhttps://github.com/SeaRecluse/CVPRW2024で公開されている。

In recent years, Face Anti-Spoofing (FAS) has played a crucial role in preserving the security of face recognition technology. With the rise of counterfeit face generation techniques, the challenge posed by digitally edited faces to face anti-spoofing is escalating. Existing FAS technologies primarily focus on intercepting physically forged faces and lack a robust solution for cross-domain FAS challenges. Moreover, determining an appropriate threshold to achieve optimal deployment results remains an issue for intra-domain FAS. To address these issues, we propose a visualization method that intuitively reflects the training outcomes of models by visualizing the prediction results on datasets. Additionally, we demonstrate that employing data augmentation techniques, such as downsampling and Gaussian blur, can effectively enhance performance on cross-domain tasks. Building upon our data visualization approach, we also introduce a methodology for setting threshold values based on the distribution of the training dataset. Ultimately, our methods secured us second place in both the Unified Physical-Digital Face Attack Detection competition and the Snapshot Spectral Imaging Face Anti-spoofing contest. The training code is available at https://github.com/SeaRecluse/CVPRW2024.
翻訳日:2024-04-22 16:24:58 公開日:2024-04-19
# Qwerty: ベース指向の量子プログラミング言語

Qwerty: A Basis-Oriented Quantum Programming Language ( http://arxiv.org/abs/2404.12603v1 )

ライセンス: Link先を確認
Austin J. Adams, Sharjeel Khan, Jeffrey S. Young, Thomas M. Conte, (参考訳) 量子コンピュータは理論的な領域から大規模実装への競争へと進化してきた。 これは革命的なスピードアップの約束によるもので、そのようなスピードアップを達成するには、量子力学を用いて問題の構造を利用するアルゴリズムを設計する必要がある。 しかし、今日では多くの量子プログラミング言語では、プログラマが低レベルの量子ゲート回路を推論する必要がある。 このことは、量子ゲートのセマンティクスに関する直観をまだ築いていないプログラマにとって、エントリに対する大きな障壁を示します。 本稿では,Qwertyを提案する。Qwertyは,プログラマがゲートよりも量子ビットを表現的に操作できる新しい量子プログラミング言語で,ゲート選択の面倒なタスクをコンパイラに委譲する。 Qwertyは、新しいベースタイプとPythonとの相互運用性のため、高レベルの量子古典計算のための強力なフレームワークである。

Quantum computers have evolved from the theoretical realm into a race to large-scale implementations. This is due to the promise of revolutionary speedups, where achieving such speedup requires designing an algorithm that harnesses the structure of a problem using quantum mechanics. Yet many quantum programming languages today require programmers to reason at a low level of quantum gate circuitry. This presents a significant barrier to entry for programmers who have not yet built up an intuition about quantum gate semantics, and it can prove to be tedious even for those who have. In this paper, we present Qwerty, a new quantum programming language that allows programmers to manipulate qubits more expressively than gates, relegating the tedious task of gate selection to the compiler. Due to its novel basis type and easy interoperability with Python, Qwerty is a powerful framework for high-level quantum-classical computation.
翻訳日:2024-04-22 16:24:58 公開日:2024-04-19
# GluMarker: デジタルバイオマーカーによるグリセミック制御の新しい予測モデル

GluMarker: A Novel Predictive Modeling of Glycemic Control Through Digital Biomarkers ( http://arxiv.org/abs/2404.12605v1 )

ライセンス: Link先を確認
Ziyi Zhou, Ming Cheng, Xingjian Diao, Yanjun Cui, Xiangling Li, (参考訳) 世界的な糖尿病の流行は、糖尿病管理の必要性を浮き彫りにしている。 近年の研究では、糖尿病管理におけるデジタルバイオマーカーへの注目が高まっており、計算フレームワークの革新や、パーソナライズされた血糖値を用いた非侵襲的なモニタリング技術が注目されている。 しかし、それらは主にインスリン摂取量と特定のブドウ糖値に焦点を合わせ、あるいは全般的な血糖コントロールに限られた注意を払っている。 このことは、糖尿病管理における全般的な血糖コントロールのためのデジタルバイオマーカーの範囲の拡大にギャップを残している。 このような研究ギャップに対処するため、GluMarkerを提案する。GluMarkerは、グリセミック制御を予測するために、より広い因子源を用いてデジタルバイオマーカーをモデリングするエンドツーエンドフレームワークである。 さまざまな機械学習ベースラインの評価と改善を通じて、GluMarkerはアンダーソンのデータセットの最先端を達成し、翌日のグリセミック制御を予測する。 さらに,本研究では,翌日の血糖コントロール予測の鍵となるデジタルバイオマーカーを同定した。 これらの同定されたバイオマーカーは、血糖管理に影響を与える日々の要因の解明に役立ち、糖尿病治療にとって重要な洞察を提供する。

The escalating prevalence of diabetes globally underscores the need for diabetes management. Recent research highlights the growing focus on digital biomarkers in diabetes management, with innovations in computational frameworks and noninvasive monitoring techniques using personalized glucose metrics. However, they predominantly focus on insulin dosing and specific glucose values, or with limited attention given to overall glycemic control. This leaves a gap in expanding the scope of digital biomarkers for overall glycemic control in diabetes management. To address such a research gap, we propose GluMarker -- an end-to-end framework for modeling digital biomarkers using broader factors sources to predict glycemic control. Through the assessment and refinement of various machine learning baselines, GluMarker achieves state-of-the-art on Anderson's dataset in predicting next-day glycemic control. Moreover, our research identifies key digital biomarkers for the next day's glycemic control prediction. These identified biomarkers are instrumental in illuminating the daily factors that influence glycemic management, offering vital insights for diabetes care.
翻訳日:2024-04-22 16:24:58 公開日:2024-04-19
# ELEV-VISION-SAM:低床高自動推定のための統合ビジョン言語と基礎モデル

ELEV-VISION-SAM: Integrated Vision Language and Foundation Model for Automated Estimation of Building Lowest Floor Elevation ( http://arxiv.org/abs/2404.12606v1 )

ライセンス: Link先を確認
Yu-Hsuan Ho, Longxiang Li, Ali Mostafavi, (参考訳) 画像の質とアクセシビリティの向上によって支援されたストリートビューイメージは、都市分析研究の貴重な資源として現れてきた。 近年の研究では、低層標高(LFE)を推定する可能性について検討されており、従来のオンサイト計測に代わるスケーラブルな代替手段を提供し、洪水の危険度や被害範囲を評価するのに欠かせないものとなっている。 既存の手法では物体検出に頼っているが、画像分割の導入により、LFE推定のためのストリートビューイメージの有用性が拡大した。 LFE推定におけるこれらの課題に対処するために、セグメント化基礎モデルであるSegment Anythingモデルと視覚言語モデルを統合し、LFE推定のためのストリートビューイメージ上でテキストプロンプト画像セグメンテーションを行う。 様々な視覚言語モデル、統合手法、テキストプロンプトを評価することにより、ストリートビュー画像分析やLFE推定タスクに最適なモデルを特定し、33%から56%のプロパティのイメージセグメンテーションに基づく現在のLFE推定モデルの可用性を向上させる。 注目に値することに,提案手法は,ストリートビュー画像に正面扉が見えるほぼすべての特性に対して,LFE推定の可用性を著しく向上させる。 また,ストリートビュー画像を用いたLFE推定における視覚モデルの最初のベースラインと比較を行った。 このモデルと知見は、都市分析のためのストリートビューイメージセグメンテーションの進展に寄与するだけでなく、他の土木・インフラ分析タスクのための画像セグメンテーションタスクに新しいアプローチを提供する。

Street view imagery, aided by advancements in image quality and accessibility, has emerged as a valuable resource for urban analytics research. Recent studies have explored its potential for estimating lowest floor elevation (LFE), offering a scalable alternative to traditional on-site measurements, crucial for assessing properties' flood risk and damage extent. While existing methods rely on object detection, the introduction of image segmentation has broadened street view images' utility for LFE estimation, although challenges still remain in segmentation quality and capability to distinguish front doors from other doors. To address these challenges in LFE estimation, this study integrates the Segment Anything model, a segmentation foundation model, with vision language models to conduct text-prompt image segmentation on street view images for LFE estimation. By evaluating various vision language models, integration methods, and text prompts, we identify the most suitable model for street view image analytics and LFE estimation tasks, thereby improving the availability of the current LFE estimation model based on image segmentation from 33% to 56% of properties. Remarkably, our proposed method significantly enhances the availability of LFE estimation to almost all properties in which the front door is visible in the street view image. Also the findings present the first baseline and comparison of various vision models of street view image-based LFE estimation. The model and findings not only contribute to advancing street view image segmentation for urban analytics but also provide a novel approach for image segmentation tasks for other civil engineering and infrastructure analytics tasks.
翻訳日:2024-04-22 16:15:12 公開日:2024-04-19
# 表表現のコントラスト学習を用いたスプレッドシートにおける推奨式の自動形式化

Auto-Formula: Recommend Formulas in Spreadsheets using Contrastive Learning for Table Representations ( http://arxiv.org/abs/2404.12608v1 )

ライセンス: Link先を確認
Sibei Chen, Yeye He, Weiwei Cui, Ju Fan, Song Ge, Haidong Zhang, Dongmei Zhang, Surajit Chaudhuri, (参考訳) スプレッドシートは、公式ベースの計算能力と直感的なテーブルベースのインタフェースを融合した、最も人気のあるエンドユーザープログラミングツールとして広く認識されている。 現在、スプレッドシートは数十億のユーザーがテーブルを操作するために利用しており、そのほとんどはデータベースの専門家でもプロのプログラマでもない。 スプレッドシートの成功にもかかわらず、非技術者のユーザは、非自明な公式構文を調べて理解する必要があるため、複雑な公式の作成は依然として困難である。 この痛点に対処するために、同じ組織に類似したスプレッドシートが多数存在するという観察を活用し、類似したデータを持つだけでなく、論理式として符号化された類似の計算ロジックを共有する。 我々は,コンピュータビジョンから「類似顔認識」にインスパイアされた対照的な学習技術を用いて,既に類似のスプレッドシートに存在する公式を学習し,適応させることにより,ユーザが対象のスプレッドシートセルで作成したい公式を正確に予測できるオートフォーミュラシステムを開発した。 実店舗のスプレッドシートから抽出した2K以上の試験式に対する広範囲な評価は、代替案に対するAuto-Formulaの有効性を示している。 ベンチマークデータはhttps://github.com/microsoft/Auto-Formulaで公開されています。

Spreadsheets are widely recognized as the most popular end-user programming tools, which blend the power of formula-based computation, with an intuitive table-based interface. Today, spreadsheets are used by billions of users to manipulate tables, most of whom are neither database experts nor professional programmers. Despite the success of spreadsheets, authoring complex formulas remains challenging, as non-technical users need to look up and understand non-trivial formula syntax. To address this pain point, we leverage the observation that there is often an abundance of similar-looking spreadsheets in the same organization, which not only have similar data, but also share similar computation logic encoded as formulas. We develop an Auto-Formula system that can accurately predict formulas that users want to author in a target spreadsheet cell, by learning and adapting formulas that already exist in similar spreadsheets, using contrastive-learning techniques inspired by "similar-face recognition" from compute vision. Extensive evaluations on over 2K test formulas extracted from real enterprise spreadsheets show the effectiveness of Auto-Formula over alternatives. Our benchmark data is available at https://github.com/microsoft/Auto-Formula to facilitate future research.
翻訳日:2024-04-22 16:15:12 公開日:2024-04-19
# 人のReIDを変える衣服の再考: 矛盾、合成、最適化

Rethinking Clothes Changing Person ReID: Conflicts, Synthesis, and Optimization ( http://arxiv.org/abs/2404.12611v1 )

ライセンス: Link先を確認
Junjie Li, Guanshuo Wang, Fufu Yu, Yichao Yan, Qiong Jia, Shouhong Ding, Xingdong Sheng, Yunhui Liu, Xiaokang Yang, (参考訳) 衣服交換者再識別(CC-ReID)は,異なる服装の同一人物の画像を取得することを目的としている。 主流研究は、衣服に依存しないアイデンティティ情報を取得するための高度なモデル構造と戦略の設計に焦点を当てている。 しかし、CC-ReIDにおける標準ReID学習目標と同一のクローン識別は、従来の研究では無視されている。 本研究では,標準型と服飾変化型(CC)学習目標の関係について検討し,これらの2つの目標間の内的対立を先導する。 提案したClothes-Changing Diffusionモデルを用いて,高忠実度衣服の合成を補足することにより,CCトレーニングペアの比率を増大させようとする。 合成画像をCC-ReIDモデルトレーニングに組み込むことで,CCプロトコル下での大幅な改善を観察する。 しかし、このような改善は標準プロトコルの下での性能を犠牲にし、標準とCCの内紛によって引き起こされる。 対立緩和のため、これらの目的を分離し、多目的最適化(MOO)問題としてCC-ReID学習を再生成する。 複数の目的にまたがる勾配曲率を効果的に調整し、選好制限を導入することで、MOOソリューションはシングルタスクトレーニングパラダイムを超越する。 我々のフレームワークはモデルに依存しず,CCプロトコルと標準ReIDプロトコルの両方で優れた性能を示す。

Clothes-changing person re-identification (CC-ReID) aims to retrieve images of the same person wearing different outfits. Mainstream researches focus on designing advanced model structures and strategies to capture identity information independent of clothing. However, the same-clothes discrimination as the standard ReID learning objective in CC-ReID is persistently ignored in previous researches. In this study, we dive into the relationship between standard and clothes-changing~(CC) learning objectives, and bring the inner conflicts between these two objectives to the fore. We try to magnify the proportion of CC training pairs by supplementing high-fidelity clothes-varying synthesis, produced by our proposed Clothes-Changing Diffusion model. By incorporating the synthetic images into CC-ReID model training, we observe a significant improvement under CC protocol. However, such improvement sacrifices the performance under the standard protocol, caused by the inner conflict between standard and CC. For conflict mitigation, we decouple these objectives and re-formulate CC-ReID learning as a multi-objective optimization (MOO) problem. By effectively regularizing the gradient curvature across multiple objectives and introducing preference restrictions, our MOO solution surpasses the single-task training paradigm. Our framework is model-agnostic, and demonstrates superior performance under both CC and standard ReID protocols.
翻訳日:2024-04-22 16:15:12 公開日:2024-04-19
# SA-Attack: 速度適応型ステルス対向攻撃による軌道予測

SA-Attack: Speed-adaptive stealthy adversarial attack on trajectory prediction ( http://arxiv.org/abs/2404.12612v1 )

ライセンス: Link先を確認
Huilin Yin, Jiaxiang Li, Pengju Zhen, Jun Yan, (参考訳) 軌道予測は、自動車両の安全な計画と航法に不可欠である。 ニューラルネットワークに基づく軌道予測モデルは、敵攻撃に対して脆弱である。 以前の攻撃方法は高い攻撃成功率を達成したが、現実的なシナリオへの適応性や偽装の隠蔽を見落としている。 この問題に対処するため,SA-Attack という高速適応型ステルス逆攻撃法を提案する。 本手法は, 車両追従手法を用いて, 軌道予測モデルの感度領域を探索し, 対向軌道を生成する。 提案手法は, 軌道をスクラッチから再構築することで, 異なる速度シナリオに適応することができる。 将来の軌跡傾向と曲率制約を融合させることで、敵の軌跡の滑らかさを保証し、さらに攻撃のステルス性を確保することができる。 nuScenesとApolloscapeのデータセットに関する実証的研究は,提案手法の攻撃性能を実証している。 最後に、異なる速度シナリオに対するSA-Attackの適応性とステルス性を示す。 私たちのコードはリポジトリで利用可能です。

Trajectory prediction is critical for the safe planning and navigation of automated vehicles. The trajectory prediction models based on the neural networks are vulnerable to adversarial attacks. Previous attack methods have achieved high attack success rates but overlook the adaptability to realistic scenarios and the concealment of the deceits. To address this problem, we propose a speed-adaptive stealthy adversarial attack method named SA-Attack. This method searches the sensitive region of trajectory prediction models and generates the adversarial trajectories by using the vehicle-following method and incorporating information about forthcoming trajectories. Our method has the ability to adapt to different speed scenarios by reconstructing the trajectory from scratch. Fusing future trajectory trends and curvature constraints can guarantee the smoothness of adversarial trajectories, further ensuring the stealthiness of attacks. The empirical study on the datasets of nuScenes and Apolloscape demonstrates the attack performance of our proposed method. Finally, we also demonstrate the adaptability and stealthiness of SA-Attack for different speed scenarios. Our code is available at the repository: https://github.com/eclipse-bot/SA-Attack.
翻訳日:2024-04-22 16:15:12 公開日:2024-04-19
# 1次元ガウス混合モデルのパラメータ推定問題に対するフーリエアプローチ

A Fourier Approach to the Parameter Estimation Problem for One-dimensional Gaussian Mixture Models ( http://arxiv.org/abs/2404.12613v1 )

ライセンス: Link先を確認
Xinyu Liu, Hai Zhang, (参考訳) 本論文の目的は2つある。 まず,一次元ガウス混合モデル(GMM)のパラメータを推定するための新しいアルゴリズムを提案する。 このアルゴリズムは、混合物の独立および同一分布(すなわちd)サンプルから得られたフーリエデータに固有のハンケル構造を利用する。 統一分散を持つGMMに対して、フーリエデータを用いて機能する特異値比を導入し、分散と成分番号を同時に解決する。 推定器の一貫性が導出される。 モーメント法や最大極大法などの古典的アルゴリズムと比較して、提案アルゴリズムはガウス成分の数や優れた初期推定の事前知識を必要としない。 数値実験は、推定精度と計算コストにおいて優れた性能を示す。 第二に、i.d サンプルの数が有限であれば、混合モデルにおいてガウス成分の個数やモデル順序を推定する問題に根本的な制限があることを明らかにする。 単一分散の場合、各成分間の最小分離距離が一定の閾値を超え、下記の値でフェールした場合のみ、モデル順序を推定可能であることを示す。 我々は、i.dサンプルの数、分散、ガウス成分の数という観点から、このしきい値に対する下界を計算分解限界と呼ぶ。 数値実験により、モデル秩序の推定において、この相転移現象が確認される。 さらに,本アルゴリズムはEMアルゴリズムと比較して,確率,AIC,BICのスコアがよいことを示す。

The purpose of this paper is twofold. First, we propose a novel algorithm for estimating parameters in one-dimensional Gaussian mixture models (GMMs). The algorithm takes advantage of the Hankel structure inherent in the Fourier data obtained from independent and identically distributed (i.i.d) samples of the mixture. For GMMs with a unified variance, a singular value ratio functional using the Fourier data is introduced and used to resolve the variance and component number simultaneously. The consistency of the estimator is derived. Compared to classic algorithms such as the method of moments and the maximum likelihood method, the proposed algorithm does not require prior knowledge of the number of Gaussian components or good initial guesses. Numerical experiments demonstrate its superior performance in estimation accuracy and computational cost. Second, we reveal that there exists a fundamental limit to the problem of estimating the number of Gaussian components or model order in the mixture model if the number of i.i.d samples is finite. For the case of a single variance, we show that the model order can be successfully estimated only if the minimum separation distance between the component means exceeds a certain threshold value and can fail if below. We derive a lower bound for this threshold value, referred to as the computational resolution limit, in terms of the number of i.i.d samples, the variance, and the number of Gaussian components. Numerical experiments confirm this phase transition phenomenon in estimating the model order. Moreover, we demonstrate that our algorithm achieves better scores in likelihood, AIC, and BIC when compared to the EM algorithm.
翻訳日:2024-04-22 16:15:12 公開日:2024-04-19
# CORI: CJKV Benchmark with Romanization Integration -- テキストスクリプトを越えた言語間移行へのステップ

CORI: CJKV Benchmark with Romanization Integration -- A step towards Cross-lingual Transfer Beyond Textual Scripts ( http://arxiv.org/abs/2404.12618v1 )

ライセンス: Link先を確認
Hoang H. Nguyen, Chenwei Zhang, Ye Liu, Natalie Parde, Eugene Rohrbaugh, Philip S. Yu, (参考訳) 英語を原語として仮定することは、言語接触の重要性を考慮せず、多くの言語への言語間移動を妨げる可能性がある。 いくつかの言語は、他の言語よりもよりよく接続されており、ターゲット言語は、密接に関連する言語からの転送の恩恵を受けることができる。 本研究では,言語間移動におけるソース言語の影響について検討し,対象言語と高い接触を持つソース言語を選択することの重要性を実証する。 また,中国-韓国-ベトナム語(CJKV)言語との密接な接触のための新しいベンチマークデータセットを構築し,言語接触の詳細な研究を奨励する。 これらの言語間の接触を包括的に捉えるため,コントラシブラーニングの目的を通したテキストスクリプト以外の文字書き起こしの統合が提案され,言語間表現の強化と効果的なゼロショット言語間移動が実現された。

Naively assuming English as a source language may hinder cross-lingual transfer for many languages by failing to consider the importance of language contact. Some languages are more well-connected than others, and target languages can benefit from transferring from closely related languages; for many languages, the set of closely related languages does not include English. In this work, we study the impact of source language for cross-lingual transfer, demonstrating the importance of selecting source languages that have high contact with the target language. We also construct a novel benchmark dataset for close contact Chinese-Japanese-Korean-Vietnamese (CJKV) languages to further encourage in-depth studies of language contact. To comprehensively capture contact between these languages, we propose to integrate Romanized transcription beyond textual scripts via Contrastive Learning objectives, leading to enhanced cross-lingual representations and effective zero-shot cross-lingual transfer.
翻訳日:2024-04-22 16:15:12 公開日:2024-04-19
# WebAssemblyランタイムの研究: 調査

Research on WebAssembly Runtimes: A Survey ( http://arxiv.org/abs/2404.12621v1 )

ライセンス: Link先を確認
Yixuan Zhang, Mugeng Liu, Haoyu Wang, Yun Ma, Gang Huang, Xuanzhe Liu, (参考訳) WebAssembly(略してWasm)は、当初Web用に導入されたが、すぐにWeb以外のさまざまなドメインにリーチを広げた。 Wasmアプリケーションを作成するには、開発者はハイレベルなプログラミング言語をWasmバイナリにコンパイルするか、同等のテキストフォーマットをWasmバイナリに手動で変換することができる。 Web内でも外部でも、Wasmバイナリの実行はWasmランタイムによってサポートされている。 このようなランタイムは、Wasmアプリケーション用に明示的に設計されたセキュアでメモリ効率が高く、サンドボックス化された実行環境を提供する。 本稿ではWebAssemblyランタイムに関する総合的な調査を紹介する。 WebAssemblyランタイムに関する98の記事をカバーし、Wasmランタイムの"内部"研究(Wasmランタイム設計、テスト、分析)と"外部"研究(Wasmランタイムをさまざまなドメインに適用する)の2つの角度から、既存の研究を特徴付ける。 本稿では、WebAssemblyランタイムに関する今後の研究方向性についても提案する。

WebAssembly (abbreviated as Wasm) was initially introduced for the Web but quickly extended its reach into various domains beyond the Web. To create Wasm applications, developers can compile high-level programming languages into Wasm binaries or manually convert equivalent textual formats into Wasm binaries. Regardless of whether it is utilized within or outside the Web, the execution of Wasm binaries is supported by the Wasm runtime. Such a runtime provides a secure, memory-efficient, and sandboxed execution environment designed explicitly for Wasm applications. This paper provides a comprehensive survey of research on WebAssembly runtimes. It covers 98 articles on WebAssembly runtimes and characterizes existing studies from two different angles, including the "internal" research of Wasm runtimes(Wasm runtime design, testing, and analysis) and the "external" research(applying Wasm runtimes to various domains). This paper also proposes future research directions about WebAssembly runtimes.
翻訳日:2024-04-22 16:15:12 公開日:2024-04-19
# エンドツーエンドで検証可能な分散型フェデレーションラーニング

End-to-End Verifiable Decentralized Federated Learning ( http://arxiv.org/abs/2404.12623v1 )

ライセンス: Link先を確認
Chaehyeon Lee, Jonathan Heiss, Stefan Tai, James Won-Ki Hong, (参考訳) ブロックチェーンとゼロ知識証明(ZKP)を組み合わせた検証可能な分散型フェデレーションラーニング(FL)システムは、ローカルラーニングとグローバルアグリゲーションの計算的整合性を労働者間で検証できるようにする。 しかし、それらはエンドツーエンドではない。学習前にデータはいまだに破損する可能性がある。 本稿では,データのエンドツーエンドの整合性と信頼性を検証可能な分散FLシステムを提案する。 デバイス証明書の非開示検証を可能にする登録ワークフローと、既存のブロックチェーンとZKPベースのFLシステムを非開示データ認証証明を通じて拡張する学習ワークフローです。 プロトタイプ実装に関する我々の評価は、最先端のソリューションに限界オーバーヘッドしか持たない技術的実現可能性を示している。

Verifiable decentralized federated learning (FL) systems combining blockchains and zero-knowledge proofs (ZKP) make the computational integrity of local learning and global aggregation verifiable across workers. However, they are not end-to-end: data can still be corrupted prior to the learning. In this paper, we propose a verifiable decentralized FL system for end-to-end integrity and authenticity of data and computation extending verifiability to the data source. Addressing an inherent conflict of confidentiality and transparency, we introduce a two-step proving and verification (2PV) method that we apply to central system procedures: a registration workflow that enables non-disclosing verification of device certificates and a learning workflow that extends existing blockchain and ZKP-based FL systems through non-disclosing data authenticity proofs. Our evaluation on a prototypical implementation demonstrates the technical feasibility with only marginal overheads to state-of-the-art solutions.
翻訳日:2024-04-22 16:15:12 公開日:2024-04-19
# Dragtraffic: 対話型かつポイントベースの制御可能なトラフィックシーン生成フレームワーク

Dragtraffic: A Non-Expert Interactive and Point-Based Controllable Traffic Scene Generation Framework ( http://arxiv.org/abs/2404.12624v1 )

ライセンス: Link先を確認
Sheng Wang, Ge Sun, Fulong Ma, Tianshuai Hu, Yongkang Song, Lei Zhu, Ming Liu, (参考訳) 自律運転システムの評価と訓練には多様でスケーラブルなコーナーケースが必要である。 しかし、既存のシーン生成手法のほとんどは制御性、精度、汎用性に欠けており、不満足な生成結果をもたらす。 この問題に対処するために,条件付き拡散に基づく一般化,ポイントベース,制御可能な交通シーン生成フレームワークであるDragtrafficを提案する。 Dragtrafficは、適応的な混合専門家アーキテクチャを通じて、さまざまな種類のトラフィックエージェントに対して、非専門家がさまざまな現実的な駆動シナリオを生成することを可能にする。 我々は回帰モデルを用いて,条件付き拡散モデルに基づく一般的な初期解法と精製プロセスを提供し,多様性を保証する。 ユーザカスタマイズコンテキストは、高い制御性を確保するために、クロスアテンションを通じて導入される。 実世界の運転データセットの実験によると、Dragtrafficは信頼性、多様性、自由度で既存の手法より優れている。

The evaluation and training of autonomous driving systems require diverse and scalable corner cases. However, most existing scene generation methods lack controllability, accuracy, and versatility, resulting in unsatisfactory generation results. To address this problem, we propose Dragtraffic, a generalized, point-based, and controllable traffic scene generation framework based on conditional diffusion. Dragtraffic enables non-experts to generate a variety of realistic driving scenarios for different types of traffic agents through an adaptive mixture expert architecture. We use a regression model to provide a general initial solution and a refinement process based on the conditional diffusion model to ensure diversity. User-customized context is introduced through cross-attention to ensure high controllability. Experiments on a real-world driving dataset show that Dragtraffic outperforms existing methods in terms of authenticity, diversity, and freedom.
翻訳日:2024-04-22 16:15:12 公開日:2024-04-19
# SkelFormer:骨格変換器を用いたマーカレス3次元ポースと形状推定

SkelFormer: Markerless 3D Pose and Shape Estimation using Skeletal Transformers ( http://arxiv.org/abs/2404.12625v1 )

ライセンス: Link先を確認
Vandad Davoodnia, Saeed Ghorbani, Alexandre Messier, Ali Etemad, (参考訳) マルチビュー人間のポーズと形状推定のための新しいマーカーレスモーションキャプチャパイプラインであるSkelFormerを紹介する。 提案手法は,まず市販の2次元キーポイント推定器を用いて,大規模インザミルドデータに基づいて事前トレーニングを行い,3次元関節位置を求める。 次に、重雑音観測から、関節の位置をポーズと形状の表現にマッピングする回帰に基づく逆運動性骨格変換器を設計する。 このモジュールは、ポーズ空間に関する事前の知識を統合し、実行時にフルポーズ状態を推測する。 3次元キーポイント検出と逆キネマティックな問題と、骨格トランスフォーマーが学習した表現の分離により、ノイズのないデータに対する我々の手法の一般化が促進される。 提案手法は,3つのデータセットを用いて,分布内および分布外の両方で3つの公開データセット上で評価し,先行研究に対して強い性能を示す。 さらに、アブレーション実験では、アーキテクチャの各モジュールの影響が示されています。 最後に,ノイズや重閉塞に対処する手法の性能について検討し,他の解に対するロバスト性について検討した。

We introduce SkelFormer, a novel markerless motion capture pipeline for multi-view human pose and shape estimation. Our method first uses off-the-shelf 2D keypoint estimators, pre-trained on large-scale in-the-wild data, to obtain 3D joint positions. Next, we design a regression-based inverse-kinematic skeletal transformer that maps the joint positions to pose and shape representations from heavily noisy observations. This module integrates prior knowledge about pose space and infers the full pose state at runtime. Separating the 3D keypoint detection and inverse-kinematic problems, along with the expressive representations learned by our skeletal transformer, enhance the generalization of our method to unseen noisy data. We evaluate our method on three public datasets in both in-distribution and out-of-distribution settings using three datasets, and observe strong performance with respect to prior works. Moreover, ablation experiments demonstrate the impact of each of the modules of our architecture. Finally, we study the performance of our method in dealing with noise and heavy occlusions and find considerable robustness with respect to other solutions.
翻訳日:2024-04-22 16:15:12 公開日:2024-04-19
# Grasper: 一般論のPowsuit-Evasion問題に対するPursuer

Grasper: A Generalist Pursuer for Pursuit-Evasion Problems ( http://arxiv.org/abs/2404.12626v1 )

ライセンス: Link先を確認
Pengdeng Li, Shuxin Li, Xinrun Wang, Jakub Cerny, Youzhi Zhang, Stephen McAleer, Hau Chan, Bo An, (参考訳) 都市街路網などのグラフベースの環境における追跡者と回避者の間の相互作用を,PEG(Pursuit-evasion Game)がモデル化する。 最近の進歩は、PSROにおける事前学習および微調整のパラダイムが大規模PEGの解法におけるスケーラビリティ向上に有効であることを示すものである。 しかし、これらの手法は主に固定初期条件を持つ特定のPEGに焦点をあてており、これは現実のシナリオで大きく異なる可能性があるため、従来の手法の適用性を著しく妨げている。 この問題に対処するために、我々は、特定のPEGに適したトラッカーポリシーを効率的に生成できる、Pursuit-Evasion pRoblemsのためのGeneRAlist PurSuerであるGrasperを紹介した。 まず、多種多様なPEGに対して高品質なソリューションを提供する新しいアーキテクチャを紹介します。 i) PEGを隠れベクターにエンコードするグラフニューラルネットワーク(GNN) (ii)これらの隠れベクトルに基づいてトラクサポリシーを生成するハイパーネットワーク。 第2の貢献として,効率的な3段階学習法を開発した。 i)GraphMAEのような自己教師付きグラフ学習技術を用いて,堅牢なPEG表現を学習するための事前学習段階 (二)ヒューリスティック誘導マルチタスク事前訓練(HMP)を利用した事前訓練段階において、ヒューリスティック誘導参照ポリシー(例えば、ダイクストラのアルゴリズムによる)が追従ポリシーを規則化し、 3PSROを用いて指定されたPEGの追従ポリシーを生成する微調整段階。 最後に, 合成および実世界の地図に関する広範な実験を行い, 解の質と一般化性の観点から, ベースラインよりもグラスパーの顕著な優位性を示す。 我々はGrasperが、幅広いシナリオで追従回避問題を解決するための汎用的なアプローチを提供し、現実の状況に実用的なデプロイを可能にすることを実証した。

Pursuit-evasion games (PEGs) model interactions between a team of pursuers and an evader in graph-based environments such as urban street networks. Recent advancements have demonstrated the effectiveness of the pre-training and fine-tuning paradigm in PSRO to improve scalability in solving large-scale PEGs. However, these methods primarily focus on specific PEGs with fixed initial conditions that may vary substantially in real-world scenarios, which significantly hinders the applicability of the traditional methods. To address this issue, we introduce Grasper, a GeneRAlist purSuer for Pursuit-Evasion pRoblems, capable of efficiently generating pursuer policies tailored to specific PEGs. Our contributions are threefold: First, we present a novel architecture that offers high-quality solutions for diverse PEGs, comprising critical components such as (i) a graph neural network (GNN) to encode PEGs into hidden vectors, and (ii) a hypernetwork to generate pursuer policies based on these hidden vectors. As a second contribution, we develop an efficient three-stage training method involving (i) a pre-pretraining stage for learning robust PEG representations through self-supervised graph learning techniques like GraphMAE, (ii) a pre-training stage utilizing heuristic-guided multi-task pre-training (HMP) where heuristic-derived reference policies (e.g., through Dijkstra's algorithm) regularize pursuer policies, and (iii) a fine-tuning stage that employs PSRO to generate pursuer policies on designated PEGs. Finally, we perform extensive experiments on synthetic and real-world maps, showcasing Grasper's significant superiority over baselines in terms of solution quality and generalizability. We demonstrate that Grasper provides a versatile approach for solving pursuit-evasion problems across a broad range of scenarios, enabling practical deployment in real-world situations.
翻訳日:2024-04-22 16:15:12 公開日:2024-04-19
# ソフト連続ロボットの深部学習型形状センシングのためのソフト e-Textile センサ

A Soft e-Textile Sensor for Enhanced Deep Learning-based Shape Sensing of Soft Continuum Robots ( http://arxiv.org/abs/2404.12627v1 )

ライセンス: Link先を確認
Eric Vincent Galeta, Ayman A. Nada, Sabah M. Ahmed, Victor Parque, Haitham El-Hussieny, (参考訳) ロボットナビゲーションの安全性と精度は、特に従来の剛性センサーの限界が明らかになるソフト連続ロボット工学の領域において、最重要事項である。 エンコーダ、ピエゾ抵抗性、および電位計センサーは、しばしばこれらのロボットの柔軟な性質とうまく統合できず、望ましくないバルクと剛性を加える。 これらのハードルを克服するために,本研究では,ソフト e-textile resistive sensor を用いて,ソフト連続体ロボットの形状認識に新たなアプローチを提案する。 このセンサーはロボットの構造と完璧に一体化するように設計されており、ロボットの動きや変形に応じて抵抗を調整する抵抗材料を使用している。 この調整により、ソフトセンサー層を横断する多次元力測定の取得が容易になる。 深層畳み込みニューラルネットワーク(CNN)を用いてセンサ信号をデコードし、e-textile センサの詳細なデータに基づいてロボットの形状を正確に推定する。 本研究は,ソフトコンティニュムロボットの曲率パラメータ決定におけるe-textile Sensorの有効性について検討した。 その結果は、ソフトなe-textileセンサーが一致しただけでなく、形状検知と推定の点で従来の剛性センサーの能力を上回る可能性が示唆された。 この進歩は、ロボットナビゲーションシステムの安全性と効率を大幅に向上させる。

The safety and accuracy of robotic navigation hold paramount importance, especially in the realm of soft continuum robotics, where the limitations of traditional rigid sensors become evident. Encoders, piezoresistive, and potentiometer sensors often fail to integrate well with the flexible nature of these robots, adding unwanted bulk and rigidity. To overcome these hurdles, our study presents a new approach to shape sensing in soft continuum robots through the use of soft e-textile resistive sensors. This sensor, designed to flawlessly integrate with the robot's structure, utilizes a resistive material that adjusts its resistance in response to the robot's movements and deformations. This adjustment facilitates the capture of multidimensional force measurements across the soft sensor layers. A deep Convolutional Neural Network (CNN) is employed to decode the sensor signals, enabling precise estimation of the robot's shape configuration based on the detailed data from the e-textile sensor. Our research investigates the efficacy of this e-textile sensor in determining the curvature parameters of soft continuum robots. The findings are encouraging, showing that the soft e-textile sensor not only matches but potentially exceeds the capabilities of traditional rigid sensors in terms of shape sensing and estimation. This advancement significantly boosts the safety and efficiency of robotic navigation systems.
翻訳日:2024-04-22 16:15:12 公開日:2024-04-19
# 音声認識における自己教師付き表現の効率的な注入

Efficient infusion of self-supervised representations in Automatic Speech Recognition ( http://arxiv.org/abs/2404.12628v1 )

ライセンス: Link先を確認
Darshan Prabhu, Sai Ganesh Mirishkar, Pankaj Wasnik, (参考訳) Wav2vecやHuBERTのような自己教師付き学習(SSL)モデルは、音声関連のタスクに対して最先端の結果をもたらす。 このようなモデルの有効性を考えると、従来のASRシステムで使用する方が有利である。 トレーニング可能なエンコーダや学習可能なフロントエンドとしてこれらのモデルを組み込むことを提案するアプローチもあるが、そのようなシステムのトレーニングは非常に遅く、多くの計算サイクルを必要とする。 本研究では,(1)フレームワイド加算と(2)クロスアテンション機構を用いて,SSLモデルからの表現をASRアーキテクチャに効率的に組み込む方法を提案する。 提案手法はトレーニングを高速化し,ベースラインと比較してLibrispeechデータセットとTedliumデータセットのパフォーマンスが大幅に向上する。 さらに、我々のアプローチの有効性を実証する詳細な分析およびアブレーション研究について述べる。

Self-supervised learned (SSL) models such as Wav2vec and HuBERT yield state-of-the-art results on speech-related tasks. Given the effectiveness of such models, it is advantageous to use them in conventional ASR systems. While some approaches suggest incorporating these models as a trainable encoder or a learnable frontend, training such systems is extremely slow and requires a lot of computation cycles. In this work, we propose two simple approaches that use (1) framewise addition and (2) cross-attention mechanisms to efficiently incorporate the representations from the SSL model(s) into the ASR architecture, resulting in models that are comparable in size with standard encoder-decoder conformer systems while also avoiding the usage of SSL models during training. Our approach results in faster training and yields significant performance gains on the Librispeech and Tedlium datasets compared to baselines. We further provide detailed analysis and ablation studies that demonstrate the effectiveness of our approach.
翻訳日:2024-04-22 16:15:12 公開日:2024-04-19
# MindTuner: ビジュアルフィンガープリントとセマンティック補正によるビジュアルデコーディング

MindTuner: Cross-Subject Visual Decoding with Visual Fingerprint and Semantic Correction ( http://arxiv.org/abs/2404.12630v1 )

ライセンス: Link先を確認
Zixuan Gong, Qi Zhang, Guangyin Bao, Lei Zhu, Ke Liu, Liang Hu, Duoqian Miao, (参考訳) 脳活動から自然の視覚シーンを復号する研究は盛んであり、単目的タスクでは広範な研究がなされているが、多目的タスクでは少ない。 クロスオブジェクトタスクにおける高品質な画像の再構成は、被写体間の深い個人差とデータアノテーションの不足により難しい問題である。 本研究では、人間の視覚系における視覚指紋の現象と新しいfMRI-to-textアライメントパラダイムを活かした1時間分のfMRIトレーニングデータを用いて、高品質で豊かな意味的再構成を実現するクロスオブジェクトビジュアルデコーディングのためのMindTunerを提案する。 まず,7人の被験者を対象に,複数対象モデルを事前学習し,新しい被験者のデータを少ない精度で抽出し,視覚指紋の学習にLoRAを用いた。 そして、画像のモダリティを中間的なピボットのモダリティとして、fMRI-to-textアライメントを実現し、印象的なfMRI-to-text検索性能を実現し、微調整のセマンティクスでfMRI-to-image再構成を補正する。 定性的かつ定量的な分析の結果、MindTunerは1時間または40時間のトレーニングデータを使用しても、Natural Scenes Dataset(NSD)の最先端のクロスオブジェクト視覚デコーディングモデルを超えていることが示された。

Decoding natural visual scenes from brain activity has flourished, with extensive research in single-subject tasks and, however, less in cross-subject tasks. Reconstructing high-quality images in cross-subject tasks is a challenging problem due to profound individual differences between subjects and the scarcity of data annotation. In this work, we proposed MindTuner for cross-subject visual decoding, which achieves high-quality and rich-semantic reconstructions using only 1 hour of fMRI training data benefiting from the phenomena of visual fingerprint in the human visual system and a novel fMRI-to-text alignment paradigm. Firstly, we pre-train a multi-subject model among 7 subjects and fine-tune it with scarce data on new subjects, where LoRAs with Skip-LoRAs are utilized to learn the visual fingerprint. Then, we take the image modality as the intermediate pivot modality to achieve fMRI-to-text alignment, which achieves impressive fMRI-to-text retrieval performance and corrects fMRI-to-image reconstruction with fine-tuned semantics. The results of both qualitative and quantitative analyses demonstrate that MindTuner surpasses state-of-the-art cross-subject visual decoding models on the Natural Scenes Dataset (NSD), whether using training data of 1 hour or 40 hours.
翻訳日:2024-04-22 16:15:12 公開日:2024-04-19
# ボトルネックの漂流:ニューラルネットにおける逆行学習から逆行非依存的ドメイン適応学習への進化的移行

Breaching the Bottleneck: Evolutionary Transition from Reward-Driven Learning to Reward-Agnostic Domain-Adapted Learning in Neuromodulated Neural Nets ( http://arxiv.org/abs/2404.12631v1 )

ライセンス: Link先を確認
Solvi Arnold, Reiji Suzuki, Takaya Arita, Kimitoshi Yamazaki, (参考訳) 高度な生物学的知能は、行動品質に対するフィードバックが不足したり欠如している場合でも、情報豊富な刺激情報のストリームから効率的に学習する。 このような学習はタスク領域に関する暗黙の仮定を利用する。 ドメイン適応学習(Domain-Adapted Learning, DAL)などを指す。 対照的に、AI学習アルゴリズムは、適合した振る舞いを取得するために、外部から提供された行動品質の測定に頼っている。 これにより、学習効率を制限し、多様な非逆刺激情報からの学習を妨げる情報ボトルネックが課せられる。 生物進化がこのボトルネックを回避してDALを発生させるのかという問題を考察する。 まず、報奨信号から学習する能力を進化させ、非効率(ボトルネック化)だが広い適応性を提供することを提案する。 そこから、学習プロセスへの非逆情報の統合は、特定のタスク領域におけるそのような情報によって引き起こされるバイアスの段階的な蓄積によって進行する。 このシナリオは、ボトルネックのないドメイン適応学習への生物学的に妥当な経路を提供する。 このシナリオの第2フェーズに着目して、強化学習(Reinforcement Learning, A2C)をモデルとした報酬駆動学習(Reinforcement Learning, A2C)によるNNの集団を構築し、神経変調更新機構を用いて学習プロセスに非逆情報を統合することにより、学習効率の向上を可能にする。 連続2次元空間におけるナビゲーションタスクでは、進化したDALエージェントは純粋なRLエージェントに比べて学習速度が300倍に向上している。 進化は報酬情報への依存を完全に排除し、DALエージェントは、局所的な神経変調に基づく接続重み更新のみを使用して、非逆情報からのみ学習することができる。

Advanced biological intelligence learns efficiently from an information-rich stream of stimulus information, even when feedback on behaviour quality is sparse or absent. Such learning exploits implicit assumptions about task domains. We refer to such learning as Domain-Adapted Learning (DAL). In contrast, AI learning algorithms rely on explicit externally provided measures of behaviour quality to acquire fit behaviour. This imposes an information bottleneck that precludes learning from diverse non-reward stimulus information, limiting learning efficiency. We consider the question of how biological evolution circumvents this bottleneck to produce DAL. We propose that species first evolve the ability to learn from reward signals, providing inefficient (bottlenecked) but broad adaptivity. From there, integration of non-reward information into the learning process can proceed via gradual accumulation of biases induced by such information on specific task domains. This scenario provides a biologically plausible pathway towards bottleneck-free, domain-adapted learning. Focusing on the second phase of this scenario, we set up a population of NNs with reward-driven learning modelled as Reinforcement Learning (A2C), and allow evolution to improve learning efficiency by integrating non-reward information into the learning process using a neuromodulatory update mechanism. On a navigation task in continuous 2D space, evolved DAL agents show a 300-fold increase in learning speed compared to pure RL agents. Evolution is found to eliminate reliance on reward information altogether, allowing DAL agents to learn from non-reward information exclusively, using local neuromodulation-based connection weight updates only.
翻訳日:2024-04-22 16:15:12 公開日:2024-04-19
# FlagVNE: ネットワークリソース割り当てのためのフレキシブルで汎用的な強化学習フレームワーク

FlagVNE: A Flexible and Generalizable Reinforcement Learning Framework for Network Resource Allocation ( http://arxiv.org/abs/2404.12633v1 )

ライセンス: Link先を確認
Tianfu Wang, Qilin Fan, Chao Wang, Long Yang, Leilei Ding, Nicholas Jing Yuan, Hui Xiong, (参考訳) VNE(Virtual Network Embedding)は、仮想ネットワーク要求(VNR)を物理インフラにマッピングすることを目的とした、ネットワーク仮想化における重要なリソース割り当てタスクである。 強化学習(RL)は近年,この問題に対する有望な解決策として浮上している。 しかし、既存のRLベースのVNE法は、一方向のアクション設計と一方向のトレーニング戦略によって制限されており、探索性や一般化性が制限される。 本稿では,FLexible And Generalizable RL framework for VNE(FragVNE)を提案する。 具体的には,仮想ノードと物理ノードの同時選択を可能にする双方向動作に基づくマルコフ決定プロセスモデルを設計し,解空間の探索性を向上させる。 広範かつダイナミックな動作空間に取り組むために,適応的な動作確率分布を生成し,高い訓練効率を確保する階層型デコーダを設計する。 さらに, 様々なVNRサイズに対する一般化問題を克服するために, 各VNRサイズに対する専門的な政策訓練を容易にする, カリキュラムスケジューリング戦略を備えたメタRLベースのトレーニング手法を提案する。 最後に、多数の実験結果から、FragVNEが複数の主要な指標にまたがって有効であることが示されている。 私たちのコードはGitHubで入手可能です(https://github.com/GeminiLight/flag-vne)。

Virtual network embedding (VNE) is an essential resource allocation task in network virtualization, aiming to map virtual network requests (VNRs) onto physical infrastructure. Reinforcement learning (RL) has recently emerged as a promising solution to this problem. However, existing RL-based VNE methods are limited by the unidirectional action design and one-size-fits-all training strategy, resulting in restricted searchability and generalizability. In this paper, we propose a FLexible And Generalizable RL framework for VNE, named FlagVNE. Specifically, we design a bidirectional action-based Markov decision process model that enables the joint selection of virtual and physical nodes, thus improving the exploration flexibility of solution space. To tackle the expansive and dynamic action space, we design a hierarchical decoder to generate adaptive action probability distributions and ensure high training efficiency. Furthermore, to overcome the generalization issue for varying VNR sizes, we propose a meta-RL-based training method with a curriculum scheduling strategy, facilitating specialized policy training for each VNR size. Finally, extensive experimental results show the effectiveness of FlagVNE across multiple key metrics. Our code is available at GitHub (https://github.com/GeminiLight/flag-vne).
翻訳日:2024-04-22 16:05:28 公開日:2024-04-19
# 変圧器を用いたマルチモーダルストローク処理の分類結果予測

Transformer-Based Classification Outcome Prediction for Multimodal Stroke Treatment ( http://arxiv.org/abs/2404.12634v1 )

ライセンス: Link先を確認
Danqing Ma, Meng Wang, Ao Xiang, Zongqing Qi, Qin Yang, (参考訳) 本研究では,Transformerアーキテクチャと自己保持機構に基づくマルチモーダル融合フレームワークであるMultitransを提案する。 このアーキテクチャは、脳卒中治療中の患者の非コントラストCT画像と放電診断レポートを、Transformerアーキテクチャーに基づく様々な手法を用いて組み合わせて、脳卒中治療の機能的結果を予測する。 その結果, 単モーダルテキスト分類の性能は単モーダル画像分類よりも有意に優れているが, 多モーダル組み合わせの効果は任意の単モーダル画像分類よりも優れていることがわかった。 Transformerモデルは画像データにのみ悪影響を及ぼすが、臨床メタ診断情報と組み合わせると、両者はより良い相補的な情報を学び、脳卒中の治療効果を正確に予測するのに良い貢献をする。 と。

This study proposes a multi-modal fusion framework Multitrans based on the Transformer architecture and self-attention mechanism. This architecture combines the study of non-contrast computed tomography (NCCT) images and discharge diagnosis reports of patients undergoing stroke treatment, using a variety of methods based on Transformer architecture approach to predicting functional outcomes of stroke treatment. The results show that the performance of single-modal text classification is significantly better than single-modal image classification, but the effect of multi-modal combination is better than any single modality. Although the Transformer model only performs worse on imaging data, when combined with clinical meta-diagnostic information, both can learn better complementary information and make good contributions to accurately predicting stroke treatment effects..
翻訳日:2024-04-22 16:05:28 公開日:2024-04-19
# AED-PADA:主対向領域適応による対向例検出の一般化性の向上

AED-PADA:Improving Generalizability of Adversarial Example Detection via Principal Adversarial Domain Adaptation ( http://arxiv.org/abs/2404.12635v1 )

ライセンス: Link先を確認
Heqi Peng, Yunhong Wang, Ruijie Yang, Beichen Li, Rui Wang, Yuanfang Guo, (参考訳) 敵防御の分野では,多くのシナリオに都合よく応用できる敵検出が重要である。 残念なことに、既存の検出方法は、通常、訓練プロセスは1つの既知の敵攻撃から生成された例に依存しており、トレーニングと未知のテストの例との間には大きな相違があるため、一般化性能の低下に悩まされている。 この問題に対処するため,AED-PADA (Pricipal Adversarial Domain Adaptation) を用いたAdversarial Example Detection (Adversarial Example Detection) という新しい手法を提案する。 特に,本手法では,主敵ドメイン(PAD)を識別する。すなわち,敵の特徴空間全体を網羅する,異なる攻撃による敵の例の特徴の組み合わせである。 そこで我々は,PADをソースドメインとする逆例検出において,マルチソース領域適応の先駆者となった。 提案したAED-PADAのより優れた一般化能力を示す実験を行った。 この優越性は、摂動に最小等級の制約を用いるのが特徴の挑戦的なシナリオで特に達成される。

Adversarial example detection, which can be conveniently applied in many scenarios, is important in the area of adversarial defense. Unfortunately, existing detection methods suffer from poor generalization performance, because their training process usually relies on the examples generated from a single known adversarial attack and there exists a large discrepancy between the training and unseen testing adversarial examples. To address this issue, we propose a novel method, named Adversarial Example Detection via Principal Adversarial Domain Adaptation (AED-PADA). Specifically, our approach identifies the Principal Adversarial Domains (PADs), i.e., a combination of features of the adversarial examples from different attacks, which possesses large coverage of the entire adversarial feature space. Then, we pioneer to exploit multi-source domain adaptation in adversarial example detection with PADs as source domains. Experiments demonstrate the superior generalization ability of our proposed AED-PADA. Note that this superiority is particularly achieved in challenging scenarios characterized by employing the minimal magnitude constraint for the perturbations.
翻訳日:2024-04-22 16:05:28 公開日:2024-04-19
# LLMによるプログラム修復のための多目的ファインチューニング

Multi-Objective Fine-Tuning for Enhanced Program Repair with LLMs ( http://arxiv.org/abs/2404.12636v1 )

ライセンス: Link先を確認
Boyang Yang, Haoye Tian, Jiadong Ren, Hongyu Zhang, Jacques Klein, Tegawendé F. Bissyandé, Claire Le Goues, Shunfu Jin, (参考訳) 大規模言語モデル(LLM)は、幅広い下流タスクにおいて顕著な機能を示した。 ソフトウェアエンジニアリングの領域内では、プログラムの修復、ユニークな課題の提示、最先端のパフォーマンスのアンロックのための微調整が必要である。 LLMのプログラム修復タスクに関する文献で提案されている微調整アプローチは、一般的に、データの構文パターンを超えて、コード変更の背後にあるロジックを推論する必要性を見落としている。 高性能な微調整実験も、通常非常に高い計算コストで行われる。 MORepairでは、プログラム修復のためのLLM微調整の学習焦点に関する新たな視点を提案し、LLMパラメータをコード変換のタスクの構文的ニュアンス(オブジェクト1)に適応させるだけでなく、トレーニングデータにおけるコード変更の背後にある論理的理由(オブジェクト2)に関して、特にLLMを微調整する。 このような多目的微調整は、LCMに高品質なパッチを生成するよう指示する。 我々はMORepairを、サイズやアーキテクチャの異なる4つのオープンソースLCMの微調整に応用する。 C++とJavaの修復ベンチマークの実験結果によると、実装された微調整により、トップ10の修理提案でLLMの修理性能が7.6%から10%向上した。 さらに, プログラム修復, ファインチューンCoT, 補修LLaMAのファインチューンモデルにおいて, 既存の最先端モデルに比べて優れた性能を示すことを示す。

Large language models (LLMs) have demonstrated remarkable capabilities on a broad spectrum of downstream tasks. Within the realm of software engineering, specialized tasks on code, such as program repair, present unique challenges, necessitating fine-tuning to unlock state-of-the-art performance. Fine-tuning approaches proposed in the literature for LLMs on program repair tasks are however generally overlooking the need to reason about the logic behind code changes, beyond syntactic patterns in the data. High-performing fine-tuning experiments also usually come at very high computational costs. With MORepair, we propose a novel perspective on the learning focus of LLM fine-tuning for program repair: we not only adapt the LLM parameters to the syntactic nuances of the task of code transformation (objective 1), but we also specifically fine-tune the LLM with respect to the logical reason behind the code change in the training data (objective 2). Such a multi-objective fine-tuning will instruct LLMs to generate high-quality patches. We apply MORepair to fine-tune four open-source LLMs with different sizes and architectures. Experimental results on C++ and Java repair benchmarks show that the implemented fine-tuning effectively boosts LLM repair performance by 7.6% to 10% in Top-10 repair suggestions. We further show that our fine-tuning strategy yields superior performance compared to the incumbent state-of-the-art in fine-tuned models for program repair, Fine-tune-CoT and RepairLLaMA.
翻訳日:2024-04-22 16:05:28 公開日:2024-04-19
# 効率的な混合整数計画のための階層シーケンス/セットモデルによるカットの学習

Learning to Cut via Hierarchical Sequence/Set Model for Efficient Mixed-Integer Programming ( http://arxiv.org/abs/2404.12638v1 )

ライセンス: Link先を確認
Jie Wang, Zhihai Wang, Xijun Li, Yufei Kuang, Zhihao Shi, Fangzhou Zhu, Mingxuan Yuan, Jia Zeng, Yongdong Zhang, Feng Wu, (参考訳) カット平面(カット)は、多くの重要な実世界の応用を定式化する混合整数線形プログラム(MILP)の解法において重要な役割を果たす。 カット選択は、選択するカット数(P1)と選択するカット数(P2)に大きく依存する。 現代のMILPソルバは人間設計のヒューリスティックスによって(P1)-(P2)に取り組むが、機械学習はより効果的なヒューリスティックスを学ぶ可能性を秘めている。 しかし、既存の学習ベースの方法の多くは、どのカットを好むかを学び、どのカットを選ぶかを学ぶことの重要性を無視している。 さらに, (P3) 選択したカットの順序がMILPソルバの効率にも大きく影響することが確認された。 これらの課題に対処するために、カット選択ポリシーを学習するための新しい階層的シーケンス/セットモデル(HEM)を提案する。 HEMは、(1)選択するカット数を学習する高レベルモジュール、(2)、および、カット選択をシーケンス/セットからシーケンス学習問題として定式化する低レベルモジュールの2レベルモデルであり、高レベルモジュールによって決定される濃度で順序付けられたサブセットを選択するポリシーを学習する。 私たちの知る限りでは、HEMは(P1)-(P3)を同時に取り組んだ最初のデータ駆動方法論です。 HEMは、Huaweiの2つの本当の問題を含む11の挑戦的なMILPベンチマークでMILPを解く効率を大幅に改善することを示した。

Cutting planes (cuts) play an important role in solving mixed-integer linear programs (MILPs), which formulate many important real-world applications. Cut selection heavily depends on (P1) which cuts to prefer and (P2) how many cuts to select. Although modern MILP solvers tackle (P1)-(P2) by human-designed heuristics, machine learning carries the potential to learn more effective heuristics. However, many existing learning-based methods learn which cuts to prefer, neglecting the importance of learning how many cuts to select. Moreover, we observe that (P3) what order of selected cuts to prefer significantly impacts the efficiency of MILP solvers as well. To address these challenges, we propose a novel hierarchical sequence/set model (HEM) to learn cut selection policies. Specifically, HEM is a bi-level model: (1) a higher-level module that learns how many cuts to select, (2) and a lower-level module -- that formulates the cut selection as a sequence/set to sequence learning problem -- to learn policies selecting an ordered subset with the cardinality determined by the higher-level module. To the best of our knowledge, HEM is the first data-driven methodology that well tackles (P1)-(P3) simultaneously. Experiments demonstrate that HEM significantly improves the efficiency of solving MILPs on eleven challenging MILP benchmarks, including two Huawei's real problems.
翻訳日:2024-04-22 16:05:28 公開日:2024-04-19
# シングルタスク連続オフライン強化学習

Single-Task Continual Offline Reinforcement Learning ( http://arxiv.org/abs/2404.12639v1 )

ライセンス: Link先を確認
Sibo Gai, Donglin Wang, (参考訳) 本稿では,単一タスクのオフライン強化学習における継続学習問題について検討する。 過去には、連続的な強化学習は、通常マルチタスク、すなわち複数の関連するタスクや無関係なタスクを連続的に学習するだけであったが、一度学習されたタスクが一度学習されると、それは再学習されるのではなく、その後のプロセスでのみ使用される。 しかし、オフラインの強化学習タスクでは、同じタスクのために複数の異なるデータセットを継続的に学習する必要がある。 既存のアルゴリズムは、学習した各オフラインデータセットで最高の結果を得るために最善を尽くし、ネットワークのスキルは、その後の貧弱なデータセットを学習した後に学んだ高品質なデータセットを上書きする。 一方、安定性に重きを置くと、オフラインデータセットの貧弱な学習後、ネットワークはその後のより良いデータセットを学習し、可塑性と非学習の問題が発生する。 学習したデータにおいて、各状態の最高のパフォーマンスを常に維持できる戦略を設計する方法は、新しい課題であり、この研究の焦点である。 そこで本研究では,経験リプレイに基づくエンサンブルオフライン強化学習(Ensemble Offline Reinforcement Learning)と呼ばれる新しいアルゴリズムを提案する。

In this paper, we study the continual learning problem of single-task offline reinforcement learning. In the past, continual reinforcement learning usually only dealt with multitasking, that is, learning multiple related or unrelated tasks in a row, but once each learned task was learned, it was not relearned, but only used in subsequent processes. However, offline reinforcement learning tasks require the continuously learning of multiple different datasets for the same task. Existing algorithms will try their best to achieve the best results in each offline dataset they have learned and the skills of the network will overwrite the high-quality datasets that have been learned after learning the subsequent poor datasets. On the other hand, if too much emphasis is placed on stability, the network will learn the subsequent better dataset after learning the poor offline dataset, and the problem of insufficient plasticity and non-learning will occur. How to design a strategy that can always preserve the best performance for each state in the data that has been learned is a new challenge and the focus of this study. Therefore, this study proposes a new algorithm, called Ensemble Offline Reinforcement Learning Based on Experience Replay, which introduces multiple value networks to learn the same dataset and judge whether the strategy has been learned by the discrete degree of the value network, to improve the performance of the network in single-task offline reinforcement learning.
翻訳日:2024-04-22 16:05:28 公開日:2024-04-19
# マルチモーダル感性分析のための協調感性エージェント

Cooperative Sentiment Agents for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2404.12642v1 )

ライセンス: Link先を確認
Shanmin Wang, Hui Shuai, Qingshan Liu, Fei Wang, (参考訳) 本稿では,コラボレーティブ・センティメント・エージェント(Co-SA)を用いて,モーダル間の適応的相互作用を容易にするマルチモーダル・エンタテイメント・アナリティクス(MSA)のためのMRL法を提案する。 Co-SAは、SAE(Sentiment Agents Establishment)フェーズとSAC(Sentiment Agents Cooperation)フェーズの2つの重要なコンポーネントから構成される。 SAEの段階では、各感情エージェントは単調信号に対処し、モダリティ・センチメント・ディスタングルメント(MSD)とディープフェーズ・スペース・コンストラクション(DPSR)モジュールを通して、モダリティ内の明らかな動的感情変化を強調する。 その後、SACフェーズにおいて、Co-SAは、マルチモーダル信号をコーディネートして共同表現を学習できるように、感情エージェントのタスク固有の相互作用機構を慎重に設計する。 具体的には、Co-SAは各感情エージェントに対して独立したポリシーモデルを持ち、モダリティ内の重要な特性をキャプチャする。 これらのポリシーは、下流タスクに適応した統一報酬によって相互に最適化される。 Co-SAは報奨機構から恩恵を受け、事前に定義された核融合モードの制限を超越し、マルチモーダル相互作用設定におけるMRLの非モード特性を適応的に捕捉する。 Co-SAの有効性を示すために,マルチモーダル感情分析(MSA)とマルチモーダル感情認識(MER)の課題に対処する。 総合的な実験結果から,Co-SAは共通点と相補点の両方を包含して,多種多様な横断的特徴の発見に優れていたことが示唆された。 コードはhttps://github.com/smwanghhh/Co-SA.comで入手できる。

In this paper, we propose a new Multimodal Representation Learning (MRL) method for Multimodal Sentiment Analysis (MSA), which facilitates the adaptive interaction between modalities through Cooperative Sentiment Agents, named Co-SA. Co-SA comprises two critical components: the Sentiment Agents Establishment (SAE) phase and the Sentiment Agents Cooperation (SAC) phase. During the SAE phase, each sentiment agent deals with an unimodal signal and highlights explicit dynamic sentiment variations within the modality via the Modality-Sentiment Disentanglement (MSD) and Deep Phase Space Reconstruction (DPSR) modules. Subsequently, in the SAC phase, Co-SA meticulously designs task-specific interaction mechanisms for sentiment agents so that coordinating multimodal signals to learn the joint representation. Specifically, Co-SA equips an independent policy model for each sentiment agent that captures significant properties within the modality. These policies are optimized mutually through the unified reward adaptive to downstream tasks. Benefitting from the rewarding mechanism, Co-SA transcends the limitation of pre-defined fusion modes and adaptively captures unimodal properties for MRL in the multimodal interaction setting. To demonstrate the effectiveness of Co-SA, we apply it to address Multimodal Sentiment Analysis (MSA) and Multimodal Emotion Recognition (MER) tasks. Our comprehensive experimental results demonstrate that Co-SA excels at discovering diverse cross-modal features, encompassing both common and complementary aspects. The code can be available at https://github.com/smwanghhh/Co-SA.
翻訳日:2024-04-22 16:05:28 公開日:2024-04-19
# 線形深度t-設計と擬ランダムユニタリの簡単な構成

Simple constructions of linear-depth t-designs and pseudorandom unitaries ( http://arxiv.org/abs/2404.12647v1 )

ライセンス: Link先を確認
Tony Metger, Alexander Poremba, Makrand Sinha, Henry Yuen, (参考訳) 一様ランダムなユニタリ、すなわちハール測度から引き出されたユニタリは、多くの有用な性質を持つが、効率的に実装することはできない。 このことは、ランダムなユニタリに関する長い研究の動機となり、それは十分にハールランダムに見えると同時に、実装も効率的である。 例えば、$t$-designsは、情報理論によってハール測度の最初の$t$モーメントを再現するランダムユニタリーであり、擬ランダムユニタリー(PRU)は計算的にハール乱数と区別できないランダムユニタリーである。 本研究では,$t$-designs と PRUs を統一的に構築する。 このために、ランダムな計算基底置換である$P$、ランダムなバイナリ位相演算子$F$、ランダムなCliffordユニタリ$C$の積である「$PFC$アンサンブル」を導入、分析する。 このアンサンブルは、ハール測度の指数的に高いモーメントを再現することを示す。 すると、$PFC$アンサンブルをデランドマイズして、次のことを示せる: (1) Linear-depth $t$-designs。 回路深度線形な(ダイアモンドエラー)近似 $t$-design の最初の構成を$t$で与える。 これは、ランダム位相と置換演算子を2t$-wiseの独立な演算子に置き換えることで、$PFC$アンサンブルから続く。 2)非適応型PRU 我々は、適応的でないセキュリティを持つPRUの最初の構成、すなわちアール乱数から多項式時間区別器と区別できないユニタリを構築し、アービタリー状態においてユニタリを並列にクエリする。 これは、ランダム位相と置換演算子を擬似乱数に置き換えることで$PFC$アンサンブルから続く。 (3)適応的擬似乱数同型 等距離を$n$から$n + \omega(\log n)$ qubitsまで(ユニタリではなく)考えると、我々のPRU構造の小さな修正は一般的な適応セキュリティを実現する。

Uniformly random unitaries, i.e. unitaries drawn from the Haar measure, have many useful properties, but cannot be implemented efficiently. This has motivated a long line of research into random unitaries that "look" sufficiently Haar random while also being efficient to implement. Two different notions of derandomisation have emerged: $t$-designs are random unitaries that information-theoretically reproduce the first $t$ moments of the Haar measure, and pseudorandom unitaries (PRUs) are random unitaries that are computationally indistinguishable from Haar random. In this work, we take a unified approach to constructing $t$-designs and PRUs. For this, we introduce and analyse the "$PFC$ ensemble", the product of a random computational basis permutation $P$, a random binary phase operator $F$, and a random Clifford unitary $C$. We show that this ensemble reproduces exponentially high moments of the Haar measure. We can then derandomise the $PFC$ ensemble to show the following: (1) Linear-depth $t$-designs. We give the first construction of a (diamond-error) approximate $t$-design with circuit depth linear in $t$. This follows from the $PFC$ ensemble by replacing the random phase and permutation operators with their $2t$-wise independent counterparts. (2) Non-adaptive PRUs. We give the first construction of PRUs with non-adaptive security, i.e. we construct unitaries that are indistinguishable from Haar random to polynomial-time distinguishers that query the unitary in parallel on an arbitary state. This follows from the $PFC$ ensemble by replacing the random phase and permutation operators with their pseudorandom counterparts. (3) Adaptive pseudorandom isometries. We show that if one considers isometries (rather than unitaries) from $n$ to $n + \omega(\log n)$ qubits, a small modification of our PRU construction achieves general adaptive security.
翻訳日:2024-04-22 16:05:28 公開日:2024-04-19
# 一般関数近似を用いた無限水平平均回帰MDPのサンプル効率学習

Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation ( http://arxiv.org/abs/2404.12648v1 )

ライセンス: Link先を確認
Jianliang He, Han Zhong, Zhuoran Yang, (参考訳) 一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。 具体的には、モデルベースと値ベースの両方を組み込んだLocal-fitted Optimization with OP(Local-fitted Optimization with Optimism)という新しいアルゴリズムフレームワークを提案する。 特に、LOOPは、信頼セットの新規な構築と、平均回帰および関数近似設定に合わせて調整された低スイッチングポリシー更新スキームを特徴としている。 さらに, AMDPに対して, 一般関数近似を用いたAMDPにおける探索の課題を捉えた, 平均逆一般化ユーダー係数 (AGEC) を新たに提案する。 このような複雑性尺度は、線形AMDPや線形混合AMDPなど、これまで知られていたほぼすべてのAMDPモデルを含み、さらにベルマンエリューダー次元を持つカーネルAMDPやAMDPといった新たなケースも含む。 AGEC を用いて LOOP がサブリニア $\tilde{\mathcal{O}}(\mathrm{poly}(d, \mathrm{sp}(V^*)) \sqrt{T\beta} )$ regret, ここで $d$ と $\beta$ はそれぞれ AGEC に対応し、仮説クラスのログ化数を $\mathrm{sp}(V^*)$ は最適状態バイアス関数のスパンであり、$T$ はステップ数を表し、$\tilde{\mathcal{O}} (\cdot) $ omits logarithmic factor である。 具体的なAMDPモデルに特化する場合は、これらの特別なケースに特化して設計された既存のアルゴリズムが確立したものに匹敵する。 そこで本研究では,ほぼすべてのAMDPを扱える最初の包括的な理論的枠組みについて述べる。

We study infinite-horizon average-reward Markov decision processes (AMDPs) in the context of general function approximation. Specifically, we propose a novel algorithmic framework named Local-fitted Optimization with OPtimism (LOOP), which incorporates both model-based and value-based incarnations. In particular, LOOP features a novel construction of confidence sets and a low-switching policy updating scheme, which are tailored to the average-reward and function approximation setting. Moreover, for AMDPs, we propose a novel complexity measure -- average-reward generalized eluder coefficient (AGEC) -- which captures the challenge of exploration in AMDPs with general function approximation. Such a complexity measure encompasses almost all previously known tractable AMDP models, such as linear AMDPs and linear mixture AMDPs, and also includes newly identified cases such as kernel AMDPs and AMDPs with Bellman eluder dimensions. Using AGEC, we prove that LOOP achieves a sublinear $\tilde{\mathcal{O}}(\mathrm{poly}(d, \mathrm{sp}(V^*)) \sqrt{T\beta} )$ regret, where $d$ and $\beta$ correspond to AGEC and log-covering number of the hypothesis class respectively, $\mathrm{sp}(V^*)$ is the span of the optimal state bias function, $T$ denotes the number of steps, and $\tilde{\mathcal{O}} (\cdot) $ omits logarithmic factors. When specialized to concrete AMDP models, our regret bounds are comparable to those established by the existing algorithms designed specifically for these special cases. To the best of our knowledge, this paper presents the first comprehensive theoretical framework capable of handling nearly all AMDPs.
翻訳日:2024-04-22 16:05:28 公開日:2024-04-19
# Qubit-assisted quantum merology

Qubit-assisted quantum metrology ( http://arxiv.org/abs/2404.12649v1 )

ライセンス: Link先を確認
Peng Chen, Jun Jing, (参考訳) 本稿では,プローブシステムの2段階の連成進化と補助量子ビット,単発射影測定に基づく量子メトロジープロトコルを提案する。 補助量子ビットの最適化初期化により、プローブ系に符号化された位相パラメータに関する量子フィッシャー情報(QFI)は、プローブ状態に依存しない時間最適化位相発生器の平方部の期待値によって決定される。 したがって、QFI は古典的な状態でプローブシステムが準備されている場合でも、量子数 $N$ に対して Heisenberg スケーリング $N^2$ にアプローチすることができる。 このスケーリング挙動は、補助量子ビットの作成と進化時間制御における不完全性に対して堅牢であることがわかった。 時間反転戦略を用いて、我々の気象プロトコルにおける古典的なフィッシャー情報(CFI)は量子的に飽和している。 我々の研究は、絡み合いや絞め込みを使わずに、気象学の精度でハイゼンベルクスケーリングの限界を実現するための経済的な方法である。

We propose a quantum metrology protocol based on a two-step joint evolution of the probe system and an ancillary qubit and a single-shot projective measurement. With an optimized initialization of the ancillary qubit, the quantum Fisher information (QFI) about the phase parameter encoded in the probe system is found to be determined by the expectation value of the square of a time-optimized phase generator, independent of the probe state. Therefore, QFI can approach the Heisenberg scaling $N^2$ with respect to the quantum number $N$, even when the probe system is prepared in a classical state. We find that this scaling behavior is robust against the imperfections in preparing the ancillary qubit and controlling the evolution time. Using the time-reversal strategy, the classical Fisher information (CFI) in our metrology protocol is saturated with its quantum counterpart. Our work thus paves an economical way to realize the Heisenberg-scaling limit in metrology precision with no use of entanglement or squeezing.
翻訳日:2024-04-22 16:05:28 公開日:2024-04-19
# F2FLDM:未熟凍結部における病理組織学的埋入法による後期拡散モデルからFFPE翻訳

F2FLDM: Latent Diffusion Models with Histopathology Pre-Trained Embeddings for Unpaired Frozen Section to FFPE Translation ( http://arxiv.org/abs/2404.12650v1 )

ライセンス: Link先を確認
Man M. Ho, Shikha Dubey, Yosep Chong, Beatrice Knudsen, Tolga Tasdizen, (参考訳) 凍結切開法(FS)は急速かつ効率的な方法であり、手術中の病理医の評価のためのスライドの準備に15~30分しかかからず、さらなる外科的介入の即時決定を可能にする。 しかし、FSプロセスは折り畳みや氷結晶効果のようなアーティファクトや歪みをしばしば導入する。 対照的に、これらのアーティファクトと歪みは、高品質なホルマリン固定パラフィン埋め込み(FFPE)スライドには欠落しており、準備には2~3日を要する。 Generative Adversarial Network (GAN) ベースの手法は、FSからFFPEへの変換に用いられているが、FSアーティファクトの残存や新しいアーティファクトの導入により、これらの翻訳の質が低下する可能性がある。 本研究では、これらの制約を克服するために、GANとLatent Diffusion Models(LDM)に着目した最近の生成モデルをベンチマークする。 FS画像の復元性を高めるために, LDMと病理組織学的プレトレーニングエンベディングを組み合わせた新しいアプローチを提案する。 本フレームワークは,テキストとプレトレーニングド埋め込みの両方で条件付きLDMを利用して,FSとFFPEの病理像の有意義な特徴を学習する。 本手法では, カラー染色や組織形態などの重要な診断属性を保存するだけでなく, 入力FS画像のFFPE表現をより正確に予測するための埋め込み翻訳機構を提案する。 その結果、この研究は分類性能を大幅に改善し、Area Under the Curveは81.99%から94.64%に上昇した。 この研究は、FSからFFPEへの画像翻訳品質の新たなベンチマークを確立し、FS画像解析における信頼性と精度の向上を約束する。 私たちの作品はhttps://minhmanho.github.io/f2f_ldm/で公開されています。

The Frozen Section (FS) technique is a rapid and efficient method, taking only 15-30 minutes to prepare slides for pathologists' evaluation during surgery, enabling immediate decisions on further surgical interventions. However, FS process often introduces artifacts and distortions like folds and ice-crystal effects. In contrast, these artifacts and distortions are absent in the higher-quality formalin-fixed paraffin-embedded (FFPE) slides, which require 2-3 days to prepare. While Generative Adversarial Network (GAN)-based methods have been used to translate FS to FFPE images (F2F), they may leave morphological inaccuracies with remaining FS artifacts or introduce new artifacts, reducing the quality of these translations for clinical assessments. In this study, we benchmark recent generative models, focusing on GANs and Latent Diffusion Models (LDMs), to overcome these limitations. We introduce a novel approach that combines LDMs with Histopathology Pre-Trained Embeddings to enhance restoration of FS images. Our framework leverages LDMs conditioned by both text and pre-trained embeddings to learn meaningful features of FS and FFPE histopathology images. Through diffusion and denoising techniques, our approach not only preserves essential diagnostic attributes like color staining and tissue morphology but also proposes an embedding translation mechanism to better predict the targeted FFPE representation of input FS images. As a result, this work achieves a significant improvement in classification performance, with the Area Under the Curve rising from 81.99% to 94.64%, accompanied by an advantageous CaseFD. This work establishes a new benchmark for FS to FFPE image translation quality, promising enhanced reliability and accuracy in histopathology FS image analysis. Our work is available at https://minhmanho.github.io/f2f_ldm/.
翻訳日:2024-04-22 16:05:28 公開日:2024-04-19
# 学習可能な視覚概念を学習する事前学習型視覚言語モデル

Pre-trained Vision-Language Models Learn Discoverable Visual Concepts ( http://arxiv.org/abs/2404.12652v1 )

ライセンス: Link先を確認
Yuan Zang, Tian Yun, Hao Tan, Trung Bui, Chen Sun, (参考訳) 視覚言語モデル(VLM)は「茶色」や「スピーキー」といった視覚概念を同時に学習する「デュリアン」のイメージをキャプションするために事前訓練されているか。 我々は、視覚概念を「無料で」学習することで、ニューロシンボリック推論や人間解釈可能なオブジェクト分類といった幅広い応用が可能になるとして、この問題に答えることを目指している。 事前学習されたVLMによってキャプチャされた視覚概念は、テキストベースの概念プロンプトで視覚言語インタフェースによって抽出できると仮定する。 視覚的概念を定義・評価する戦略において, VLMを概念付きで推進する最近の研究がしばしば異なっていることを観察し, 矛盾する結論を導いた。 まず、正しい概念を誤った理由で認識するショートカットを含む概念定義戦略を提案し、第2に、概念を選択する際にマルチモーダル情報(例えば、視覚的識別性、テキスト知識)を活用すべきである。 提案する概念発見学習(CDL)フレームワークは,視覚的および言語的相互情報に基づいてランク付けされ,選択される,汎用的な視覚概念の多様なリスト(例えば "spiky" は "spiky durian" とは対照的に)を識別するように設計されている。 6つの多様な視覚的認識データセットから得られた概念の定量的および人為的評価を慎重に設計し、事前学習されたVLMが認識対象に対して正確かつ詳細な記述を提供する視覚的概念を学習できることを確認する。 すべてのコードとモデルが公開されている。

Do vision-language models (VLMs) pre-trained to caption an image of a "durian" learn visual concepts such as "brown" (color) and "spiky" (texture) at the same time? We aim to answer this question as visual concepts learned "for free" would enable wide applications such as neuro-symbolic reasoning or human-interpretable object classification. We assume that the visual concepts, if captured by pre-trained VLMs, can be extracted by their vision-language interface with text-based concept prompts. We observe that recent works prompting VLMs with concepts often differ in their strategies to define and evaluate the visual concepts, leading to conflicting conclusions. We propose a new concept definition strategy based on two observations: First, certain concept prompts include shortcuts that recognize correct concepts for wrong reasons; Second, multimodal information (e.g. visual discriminativeness, and textual knowledge) should be leveraged when selecting the concepts. Our proposed concept discovery and learning (CDL) framework is thus designed to identify a diverse list of generic visual concepts (e.g. "spiky" as opposed to "spiky durian"), which are ranked and selected based on visual and language mutual information. We carefully design quantitative and human evaluations of the discovered concepts on six diverse visual recognition datasets, which confirm that pre-trained VLMs do learn visual concepts that provide accurate and thorough descriptions for the recognized objects. All code and models are publicly released.
翻訳日:2024-04-22 16:05:28 公開日:2024-04-19
# 現実とは何か? 制限のない敵の例を人間で評価するフレームワーク

How Real Is Real? A Human Evaluation Framework for Unrestricted Adversarial Examples ( http://arxiv.org/abs/2404.12653v1 )

ライセンス: Link先を確認
Dren Fazlija, Arkadij Orlov, Johanna Schrader, Monty-Maximilian Zühlke, Michael Rohs, Daniel Kudenko, (参考訳) 現実世界では機械学習(ML)モデルへの依存がますます高まっているため、敵の例は自動運転車のようなAIベースのシステムの安全性を脅かしている。 画像領域では、悪質に摂動したデータポイントを表現し、人間に相応しい(つまり、画像修正は目立たない)が、最先端のMLモデルを大きく誤解させる。 これまで、研究者は$\ell_p$ノルムによる摂動を制限することで、変更したデータポイントの認識不能を保証していた。 しかし、近年の出版物では、このような制約を伴わない自然な敵の例を作ることもできると主張している。 悪意のある情報をデータに注入する自由がより多くあるため、このような非制限の敵の例は、従来の防衛戦略を克服する可能性がある。 これにより、攻撃者は予想される脅威モデル外で操作できる。 しかし,既存の画像ベース手法を調査した結果,提案手法の人為的評価の必要性が指摘された。 画像生成品質のための既存のヒューマンアセスメントフレームワークに基づいて、制限なし画像ベース攻撃の評価フレームワークであるSCOOTERを提案する。 統計的に重要な人間の実験、標準化された質問、そして使える実装を行うためのガイドラインを研究者に提供する。 本研究では,研究者が非制限攻撃が真に受容できないかを分析するためのフレームワークを提案する。

With an ever-increasing reliance on machine learning (ML) models in the real world, adversarial examples threaten the safety of AI-based systems such as autonomous vehicles. In the image domain, they represent maliciously perturbed data points that look benign to humans (i.e., the image modification is not noticeable) but greatly mislead state-of-the-art ML models. Previously, researchers ensured the imperceptibility of their altered data points by restricting perturbations via $\ell_p$ norms. However, recent publications claim that creating natural-looking adversarial examples without such restrictions is also possible. With much more freedom to instill malicious information into data, these unrestricted adversarial examples can potentially overcome traditional defense strategies as they are not constrained by the limitations or patterns these defenses typically recognize and mitigate. This allows attackers to operate outside of expected threat models. However, surveying existing image-based methods, we noticed a need for more human evaluations of the proposed image modifications. Based on existing human-assessment frameworks for image generation quality, we propose SCOOTER - an evaluation framework for unrestricted image-based attacks. It provides researchers with guidelines for conducting statistically significant human experiments, standardized questions, and a ready-to-use implementation. We propose a framework that allows researchers to analyze how imperceptible their unrestricted attacks truly are.
翻訳日:2024-04-22 16:05:28 公開日:2024-04-19
# Rydberg原子量子コンピュータ上の表面符号の消去耐性プロトコル

Erasure-tolerance protocol for the surface codes on Rydberg atomic quantum computers ( http://arxiv.org/abs/2404.12656v1 )

ライセンス: Link先を確認
Fumiyoshi Kobayashi, Shota Nagayama, (参考訳) 光ツイーザを備えたライドバーグ原子配列は、スケーラビリティ、長いコヒーレンス時間、通信のための光アクセシビリティといった優れた性質のおかげで、フォールトトレラント量子コンピュータの候補として期待できる。 克服すべき大きな障壁は、非Pauliエラー、消去エラー、リークエラーである。 従来の研究によると、漏洩エラーは消去エラーに変換可能である。 残る問題は、このような(変換された)消去エラーが継続的に発生して蓄積されることである。 従来の提案では、予備の原子が格納されている貯水池から計算領域へ原子を直接輸送し、計算と誤り訂正を行い、原子の損失を補正するものだった。 しかし、原子の輸送には長い時間がかかるため、実際には周囲の量子ビットに副作用がある。 本研究では,回路ベースモンテカルロシミュレーションによる平面コードへの影響評価を行い,この問題を許容する新たな手法,すなわち \textit{$k$-shift erasure recovery}スキームを提案する。 提案方式では, オンラインコード変形を用いて消去を許容し, 消去エラーが蓄積された不完全配列から, オフライン光ツイーザによって消去エラーが修正された完全配列へ論理量子ビットを繰り返し転送し, 大量の消去を許容する。 さらに,その領域から論理量子ビットを退避させながら原子配列の消去誤差を補正するので,消去補正のための光ツイーザの操作は論理データを構成する量子ビットを妨害しない。 我々はRydberg原子量子コンピュータが実現可能なフォールトトレランスを実現するための実用的な方向を提供すると考えている。

Rydberg atom array with optical tweezers is a promising candidate for a fault-tolerant quantum computer, thanks to its good properties such as scalability, long coherence time and optical accessibility for communication. A big barrier to overcome is non-Pauli errors, erasure errors and leakage errors. Conventional work has revealed that leakage error is convertible to erasure error. A remaining problem is that such (converted) erasure errors continuously happen and accumulate. The previous proposal involved transporting atoms directly from the reservoir area, where atoms are stored for spare, to the computational area, where the computation and the error correction are processed, to correct atom loss. However, transporting atoms takes a long time and has side effects on surrounding qubits in practice. In this study, we evaluate the effects on planar code by circuit-based Monte Carlo simulation which has depolarizing errors and erasure errors, and propose a new scheme to tolerate that problem, namely, \textit{$k$-shift erasure recovery} scheme. Our scheme uses online code deformation to tolerate erasures and repeatedly transfers the logical qubit from an imperfect array in which erasure errors accumulated to another perfect array in which erasure errors have been fixed by offline optical tweezers, to tolerate a large (accumulated) number of erasures. Furthermore, our scheme corrects erasure errors of atom arrays while logical qubits are evacuated from that area to correct; therefore, manipulating optical tweezers for erasure correction does not disturb qubits that compose logical data. We believe that our scheme provides practical directions for Rydberg atom quantum computers to realize feasible fault-tolerance.
翻訳日:2024-04-22 16:05:28 公開日:2024-04-19
# EIP-7251におけるプロポーラ選択

Proposer selection in EIP-7251 ( http://arxiv.org/abs/2404.12657v1 )

ライセンス: Link先を確認
Sandra Johnson, Kerrie Mengersen, Patrick O'Callaghan, Anders L. Madsen, (参考訳) 即時解決(single-slot finality、SSF)はEthereumの長期的な目標である。 アクティブなバリデータのサイズが大きくなるにつれて、ネットワークに計算負荷が増大し、SSFをより困難にしている。 EIP-7251は、ステークホルダーに既存のバリデータを統合するオプションを与えることでバリデータを減らすことを目的としている。 したがって、この提案の成功の鍵は、EIP-7251が実装されると、ステークホルダーが検証員をマージするかどうかである。 利害関係者がより大きな効用(リスク調整されたリターン)を単一の大きなバリデータとして期待した場合のみ参加すると仮定するのは当然である。 本稿では,検証者が次のブロックのプロポーザルとして行う職務のひとつに焦点をあてる。 この義務は非常に有益だが、しばしば起こる。 以前の分析から、EIP-7251はプロトコルのセキュリティの変更を含まないと仮定する。 ブロックプロジェクタとして選択されたバリケータの確率は,各統合体制下で等価であることを確認した。 この結果、ある利害関係者の合併決定が次のブロックを提案する機会に影響を与えないことを保証し、その結果、提案者選択に関するプロトコルの経済に大きな体系的な変化がないことを保証します。

Immediate settlement, or single-slot finality (SSF), is a long-term goal for Ethereum. The growing active validator set size is placing an increasing computational burden on the network, making SSF more challenging. EIP-7251 aims to reduce the number of validators by giving stakers the option to merge existing validators. Key to the success of this proposal therefore is whether stakers choose to merge their validators once EIP-7251 is implemented. It is natural to assume stakers participate only if they anticipate greater expected utility (risk-adjusted returns) as a single large validator. In this paper, we focus on one of the duties that a validator performs, viz. being the proposer for the next block. This duty can be quite lucrative, but happens infrequently. Based on previous analysis, we may assume that EIP-7251 implies no change to the security of the protocol. We confirm that the probability of a validator being selected as block proposer is equivalent under each consolidation regime. This result ensures that the decision of one staker to merge has no impact on the opportunity of another to propose the next block, in turn ensuring there is no major systemic change to the economics of the protocol with respect to proposer selection.
翻訳日:2024-04-22 16:05:28 公開日:2024-04-19
# SOS-1K:中国のソーシャルメディア分析のためのきめ細かい自殺リスク分類データセット

SOS-1K: A Fine-grained Suicide Risk Classification Dataset for Chinese Social Media Analysis ( http://arxiv.org/abs/2404.12659v1 )

ライセンス: Link先を確認
Hongzhi Qi, Hanfei Liu, Jianqiang Li, Qing Zhao, Wei Zhai, Dan Luo, Tian Yu He, Shuo Liu, Bing Xiang Yang, Guanghui Fu, (参考訳) ソーシャルメディアでは、ユーザはしばしば個人的な感情を表現し、そのサブセットは自殺の危険性を示す可能性がある。 インターネット言語における暗黙的かつ多様な表現形式は、ソーシャルメディアに対する自殺意図の正確かつ迅速な識別を複雑にし、タイムリーな介入努力の課題を生み出している。 自殺リスク検出のためのディープラーニングモデルの開発は、有望な解決策であるが、特に中国の文脈において、関連するデータセットの欠如が顕著である。 このギャップに対処するため, 自殺意図の表現, 自殺の方法, タイミングの緊急性などの指標に着目した, きめ細かな自殺リスク分類を目的とした中国のソーシャルメディアデータセットを提案する。 事前訓練した7つのモデルについて, 自殺リスクが高い, 自殺リスクが少ない, 自殺リスクの細かい分類が0~10の2つのタスクで評価された。 本実験では,F1スコア88.39%を達成し,高い自殺リスクと低い自殺リスクを区別する深層学習モデルの有効性を示した。 しかし, 細粒度自殺リスク分類の結果はまだ不十分であり, 重み付きF1スコアは50.89%であった。 データ不均衡とデータセットサイズ制限の問題に対処するため、従来の言語モデルと大規模言語モデルに基づくデータ拡張技術の両方を調査し、F1スコアで最大4.65%の精度でデータ拡張がモデル性能を向上させることを実証した。 特に、心理ドメインデータに基づいて事前訓練された中国語のMentalBERTモデルは、両方のタスクにおいて優れたパフォーマンスを示す。 本研究は、自殺者の自動識別に有用な知見を提供し、ソーシャルメディアプラットフォームに対するタイムリーな心理的介入を促進する。 ソースコードとデータは公開されている。

In the social media, users frequently express personal emotions, a subset of which may indicate potential suicidal tendencies. The implicit and varied forms of expression in internet language complicate accurate and rapid identification of suicidal intent on social media, thus creating challenges for timely intervention efforts. The development of deep learning models for suicide risk detection is a promising solution, but there is a notable lack of relevant datasets, especially in the Chinese context. To address this gap, this study presents a Chinese social media dataset designed for fine-grained suicide risk classification, focusing on indicators such as expressions of suicide intent, methods of suicide, and urgency of timing. Seven pre-trained models were evaluated in two tasks: high and low suicide risk, and fine-grained suicide risk classification on a level of 0 to 10. In our experiments, deep learning models show good performance in distinguishing between high and low suicide risk, with the best model achieving an F1 score of 88.39%. However, the results for fine-grained suicide risk classification were still unsatisfactory, with an weighted F1 score of 50.89%. To address the issues of data imbalance and limited dataset size, we investigated both traditional and advanced, large language model based data augmentation techniques, demonstrating that data augmentation can enhance model performance by up to 4.65% points in F1-score. Notably, the Chinese MentalBERT model, which was pre-trained on psychological domain data, shows superior performance in both tasks. This study provides valuable insights for automatic identification of suicidal individuals, facilitating timely psychological intervention on social media platforms. The source code and data are publicly available.
翻訳日:2024-04-22 15:55:43 公開日:2024-04-19
# フェデレーテッド・アナリティクスに関する調査 : 分類学,エナリング技術,応用,オープン・イシュー

A Survey on Federated Analytics: Taxonomy, Enabling Techniques, Applications and Open Issues ( http://arxiv.org/abs/2404.12666v1 )

ライセンス: Link先を確認
Zibo Wang, Haichao Ji, Yifei Zhu, Dan Wang, Zhu Han, (参考訳) ネットワーク化されたエッジデバイスが生成するデータのエスカレーションは、データプライバシの認識の高まりと相まって、中央集権的なデータ処理からプライバシ保護された分散データ処理へと、コンピューティングパラダイムの変革的シフトを促進している。 フェデレーション分析(FA)は、生データを集中することなく、多様なデータ所有者間で協調的なデータ分析をサポートする新しい技術である。 FAの産業・アカデミックへの応用は広く行われているが、FAにおける既存の研究成果の総合的な調査は特に欠落している。 この調査は、まずFAの概要を提供し、鍵となる概念を解明し、同様の概念との関係を議論することで、このギャップを埋めることを目的としています。 次に,FAの分類,課題,技術の実現など,徹底的な検討を行う。 統計メトリクス、設定計算、周波数関連アプリケーション、データベースクエリ操作、モデルベースアプリケーション、FL支援FAタスクなど様々なFAアプリケーションは、慎重にレビューされる。 いくつかのオープンな研究課題と今後の方向性で調査を完了します。 本調査は、新たなFA技術に関する総合的な理解を提供し、新興ネットワーク社会におけるプライバシ保存型分散データ処理の継続的な進化を促進することを目的としている。

The escalating influx of data generated by networked edge devices, coupled with the growing awareness of data privacy, has promoted a transformative shift in computing paradigms from centralized data processing to privacy-preserved distributed data processing. Federated analytics (FA) is an emerging technique to support collaborative data analytics among diverse data owners without centralizing the raw data. Despite the wide applications of FA in industry and academia, a comprehensive examination of existing research efforts in FA has been notably absent. This survey aims to bridge this gap by first providing an overview of FA, elucidating key concepts, and discussing its relationship with similar concepts. We then conduct a thorough examination of FA, including its taxonomy, key challenges, and enabling techniques. Diverse FA applications, including statistical metrics, set computation, frequency-related applications, database query operations, model-based applications, FL-assisting FA tasks, and other wireless network applications are then carefully reviewed. We complete the survey with several open research issues and future directions. This survey intends to provide a holistic understanding of the emerging FA techniques and foster the continued evolution of privacy-preserving distributed data processing in the emerging networked society.
翻訳日:2024-04-22 15:55:43 公開日:2024-04-19
# 拡散モデルによる外部分布地球観測画像の検出

Detecting Out-Of-Distribution Earth Observation Images with Diffusion Models ( http://arxiv.org/abs/2404.12667v1 )

ライセンス: Link先を確認
Georges Le Bellier, Nicolas Audebert, (参考訳) 地球観測画像は、災害や大きな景観の変化のような稀で珍しい出来事を捉え、その外観は通常の観測と対照的である。 一般的なリモートセンシングデータに基づいてトレーニングされたディープモデルは、トレーニングデータセットに近いものに比べて、これらのアウト・オブ・ディストリビューションサンプルに対して大幅に異なる特徴を出力する。 そのため、それらを検出することで、地理的または環境的な観測の変化を予測できる。 本研究では,拡散モデルの再構成誤差がリモートセンシング画像の教師なしアウト・オブ・ディストリビューション検出器として有効であることを示す。 さらに,拡散モデルの確率フローODEを用いた新しい再構成ベースのスコアラであるODEEDを導入する。 地理的シフトを伴う古典的なOOD検出や,前・後・後・非フロード画像認識などの近OOD設定など,さまざまなシナリオでSpaceNet 8上で実験的に検証する。 我々は,OOD画像が分布尾に近接する洪水画像検出の難易度の高いシナリオに対して,我々のODEEDスコアラが他の拡散ベースおよび識別ベースラインよりも有意に優れていることを示す。 遠隔センシングにおける異常検出のための生成モデルのより良い利用に向けた道を開くことを目的としている。

Earth Observation imagery can capture rare and unusual events, such as disasters and major landscape changes, whose visual appearance contrasts with the usual observations. Deep models trained on common remote sensing data will output drastically different features for these out-of-distribution samples, compared to those closer to their training dataset. Detecting them could therefore help anticipate changes in the observations, either geographical or environmental. In this work, we show that the reconstruction error of diffusion models can effectively serve as unsupervised out-of-distribution detectors for remote sensing images, using them as a plausibility score. Moreover, we introduce ODEED, a novel reconstruction-based scorer using the probability-flow ODE of diffusion models. We validate it experimentally on SpaceNet 8 with various scenarios, such as classical OOD detection with geographical shift and near-OOD setups: pre/post-flood and non-flooded/flooded image recognition. We show that our ODEED scorer significantly outperforms other diffusion-based and discriminative baselines on the more challenging near-OOD scenarios of flood image detection, where OOD images are close to the distribution tail. We aim to pave the way towards better use of generative models for anomaly detection in remote sensing.
翻訳日:2024-04-22 15:55:43 公開日:2024-04-19
# 人間中心のプロアクティブ会話エージェントを目指して

Towards Human-centered Proactive Conversational Agents ( http://arxiv.org/abs/2404.12670v1 )

ライセンス: Link先を確認
Yang Deng, Lizi Liao, Zhonghua Zheng, Grace Hui Yang, Tat-Seng Chua, (参考訳) 近年のPCA(Proactive conversational agent)の研究は,ユーザが要求を明記する前にタスクの達成と目標達成のために行動シーケンスを予測・計画する能力の向上に重点を置いている。 この視点は、技術的能力にのみ焦点をあてるのではなく、人間の要求と期待を重視し、これらのエージェントの倫理的・社会的意味を考慮し、人間中心のPCAを構築することの重要性を強調している。 積極的システムと反応性システムの区別は、積極的システムのイニシアティブな性質にある。 思慮深い設計がなければ、プロアクティブなシステムは人間のユーザーによって侵入的と見なされるリスクがある。 我々は、人間中心のPCA(知性、適応性、市民性)の3つの重要な側面に関する新しい分類法を確立することで、この問題に対処する。 我々は,PCAシステム構築の5段階において,この新分類に基づく潜在的研究の機会と課題について論じる。 本論文は,会話情報検索研究の新たな領域の基礎を築き,人間中心の対話システムへの道を開くものである。

Recent research on proactive conversational agents (PCAs) mainly focuses on improving the system's capabilities in anticipating and planning action sequences to accomplish tasks and achieve goals before users articulate their requests. This perspectives paper highlights the importance of moving towards building human-centered PCAs that emphasize human needs and expectations, and that considers ethical and social implications of these agents, rather than solely focusing on technological capabilities. The distinction between a proactive and a reactive system lies in the proactive system's initiative-taking nature. Without thoughtful design, proactive systems risk being perceived as intrusive by human users. We address the issue by establishing a new taxonomy concerning three key dimensions of human-centered PCAs, namely Intelligence, Adaptivity, and Civility. We discuss potential research opportunities and challenges based on this new taxonomy upon the five stages of PCA system construction. This perspectives paper lays a foundation for the emerging area of conversational information retrieval research and paves the way towards advancing human-centered proactive conversational systems.
翻訳日:2024-04-22 15:55:43 公開日:2024-04-19
# マルチGPUプラットフォームを用いた機械学習学習のためのユニバーサルパフォーマンスモデリング

Towards Universal Performance Modeling for Machine Learning Training on Multi-GPU Platforms ( http://arxiv.org/abs/2404.12674v1 )

ライセンス: Link先を確認
Zhongyi Lin, Ning Sun, Pallab Bhattacharya, Xizhou Feng, Louis Feng, John D. Owens, (参考訳) CPU、GPU、ネットワークデバイスに分散した計算と通信を備えたコンピュータシステム上での現代の機械学習(ML)ワークロードのトレーニングパフォーマンスを特徴づけ、予測することは、最適化と計画の鍵であるだけでなく、達成すべき複雑な目標でもある。 主な課題は、CPUとGPU間の同期とロードバランシングの複雑さ、入力データ分散のばらつき、複数のコンピュータデバイスを接続する異なる通信デバイスとトポロジ(NVLink、PCIe、ネットワークカードなど)の使用、フレキシブルなトレーニング設定の要求などである。 シングルGPUプラットフォームに関するこれまでの作業に基づいて構築され、(1)テーブルルックアップを埋め込むためのデータ分散対応パフォーマンスモデルと(2)コミュニケーション集合のデータ移動予測を、マルチGPUプラットフォーム上でトレーニングされたMLワークロードのインターおよびイントラランク同期を備えた、アップグレードされたパフォーマンスモデリングパイプラインに組み込むことで、これらの課題に対処し、マルチGPUパフォーマンスモデリングを可能にする。 2つのマルチGPUプラットフォーム上で、ジオ平均誤差5.21%のランダムな構成でDLRMモデル毎のトレーニング時間を正確に予測するだけでなく、この予測パイプラインは、トランスフォーマーベースのNLPモデルなど、ジオ平均誤差3.00%の他のタイプのMLワークロードによく当てはまる。 さらに、ハードウェア上でDLRMのようなMLワークロードを実際に実行しなくても、最速の埋め込みテーブルシャーディング構成(成功率85%)を迅速に選択するような洞察を得られる。

Characterizing and predicting the training performance of modern machine learning (ML) workloads on compute systems with compute and communication spread between CPUs, GPUs, and network devices is not only the key to optimization and planning but also a complex goal to achieve. The primary challenges include the complexity of synchronization and load balancing between CPUs and GPUs, the variance in input data distribution, and the use of different communication devices and topologies (e.g., NVLink, PCIe, network cards) that connect multiple compute devices, coupled with the desire for flexible training configurations. Built on top of our prior work for single-GPU platforms, we address these challenges and enable multi-GPU performance modeling by incorporating (1) data-distribution-aware performance models for embedding table lookup, and (2) data movement prediction of communication collectives, into our upgraded performance modeling pipeline equipped with inter-and intra-rank synchronization for ML workloads trained on multi-GPU platforms. Beyond accurately predicting the per-iteration training time of DLRM models with random configurations with a geomean error of 5.21% on two multi-GPU platforms, our prediction pipeline generalizes well to other types of ML workloads, such as Transformer-based NLP models with a geomean error of 3.00%. Moreover, even without actually running ML workloads like DLRMs on the hardware, it is capable of generating insights such as quickly selecting the fastest embedding table sharding configuration (with a success rate of 85%).
翻訳日:2024-04-22 15:55:43 公開日:2024-04-19
# ESPM-D:ARM Cortex-M4およびApple M2上でのジリシウムの効率的なスパース多項式乗算

ESPM-D: Efficient Sparse Polynomial Multiplication for Dilithium on ARM Cortex-M4 and Apple M2 ( http://arxiv.org/abs/2404.12675v1 )

ライセンス: Link先を確認
Jieyu Zheng, Hong Zhang, Le Tian, Zhuo Zhang, Hanyu Wei, Zhiwei Chu, Yafang Yang, Yunlei Zhao, (参考訳) Dilithiumは、NISTポスト量子暗号(PQC)プロジェクトによって標準化された格子ベースのデジタル署名スキームである。 本研究では,ARM アーキテクチャをベースとした ARM Cortex-M4 と Apple M2 用の Dilithium の効率的な疎多項式乗算実装の開発に焦点をあてる。 ARM Cortex-M4は、センサーなどのリソース制限されたデバイスで一般的に使用される。 逆に、Apple M2はモバイルデバイスで一般的に見られ、高性能と汎用性を強調している。 したがって、最適化戦略はARM Cortex-M4とApple M2で異なります。 計算効率を向上しつつ,前者に対してスタック使用率の最適化を優先する。 最適化されたスパース多項式乗算は、最先端のNumber-theoretic Transform(NTT)実装と比較して、ARM Cortex-M4で最大30%、Apple M2で55%の大幅な高速化を実現している。 さらに、このスパース多項式乗法をディリシウム署名プロセスにおける無限ノルム判定と統合し、さらに署名効率を向上する。 最適化された実装は,Dilithium2,Dilithium3,Dilithium5の署名手順において,スタック使用率を10.8%,1.2%,7.7%削減するだけでなく,最先端のARM Cortex-M4実装と比較して,署名性能を0.4%から0.8%向上させる。 さらに、ARM Cortex-M4 DSP命令を用いて、多項式サンプリング、丸み関数、および多項式パッケージングを最適化し、鍵生成および検証手順を0.4%-3.2%改善する。 MacBook Air 2022では、Dilithiumの実装は署名手順で10%から11%のスピードアップを実現しています。 我々の知る限りでは、私たちの研究はARM Cortex-M4とApple M2プラットフォームの両方で、Dilithiumの新たなパフォーマンス記録を設定しています。

Dilithium is a lattice-based digital signature scheme standardized by the NIST post-quantum cryptography (PQC) project. In this study, we focus on developing efficient sparse polynomial multiplication implementations of Dilithium for ARM Cortex-M4 and Apple M2, which are both based on the ARM architecture. The ARM Cortex-M4 is commonly utilized in resource-constrained devices such as sensors. Conversely, the Apple M2 is typically found on mobile devices, emphasizing high performance and versatility. Accordingly, our optimization strategies differ between ARM Cortex-M4 and Apple M2. We prioritize optimizing stack usage for the former while enhancing computational efficiency for the latter. Our optimized sparse polynomial multiplication achieves significant speedups of up to 30% on ARM Cortex-M4 and 55% on Apple M2 compared to the state-of-the-art Number-Theoretic Transform (NTT) implementation. Additionally, we integrate the sparse polynomial multiplication with the infinity norm judgments in the Dilithium signing process, further enhancing signing efficiency. Our optimized implementation not only reduces stack usage by 10.8%, 1.2%, and 7.7% in the signing procedure of Dilithium2, Dilithium3, and Dilithium5, respectively, but also enhances signing performance by 0.4% to 0.8% compared to the state-of-the-art ARM Cortex-M4 implementation. Furthermore, we optimize polynomial sampling, rounding functions, and polynomial packing and unpacking using ARM Cortex-M4 DSP instructions, resulting in a 0.4%-3.2% improvement in key generation and verification procedures. On the MacBook Air 2022, our Dilithium implementation achieves 10% to 11% speedups in the signing procedure. To the best of our knowledge, our work sets new performance records for Dilithium on both ARM Cortex-M4 and Apple M2 platforms.
翻訳日:2024-04-22 15:55:43 公開日:2024-04-19
# 暗黒および明るい状態による部分空間内の粒子の検出要因

Deciding factor for detecting a particle within a subspace via dark and bright states ( http://arxiv.org/abs/2404.12677v1 )

ライセンス: Link先を確認
Aashay Pandharpatte, Pritam Halder, Aditi Sen De, (参考訳) 測定による連続時間量子ウォークでは、固定位置ではなく、部分空間内の粒子を検出するという問題に対処する。 この構成では、サブ空間における粒子検出のために、単位と検出確率に基づいて、明るい状態と暗い状態のアプローチを開発する。 具体的には、ランク-零性定理を用いて、量子ウォークに使用されるハミルトニアンのエネルギースペクトルと、部分空間を検出するための射影子の観点から、暗黒状態と明るい状態のいくつかの性質を決定する。 検出すべき部分空間の位置とランクについて一定の条件を提供し、量子コンピューティングに幅広い影響を及ぼす単位全体の検出確率を与える。 さらに、近辺と次隣のホッピングを持つ巡回グラフを考慮し、暗黒状態と明るい状態の形式と、暗黒状態の数に対する検出確率の依存性について説明する。 さらに, 高階プロジェクタを施すことにより, サブスペース内で粒子の検出に成功し, 測定値の平均値のばらつきを低減できることを示した。

In a measurement-induced continuous-time quantum walk, we address the problem of detecting a particle in a subspace, instead of a fixed position. In this configuration, we develop an approach of bright and dark states based on the unit and vanishing detection probability respectively for a particle-detection in the subspace. Specifically, by employing the rank-nullity theorem, we determine several properties of dark and bright states in terms of energy spectrum of the Hamiltonian used for a quantum walk and the projectors applied to detect the subspace. We provide certain conditions on the position and the rank of the subspace to be detected, resulting in the unit total detection probability, which has broad implications for quantum computing. Further, we illustrate the forms of dark as well as bright states and the dependence of detection probability on the number of dark states by considering a cyclic graph with nearest-neighbor and next nearest-neighbor hopping. Moreover, we observe that the divergence in the average number of measurements for detecting a particle successfully in a subspace can be reduced by performing high rank projectors.
翻訳日:2024-04-22 15:55:43 公開日:2024-04-19
# 視覚言語モデルを用いた効果的なHOI検出のための対話型セマンティックアライメントの探索

Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model ( http://arxiv.org/abs/2404.12678v1 )

ライセンス: Link先を確認
Jihao Dong, Renjie Pan, Hua Yang, (参考訳) 人間-物体相互作用(Human-Object Interaction、HOI)は、対象対を局所化し、その相互作用を理解することを目的としている。 近年,二段変圧器を用いた手法が競争性能を実証している。 しかし,これらの手法はしばしばオブジェクトの外観に焦点を合わせ,グローバルな文脈情報を無視する。 さらに、視覚とテキストの埋め込みを効果的に整合させる視覚言語モデルCLIPは、ゼロショットHOI検出において大きな可能性を示している。 従来の事実に基づいて,CLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる新しいHOI検出器ISA-HOIを導入する。 まず、画像中のインタラクション機能を改善するために、画像のグローバルなコンテキストとオブジェクトの局所的な特徴を抽出する。 一方,動詞ラベルのテキスト的特徴をクロスモーダル融合により拡張するVerb Semantic Improvement (VSI) モジュールを提案する。 最終的に, HICO-DETとV-COCOのベンチマークにおいて, トレーニングのエポックスを大幅に減らし, ゼロショット環境での最先端性能を向上する。

Human-Object Interaction (HOI) detection aims to localize human-object pairs and comprehend their interactions. Recently, two-stage transformer-based methods have demonstrated competitive performance. However, these methods frequently focus on object appearance features and ignore global contextual information. Besides, vision-language model CLIP which effectively aligns visual and text embeddings has shown great potential in zero-shot HOI detection. Based on the former facts, We introduce a novel HOI detector named ISA-HOI, which extensively leverages knowledge from CLIP, aligning interactive semantics between visual and textual features. We first extract global context of image and local features of object to Improve interaction Features in images (IF). On the other hand, we propose a Verb Semantic Improvement (VSI) module to enhance textual features of verb labels via cross-modal fusion. Ultimately, our method achieves competitive results on the HICO-DET and V-COCO benchmarks with much fewer training epochs, and outperforms the state-of-the-art under zero-shot settings.
翻訳日:2024-04-22 15:55:43 公開日:2024-04-19
# MLSD-GAN --潜伏セマンティックアンタングルを用いた高画質顔モフリング攻撃の発生

MLSD-GAN -- Generating Strong High Quality Face Morphing Attacks using Latent Semantic Disentanglement ( http://arxiv.org/abs/2404.12679v1 )

ライセンス: Link先を確認
Aravinda Reddy PN, Raghavendra Ramachandra, Krothapalli Sreenivasa Rao, Pabitra Mitra, (参考訳) 顔認識システム(FRS)を騙すために使用できるため、生体認証研究者にとって顔変形攻撃はますます懸念される。 これらの攻撃は、イメージレベル(教師なし)または表現レベル(教師なし)で発生することができる。 従来、教師なしのモルヒネ攻撃はGAN(Generative Adversarial Network)に依存していた。 最近では、StyleGANで符号化された画像の線形補間を利用して、モーフィング攻撃を発生させている。 本稿では,StyleGANのアンタングルを用いた高品質なモーフィング攻撃生成手法を提案する。 MLSD-GANと呼ばれる我々のアプローチは、非絡み合った潜伏剤を球形で補間し、現実的で多様なモルヒネ攻撃を発生させる。 MLSD-GANの脆弱性を深層学習に基づく2つのFRS手法で評価した。 その結果、MLSD-GANは、これらのシステムを騙すのに非常に効果的であるモルヒネ攻撃を発生させるため、FRSに重大な脅威をもたらすことが明らかとなった。

Face-morphing attacks are a growing concern for biometric researchers, as they can be used to fool face recognition systems (FRS). These attacks can be generated at the image level (supervised) or representation level (unsupervised). Previous unsupervised morphing attacks have relied on generative adversarial networks (GANs). More recently, researchers have used linear interpolation of StyleGAN-encoded images to generate morphing attacks. In this paper, we propose a new method for generating high-quality morphing attacks using StyleGAN disentanglement. Our approach, called MLSD-GAN, spherically interpolates the disentangled latents to produce realistic and diverse morphing attacks. We evaluate the vulnerability of MLSD-GAN on two deep-learning-based FRS techniques. The results show that MLSD-GAN poses a significant threat to FRS, as it can generate morphing attacks that are highly effective at fooling these systems.
翻訳日:2024-04-22 15:55:43 公開日:2024-04-19
# VoxAtnNet: 汎用顔提示検出のための3Dポイント雲畳み込みニューラルネットワーク

VoxAtnNet: A 3D Point Clouds Convolutional Neural Network for Generalizable Face Presentation Attack Detection ( http://arxiv.org/abs/2404.12680v1 )

ライセンス: Link先を確認
Raghavendra Ramachandra, Narayan Vetrekar, Sushma Venkatesh, Savita Nageshker, Jag Mohan Singh, R. S. Gad, (参考訳) 顔認証はスマートフォンの信頼性と信頼性を確保するための重要な要素である。 しかし、顔バイオメトリックシステムはプレゼンテーションアタック(PA)に対して脆弱であり、3Dシリコンフェイスマスクのようなより洗練されたプレゼンテーションアタック機器を使用することで、攻撃者は顔認識システムを簡単に騙すことができる。 本研究では,スマートフォンの前面カメラを用いて捉えた3次元点群に基づくプレゼンテーション攻撃検出(PAD)アルゴリズムを提案する。 提案したPADアルゴリズムであるVoxAtnNetは、空間構造を保存するために3次元点雲を処理する。 そして、新しいコンボリューションアテンションネットワークを用いて3Dサンプルを訓練し、スマートフォン上でPAを検出する。 ボナファイドと2つの異なる3次元PAI(3Dシリコーンフェイスマスクとラップフォトマスク)からなる新たに構築した3Dフェイスポイントクラウドデータセットに対して、大規模な実験を行い、3480のサンプルを得た。 提案手法の性能を3つの異なる評価プロトコルを用いて検出性能をベンチマークする既存手法と比較した。 実験により,顔の提示攻撃と顔の提示攻撃の両方を検知する手法の有効性が示された。

Facial biometrics are an essential components of smartphones to ensure reliable and trustworthy authentication. However, face biometric systems are vulnerable to Presentation Attacks (PAs), and the availability of more sophisticated presentation attack instruments such as 3D silicone face masks will allow attackers to deceive face recognition systems easily. In this work, we propose a novel Presentation Attack Detection (PAD) algorithm based on 3D point clouds captured using the frontal camera of a smartphone to detect presentation attacks. The proposed PAD algorithm, VoxAtnNet, processes 3D point clouds to obtain voxelization to preserve the spatial structure. Then, the voxelized 3D samples were trained using the novel convolutional attention network to detect PAs on the smartphone. Extensive experiments were carried out on the newly constructed 3D face point cloud dataset comprising bona fide and two different 3D PAIs (3D silicone face mask and wrap photo mask), resulting in 3480 samples. The performance of the proposed method was compared with existing methods to benchmark the detection performance using three different evaluation protocols. The experimental results demonstrate the improved performance of the proposed method in detecting both known and unknown face presentation attacks.
翻訳日:2024-04-22 15:55:43 公開日:2024-04-19
# LLMはコンピュータネットワークを理解できるか? -仮想システム管理者を目指して-

Can LLMs Understand Computer Networks? Towards a Virtual System Administrator ( http://arxiv.org/abs/2404.12689v1 )

ライセンス: Link先を確認
Denis Donadel, Francesco Marchiori, Luca Pajola, Mauro Conti, (参考訳) 人工知能の最近の進歩、特にLarge Language Models (LLMs)は、現代のネットワークの複雑さを管理するシステム管理者を支援するための有望な見通しを提供する。 しかし、この可能性にもかかわらず、LLMがコンピュータネットワークを理解できる範囲に関する文献には大きなギャップがある。 実証的な証拠がなければ、システム管理者はネットワーク関連のタスクを正確に実行する上での有効性を保証することなく、これらのモデルに依存するかもしれない。 本稿では,LLMのコンピュータネットワーク理解に関する総合的研究を初めて行った。 ネットワークトポロジとそれに関する質問に対して、LLMが正しい回答を提供できるかどうかを決定するために、いくつかの研究質問を定式化する。 評価のために,様々なネットワーク関連タスクにおいてLLMの能力を評価するための網羅的なフレームワークを開発した。 我々は,プライベート (eg , GPT4) とオープンソース (eg , Llama2) モデルを用いたマルチコンピュータネットワーク上でのフレームワークの評価を行った。 その結果, 平均精度は79.3%であり, 有望な結果が得られた。 プライベートLLMは、特にオープンソースモデルにおいて、複雑なネットワークトポロジの解釈において課題が持続する一方で、中小のネットワークにおいて注目すべき結果を得る。 さらに,いくつかのタスクの精度を高めるために,迅速なエンジニアリングを行う方法についての知見を提供する。

Recent advancements in Artificial Intelligence, and particularly Large Language Models (LLMs), offer promising prospects for aiding system administrators in managing the complexity of modern networks. However, despite this potential, a significant gap exists in the literature regarding the extent to which LLMs can understand computer networks. Without empirical evidence, system administrators might rely on these models without assurance of their efficacy in performing network-related tasks accurately. In this paper, we are the first to conduct an exhaustive study on LLMs' comprehension of computer networks. We formulate several research questions to determine whether LLMs can provide correct answers when supplied with a network topology and questions on it. To assess them, we developed a thorough framework for evaluating LLMs' capabilities in various network-related tasks. We evaluate our framework on multiple computer networks employing private (e.g., GPT4) and open-source (e.g., Llama2) models. Our findings demonstrate promising results, with the best model achieving an average accuracy of 79.3%. Private LLMs achieve noteworthy results in small and medium networks, while challenges persist in comprehending complex network topologies, particularly for open-source models. Moreover, we provide insight into how prompt engineering can enhance the accuracy of some tasks.
翻訳日:2024-04-22 15:55:43 公開日:2024-04-19
# データ認証、Consent、そしてAIの保証はすべて壊れている。

Data Authenticity, Consent, & Provenance for AI are all broken: what will it take to fix them? ( http://arxiv.org/abs/2404.12691v1 )

ライセンス: Link先を確認
Shayne Longpre, Robert Mahari, Naana Obeng-Marnu, William Brannon, Tobin South, Katy Gero, Sandy Pentland, Jad Kabbara, (参考訳) 基礎モデルの新機能は、大部分が大規模で、広くオープンソース化され、文書化されていないトレーニングデータ収集に負っている。 データ収集における既存のプラクティスは、データの透明性の文書化、信頼性のトレース、同意の検証、プライバシー、表現、バイアス、著作権侵害、倫理的かつ信頼できる基礎モデルの全体的開発といった課題を引き起こしている。 これに応えて、規制は基礎モデルの制限を理解するためにデータの透明性を訓練する必要性を強調している。 基礎モデルトレーニングデータランドスケープと既存のソリューションを大規模に分析した結果,基盤モデル開発に責任を負う上で欠落するインフラストラクチャを特定した。 我々は、データの信頼性、同意、ドキュメントをトレースする一般的なツールの現在の欠点について検討し、政策立案者、開発者、データ作成者が、普遍的なデータ証明標準を採用することにより、責任ある基礎モデル開発を促進する方法について概説する。

New capabilities in foundation models are owed in large part to massive, widely-sourced, and under-documented training data collections. Existing practices in data collection have led to challenges in documenting data transparency, tracing authenticity, verifying consent, privacy, representation, bias, copyright infringement, and the overall development of ethical and trustworthy foundation models. In response, regulation is emphasizing the need for training data transparency to understand foundation models' limitations. Based on a large-scale analysis of the foundation model training data landscape and existing solutions, we identify the missing infrastructure to facilitate responsible foundation model development practices. We examine the current shortcomings of common tools for tracing data authenticity, consent, and documentation, and outline how policymakers, developers, and data creators can facilitate responsible foundation model development by adopting universal data provenance standards.
翻訳日:2024-04-22 15:55:43 公開日:2024-04-19
# 形成木を用いた漢字表現の改善

Improving Chinese Character Representation with Formation Tree ( http://arxiv.org/abs/2404.12693v1 )

ライセンス: Link先を確認
Yang Hong, Yinfei Li, Xiaojun Qiao, Rui Li, Junsong Zhang, (参考訳) 漢字の効果的な表現を学習することは、主に多数の文字とその連続的な成長のために、拡大する圏空間を扱うモデルを必要とする、ユニークな課題を提示する。 さらに、文字使用の本質的にの空間性は、学習された表現の一般化を複雑にしている。 これまでの研究では、これらの問題を克服するために急進的なシーケンスを探索し、目に見えない文字を認識する進歩を達成してきた。 しかし、これらのアプローチはそのようなシーケンスの固有のツリー構造を完全に活用することができない。 これらの制約に対処し、確立されたデータ特性を活用するために、フォーメーションツリーCLIP(FT-CLIP)を提案する。 このモデルは,文字表現にフォーメーションツリーを使用し,専用のツリーエンコーダを組み込むことで,文字認識タスクと未知の文字認識タスクの両方のパフォーマンスを著しく向上させる。 さらに、文字画像とツリーノードの両方にマスキングを導入し、効率的かつ効果的なトレーニングを可能にした。 このアプローチは、正確性を高めながら、トレーニングを著しく(2以上)加速する。 集約的な実験により、生成木による文字の処理は直接逐次法よりも特性に整合し、表現の汎用性とユーザビリティを著しく向上させることが示された。

Learning effective representations for Chinese characters presents unique challenges, primarily due to the vast number of characters and their continuous growth, which requires models to handle an expanding category space. Additionally, the inherent sparsity of character usage complicates the generalization of learned representations. Prior research has explored radical-based sequences to overcome these issues, achieving progress in recognizing unseen characters. However, these approaches fail to fully exploit the inherent tree structure of such sequences. To address these limitations and leverage established data properties, we propose Formation Tree-CLIP (FT-CLIP). This model utilizes formation trees to represent characters and incorporates a dedicated tree encoder, significantly improving performance in both seen and unseen character recognition tasks. We further introduce masking for to both character images and tree nodes, enabling efficient and effective training. This approach accelerates training significantly (by a factor of 2 or more) while enhancing accuracy. Extensive experiments show that processing characters through formation trees aligns better with their inherent properties than direct sequential methods, significantly enhancing the generality and usability of the representations.
翻訳日:2024-04-22 15:55:43 公開日:2024-04-19
# ESC:野生の進化的ステッチカメラキャリブレーション

ESC: Evolutionary Stitched Camera Calibration in the Wild ( http://arxiv.org/abs/2404.12694v1 )

ライセンス: Link先を確認
Grzegorz Rypeść, Grzegorz Kurzejamski, (参考訳) 本研究は,実生活スポーツ場でのマルチカメラ設定において,カメラの外部パラメータを推定するための,新しいエンドツーエンドアプローチを提案する。 マルチカメラ環境におけるキャリブレーション誤差の発生源を特定し,既存のキャリブレーション手法の限界,特に理論モデルと実際のスポーツフィールド特性の相違に対処する。 本稿では,このギャップを埋めるために,進化ステッチカメラキャリブレーション(ESC)アルゴリズムを提案する。 画像のセグメンテーションに続いて、新しい損失関数の進化的最適化を行い、視覚的忠実度の高い統一的で正確なマルチカメラキャリブレーションソリューションを提供する。 その結果、複数のビデオソースから仮想縫合ビューを作成することができ、数値的精度と同じくらい実用的にも重要である。 実生活における多種多様なサッカー場にまたがる最先端の手法と比較して,本手法の優れた性能を示す。

This work introduces a novel end-to-end approach for estimating extrinsic parameters of cameras in multi-camera setups on real-life sports fields. We identify the source of significant calibration errors in multi-camera environments and address the limitations of existing calibration methods, particularly the disparity between theoretical models and actual sports field characteristics. We propose the Evolutionary Stitched Camera calibration (ESC) algorithm to bridge this gap. It consists of image segmentation followed by evolutionary optimization of a novel loss function, providing a unified and accurate multi-camera calibration solution with high visual fidelity. The outcome allows the creation of virtual stitched views from multiple video sources, being as important for practical applications as numerical accuracy. We demonstrate the superior performance of our approach compared to state-of-the-art methods across diverse real-life football fields with varying physical characteristics.
翻訳日:2024-04-22 15:55:43 公開日:2024-04-19
# 非常にリッチな記号的意味表現を用いたニューラルセマンティックパーシング

Neural Semantic Parsing with Extremely Rich Symbolic Meaning Representations ( http://arxiv.org/abs/2404.12698v1 )

ライセンス: Link先を確認
Xiao Zhang, Gosse Bouma, Johan Bos, (参考訳) 現在のオープンドメイン・ニューラルセマンティックス・パーサーは素晴らしい性能を示している。 しかし、それらが生成する記号的意味表現の綿密な検査は、重要な弱点を明らかにしている: トレーニング分布に基づく最も頻繁な単語感覚にデフォルトを付けて、ソーステキストから文字シーケンスを単にコピーしてシンボル的概念を形成する傾向がある。 語彙オントロジーの階層構造を活用することで、分類学的階層におけるその位置に基づく概念に対する新しい構成記号表現を導入する。 この表現はよりリッチな意味情報を提供し、解釈可能性を高める。 本稿では,従来の意味表現形式を訓練した標準的な神経意味解析システムと比較し,新しい課題セットと評価基準を用いて評価を行う。 実験結果から,より豊かで複雑な意味表現に基づいて訓練された分類モデルは,評価基準を用いて従来のモデルに若干従属するが,語彙外概念を扱う場合よりも優れることがわかった。 この発見は、データ駆動の分布の意味と知識に基づく記号表現を組み合わせることを目的とした、計算意味論の研究を奨励している。

Current open-domain neural semantics parsers show impressive performance. However, closer inspection of the symbolic meaning representations they produce reveals significant weaknesses: sometimes they tend to merely copy character sequences from the source text to form symbolic concepts, defaulting to the most frequent word sense based in the training distribution. By leveraging the hierarchical structure of a lexical ontology, we introduce a novel compositional symbolic representation for concepts based on their position in the taxonomical hierarchy. This representation provides richer semantic information and enhances interpretability. We introduce a neural "taxonomical" semantic parser to utilize this new representation system of predicates, and compare it with a standard neural semantic parser trained on the traditional meaning representation format, employing a novel challenge set and evaluation metric for evaluation. Our experimental findings demonstrate that the taxonomical model, trained on much richer and complex meaning representations, is slightly subordinate in performance to the traditional model using the standard metrics for evaluation, but outperforms it when dealing with out-of-vocabulary concepts. This finding is encouraging for research in computational semantics that aims to combine data-driven distributional meanings with knowledge-based symbolic representations.
翻訳日:2024-04-22 15:55:43 公開日:2024-04-19
# SOPHON: 事前訓練モデルに対するタスク伝達性抑制のための非Fine-Tunable Learning

SOPHON: Non-Fine-Tunable Learning to Restrain Task Transferability For Pre-trained Models ( http://arxiv.org/abs/2404.12699v1 )

ライセンス: Link先を確認
Jiangyi Deng, Shengyuan Pang, Yanjiao Chen, Liangming Xia, Yijie Bai, Haiqin Weng, Wenyuan Xu, (参考訳) 開発者は、スクラッチからディープラーニングモデルを構築する代わりに、トレーニング済みのモデルをカスタマイズされたタスクに適応することにますます依存しています。 しかし、強力な事前訓練されたモデルは、例えばプライバシー推論や安全でないコンテンツ生成など、非倫理的または違法なタスクに誤用される可能性がある。 本稿では,学習の先駆的パラダイムであるNon-fine-tunable Learningを導入し,事前学習されたモデルが,本来のタスクの性能を維持しつつ,不適切なタスクに微調整されることを防止する。 この目的を達成するために、予め定義された制限ドメインで微調整されたことに抵抗する、与えられた事前学習モデルを強化する保護フレームワークSOPHONを提案する。 それでも、敵に採用されるかもしれない複雑な微調整戦略の多様性のため、これは難しい。 モデルに依存しないメタラーニングにインスパイアされた我々は、洗練された微調整シミュレーションと微調整評価アルゴリズムを設計することで、この難しさを克服する。 さらに,制約領域に関する局所最適化の難易度内で,事前学習したモデルを取り込むための最適化プロセスを慎重に設計する。 我々は、SOPHONの有効性を検証するために、2つのディープラーニングモード(分類と生成)、7つの制限されたドメイン、6つのモデルアーキテクチャについて広範な実験を行った。 実験結果は、微調整SOPHONで保護されたモデルが、スクラッチからのトレーニングに匹敵する、あるいはそれ以上のオーバーヘッドを引き起こすことを検証した。 さらに,SOPHONの堅牢性を3つの微調整方法,5つのオプティマイザ,各種学習率,バッチサイズに検証する。 SOPHONは、安全で責任のあるAIに関するさらなる調査を促進するのに役立つかもしれない。

Instead of building deep learning models from scratch, developers are more and more relying on adapting pre-trained models to their customized tasks. However, powerful pre-trained models may be misused for unethical or illegal tasks, e.g., privacy inference and unsafe content generation. In this paper, we introduce a pioneering learning paradigm, non-fine-tunable learning, which prevents the pre-trained model from being fine-tuned to indecent tasks while preserving its performance on the original task. To fulfill this goal, we propose SOPHON, a protection framework that reinforces a given pre-trained model to be resistant to being fine-tuned in pre-defined restricted domains. Nonetheless, this is challenging due to a diversity of complicated fine-tuning strategies that may be adopted by adversaries. Inspired by model-agnostic meta-learning, we overcome this difficulty by designing sophisticated fine-tuning simulation and fine-tuning evaluation algorithms. In addition, we carefully design the optimization process to entrap the pre-trained model within a hard-to-escape local optimum regarding restricted domains. We have conducted extensive experiments on two deep learning modes (classification and generation), seven restricted domains, and six model architectures to verify the effectiveness of SOPHON. Experiment results verify that fine-tuning SOPHON-protected models incurs an overhead comparable to or even greater than training from scratch. Furthermore, we confirm the robustness of SOPHON to three fine-tuning methods, five optimizers, various learning rates and batch sizes. SOPHON may help boost further investigations into safe and responsible AI.
翻訳日:2024-04-22 15:45:58 公開日:2024-04-19
# 舗装き裂検出のための多粒度コンテキスト情報流のモデル化

Modeling Multi-Granularity Context Information Flow for Pavement Crack Detection ( http://arxiv.org/abs/2404.12702v1 )

ライセンス: Link先を確認
Junbiao Pang, Baocheng Xiong, Jiaqi Wu, (参考訳) ひび割れ検出はコンピュータビジョンコミュニティでは不可欠で、興味深いが難しい課題となっている。 特に、舗装き裂は、非常に複雑な空間構造、低コントラスト背景、弱い空間連続性を持ち、効率的なき裂検出法に重大な課題を生んでいる。 本稿では, ひび割れの文脈を利用する視点からこれらの問題に対処し, 文脈情報の流れをモデル化するエンド・ツー・エンドのディープラーニング手法を提案する。 画像からき裂を正確に局所化するためには、き裂周辺のき裂(空間レベルで)と粗いき裂(セグメントレベルで)を含む多粒度コンテキストを効果的に抽出し集約することが重要である。 具体的には、畳み込みニューラルネットワーク(CNN)では、浅い層によって抽出された低レベル特徴が局所情報を表し、深い層が意味的特徴を抽出する。 さらに、この作業における2つ目の大きな洞察は、セマンティックコンテキストがローカルコンテキスト機能へのガイダンスであるべきだということです。 以上の知見により,提案手法はまず,拡張畳み込みを局所的コンテキストをモデル化するためのバックボーン特徴抽出器として適用し,その後,意味的コンテキストを活用するコンテキスト誘導モジュールを構築し,複数の段階における局所的特徴抽出を誘導する。 ステージ間のラベルアライメントを扱うために、MIL(Multiple Instance Learning)戦略を適用し、ステージ単位のコンテキストフローにおいて、高レベルの特徴と低レベルの特徴とを整合させる。 さらに、これらの公開クラックデータセットと比較して、私たちの知る限り、最大の、最も複雑で、最も難しいBitumen Pavement Crack(BPC)データセットをリリースしています。 3つのひび割れデータセットの実験結果から,提案手法の動作は良好であり,最先端の手法よりも優れていることが示された。

Crack detection has become an indispensable, interesting yet challenging task in the computer vision community. Specially, pavement cracks have a highly complex spatial structure, a low contrasting background and a weak spatial continuity, posing a significant challenge to an effective crack detection method. In this paper, we address these problems from a view that utilizes contexts of the cracks and propose an end-to-end deep learning method to model the context information flow. To precisely localize crack from an image, it is critical to effectively extract and aggregate multi-granularity context, including the fine-grained local context around the cracks (in spatial-level) and the coarse-grained semantics (in segment-level). Concretely, in Convolutional Neural Network (CNN), low-level features extracted by the shallow layers represent the local information, while the deep layers extract the semantic features. Additionally, a second main insight in this work is that the semantic context should be an guidance to local context feature. By the above insights, the proposed method we first apply the dilated convolution as the backbone feature extractor to model local context, then we build a context guidance module to leverage semantic context to guide local feature extraction at multiple stages. To handle label alignment between stages, we apply the Multiple Instance Learning (MIL) strategy to align the high-level feature to the low-level ones in the stage-wise context flow. In addition, compared with these public crack datasets, to our best knowledge, we release the largest, most complex and most challenging Bitumen Pavement Crack (BPC) dataset. The experimental results on the three crack datasets demonstrate that the proposed method performs well and outperforms the current state-of-the-art methods.
翻訳日:2024-04-22 15:45:58 公開日:2024-04-19
# ラベルを付与したグラフ畳み込みネットワークに対するクリーングラフバックドアアタック

A Clean-graph Backdoor Attack against Graph Convolutional Networks with Poisoned Label Only ( http://arxiv.org/abs/2404.12704v1 )

ライセンス: Link先を確認
Jiazhu Dai, Haoyu Sun, (参考訳) グラフ畳み込みネットワーク(GCN)は、ノード分類、グラフ分類、その他のタスクなど、さまざまなグラフ構造を扱う上で優れた性能を示している。 しかし近年の研究では、GCNはバックドア攻撃と呼ばれる新たな脅威に弱いことが示されている。 しかし、グラフ領域における既存のすべてのバックドア攻撃は、バックドアインジェクションを達成するためにトレーニングサンプルを変更する必要があるが、多くの現実的なシナリオでは、敵がトレーニングサンプルを変更できないため、バックドアアタックが容易に検出される可能性がある。 本稿では,GCNのバックドア脆弱性を探究し,より実用的でステルス性の高いバックドア攻撃手法を提案する。 具体的には、CBAGは、攻撃性能を改善するためのトリガーパターンとして重要な特徴次元を見つけるために、新たなトリガー探索法を設計する。 トレーニングラベルを汚染することにより、隠れたバックドアがGCNsモデルに注入される。 実験結果から,我々のクリーングラフバックドアは,GCNsモデルの機能を維持しつつ,99%の攻撃成功率を達成できることがわかった。

Graph Convolutional Networks (GCNs) have shown excellent performance in dealing with various graph structures such as node classification, graph classification and other tasks. However,recent studies have shown that GCNs are vulnerable to a novel threat known as backdoor attacks. However, all existing backdoor attacks in the graph domain require modifying the training samples to accomplish the backdoor injection, which may not be practical in many realistic scenarios where adversaries have no access to modify the training samples and may leads to the backdoor attack being detected easily. In order to explore the backdoor vulnerability of GCNs and create a more practical and stealthy backdoor attack method, this paper proposes a clean-graph backdoor attack against GCNs (CBAG) in the node classification task,which only poisons the training labels without any modification to the training samples, revealing that GCNs have this security vulnerability. Specifically, CBAG designs a new trigger exploration method to find important feature dimensions as the trigger patterns to improve the attack performance. By poisoning the training labels, a hidden backdoor is injected into the GCNs model. Experimental results show that our clean graph backdoor can achieve 99% attack success rate while maintaining the functionality of the GCNs model on benign samples.
翻訳日:2024-04-22 15:45:58 公開日:2024-04-19
# 平衡ホモダイン測定について -波動関数崩壊の簡単な証明-

On balanced homodyne measurement -- simple proof of wave function collapse ( http://arxiv.org/abs/2404.12706v1 )

ライセンス: Link先を確認
Erwin Brüning, Shigeaki Nagamachi, (参考訳) 基本計算のみを用いて、平衡ホモダイン検出器が信号の二次位相振幅を測定することを証明した。 より正確には、光子数$l$の測定の後、強いレーザービームと信号の合成状態の崩壊は、固有値$r$の二次位相振幅の固有状態への信号の崩壊を近似する。

Using only elementary calculus we prove that the balanced homodyne detector measures the quadrature phase amplitude of a signal. More precisely, after the measurement of photon numbers $l$, the collapse of the composite state of a strong laser beam and a signal approximates the collapse of the signal to the eigen-state of quadrature phase amplitude with eigen-value $r$.
翻訳日:2024-04-22 15:45:58 公開日:2024-04-19
# FedMeS: ローカルメモリを活用する個人化フェデレーション継続的学習

FedMeS: Personalized Federated Continual Learning Leveraging Local Memory ( http://arxiv.org/abs/2404.12710v1 )

ライセンス: Link先を確認
Jin Xie, Chenqing Zhu, Songze Li, (参考訳) 我々は、パーソナライズド・フェデレートされた連続学習(PFCL: Personalized Federated Continual Learning: PFCL): 分散クライアントのグループで、それぞれに任意のデータ分散上のローカルタスクのシーケンスがあり、中央サーバを介して協調して各クライアントでパーソナライズされたモデルをトレーニングし、すべてのローカルタスクで優れたパフォーマンスを達成することが期待されている。 本稿では,Federated Memory Strengthening FedMeSという新しいPFCLフレームワークを提案する。 FedMeSでは、各クライアントは、少量のローカルメモリを使用して、前のタスクからのサンプルを格納し、この情報を両方に活用する。 1)訓練過程における勾配更新の校正,及び 2) パーソナライズを容易にするためにKNNに基づくガウス推論を行う。 FedMeSは、すべてのタスクからのサンプルに同じ推論プロセスを適用して、優れたパフォーマンスを実現するように、タスク公開として設計されている。 FedMeSは理論的に分析され、実験的に評価される。 データセット、タスク分布、クライアント番号の様々な組み合わせに対して、平均的な正確さと忘れる速度で、すべてのベースラインを上回ります。

We focus on the problem of Personalized Federated Continual Learning (PFCL): a group of distributed clients, each with a sequence of local tasks on arbitrary data distributions, collaborate through a central server to train a personalized model at each client, with the model expected to achieve good performance on all local tasks. We propose a novel PFCL framework called Federated Memory Strengthening FedMeS to address the challenges of client drift and catastrophic forgetting. In FedMeS, each client stores samples from previous tasks using a small amount of local memory, and leverages this information to both 1) calibrate gradient updates in training process; and 2) perform KNN-based Gaussian inference to facilitate personalization. FedMeS is designed to be task-oblivious, such that the same inference process is applied to samples from all tasks to achieve good performance. FedMeS is analyzed theoretically and evaluated experimentally. It is shown to outperform all baselines in average accuracy and forgetting rate, over various combinations of datasets, task distributions, and client numbers.
翻訳日:2024-04-22 15:45:58 公開日:2024-04-19
# 動的温度知識蒸留

Dynamic Temperature Knowledge Distillation ( http://arxiv.org/abs/2404.12711v1 )

ライセンス: Link先を確認
Yukang Wei, Yu Bai, (参考訳) 温度は知識蒸留(KD)の領域におけるラベルの柔らかさの調整において重要な役割を担っている。 従来のアプローチでは、KDプロセス全体を通して静的な温度を用いることが多く、様々な難易度を持つサンプルの微妙な複雑さに対処できず、異なる教師と学生のペアリングの異なる能力を見落としている。 このことは、知識の理想的移動に繋がる。 知識伝播のプロセスを改善するために,教師モデルと学生モデルの両方に動的かつ協調的な温度制御を導入する動的温度知識蒸留法(DTKD)を提案した。 特に、モデルの出力分布の滑らかさを定量化するための計量として「\textbf{sharpness}」を提案した。 教師と生徒のシャープネス差を最小化することにより,それぞれに試料比温度を導出することができる。 CIFAR-100とImageNet-2012の大規模な実験では、DTKDは主要なKD技術と互換性があり、ターゲットクラスKDとNone-targetクラスKDシナリオにロバスト性が追加されている。コードはhttps://github.com/JinYu1998/DTKDで公開されている。

Temperature plays a pivotal role in moderating label softness in the realm of knowledge distillation (KD). Traditional approaches often employ a static temperature throughout the KD process, which fails to address the nuanced complexities of samples with varying levels of difficulty and overlooks the distinct capabilities of different teacher-student pairings. This leads to a less-than-ideal transfer of knowledge. To improve the process of knowledge propagation, we proposed Dynamic Temperature Knowledge Distillation (DTKD) which introduces a dynamic, cooperative temperature control for both teacher and student models simultaneously within each training iterafion. In particular, we proposed "\textbf{sharpness}" as a metric to quantify the smoothness of a model's output distribution. By minimizing the sharpness difference between the teacher and the student, we can derive sample-specific temperatures for them respectively. Extensive experiments on CIFAR-100 and ImageNet-2012 demonstrate that DTKD performs comparably to leading KD techniques, with added robustness in Target Class KD and None-target Class KD scenarios.The code is available at https://github.com/JinYu1998/DTKD.
翻訳日:2024-04-22 15:45:58 公開日:2024-04-19
# uTRAND:交通軌道における教師なし異常検出

uTRAND: Unsupervised Anomaly Detection in Traffic Trajectories ( http://arxiv.org/abs/2404.12712v1 )

ライセンス: Link先を確認
Giacomo D'Amicantonio, Egor Bondarau, Peter H. N. de With, (参考訳) ディープラーニングベースのアプローチは、パブリックビデオ異常データセットにおいて大幅に改善されているが、現実のアプリケーションではうまく機能しないことが多い。 本稿では、ラベル付きデータの欠如とニューラルネットワークの予測を説明することの難しさという2つの問題に対処する。 そこで我々は,画素空間から意味トポロジ的領域へ異常軌道予測の問題をシフトさせる uTRAND というフレームワークを提案する。 このフレームワークは、交差点に設置された交通カメラの鳥の目視ビデオで、あらゆる種類の交通エージェントを検出し、追跡する。 共通点をパッチベースのグラフとして概念化することにより,コストのかかる手動ラベリングを伴わずに,トラヒックエージェントの通常の動作を学習し,モデル化できることが示されている。 さらに、uTRANDは、人間の解釈に適した方法で異常な軌跡を分類するための単純な規則を定式化することができる。 実世界で収集した異常軌道のデータセットに対して,uTRANDが他の最先端手法よりも優れており,説明可能な検出結果が得られた。

Deep learning-based approaches have achieved significant improvements on public video anomaly datasets, but often do not perform well in real-world applications. This paper addresses two issues: the lack of labeled data and the difficulty of explaining the predictions of a neural network. To this end, we present a framework called uTRAND, that shifts the problem of anomalous trajectory prediction from the pixel space to a semantic-topological domain. The framework detects and tracks all types of traffic agents in bird's-eye-view videos of traffic cameras mounted at an intersection. By conceptualizing the intersection as a patch-based graph, it is shown that the framework learns and models the normal behaviour of traffic agents without costly manual labeling. Furthermore, uTRAND allows to formulate simple rules to classify anomalous trajectories in a way suited for human interpretation. We show that uTRAND outperforms other state-of-the-art approaches on a dataset of anomalous trajectories collected in a real-world setting, while producing explainable detection results.
翻訳日:2024-04-22 15:45:58 公開日:2024-04-19
# 深層並列協調による異種大言語モデルのアンサンブル学習

Enabling Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration ( http://arxiv.org/abs/2404.12715v1 )

ライセンス: Link先を確認
Yichong Huang, Xiaocheng Feng, Baohang Li, Yang Xiang, Hui Wang, Bing Qin, Ting Liu, (参考訳) 大規模言語モデル (LLM) は様々なタスクや事例において相補的な強みを示しており、聴衆の知恵を活かしてフロンティアを前進させるLLMの研究を動機付けている。 既存の作業はこの目的を達成するために、追加の報酬モデルや融合モデルをトレーニングし、すべての候補の答えを選択したり、融合させたりします。 しかし、これらの手法は、訓練されたモデルの一般化可能性に大きな課題をもたらす。 さらに、既存の手法では、ニューラルネットワークの内部表現の豊富な情報を無視して、テキスト応答を通信媒体として使用する。 そこで本研究では,異なるLLMが出力する確率分布を平均化する学習自由アンサンブルフレームワークDEEPENを提案する。 このパラダイムの重要な課題は、確率分布平均化の動作を妨げる不均一なLLM間の語彙差である。 この課題に対処するため、DEEPENは相対表現理論に基づいて各モデルの確率分布を確率空間から宇宙相対空間にマッピングし、アグリゲーションを実行する。 そして、アグリゲーションの結果を検索ベースの逆変換によって1つのLCMの確率空間にマッピングし、生成されたトークンを決定する。 6Bから70Bの様々なLDMのアンサンブルについて実験を行った。 実験の結果,DEPENは主観的評価,推論,知識QAを含む6つの一般的なベンチマークで一貫した改善を実現し,本手法の有効性を実証した。

Large language models (LLMs) have shown complementary strengths in various tasks and instances, motivating the research of ensembling LLMs to push the frontier leveraging the wisdom of the crowd. Existing work achieves this objective via training the extra reward model or fusion model to select or fuse all candidate answers. However, these methods pose a great challenge to the generalizability of the trained models. Besides, existing methods use the textual responses as communication media, ignoring the rich information in the inner representations of neural networks. Therefore, we propose a training-free ensemble framework DEEPEN, averaging the probability distributions outputted by different LLMs. A key challenge in this paradigm is the vocabulary discrepancy between heterogeneous LLMs, which hinders the operation of probability distribution averaging. To address this challenge, DEEPEN maps the probability distribution of each model from the probability space to a universe relative space based on the relative representation theory, and performs aggregation. Then, the result of aggregation is mapped back to the probability space of one LLM via a search-based inverse transformation to determine the generated token. We conduct experiments on the ensemble of various LLMs of 6B to 70B. Experimental results show that DEEPEN achieves consistent improvements across six popular benchmarks involving subject examination, reasoning and knowledge-QA, proving the effectiveness of our approach.
翻訳日:2024-04-22 15:45:58 公開日:2024-04-19
# Show and Grasp:ゼロショット基礎モデルによるロボットグラフプのためのいくつかのショットセマンティックセマンティックセマンティックセグメンテーション

Show and Grasp: Few-shot Semantic Segmentation for Robot Grasping through Zero-shot Foundation Models ( http://arxiv.org/abs/2404.12717v1 )

ライセンス: Link先を確認
Leonardo Barcellona, Alberto Bacchin, Matteo Terreran, Emanuele Menegatti, Stefano Ghidoni, (参考訳) ロボットが物体をつかむ能力は、組み立てやソートなど、いくつかの用途に欠かせない。 このようなタスクでは、選択する適切なターゲットを選択することは、グリップの正しい構成を推測するのと同じくらい重要である。 この問題に対する一般的な解決策はセマンティックセグメンテーションモデル(セマンティックセグメンテーションモデル)に依存している。 大規模なデータセットの必要性を減らすため、いくつかの把握パイプラインでは、いくつかの例から新しいクラスを認識することができる、数ショットのセマンティックセグメンテーションモデルを利用している。 しかし、これは性能の制限によるコストが伴うことが多く、ロボットの把握シナリオに効果的に調整する必要がある。 本研究では,基礎モデルが到達した印象的な一般化能力と高パフォーマンスな少数ショット分類器を組み合わせることで,これらの制限をすべて克服し,サポートセットに近いセグメンテーションを選択するためのスコア関数として機能することを提案する。 提案モデルは、グリップ合成パイプラインに組み込むように設計されている。 1つまたは5つの例を用いた大規模な実験は、我々の新しいアプローチが既存のパフォーマンス制限を克服し、Graspnet-1B(+10.5% mIoU)とOcid-grasp(+1.6% AP)データセットの少数ショットセマンティックセグメンテーション(+21.7%の精度)の両方で最先端のセマンティックセグメンテーションを改善したことを示している。 プロジェクトページは、https://leobarcellona.github.io/showandgrasp.github.io/で公開されている。

The ability of a robot to pick an object, known as robot grasping, is crucial for several applications, such as assembly or sorting. In such tasks, selecting the right target to pick is as essential as inferring a correct configuration of the gripper. A common solution to this problem relies on semantic segmentation models, which often show poor generalization to unseen objects and require considerable time and massive data to be trained. To reduce the need for large datasets, some grasping pipelines exploit few-shot semantic segmentation models, which are capable of recognizing new classes given a few examples. However, this often comes at the cost of limited performance and fine-tuning is required to be effective in robot grasping scenarios. In this work, we propose to overcome all these limitations by combining the impressive generalization capability reached by foundation models with a high-performing few-shot classifier, working as a score function to select the segmentation that is closer to the support set. The proposed model is designed to be embedded in a grasp synthesis pipeline. The extensive experiments using one or five examples show that our novel approach overcomes existing performance limitations, improving the state of the art both in few-shot semantic segmentation on the Graspnet-1B (+10.5% mIoU) and Ocid-grasp (+1.6% AP) datasets, and real-world few-shot grasp synthesis (+21.7% grasp accuracy). The project page is available at: https://leobarcellona.github.io/showandgrasp.github.io/
翻訳日:2024-04-22 15:45:58 公開日:2024-04-19
# 畳み込みオートエンコーダを用いたセマンティックセグメンテーション法の予測精度の向上

Improving Prediction Accuracy of Semantic Segmentation Methods Using Convolutional Autoencoder Based Pre-processing Layers ( http://arxiv.org/abs/2404.12718v1 )

ライセンス: Link先を確認
Hisashi Shimodaira, (参考訳) 本稿では,(1)意味的セグメンテーション手法の予測精度を向上させる手法を提案する。(1)意味的セグメンテーションネットワークの前に畳み込みオートエンコーダをベースとした事前処理層を持つニューラルネットワークを構築し,(2)事前学習したオートエンコーダの重みによって初期化されたネットワーク全体をトレーニングする。 本手法を完全畳み込みネットワーク(FCN)に適用し,その予測精度を都市景観データセット上で実験的に比較した。 He正規初期化を用いた対象モデルの平均IoUは、He正規初期化によるFCNよりも18.7%高い。 さらに、ターゲットモデルの修正モデルのモデルは、He正規初期化によるFCNの修正モデルよりも大幅に高い。 トレーニング中の精度と損失曲線から,これらは一般化能力の向上によるものであることが示された。 これらの結果から,提案手法がFCNの予測精度の向上に有効であることを示す。 提案手法は, 比較的単純であるが, FCNの一般化能力の向上と予測精度の向上には重要な効果がある。 原則として,提案手法は他のセマンティックセグメンテーション法にも適用可能である。 セマンティックセグメンテーションでは、現在、既存の手法の予測精度を改善する効果的な方法はない。 本手法と同一あるいは類似の手法を公表した者はおらず,実際にそのような手法を用いた者はいない。 したがって,本手法は実践に有用であり,広く知られ,用いられているにふさわしいと考えられる。

In this paper, we propose a method to improve prediction accuracy of semantic segmentation methods as follows: (1) construct a neural network that has pre-processing layers based on a convolutional autoencoder ahead of a semantic segmentation network, and (2) train the entire network initialized by the weights of the pre-trained autoencoder. We applied this method to the fully convolutional network (FCN) and experimentally compared its prediction accuracy on the cityscapes dataset. The Mean IoU of the proposed target model with the He normal initialization is 18.7% higher than that of FCN with the He normal initialization. In addition, those of the modified models of the target model are significantly higher than that of FCN with the He normal initialization. The accuracy and loss curves during the training showed that these are resulting from the improvement of the generalization ability. All of these results provide strong evidence that the proposed method is significantly effective in improving the prediction accuracy of FCN. The proposed method has the following features: it is comparatively simple, whereas the effect on improving the generalization ability and prediction accuracy of FCN is significant; the increase in the number of parameters by using it is very small, and that in the computation time is substantially large. In principle, the proposed method can be applied to other semantic segmentation methods. For semantic segmentation, at present, there is no effective way to improve the prediction accuracy of existing methods. None have published a method which is the same as or similar to our method and none have used such a method in practice. Therefore, we believe that our method is useful in practice and worthy of being widely known and used.
翻訳日:2024-04-22 15:45:58 公開日:2024-04-19
# PDF-MVQA:PDFに基づく視覚質問応答におけるマルチモーダル情報検索用データセット

PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering ( http://arxiv.org/abs/2404.12720v1 )

ライセンス: Link先を確認
Yihao Ding, Kaixuan Ren, Jiabin Huang, Siwen Luo, Soyeon Caren Han, (参考訳) 文書質問回答 (Document Question Answering, QA) は、特に研究論文のような長文コンテンツに支配される視覚的にリッチな文書(VRD)を理解する上での課題である。 既存の研究は主にスパーステキストによる実世界の文書に重点を置いているが、複数のページ間の階層的意味関係を解釈し、マルチモーダルなコンポーネントを見つけるという課題は続いている。 このギャップに対処するために、複数のページとマルチモーダル情報検索を含む研究雑誌記事に適したPDF-MVQAを提案する。 従来の機械読解(MRC)タスクとは違い,本手法では,回答を含む全段落や,表や図形などの視覚的にリッチなドキュメントエンティティを検索することを目的としている。 コントリビューションには総合的なPDFドキュメントVQAデータセットの導入が含まれており、テキストが支配する文書のセマンティックな階層的なレイアウト構造を検証できる。 また、文書レイアウト間のテキストの内容と関係を同時に把握し、ページレベルの理解を多ページ文書全体に拡張する新しいVRD-QAフレームワークを提案する。 本研究は,VRD-QAにおけるテキスト優位な文書がもたらす課題に対処する上で,既存の視覚・言語モデルの能力を高めることを目的としている。

Document Question Answering (QA) presents a challenge in understanding visually-rich documents (VRD), particularly those dominated by lengthy textual content like research journal articles. Existing studies primarily focus on real-world documents with sparse text, while challenges persist in comprehending the hierarchical semantic relations among multiple pages to locate multimodal components. To address this gap, we propose PDF-MVQA, which is tailored for research journal articles, encompassing multiple pages and multimodal information retrieval. Unlike traditional machine reading comprehension (MRC) tasks, our approach aims to retrieve entire paragraphs containing answers or visually rich document entities like tables and figures. Our contributions include the introduction of a comprehensive PDF Document VQA dataset, allowing the examination of semantically hierarchical layout structures in text-dominant documents. We also present new VRD-QA frameworks designed to grasp textual contents and relations among document layouts simultaneously, extending page-level understanding to the entire multi-page document. Through this work, we aim to enhance the capabilities of existing vision-and-language models in handling challenges posed by text-dominant documents in VRD-QA.
翻訳日:2024-04-22 15:45:58 公開日:2024-04-19
# リモートセンシング:ハイブリッドセマンティックセマンティックセグメンテーションフレームワークによる土地被覆マッピングの新しいクラスを発見する

Generalized Few-Shot Meets Remote Sensing: Discovering Novel Classes in Land Cover Mapping via Hybrid Semantic Segmentation Framework ( http://arxiv.org/abs/2404.12721v1 )

ライセンス: Link先を確認
Zhuohong Li, Fangxiao Lu, Jiaqi Zou, Lei Hu, Hongyan Zhang, (参考訳) ランドカバーマッピングは地球観測における重要な応用の1つであり、各ピクセルのランドカバータイプのリモートセンシング画像の分類を目的としている。 自然と人間の活動が景観を変えるため、土地被覆地図は急速に更新される必要がある。 しかし, 既存の分類システムで新たに出現した土地被覆型を発見することは, 複雑な土地オブジェクトの様々なスケールや, 広範囲にわたるラベル付きデータ不足に悩まされるような作業である。 本稿では,高解像度土地被覆マッピングにおける新しいクラスを更新するために,SegLandと呼ばれる一般化された数ショットセグメンテーションベースのフレームワークを提案する。 具体的には,提案するフレームワークを3つのパートで設計する。 (a)データ前処理:ベーストレーニングセットと新規クラスの数発のサポートセットを解析・拡張する。 b)ハイブリッドセグメンテーション構造;複数のベースラーナーと修正されたプロトタイプ(POP)ネットワークを組み合わせ、ベースクラス認識を強化し、ラベルの不十分なデータから新規クラスを掘り下げる。 (c)究極融合:基礎学習者とPOPネットワークのセマンティックセグメンテーションの結果は合理的に融合する。 提案されたフレームワークは、OpenEarthMap Land Cover Mapping Few-Shot Challengeのリーダーボードで優勝した。 ラベル付きデータに制限のある新しい土地被覆クラスを自動的に更新するフレームワークの優位性を示す実験を行った。

Land-cover mapping is one of the vital applications in Earth observation, aiming at classifying each pixel's land-cover type of remote-sensing images. As natural and human activities change the landscape, the land-cover map needs to be rapidly updated. However, discovering newly appeared land-cover types in existing classification systems is still a non-trivial task hindered by various scales of complex land objects and insufficient labeled data over a wide-span geographic area. In this paper, we propose a generalized few-shot segmentation-based framework, named SegLand, to update novel classes in high-resolution land-cover mapping. Specifically, the proposed framework is designed in three parts: (a) Data pre-processing: the base training set and the few-shot support sets of novel classes are analyzed and augmented; (b) Hybrid segmentation structure; Multiple base learners and a modified Projection onto Orthogonal Prototypes (POP) network are combined to enhance the base-class recognition and to dig novel classes from insufficient labels data; (c) Ultimate fusion: the semantic segmentation results of the base learners and POP network are reasonably fused. The proposed framework has won first place in the leaderboard of the OpenEarthMap Land Cover Mapping Few-Shot Challenge. Experiments demonstrate the superiority of the framework for automatically updating novel land-cover classes with limited labeled data.
翻訳日:2024-04-22 15:45:58 公開日:2024-04-19
# 部分グラフスケッチを用いた半教師付きノード分類のためのグラフ学習デュアルグラフ畳み込みネットワーク

Graph Learning Dual Graph Convolutional Network For Semi-Supervised Node Classification With Subgraph Sketch ( http://arxiv.org/abs/2404.12724v1 )

ライセンス: Link先を確認
Zibin Huang, Jun Xian, (参考訳) 本稿では,従来のグラフ畳み込みニューラルネットワークをベースとしたGラーフ学習DアルGラーフ畳み込みニューラルネットワークGLDGCNを提案する。 半教師付きノード分類タスクにGLDGCNを適用する。 ベースライン法と比較して,Citeseer,Cora,Pubmedの3つの引用ネットワークの分類精度が高く,ハイパーパラメータの選択とネットワーク深度について分析・議論する。 GLDGCNは、古典的なソーシャルネットワークKarateClubと、新しいWiki-CSデータセットでもうまく機能している。 実験中に大きなグラフデータを処理できないアルゴリズムのために,GCNにサブグラフクラスタリングと確率勾配降下技術を導入し,CLustering G raph Convolutional Neural Networkに基づく半教師付きノード分類アルゴリズムを設計した。 PPIデータセット(5万ノード以上)とRedditデータセット(20万ノード以上)の2つの古典的大規模グラフに対する半教師付きノード分類実験を完了し、性能も向上した。

In this paper, we propose the G raph Learning D ual G raph Convolutional Neural Network called GLDGCN based on the classical Graph Convolutional Neural Network by introducing dual convolutional layer and graph learning layer. We apply GLDGCN to the semi-supervised node classification task. Compared with the baseline methods, we achieve higher classification accuracy on three citation networks Citeseer, Cora and Pubmed, and we also analyze and discussabout selection of the hyperparameters and network depth. GLDGCN also perform well on the classic social network KarateClub and the new Wiki-CS dataset. For the insufficient ability of our algorithm to process large graph data during the experiment, we also introduce subgraph clustering and stochastic gradient descent technology into GCN and design a semi-supervised node classification algorithm based on the CLustering G raph Convolutional neural Network, which enables GCN to process large graph and improves its application value. We complete semi-supervised node classification experiments on two classical large graph which are PPI data sets (more than 50,000 nodes) and Reddit data sets (more than 200,000 nodes), and also perform well.
翻訳日:2024-04-22 15:45:58 公開日:2024-04-19
# 音声連鎖の分離:クロスモーダル・コンディショナル・オーディオ・ビジュアル・ターゲット音声抽出

Separate in the Speech Chain: Cross-Modal Conditional Audio-Visual Target Speech Extraction ( http://arxiv.org/abs/2404.12725v1 )

ライセンス: Link先を確認
Zhaoxi Mu, Xinyu Yang, (参考訳) 視覚的手がかりの統合により、対象の音声抽出タスクのパフォーマンスが再活性化され、フィールドの前面に昇格した。 にもかかわらず、このマルチモーダル学習パラダイムは、しばしばモダリティの不均衡の課題に直面する。 音声・視覚的対象音声抽出タスクでは、音声モダリティが支配的になりがちであり、視覚誘導の重要性を覆す可能性がある。 そこで本研究では,音声連鎖の概念から着想を得たAVSepChainを提案する。 提案手法は,音声・視覚的対象音声抽出タスクを,音声知覚と音声生成の2段階に分割する。 音声認識の段階では、音声は支配的なモダリティとして機能し、視覚情報は条件的モダリティとして機能する。 逆に、音声生成段階では、役割が逆転する。 このモダリティ状態の変換は、モダリティの不均衡の問題を軽減することを目的としている。 さらに、生成した音声によって伝達される意味情報が、音声生成段階における唇の動きによって伝達される意味情報と一致することを保証するために、コントラッシブなセマンティックマッチング損失を導入する。 音声・視覚的ターゲット音声抽出のための複数のベンチマークデータセットを用いて行った広範囲な実験を通して,提案手法が達成した優れた性能を示す。

The integration of visual cues has revitalized the performance of the target speech extraction task, elevating it to the forefront of the field. Nevertheless, this multi-modal learning paradigm often encounters the challenge of modality imbalance. In audio-visual target speech extraction tasks, the audio modality tends to dominate, potentially overshadowing the importance of visual guidance. To tackle this issue, we propose AVSepChain, drawing inspiration from the speech chain concept. Our approach partitions the audio-visual target speech extraction task into two stages: speech perception and speech production. In the speech perception stage, audio serves as the dominant modality, while visual information acts as the conditional modality. Conversely, in the speech production stage, the roles are reversed. This transformation of modality status aims to alleviate the problem of modality imbalance. Additionally, we introduce a contrastive semantic matching loss to ensure that the semantic information conveyed by the generated speech aligns with the semantic information conveyed by lip movements during the speech production stage. Through extensive experiments conducted on multiple benchmark datasets for audio-visual target speech extraction, we showcase the superior performance achieved by our proposed method.
翻訳日:2024-04-22 15:45:58 公開日:2024-04-19
# 辞書からの文字プロファイリングによる大言語モデルの文字理解の評価

Evaluating Character Understanding of Large Language Models via Character Profiling from Fictional Works ( http://arxiv.org/abs/2404.12726v1 )

ライセンス: Link先を確認
Xinfeng Yuan, Siyu Yuan, Yuhan Cui, Tianhe Lin, Xintao Wang, Rui Xu, Jiangjie Chen, Deqing Yang, (参考訳) 大規模言語モデル(LLM)は印象的なパフォーマンスを示し、多数のAIアプリケーションに拍車をかけた。 これらのRPAの前提条件は、LLMが架空の作品からキャラクターを理解する能力にある。 従来の取り組みでは、基本的な分類タスクや特徴的模倣を通じてこの機能を評価しており、LLMによる微妙な文字理解の獲得に失敗している。 本稿では,文字プロファイリングタスク,すなわち文字プロファイルを対応する素材から要約することで,LLMの文字理解能力を評価することを提案する。 具体的には、文献の専門家によるCroSSデータセットを構築し、下流タスクにおける基礎的真実参照とそれらの適用性を比較して、生成したプロファイルを評価する。 様々な要約手法とLLMを網羅した実験により,有望な結果を得た。 これらの結果はLLMの文字理解能力を強く評価する。 建設資源はこの分野でさらなる研究を促進すると信じている。 リソースはhttps://github.com/Joanna0123/character_profiling.comで入手できる。

Large language models (LLMs) have demonstrated impressive performance and spurred numerous AI applications, in which role-playing agents (RPAs) are particularly popular, especially for fictional characters. The prerequisite for these RPAs lies in the capability of LLMs to understand characters from fictional works. Previous efforts have evaluated this capability via basic classification tasks or characteristic imitation, failing to capture the nuanced character understanding with LLMs. In this paper, we propose evaluating LLMs' character understanding capability via the character profiling task, i.e., summarizing character profiles from corresponding materials, a widely adopted yet understudied practice for RPA development. Specifically, we construct the CroSS dataset from literature experts and assess the generated profiles by comparing ground truth references and their applicability in downstream tasks. Our experiments, which cover various summarization methods and LLMs, have yielded promising results. These results strongly validate the character understanding capability of LLMs. We believe our constructed resource will promote further research in this field. Resources are available at https://github.com/Joanna0123/character_profiling.
翻訳日:2024-04-22 15:45:58 公開日:2024-04-19
# 関連性, ランダム性: LLMはアナロジ的推論を真に達成できるか?

Relevant or Random: Can LLMs Truly Perform Analogical Reasoning? ( http://arxiv.org/abs/2404.12728v1 )

ライセンス: Link先を確認
Chengwei Qin, Wenhan Xia, Tan Wang, Fangkai Jiao, Yuchen Hu, Bosheng Ding, Ruirui Chen, Shafiq Joty, (参考訳) アナロジカル推論は、人間が関連する過去の経験から戦略を移すことによって、不慣れな課題に対処するユニークな能力である。 心理学における重要な発見の1つは、無関係な過去の経験と比較すると、関連することを思い出すことは、人間が新しいタスクをよりうまく処理するのに役立つということだ。 偶然にも、NLPコミュニティは、コンテキストにおける自己生成関連例が、手作りのプロンプトよりも大きな言語モデル(LLM)が与えられた問題を解決するのに役立つことを最近発見した。 しかし、そのような能力を引き出す重要な要因は関連性なのか、すなわち、LLMは関係のないものよりも自己生成関連例の恩恵を受けることができるのかは、まだ不明である。 本研究では,LLMが多種多様な推論タスクにおいて,類推的推論を真に行うことができるかどうかを系統的に検討する。 広範囲な実験と分析により, 自己生成ランダムなサンプルは, GSM8K 上での 4% の性能向上など, 驚くほど, あるいはさらに優れた性能を達成できることが示されている。 自己生成例の精度が重要な要因であることに気付き、その後、推論コストを大幅に削減した2つの改善手法を設計した。 全体として、LLMの類推的推論をより深く理解することを目指しており、この研究が自己生成コンテキストの設計におけるさらなる研究を促進することを願っている。

Analogical reasoning is a unique ability of humans to address unfamiliar challenges by transferring strategies from relevant past experiences. One key finding in psychology is that compared with irrelevant past experiences, recalling relevant ones can help humans better handle new tasks. Coincidentally, the NLP community has also recently found that self-generating relevant examples in the context can help large language models (LLMs) better solve a given problem than hand-crafted prompts. However, it is yet not clear whether relevance is the key factor eliciting such capability, i.e., can LLMs benefit more from self-generated relevant examples than irrelevant ones? In this work, we systematically explore whether LLMs can truly perform analogical reasoning on a diverse set of reasoning tasks. With extensive experiments and analysis, we show that self-generated random examples can surprisingly achieve comparable or even better performance, e.g., 4% performance boost on GSM8K with random biological examples. We find that the accuracy of self-generated examples is the key factor and subsequently design two improved methods with significantly reduced inference costs. Overall, we aim to advance a deeper understanding of LLM analogical reasoning and hope this work stimulates further research in the design of self-generated contexts.
翻訳日:2024-04-22 15:36:14 公開日:2024-04-19
# 単一光子型量子コンピュータにおける量子射影シミュレーションの実証

Demonstration of quantum projective simulation on a single-photon-based quantum computer ( http://arxiv.org/abs/2404.12729v1 )

ライセンス: Link先を確認
Giacomo Franceschetto, Arno Ricou, (参考訳) 変分量子アルゴリズムは、ノイズの多い中間スケールの量子デバイスで効果的に動作する可能性を示している。 近年、線形光干渉計と古典的学習モデルである射影シミュレーション(PS)を取り入れた強化学習の新しいバリエーションが提案されている。 PSは強化学習のための意思決定ツールであり、エージェントのメモリを記述するグラフ上のランダムウォークとして古典的に表現することができる。 このアプローチは光量子バージョンにおいて、調整可能なビームスプリッターと位相シフト器のメッシュ上の単一光子の量子ウォークを利用して選択する。 本研究では,このアルゴリズムをQuandelaの単一光子ベースの量子コンピュータAscellaに実装する。 古典的エージェントに対する量子エージェントの可能性を示すために、テストベッドタスクの解決に焦点が当てられている。

Variational quantum algorithms show potential in effectively operating on noisy intermediate-scale quantum devices. A novel variational approach to reinforcement learning has been recently proposed, incorporating linear-optical interferometers and a classical learning model known as projective simulation (PS). PS is a decision-making tool for reinforcement learning and can be classically represented as a random walk on a graph that describes the agent's memory. In its optical quantum version, this approach utilizes quantum walks of single photons on a mesh of tunable beamsplitters and phase shifters to select actions. In this work, we present the implementation of this algorithm on Ascella, a single-photon-based quantum computer from Quandela. The focus is drawn on solving a test bed task to showcase the potential of the quantum agent with respect to the classical agent.
翻訳日:2024-04-22 15:36:14 公開日:2024-04-19
# PATE-TripleGAN:ガウス微分プライバシーを用いたプライバシー保護画像合成

PATE-TripleGAN: Privacy-Preserving Image Synthesis with Gaussian Differential Privacy ( http://arxiv.org/abs/2404.12730v1 )

ライセンス: Link先を確認
Zepeng Jiang, Weiwei Ni, Yifan Zhang, (参考訳) CGAN(Consulal Generative Adversarial Networks)は,現実的なラベル付き画像を生成する能力により,教師付き学習モデルトレーニングにおいて有意な可能性を秘めている。 しかし、多くの研究により、CGANsモデルにおけるプライバシー漏洩のリスクが示されている。 差分プライバシーフレームワークを取り入れたDPCGANは、モデルトレーニングのためのラベル付きデータへの強い依存や、過度な勾配クリッピングによる元の勾配情報の破壊といった課題に直面しており、モデルの精度の確保が困難である。 これらの課題に対処するために、PATE-TripleGANと呼ばれるプライバシー保護トレーニングフレームワークを提案する。 このフレームワークは、ラベル付きデータの事前分類のための分類器を組み込み、ラベル付きデータへの依存を減らすために、サードパーティのmin-maxゲームを確立する。 さらに,PATE(Private Aggregation of Teacher Ensembles)フレームワークとDPSGD(differial Private Stochastic Gradient Descent)手法に基づくハイブリッド勾配脱感作アルゴリズムを提案する。 このアルゴリズムにより、モデルはプライバシー保護を確保しつつ、より効率的に勾配情報を保持することができ、それによってモデルの実用性を高めることができる。 プライバシ分析と広範な実験により、PATE-TripleGANモデルは、トレーニングデータのプライバシを確保しつつ、高品質なラベル付きイメージデータセットを生成することができることを確認した。

Conditional Generative Adversarial Networks (CGANs) exhibit significant potential in supervised learning model training by virtue of their ability to generate realistic labeled images. However, numerous studies have indicated the privacy leakage risk in CGANs models. The solution DPCGAN, incorporating the differential privacy framework, faces challenges such as heavy reliance on labeled data for model training and potential disruptions to original gradient information due to excessive gradient clipping, making it difficult to ensure model accuracy. To address these challenges, we present a privacy-preserving training framework called PATE-TripleGAN. This framework incorporates a classifier to pre-classify unlabeled data, establishing a three-party min-max game to reduce dependence on labeled data. Furthermore, we present a hybrid gradient desensitization algorithm based on the Private Aggregation of Teacher Ensembles (PATE) framework and Differential Private Stochastic Gradient Descent (DPSGD) method. This algorithm allows the model to retain gradient information more effectively while ensuring privacy protection, thereby enhancing the model's utility. Privacy analysis and extensive experiments affirm that the PATE-TripleGAN model can generate a higher quality labeled image dataset while ensuring the privacy of the training data.
翻訳日:2024-04-22 15:36:14 公開日:2024-04-19
# DLoRA-TrOCR:変換器を用いた混合テキストモード光文字認識

DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer ( http://arxiv.org/abs/2404.12734v1 )

ライセンス: Link先を確認
Da Chang, Yu Li, (参考訳) OCR技術の継続的な発展とアプリケーション分野の拡大により、複雑な場面におけるテキスト認識は重要な課題となっている。 複数のフォント、混合シーン、複雑なレイアウトなどの要因は、従来のOCRモデルの認識精度に深刻な影響を及ぼす。 近年、ディープラーニングに基づくOCRモデルは、特定の分野や類似のデータセットでよく機能しているが、複数のシーンを持つ複雑な環境に直面する場合、モデルの一般化能力と堅牢性は依然として大きな課題である。 さらに、すべてのパラメータのスクラッチや微調整からOCRモデルをトレーニングすることは、コンピューティングリソースと推論時間に非常に要求されるため、アプリケーションの柔軟性が制限される。 本研究は、上記課題に対応する混合テキスト認識の基本的側面に焦点を当て、様々な下流タスクにおける例外的な性能を示すために、事前学習された基本OCRモデルを効果的に微調整することを含む。 そこで本研究では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の高いハイブリッドテキスト認識手法を提案する。 この方法は、DRAを画像エンコーダとLoRAをテキストデコーダの内部構造に埋め込むことで、下流タスクの効率的なパラメータの微調整を可能にする。 実験結果から, DLoRA-TrOCR はパラメータの最小値であり, 性能が向上していることがわかった。 複雑なシーンデータセット上で、手書きテキスト、印刷テキスト、ストリートビューテキストの同時認識を含む最先端のパフォーマンスを実現する。

With the continuous development of OCR technology and the expansion of application fields, text recognition in complex scenes has become a key challenge. Factors such as multiple fonts, mixed scenes and complex layouts seriously affect the recognition accuracy of traditional OCR models. Although OCR models based on deep learning have performed well in specific fields or similar data sets in recent years, the generalization ability and robustness of the model are still a big challenge when facing complex environments with multiple scenes. Furthermore, training an OCR model from scratch or fine-tuning all parameters is very demanding on computing resources and inference time, which limits the flexibility of its application. This study focuses on a fundamental aspect of mixed text recognition in response to the challenges mentioned above, which involves effectively fine-tuning the pre-trained basic OCR model to demonstrate exceptional performance across various downstream tasks. To this end, we propose a parameter-efficient hybrid text recognition method based on pre-trained OCR Transformer, namely DLoRA-TrOCR. This method embeds DoRA into the image encoder and LoRA into the internal structure of the text decoder, enabling efficient parameter fine-tuning for downstream tasks. Experimental results show that compared to similar parameter adjustment methods, our model DLoRA-TrOCR has the smallest number of parameters and performs better. It can achieve state-of-the-art performance on complex scene data sets involving simultaneous recognition of mixed handwritten, printed and street view texts.
翻訳日:2024-04-22 15:36:14 公開日:2024-04-19
# 大規模言語モデルサプライチェーンの研究動向

Large Language Model Supply Chain: A Research Agenda ( http://arxiv.org/abs/2404.12736v1 )

ライセンス: Link先を確認
Shenao Wang, Yanjie Zhao, Xinyi Hou, Haoyu Wang, (参考訳) LLM(Large Multimodal Models)とLMM(Large Multimodal Models)の急速な進歩は、自然言語処理からコンテンツ生成まで、新たなインテリジェントな応用の時代に幕を閉じている。 LLMサプライチェーンは、現代の人工知能のランドスケープの重要な側面である。 初期の開発とトレーニングから、さまざまなドメインでの最終的なデプロイとアプリケーションまで、事前訓練されたモデルのライフサイクル全体を含んでいる。 本稿では,LLMサプライチェーンの概要を概観し,その3つの中核要素について述べる。 1) トレーニング、最適化、デプロイメントのためのデータセットとツールチェーンを含むモデルインフラストラクチャ。 2 モデルのライフサイクル、トレーニング、テスト、リリース、保守の継続を網羅する。 3) ダウンストリームアプリケーションエコシステムは、トレーニング済みのモデルを幅広いインテリジェントなアプリケーションに統合することを可能にする。 しかし、この急速に進化する分野は、データプライバシとセキュリティ、モデルの解釈可能性と公正性、インフラストラクチャのスケーラビリティ、規制コンプライアンスなど、これらの重要なコンポーネントにまたがる多くの課題に直面しています。 これらの課題に対処することは、LLMの潜在能力を最大限活用し、倫理的かつ責任ある使用を確保するために不可欠である。 本稿では,LLMサプライチェーンの今後の研究課題について述べる。

The rapid advancements in pre-trained Large Language Models (LLMs) and Large Multimodal Models (LMMs) have ushered in a new era of intelligent applications, transforming fields ranging from natural language processing to content generation. The LLM supply chain represents a crucial aspect of the contemporary artificial intelligence landscape. It encompasses the entire lifecycle of pre-trained models, from its initial development and training to its final deployment and application in various domains. This paper presents a comprehensive overview of the LLM supply chain, highlighting its three core elements: 1) the model infrastructure, encompassing datasets and toolchain for training, optimization, and deployment; 2) the model lifecycle, covering training, testing, releasing, and ongoing maintenance; and 3) the downstream application ecosystem, enabling the integration of pre-trained models into a wide range of intelligent applications. However, this rapidly evolving field faces numerous challenges across these key components, including data privacy and security, model interpretability and fairness, infrastructure scalability, and regulatory compliance. Addressing these challenges is essential for harnessing the full potential of LLMs and ensuring their ethical and responsible use. This paper provides a future research agenda for the LLM supply chain, aiming at driving the continued advancement and responsible deployment of these transformative LLMs.
翻訳日:2024-04-22 15:36:14 公開日:2024-04-19
# LLM App Storeの分析 - ビジョンとロードマップ

LLM App Store Analysis: A Vision and Roadmap ( http://arxiv.org/abs/2404.12737v1 )

ライセンス: Link先を確認
Yanjie Zhao, Xinyi Hou, Shenao Wang, Haoyu Wang, (参考訳) 大規模言語モデル(LLM)アプリストアの急速な成長と人気は、研究者、開発者、ユーザ、アプリストアマネージャにとって新たな機会と課題を生み出している。 LLMアプリのエコシステムは進化を続けており、現在の状況を理解し、将来の研究開発の潜在的な領域を特定することが不可欠である。 本稿では,データマイニング,セキュリティリスクの識別,開発支援などの重要な側面に着目し,LCMアプリストアの前方分析を行う。 これらの側面を調べることで、将来の研究方向性のビジョンを提供し、LCMアプリエコシステムにおける課題や機会に対処するステークホルダー間のコラボレーションの重要性を強調することを目指している。 この論文で提供される洞察とレコメンデーションは、イノベーションを推進し、責任ある開発を確実にし、繁栄し、ユーザ中心のLDMアプリランドスケープを構築するための基盤となる。

The rapid growth and popularity of large language model (LLM) app stores have created new opportunities and challenges for researchers, developers, users, and app store managers. As the LLM app ecosystem continues to evolve, it is crucial to understand the current landscape and identify potential areas for future research and development. This paper presents a forward-looking analysis of LLM app stores, focusing on key aspects such as data mining, security risk identification, development assistance, etc. By examining these aspects, we aim to provide a vision for future research directions and highlight the importance of collaboration among stakeholders to address the challenges and opportunities within the LLM app ecosystem. The insights and recommendations provided in this paper serve as a foundation for driving innovation, ensuring responsible development, and creating a thriving, user-centric LLM app landscape.
翻訳日:2024-04-22 15:36:14 公開日:2024-04-19
# DeviceRadar: プログラマブルスイッチを使用したISPにおけるオンラインIoTデバイスフィンガープリント

DeviceRadar: Online IoT Device Fingerprinting in ISPs using Programmable Switches ( http://arxiv.org/abs/2404.12738v1 )

ライセンス: Link先を確認
Ruoyu Li, Qing Li, Tao Lin, Qingsong Zou, Dan Zhao, Yucheng Huang, Gareth Tyson, Guorui Xie, Yong Jiang, (参考訳) デバイスフィンガープリントは、インターネットサービスプロバイダ(ISP)が脅威の早期防止のために脆弱なIoTデバイスを特定するために使用することができる。 しかし、ISPネットワークにミドルボックスが広く配備されているため、いくつかの重要なデータ、例えば5タプルやフロー統計は、しばしば曖昧にされ、既存のアプローチの多くを無効にしている。 ISPネットワークでは1日あたり数百テラバイトの高速トラフィックが問題となっている。 本稿では,プログラマブルスイッチを用いたISPの正確なリアルタイム処理を実現するオンラインIoTデバイスフィンガープリントフレームワークであるDeviceRadarを提案する。 パケットサイズと方向のみを使用して指紋をベースとした「キーパケット」を革新的に活用し、異なるIoTデバイス間での差異を定期的に表示します。 そこで本研究では,パケット間の空間的関係を発見するために,パケットサイズ埋め込みモデルを提案する。 一方、各装置の「キーパケット」を抽出するアルゴリズムを設計し、空間的関係と鍵パケットを協調的に考慮し、隣接するキーパケット分布を生成するアプローチを提案し、推論のための機械学習モデルの特徴ベクトルとして機能する。 最後に,モデル変換法と特徴抽出法を設計し,制約付き演算処理とメモリ内でプログラム可能なデータプレーン上にモデルをデプロイし,ラインスピード処理を実現する。 実験によると、DeviceRadarは、40Gbpsのスループットを持つ77のIoTデバイスで最先端の精度を達成でき、GPUアクセラレーションアプローチと比較して処理時間の1.3%しか必要としない。

Device fingerprinting can be used by Internet Service Providers (ISPs) to identify vulnerable IoT devices for early prevention of threats. However, due to the wide deployment of middleboxes in ISP networks, some important data, e.g., 5-tuples and flow statistics, are often obscured, rendering many existing approaches invalid. It is further challenged by the high-speed traffic of hundreds of terabytes per day in ISP networks. This paper proposes DeviceRadar, an online IoT device fingerprinting framework that achieves accurate, real-time processing in ISPs using programmable switches. We innovatively exploit "key packets" as a basis of fingerprints only using packet sizes and directions, which appear periodically while exhibiting differences across different IoT devices. To utilize them, we propose a packet size embedding model to discover the spatial relationships between packets. Meanwhile, we design an algorithm to extract the "key packets" of each device, and propose an approach that jointly considers the spatial relationships and the key packets to produce a neighboring key packet distribution, which can serve as a feature vector for machine learning models for inference. Last, we design a model transformation method and a feature extraction process to deploy the model on a programmable data plane within its constrained arithmetic operations and memory to achieve line-speed processing. Our experiments show that DeviceRadar can achieve state-of-the-art accuracy across 77 IoT devices with 40 Gbps throughput, and requires only 1.3% of the processing time compared to GPU-accelerated approaches.
翻訳日:2024-04-22 15:36:14 公開日:2024-04-19
# CVPR2024 NICE Image Captioning Challengeの解法

The Solution for the CVPR2024 NICE Image Captioning Challenge ( http://arxiv.org/abs/2404.12739v1 )

ライセンス: Link先を確認
Longfei Huang, Shupeng Zhong, Xiangyu Wu, Ruoxuan Li, Qingguo Chen, Yang Yang, (参考訳) 本報告では,2024 NICEのトピック1ゼロショット画像キャプションに対する解法について紹介する。 NICE 2023データセットとは対照的に、この課題には、キャプションスタイルとコンテンツに大きな違いがある人間による新しいアノテーションが含まれる。 そこで我々は,画像キャプションの検索向上とキャプショングレーディング手法により,画像キャプションを効果的に強化する。 データレベルでは、画像キャプションモデルによって生成された高品質なキャプションをトレーニングデータとして利用し、テキストスタイルのギャップに対処する。 モデルレベルでは、画像キャプションタスクを実行するためにOFA(手作りテンプレートに基づく大規模視覚言語事前学習モデル)を用いる。 次に,画像キャプションモデルによって生成された高品質なキャプションデータのキャプションレベル戦略を提案し,それをテンプレートに組み込むことで,検索拡張プロンプトに基づいて,より高い品質,よりマッチング,セマンティックに充実したキャプションを生成する。 CIDErのスコアは234.11で、他のすべての指標では1位です。

This report introduces a solution to the Topic 1 Zero-shot Image Captioning of 2024 NICE : New frontiers for zero-shot Image Captioning Evaluation. In contrast to NICE 2023 datasets, this challenge involves new annotations by humans with significant differences in caption style and content. Therefore, we enhance image captions effectively through retrieval augmentation and caption grading methods. At the data level, we utilize high-quality captions generated by image caption models as training data to address the gap in text styles. At the model level, we employ OFA (a large-scale visual-language pre-training model based on handcrafted templates) to perform the image captioning task. Subsequently, we propose caption-level strategy for the high-quality caption data generated by the image caption models and integrate them with retrieval augmentation strategy into the template to compel the model to generate higher quality, more matching, and semantically enriched captions based on the retrieval augmentation prompts. Our approach ranks first on the leaderboard, achieving a CIDEr score of 234.11 and 1st in all other metrics.
翻訳日:2024-04-22 15:36:14 公開日:2024-04-19
# マルチクラス量子畳み込みニューラルネットワーク

Multi-Class Quantum Convolutional Neural Networks ( http://arxiv.org/abs/2404.12741v1 )

ライセンス: Link先を確認
Marco Mordacci, Davide Ferrari, Michele Amoretti, (参考訳) 分類は、検索パイプラインの様々なサブタスクで使用されるため、特に情報検索に関係している。 本研究では,古典データのマルチクラス分類のための量子畳み込みニューラルネットワーク(QCNN)を提案する。 モデルはPennyLaneを使って実装されている。 パラメータ化量子回路最適化により、クロスエントロピー損失を最小限にすることで最適化を行う。 QCNNは4, 6, 8, 10クラスのMNISTデータセットでテストされている。 その結果,4つのクラスでは,従来のCNNに比べて性能がわずかに低下する一方で,QCNNは従来のニューラルネットワークよりも高い性能を示した。

Classification is particularly relevant to Information Retrieval, as it is used in various subtasks of the search pipeline. In this work, we propose a quantum convolutional neural network (QCNN) for multi-class classification of classical data. The model is implemented using PennyLane. The optimization process is conducted by minimizing the cross-entropy loss through parameterized quantum circuit optimization. The QCNN is tested on the MNIST dataset with 4, 6, 8 and 10 classes. The results show that with 4 classes, the performance is slightly lower compared to the classical CNN, while with a higher number of classes, the QCNN outperforms the classical neural network.
翻訳日:2024-04-22 15:36:14 公開日:2024-04-19
# 人間のノルムを超えて:学際的アプローチによる大規模言語モデルの特異な価値を明らかにする

Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches ( http://arxiv.org/abs/2404.12744v1 )

ライセンス: Link先を確認
Pablo Biedma, Xiaoyuan Yi, Linus Huang, Maosong Sun, Xing Xie, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、AI分野に革命をもたらしたが、潜在的な安全性と倫理的リスクをもたらしている。 LLMの組込み値の解読は、リスクの評価と緩和に不可欠である。 LLMの価値観に関する広範な研究にもかかわらず、以前の研究は社会科学における人間指向の価値体系に大きく依存していた。 LLMは人間のもの以上のユニークな価値を持っているのだろうか? そこで本研究では,LLMのユニークな価値体系をスクラッチから再構築する新たな枠組みであるValueLexを提案する。 語彙仮説に基づいて、ValueLexは30以上のLLMから多様な値を抽出する生成的アプローチを導入し、因子分析とセマンティッククラスタリングを通じて包括的なバリューフレームワークで決定される分類を合成する。 我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。 本システムでは, モデルサイズ, トレーニング方法, およびデータソースにまたがるLCM値の傾きの評価, 解析を行うため, プロジェクティブ・テストの開発が進められている。 我々のフレームワークは、LLMを理解するための学際パラダイムを育み、将来のAIアライメントと規制の道を開く。

Recent advancements in Large Language Models (LLMs) have revolutionized the AI field but also pose potential safety and ethical risks. Deciphering LLMs' embedded values becomes crucial for assessing and mitigating their risks. Despite extensive investigation into LLMs' values, previous studies heavily rely on human-oriented value systems in social sciences. Then, a natural question arises: Do LLMs possess unique values beyond those of humans? Delving into it, this work proposes a novel framework, ValueLex, to reconstruct LLMs' unique value system from scratch, leveraging psychological methodologies from human personality/value research. Based on Lexical Hypothesis, ValueLex introduces a generative approach to elicit diverse values from 30+ LLMs, synthesizing a taxonomy that culminates in a comprehensive value framework via factor analysis and semantic clustering. We identify three core value dimensions, Competence, Character, and Integrity, each with specific subdimensions, revealing that LLMs possess a structured, albeit non-human, value system. Based on this system, we further develop tailored projective tests to evaluate and analyze the value inclinations of LLMs across different model sizes, training methods, and data sources. Our framework fosters an interdisciplinary paradigm of understanding LLMs, paving the way for future AI alignment and regulation.
翻訳日:2024-04-22 15:36:14 公開日:2024-04-19
# グロース生産のモデル化のためのリカレントニューラルネットワーク

Recurrent Neural Networks for Modelling Gross Primary Production ( http://arxiv.org/abs/2404.12745v1 )

ライセンス: Link先を確認
David Montero, Miguel D. Mahecha, Francesco Martinuzzi, César Aybar, Anne Klosterhalfen, Alexander Knohl, Franziska Koebsch, Jesús Anaya, Sebastian Wieneke, (参考訳) Grossプライマリ生産(GPP)の正確な定量化は、地球上の炭素動態を理解する上で重要である。 大気から土地へのCO$2$フラックスであり、特に森林にとって重要である。 Eddy Covariance (EC) 測定は生態系スケールの GPP 定量化に広く用いられているが、世界規模では疎らである。 局所的なEC測定を欠いた領域では、リモートセンシング(RS)データが統計的にその場のデータに関連付けた後、GPPを推定するために使用されるのが一般的である。 ディープラーニングは新たな視点を提供し、毎日のGPPを見積もる再帰的なニューラルネットワークアーキテクチャの可能性は、まだ調査されていない。 本稿では,RNN(Recurrent Neural Networks),Gated Recurrent Units(GRU),Long-Short Term Memory(LSTM)の3つのアーキテクチャの比較分析を行った。 以上の結果から,全モデルに比較して,年間および成長期の予測結果が得られた。 特に、LSTMは気候によって引き起こされるGPP極度の予測に優れる。 さらに,GPPの正確な予測には,放射とRS入力(光学,温度,レーダ)を取り入れることの重要性を強調した。

Accurate quantification of Gross Primary Production (GPP) is crucial for understanding terrestrial carbon dynamics. It represents the largest atmosphere-to-land CO$_2$ flux, especially significant for forests. Eddy Covariance (EC) measurements are widely used for ecosystem-scale GPP quantification but are globally sparse. In areas lacking local EC measurements, remote sensing (RS) data are typically utilised to estimate GPP after statistically relating them to in-situ data. Deep learning offers novel perspectives, and the potential of recurrent neural network architectures for estimating daily GPP remains underexplored. This study presents a comparative analysis of three architectures: Recurrent Neural Networks (RNNs), Gated Recurrent Units (GRUs), and Long-Short Term Memory (LSTMs). Our findings reveal comparable performance across all models for full-year and growing season predictions. Notably, LSTMs outperform in predicting climate-induced GPP extremes. Furthermore, our analysis highlights the importance of incorporating radiation and RS inputs (optical, temperature, and radar) for accurate GPP predictions, particularly during climate extremes.
翻訳日:2024-04-22 15:36:14 公開日:2024-04-19
# 多目的進化アルゴリズムのためのニアタイトランタイム保証

Near-Tight Runtime Guarantees for Many-Objective Evolutionary Algorithms ( http://arxiv.org/abs/2404.12746v1 )

ライセンス: Link先を確認
Simon Wietheger, Benjamin Doerr, (参考訳) 多目的進化アルゴリズム(MOEA)の数学的ランタイム解析の分野では大きな進歩があったが、離散多目的問題におけるMOEAの性能はほとんど理解されていない。 特に、古典的なベンチマークにおけるSEMO、グローバルSEMO、SMS-EMOAアルゴリズムの既存のバウンダリは、すべてParetoフロントの約2倍である。 本研究では,最も一般的な4つのベンチマーク問題であるOneMinMax, CountingOnesCountingZeros, LeadingOnesTrailingZeros, and OneJumpZeroJumpにおいて,これらの3つのアルゴリズムのほぼ28のランタイム保証を証明した。 私たちのバウンダリはParetoのフロントサイズにのみ依存しており、これらのベンチマーク上のMOEAは、以前の研究が示唆していたよりも、多くの目標にずっとうまく対応していることを示している。 我々の境界は、ビットストリングの目的数と長さの小さな多項式因子と密接な関係にある。 このような厳密な境界がこれらのMOEAの多目的利用に対して証明されたのはこれが初めてである。 このような結果はNSGA-IIでは成り立たないことが知られているが、我々は最近の構造的結果を通じてNSGA-IIIアルゴリズムに遷移することを示す。

Despite significant progress in the field of mathematical runtime analysis of multi-objective evolutionary algorithms (MOEAs), the performance of MOEAs on discrete many-objective problems is little understood. In particular, the few existing bounds for the SEMO, global SEMO, and SMS-EMOA algorithms on classic benchmarks are all roughly quadratic in the size of the Pareto front. In this work, we prove near-tight runtime guarantees for these three algorithms on the four most common benchmark problems OneMinMax, CountingOnesCountingZeros, LeadingOnesTrailingZeros, and OneJumpZeroJump, and this for arbitrary numbers of objectives. Our bounds depend only linearly on the Pareto front size, showing that these MOEAs on these benchmarks cope much better with many objectives than what previous works suggested. Our bounds are tight apart from small polynomial factors in the number of objectives and length of bitstrings. This is the first time that such tight bounds are proven for many-objective uses of these MOEAs. While it is known that such results cannot hold for the NSGA-II, we do show that our bounds, via a recent structural result, transfer to the NSGA-III algorithm.
翻訳日:2024-04-22 15:36:14 公開日:2024-04-19
# Codesearchによる静的解析のカスタマイズ

Customizing Static Analysis using Codesearch ( http://arxiv.org/abs/2404.12747v1 )

ライセンス: Link先を確認
Avi Hayoun, Veselin Raychev, Jack Hair, (参考訳) 静的解析はソフトウェア工学の応用が増えているため、セキュリティツールやバグフィニングツール、ソフトウェア検証など、さまざまな重要なツールが生み出されている。 近年、様々なプロパティを検証し、スキャナのパーツをカスタマイズして追加プロパティや"静的分析ルール"を検証できるような、普遍的な静的解析ツールが増えている。 様々な静的解析アプリケーションを記述するのによく使われる言語は、Datalogである。 残念なことに、この言語はいまだに使いづらいもので、正確には実装が難しいがパフォーマンスのよい方法での分析に繋がる。 本研究は,アプリケーションセキュリティと静的解析の専門家に親しみやすいフレームワークを提供すると同時に,開発者がカスタム静的解析ツールの開発をより容易にすることを目的としている。 我々のアプローチでは,決定手順の低時間複雑化によって,実行速度が速いプログラムのみを含む,データログの変種であるStarLangという言語を導入しています。

Static analysis is a growing application of software engineering, leading to a range of essential security tools, bug-finding tools, as well as software verification. Recent years show an increase of universal static analysis tools that validate a range of properties and allow customizing parts of the scanner to validate additional properties or "static analysis rules". A commonly used language to describe a range of static analysis applications is Datalog. Unfortunately, the language is still non-trivial to use, leading to analysis that is difficult to implement in a precise but performant way. In this work, we aim to make building custom static analysis tools much easier for developers, while at the same time, providing a familiar framework for application security and static analysis experts. Our approach introduces a language called StarLang, a variant of Datalog which only includes programs with a fast runtime by the means of having low time complexity of its decision procedure.
翻訳日:2024-04-22 15:36:14 公開日:2024-04-19
# トラベリングティフ問題におけるヒューリスティックデザインのためのシンボリック回帰の活用

Leveraging Symbolic Regression for Heuristic Design in the Traveling Thief Problem ( http://arxiv.org/abs/2404.12750v1 )

ライセンス: Link先を確認
Andrew Ni, Lee Spector, (参考訳) トラベリング・ティーフ問題(Traveing Thief Problem)は、有名なトラベルセールスマンとクナップサックのパッケージング問題をNPハードで組み合わせた問題である。 本稿では,移動型泥棒アルゴリズムにおいて,効率的なメタヒューリスティックな遺伝的アルゴリズムを設計するために,記号回帰を用いて近最適包装計画の有用な特徴を学習する。 シンボリック回帰を用いてメタヒューリスティックGAを準最適個人に初期化することにより、高速で解釈可能で効果的なパッキング初期化スキームを設計できる。 従来の初期化方式との比較により,アルゴリズム設計の有効性が検証された。

The Traveling Thief Problem is an NP-hard combination of the well known traveling salesman and knapsack packing problems. In this paper, we use symbolic regression to learn useful features of near-optimal packing plans, which we then use to design efficient metaheuristic genetic algorithms for the traveling thief algorithm. By using symbolic regression again to initialize the metaheuristic GA with near-optimal individuals, we are able to design a fast, interpretable, and effective packing initialization scheme. Comparisons against previous initialization schemes validates our algorithm design.
翻訳日:2024-04-22 15:36:14 公開日:2024-04-19
# AutoCrawler: Webクローラ生成のためのプログレッシブなWebエージェント

AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation ( http://arxiv.org/abs/2404.12753v1 )

ライセンス: Link先を確認
Wenhao Huang, Chenghao Peng, Zhixu Li, Jiaqing Liang, Yanghua Xiao, Liqian Wen, Zulong Chen, (参考訳) Webオートメーションは、一般的なWebアクションを自動化し、運用効率を向上し、手動による介入の必要性を減らすことで、複雑なWebタスクを達成する重要な技術である。 ラッパーのような従来の手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。 一方,大規模言語モデル (LLM) によって強化された生成エージェントは,オープンワールドシナリオにおける性能や再利用性に乏しい。 本研究では、垂直情報Webページのためのクローラ生成タスクと、LLMとクローラを組み合わせるパラダイムを導入し、クローラが多様なWeb環境をより効率的に処理できるようにする。 本稿では,段階的理解のためにHTMLの階層構造を利用する2段階フレームワークであるAutoCrawlerを提案する。 トップダウンとステップバックの操作を通じて、AutoCrawlerは誤ったアクションから学び、アクション生成を改善するために継続的にHTMLをプルーする。 複数のLLMを用いて包括的実験を行い,本フレームワークの有効性を実証する。 本論文の資料は \url{https://github.com/EZ-hwh/AutoCrawler} で見ることができる。

Web automation is a significant technique that accomplishes complicated web tasks by automating common web actions, enhancing operational efficiency, and reducing the need for manual intervention. Traditional methods, such as wrappers, suffer from limited adaptability and scalability when faced with a new website. On the other hand, generative agents empowered by large language models (LLMs) exhibit poor performance and reusability in open-world scenarios. In this work, we introduce a crawler generation task for vertical information web pages and the paradigm of combining LLMs with crawlers, which helps crawlers handle diverse and changing web environments more efficiently. We propose AutoCrawler, a two-stage framework that leverages the hierarchical structure of HTML for progressive understanding. Through top-down and step-back operations, AutoCrawler can learn from erroneous actions and continuously prune HTML for better action generation. We conduct comprehensive experiments with multiple LLMs and demonstrate the effectiveness of our framework. Resources of this paper can be found at \url{https://github.com/EZ-hwh/AutoCrawler}
翻訳日:2024-04-22 15:36:14 公開日:2024-04-19
# ベルマン方程式の帰納的制約としての表現ランクの適応正規化

Adaptive Regularization of Representation Rank as an Implicit Constraint of Bellman Equation ( http://arxiv.org/abs/2404.12754v1 )

ライセンス: Link先を確認
Qiang He, Tianyi Zhou, Meng Fang, Setareh Maghsudi, (参考訳) 表現ランクは、価値ネットワークの表現能力を測定する深層強化学習(DRL)におけるニューラルネットワーク(NN)の役割を理解するための重要な概念である。 既存の研究では、このランクを無制限に最大化することに焦点が当てられているが、それでもそのアプローチは学習に過度に複雑なモデルを導入し、パフォーマンスを損なうことになる。 したがって、微調整表現ランクは困難かつ決定的な最適化問題を示す。 この問題に対処するために、表現ランクの適応制御のための指針原理を見出した。 ベルマン方程式を理論的基礎として使用し、連続状態-作用対のコサイン類似性に基づく値ネットワークの上界を導出する。 次に、この上限を利用して新しい正規化器、すなわち BEER (Bellman Equation-based Automatic rank Regularizer) を提案する。 この正規化器は、表現ランクを適応的に正規化し、DRLエージェントの性能を向上させる。 まず,評価実験におけるランクの自動制御の有効性を検証する。 そして、決定論的ポリシー勾配法と組み合わせることで、BEERを複雑な連続制御タスクにスケールアップする。 難易度の高いDeepMindコントロールタスク12つのうち、BEERはベースラインを大きなマージンで上回っている。 さらに、BEERはQ値近似において大きな利点を示す。 私たちのコードはhttps://github.com/sweetice/BEER-ICLR2024で利用可能です。

Representation rank is an important concept for understanding the role of Neural Networks (NNs) in Deep Reinforcement learning (DRL), which measures the expressive capacity of value networks. Existing studies focus on unboundedly maximizing this rank; nevertheless, that approach would introduce overly complex models in the learning, thus undermining performance. Hence, fine-tuning representation rank presents a challenging and crucial optimization problem. To address this issue, we find a guiding principle for adaptive control of the representation rank. We employ the Bellman equation as a theoretical foundation and derive an upper bound on the cosine similarity of consecutive state-action pairs representations of value networks. We then leverage this upper bound to propose a novel regularizer, namely BEllman Equation-based automatic rank Regularizer (BEER). This regularizer adaptively regularizes the representation rank, thus improving the DRL agent's performance. We first validate the effectiveness of automatic control of rank on illustrative experiments. Then, we scale up BEER to complex continuous control tasks by combining it with the deterministic policy gradient method. Among 12 challenging DeepMind control tasks, BEER outperforms the baselines by a large margin. Besides, BEER demonstrates significant advantages in Q-value approximation. Our code is available at https://github.com/sweetice/BEER-ICLR2024.
翻訳日:2024-04-22 15:26:30 公開日:2024-04-19
# 2モード安定化Squeezed Coherent状態における非古典性:量子-古典遷移

Nonclassicality in Two-Mode Stabilized Squeezed Coherent State: Quantum-to-Classical transition ( http://arxiv.org/abs/2404.12758v1 )

ライセンス: Link先を確認
C. Lee, T. H. Yoon, (参考訳) 光の2モード安定化圧縮コヒーレント状態(SSCS)を考えるとともに、結果として生じるEPRに絡み合う状態の非古典性を特徴づける新しい指標である$\Pi_{\rm N}$インジケータを導入する。 Cauchy-Schwarz や Murihead の不等式に基づく既存の方法とは異なり、$\Pi_{\rm N}$ は量子ランゲヴィン方程式の解析的解を利用して、バイクロマティックインジェクション、周波数変換、パラメトリックダウンコンバージョン(自然と刺激の両方)といった主要な過程から生じる非古典性を直接解析する。 このアプローチは、最大非古典性のための最適位相を識別するだけでなく、第1に、キャビティ内場と外部キャビティ場の両方が同じ非古典性を示す2つの新しい現象を明らかにし、第2に、位相ミスマッチした構成におけるバランスの取れたシードは、広範囲のスクイーズおよびシードパラメータにわたって非古典性を引き起こす。 我々の研究は、SSCSの文脈におけるシステムパラメータの非古典性への複雑な依存の理解を深め、絡み合ったシステムにおける量子-古典的遷移の研究の道を開く。 この$\Pi_{\rm N}$のポテンシャルは、量子光学と情報科学の進歩を大いに約束する。

We consider a two-mode stabilized squeezed coherent state (SSCS) of light and introduce the $\Pi_{\rm N}$ indicator, a novel measure for characterizing nonclassicality in the resulting EPR-entangled state. Unlike existing methods based on Cauchy-Schwarz or Murihead inequalities, $\Pi_{\rm N}$ leverages analytical solutions to the quantum Langevin equations to directly analyze nonclassicality arising from key processes like bichromatic injection, frequency conversion, and parametric down-conversion (both spontaneous and stimulated). This approach not only identifies the optimal phase for maximum nonclassicality but also reveals two new phenomena: first, both intra-cavity and extra-cavity fields exhibit the same degree of nonclassicality, and second, balanced seeding in phase-mismatched configurations induces nonclassicality across a broad range of squeezing and seeding parameters. Our work deepens the understanding of the intricate dependence of nonclassicality on system parameters in the context of SSCS, paving the way for investigations into the quantum-to-classical transition in entangled systems. The potential of $\Pi_{\rm N}$ holds significant promise for advancements in quantum optics and information science.
翻訳日:2024-04-22 15:26:30 公開日:2024-04-19
# deoupleQ: パラメータを整数と浮動小数点に分離する2ビット後の均一量子化を目指して

decoupleQ: Towards 2-bit Post-Training Uniform Quantization via decoupling Parameters into Integer and Floating Points ( http://arxiv.org/abs/2404.12759v1 )

ライセンス: Link先を確認
Yi Guo, Fanliu Kong, Xiaoyang Li, Hui Li, Wei Chen, Xiaogang Tian, Jinping Cai, Yang Zhang, Shouda Liu, (参考訳) 近年、様々なリアルタイムアプリケーションに効率的な大規模モデルをデプロイするための最も有望な圧縮技術として量子化が出現している。 重みの記憶とIOが大きなモデル内のオーバーヘッドの大部分を占めていることを考えると、重みのみの量子化は大きな利益をもたらす可能性がある。 しかし、既存の量子化方式は、非常に低ビットでの精度の低下や、デプロイ時に計算オーバーヘッドの増大に悩まされており、産業における大規模アプリケーションに適用することは困難である。 本稿では,モデル精度の大幅な向上,特に極低ビットでのデコプルQを提案する。 deoupleQは従来のヒューリスティックな量子化パラダイムを捨て、モデルパラメータを整数と浮動小数点に分解し、量子化問題を制約付き伝統的な数学的最適化問題に変換し、代わりにオフザシェルフ最適化法によって解決する。 deoupleQによる量子化は線形で均一であり、非ユニフォームの量子化よりもハードウェアフレンドリであり、その堅牢性を高めるために高ビット量子化への移行を可能にする。 ByteDanceの大規模音声モデルの2ビット量子化では,fp16/bf16付近のオンライン精度が良好であった。 コードはhttps://github.com/bytedance/decoupleQで入手できる。

Quantization emerges as one of the most promising compression technologies for deploying efficient large models for various real time application in recent years. Considering that the storage and IO of weights take up the vast majority of the overhead inside a large model, weight only quantization can lead to large gains. However, existing quantization schemes suffer from significant accuracy degradation at very low bits, or require some additional computational overhead when deployed, making it difficult to be applied to large-scale applications in industry. In this paper, we propose decoupleQ, achieving a substantial increase in model accuracy, especially at very low bits. decoupleQ abandons the traditional heuristic quantization paradigm and decouples the model parameters into integer and floating-point parts, thus transforming the quantization problem into a traditional mathematical optimization problem with constraints, which is then solved alternatively by off-the-shelf optimization methods. Quantization via decoupleQ is linear and uniform, making it hardware-friendlier than non-uniform counterpart, and enabling the idea to be migrated to high-bit quantization to enhance its robustness. Our method has achieved well on-line accuracy near fp16/bf16 on the 2-bit quantization of large speech models in ByteDance. The code is available at https://github.com/bytedance/decoupleQ
翻訳日:2024-04-22 15:26:30 公開日:2024-04-19
# AIと共同創造による食品開発--「愛の味」のパン

Food Development through Co-creation with AI: bread with a "taste of love" ( http://arxiv.org/abs/2404.12760v1 )

ライセンス: Link先を確認
Takuya Sera, Izumi Kuwata, Yuki Taya, Noritaka Shimura, Yosuke Motohashi, (参考訳) 本研究は, 消費者の感情に反応し, 感覚を喜ばせる製品を開発することを目的とした, 生成型AIを含むAIを活用した食品開発の新しい手法について検討する。 本研究で用いられる食品成分推奨手法は, テキストを入力とし, 食品成分候補を出力することにより, 広義の多モーダル生成の一形態とみなすことができる。 本研究は,ロマンチックなテレビ番組のニュアンスを反映したフレーバーを取り入れたパン集「ロマンスブレッド」を製作することに焦点を当てた。 テレビ番組の会話や,果物や菓子をフィーチャーした歌詞の歌詞を分析し,ロマンチックな感情を表現する材料を推薦した。 これらの勧告に基づき、パン開発業者はその後、パンの風味を考慮し、新しいパン品種を開発した。 調査には31人の参加者と製品開発者へのインタビューを含むテイスティング評価が含まれていた。 発見は、AIによって生成される味と人間の嗜好との間に顕著な相関関係を示す。 この研究は、食品イノベーションにAIを使用するという概念を検証し、AIと人間のコラボレーションを通じて感情的なエンゲージメントに焦点を当てたユニークな消費者エクスペリエンスを開発するための幅広い可能性を強調している。

This study explores a new method in food development by utilizing AI including generative AI, aiming to craft products that delight the senses and resonate with consumers' emotions. The food ingredient recommendation approach used in this study can be considered as a form of multimodal generation in a broad sense, as it takes text as input and outputs food ingredient candidates. This Study focused on producing "Romance Bread," a collection of breads infused with flavors that reflect the nuances of a romantic Japanese television program. We analyzed conversations from TV programs and lyrics from songs featuring fruits and sweets to recommend ingredients that express romantic feelings. Based on these recommendations, the bread developers then considered the flavoring of the bread and developed new bread varieties. The research included a tasting evaluation involving 31 participants and interviews with the product developers. Findings indicate a notable correlation between tastes generated by AI and human preferences. This study validates the concept of using AI in food innovation and highlights the broad potential for developing unique consumer experiences that focus on emotional engagement through AI and human collaboration.
翻訳日:2024-04-22 15:26:30 公開日:2024-04-19
# AIの決定はどのように説明されるべきか : 欧州法の観点からの説明の必要性

How should AI decisions be explained? Requirements for Explanations from the Perspective of European Law ( http://arxiv.org/abs/2404.12762v1 )

ライセンス: Link先を確認
Benjamin Fresz, Elena Dubovitskaya, Danilo Brajovic, Marco Huber, Christian Horz, (参考訳) 本稿では,法とeXplainable Artificial Intelligence(XAI)の関係について検討する。 AI法について多くの議論があり、欧州議会、評議会、委員会が最近結論づけた。 本稿は欧州法(一部はドイツ)に焦点をあてるが、国際的概念や国際的規制、例えばファイダリー・プラウシビリティ・チェック、GDPR(General Data Protection Regulation)、製品安全・責任等に焦点をあてる。 XAI-taxonomies に基づき、XAI-methods の要件は、それぞれの法基盤から導出され、その結果、各法基盤は異なるXAIプロパティを必要とし、現在の最先端技術は、特に正当性(フィデリティと呼ばれることもある)と XAI-methods の信頼推定に関して、これらを完全な満足に満たさないという結論が導かれる。

This paper investigates the relationship between law and eXplainable Artificial Intelligence (XAI). While there is much discussion about the AI Act, for which the trilogue of the European Parliament, Council and Commission recently concluded, other areas of law seem underexplored. This paper focuses on European (and in part German) law, although with international concepts and regulations such as fiduciary plausibility checks, the General Data Protection Regulation (GDPR), and product safety and liability. Based on XAI-taxonomies, requirements for XAI-methods are derived from each of the legal bases, resulting in the conclusion that each legal basis requires different XAI properties and that the current state of the art does not fulfill these to full satisfaction, especially regarding the correctness (sometimes called fidelity) and confidence estimates of XAI-methods.
翻訳日:2024-04-22 15:26:30 公開日:2024-04-19
# 食事における連続的な学習--制限付き計算による疎ラベルストリームからの学習-

Continual Learning on a Diet: Learning from Sparsely Labeled Streams Under Constrained Computation ( http://arxiv.org/abs/2404.12766v1 )

ライセンス: Link先を確認
Wenxuan Zhang, Youssef Mohamed, Bernard Ghanem, Philip H. S. Torr, Adel Bibi, Mohamed Elhoseiny, (参考訳) そこで本研究では,学習アルゴリズムが学習段階ごとに制限された計算予算を付与する,現実的な連続学習(CL)環境を提案し,研究する。 この設定を,スパースラベル率の高い大規模半教師付き連続学習シナリオに適用する。 従来の有能なCL法は、この挑戦的な環境では非常に不十分に機能する。 粗末なラベル付きデータと不十分な計算予算に過度に適合することは、このようなパフォーマンスの悪い2つの主要な原因である。 我々の新しい設定は、トレーニング中にラベルのないデータを効果的に効果的に活用する学習方法を奨励する。 そこで本稿では,ラベル付きデータとラベル付きデータの両方を併用した,シンプルかつ高効率なベースラインであるDietCLを提案する。 DietCLは、両方のタイプのデータに対して、厳密に計算予算を割り当てる。 制約予算設定の下で, CLOC, ImageNet10K, CGLMなどいくつかのデータセット上でベースラインを大規模に検証する。 ダイエットCLは、既存のCLアルゴリズムや、より最近の連続的な半教師付き手法よりも優れています。 広範に分析と改善を行った結果,DietCLはラベル空間,計算予算,その他様々な改善の完全な範囲で安定していることがわかった。

We propose and study a realistic Continual Learning (CL) setting where learning algorithms are granted a restricted computational budget per time step while training. We apply this setting to large-scale semi-supervised Continual Learning scenarios with sparse label rates. Previous proficient CL methods perform very poorly in this challenging setting. Overfitting to the sparse labeled data and insufficient computational budget are the two main culprits for such a poor performance. Our new setting encourages learning methods to effectively and efficiently utilize the unlabeled data during training. To that end, we propose a simple but highly effective baseline, DietCL, which utilizes both unlabeled and labeled data jointly. DietCL meticulously allocates computational budget for both types of data. We validate our baseline, at scale, on several datasets, e.g., CLOC, ImageNet10K, and CGLM, under constraint budget setups. DietCL outperforms, by a large margin, all existing supervised CL algorithms as well as more recent continual semi-supervised methods. Our extensive analysis and ablations demonstrate that DietCL is stable under a full spectrum of label sparsity, computational budget, and various other ablations.
翻訳日:2024-04-22 15:26:30 公開日:2024-04-19
# MixLight: 球高調波とガウスモデルの両方でベストを尽くす

MixLight: Borrowing the Best of both Spherical Harmonics and Gaussian Models ( http://arxiv.org/abs/2404.12768v1 )

ライセンス: Link先を確認
Xinlong Ji, Fangneng Zhan, Shijian Lu, Shi-Sheng Huang, Hua Huang, (参考訳) シーンライティングの正確な推定は、混合現実のような応用には不可欠である。 既存の作業では、照明マップを生成したり、照明パラメータを回帰することによって照明を推定する。 しかし、照明マップを生成する方法は一般化性能が劣り、球高調波(SH)や球高調波(SG)のようなパラメトリックモデルでは高周波や低周波の成分を捕捉できない。 本稿では、SHとSGの相補的な特性を利用してより完全な照明表現を実現するジョイントモデルであるMixLightについて述べる。 さらに、球状光源間の位置と明るさの関係を示す特別な球状光源スパースマックス(SLSparsemax)モジュールは、その空間性を改善するように設計されている。 大規模な実験では、MixLightが複数のメトリクスの最先端(SOTA)メソッドを超えることが示されている。 さらに、Web Dataset の実験により、MixLight がパラメトリック法として、非パラメトリック法よりも優れた一般化性能を持つことが示された。

Accurately estimating scene lighting is critical for applications such as mixed reality. Existing works estimate illumination by generating illumination maps or regressing illumination parameters. However, the method of generating illumination maps has poor generalization performance and parametric models such as Spherical Harmonic (SH) and Spherical Gaussian (SG) fall short in capturing high-frequency or low-frequency components. This paper presents MixLight, a joint model that utilizes the complementary characteristics of SH and SG to achieve a more complete illumination representation, which uses SH and SG to capture low-frequency ambient and high-frequency light sources respectively. In addition, a special spherical light source sparsemax (SLSparsemax) module that refers to the position and brightness relationship between spherical light sources is designed to improve their sparsity, which is significant but omitted by prior works. Extensive experiments demonstrate that MixLight surpasses state-of-the-art (SOTA) methods on multiple metrics. In addition, experiments on Web Dataset also show that MixLight as a parametric method has better generalization performance than non-parametric methods.
翻訳日:2024-04-22 15:26:30 公開日:2024-04-19
# Ego-Lane推論のためのカメラ非依存2ヘッドネットワーク

Camera Agnostic Two-Head Network for Ego-Lane Inference ( http://arxiv.org/abs/2404.12770v1 )

ライセンス: Link先を確認
Chaehyeon Song, Sungho Yoon, Minhyeok Heo, Ayoung Kim, Sujung Kim, (参考訳) ハイディフィニション(HD)マップを用いたビジョンベースのエゴレーン推論は、自律運転と高度な運転支援システムにおいて不可欠である。 従来のアプローチでは、アルゴリズムが固有のキャリブレーションと外在的なキャリブレーションに依存するため、カメラ構成のばらつきを抑える、よく校正されたカメラが必要である。 本稿では,1つの画像から,ego-laneインデックスを直接推定することで,学習に基づくego-lane推論を提案する。 頑健な性能向上のために,2つの視点でエゴレーンを推定する2つのヘッド構造を同時に組み込んだ。 さらに, 正確な校正を必要とせず, 視点の変化に適応するために, ポイント・アンド・ラインの消滅によって導かれる注意機構を利用する。 本モデルの適応性は,多様な環境,デバイス,カメラ装着点,配向で検証された。

Vision-based ego-lane inference using High-Definition (HD) maps is essential in autonomous driving and advanced driver assistance systems. The traditional approach necessitates well-calibrated cameras, which confines variation of camera configuration, as the algorithm relies on intrinsic and extrinsic calibration. In this paper, we propose a learning-based ego-lane inference by directly estimating the ego-lane index from a single image. To enhance robust performance, our model incorporates the two-head structure inferring ego-lane in two perspectives simultaneously. Furthermore, we utilize an attention mechanism guided by vanishing point-and-line to adapt to changes in viewpoint without requiring accurate calibration. The high adaptability of our model was validated in diverse environments, devices, and camera mounting points and orientations.
翻訳日:2024-04-22 15:26:30 公開日:2024-04-19
# 検索用LLMを用いたNL要件からの試験シナリオの生成:工業的考察

Generating Test Scenarios from NL Requirements using Retrieval-Augmented LLMs: An Industrial Study ( http://arxiv.org/abs/2404.12772v1 )

ライセンス: Link先を確認
Chetan Arora, Tomas Herda, Verena Homm, (参考訳) テストシナリオは、特定のソフトウェア機能を検証するアクションを記述するテストケースの特定のインスタンスである。 ソフトウェアが動作している条件と期待される成果を概説することにより、テストシナリオは、ソフトウェア機能が統合された方法でテストされることを保証する。 テストシナリオは、エッジケースを含むさまざまな条件下でアプリケーションを体系的にテストするために重要であり、潜在的な問題を特定し、全体的なパフォーマンスと信頼性を保証する。 テストシナリオを特定するのは面倒で、ソフトウェア機能と基礎となるドメインを深く理解する必要があります。 さらに、時間と予算に制約のある要件エンジニアとテストチームから、相当な努力と投資を必要とします。 本稿では,Large Language Models (LLMs) を用いたRetrieval-Augmented Generation (RAG) を用いたテストシナリオ生成のための自動アプローチ(RAGTAG)を提案する。 RAGは、特定のドメイン知識とLLMの生成能力の統合を可能にする。 オーストリアポストの2つの産業プロジェクトにおけるRAGTAGの評価を行い,ドイツ語と英語のバイリンガル要件について検討した。 テストシナリオの自動生成におけるRAGTAGの可能性を確認するため,5次元の専門家4名を対象に調査を行った。 具体的には,両言語要件を解析する難しい作業にもかかわらず,RAGTAGは,基礎となる要件に整合したシナリオを生成し,意図した機能の異なる側面をカバーできることを示す。 生成されたシナリオは、専門家にとって容易に理解でき、プロジェクト環境でのテストも可能です。 全体的な正しさは満足できると考えられているが、正確なアクションシーケンスとドメインのニュアンスをキャプチャするギャップは残っており、LLMを適用する際にはドメインの専門知識の必要性が強調されている。

Test scenarios are specific instances of test cases that describe actions to validate a particular software functionality. By outlining the conditions under which the software operates and the expected outcomes, test scenarios ensure that the software functionality is tested in an integrated manner. Test scenarios are crucial for systematically testing an application under various conditions, including edge cases, to identify potential issues and guarantee overall performance and reliability. Specifying test scenarios is tedious and requires a deep understanding of software functionality and the underlying domain. It further demands substantial effort and investment from already time- and budget-constrained requirements engineers and testing teams. This paper presents an automated approach (RAGTAG) for test scenario generation using Retrieval-Augmented Generation (RAG) with Large Language Models (LLMs). RAG allows the integration of specific domain knowledge with LLMs' generation capabilities. We evaluate RAGTAG on two industrial projects from Austrian Post with bilingual requirements in German and English. Our results from an interview survey conducted with four experts on five dimensions -- relevance, coverage, correctness, coherence and feasibility, affirm the potential of RAGTAG in automating test scenario generation. Specifically, our results indicate that, despite the difficult task of analyzing bilingual requirements, RAGTAG is able to produce scenarios that are well-aligned with the underlying requirements and provide coverage of different aspects of the intended functionality. The generated scenarios are easily understandable to experts and feasible for testing in the project environment. The overall correctness is deemed satisfactory; however, gaps in capturing exact action sequences and domain nuances remain, underscoring the need for domain expertise when applying LLMs.
翻訳日:2024-04-22 15:26:30 公開日:2024-04-19
# EfficientGS:大規模高解像度シーン表現のためのガウス平滑化

EfficientGS: Streamlining Gaussian Splatting for Large-Scale High-Resolution Scene Representation ( http://arxiv.org/abs/2404.12777v1 )

ライセンス: Link先を確認
Wenkai Liu, Tao Guan, Bin Zhu, Lili Ju, Zikai Song, Dan Li, Yuesong Wang, Wei Yang, (参考訳) 3Dシーン表現の領域では、3Dガウススプラッティング(3DGS)が重要な技術として登場している。 しかし、大規模で高解像度なシーン(4k$\times$4kピクセル)への応用は、多数のガウスを管理するための過剰な計算要求によって妨げられている。 この問題に対処するために,高解像度で大規模なシーンに3DGSを最適化する高度なアプローチである'EfficientGS'を紹介した。 3DGSの密度化過程を解析し,ガウスの過剰増殖領域を同定した。 キープリミティブにガウス的増加を制限し,表現効率を向上する選択的戦略を提案する。 さらに, 余剰ガウスを除去するプルーニング機構を開発した。 さらなる拡張のために、ストレージ制約を緩和し、トレーニングオーバーヘッドを低減するために設計された、Spherical Harmonics (SH) のスパースオーダーインクリメントを統合する。 広範囲な4K以上の空中画像を含む様々なデータセットを用いて実験を行った結果,「効率的なGS」は訓練時間やレンダリング時間を短縮するだけでなく,従来の3DGSよりも10倍小さいモデルサイズで実現し,高いレンダリング精度を維持した。

In the domain of 3D scene representation, 3D Gaussian Splatting (3DGS) has emerged as a pivotal technology. However, its application to large-scale, high-resolution scenes (exceeding 4k$\times$4k pixels) is hindered by the excessive computational requirements for managing a large number of Gaussians. Addressing this, we introduce 'EfficientGS', an advanced approach that optimizes 3DGS for high-resolution, large-scale scenes. We analyze the densification process in 3DGS and identify areas of Gaussian over-proliferation. We propose a selective strategy, limiting Gaussian increase to key primitives, thereby enhancing the representational efficiency. Additionally, we develop a pruning mechanism to remove redundant Gaussians, those that are merely auxiliary to adjacent ones. For further enhancement, we integrate a sparse order increment for Spherical Harmonics (SH), designed to alleviate storage constraints and reduce training overhead. Our empirical evaluations, conducted on a range of datasets including extensive 4K+ aerial images, demonstrate that 'EfficientGS' not only expedites training and rendering times but also achieves this with a model size approximately tenfold smaller than conventional 3DGS while maintaining high rendering fidelity.
翻訳日:2024-04-22 15:26:30 公開日:2024-04-19
# ユーザ排除によるフェデレーション学習におけるデータ汚染対策

Defending against Data Poisoning Attacks in Federated Learning via User Elimination ( http://arxiv.org/abs/2404.12778v1 )

ライセンス: Link先を確認
Nick Galanis, (参考訳) フェデレート・ラーニング(FL)の進化する状況において、新たなタイプの攻撃は、研究コミュニティ、すなわちデータポジティング・アタック(Data Poisoning Attacks)に関するもので、トレーニングデータを悪意ある変更によってモデルの完全性を脅かす。 本稿では,フェデレーションモデルにおける敵ユーザの戦略的排除に焦点をあてた,新たな防御フレームワークを提案する。 我々は、ローカルトレーニングインスタンスが収集したメタデータと差分プライバシー技術を統合することにより、フェデレートアルゴリズムのアグリゲーションフェーズにおけるこれらの異常を検出し、データの漏洩がないようにする。 我々の知る限り、これはFL分野における最初の提案であり、報告されたローカルモデルの誠実さを保証するために、モデルの勾配以外のメタデータを活用する。 提案手法の有効性を実証し,ユーザのプライバシとモデル性能を維持しながらデータ汚染のリスクを大幅に軽減した。 この新たなユーザ排除アプローチは、プライバシーとユーティリティのバランスを保ち、学術的にも業界的にも、安全なドメインにおけるFLの安全な採用を優先する議論の根幹となることを示唆している。

In the evolving landscape of Federated Learning (FL), a new type of attacks concerns the research community, namely Data Poisoning Attacks, which threaten the model integrity by maliciously altering training data. This paper introduces a novel defensive framework focused on the strategic elimination of adversarial users within a federated model. We detect those anomalies in the aggregation phase of the Federated Algorithm, by integrating metadata gathered by the local training instances with Differential Privacy techniques, to ensure that no data leakage is possible. To our knowledge, this is the first proposal in the field of FL that leverages metadata other than the model's gradients in order to ensure honesty in the reported local models. Our extensive experiments demonstrate the efficacy of our methods, significantly mitigating the risk of data poisoning while maintaining user privacy and model performance. Our findings suggest that this new user elimination approach serves us with a great balance between privacy and utility, thus contributing to the arsenal of arguments in favor of the safe adoption of FL in safe domains, both in academic setting and in the industry.
翻訳日:2024-04-22 15:26:30 公開日:2024-04-19
# ライブビデオコメントのための感性指向トランスフォーマーに基づく変分オートエンコーダネットワーク

Sentiment-oriented Transformer-based Variational Autoencoder Network for Live Video Commenting ( http://arxiv.org/abs/2404.12782v1 )

ライセンス: Link先を確認
Fengyi Fu, Shancheng Fang, Weidong Chen, Zhendong Mao, (参考訳) ナレーション生成や話題説明などの重要さから,ライブビデオの自動コメントが注目を集めている。 しかしながら、生成されたコメントに対する多様な感情的考慮は、現在の方法からは欠落している。 感情的要因は、対話的なコメントや研究の欠如において重要である。 そこで本稿では,感性指向の多様性エンコーダモジュールとバッチアテンションモジュールからなる感性指向トランスフォーマーベースの変分自動エンコーダ(So-TVAE)ネットワークを提案する。 具体的には、感情指向の多様性エンコーダは、VAEとランダムマスク機構をエレガントに組み合わせ、感情誘導の下で意味的な多様性を達成する。 また,本論文では,ビデオの人気が変化するにつれてライブビデオに共通するデータ不均衡に起因する感情サンプルの欠落の問題を軽減するため,バッチアテンションモジュールも提案している。 LivebotとVideoICデータセットの大規模な実験により、提案されたSo-TVAEは、生成したコメントの品質と多様性の観点から最先端の手法より優れていることが示された。 関連コードはhttps://github.com/fufy1024/So-TVAEで入手できる。

Automatic live video commenting is with increasing attention due to its significance in narration generation, topic explanation, etc. However, the diverse sentiment consideration of the generated comments is missing from the current methods. Sentimental factors are critical in interactive commenting, and lack of research so far. Thus, in this paper, we propose a Sentiment-oriented Transformer-based Variational Autoencoder (So-TVAE) network which consists of a sentiment-oriented diversity encoder module and a batch attention module, to achieve diverse video commenting with multiple sentiments and multiple semantics. Specifically, our sentiment-oriented diversity encoder elegantly combines VAE and random mask mechanism to achieve semantic diversity under sentiment guidance, which is then fused with cross-modal features to generate live video comments. Furthermore, a batch attention module is also proposed in this paper to alleviate the problem of missing sentimental samples, caused by the data imbalance, which is common in live videos as the popularity of videos varies. Extensive experiments on Livebot and VideoIC datasets demonstrate that the proposed So-TVAE outperforms the state-of-the-art methods in terms of the quality and diversity of generated comments. Related code is available at https://github.com/fufy1024/So-TVAE.
翻訳日:2024-04-22 15:26:30 公開日:2024-04-19
# MITRE ATT&CKを用いたサイバー詐欺に対するアクティブデコイ選択方式

A Proactive Decoy Selection Scheme for Cyber Deception using MITRE ATT&CK ( http://arxiv.org/abs/2404.12783v1 )

ライセンス: Link先を確認
Marco Zambianco, Claudio Facchinetti, Domenico Siracusa, (参考訳) サイバー詐欺は、攻撃者の戦術、技術、手順(TTP)に対する防御者の遅滞対応を補うことができる。 このプロアクティブディフェンス戦略は、正統なシステムコンポーネントに似たデコイを用いて、ディフェンダー環境内のステルスな攻撃者を誘惑し、目標達成を遅らせたり、あるいは否定したりする。 この点において、悪意のあるユーザによって使用されるテクニックを公開できるデコイの選択は、そのエンゲージメントをインセンティブ化するための中心的な役割を担っている。 しかし、攻撃能力と可能なターゲットの正確かつ現実的なモデリングを必要とするため、実際にはこれは達成が難しいタスクである。 本研究では,この課題に取り組み,実世界の攻撃者の経験的観察に基づく敵モデルにより支援されたデコイ選択スキームを設計する。 我々は,エンタープライズシステムを対象とした攻撃的TTPのソースとして,MITRE ATT&CKフレームワークを用いたドメイン固有の脅威モデリング言語を利用する。 本稿では,各手法の実行条件に関する情報と,その環境への影響を抽出し,敵の能力をモデル化したアタックグラフを生成する。 これに基づいて,特定の目標に向けられた様々な攻撃経路において,対応するテクニックを検出するデコイの数を最小限に抑えるグラフ分割問題を定式化する。 最適化に基づくデコイ選択手法を,様々な攻撃手順の事前条件を無視したベンチマーク方式と比較する。 その結果,提案手法は最小のデコイを用いた攻撃経路のインターセプション率が最も高いことがわかった。

Cyber deception allows compensating the late response of defenders countermeasures to the ever evolving tactics, techniques, and procedures (TTPs) of attackers. This proactive defense strategy employs decoys resembling legitimate system components to lure stealthy attackers within the defender environment, slowing and/or denying the accomplishment of their goals. In this regard, the selection of decoys that can expose the techniques used by malicious users plays a central role to incentivize their engagement. However, this is a difficult task to achieve in practice, since it requires an accurate and realistic modeling of the attacker capabilities and his possible targets. In this work, we tackle this challenge and we design a decoy selection scheme that is supported by an adversarial modeling based on empirical observation of real-world attackers. We take advantage of a domain-specific threat modelling language using MITRE ATT&CK framework as source of attacker TTPs targeting enterprise systems. In detail, we extract the information about the execution preconditions of each technique as well as its possible effects on the environment to generate attack graphs modeling the adversary capabilities. Based on this, we formulate a graph partition problem that minimizes the number of decoys detecting a corresponding number of techniques employed in various attack paths directed to specific targets. We compare our optimization-based decoy selection approach against several benchmark schemes that ignore the preconditions between the various attack steps. Results reveal that the proposed scheme provides the highest interception rate of attack paths using the lowest amount of decoys.
翻訳日:2024-04-22 15:26:30 公開日:2024-04-19
# 対照的なガウス的クラスタリング:弱めに監督された3次元シーンセグメンテーション

Contrastive Gaussian Clustering: Weakly Supervised 3D Scene Segmentation ( http://arxiv.org/abs/2404.12784v1 )

ライセンス: Link先を確認
Myrna C. Silva, Mahtab Dahaghin, Matteo Toso, Alessio Del Bue, (参考訳) コントラッシブ・ガウス・クラスタリング(Contrastive Gaussian Clustering)は,任意の視点からセグメンテーションマスクを提供し,シーンの3次元セグメンテーションを可能にする新しいアプローチである。 新規ビュー合成における最近の研究は、3Dガウシアンの雲を通してシーンの外観をモデル化する方法と、その色を$\alpha$に混ぜる前にガウシアンに投影することで、与えられた視点から正確な画像を生成する方法を示している。 この例に従って、各ガウスについて分割特徴ベクトルを含むようにモデルを訓練する。 次にこれらは、3Dシーンのセグメンテーション、特徴ベクトルに従ってガウスをクラスタリングし、2Dセグメンテーションマスクを生成することで、平面上にガウスを投影し、そのセグメンテーション特徴に$\alpha$をブレンディングすることで使用することができる。 コントラスト学習と空間正規化の組み合わせを用いることで,不整合な2次元セグメンテーションマスクをトレーニングし,また,すべてのビューに整合したセグメンテーションマスクの生成を学習することができる。 さらに、得られたモデルは非常に正確であり、予測マスクのIoU精度を最先端よりも+8\%以上向上させる。 コードとトレーニングされたモデルも間もなくリリースされる予定だ。

We introduce Contrastive Gaussian Clustering, a novel approach capable of provide segmentation masks from any viewpoint and of enabling 3D segmentation of the scene. Recent works in novel-view synthesis have shown how to model the appearance of a scene via a cloud of 3D Gaussians, and how to generate accurate images from a given viewpoint by projecting on it the Gaussians before $\alpha$ blending their color. Following this example, we train a model to include also a segmentation feature vector for each Gaussian. These can then be used for 3D scene segmentation, by clustering Gaussians according to their feature vectors; and to generate 2D segmentation masks, by projecting the Gaussians on a plane and $\alpha$ blending over their segmentation features. Using a combination of contrastive learning and spatial regularization, our method can be trained on inconsistent 2D segmentation masks, and still learn to generate segmentation masks consistent across all views. Moreover, the resulting model is extremely accurate, improving the IoU accuracy of the predicted masks by $+8\%$ over the state of the art. Code and trained models will be released soon.
翻訳日:2024-04-22 15:26:30 公開日:2024-04-19
# REXEL: ドキュメントレベル関係抽出とエンティティリンクのためのエンドツーエンドモデル

REXEL: An End-to-end Model for Document-Level Relation Extraction and Entity Linking ( http://arxiv.org/abs/2404.12788v1 )

ライセンス: Link先を確認
Nacime Bouziani, Shubhi Tyagi, Joseph Fisher, Jens Lehmann, Andrea Pierleoni, (参考訳) 構造化されていないテキストから構造化された情報を抽出することは、多くの下流NLPアプリケーションにとって重要であり、伝統的にクローズド情報抽出(cIE)によって達成される。 しかし、既存のcIEのアプローチには2つの制限がある。 i) しばしばパイプラインであり、エラーの伝播や/またはその傾向を悪化させる。 (ii) 文レベルに制限され, 長距離依存を捕捉できなくなり, 高い推論時間が得られる。 本稿では,文書レベルcIE(DocIE)の協調作業のための高効率かつ高精度なモデルであるREXELを提案することで,これらの制約に対処する。 REXELは参照検出、エンティティタイピング、エンティティの曖昧化、コア参照解決、文書レベルの関係分類を単一のフォワードパスで実行し、参照知識グラフに完全にリンクした事実を生成する。 同様の設定では、競合する既存のアプローチよりも平均11倍高速で、各サブタスクに最適化された場合と、さまざまなジョイントタスクの組み合わせの両方で、ベースラインを平均6 F1ポイント以上上回る。 速度と精度の組み合わせにより、REXELはWebスケールで構造化された情報を抽出する正確なコスト効率のシステムとなる。 また、DocREDデータセットを拡張して、DocIEの将来の作業のベンチマークを可能にします。

Extracting structured information from unstructured text is critical for many downstream NLP applications and is traditionally achieved by closed information extraction (cIE). However, existing approaches for cIE suffer from two limitations: (i) they are often pipelines which makes them prone to error propagation, and/or (ii) they are restricted to sentence level which prevents them from capturing long-range dependencies and results in expensive inference time. We address these limitations by proposing REXEL, a highly efficient and accurate model for the joint task of document level cIE (DocIE). REXEL performs mention detection, entity typing, entity disambiguation, coreference resolution and document-level relation classification in a single forward pass to yield facts fully linked to a reference knowledge graph. It is on average 11 times faster than competitive existing approaches in a similar setting and performs competitively both when optimised for any of the individual subtasks and a variety of combinations of different joint tasks, surpassing the baselines by an average of more than 6 F1 points. The combination of speed and accuracy makes REXEL an accurate cost-efficient system for extracting structured information at web-scale. We also release an extension of the DocRED dataset to enable benchmarking of future work on DocIE, which is available at https://github.com/amazon-science/e2e-docie.
翻訳日:2024-04-22 15:26:30 公開日:2024-04-19
# 最も単純な因果ネットワークにおける量子非古典性

Quantum non-classicality in the simplest causal network ( http://arxiv.org/abs/2404.12790v1 )

ライセンス: Link先を確認
Pedro Lauand, Davide Poderini, Rafael Rabelo, Rafael Chaves, (参考訳) 最も単純なシナリオは、量子相関と因果関係の古典理論の不整合に繋がる最も単純なシナリオは何ですか? ここでは、3つの二コトミック変数からなるネットワークにおいて、局所性仮定を必要とせず、外部測定の選択も必要とせず、量子的非古典性は可能であることを示す。 また、因果推論の分野で中心的なツールである介入の使用は、この新しいタイプの非古典的行動のノイズロバスト性を大幅に改善し、現在の技術を用いた実験で実現可能であることも示している。

Bell's theorem prompts us with a fundamental inquiry: what is the simplest scenario leading to the incompatibility between quantum correlations and the classical theory of causality? Here we demonstrate that quantum non-classicality is possible in a network consisting of only three dichotomic variables, without the need of the locality assumption neither external measurement choices. We also show that the use of interventions, a central tool in the field of causal inference, significantly improves the noise robustness of this new kind of non-classical behaviour, making it feasible for experimental tests with current technology.
翻訳日:2024-04-22 15:16:46 公開日:2024-04-19
# ディープラーニングを用いた大規模データのためのファジィ論理系の効率的な学習

Efficient Learning of Fuzzy Logic Systems for Large-Scale Data Using Deep Learning ( http://arxiv.org/abs/2404.12792v1 )

ライセンス: Link先を確認
Ata Koklu, Yusuf Guven, Tufan Kumbasar, (参考訳) Type-1 と Interval Type-2 (IT2) Fuzzy Logic Systems (FLS) は、それらの類似したルールベースの構造と共に不確実性を扱うのに優れている。 しかし、次元性の呪いやFLSの訓練の複雑さなど、大規模なデータ課題の学習において発生する。 複雑性は主に、学習可能なパラメータがFSを定義し、特にIT2-FLSの集合計算手法の中心が複雑になるため、満足すべき制約が原因である。 本稿では, FLS の学習問題に着目し,Deep Learning (DL) 領域に埋め込まれた計算効率の高い学習手法を提案する。 提案手法は,計算効率のよいFLSの実装を提示することにより,FLSの学習課題に対処し,最小バッチのDLオプティマイザとDLフレームワーク内の自動微分を活用しながら,トレーニング時間を最小化する。 ベンチマークデータセット上で、FLSのためのDLフレームワークの効率について説明する。

Type-1 and Interval Type-2 (IT2) Fuzzy Logic Systems (FLS) excel in handling uncertainty alongside their parsimonious rule-based structure. Yet, in learning large-scale data challenges arise, such as the curse of dimensionality and training complexity of FLSs. The complexity is due mainly to the constraints to be satisfied as the learnable parameters define FSs and the complexity of the center of the sets calculation method, especially of IT2-FLSs. This paper explicitly focuses on the learning problem of FLSs and presents a computationally efficient learning method embedded within the realm of Deep Learning (DL). The proposed method tackles the learning challenges of FLSs by presenting computationally efficient implementations of FLSs, thereby minimizing training time while leveraging mini-batched DL optimizers and automatic differentiation provided within the DL frameworks. We illustrate the efficiency of the DL framework for FLSs on benchmark datasets.
翻訳日:2024-04-22 15:16:46 公開日:2024-04-19
# MambaMOS:動き認識状態空間モデルによるLiDARによる3次元移動物体のセグメンテーション

MambaMOS: LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model ( http://arxiv.org/abs/2404.12794v1 )

ライセンス: Link先を確認
Kang Zeng, Hao Shi, Jiacheng Lin, Siyu Li, Jintao Cheng, Kaiwei Wang, Zhiyong Li, Kailun Yang, (参考訳) LiDARベースの移動物体分割(Motion Object Segmentation, MOS)は、現在のスキャンの点雲における移動物体の位置とセグメントを、以前のスキャンからの動き情報を用いて求めることを目的としている。 従来のMOS手法による有望な結果にもかかわらず、時間的・空間的な情報の弱い結合などいくつかの重要な問題はまだ研究が必要である。 本稿では,動き認識状態空間モデル(MambaMOS)を用いた新しいLiDARベースの3次元移動物体セグメンテーションを提案する。 まず,新しい組込みモジュールであるTime Clue Bootstrapping Embedding (TCBE)を開発した。 次に、動作認識状態空間モデル(MSSM)を導入し、異なる時間ステップで同じ物体の時間的相関を理解する能力を持つモデルを提案する。 特に、MSSMは2つの異なる時間的モデリングと相関ステップを通して、同じ物体の運動状態を異なる時間ステップで強調する。 我々は、これらの運動差を表すために改良された状態空間モデルを使用し、運動状態を大幅にモデル化する。 最後に、SemanticKITTI-MOSとKITTI-Roadベンチマークに関する広範な実験により、提案したMambaMOSが最先端のパフォーマンスを達成することを示した。 この作業のソースコードはhttps://github.com/Terminal-K/MambaMOSで公開されている。

LiDAR-based Moving Object Segmentation (MOS) aims to locate and segment moving objects in point clouds of the current scan using motion information from previous scans. Despite the promising results achieved by previous MOS methods, several key issues, such as the weak coupling of temporal and spatial information, still need further study. In this paper, we propose a novel LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model, termed MambaMOS. Firstly, we develop a novel embedding module, the Time Clue Bootstrapping Embedding (TCBE), to enhance the coupling of temporal and spatial information in point clouds and alleviate the issue of overlooked temporal clues. Secondly, we introduce the Motion-aware State Space Model (MSSM) to endow the model with the capacity to understand the temporal correlations of the same object across different time steps. Specifically, MSSM emphasizes the motion states of the same object at different time steps through two distinct temporal modeling and correlation steps. We utilize an improved state space model to represent these motion differences, significantly modeling the motion states. Finally, extensive experiments on the SemanticKITTI-MOS and KITTI-Road benchmarks demonstrate that the proposed MambaMOS achieves state-of-the-art performance. The source code of this work will be made publicly available at https://github.com/Terminal-K/MambaMOS.
翻訳日:2024-04-22 15:16:46 公開日:2024-04-19
# 効率的なLiDARマルチタスク認識のためのポイントベースアプローチ

A Point-Based Approach to Efficient LiDAR Multi-Task Perception ( http://arxiv.org/abs/2404.12798v1 )

ライセンス: Link先を確認
Christopher Lang, Alexander Braun, Lars Schillingmann, Abhinav Valada, (参考訳) マルチタスクネットワークはシングルタスクネットワークと比較してパフォーマンスと計算効率を向上し、オンラインデプロイメントを容易にする可能性がある。 しかし、ポイントクラウド知覚における現在のマルチタスクアーキテクチャは、複数のタスク固有のポイントクラウド表現を組み合わせており、それぞれが別々の機能エンコーダを必要とし、ネットワーク構造をばらばらで遅くしている。 本稿では,ポイントベース表現にのみ依存する点群における共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャであるPAttFormerを提案する。 このネットワークは、近隣の注意とグリッドプールを用いたトランスフォーマーベースの機能エンコーダと、新しい3Dデフォルマブルアテンション検出ヘッド設計を用いたクエリベースの検出デコーダを基盤としている。 他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerは、複数のタスク固有のポイントクラウド表現のために別々の機能エンコーダを必要としない。 マルチタスク学習では,mIouでのLiDARセマンティックセグメンテーションが+1.7%向上し,nuScenesベンチマークでは3Dオブジェクト検出が+1.7%向上した。

Multi-task networks can potentially improve performance and computational efficiency compared to single-task networks, facilitating online deployment. However, current multi-task architectures in point cloud perception combine multiple task-specific point cloud representations, each requiring a separate feature encoder and making the network structures bulky and slow. We propose PAttFormer, an efficient multi-task architecture for joint semantic segmentation and object detection in point clouds that only relies on a point-based representation. The network builds on transformer-based feature encoders using neighborhood attention and grid-pooling and a query-based detection decoder using a novel 3D deformable-attention detection head design. Unlike other LiDAR-based multi-task architectures, our proposed PAttFormer does not require separate feature encoders for multiple task-specific point cloud representations, resulting in a network that is 3x smaller and 1.4x faster while achieving competitive performance on the nuScenes and KITTI benchmarks for autonomous driving perception. Our extensive evaluations show substantial gains from multi-task learning, improving LiDAR semantic segmentation by +1.7% in mIou and 3D object detection by +1.7% in mAP on the nuScenes benchmark compared to the single-task models.
翻訳日:2024-04-22 15:16:46 公開日:2024-04-19
# Zadehの2型ファジィ論理系:精度と高精度予測間隔

Zadeh's Type-2 Fuzzy Logic Systems: Precision and High-Quality Prediction Intervals ( http://arxiv.org/abs/2404.12800v1 )

ライセンス: Link先を確認
Yusuf Guven, Ata Koklu, Tufan Kumbasar, (参考訳) General Type-2 (GT2) Fuzzy Logic Systems (FLSs) は、不確実性を表す強力なツールであるため、リスクの高いタスクにおける情報決定に不可欠である不確実性を定量化するのに最適な候補である。 本稿では,Zadeh (Z) GT2 Fuzzy Set (FS) の定義を採用し,信頼性の高い高品質予測区間(HQ-PI)の実現が可能な GT2-FLS を精度良く学習することを目的として,GT2-FLS を新たに検討する。 Z-GT2-FS と \(\alpha\)-平面表現を統合することにより、GT2-FLS の設計柔軟性が向上することを示す。 Z-GT2-FLSの構成を詳細に説明した後、高次元データから学習しながら課題に対する解決策を提供する。 高性能なデュアルフォーカスZ-GT2-FLSを学習するためのDLフレームワークを開発した。 本研究は,Z-GT2-FLSが高精度性能を示すだけでなく,より学習可能なパラメータを持つGT2やIT2ファジィに比べてHQ-PIを生成することを明らかにする統計分析を含む。 その結果、Z-GT2-FLSは不確実な定量化において大きなポテンシャルを持つことが示された。

General Type-2 (GT2) Fuzzy Logic Systems (FLSs) are perfect candidates to quantify uncertainty, which is crucial for informed decisions in high-risk tasks, as they are powerful tools in representing uncertainty. In this paper, we travel back in time to provide a new look at GT2-FLSs by adopting Zadeh's (Z) GT2 Fuzzy Set (FS) definition, intending to learn GT2-FLSs that are capable of achieving reliable High-Quality Prediction Intervals (HQ-PI) alongside precision. By integrating Z-GT2-FS with the \(\alpha\)-plane representation, we show that the design flexibility of GT2-FLS is increased as it takes away the dependency of the secondary membership function from the primary membership function. After detailing the construction of Z-GT2-FLSs, we provide solutions to challenges while learning from high-dimensional data: the curse of dimensionality, and integrating Deep Learning (DL) optimizers. We develop a DL framework for learning dual-focused Z-GT2-FLSs with high performances. Our study includes statistical analyses, highlighting that the Z-GT2-FLS not only exhibits high-precision performance but also produces HQ-PIs in comparison to its GT2 and IT2 fuzzy counterparts which have more learnable parameters. The results show that the Z-GT2-FLS has a huge potential in uncertainty quantification.
翻訳日:2024-04-22 15:16:46 公開日:2024-04-19
# インターバル型2ファジィ論理系の拡張:精度と予測間隔の学習

Enhancing Interval Type-2 Fuzzy Logic Systems: Learning for Precision and Prediction Intervals ( http://arxiv.org/abs/2404.12802v1 )

ライセンス: Link先を確認
Ata Koklu, Yusuf Guven, Tufan Kumbasar, (参考訳) 本稿では,高リスクシナリオにおける予測区間(PI)の生成に取り組み,その学習課題に対処するためにインターバルタイプ2(IT2)ファジィ論理系(FLS)の学習強化を提案する。 この文脈では、まずKarnik-Mendel (KM) と Nie-Tan (NT) の中心に余分な設計の柔軟性を提供し、PI生成の柔軟性を高める。 これらの改良により, 溶解段階におけるKMの柔軟性が向上し, 溶融段階におけるNTの柔軟性が向上した。 大規模学習課題に対処するため,IT2-FLSの制約学習問題をパラメータ化トリックによって制約のない形式に変換し,ディープラーニングオプティマイザの直接適用を可能にする。 次元問題の呪いに対処するため,タイプ1 FLSをIT2-FLSに拡張する高次元高木スゲノカン(HTSK)法を提案し,その結果,HTSK2法が提案される。 さらに,IT2-FLSの高度化とPI生成を目的としたフレームワークも導入した。 総合的な統計的結果から,HTSK2は次元問題に効果的に対応し,KM法とNT法はIT2-FLSの学習と不確実性定量化性能を改善した。

In this paper, we tackle the task of generating Prediction Intervals (PIs) in high-risk scenarios by proposing enhancements for learning Interval Type-2 (IT2) Fuzzy Logic Systems (FLSs) to address their learning challenges. In this context, we first provide extra design flexibility to the Karnik-Mendel (KM) and Nie-Tan (NT) center of sets calculation methods to increase their flexibility for generating PIs. These enhancements increase the flexibility of KM in the defuzzification stage while the NT in the fuzzification stage. To address the large-scale learning challenge, we transform the IT2-FLS's constraint learning problem into an unconstrained form via parameterization tricks, enabling the direct application of deep learning optimizers. To address the curse of dimensionality issue, we expand the High-Dimensional Takagi-Sugeno-Kang (HTSK) method proposed for type-1 FLS to IT2-FLSs, resulting in the HTSK2 approach. Additionally, we introduce a framework to learn the enhanced IT2-FLS with a dual focus, aiming for high precision and PI generation. Through exhaustive statistical results, we reveal that HTSK2 effectively addresses the dimensionality challenge, while the enhanced KM and NT methods improved learning and enhanced uncertainty quantification performances of IT2-FLSs.
翻訳日:2024-04-22 15:16:46 公開日:2024-04-19
# TextSquare: テキスト中心のビジュアルインストラクションチューニングのスケールアップ

TextSquare: Scaling up Text-Centric Visual Instruction Tuning ( http://arxiv.org/abs/2404.12803v1 )

ライセンス: Link先を確認
Jingqun Tang, Chunhui Lin, Zhen Zhao, Shu Wei, Binghong Wu, Qi Liu, Hao Feng, Yang Li, Siqi Wang, Lei Liao, Wei Shi, Yuliang Liu, Hao Liu, Yuan Xie, Xiang Bai, Can Huang, (参考訳) テキスト中心の視覚的質問応答(VQA)は、MLLM(Multimodal Large Language Models)の開発において大きな進歩を遂げてきたが、GPT4VやGeminiのような主要なモデルには相変わらずオープンソースモデルは不足している。 そこで本研究では,大規模かつ高品質な命令チューニングデータセットであるSquare-10Mを,クローズドソースMLLMを用いて生成する手法を提案する。 データ構築プロセスはSquareと呼ばれ、Self-Questioning, Answering, Reasoning, Evaluationの4つのステップで構成されている。 Square-10Mによる実験は、3つの重要な発見につながった。 1) われわれのモデルであるTextSquareは,従来の最先端のText中心のMLLMをかなり上回り,OCRBench(62.2%)に新たな標準を設定している。 さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。 2) VQA推論データが特定の質問に対して総合的な文脈的洞察を提供する上で重要な役割を担っていることを示す。 これは精度を向上するだけでなく、幻覚を著しく緩和する。 具体的には、TextSquareは4つの一般的なVQAと幻覚評価データセットの平均75.1%をスコアし、従来の最先端モデルを上回っている。 3) テキスト中心のVQAデータセットのスケールにおいて観察される現象は鮮明なパターンを呈する: インストラクションチューニングデータボリュームの指数的増加はモデル性能の向上に直接比例し, データセットスケールの必要性とSquare-10Mの高品質さを検証した。

Text-centric visual question answering (VQA) has made great strides with the development of Multimodal Large Language Models (MLLMs), yet open-source models still fall short of leading models like GPT4V and Gemini, partly due to a lack of extensive, high-quality instruction tuning data. To this end, we introduce a new approach for creating a massive, high-quality instruction-tuning dataset, Square-10M, which is generated using closed-source MLLMs. The data construction process, termed Square, consists of four steps: Self-Questioning, Answering, Reasoning, and Evaluation. Our experiments with Square-10M led to three key findings: 1) Our model, TextSquare, considerably surpasses open-source previous state-of-the-art Text-centric MLLMs and sets a new standard on OCRBench(62.2%). It even outperforms top-tier models like GPT4V and Gemini in 6 of 10 text-centric benchmarks. 2) Additionally, we demonstrate the critical role of VQA reasoning data in offering comprehensive contextual insights for specific questions. This not only improves accuracy but also significantly mitigates hallucinations. Specifically, TextSquare scores an average of 75.1% across four general VQA and hallucination evaluation datasets, outperforming previous state-of-the-art models. 3) Notably, the phenomenon observed in scaling text-centric VQA datasets reveals a vivid pattern: the exponential increase of instruction tuning data volume is directly proportional to the improvement in model performance, thereby validating the necessity of the dataset scale and the high quality of Square-10M.
翻訳日:2024-04-22 15:16:46 公開日:2024-04-19
# パン焼成用リニア進化変圧器

Linearly-evolved Transformer for Pan-sharpening ( http://arxiv.org/abs/2404.12804v1 )

ライセンス: Link先を確認
Junming Hou, Zihan Cao, Naishan Zheng, Xuan Li, Xiaoyu Chen, Xinyang Liu, Xiaofeng Cong, Man Zhou, Danfeng Hong, (参考訳) ビジョン・トランスフォーマー・ファミリーは、中心となる自己注意成分から、グローバルな空間情報モデリング機構によって駆動される衛星パンシャーピング・フィールドを支配してきた。 これらの有望なパンシャープ法における標準的なモデリング規則は、変圧器の変種を概ねカスケード的に積み重ねることである。 顕著な進歩にもかかわらず、その成功はモデルパラメータとFLOPの膨大なコストであり、低リソース衛星への適用を妨げ、良好な性能と高価な計算のこの課題に対処するため、効率的な線形進化型変圧器を調整し、軽量なパンシャーピングフレームワークを構築するために使用する。 より詳しくは,近縁手法による一般的なカスケード変圧器のモデリングを深く研究し,一次元線形畳み込み鎖を用いた1次線形展開変圧器変圧器の代替品を開発し,同じ機能を実現する。 このようにして、提案手法は、効率よく良好な性能を達成しつつ、ケースケードモデリングルールの恩恵を受けることができる。 複数の衛星データセットに対する大規模な実験により,提案手法は計算資源が少ない他の最先端技術と競合する性能を達成できることが示唆された。 さらに、ハイパースペクトル画像融合タスクにおいて、一貫した良好な性能が検証されている。 私たちの主な焦点は、効率的な構造を持つ代替のグローバルモデリングフレームワークを提供することです。 コードは公開されます。

Vision transformer family has dominated the satellite pan-sharpening field driven by the global-wise spatial information modeling mechanism from the core self-attention ingredient. The standard modeling rules within these promising pan-sharpening methods are to roughly stack the transformer variants in a cascaded manner. Despite the remarkable advancement, their success may be at the huge cost of model parameters and FLOPs, thus preventing its application over low-resource satellites.To address this challenge between favorable performance and expensive computation, we tailor an efficient linearly-evolved transformer variant and employ it to construct a lightweight pan-sharpening framework. In detail, we deepen into the popular cascaded transformer modeling with cutting-edge methods and develop the alternative 1-order linearly-evolved transformer variant with the 1-dimensional linear convolution chain to achieve the same function. In this way, our proposed method is capable of benefiting the cascaded modeling rule while achieving favorable performance in the efficient manner. Extensive experiments over multiple satellite datasets suggest that our proposed method achieves competitive performance against other state-of-the-art with fewer computational resources. Further, the consistently favorable performance has been verified over the hyper-spectral image fusion task. Our main focus is to provide an alternative global modeling framework with an efficient structure. The code will be publicly available.
翻訳日:2024-04-22 15:16:46 公開日:2024-04-19
# スマートフォンローカルバックアップを用いた法医学的データ取得の体系的評価

Systematic Evaluation of Forensic Data Acquisition using Smartphone Local Backup ( http://arxiv.org/abs/2404.12808v1 )

ライセンス: Link先を確認
Julian Geus, Jenny Ottmann, Felix Freiling, (参考訳) 現代のスマートフォンのセキュリティ基準が高まっているため、そのようなデバイスからの法医学的データ取得はますます困難になっている。 実際にスマートフォンのデータにアクセスするための比較的一般的な方法は、モバイルオペレーティングシステムが提供するローカルバックアップメカニズムを使用することである。 2つのモバイルデバイス上で,iOS と Android のローカルバックアップ機構の徹底的な評価を行うことで,法医学的データ取得に適したメカニズムについて検討した。 ローカルバックアップの内容と元のストレージとを比較した体系的かつ汎用的な評価手法に基づき、実例では、ほとんどの場合(すべての場合ではない)ローカルバックアップは、ストレージから元のデータの正しいコピーを実際に生成することを示す。 本研究は, データベースファイルの保存中の変更など, 局所的なバックアップによって得られた証拠の完全性や確実性を評価する際に考慮する必要がある, コーナーケースについても強調する。

Due to the increasing security standards of modern smartphones, forensic data acquisition from such devices is a growing challenge. One rather generic way to access data on smartphones in practice is to use the local backup mechanism offered by the mobile operating systems. We study the suitability of such mechanisms for forensic data acquisition by performing a thorough evaluation of iOS's and Android's local backup mechanisms on two mobile devices. Based on a systematic and generic evaluation procedure comparing the contents of local backup to the original storage, we show that in our exemplary practical evaluations, in most cases (but not all) local backup actually yields a correct copy of the original data from storage. Our study also highlights corner cases, such as database files with pending changes, that need to be considered when assessing the integrity and authenticity of evidence acquired through local backup.
翻訳日:2024-04-22 15:16:46 公開日:2024-04-19
# 拡散距離と方向コヒーレンスによる対実的説明探索の強化

Enhancing Counterfactual Explanation Search with Diffusion Distance and Directional Coherence ( http://arxiv.org/abs/2404.12810v1 )

ライセンス: Link先を確認
Marharyta Domnich, Raul Vicente, (参考訳) AIモデルの採用の急激な問題は、予測に関するより人間中心の説明に対する需要の増加である。 より人間中心の説明に進むためには、人間がどのようにして説明を作り、選択するかを理解することが有益である。 本研究は, 人間の認知の洞察に触発されて, 効果的な対実的説明の探索を促進するために, 2つの新しいバイアスを取り入れることを提案し, 検証する。 提案手法の中心となるのは拡散距離の応用であり,本手法では,データ接続性や動作性を重視して,実現可能な対実的説明の探索を行う。 特に、拡散距離は、多くの短距離経路によりより相互接続された点を効果的に重み付けする。 このアプローチは互いに近づき、それらの間の実現可能な経路を特定する。 また,方向コヒーレンス項を導入し,特徴空間における関節と縁の方向の変化を相反する傾向を示す。 この用語は、1つの特徴を一度に変化させることで、モデルの結果がどのように変化するかの期待に基づいて、一組の限界予測と一致した反実的説明を生成することを可能にする。 提案手法はCoDiCE (Coherent Directional Counterfactual Explainer) と名付けられ,DiCE, FACE, Prototypes, Growing Spheres などの既存手法に対する2つの新しいバイアスの影響を検討した。 連続的および混合的な特徴を持つ合成データセットと実データの両方に対する一連のアブレーション実験を通じて,本手法の有効性を実証した。

A pressing issue in the adoption of AI models is the increasing demand for more human-centric explanations of their predictions. To advance towards more human-centric explanations, understanding how humans produce and select explanations has been beneficial. In this work, inspired by insights of human cognition we propose and test the incorporation of two novel biases to enhance the search for effective counterfactual explanations. Central to our methodology is the application of diffusion distance, which emphasizes data connectivity and actionability in the search for feasible counterfactual explanations. In particular, diffusion distance effectively weights more those points that are more interconnected by numerous short-length paths. This approach brings closely connected points nearer to each other, identifying a feasible path between them. We also introduce a directional coherence term that allows the expression of a preference for the alignment between the joint and marginal directional changes in feature space to reach a counterfactual. This term enables the generation of counterfactual explanations that align with a set of marginal predictions based on expectations of how the outcome of the model varies by changing one feature at a time. We evaluate our method, named Coherent Directional Counterfactual Explainer (CoDiCE), and the impact of the two novel biases against existing methods such as DiCE, FACE, Prototypes, and Growing Spheres. Through a series of ablation experiments on both synthetic and real datasets with continuous and mixed-type features, we demonstrate the effectiveness of our method.
翻訳日:2024-04-22 15:16:46 公開日:2024-04-19
# アルゴリズムの変更は十分ではない: eGFR方程式からのレース調整の除去の評価

Algorithmic Changes Are Not Enough: Evaluating the Removal of Race Adjustment from the eGFR Equation ( http://arxiv.org/abs/2404.12812v1 )

ライセンス: Link先を確認
Marika M. Cusick, Glenn M. Chertow, Douglas K. Owens, Michelle Y. Williams, Sherri Rose, (参考訳) レース調整を除去するための臨床アルゴリズムの変更が提案され、複数の健康状態に対して実施されている。 推定糸球体濾過率 (eGFR) 式によるレース調整の除去は慢性腎疾患 (CKD) の相違を減少させる可能性があるが, 実施後の臨床研究は行われていない。 そこで我々は,1つの医療システムであるスタンフォード・ヘルス・ケア(Stanford Health Care,SHC)における,黒人またはアフリカ系アメリカ人の腎症紹介と訪問の四半期率の変更を伴わないeGFR式(CKD-EPI 2021)の導入を検討した。 2019年1月1日から2023年9月1日までに血清クレアチニンまたは血清シスタチンCを1回以上記録した21歳以上の成人547,194人についてコホート調査を行った。 研究期間中、CKD-EPI 2021の実装は、ブラックまたはアフリカ系アメリカ人として記録された、または全体コホートにおいて、四半期の腎学参照率を変更しなかった。 SHC腎科クリニックでの入院率の調整後, CKD-EPI 2021の受診率は34例 (95% CI 29 39) と188例 (175, 201) であった。 レース調整が実施されなかった場合、推定率は38 (95% CI: 28, 53) と189 (165, 218) とほぼ同一であった。 eGFR方程式の変更は、他の多くの構造的不等式が残っているため、CKDケア意思決定における健康的公平を達成するには不十分である可能性が高い。

Changing clinical algorithms to remove race adjustment has been proposed and implemented for multiple health conditions. Removing race adjustment from estimated glomerular filtration rate (eGFR) equations may reduce disparities in chronic kidney disease (CKD), but has not been studied in clinical practice after implementation. Here, we assessed whether implementing an eGFR equation (CKD-EPI 2021) without adjustment for Black or African American race modified quarterly rates of nephrology referrals and visits within a single healthcare system, Stanford Health Care (SHC). Our cohort study analyzed 547,194 adult patients aged 21 and older who had at least one recorded serum creatinine or serum cystatin C between January 1, 2019 and September 1, 2023. During the study period, implementation of CKD-EPI 2021 did not modify rates of quarterly nephrology referrals in those documented as Black or African American or in the overall cohort. After adjusting for capacity at SHC nephrology clinics, estimated rates of nephrology referrals and visits with CKD-EPI 2021 were 34 (95% CI 29, 39) and 188 (175, 201) per 10,000 patients documented as Black or African American. If race adjustment had not been removed, estimated rates were nearly identical: 38 (95% CI: 28, 53) and 189 (165, 218) per 10,000 patients. Changes to the eGFR equation are likely insufficient to achieve health equity in CKD care decision-making as many other structural inequities remain.
翻訳日:2024-04-22 15:16:46 公開日:2024-04-19
# 高次ランゲヴィンダイナミクスを用いた生成モデリング

Generative Modelling with High-Order Langevin Dynamics ( http://arxiv.org/abs/2404.12814v1 )

ライセンス: Link先を確認
Ziqiang Shi, Rujie Liu, (参考訳) スコアマッチングを伴う確率微分方程式(SDE)に基づく拡散生成モデル(DGM)は、データ生成において前例のない結果を得た。 本稿では,スコアマッチングを用いた高次ランゲヴィンダイナミクス(HOLD)に基づく高速な高品質生成モデルを提案する。 この動機は、三階ランゲヴィン力学によって証明される。 単一データ可変プロセスに対する従来のSDE、eg分散爆発または分散保存SDEを増大させることにより、HOLDは同時に位置、速度、加速度をモデル化し、同時にデータ生成の品質と速度を向上させることができる。 HOLDは、Ornstein-Uhlenbeck過程と2つのハミルトニアンプロセスから成り、混合時間を2桁に短縮する。 公開データセットCIFAR-10とCelebA-HQの非条件画像生成の実験実験により、この効果はFrechet開始距離(FID)と負の対数類似度の両方において有意であり、CIFAR-10における1.85の最先端FIDを実現する。

Diffusion generative modelling (DGM) based on stochastic differential equations (SDEs) with score matching has achieved unprecedented results in data generation. In this paper, we propose a novel fast high-quality generative modelling method based on high-order Langevin dynamics (HOLD) with score matching. This motive is proved by third-order Langevin dynamics. By augmenting the previous SDEs, e.g. variance exploding or variance preserving SDEs for single-data variable processes, HOLD can simultaneously model position, velocity, and acceleration, thereby improving the quality and speed of the data generation at the same time. HOLD is composed of one Ornstein-Uhlenbeck process and two Hamiltonians, which reduce the mixing time by two orders of magnitude. Empirical experiments for unconditional image generation on the public data set CIFAR-10 and CelebA-HQ show that the effect is significant in both Frechet inception distance (FID) and negative log-likelihood, and achieves the state-of-the-art FID of 1.85 on CIFAR-10.
翻訳日:2024-04-22 15:16:46 公開日:2024-04-19
# ニューラルインバースレンダリングにおけるあいまいさの解消:パラメータ補償分析

Unveiling the Ambiguity in Neural Inverse Rendering: A Parameter Compensation Analysis ( http://arxiv.org/abs/2404.12819v1 )

ライセンス: Link先を確認
Georgios Kouros, Minye Wu, Sushruth Nagesh, Xianling Zhang, Tinne Tuytelaars, (参考訳) 逆レンダリングは、マルチビュー画像のみからオブジェクトのシーン特性を再構築することを目的としている。 しかし、物理的に正確な表現から逸脱した曖昧な推定を生成するのは不適切な問題である。 本稿では,最先端のニューラルネットワーク逆レンダリング手法であるNeural Microfacet Fields (NMF) を用いて,そのあいまいさを表現した。 本研究では,この不適切な問題の背後にあるメカニズムと潜在的な緩和戦略を検討することを目的として,推定されたシーン特性間の補償や相互作用の程度を評価するための評価フレームワークを提案する。 具体的には,1つのシーンに人工摂動を導入し,他の特性の調整がこれらの摂動を補うかを検討する。 このような実験を容易にするために,材料特性が独立な非絡合NMFを導入する。 実験の結果は、神経逆レンダリングにおける本質的な曖昧さを浮き彫りにし、幾何学、材料、照明の先駆者を通して追加のガイダンスを提供することの重要性を強調した。

Inverse rendering aims to reconstruct the scene properties of objects solely from multiview images. However, it is an ill-posed problem prone to producing ambiguous estimations deviating from physically accurate representations. In this paper, we utilize Neural Microfacet Fields (NMF), a state-of-the-art neural inverse rendering method to illustrate the inherent ambiguity. We propose an evaluation framework to assess the degree of compensation or interaction between the estimated scene properties, aiming to explore the mechanisms behind this ill-posed problem and potential mitigation strategies. Specifically, we introduce artificial perturbations to one scene property and examine how adjusting another property can compensate for these perturbations. To facilitate such experiments, we introduce a disentangled NMF where material properties are independent. The experimental findings underscore the intrinsic ambiguity present in neural inverse rendering and highlight the importance of providing additional guidance through geometry, material, and illumination priors.
翻訳日:2024-04-22 15:16:46 公開日:2024-04-19
# セルフカストディ、非レガーベース、鮮明に管理されたデジタル決済システムの性能のベンチマーク

Benchmarking the performance of a self-custody, non-ledger-based, obliviously managed digital payment system ( http://arxiv.org/abs/2404.12821v1 )

ライセンス: Link先を確認
William Macpherson, Geoffrey Goodell, (参考訳) 世界の政府がリテール中央銀行のデジタル通貨(CBDC)を運用する取り組みを強化する中、ユーザーのプライバシーを守るアーキテクチャーの必須条件は、決して明らかになっていない。 本稿では,ユニバーシティ・カレッジ・ロンドンで開発された既存の小売CBDCフレームワークについて述べる。 提案設計では,Comet研究フレームワークの能力を活用して,取引匿名性を保ちながら,仲介サービスプロバイダを必要とせずに,利用者の資産を直接管理することができる。 本研究は,Merkle Trie 構造の改良による取引の正当性検証を著しく促進し,Proof of Provenance の検索を迅速化する新しい手法を明らかにする。 並行して、許可されたエコシステム内で、高速で不変で分散化されたトランザクションバリデーションを提供するために設計された、合理化されたDigital Ledgerを導入します。 本研究の究極的な目的は,従来のコメット研究チームが作成したレガシシステムの性能を,新たに考案したシステムと比較することである。 我々の取り組みは、消費者のプライバシやデータの整合性を損なうことなく、何千ものトランザクションをリアルタイムでシームレスに処理できるスケーラブルな国家インフラの基盤設計を確立することです。

As global governments intensify efforts to operationalize retail central bank digital currencies (CBDCs), the imperative for architectures that preserve user privacy has never been more pronounced. This paper advances an existing retail CBDC framework developed at University College London. Utilizing the capabilities of the Comet research framework, our proposed design allows users to retain direct custody of their assets without the need for intermediary service providers, all while preserving transactional anonymity. The study unveils a novel technique to expedite the retrieval of Proof of Provenance, significantly accelerating the verification of transaction legitimacy through the refinement of Merkle Trie structures. In parallel, we introduce a streamlined Digital Ledger designed to offer fast, immutable, and decentralized transaction validation within a permissioned ecosystem. The ultimate objective of this research is to benchmark the performance of the legacy system formulated by the original Comet research team against the newly devised system elucidated in this paper. Our endeavour is to establish a foundational design for a scalable national infrastructure proficient in seamlessly processing thousands of transactions in real-time, without compromising consumer privacy or data integrity.
翻訳日:2024-04-22 15:16:46 公開日:2024-04-19
# MAexp: RLベースのマルチエージェント探索のための汎用プラットフォーム

MAexp: A Generic Platform for RL-based Multi-Agent Exploration ( http://arxiv.org/abs/2404.12824v1 )

ライセンス: Link先を確認
Shaohao Zhu, Jiacheng Zhou, Anjun Chen, Mingming Bai, Jiming Chen, Jinming Xu, (参考訳) sim-to-realギャップはシーンの量子化とアクションの離散化によるRLに基づくマルチエージェント探索において大きな課題となる。 既存のプラットフォームはサンプリングの効率の悪さと、さまざまなシナリオにわたるマルチエージェント強化学習(MARL)アルゴリズムの多様性の欠如に悩まされており、その広範な応用を抑えている。 これらのギャップを埋めるために,多エージェント探索のための汎用プラットフォームであるMAexpを提案する。 さらに、探索シナリオを表現するために点雲を使用し、高忠実度環境マッピングとサンプリング速度を既存のプラットフォームより約40倍高速にします。 さらに、アテンションベースのマルチエージェントターゲットジェネレータとシングルエージェントモーションプランナーを備えており、MAexpは任意の数のエージェントと様々な種類のロボットに対応できる。 連続的な動作を持つロボットの典型的なシナリオにまたがって、いくつかの高性能なMARLアルゴリズムを特徴付ける最初のベンチマークを確立するために、大規模な実験が行われた。

The sim-to-real gap poses a significant challenge in RL-based multi-agent exploration due to scene quantization and action discretization. Existing platforms suffer from the inefficiency in sampling and the lack of diversity in Multi-Agent Reinforcement Learning (MARL) algorithms across different scenarios, restraining their widespread applications. To fill these gaps, we propose MAexp, a generic platform for multi-agent exploration that integrates a broad range of state-of-the-art MARL algorithms and representative scenarios. Moreover, we employ point clouds to represent our exploration scenarios, leading to high-fidelity environment mapping and a sampling speed approximately 40 times faster than existing platforms. Furthermore, equipped with an attention-based Multi-Agent Target Generator and a Single-Agent Motion Planner, MAexp can work with arbitrary numbers of agents and accommodate various types of robots. Extensive experiments are conducted to establish the first benchmark featuring several high-performance MARL algorithms across typical scenarios for robots with continuous actions, which highlights the distinct strengths of each algorithm in different scenarios.
翻訳日:2024-04-22 15:16:46 公開日:2024-04-19
# CT-ADE : 臨床試験結果からの逆薬物事象予測のための評価基準

CT-ADE: An Evaluation Benchmark for Adverse Drug Event Prediction from Clinical Trial Results ( http://arxiv.org/abs/2404.12827v1 )

ライセンス: Link先を確認
Anthony Yazdani, Alban Bornet, Boya Zhang, Philipp Khlebnikov, Poorya Amini, Douglas Teodoro, (参考訳) 副作用薬物イベント(ADE)は臨床研究と公衆衛生に大きな影響を与え、臨床試験の失敗に寄与し、医療費が上昇する。 ADEの正確な予測と管理は、より安全で効果的な薬の開発を改善し、患者の成果を高めるために重要である。 この取り組みを支援するために, ADEの予測モデリングを強化するためにコンパイルされた新しいデータセットであるCT-ADEを紹介する。 CT-ADEデータセットは、臨床試験の結果から抽出された12,000件以上のインスタンスを網羅し、薬物、患者集団、コンテキスト情報を、単薬治療における多ラベルADE分類タスクに統合し、高度な予測モデルを開発するための包括的なリソースを提供する。 ADEの複雑な性質を反映するため、アノテーションはMedDRAオントロジーのシステム臓器クラスレベルで標準化されている。 ベースラインモデルを用いた予備分析は有望な結果を示し、73.33%のF1スコアと81.54%のバランスの取れた精度を達成した。 CT-ADEは、人工知能と機械学習の力を活用して患者の安全性を高め、ADEsが医薬品の研究と開発に与える影響を最小限にすることを目的とした、研究者にとって不可欠なツールを提供する。 CT-ADEデータセットの使用に関心のある研究者は、https://github.com/xxxx/xxxx.com/xxで、必要なリソースをすべて見つけることができる。

Adverse drug events (ADEs) significantly impact clinical research and public health, contributing to failures in clinical trials and leading to increased healthcare costs. The accurate prediction and management of ADEs are crucial for improving the development of safer, more effective medications, and enhancing patient outcomes. To support this effort, we introduce CT-ADE, a novel dataset compiled to enhance the predictive modeling of ADEs. Encompassing over 12,000 instances extracted from clinical trial results, the CT-ADE dataset integrates drug, patient population, and contextual information for multilabel ADE classification tasks in monopharmacy treatments, providing a comprehensive resource for developing advanced predictive models. To mirror the complex nature of ADEs, annotations are standardized at the system organ class level of the Medical Dictionary for Regulatory Activities (MedDRA) ontology. Preliminary analyses using baseline models have demonstrated promising results, achieving 73.33% F1 score and 81.54% balanced accuracy, highlighting CT-ADE's potential to advance ADE prediction. CT-ADE provides an essential tool for researchers aiming to leverage the power of artificial intelligence and machine learning to enhance patient safety and minimize the impact of ADEs on pharmaceutical research and development. Researchers interested in using the CT-ADE dataset can find all necessary resources at https://github.com/xxxx/xxxx.
翻訳日:2024-04-22 15:07:01 公開日:2024-04-19
# LiMe:中世後期の犯罪文のラテン語コーパス

LiMe: a Latin Corpus of Late Medieval Criminal Sentences ( http://arxiv.org/abs/2404.12829v1 )

ライセンス: Link先を確認
Alessandra Bassani, Beatrice Del Bo, Alfio Ferrara, Marta Mangini, Sergio Picascia, Ambra Stefanello, (参考訳) ラテン言語は、長年にわたって、詳細な注釈付きコーパスから言語分析のための洗練されたツールまで、いくつかの貴重な資源を築き上げてきた計算言語学研究コミュニティから注目を集めている。 近年の大規模言語モデルの出現により、研究者はラテン文字のベクトル表現を生成できるモデルの開発も開始した。 このようなモデルの性能は、利用可能なデータの相違を考えると、現代言語の性能に置き換わっている。 本稿では,LiMeデータセットについて述べる。Libri sententiarum potestatis Mediolaniと呼ばれる中世の写本から抽出された325の文書のコーパスであるLiMeデータセットについて述べる。

The Latin language has received attention from the computational linguistics research community, which has built, over the years, several valuable resources, ranging from detailed annotated corpora to sophisticated tools for linguistic analysis. With the recent advent of large language models, researchers have also started developing models capable of generating vector representations of Latin texts. The performances of such models remain behind the ones for modern languages, given the disparity in available data. In this paper, we present the LiMe dataset, a corpus of 325 documents extracted from a series of medieval manuscripts called Libri sententiarum potestatis Mediolani, and thoroughly annotated by experts, in order to be employed for masked language model, as well as supervised natural language processing tasks.
翻訳日:2024-04-22 15:07:01 公開日:2024-04-19
# 医用画像の弱教師付きセマンティックセグメンテーションのためのCOIN

COIN: Counterfactual inpainting for weakly supervised semantic segmentation for medical images ( http://arxiv.org/abs/2404.12832v1 )

ライセンス: Link先を確認
Dmytro Shvetsov, Joonas Ariva, Marharyta Domnich, Raul Vicente, Dmytro Fishman, (参考訳) 深層学習は医療画像と放射線学の分野を劇的に変え、CTやX線スキャンなどの医学画像の病理診断を可能にしている。 しかし、特にセグメンテーションタスクにおけるディープラーニングモデルの性能は、広範囲な注釈付きデータセットの必要性によって制限されることが多い。 この課題に対処するために、説明可能なAIのレンズと反現実的説明の生成を通じて、弱教師付きセマンティックセマンティックセマンティクスの能力を探求する。 本研究の対象は、予測された分類ラベルを、生成モデルを用いて異常から正常に反転させる新しい反ファクト・インペインティング・アプローチ(COIN)の開発である。 例えば、分類器が入力された医療画像Xが異常であると判断し、病理の存在を示すとすると、生成モデルは異常領域を塗り替えることを目的としており、分類器の元々の予測ラベルを逆転させる。 この手法により,既存のセグメンテーションマスクに依存することなく,病理の正確なセグメンテーションを作成できる。 重要な点として、画像レベルのラベルが利用されており、詳細なセグメンテーションマスクを作成するよりも、取得が極めて容易である。 本手法の有効性は,エストニアのタルツ大学病院から取得したCT画像から,合成標的と実際の腎腫瘍を分離することによって実証される。 以上の結果から,COIN は RISE,ScoreCAM,LayerCAM などの確立した帰属法をはるかに超え,Singla らによって導入された代替の反事実的説明法をはるかに超えていることが示唆された。

Deep learning is dramatically transforming the field of medical imaging and radiology, enabling the identification of pathologies in medical images, including computed tomography (CT) and X-ray scans. However, the performance of deep learning models, particularly in segmentation tasks, is often limited by the need for extensive annotated datasets. To address this challenge, the capabilities of weakly supervised semantic segmentation are explored through the lens of Explainable AI and the generation of counterfactual explanations. The scope of this research is development of a novel counterfactual inpainting approach (COIN) that flips the predicted classification label from abnormal to normal by using a generative model. For instance, if the classifier deems an input medical image X as abnormal, indicating the presence of a pathology, the generative model aims to inpaint the abnormal region, thus reversing the classifier's original prediction label. The approach enables us to produce precise segmentations for pathologies without depending on pre-existing segmentation masks. Crucially, image-level labels are utilized, which are substantially easier to acquire than creating detailed segmentation masks. The effectiveness of the method is demonstrated by segmenting synthetic targets and actual kidney tumors from CT images acquired from Tartu University Hospital in Estonia. The findings indicate that COIN greatly surpasses established attribution methods, such as RISE, ScoreCAM, and LayerCAM, as well as an alternative counterfactual explanation method introduced by Singla et al. This evidence suggests that COIN is a promising approach for semantic segmentation of tumors in CT images, and presents a step forward in making deep learning applications more accessible and effective in healthcare, where annotated data is scarce.
翻訳日:2024-04-22 15:07:01 公開日:2024-04-19
# 関数レベルプログラムの実際の修復はどこまでできるのか?

How Far Can We Go with Practical Function-Level Program Repair? ( http://arxiv.org/abs/2404.12833v1 )

ライセンス: Link先を確認
Jiahong Xiang, Xiaoyang Xu, Fanchu Kong, Mingyuan Wu, Haotian Zhang, Yuqun Zhang, (参考訳) 近年,Large Language Models (LLMs) に基づくAPR(Automated Program repair)技術が提案されている。 これらの技術は主に単一ラインやハンクレベルの修復に重点を置いているが、修復作業の範囲が限られており、ステートメントレベルのフォールトローカライゼーションがコストのかかるため、現実のアプリケーションでは重大な課題に直面している。 しかし、より実用的な機能レベルのAPRは、バグギー関数全体を修正するためのAPRタスクの範囲を広げ、コスト効率のよい機能レベルの障害ローカライゼーションのみを必要とするが、まだ未定である。 本稿では,LLMに基づく機能レベルAPRの総合的研究を行い,この学習機構と補修関連情報の影響について検討する。 具体的には、広く研究されている6つのLCMを採用し、Defects4J 1.2と2.0のデータセットでベンチマークを構築します。 本研究は, ゼロショット学習を用いたLLMが機能レベルのAPR技術としてすでに強力であることを示すとともに, 少数ショット学習機構を適用したことにより, 補修性能を異にすることを示した。 さらに, 補修関連情報をLCMに直接適用することで, 機能レベルの補修性能が著しく向上することがわかった。 本研究は,LLMに基づく機能レベルAPR手法であるSRepairを提案し,補修関連情報を利用して補修性能を向上させる手法を提案する。 評価結果は、SRepairがDefects4Jデータセットの300の単一機能バグを正しく修正できることを示した。 さらに、SRepairはDefects4Jデータセットの32の多機能バグの修正に成功した。

Recently, multiple Automated Program Repair (APR) techniques based on Large Language Models (LLMs) have been proposed to enhance the repair performance. While these techniques mainly focus on the single-line or hunk-level repair, they face significant challenges in real-world application due to the limited repair task scope and costly statement-level fault localization. However, the more practical function-level APR, which broadens the scope of APR task to fix entire buggy functions and requires only cost-efficient function-level fault localization, remains underexplored. In this paper, we conduct the first comprehensive study of LLM-based function-level APR including investigating the effect of the few-shot learning mechanism and the auxiliary repair-relevant information. Specifically, we adopt six widely-studied LLMs and construct a benchmark in both the Defects4J 1.2 and 2.0 datasets. Our study demonstrates that LLMs with zero-shot learning are already powerful function-level APR techniques, while applying the few-shot learning mechanism leads to disparate repair performance. Moreover, we find that directly applying the auxiliary repair-relevant information to LLMs significantly increases function-level repair performance. Inspired by our findings, we propose an LLM-based function-level APR technique, namely SRepair, which adopts a dual-LLM framework to leverage the power of the auxiliary repair-relevant information for advancing the repair performance. The evaluation results demonstrate that SRepair can correctly fix 300 single-function bugs in the Defects4J dataset, largely surpassing all previous APR techniques by at least 85%, without the need for the costly statement-level fault location information. Furthermore, SRepair successfully fixes 32 multi-function bugs in the Defects4J dataset, which is the first time achieved by any APR technique ever to our best knowledge.
翻訳日:2024-04-22 15:07:01 公開日:2024-04-19
# デジタル世界における自己主権のための分散データプライバシプロトコル

Towards a decentralized data privacy protocol for self-sovereignty in the digital world ( http://arxiv.org/abs/2404.12837v1 )

ライセンス: Link先を確認
Rodrigo Falcão, Arghavan Hosseinzadeh, (参考訳) 一般的なユーザは、今日では多くのデジタルサービスと対話し、これらのサービスにデータを提供する。 ユーザーは各サービスプロバイダのルールに従ってプライバシ設定を管理しなければならない。つまり、すべてのプロバイダが、ユーザがプライバシ設定を制御するための独自のメカニズムを提供する。 しかし、プライバシーの優先事項(すなわち、複数のデジタルサービス)の管理は現実的ではない。 本稿では,分散データプライバシプロトコルの実現という,クロスサービスプライバシ優先管理のためのリッチなユーザ中心アプローチへのパラダイムシフトを提案する。

A typical user interacts with many digital services nowadays, providing these services with their data. As of now, the management of privacy preferences is service-centric: Users must manage their privacy preferences according to the rules of each service provider, meaning that every provider offers its unique mechanisms for users to control their privacy settings. However, managing privacy preferences holistically (i.e., across multiple digital services) is just impractical. In this vision paper, we propose a paradigm shift towards an enriched user-centric approach for cross-service privacy preferences management: the realization of a decentralized data privacy protocol.
翻訳日:2024-04-22 15:07:01 公開日:2024-04-19
# ECOR: オブジェクト認識のための説明可能なCLIP

ECOR: Explainable CLIP for Object Recognition ( http://arxiv.org/abs/2404.12839v1 )

ライセンス: Link先を確認
Ali Rasekh, Sepehr Kazemi Ranjbar, Milad Heidari, Wolfgang Nejdl, (参考訳) CLIPのような大型ビジョン言語モデル(VLM)は、オブジェクト認識やオブジェクト検出など、様々なコンピュータビジョンタスクに大きく貢献している。 彼らのオープンな語彙機能は、その価値を高めます。 しかしながら、それらのブラックボックスの性質と予測における説明可能性の欠如により、重要な領域では信頼性が低下する。 近年、VLMにオブジェクト認識の合理的な根拠を与えるためにいくつかの研究がなされているが、これはしばしば分類精度を犠牲にしている。 本稿ではまず,カテゴリと有理の連立確率分布に基づいて,対象認識タスクにおける説明可能性の数学的定義を提案し,その定義を説明可能な方法で微調整CLIPに活用する。 提案手法は,異なるデータセットの評価を通じて,説明可能な分類における最先端性能を示す。 特筆すべきは、ゼロショット設定が優れていることだ。 この進歩は、説明可能なオブジェクト認識を改善し、多様なアプリケーションに対する信頼を高める。 コードは公開時にオンラインで公開されます。

Large Vision Language Models (VLMs), such as CLIP, have significantly contributed to various computer vision tasks, including object recognition and object detection. Their open vocabulary feature enhances their value. However, their black-box nature and lack of explainability in predictions make them less trustworthy in critical domains. Recently, some work has been done to force VLMs to provide reasonable rationales for object recognition, but this often comes at the expense of classification accuracy. In this paper, we first propose a mathematical definition of explainability in the object recognition task based on the joint probability distribution of categories and rationales, then leverage this definition to fine-tune CLIP in an explainable manner. Through evaluations of different datasets, our method demonstrates state-of-the-art performance in explainable classification. Notably, it excels in zero-shot settings, showcasing its adaptability. This advancement improves explainable object recognition, enhancing trust across diverse applications. The code will be made available online upon publication.
翻訳日:2024-04-22 15:07:01 公開日:2024-04-19
# 畳み込みニューラルネットワークとカプセルネットを用いた説明可能なディープフェイク映像検出

Explainable Deepfake Video Detection using Convolutional Neural Network and CapsuleNet ( http://arxiv.org/abs/2404.12841v1 )

ライセンス: Link先を確認
Gazi Hasin Ishrak, Zalish Mahmud, MD. Zami Al Zunaed Farabe, Tahera Khanom Tinni, Tanzim Reza, Mohammad Zavid Parvez, (参考訳) ディープラーニングから派生したディープフェイク技術は、実際の参加に関係なく、個人をデジタルメディアにシームレスに挿入する。 その基盤は機械学習と人工知能(AI)にある。 当初ディープフェイクは研究、産業、娯楽に役立った。 このコンセプトは何十年にもわたって存在してきたが、最近の進歩はディープフェイクを現実とほとんど区別できないものにしている。 アクセシビリティが急上昇し、初心者でも説得力のあるディープフェイクを作れるようになった。 しかし、このアクセシビリティはセキュリティ上の懸念を引き起こす。主要なディープフェイク生成アルゴリズムであるGAN(Generative Adversarial Network)は、機械学習を使用して現実的なイメージやビデオを作成する。 本研究の目的は,CNN (Convolutional Neural Network) と CapsuleNet をLSTM と組み合わせて,深部から生成したフレームとオリジナルを区別することである。 さらに、説明可能なAIを通じてモデルの意思決定プロセスを解明し、透明な人間とAIの関係を育み、現実のシナリオに実践的な例を提供することを目的としている。

Deepfake technology, derived from deep learning, seamlessly inserts individuals into digital media, irrespective of their actual participation. Its foundation lies in machine learning and Artificial Intelligence (AI). Initially, deepfakes served research, industry, and entertainment. While the concept has existed for decades, recent advancements render deepfakes nearly indistinguishable from reality. Accessibility has soared, empowering even novices to create convincing deepfakes. However, this accessibility raises security concerns.The primary deepfake creation algorithm, GAN (Generative Adversarial Network), employs machine learning to craft realistic images or videos. Our objective is to utilize CNN (Convolutional Neural Network) and CapsuleNet with LSTM to differentiate between deepfake-generated frames and originals. Furthermore, we aim to elucidate our model's decision-making process through Explainable AI, fostering transparent human-AI relationships and offering practical examples for real-life scenarios.
翻訳日:2024-04-22 15:07:01 公開日:2024-04-19
# 確率論的推論による論理的一貫性言語モデルに向けて

Towards Logically Consistent Language Models via Probabilistic Reasoning ( http://arxiv.org/abs/2404.12843v1 )

ライセンス: Link先を確認
Diego Calanzone, Stefano Teso, Antonio Vergari, (参考訳) 大規模言語モデル(LLM)は、自然言語理解および生成タスクのための有望な場所である。 しかし、現在のLLMは信頼性に欠けており、非現実的な情報を生成する傾向にあり、より重要なことは、世界の信念を推論するよう促されたときに、自分自身を矛盾させる傾向がある。 これらの問題は現在、大規模な微調整や、外部ツールへの一貫した推論によって対処されている。 本研究は,中堅な分野を目指して,原則的確率論的推論に基づく学習目標を導入し,一組の事実と規則の形で,LLMが外部知識と整合性を持つように教える。 限られた事実の集合を微調整することで、LCMは以前のベースラインよりも論理的に一貫した状態になり、目に見えないが意味的に類似した事実知識を体系的に外挿することができる。

Large language models (LLMs) are a promising venue for natural language understanding and generation tasks. However, current LLMs are far from reliable: they are prone to generate non-factual information and, more crucially, to contradict themselves when prompted to reason about beliefs of the world. These problems are currently addressed with large scale fine-tuning or by delegating consistent reasoning to external tools. In this work, we strive for a middle ground and introduce a training objective based on principled probabilistic reasoning that teaches a LLM to be consistent with external knowledge in the form of a set of facts and rules. Fine-tuning with our loss on a limited set of facts enables our LLMs to be more logically consistent than previous baselines and allows them to extrapolate to unseen but semantically similar factual knowledge more systematically.
翻訳日:2024-04-22 15:07:01 公開日:2024-04-19
# TartuNLP @ SIGTYP 2024 Shared Task: Adapting XLM-RoBERTa for Ancient and Historical Languages (英語)

TartuNLP @ SIGTYP 2024 Shared Task: Adapting XLM-RoBERTa for Ancient and Historical Languages ( http://arxiv.org/abs/2404.12845v1 )

ライセンス: Link先を確認
Aleksei Dorkin, Kairit Sirts, (参考訳) SIGTYP 2024では, 形態的アノテーション, POSタグ, 補綴, 文字レベル, 単語レベルのギャップ埋めのために, 単語埋め込み評価の共有タスクの制約のないサブタスクを提示する。 そこで我々は,パラメータ効率の微調整を応用した,シンプルな,一様で,計算的に軽量な手法を開発した。 我々は,すべてのタスクと16の言語に対して,言語とタスク固有のアダプタを微調整することで,同じアダプタベースのアプローチを適用した。 提案は3件中2件目で, 単語レベルのギャップフィリングでは第1位であった。 本研究は,現代の言語に事前学習した言語モデルを,アダプタ学習を通じて古代・古代の言語に適応する可能性を示すものである。

We present our submission to the unconstrained subtask of the SIGTYP 2024 Shared Task on Word Embedding Evaluation for Ancient and Historical Languages for morphological annotation, POS-tagging, lemmatization, character- and word-level gap-filling. We developed a simple, uniform, and computationally lightweight approach based on the adapters framework using parameter-efficient fine-tuning. We applied the same adapter-based approach uniformly to all tasks and 16 languages by fine-tuning stacked language- and task-specific adapters. Our submission obtained an overall second place out of three submissions, with the first place in word-level gap-filling. Our results show the feasibility of adapting language models pre-trained on modern languages to historical and ancient languages via adapter training.
翻訳日:2024-04-22 15:07:01 公開日:2024-04-19
# KoReA-SFL: ナレッジ・リプレイに基づく破滅的フォーミングに対する分割学習

KoReA-SFL: Knowledge Replay-based Split Federated Learning Against Catastrophic Forgetting ( http://arxiv.org/abs/2404.12846v1 )

ライセンス: Link先を確認
Zeke Xia, Ming Hu, Dengke Yan, Ruixuan Liu, Anran Li, Xiaofei Xie, Mingsong Chen, (参考訳) スプリット・フェデレート・ラーニング(SFL)は、リソース制約のあるクライアント間での知識共有に長けているが、データの不均一性や破滅的な忘れ込みの欠如による訓練精度の低下に悩まされている。 この問題に対処するために,不均一なデータによる勾配のばらつきを軽減するため,マルチモデルアグリゲーション機構を採用したKoReA-SFLという新しいSFL手法と,破滅的な忘れを解消するための知識再生戦略を提案する。 具体的には、KoReA-SFLクラウドサーバ(すなわち、フィードサーバとメインサーバ)では、ローカルトレーニングのグローバル部分よりも複数のブランチモデル部分と、ブランチ間の知識共有のための集約されたマスタモデル部分を維持している。 破滅的な忘れ物を避けるため、KoReA-SFLのメインサーバは、各サーバ側ブランチモデル部のトレーニングデータ分布に応じて、知識再生のための複数のアシスタント装置を選択する。 非IIDおよびIDシナリオから得られた実験結果は、KoReA-SFLが従来のSFL法(最大23.25倍の精度向上)よりも大幅に優れていたことを示している。

Although Split Federated Learning (SFL) is good at enabling knowledge sharing among resource-constrained clients, it suffers from the problem of low training accuracy due to the neglect of data heterogeneity and catastrophic forgetting. To address this issue, we propose a novel SFL approach named KoReA-SFL, which adopts a multi-model aggregation mechanism to alleviate gradient divergence caused by heterogeneous data and a knowledge replay strategy to deal with catastrophic forgetting. Specifically, in KoReA-SFL cloud servers (i.e., fed server and main server) maintain multiple branch model portions rather than a global portion for local training and an aggregated master-model portion for knowledge sharing among branch portions. To avoid catastrophic forgetting, the main server of KoReA-SFL selects multiple assistant devices for knowledge replay according to the training data distribution of each server-side branch-model portion. Experimental results obtained from non-IID and IID scenarios demonstrate that KoReA-SFL significantly outperforms conventional SFL methods (by up to 23.25\% test accuracy improvement).
翻訳日:2024-04-22 15:07:01 公開日:2024-04-19
# CaBaFL: 階層的なキャッシュと機能バランスによる非同期フェデレーション学習

CaBaFL: Asynchronous Federated Learning via Hierarchical Cache and Feature Balance ( http://arxiv.org/abs/2404.12850v1 )

ライセンス: Link先を確認
Zeke Xia, Ming Hu, Dengke Yan, Xiaofei Xie, Tianlin Li, Anran Li, Junlong Zhou, Mingsong Chen, (参考訳) 有望な分散機械学習パラダイムとしてのフェデレートラーニング(FL)は、AIoT(Artificial Intelligence of Things)アプリケーションで広く採用されている。 しかし、FLの効率と推論能力は、トラグラーの存在と、巨大なAIoTデバイス間でのデータ不均衡のため、著しく制限されている。 上記の課題に対処するために,階層型キャッシュベースの集約機構と機能バランス誘導デバイス選択戦略を含む,CaBaFLという新しい非同期FLアプローチを提案する。 CaBaFLは、ローカルトレーニングのために複数の中間モデルを同時に維持する。 階層的なキャッシュベースのアグリゲーション機構により、各中間モデルを複数のデバイスでトレーニングし、トレーニング時間を調整し、ストラグラー問題を緩和することができる。 具体的には、各中間モデルはローカルトレーニングのために低レベルのキャッシュに格納され、十分なローカルデバイスによってトレーニングされた場合、集約のために高レベルのキャッシュに格納される。 不均衡データの問題を解決するため、CaBaFLにおける機能バランス誘導デバイス選択戦略では、アクティベーション分布をメトリックとして採用し、アグリゲーション前に完全にバランスの取れたデータ分布を持つデバイス間で各中間モデルをトレーニングすることができる。 実験の結果,CaBaFLは最先端のFL法と比較して最大9.26Xのトレーニングアクセラレーションと19.71\%の精度向上を達成した。

Federated Learning (FL) as a promising distributed machine learning paradigm has been widely adopted in Artificial Intelligence of Things (AIoT) applications. However, the efficiency and inference capability of FL is seriously limited due to the presence of stragglers and data imbalance across massive AIoT devices, respectively. To address the above challenges, we present a novel asynchronous FL approach named CaBaFL, which includes a hierarchical Cache-based aggregation mechanism and a feature Balance-guided device selection strategy. CaBaFL maintains multiple intermediate models simultaneously for local training. The hierarchical cache-based aggregation mechanism enables each intermediate model to be trained on multiple devices to align the training time and mitigate the straggler issue. In specific, each intermediate model is stored in a low-level cache for local training and when it is trained by sufficient local devices, it will be stored in a high-level cache for aggregation. To address the problem of imbalanced data, the feature balance-guided device selection strategy in CaBaFL adopts the activation distribution as a metric, which enables each intermediate model to be trained across devices with totally balanced data distributions before aggregation. Experimental results show that compared with the state-of-the-art FL methods, CaBaFL achieves up to 9.26X training acceleration and 19.71\% accuracy improvements.
翻訳日:2024-04-22 15:07:01 公開日:2024-04-19
# LSPフレームワーク:ラベルの平滑化によるトリガーリバースエンジニアリングの補正モデル

LSP Framework: A Compensatory Model for Defeating Trigger Reverse Engineering via Label Smoothing Poisoning ( http://arxiv.org/abs/2404.12852v1 )

ライセンス: Link先を確認
Beichen Li, Yuanfang Guo, Heqi Peng, Yangxi Li, Yunhong Wang, (参考訳) ディープニューラルネットワークはバックドア攻撃に弱い。 既存のバックドア防御手法の中で、最適化によってバックドアトリガを再構築するリバースエンジニアリングに基づくアプローチは、他のタイプの方法と比較して最も汎用的で効果的な手法である。 本稿では,典型的なトリガリバースエンジニアリングプロセスのための汎用パラダイムを要約し,構築する。 このパラダイムに基づいて,バックドアサンプルの分類信頼度を操作することにより,トリガリバースエンジニアリングを倒す新たな視点を提案する。 分類信頼性の特定の修正を決定するために,修正の下位境界を計算する補正モデルを提案する。 適切な修正によって、バックドアアタックは、トリガーリバースエンジニアリングベースの手法を簡単にバイパスすることができる。 この目的を達成するために,ラベルスムーシングを利用したラベルスムーシング・ポゾンティング(LSP)フレームワークを提案する。 大規模な実験により、提案手法は最先端のリバースエンジニアリング手法を破り、既存のバックドア攻撃との互換性が良好であることを実証した。

Deep neural networks are vulnerable to backdoor attacks. Among the existing backdoor defense methods, trigger reverse engineering based approaches, which reconstruct the backdoor triggers via optimizations, are the most versatile and effective ones compared to other types of methods. In this paper, we summarize and construct a generic paradigm for the typical trigger reverse engineering process. Based on this paradigm, we propose a new perspective to defeat trigger reverse engineering by manipulating the classification confidence of backdoor samples. To determine the specific modifications of classification confidence, we propose a compensatory model to compute the lower bound of the modification. With proper modifications, the backdoor attack can easily bypass the trigger reverse engineering based methods. To achieve this objective, we propose a Label Smoothing Poisoning (LSP) framework, which leverages label smoothing to specifically manipulate the classification confidences of backdoor samples. Extensive experiments demonstrate that the proposed work can defeat the state-of-the-art trigger reverse engineering based methods, and possess good compatibility with a variety of existing backdoor attacks.
翻訳日:2024-04-22 15:07:01 公開日:2024-04-19
# ソフトウェアシステムからポスト量子クリプトグラフィへの移行 - 体系的文献レビュー

Migrating Software Systems towards Post-Quantum-Cryptography -- A Systematic Literature Review ( http://arxiv.org/abs/2404.12854v1 )

ライセンス: Link先を確認
Christian Näther, Daniel Herzinger, Stefan-Lukas Gazdag, Jan-Philipp Steghöfer, Simon Daum, Daniel Loebenberger, (参考訳) インターネットのようなネットワークは、私たちのコネクテッドワールドにとって不可欠です。 量子コンピューティングは、基本的なセキュリティメカニズムを脅かすため、この異種インフラに脅威をもたらす。 したがって、ネットワークとそのコンポーネントには、後量子暗号(PQC)への移行が必要である。 現時点では、そのような移行をどのように構成し、実際に実装すべきかについての知識はほとんどありません。 系統的な文献レビューでは,IPネットワークのPQCへのマイグレーションアプローチについて論じている。 移行プロセスと実世界のソフトウェアシステム移行に関する論文を調査する。 プロセス側では、用語、マイグレーションステップ、役割が文献全体で正確に、あるいは一貫して定義されていないことが分かりました。 それでも、我々は4つの主要なフェーズと適切なサブステップを特定し、それもまた新しい役割のアーチェタイプと一致した。 実世界のマイグレーションに関しては、さまざまなPQC実装とハイブリッドソリューションが、幅広いシステムタイプに属するシステムのマイグレーションに使われています。 すべての論文の中で、私たちは、PQCの経験の欠如と高い実現努力、今後のシステムのセキュリティに対する懸念、そして最後に、高い複雑性の3つの大きな課題に気付きました。 以上の結果から,近年の標準化努力が量子セーフネットワークを推し進めていることが示唆された。 しかし、この文献は定義やベストプラクティスについてまだ合意に達していない。 実装は概ね実験的であり、必ずしも実用的ではない。 この(適用された)研究の速い動きの領域をよりよく把握するために、系統的な文献レビューは、その現状を包括的に概観し、PQCマイグレーションの問題を掘り下げる出発点として役立ちます。

Networks such as the Internet are essential for our connected world. Quantum computing poses a threat to this heterogeneous infrastructure since it threatens fundamental security mechanisms. Therefore, a migration to post-quantum-cryptography (PQC) is necessary for networks and their components. At the moment, there is little knowledge on how such migrations should be structured and implemented in practice. Our systematic literature review addresses migration approaches for IP networks towards PQC. It surveys papers about the migration process and exemplary real-world software system migrations. On the process side, we found that terminology, migration steps, and roles are not defined precisely or consistently across the literature. Still, we identified four major phases and appropriate substeps which we matched with also emerging archetypes of roles. In terms of real-world migrations, we see that reports used several different PQC implementations and hybrid solutions for migrations of systems belonging to a wide range of system types. Across all papers we noticed three major challenges for adopters: missing experience of PQC and a high realization effort, concerns about the security of the upcoming system, and finally, high complexity. Our findings indicate that recent standardization efforts already push quantum-safe networking forward. However, the literature is still not in consensus about definitions and best practices. Implementations are mostly experimental and not necessarily practical, leading to an overall chaotic situation. To better grasp this fast moving field of (applied) research, our systematic literature review provides a comprehensive overview of its current state and serves as a starting point for delving into the matter of PQC migration.
翻訳日:2024-04-22 15:07:01 公開日:2024-04-19
# ランダムフォレストを用いたランサムウェアの検出と分類:UGRansome2024データセットを用いたケーススタディ

Ransomware Detection and Classification Using Random Forest: A Case Study with the UGRansome2024 Dataset ( http://arxiv.org/abs/2404.12855v1 )

ライセンス: Link先を確認
Peace Azugo, Hein Venter, Mike Wa Nkongolo, (参考訳) サイバーセキュリティは、重要なインフラを保護する上で重要なランサムウェアの特定と緩和の課題に直面している。 正常なネットワーク動作と異常なネットワーク動作を区別するためのデータセットが存在しないことは、ランサムウェアに対する積極的な検出戦略の開発を妨げる。 アクティブ防止手法の障害は、正常なネットワーク行動と異常なネットワーク行動とを対比する包括的なデータセットがないことである。 このようなコントラストを可能にするデータセットは、脅威の異常な緩和を著しく高速化する。 本研究では,ネットワークトラフィックにおけるランサムウェア検出のための最適化データセットであるUGRansome2024を紹介する。 このデータセットはUGRansomeのデータから派生したもので、ネットワークの振る舞い分析においてのみ関連するパターンを考慮に入れた直観的特徴工学アプローチを用いている。 本研究では,UGRansome2024データセットとランダムフォレストアルゴリズムを用いてランサムウェア検出を行う。 コーディングと特徴関連性の決定を通じて、ランダムフォレストは96%の分類精度を獲得し、異常なランサムウェア取引を効果的に特定した。 発見によると、Encrypt Decrypt Algorithms (EDA)やGlobe ransomwareなどのランサムウェアの亜種は、最も金銭的影響が大きい。 これらの洞察は、ランサムウェアの検出と緩和における機械学習の重要性を強調し、現実世界のサイバーセキュリティプラクティスに重大な影響を及ぼす。 さらなる研究は、データセットを拡張し、代替検出方法を探究し、現在のアプローチの制限に対処することを推奨している。

Cybersecurity faces challenges in identifying and mitigating ransomware, which is important for protecting critical infrastructures. The absence of datasets for distinguishing normal versus abnormal network behaviour hinders the development of proactive detection strategies against ransomware. An obstacle in proactive prevention methods is the absence of comprehensive datasets for contrasting normal versus abnormal network behaviours. The dataset enabling such contrasts would significantly expedite threat anomaly mitigation. In this study, we introduce UGRansome2024, an optimised dataset for ransomware detection in network traffic. This dataset is derived from the UGRansome data using an intuitionistic feature engineering approach that considers only relevant patterns in network behaviour analysis. The study presents an analysis of ransomware detection using the UGRansome2024 dataset and the Random Forest algorithm. Through encoding and feature relevance determination, the Random Forest achieved a classification accuracy of 96% and effectively identified unusual ransomware transactions. Findings indicate that certain ransomware variants, such as those utilising Encrypt Decrypt Algorithms (EDA) and Globe ransomware, have the highest financial impact. These insights have significant implications for real-world cybersecurity practices, highlighting the importance of machine learning in ransomware detection and mitigation. Further research is recommended to expand datasets, explore alternative detection methods, and address limitations in current approaches.
翻訳日:2024-04-22 15:07:01 公開日:2024-04-19
# 異種オープンセット3次元物体検出のための言語駆動型能動学習

Language-Driven Active Learning for Diverse Open-Set 3D Object Detection ( http://arxiv.org/abs/2404.12856v1 )

ライセンス: Link先を確認
Ross Greer, Bjørk Antoniussen, Andreas Møgelmose, Mohan Trivedi, (参考訳) 物体検出は安全な自動運転を保証するために不可欠である。 しかし、データ駆動アプローチは、3D駆動シーンで少数または新しいオブジェクトに遭遇する際の課題に直面している。 本稿では,多種多様なオープンセット3Dオブジェクト検出のための言語駆動型能動学習フレームワークVisLEDを提案する。 本手法は,非ラベル付きプールから多種多様な情報的データサンプルを検索し,表現不足や新規なオブジェクトを検出する能力を高めるために,能動的学習技術を活用する。 具体的には、オープンワールド探索とクローズドワールドマイニングの両方で動作するVision-Language Embedding Diversity Querying (VisLED-Querying)アルゴリズムを紹介する。 オープンワールド探索では、VisLED-Queryingは既存のデータと比較して最も新しいデータポイントを選択し、クローズドワールドマイニングでは、既知のクラスの新しいインスタンスをマイニングする。 提案手法をnuScenesデータセット上で評価し,ランダムサンプリング法やエントロピークエリ法と比較して有効性を示した。 その結果、VisLED-Queryingは、モデル最適化にもかかわらず、ランダムサンプリングを一貫して上回り、エントロピークエリと比較して競争性能が向上し、自律運転シナリオにおけるオブジェクト検出の改善にVisLEDの可能性を浮き彫りにした。

Object detection is crucial for ensuring safe autonomous driving. However, data-driven approaches face challenges when encountering minority or novel objects in the 3D driving scene. In this paper, we propose VisLED, a language-driven active learning framework for diverse open-set 3D Object Detection. Our method leverages active learning techniques to query diverse and informative data samples from an unlabeled pool, enhancing the model's ability to detect underrepresented or novel objects. Specifically, we introduce the Vision-Language Embedding Diversity Querying (VisLED-Querying) algorithm, which operates in both open-world exploring and closed-world mining settings. In open-world exploring, VisLED-Querying selects data points most novel relative to existing data, while in closed-world mining, it mines new instances of known classes. We evaluate our approach on the nuScenes dataset and demonstrate its effectiveness compared to random sampling and entropy-querying methods. Our results show that VisLED-Querying consistently outperforms random sampling and offers competitive performance compared to entropy-querying despite the latter's model-optimality, highlighting the potential of VisLED for improving object detection in autonomous driving scenarios.
翻訳日:2024-04-22 15:07:01 公開日:2024-04-19
# 非エルミートキラル量子光学系における非相互PT対称相転移

Nonreciprocal PT-symmetric phase transition in a non-Hermitian chiral quantum optical system ( http://arxiv.org/abs/2404.12860v1 )

ライセンス: Link先を確認
Miao Cai, Jiang-Shan Tang, Ming-Yuan Chen, Keyu Xia, (参考訳) 相転移、非調和性、非相互性は基礎物理学において中心的な役割を果たす。 しかし、これらの3つの場の3つの相互作用は量子領域に欠けている。 ここでは,方向系散逸に起因する非エルミートキラル量子電磁力学系において,非相互パリティ-時対称相転移を示す。 前述した非相互相転移とは対照的に、原子-共振器結合が相互結合である場合でも、非相互パリティ-時対称相が現れる。 非相相領域において非相反光子遮断を得る。 これらの結果は、非相互および非エルミート量子物理学の基本的な洞察を深め、また非伝統的な量子操作のための新しい扉を開くかもしれない。

Phase transitions, non-Hermiticity and nonreciprocity play central roles in fundamental physics. However, the triple interplay of these three fields is of lack in the quantum domain. Here, we show nonreciprocal parity-time-symmetric phase transition in a non-Hermitian chiral quantum electrodynamical system, caused by the directional system dissipation. In remarkable contrast to previously reported nonreciprocal phase transitions, the nonreciprocal parity-time-symmetric phases appear even when the atom-resonator coupling is reciprocal. Nonreciprocal photon blockade is obtained in the nonreciprocal phase region. These results may deepen the fundamental insight of nonreciprocal and non-Hermitian quantum physics, and also open a new door for unconventional quantum manipulation.
翻訳日:2024-04-22 14:57:17 公開日:2024-04-19
# 弱修正LiDARセマンティックセグメンテーションのファンデーションモデル

Foundation Model assisted Weakly Supervised LiDAR Semantic Segmentation ( http://arxiv.org/abs/2404.12861v1 )

ライセンス: Link先を確認
Yilong Chen, Zongyi Xu, xiaoshui Huang, Ruicheng Zhang, Xinqi Jiang, Xinbo Gao, (参考訳) 現在のクラウドセマンティックセグメンテーションは、十分なラベルを与えると大きな進歩を遂げた。 しかし、LiDAR点雲の濃密なアノテーションは、不当に高価で時間がかかり、継続的に増加するデータの量に追従できないままである。 本稿では,画像に散在点を付加したアノテート画像を提案するとともに,SAM(ファンデーションモデル)を用いて画像のセマンティックセグメンテーションラベルを生成する。 最後に、カメラとLiDARの内在的・外在的パラメータを用いて、画像のセグメンテーションラベルをLiDAR空間にマッピングすることにより、ポイントクラウドセグメンテーションのためのラベルを取得し、画像セグメンテーションに基づくSAMを弱教師付きポイントクラウドセグメンテーションに活用するための最初の研究であるScatter-KITTIとScatter-nuScenesをリリースする。 さらに,スパースアノテーションから得られた偽ラベルがポイントクラウドの特徴に与える影響を軽減するために,MM-ScatterNetと呼ばれるLiDARセマンティックセマンティックセグメンテーションのためのマルチモーダル弱教師付きネットワークを提案する。 このネットワークは、ポイントクラウドとイメージモダリティの両方の機能を組み合わせて、マルチモーダル機能とポイントクラウド機能間の一貫性の制約を導入することで、ポイントクラウドの表現学習を強化する。 In the SemanticKITTI dataset, we achieve 66\% of full supervised performance using only 0.02% of annotated data, and on the NuScenes dataset, we achieve 95% of full supervised performance using only 0.1% labeled points。

Current point cloud semantic segmentation has achieved great advances when given sufficient labels. However, the dense annotation of LiDAR point clouds remains prohibitively expensive and time-consuming, unable to keep up with the continuously growing volume of data. In this paper, we propose annotating images with scattered points, followed by utilizing SAM (a Foundation model) to generate semantic segmentation labels for the images. Finally, by mapping the segmentation labels of the images to the LiDAR space using the intrinsic and extrinsic parameters of the camera and LiDAR, we obtain labels for point cloud semantic segmentation, and release Scatter-KITTI and Scatter-nuScenes, which are the first works to utilize image segmentation-based SAM for weakly supervised point cloud semantic segmentation. Furthermore, to mitigate the influence of erroneous pseudo labels obtained from sparse annotations on point cloud features, we propose a multi-modal weakly supervised network for LiDAR semantic segmentation, called MM-ScatterNet. This network combines features from both point cloud and image modalities, enhancing the representation learning of point clouds by introducing consistency constraints between multi-modal features and point cloud features. On the SemanticKITTI dataset, we achieve 66\% of fully supervised performance using only 0.02% of annotated data, and on the NuScenes dataset, we achieve 95% of fully supervised performance using only 0.1% labeled points.
翻訳日:2024-04-22 14:57:17 公開日:2024-04-19
# 科学的推論のための特徴重要度手法の指針

A Guide to Feature Importance Methods for Scientific Inference ( http://arxiv.org/abs/2404.12862v1 )

ライセンス: Link先を確認
Fiona Katharina Ewald, Ludwig Bothmann, Marvin N. Wright, Bernd Bischl, Giuseppe Casalicchio, Gunnar König, (参考訳) 機械学習(ML)モデルは、予測能力が高いため、ますます使われているが、データ生成プロセス(DGP)を理解する上での使用は限られている。 DGPを理解するには、不透明な内部メカニズムのため、多くのMLモデルでは直接提供できない機能目標関連に関する洞察が必要である。 特徴重要度(FI)法は特定の条件下でDGPに有用な洞察を与える。 異なるFI法の結果は異なる解釈を持つため、具体的なユースケースに対して正しいFI法を選択することは極めて重要であり、専門家の知識を必要とする。 本稿では,FI手法の異なる解釈を理解するための包括的ガイドとして機能する。 FI法を精査し,その解釈に関する新たな証明を提供することにより,これらの手法の理解を深め,科学的推論のための具体的な勧告を定式化する。 我々は、FI不確実性推定の選択肢について議論し、ブラックボックスMLモデルからの完全な統計的推測を目的とした将来の研究の方向性について論じる。

While machine learning (ML) models are increasingly used due to their high predictive power, their use in understanding the data-generating process (DGP) is limited. Understanding the DGP requires insights into feature-target associations, which many ML models cannot directly provide, due to their opaque internal mechanisms. Feature importance (FI) methods provide useful insights into the DGP under certain conditions. Since the results of different FI methods have different interpretations, selecting the correct FI method for a concrete use case is crucial and still requires expert knowledge. This paper serves as a comprehensive guide to help understand the different interpretations of FI methods. Through an extensive review of FI methods and providing new proofs regarding their interpretation, we facilitate a thorough understanding of these methods and formulate concrete recommendations for scientific inference. We conclude by discussing options for FI uncertainty estimation and point to directions for future research aiming at full statistical inference from black-box ML models.
翻訳日:2024-04-22 14:57:17 公開日:2024-04-19
# Nyon Unchained:BoschのeBikeボードコンピュータの法医学的分析

Nyon Unchained: Forensic Analysis of Bosch's eBike Board Computers ( http://arxiv.org/abs/2404.12864v1 )

ライセンス: Link先を確認
Marcel Stachak, Julian Geus, Gaston Pugliese, Felix Freiling, (参考訳) 現代のeBikeオンボードコンピュータは基本的には小型のPCで、モーターコントロールやナビゲーション、パフォーマンスモニタリングだけでなく、多くの機密データを保存している。 ボードコンピューターのBosch Nyonシリーズは、eBikeビジネスのマーケットリーダーの1人による最先端のデバイスだ。 そこで,2014年と2021年に発売した2種類のNyonモデルについて,詳細な法医学的分析を行った。 第1世代のNyonデバイスでは、Telnetアクセスはアップデート手順における設計上の欠陥を悪用することで確立することができ、ハードウェアにダメージを与えることなく関連するデータを取得することができた。 ユーザの個人情報に加えて、タイムスタンプやGPS座標などのユーザ活動を含むデータベースも明らかになった。 さらに、デバイス上のデータをフォージして、Boschのサーバに転送して、オンラインサービスとスマートフォンアプリ間で永続化することが可能だった。 現在の第2世代のNyonデバイスでは、ソフトウェアベースのアクセスは得られない。 このため、より侵入的なハードウェアベースの選択肢が検討され、最終的にはチップオフによってデータを抽出することができた。 暗号化されているにもかかわらず、ユーザーデータはアクセスされ、評価される。 位置情報やユーザー情報に加えて、新しいモデルは、近くのBluetoothデバイスなど、より法的なデータを保持する。

Modern eBike on-board computers are basically small PCs that not only offer motor control, navigation, and performance monitoring, but also store lots of sensitive user data. The Bosch Nyon series of board computers are cutting-edge devices from one of the market leaders in the eBike business, which is why they are especially interesting for forensics. Therefore, we conducted an in-depth forensic analysis of the two available Nyon models released in 2014 and 2021. On a first-generation Nyon device, Telnet access could be established by abusing a design flaw in the update procedure, which allowed the acquisition of relevant data without risking damage to the hardware. Besides the user's personal information, the data analysis revealed databases containing user activities, including timestamps and GPS coordinates. Furthermore, it was possible to forge the data on the device and transfer it to Bosch's servers to be persisted across their online service and smartphone app. On a current second-generation Nyon device, no software-based access could be obtained. For this reason, more intrusive hardware-based options were considered, and the data could be extracted via chip-off eventually. Despite encryption, the user data could be accessed and evaluated. Besides location and user information, the newer model holds even more forensically relevant data, such as nearby Bluetooth devices.
翻訳日:2024-04-22 14:57:17 公開日:2024-04-19
# テキスト情報はマルチモーダル・インテクスト学習の検索にどのように影響するか?

How Does the Textual Information Affect the Retrieval of Multimodal In-Context Learning? ( http://arxiv.org/abs/2404.12866v1 )

ライセンス: Link先を確認
Yang Luo, Zangwei Zheng, Zirui Zhu, Yang You, (参考訳) MLLM(Multimodal large language model)のパラメータサイズの増加は、特にコンテキスト内学習において、事前訓練されたパラメータを更新することなくタスク性能を向上させる重要な機能を導入している。 しかし、この効果は、テキスト情報を見渡すことで、現在視覚データに偏っている、コンテキスト内サンプルの適切な選択に依存している。 さらに,テキスト内サンプル選択に不可欠なMLLMの教師付きレトリバーの面積についても検討が続けられている。 本研究は,テキスト情報がマルチモーダル文脈における文脈内サンプルの教師なし選択に与える影響を詳細に評価し,採用モダリティに対するレトリバー性能の顕著な感度を明らかにする。 これに対応して、ニューラルネットワークを用いた教師付きMLLM-retriever MSIERを導入し、マルチモーダル・イン・コンテクスト学習効率を向上させるサンプルを選択する。 このアプローチは3つの異なるタスクにわたる広範なテストを通じて検証され、メソッドの有効性が実証される。 さらに,モダリティが教師付き検索手法のトレーニングに与える影響と,モデルの成功に寄与するピンポイント要因について検討した。 この探索は、マルチモーダルデータの戦略的利用を通じてMLLMにおける洗練された文脈内学習の可能性を強調し、今後の進歩の道を開くものである。

The increase in parameter size of multimodal large language models (MLLMs) introduces significant capabilities, particularly in-context learning, where MLLMs enhance task performance without updating pre-trained parameters. This effectiveness, however, hinges on the appropriate selection of in-context examples, a process that is currently biased towards visual data, overlooking textual information. Furthermore, the area of supervised retrievers for MLLMs, crucial for optimal in-context example selection, continues to be uninvestigated. Our study offers an in-depth evaluation of the impact of textual information on the unsupervised selection of in-context examples in multimodal contexts, uncovering a notable sensitivity of retriever performance to the employed modalities. Responding to this, we introduce a novel supervised MLLM-retriever MSIER that employs a neural network to select examples that enhance multimodal in-context learning efficiency. This approach is validated through extensive testing across three distinct tasks, demonstrating the method's effectiveness. Additionally, we investigate the influence of modalities on our supervised retrieval method's training and pinpoint factors contributing to our model's success. This exploration paves the way for future advancements, highlighting the potential for refined in-context learning in MLLMs through the strategic use of multimodal data.
翻訳日:2024-04-22 14:57:17 公開日:2024-04-19
# FipTR: 自動運転における将来予測のためのシンプルで効果的なトランスフォーマーフレームワーク

FipTR: A Simple yet Effective Transformer Framework for Future Instance Prediction in Autonomous Driving ( http://arxiv.org/abs/2404.12867v1 )

ライセンス: Link先を確認
Xingtai Gui, Tengteng Huang, Haonan Shao, Haotian Yao, Chi Zhang, (参考訳) Bird's Eye View(BEV)の観点からの将来のインスタンス予測は、将来のインスタンスセグメンテーションとインスタンスの動き予測を含む、自動運転における重要なコンポーネントである。 既存のメソッドは通常、複数の補助出力と後処理手順を必要とする冗長で複雑なパイプラインに依存している。 さらに、各補助予測に対する推定誤差は、予測性能の低下につながる。 本稿では,Future Instance Prediction Transformer (FipTR) という,BEVインスタンスのセグメンテーションと将来のフレームの予測を行うシンプルなエンドツーエンドフレームワークを提案する。 本稿では,特定のトラフィック参加者を表すインスタンスクエリを採用して,対応する将来的なマスクを直接推定し,複雑な後処理手順を取り除くことを提案する。 さらに,フロー認識型BEV予測器を考案し,オフセットサンプリングを導出する逆流を考慮に入れた,フロー認識変形性アテンションからなる将来のBEV特徴予測を行う。 時間的コヒーレンスをさらに改善するために、新しい将来的なインスタンスマッチング戦略も提案されている。 広汎な実験は、異なる時間的BEVエンコーダ下でのFipTRの優位性とその有効性を示す。

The future instance prediction from a Bird's Eye View(BEV) perspective is a vital component in autonomous driving, which involves future instance segmentation and instance motion prediction. Existing methods usually rely on a redundant and complex pipeline which requires multiple auxiliary outputs and post-processing procedures. Moreover, estimated errors on each of the auxiliary predictions will lead to degradation of the prediction performance. In this paper, we propose a simple yet effective fully end-to-end framework named Future Instance Prediction Transformer(FipTR), which views the task as BEV instance segmentation and prediction for future frames. We propose to adopt instance queries representing specific traffic participants to directly estimate the corresponding future occupied masks, and thus get rid of complex post-processing procedures. Besides, we devise a flow-aware BEV predictor for future BEV feature prediction composed of a flow-aware deformable attention that takes backward flow guiding the offset sampling. A novel future instance matching strategy is also proposed to further improve the temporal coherence. Extensive experiments demonstrate the superiority of FipTR and its effectiveness under different temporal BEV encoders.
翻訳日:2024-04-22 14:57:17 公開日:2024-04-19
# LLM-R2: クエリ効率を高めるための大規模言語モデル強化ルールベース書き換えシステム

LLM-R2: A Large Language Model Enhanced Rule-based Rewrite System for Boosting Query Efficiency ( http://arxiv.org/abs/2404.12872v1 )

ライセンス: Link先を確認
Zhaodonghui Li, Haitao Yuan, Huiming Wang, Gao Cong, Lidong Bing, (参考訳) クエリ結果を変更することなくSQLクエリの構造を変更することで、より効率的なクエリを生成することを目的としたクエリ書き換えは、重要な研究課題である。 リライト中のリライトクエリと元のリライトクエリの等価性を維持するため、従来のクエリリライトメソッドは常に特定のリライトルールに従ってクエリをリライトする。 しかし、いくつかの問題が残っている。 第一に、最適な選択や書き直しルールの順序を見つける既存の方法はまだ限られており、プロセスは常に多くのリソースを消費します。 新しい書き直し規則の発見に関わる手法は、典型的には構造論理や広範なユーザーインタラクションの複雑な証明を必要とする。 第二に、現在のクエリ書き換え手法は、しばしば正確でないDBMSコスト推定器に大きく依存する。 本稿では,LLM-R2という新しいクエリリライト手法を提案し,データベースリライトシステムにおいて可能なリライトルールを提案するために,大規模言語モデル(LLM)を採用した。 書き直し規則を推奨するLLMの推論能力をさらに向上するため,カリキュラムによるコントラストモデルを訓練し,クエリ表現を学習し,LLMの効果的なクエリデモを選択する。 実験結果から,本手法はクエリ実行効率を大幅に向上し,ベースライン法よりも優れていることがわかった。 さらに,本手法は,異なるデータセット間で高いロバストさを享受する。

Query rewrite, which aims to generate more efficient queries by altering a SQL query's structure without changing the query result, has been an important research problem. In order to maintain equivalence between the rewritten query and the original one during rewriting, traditional query rewrite methods always rewrite the queries following certain rewrite rules. However, some problems still remain. Firstly, existing methods of finding the optimal choice or sequence of rewrite rules are still limited and the process always costs a lot of resources. Methods involving discovering new rewrite rules typically require complicated proofs of structural logic or extensive user interactions. Secondly, current query rewrite methods usually rely highly on DBMS cost estimators which are often not accurate. In this paper, we address these problems by proposing a novel method of query rewrite named LLM-R2, adopting a large language model (LLM) to propose possible rewrite rules for a database rewrite system. To further improve the inference ability of LLM in recommending rewrite rules, we train a contrastive model by curriculum to learn query representations and select effective query demonstrations for the LLM. Experimental results have shown that our method can significantly improve the query execution efficiency and outperform the baseline methods. In addition, our method enjoys high robustness across different datasets.
翻訳日:2024-04-22 14:57:17 公開日:2024-04-19
# 情報和解を用いた物理層認証

Physical Layer Authentication Using Information Reconciliation ( http://arxiv.org/abs/2404.12874v1 )

ライセンス: Link先を確認
Atsu Kokuvi Angélo Passah, Rodrigo C. de Lamare, Arsenia Chorti, (参考訳) 将来の無線通信ネットワークにおけるユーザ認証は、その大規模かつ異質性のため、さらに複雑化すると予想されている。 さらに、公開鍵分布に基づく古典的暗号手法の計算複雑性は、シンプルでローエンドなモノのインターネット(IoT)デバイスでの使用に制限要因となる可能性がある。 本稿では,従来の手法,例えば多要素認証プロトコルを補完する物理層認証(PLA)を提案する。 PLAの精度と一貫性は、異なるタイムスロット間の無線チャネル実現のランダムなばらつきにより影響を受け、認証性能を損なう可能性がある。 この問題に対処するために、この作業では、和解の形で誤り訂正符号に基づく手法が検討されている。 特に,極性符号を用いた分散音源符号化(Slepian-Wolf)の整合性を導入し,チャネル計測を時間内に整合させる。 その後、仮説テストが整合ベクトルに適用され、認証されたデバイスを受理または拒否する。 シミュレーションの結果,低信号対雑音比のシナリオにおいても,和解方式を用いたPLAが先行スキームより優れていたことが示唆された。

User authentication in future wireless communication networks is expected to become more complicated due to their large scale and heterogeneity. Furthermore, the computational complexity of classical cryptographic approaches based on public key distribution can be a limiting factor for using in simple, low-end Internet of things (IoT) devices. This paper proposes physical layer authentication (PLA) expected to complement existing traditional approaches, e.g., in multi-factor authentication protocols. The precision and consistency of PLA is impacted because of random variations of wireless channel realizations between different time slots, which can impair authentication performance. In order to address this, a method based on error-correcting codes in the form of reconciliation is considered in this work. In particular, we adopt distributed source coding (Slepian-Wolf) reconciliation using polar codes to reconcile channel measurements spread in time. Hypothesis testing is then applied to the reconciled vectors to accept or reject the device as authenticated. Simulation results show that the proposed PLA using reconciliation outperforms prior schemes even in low signal-to-noise ratio scenarios.
翻訳日:2024-04-22 14:57:17 公開日:2024-04-19
# 大規模医用ビジュアルタスク適応ベンチマーク

A Large-scale Medical Visual Task Adaptation Benchmark ( http://arxiv.org/abs/2404.12876v1 )

ライセンス: Link先を確認
Shentong Mo, Xufang Luo, Yansen Wang, Dongsheng Li, (参考訳) 視覚タスク適応は、学習可能な特別なレイヤやトークンを使用して、トレーニング済みの視覚変換器(ViT)を一般的な下流視覚タスクに適応させるのに有効であることが示されている。 しかし、現実的で重要な医療領域、特にカラー画像、X線、CTなどの様々な医学的な視覚的モダリティに対する視覚的タスク適応の効果を十分に調査する大規模なベンチマークがある。 このギャップを埋めるために、我々はMed-VTAB(Med-VTAB)という、多様な臓器、モダリティ、適応アプローチのための168万の医療画像からなる大規模医用視覚タスク適応ベンチマークを提示する。 Med-VTABをベースとして、調整可能なパラメータに関する医用プロンプトチューニングのスケーリング法と、非医療用/医療用プレトレインウェイトを用いた医用視覚適応の一般化について検討する。 また,患者IDアウトオブディストリビューションが医用視覚適応に与える影響についても検討した。 さらに,Med-VTABの結果から,1つの事前訓練モデルが医療タスク適応において不足していることが示唆された。 そこで本稿では,GMoE-Adapterについて紹介する。GMoE-Adapterは,医療用および一般用プレトレーニング用ウェイトを,ゲートドミキシング・オブ・エキスパート・アダプタを介して組み合わせ,医療用視覚タスク適応における最先端の成果を達成するための新しい手法である。

Visual task adaptation has been demonstrated to be effective in adapting pre-trained Vision Transformers (ViTs) to general downstream visual tasks using specialized learnable layers or tokens. However, there is yet a large-scale benchmark to fully explore the effect of visual task adaptation on the realistic and important medical domain, particularly across diverse medical visual modalities, such as color images, X-ray, and CT. To close this gap, we present Med-VTAB, a large-scale Medical Visual Task Adaptation Benchmark consisting of 1.68 million medical images for diverse organs, modalities, and adaptation approaches. Based on Med-VTAB, we explore the scaling law of medical prompt tuning concerning tunable parameters and the generalizability of medical visual adaptation using non-medical/medical pre-train weights. Besides, we study the impact of patient ID out-of-distribution on medical visual adaptation, which is a real and challenging scenario. Furthermore, results from Med-VTAB indicate that a single pre-trained model falls short in medical task adaptation. Therefore, we introduce GMoE-Adapter, a novel method that combines medical and general pre-training weights through a gated mixture-of-experts adapter, achieving state-of-the-art results in medical visual task adaptation.
翻訳日:2024-04-22 14:57:17 公開日:2024-04-19
# 知識密度検索型ジェネレーションにおけるマルチビュー視点のアンロック

Unlocking Multi-View Insights in Knowledge-Dense Retrieval-Augmented Generation ( http://arxiv.org/abs/2404.12879v1 )

ライセンス: Link先を確認
Guanhua Chen, Wenhan Yu, Lei Sha, (参考訳) Retrieval-Augmented Generation (RAG) は、Large Language Models (LLMs) の適用において重要な役割を担っているが、法や医学のような知識密度ドメインにおける既存の検索手法は、解釈可能性や信頼性の向上に不可欠である多視点ビューの欠如に悩まされている。 従来のマルチビュー検索の研究は、特定のドメイン知識の観点の表現を無視して、クエリの異なるセマンティックフォームにのみ焦点をあてることが多かった。 本稿では,複数のドメイン視点からの意図認識型クエリ書き換えを利用して,検索精度を向上し,最終的な推論の有効性を向上する,新しいマルチビューRAGフレームワークであるMVRAGを提案する。 法的および医学的事例検索実験は,本フレームワークによるリコール率と精度の大幅な向上を示した。 我々の多視点検索手法は、知識集約的な分野におけるLLMのさらなる適用を加速し、RAGタスクを増強する多視点情報の可能性を明らかにする。

While Retrieval-Augmented Generation (RAG) plays a crucial role in the application of Large Language Models (LLMs), existing retrieval methods in knowledge-dense domains like law and medicine still suffer from a lack of multi-perspective views, which are essential for improving interpretability and reliability. Previous research on multi-view retrieval often focused solely on different semantic forms of queries, neglecting the expression of specific domain knowledge perspectives. This paper introduces a novel multi-view RAG framework, MVRAG, tailored for knowledge-dense domains that utilizes intention-aware query rewriting from multiple domain viewpoints to enhance retrieval precision, thereby improving the effectiveness of the final inference. Experiments conducted on legal and medical case retrieval demonstrate significant improvements in recall and precision rates with our framework. Our multi-perspective retrieval approach unleashes the potential of multi-view information enhancing RAG tasks, accelerating the further application of LLMs in knowledge-intensive fields.
翻訳日:2024-04-22 14:57:17 公開日:2024-04-19
# 信頼できない絡み合い支援によるセマンティックセキュリティ:知覚と損失

Semantic Security with Unreliable Entanglement Assistance: Interception and Loss ( http://arxiv.org/abs/2404.12880v1 )

ライセンス: Link先を確認
Meir Lederman, Uzi Pereg, (参考訳) セマンティック・セキュリティは、インターセプションまたはロスの2つの理由の1つとして、信頼できない絡み合いの支援によって考慮されている。 対応する2つのモデルを考える。 最初のモデルでは、Eveは絡み合うリソースをインターセプトすることができる。 第2のモデルでは、イヴは受動的であり、リソースは彼女の手の届かない環境に散逸する可能性がある。 我々は、最大誤差基準とセマンティックセキュリティに基づいて、両方のモデルに対して達成可能なレートを導出する。 例として振幅減衰チャネルについて考察する。 インターセプションの下では、時間分割は必ずしも不可能であり、達成可能な領域の境界は切断される。 受動的モデルでは、我々のレート領域は時間分割よりも優れています。

Semantic security is considered with unreliable entanglement assistance, due to one of two reasons: Interception or loss. We consider two corresponding models. In the first model, Eve may intercept the entanglement resource. In the second model, Eve is passive, and the resource may dissipate to the environment beyond her reach. We derive achievable rates for both models, subject to a maximal error criterion and semantic security. As an example, we consider the amplitude damping channel. Under interception, time division is not necessarily possible, and the boundary of our achievable region is disconnected. In the passive model, our rate region outperforms time division.
翻訳日:2024-04-22 14:57:17 公開日:2024-04-19
# MCM:マルチコンディションモーション合成フレームワーク

MCM: Multi-condition Motion Synthesis Framework ( http://arxiv.org/abs/2404.12886v1 )

ライセンス: Link先を確認
Zeyu Ling, Bo Han, Yongkang Wongkan, Han Lin, Mohan Kankanhalli, Weidong Geng, (参考訳) 条件付きヒトモーション合成(HMS)は、特定の条件に適合した人間のモーションシーケンスを生成することを目的としている。 テキストとオーディオは、HMS制御条件として使用される2つの主要なモードを表す。 既存の研究は主に単一条件に焦点が当てられているが、マルチ条件のヒトの運動合成はいまだ研究が進んでいない。 本研究では,主枝と制御枝からなる二重分岐構造に基づくマルチ条件HMSフレームワーク MCMを提案する。 この枠組みは,最初はテキストのみを前提とした拡散モデルの聴覚条件への適用性を効果的に拡張する。 この拡張は、本質的な動きの質と、原モデルに固有の意味的関連性を保ちながら、音楽間距離HMSと共音声HMSの両方を包含する。 さらに,MWNet をメインブランチとする Transformer ベースの拡散モデルの実装を提案する。 このモデルは、多次元自己注意モジュールの統合によって促進される、運動列に固有の空間的複雑さと接合間相関を十分に理解する。 実験の結果,本手法は単一条件と複数条件のHMSタスクにおいて競合する結果が得られることがわかった。

Conditional human motion synthesis (HMS) aims to generate human motion sequences that conform to specific conditions. Text and audio represent the two predominant modalities employed as HMS control conditions. While existing research has primarily focused on single conditions, the multi-condition human motion synthesis remains underexplored. In this study, we propose a multi-condition HMS framework, termed MCM, based on a dual-branch structure composed of a main branch and a control branch. This framework effectively extends the applicability of the diffusion model, which is initially predicated solely on textual conditions, to auditory conditions. This extension encompasses both music-to-dance and co-speech HMS while preserving the intrinsic quality of motion and the capabilities for semantic association inherent in the original model. Furthermore, we propose the implementation of a Transformer-based diffusion model, designated as MWNet, as the main branch. This model adeptly apprehends the spatial intricacies and inter-joint correlations inherent in motion sequences, facilitated by the integration of multi-wise self-attention modules. Extensive experiments show that our method achieves competitive results in single-condition and multi-condition HMS tasks.
翻訳日:2024-04-22 14:57:17 公開日:2024-04-19
# ビデオ安定化のための3次元多フレーム融合

3D Multi-frame Fusion for Video Stabilization ( http://arxiv.org/abs/2404.12887v1 )

ライセンス: Link先を確認
Zhan Peng, Xinyi Ye, Weiyue Zhao, Tianqi Liu, Huiqiang Sun, Baopu Li, Zhiguo Cao, (参考訳) 本稿では、ボリュームレンダリングによる3次元多フレーム融合を統合する、ビデオ安定化のための新しいフレームワークRStabを提案する。 従来の手法とは別に,安定化画像を生成するための3次元多フレーム視点を導入し,構造を保ちながらフルフレーム生成の課題に対処する。 我々のアプローチの核となるのはボリュームレンダリングモジュールである安定化レンダリング(SR)である。 私たちのRStabフレームワークの中核は、ボリュームレンダリングモジュールである安定化レンダリング(SR)にあります。 具体的には、SRは複数のフレームから投影することで特徴や色を歪め、それをディスクリプタに融合させ、安定した画像をレンダリングする。 しかし、歪んだ情報の精度はプロジェクション精度に依存しており、これは動的領域の影響を大きく受けている。 そこで本研究では,提案手法を応用したARR (Adaptive Ray Range) モジュールを導入し,プロジェクションプロセスのサンプリング範囲を適応的に定義する。 また,カラーアグリゲーションの精度向上のために,光学流による幾何的制約を支援するカラー補正(CC)を提案する。 これら3つのモジュールのおかげで、RStabは、さまざまなデータセットにわたる視野(FOV)における以前の安定化器、画質、ビデオの安定性よりも優れた性能を示す。

In this paper, we present RStab, a novel framework for video stabilization that integrates 3D multi-frame fusion through volume rendering. Departing from conventional methods, we introduce a 3D multi-frame perspective to generate stabilized images, addressing the challenge of full-frame generation while preserving structure. The core of our approach lies in Stabilized Rendering (SR), a volume rendering module, which extends beyond the image fusion by incorporating feature fusion. The core of our RStab framework lies in Stabilized Rendering (SR), a volume rendering module, fusing multi-frame information in 3D space. Specifically, SR involves warping features and colors from multiple frames by projection, fusing them into descriptors to render the stabilized image. However, the precision of warped information depends on the projection accuracy, a factor significantly influenced by dynamic regions. In response, we introduce the Adaptive Ray Range (ARR) module to integrate depth priors, adaptively defining the sampling range for the projection process. Additionally, we propose Color Correction (CC) assisting geometric constraints with optical flow for accurate color aggregation. Thanks to the three modules, our RStab demonstrates superior performance compared with previous stabilizers in the field of view (FOV), image quality, and video stability across various datasets.
翻訳日:2024-04-22 14:57:17 公開日:2024-04-19
# Learn2Talk: 2Dトーキングフェイスから学ぶ3Dトーキングフェイス

Learn2Talk: 3D Talking Face Learns from 2D Talking Face ( http://arxiv.org/abs/2404.12888v1 )

ライセンス: Link先を確認
Yixiang Zhuang, Baoping Cheng, Yao Cheng, Yuntao Jin, Renshuai Liu, Chengyang Li, Xuan Cheng, Jing Liao, Juncong Lin, (参考訳) 音声駆動型顔アニメーション法は通常3Dと2Dの2つの主要なクラスを含むが、どちらも近年研究が注目されている。 しかし、私たちの知る限りでは、リップシンクロナイゼーション(リップシンクロナイゼーション)と音声知覚の観点から、3次元音声顔の研究は2次元音声顔ほど深くは進まない。 この2つのサブフィールド間のギャップを念頭に置いてLearn2Talkという学習フレームワークを提案する。 まず、音声とビデオの同期ネットワークにインスパイアされ、3Dシンク・リップの専門家モデルが、音声と3Dの顔の動きのリップシンクを追求するために考案された。 次に,2次元対話顔法から選択した教師モデルを用いて,音声から3次元動きの回帰ネットワークのトレーニングを誘導し,より3次元頂点精度を向上する。 拡張実験により, 口唇同期, 頂点精度, 音声知覚の観点から, 最先端技術と比較して, 提案手法の利点が示された。 最後に,提案フレームワークの2つの応用として,音声-視覚音声認識と3次元ガウススプラッティングに基づくアバターアニメーションを提案する。

Speech-driven facial animation methods usually contain two main classes, 3D and 2D talking face, both of which attract considerable research attention in recent years. However, to the best of our knowledge, the research on 3D talking face does not go deeper as 2D talking face, in the aspect of lip-synchronization (lip-sync) and speech perception. To mind the gap between the two sub-fields, we propose a learning framework named Learn2Talk, which can construct a better 3D talking face network by exploiting two expertise points from the field of 2D talking face. Firstly, inspired by the audio-video sync network, a 3D sync-lip expert model is devised for the pursuit of lip-sync between audio and 3D facial motion. Secondly, a teacher model selected from 2D talking face methods is used to guide the training of the audio-to-3D motions regression network to yield more 3D vertex accuracy. Extensive experiments show the advantages of the proposed framework in terms of lip-sync, vertex accuracy and speech perception, compared with state-of-the-arts. Finally, we show two applications of the proposed framework: audio-visual speech recognition and speech-driven 3D Gaussian Splatting based avatar animation.
翻訳日:2024-04-22 14:57:17 公開日:2024-04-19
# IBMの量子コンピュータ上での信頼性の高いソフトウェア開発のための機械学習に基づく誤り軽減手法

A Machine Learning-Based Error Mitigation Approach For Reliable Software Development On IBM'S Quantum Computers ( http://arxiv.org/abs/2404.12892v1 )

ライセンス: Link先を確認
Asmar Muqeet, Shaukat Ali, Tao Yue, Paolo Arcaini, (参考訳) 量子コンピュータは、いくつかの複雑な計算問題のために古典的コンピュータより優れている可能性がある。 しかし、現在の量子コンピュータ(IBMやGoogleなど)には固有のノイズがあり、量子コンピュータ上で実行される量子ソフトウェアの出力に誤差が生じ、量子ソフトウェア開発の信頼性に影響を及ぼす。 スケーラビリティと実用性を考えると、業界は機械学習(ML)ベースのエラー軽減技術にますます関心を寄せている。 しかし、既存のMLベースの技術には、特定のノイズタイプや特定の量子回路のみを対象としているような制限がある。 本稿では、量子ソフトウェア出力におけるノイズエラーを軽減するため、Q-LEARと呼ばれる実用的なMLベースの手法を提案する。 我々は、IBMの8つの量子コンピュータとそれに対応するノイズシミュレータ上でQ-LEARを評価し、Q-LEARと最先端のMLベースのアプローチをベースラインとして比較した。 その結果、Q-LEARはベースラインと比較して、実量子コンピュータとシミュレータの両方で平均25%の誤差低減を実現した。 また,Q-LEARの意義と実践性についても論じる。

Quantum computers have the potential to outperform classical computers for some complex computational problems. However, current quantum computers (e.g., from IBM and Google) have inherent noise that results in errors in the outputs of quantum software executing on the quantum computers, affecting the reliability of quantum software development. The industry is increasingly interested in machine learning (ML)--based error mitigation techniques, given their scalability and practicality. However, existing ML-based techniques have limitations, such as only targeting specific noise types or specific quantum circuits. This paper proposes a practical ML-based approach, called Q-LEAR, with a novel feature set, to mitigate noise errors in quantum software outputs. We evaluated Q-LEAR on eight quantum computers and their corresponding noisy simulators, all from IBM, and compared Q-LEAR with a state-of-the-art ML-based approach taken as baseline. Results show that, compared to the baseline, Q-LEAR achieved a 25% average improvement in error mitigation on both real quantum computers and simulators. We also discuss the implications and practicality of Q-LEAR, which, we believe, is valuable for practitioners.
翻訳日:2024-04-22 14:57:17 公開日:2024-04-19
# 言葉の力:自然言語からPowerShell攻撃を生成する

The Power of Words: Generating PowerShell Attacks from Natural Language ( http://arxiv.org/abs/2404.12893v1 )

ライセンス: Link先を確認
Pietro Liguori, Christian Marescalco, Roberto Natella, Vittorio Orbinato, Luciano Pianese, (参考訳) Windows OSが最もターゲットとするシステムの1つとして注目されているように、PowerShell言語は悪意のあるアクターやサイバーセキュリティ専門家(例えば、侵入テスト)にとって重要なツールとなっている。 本研究では、ニューラルネットワーク翻訳(NMT)を使用して、自然言語記述から攻撃的なPowerShellコードを自動的に生成することで、AIコード生成における非チャートドメインを探索する。 トレーニングと評価のために,PowerShellコードサンプルを用いた2つの新しいデータセットを提案する。 我々は,最先端NMTモデルの広範囲な評価を行い,静的かつ動的に生成したコードを解析する。 その結果,NMTのチューニングは攻撃的なPowerShellコードを生成するのに有効であることが示唆された。 最も広く使われているLLMサービスであるChatGPTとの比較分析により、我々の微調整モデルの特殊強度が明らかとなった。

As the Windows OS stands out as one of the most targeted systems, the PowerShell language has become a key tool for malicious actors and cybersecurity professionals (e.g., for penetration testing). This work explores an uncharted domain in AI code generation by automatically generating offensive PowerShell code from natural language descriptions using Neural Machine Translation (NMT). For training and evaluation purposes, we propose two novel datasets with PowerShell code samples, one with manually curated descriptions in natural language and another code-only dataset for reinforcing the training. We present an extensive evaluation of state-of-the-art NMT models and analyze the generated code both statically and dynamically. Results indicate that tuning NMT using our dataset is effective at generating offensive PowerShell code. Comparative analysis against the most widely used LLM service ChatGPT reveals the specialized strengths of our fine-tuned models.
翻訳日:2024-04-22 14:46:18 公開日:2024-04-19
# ステートメントチューニングによるエンコーダモデル上での自然ゼロショットプロンプトの実現

Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning ( http://arxiv.org/abs/2404.12897v1 )

ライセンス: Link先を確認
Ahmed Elshabrawy, Yongix Huang, Iryna Gurevych, Alham Fikri Aji, (参考訳) 大規模言語モデル(LLM)はゼロショットと少数ショットのシナリオにおいて顕著な能力を示すが、計算的に禁止されたサイズを必要とすることが多い。 逆に、BERT や RoBERTa のような小さな Masked Language Model (MLMs) は、微調整によって最先端の結果を得るが、アーキテクチャ上の制約のため、ほとんどショットやゼロショットの設定にまで拡張することは困難である。 そこで本稿では,有限文の集合として識別的タスクをモデル化し,潜在的な文を識別してラベルを決定するエンコーダモデルを訓練する手法であるステートメント・チューニングを提案する。 複数のタスクをステートメントチューニングして、クロスタスクの一般化を実現します。 実験結果から,ステートメントチューニングは,パラメータが著しく少ない最先端のLLMと比較して,競争性能が向上することが示された。 さらに、本研究では、いくつかの設計選択が少数ショットおよびゼロショットの一般化に与える影響を調査し、ステートメントチューニングが、控えめなトレーニングデータとタスクとステートメントの多様性から、見えないタスクの一般化性に対する十分なパフォーマンスを達成できることを明らかにした。

While Large Language Models (LLMs) exhibit remarkable capabilities in zero-shot and few-shot scenarios, they often require computationally prohibitive sizes. Conversely, smaller Masked Language Models (MLMs) like BERT and RoBERTa achieve state-of-the-art results through fine-tuning but struggle with extending to few-shot and zero-shot settings due to their architectural constraints. Hence, we propose Statement-Tuning, a technique that models discriminative tasks as a set of finite statements and trains an Encoder model to discriminate between the potential statements to determine the label. We do Statement-Tuning on multiple tasks to enable cross-task generalization. Experimental results demonstrate that Statement Tuning achieves competitive performance compared to state-of-the-art LLMs with significantly fewer parameters. Moreover, the study investigates the impact of several design choices on few-shot and zero-shot generalization, revealing that Statement Tuning can achieve sufficient performance with modest training data and benefits from task and statement diversity for unseen task generalizability.
翻訳日:2024-04-22 14:46:18 公開日:2024-04-19
# ベイジアン・コナビゲーション:アクティブラーニングによる材料デジタル双生児の動的設計

Bayesian Co-navigation: Dynamic Designing of the Materials Digital Twins via Active Learning ( http://arxiv.org/abs/2404.12899v1 )

ライセンス: Link先を確認
Boris N. Slautin, Yongtao Liu, Hiroshi Funakubo, Rama K. Vasudevan, Maxim A. Ziatdinov, Sergei V. Kalinin, (参考訳) 科学的進歩は理論的な洞察、モデリング、実験的な発見の間の動的相互作用に基づいている。 しかし、このフィードバックループは、遅延したコミュニティインタラクションや、実験データの段階的な理論フレームワークへの統合など、しばしば遅い。 この課題は特に分子や複雑なミクロ構造のような高次元の物体空間を扱う領域において悪化している。 したがって、自動および自律的な実験装置における理論の統合、あるいはループ自動実験における理論は、科学研究を加速するための重要な目標として浮上している。 重要な側面は、理論を使用するだけでなく、実験中にオンザフライ理論を更新することである。 本稿では,理論モデル空間と実験のベイズ的共ナビゲーションを通じて,理論をループに統合する手法を提案する。 提案手法は,実験対象空間上の疫学的不確実性を最小限に抑えるため,理論モデル内の制御パラメータの調整とともに,実験および計算のレイテンシとコストによって決定される速度でシミュレーションおよび実験領域の代理モデルの同時開発を利用する。 この手法は、相関部分を含む行動の代理モデルと理論モデル自体を含む、物質構造のデジタル双対の作成を促進する。 ここでは強誘電体材料における機能応答の文脈において実証されているが、我々のアプローチはより広範な応用、ナノクラスターにおける光学特性の探索、複雑な材料におけるミクロ構造に依存した性質、分子系の特性を約束している。 この資金調達をサポートする分析コードはhttps://github.com/Slautin/2024_Co-navigation/tree/mainで公開されている。

Scientific advancement is universally based on the dynamic interplay between theoretical insights, modelling, and experimental discoveries. However, this feedback loop is often slow, including delayed community interactions and the gradual integration of experimental data into theoretical frameworks. This challenge is particularly exacerbated in domains dealing with high-dimensional object spaces, such as molecules and complex microstructures. Hence, the integration of theory within automated and autonomous experimental setups, or theory in the loop automated experiment, is emerging as a crucial objective for accelerating scientific research. The critical aspect is not only to use theory but also on-the-fly theory updates during the experiment. Here, we introduce a method for integrating theory into the loop through Bayesian co-navigation of theoretical model space and experimentation. Our approach leverages the concurrent development of surrogate models for both simulation and experimental domains at the rates determined by latencies and costs of experiments and computation, alongside the adjustment of control parameters within theoretical models to minimize epistemic uncertainty over the experimental object spaces. This methodology facilitates the creation of digital twins of material structures, encompassing both the surrogate model of behavior that includes the correlative part and the theoretical model itself. While demonstrated here within the context of functional responses in ferroelectric materials, our approach holds promise for broader applications, the exploration of optical properties in nanoclusters, microstructure-dependent properties in complex materials, and properties of molecular systems. The analysis code that supports the funding is publicly available at https://github.com/Slautin/2024_Co-navigation/tree/main
翻訳日:2024-04-22 14:46:18 公開日:2024-04-19
# イメージワイド・アテンション・シェアリングを用いた訓練とプロンプトフリーの一般絵画の調和

Training-and-prompt-free General Painterly Harmonization Using Image-wise Attention Sharing ( http://arxiv.org/abs/2404.12900v1 )

ライセンス: Link先を確認
Teng-Fang Hsiao, Bo-Kai Ruan, Hong-Han Shuai, (参考訳) Painterly Image Harmonizationは、異なる視覚要素を単一のコヒーレントなイメージにシームレスにブレンドすることを目的としている。 しかしながら、以前のアプローチでは、トレーニングデータ制約、時間を要する微調整の必要性、追加のプロンプトへの依存などにより、大きな制限が課されることが多い。 これらのハードルを克服するために、画像ワイドアテンション共有(TF-GPH)を用いたトレーニング・アンド・プロンプトフリーの一般絵画調和手法を設計し、新しい「共有アテンションモジュール」を統合した。 このモジュールは、一般的なトレーニングデータ制限を伴わずに、最先端の事前訓練された潜伏拡散モデルの使用を容易にし、包括的な画像の注目を可能にすることによって、従来の自己注意機構を再定義する。 さらに、我々は、クロスイメージ情報を効果的に活用し、微調整やプロンプトベースのアプローチの能力を超えた「類似性再重み付け」機構を導入し、性能を向上させる。 最終的に、既存のベンチマークの欠陥を認識し、実世界のアプリケーションをより正確に反映するために、レンジベースの評価指標を用いた"General Painterly Harmonization Benchmark"を提案する。 広範囲な実験により, 様々なベンチマークにおいて, 提案手法の優れた有効性を示す。 コードとWebデモはhttps://github.com/BlueDyee/TF-GPHで公開されている。

Painterly Image Harmonization aims at seamlessly blending disparate visual elements within a single coherent image. However, previous approaches often encounter significant limitations due to training data constraints, the need for time-consuming fine-tuning, or reliance on additional prompts. To surmount these hurdles, we design a Training-and-prompt-Free General Painterly Harmonization method using image-wise attention sharing (TF-GPH), which integrates a novel "share-attention module". This module redefines the traditional self-attention mechanism by allowing for comprehensive image-wise attention, facilitating the use of a state-of-the-art pretrained latent diffusion model without the typical training data limitations. Additionally, we further introduce "similarity reweighting" mechanism enhances performance by effectively harnessing cross-image information, surpassing the capabilities of fine-tuning or prompt-based approaches. At last, we recognize the deficiencies in existing benchmarks and propose the "General Painterly Harmonization Benchmark", which employs range-based evaluation metrics to more accurately reflect real-world application. Extensive experiments demonstrate the superior efficacy of our method across various benchmarks. The code and web demo are available at https://github.com/BlueDyee/TF-GPH.
翻訳日:2024-04-22 14:46:18 公開日:2024-04-19
# ネットワークのための大規模言語モデル:ワークフロー、進歩、課題

Large Language Models for Networking: Workflow, Advances and Challenges ( http://arxiv.org/abs/2404.12901v1 )

ライセンス: Link先を確認
Chang Liu, Xiaohui Xie, Xinggong Zhang, Yong Cui, (参考訳) ネットワーク分野の特徴は、ネットワーク設計、診断、構成、セキュリティなど、ネットワークタスクを達成するために広範な専門知識を必要とする、高い複雑さと迅速なイテレーションである。 これらのタスクの本質的な複雑さは、ネットワーク技術やプロトコルの絶えず変化する状況と相まって、従来の機械学習ベースの手法にとって大きなハードルとなっている。 これらの手法は、広範なラベル付きデータ、ドメイン固有の機能エンジニアリング、新しいシナリオに適応するための頻繁な再トレーニングを必要とするため、ネットワークにおける複雑なタスクの一般化と自動化に苦慮することが多い。 しかし、近年の大規模言語モデル(LLM)の出現は、これらの課題に対処する新たな可能性の波を引き起こしている。 LLMは自然言語理解、生成、推論において顕著な能力を示した。 これらのモデルは、広範なデータに基づいてトレーニングされ、ネットワーク領域の恩恵を受けることができる。 ネットワーク領域におけるLLMの適用についてはすでに検討しており、有望な結果が示されている。 近年の進歩を振り返って,LLMをネットワークに適用する際の基本的なプロセスを記述するための抽象的なワークフローを提案する。 既存の作業のハイライトをカテゴリ別に紹介し、ワークフローのさまざまな段階でどのように動作するのかを詳細に説明します。 さらに、直面した課題を掘り下げ、潜在的な解決策について議論し、今後の研究の展望を概説する。 我々は,本調査が研究者や実践者に洞察を与え,この学際的な研究分野の発展を促進することを願っている。

The networking field is characterized by its high complexity and rapid iteration, requiring extensive expertise to accomplish network tasks, ranging from network design, diagnosis, configuration and security. The inherent complexity of these tasks, coupled with the ever-changing landscape of networking technologies and protocols, poses significant hurdles for traditional machine learning-based methods. These methods often struggle to generalize and automate complex tasks in networking, as they require extensive labeled data, domain-specific feature engineering, and frequent retraining to adapt to new scenarios. However, the recent emergence of large language models (LLMs) has sparked a new wave of possibilities in addressing these challenges. LLMs have demonstrated remarkable capabilities in natural language understanding, generation, and reasoning. These models, trained on extensive data, can benefit the networking domain. Some efforts have already explored the application of LLMs in the networking domain and revealed promising results. By reviewing recent advances, we present an abstract workflow to describe the fundamental process involved in applying LLM for Networking. We introduce the highlights of existing works by category and explain in detail how they operate at different stages of the workflow. Furthermore, we delve into the challenges encountered, discuss potential solutions, and outline future research prospects. We hope that this survey will provide insight for researchers and practitioners, promoting the development of this interdisciplinary research field.
翻訳日:2024-04-22 14:46:18 公開日:2024-04-19
# 拡散モデル生成画像のロバストCLIP検出装置

Robust CLIP-Based Detector for Exposing Diffusion Model-Generated Images ( http://arxiv.org/abs/2404.12908v1 )

ライセンス: Link先を確認
Santosh, Li Lin, Irene Amerini, Xin Wang, Shu Hu, (参考訳) 拡散モデル(DM)は画像生成に革命をもたらし、様々な分野にまたがる高品質な画像を生成する。 しかし、超現実的画像を作成する能力は、実際のコンテンツと合成コンテンツを区別する上で大きな課題を招き、ディープフェイクを作成する際のデジタル認証と潜在的な誤用に対する懸念を提起する。 この研究は、CLIPモデルによって抽出された画像とテキストの特徴をMLP(Multilayer Perceptron)分類器と統合する堅牢な検出フレームワークを導入する。 本研究では,検出器のロバスト性を向上し,不均衡なデータセットを処理できる新たな損失を提案する。 さらに,モデルトレーニング中の損失景観を平坦化し,検出器の一般化能力を向上させる。 従来の検出技術より優れている本手法の有効性を実証し,DM画像検出における新しい最先端手法の確立の可能性を示す。 コードはhttps://github.com/Purdue-M2/Robust_DM_Generated_Image_Detectionで公開されている。

Diffusion models (DMs) have revolutionized image generation, producing high-quality images with applications spanning various fields. However, their ability to create hyper-realistic images poses significant challenges in distinguishing between real and synthetic content, raising concerns about digital authenticity and potential misuse in creating deepfakes. This work introduces a robust detection framework that integrates image and text features extracted by CLIP model with a Multilayer Perceptron (MLP) classifier. We propose a novel loss that can improve the detector's robustness and handle imbalanced datasets. Additionally, we flatten the loss landscape during the model training to improve the detector's generalization capabilities. The effectiveness of our method, which outperforms traditional detection techniques, is demonstrated through extensive experiments, underscoring its potential to set a new state-of-the-art approach in DM-generated image detection. The code is available at https://github.com/Purdue-M2/Robust_DM_Generated_Image_Detection.
翻訳日:2024-04-22 14:46:18 公開日:2024-04-19
# 量子計測の精度に関する基礎的境界の飽和

Saturating a Fundamental Bound on Quantum Measurements' Accuracy ( http://arxiv.org/abs/2404.12910v1 )

ライセンス: Link先を確認
Nicolò Piccione, Maria Maffei, Andrew N. Jordan, Kater W. Murch, Alexia Auffèves, (参考訳) 量子系は通常、第2の量子系(またはメートル)で実行される観測によって測定され、結合される。 このシナリオでは、Wigner-Araki-Yanase定理とその一般化によって、測定の精度(大沢境界)の上限を予測して、基本的な制限が発生する。 ここでは、この基本的な境界を飽和させることが可能であることを示す。 本稿では,空飛ぶ粒子(量子メータ)を量子ビット(ターゲットシステム)の状態を測定するための単純な干渉計構成を提案する。 我々は、境界は飽和し得ることを示し、これは、飛行粒子がガウス波束で準備されている場合にのみ起こることを示す。

A quantum system is usually measured through observations performed on a second quantum system, or meter, to which it is coupled. In this scenario, fundamental limitations arise as stated by the celebrated Wigner-Araki-Yanase theorem and its generalizations, predicting an upper-bound on the measurement's accuracy (Ozawa's bound). Here, we show it is possible to saturate this fundamental bound. We propose a simple interferometric setup, arguably within reach of present technology, in which a flying particle (the quantum meter) is used to measure the state of a qubit (the target system). We show that the bound can be saturated and that this happens only if the flying particle is prepared in a Gaussian wavepacket.
翻訳日:2024-04-22 14:46:18 公開日:2024-04-19
# 身体的バックドアアタックはビジョンラージ言語モデルで運転を危険にさらす

Physical Backdoor Attack can Jeopardize Driving with Vision-Large-Language Models ( http://arxiv.org/abs/2404.12916v1 )

ライセンス: Link先を確認
Zhenyang Ni, Rui Ye, Yuxi Wei, Zhen Xiang, Yanfeng Wang, Siheng Chen, (参考訳) VLM(Vision-Large-Language-models)は、自律運転において大きな応用可能性を持っている。 VLMの複雑なシナリオにおける理解と意思決定能力にもかかわらず、安全クリティカルな自動運転システムへの統合は深刻なセキュリティリスクをもたらす。 本稿では,物理的物体を用いて実際に起動可能な自律運転用VLMに対する最初のバックドア攻撃であるBadVLMDriverを提案する。 デジタル修正に依存する既存のVLMに対するバックドア攻撃とは異なり、BadVLMDriverは、赤い風船のような一般的な物理的アイテムを使用して、急激な加速のような安全でない行動を誘発し、自動運転車の安全性に対する現実的な脅威を強調している。 BadVLMDriverを実行するために、自然言語命令を利用した自動パイプラインを開発し、悪意のある振る舞いを組み込んだバックドアトレーニングサンプルを生成する。 このアプローチはフレキシブルなトリガーと振る舞いの選択を可能にし、さまざまなシナリオにおける攻撃のステルス性と実用性を高める。 我々は,BadVLMDriverを2つの代表的なVLM,5つの異なるトリガーオブジェクト,および2種類の悪質なバックドア動作に対して評価する広範囲な実験を行った。 BadVLMDriverは、赤い風船を持った歩行者に突如、加速を誘導する攻撃の成功率を92%達成する。 このように、BadVLMDriverは重要なセキュリティリスクを示すだけでなく、自律運転技術におけるこのような脆弱性から保護するための堅牢な防御メカニズムを開発する緊急の必要性も強調している。

Vision-Large-Language-models(VLMs) have great application prospects in autonomous driving. Despite the ability of VLMs to comprehend and make decisions in complex scenarios, their integration into safety-critical autonomous driving systems poses serious security risks. In this paper, we propose BadVLMDriver, the first backdoor attack against VLMs for autonomous driving that can be launched in practice using physical objects. Unlike existing backdoor attacks against VLMs that rely on digital modifications, BadVLMDriver uses common physical items, such as a red balloon, to induce unsafe actions like sudden acceleration, highlighting a significant real-world threat to autonomous vehicle safety. To execute BadVLMDriver, we develop an automated pipeline utilizing natural language instructions to generate backdoor training samples with embedded malicious behaviors. This approach allows for flexible trigger and behavior selection, enhancing the stealth and practicality of the attack in diverse scenarios. We conduct extensive experiments to evaluate BadVLMDriver for two representative VLMs, five different trigger objects, and two types of malicious backdoor behaviors. BadVLMDriver achieves a 92% attack success rate in inducing a sudden acceleration when coming across a pedestrian holding a red balloon. Thus, BadVLMDriver not only demonstrates a critical security risk but also emphasizes the urgent need for developing robust defense mechanisms to protect against such vulnerabilities in autonomous driving technologies.
翻訳日:2024-04-22 14:46:18 公開日:2024-04-19
# 相対表現を用いた強化学習におけるゼロショットスティッチ

Zero-Shot Stitching in Reinforcement Learning using Relative Representations ( http://arxiv.org/abs/2404.12917v1 )

ライセンス: Link先を確認
Antonio Pio Ricciardi, Valentino Maiorca, Luca Moschella, Riccardo Marin, Emanuele Rodolà, (参考訳) ビジュアル強化学習(Visual Reinforcement Learning)は、ディープラーニングのブレークスルーを最大限に活用する、人気があり強力なフレームワークである。 しかし、入力(例えば、季節によってパノラマの色が異なる)やタスク(例えば、車に対する速度制限の変更)のバリエーションは、エージェントの完全な再訓練を必要とすることも知られている。 本研究では,エージェントのコンポーネントをスクラッチから再訓練するのではなく組み合わせることが可能であることを示すために,潜在表現を統一する最近の発展を活用している。 我々は最近、相対表現フレームワークを構築し、それをVisual RLに適用する。 これにより、トレーニング中に見たことのない環境とタスクの組み合わせを処理できる、まったく新しいエージェントを作成することができます。 私たちの仕事は、よりアクセスしやすくフレキシブルな強化学習への道を開く。

Visual Reinforcement Learning is a popular and powerful framework that takes full advantage of the Deep Learning breakthrough. However, it is also known that variations in the input (e.g., different colors of the panorama due to the season of the year) or the task (e.g., changing the speed limit for a car to respect) could require complete retraining of the agents. In this work, we leverage recent developments in unifying latent representations to demonstrate that it is possible to combine the components of an agent, rather than retrain it from scratch. We build upon the recent relative representations framework and adapt it for Visual RL. This allows us to create completely new agents capable of handling environment-task combinations never seen during training. Our work paves the road toward a more accessible and flexible use of reinforcement learning.
翻訳日:2024-04-22 14:46:18 公開日:2024-04-19
# オフザシェルフ拡散モデルを用いたゼロショット医療薬効接地

Zero-Shot Medical Phrase Grounding with Off-the-shelf Diffusion Models ( http://arxiv.org/abs/2404.12920v1 )

ライセンス: Link先を確認
Konstantinos Vilouras, Pedro Sanchez, Alison Q. O'Neil, Sotirios A. Tsaftaris, (参考訳) 与えられた医療スキャンにおける正確な病理領域の局在は、大量の境界ボックス基底真理アノテーションを正確に解決する必要がある重要な画像問題である。 しかし、自由テキストレポートが付属するなど、潜在的に弱い監督形態の代替が存在しているため、すぐに利用できる。 テキストガイダンスでローカライズを行うタスクは、通常、フレーズグラウンドディング( phrase grounding)と呼ばれる。 この作業では、この課題を解決するために、公開のFoundation Model、すなわちLatent Diffusion Modelを使用します。 この選択は、ラテント拡散モデルが本質的に生成的であるにもかかわらず、視覚的特徴とテキスト的特徴を暗黙的に整列する機構(クロスアテンション)を含んでいるという事実によって支持され、手作業に適した中間表現が導かれる。 さらに、このタスクをゼロショットで実行すること、すなわち、ターゲットデータに関するさらなるトレーニングを伴わず、モデルの重みは凍結状態のままである、という目標を掲げる。 この目的のために、我々は、追加の学習可能なパラメータを使わずに、特徴を選定し、後処理によって洗練する戦略を考案した。 提案手法を,コントラスト学習による共同埋め込み空間における画像テキストアライメントを明示的に実施する最先端手法と比較した。 胸部X線検査の結果から, 胸部X線検査では, 異なる種類の病理組織でSOTAと競合し, 2つの指標(平均IoU, AUC-ROC)で平均よりも優れていたことが示唆された。 ソースコードは受理時に公開される。

Localizing the exact pathological regions in a given medical scan is an important imaging problem that requires a large amount of bounding box ground truth annotations to be accurately solved. However, there exist alternative, potentially weaker, forms of supervision, such as accompanying free-text reports, which are readily available. The task of performing localization with textual guidance is commonly referred to as phrase grounding. In this work, we use a publicly available Foundation Model, namely the Latent Diffusion Model, to solve this challenging task. This choice is supported by the fact that the Latent Diffusion Model, despite being generative in nature, contains mechanisms (cross-attention) that implicitly align visual and textual features, thus leading to intermediate representations that are suitable for the task at hand. In addition, we aim to perform this task in a zero-shot manner, i.e., without any further training on target data, meaning that the model's weights remain frozen. To this end, we devise strategies to select features and also refine them via post-processing without extra learnable parameters. We compare our proposed method with state-of-the-art approaches which explicitly enforce image-text alignment in a joint embedding space via contrastive learning. Results on a popular chest X-ray benchmark indicate that our method is competitive wih SOTA on different types of pathology, and even outperforms them on average in terms of two metrics (mean IoU and AUC-ROC). Source code will be released upon acceptance.
翻訳日:2024-04-22 14:46:18 公開日:2024-04-19
# マシン・アンラーニングで必要なものはすべて残されているか? アウトオブオフ・ディストリビューション・イメージを用いた未学習モデルの復元性能

Is Retain Set All You Need in Machine Unlearning? Restoring Performance of Unlearned Models with Out-Of-Distribution Images ( http://arxiv.org/abs/2404.12922v1 )

ライセンス: Link先を確認
Jacopo Bonato, Marco Cotogni, Luigi Sabetta, (参考訳) 本稿では,Selective-distillation for Class and Architecture-Agnostic UnleaRning (SCAR)を提案する。 SCARは、最先端の近似アンラーニングアルゴリズムにおいて重要なコンポーネントであるretainセットを使用することなく、モデルのテスト精度を維持しながら、特定の情報を効率的に除去する。 我々のアプローチでは、修正されたマハラノビス距離を用いて、インスタンスの特徴ベクトルの未学習を忘れるように誘導し、それらを最も間違ったクラス分布に整列させる。 さらに,原モデルの知識を未学習モデルに蒸留し,原モデルの試験性能を保持できる蒸留トリック機構を提案する。 重要なこととして、我々は忘れセットにアクセスすることなく解放するSCARのセルフフォゲットバージョンを提案する。 提案手法の有効性を3つの公開データセットで検証し,最先端の手法と比較した。 本手法は,retain セットを使わずに動作するメソッドよりも高い性能を得る。

In this paper, we introduce Selective-distillation for Class and Architecture-agnostic unleaRning (SCAR), a novel approximate unlearning method. SCAR efficiently eliminates specific information while preserving the model's test accuracy without using a retain set, which is a key component in state-of-the-art approximate unlearning algorithms. Our approach utilizes a modified Mahalanobis distance to guide the unlearning of the feature vectors of the instances to be forgotten, aligning them to the nearest wrong class distribution. Moreover, we propose a distillation-trick mechanism that distills the knowledge of the original model into the unlearning model with out-of-distribution images for retaining the original model's test performance without using any retain set. Importantly, we propose a self-forget version of SCAR that unlearns without having access to the forget set. We experimentally verified the effectiveness of our method, on three public datasets, comparing it with state-of-the-art methods. Our method obtains performance higher than methods that operate without the retain set and comparable w.r.t the best methods that rely on the retain set.
翻訳日:2024-04-22 14:46:18 公開日:2024-04-19
# ベイズ非線形系の連続時間同定のための確率論的数値SMCサンプリング

Probabilistic-Numeric SMC Sampling for Bayesian Nonlinear System Identification in Continuous Time ( http://arxiv.org/abs/2404.12923v1 )

ライセンス: Link先を確認
Joe D. Longbottom, Max D. Champneys, Timothy J. Rogers, (参考訳) 工学において、ノイズによって汚染されたデータから非線形力学系を正確にモデル化することは必須かつ複雑である。 これらのシステムのベイズ同定に使用される連続モンテカルロ法(SMC)は、パラメータ同定過程における不確実性の定量化を促進する。 この文脈における重要な課題は、連続時間常微分方程式(ODE)の数値積分であり、理論モデルと離散的なサンプルデータとの整合に不可欠である。 この積分は、しばしば見過ごされる要因である追加の数値の不確実性をもたらす。 この問題に対処するために、確率的数値学の分野は、数値積分のような数値的手法と確率的モデリングを組み合わせることで、全体の不確実性をより包括的に分析する。 古典的決定論的手法の精度を維持することによって、これらの確率論的アプローチは推論過程に固有の不確実性をより深く理解する。 本稿では,非線形力学系の結合パラメータ-状態同定におけるODEの確率論的数値解法の適用例を示す。 提案手法は雑音測定から潜時状態とシステムパラメータを効率的に同定する。 識別チャレンジにおいて、ODEに確率的解を同時に組み込む。 この手法の主な利点は、システムパラメータの後方分布を生成する能力であり、それによってデータと識別プロセスの両方に固有の不確実性を表現することである。

In engineering, accurately modeling nonlinear dynamic systems from data contaminated by noise is both essential and complex. Established Sequential Monte Carlo (SMC) methods, used for the Bayesian identification of these systems, facilitate the quantification of uncertainty in the parameter identification process. A significant challenge in this context is the numerical integration of continuous-time ordinary differential equations (ODEs), crucial for aligning theoretical models with discretely sampled data. This integration introduces additional numerical uncertainty, a factor that is often over looked. To address this issue, the field of probabilistic numerics combines numerical methods, such as numerical integration, with probabilistic modeling to offer a more comprehensive analysis of total uncertainty. By retaining the accuracy of classical deterministic methods, these probabilistic approaches offer a deeper understanding of the uncertainty inherent in the inference process. This paper demonstrates the application of a probabilistic numerical method for solving ODEs in the joint parameter-state identification of nonlinear dynamic systems. The presented approach efficiently identifies latent states and system parameters from noisy measurements. Simultaneously incorporating probabilistic solutions to the ODE in the identification challenge. The methodology's primary advantage lies in its capability to produce posterior distributions over system parameters, thereby representing the inherent uncertainties in both the data and the identification process.
翻訳日:2024-04-22 14:46:18 公開日:2024-04-19
# 非順序点集合上のハイブリッド生成と識別のポイントネット

A Hybrid Generative and Discriminative PointNet on Unordered Point Sets ( http://arxiv.org/abs/2404.12925v1 )

ライセンス: Link先を確認
Yang Ye, Shihao Ji, (参考訳) ポイントクラウドは、無数のアプリケーション(例えばロボティクスや自動運転車)で使える自然で柔軟な表現を提供するので、分析のためにポイントクラウドを合成する能力は重要になる。 近年、Xie et al はエネルギーベースモデル (EBM) の形で非順序点集合の生成モデルを提案している。 ポイントクラウド生成の素晴らしいパフォーマンスを達成するモデルにもかかわらず、複雑なポイントセットの分布をキャプチャするために、各カテゴリごとに1つの別々のモデルをトレーニングする必要があります。 さらに、これらの手法は点雲を直接分類することができず、分類にさらなる微調整が必要である。 興味深い質問は: ポイントクラウドのハイブリッド生成および識別モデルのために、単一のネットワークをトレーニングできるか? 画像分類と生成を同時に行うジョイント・エナジー・ベース・モデル(JEM)の枠組みを導入し,画像に対する肯定的回答を得た。 本稿では、ポイントクラウドの分類と生成のためにJEMを拡張した、最初のハイブリッドな生成と識別のポイントネットであるGDPNetを提案する。 我々のGDPNetは、最新のPointNet分類器の強力な差別力を維持しつつ、最先端のジェネレーティブアプローチに匹敵するポイントクラウドサンプルを生成しています。

As point cloud provides a natural and flexible representation usable in myriad applications (e.g., robotics and self-driving cars), the ability to synthesize point clouds for analysis becomes crucial. Recently, Xie et al. propose a generative model for unordered point sets in the form of an energy-based model (EBM). Despite the model achieving an impressive performance for point cloud generation, one separate model needs to be trained for each category to capture the complex point set distributions. Besides, their method is unable to classify point clouds directly and requires additional fine-tuning for classification. One interesting question is: Can we train a single network for a hybrid generative and discriminative model of point clouds? A similar question has recently been answered in the affirmative for images, introducing the framework of Joint Energy-based Model (JEM), which achieves high performance in image classification and generation simultaneously. This paper proposes GDPNet, the first hybrid Generative and Discriminative PointNet that extends JEM for point cloud classification and generation. Our GDPNet retains strong discriminative power of modern PointNet classifiers, while generating point cloud samples rivaling state-of-the-art generative approaches.
翻訳日:2024-04-22 14:46:18 公開日:2024-04-19
# MM-PhyRLHF:マルチモーダル物理質問応答のための強化学習フレームワーク

MM-PhyRLHF: Reinforcement Learning Framework for Multimodal Physics Question-Answering ( http://arxiv.org/abs/2404.12926v1 )

ライセンス: Link先を確認
Avinash Anand, Janak Kapuriya, Chhavi Kirtani, Apoorv Singh, Jay Saraf, Naman Lal, Jatin Kumar, Adarsh Raj Shivam, Astha Verma, Rajiv Ratn Shah, Roger Zimmermann, (参考訳) LLMの最近の進歩は、テキスト要約や生成といったタスクにおいて、その大きな可能性を示している。 しかし、算術計算と概念の理解を必要とする複雑な物理問題を解く際に、しばしば困難に遭遇する。 さらに、物理問題の多くは、問題のコンテキストを理解するために必要な重要な詳細を含む画像を含んでいる。 マルチモーダル物理MCQに応答するLMMベースのチャットボットを提案する。 ドメイン適応には、インドの高校レベルのマルチモーダル物理問題からなるMM-PhyQAデータセットを利用する。 LMMの性能を向上させるために,RLHF(Reinforcement Learning from Human Feedback)と画像キャプションという2つの手法を実験した。 画像キャプションでは、各画像に図の詳細な説明を加え、幻覚と画像処理エラーを最小限に抑える。 さらに,RLHFのランク付け手法にインスパイアされた強化学習(Reinforcement Learning from Human Feedback, RLHF)手法の統合について検討する。 RLHFアプローチは、LLMの学習プロセスに人間のフィードバックを取り入れ、モデルの問題解決スキル、真理性、推論能力を改善し、回答における幻覚を最小化し、バニラが監督する微調整モデルを使う代わりに品質を改善する。 我々はLLaVAオープンソースモデルを用いてマルチモーダル物理MCQに答え、その性能をRLHFを使わずに比較する。

Recent advancements in LLMs have shown their significant potential in tasks like text summarization and generation. Yet, they often encounter difficulty while solving complex physics problems that require arithmetic calculation and a good understanding of concepts. Moreover, many physics problems include images that contain important details required to understand the problem's context. We propose an LMM-based chatbot to answer multimodal physics MCQs. For domain adaptation, we utilize the MM-PhyQA dataset comprising Indian high school-level multimodal physics problems. To improve the LMM's performance, we experiment with two techniques, RLHF (Reinforcement Learning from Human Feedback) and Image Captioning. In image captioning, we add a detailed explanation of the diagram in each image, minimizing hallucinations and image processing errors. We further explore the integration of Reinforcement Learning from Human Feedback (RLHF) methodology inspired by the ranking approach in RLHF to enhance the human-like problem-solving abilities of the models. The RLHF approach incorporates human feedback into the learning process of LLMs, improving the model's problem-solving skills, truthfulness, and reasoning capabilities, minimizing the hallucinations in the answers, and improving the quality instead of using vanilla-supervised fine-tuned models. We employ the LLaVA open-source model to answer multimodal physics MCQs and compare the performance with and without using RLHF.
翻訳日:2024-04-22 14:46:18 公開日:2024-04-19
# 単位選択結合クラスタを用いた局所化能動空間法

The Localized Active Space Method with Unitary Selective Coupled Cluster ( http://arxiv.org/abs/2404.12927v1 )

ライセンス: Link先を確認
Abhishek Mitra, Ruhee D'Cunha, Qiaohong Wang, Matthew R. Hermes, Yuri Alexeev, Stephen K. Gray, Matthew Otten, Laura Gagliardi, (参考訳) 本稿では, 量子古典アルゴリズム, 局所化能動空間 ユニタリ選択結合クラスタシングルおよびダブルス法(LAS-USCCSD)を導入する。 LAS-UCCSD法から導かれたLAS-USCCSDは、まず古典的なLASSCF計算を行い、変動量子固有解法を用いてこの縮小されたパラメータセットを用いて、フラッグメント間相互作用エネルギーを復元するために最も重要なパラメータ(マルチ参照UCCアンサッツを構築するために使用されるクラスタ振幅)を選択的に同定する。 我々は、LAS-USCCSD を LAS-UCCSD に対して、$(\mathrm{H}_2)_2$, $(\mathrm{H}_2)_4$ および \textit{trans}-butadiene の総エネルギーを計算し、二金属化合物 [Cr$_2$(OH)$_3$(NH$_3$)$_6$]$^{3+}$ の磁気結合定数を計算した。 これらのシステムに対して、LAS-USCCSDは必要パラメータ数を減らし、回路深度を少なくとも1桁削減する。これは、近未来の量子コンピュータにおけるLAS-UCCSDのようなマルチ参照ハイブリッド量子古典アルゴリズムの実践上重要な側面である。

We introduce a hybrid quantum-classical algorithm, the localized active space unitary selective coupled cluster singles and doubles (LAS-USCCSD) method. Derived from the localized active space unitary coupled cluster (LAS-UCCSD) method, LAS-USCCSD first performs a classical LASSCF calculation, then selectively identifies the most important parameters (cluster amplitudes used to build the multireference UCC ansatz) for restoring inter-fragment interaction energy using this reduced set of parameters with the variational quantum eigensolver method. We benchmark LAS-USCCSD against LAS-UCCSD by calculating the total energies of $(\mathrm{H}_2)_2$, $(\mathrm{H}_2)_4$ and \textit{trans}-butadiene, and the magnetic coupling constant for a bimetallic compound [Cr$_2$(OH)$_3$(NH$_3$)$_6$]$^{3+}$. For these systems, we find that LAS-USCCSD reduces the number of required parameters and thus the circuit depth by at least one order of magnitude, an aspect which is important for the practical implementation of multireference hybrid quantum-classical algorithms like LAS-UCCSD on near-term quantum computers.
翻訳日:2024-04-22 14:46:18 公開日:2024-04-19
# ニューラルタンジェントカーネルの可能性

The Positivity of the Neural Tangent Kernel ( http://arxiv.org/abs/2404.12928v1 )

ライセンス: Link先を確認
Luís Carvalho, João L. Costa, José Mourão, Gonçalo Oliveira, (参考訳) ニューラル・タンジェント・カーネル(NTK)は、ワイド・ニューラル・ニューラルネットワークの研究において基本的な概念として登場した。 特に、NTKの正の値は、十分に広いネットワークの記憶能力、すなわち、勾配降下によるトレーニングにおいてゼロ損失に達する可能性に直接関係していることが知られている。 ここでは, これまでの作業を改善するとともに, 任意の深さのフィードフォワードネットワークのNTKの肯定性について, 鋭い結果を得る。 より正確には、ポリノミカルでない活性化関数に対して、NTKは厳密な正定値であることを示す。 この結果は、独立な興味を持つ多項式関数の新たな特徴付けに基づいている。

The Neural Tangent Kernel (NTK) has emerged as a fundamental concept in the study of wide Neural Networks. In particular, it is known that the positivity of the NTK is directly related to the memorization capacity of sufficiently wide networks, i.e., to the possibility of reaching zero loss in training, via gradient descent. Here we will improve on previous works and obtain a sharp result concerning the positivity of the NTK of feedforward networks of any depth. More precisely, we will show that, for any non-polynomial activation function, the NTK is strictly positive definite. Our results are based on a novel characterization of polynomial functions which is of independent interest.
翻訳日:2024-04-22 14:36:33 公開日:2024-04-19
# 競合する順序を持つ量子材料における集合的絡み合い

Collective entanglement in quantum materials with competing orders ( http://arxiv.org/abs/2404.12931v1 )

ライセンス: Link先を確認
Giacomo Mazza, Costantino Budroni, (参考訳) 本稿では, 量子材料の絡み合い検出を, 集合体励起の同時抑制に基づく基準により検討する。 他の検出方式とは異なり、これらの基準は連続変数や非有界変数にも適用できる。 格子上の双極子を相互作用するシステムを考えることにより、強誘電体秩序と光による物質自由度のドレッシングという2つの異なる物理的メカニズムから生じる集団絡み合いの検出を示す。 後者の場合、検出は自発的対称性の破れに直接関係しない集団交絡相の形成を示す。 これらの結果は、量子材料における競合する順序の絡み合う性質の新しい視点を開き、大きな偏光子分割を持つ量子パラ誘電体に直接適用することができる。

We investigate entanglement detection in quantum materials through criteria based on the simultaneous suppression of collective matter excitations. Unlike other detection schemes, these criteria can be applied to continuous and unbounded variables. By considering a system of interacting dipoles on a lattice, we show the detection of collective entanglement arising from two different physical mechanisms, namely, the ferroelectric ordering and the dressing of matter degrees of freedom by light. In the latter case, the detection shows the formation of a collective entangled phase not directly related to spontaneous symmetry breaking. These results open a new perspective for the entanglement characterization of competing orders in quantum materials, and have direct application to quantum paraelectrics with large polariton splittings.
翻訳日:2024-04-22 14:36:33 公開日:2024-04-19
# Visual Debuggerツール

The Visual Debugger Tool ( http://arxiv.org/abs/2404.12932v1 )

ライセンス: Link先を確認
Tim Kräuter, Harald König, Adrian Rutle, Yngve Lamo, (参考訳) ソフトウェア開発者はプログラムの実行を段階的に分析できるので、デバッグはソフトウェアのメンテナンスと進化の重要な部分です。 プログラムを理解するには潜在的な欠陥を修正し、ボトルネックを緩和し、新しい望ましい機能を実装する必要がある。 したがって、ソフトウェア開発者はソフトウェアの検証とデバッグに多くの時間を費やし、結果としてソフトウェアのメンテナンスと進化のコストが高くなります。 我々は、デバッグ中にプログラムの理解を深めるために、新しいビジュアルデバッグツールをソフトウェア開発者に提供することによって、このコストを削減することを目指している。 私たちのデバッグツールは、プログラムの実行情報をオブジェクトダイアグラムとしてグラフィカルに視覚化し、人気のあるJava開発環境IntelliJ IDEAに完全に統合しています。 さらに、オブジェクトダイアグラムは、インタラクションがプログラムの実行情報をより詳細に探索することを可能にする。 私たちのツールのデモはhttps://www.youtube.com/watch? v=lU_OgotweRk。

Debugging is an essential part of software maintenance and evolution since it allows software developers to analyze program execution step by step. Understanding a program is required to fix potential flaws, alleviate bottlenecks, and implement new desired features. Thus, software developers spend a large percentage of their time validating and debugging software, resulting in high software maintenance and evolution cost. We aim to reduce this cost by providing a novel visual debugging tool to software developers to foster program comprehension during debugging. Our debugging tool visualizes program execution information graphically as an object diagram and is fully integrated into the popular Java development environment IntelliJ IDEA. Moreover, the object diagram allows interactions to explore program execution information in more detail. A demonstration of our tool is available at https://www.youtube.com/watch?v=lU_OgotweRk.
翻訳日:2024-04-22 14:36:33 公開日:2024-04-19
# 実・LLM生成ソーシャルメディアデータにおける異文化間呼吸検出と分析

Cross-cultural Inspiration Detection and Analysis in Real and LLM-generated Social Media Data ( http://arxiv.org/abs/2404.12933v1 )

ライセンス: Link先を確認
Oana Ignat, Gayathri Ganesh Lakshmy, Rada Mihalcea, (参考訳) 吸気は、創造性、生産性、幸福など、様々なポジティブな結果に結びついている。 インスピレーションは大きな可能性を秘めているが、単にエンゲージメントやポジティブではなく、インスピレーションを与えるコンテンツを特定する努力は限られている。 さらに、ほとんどの研究は西洋のデータに集中しており、他の文化にはほとんど注意を払わない。 この研究は、機械学習を通じて異文化間のインスピレーションを初めて研究した。 我々は、実物とAIが生み出す異文化の刺激的なポストを特定し、分析することを目指している。 InspAIredデータセットは、2000のリアルインスパイアされたポスト、2000のリアルインスパイアされたポスト、2000の生成されたインスパイアされたポストがインドとイギリスに均等に分散している。 実際の投稿はRedditからソースされ、生成された投稿はGPT-4モデルを使って作成される。 このデータセットを用いて,(1)文化間でのインスピレーションコンテンツの比較,(2)AI生成したインスピレーションポストと実際のインスピレーションポストを比較し,(3)検出モデルが文化やデータソース間でインスピレーションコンテンツと正確に区別できるかどうかを判断する。

Inspiration is linked to various positive outcomes, such as increased creativity, productivity, and happiness. Although inspiration has great potential, there has been limited effort toward identifying content that is inspiring, as opposed to just engaging or positive. Additionally, most research has concentrated on Western data, with little attention paid to other cultures. This work is the first to study cross-cultural inspiration through machine learning methods. We aim to identify and analyze real and AI-generated cross-cultural inspiring posts. To this end, we compile and make publicly available the InspAIred dataset, which consists of 2,000 real inspiring posts, 2,000 real non-inspiring posts, and 2,000 generated inspiring posts evenly distributed across India and the UK. The real posts are sourced from Reddit, while the generated posts are created using the GPT-4 model. Using this dataset, we conduct extensive computational linguistic analyses to (1) compare inspiring content across cultures, (2) compare AI-generated inspiring posts to real inspiring posts, and (3) determine if detection models can accurately distinguish between inspiring content across cultures and data sources.
翻訳日:2024-04-22 14:36:33 公開日:2024-04-19
# MAiDE-up:GPT生成ホテルレビューの多言語誤り検出

MAiDE-up: Multilingual Deception Detection of GPT-generated Hotel Reviews ( http://arxiv.org/abs/2404.12938v1 )

ライセンス: Link先を確認
Oana Ignat, Xiaomeng Xu, Rada Mihalcea, (参考訳) 認知的レビューは、特にLLMのパフォーマンス向上と普及により、ますます一般的になっている。 これまでの研究は、真実と偽りの人間レビューを区別するモデルの開発に取り組んできたが、実際のレビューとAIが作成した偽レビューの区別についてはあまり知られていない。 さらに、これまでの研究のほとんどは英語に重点を置いており、他の言語にはほとんど注力していない。 本稿では,10言語間でバランスの取れた1万のAI生成ホテルレビューと1万のAI生成ホテルレビューからなるMAiDE-upデータセットをコンパイルし,公開する。 本データセットを用いて,(1)AI偽ホテルレビューと実際のホテルレビューを比較し,(2)偽造検出モデルの性能に影響を与える要因を特定する。 ホテルレビューにおいて, 感情, 場所, 言語という3つの主要な側面にまたがって, 虚偽検出のための複数のモデルの有効性について検討した。 これらの次元は、AIが生成した偽レビューをいかに検出できるかに影響を及ぼす。

Deceptive reviews are becoming increasingly common, especially given the increase in performance and the prevalence of LLMs. While work to date has addressed the development of models to differentiate between truthful and deceptive human reviews, much less is known about the distinction between real reviews and AI-authored fake reviews. Moreover, most of the research so far has focused primarily on English, with very little work dedicated to other languages. In this paper, we compile and make publicly available the MAiDE-up dataset, consisting of 10,000 real and 10,000 AI-generated fake hotel reviews, balanced across ten languages. Using this dataset, we conduct extensive linguistic analyses to (1) compare the AI fake hotel reviews to real hotel reviews, and (2) identify the factors that influence the deception detection model performance. We explore the effectiveness of several models for deception detection in hotel reviews across three main dimensions: sentiment, location, and language. We find that these dimensions influence how well we can detect AI-generated fake reviews.
翻訳日:2024-04-22 14:36:33 公開日:2024-04-19
# 自由空間における大きな相互作用駆動原子アンサンブルにおける超ラジカル相転移

Superradiant phase transition in a large interacting driven atomic ensemble in free space ( http://arxiv.org/abs/2404.12939v1 )

ライセンス: Link先を確認
Janne Ruostekoski, (参考訳) 光と強く相互作用する原子アンサンブルは、豊富な量子光学多体系を構成し、協調効果や散逸性非平衡相転移を観測する可能性がある。 我々は,強い双極子-双極子相互作用と広い空間範囲の相互作用を特徴とする自由空間における原子アンサンブルが,超ラジカル相転移(共振蛍光)を起こすことができる条件を理論的に解析する。 原子配列において、集合擬似スピンを保存する定常状態は、完全に協調的な崩壊を示し、大きな原子番号の極限において二階相転移を行う。 対照的に、擬似スピンの保存に失敗した長い時間スケールでの崩壊機構は、臨界有限原子数における不連続な一階相転移を招き、多くの類似した観測可能な特性を共有しながら協調を妨害する。 超ラジアント相転移の目印は、光強度の関数として重要な量子ゆらぎを伴う、原子からの全光反射から急速に増加する透過への急激なシフトである。

Atomic ensembles strongly interacting with light constitute rich quantum-optical many-body systems, with the potential for observing cooperative effects and dissipative nonequilibrium phase transitions. We theoretically analyze the conditions under which a driven atomic ensemble in free space, characterized by strong dipole-dipole interactions and large spatial extent, can undergo a superradiant phase transition, also known as cooperative resonance fluorescence. In an atomic array, stationary states that conserve the collective pseudospin exhibit completely cooperative decay and undergo a second-order phase transition in the large atom number limit. In contrast, decay mechanisms on longer timescales that fail to conserve pseudospin can lead to discontinuous first-order phase transition at a critical finite atom number, disrupting cooperation despite sharing many similar observable characteristics. A hallmark of the superradiant phase transition is an abrupt shift from total light reflection off the atoms to rapidly increasing transmission, accompanied by significant quantum fluctuations, as a function of light intensity.
翻訳日:2024-04-22 14:36:33 公開日:2024-04-19
# ニューラルフロー拡散モデル:改良された拡散モデルのための学習可能な前方プロセス

Neural Flow Diffusion Models: Learnable Forward Process for Improved Diffusion Modelling ( http://arxiv.org/abs/2404.12940v1 )

ライセンス: Link先を確認
Grigory Bartosh, Dmitry Vetrov, Christian A. Naesseth, (参考訳) 従来の拡散モデルは一般に固定前方過程に依存し、潜在変数上の複素境界分布を暗黙的に定義する。 これはしばしば、生成的軌跡を学習する際の逆過程のタスクを複雑にし、拡散モデルに対するコストのかかる推論をもたらす。 これらの制約に対処するため,我々はニューラルフロー拡散モデル (Neural Flow Diffusion Models, NFDM) を導入する。 また,前処理を学習するための新しいパラメータ化手法を提案する。 筆者らのフレームワークは, エンド・ツー・エンドでシミュレーション不要な最適化を目標とし, 負の対数線上の変分上限を効果的に最小化する。 実験によりNFDMの強い性能が実証された。 さらに,NFDMが生成力学を学習する能力について検討した。 この調査は、NFDMの汎用性と幅広い応用の可能性を強調している。

Conventional diffusion models typically relies on a fixed forward process, which implicitly defines complex marginal distributions over latent variables. This can often complicate the reverse process' task in learning generative trajectories, and results in costly inference for diffusion models. To address these limitations, we introduce Neural Flow Diffusion Models (NFDM), a novel framework that enhances diffusion models by supporting a broader range of forward processes beyond the fixed linear Gaussian. We also propose a novel parameterization technique for learning the forward process. Our framework provides an end-to-end, simulation-free optimization objective, effectively minimizing a variational upper bound on the negative log-likelihood. Experimental results demonstrate NFDM's strong performance, evidenced by state-of-the-art likelihood estimation. Furthermore, we investigate NFDM's capacity for learning generative dynamics with specific characteristics, such as deterministic straight lines trajectories. This exploration underscores NFDM's versatility and its potential for a wide range of applications.
翻訳日:2024-04-22 14:36:33 公開日:2024-04-19
# 不均一なモデリングシナリオにおける行動整合性を目指して

Towards behavioral consistency in heterogeneous modeling scenarios ( http://arxiv.org/abs/2404.12941v1 )

ライセンス: Link先を確認
Tim Kräuter, (参考訳) 行動モデルはモデル駆動工学(MDE)において重要な役割を果たす。 関連する行動モデルを一貫性を保つためには、MDEでそれらをうまく使うことが重要です。 しかし、特に異種シナリオにおける行動モデルの整合性チェックは限られている。 より広いシナリオにおける整合性チェックを実現するため,異種行動モデルを統合する手法を提案する。 これは、振る舞いの意味を持つモデル間関係を定義することによって、それぞれの行動メタモデルを調整することに基づいている。 モデルとそれらの関係を行動形式に変換することで、モデルチェックを用いたグローバルな行動整合性の解析が可能になる。

Behavioral models play an essential role in Model-driven engineering (MDE). Keeping inter-related behavioral models consistent is critical to use them successfully in MDE. However, consistency checking for behavioral models, especially in a heterogeneous scenario, is limited. We propose a methodology to integrate heterogeneous behavioral models to achieve consistency checking in broader scenarios. It is based on aligning the respective behavioral metamodels by defining possible inter-model relations which carry behavioral meaning. Converting the models and their relations to a behavioral formalism enables analysis of global behavioral consistency using model-checking.
翻訳日:2024-04-22 14:36:33 公開日:2024-04-19
# 目的:人間の動作生成を文脈で行う

Purposer: Putting Human Motion Generation in Context ( http://arxiv.org/abs/2404.12942v1 )

ライセンス: Link先を確認
Nicolas Ugrinovic, Thomas Lucas, Fabien Baradel, Philippe Weinzaepfel, Gregory Rogez, Francesc Moreno-Noguer, (参考訳) 本研究では,3次元屋内シーンに人間の動きを再現する新しい手法を提案する。 シーン内のパス、ターゲットポーズ、過去の動き、そして3Dポイントの雲として表されるシーンなど、様々な条件信号の組み合わせで制御できる。 State-of-the-art(最先端の手法)は、1つの単一の設定に特化されたモデルであり、大量の高品質で多様なトレーニングデータを必要とするか、シーンやその他の文脈情報を統合しない無条件のモデルである。 その結果、適用性が制限され、コストのかかるトレーニングデータに依存します。 これらの制約に対処するため,ニューラル離散表現学習に基づく新しい手法であるPurposerを提案する。 我々のモデルは、AMASSのようなオープンアクセスの大規模データセットにすでに存在する様々な種類の情報を柔軟に活用することができる。 まず、無条件の人間の動きを離散的な潜在空間に符号化する。 第二に、自己回帰生成モデルにおいて、重要な文脈情報を条件付きで、プロンプトまたは付加的なトークンで条件付けし、この空間における次のステップ予測のために訓練し、潜在指標のシーケンスを合成する。 さらに,2つの枝を持つネットワークを用いて,特徴のスタックを個別に計算することで,そのような因果モデルにおける将来の条件情報を扱うための新しい条件付けブロックを設計する。 このようにして、Purposerは様々なテストシーンでリアルな動作シーケンスを生成することができる。 総合的な評価を通じて、我々のマルチコンテキストソリューションは、品質と多様性の両面において、特定のコンテキスト情報に対して、既存の特殊なアプローチよりも優れていることを示す。 我々のモデルは短いシーケンスで訓練されているが、様々な条件付き信号を使用するための副産物は、テスト時に短いシーケンスをチェーンし、コンテキストシーン内で長い動きを生成するために異なる組み合わせを使うことができることである。

We present a novel method to generate human motion to populate 3D indoor scenes. It can be controlled with various combinations of conditioning signals such as a path in a scene, target poses, past motions, and scenes represented as 3D point clouds. State-of-the-art methods are either models specialized to one single setting, require vast amounts of high-quality and diverse training data, or are unconditional models that do not integrate scene or other contextual information. As a consequence, they have limited applicability and rely on costly training data. To address these limitations, we propose a new method ,dubbed Purposer, based on neural discrete representation learning. Our model is capable of exploiting, in a flexible manner, different types of information already present in open access large-scale datasets such as AMASS. First, we encode unconditional human motion into a discrete latent space. Second, an autoregressive generative model, conditioned with key contextual information, either with prompting or additive tokens, and trained for next-step prediction in this space, synthesizes sequences of latent indices. We further design a novel conditioning block to handle future conditioning information in such a causal model by using a network with two branches to compute separate stacks of features. In this manner, Purposer can generate realistic motion sequences in diverse test scenes. Through exhaustive evaluation, we demonstrate that our multi-contextual solution outperforms existing specialized approaches for specific contextual information, both in terms of quality and diversity. Our model is trained with short sequences, but a byproduct of being able to use various conditioning signals is that at test time different combinations can be used to chain short sequences together and generate long motions within a context scene.
翻訳日:2024-04-22 14:36:33 公開日:2024-04-19
# 画像分類のための次世代ロス関数

Next Generation Loss Function for Image Classification ( http://arxiv.org/abs/2404.12948v1 )

ライセンス: Link先を確認
Shakhnaz Akhmedova, Nils Körber, (参考訳) ニューラルネットワークは、予測されたモデル出力と目標値との差を定義する損失関数を最小化することにより訓練される。 損失関数の選択はタスク固有の振る舞いを達成するために重要であり、モデルの能力に大きな影響を及ぼす。 訓練やモデル性能に影響を及ぼす幅広いタスクに対して、様々な損失関数が提案されている。 分類タスクでは、クロスエントロピーはデファクト標準であり、通常は第一選択である。 本稿では,遺伝的プログラミング(GP)アプローチを用いて,クロスエントロピー(CE)損失を含むよく知られた損失関数に挑戦する。 GPは演算子と葉ノードの集合から損失関数を構築し、これらの関数は繰り返し再結合され、最適な構造を見つけるために変更される。 インセプションモデルを用いて、CIFAR-10、CIFAR-100、Fashion-MNISTの小さなデータセットで実験を行った。 得られた5つのベスト機能は、2から102のクラスと非常に異なるサイズの標準データセットのセットで、異なるモデルアーキテクチャに対して評価された。 NGL(Next Generation Loss)と呼ばれる1つの関数は、CEと比較してテストされたすべてのデータセットで、同じか、より優れたパフォーマンスを示している。 大規模データセット上でNGL関数を評価するため、Imagenet-1kデータセット上で、同一設定やその他の損失でトレーニングされたモデルと比較して、トップ1の精度が改善された。 最後に、NGLはPascal VOC 2012とCOCO-Stuff164kデータセットのセグメンテーションダウンストリームタスクに基づいてトレーニングされた。

Neural networks are trained by minimizing a loss function that defines the discrepancy between the predicted model output and the target value. The selection of the loss function is crucial to achieve task-specific behaviour and highly influences the capability of the model. A variety of loss functions have been proposed for a wide range of tasks affecting training and model performance. For classification tasks, the cross entropy is the de-facto standard and usually the first choice. Here, we try to experimentally challenge the well-known loss functions, including cross entropy (CE) loss, by utilizing the genetic programming (GP) approach, a population-based evolutionary algorithm. GP constructs loss functions from a set of operators and leaf nodes and these functions are repeatedly recombined and mutated to find an optimal structure. Experiments were carried out on different small-sized datasets CIFAR-10, CIFAR-100 and Fashion-MNIST using an Inception model. The 5 best functions found were evaluated for different model architectures on a set of standard datasets ranging from 2 to 102 classes and very different sizes. One function, denoted as Next Generation Loss (NGL), clearly stood out showing same or better performance for all tested datasets compared to CE. To evaluate the NGL function on a large-scale dataset, we tested its performance on the Imagenet-1k dataset where it showed improved top-1 accuracy compared to models trained with identical settings and other losses. Finally, the NGL was trained on a segmentation downstream task for Pascal VOC 2012 and COCO-Stuff164k datasets improving the underlying model performance.
翻訳日:2024-04-22 14:36:33 公開日:2024-04-19
# 有限頻度論は量子確率を説明する

Finite frequentism explains quantum probability ( http://arxiv.org/abs/2404.12954v1 )

ライセンス: Link先を確認
Simon Saunders, (参考訳) 古典的な統計力学における確率の説明として、頻繁性は、古典的な位相空間の類似である非コヒーレントな量子歴史空間に自然に拡張できることを示す。 この結果はさらに有限頻度論の一形態であり、ギブスの概念である気体の無限アンサンブルは、歴史空間で定義されるように、デコヒーレンス基底の言葉で表される全量子状態に置き換えられる。 これは(仮説的頻繁性とは対照的に)有限かつ実際の頻繁性の一形態であり、デコヒーレンスに基づくエヴェレット解釈やいくつかのパイロット波理論のバージョンに則って、すべてのミクロ状態が存在して、インソファールである。

I show that frequentism, as an explanation of probability in classical statistical mechanics, can be extended in a natural way to a decoherent quantum history space, the analogue of a classical phase space. The result is further a form of finite frequentism, in which the Gibbs concept of an infinite ensemble of gases is replaced by the total quantum state expressed in terms of the decoherence basis, as defined by the history space. It is a form of finite and actual frequentism (as opposed to hypothetical frequentism), insofar as all the microstates exist, in keeping with the decoherence-based Everett interpretation, and some versions of pilot-wave theory.
翻訳日:2024-04-22 14:36:33 公開日:2024-04-19
# LLMにおける信頼できる潜在的知識推定に向けて--インテクスト学習とプロンプティングに基づくファクチュアル知識抽出

Towards Reliable Latent Knowledge Estimation in LLMs: In-Context Learning vs. Prompting Based Factual Knowledge Extraction ( http://arxiv.org/abs/2404.12957v1 )

ライセンス: Link先を確認
Qinyuan Wu, Mohammad Aflah Khan, Soumi Das, Vedant Nanda, Bishwamittra Ghosh, Camila Kolling, Till Speicher, Laurent Bindschaedler, Krishna P. Gummadi, Evimaria Terzi, (参考訳) 本稿では,大規模言語モデル(LLM)に埋め込まれた潜在知識を推定する手法を提案する。 我々は、LLMの文脈内学習(ICL)能力を活用し、LLMが知識ベースに格納されている事実を知る程度を推定する。 我々の知識推定器は、従来のプロンプトベースの手法による信頼性の懸念を回避し、概念的にシンプルかつ適用が容易であり、LLMに埋め込まれた潜伏知識をより多く提示できることを実証する。 また,異なる設計選択がICLに基づく知識推定の性能に与える影響についても検討した。 提案した推定器を用いて,Wikidata の知識ベースから,OPT,Pythia,Llama(2),Mistral,Gemmaなど,さまざまなオープンソース LLM の事実知識の大規模評価を行う。 異なるモデルファミリと異なるサイズのモデルの間の事実的知識の相違、いくつかの関係が他のモデルよりも一貫して良く知られているが、モデルが知っている正確な事実と、ベースモデルとその微調整されたモデルの知識の相違を観察する。

We propose an approach for estimating the latent knowledge embedded inside large language models (LLMs). We leverage the in-context learning (ICL) abilities of LLMs to estimate the extent to which an LLM knows the facts stored in a knowledge base. Our knowledge estimator avoids reliability concerns with previous prompting-based methods, is both conceptually simpler and easier to apply, and we demonstrate that it can surface more of the latent knowledge embedded in LLMs. We also investigate how different design choices affect the performance of ICL-based knowledge estimation. Using the proposed estimator, we perform a large-scale evaluation of the factual knowledge of a variety of open source LLMs, like OPT, Pythia, Llama(2), Mistral, Gemma, etc. over a large set of relations and facts from the Wikidata knowledge base. We observe differences in the factual knowledge between different model families and models of different sizes, that some relations are consistently better known than others but that models differ in the precise facts they know, and differences in the knowledge of base models and their finetuned counterparts.
翻訳日:2024-04-22 14:36:33 公開日:2024-04-19
# コントラスト学習と埋め込み類似性を利用した成人胸部X線画像による小児肺炎診断の改善

Improving Pediatric Pneumonia Diagnosis with Adult Chest X-ray Images Utilizing Contrastive Learning and Embedding Similarity ( http://arxiv.org/abs/2404.12958v1 )

ライセンス: Link先を確認
Mohammad Zunaed, Anwarul Hasan, Taufiq Hasan, (参考訳) 成人胸部X線画像(CXR)からの肺炎の深層学習に基づくコンピュータ支援診断(CAD)法の進歩にもかかわらず、小児画像に適用されたCAD法の性能は、主に大規模な注釈画像データセットが欠如していることから、最適以下である。 既存の成人用大規模CXRデータセットを活用するための適切なフレームワークを確立することで、小児肺炎検出性能を向上させることができる。 本稿では,成人用および小児用両方のデータセットを用いて,小児用テストデータセット上でのディープラーニングモデルの性能向上を図る3分岐並列パス学習フレームワークを提案する。 経路は、それぞれ小児のみ、成人のみ、およびCXRの2種類で訓練される。 提案手法は, クラスワイド埋め込みのクラスタ化と, クラスワイド埋め込みを極力近いものにするため, ドメインシフトの影響を低減するために, クラスワイド埋め込みのクラスタリングと3つの並列パス間の埋め込み類似性損失を利用する。 オープンアクセスアダルトと小児のCXRデータセットの実験的評価から,提案手法は従来の2つのデータセットのジョイントトレーニング手法を用いて得られた0.8348に対して,AUROCスコアが0.8464であることがわかった。 提案手法は,成人群と小児群の両方に有効なCADモデルの一般化の道を開くものである。

Despite the advancement of deep learning-based computer-aided diagnosis (CAD) methods for pneumonia from adult chest x-ray (CXR) images, the performance of CAD methods applied to pediatric images remains suboptimal, mainly due to the lack of large-scale annotated pediatric imaging datasets. Establishing a proper framework to leverage existing adult large-scale CXR datasets can thus enhance pediatric pneumonia detection performance. In this paper, we propose a three-branch parallel path learning-based framework that utilizes both adult and pediatric datasets to improve the performance of deep learning models on pediatric test datasets. The paths are trained with pediatric only, adult only, and both types of CXRs, respectively. Our proposed framework utilizes the multi-positive contrastive loss to cluster the classwise embeddings and the embedding similarity loss among these three parallel paths to make the classwise embeddings as close as possible to reduce the effect of domain shift. Experimental evaluations on open-access adult and pediatric CXR datasets show that the proposed method achieves a superior AUROC score of 0.8464 compared to 0.8348 obtained using the conventional approach of join training on both datasets. The proposed approach thus paves the way for generalized CAD models that are effective for both adult and pediatric age groups.
翻訳日:2024-04-22 14:36:33 公開日:2024-04-19
# ローレンツ原子のドレッシング

Dressing the Lorentz atom ( http://arxiv.org/abs/2404.12959v1 )

ライセンス: Link先を確認
Stephen M. Barnett, James D. Cresser, Sarah Croke, (参考訳) 電磁場が高調波電子に与える影響について検討する。 電気双極子近似において、モデル原子は有効一次元電場にのみ結合することを示す。 問題を1つの空間次元に縮める単純化された形式で、基底状態の形式を解析的に決定し、その意義を議論する。

We investigate the effects of the electromagnetic vacuum field on a harmonically bound electron. We show that in the electric-dipole approximation the model atom couples only to an effective one-dimensional electric field. In a simplified form, in which the problem is reduced to a single spatial dimension, we determine, analytically, the form of the ground state and discuss the significance of this.
翻訳日:2024-04-22 14:36:33 公開日:2024-04-19
# 閉じ込められたイオンに対する一般雑音耐性量子ゲート

Generally noise-resilient quantum gates for trapped-ions ( http://arxiv.org/abs/2404.12961v1 )

ライセンス: Link先を確認
Modesto Orozco-Ruiz, Wasim Rehman, Florian Mintert, (参考訳) 複数の誤差源が存在するにもかかわらず、励起運動状態を持つ高忠実度操作を実現するイオン鎖のエンタングリングゲートスキームを提案する。 提案手法は,全ての動作モードを組み込んで,運動加熱効果と変形誤差,堅牢でスケーラブルなトラップイオン量子コンピュータ構築のための重要な特徴の両面に対して,強靭性を示す。

We present an entangling gate scheme for trapped-ion chains that achieves high-fidelity operations with excited motional states despite multiple error sources. Our approach incorporates all relevant motional modes and exhibits enhanced robustness against both motional heating effects and detuning errors, critical features for building robust and scalable trapped-ion quantum computers.
翻訳日:2024-04-22 14:36:33 公開日:2024-04-19
# 視線が知覚できる:マルチモーダル大言語モデルの非現実的推論能力のベンチマーク

Eyes Can Deceive: Benchmarking Counterfactual Reasoning Abilities of Multi-modal Large Language Models ( http://arxiv.org/abs/2404.12966v1 )

ライセンス: Link先を確認
Yian Li, Wentao Tian, Yang Jiao, Jingjing Chen, Yu-Gang Jiang, (参考訳) カウンターファクチュアル推論は、人間の知性の重要な証明として、確立した事実に基づいて仮定を行い、潜在的な結果を外挿することを指す。 既存のマルチモーダルな大規模言語モデル(MLLM)は、様々なビジュアル質問回答(VQA)ベンチマークで検証された、印象的な認知と推論能力を示した。 それでも、既存のMLLMは、逆問題に直面した場合、どのように機能するのか? この疑問に答えるために,我々はまず,MLLM の因果推論能力を体系的に評価するために,新規な \textbf{C}ounter\textbf{F}actual \textbf{M}ulti\textbf{M}odal reasoning benchmark をキュレートする。 我々のCFMMは6つの課題から構成されており、それぞれが多岐にわたるMLLMの対実的推論能力を評価するために、慎重にラベル付けされた数百の対実的質問を含む。 興味深いことに、実験を通して、既存のMLLMは、自分たちが見ているものを信じることを好んでいるが、問題に提示される偽の前提を無視し、不正確な応答をもたらす。 さらに,提案するCFMMを用いて,MLLMを広範囲に評価する。 CFMMのパフォーマンスといくつかのVQAベンチマークとの間の大きなギャップは、既存のMLLMが人間レベルのインテリジェンスに近づくための十分な改善の余地があることを示している。 一方,今後のCFMMにおけるMLLMの性能向上により,高度な知能を持つMLLMの開発に向けた潜在的な道筋を探求することができる。

Counterfactual reasoning, as a crucial manifestation of human intelligence, refers to making presuppositions based on established facts and extrapolating potential outcomes. Existing multimodal large language models (MLLMs) have exhibited impressive cognitive and reasoning capabilities, which have been examined across a wide range of Visual Question Answering (VQA) benchmarks. Nevertheless, how will existing MLLMs perform when faced with counterfactual questions? To answer this question, we first curate a novel \textbf{C}ounter\textbf{F}actual \textbf{M}ulti\textbf{M}odal reasoning benchmark, abbreviated as \textbf{CFMM}, to systematically assess the counterfactual reasoning capabilities of MLLMs. Our CFMM comprises six challenging tasks, each including hundreds of carefully human-labeled counterfactual questions, to evaluate MLLM's counterfactual reasoning capabilities across diverse aspects. Through experiments, interestingly, we find that existing MLLMs prefer to believe what they see, but ignore the counterfactual presuppositions presented in the question, thereby leading to inaccurate responses. Furthermore, we evaluate a wide range of prevalent MLLMs on our proposed CFMM. The significant gap between their performance on our CFMM and that on several VQA benchmarks indicates that there is still considerable room for improvement in existing MLLMs toward approaching human-level intelligence. On the other hand, through boosting MLLMs performances on our CFMM in the future, potential avenues toward developing MLLMs with advanced intelligence can be explored.
翻訳日:2024-04-22 14:26:33 公開日:2024-04-19
# メッセージパッシングによるスケーラブルなデータ同化

Scalable Data Assimilation with Message Passing ( http://arxiv.org/abs/2404.12968v1 )

ライセンス: Link先を確認
Oscar Key, So Takao, Daniel Giles, Marc Peter Deisenroth, (参考訳) データ同化は数値天気予報システムの中核的な構成要素である。 同化時に処理される大量のデータは、ますます多くの計算ノードに分散する必要があるが、既存のアプローチでは、この設定の同期オーバーヘッドに悩まされている。 本稿では,ベイズ推論問題としてデータ同化を定式化して,空間的推論問題の解法としてメッセージパッシングアルゴリズムを適用する。 メッセージパッシングは本質的には局所的な計算に基づいているため、このアプローチは並列および分散計算に向いている。 GPUを高速化した実装と組み合わせることで、高い精度と計算およびメモリ要求を維持しながら、アルゴリズムを非常に大きなグリッドサイズにスケールすることができる。

Data assimilation is a core component of numerical weather prediction systems. The large quantity of data processed during assimilation requires the computation to be distributed across increasingly many compute nodes, yet existing approaches suffer from synchronisation overhead in this setting. In this paper, we exploit the formulation of data assimilation as a Bayesian inference problem and apply a message-passing algorithm to solve the spatial inference problem. Since message passing is inherently based on local computations, this approach lends itself to parallel and distributed computation. In combination with a GPU-accelerated implementation, we can scale the algorithm to very large grid sizes while retaining good accuracy and compute and memory requirements.
翻訳日:2024-04-22 14:26:33 公開日:2024-04-19
# セッションベースレコメンデーションにおけるディスタングルIDとモダリティ効果

Disentangling ID and Modality Effects for Session-based Recommendation ( http://arxiv.org/abs/2404.12969v1 )

ライセンス: Link先を確認
Xiaokun Zhang, Bo Xu, Zhaochun Ren, Xiaochen Wang, Hongfei Lin, Fenglong Ma, (参考訳) セッションベースのリコメンデーションは、限られた振る舞いに基づいて匿名ユーザの意図を予測することを目的としている。 ユーザ行動のモデル化には、アイテムIDによって反映される共起パターンと、アイテムのモダリティ(テキストや画像など)によって表現されるきめ細かい好みという、2つの異なる論理的理由がある。 しかし、既存の手法は一般的にこれらの原因を絡め、正確で説明可能なレコメンデーションを達成できなかった。 そこで本研究では,課題におけるIDとモダリティの影響を解消する新しいフレームワークであるDIMOを提案する。 項目レベルでは、共起パターンをID表現に明示的に組み込む共起表現スキーマを導入する。 同時に、DIMOは異なるモダリティを統一意味空間に整列させ、それらを一様に表現する。 セッションレベルでは、教師付き信号なしでIDとモダリティの効果を乱すために、プロキシ機構や逆ファクト推論を含む多視点の自己教師付き不整合を提示する。 これらの絡み合った原因を活用して、DIMOは因果推論を通じてレコメンデーションを提供し、さらに説明を生成するための2つのテンプレートを作成する。 複数の実世界のデータセットに対する大規模な実験は、既存の手法よりもDIMOが一貫した優位性を示している。 さらなる分析により、DIMOが説明の生成に有効であることを確認できる。

Session-based recommendation aims to predict intents of anonymous users based on their limited behaviors. Modeling user behaviors involves two distinct rationales: co-occurrence patterns reflected by item IDs, and fine-grained preferences represented by item modalities (e.g., text and images). However, existing methods typically entangle these causes, leading to their failure in achieving accurate and explainable recommendations. To this end, we propose a novel framework DIMO to disentangle the effects of ID and modality in the task. At the item level, we introduce a co-occurrence representation schema to explicitly incorporate cooccurrence patterns into ID representations. Simultaneously, DIMO aligns different modalities into a unified semantic space to represent them uniformly. At the session level, we present a multi-view self-supervised disentanglement, including proxy mechanism and counterfactual inference, to disentangle ID and modality effects without supervised signals. Leveraging these disentangled causes, DIMO provides recommendations via causal inference and further creates two templates for generating explanations. Extensive experiments on multiple real-world datasets demonstrate the consistent superiority of DIMO over existing methods. Further analysis also confirms DIMO's effectiveness in generating explanations.
翻訳日:2024-04-22 14:26:33 公開日:2024-04-19
# 超解空間転写学におけるクロスモーダル拡散モデリング

Cross-modal Diffusion Modelling for Super-resolved Spatial Transcriptomics ( http://arxiv.org/abs/2404.12973v1 )

ライセンス: Link先を確認
Xiaofei Wang, Xingxu Huang, Stephen J. Price, Chao Li, (参考訳) 空間転写学(ST)の最近の進歩は、発見研究のために組織内の空間遺伝子発現を特徴づけることを可能にする。 しかし、現在のSTプラットフォームは解像度が低く、空間的遺伝子発現の深い理解を妨げる。 超高分解能アプローチは、組織像とプロファイルされた組織スポットの遺伝子発現を統合することでSTマップを強化することを約束する。 しかし、現在の超解像法は復元の不確実性やモード崩壊によって制限されている。 拡散モデルは, マルチモーダル条件間の複雑な相互作用を捉える上で有望であるが, 超解STマップの組織像と遺伝子発現を統合することは依然として困難である。 本稿では, 組織像の誘導による超解像STマップのクロスモーダル拡散モデルを提案する。 具体的には、組織画像と空間遺伝子発現の相補的な情報を活用するために、多モード適応変調を用いたマルチモーダルディエンタングネットワークを設計する。 さらに,組織像から階層的な細胞間情報を抽出するための動的横断的モデリング手法を提案する。 最後に,複数遺伝子の共発現関係をモデル化するために,共発現に基づく遺伝子相関グラフネットワークを提案する。 実験の結果,本手法は3つの公開データセット上でST超解像における他の最先端手法よりも優れていた。

The recent advancement of spatial transcriptomics (ST) allows to characterize spatial gene expression within tissue for discovery research. However, current ST platforms suffer from low resolution, hindering in-depth understanding of spatial gene expression. Super-resolution approaches promise to enhance ST maps by integrating histology images with gene expressions of profiled tissue spots. However, current super-resolution methods are limited by restoration uncertainty and mode collapse. Although diffusion models have shown promise in capturing complex interactions between multi-modal conditions, it remains a challenge to integrate histology images and gene expression for super-resolved ST maps. This paper proposes a cross-modal conditional diffusion model for super-resolving ST maps with the guidance of histology images. Specifically, we design a multi-modal disentangling network with cross-modal adaptive modulation to utilize complementary information from histology images and spatial gene expression. Moreover, we propose a dynamic cross-attention modelling strategy to extract hierarchical cell-to-tissue information from histology images. Lastly, we propose a co-expression-based gene-correlation graph network to model the co-expression relationship of multiple genes. Experiments show that our method outperforms other state-of-the-art methods in ST super-resolution on three public datasets.
翻訳日:2024-04-22 14:26:33 公開日:2024-04-19
# FineRec: きめ細かいシーケンスレコメンデーションの探索

FineRec:Exploring Fine-grained Sequential Recommendation ( http://arxiv.org/abs/2404.12975v1 )

ライセンス: Link先を確認
Xiaokun Zhang, Bo Xu, Youlin Wu, Yuan Zhong, Hongfei Lin, Fenglong Ma, (参考訳) シークエンシャルレコメンデーションは、ユーザーの履歴行動に基づいた興味のあるアイテムの提供に特化している。 属性-オピニオンペアは、ユーザがアイテムのレビューで表現するもので、ユーザの好みやアイテムの特徴をきめ細かなレベルで捉えることができる。 そこで本研究では,属性-選択対のレビューを探索し,逐次レコメンデーションを微妙に処理する新しいフレームワークであるFineRecを提案する。 具体的には,大規模な言語モデルを用いて,属性対をレビューから抽出する。 各属性に対して、ユニークな属性固有のユーザ-オピニオン-イットグラフが作成され、対応する意見が異質なユーザノードとアイテムノードをリンクするエッジとして機能する。 多様な意見に対処するために,多様性を考慮した畳み込み操作を考案し,属性固有のユーザとアイテム表現学習を可能にする。 最終的に、属性固有のユーザ/イテム表現をすべての属性に統合してレコメンデーションを生成する、インタラクション駆動の融合機構を提案する。 いくつかの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりもFineRecの方が優れていることを示している。 さらに,タスク処理におけるきめ細かい処理の有効性も検証した。

Sequential recommendation is dedicated to offering items of interest for users based on their history behaviors. The attribute-opinion pairs, expressed by users in their reviews for items, provide the potentials to capture user preferences and item characteristics at a fine-grained level. To this end, we propose a novel framework FineRec that explores the attribute-opinion pairs of reviews to finely handle sequential recommendation. Specifically, we utilize a large language model to extract attribute-opinion pairs from reviews. For each attribute, a unique attribute-specific user-opinion-item graph is created, where corresponding opinions serve as the edges linking heterogeneous user and item nodes. To tackle the diversity of opinions, we devise a diversity-aware convolution operation to aggregate information within the graphs, enabling attribute-specific user and item representation learning. Ultimately, we present an interaction-driven fusion mechanism to integrate attribute-specific user/item representations across all attributes for generating recommendations. Extensive experiments conducted on several realworld datasets demonstrate the superiority of our FineRec over existing state-of-the-art methods. Further analysis also verifies the effectiveness of our fine-grained manner in handling the task.
翻訳日:2024-04-22 14:26:33 公開日:2024-04-19
# TRNet:ノイズロバスト音声認識における音声強調を利用した2レベルリファインメントネットワーク

TRNet: Two-level Refinement Network leveraging Speech Enhancement for Noise Robust Speech Emotion Recognition ( http://arxiv.org/abs/2404.12979v1 )

ライセンス: Link先を確認
Chengxin Chen, Pengyuan Zhang, (参考訳) 音声感情認識(SER)における永続的課題の1つは、ユビキタス環境騒音であり、実用上はSERの性能が低下することが多い。 本稿では,この課題に対処するため,TRNetと呼ばれる2レベルリファインメントネットワークを提案する。 具体的には、事前訓練された音声強調モジュールを用いて、フロントエンド雑音の低減と雑音レベルの推定を行う。 その後、クリーン音声スペクトログラムとその対応する深部表現を参照信号として利用し、モデル学習時のスペクトル歪みと強調音声の表現シフトを洗練させる。 提案したTRNetは, クリーン環境における性能を損なうことなく, 一致した環境と一致しない環境の両方において, システムの堅牢性を大幅に向上することを確認した。

One persistent challenge in Speech Emotion Recognition (SER) is the ubiquitous environmental noise, which frequently results in diminished SER performance in practical use. In this paper, we introduce a Two-level Refinement Network, dubbed TRNet, to address this challenge. Specifically, a pre-trained speech enhancement module is employed for front-end noise reduction and noise level estimation. Later, we utilize clean speech spectrograms and their corresponding deep representations as reference signals to refine the spectrogram distortion and representation shift of enhanced speech during model training. Experimental results validate that the proposed TRNet substantially increases the system's robustness in both matched and unmatched noisy environments, without compromising its performance in clean environments.
翻訳日:2024-04-22 14:26:33 公開日:2024-04-19
# プライベートエージェントに基づくモデリング

Private Agent-Based Modeling ( http://arxiv.org/abs/2404.12983v1 )

ライセンス: Link先を確認
Ayush Chopra, Arnau Quera-Bofarull, Nurullah Giray-Kuru, Michael Wooldridge, Ramesh Raskar, (参考訳) 意思決定におけるエージェントベースのモデルの実用性は、実世界のデータストリームをシームレスに統合しながら、人口を正確に再現する能力に依存している。 しかし、そのようなデータを組み込むことは、プライバシー上の懸念から大きな課題を生んでいる。 この問題に対処するために,エージェント属性やインタラクションを集中化せずにエージェントモデルシミュレーション,キャリブレーション,解析を行う,プライベートエージェントベースモデリングのパラダイムを導入する。 キーとなる洞察は、セキュアなマルチパーティ計算からエージェントベースのモデルにおける分散計算のためのプロトコル設計まで、技術を活用することである。 これによりシミュレーション精度を損なうことなくシミュレーションエージェントの機密性が保証される。 本稿では,15万件以上の薬剤からなる疫学シミュレーションを応用したケーススタディについて紹介する。 これはエージェントベースのモデルを現実世界のアプリケーションにデプロイするための重要なステップだと考えています。

The practical utility of agent-based models in decision-making relies on their capacity to accurately replicate populations while seamlessly integrating real-world data streams. Yet, the incorporation of such data poses significant challenges due to privacy concerns. To address this issue, we introduce a paradigm for private agent-based modeling wherein the simulation, calibration, and analysis of agent-based models can be achieved without centralizing the agents attributes or interactions. The key insight is to leverage techniques from secure multi-party computation to design protocols for decentralized computation in agent-based models. This ensures the confidentiality of the simulated agents without compromising on simulation accuracy. We showcase our protocols on a case study with an epidemiological simulation comprising over 150,000 agents. We believe this is a critical step towards deploying agent-based models to real-world applications.
翻訳日:2024-04-22 14:26:33 公開日:2024-04-19
# 複合現実感における視線追跡による神経変性疾患の診断

Eye-tracking in Mixed Reality for Diagnosis of Neurodegenerative Diseases ( http://arxiv.org/abs/2404.12984v1 )

ライセンス: Link先を確認
Mateusz Daniol, Daria Hemmerling, Jakub Sikora, Pawel Jemiolo, Marek Wodzinski, Magdalena Wojcik-Pedziwiatr, (参考訳) パーキンソン病は世界で2番目に多い神経変性疾患である。 本研究の目的は、眼球運動の追跡・評価にMixed Reality機能を活用するシステムを開発することである。 本稿では、神経変性疾患評価のためのMixed Reality技術を用いて、視線追跡信号を捕捉するアプリケーションの開発について概説する。 さらに,眼球分析から臨床的に関連性のある特徴を抽出するパイプラインを導入し,医療的な観点から提案システムの有用性について述べる。 この研究は、パーキンソン病に苦しむ健常者や患者のコホートを巻き込み、神経変性疾患の診断のための眼球運動パターンの非侵襲的モニタリング技術の可能性と可能性を示した。 臨床関連性 - パーキンソン病の発症を正確に検出するためには、パーキンソン病の非侵襲的バイオマーカーの開発が急務である。 これにより、早期に神経保護治療をタイムリーに導入し、介入結果の継続的なモニタリングが可能になる。 眼球運動の微妙な変化を検出する能力は早期診断を可能にし、より顕著な症状が現れる前に介入のための重要な窓を提供する。 視線追跡は客観的かつ定量なバイオマーカーを提供し、疾患の進行と認知機能の信頼性を保証する。 Mixed Reality メガネを用いた視線分析は,家庭と病院の両方で便利な評価を行う上で有用である。 このアプローチは、追加の特別なアタッチメントを必要としないハードウェアを活用する利点を提供し、個人用アイウェアによる検査を可能にする。

Parkinson's disease ranks as the second most prevalent neurodegenerative disorder globally. This research aims to develop a system leveraging Mixed Reality capabilities for tracking and assessing eye movements. In this paper, we present a medical scenario and outline the development of an application designed to capture eye-tracking signals through Mixed Reality technology for the evaluation of neurodegenerative diseases. Additionally, we introduce a pipeline for extracting clinically relevant features from eye-gaze analysis, describing the capabilities of the proposed system from a medical perspective. The study involved a cohort of healthy control individuals and patients suffering from Parkinson's disease, showcasing the feasibility and potential of the proposed technology for non-intrusive monitoring of eye movement patterns for the diagnosis of neurodegenerative diseases. Clinical relevance - Developing a non-invasive biomarker for Parkinson's disease is urgently needed to accurately detect the disease's onset. This would allow for the timely introduction of neuroprotective treatment at the earliest stage and enable the continuous monitoring of intervention outcomes. The ability to detect subtle changes in eye movements allows for early diagnosis, offering a critical window for intervention before more pronounced symptoms emerge. Eye tracking provides objective and quantifiable biomarkers, ensuring reliable assessments of disease progression and cognitive function. The eye gaze analysis using Mixed Reality glasses is wireless, facilitating convenient assessments in both home and hospital settings. The approach offers the advantage of utilizing hardware that requires no additional specialized attachments, enabling examinations through personal eyewear.
翻訳日:2024-04-22 14:26:33 公開日:2024-04-19
# 三重U-NetアーキテクチャによるH&E染色組織像の核インスタンス分割

Nuclei Instance Segmentation of Cryosectioned H&E Stained Histological Images using Triple U-Net Architecture ( http://arxiv.org/abs/2404.12986v1 )

ライセンス: Link先を確認
Zarif Ahmed, Chowdhury Nur E Alam Siddiqi, Fardifa Fathmiul Alam, Tasnim Ahmed, Tareque Mohmud Chowdhury, (参考訳) 核インスタンスセグメンテーションは腫瘍診断と癌病理研究において重要である。 H&E染色画像は一般的に診断に使用されるが、画像処理に使用するには前処理が必要である。 2つの主要な前処理方法は、ホルマリン固定パラフィン埋め込みサンプル(FFPE)と凍結組織サンプル(FS)である。 FFPEは広く使われているが、時間がかかり、FSサンプルは迅速に処理できる。 高速試料調製、染色、走査から得られたH&E染色画像を解析することは、迅速化による困難を生じさせ、画質の劣化を招く可能性がある。 本稿では,H&E染色画像のユニークな光学特性を活用する手法を提案する。 3分岐のU-Netアーキテクチャが実装され、各ブランチが最終的なセグメンテーション結果に寄与する。 このプロセスは、オーバーラップする領域を分離し、精度を高めるために、流域アルゴリズムを適用することを含む。 Triple U-Netアーキテクチャは、RGBブランチ、ヘマトキシリンブランチ、セグメンテーションブランチを含む。 本研究はCryoNuSegという新しいデータセットに焦点を当てる。 その結果、ロバストな実験によって得られた結果は、様々な指標で最先端の結果を上回った。 このデータセットのベンチマークスコアは、U-Net Architectureの実装によって達成されたAJI 52.5とPQ 47.7である。 しかし、提案されたトリプルU-Netアーキテクチャは、AJIスコア67.41、PQ50.56を達成している。 提案したアーキテクチャは他の評価指標よりもAJIの方が優れており、AJIはより厳密な評価基準であるため、ベースラインのU-NetモデルよりもトリプルなU-Netアーキテクチャの優位性をさらに正当化する。 3分岐U-Netモデルの使用と水洗後処理は、ベンチマークスコアを大幅に上回り、AJIスコアを大幅に改善した。

Nuclei instance segmentation is crucial in oncological diagnosis and cancer pathology research. H&E stained images are commonly used for medical diagnosis, but pre-processing is necessary before using them for image processing tasks. Two principal pre-processing methods are formalin-fixed paraffin-embedded samples (FFPE) and frozen tissue samples (FS). While FFPE is widely used, it is time-consuming, while FS samples can be processed quickly. Analyzing H&E stained images derived from fast sample preparation, staining, and scanning can pose difficulties due to the swift process, which can result in the degradation of image quality. This paper proposes a method that leverages the unique optical characteristics of H&E stained images. A three-branch U-Net architecture has been implemented, where each branch contributes to the final segmentation results. The process includes applying watershed algorithm to separate overlapping regions and enhance accuracy. The Triple U-Net architecture comprises an RGB branch, a Hematoxylin branch, and a Segmentation branch. This study focuses on a novel dataset named CryoNuSeg. The results obtained through robust experiments outperform the state-of-the-art results across various metrics. The benchmark score for this dataset is AJI 52.5 and PQ 47.7, achieved through the implementation of U-Net Architecture. However, the proposed Triple U-Net architecture achieves an AJI score of 67.41 and PQ of 50.56. The proposed architecture improves more on AJI than other evaluation metrics, which further justifies the superiority of the Triple U-Net architecture over the baseline U-Net model, as AJI is a more strict evaluation metric. The use of the three-branch U-Net model, followed by watershed post-processing, significantly surpasses the benchmark scores, showing substantial improvement in the AJI score
翻訳日:2024-04-22 14:26:33 公開日:2024-04-19
# 多臨界乱れイジングモデルにおける量子絡み合い

Quantum entanglement in the multicritical disordered Ising model ( http://arxiv.org/abs/2404.12990v1 )

ライセンス: Link先を確認
István Kovács, (参考訳) ここで、絡み合いエントロピーは、ランダム横フィールドイジングモデル(RTIM)の量子多臨界点で計算される。 本研究では,2種類の障害に対して,2次元と3次元の強い障害再正規化群法を効果的に実装する。 立方体部分系に対して、障害の形式とは無関係な領域法則 b*ln(l) への普遍対数的コーナー寄与を求める。 この結果は,RTIMの量子臨界点において定性的に一致するが,幾何学的および量子的ゆらぎの両面から,新しいbプレファクターを持つ。 多臨界点近傍の研究により、角の寄与が「絡み合い感受性」として機能し、位相遷移の特定と相関長臨界指数の測定に有用であることを示す。

Here, the entanglement entropy is calculated at the quantum multicritical point of the random transverse-field Ising model (RTIM). We use an efficient implementation of the strong disorder renormalization group method in two and three dimensions for two types of disorder. For cubic subsystems we find a universal logarithmic corner contribution to the area law b*ln(l) that is independent of the form of disorder. Our results agree qualitatively with those at the quantum critical points of the RTIM, but with new b prefactors due to having both geometric and quantum fluctuations at play. By studying the vicinity of the multicritical point, we demonstrate that the corner contribution serves as an `entanglement susceptibility', a useful tool to locate the phase transition and to measure the correlation length critical exponents.
翻訳日:2024-04-22 14:26:33 公開日:2024-04-19
# RedactBuster: ドキュメントからエンティティの型認識

RedactBuster: Entity Type Recognition from Redacted Documents ( http://arxiv.org/abs/2404.12991v1 )

ライセンス: Link先を確認
Mirco Beltrame, Mauro Conti, Pierpaolo Guglielmin, Francesco Marchiori, Gabriele Orazi, (参考訳) 諸藩におけるデジタル文書の交流が広まり、多くの個人情報が共有されるようになった。 この増殖は、機密性の高いコンテンツとユーザのプライバシーを保護するために、再作用技術を必要とする。 多くのリアクション法が存在するが、その効果は様々であり、いくつかは他の方法よりも堅牢であることを示すものもある。 このように、文献はいくつかの匿名化手法を提案し、潜在的なプライバシーの脅威に対する認識を高めている。 しかしながら、これらの手法はどれも最も効果的なリアクション手法に対して成功していないが、これらの攻撃は匿名化トークンにのみ焦点をあて、文コンテキストを無視する。 本稿では、文コンテキストを用いた最初の匿名化モデルであるRedactBusterを提案し、反応テキスト上で名前付きエンティティ認識を行う。 本手法は,文書中の匿名化されたエンティティタイプを決定するために,最先端のトランスフォーマーとディープラーニングモデルを活用する。 我々はRedactBusterを最も効果的なリアクション技術に対してテストし、公開されているText Anonymization Benchmark (TAB)を用いて評価する。 その結果,文書の性質やエンティティタイプに関わらず,最大0.985の精度が得られた。 本稿では,このプライバシー問題に対する意識を高めるために,機密情報の機密性を高めるための文字回避対策を提案する。 さらに,新たなリアクション手法のレジリエンスを評価し,文書のプライバシを向上させる上で,研究者や実践者を支援するために,我々のモデルとテストベッドをオープンソースにしている。

The widespread exchange of digital documents in various domains has resulted in abundant private information being shared. This proliferation necessitates redaction techniques to protect sensitive content and user privacy. While numerous redaction methods exist, their effectiveness varies, with some proving more robust than others. As such, the literature proposes several deanonymization techniques, raising awareness of potential privacy threats. However, while none of these methods are successful against the most effective redaction techniques, these attacks only focus on the anonymized tokens and ignore the sentence context. In this paper, we propose RedactBuster, the first deanonymization model using sentence context to perform Named Entity Recognition on reacted text. Our methodology leverages fine-tuned state-of-the-art Transformers and Deep Learning models to determine the anonymized entity types in a document. We test RedactBuster against the most effective redaction technique and evaluate it using the publicly available Text Anonymization Benchmark (TAB). Our results show accuracy values up to 0.985 regardless of the document nature or entity type. In raising awareness of this privacy issue, we propose a countermeasure we call character evasion that helps strengthen the secrecy of sensitive information. Furthermore, we make our model and testbed open-source to aid researchers and practitioners in evaluating the resilience of novel redaction techniques and enhancing document privacy.
翻訳日:2024-04-22 14:26:33 公開日:2024-04-19
# 対話システムの評価を再考する: ユーザフィードバックがクラウドワーカーとLLMに与える影響

Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs ( http://arxiv.org/abs/2404.12994v1 )

ライセンス: Link先を確認
Clemencia Siro, Mohammad Aliannejadi, Maarten de Rijke, (参考訳) アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。 対話的な環境では、このような信号は通常、相互作用の性質のため利用できなくなり、代わりに、評価はクラウドソースによる評価ラベルに依存することが多い。 アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。 本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザのフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。 TDSを評価するための2つの手法を探索し、比較する: 1つはユーザのフォローアップ発話を含み、もう1つは無関係である。 クラウドワーカーと大規模言語モデル(LLM)の両方をアノテータとして使用し、関連性、有用性、面白さ、説明品質の4つの側面にわたるシステム応答を評価する。 以上の結果から,アノテータ群とアノテータ群がアノテータ群にアノテータを割り当てた場合,ユーザのフィードバックがシステム評価に影響を与えることが示唆された。 労働者は、ユーザからのフィードバックによる有用性や面白さに対する感受性が、興味深いことや関連性に関するLLMよりも高い。 ユーザからのフィードバックは、作業者による有用性のよりパーソナライズされた評価をもたらし、ユーザの明示的なフィードバックと密接に一致します。 さらに、曖昧なユーザリクエストや複雑なユーザリクエストの場合、ユーザフィードバックは、クラウドワーカー間の合意を改善します。 これらの知見は,システム評価におけるユーザフィードバックの重要性を強調し,今後の研究における自動フィードバック統合の可能性を提案する。 この分野での研究を促進するために、アノテーション付きデータを公開しています。

In ad-hoc retrieval, evaluation relies heavily on user actions, including implicit feedback. In a conversational setting such signals are usually unavailable due to the nature of the interactions, and, instead, the evaluation often relies on crowdsourced evaluation labels. The role of user feedback in annotators' assessment of turns in a conversational perception has been little studied. We focus on how the evaluation of task-oriented dialogue systems (TDSs), is affected by considering user feedback, explicit or implicit, as provided through the follow-up utterance of a turn being evaluated. We explore and compare two methodologies for assessing TDSs: one includes the user's follow-up utterance and one without. We use both crowdworkers and large language models (LLMs) as annotators to assess system responses across four aspects: relevance, usefulness, interestingness, and explanation quality. Our findings indicate that there is a distinct difference in ratings assigned by both annotator groups in the two setups, indicating user feedback does influence system evaluation. Workers are more susceptible to user feedback on usefulness and interestingness compared to LLMs on interestingness and relevance. User feedback leads to a more personalized assessment of usefulness by workers, aligning closely with the user's explicit feedback. Additionally, in cases of ambiguous or complex user requests, user feedback improves agreement among crowdworkers. These findings emphasize the significance of user feedback in refining system evaluations and suggest the potential for automated feedback integration in future research. We publicly release the annotated data to foster research in this area.
翻訳日:2024-04-22 14:26:33 公開日:2024-04-19
# ゴールコンディション強化学習のための適応スキル分布によるゴール探索

Goal Exploration via Adaptive Skill Distribution for Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2404.12999v1 )

ライセンス: Link先を確認
Lisheng Wu, Ke Chen, (参考訳) 探索効率はゴール条件強化学習(GCRL)タスク、特に長い地平線とまばらな報酬を持つタスクにおいて大きな課題となる。 探索効率に対する主な制限は、エージェントが環境構造パターンを活用できないことである。 本研究では,学習過程における適応的なスキル分布を通して,これらのパターンをキャプチャする新しいフレームワークであるGAASDを提案する。 この分布は、達成されたゴールの局所的なエントロピーを文脈的水平線内で最適化し、ゴールスレッディングの振る舞いを強化し、よく知られた構造パターンを含む状態の深い探索を容易にする。 本実験により, 適応的スキル分布を用いた探索効率は, 均一なスキル分布と比較して著しく向上した。 さらに、学習したスキル分布は、ロバストな一般化能力を示し、類似の局所構造を含む見知らぬタスクにおいて、実質的な探索の進歩を達成する。

Exploration efficiency poses a significant challenge in goal-conditioned reinforcement learning (GCRL) tasks, particularly those with long horizons and sparse rewards. A primary limitation to exploration efficiency is the agent's inability to leverage environmental structural patterns. In this study, we introduce a novel framework, GEASD, designed to capture these patterns through an adaptive skill distribution during the learning process. This distribution optimizes the local entropy of achieved goals within a contextual horizon, enhancing goal-spreading behaviors and facilitating deep exploration in states containing familiar structural patterns. Our experiments reveal marked improvements in exploration efficiency using the adaptive skill distribution compared to a uniform skill distribution. Additionally, the learned skill distribution demonstrates robust generalization capabilities, achieving substantial exploration progress in unseen tasks containing similar local structures.
翻訳日:2024-04-22 14:26:33 公開日:2024-04-19
# RadRotator:拡散モデルによるラジオグラフィの3次元回転

RadRotator: 3D Rotation of Radiographs with Diffusion Models ( http://arxiv.org/abs/2404.13000v1 )

ライセンス: Link先を確認
Pouria Rouzrokh, Bardia Khosravi, Shahriar Faghani, Kellen L. Mulford, Michael J. Taunton, Bradley J. Erickson, Cody C. Wyles, (参考訳) 2次元(2次元)画像を3次元(3次元)に変換することは、コンピュータビジョンコミュニティにとってよく知られているが難しい問題である。 医学領域では、2つ以上の入力されたX線写真からCT(Computerd tomography)ボリュームへの変換が試みられた。 これらの取り組みに続いて、3次元空間における任意の入力ラジオグラフィーの解剖学的内容の回転を可能にする拡散モデルに基づく技術を導入し、3次元空間におけるあらゆる視点から、前記ラジオグラフィーの全解剖学的内容の可視化を可能にする可能性がある。 従来の研究と同様に、我々はCTボリュームを用いてデジタル再構成ラジオグラフィー(DRR)をモデルのトレーニングデータとして作成しました。 しかし、過去の研究で遭遇した2つの重大な限界に対処した。 1.我々は、GAN(Generative Adversarial Networks)の代わりに、条件付き拡散モデルを用いて、より高いモードカバレッジを実現し、出力画像の品質を向上させる。 2) 実線をDRRに転送するCycle-GANのようなDLモデルの信頼性の低い出力は, 入力画像の画素強度ヒストグラムをランダムに変化させる単純なトレーニング変換に置き換えることが実証された。 この変換により、拡散モデルは入力データ画素強度の分布変動に依存せず、入力されたDRR上でDLモデルの信頼できるトレーニングを可能にし、推論中に従来のラジオグラフ(またはDRR)に全く同じモデルを適用することができる。

Transforming two-dimensional (2D) images into three-dimensional (3D) volumes is a well-known yet challenging problem for the computer vision community. In the medical domain, a few previous studies attempted to convert two or more input radiographs into computed tomography (CT) volumes. Following their effort, we introduce a diffusion model-based technology that can rotate the anatomical content of any input radiograph in 3D space, potentially enabling the visualization of the entire anatomical content of the radiograph from any viewpoint in 3D. Similar to previous studies, we used CT volumes to create Digitally Reconstructed Radiographs (DRRs) as the training data for our model. However, we addressed two significant limitations encountered in previous studies: 1. We utilized conditional diffusion models with classifier-free guidance instead of Generative Adversarial Networks (GANs) to achieve higher mode coverage and improved output image quality, with the only trade-off being slower inference time, which is often less critical in medical applications; and 2. We demonstrated that the unreliable output of style transfer deep learning (DL) models, such as Cycle-GAN, to transfer the style of actual radiographs to DRRs could be replaced with a simple yet effective training transformation that randomly changes the pixel intensity histograms of the input and ground-truth imaging data during training. This transformation makes the diffusion model agnostic to any distribution variations of the input data pixel intensity, enabling the reliable training of a DL model on input DRRs and applying the exact same model to conventional radiographs (or DRRs) during inference.
翻訳日:2024-04-22 14:26:33 公開日:2024-04-19
# 深層学習と等角予測を用いたロバスト鉄スラップ材料分類に向けて

Towards Robust Ferrous Scrap Material Classification with Deep Learning and Conformal Prediction ( http://arxiv.org/abs/2404.13002v1 )

ライセンス: Link先を確認
Paulo Henrique dos Santos, Valéria de Carvalho Santos, Eduardo José da Silva Luz, (参考訳) 鉄鋼生産領域では、エネルギー消費と温室効果ガスの排出を減少させるため、環境と経済の持続可能性にとって、鉄スクラップのリサイクルが不可欠である。 しかし, スクラップ素材の分類は, 自動化技術の進歩を必要とする重要な課題となっている。 加えて、人間オペレーター間の信頼を構築することが大きな障害である。 従来のアプローチは、不確実性を定量化し、受け入れを複雑にするモデル決定の明確さを欠いていることが多い。 本稿では, 不確実性を定量化し, スクラップ分類にロバスト性を加えるために, 共形予測を用いる方法について述べる。 我々は,視覚変換器(ViT)やスウィン変換器(Swin Transformer)、ResNet-50といった最先端のコンピュータビジョンモデルとシームレスに統合するために,Split Conformal Prediction技術を適用した。 提案手法は,9つの鉄スクラップクラスにまたがる8147画像の包括的データセットを用いて評価する。 Split Conformal Prediction法の適用により、各モデルの不確かさの定量化が可能となり、予測の理解が向上し、結果の信頼性が向上した。 特に、Swin Transformerモデルは他のモデルよりも信頼性の高い結果を示し、予測セットの平均サイズが小さく、平均分類精度が95%を超えることが証明された。 さらに、Score-CAM法は視覚的特徴の明確化に極めて有効であることが証明され、分類決定の妥当性が著しく向上した。

In the steel production domain, recycling ferrous scrap is essential for environmental and economic sustainability, as it reduces both energy consumption and greenhouse gas emissions. However, the classification of scrap materials poses a significant challenge, requiring advancements in automation technology. Additionally, building trust among human operators is a major obstacle. Traditional approaches often fail to quantify uncertainty and lack clarity in model decision-making, which complicates acceptance. In this article, we describe how conformal prediction can be employed to quantify uncertainty and add robustness in scrap classification. We have adapted the Split Conformal Prediction technique to seamlessly integrate with state-of-the-art computer vision models, such as the Vision Transformer (ViT), Swin Transformer, and ResNet-50, while also incorporating Explainable Artificial Intelligence (XAI) methods. We evaluate the approach using a comprehensive dataset of 8147 images spanning nine ferrous scrap classes. The application of the Split Conformal Prediction method allowed for the quantification of each model's uncertainties, which enhanced the understanding of predictions and increased the reliability of the results. Specifically, the Swin Transformer model demonstrated more reliable outcomes than the others, as evidenced by its smaller average size of prediction sets and achieving an average classification accuracy exceeding 95%. Furthermore, the Score-CAM method proved highly effective in clarifying visual features, significantly enhancing the explainability of the classification decisions.
翻訳日:2024-04-22 14:26:33 公開日:2024-04-19
# FinLangNet:金融データにおける言語分析を用いた信用リスク予測のための新しいディープラーニングフレームワーク

FinLangNet: A Novel Deep Learning Framework for Credit Risk Prediction Using Linguistic Analogy in Financial Data ( http://arxiv.org/abs/2404.13004v1 )

ライセンス: Link先を確認
Yu Lei, Zixuan Wang, Chu Liu, Tongyao Wang, Dongyang Lee, (参考訳) リスク予測の最近の産業応用は、手動で調整された統計的学習手法に大きく依存している。 現実世界の財務データは、その高次元性、空間性、高騒音レベル、および大きな不均衡によって特徴づけられるが、ディープニューラルネットワークモデルの効果的な適用にはユニークな課題が生じる。 本研究では,言語構造を反映した構造において,信用融資の軌跡を概念化する新たなディープラーニングリスク予測フレームワークFinLangNetを紹介する。 このフレームワークは、自然言語処理技術を適用して、言語の構造的類似性に基づいて、現実世界の財務データを用いた信用リスク予測に最適化されている。 金融イベントの詳細なシーケンスを通して、クレジット履歴の進化と予測可能性を分析することに焦点を当てている。 本研究は、FinLangNetが信用リスク予測における従来の統計手法を超越し、クレジットカード不正予測モデルを強化し、コルモゴロフ・スミルノフ計量において1.5点以上の大幅な改善を実現していることを示す。

Recent industrial applications in risk prediction still heavily rely on extensively manually-tuned, statistical learning methods. Real-world financial data, characterized by its high-dimensionality, sparsity, high noise levels, and significant imbalance, poses unique challenges for the effective application of deep neural network models. In this work, we introduce a novel deep learning risk prediction framework, FinLangNet, which conceptualizes credit loan trajectories in a structure that mirrors linguistic constructs. This framework is tailored for credit risk prediction using real-world financial data, drawing on structural similarities to language by adapting natural language processing techniques. It focuses on analyzing the evolution and predictability of credit histories through detailed financial event sequences. Our research demonstrates that FinLangNet surpasses traditional statistical methods in predicting credit risk and that its integration with these methods enhances credit card fraud prediction models, achieving a significant improvement of over 1.5 points in the Kolmogorov-Smirnov metric.
翻訳日:2024-04-22 14:16:48 公開日:2024-04-19
# 長距離接続中性原子レジスタのための高速量子LDPC符号

High-rate quantum LDPC codes for long-range-connected neutral atom registers ( http://arxiv.org/abs/2404.13010v1 )

ライセンス: Link先を確認
Laura Pecorari, Sven Jandura, Gavin K. Brennen, Guido Pupillo, (参考訳) 量子ビット数と制御複雑性の緩やかなオーバーヘッドを持つ高速量子誤り訂正(QEC)符号は、フォールトトレラント量子コンピューティングを達成するために非常に望ましい。 近年、量子誤り訂正は、コード開発と実験的な実現の両方において大きな進歩を遂げており、中性原子量子ビットアーキテクチャは、この分野の先駆的なプラットフォームとして急速に確立されている。 スケーラブルな量子コンピューティングは、量子ビットオーバーヘッドが低く、エラーの抑制が大きいQEC符号による処理を必要とし、そのような符号は存在するが、実験プラットフォームにはまだ組み込まれていない程度の非局所性を含んでいる。 本研究では,高レートの低密度パリティ・チェック(LDPC)符号群の解析を行い,中性原子レジスタの短期実装について概説する。 回路レベルのシミュレーションにより、2量子近接ゲート誤差確率が$\sim 0.1\%$以下である場合、これらの符号は全ての点で表面符号より優れることがわかった。 本稿では、これらのコードを2次元の静的な中性原子量子ビットアーキテクチャにネイティブに統合し、Rydberg-Blockade相互作用によって所望の長距離接続をターゲットとすることができることを示す。 我々のプロトコルは、異なる原子間距離で異なるRydberg状態への遷移を可能にするために、複数のレーザー色のみを必要とする。

High-rate quantum error correcting (QEC) codes with moderate overheads in qubit number and control complexity are highly desirable for achieving fault-tolerant quantum computing. Recently, quantum error correction has experienced significant progress both in code development and experimental realizations, with neutral atom qubit architecture rapidly establishing itself as a leading platform in the field. Scalable quantum computing will require processing with QEC codes that have low qubit overhead and large error suppression, and while such codes do exist, they involve a degree of non-locality that has yet to be integrated into experimental platforms. In this work, we analyze a family of high-rate Low-Density Parity-Check (LDPC) codes with limited long-range interactions and outline a near-term implementation in neutral atom registers. By means of circuit-level simulations, we find that these codes outperform surface codes in all respects when the two-qubit nearest neighbour gate error probability is below $\sim 0.1\%$. We show how these codes can be natively integrated in two-dimensional static neutral atom qubit architectures with open boundaries, where the desired long-range connectivity can be targeted via Rydberg-blockade interaction. Our protocol solely requires multiple laser colors to enable transitions to different Rydberg states for different interatomic distances.
翻訳日:2024-04-22 14:16:48 公開日:2024-04-19
# Groma: マルチモーダル大規模言語モデルのための局所的な視覚的トークン化

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models ( http://arxiv.org/abs/2404.13013v1 )

ライセンス: Link先を確認
Chuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi, (参考訳) 本稿では,マルチモーダル大規模言語モデル(MLLM)であるGromaを紹介する。 全体像理解以外にも、Gromaは領域キャプションや視覚的接地といった領域レベルのタスクに長けている。 このような機能は、画像入力を興味のある領域に分解し、その後、領域トークンにエンコードする、ローカライズされた視覚トークン化機構上に構築されている。 ユーザ命令とモデル応答にリージョントークンを統合することで、Gromaがユーザ指定のリージョン入力を理解して、そのテキスト出力を画像に根拠付けることができる。 また,Gromaのグラウンドドチャット能力を高めるために,強力なGPT-4Vと視覚的プロンプト技術を活用して,視覚的グラウンドド・インストラクション・データセットをキュレートする。 ローカライズのための言語モデルや外部モジュールに依存するMLLMと比較して、Gromaは標準参照とグラウンド化ベンチマークにおいて優れたパフォーマンスを示し、ローカライズをイメージトークン化に埋め込むことの利点を強調している。 プロジェクトページ:https://groma-mllm.github.io/。

We introduce Groma, a Multimodal Large Language Model (MLLM) with grounded and fine-grained visual perception ability. Beyond holistic image understanding, Groma is adept at region-level tasks such as region captioning and visual grounding. Such capabilities are built upon a localized visual tokenization mechanism, where an image input is decomposed into regions of interest and subsequently encoded into region tokens. By integrating region tokens into user instructions and model responses, we seamlessly enable Groma to understand user-specified region inputs and ground its textual output to images. Besides, to enhance the grounded chat ability of Groma, we curate a visually grounded instruction dataset by leveraging the powerful GPT-4V and visual prompting techniques. Compared with MLLMs that rely on the language model or external module for localization, Groma consistently demonstrates superior performances in standard referring and grounding benchmarks, highlighting the advantages of embedding localization into image tokenization. Project page: https://groma-mllm.github.io/.
翻訳日:2024-04-22 14:16:48 公開日:2024-04-19
# 予測精度の把握による校正の最適化

Optimizing Calibration by Gaining Aware of Prediction Correctness ( http://arxiv.org/abs/2404.13016v1 )

ライセンス: Link先を確認
Yuchi Liu, Lei Wang, Yuli Zou, James Zou, Liang Zheng, (参考訳) モデルのキャリブレーションは、信頼性と予測の正しさを一致させることを目的としている。 クロスエントロピーCE(Cross-Entropy CE)の損失はキャリブレータトレーニングに広く使われており、基底真理クラスに対する信頼を高めるためにモデルを強制する。 しかし、CEの損失には固有の制限がある。 例えば、狭い誤分類の場合、CE損失によって訓練された校正器は、誤った予測されたクラス(例えば、テストサンプルが誤って分類され、地上の真理クラスにおけるソフトマックススコアが約0.4)に高い信頼をもたらすことがしばしばあり、これは望ましくない。 本稿では, キャリブレーションの目的から得られた, ポストホックキャリブレーションの新たなキャリブレーション手法を提案する。 直感的に、提案する目的関数は、キャリブレータが間違った予測されたサンプルに対するモデルの信頼性を低下させ、正しい予測されたサンプルに対する信頼性を高めることを要求する。 サンプル自体が正しさを示す能力が不足しているため、校正訓練中に変換されたバージョン(例えば、回転、グレースケール、カラージッタ)を使用する。 本手法は, 個別検体を用いて, 個別検体を用いて, 分布内および分布外検体上での競合校正性能を, 最先端検体と比較して評価した。 さらに,本手法とCE損失と平均二乗誤差損失との差が指摘され,後者は校正目的から逸脱することがある。

Model calibration aims to align confidence with prediction correctness. The Cross-Entropy CE) loss is widely used for calibrator training, which enforces the model to increase confidence on the ground truth class. However, we find the CE loss has intrinsic limitations. For example, for a narrow misclassification, a calibrator trained by the CE loss often produces high confidence on the wrongly predicted class (e.g., a test sample is wrongly classified and its softmax score on the ground truth class is around 0.4), which is undesirable. In this paper, we propose a new post-hoc calibration objective derived from the aim of calibration. Intuitively, the proposed objective function asks that the calibrator decrease model confidence on wrongly predicted samples and increase confidence on correctly predicted samples. Because a sample itself has insufficient ability to indicate correctness, we use its transformed versions (e.g., rotated, greyscaled and color-jittered) during calibrator training. Trained on an in-distribution validation set and tested with isolated, individual test samples, our method achieves competitive calibration performance on both in-distribution and out-of-distribution test sets compared with the state of the art. Further, our analysis points out the difference between our method and commonly used objectives such as CE loss and mean square error loss, where the latters sometimes deviates from the calibration aim.
翻訳日:2024-04-22 14:16:48 公開日:2024-04-19
# 文脈内学習のための強いランダムベースライン

Stronger Random Baselines for In-Context Learning ( http://arxiv.org/abs/2404.13020v1 )

ライセンス: Link先を確認
Gregory Yauney, David Mimno, (参考訳) 言語モデルの文脈内学習分類性能を評価することは、データセットのサイズが小さいこと、検証セットを用いた広範囲なプロンプト選択、ほぼランダムなパフォーマンスにつながる意図的なタスクによる課題を引き起こす。 標準ランダムベースラインは、評価セットが一度だけ使用される場合やデータセットが大きい場合、あるいは、ラベルをランダムに推測する予想精度が安定している。 検証セットの再利用の一般的な実践と、より強いランダムベースラインを持つ既存の小さなデータセット、すなわち、複数のランダム分類器にまたがる最大精度について説明する。 16のBIG-bench Liteタスクに適用された6つの量子化言語モデルに対して、最も優れたプロンプトのデモを選択すると、標準ベースラインを超える数ショット結果の20%以上は、この強いランダムベースラインを超えない。 ホールドアウトテストセットが利用可能であれば、この強力なベースラインは標準ベースラインよりもホールドアウトパフォーマンスの予測器として優れ、不要なテストセットの評価を避けることができる。 この最大ランダムベースラインは、標準ベースラインの容易に計算されたドロップイン置換を提供する。

Evaluating the in-context learning classification performance of language models poses challenges due to small dataset sizes, extensive prompt-selection using the validation set, and intentionally difficult tasks that lead to near-random performance. The standard random baseline -- the expected accuracy of guessing labels uniformly at random -- is stable when the evaluation set is used only once or when the dataset is large. We account for the common practice of validation set reuse and existing small datasets with a stronger random baseline: the expected maximum accuracy across multiple random classifiers. When choosing the best prompt demonstrations across six quantized language models applied to 16 BIG-bench Lite tasks, more than 20\% of the few-shot results that exceed the standard baseline do not exceed this stronger random baseline. When held-out test sets are available, this stronger baseline is also a better predictor of held-out performance than the standard baseline, avoiding unnecessary test set evaluations. This maximum random baseline provides an easily calculated drop-in replacement for the standard baseline.
翻訳日:2024-04-22 14:16:48 公開日:2024-04-19
# 詳細再構成のための帯域制限ニューラルネットワークBANF

BANF: Band-limited Neural Fields for Levels of Detail Reconstruction ( http://arxiv.org/abs/2404.13024v1 )

ライセンス: Link先を確認
Ahan Shabanov, Shrisudhan Govindarajan, Cody Reading, Lily Goli, Daniel Rebain, Kwang Moo Yi, Andrea Tagliasacchi, (参考訳) 主に暗黙的な性質のため、離散信号処理からのフーリエ解析はこれらの表現に直接適用されないため、ニューラルネットワークはフィルタリングの直接的なメカニズムを欠いている。 ニューラルネットワークの効果的なフィルタリングは、下流アプリケーションでのレベル・オブ・ディーテール処理を可能にするために重要であり、通常のグリッド(例えばマーチングキューブ)上のフィールドをサンプリングする処理をサポートする。 周波数領域におけるニューラルフィールドを分解しようとする既存の方法は、ヒューリスティックスを利用するか、あるいはニューラルフィールドアーキテクチャに広範な修正を必要とする。 簡単な修正により、低域通過フィルタのニューラルネットワークが得られることを示すとともに、これをどのように利用して信号全体の周波数分解を得ることができるかを示す。 本研究では,提案手法の妥当性について検討し,粗い表現を効果的に計算する方法を示す。

Largely due to their implicit nature, neural fields lack a direct mechanism for filtering, as Fourier analysis from discrete signal processing is not directly applicable to these representations. Effective filtering of neural fields is critical to enable level-of-detail processing in downstream applications, and support operations that involve sampling the field on regular grids (e.g. marching cubes). Existing methods that attempt to decompose neural fields in the frequency domain either resort to heuristics or require extensive modifications to the neural field architecture. We show that via a simple modification, one can obtain neural fields that are low-pass filtered, and in turn show how this can be exploited to obtain a frequency decomposition of the entire signal. We demonstrate the validity of our technique by investigating level-of-detail reconstruction, and showing how coarser representations can be computed effectively.
翻訳日:2024-04-22 14:16:48 公開日:2024-04-19
# PhysDreamer:ビデオ生成による物理と3Dオブジェクトのインタラクション

PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation ( http://arxiv.org/abs/2404.13026v1 )

ライセンス: Link先を確認
Tianyuan Zhang, Hong-Xing Yu, Rundi Wu, Brandon Y. Feng, Changxi Zheng, Noah Snavely, Jiajun Wu, William T. Freeman, (参考訳) 現実的な物体の相互作用は没入型仮想体験を作るには不可欠であるが、新しい相互作用に対応するために現実的な3Dオブジェクトのダイナミクスを合成することは大きな課題である。 非条件やテキスト条件のダイナミックス生成とは異なり、アクション条件付きダイナミクスはオブジェクトの物理的物質特性を知覚し、オブジェクトの剛性のようなこれらの特性に基づいて3Dの運動予測を行う必要がある。 しかし, 実物に対してこれらの特性を測定することは極めて困難であるため, 物質的地絡データの欠如により, 物質的特性の推定はオープンな問題である。 本稿では、静的な3次元オブジェクトにインタラクティブなダイナミクスを付与する物理ベースのアプローチであるPhysDreamerを提案する。 これらの前駆体を蒸留することにより、PhysDreamerは外部力やエージェント操作のような新しい相互作用に対する現実的なオブジェクト応答を合成することができる。 本研究では, 弾性物体の多種多様な例に対するアプローチを実証し, ユーザスタディを通じて合成された相互作用の現実性を評価する。 PhysDreamerは、静的な3Dオブジェクトが物理的に妥当な方法でインタラクティブな刺激に動的に反応できるようにすることによって、より魅力的でリアルな仮想体験へと一歩前進する。 プロジェクトページはhttps://physdreamer.github.io/にある。

Realistic object interactions are crucial for creating immersive virtual experiences, yet synthesizing realistic 3D object dynamics in response to novel interactions remains a significant challenge. Unlike unconditional or text-conditioned dynamics generation, action-conditioned dynamics requires perceiving the physical material properties of objects and grounding the 3D motion prediction on these properties, such as object stiffness. However, estimating physical material properties is an open problem due to the lack of material ground-truth data, as measuring these properties for real objects is highly difficult. We present PhysDreamer, a physics-based approach that endows static 3D objects with interactive dynamics by leveraging the object dynamics priors learned by video generation models. By distilling these priors, PhysDreamer enables the synthesis of realistic object responses to novel interactions, such as external forces or agent manipulations. We demonstrate our approach on diverse examples of elastic objects and evaluate the realism of the synthesized interactions through a user study. PhysDreamer takes a step towards more engaging and realistic virtual experiences by enabling static 3D objects to dynamically respond to interactive stimuli in a physically plausible manner. See our project page at https://physdreamer.github.io/.
翻訳日:2024-04-22 14:16:48 公開日:2024-04-19
# 人生がLLMを与えるとき、LLM-ADEを作る: 適応データ工学を伴う大規模言語モデル

When Life gives you LLMs, make LLM-ADE: Large Language Models with Adaptive Data Engineering ( http://arxiv.org/abs/2404.13028v1 )

ライセンス: Link先を確認
Stephen Choi, William Gazeley, (参考訳) 本稿では,大規模言語モデル(LLM)の継続事前学習のための新しい方法論であるLLM-ADEフレームワークについて述べる。 LLM-ADEは、特定のデータセットに合わせて、選択的ブロック凍結と拡張を含む動的アーキテクチャ調整を採用している。 この戦略は、以前に獲得した知識を保持しながら、新しいデータへのモデル適応性を高める。 LLM-ADEによるTinyLlamaモデルの有効性を様々な一般知識ベンチマークで実証し,従来の連続学習手法の欠点を伴わずに大幅な性能向上を示した。 このアプローチは、現実のアプリケーションにおいてLLMを現在の状態と効率的な状態に保つために、より汎用的で堅牢な方法を約束する。

This paper presents the LLM-ADE framework, a novel methodology for continued pre-training of large language models (LLMs) that addresses the challenges of catastrophic forgetting and double descent. LLM-ADE employs dynamic architectural adjustments, including selective block freezing and expansion, tailored to specific datasets. This strategy enhances model adaptability to new data while preserving previously acquired knowledge. We demonstrate LLM-ADE's effectiveness on the TinyLlama model across various general knowledge benchmarks, showing significant performance improvements without the drawbacks of traditional continuous training methods. This approach promises a more versatile and robust way to keep LLMs current and efficient in real-world applications.
翻訳日:2024-04-22 14:16:48 公開日:2024-04-19
# サンプル・デザイン・エンジニアリング:LLMのダウンストリーム・ファイン・チューニング・サンプルの実証研究

Sample Design Engineering: An Empirical Study of What Makes Good Downstream Fine-Tuning Samples for LLMs ( http://arxiv.org/abs/2404.13033v1 )

ライセンス: Link先を確認
Biyang Guo, He Wang, Wenyilin Xiao, Hong Chen, Zhuxin Lee, Songqiao Han, Hailiang Huang, (参考訳) ChatGPTやLLaMAのような大型言語モデル(LLM)の急成長分野において、プロンプトエンジニアリング(PE)は、迅速な修正を通じてゼロショットまたはインコンテキスト学習(ICL)を促進することで有名である。 しかし、ダウンストリーム微調整のためのサンプル設計の領域は、タスク固有のLCM適応に欠かせないものであり、ほとんど探索されていない。 本稿では,LLMのインプット,アウトプット,および推論設計の洗練による後処理性能向上のための方法論的アプローチであるサンプル設計工学(SDE)を紹介する。 我々は、様々な設計オプションがLLMの下流性能に与える影響を評価するために、一連のドメイン内(ID)および外部(OOD)実験を行い、異なるLLM間で一貫して保持される興味深いパターンをいくつか明らかにした。 これらの知見に基づいて、最も効果的な選択肢を組み合わせた統合SDE戦略を提案し、マルチアスペクト感情分析、イベント抽出、ネストされたエンティティ認識といった複雑な下流タスクにおいて、ヒューリスティックなサンプル設計よりも一貫した優位性を検証した。 加えて、LLMs固有のプロンプト/アウトプットパープレキシティ、ゼロショット、ICL能力の分析は、優れたPE戦略が良いSDE戦略に必ずしも変換されないことを示している。 コードはhttps://github.com/beyondguo/LLM-Tuning.comで公開されている。

In the burgeoning field of Large Language Models (LLMs) like ChatGPT and LLaMA, Prompt Engineering (PE) is renowned for boosting zero-shot or in-context learning (ICL) through prompt modifications. Yet, the realm of the sample design for downstream fine-tuning, crucial for task-specific LLM adaptation, is largely unexplored. This paper introduces Sample Design Engineering (SDE), a methodical approach to enhancing LLMs' post-tuning performance by refining input, output, and reasoning designs. We conduct a series of in-domain (ID) and out-of-domain (OOD) experiments to assess the impact of various design options on LLMs' downstream performance, revealing several intriguing patterns that hold consistently across different LLMs. Based on these insights, we propose an integrated SDE strategy, combining the most effective options, and validate its consistent superiority over heuristic sample designs in complex downstream tasks like multi-aspect sentiment analysis, event extraction, and nested entity recognition. Additionally, analyses of LLMs' inherent prompt/output perplexity, zero-shot, and ICL abilities illustrate that good PE strategies may not always translate to good SDE strategies. Code available at https://github.com/beyondguo/LLM-Tuning.
翻訳日:2024-04-22 14:16:48 公開日:2024-04-19
# 社会選択論をRLHFにマッピングする

Mapping Social Choice Theory to RLHF ( http://arxiv.org/abs/2404.13038v1 )

ライセンス: Link先を確認
Jessica Dai, Eve Fleisig, (参考訳) 近年、人間からのフィードバック(RLHF)による強化学習をモデル行動に組み込むことの限界が社会選択理論を基準点として提起している。 社会的選択論の投票機構のような設定の分析は、不一致の中で人間の嗜好を集約する方法を伝える技術基盤を提供する。 我々は、社会的選択とRLHFの問題設定を分析し、それらの重要な違いを特定し、これらの違いが社会的選択におけるよく知られた技術的結果のRLHF解釈にどのように影響するかを議論する。

Recent work on the limitations of using reinforcement learning from human feedback (RLHF) to incorporate human preferences into model behavior often raises social choice theory as a reference point. Social choice theory's analysis of settings such as voting mechanisms provides technical infrastructure that can inform how to aggregate human preferences amid disagreement. We analyze the problem settings of social choice and RLHF, identify key differences between them, and discuss how these differences may affect the RLHF interpretation of well-known technical results in social choice.
翻訳日:2024-04-22 14:16:48 公開日:2024-04-19
# LaPA: 医用ビジュアル質問応答のための潜伏型プロンプトアシストモデル

LaPA: Latent Prompt Assist Model For Medical Visual Question Answering ( http://arxiv.org/abs/2404.13039v1 )

ライセンス: Link先を確認
Tiancheng Gu, Kaicheng Yang, Dongnan Liu, Weidong Cai, (参考訳) 医学的視覚的質問応答(Med-VQA)は、医療画像や質問に対する正しい回答の予測を自動化することを目的としており、医師が反復的なタスクを減らし、作業負荷を軽減することを支援する。 既存のアプローチは主に、追加および包括的なデータセットを使用した事前トレーニングモデルに重点を置いている。 しかし,臨床関連情報を抽出する既存モデルを探索する上でも有意な意味がある。 本稿では,医学的視覚的質問応答のための潜時プロンプト支援モデル(LaPA)を提案する。 まず,対象解の制約付き潜時プロンプトを生成するために潜時プロンプト生成モジュールを設計する。 次に, 潜伏プロンプトを用いた多モーダル核融合ブロックを提案し, 単モーダルおよび多モーダルの特徴から臨床関連情報を抽出する。 さらに,疾患と臓器の関係を臨床関連情報と統合するための知識融合モジュールも導入した。 最後に、最終的な統合情報と画像言語横断情報を組み合わせて、最終的な回答を予測する。 公開されている3つのMed-VQAデータセットの実験結果は、LaPAが最先端モデルのARLより優れており、それぞれVQA-RAD、SLAKE、VQA-2019で1.83%、0.63%、および1.80%の改善が達成されていることを示している。 コードはhttps://github.com/GaryGuTC/LaPA_modelで公開されている。

Medical visual question answering (Med-VQA) aims to automate the prediction of correct answers for medical images and questions, thereby assisting physicians in reducing repetitive tasks and alleviating their workload. Existing approaches primarily focus on pre-training models using additional and comprehensive datasets, followed by fine-tuning to enhance performance in downstream tasks. However, there is also significant value in exploring existing models to extract clinically relevant information. In this paper, we propose the Latent Prompt Assist model (LaPA) for medical visual question answering. Firstly, we design a latent prompt generation module to generate the latent prompt with the constraint of the target answer. Subsequently, we propose a multi-modal fusion block with latent prompt fusion module that utilizes the latent prompt to extract clinical-relevant information from uni-modal and multi-modal features. Additionally, we introduce a prior knowledge fusion module to integrate the relationship between diseases and organs with the clinical-relevant information. Finally, we combine the final integrated information with image-language cross-modal information to predict the final answers. Experimental results on three publicly available Med-VQA datasets demonstrate that LaPA outperforms the state-of-the-art model ARL, achieving improvements of 1.83%, 0.63%, and 1.80% on VQA-RAD, SLAKE, and VQA-2019, respectively. The code is publicly available at https://github.com/GaryGuTC/LaPA_model.
翻訳日:2024-04-22 14:16:48 公開日:2024-04-19
# クラシファイアフリー誘導ウェイトスケジューリング器の解析

Analysis of Classifier-Free Guidance Weight Schedulers ( http://arxiv.org/abs/2404.13040v1 )

ライセンス: Link先を確認
Xi Wang, Nicolas Dufour, Nefeli Andreou, Marie-Paule Cani, Victoria Fernandez Abrevaya, David Picard, Vicky Kalogeiton, (参考訳) Classifier-Free Guidance (CFG) はテキスト・ツー・イメージ拡散モデルの品質と条件適合性を高める。 条件付きと条件なしの予測を固定重量で組み合わせて操作する。 しかし、最近の研究は拡散過程全体を通して重みが異なり、優れた結果を報告しているが、理性や分析は提供していない。 本稿では、総合的な実験を行うことにより、CFGウェイトスケジューラに関する知見を提供する。 以上の結果から,単調な単調なウェイトスケジューラが常に性能の向上につながることが示唆された。 さらに、より複雑なパラメータ化されたスケジューラはさらなる改善のために最適化できるが、異なるモデルやタスクをまたいだ一般化はできない。

Classifier-Free Guidance (CFG) enhances the quality and condition adherence of text-to-image diffusion models. It operates by combining the conditional and unconditional predictions using a fixed weight. However, recent works vary the weights throughout the diffusion process, reporting superior results but without providing any rationale or analysis. By conducting comprehensive experiments, this paper provides insights into CFG weight schedulers. Our findings suggest that simple, monotonically increasing weight schedulers consistently lead to improved performances, requiring merely a single line of code. In addition, more complex parametrized schedulers can be optimized for further improvement, but do not generalize across different models and tasks.
翻訳日:2024-04-22 14:16:48 公開日:2024-04-19
# 皮膚科AIにおけるゼロショット概念生成のためのデータアライメント

Data Alignment for Zero-Shot Concept Generation in Dermatology AI ( http://arxiv.org/abs/2404.13043v1 )

ライセンス: Link先を確認
Soham Gadgil, Mahtab Bigverdi, (参考訳) 皮膚科学におけるAIは急速に進化しているが、信頼できる分類器を訓練するための大きな制限は、人間にとって意味のあるメタラベルである、地味な概念レベルラベルによるデータの不足である。 ゼロショット機能を提供するCLIPのようなファンデーションモデルは、インターネット上で利用可能な膨大な画像キャプチャペアを活用することで、この課題を軽減するのに役立ちます。 CLIPは、ドメイン固有のイメージキャプチャペアを使用して微調整することで、分類性能を改善することができる。 しかし、CLIPの事前トレーニングデータは、臨床医が診断を行うために使用する医学用語とよく一致していない。 近年の大規模言語モデル(LLM)の発展により、これらのモデルの表現性を活用してリッチテキストを生成する可能性が高まっている。 我々のゴールは、これらのモデルを用いて臨床語彙とCLIPの事前学習データに使用される自然言語の両方とよく一致した字幕テキストを生成することである。 PubMedの記事の画像のキャプションから始めて、フィールドのいくつかの教科書に微調整されたLLMを通して、原文のキャプションを渡すことによって拡張する。 GPT-3.5のような表現的微調整LDMによって生成されたキャプションを使用することで、下流のゼロショット概念分類性能が向上することがわかった。

AI in dermatology is evolving at a rapid pace but the major limitation to training trustworthy classifiers is the scarcity of data with ground-truth concept level labels, which are meta-labels semantically meaningful to humans. Foundation models like CLIP providing zero-shot capabilities can help alleviate this challenge by leveraging vast amounts of image-caption pairs available on the internet. CLIP can be fine-tuned using domain specific image-caption pairs to improve classification performance. However, CLIP's pre-training data is not well-aligned with the medical jargon that clinicians use to perform diagnoses. The development of large language models (LLMs) in recent years has led to the possibility of leveraging the expressive nature of these models to generate rich text. Our goal is to use these models to generate caption text that aligns well with both the clinical lexicon and with the natural human language used in CLIP's pre-training data. Starting with captions used for images in PubMed articles, we extend them by passing the raw captions through an LLM fine-tuned on the field's several textbooks. We find that using captions generated by an expressive fine-tuned LLM like GPT-3.5 improves downstream zero-shot concept classification performance.
翻訳日:2024-04-22 14:16:48 公開日:2024-04-19
# 3次元大規模言語モデルの統一的シーン表現と再構成

Unified Scene Representation and Reconstruction for 3D Large Language Models ( http://arxiv.org/abs/2404.13044v1 )

ライセンス: Link先を確認
Tao Chu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Qiong Liu, Jiaqi Wang, (参考訳) 大規模言語モデル(LLM)を3D環境と相互作用させることは困難である。 既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。 CLIPのテキストイメージアライメントされた2D機能は、LLMの入力として機能するポイントクラウドに持ち上げられる。 しかし、この解には3Dポイントツーポイント接続の確立が欠如しており、空間構造情報の欠如につながっている。 同時に、シーンの幾何学的表現と意味的表現の統合と統一が欠如していることは、3次元シーン理解の低下のレベルを決定づける。 本稿では,3次元シーンにおけるLLMに不可欠な,統一的なシーン表現と再構築の枠組みを持つことの重要性を実証する。 具体的には,Uni3DR^2を用いて,凍結した2次元基礎モデル(例えば,CLIP,SAM)とマルチスケールアグリゲーション3Dデコーダを用いて,幾何学的,意味論的に認識された3次元表現特徴を抽出する。 我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。 実験の結果,Uni3DR^2は3次元再構成データセットScanNet(F-Score+1.8\%増加)のベースラインよりも有意な利得が得られることがわかった。 LLMに適用すると、我々のUni3DR^2-LLMは3次元視覚言語理解データセットScanQAのベースラインよりも優れた性能を示す(それぞれvalセットとテストセットでBLEU-1を+4.0\%、+4.2\%増加させる)。 さらに、ScanQAと3DMV-VQAの両方で追加のGT点雲を使用する最先端の手法よりも優れている。

Enabling Large Language Models (LLMs) to interact with 3D environments is challenging. Existing approaches extract point clouds either from ground truth (GT) geometry or 3D scenes reconstructed by auxiliary models. Text-image aligned 2D features from CLIP are then lifted to point clouds, which serve as inputs for LLMs. However, this solution lacks the establishment of 3D point-to-point connections, leading to a deficiency of spatial structure information. Concurrently, the absence of integration and unification between the geometric and semantic representations of the scene culminates in a diminished level of 3D scene understanding. In this paper, we demonstrate the importance of having a unified scene representation and reconstruction framework, which is essential for LLMs in 3D scenes. Specifically, we introduce Uni3DR^2 extracts 3D geometric and semantic aware representation features via the frozen pre-trained 2D foundation models (e.g., CLIP and SAM) and a multi-scale aggregate 3D decoder. Our learned 3D representations not only contribute to the reconstruction process but also provide valuable knowledge for LLMs. Experimental results validate that our Uni3DR^2 yields convincing gains over the baseline on the 3D reconstruction dataset ScanNet (increasing F-Score by +1.8\%). When applied to LLMs, our Uni3DR^2-LLM exhibits superior performance over the baseline on the 3D vision-language understanding dataset ScanQA (increasing BLEU-1 by +4.0\% and +4.2\% on the val set and test set, respectively). Furthermore, it outperforms the state-of-the-art method that uses additional GT point clouds on both ScanQA and 3DMV-VQA.
翻訳日:2024-04-22 14:16:48 公開日:2024-04-19
# MoVA: ビジョンエキスパートの混在をマルチモーダルコンテキストに適用する

MoVA: Adapting Mixture of Vision Experts to Multimodal Context ( http://arxiv.org/abs/2404.13046v1 )

ライセンス: Link先を確認
Zhuofan Zong, Bingqi Ma, Dazhong Shen, Guanglu Song, Hao Shao, Dongzhi Jiang, Hongsheng Li, Yu Liu, (参考訳) マルチモーダル大言語モデル(MLLM)の主要なコンポーネントとして、視覚エンコーダの能力はMLLMの多様な画像内容に対する理解に大きな影響を及ぼす。 CLIP や DINOv2 の視覚エンコーダのような大規模事前学習型視覚エンコーダは有望な性能をもたらしたが、CLIP の視覚エンコーダは一般的な画像理解では優れた結果をもたらすが、文書やチャートコンテンツでは性能が劣る。 CLIPビジョンエンコーダのバイアスを軽減するために、まず異なる事前訓練されたビジョンエンコーダの固有の振る舞いを探索し、次に、粗い機構でタスク固有のビジョンエキスパートを適応的にルーティングし、融合させる、強力で斬新なMLLMであるMoVAを提案する。 粗粒化段階において、ユーザ命令、入力画像、および視覚専門家の専門知識に応じて、最適な視覚専門家を動的に選択するためのコンテキスト対応の専門家ルーティング戦略を設計する。 これは、エキスパートルーティングローランク適応(LoRA)を備えた大規模言語モデル(LLM)の強力なモデル関数理解能力の恩恵を受ける。 粒度の細かい段階では、様々な専門家からタスク固有の知識を抽出・融合するために、Mix-of-vision-Expert Adapter(MoV-Adapter)を精巧に実施する。 この粗粒度パラダイムは、マルチモーダルコンテキストとモデル専門知識に基づく専門家の表現を効果的に活用し、一般化能力をさらに強化する。 提案手法の有効性を評価するため,広範囲な実験を行った。 ベルやホイッスルがなければ、MoVAは様々な挑戦的なマルチモーダルベンチマークにおいて、現在の最先端の手法よりも大きなパフォーマンス向上を達成することができる。 コードとモデルはhttps://github.com/TempleX98/MoVA.comから入手できる。

As the key component in multimodal large language models (MLLMs), the ability of the visual encoder greatly affects MLLM's understanding on diverse image content. Although some large-scale pretrained vision encoders such as vision encoders in CLIP and DINOv2 have brought promising performance, we found that there is still no single vision encoder that can dominate various image content understanding, e.g., the CLIP vision encoder leads to outstanding results on general image understanding but poor performance on document or chart content. To alleviate the bias of CLIP vision encoder, we first delve into the inherent behavior of different pre-trained vision encoders and then propose the MoVA, a powerful and novel MLLM, adaptively routing and fusing task-specific vision experts with a coarse-to-fine mechanism. In the coarse-grained stage, we design a context-aware expert routing strategy to dynamically select the most suitable vision experts according to the user instruction, input image, and expertise of vision experts. This benefits from the powerful model function understanding ability of the large language model (LLM) equipped with expert-routing low-rank adaptation (LoRA). In the fine-grained stage, we elaborately conduct the mixture-of-vision-expert adapter (MoV-Adapter) to extract and fuse task-specific knowledge from various experts. This coarse-to-fine paradigm effectively leverages representations from experts based on multimodal context and model expertise, further enhancing the generalization ability. We conduct extensive experiments to evaluate the effectiveness of the proposed approach. Without any bells and whistles, MoVA can achieve significant performance gains over current state-of-the-art methods in a wide range of challenging multimodal benchmarks. Codes and models will be available at https://github.com/TempleX98/MoVA.
翻訳日:2024-04-22 14:16:48 公開日:2024-04-19
# 重み付き雑音下での非線形確率勾配の高確率収束境界

High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise ( http://arxiv.org/abs/2310.18784v5 )

ライセンス: Link先を確認
Aleksandar Armacki, Pranay Sharma, Gauri Joshi, Dragana Bajovic, Dusan Jakovetic, Soummya Kar, (参考訳) 本研究では,重み付き雑音の存在下でのストリーミングデータ学習の高確率収束保証について検討する。 提案シナリオでは,新たな情報が観測されるにつれて,追加データを保持することなく,オンライン形式でモデルが更新される。 重み付き雑音に対処するため,非線形確率勾配勾配(SGD)の一般的な枠組みを考察し,いくつかの強い結果を得た。 まず、非凸コストと成分的非線形性に対して、指数が雑音や問題パラメータに依存しない$\mathcal{O}\left(t^{-\frac{1}{4}}\right)$に任意の収束速度を確立する。 第二に、強い凸コストとより広範な非線形性のために、最後の反復を最適値に収束させ、$\mathcal{O}\left(t^{-\zeta} \right)$とすると、$\zeta \in (0,1)$は問題パラメータ、ノイズ、非線形性に依存する。 解析的および数値的に示すように、$\zeta$ は与えられた問題設定に対して好まれる非線形性の選択を知らせるのに使うことができる。 クリッピングのみを考慮し、次数$\eta \in (1,2]$の有界雑音モーメントを必要とし、指数が0となる収束率を$\eta \rightarrow 1$とすると、より広範な非線形性クラスと対称密度ノイズに対して高い確率保証を与える。 さらに, 強凸関数の場合, クリッピングが必ずしも最適非線形性であるとは限らないことを解析的, 数値的に示し, 一般の枠組みの価値をさらに強調する。

We study high-probability convergence guarantees of learning on streaming data in the presence of heavy-tailed noise. In the proposed scenario, the model is updated in an online fashion, as new information is observed, without storing any additional data. To combat the heavy-tailed noise, we consider a general framework of nonlinear stochastic gradient descent (SGD), providing several strong results. First, for non-convex costs and component-wise nonlinearities, we establish a convergence rate arbitrarily close to $\mathcal{O}\left(t^{-\frac{1}{4}}\right)$, whose exponent is independent of noise and problem parameters. Second, for strongly convex costs and a broader class of nonlinearities, we establish convergence of the last iterate to the optimum, with a rate $\mathcal{O}\left(t^{-\zeta} \right)$, where $\zeta \in (0,1)$ depends on problem parameters, noise and nonlinearity. As we show analytically and numerically, $\zeta$ can be used to inform the preferred choice of nonlinearity for given problem settings. Compared to state-of-the-art, who only consider clipping, require bounded noise moments of order $\eta \in (1,2]$, and establish convergence rates whose exponents go to zero as $\eta \rightarrow 1$, we provide high-probability guarantees for a much broader class of nonlinearities and symmetric density noise, with convergence rates whose exponents are bounded away from zero, even when the noise has finite first moment only. Moreover, in the case of strongly convex functions, we demonstrate analytically and numerically that clipping is not always the optimal nonlinearity, further underlining the value of our general framework.
翻訳日:2024-04-22 12:21:28 公開日:2024-04-19
# 深部強化学習に基づく計算流体力学におけるアクティブフロー制御のための最適並列化法

Optimal Parallelization Strategies for Active Flow Control in Deep Reinforcement Learning-Based Computational Fluid Dynamics ( http://arxiv.org/abs/2402.11515v3 )

ライセンス: Link先を確認
Wang Jia, Hang Xu, (参考訳) Deep Reinforcement Learning (DRL) は、高ダイナミックかつ非線形なアクティブフロー制御(AFC)問題を扱うための有望なアプローチとして登場した。 しかし、DRLモデルのトレーニングに伴う計算コストは、大きなパフォーマンスボトルネックを生じさせる。 この課題に対処し、高性能コンピューティングアーキテクチャの効率的なスケーリングを実現するために、DRLベースのアルゴリズムを並列設定で最適化することに焦点を当てた。 我々は、AFC問題に使用される既存の最先端DRLフレームワークを検証し、その効率ボトルネックについて議論する。 その後、フレームワーク全体を分解し、個々のコンポーネントの広範なスケーラビリティベンチマークを行うことで、様々なハイブリッド並列化構成を調査し、効率的な並列化戦略を提案する。 さらに、多環境DRLトレーニングにおける入出力(I/O)操作を洗練し、データ移動に伴う重大なオーバーヘッドに対処する。 最後に,一般のAFC問題に対して,フレームワーク全体に対してほぼ線形なスケーリングが得られる最適化されたフレームワークを実演する。 並列効率を約49%から約78%に向上させ,60コアで約47倍の高速化を実現した。 これらの知見は、DRLに基づくAFC研究のさらなる進歩に有用な知見をもたらすことが期待されている。

Deep Reinforcement Learning (DRL) has emerged as a promising approach for handling highly dynamic and nonlinear Active Flow Control (AFC) problems. However, the computational cost associated with training DRL models presents a significant performance bottleneck. To address this challenge and enable efficient scaling on high-performance computing architectures, this study focuses on optimizing DRL-based algorithms in parallel settings. We validate an existing state-of-the-art DRL framework used for AFC problems and discuss its efficiency bottlenecks. Subsequently, by deconstructing the overall framework and conducting extensive scalability benchmarks for individual components, we investigate various hybrid parallelization configurations and propose efficient parallelization strategies. Moreover, we refine input/output (I/O) operations in multi-environment DRL training to tackle critical overhead associated with data movement. Finally, we demonstrate the optimized framework for a typical AFC problem where near-linear scaling can be obtained for the overall framework. We achieve a significant boost in parallel efficiency from around 49% to approximately 78%, and the training process is accelerated by approximately 47 times using 60 CPU cores. These findings are expected to provide valuable insights for further advancements in DRL-based AFC studies.
翻訳日:2024-04-22 12:21:28 公開日:2024-04-19
# LLMBind: 統一されたModality-Task統合フレームワーク

LLMBind: A Unified Modality-Task Integration Framework ( http://arxiv.org/abs/2402.14891v5 )

ライセンス: Link先を確認
Bin Zhu, Munan Ning, Peng Jin, Bin Lin, Jinfa Huang, Qi Song, Junwu Zhang, Zhenyu Tang, Mingjun Pan, Xing Zhou, Li Yuan, (参考訳) マルチモーダルドメインでは、特定の入力形式に対する様々なモデルの依存がユーザを混乱させ、進行を妨げる。 この課題に対処するために,多様なマルチモーダルタスクを統一する新しいフレームワークである \textbf{LLMBind} を紹介する。 LLMBindはMixture-of-Experts (MoE) Large Language Model (LLM)を利用してマルチモーダル入力を処理し、タスク固有のトークンを生成する。 このユニークなアプローチにより、LLMBindは入力を解釈し、画像、テキスト、ビデオ、オーディオを含む様々なモードで出力を生成することができる。 さらに,400kの命令からなるインタラクションデータセットを構築し,対話型視覚生成および編集タスクのためのLLMBindの機能を解放した。 大規模な実験により、LLMBindは様々なタスクにまたがって非常に優れたパフォーマンスを達成し、現実世界のシナリオで実施されているユーザ評価において、既存のモデルを上回る性能を発揮することが示された。 さらに、LLMBindの適応性は、最新のモデルとのシームレスな統合と、新しいモダリティタスクの拡張を可能にし、ユニバーサルモダリティをモデリングするための統合AIエージェントとして機能する可能性を強調している。

In the multi-modal domain, the dependence of various models on specific input formats leads to user confusion and hinders progress. To address this challenge, we introduce \textbf{LLMBind}, a novel framework designed to unify a diverse array of multi-modal tasks. By harnessing a Mixture-of-Experts (MoE) Large Language Model (LLM), LLMBind processes multi-modal inputs and generates task-specific tokens, enabling the invocation of corresponding models to accomplish tasks. This unique approach empowers LLMBind to interpret inputs and generate outputs across various modalities, including image, text, video, and audio. Furthermore, we have constructed an interaction dataset comprising 400k instructions, which unlocks the ability of LLMBind for interactive visual generation and editing tasks. Extensive experimentation demonstrates that LLMBind achieves very superior performance across diverse tasks and outperforms existing models in user evaluations conducted in real-world scenarios. Moreover, the adaptability of LLMBind allows for seamless integration with the latest models and extension to new modality tasks, highlighting its potential to serve as a unified AI agent for modeling universal modalities.
翻訳日:2024-04-22 12:21:28 公開日:2024-04-19
# データ拡張と優先最適化によるソクラテス質問生成の改善

Improving Socratic Question Generation using Data Augmentation and Preference Optimization ( http://arxiv.org/abs/2403.00199v3 )

ライセンス: Link先を確認
Nischal Ashok Kumar, Andrew Lan, (参考訳) ソクラテス法(ソクラテスほう、英: Socratic method)とは、生徒が問題を解き明かすことなく、個別に解決するための指導方法である。 この方法は、学生の学習成果を著しく改善することが示されているが、インストラクターにとって複雑な労働集約的な課題である。 大規模言語モデル(LLM)は、学生のためのソクラテス的質問を自動的に生成することにより、人間の努力を強化するために使用できる。 しかしながら、これらのLSMの推進に関わる既存の手法は、しばしば不正なアウトプット(例えば、問題の解を直接明らかにしたり、無関係で未熟な質問を与えるもの)を生成することがある。 この問題を緩和するために、AIフィードバックによる強化学習(RLAIF)にインスパイアされ、我々はまず、特定の方法で無効な質問を伴う既存のソクラテス質問データセットを強化するためのデータ拡張手法を提案する。 次に,LLama 2 などのオープンソース LLM の最適化手法を提案する。 学生コードデバッグのためのソクラティック質問データセットの実験では、DPO最適化 7B LLama 2 モデルでは、不正な質問の発生を効果的に回避でき、その結果、既存の最先端のプロンプト手法よりも優れていることが示された。

The Socratic method is a way of guiding students toward solving a problem independently without directly revealing the solution to the problem. Although this method has been shown to significantly improve student learning outcomes, it remains a complex labor-intensive task for instructors. Large language models (LLMs) can be used to augment human effort by automatically generating Socratic questions for students. However, existing methods that involve prompting these LLMs sometimes produce invalid outputs, e.g., those that directly reveal the solution to the problem or provide irrelevant or premature questions. To alleviate this problem, inspired by reinforcement learning with AI feedback (RLAIF), we first propose a data augmentation method to enrich existing Socratic questioning datasets with questions that are invalid in specific ways. Next, we propose a method to optimize open-source LLMs such as LLama 2 to prefer ground-truth questions over generated invalid ones, using direct preference optimization (DPO). Our experiments on a Socratic questions dataset for student code debugging show that a DPO-optimized 7B LLama 2 model can effectively avoid generating invalid questions, and as a result, outperforms existing state-of-the-art prompting methods.
翻訳日:2024-04-22 12:21:28 公開日:2024-04-19
# 拡散モデルに対する著作権保護のための透かし埋め込み型逆例

Watermark-embedded Adversarial Examples for Copyright Protection against Diffusion Models ( http://arxiv.org/abs/2404.09401v2 )

ライセンス: Link先を確認
Peifei Zhu, Tsubasa Takahashi, Hirokatsu Kataoka, (参考訳) 拡散モデル(DM)は様々な画像生成タスクにおいて顕著な機能を示した。 しかし、DMが無許可の創作を模倣し、著作権問題を引き起こす可能性があるという懸念が高まっている。 この問題に対処するために,対戦型事例の生成に個人用透かしを埋め込んだ新しい枠組みを提案する。 このような例では、DMは可視な透かしを持つ画像を生成し、DMが許可されていない画像を模倣することを防ぐことができる。 本研究では, 条件付き敵対ネットワークに基づくジェネレータを構築し, 3つの損失(敵損失, GAN損失, 摂動損失)を設計し, 微妙な摂動を持つが, DMを効果的に攻撃し, 著作権侵害を防止する。 本手法による個人用透かし生成装置の訓練には2~3分以内で5~10個のサンプルしか必要とせず,一度訓練すれば,その透かしをかなり高速に生成できる(画像当たり0.2秒)。 様々な条件付き画像生成シナリオにおいて広範な実験を行う。 カオス的なテクスチャを持つ画像を生成する既存の方法と比較して,我々は生成した画像に透かしを付加する。 また, 逆転例は未知の生成モデル間で良好な伝達性を示すことも確認した。 したがって、この作品は、DMベースの模倣から著作権を保護するためのシンプルだが強力な方法を提供する。

Diffusion Models (DMs) have shown remarkable capabilities in various image-generation tasks. However, there are growing concerns that DMs could be used to imitate unauthorized creations and thus raise copyright issues. To address this issue, we propose a novel framework that embeds personal watermarks in the generation of adversarial examples. Such examples can force DMs to generate images with visible watermarks and prevent DMs from imitating unauthorized images. We construct a generator based on conditional adversarial networks and design three losses (adversarial loss, GAN loss, and perturbation loss) to generate adversarial examples that have subtle perturbation but can effectively attack DMs to prevent copyright violations. Training a generator for a personal watermark by our method only requires 5-10 samples within 2-3 minutes, and once the generator is trained, it can generate adversarial examples with that watermark significantly fast (0.2s per image). We conduct extensive experiments in various conditional image-generation scenarios. Compared to existing methods that generate images with chaotic textures, our method adds visible watermarks on the generated images, which is a more straightforward way to indicate copyright violations. We also observe that our adversarial examples exhibit good transferability across unknown generative models. Therefore, this work provides a simple yet powerful way to protect copyright from DM-based imitation.
翻訳日:2024-04-22 12:21:28 公開日:2024-04-19
# RanLayNet: ドメイン適応と一般化に使用されるドキュメントレイアウト検出用データセット

RanLayNet: A Dataset for Document Layout Detection used for Domain Adaptation and Generalization ( http://arxiv.org/abs/2404.09530v2 )

ライセンス: Link先を確認
Avinash Anand, Raj Jaiswal, Mohit Gupta, Siddhesh S Bangar, Pijush Bhuyan, Naman Lal, Rajeev Singh, Ritika Jha, Rajiv Ratn Shah, Shin'ichi Satoh, (参考訳) 大規模地下構造データセットと近年のディープラーニング技術の発展は,レイアウト検出に有用である。 しかしながら、これらのデータセットのレイアウトの多様性が制限されているため、トレーニングには膨大な数のアノテーション付きインスタンスが必要であり、これは高価かつ時間を要する。 結果として、ソースドメインとターゲットドメインの違いは、これらのモデルがどのように機能するかに大きな影響を与える可能性がある。 この問題を解決するために、少量のラベル付きデータを用いてモデルを対象領域に調整するドメイン適応手法が開発されている。 本研究では,空間的位置,範囲,レイアウト要素の種類を示すラベルを自動的に付与したRanLayNetという合成文書データセットを導入した。 この取り組みの主な目的は、多様な文書形式に頑健で適応可能なモデルをトレーニングできる汎用データセットを開発することである。 実験により,データセット上でトレーニングした深層構造同定モデルは,実際の文書のみをトレーニングしたモデルと比較して,性能が向上していることが実証された。 さらに、Doclaynetデータセット上でPubLayNetとIIIT-AR-13Kデータセットの両方を用いて、微調整推論モデルを用いて比較分析を行う。 以上の結果から,TABLE クラスでは 0.398 と 0.588 mAP95 のスコアを達成できるようなタスクに,データセットに富んだモデルが最適であることが示唆された。

Large ground-truth datasets and recent advances in deep learning techniques have been useful for layout detection. However, because of the restricted layout diversity of these datasets, training on them requires a sizable number of annotated instances, which is both expensive and time-consuming. As a result, differences between the source and target domains may significantly impact how well these models function. To solve this problem, domain adaptation approaches have been developed that use a small quantity of labeled data to adjust the model to the target domain. In this research, we introduced a synthetic document dataset called RanLayNet, enriched with automatically assigned labels denoting spatial positions, ranges, and types of layout elements. The primary aim of this endeavor is to develop a versatile dataset capable of training models with robustness and adaptability to diverse document formats. Through empirical experimentation, we demonstrate that a deep layout identification model trained on our dataset exhibits enhanced performance compared to a model trained solely on actual documents. Moreover, we conduct a comparative analysis by fine-tuning inference models using both PubLayNet and IIIT-AR-13K datasets on the Doclaynet dataset. Our findings emphasize that models enriched with our dataset are optimal for tasks such as achieving 0.398 and 0.588 mAP95 score in the scientific document domain for the TABLE class.
翻訳日:2024-04-22 12:21:28 公開日:2024-04-19
# 大規模言語モデルにおけるGlitch Tokens:分類分類と効果的な検出

Glitch Tokens in Large Language Models: Categorization Taxonomy and Effective Detection ( http://arxiv.org/abs/2404.09894v3 )

ライセンス: Link先を確認
Yuxi Li, Yi Liu, Gelei Deng, Ying Zhang, Wenjia Song, Ling Shi, Kailong Wang, Yuekang Li, Yang Liu, Haoyu Wang, (参考訳) 様々な領域におけるLarge Language Models (LLMs) の適用が拡大するにつれ、その予期せぬ振る舞いやそれに伴う成果を包括的に調査することが義務づけられる。 本研究では,確立されたトークン化器が生成する異常トークンである"グリッチトークン"の現象を紹介し,系統的に検討し,モデルの品質を損なう可能性がある。 具体的には、3つの異なるトークン化剤を使用し、合計182,517個のトークンを含む7つの人気のあるLSMを実験する。 本報告では, グリッチトークンと相互作用する際, LLMが示すグリッチトークンと症状の分類について述べる。 我々は,グリッチトークンが埋め込み空間に集束する傾向にあるという観察に基づいて,効率的なグリッチトークン検出のための新しい反復的クラスタリング手法であるGlitchHunterを提案する。 評価の結果,提案手法は8つのオープンソース LLM 上で3つのベースライン法より優れていることがわかった。 我々の知る限り、グリッチトークンに関する最初の総合的研究を提示する。 我々の新しい検出は、LLMにおけるトークン化関連エラーの軽減に関する貴重な洞察を提供する。

With the expanding application of Large Language Models (LLMs) in various domains, it becomes imperative to comprehensively investigate their unforeseen behaviors and consequent outcomes. In this study, we introduce and systematically explore the phenomenon of "glitch tokens", which are anomalous tokens produced by established tokenizers and could potentially compromise the models' quality of response. Specifically, we experiment on seven top popular LLMs utilizing three distinct tokenizers and involving a totally of 182,517 tokens. We present categorizations of the identified glitch tokens and symptoms exhibited by LLMs when interacting with glitch tokens. Based on our observation that glitch tokens tend to cluster in the embedding space, we propose GlitchHunter, a novel iterative clustering-based technique, for efficient glitch token detection. The evaluation shows that our approach notably outperforms three baseline methods on eight open-source LLMs. To the best of our knowledge, we present the first comprehensive study on glitch tokens. Our new detection further provides valuable insights into mitigating tokenization-related errors in LLMs.
翻訳日:2024-04-22 12:21:28 公開日:2024-04-19
# 人力デモから記号的タスク表現を学習する:記憶の保存, 検索, 統合, 忘れられる体験

Learning Symbolic Task Representation from a Human-Led Demonstration: A Memory to Store, Retrieve, Consolidate, and Forget Experiences ( http://arxiv.org/abs/2404.10591v2 )

ライセンス: Link先を確認
Luca Buoncompagni, Fulvio Mastrogiovanni, (参考訳) 本稿では,認知的な記憶機能(記憶,検索,統合,忘れなど)に着想を得たシンボリックラーニングフレームワークを提案する。 我々は,1つのタスクのデモンストレーションを行う非専門家と,経験に基づいてタスクを再実行するための構造化知識をオンラインで学習するロボットのシナリオに対処する。 本研究では,非注釈データに基づくワンショット学習プロセスについて検討し,対話や視覚的コミュニケーションなどを通じて,タスクの理解不能な表現を記憶する。 我々の汎用フレームワークはファジィ記述論理(fuzzy Description Logic)に依存しており、これまで開発されたシーン識別とタグ付けアルゴリズムを拡張してきた。 本稿では,このようなアルゴリズムを用いて,単純なヒューリスティックスに基づいて,時間とともに記憶された観測をランク付けするスコアを用いて,認知的な記憶機能を実装する。 我々の主な貢献は、ロボットの観察に基づいて階層的な知識表現をブートストラップするための様々なヒューリスティックを体系的に研究するために使用できるフレームワークの形式化である。 本報告では,実例的なアセンブリタスクのシナリオを通じて,そのメリットと限界について議論するため,フレームワークの性能について述べる。

We present a symbolic learning framework inspired by cognitive-like memory functionalities (i.e., storing, retrieving, consolidating and forgetting) to generate task representations to support high-level task planning and knowledge bootstrapping. We address a scenario involving a non-expert human, who performs a single task demonstration, and a robot, which online learns structured knowledge to re-execute the task based on experiences, i.e., observations. We consider a one-shot learning process based on non-annotated data to store an intelligible representation of the task, which can be refined through interaction, e.g., via verbal or visual communication. Our general-purpose framework relies on fuzzy Description Logic, which has been used to extend the previously developed Scene Identification and Tagging algorithm. In this paper, we exploit such an algorithm to implement cognitive-like memory functionalities employing scores that rank memorised observations over time based on simple heuristics. Our main contribution is the formalisation of a framework that can be used to systematically investigate different heuristics for bootstrapping hierarchical knowledge representations based on robot observations. Through an illustrative assembly task scenario, the paper presents the performance of our framework to discuss its benefits and limitations.
翻訳日:2024-04-22 12:21:28 公開日:2024-04-19
# LAPTOP-Diff:圧縮拡散モデルのための層切断と正規化蒸留

LAPTOP-Diff: Layer Pruning and Normalized Distillation for Compressing Diffusion Models ( http://arxiv.org/abs/2404.11098v3 )

ライセンス: Link先を確認
Dingkun Zhang, Sijia Li, Chen Chen, Qingsong Xie, Haonan Lu, (参考訳) AIGCの時代、拡散モデルの低予算やデバイス上の応用への需要が出現した。 安定拡散モデル (SDM) の圧縮に関していくつかの手法が提案されており、そのほとんどは手作りの層除去法を利用してより小さなU-Netを抽出し、知識蒸留によりネットワーク性能を回復した。 しかし、このような手作りの層除去は非効率であり、スケーラビリティと一般化が欠如しており、再訓練段階における特徴蒸留は、再訓練過程を通して、数個の数値的に重要な特徴損失項が他よりも優位である不均衡問題に直面している。 そこで我々は, 圧縮拡散モデル (LAPTOP-Diff) のための層プレーニング法と正規化蒸留法を提案した。 です。 1)SDMのU-Netを自動圧縮するレイヤプルーニング法を導入し,他のレイヤプルーニング法や手作りのレイヤ除去法を超越して,優れた添加性によってワンショット性能が保証される効果的なワンショットプルーニング基準を提案した。 2) 再トレーニングのための正常化特徴蒸留法を提案し, 不均衡問題を緩和した。 提案したLAPTOP-Diffを用いて,SDXLとSDM-v1.5のU-Netを圧縮し,PickScoreを50%,PickScoreの最小4.0%,PickScoreの最小8.2%の低下を実現した。 私たちはコードを公開します。

In the era of AIGC, the demand for low-budget or even on-device applications of diffusion models emerged. In terms of compressing the Stable Diffusion models (SDMs), several approaches have been proposed, and most of them leveraged the handcrafted layer removal methods to obtain smaller U-Nets, along with knowledge distillation to recover the network performance. However, such a handcrafting manner of layer removal is inefficient and lacks scalability and generalization, and the feature distillation employed in the retraining phase faces an imbalance issue that a few numerically significant feature loss terms dominate over others throughout the retraining process. To this end, we proposed the layer pruning and normalized distillation for compressing diffusion models (LAPTOP-Diff). We, 1) introduced the layer pruning method to compress SDM's U-Net automatically and proposed an effective one-shot pruning criterion whose one-shot performance is guaranteed by its good additivity property, surpassing other layer pruning and handcrafted layer removal methods, 2) proposed the normalized feature distillation for retraining, alleviated the imbalance issue. Using the proposed LAPTOP-Diff, we compressed the U-Nets of SDXL and SDM-v1.5 for the most advanced performance, achieving a minimal 4.0% decline in PickScore at a pruning ratio of 50% while the comparative methods' minimal PickScore decline is 8.2%. We will release our code.
翻訳日:2024-04-22 12:21:28 公開日:2024-04-19
# KI-GAN:信号化区間における多車軌道予測の高速化のための知識インフォームド・ジェネレータ・ネットワーク

KI-GAN: Knowledge-Informed Generative Adversarial Networks for Enhanced Multi-Vehicle Trajectory Forecasting at Signalized Intersections ( http://arxiv.org/abs/2404.11181v2 )

ライセンス: Link先を確認
Chuheng Wei, Guoyuan Wu, Matthew J. Barth, Amr Abdelraouf, Rohit Gupta, Kyungtae Han, (参考訳) 信号交差点における車両軌道の信頼性予測は,都市交通管理や自動運転システムにおいて重要である。 しかし、交差点における複雑な道路配置、交通信号制御の関与、異なる種類の道路利用者間の相互作用など、独特な課題を呈している。 本稿では,交通信号情報と多車間相互作用を統合して車両軌道を正確に予測する,知識情報生成支援ネットワーク(KI-GAN)という新しいモデルを提案する。 さらに,交差点における車両の向きと近接性を考慮した特別注意プーリング手法を提案する。 SinDデータセットに基づいて、KI-GANモデルは平均変位誤差0.05、最終変位誤差0.12を6秒の観測と6秒の予測サイクルで達成できる。 予測ウィンドウが9秒に拡張されると、ADEとFDEの値はそれぞれ0.11と0.26に減少する。 これらの結果は,信号場における複雑なシナリオ下での車両軌道予測におけるKI-GANモデルの有効性を示す。

Reliable prediction of vehicle trajectories at signalized intersections is crucial to urban traffic management and autonomous driving systems. However, it presents unique challenges, due to the complex roadway layout at intersections, involvement of traffic signal controls, and interactions among different types of road users. To address these issues, we present in this paper a novel model called Knowledge-Informed Generative Adversarial Network (KI-GAN), which integrates both traffic signal information and multi-vehicle interactions to predict vehicle trajectories accurately. Additionally, we propose a specialized attention pooling method that accounts for vehicle orientation and proximity at intersections. Based on the SinD dataset, our KI-GAN model is able to achieve an Average Displacement Error (ADE) of 0.05 and a Final Displacement Error (FDE) of 0.12 for a 6-second observation and 6-second prediction cycle. When the prediction window is extended to 9 seconds, the ADE and FDE values are further reduced to 0.11 and 0.26, respectively. These results demonstrate the effectiveness of the proposed KI-GAN model in vehicle trajectory prediction under complex scenarios at signalized intersections, which represents a significant advancement in the target field.
翻訳日:2024-04-22 12:21:28 公開日:2024-04-19
# 特徴補正伝達学習:非視覚条件における物体検出の終端解

Feature Corrective Transfer Learning: End-to-End Solutions to Object Detection in Non-Ideal Visual Conditions ( http://arxiv.org/abs/2404.11214v2 )

ライセンス: Link先を確認
Chuheng Wei, Guoyuan Wu, Matthew J. Barth, (参考訳) 物体検出の分野における重要な課題は、雨、霧、照明の少ない、ISP処理を欠いたバイエルの生画像など、非理想的な撮像条件下でのシステムの性能にある。 本研究は,非理想的画像からRGB画像への変換を必要とせずに,これらの難易度シナリオにおけるオブジェクトのエンドツーエンド検出を容易にするために,転送学習と分岐損失関数を活用する新しい手法である「Feature Corrective Transfer Learning」を紹介する。 提案手法では,まず,既存のRGB画像データセットを用いて包括的モデルを訓練する。 その後、初期理想RGBモデルと特徴マップを比較して、非理想画像を処理する。 この比較は、類似性を定量化し、それらを検出損失に組み込むように設計された新規な損失関数である拡張領域新規構造離散損失(EANSDL)を用いている。 このアプローチは、特徴補正学習の本質をカプセル化した直接特徴写像補正により、様々な条件でオブジェクト検出を行うモデルの能力を洗練する。 KITTIデータセットの変種に関する実験的検証では、平均平均精度(mAP)が大幅に改善され、3.8~8.1%の相対的な検出精度がベースラインモデルと比較して非理想的条件で向上し、標準のFaster RCNNアルゴリズムによる理想的な条件下で達成されたmAP@[0.5:0.95]の1.3%未満の性能差が少ないことが示されている。

A significant challenge in the field of object detection lies in the system's performance under non-ideal imaging conditions, such as rain, fog, low illumination, or raw Bayer images that lack ISP processing. Our study introduces "Feature Corrective Transfer Learning", a novel approach that leverages transfer learning and a bespoke loss function to facilitate the end-to-end detection of objects in these challenging scenarios without the need to convert non-ideal images into their RGB counterparts. In our methodology, we initially train a comprehensive model on a pristine RGB image dataset. Subsequently, non-ideal images are processed by comparing their feature maps against those from the initial ideal RGB model. This comparison employs the Extended Area Novel Structural Discrepancy Loss (EANSDL), a novel loss function designed to quantify similarities and integrate them into the detection loss. This approach refines the model's ability to perform object detection across varying conditions through direct feature map correction, encapsulating the essence of Feature Corrective Transfer Learning. Experimental validation on variants of the KITTI dataset demonstrates a significant improvement in mean Average Precision (mAP), resulting in a 3.8-8.1% relative enhancement in detection under non-ideal conditions compared to the baseline model, and a less marginal performance difference within 1.3% of the mAP@[0.5:0.95] achieved under ideal conditions by the standard Faster RCNN algorithm.
翻訳日:2024-04-22 12:13:31 公開日:2024-04-19
# LogSD:自己教師型学習と周波数ベースのマスキングによるシステムログからの異常検出

LogSD: Detecting Anomalies from System Logs through Self-supervised Learning and Frequency-based Masking ( http://arxiv.org/abs/2404.11294v2 )

ライセンス: Link先を確認
Yongzheng Xie, Hongyu Zhang, Muhammad Ali Babar, (参考訳) ログ分析は、大規模なソフトウェアシステムのトラブルシューティングにエンジニアが使用する主要なテクニックの1つである。 近年,システムログを解析してシステム異常を検出するために,教師付き,半教師付き,および教師なしのログ解析法が数多く提案されている。 これらの中、半教師付き手法は、緩やかなラベル付きデータ要求と最適な検出性能のバランスを保ち、教師なしと教師なしの手法とは対照的に注目を集めている。 しかし、既存の半教師付き手法は、学習された通常のパターン上の頻繁なログメッセージによって引き起こされる潜在的なバイアスを見落としているため、その性能は満足できない。 本研究では,新しい半教師付き自己教師型学習手法であるLogSDを提案する。 LogSDはデュアルネットワークアーキテクチャを採用し、周波数ベースのマスキングスキーム、グローバルからローカルへの再構築パラダイム、そして3つの自己教師型学習タスクを組み込んでいる。 これらの機能により、LogSDは比較的頻度の低いログメッセージに集中でき、これにより、歴史的な通常のデータからバイアスが少なく、差別的なパターンを効果的に学習できる。 この強調は最終的に異常検出性能の改善につながる。 一般的に使用されている3つのデータセットに対して大規模な実験が行われ、その結果、LogSDは8つの最先端ベンチマーク手法よりも著しく優れていることが示された。

Log analysis is one of the main techniques that engineers use for troubleshooting large-scale software systems. Over the years, many supervised, semi-supervised, and unsupervised log analysis methods have been proposed to detect system anomalies by analyzing system logs. Among these, semi-supervised methods have garnered increasing attention as they strike a balance between relaxed labeled data requirements and optimal detection performance, contrasting with their supervised and unsupervised counterparts. However, existing semi-supervised methods overlook the potential bias introduced by highly frequent log messages on the learned normal patterns, which leads to their less than satisfactory performance. In this study, we propose LogSD, a novel semi-supervised self-supervised learning approach. LogSD employs a dual-network architecture and incorporates a frequency-based masking scheme, a global-to-local reconstruction paradigm and three self-supervised learning tasks. These features enable LogSD to focus more on relatively infrequent log messages, thereby effectively learning less biased and more discriminative patterns from historical normal data. This emphasis ultimately leads to improved anomaly detection performance. Extensive experiments have been conducted on three commonly-used datasets and the results show that LogSD significantly outperforms eight state-of-the-art benchmark methods.
翻訳日:2024-04-22 12:13:31 公開日:2024-04-19
# 領域一般化のための単一時間監視型リモート変更検出

Single-temporal Supervised Remote Change Detection for Domain Generalization ( http://arxiv.org/abs/2404.11326v3 )

ライセンス: Link先を確認
Qiangang Du, Jinlong Peng, Xu Chen, Qingdong He, Liren He, Qiang Nie, Wenbing Zhu, Mingmin Chi, Yabiao Wang, Chengjie Wang, (参考訳) 変化検出はリモートセンシング画像解析に広く応用されている。 既存の方法はデータセットごとに個別にトレーニングモデルを必要とするため、ドメインの一般化は不十分である。 さらに、これらの手法は、高価で実用的でない、大量の高品質なペアラベルデータに大きく依存している。 本稿では,変化検出領域の一般化のための視覚言語事前学習に基づくマルチモーダルコントラスト学習(ChangeCLIP)を提案する。 さらに,素早い学習のための動的文脈最適化を提案する。 一方、既存の手法のデータ依存問題に対処するため、単時間かつ制御可能なAI生成トレーニング戦略(SAIN)を導入する。 これにより、実世界の画像ペアを使わずに、多数の単一時間画像を用いてモデルを訓練し、優れた一般化を実現することができる。 一連の実変化検出データセットに関する大規模な実験により、ChangeCLIPの優位性と強力な一般化が検証され、最先端の変化検出方法よりも優れた結果が得られた。 コードは利用可能です。

Change detection is widely applied in remote sensing image analysis. Existing methods require training models separately for each dataset, which leads to poor domain generalization. Moreover, these methods rely heavily on large amounts of high-quality pair-labelled data for training, which is expensive and impractical. In this paper, we propose a multimodal contrastive learning (ChangeCLIP) based on visual-language pre-training for change detection domain generalization. Additionally, we propose a dynamic context optimization for prompt learning. Meanwhile, to address the data dependency issue of existing methods, we introduce a single-temporal and controllable AI-generated training strategy (SAIN). This allows us to train the model using a large number of single-temporal images without image pairs in the real world, achieving excellent generalization. Extensive experiments on series of real change detection datasets validate the superiority and strong generalization of ChangeCLIP, outperforming state-of-the-art change detection methods. Code will be available.
翻訳日:2024-04-22 12:13:31 公開日:2024-04-19
# 多目的 (LeadingOnes, TrailingZeros) 問題における進化的多様性最適化の実行時解析

Runtime Analysis of Evolutionary Diversity Optimization on the Multi-objective (LeadingOnes, TrailingZeros) Problem ( http://arxiv.org/abs/2404.11496v2 )

ライセンス: Link先を確認
Denis Antipov, Aneta Neumann, Frank Neumann, Andrew M. Sutton, (参考訳) 多様性最適化は最適化問題のクラスであり、優れたソリューションの多様なセットを見つけることを目的としています。 このような問題を解決するためによく使われるアプローチの1つは、望ましい多様な個体群を進化させる進化的アルゴリズムを使用することである。 このアプローチは進化的多様性最適化(EDO)と呼ばれる。 本稿では,2オブジェクトのベンチマーク関数 (LeadingOnes, TrailingZeros) を改良した3オブジェクト関数 LOTZ$_k$ を用いてEDOを解析する。 我々は、GSEMOが全てのパレート最適解の集合を$O(kn^3)$期待反復で計算することを証明した。 また、GSEMO$_D$(多様性最適化のためのGSEMOの変更)のランタイムを解析し、2つの異なる多様性尺度、総不均衡とソート不均衡ベクトルに対して、最も可能な多様性を持つ個体群を見つける。 第1の測度に対して、GSEMO$_D$はパレート最適集団よりも漸近的に最適化され、$O(kn^2\log(n))$期待反復、第2の測度では$O(k^2n^3\log(n))$期待反復を示す。 我々は、理論解析を実証的な研究で補完し、理論予測に近く、両方の多様性尺度に非常によく似た振る舞いを示す。

The diversity optimization is the class of optimization problems, in which we aim at finding a diverse set of good solutions. One of the frequently used approaches to solve such problems is to use evolutionary algorithms which evolve a desired diverse population. This approach is called evolutionary diversity optimization (EDO). In this paper, we analyse EDO on a 3-objective function LOTZ$_k$, which is a modification of the 2-objective benchmark function (LeadingOnes, TrailingZeros). We prove that the GSEMO computes a set of all Pareto-optimal solutions in $O(kn^3)$ expected iterations. We also analyze the runtime of the GSEMO$_D$ (a modification of the GSEMO for diversity optimization) until it finds a population with the best possible diversity for two different diversity measures, the total imbalance and the sorted imbalances vector. For the first measure we show that the GSEMO$_D$ optimizes it asymptotically faster than it finds a Pareto-optimal population, in $O(kn^2\log(n))$ expected iterations, and for the second measure we show an upper bound of $O(k^2n^3\log(n))$ expected iterations. We complement our theoretical analysis with an empirical study, which shows a very similar behavior for both diversity measures that is close to the theory predictions.
翻訳日:2024-04-22 12:13:31 公開日:2024-04-19
# Ornstein-Uhlenbeck過程のパラメータ推定における従来の学習法とディープラーニング法の比較

A Comparison of Traditional and Deep Learning Methods for Parameter Estimation of the Ornstein-Uhlenbeck Process ( http://arxiv.org/abs/2404.11526v2 )

ライセンス: Link先を確認
Jacob Fein-Ashley, (参考訳) 我々は、オルンシュタイン-ウレンベック過程(OU)は金融、物理学、生物学で広く使われている確率過程であると考えている。 OUプロセスのパラメータ推定は難しい問題である。 そこで我々は従来の追跡手法をレビューし、それらをディープラーニングの新たな応用と比較し、OUプロセスのパラメータを推定する。 我々はマルチ層パーセプトロンを用いてOUプロセスのパラメータを推定し、その性能をカルマンフィルタや最大推定のような従来のパラメータ推定手法と比較する。 従来のパラメータ推定法は, より小さなデータセットに適していると考えられるが, 多層パーセプトロンは, 観測軌跡の大きなデータセットからOUプロセスのパラメータを正確に推定することができる。

We consider the Ornstein-Uhlenbeck (OU) process, a stochastic process widely used in finance, physics, and biology. Parameter estimation of the OU process is a challenging problem. Thus, we review traditional tracking methods and compare them with novel applications of deep learning to estimate the parameters of the OU process. We use a multi-layer perceptron to estimate the parameters of the OU process and compare its performance with traditional parameter estimation methods, such as the Kalman filter and maximum likelihood estimation. We find that the multi-layer perceptron can accurately estimate the parameters of the OU process given a large dataset of observed trajectories; however, traditional parameter estimation methods may be more suitable for smaller datasets.
翻訳日:2024-04-22 12:13:31 公開日:2024-04-19
# 高速スパース入力動的ビュー合成のための分解運動場

Factorized Motion Fields for Fast Sparse Input Dynamic View Synthesis ( http://arxiv.org/abs/2404.11669v2 )

ライセンス: Link先を確認
Nagabhushan Somraj, Kapil Choudhary, Sai Harsha Mupparaju, Rajiv Soundararajan, (参考訳) 高速な最適化とレンダリングのために動的シーンの3D表現を設計することは難しい作業である。 最近の明示的な表現は動的放射場を高速に学習しレンダリングすることを可能にするが、それらには深い入力視点が必要である。 本研究では,スパースな入力視点を持つ動的放射場に対する高速な表現の学習に焦点をあてる。 しかし、スパース入力による最適化は非制約であり、学習を制約するためには、前もって動きを使う必要がある。 既存の高速ダイナミックシーンモデルでは、動きを明示的にモデル化することはなく、動きの先行に制約されるのが困難である。 運動場の時空間相関を生かし,高速な因子化4次元表現として明示的な動きモデルを設計する。 次に、カメラ間のスパースフロー前処理と、カメラ内の密流前処理を組み合わせることで、動作モデルを調整することを含む、信頼性の高いフロー前処理を導入する。 我々のモデルは高速でコンパクトであり、スパースな入力視点を持つ人気のあるマルチビュー動的シーンデータセット上で非常に優れた性能を実現している。 私たちのモデルのソースコードは、プロジェクトページにある。 https://nagabhushansn95.github.io/publications/2024/RF-DeRF.html。

Designing a 3D representation of a dynamic scene for fast optimization and rendering is a challenging task. While recent explicit representations enable fast learning and rendering of dynamic radiance fields, they require a dense set of input viewpoints. In this work, we focus on learning a fast representation for dynamic radiance fields with sparse input viewpoints. However, the optimization with sparse input is under-constrained and necessitates the use of motion priors to constrain the learning. Existing fast dynamic scene models do not explicitly model the motion, making them difficult to be constrained with motion priors. We design an explicit motion model as a factorized 4D representation that is fast and can exploit the spatio-temporal correlation of the motion field. We then introduce reliable flow priors including a combination of sparse flow priors across cameras and dense flow priors within cameras to regularize our motion model. Our model is fast, compact and achieves very good performance on popular multi-view dynamic scene datasets with sparse input viewpoints. The source code for our model can be found on our project page: https://nagabhushansn95.github.io/publications/2024/RF-DeRF.html.
翻訳日:2024-04-22 12:13:31 公開日:2024-04-19
# QGen:量子化アウェアトレーニングにおける一般化能力について

QGen: On the Ability to Generalize in Quantization Aware Training ( http://arxiv.org/abs/2404.11769v2 )

ライセンス: Link先を確認
MohammadHossein AskariHemmat, Ahmadreza Jeddi, Reyhane Askari Hemmat, Ivan Lazarevich, Alexander Hoffman, Sudhakar Sah, Ehsan Saboori, Yvon Savaria, Jean-Pierre David, (参考訳) 量子化は、モデルの重みとアクティベーションを表すために少ないビットを利用することで、メモリ使用量、計算要求、レイテンシを低下させる。 本研究では,量子化されたニューラルネットワークの一般化特性について検討する。 特に,まずニューラルネットワークにおける量子化の理論モデルを開発し,正則化の形式として量子化がどのように機能するかを示す。 第二に、ロスランドスケープのシャープネスと一般化を結びつける最近の研究により、量子化ノイズの量で条件付けられた量子化モデルの一般化に関する近似境界を導出する。 次に,CIFAR-10,CIFAR-100,ImageNetで訓練された2000以上のモデルを用いて,畳み込みモデルと変圧器モデルを用いて仮説を検証した。

Quantization lowers memory usage, computational requirements, and latency by utilizing fewer bits to represent model weights and activations. In this work, we investigate the generalization properties of quantized neural networks, a characteristic that has received little attention despite its implications on model performance. In particular, first, we develop a theoretical model for quantization in neural networks and demonstrate how quantization functions as a form of regularization. Second, motivated by recent work connecting the sharpness of the loss landscape and generalization, we derive an approximate bound for the generalization of quantized models conditioned on the amount of quantization noise. We then validate our hypothesis by experimenting with over 2000 models trained on CIFAR-10, CIFAR-100, and ImageNet datasets on convolutional and transformer-based models.
翻訳日:2024-04-22 12:13:31 公開日:2024-04-19
# ハイブリッドCNNトランスフォーマアーキテクチャを用いた胸部X線胸部疾患のコンピュータ診断

Computer-Aided Diagnosis of Thoracic Diseases in Chest X-rays using hybrid CNN-Transformer Architecture ( http://arxiv.org/abs/2404.11843v2 )

ライセンス: Link先を確認
Sonit Singh, (参考訳) 医療画像は様々な疾患の診断に使われており、効果的な患者医療のための最も強力な資源の1つである。 胸部X線検査は胸部疾患の診断において最も望まれる疾患の1つである。 医療画像技術の進歩と患者負荷の増加により、現在の放射線学のワークフローは、バックログの増加、長時間労働、診断エラーの増加など、様々な課題に直面している。 胸部X線を解析して放射線科医を増強できる自動コンピュータ支援診断システムにおいて、実行可能な洞察を提供することにより、放射線科医に第2の意見を与え、画像内の関連領域を強調し、臨床ワークフローを高速化し、診断エラーを低減し、患者のケアを改善する可能性がある。 本研究では, 胸部X線で複数の胸部疾患を同定できるトランスフォーマー, SA-DenseNet121を用いて, マルチヘッド自己保持機構を備えたDenseNet121 Convolutional Neural Network (CNN) を付加した新しいアーキテクチャを適用した。 胸部X線データセットのうち,ChestX-ray14,CheXpert,MIMIC-CXR-JPG,IU-CXRの4つの実験を行った。 AUC-ROCは, 胸部X線による胸部疾患の診断において, 自己注意でCNNを増強する可能性が示唆された。 提案手法は,読解ワークフローをサポートし,効率を向上し,診断誤差を低減することができる。

Medical imaging has been used for diagnosis of various conditions, making it one of the most powerful resources for effective patient care. Due to widespread availability, low cost, and low radiation, chest X-ray is one of the most sought after radiology examination for the diagnosis of various thoracic diseases. Due to advancements in medical imaging technologies and increasing patient load, current radiology workflow faces various challenges including increasing backlogs, working long hours, and increase in diagnostic errors. An automated computer-aided diagnosis system that can interpret chest X-rays to augment radiologists by providing actionable insights has potential to provide second opinion to radiologists, highlight relevant regions in the image, in turn expediting clinical workflow, reducing diagnostic errors, and improving patient care. In this study, we applied a novel architecture augmenting the DenseNet121 Convolutional Neural Network (CNN) with multi-head self-attention mechanism using transformer, namely SA-DenseNet121, that can identify multiple thoracic diseases in chest X-rays. We conducted experiments on four of the largest chest X-ray datasets, namely, ChestX-ray14, CheXpert, MIMIC-CXR-JPG, and IU-CXR. Experimental results in terms of area under the receiver operating characteristics (AUC-ROC) shows that augmenting CNN with self-attention has potential in diagnosing different thoracic diseases from chest X-rays. The proposed methodology has the potential to support the reading workflow, improve efficiency, and reduce diagnostic errors.
翻訳日:2024-04-22 12:13:31 公開日:2024-04-19
# 弱教師付きインクリメンタルセマンティックセマンティックセグメンテーションにおけるテンディエンス駆動による相互排他性

Tendency-driven Mutual Exclusivity for Weakly Supervised Incremental Semantic Segmentation ( http://arxiv.org/abs/2404.11981v2 )

ライセンス: Link先を確認
Chongjie Si, Xuehui Wang, Xiaokang Yang, Wei Shen, (参考訳) Weakly Incremental Learning for Semantic Segmentation (WILSS)は、トレーニング済みのセグメンテーションモデルを利用して、コスト効率と容易に利用できるイメージレベルのラベルを使用して、新しいクラスをセグメンテーションする。 WILSSを解く最も一般的な方法は、各新しいクラスのシード領域の生成であり、ピクセルレベルの監視の一形態として機能する。 しかしながら、シナリオは通常、事前訓練されたセグメンテーションモデルによってピクセルが古いクラスとして同時に予測され、シード領域によって新しいクラスが生成される。 WILSSでは、新しいクラスにピクセルレベルのアノテーションが欠如しているため、このシナリオが特に問題となる。 この問題を克服するため,本研究では,シード領域の挙動と,事前学習されたセグメンテーションモデルによって生成された予測を慎重に調整した,相互排他性に関する革新的で傾向駆動的な関係を提案する。 この関係は、新しいクラスと古いクラスの予測は、矛盾する予測問題に対処するだけでなく、漸進的な学習の固有の課題である破滅的な忘れを効果的に軽減する古いクラスの予測の保存を優先しながら、矛盾しないように規定している。 さらに、この傾向駆動の相互排他性関係の後援のもと、新しいクラスに対して擬似マスクを生成し、二段階最適化問題の解決によるモデルパラメータの更新と同時実行を可能にした。 大規模な実験により、我々のフレームワークの有効性が実証され、その結果、新しいベンチマークが確立され、この分野におけるさらなる研究の道が開けた。

Weakly Incremental Learning for Semantic Segmentation (WILSS) leverages a pre-trained segmentation model to segment new classes using cost-effective and readily available image-level labels. A prevailing way to solve WILSS is the generation of seed areas for each new class, serving as a form of pixel-level supervision. However, a scenario usually arises where a pixel is concurrently predicted as an old class by the pre-trained segmentation model and a new class by the seed areas. Such a scenario becomes particularly problematic in WILSS, as the lack of pixel-level annotations on new classes makes it intractable to ascertain whether the pixel pertains to the new class or not. To surmount this issue, we propose an innovative, tendency-driven relationship of mutual exclusivity, meticulously tailored to govern the behavior of the seed areas and the predictions generated by the pre-trained segmentation model. This relationship stipulates that predictions for the new and old classes must not conflict whilst prioritizing the preservation of predictions for the old classes, which not only addresses the conflicting prediction issue but also effectively mitigates the inherent challenge of incremental learning - catastrophic forgetting. Furthermore, under the auspices of this tendency-driven mutual exclusivity relationship, we generate pseudo masks for the new classes, allowing for concurrent execution with model parameter updating via the resolution of a bi-level optimization problem. Extensive experiments substantiate the effectiveness of our framework, resulting in the establishment of new benchmarks and paving the way for further research in this field.
翻訳日:2024-04-22 12:13:31 公開日:2024-04-19
# AccidentBlip2:Multi-View MotionBlip2による事故検出

AccidentBlip2: Accident Detection With Multi-View MotionBlip2 ( http://arxiv.org/abs/2404.12149v2 )

ライセンス: Link先を確認
Yihua Shao, Hongyi Cai, Xinwei Long, Weiyi Lang, Zhe Wang, Haoran Wu, Yan Wang, Yinjia Yi, Yang Yang, Zhen Lei, (参考訳) MLLM(Multimodal Large Language Models)は、多モーダル推論の多くの分野で際立った能力を示している。 そこで我々は,複雑な交通環境における環境記述とシーン理解のために,マルチモーダル大規模言語モデルの推論能力を利用する。 本稿では,事故リスクをリアルタイムに予測できる多モーダル大規模言語モデルであるAccidentBlip2を提案する。 提案手法は,視覚変換器による6次元サラウンドビューグラフの時間的シーンに基づく特徴抽出と,時間的ブリップフレームワークを用いた時間的推測を含む。 次に、発生した時間トークンをMLLMに入力し、事故が発生するか否かを推測する。 AccidentBlip2はいかなるBEV画像やLiDARにも依存しないため、MLLMの推論パラメータの数と推論コストは大幅に削減され、トレーニング中に大きなトレーニングオーバーヘッドを発生させることはない。 AccidentBlip2はDeepAccidentデータセットの既存のソリューションよりも優れており、エンドツーエンドの自動運転事故予測のリファレンスソリューションを提供することもできる。

Multimodal Large Language Models (MLLMs) have shown outstanding capabilities in many areas of multimodal reasoning. Therefore, we use the reasoning ability of Multimodal Large Language Models for environment description and scene understanding in complex transportation environments. In this paper, we propose AccidentBlip2, a multimodal large language model that can predict in real time whether an accident risk will occur. Our approach involves feature extraction based on the temporal scene of the six-view surround view graphs and temporal inference using the temporal blip framework through the vision transformer. We then input the generated temporal token into the MLLMs for inference to determine whether an accident will occur or not. Since AccidentBlip2 does not rely on any BEV images and LiDAR, the number of inference parameters and the inference cost of MLLMs can be significantly reduced, and it also does not incur a large training overhead during training. AccidentBlip2 outperforms existing solutions on the DeepAccident dataset and can also provide a reference solution for end-to-end automated driving accident prediction.
翻訳日:2024-04-22 12:13:31 公開日:2024-04-19
# 良好なスコーリング規則による動脈硬化とてんかんの不確かさの定量化

Quantifying Aleatoric and Epistemic Uncertainty with Proper Scoring Rules ( http://arxiv.org/abs/2404.12215v2 )

ライセンス: Link先を確認
Paul Hofman, Yusuf Sale, Eyke Hüllermeier, (参考訳) 不確実性表現と定量化は機械学習において最重要であり、安全クリティカルなアプリケーションにとって重要な前提条件となっている。 本稿では, 学習者に対して, 条件付き確率の予測を動機付ける意味のある特性を持つ損失関数である, 適切なスコアリングルールに基づく, アレタリックおよびエピステミック不確実性の定量化のための新しい尺度を提案する。 我々は、不確実性の2つの一般的な表現、すなわち、クレダル集合、すなわち確率分布の集合または2階分布、すなわち確率分布の上の分布を仮定する。 我々の枠組みはこれらの表現の間に自然な橋渡しを確立する。 我々は,本手法の正式な正当性を提供し,具体的インスタンス化として,てんかんおよびアレタリック不確実性の新しい尺度を導入する。

Uncertainty representation and quantification are paramount in machine learning and constitute an important prerequisite for safety-critical applications. In this paper, we propose novel measures for the quantification of aleatoric and epistemic uncertainty based on proper scoring rules, which are loss functions with the meaningful property that they incentivize the learner to predict ground-truth (conditional) probabilities. We assume two common representations of (epistemic) uncertainty, namely, in terms of a credal set, i.e. a set of probability distributions, or a second-order distribution, i.e., a distribution over probability distributions. Our framework establishes a natural bridge between these representations. We provide a formal justification of our approach and introduce new measures of epistemic and aleatoric uncertainty as concrete instantiations.
翻訳日:2024-04-22 12:13:31 公開日:2024-04-19
# 確率リフティングによる汎用バッチベイズ最適化のための四分法アプローチ

A Quadrature Approach for General-Purpose Batch Bayesian Optimization via Probabilistic Lifting ( http://arxiv.org/abs/2404.12219v2 )

ライセンス: Link先を確認
Masaki Adachi, Satoshi Hayakawa, Martin Jørgensen, Saad Hamid, Harald Oberhauser, Michael A. Osborne, (参考訳) ベイズ最適化における並列化は共通の戦略であるが、取得関数とカーネルの選択における柔軟性の必要性、離散変数と連続変数を同時に扱う柔軟性、モデルの誤特定、そして最後に高速な大規模並列化など、いくつかの課題に直面している。 これらの課題に対処するため,我々は,GPyTorch/BoTorchをベースとしたPythonライブラリであるSOBER(英語版)と呼ばれるカーネル二次化による確率的昇降によるバッチベイズ最適化のための汎用的でモジュール化されたフレームワークを紹介した。 1) 統一されたアプローチ下での下流タスクの冗長性。 2) 取得関数の勾配を必要としない勾配のないサンプリング器は、ドメインに依存しないサンプリング(例えば、離散変数と混合変数、非ユークリッド空間)を提供する。 (3)ドメイン事前分布の柔軟性。 (4)適応バッチサイズ(最適バッチサイズの自動決定)。 (5) ヒルベルト空間の不特定再生核に対するロバスト性。 (6)自然停止基準

Parallelisation in Bayesian optimisation is a common strategy but faces several challenges: the need for flexibility in acquisition functions and kernel choices, flexibility dealing with discrete and continuous variables simultaneously, model misspecification, and lastly fast massive parallelisation. To address these challenges, we introduce a versatile and modular framework for batch Bayesian optimisation via probabilistic lifting with kernel quadrature, called SOBER, which we present as a Python library based on GPyTorch/BoTorch. Our framework offers the following unique benefits: (1) Versatility in downstream tasks under a unified approach. (2) A gradient-free sampler, which does not require the gradient of acquisition functions, offering domain-agnostic sampling (e.g., discrete and mixed variables, non-Euclidean space). (3) Flexibility in domain prior distribution. (4) Adaptive batch size (autonomous determination of the optimal batch size). (5) Robustness against a misspecified reproducing kernel Hilbert space. (6) Natural stopping criterion.
翻訳日:2024-04-22 12:13:31 公開日:2024-04-19
# Beyond Average: 個別化されたビジュアルスキャンパス予測

Beyond Average: Individualized Visual Scanpath Prediction ( http://arxiv.org/abs/2404.12235v2 )

ライセンス: Link先を確認
Xianyu Chen, Ming Jiang, Qi Zhao, (参考訳) 個人間で注意がどのように異なるかを理解することは、科学的、社会的影響が大きい。 しかし、既存の視覚スキャンパスモデルは、個々の違いを無視して、注意を均一に扱う。 このギャップを埋めるために,多様な視覚的タスクにおいて,異なる個人がどのように注意をシフトするかを正確に予測することを目的とした,新たな注意モデルタスクである個別スキャンパス予測(ISP)に焦点を当てた。 1)観察者のユニークな注意特徴を特徴付け統合するオブザーバエンコーダ,(2)視覚的特徴,タスクガイダンス,オブザーバ特有の特徴を一元的に組み合わせたオブザーバ中心の機能統合アプローチ,(3)観察者の注意特徴に基づいて動的にセマンティック特徴マップを優先順位付けすることでスキャンパス予測を洗練する適応的修正優先順位付け機構,の3つの新しい技術コンポーネントを特徴とするISP手法を提案する。 これらの新しいコンポーネントにより、スキャンパスモデルは、異なるオブザーバ間での注意変動に効果的に対処できる。 提案手法は,一般に異なるデータセット,モデルアーキテクチャ,視覚的タスクに適用可能であり,一般的なスキャンパスモデルを個別化するための包括的なツールを提供する。 値ベースおよびランキングベースのメトリクスを用いた総合的な評価は、その方法の有効性と一般化可能性を検証する。

Understanding how attention varies across individuals has significant scientific and societal impacts. However, existing visual scanpath models treat attention uniformly, neglecting individual differences. To bridge this gap, this paper focuses on individualized scanpath prediction (ISP), a new attention modeling task that aims to accurately predict how different individuals shift their attention in diverse visual tasks. It proposes an ISP method featuring three novel technical components: (1) an observer encoder to characterize and integrate an observer's unique attention traits, (2) an observer-centric feature integration approach that holistically combines visual features, task guidance, and observer-specific characteristics, and (3) an adaptive fixation prioritization mechanism that refines scanpath predictions by dynamically prioritizing semantic feature maps based on individual observers' attention traits. These novel components allow scanpath models to effectively address the attention variations across different observers. Our method is generally applicable to different datasets, model architectures, and visual tasks, offering a comprehensive tool for transforming general scanpath models into individualized ones. Comprehensive evaluations using value-based and ranking-based metrics verify the method's effectiveness and generalizability.
翻訳日:2024-04-22 12:13:31 公開日:2024-04-19
# De-DSI:分散微分検索インデックス

De-DSI: Decentralised Differentiable Search Index ( http://arxiv.org/abs/2404.12237v2 )

ライセンス: Link先を確認
Petru Neague, Marcel Gregoriadis, Johan Pouwelse, (参考訳) 本研究では,大規模言語モデル(LLM)を真の分散化に融合させる新しいフレームワークであるDe-DSIを紹介する。 De-DSIは、新しいユーザクエリとドキュメント識別子を直接アクセスせずに効率的に接続することに焦点を当て、クエリドシデントペアのみで動作する。 スケーラビリティを高めるために、DSIモデルのアンサンブルを導入し、データセットを個々のモデルのトレーニングのために小さなシャードに分割する。 このアプローチは、各モデルが扱うデータ数を減らすことによって正確性を維持するだけでなく、複数のモデルの結果を集約することでスケーラビリティを促進する。 このアグリゲーションはビームサーチを用いてトップドシデントを識別し、ノーマライゼーションのためのソフトマックス関数を適用し、検索のための最高スコアの文書を選択する。 分散化された実装は、検索成功が中央集権的な手法に匹敵することを示した。 このセットアップにより、マグネットリンクによるマルチメディアアイテムの検索が可能になり、プラットフォームやインターミディエートの必要性がなくなる。

This study introduces De-DSI, a novel framework that fuses large language models (LLMs) with genuine decentralization for information retrieval, particularly employing the differentiable search index (DSI) concept in a decentralized setting. Focused on efficiently connecting novel user queries with document identifiers without direct document access, De-DSI operates solely on query-docid pairs. To enhance scalability, an ensemble of DSI models is introduced, where the dataset is partitioned into smaller shards for individual model training. This approach not only maintains accuracy by reducing the number of data each model needs to handle but also facilitates scalability by aggregating outcomes from multiple models. This aggregation uses a beam search to identify top docids and applies a softmax function for score normalization, selecting documents with the highest scores for retrieval. The decentralized implementation demonstrates that retrieval success is comparable to centralized methods, with the added benefit of the possibility of distributing computational complexity across the network. This setup also allows for the retrieval of multimedia items through magnet links, eliminating the need for platforms or intermediaries.
翻訳日:2024-04-22 12:13:31 公開日:2024-04-19
# 部分微分方程式の基礎モデルに向けて:マルチオペレータ学習と外挿

Towards a Foundation Model for Partial Differential Equations: Multi-Operator Learning and Extrapolation ( http://arxiv.org/abs/2404.12355v2 )

ライセンス: Link先を確認
Jingmin Sun, Yuxuan Liu, Zecheng Zhang, Hayden Schaeffer, (参考訳) 大規模言語モデルのような基礎モデルは、様々な言語や画像処理タスクに対処することに成功した。 本稿では,PROSE-PDEという科学問題に対するマルチモーダル基礎モデルを提案する。 本モデルは,2モーダリティから2モーダリティ学習へ向けて設計され,物理系の基礎となる支配方程式を同時に学習しながら,時空間システムの将来の状態を予測できる多機能学習手法である。 具体的には,一次元の時間依存非線形定数偏微分方程式を学習し,物理・地質・生物学など多くの物理応用への応用の可能性について検討する。 さらに,PROSE-PDEが複数の演算子の頑健な訓練によって物理的特徴を一般化できることを示すために,3つの外挿実験を行い,提案モデルはトレーニング中にモデルやデータが見えないPDEソリューションを予測するために外挿できることを示した。 さらに,本モデルにおける記号的モダリティの活用は,複数の演算子を訓練する際の適合性の問題を効果的に解決し,モデルの予測能力を向上することを示す。

Foundation models, such as large language models, have demonstrated success in addressing various language and image processing tasks. In this work, we introduce a multi-modal foundation model for scientific problems, named PROSE-PDE. Our model, designed for bi-modality to bi-modality learning, is a multi-operator learning approach which can predict future states of spatiotemporal systems while concurrently learning the underlying governing equations of the physical system. Specifically, we focus on multi-operator learning by training distinct one-dimensional time-dependent nonlinear constant coefficient partial differential equations, with potential applications to many physical applications including physics, geology, and biology. More importantly, we provide three extrapolation studies to demonstrate that PROSE-PDE can generalize physical features through the robust training of multiple operators and that the proposed model can extrapolate to predict PDE solutions whose models or data were unseen during the training. Furthermore, we show through systematic numerical experiments that the utilization of the symbolic modality in our model effectively resolves the well-posedness problems with training multiple operators and thus enhances our model's predictive capabilities.
翻訳日:2024-04-22 12:13:31 公開日:2024-04-19