このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240427となっている論文です。

PDF登録状況(公開日: 20240427)

TitleAuthorsAbstract論文公表日・翻訳日
# 高性能物理貯留層計算を可能にする膜キャパシタ型バイオ膜中の固有の電圧オフセット

Intrinsic Voltage Offsets in Memcapacitive Bio-Membranes Enable High-Performance Physical Reservoir Computing ( http://arxiv.org/abs/2405.09545v1 )

ライセンス: Link先を確認
Ahmed S. Mohamed, Anurag Dhungel, Md Sakib Hasan, Joseph S. Najem, (参考訳) 貯留層コンピューティング(Reservoir computing)は、入力を高次元空間にマッピングすることで、時間データを処理するための脳にインスパイアされた機械学習フレームワークである。 物理貯水池コンピュータ(PRC)は、原子スイッチ、フォトニクス、揮発性メムリスタ、そして近年では、メムキャパシタなどの物理基板のネイティブなフェージングメモリと非線形性を活用して、効率的な高次元マッピングを実現している。 従来のPRCは、入力符号化法と、非線形性の向上と高次元マッピングのための大きな確率的なデバイス間バリエーションに依存する、均質なデバイスアレイで構成されていることが多い。 これらのアプローチは、高い事前処理コストを発生させ、リアルタイムデプロイメントを制限する。 本稿では、内部電圧オフセットを利用して、高次元変換に欠かせない単調および非単調な入力状態相関を実現する。 予測誤差が極端に低い2次非線形力学系(0.00018)を予測し,本手法の有効性を実証する。 さらに,低正規化根平均二乗誤差(0.080)を達成し,カオスなH'enon写像を予測する。 従来のPRCとは異なり、そのようなエラーは入力エンコーディングの手法を使わずに達成され、異なる入力状態相関のパワーを裏付ける。 最も重要なことは、外部に印加されたオフセットを用いて固有の電圧オフセットを欠く他のニューロモルフィックデバイスへのアプローチを一般化し、様々な入力状態相関を実現することである。 当社のアプローチと前例のないパフォーマンスは,高パフォーマンスフルテマリアPRCに向けた大きなマイルストーンです。

Reservoir computing is a brain-inspired machine learning framework for processing temporal data by mapping inputs into high-dimensional spaces. Physical reservoir computers (PRCs) leverage native fading memory and nonlinearity in physical substrates, including atomic switches, photonics, volatile memristors, and, recently, memcapacitors, to achieve efficient high-dimensional mapping. Traditional PRCs often consist of homogeneous device arrays, which rely on input encoding methods and large stochastic device-to-device variations for increased nonlinearity and high-dimensional mapping. These approaches incur high pre-processing costs and restrict real-time deployment. Here, we introduce a novel heterogeneous memcapacitor-based PRC that exploits internal voltage offsets to enable both monotonic and non-monotonic input-state correlations crucial for efficient high-dimensional transformations. We demonstrate our approach's efficacy by predicting a second-order nonlinear dynamical system with an extremely low prediction error (0.00018). Additionally, we predict a chaotic H\'enon map, achieving a low normalized root mean square error (0.080). Unlike previous PRCs, such errors are achieved without input encoding methods, underscoring the power of distinct input-state correlations. Most importantly, we generalize our approach to other neuromorphic devices that lack inherent voltage offsets using externally applied offsets to realize various input-state correlations. Our approach and unprecedented performance are a major milestone towards high-performance full in-materia PRCs.
翻訳日:2024-05-27 03:17:55 公開日:2024-04-27
# 異種ハイブリッドMIMO受信機用パッシブDOA推定器の共学習支援多モード深層学習フレームワーク

Co-learning-aided Multi-modal-deep-learning Framework of Passive DOA Estimators for a Heterogeneous Hybrid Massive MIMO Receiver ( http://arxiv.org/abs/2405.09556v1 )

ライセンス: Link先を確認
Jiatong Bai, Feng Shu, Qinghe Zheng, Bo Xu, Baihua Shi, Yiwen Chen, Weibin Zhang, Xianpeng Wang, (参考訳) レートと解像度の優れた性能のため、データ伝送や到着方向(DOA)測定などにおいて、FD(Full-digital)のMultiple-Input Multi-output (MIMO)アンテナアレイが広く採用されている。 しかし、計算の複雑さと回路コストの2つの主な課題に直面している。 この2つの問題は、ハイブリッドアナログデジタル構造(HAD)によってうまく対処できる。 しかし、HADの位相曖昧性の問題があるため、その低効率性や高レイテンシにつながる。 そのようなMIMO構造は、低コスト、低複雑さ、高時間効率を同時に持つことができる。 これら3つの特性を満たすために、FDとヘテロジニアスHAD($2$AD-FD)を統合する新しいヘテロジニアスハイブリッドMIMO受信機構造を提案し、対応するマルチモーダル(MD)学習フレームワークを開発した。 フレームワークには3つの主要なステージがある。 1)ルート多重信号分類(Root-MUSIC)または深層学習(DL)を介して候補セットを生成する。 2) 機械学習(ML)手法を用いて,候補集合から真の解のクラスを推論する。 3) 2つの部分の真の解決策を融合させ、より良いDOA推定を実現する。 このプロセスはMD-Root-MUSICとMDDLという2つのメソッドを構成する。 CoMDDLとCoMD-RootMUSICという2つの拡張手法を構築するために,DOA推定精度の向上とクラスタリングの複雑さの低減を目的として,共学習支援MDフレームワークを提案する。 さらに、提案した $\rm{H}^2$AD-FD 構造に対する Cramer-Rao 下界 (CRLB) も導出される。 実験の結果,提案手法は信号-雑音比 (SNR) > 0 dB のCRLBに近づき,CMDDLとMDDLはCMD-RootMUSICとMD-RootMUSICよりも高い性能を示した。

Due to its excellent performance in rate and resolution, fully-digital (FD) massive multiple-input multiple-output (MIMO) antenna arrays has been widely applied in data transmission and direction of arrival (DOA) measurements, etc. But it confronts with two main challenges: high computational complexity and circuit cost. The two problems may be addressed well by hybrid analog-digital (HAD) structure. But there exists the problem of phase ambiguity for HAD, which leads to its low-efficiency or high-latency. Does exist there such a MIMO structure of owning low-cost, low-complexity and high time efficiency at the same time. To satisfy the three properties, a novel heterogeneous hybrid MIMO receiver structure of integrating FD and heterogeneous HAD ($\rm{H}^2$AD-FD) is proposed and corresponding multi-modal (MD)-learning framework is developed. The framework includes three major stages: 1) generate the candidate sets via root multiple signal classification (Root-MUSIC) or deep learning (DL); 2) infer the class of true solutions from candidate sets using machine learning (ML) methods; 3) fuse the two-part true solutions to achieve a better DOA estimation. The above process form two methods named MD-Root-MUSIC and MDDL. To improve DOA estimation accuracy and reduce the clustering complexity, a co-learning-aided MD framework is proposed to form two enhanced methods named CoMDDL and CoMD-RootMUSIC. Moreover, the Cramer-Rao lower bound (CRLB) for the proposed $\rm{H}^2$AD-FD structure is also derived. Experimental results demonstrate that our proposed four methods could approach the CRLB for signal-to-noise ratio (SNR) > 0 dB and the proposed CoMDDL and MDDL perform better than CoMD-RootMUSIC and MD-RootMUSIC, particularly in the extremely low SNR region.
翻訳日:2024-05-27 03:17:55 公開日:2024-04-27
# MEDIQA-M3G 2024のメディファクト:マルチモーダルラーニングによる皮膚科における医学的質問

MediFact at MEDIQA-M3G 2024: Medical Question Answering in Dermatology with Multimodal Learning ( http://arxiv.org/abs/2405.01583v1 )

ライセンス: Link先を確認
Nadia Saeed, (参考訳) MEDIQA-M3G 2024は、皮膚科における多言語・マルチモーダル医療回答生成のための新しいソリューションを必要とする(wai Yim et al , 2024a)。 本稿では,オープンエンド医療質問応答(QA)のための弱教師付き学習手法を提案することによって,従来の手法の限界に対処する。 本システムは,VGG16-CNN-SVMモデルを用いて,手軽に利用できるMEDIQA-M3G画像を利用する。 事前学習されたQAモデルを用いて、マルチモーダル融合により視覚情報とテキスト情報のギャップをさらに埋める。 このアプローチは、事前に定義された答えの選択がなくても、複雑でオープンな質問に取り組みます。 画像と並行して複数の応答でViT-CLIPモデルにフィードバックすることで、包括的回答の生成を促進する。 この研究は、医療QA研究を前進させ、臨床意思決定支援システムへの道を切り開き、最終的に医療提供を改善する。

The MEDIQA-M3G 2024 challenge necessitates novel solutions for Multilingual & Multimodal Medical Answer Generation in dermatology (wai Yim et al., 2024a). This paper addresses the limitations of traditional methods by proposing a weakly supervised learning approach for open-ended medical question-answering (QA). Our system leverages readily available MEDIQA-M3G images via a VGG16-CNN-SVM model, enabling multilingual (English, Chinese, Spanish) learning of informative skin condition representations. Using pre-trained QA models, we further bridge the gap between visual and textual information through multimodal fusion. This approach tackles complex, open-ended questions even without predefined answer choices. We empower the generation of comprehensive answers by feeding the ViT-CLIP model with multiple responses alongside images. This work advances medical QA research, paving the way for clinical decision support systems and ultimately improving healthcare delivery.
翻訳日:2024-05-12 16:00:17 公開日:2024-04-27
# 外来トリアージ指導におけるChatGPTの適用性の検討 : 比較検討

Evaluating the Application of ChatGPT in Outpatient Triage Guidance: A Comparative Study ( http://arxiv.org/abs/2405.00728v1 )

ライセンス: Link先を確認
Dou Liu, Ying Han, Xiandi Wang, Xiaomei Tan, Di Liu, Guangwu Qian, Kang Li, Dan Pu, Rong Yin, (参考訳) 医療における人工知能(AI)の統合は、運用効率と健康結果を高めるための変革的な可能性を示す。 ChatGPTのような大規模言語モデル(LLM)は、医療的意思決定をサポートする能力を示している。 医療システムにLSMを組み込むことは、医療開発において有望なトレンドになりつつある。 救急部門におけるトリアージ問題に対処するChatGPTの可能性を検討するとともに、外来部門におけるChatGPTの適用について検討する研究は少ない。 本研究は, 外来トリアージにおけるワークフローの合理化と効率の向上に焦点をあてて, 内転反応解析と間転反応比較の両方を含む外来指導におけるChatGPTの応答の整合性を評価することを目的とする。 インバージョンの場合、ChatGPT-4.0の内部応答一貫性はChatGPT-3.5 (p=0.03) よりも著しく高く、両者とも中程度の一貫性(4.0は71.2%、3.5は59.6%)を持つ。 しかしながら、バージョン間の一貫性は比較的低い(平均一貫性スコア=1.43/3、中央値=1)。 また、比較で完全に一致するトップレコメンデーションは50%に過ぎません。 興味深いことに、ChatGPT-3.5応答はChatGPT-4.0 (p=0.02) の応答よりも完全である可能性が高い。 この発見は、AI支援外来手術に関する洞察を提供するとともに、医療利用におけるLSMの可能性と限界の探索を促進する。 今後の研究は、エルゴノミクスとヒューマンファクターの原則に基づく医療システムにおけるLSMとAIの統合を慎重に最適化することに焦点を当て、効果的な外来トリアージの特定のニーズと正確に一致させるかもしれない。

The integration of Artificial Intelligence (AI) in healthcare presents a transformative potential for enhancing operational efficiency and health outcomes. Large Language Models (LLMs), such as ChatGPT, have shown their capabilities in supporting medical decision-making. Embedding LLMs in medical systems is becoming a promising trend in healthcare development. The potential of ChatGPT to address the triage problem in emergency departments has been examined, while few studies have explored its application in outpatient departments. With a focus on streamlining workflows and enhancing efficiency for outpatient triage, this study specifically aims to evaluate the consistency of responses provided by ChatGPT in outpatient guidance, including both within-version response analysis and between-version comparisons. For within-version, the results indicate that the internal response consistency for ChatGPT-4.0 is significantly higher than ChatGPT-3.5 (p=0.03) and both have a moderate consistency (71.2% for 4.0 and 59.6% for 3.5) in their top recommendation. However, the between-version consistency is relatively low (mean consistency score=1.43/3, median=1), indicating few recommendations match between the two versions. Also, only 50% top recommendations match perfectly in the comparisons. Interestingly, ChatGPT-3.5 responses are more likely to be complete than those from ChatGPT-4.0 (p=0.02), suggesting possible differences in information processing and response generation between the two versions. The findings offer insights into AI-assisted outpatient operations, while also facilitating the exploration of potentials and limitations of LLMs in healthcare utilization. Future research may focus on carefully optimizing LLMs and AI integration in healthcare systems based on ergonomic and human factors principles, precisely aligning with the specific needs of effective outpatient triage.
翻訳日:2024-05-03 21:02:11 公開日:2024-04-27
# リニアからリニアへの最適化:定常および非定常DR-サブモジュール最適化への新たなフレームワーク

From Linear to Linearizable Optimization: A Novel Framework with Applications to Stationary and Non-stationary DR-submodular Optimization ( http://arxiv.org/abs/2405.00065v1 )

ライセンス: Link先を確認
Mohammad Pedramfar, Vaneet Aggarwal, (参考訳) 本稿では,異なる凸集合上の単調および非単調なケースを含む,様々な条件下での凹凸とDR-部分モジュラリティを拡張するクラスである上線形化可能/四分割可能関数の概念を紹介する。 一般メタアルゴリズムは、線形・四次最大化のためのアルゴリズムを上四角化関数を最適化するものに変換し、凹凸問題とDR-部分モジュラー最適化問題に統一的なアプローチを提供する。 本論文は、これらの結果を複数のフィードバック設定に拡張し、半帯域/一階フィードバックと帯域/二階フィードバックの変換を容易にし、一階フィードバックと半帯域/二階フィードバックの変換を容易にする。 このフレームワークを利用することで、新しいプロジェクションフリーアルゴリズムはFollow The Perturbed Leader (FTPL) や他のアルゴリズムを線形/凸最適化のベースアルゴリズムとして利用し、様々なケースで最先端の結果を改善する。 DR-サブモジュラー最大化のために動的かつ適応的な後悔保証が得られ、これらの設定でそのような保証を達成するための最初のアルゴリズムがマークされる。 特に,本論文は,既存の最先端結果と比較して仮定を少なくして,その広範な適用性と非凸最適化への理論的貢献を裏付けるものである。

This paper introduces the notion of upper linearizable/quadratizable functions, a class that extends concavity and DR-submodularity in various settings, including monotone and non-monotone cases over different convex sets. A general meta-algorithm is devised to convert algorithms for linear/quadratic maximization into ones that optimize upper quadratizable functions, offering a unified approach to tackling concave and DR-submodular optimization problems. The paper extends these results to multiple feedback settings, facilitating conversions between semi-bandit/first-order feedback and bandit/zeroth-order feedback, as well as between first/zeroth-order feedback and semi-bandit/bandit feedback. Leveraging this framework, new projection-free algorithms are derived using Follow The Perturbed Leader (FTPL) and other algorithms as base algorithms for linear/convex optimization, improving upon state-of-the-art results in various cases. Dynamic and adaptive regret guarantees are obtained for DR-submodular maximization, marking the first algorithms to achieve such guarantees in these settings. Notably, the paper achieves these advancements with fewer assumptions compared to existing state-of-the-art results, underscoring its broad applicability and theoretical contributions to non-convex optimization.
翻訳日:2024-05-02 17:35:46 公開日:2024-04-27
# 発展途上国におけるマラリアサーベイランスのためのデータモデルの一形式的仕様

A Formal Specification of a Data Model for Malaria Surveillance in the Developing World ( http://arxiv.org/abs/2404.17859v1 )

ライセンス: Link先を確認
Emmanuel Tuyishimire, (参考訳) 第4次産業革命(4IR)と新型コロナウイルス(COVID-19)のパンデミックは、診断プロセスのデジタル化を大声で呼び掛けた。 世界は、より効率的な治療と管理のために、マラリアなどの長寿疾患の診断をデジタル化する義務があると信じている。 マラリアのコントロールは、データ収集のような診断プロセスのデジタル化の恩恵を受けることが示されている。 本稿では,デジタルデータ収集システムのアーキテクチャとマラリア認識のためのデータ収集方法を提案する。 システムはZ表記を用いて正式に指定され、システムの能力に基づいてマラリア決定因子が定義され、その検索機構が議論される。

The fourth Industrial Revolution(4IR), together with the COVID-19 pandemic have made a loud call for digitizing diagnosis processes. The world is now convinced that it is imperative to digitize the diagnosis of long standing diseases such as malaria for more efficient treatment and control. It has been seen that malaria control would benefit a lot from digitizing its diagnosis processes such as data gathering. We propose, in this paper, the architecture of a digital data collection system and how it is used to gather data for malaria awareness. The system is formally specified using Z notation, and based on the capability of the system, possible malaria determinants are defined and their retrieving mechanisms are discussed.
翻訳日:2024-05-01 18:39:28 公開日:2024-04-27
# TI-ASU: 音声の欠落に対するテキスト・音声インプットによるロバスト自動音声理解に向けて

TI-ASU: Toward Robust Automatic Speech Understanding through Text-to-speech Imputation Against Missing Speech Modality ( http://arxiv.org/abs/2404.17983v1 )

ライセンス: Link先を確認
Tiantian Feng, Xuan Shi, Rahul Gupta, Shrikanth S. Narayanan, (参考訳) 自動音声理解(Automatic Speech Understanding, ASU)は、音声や言語(テキスト)コンテンツからニュアンスのある意図、感情、感情、コンテンツ理解を提供する。 通常、堅牢なASUモデルのトレーニングは、大規模で高品質な音声と関連する転写の取得に大きく依存する。 しかしながら、プライバシなどの懸念から、ASUのトレーニングに音声データを収集または使用することは、しばしば困難である。 音声(音声)のモダリティが欠如している場合にASUを有効にするこの設定にアプローチするために,事前訓練されたテキスト音声合成モデルを用いてTI-ASUを提案する。 マルチモード設定と単一モード設定、LLMの使用など、TI-ASUを様々な欠落尺度で評価する広範囲な実験を報告する。 以上の結果から, TI-ASUは, 最大95%の訓練音声が欠落しているシナリオにおいて, ASUの改善に有意な利益をもたらすことが示唆された。 さらに,TI-ASUは投下訓練に適応し,推論中に欠落した音声に対処する際のモデルロバスト性を向上することを示した。

Automatic Speech Understanding (ASU) aims at human-like speech interpretation, providing nuanced intent, emotion, sentiment, and content understanding from speech and language (text) content conveyed in speech. Typically, training a robust ASU model relies heavily on acquiring large-scale, high-quality speech and associated transcriptions. However, it is often challenging to collect or use speech data for training ASU due to concerns such as privacy. To approach this setting of enabling ASU when speech (audio) modality is missing, we propose TI-ASU, using a pre-trained text-to-speech model to impute the missing speech. We report extensive experiments evaluating TI-ASU on various missing scales, both multi- and single-modality settings, and the use of LLMs. Our findings show that TI-ASU yields substantial benefits to improve ASU in scenarios where even up to 95% of training speech is missing. Moreover, we show that TI-ASU is adaptive to dropout training, improving model robustness in addressing missing speech during inference.
翻訳日:2024-05-01 18:39:28 公開日:2024-04-27
# 低品質データに対するマルチモーダルフュージョン:包括的調査

Multimodal Fusion on Low-quality Data: A Comprehensive Survey ( http://arxiv.org/abs/2404.18947v1 )

ライセンス: Link先を確認
Qingyang Zhang, Yake Wei, Zongbo Han, Huazhu Fu, Xi Peng, Cheng Deng, Qinghua Hu, Cai Xu, Jie Wen, Di Hu, Changqing Zhang, (参考訳) マルチモーダル融合は、より正確な予測を目標として、複数のモーダルからの情報を統合することに焦点を当てており、自律運転や診断を含む幅広いシナリオにおいて顕著な進歩を遂げている。 しかし、マルチモーダル融合の信頼性は、特に低品質なデータ設定下では明らかにされていない。 本稿では,野生におけるマルチモーダル融合の共通課題と最近の進歩を調査し,それらを包括的分類法で示す。 データ中心の視点では,(1)不均質なノイズで汚染されるノイズの多いマルチモーダルデータ,(2)いくつかのモーダルが欠落している不完全なマルチモーダルデータ,(3)異なるモーダルの性質や性質が著しく異なる不均衡なマルチモーダルデータ,(4)各モーダルの品質が異なるサンプルに対して動的に変化する品質変化のマルチモーダルデータである。 この新たな分類によって、研究者はフィールドの状態を理解し、いくつかの潜在的な方向を特定することができる。 また、この分野のオープンな問題と、今後の興味深い研究の方向性についても論じる。

Multimodal fusion focuses on integrating information from multiple modalities with the goal of more accurate prediction, which has achieved remarkable progress in a wide range of scenarios, including autonomous driving and medical diagnosis. However, the reliability of multimodal fusion remains largely unexplored especially under low-quality data settings. This paper surveys the common challenges and recent advances of multimodal fusion in the wild and presents them in a comprehensive taxonomy. From a data-centric view, we identify four main challenges that are faced by multimodal fusion on low-quality data, namely (1) noisy multimodal data that are contaminated with heterogeneous noises, (2) incomplete multimodal data that some modalities are missing, (3) imbalanced multimodal data that the qualities or properties of different modalities are significantly different and (4) quality-varying multimodal data that the quality of each modality dynamically changes with respect to different samples. This new taxonomy will enable researchers to understand the state of the field and identify several potential directions. We also provide discussion for the open problems in this field together with interesting future research directions.
翻訳日:2024-05-01 18:39:28 公開日:2024-04-27
# 隣接変圧器:隣接近傍からの再構成誤差による時系列異常検出の改善

Sub-Adjacent Transformer: Improving Time Series Anomaly Detection with Reconstruction Error from Sub-Adjacent Neighborhoods ( http://arxiv.org/abs/2404.18948v1 )

ライセンス: Link先を確認
Wenzhen Yue, Xianghua Ying, Ruohao Guo, DongDong Chen, Ji Shi, Bowei Xing, Yuqing Zhu, Taiyan Chen, (参考訳) 本稿では,非教師付き時系列異常検出のための新しいアテンション機構を備えたサブアジャセント変換器を提案する。 時間点再構成において, 周辺地域のすべての点に依存する従来の手法とは異なり, 本手法は, 隣接地区と呼ばれる, 対象地点に隣接しない領域に注意を限定する。 我々の重要な観察は、異常の希少性のため、彼らは通常、彼らのすぐそばの地域と、彼らのすぐそばの地域とより顕著な相違を示します。 サブアジャセント領域に注意を集中させることで、異常の再構築をより困難にし、その検出性を高める。 技術的には、トレーニング段階で対応する要素を拡大することにより、注意行列の非対角領域に注意を集中させる。 所望のアテンション行列パターンの実装を容易にするために,その柔軟性と適応性から線形アテンションを採用する。 さらに,線形アテンションの性能を向上させるために,学習可能なマッピング関数を提案する。 実証的には、Sub-Adjacent Transformerは6つの実世界の異常検出ベンチマークで最先端のパフォーマンスを実現し、サーバ監視、宇宙探査、水処理などのさまざまな分野をカバーする。

In this paper, we present the Sub-Adjacent Transformer with a novel attention mechanism for unsupervised time series anomaly detection. Unlike previous approaches that rely on all the points within some neighborhood for time point reconstruction, our method restricts the attention to regions not immediately adjacent to the target points, termed sub-adjacent neighborhoods. Our key observation is that owing to the rarity of anomalies, they typically exhibit more pronounced differences from their sub-adjacent neighborhoods than from their immediate vicinities. By focusing the attention on the sub-adjacent areas, we make the reconstruction of anomalies more challenging, thereby enhancing their detectability. Technically, our approach concentrates attention on the non-diagonal areas of the attention matrix by enlarging the corresponding elements in the training stage. To facilitate the implementation of the desired attention matrix pattern, we adopt linear attention because of its flexibility and adaptability. Moreover, a learnable mapping function is proposed to improve the performance of linear attention. Empirically, the Sub-Adjacent Transformer achieves state-of-the-art performance across six real-world anomaly detection benchmarks, covering diverse fields such as server monitoring, space exploration, and water treatment.
翻訳日:2024-05-01 18:39:28 公開日:2024-04-27
# ニューラルネットワークの深さを減らすためのエントロピーに基づく重要度基準

The Simpler The Better: An Entropy-Based Importance Metric To Reduce Neural Networks' Depth ( http://arxiv.org/abs/2404.18949v1 )

ライセンス: Link先を確認
Victor Quétu, Zhu Liao, Enzo Tartaglione, (参考訳) ディープニューラルネットワークは複雑なタスクを解くのに非常に効果的であるが、大きめの事前訓練されたモデルは、大きめのモデルの複雑さを必ずしも必要としない、一貫した単純化された下流タスクを解くためにも一般的に使用される。 成長を続けるAI環境の影響を意識して、我々は、大規模モデルによって伝達される事前知識を活用する効率戦略を提案する。 本稿では,過度にパラメータ化された深層ニューラルネットワークの深さを低減し,その計算負担を軽減するために,エントロピーをベースとした重要度mEtRic(EASIER)を利用する手法を提案する。 従来の画像分類設定における手法の有効性を評価する。 ソースコードは、この記事の受理時に公開される。

While deep neural networks are highly effective at solving complex tasks, large pre-trained models are commonly employed even to solve consistently simpler downstream tasks, which do not necessarily require a large model's complexity. Motivated by the awareness of the ever-growing AI environmental impact, we propose an efficiency strategy that leverages prior knowledge transferred by large models. Simple but effective, we propose a method relying on an Entropy-bASed Importance mEtRic (EASIER) to reduce the depth of over-parametrized deep neural networks, which alleviates their computational burden. We assess the effectiveness of our method on traditional image classification setups. The source code will be publicly released upon acceptance of the article.
翻訳日:2024-05-01 18:39:28 公開日:2024-04-27
# CUE-Net:空間的クロップ、UniformerV2の強化、高効率付加注意による暴力検出ビデオ分析

CUE-Net: Violence Detection Video Analytics with Spatial Cropping, Enhanced UniformerV2 and Modified Efficient Additive Attention ( http://arxiv.org/abs/2404.18952v1 )

ライセンス: Link先を確認
Damith Chamalke Senadeera, Xiaoyun Yang, Dimitrios Kollias, Gregory Slabaugh, (参考訳) 本稿では,ビデオ監視における暴力の自動検出を目的とした新しいアーキテクチャであるCUE-Netを紹介する。 技術進歩とコスト削減により監視システムが普及するにつれて、大量のビデオデータを効率的に監視することの難しさが増している。 CUE-Netは、空間的クロップングとUniformerV2アーキテクチャの強化バージョンを組み合わせることでこの問題に対処し、新しい修正された効率的な付加的注意機構(自己意図の二次的な時間的複雑さを低減させる)とともに、畳み込みと自己意図のメカニズムを統合することで、暴力行為を効果的かつ効率的に識別する。 このアプローチは、ビデオフレーム内の遠くまたは部分的に隠された被写体をキャプチャするなど、従来の課題を克服することを目的としている。 CUE-Netは、局所的およびグローバルな時空間的特徴に焦点を合わせ、RWF-2000およびRLVSデータセットにおける最先端のパフォーマンスを達成し、既存の手法を超越している。

In this paper we introduce CUE-Net, a novel architecture designed for automated violence detection in video surveillance. As surveillance systems become more prevalent due to technological advances and decreasing costs, the challenge of efficiently monitoring vast amounts of video data has intensified. CUE-Net addresses this challenge by combining spatial Cropping with an enhanced version of the UniformerV2 architecture, integrating convolutional and self-attention mechanisms alongside a novel Modified Efficient Additive Attention mechanism (which reduces the quadratic time complexity of self-attention) to effectively and efficiently identify violent activities. This approach aims to overcome traditional challenges such as capturing distant or partially obscured subjects within video frames. By focusing on both local and global spatiotemporal features, CUE-Net achieves state-of-the-art performance on the RWF-2000 and RLVS datasets, surpassing existing methods.
翻訳日:2024-05-01 18:29:43 公開日:2024-04-27
# ベイズ攻撃:ベイズニューラルネットワークの敵対的ロバスト性について

Attacking Bayes: On the Adversarial Robustness of Bayesian Neural Networks ( http://arxiv.org/abs/2404.19640v1 )

ライセンス: Link先を確認
Yunzhen Feng, Tim G. J. Rudner, Nikolaos Tsilivis, Julia Kempe, (参考訳) 敵対的な例は、ニューラルネットワークを幅広いビジョンや言語タスクで失敗させることを示したが、最近の研究は、ベイズニューラルネットワーク(BNN)が本質的に敵の摂動に対して堅牢であると主張している。 本稿では,この主張について考察する。 BNNの対角的ロバスト性を調べるため,BNNの予測手法と予測パイプラインを比較的洗練されていない攻撃を用いて3つのタスクに対して破ることが可能であるかを検討する。 我々は、最先端の近似推論手法で訓練されたBNNや、ハミルトン・モンテカルロで訓練されたBNNでさえ、敵の攻撃に非常に敏感であることがわかった。 また,BNNの本質的にの敵意的堅牢性を主張し,BNNと不確実性を考慮したベイズ予測パイプラインが本質的に敵意的攻撃に対して堅牢ではないことを確定的に証明する以前の研究において,様々な概念的および実験的誤りも見出した。

Adversarial examples have been shown to cause neural networks to fail on a wide range of vision and language tasks, but recent work has claimed that Bayesian neural networks (BNNs) are inherently robust to adversarial perturbations. In this work, we examine this claim. To study the adversarial robustness of BNNs, we investigate whether it is possible to successfully break state-of-the-art BNN inference methods and prediction pipelines using even relatively unsophisticated attacks for three tasks: (1) label prediction under the posterior predictive mean, (2) adversarial example detection with Bayesian predictive uncertainty, and (3) semantic shift detection. We find that BNNs trained with state-of-the-art approximate inference methods, and even BNNs trained with Hamiltonian Monte Carlo, are highly susceptible to adversarial attacks. We also identify various conceptual and experimental errors in previous works that claimed inherent adversarial robustness of BNNs and conclusively demonstrate that BNNs and uncertainty-aware Bayesian prediction pipelines are not inherently robust against adversarial attacks.
翻訳日:2024-05-01 13:46:04 公開日:2024-04-27
# 超広角高忠実ホログラフィディスプレイのためのニューラルエッテンデュエクスパンダー

Neural Étendue Expander for Ultra-Wide-Angle High-Fidelity Holographic Display ( http://arxiv.org/abs/2109.08123v4 )

ライセンス: Link先を確認
Ethan Tseng, Grace Kuo, Seung-Hwan Baek, Nathan Matsuda, Andrew Maimone, Florian Schiffers, Praneeth Chakravarthula, Qiang Fu, Wolfgang Heidrich, Douglas Lanman, Felix Heide, (参考訳) ホログラフィックディスプレイは、空間光変調器を用いて光のコヒーレントビームの波面を動的に変調することで光場を生成することができる。 しかし、既存の動的空間光変調器の空間分解能は、回折角に強い拘束力を与える。 結果として、現代のホログラフィックディスプレイは、表示領域の積であり、回折光の最大固体角である低い \'{e}tendue を有する。 低い \'{e}tendue は視野(FOV)または表示サイズを犠牲にする。 本研究では、この制限を、ニューラルな \'{e}tendue 展開器を提示することによって引き上げる。 自然画像データセットから学習されたこの新しい光学素子は、コンパクトなフォームファクターと表示されたコンテンツの忠実さを維持しながら、超広帯域のFOVに対して高い回折角を可能にする。 ニューラル=======================================================================================================================================================================================。

Holographic displays can generate light fields by dynamically modulating the wavefront of a coherent beam of light using a spatial light modulator, promising rich virtual and augmented reality applications. However, the limited spatial resolution of existing dynamic spatial light modulators imposes a tight bound on the diffraction angle. As a result, modern holographic displays possess low \'{e}tendue, which is the product of the display area and the maximum solid angle of diffracted light. The low \'{e}tendue forces a sacrifice of either the field-of-view (FOV) or the display size. In this work, we lift this limitation by presenting neural \'{e}tendue expanders. This new breed of optical elements, which is learned from a natural image dataset, enables higher diffraction angles for ultra-wide FOV while maintaining both a compact form factor and the fidelity of displayed contents to human viewers. With neural \'{e}tendue expanders, we experimentally achieve 64$\times$ \'{e}tendue expansion of natural images in full color, expanding the FOV by an order of magnitude horizontally and vertically, with high-fidelity reconstruction quality (measured in PSNR) over 29 dB on retinal-resolution images.
翻訳日:2024-05-01 03:53:07 公開日:2024-04-27
# 量子コンピューティングとランダムフォレスト法による心臓病検出

Heart Disease Detection using Quantum Computing and Partitioned Random Forest Methods ( http://arxiv.org/abs/2208.08882v3 )

ライセンス: Link先を確認
Hanif Heidari, Gerhard Hellstern, Murugappan Murugappan, (参考訳) 心臓病の死亡率や死亡率は増加しており、公衆衛生や世界経済に悪影響を及ぼしている。 心臓病の早期発見は、心臓死亡率と死亡率を低下させる。 近年の研究では,5キュービット以上の心疾患の予測に量子コンピューティング手法が用いられている。 クビット数が多いにもかかわらず、初期の研究では、心臓病の予測の精度は低く、不整脈効果は考慮されておらず、心臓病の予測には計算時間と記憶が必要であると報告していた。 これらの制約を克服するために,数量子ビット(2〜4ビット)を用いたハイブリッドランダムフォレスト量子ニューラルネットワーク(HQRF)を提案する。 本研究では,クリーブランドとスタットログという2つのオープンソースデータセットを用いて量子ネットワークを適用した。 提案アルゴリズムは2つのオープンソースデータセットに適用され、10倍のクロスバリデーションと70-30のトレイン/テスト比率のような2種類のテスト戦略を利用している。 提案手法の性能を,心臓疾患予測のための文献で提案したHybrid quantum Neural Network (HQNN) アルゴリズムと比較した。 HQNNとHQRFは、それぞれ10倍のクロスバリデーションと70/30の列車/テストスプリット比で優れていた。 その結果、HQNNは大規模なトレーニングデータセットを必要とする一方で、HQRFは大規模なトレーニングデータセットと小規模なトレーニングデータセットの両方により適していることがわかった。 実験結果によると、提案したHQRFはHQNNと比較して外れ値に敏感ではない。 以前の研究と比較すると、HQRFは96.43%と97.78%の曲線の下で最大面積を達成し、それぞれHQNNとクリーブランドとスタットログのデータセットを用いて心臓病を予測した。 提案したHQRFは、早期に心臓病を検出でき、臨床診断を高速化する。

Heart disease morbidity and mortality rates are increasing, which has a negative impact on public health and the global economy. Early detection of heart disease reduces the incidence of heart mortality and morbidity. Recent research has utilized quantum computing methods to predict heart disease with more than 5 qubits and are computationally intensive. Despite the higher number of qubits, earlier work reports a lower accuracy in predicting heart disease, have not considered the outlier effects, and requires more computation time and memory for heart disease prediction. To overcome these limitations, we propose hybrid random forest quantum neural network (HQRF) using a few qubits (two to four) and considered the effects of outlier in the dataset. Two open-source datasets, Cleveland and Statlog, are used in this study to apply quantum networks. The proposed algorithm has been applied on two open-source datasets and utilized two different types of testing strategies such as 10-fold cross validation and 70-30 train/test ratio. We compared the performance of our proposed methodology with our earlier algorithm called hybrid quantum neural network (HQNN) proposed in the literature for heart disease prediction. HQNN and HQRF outperform in 10-fold cross validation and 70/30 train/test split ratio, respectively. The results show that HQNN requires a large training dataset while HQRF is more appropriate for both large and small training dataset. According to the experimental results, the proposed HQRF is not sensitive to the outlier data compared to HQNN. Compared to earlier works, the proposed HQRF achieved a maximum area under the curve (AUC) of 96.43% and 97.78% in predicting heart diseases using Cleveland and Statlog datasets, respectively with HQNN. The proposed HQRF is highly efficient in detecting heart disease at an early stage and will speed up clinical diagnosis.
翻訳日:2024-05-01 03:47:11 公開日:2024-04-27
# データ選択: 小さな解釈可能なモデルを構築するための一般的な原則

Data Selection: A General Principle for Building Small Interpretable Models ( http://arxiv.org/abs/2210.03921v3 )

ライセンス: Link先を確認
Abhishek Ghose, (参考訳) 精度の高い小型モデルを構築するための効果的で一般的な戦略を示す実証的な証拠を提示する。 このようなモデルは解釈可能性に魅力があり、リソース制約のある環境でも使われる。 この戦略は、提供されるトレーニングデータからトレーニング分布とサンプルを学習することである。 分散学習アルゴリズムは,本研究の貢献ではない。我々の貢献は,この戦略の多種多様な実践的利用の厳密な実証である。 本研究では,(1)クラスタ説明木の構築,(2)プロトタイプベース分類,(3)ランダムフォレストを用いた分類の課題に適用し,数十年前の弱基線の精度を向上し,専門的近代技術と競合することを示す。 この戦略はモデルサイズの概念を多用している。 最初の2つのタスクでは、モデルのサイズはそれぞれ木の葉の数とプロトタイプの数だと考えられている。 ランダムフォレストを含む最終作業では、モデルサイズが木の数と最大深さの2つ以上の要素からなる場合であっても、この戦略が有効であることが示されている。 複数のデータセットを用いた正の結果は統計的に有意であることが示されている。

We present convincing empirical evidence for an effective and general strategy for building accurate small models. Such models are attractive for interpretability and also find use in resource-constrained environments. The strategy is to learn the training distribution and sample accordingly from the provided training data. The distribution learning algorithm is not a contribution of this work; our contribution is a rigorous demonstration of the broad utility of this strategy in various practical settings. We apply it to the tasks of (1) building cluster explanation trees, (2) prototype-based classification, and (3) classification using Random Forests, and show that it improves the accuracy of decades-old weak traditional baselines to be competitive with specialized modern techniques. This strategy is also versatile wrt the notion of model size. In the first two tasks, model size is considered to be number of leaves in the tree and the number of prototypes respectively. In the final task involving Random Forests, the strategy is shown to be effective even when model size comprises of more than one factor: number of trees and their maximum depth. Positive results using multiple datasets are presented that are shown to be statistically significant.
翻訳日:2024-05-01 03:47:11 公開日:2024-04-27
# パーソナライズ課題のための強化学習エージェントの政策エントロピーの検討

Examining Policy Entropy of Reinforcement Learning Agents for Personalization Tasks ( http://arxiv.org/abs/2211.11869v4 )

ライセンス: Link先を確認
Anton Dereventsov, Andrew Starnes, Clayton G. Webster, (参考訳) 本研究は, パーソナライズ環境における強化学習システムの挙動を把握し, 利用した学習アルゴリズムの種類に関連する政策エントロピーの違いを詳述することを目的とした。 政策最適化エージェントは、訓練中にしばしば低エントロピーポリシーを持ち、実際にエージェントが特定の行動を優先順位付けし、他のエージェントを避ける結果となることを実証する。 逆に、Q-Learningエージェントはそのような行動に非常に影響を受けにくく、トレーニングを通して一般的に高いエントロピーポリシーを維持しており、現実のアプリケーションでは好まれる。 本研究では,これらのエントロピーの違いが採用される学習の種類に起因することを示すため,多種多様な数値実験と理論的正当性を提供する。

This effort is focused on examining the behavior of reinforcement learning systems in personalization environments and detailing the differences in policy entropy associated with the type of learning algorithm utilized. We demonstrate that Policy Optimization agents often possess low-entropy policies during training, which in practice results in agents prioritizing certain actions and avoiding others. Conversely, we also show that Q-Learning agents are far less susceptible to such behavior and generally maintain high-entropy policies throughout training, which is often preferable in real-world applications. We provide a wide range of numerical experiments as well as theoretical justification to show that these differences in entropy are due to the type of learning being employed.
翻訳日:2024-05-01 03:37:12 公開日:2024-04-27
# メタ学習によるハミルトン表現のクロスドメイン一般化に向けて

Towards Cross Domain Generalization of Hamiltonian Representation via Meta Learning ( http://arxiv.org/abs/2212.01168v4 )

ライセンス: Link先を確認
Yeongwoo Song, Hawoong Jeong, (参考訳) 物理の深層学習の最近の進歩は、物理の先行や誘導バイアスをニューラルネットワークに組み込むことによって、ターゲットシステムの共有表現を発見することに集中している。 有効ではあるが、これらの手法はシステム領域に限られており、システムの種類は一貫しているため、異なる法則によって管理される新しい、あるいは見えない物理的システムへの適応を保証することはできない。 例えば、マススプリングシステムでトレーニングされたニューラルネットワークは、2体システムや他の物理法則の異なるシステムの振る舞いの正確な予測を保証できない。 本研究では、ハミルトン力学の分野におけるクロス領域の一般化を目標とすることで、大きな前進を試みている。 我々は,グラフニューラルネットワーク(GNN)を用いてシステムをモデル化し,メタ学習アルゴリズムを用いて,システムの分散を経験し,新しい物理に適応させる。 本手法は,複数のシステム領域にまたがって一般化可能な統一ハミルトン表現を学習し,システム固有モデルの限界を克服することを目的としている。 メタ訓練モデルが、異なる物理領域間で一貫した一般化されたハミルトン表現をキャプチャすることを示した。 全体として、メタ学習を利用することで、クロスドメインの一般化を実現するフレームワークを提供し、ディープラーニングを通じて幅広い動的システムを理解するための統一モデルへのステップを提供する。

Recent advances in deep learning for physics have focused on discovering shared representations of target systems by incorporating physics priors or inductive biases into neural networks. While effective, these methods are limited to the system domain, where the type of system remains consistent and thus cannot ensure the adaptation to new, or unseen physical systems governed by different laws. For instance, a neural network trained on a mass-spring system cannot guarantee accurate predictions for the behavior of a two-body system or any other system with different physical laws. In this work, we take a significant leap forward by targeting cross domain generalization within the field of Hamiltonian dynamics. We model our system with a graph neural network (GNN) and employ a meta learning algorithm to enable the model to gain experience over a distribution of systems and make it adapt to new physics. Our approach aims to learn a unified Hamiltonian representation that is generalizable across multiple system domains, thereby overcoming the limitations of system-specific models. We demonstrate that the meta-trained model captures the generalized Hamiltonian representation that is consistent across different physical domains. Overall, through the use of meta learning, we offer a framework that achieves cross domain generalization, providing a step towards a unified model for understanding a wide array of dynamical systems via deep learning.
翻訳日:2024-05-01 03:37:12 公開日:2024-04-27
# 線形制約を結合した非滑らかな非凸最小値問題に対する2次交互近似アルゴリズム

Primal Dual Alternating Proximal Gradient Algorithms for Nonsmooth Nonconvex Minimax Problems with Coupled Linear Constraints ( http://arxiv.org/abs/2212.04672v4 )

ライセンス: Link先を確認
Huiling Zhang, Junlin Wang, Zi Xu, Yu-Hong Dai, (参考訳) 非凸ミニマックス問題は近年、機械学習、信号処理など多くの分野で注目されている。 本稿では,非滑らかな非凸(強い)凹凸問題と線形制約を結合したミニマックス問題の解法として,主対数交互近位勾配(PDAPG)アルゴリズムを提案する。 2つのアルゴリズムの反復複雑性は$\mathcal{O}\left( \varepsilon ^{-2} \right)$ (resp) であることが証明される。 $\mathcal{O}\left( \varepsilon ^{-4} \right)$) は、$\varepsilon$-stationary 点に到達するために、非凸強凸 (resp. nonconvex-concave) 設定で与えられる。 我々の知る限り、線形制約を結合した非凸ミニマックス問題を解くために、反復複雑性が保証される最初のアルゴリズムである。

Nonconvex minimax problems have attracted wide attention in machine learning, signal processing and many other fields in recent years. In this paper, we propose a primal-dual alternating proximal gradient (PDAPG) algorithm for solving nonsmooth nonconvex-(strongly) concave minimax problems with coupled linear constraints, respectively. The iteration complexity of the two algorithms are proved to be $\mathcal{O}\left( \varepsilon ^{-2} \right)$ (resp. $\mathcal{O}\left( \varepsilon ^{-4} \right)$) under nonconvex-strongly concave (resp. nonconvex-concave) setting to reach an $\varepsilon$-stationary point. To our knowledge, it is the first algorithm with iteration complexity guarantees for solving the nonconvex minimax problems with coupled linear constraints.
翻訳日:2024-05-01 03:37:12 公開日:2024-04-27
# 高次および指向性相互作用予測のためのニューラル・テンポラル・ポイント・プロセス

Neural Temporal Point Process for Forecasting Higher Order and Directional Interactions ( http://arxiv.org/abs/2301.12210v2 )

ライセンス: Link先を確認
Tony Gracious, Arman Gupta, Ambedkar Dukkipati, (参考訳) 現実世界のシステムは、時間とともに進化する相互作用する実体によって構成される。 実体の力学を学習することで相互作用を予測できるモデルを作成することは、多くの分野において重要な問題である。 初期の作業では、動的グラフモデルを使用してこれを実現した。 しかし、実世界の相互作用は2つ以上の実体を含むため、ペアワイズよりも複雑であり、これらの高次相互作用の多くは方向成分を持つ。 これらの例は、送信者を含む電子メール交換や、複数の受信者を含む通信ネットワーク、著者が他者の作業に頼っている引用ネットワークなどに見られる。 本稿では,ハイパーエッジがノードの変動数間の関係をモデル化するためのネイティブフレームワークを提供するため,超エッジイベント予測のためのディープニューラルネットワークベースモデル \textit{Directed HyperNode Temporal Point Process} を提案することによって,高階指向インタラクション予測の問題を解決する。 提案手法は,イベントが観測されるノードを最初に予測し,そのノードが観測するノードに対して,ハイパーエッジサイズと隣接ベクトルを予測することによって,探索空間を縮小する。 これらに基づいて、候補のハイパーエッジを生成し、それをハイパーエッジ予測器が使用して、基底の真理を識別する。 モデルの有効性を実証するため、5つのデータセットをキュレートし、広範な実証的研究を行った。 これは、高次指向性相互作用を予測する問題を解く最初の研究であると考えています。

Real-world systems are made of interacting entities that evolve with time. Creating models that can forecast interactions by learning the dynamics of entities is an important problem in numerous fields. Earlier works used dynamic graph models to achieve this. However, real-world interactions are more complex than pairwise, as they involve more than two entities, and many of these higher-order interactions have directional components. Examples of these can be seen in communication networks such as email exchanges that involve a sender, and multiple recipients, citation networks, where authors draw upon the work of others, and so on. In this paper, we solve the problem of higher-order directed interaction forecasting by proposing a deep neural network-based model \textit{Directed HyperNode Temporal Point Process} for directed hyperedge event forecasting, as hyperedge provides a native framework for modeling relationships among the variable number of nodes. Our proposed technique reduces the search space by initially forecasting the nodes at which events will be observed and then forecasting hyperedge sizes and adjacency vectors for the nodes observing events. Based on these, it generates candidate hyperedges, which are then used by a hyperedge predictor to identify the ground truth. To demonstrate the efficiency of our model, we curated five datasets and conducted an extensive empirical study. We believe that this is the first work that solves the problem of forecasting higher-order directional interactions.
翻訳日:2024-05-01 03:37:12 公開日:2024-04-27
# TAMUNA: ローカルトレーニング,圧縮,部分参加による分散最適化の2倍高速化

TAMUNA: Doubly Accelerated Distributed Optimization with Local Training, Compression, and Partial Participation ( http://arxiv.org/abs/2302.09832v3 )

ライセンス: Link先を確認
Laurent Condat, Ivan Agarský, Grigory Malinovsky, Peter Richtárik, (参考訳) 分散最適化と学習では、複数のマシンが並列にローカル計算と遠隔サーバとの通信を交互に行う。 通信は通常遅くてコストがかかり、主要なボトルネックを形成します。 これは、多くのユーザがグローバルなトレーニングタスクに向かって協力するフェデレーション学習において特に当てはまります。 さらに、一部のクライアントがプロセス全体に参加することができず、ある時点でアイドル状態にある場合が多いため、ロバストなアルゴリズムが部分的な参加を可能にすることが望ましい。 コミュニケーションの負担を軽減するために2つの戦略が一般的である。 1) 通信頻度の低い、または通信ラウンド間のより局所的な計算を同等に行うローカルトレーニング。 2) 圧縮により, 実次元ベクトルの代わりに圧縮情報を伝達する。 ローカルトレーニングと圧縮の2つの戦略を共同で活用し,部分的参加を可能にする分散最適化のための最初のアルゴリズムであるTAMUNAを提案する。 強い凸設定では、TAMUNAは正確な解に線形に収束し、2つのメカニズムの利点を証明し、関数の条件数とモデル次元に関して2倍に加速する収束率を示す。

In distributed optimization and learning, several machines alternate between local computations in parallel and communication with a distant server. Communication is usually slow and costly and forms the main bottleneck. This is particularly true in federated learning, where a large number of users collaborate toward a global training task. In addition, it is desirable for a robust algorithm to allow for partial participation, since it is often the case that some clients are not able to participate to the entire process and are idle at certain times. Two strategies are popular to reduce the communication burden: 1) local training, which consists in communicating less frequently, or equivalently performing more local computations between the communication rounds; and 2) compression, whereby compressed information instead of full-dimensional vectors is communicated. We propose TAMUNA, the first algorithm for distributed optimization that leveraged the two strategies of local training and compression jointly and allows for partial participation. In the strongly convex setting, TAMUNA converges linearly to the exact solution and provably benefits from the two mechanisms: it exhibits a doubly-accelerated convergence rate, with respect to the condition number of the functions and the model dimension.
翻訳日:2024-05-01 01:44:16 公開日:2024-04-27
# 野生における活性化筋群推定に向けて

Towards Activated Muscle Group Estimation in the Wild ( http://arxiv.org/abs/2303.00952v4 )

ライセンス: Link先を確認
Kunyu Peng, David Schneider, Alina Roitberg, Kailun Yang, Jiaming Zhang, Chen Deng, Kaiyu Zhang, M. Saquib Sarfraz, Rainer Stiefelhagen, (参考訳) 本稿では,野生の身体活動における活動筋領域の同定を目的としたビデオベースの活動筋群推定(AMGE)の課題に取り組む。 この目的のために、135の異なるアクティビティと20のラベル付き筋群を持つ15Kビデオクリップを特徴とする、筋マップデータセットを提供する。 このデータセットは、フレキシブルな環境制約の下でスポーツやリハビリテーション医療において、複数のビデオベースのアプリケーションにビスタを開放する。 このデータセットはYouTubeのビデオで構築されており、特にハイインテンシティ・インターバルトレーニング(HIIT)をターゲットとしている。 AMGEモデルを現実の状況に適用するためには、トレーニング中に存在しない多くの身体活動と、新しい活性化筋の組み合わせを伴って、モデルが適切に一般化できることが不可欠である。 これを実現するために,本ベンチマークでは,モデルがトレーニングセットから除外されたアクティビティタイプに露出する評価設定についても取り上げている。 実験の結果,AMGEタスクに適応した既存アーキテクチャの汎用性は依然として課題であることがわかった。 そこで本研究では,ビデオトランスモデルとスケルトンに基づくグラフ畳み込みモデルと,多分類トークン上で実行される新しいクロスモーダル知識蒸留を用いたマルチモーダル特徴融合機構を用いたTransM3Eを提案する。 提案手法は,従来の身体活動と新しい身体活動の両方を扱う場合,すべての人気ビデオ分類モデルを上回る。 コントリビュートされたデータセットとコードはhttps://github.com/KPeng9510/MuscleMapで公開されている。

In this paper, we tackle the new task of video-based Activated Muscle Group Estimation (AMGE) aiming at identifying active muscle regions during physical activity in the wild. To this intent, we provide the MuscleMap dataset featuring >15K video clips with 135 different activities and 20 labeled muscle groups. This dataset opens the vistas to multiple video-based applications in sports and rehabilitation medicine under flexible environment constraints. The proposed MuscleMap dataset is constructed with YouTube videos, specifically targeting High-Intensity Interval Training (HIIT) physical exercise in the wild. To make the AMGE model applicable in real-life situations, it is crucial to ensure that the model can generalize well to numerous types of physical activities not present during training and involving new combinations of activated muscles. To achieve this, our benchmark also covers an evaluation setting where the model is exposed to activity types excluded from the training set. Our experiments reveal that the generalizability of existing architectures adapted for the AMGE task remains a challenge. Therefore, we also propose a new approach, TransM3E, which employs a multi-modality feature fusion mechanism between both the video transformer model and the skeleton-based graph convolution model with novel cross-modal knowledge distillation executed on multi-classification tokens. The proposed method surpasses all popular video classification models when dealing with both, previously seen and new types of physical activities. The contributed dataset and code will be publicly available at https://github.com/KPeng9510/MuscleMap.
翻訳日:2024-05-01 01:44:16 公開日:2024-04-27
# GMValuator: 生成モデルのための類似性に基づくデータ評価

GMValuator: Similarity-based Data Valuation for Generative Models ( http://arxiv.org/abs/2304.10701v7 )

ライセンス: Link先を確認
Jiaxi Yang, Wenglong Deng, Benlin Liu, Yangsibo Huang, James Zou, Xiaoxiao Li, (参考訳) データバリュエーションは、機械学習において重要な役割を果たす。 既存のデータ評価手法は主に差別モデルに焦点を当てており、近年注目されている生成モデルを無視している。 深層生成モデルのために設計されたデータ評価手法の既存の試みは、特定のモデルに集中するか、結果にロバスト性がないかのいずれかである。 さらに、効率性は依然として脆弱な欠点を明らかにしている。 このギャップを埋めるために、類似性マッチングの観点から生成モデルにおけるデータ評価問題を定式化する。 具体的には、生成タスクにデータバリュエーションを提供するための、トレーニング不要でモデルに依存しない最初のアプローチである生成モデルバリュエータ(GMValuator)を紹介する。 革新的な類似性マッチングモジュールを通じて効率的なデータバリュエーションを向上し、画像品質評価を取り入れてバイアスのあるコントリビューションを校正し、生成されたサンプルへのコントリビューションに基づいて、すべてのトレーニングサンプルに属性クレジットを付与する。 さらに、生成モデルにおけるデータ評価手法を評価するための4つの評価基準を導入し、妥当性と真偽の原則を一致させた。 GMValuatorは、その有効性を示すために、様々なデータセットや生成アーキテクチャで広く評価されている。

Data valuation plays a crucial role in machine learning. Existing data valuation methods have primarily focused on discriminative models, neglecting generative models that have recently gained considerable attention. A very few existing attempts of data valuation method designed for deep generative models either concentrates on specific models or lacks robustness in their outcomes. Moreover, efficiency still reveals vulnerable shortcomings. To bridge the gaps, we formulate the data valuation problem in generative models from a similarity-matching perspective. Specifically, we introduce Generative Model Valuator (GMValuator), the first training-free and model-agnostic approach to provide data valuation for generation tasks. It empowers efficient data valuation through our innovatively similarity matching module, calibrates biased contribution by incorporating image quality assessment, and attributes credits to all training samples based on their contributions to the generated samples. Additionally, we introduce four evaluation criteria for assessing data valuation methods in generative models, aligning with principles of plausibility and truthfulness. GMValuator is extensively evaluated on various datasets and generative architectures to demonstrate its effectiveness.
翻訳日:2024-05-01 01:34:26 公開日:2024-04-27
# 多様な領域における活動認識のためのFew-Shot Adaptationの探索

Exploring Few-Shot Adaptation for Activity Recognition on Diverse Domains ( http://arxiv.org/abs/2305.08420v3 )

ライセンス: Link先を確認
Kunyu Peng, Di Wen, David Schneider, Jiaming Zhang, Kailun Yang, M. Saquib Sarfraz, Rainer Stiefelhagen, Alina Roitberg, (参考訳) ドメイン適応は、さまざまな環境、センサタイプ、データソースにわたる正確で堅牢なパフォーマンスを保証するために、アクティビティ認識に不可欠である。 教師なし領域適応法は広く研究されているが、対象領域からの大規模未ラベルデータが必要である。 本研究では,非常に少量のラベル付きターゲットビデオを活用し,効果的な適応を実現するFew-Shot Domain Adaptation for Activity Recognition (FSDA-AR)に焦点を当てた。 このアプローチは、ターゲットドメイン内のクラスごとのラベル付き例を少数あるいはひとつだけ必要とするため、アプリケーションにアピールする。 しかし、既存のFSDA-ARは主にドメインの多様性が制限されているスポーツビデオのドメイン適応に焦点を当てている。 より多様で困難な領域への適応性を考慮した5つの確立されたデータセットを用いた新しいFSDA-ARベンチマークを提案する。 その結果、FSDA-ARは、ラベル付き対象ドメインサンプルをはるかに少なく、教師なしドメイン適応と相容れない性能を示した。 さらに,数少ないラベル付き対象ドメインサンプルを知識ガイダンスとして活用するための新しいアプローチであるRelaMiXを提案する。 RelaMiXは、ドメイン間の情報アライメント機構とともに、関係ドロップアウトを伴う時間的関係アテンションネットワークを含んでいる。 さらに、数発のターゲットドメインサンプルを使用して、潜在空間内で機能を混合するメカニズムを統合する。 提案したRelaMiXソリューションは、FSDA-ARベンチマーク内のすべてのデータセットの最先端のパフォーマンスを実現する。 アクティビティ認識のためのいくつかのドメイン適応の今後の研究を促進するため、私たちのコードはhttps://github.com/KPeng9510/RelaMiX.comで公開されます。

Domain adaptation is essential for activity recognition to ensure accurate and robust performance across diverse environments, sensor types, and data sources. Unsupervised domain adaptation methods have been extensively studied, yet, they require large-scale unlabeled data from the target domain. In this work, we focus on Few-Shot Domain Adaptation for Activity Recognition (FSDA-AR), which leverages a very small amount of labeled target videos to achieve effective adaptation. This approach is appealing for applications because it only needs a few or even one labeled example per class in the target domain, ideal for recognizing rare but critical activities. However, the existing FSDA-AR works mostly focus on the domain adaptation on sports videos, where the domain diversity is limited. We propose a new FSDA-AR benchmark using five established datasets considering the adaptation on more diverse and challenging domains. Our results demonstrate that FSDA-AR performs comparably to unsupervised domain adaptation with significantly fewer labeled target domain samples. We further propose a novel approach, RelaMiX, to better leverage the few labeled target domain samples as knowledge guidance. RelaMiX encompasses a temporal relational attention network with relation dropout, alongside a cross-domain information alignment mechanism. Furthermore, it integrates a mechanism for mixing features within a latent space by using the few-shot target domain samples. The proposed RelaMiX solution achieves state-of-the-art performance on all datasets within the FSDA-AR benchmark. To encourage future research of few-shot domain adaptation for activity recognition, our code will be publicly available at https://github.com/KPeng9510/RelaMiX.
翻訳日:2024-05-01 01:34:26 公開日:2024-04-27
# Relay Mining: すべてのRPCタイプを対象とする完全な非バリデーションノードのインセンティブ

Relay Mining: Incentivizing Full Non-Validating Nodes Servicing All RPC Types ( http://arxiv.org/abs/2305.10672v2 )

ライセンス: Link先を確認
Daniel Olshansky, Ramiro Rodríguez Colmeiro, (参考訳) Relay Miningは、クライアントからサーバへのリモートプロシージャコール(RPC)のボリュームを推定し、証明するために、確率的メカニズム、暗号経済インセンティブ、新しい暗号プリミティブを活用するスケーラブルなソリューションを提供する。 分散台帳は、許可のない状態遷移(書き込み)を確保するように設計されており、完全な非バリデーションノードを非トランザクション(読み取り)RPCにインセンティブするギャップを強調している。 これによりアプリケーションは、利他的あるいは集中型オフチェーンのNode RPCプロバイダに依存するようになる。 我々は、複数のRPCプロバイダが無許可ネットワーク上で独立したアプリケーションからリクエストをサービスできるようにするソリューションを提案する。 デジタル署名やコミット・アンド・リベラルスキーム,Sparse Merkle Sum Tries(SMST)を活用して,作業の量を証明する。 これは、新しいClosestMerkleProof-of-inclusionスキームの導入によって実現されている。 分散台帳上のネイティブ暗号は、アプリケーションを制限するために使われ、過剰使用を非インセンティブ化する。 トークンバケットアルゴリズムと分散レート制限ペナルティモデルに関する確立した研究に基づいて,提案手法は,リレー報酬のマイニングの困難さを制御し,ネットワーク利用の増加とともに動的にスケールするフィードバックループ制御機構を利用する。 暗号経済のインセンティブを活用することで、調整のオーバーヘッドコストを削減し、地理的かつ地理的に分散したRPCサービスを提供するメカニズムを導入します。 Web3エコシステムにおけるこのソリューションが、Web2における分散検証可能なマルチテナントレートの制限にどのように変換されるかを示すために、レート制限研究からの一般的な定式化を使用します。

Relay Mining presents a scalable solution employing probabilistic mechanisms, crypto-economic incentives, and new cryptographic primitives to estimate and prove the volume of Remote Procedure Calls (RPCs) made from a client to a server. Distributed ledgers are designed to secure permissionless state transitions (writes), highlighting a gap for incentivizing full non-validating nodes to service non-transactional (read) RPCs. This leads applications to have a dependency on altruistic or centralized off-chain Node RPC Providers. We present a solution that enables multiple RPC providers to service requests from independent applications on a permissionless network. We leverage digital signatures, commit-and-reveal schemes, and Sparse Merkle Sum Tries (SMSTs) to prove the amount of work done. This is enabled through the introduction of a novel ClosestMerkleProof proof-of-inclusion scheme. A native cryptocurrency on a distributed ledger is used to rate limit applications and disincentivize over-usage. Building upon established research in token bucket algorithms and distributed rate-limiting penalty models, our approach harnesses a feedback loop control mechanism to adjust the difficulty of mining relay rewards, dynamically scaling with network usage growth. By leveraging crypto-economic incentives, we reduce coordination overhead costs and introduce a mechanism for providing RPC services that are both geopolitically and geographically distributed. We use common formulations from rate limiting research to demonstrate how this solution in the Web3 ecosystem translates to distributed verifiable multi-tenant rate limiting in Web2.
翻訳日:2024-05-01 01:34:26 公開日:2024-04-27
# UniScene: 自動運転のための3次元シーン再構成によるマルチカメラ統合事前訓練

UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction for Autonomous Driving ( http://arxiv.org/abs/2305.18829v5 )

ライセンス: Link先を確認
Chen Min, Liang Xiao, Dawei Zhao, Yiming Nie, Bin Dai, (参考訳) マルチカメラの3D認識は、LiDARベースのソリューションに代わる実用的で費用対効果の高い代替手段を提供する、自動運転における顕著な研究分野として登場した。 既存のマルチカメラアルゴリズムは、主に単眼の2D事前学習に依存している。 しかし、単眼2D事前学習は、マルチカメラシステム間の空間的および時間的相関を見落としている。 この制限に対処するため、まず3Dシーンを基本段階として再構築し、その後下流タスクでモデルを微調整するUniSceneと呼ばれる、最初のマルチカメラ統合事前学習フレームワークを提案する。 具体的には,3次元シーンの汎用表現としてOccupancyを用い,事前学習により周辺世界の幾何学的先行を把握できる。 UniScene の大きな利点は、未ラベルのイメージ-LiDAR ペアを事前トレーニングに利用できることである。 提案したマルチカメラ統合事前学習フレームワークは、マルチカメラ3Dオブジェクトの検出や周囲のセマンティックシーンの完了といった重要なタスクにおいて有望な結果を示す。 nuScenesデータセットの単分子事前学習法と比較して、UniSceneはマルチカメラ3Dオブジェクト検出において、mAPが約2.0%、NDSが約2.0%、セマンティックシーン完了時のmIoUが3%向上した。 統合事前学習手法を採用することにより、3Dトレーニングアノテーションのコストを25%削減することが可能となり、現実の自律運転の実現に重要な実用的価値が期待できる。 コードはhttps://github.com/chaytonmin/UniScene.comで公開されている。

Multi-camera 3D perception has emerged as a prominent research field in autonomous driving, offering a viable and cost-effective alternative to LiDAR-based solutions. The existing multi-camera algorithms primarily rely on monocular 2D pre-training. However, the monocular 2D pre-training overlooks the spatial and temporal correlations among the multi-camera system. To address this limitation, we propose the first multi-camera unified pre-training framework, called UniScene, which involves initially reconstructing the 3D scene as the foundational stage and subsequently fine-tuning the model on downstream tasks. Specifically, we employ Occupancy as the general representation for the 3D scene, enabling the model to grasp geometric priors of the surrounding world through pre-training. A significant benefit of UniScene is its capability to utilize a considerable volume of unlabeled image-LiDAR pairs for pre-training purposes. The proposed multi-camera unified pre-training framework demonstrates promising results in key tasks such as multi-camera 3D object detection and surrounding semantic scene completion. When compared to monocular pre-training methods on the nuScenes dataset, UniScene shows a significant improvement of about 2.0% in mAP and 2.0% in NDS for multi-camera 3D object detection, as well as a 3% increase in mIoU for surrounding semantic scene completion. By adopting our unified pre-training method, a 25% reduction in 3D training annotation costs can be achieved, offering significant practical value for the implementation of real-world autonomous driving. Codes are publicly available at https://github.com/chaytonmin/UniScene.
翻訳日:2024-05-01 01:34:26 公開日:2024-04-27
# 1:1マッチング課題における誤り率の信頼区間:臨界統計分析と勧告

Confidence Intervals for Error Rates in 1:1 Matching Tasks: Critical Statistical Analysis and Recommendations ( http://arxiv.org/abs/2306.01198v3 )

ライセンス: Link先を確認
Riccardo Fogliato, Pratik Patil, Pietro Perona, (参考訳) マッチングアルゴリズムは一般的に、コレクション内のアイテム間のマッチを予測するために使用される。 例えば、1:1の顔認証では、マッチングアルゴリズムが2つの顔画像が同一人物を描いているかを予測する。 このようなアルゴリズムの誤り率の不確かさを正確に評価することは、データが依存していてエラー率が低い場合に困難である。 本研究では,1:1のマッチングタスクにおいて,誤り率に対する信頼区間を構築する手法について検討する。 これらの手法の統計的特性を導出し, サンプルサイズ, 誤差率, およびデータ依存度が, 合成および実世界のデータセットを用いた解析と実験の両方でどのように変化するかを示す。 そこで本研究では,1:1のマッチングタスクにおいて,誤り率に対する信頼区間を構築するためのベストプラクティスを提案する。

Matching algorithms are commonly used to predict matches between items in a collection. For example, in 1:1 face verification, a matching algorithm predicts whether two face images depict the same person. Accurately assessing the uncertainty of the error rates of such algorithms can be challenging when data are dependent and error rates are low, two aspects that have been often overlooked in the literature. In this work, we review methods for constructing confidence intervals for error rates in 1:1 matching tasks. We derive and examine the statistical properties of these methods, demonstrating how coverage and interval width vary with sample size, error rates, and degree of data dependence on both analysis and experiments with synthetic and real-world datasets. Based on our findings, we provide recommendations for best practices for constructing confidence intervals for error rates in 1:1 matching tasks.
翻訳日:2024-05-01 01:34:26 公開日:2024-04-27
# デコヒーレンス自由部分空間におけるカー効果に基づく量子論理ゲート

Kerr-effect-based quantum logical gates in decoherence-free subspace ( http://arxiv.org/abs/2306.05625v3 )

ライセンス: Link先を確認
Fang-Fang Du, Gang Fan, Xue-Mei Ren, (参考訳) システムと環境のカップリングによるデコヒーレンス効果は、量子情報処理における2つの(または3つの)量子ビット論理ゲートの効率的な実装におけるエラーにつながる。 幸いなことに、decoherence-free subspace (DFS) が導入されたことにより、decoherence効果の影響を効果的に低減することができる。 本稿では,DFSにおけるクロスカー非線形性を用いて,2つないし3つの論理量子ビットに対して,制御NOT(CNOT),トフォリ(Toffoli),フレドキン(Fredkin)ゲート(Fredkin)ゲートを含む量子制御ゲートの族を設定する手法を提案する。 これら3つの論理ゲートは、複雑な量子計算cを必要としない

The decoherence effect caused by the coupling between the system and the environment undoubtedly leads to the errors in efficient implementations of two (or three) qubit logical gates in quantum information processing. Fortunately, decoherence-free subspace (DFS) introduced can effectively decrease the influence of decoherence effect. In this paper, we propose some schemes for setting up a family of quantum control gates, including controlled-NOT (CNOT), Toffoli, and Fredkin gates for two or three logical qubits by means of cross-Kerr nonlinearities in DFS. These three logical gates require neither complicated quantum computational c
翻訳日:2024-05-01 01:24:19 公開日:2024-04-27
# 言語モデルを用いた患者と臨床の整合性の検討

Matching Patients to Clinical Trials with Large Language Models ( http://arxiv.org/abs/2307.15051v4 )

ライセンス: Link先を確認
Qiao Jin, Zifeng Wang, Charalampos S. Floudas, Fangyuan Chen, Changlin Gong, Dara Bracken-Clarke, Elisabetta Xue, Yifan Yang, Jimeng Sun, Zhiyong Lu, (参考訳) 臨床試験は、しばしば患者募集の課題によって妨げられる。 本稿では,患者間マッチングを支援するLLMフレームワークであるTrialGPTを紹介する。 患者注記が与えられた場合、TrialGPTは、患者が基準ごとの基準に基づいて適性を予測するとともに、これらの予測を統合して、対象の臨床試験に対する適性を評価する。 公用コホート184例を対象に,TrialGPTの試験レベル予測性能について検討した。 また,3名の医師に1,000名以上の患者基準ペアをラベル付けし,基準レベルの予測精度を評価した。 実験の結果、TrialGPTは専門家のパフォーマンス(88.7%-90.0%)に近く、忠実な説明で87.3%の基準レベルの精度を達成した。 集計されたTrialGPTスコアは、ヒトの適性判断と高い相関があり、最高の競争モデルを32.6%から57.2%で上回り、臨床試験を除外している。 さらに,本研究により,TrialGPTは実生活における臨床試験マッチング作業において,スクリーニング時間(42.6%)を大幅に短縮できることが明らかとなった。 これらの結果と分析により,TrialGPTなどのLSMとの臨床治験の機会が得られた。

Clinical trials are often hindered by the challenge of patient recruitment. In this work, we introduce TrialGPT, a first-of-its-kind large language model (LLM) framework to assist patient-to-trial matching. Given a patient note, TrialGPT predicts the patient's eligibility on a criterion-by-criterion basis and then consolidates these predictions to assess the patient's eligibility for the target trial. We evaluate the trial-level prediction performance of TrialGPT on three publicly available cohorts of 184 patients with over 18,000 trial annotations. We also engaged three physicians to label over 1,000 patient-criterion pairs to assess its criterion-level prediction accuracy. Experimental results show that TrialGPT achieves a criterion-level accuracy of 87.3% with faithful explanations, close to the expert performance (88.7%-90.0%). The aggregated TrialGPT scores are highly correlated with human eligibility judgments, and they outperform the best-competing models by 32.6% to 57.2% in ranking and excluding clinical trials. Furthermore, our user study reveals that TrialGPT can significantly reduce the screening time (by 42.6%) in a real-life clinical trial matching task. These results and analyses have demonstrated promising opportunities for clinical trial matching with LLMs such as TrialGPT.
翻訳日:2024-05-01 01:14:26 公開日:2024-04-27
# フォレスティクスフォレストファミリー:GAN生成顔検出のための多層階層型カスケード林群

ForensicsForest Family: A Series of Multi-scale Hierarchical Cascade Forests for Detecting GAN-generated Faces ( http://arxiv.org/abs/2308.00964v2 )

ライセンス: Link先を確認
Jiucui Lu, Jiaran Zhou, Junyu Dong, Bin Li, Siwei Lyu, Yuezun Li, (参考訳) 生成モデルにおける顕著な進歩は、生成された顔の現実を著しく改善し、社会に深刻な懸念をもたらした。 最近のガン生成顔は高いリアリズムにあるため、偽の痕跡はより認識不能になり、法医学的課題が増大している。 GAN生成した顔と戦うために、畳み込みニューラルネットワーク(CNN)に基づく多くの対策が、学習能力の強いために生み出されている。 本稿では,この問題を再考し,CNNの代わりに森林モデルに基づく新たなアプローチを提案する。 具体的には、GAN生成顔を検出するための簡易で効果的な森林ベース手法である {\em ForensicsForest Family について述べる。 提案されたForensicsForestファミリーは、それぞれ {\em ForensicsForest} と {\em Hybrid ForensicsForest} と {\em Divide- and-Conquer ForensicsForest} の3つの変種で構成されている。 ForenscisForestは新たに提案されたマルチスケール階層型カスケードフォレストであり、セマンティック、周波数、生物学の特徴を入力とし、階層的なカスケードは認証予測のための異なるレベルの特徴を識別し、さらにパフォーマンスを向上させるために様々なレベルの情報を包括的に検討できるマルチスケールアンサンブルスキームを採用している。 ForensicsForestをベースに,CNNレイヤをモデルに統合する拡張バージョンであるHybrid ForensicsForestを開発した。 さらに、トレーニングにおけるメモリコストを削減するために、トレーニングサンプリングの一部のみを用いて森林モデルを構築することができるDivide-and-Conquer ForensicsForestを提案する。 トレーニング段階では、トレーニングサンプルのサブセットを用いて、いくつかの候補森林モデルを訓練する。 次にForensicsForestは、これらの候補となる森林モデルから適切なコンポーネントを選択することで組み立てられる。

The prominent progress in generative models has significantly improved the reality of generated faces, bringing serious concerns to society. Since recent GAN-generated faces are in high realism, the forgery traces have become more imperceptible, increasing the forensics challenge. To combat GAN-generated faces, many countermeasures based on Convolutional Neural Networks (CNNs) have been spawned due to their strong learning ability. In this paper, we rethink this problem and explore a new approach based on forest models instead of CNNs. Specifically, we describe a simple and effective forest-based method set called {\em ForensicsForest Family} to detect GAN-generate faces. The proposed ForensicsForest family is composed of three variants, which are {\em ForensicsForest}, {\em Hybrid ForensicsForest} and {\em Divide-and-Conquer ForensicsForest} respectively. ForenscisForest is a newly proposed Multi-scale Hierarchical Cascade Forest, which takes semantic, frequency and biology features as input, hierarchically cascades different levels of features for authenticity prediction, and then employs a multi-scale ensemble scheme that can comprehensively consider different levels of information to improve the performance further. Based on ForensicsForest, we develop Hybrid ForensicsForest, an extended version that integrates the CNN layers into models, to further refine the effectiveness of augmented features. Moreover, to reduce the memory cost in training, we propose Divide-and-Conquer ForensicsForest, which can construct a forest model using only a portion of training samplings. In the training stage, we train several candidate forest models using the subsets of training samples. Then a ForensicsForest is assembled by picking the suitable components from these candidate forest models...
翻訳日:2024-05-01 01:14:26 公開日:2024-04-27
# スパイクニューラルネットワークの局所学習を改良したペア競合ニューロン

Paired Competing Neurons Improving STDP Supervised Local Learning In Spiking Neural Networks ( http://arxiv.org/abs/2308.02194v2 )

ライセンス: Link先を確認
Gaspard Goupy, Pierre Tirilly, Ioan Marius Bilasco, (参考訳) ニューロモルフィックハードウェア上でのスパイキングニューラルネットワーク(SNN)の直接トレーニングは、人工ニューラルネットワークトレーニングのエネルギー消費を大幅に削減する可能性がある。 Spike Timing-Dependent Plasticity (STDP)でトレーニングされたSNNは、超低消費電力のニューロモルフィックハードウェアで容易に実装できる、勾配のない、教師なしのローカルラーニングの恩恵を受ける。 しかし、分類タスクは教師なしSTDPだけでは実行できない。 本稿では,機能抽出のための教師なしSTDPを備えたSNNの分類層をトレーニングするための教師付きSTDP学習ルールである安定化STDP(S2-STDP)を提案する。 S2-STDPは、神経細胞スパイクを層内の平均発射時間に由来する所望のタイムスタンプと整列するエラー変調重み更新を統合する。 そこで,我々はPaired Competing Neurons (PCN) と呼ばれる学習アーキテクチャを導入し,S2-STDPで訓練した分類層の学習能力をさらに向上させる。 PCNは、各クラスとペアのニューロンを関連付け、クラス内競争を通じて標的または非標的標本に対するニューロンの特殊化を促進する。 我々は,MNIST,Fashion-MNIST,CIFAR-10などの画像認識データセットについて評価を行った。 以上の結果から,本手法は最先端の教師付きSTDP学習規則よりも優れたアーキテクチャとニューロン数を示すことがわかった。 さらに分析した結果,PCN を用いることで,S2-STDP の性能が向上することが明らかとなった。

Direct training of Spiking Neural Networks (SNNs) on neuromorphic hardware has the potential to significantly reduce the energy consumption of artificial neural network training. SNNs trained with Spike Timing-Dependent Plasticity (STDP) benefit from gradient-free and unsupervised local learning, which can be easily implemented on ultra-low-power neuromorphic hardware. However, classification tasks cannot be performed solely with unsupervised STDP. In this paper, we propose Stabilized Supervised STDP (S2-STDP), a supervised STDP learning rule to train the classification layer of an SNN equipped with unsupervised STDP for feature extraction. S2-STDP integrates error-modulated weight updates that align neuron spikes with desired timestamps derived from the average firing time within the layer. Then, we introduce a training architecture called Paired Competing Neurons (PCN) to further enhance the learning capabilities of our classification layer trained with S2-STDP. PCN associates each class with paired neurons and encourages neuron specialization toward target or non-target samples through intra-class competition. We evaluate our methods on image recognition datasets, including MNIST, Fashion-MNIST, and CIFAR-10. Results show that our methods outperform state-of-the-art supervised STDP learning rules, for comparable architectures and numbers of neurons. Further analysis demonstrates that the use of PCN enhances the performance of S2-STDP, regardless of the hyperparameter set and without introducing any additional hyperparameters.
翻訳日:2024-05-01 01:14:26 公開日:2024-04-27
# 高出力電気伝導率最適化とドープ共役高分子の発見を可能にする説明可能な機械学習

Explainable machine learning to enable high-throughput electrical conductivity optimization and discovery of doped conjugated polymers ( http://arxiv.org/abs/2308.04103v2 )

ライセンス: Link先を確認
Ji Wei Yoon, Adithya Kumar, Pawan Kumar, Kedar Hippalgaonkar, J Senthilnath, Vijila Chellappan, (参考訳) 近年,高スループット実験技術と機械学習(ML)の組み合わせにより,材料発見が加速する新たな時代が到来し,素材の最先端特性の識別が可能になった。 しかし、特定の物理量の測定は自動化が難しいままである。 具体的には、ドープポリマー材料の最適電気伝導率を達成するためには、精巧なプロセス制御、実験、および精巧な測定が必要である。 本稿では,容易に測定可能な吸収スペクトルを用いたML手法を提案し,導電率測定に伴うワークフローを高速化する。 この分類モデルは, 導電率25〜100S/cmの試料を正確に分類し, 最大精度を100%とする。 高導電率試料のサブセットについては, 回帰モデルを用いて導電率を予測し, 印象的なR2値 0.984 を得た。 その結果, 2つの高い導電率 (498および506S/cm) の試料を用いて実験を行い, 良好な誤差で2つの導電率を正しく分類し, 予測できることが判明した。 提案したML支援ワークフローは, 導電率測定の効率を, 実験手法による最大達成率の89パーセント向上する。 さらに,本手法では,記述子とMLモデルの相反する数学的特性を活用することで,MLモデルにおける説明可能性の欠如という共通の課題に対処し,導電性に対するスペクトルの影響について,相関した知見を得ることができた。 本研究では,実験科学におけるMLの目的的利用から得られる貴重な知見を提示しながら,ドープポリマー材料の特性を最適化するための加速経路を提案する。

The combination of high-throughput experimentation techniques and machine learning (ML) has recently ushered in a new era of accelerated material discovery, enabling the identification of materials with cutting-edge properties. However, the measurement of certain physical quantities remains challenging to automate. Specifically, meticulous process control, experimentation and laborious measurements are required to achieve optimal electrical conductivity in doped polymer materials. We propose a ML approach, which relies on readily measured absorbance spectra, to accelerate the workflow associated with measuring electrical conductivity. The classification model accurately classifies samples with a conductivity > 25 to 100 S/cm, achieving a maximum of 100 % accuracy rate. For the subset of highly conductive samples, we employed a regression model to predict their conductivities, yielding an impressive test R2 value of 0.984. We tested the models with samples of the two highest conductivities (498 and 506 S/cm) and showed that they were able to correctly classify and predict the two extrapolative conductivities at satisfactory levels of errors. The proposed ML-assisted workflow results in an improvement in the efficiency of the conductivity measurements by 89 % of the maximum achievable using our experimental techniques. Furthermore, our approach addressed the common challenge of the lack of explainability in ML models by exploiting bespoke mathematical properties of the descriptors and ML model, allowing us to gain corroborated insights into the spectral influences on conductivity. Through this study, we offer an accelerated pathway for optimizing the properties of doped polymer materials while showcasing the valuable insights that can be derived from purposeful utilization of ML in experimental science.
翻訳日:2024-05-01 01:14:26 公開日:2024-04-27
# 絶対最大絡み合う状態に対するテンソルネットワーク分解

Tensor network decompositions for absolutely maximally entangled states ( http://arxiv.org/abs/2308.07042v2 )

ライセンス: Link先を確認
Balázs Pozsgay, Ian M. Wanless, (参考訳) 絶対的に極大エンタングルド状態(AME state of $k$ qudits、完全テンソルとも呼ばれる)は、全ての部位/部位の最大エンタングルメントを持つ量子状態である。 そのような状態が、有限個のテンソルを持つテンソルネットワークに分解できるかどうかという問題を考える。 AME状態が$k=6$のとき、3つの4レグテンソルしか持たないネットワークに分解できることが分かり、局所次元$D=5$以上の具体的な解を提供する。 その結果、6つのパーティを持つAME状態は、3つのベル対の積状態からたった3つの2サイトユニタリ、またはそれに相当する6つの2サイトユニタリで生成可能であることが示唆された。 また、$k=8$の問題を考慮し、6つの4レグテンソルを持つ同様のテンソルネットワーク分解を求める。

Absolutely maximally entangled (AME) states of $k$ qudits (also known as perfect tensors) are quantum states that have maximal entanglement for all possible bipartitions of the sites/parties. We consider the problem of whether such states can be decomposed into a tensor network with a small number of tensors, such that all physical and all auxiliary spaces have the same dimension $D$. We find that certain AME states with $k=6$ can be decomposed into a network with only three 4-leg tensors; we provide concrete solutions for local dimension $D=5$ and higher. Our result implies that certain AME states with six parties can be created with only three two-site unitaries from a product state of three Bell pairs, or equivalently, with six two-site unitaries acting on a product state on six qudits. We also consider the problem for $k=8$, where we find similar tensor network decompositions with six 4-leg tensors.
翻訳日:2024-05-01 01:04:37 公開日:2024-04-27
# Pre-gated MoE: 高速かつスケーラブルなミックス・オブ・エキスパート推論のためのアルゴリズム・システム共設計

Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference ( http://arxiv.org/abs/2308.12066v3 )

ライセンス: Link先を確認
Ranggi Hwang, Jianyu Wei, Shijie Cao, Changho Hwang, Xiaohu Tang, Ting Cao, Mao Yang, (参考訳) 近年,トランスフォーマーをベースとした大規模言語モデル (LLM) が大きな進歩を遂げている。 高いアルゴリズム性能にもかかわらず、LLMの計算およびメモリ要求は前例のない課題を呈している。 LLMの高い計算要求に対応するため、Mixture-of-Experts (MoE)アーキテクチャが導入された。 残念ながら、MoEの高メモリ要求とスパース専門家の動的アクティベーションは、現実世界の問題への適用性を制限している。 MoEのメモリ不足の専門家パラメータをCPUメモリにオフロードする以前のソリューションは、アクティベートされた専門家をCPUからGPUに移行させるレイテンシがパフォーマンス上のオーバーヘッドを発生させるため、不足していた。 提案するPre-gated MoEシステムは,従来のMoEアーキテクチャの計算とメモリの課題に対して,アルゴリズム-システム共設計を用いて効果的に対処する。 プレゲートMOEは,スパースエキスパートアクティベーションの動的特性を緩和し,MoEの大規模なメモリフットプリントに対処し,高い性能を実現する。 我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。 これらの機能により、当社のPre-gated MoEシステムは、高パフォーマンスの1つのGPUを使用して、大規模LLMをコスト効率よくデプロイできるようになりました。

Large language models (LLMs) based on transformers have made significant strides in recent years, the success of which is driven by scaling up their model size. Despite their high algorithmic performance, the computational and memory requirements of LLMs present unprecedented challenges. To tackle the high compute requirements of LLMs, the Mixture-of-Experts (MoE) architecture was introduced which is able to scale its model size without proportionally scaling up its computational requirements. Unfortunately, MoE's high memory demands and dynamic activation of sparse experts restrict its applicability to real-world problems. Previous solutions that offload MoE's memory-hungry expert parameters to CPU memory fall short because the latency to migrate activated experts from CPU to GPU incurs high performance overhead. Our proposed Pre-gated MoE system effectively tackles the compute and memory challenges of conventional MoE architectures using our algorithm-system co-design. Pre-gated MoE employs our novel pre-gating function which alleviates the dynamic nature of sparse expert activation, allowing our proposed system to address the large memory footprint of MoEs while also achieving high performance. We demonstrate that Pre-gated MoE is able to improve performance, reduce GPU memory consumption, while also maintaining the same level of model quality. These features allow our Pre-gated MoE system to cost-effectively deploy large-scale LLMs using just a single GPU with high performance.
翻訳日:2024-05-01 01:04:37 公開日:2024-04-27
# 確率的ブラケットによる量子力学の解釈

Stochastic bra-ket interpretation of quantum mechanics ( http://arxiv.org/abs/2309.03151v2 )

ライセンス: Link先を確認
Hans Christian Öttinger, (参考訳) 量子力学の確率的性質は、正方形波動関数よりも密度行列の双線型二過程表現に自然に反映される。 絡み合い効果は波動関数の重畳からではなく、密度行列の双線型構造から生じる。 量子干渉は加法的重ね合わせ機構よりも乗法的な現象として現れる。 密度行列の双線型表現は2つの一意に定義された同じ分布のマルコフ確率ジャンプ過程によって与えられるという2つの一般的な要件を提案する。 これらの一般的なアイデアは、アインシュタイン=ポドルスキー=ローゼンと二重スリットの実験のために示される。 確率分布よりも確率変数による量子力学の確率的性質の表現は、存在論的視点を促進し、量子力学のブラケット解釈へと導く。

The stochastic nature of quantum mechanics is more naturally reflected in a bilinear two-process representation of density matrices rather than in squared wave functions. This proposition comes with a remarkable change of the entanglement mechanism: entanglement effects do not originate from superpositions of wave functions, but result from the bilinear structure of density matrices. Quantum interference appears as a multiplicative phenomenon rather than an additive superposition mechanism. We propose two general requirements such that the bilinear representation of density matrices is given in terms of two uniquely defined, identically distributed, Markovian stochastic jump processes. These general ideas are illustrated for the Einstein-Podolsky-Rosen and double-slit experiments. The expression of the stochastic nature of quantum mechanics in terms of random variables rather than their probability distributions facilitates an ontological viewpoint and leads us to a bra-ket interpretation of quantum mechanics.
翻訳日:2024-05-01 01:04:37 公開日:2024-04-27
# SSHR:多言語音声認識のための自己教師付き階層表現の活用

SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition ( http://arxiv.org/abs/2309.16937v2 )

ライセンス: Link先を確認
Hongfei Xue, Qijie Shao, Kaixun Huang, Peikun Chen, Jie Liu, Lei Xie, (参考訳) 多言語自動音声認識(ASR)システムは、言語の範囲を世界中に広げる可能性に注意を向けている。 MMSのような自己教師付き学習(SSL)モデルは、多言語ASRでの有効性を実証しているが、様々なレイヤの表現には、完全に活用されていない異なる情報が含まれる可能性があることに注意する必要がある。 本研究では,自己教師付き階層表現(SSHR)を用いてMMSモデルを微調整する手法を提案する。 まず、MMSの異なるレイヤを分析し、中間層が言語関連情報をキャプチャし、上位層がコンテンツ関連情報をエンコードし、最終層が徐々に減少することを示す。 そして,関係する中間層から言語関連フレームを抽出し,自己認識機構を通じて特定の言語抽出を導出する。 さらに,提案したCross-CTCを用いて,最終層におけるコンテンツ関連情報獲得のモデルも検討した。 我々は,2つの多言語データセットであるCommon VoiceとML-SUPERBについてSSHRを評価し,その実験結果から,本手法が最先端の性能を実現することを示す。

Multilingual automatic speech recognition (ASR) systems have garnered attention for their potential to extend language coverage globally. While self-supervised learning (SSL) models, like MMS, have demonstrated their effectiveness in multilingual ASR, it is worth noting that various layers' representations potentially contain distinct information that has not been fully leveraged. In this study, we propose a novel method that leverages self-supervised hierarchical representations (SSHR) to fine-tune the MMS model. We first analyze the different layers of MMS and show that the middle layers capture language-related information, and the high layers encode content-related information, which gradually decreases in the final layers. Then, we extract a language-related frame from correlated middle layers and guide specific language extraction through self-attention mechanisms. Additionally, we steer the model toward acquiring more content-related information in the final layers using our proposed Cross-CTC. We evaluate SSHR on two multilingual datasets, Common Voice and ML-SUPERB, and the experimental results demonstrate that our method achieves state-of-the-art performance.
翻訳日:2024-05-01 00:54:37 公開日:2024-04-27
# ResBit: カテゴリ値のための残留ビットベクトル

ResBit: Residual Bit Vector for Categorical Values ( http://arxiv.org/abs/2309.17196v3 )

ライセンス: Link先を確認
Masane Fuchi, Amar Zanashir, Hiroto Minami, Tomohiro Takagi, (参考訳) 離散/分類データの表現方法であるワンホットベクトルは、その単純さと直感性のために機械学習で一般的に使用される。 しかし、1ホットベクトルは次元の線形増加に悩まされ、特に多くのカテゴリを含むデータセットを扱う場合、計算とメモリの課題が引き起こされる。 この問題に対処するために,分類データを密に表現するResidual Bit Vectors (ResBit)を提案する。 Analog Bitsも同様のアプローチを示しているが、分類データ生成タスクでは課題に直面している。 ResBitはこれらの制限を克服し、より汎用的なソリューションを提供する。 実験では,様々なカテゴリデータを用いて,シナリオ間での性能を検証し,表型データ生成に焦点を当てた。 アクセラレーションを確認し、パフォーマンスの維持や改善を確実にします。

One-hot vectors, a method for representing discrete/categorical data, are commonly used in machine learning due to their simplicity and intuitiveness. However, the one-hot vectors suffer from a linear increase in dimensionality, posing computational and memory challenges, especially when dealing with datasets containing numerous categories. To address this issue, we propose Residual Bit Vectors (ResBit), a technique for densely representing categorical data. While Analog Bits presents a similar approach, it faces challenges in categorical data generation tasks. ResBit overcomes these limitations, offering a more versatile solution. In our experiments, we focus on tabular data generation, examining the performance across scenarios with varying amounts of categorical data. We verify the acceleration and ensure the maintenance or improvement of performance.
翻訳日:2024-05-01 00:54:37 公開日:2024-04-27
# VidCoM: マルチモーダルツールを用いた大規模言語モデルによる高速ビデオ理解

VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools ( http://arxiv.org/abs/2310.10586v2 )

ライセンス: Link先を確認
Ji Qi, Kaixuan Ji, Jifan Yu, Duokang Wang, Bin Xu, Lei Hou, Juanzi Li, (参考訳) ビデオを理解し、特定のユーザー指示に応答するモデルの構築は、視覚的理解と知識推論の両方の習得を必要とするため、実用的で困難なトピックである。 言語や画像のモダリティと比較しても、既存の研究では、短い説明と組み合わせた巨大なスパースビデオのモデルを訓練しているため、トレーニング効率は深刻な問題である。 本稿では,Large Language Models (LLM) を利用して,軽量ビジュアルツールを用いた動画の推論を行う高速適応フレームワークである \textbf{VidCoM} を紹介する。 具体的には、特定の指示に応答する鍵は、関連する映像イベントに焦点を合わせ、構造化されたシーングラフ生成と記述的な画像キャプション生成という2つの視覚ツールを使用して、イベント情報を収集し、表現することを明らかにする。 これにより、世界知識に富んだLLMを推論剤として採用し、特定のビデオイベントに対して複数の推論ステップを実行して応答を達成する。 映像イベントを識別するLLMの難しさに対処するため,インストラクション指向のビデオイベント認識(InsOVER)アルゴリズムを提案する。 このアルゴリズムは、言語命令とビデオイベントの分解を効率よく一致させることで、対応するビデオイベントを探索し、LLMが拡張されたビデオと効果的に対話できるようにする。 2つの典型的なビデオ理解タスクに関する大規模な実験により、提案されたチューニング不要のフレームワークは、Flamingo-80Bを含む事前訓練されたモデルよりも優れた性能を示し、最先端のパフォーマンスを実現している。 ソースコードとシステムは公開されます。

Building models that comprehends videos and responds specific user instructions is a practical and challenging topic, as it requires mastery of both vision understanding and knowledge reasoning. Compared to language and image modalities, training efficiency remains a serious problem as existing studies train models on massive sparse videos paired with brief descriptions. In this paper, we introduce \textbf{VidCoM}, a fast adaptive framework that leverages Large Language Models (LLMs) to reason about videos using lightweight visual tools. Specifically, we reveal that the key to responding to specific instructions is focusing on relevant video events, and utilize two visual tools, structured scene graph generation and descriptive image caption generation, to gather and represent the event information. Thus, a LLM enriched with world knowledge is adopted as the reasoning agent to achieve the responses by performing multiple reasoning steps on specific video events. To address the difficulty of LLMs identifying video events, we further propose an Instruction-oriented Video Events Recognition (InsOVER) algorithm. This algorithm locates the corresponding video events based on an efficient Hungarian matching between decompositions of linguistic instructions and video events, thereby enabling LLMs to interact effectively with extended videos. Extensive experiments on two typical video comprehension tasks show that the proposed tuning-free framework outperforms the pre-trained models including Flamingo-80B, to achieve the state-of-the-art performance. Our source code and system will be publicly available.
翻訳日:2024-05-01 00:44:51 公開日:2024-04-27
# HierCas: 情報カスケードにおける人気予測のための階層型時間グラフアテンションネットワーク

HierCas: Hierarchical Temporal Graph Attention Networks for Popularity Prediction in Information Cascades ( http://arxiv.org/abs/2310.13219v2 )

ライセンス: Link先を確認
Zhizhen Zhang, Xiaohui Xie, Yishuo Zhang, Lanshan Zhang, Yong Jiang, (参考訳) 情報カスケードの人気予測は、偽ニュースの特定や正確なレコメンデーションなど、多くのアプリケーションにとって重要である。 従来の機能ベースのメソッドは、ドメイン固有であり、新しいドメインへの一般化性に欠ける手作りの機能に大きく依存している。 この問題に対処するために、研究者はニューラルネットワークベースのアプローチに目を向けた。 しかし、既存のほとんどの手法はサンプリングに基づくモデリング手法に従っており、情報拡散プロセス中に出現する連続的な動的情報が失われる可能性がある。 本稿では, 動的グラフモデリング手法を用いて, カスケードグラフ全体で動作するカスケード人気予測(HierCas)のための階層型時間グラフ注意ネットワークを提案する。 タイムアウェアノードの埋め込み、グラフアテンション機構、階層的なプール構造を活用することで、HierCasは複雑なカスケードで暗黙的な人気傾向を効果的に捉えます。 異なるシナリオにおける2つの実世界のデータセットで実施された大規模な実験は、我々のHierCasが最先端のアプローチを大きく上回っていることを示している。 私たちは、https://github.com/Daisy-zzz/HierCas.comでコードを公開しました。

Information cascade popularity prediction is critical for many applications, including but not limited to identifying fake news and accurate recommendations. Traditional feature-based methods heavily rely on handcrafted features, which are domain-specific and lack generalizability to new domains. To address this problem, researchers have turned to neural network-based approaches. However, most existing methods follow a sampling-based modeling approach, potentially losing continuous dynamic information that emerges during the information diffusion process. In this paper, we propose Hierarchical Temporal Graph Attention Networks for cascade popularity prediction (HierCas), which operates on the entire cascade graph by a dynamic graph modeling approach. By leveraging time-aware node embedding, graph attention mechanisms, and hierarchical pooling structures, HierCas effectively captures the popularity trend implicit in the complex cascade. Extensive experiments conducted on two real-world datasets in different scenarios demonstrate that our HierCas significantly outperforms the state-of-the-art approaches. We have released our code at https://github.com/Daisy-zzz/HierCas.
翻訳日:2024-05-01 00:44:51 公開日:2024-04-27
# シリコンマイクロリング共振器を用いたマルチタスク波長多重貯留層計算

Multi-Task Wavelength-Multiplexed Reservoir Computing Using a Silicon Microring Resonator ( http://arxiv.org/abs/2310.16588v2 )

ライセンス: Link先を確認
Bernard J. Giron Castro, Christophe Peucheret, Darko Zibar, Francesco Da Ros, (参考訳) 従来の計算アーキテクチャよりもフォトニックコンピューティングの有望な利点の1つは、フォトニックによって提供される多くの自由度を利用することで、巨大な並列性を通じて計算効率を向上させる可能性があることである。 ここでは、同じフォトニック回路上で3つの独立したタスクを同時に解くために、時間と周波数の多重化(等価波長)の同時利用を数値的に示す。 特に、時系列予測、分類、無線チャネル等化という3つの課題を同時に解決するマイクロリングベースの時間遅延貯水池計算(TDRC)について検討する。 このスキームは、波長分割多重化(WDM)を用いてタスクを並列化している間に、複数の物理非線形ノードの必要性を避けるために、時間分割多重化に依存する。 各光チャネルに変調された入力データは、シリコンマイクロリングキャビティの非線形ダイナミクスにより高次元空間にマッピングされる。 各光チャネルに割り当てられるキャリア波長と入力電力は、それぞれのタスクの性能に高い影響を与える。 全てのタスクが同じ波長/電力条件下で動作した場合,本研究の結果から,各タスクの計算特性が達成可能な性能の判定因子であることが示唆された。 しかし、各光チャネルのパラメータを最適化することにより、全てのタスクに対して高い性能を同時に達成することが可能である。 タスクによってカバーされる様々な応用は、提案したフォトニックTDRCスキームの汎用性を示している。 全体として、この研究は貯水池の計算能力を改善するためのWDMベースのスキームの可能性についての洞察を提供する。

Among the promising advantages of photonic computing over conventional computing architectures is the potential to increase computing efficiency through massive parallelism by using the many degrees of freedom provided by photonics. Here, we numerically demonstrate the simultaneous use of time and frequency (equivalently wavelength) multiplexing to solve three independent tasks at the same time on the same photonic circuit. In particular, we consider a microring-based time-delay reservoir computing (TDRC) scheme that simultaneously solves three tasks: Time-series prediction, classification, and wireless channel equalization. The scheme relies on time-division multiplexing to avoid the necessity of multiple physical nonlinear nodes, while the tasks are parallelized using wavelength division multiplexing (WDM). The input data modulated on each optical channel is mapped to a higher dimensional space by the nonlinear dynamics of the silicon microring cavity. The carrier wavelength and input power assigned to each optical channel have a high influence on the performance of its respective task. When all tasks operate under the same wavelength/power conditions, our results show that the computing nature of each task is the deciding factor of the level of performance achievable. However, it is possible to achieve good performance for all tasks simultaneously by optimizing the parameters of each optical channel. The variety of applications covered by the tasks shows the versatility of the proposed photonic TDRC scheme. Overall, this work provides insight into the potential of WDM-based schemes for improving the computing capabilities of reservoir computing schemes.
翻訳日:2024-05-01 00:44:51 公開日:2024-04-27
# バイオメディカルトリプル抽出における大規模ランゲージモデルの作成

Benchingmaking Large Langage Models in Biomedical Triple Extraction ( http://arxiv.org/abs/2310.18463v6 )

ライセンス: Link先を確認
Mingchen Li, Huixue Zhou, Rui Zhang, (参考訳) バイオメディカルトリプル抽出システムは、自動的にバイオメディカルエンティティとエンティティ間の関係を抽出することを目的としている。 大規模言語モデル(LLM)を3重抽出に適用することの探索は、まだ比較的未検討である。 本研究では,主に文レベルのバイオメディカルトリプル抽出に注目した。 さらに,高品質なバイオメディカルトリプル抽出データセットの欠如は,ロバストトリプル抽出システムの開発の進展を妨げている。 これらの課題に対処するため、まず様々な大規模言語モデルの性能を比較する。 さらに,より広範な関係型をカバーする,専門家によるバイオメディカルトリプル抽出データセットであるGITを提案する。

Biomedical triple extraction systems aim to automatically extract biomedical entities and relations between entities. The exploration of applying large language models (LLM) to triple extraction is still relatively unexplored. In this work, we mainly focus on sentence-level biomedical triple extraction. Furthermore, the absence of a high-quality biomedical triple extraction dataset impedes the progress in developing robust triple extraction systems. To address these challenges, initially, we compare the performance of various large language models. Additionally, we present GIT, an expert-annotated biomedical triple extraction dataset that covers a wider range of relation types.
翻訳日:2024-05-01 00:34:56 公開日:2024-04-27
# 遠心ファンの故障診断における高密度核融合注意ネットワークの適用

Application of a Dense Fusion Attention Network in Fault Diagnosis of Centrifugal Fan ( http://arxiv.org/abs/2311.07614v2 )

ライセンス: Link先を確認
Ruijun Wang, Yuan Liu, Zhixia Fan, Xiaogang Xu, Huijie Wang, (参考訳) 深層学習認識モデルは, 回転機械の状態監視に広く用いられている。 しかし,モデルの構造と機能と診断プロセスとの対応を理解することは依然として困難である。 そこで本稿では,従来の密集カスケード操作ではなく,分散注意モジュールを密接な接続に埋め込む方法について論じる。 空間とチャネルの影響を分離するだけでなく、断層特性適応化特徴量にも影響し、融合注意関数を形成する。 提案した高密度融合は,ネットワーク診断プロセスの可視化に焦点を当て,モデル診断の解釈可能性を高める。 障害の特徴を抽出し、ノイズに抵抗する能力を高めるために、異なる機能を継続的に効果的に統合する方法が答えられる。 遠心ファンフォールトデータは、このネットワークを検証するために使用される。 実験の結果,ネットワークの診断性能は,他の先進的な故障診断モデルよりも高いことがわかった。

Although the deep learning recognition model has been widely used in the condition monitoring of rotating machinery. However, it is still a challenge to understand the correspondence between the structure and function of the model and the diagnosis process. Therefore, this paper discusses embedding distributed attention modules into dense connections instead of traditional dense cascading operations. It not only decouples the influence of space and channel on fault feature adaptive recalibration feature weights, but also forms a fusion attention function. The proposed dense fusion focuses on the visualization of the network diagnosis process, which increases the interpretability of model diagnosis. How to continuously and effectively integrate different functions to enhance the ability to extract fault features and the ability to resist noise is answered. Centrifugal fan fault data is used to verify this network. Experimental results show that the network has stronger diagnostic performance than other advanced fault diagnostic models.
翻訳日:2024-05-01 00:34:56 公開日:2024-04-27
# HeLM: 拡張テーブル・ツー・テキスト生成のためのハイライトエビデンス拡張言語モデル

HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation ( http://arxiv.org/abs/2311.08896v2 )

ライセンス: Link先を確認
Junyi Bian, Xiaolei Qin, Wuhe Zou, Mengzuo Huang, Congyi Luo, Ke Zhang, Weidong Zhang, (参考訳) 大規模モデルは、特にテキスト生成に関連するタスクにおいて、様々な領域で顕著な進歩を見せている。 Table to Textのドメインでは、多くのLarge Language Model(LLM)ベースのメソッドが、公開APIを呼び出すプロンプトを変更し、潜在的なコストと情報リークを発生させている。 オープンソースの大規模モデルが出現すると、微調整 LLM が実現可能になった。 本研究では,LLaMA2モデルを用いてパラメータ効率の良い微調整を行った。 従来の微調整に基づくテーブル・トゥ・テクスト法とは相容れないが,本手法では,テーブル固有の行データを強調することにより,推論情報を入力に注入する。 私たちのモデルは2つのモジュールで構成されています。 1)関係行の証拠を識別する表推論器,及び 2)強調表に基づいて文を生成する表要約器。 これを容易にするために、テーブル推論器を訓練するための推論ラベルを構築するための探索戦略を提案する。 FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。 さらに,入力テーブルの強調表示はモデルの性能を著しく向上させ,重要な解釈可能性を提供することを示した。

Large models have demonstrated significant progress across various domains, particularly in tasks related to text generation. In the domain of Table to Text, many Large Language Model (LLM)-based methods currently resort to modifying prompts to invoke public APIs, incurring potential costs and information leaks. With the advent of open-source large models, fine-tuning LLMs has become feasible. In this study, we conducted parameter-efficient fine-tuning on the LLaMA2 model. Distinguishing itself from previous fine-tuning-based table-to-text methods, our approach involves injecting reasoning information into the input by emphasizing table-specific row data. Our model consists of two modules: 1) a table reasoner that identifies relevant row evidence, and 2) a table summarizer that generates sentences based on the highlighted table. To facilitate this, we propose a search strategy to construct reasoning labels for training the table reasoner. On both the FetaQA and QTSumm datasets, our approach achieved state-of-the-art results. Additionally, we observed that highlighting input tables significantly enhances the model's performance and provides valuable interpretability.
翻訳日:2024-05-01 00:25:09 公開日:2024-04-27
# 健康行動変化のためのユーザ定義ゴールによる適応的介入

Adaptive Interventions with User-Defined Goals for Health Behavior Change ( http://arxiv.org/abs/2311.09483v3 )

ライセンス: Link先を確認
Aishwarya Mandyam, Matthew Jörke, William Denton, Barbara E. Engelhardt, Emma Brunskill, (参考訳) 健康な生活習慣の促進は、特にがん、心臓病、タイプ2糖尿病などの慢性疾患の予防に重要な役割を担っているため、公衆衛生上の問題となっている。 モバイルヘルスアプリケーションは、低コストでスケーラブルなヘルス行動変化促進のための有望な道を示す。 研究者は、各人のユニークなコンテキストに対する介入をパーソナライズする適応アルゴリズムを探求している。 しかしながら、実証的研究では、モバイル健康アプリケーションは、特に人間のコーチングと比較して、小さな効果の大きさと低い付着率に悩まされることが多い。 個人の独特な目標、好み、生活状況に対するアドバイスの調整は、モバイル健康介入のための適応アルゴリズムでは使われていない健康コーチングの重要な要素である。 これを解決するために、パーソナライズされた報酬関数(ゴール、選好、制約など)に対応できる新しいトンプソンサンプリングアルゴリズムを導入し、個人間でのデータ共有を活用して、より迅速に効果的なレコメンデーションを提供する。 我々の修正は、データ共有の複雑さの利点を保ちながら、累積的後悔に対して一定のペナルティしか生じないことを示す。 合成および半合成物理活動シミュレータの実証実験結果を示し、後者では、身体活動に関する嗜好データを求めるオンライン調査を行い、それを用いて、他の研究の歴史的データを利用した現実的な報酬モデルを構築した。 本アルゴリズムは,データ共有や個別報酬の最適化を行わないベースラインと比較して,大幅な性能向上を実現している。

Promoting healthy lifestyle behaviors remains a major public health concern, particularly due to their crucial role in preventing chronic conditions such as cancer, heart disease, and type 2 diabetes. Mobile health applications present a promising avenue for low-cost, scalable health behavior change promotion. Researchers are increasingly exploring adaptive algorithms that personalize interventions to each person's unique context. However, in empirical studies, mobile health applications often suffer from small effect sizes and low adherence rates, particularly in comparison to human coaching. Tailoring advice to a person's unique goals, preferences, and life circumstances is a critical component of health coaching that has been underutilized in adaptive algorithms for mobile health interventions. To address this, we introduce a new Thompson sampling algorithm that can accommodate personalized reward functions (i.e., goals, preferences, and constraints), while also leveraging data sharing across individuals to more quickly be able to provide effective recommendations. We prove that our modification incurs only a constant penalty on cumulative regret while preserving the sample complexity benefits of data sharing. We present empirical results on synthetic and semi-synthetic physical activity simulators, where in the latter we conducted an online survey to solicit preference data relating to physical activity, which we use to construct realistic reward models that leverages historical data from another study. Our algorithm achieves substantial performance improvements compared to baselines that do not share data or do not optimize for individualized rewards.
翻訳日:2024-05-01 00:25:09 公開日:2024-04-27
# MLLM-Bench: サンプルごとの基準によるマルチモーダルLCMの評価

MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria ( http://arxiv.org/abs/2311.13951v2 )

ライセンス: Link先を確認
Wentao Ge, Shunian Chen, Guiming Hardy Chen, Zhihong Chen, Junying Chen, Shuo Yan, Chenghao Zhu, Ziyue Lin, Wenya Xie, Xinyi Zhang, Yichen Chai, Xiaoyu Liu, Dingjie Song, Xidong Wang, Anningzhe Gao, Zhiyi Zhang, Jianquan Li, Xiang Wan, Benyou Wang, (参考訳) MLLM (Multimodal large language model) (例えば、GPT-4V、LLaVA、Claude-3) は、AIアプリケーションの範囲を広げている。 しかし、その性能を評価することは、特にオープンなクエリに対して明確な解が得られないタスクの本質的に主観的な性質のため、大きな課題となる。 既存の自動評価手法は主に、現実のユーザエクスペリエンスを考慮せずに客観的なクエリの評価に限られており、創造的かつ連想的なマルチモーダルタスクのニュアンスに不十分に対処している。 本稿では,強力なMLLMを審査対象とするMLLMの評価パラダイムを提案し,MLLMを判定基準として,‘textit{per-sample criteria’を用いて評価する。 本パラダイムの有効性と有効性を検証するため,Bloomの分類基準を改訂し,6つの重要なレベルにまたがる評価サンプルを倫理的考察により検討した。 我々は,MLLMをペアワイズ方式でベンチマークし,モデル間での多彩な性能を示す。 さらに,我々のベンチマークの有効性は,人的評価と88.02\%の一致を示した。 提案手法は,実世界のアプリケーションに適したユーザ中心型MLLMの開発を促進する触媒として,サンプルごとの基準を満たす効果的な評価ツールとして,MLLMの可能性を探求するものである。 ベンチマークデータ、オンラインリーダーボード、エントリはhttps://mllm-bench.llmzoo.com.comにある。

Multimodal large language models (MLLMs) (e.g., GPT-4V, LLaVA, and Claude-3) have broadened the scope of AI applications. Yet, evaluating their performance presents a significant challenge owing to the inherently subjective nature of tasks that do not yield clear-cut solutions especially for those open-ended queries. Existing automatic evaluation methodologies are mainly limited in evaluating objective queries without considering real-world user experiences, inadequately addressing the nuances of creative and associative multimodal tasks. In our paper, we propose a new evaluation paradigm for MLLMs, which is evaluating MLLMs with \textit{per-sample criteria} using potent MLLM as the judge. To validate the feasibility and effectiveness of this paradigm, we design a benchmark, dubbed \textit{MLLM-Bench}, with the evaluation samples across six critical levels following the revised Bloom's Taxonomy with the ethical consideration. We benchmark 21 popular MLLMs in a pairwise-comparison fashion, showing diverse performance across models. Moreover, the validity of our benchmark manifests itself in reaching 88.02\% agreement with human evaluation. We contend that the proposed paradigm explores the potential of MLLMs as effective evaluation tools with the help of per-sample criteria, and that MLLM-Bench will serve as a catalyst for encouraging the development of user-centric MLLMs tailored to real-world applications. Our benchmark data, online leaderboard and submission entry are at https://mllm-bench.llmzoo.com.
翻訳日:2024-05-01 00:25:09 公開日:2024-04-27
# CLAP: Augmented Promptsによるコントラスト学習によるコンテンツ分離

CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts ( http://arxiv.org/abs/2311.16445v3 )

ライセンス: Link先を確認
Yichao Cai, Yuhang Liu, Zhen Zhang, Javen Qinfeng Shi, (参考訳) CLIPのような対照的な視覚言語モデルは、学習した特徴を一般化するための顕著な能力のために、様々なdowmsteamタスクにかなりの注意を払っている。 しかし、彼らが学んだ機能は、しばしばコンテンツとスタイル情報をブレンドする。 この制限に対処するために,マルチモーダルデータに対する因果的生成的視点を採用し,データ拡張によるコントラスト学習を提案し,元の表現からコンテンツ特徴を引き離す。 これを実現するために、私たちは画像拡張技術を探究し、それらをトレーニング済みのCLIPライクなモデルにシームレスに統合し、純粋なコンテンツ特徴を抽出する方法を開発しました。 テキストデータの固有の意味的豊かさと論理構造を認識し、さらに一歩進めて、スタイル特徴から潜在コンテンツを切り離すためのテキスト拡張の利用について検討する。 これにより、CLIPライクなモデルのエンコーダは、遅延コンテンツ情報に集中し、事前トレーニングされたCLIPライクなモデルによって学習された表現を精査することができる。 多様なデータセットにわたる広範な実験により、様々な摂動に対する堅牢性の向上とともに、ゼロショットと少数ショットの分類タスクが大幅に改善された。 これらの結果は,視覚言語表現の洗練とマルチモーダル学習における最先端化における提案手法の有効性を裏付けるものである。

Contrastive vision-language models, such as CLIP, have garnered considerable attention for various dowmsteam tasks, mainly due to the remarkable ability of the learned features for generalization. However, the features they learned often blend content and style information, which somewhat limits their generalization capabilities under distribution shifts. To address this limitation, we adopt a causal generative perspective for multimodal data and propose contrastive learning with data augmentation to disentangle content features from the original representations. To achieve this, we begins with exploring image augmentation techniques and develop a method to seamlessly integrate them into pre-trained CLIP-like models to extract pure content features. Taking a step further, recognizing the inherent semantic richness and logical structure of text data, we explore the use of text augmentation to isolate latent content from style features. This enables CLIP-like model's encoders to concentrate on latent content information, refining the learned representations by pre-trained CLIP-like models. Our extensive experiments across diverse datasets demonstrate significant improvements in zero-shot and few-shot classification tasks, alongside enhanced robustness to various perturbations. These results underscore the effectiveness of our proposed methods in refining vision-language representations and advancing the state-of-the-art in multimodal learning.
翻訳日:2024-05-01 00:15:22 公開日:2024-04-27
# 大規模防犯制約直流最適潮流に対する自己教師付き学習

Self-Supervised Learning for Large-Scale Preventive Security Constrained DC Optimal Power Flow ( http://arxiv.org/abs/2311.18072v2 )

ライセンス: Link先を確認
Seonho Park, Pascal Van Hentenryck, (参考訳) SCOPF(Security-Constrained Optimal Power Flow)は、電力グリッドの安定性において重要な役割を果たすが、システムが成長するにつれてますます複雑になる。 PDL-SCOPFは,大規模SCOPF問題に対して,ミリ秒でほぼ最適解を生成するための,自己教師付きエンドツーエンドのPDL-SCOPFフレームワークである。 実際、PDL-SCOPFは最適なソリューションでトレーニングインスタンスに依存する教師付きシステムの制限を是正し、大規模なSCOPF問題では実用的ではない。 PDL-SCOPFは、原始解とラグランジアン乗算を学習する二元ネットワークを、制約のない最適化のために訓練するための拡張ラグランジアン法(ALM)を模倣する。 さらに、PDL-SCOPFは、名目ケースにおける電力収支の実現性を確保するための補修層と、自動一次応答(APR)を用いて演算する二分探索層とを具備し、発生器が緊急時にディスパッチする。 結果として得られる微分可能プログラムは、SCOPFの目的関数と事象のパワーバランス制約を使ってエンドツーエンドで訓練することができる。 実験結果から, PDL-SCOPFは最小限の最適性ギャップを持つ正確な実現可能な解を提供することが示された。 PDL-SCOPFの基盤となるフレームワークは、従来の最適化手法と機械学習のギャップを埋めることを目的としており、大規模最適化タスクのための自己教師付きエンドツーエンドの原始的双対学習の可能性を強調している。

Security-Constrained Optimal Power Flow (SCOPF) plays a crucial role in power grid stability but becomes increasingly complex as systems grow. This paper introduces PDL-SCOPF, a self-supervised end-to-end primal-dual learning framework for producing near-optimal solutions to large-scale SCOPF problems in milliseconds. Indeed, PDL-SCOPF remedies the limitations of supervised counterparts that rely on training instances with their optimal solutions, which becomes impractical for large-scale SCOPF problems. PDL-SCOPF mimics an Augmented Lagrangian Method (ALM) for training primal and dual networks that learn the primal solutions and the Lagrangian multipliers, respectively, to the unconstrained optimizations. In addition, PDL-SCOPF incorporates a repair layer to ensure the feasibility of the power balance in the nominal case, and a binary search layer to compute, using the Automatic Primary Response (APR), the generator dispatches in the contingencies. The resulting differentiable program can then be trained end-to-end using the objective function of the SCOPF and the power balance constraints of the contingencies. Experimental results demonstrate that the PDL-SCOPF delivers accurate feasible solutions with minimal optimality gaps. The framework underlying PDL-SCOPF aims at bridging the gap between traditional optimization methods and machine learning, highlighting the potential of self-supervised end-to-end primal-dual learning for large-scale optimization tasks.
翻訳日:2024-05-01 00:15:22 公開日:2024-04-27
# ViP-LLaVA:大規模マルチモーダルモデルによる任意視覚プロンプトの理解

ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual Prompts ( http://arxiv.org/abs/2312.00784v2 )

ライセンス: Link先を確認
Mu Cai, Haotian Liu, Dennis Park, Siva Karthik Mustikovela, Gregory P. Meyer, Yuning Chai, Yong Jae Lee, (参考訳) 既存の大規模視覚言語マルチモーダルモデルは全体像理解に重点を置いているが、領域固有の理解の実現には顕著なギャップがある。 テキスト座標や空間符号化を用いる現在のアプローチは、視覚的なプロンプトのためのユーザフレンドリーなインターフェースを提供していないことが多い。 この課題に対処するために、任意の視覚的プロンプトをデコードできる新しいマルチモーダルモデルを提案する。 これにより、ユーザは直感的にイメージをマークし、"レッドバウンディングボックス"や"ポイントアロー"のような自然なキューを使ってモデルと対話することができる。 私たちのシンプルな設計では、RGBイメージに直接ビジュアルマーカーをオーバーレイし、複雑なリージョンエンコーディングを不要にしていますが、Visual7W、PointQA、Visual Commonsense Reasoningベンチマークのような、領域依存タスクの最先端のパフォーマンスを実現しています。 さらに、複数の次元にわたる視覚的プロンプトを理解するためのモデルの有効性を評価するための総合的なベンチマークViP-Benchを提案する。 コード、データ、モデルは公開されています。

While existing large vision-language multimodal models focus on whole image understanding, there is a prominent gap in achieving region-specific comprehension. Current approaches that use textual coordinates or spatial encodings often fail to provide a user-friendly interface for visual prompting. To address this challenge, we introduce a novel multimodal model capable of decoding arbitrary visual prompts. This allows users to intuitively mark images and interact with the model using natural cues like a "red bounding box" or "pointed arrow". Our simple design directly overlays visual markers onto the RGB image, eliminating the need for complex region encodings, yet achieves state-of-the-art performance on region-understanding tasks like Visual7W, PointQA, and Visual Commonsense Reasoning benchmark. Furthermore, we present ViP-Bench, a comprehensive benchmark to assess the capability of models in understanding visual prompts across multiple dimensions, enabling future research in this domain. Code, data, and model are publicly available.
翻訳日:2024-05-01 00:15:22 公開日:2024-04-27
# コードドキュメンテーション生成のための大規模言語モデルの比較分析

A Comparative Analysis of Large Language Models for Code Documentation Generation ( http://arxiv.org/abs/2312.10349v2 )

ライセンス: Link先を確認
Shubhang Shekhar Dvivedi, Vyshnav Vijay, Sai Leela Rahul Pujari, Shoumik Lodh, Dhruv Kumar, (参考訳) 本稿では,コードドキュメンテーション生成のための大規模言語モデル(LLM)の包括的比較分析について述べる。 コードドキュメンテーションは、ソフトウェア記述プロセスの重要な部分です。 GPT-3.5、GPT-4、Bard、Llama2、Starchatといったモデルに対して、さまざまなレベルのコードドキュメンテーションに対して、正確性、完全性、妥当性、理解可能性、可読性、時間といったさまざまなパラメータについて評価する。 我々の評価は、主観性を最小化するためにチェックリストに基づくシステムを使用し、より客観的な評価を提供する。 私たちは、Starchatを禁止し、全てのLLMがオリジナルのドキュメントを一貫して上回っていることに気付きました。 特に、GPT-3.5、GPT-4、BardはオープンソースのLLM、すなわちLLama 2とStarChatと比較して、様々なパラメータで優れた性能を示す。 生成に要する時間を考えると、GPT-4は最長持続時間を示し、続いてLlama2、Bard、ChatGPT、Starchatが同世代である。 さらに、ファイルレベルのドキュメンテーションは、インラインやファンクションレベルのドキュメンテーションに比べて、すべてのパラメータ(時間を除いて)でかなりパフォーマンスが悪くなりました。

This paper presents a comprehensive comparative analysis of Large Language Models (LLMs) for generation of code documentation. Code documentation is an essential part of the software writing process. The paper evaluates models such as GPT-3.5, GPT-4, Bard, Llama2, and Starchat on various parameters like Accuracy, Completeness, Relevance, Understandability, Readability and Time Taken for different levels of code documentation. Our evaluation employs a checklist-based system to minimize subjectivity, providing a more objective assessment. We find that, barring Starchat, all LLMs consistently outperform the original documentation. Notably, closed-source models GPT-3.5, GPT-4, and Bard exhibit superior performance across various parameters compared to open-source/source-available LLMs, namely LLama 2 and StarChat. Considering the time taken for generation, GPT-4 demonstrated the longest duration, followed by Llama2, Bard, with ChatGPT and Starchat having comparable generation times. Additionally, file level documentation had a considerably worse performance across all parameters (except for time taken) as compared to inline and function level documentation.
翻訳日:2024-05-01 00:05:37 公開日:2024-04-27
# 量子モンテカルロシミュレーションによる相互作用するフェルミオンのエンタングルメントレニイ負性

Entanglement Rényi Negativity of Interacting Fermions from Quantum Monte Carlo Simulations ( http://arxiv.org/abs/2312.14155v2 )

ライセンス: Link先を確認
Fo-Hong Wang, Xiao Yan Xu, (参考訳) 多体の絡み合いは、量子物質のさらなる側面を明らかにし、強い相関物理学に関する洞察を提供する。 基底状態の絡み合いは過去10年間に多くの注目を集めてきたが、相互作用するフェルミオン系における負性率を用いた混合状態の量子絡み合いの研究はほとんど未解明のままである。 相互作用するフェルミオンの部分転位密度行列は、その還元密度行列と同様に、自由フェルミオンを記述するガウス状態の重み付け和として表すことができ、決定的量子モンテカルロフレームワーク内のランク-$n$ R\'{e}nyi 負の負の計算を可能にする。 半充填ハバードモデルとスピンレス$t$-$V$モデルに対するランク2のR\'{e}nyi負性率の最初の計算を行い、R\'{e}nyi負性率の面積法則係数が有限温度遷移点における対数有限スケールを持つことを見出した。 我々の研究は絡み合いの計算に寄与し、様々なフェルミオン多体混合状態における量子絡み合いの将来の研究の舞台となる。

Many-body entanglement unveils additional aspects of quantum matter and offers insights into strongly correlated physics. While ground-state entanglement has received much attention in the past decade, the study of mixed-state quantum entanglement using negativity in interacting fermionic systems remains largely unexplored. We demonstrate that the partially transposed density matrix of interacting fermions, similar to their reduced density matrix, can be expressed as a weighted sum of Gaussian states describing free fermions, enabling the calculation of rank-$n$ R\'{e}nyi negativity within the determinant quantum Monte Carlo framework. We conduct the first calculation of rank-two R\'{e}nyi negativity for the half-filled Hubbard model and the spinless $t$-$V$ model and find that the area law coefficient of the R\'{e}nyi negativity has a logarithmic finite-size scaling at the finite-temperature transition point. Our work contributes to the calculation of entanglement and sets the stage for future studies on quantum entanglement in various fermionic many-body mixed states.
翻訳日:2024-05-01 00:05:37 公開日:2024-04-27
# AdaMR: 統一事前学習戦略のための適応可能な分子表現

AdaMR: Adaptable Molecular Representation for Unified Pre-training Strategy ( http://arxiv.org/abs/2401.06166v2 )

ライセンス: Link先を確認
Yan Ding, Hao Cheng, Ziliang Ye, Ruyi Feng, Wei Tian, Peng Xie, Juan Zhang, Zhongze Gu, (参考訳) そこで我々は,小分子薬の新規な統一前訓練戦略であるAdjustable Molecular Representation (AdaMR)を提案する。 AdaMRは、分子正準化と呼ばれる事前訓練の仕事を通じて達成される粒度調整可能な分子エンコーディング戦略を利用しており、近年の大規模分子モデルとは分離されている。 この粒度の適応性は、モデルの学習能力を複数のレベルで強化し、マルチタスクシナリオのパフォーマンスを向上させる。 具体的には、サブ構造レベルの分子表現は、特定の原子群や配列に関する情報を保持し、化学的性質や機能に影響を与える。 これは、プロパティ予測のようなタスクに有利であることを示す。 同時に、原子レベルの表現と生成分子正準化事前訓練タスクが組み合わさって、生成タスクの妥当性、新規性、特異性を高める。 これらすべての機能は、さまざまな下流タスクにおいて、AdaMRに優れたパフォーマンスを提供するために協力して動作する。 6つの分子特性予測タスク (MoleculeNet データセット) と2つの生成タスク (ZINC250K データセット) に基づいて,提案した事前学習モデルを微調整し,8つのタスクのうち5つでSOTA(State-of-the-art) の結果を得た。

We propose Adjustable Molecular Representation (AdaMR), a new large-scale uniform pre-training strategy for small-molecule drugs, as a novel unified pre-training strategy. AdaMR utilizes a granularity-adjustable molecular encoding strategy, which is accomplished through a pre-training job termed molecular canonicalization, setting it apart from recent large-scale molecular models. This adaptability in granularity enriches the model's learning capability at multiple levels and improves its performance in multi-task scenarios. Specifically, the substructure-level molecular representation preserves information about specific atom groups or arrangements, influencing chemical properties and functionalities. This proves advantageous for tasks such as property prediction. Simultaneously, the atomic-level representation, combined with generative molecular canonicalization pre-training tasks, enhances validity, novelty, and uniqueness in generative tasks. All of these features work together to give AdaMR outstanding performance on a range of downstream tasks. We fine-tuned our proposed pre-trained model on six molecular property prediction tasks (MoleculeNet datasets) and two generative tasks (ZINC250K datasets), achieving state-of-the-art (SOTA) results on five out of eight tasks.
翻訳日:2024-05-01 00:05:36 公開日:2024-04-27
# Health-LLM:ウェアラブルセンサデータによる健康予測のための大規模言語モデル

Health-LLM: Large Language Models for Health Prediction via Wearable Sensor Data ( http://arxiv.org/abs/2401.06866v2 )

ライセンス: Link先を確認
Yubin Kim, Xuhai Xu, Daniel McDuff, Cynthia Breazeal, Hae Won Park, (参考訳) 大規模言語モデル(LLM)は多くの自然言語処理が可能であるが、完璧には程遠い。 健康分野では、ドメイン固有データと非言語データの接地と解釈が不可欠である。 本稿では、文脈情報(例えば、ユーザ人口統計、健康知識)と生理データ(例えば、安静時、睡眠時間)に基づいて、健康に関する推測を行うLLMの能力について検討する。 本研究では,4つの公衆衛生データセット(PMData,LifeSnaps,GLOBEM,AW_FB)について,最新の12種類のLCMの総合評価を行った。 本実験では,精神保健,活動,代謝,睡眠アセスメントにおける10の消費者健康予測タスクについて検討した。 私たちの微調整モデルであるHealthAlpacaは、はるかに大きなモデル(GPT-3.5、GPT-4、Gemini-Pro)に匹敵するパフォーマンスを示し、10タスク中8タスクで最高のパフォーマンスを実現しています。 アブレーション研究は文脈強化戦略の有効性を強調している。 特に、我々の文脈の強化が最大で23.8%のパフォーマンス向上をもたらすことを観察する。 文脈的に豊かなプロンプト(ユーザコンテキスト、健康知識、時間情報を組み合わせたもの)を構築することは相乗的改善を示すが、健康知識コンテキストをインクルードすることで全体的なパフォーマンスが著しく向上する。

Large language models (LLMs) are capable of many natural language tasks, yet they are far from perfect. In health applications, grounding and interpreting domain-specific and non-linguistic data is crucial. This paper investigates the capacity of LLMs to make inferences about health based on contextual information (e.g. user demographics, health knowledge) and physiological data (e.g. resting heart rate, sleep minutes). We present a comprehensive evaluation of 12 state-of-the-art LLMs with prompting and fine-tuning techniques on four public health datasets (PMData, LifeSnaps, GLOBEM and AW_FB). Our experiments cover 10 consumer health prediction tasks in mental health, activity, metabolic, and sleep assessment. Our fine-tuned model, HealthAlpaca exhibits comparable performance to much larger models (GPT-3.5, GPT-4 and Gemini-Pro), achieving the best performance in 8 out of 10 tasks. Ablation studies highlight the effectiveness of context enhancement strategies. Notably, we observe that our context enhancement can yield up to 23.8% improvement in performance. While constructing contextually rich prompts (combining user context, health knowledge and temporal information) exhibits synergistic improvement, the inclusion of health knowledge context in prompts significantly enhances overall performance.
翻訳日:2024-04-30 23:55:37 公開日:2024-04-27
# DressCode: テキストガイダンスからガーメントの自動縫製と生成

DressCode: Autoregressively Sewing and Generating Garments from Text Guidance ( http://arxiv.org/abs/2401.16465v2 )

ライセンス: Link先を確認
Kai He, Kaixin Yao, Qixuan Zhang, Jingyi Yu, Lingjie Liu, Lan Xu, (参考訳) アパレルの人間の外見における重要な役割は、デジタル人間の創造における衣服のデジタル化の重要性を浮き彫りにしている。 近年の3Dコンテンツ制作の進歩は、デジタル人間の創造にとって重要な要素である。 それでも、テキストガイダンスによる衣服生成はまだ初期段階にある。 DressCodeは、初心者向けデザインを民主化し、ファッションデザイン、バーチャルトライオン、デジタルヒューマン創造において大きな可能性を秘めている。 筆者らはまず,GPTベースのアーキテクチャであるSewingGPTを紹介した。 また,高品質なタイルベースのPBRテクスチャ生成のために,事前訓練した安定拡散を調整した。 大規模言語モデルを活用することにより,本フレームワークは自然言語インタラクションによりCGフレンドリーな衣服を生成する。 また,パターン補完やテクスチャ編集を容易にし,ユーザフレンドリーなインタラクションを通じてデザインプロセスを合理化する手法を提案する。 このフレームワークは、クリエーターが自由にデザインを実験し、独自の要素を作品に組み込むことでイノベーションを促進する。 提案手法は,他の最先端手法と比較して総合的な評価と比較を行い,入力プロンプトと最適品質と整合性を示す。 ユーザスタディは、私たちの高品質なレンダリング結果をさらに検証し、実用性と本番環境での可能性を強調します。 私たちのプロジェクトページはhttps://IHe-KaiI.github.io/DressCode/。

Apparel's significant role in human appearance underscores the importance of garment digitalization for digital human creation. Recent advances in 3D content creation are pivotal for digital human creation. Nonetheless, garment generation from text guidance is still nascent. We introduce a text-driven 3D garment generation framework, DressCode, which aims to democratize design for novices and offer immense potential in fashion design, virtual try-on, and digital human creation. For our framework, we first introduce SewingGPT, a GPT-based architecture integrating cross-attention with text-conditioned embedding to generate sewing patterns with text guidance. We also tailored a pre-trained Stable Diffusion for high-quality, tile-based PBR texture generation. By leveraging a large language model, our framework generates CG-friendly garments through natural language interaction. Our method also facilitates pattern completion and texture editing, streamlining the design process through user-friendly interaction. This framework fosters innovation by allowing creators to freely experiment with designs and incorporate unique elements into their work, thereby igniting new ideas and artistic possibilities. With comprehensive evaluations and comparisons with other state-of-the-art methods, our method showcases the best quality and alignment with input prompts. User studies further validate our high-quality rendering results, highlighting its practical utility and potential in production settings. Our project page is https://IHe-KaiI.github.io/DressCode/.
翻訳日:2024-04-30 23:55:37 公開日:2024-04-27
# 自己監督型バイナリセマンティックセマンティックセグメンテーションのための医用画像の本質的特性の探索

Exploring Intrinsic Properties of Medical Images for Self-Supervised Binary Semantic Segmentation ( http://arxiv.org/abs/2402.02367v2 )

ライセンス: Link先を確認
Pranav Singh, Jacopo Cirrone, (参考訳) 近年の自己教師型学習の進歩は、ラベルのないデータを補助的なタスクに活用する可能性を解き明かし、有益な事前学習を容易にしている。 これは、ラベル付きデータが不足している医療画像分析のような分野で特に有利である。 分類作業には有効であるが、この手法は医療画像のセグメンテーションのようなより複雑な応用に制限を与えている。 本稿では,ダイナミック・セルフ・アダプティブ・セマンティック・セマンティック・セマンティック・セマンティック・セマンティクス(MedSASS)による医用イメージ・セマンティクスの強化について紹介する。 我々は,MedSASSを4つの医学データセットにまたがる既存の最先端手法に対して評価し,その優位性を示した。 MedSASSは既存のCNNベースの自己監督手法を3.83%上回り、ViTベースの手法のパフォーマンスに匹敵する。 さらに、MedSASSがエンコーダとデコーダの両方をカバーするエンドツーエンドでトレーニングされている場合、CNNでは14.4%、ViTベースのアーキテクチャでは6%の大幅な改善がなされている。

Recent advancements in self-supervised learning have unlocked the potential to harness unlabeled data for auxiliary tasks, facilitating the learning of beneficial priors. This has been particularly advantageous in fields like medical image analysis, where labeled data are scarce. Although effective for classification tasks, this methodology has shown limitations in more complex applications, such as medical image segmentation. In this paper, we introduce Medical imaging Enhanced with Dynamic Self-Adaptive Semantic Segmentation (MedSASS), a dedicated self-supervised framework tailored for medical image segmentation. We evaluate MedSASS against existing state-of-the-art methods across four diverse medical datasets, showcasing its superiority. MedSASS outperforms existing CNN-based self-supervised methods by 3.83% and matches the performance of ViT-based methods. Furthermore, when MedSASS is trained end-to-end, covering both encoder and decoder, it demonstrates significant improvements of 14.4% for CNNs and 6% for ViT-based architectures compared to existing state-of-the-art self-supervised strategies.
翻訳日:2024-04-30 23:45:39 公開日:2024-04-27
# 因果発見を用いたブラックボックス機械学習モデルの実用的説明とクレジットレーティングへの応用

Counterfactual Explanations of Black-box Machine Learning Models using Causal Discovery with Applications to Credit Rating ( http://arxiv.org/abs/2402.02678v2 )

ライセンス: Link先を確認
Daisuke Takahashi, Shohei Shimizu, Takuma Tanaka, (参考訳) 説明可能な人工知能(XAI)は、機械学習アルゴリズムの内部メカニズムの解明を支援し、彼らの予測の基盤を示すことによって信頼性を高める。 いくつかのXAIモデルは、予測モデルのインプット・アウトプット関係と特徴間の依存関係を調べることによって、モデルを説明するために因果関係を考慮する。 これらのモデルの大半は、因果グラフが知られていると仮定して、反事実確率に基づく説明に基づいている。 しかし、この仮定は、ほとんどの場合、特徴間の因果関係が未知であることを考えると、そのようなモデルの実際のデータへの適用を複雑にしている。 そこで本研究では,因果グラフが知られている制約を緩和する新しいXAIフレームワークを提案する。 この枠組みは、因果関係の確率と、因果関係の事前情報を活用し、因果関係の発見法とブラックボックス分類モデルにより推定された因果関係のグラフの統合を容易にする。 さらに,反現実的確率に基づいて説明スコアを推定した。 人工データを用いて行った数値実験により、因果グラフが存在しない場合よりも説明スコアを正確に推定できる可能性が確認された。 最後に, 実データへの応用として, 滋賀県志賀銀行に割り当てられた信用格付けの分類モデルを構築した。 因果グラフが不明な場合に提案手法の有効性を実証した。

Explainable artificial intelligence (XAI) has helped elucidate the internal mechanisms of machine learning algorithms, bolstering their reliability by demonstrating the basis of their predictions. Several XAI models consider causal relationships to explain models by examining the input-output relationships of prediction models and the dependencies between features. The majority of these models have been based their explanations on counterfactual probabilities, assuming that the causal graph is known. However, this assumption complicates the application of such models to real data, given that the causal relationships between features are unknown in most cases. Thus, this study proposed a novel XAI framework that relaxed the constraint that the causal graph is known. This framework leveraged counterfactual probabilities and additional prior information on causal structure, facilitating the integration of a causal graph estimated through causal discovery methods and a black-box classification model. Furthermore, explanatory scores were estimated based on counterfactual probabilities. Numerical experiments conducted employing artificial data confirmed the possibility of estimating the explanatory score more accurately than in the absence of a causal graph. Finally, as an application to real data, we constructed a classification model of credit ratings assigned by Shiga Bank, Shiga prefecture, Japan. We demonstrated the effectiveness of the proposed method in cases where the causal graph is unknown.
翻訳日:2024-04-30 23:45:39 公開日:2024-04-27
# 高分解能UAV画像への教師なしセマンティックセマンティックセグメンテーションの適用

Applying Unsupervised Semantic Segmentation to High-Resolution UAV Imagery for Enhanced Road Scene Parsing ( http://arxiv.org/abs/2402.02985v2 )

ライセンス: Link先を確認
Zihan Ma, Yongshang Li, Ronggui Ma, Chen Liang, (参考訳) UAV画像から道路シーンを解析する際には、高解像度画像を処理する複雑さと、堅牢で正確なモデルをトレーニングするために従来の教師付きディープラーニング手法が必要とする広範な手動アノテーションに依存することの2つの課題がある。 本稿では,これらの重要な課題に対処するために,基本的なコンピュータビジョン技術を用いた視覚言語モデルの進歩を生かした,教師なしの道路解析フレームワークを提案する。 提案手法は,高解像度画像を効率よく処理し,興味のある道路領域を高速に識別する視覚言語モデルで開始する。 その後のビジョンファウンデーションモデル(SAM)の適用により、カテゴリ情報を必要とせずにこれらの領域のマスクを生成する。 自己教師付き学習ネットワークは、これらのマスキングされた領域を処理して特徴表現を抽出し、各特徴クラスタにユニークなIDを割り当てる教師なしアルゴリズムを用いてクラスタ化する。 マスクされた領域は、対応するIDと組み合わせて初期擬似ラベルを生成し、通常のセマンティックセグメンテーションのための反復的な自己学習プロセスを開始する。 注目すべきことに、提案手法は、手動のアノテーションを使わずに開発データセット上で89.96%の平均的統合(mIoU)を達成し、人間の定義したカテゴリの制限を越え、データセット自体から新しいカテゴリの知識を自律的に取得することで、異常な柔軟性を示す。

There are two challenges presented in parsing road scenes from UAV images: the complexity of processing high-resolution images and the dependency on extensive manual annotations required by traditional supervised deep learning methods to train robust and accurate models. In this paper, a novel unsupervised road parsing framework that leverages advancements in vision language models with fundamental computer vision techniques is introduced to address these critical challenges. Our approach initiates with a vision language model that efficiently processes ultra-high resolution images to rapidly identify road regions of interest. Subsequent application of the vision foundation model, SAM, generates masks for these regions without requiring category information. A self-supervised learning network then processes these masked regions to extract feature representations, which are clustered using an unsupervised algorithm that assigns unique IDs to each feature cluster. The masked regions are combined with the corresponding IDs to generate initial pseudo-labels, which initiate an iterative self-training process for regular semantic segmentation. Remarkably, the proposed method achieves a mean Intersection over Union (mIoU) of 89.96% on the development dataset without any manual annotation, demonstrating extraordinary flexibility by surpassing the limitations of human-defined categories, and autonomously acquiring knowledge of new categories from the dataset itself.
翻訳日:2024-04-30 23:45:39 公開日:2024-04-27
# DeepSeekMath:オープン言語モデルにおける数学的推論の限界を押し上げる

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models ( http://arxiv.org/abs/2402.03300v3 )

ライセンス: Link先を確認
Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, Y. K. Li, Y. Wu, Daya Guo, (参考訳) 数学的推論は、その複雑で構造化された性質のため、言語モデルにとって重要な課題である。 本稿では,DeepSeek-Coder-Base-v1.5 7Bの事前学習を継続するDeepSeekMath 7Bを紹介する。 DeepSeekMath 7Bは、外部ツールキットや投票技術に頼ることなく、競合レベルのMATHベンチマークで51.7%のスコアを獲得し、Gemini-UltraとGPT-4のパフォーマンスレベルに近づいた。 DeepSeekMath 7Bの64以上のサンプルはMATHで60.9%を達成している。 DeepSeekMathの数学的推論能力は、2つの重要な要因に起因している。 第2に、PPOのメモリ使用量を同時に最適化しながら、数学的推論能力を向上させるPPOの変種であるグループ相対ポリシー最適化(GRPO)を導入する。

Mathematical reasoning poses a significant challenge for language models due to its complex and structured nature. In this paper, we introduce DeepSeekMath 7B, which continues pre-training DeepSeek-Coder-Base-v1.5 7B with 120B math-related tokens sourced from Common Crawl, together with natural language and code data. DeepSeekMath 7B has achieved an impressive score of 51.7% on the competition-level MATH benchmark without relying on external toolkits and voting techniques, approaching the performance level of Gemini-Ultra and GPT-4. Self-consistency over 64 samples from DeepSeekMath 7B achieves 60.9% on MATH. The mathematical reasoning capability of DeepSeekMath is attributed to two key factors: First, we harness the significant potential of publicly available web data through a meticulously engineered data selection pipeline. Second, we introduce Group Relative Policy Optimization (GRPO), a variant of Proximal Policy Optimization (PPO), that enhances mathematical reasoning abilities while concurrently optimizing the memory usage of PPO.
翻訳日:2024-04-30 23:45:39 公開日:2024-04-27
# 真に高次元の真の多部絡みのキャラクタリゼーションと検出

Characterising and detecting genuinely high-dimensional genuine multipartite entanglement ( http://arxiv.org/abs/2402.06234v3 )

ライセンス: Link先を確認
Gabriele Cobucci, Armin Tavakoli, (参考訳) 複数の局所レベルと複数のサブシステムを持つ絡み合った状態は、ますます最先端の量子技術に入りつつある。 このような高次元多部交絡状態が低次元交絡のみを用いてシミュレートできるかどうかを検討する。 そこで本研究では,システムの各断面に混在する混在状態を生成するために必要となる,最悪の二部交絡次元を通した多部交絡寸法のベンチマークを提案する。 この真に高次元かつ真に多次元の絡み合いを検出するために、我々はいくつかの一般的な基準のクラスを開発する。 これらはそれぞれ、最小限の測定値と凸プログラミング法のみを用いて、忠実度測定、効率的な忠実度推定に基づいている。 提案手法は,多部構造における絡み合いの次元性を簡易に評価する方法を提供し,本手法は高次元多部絡み合い実験に容易に適用できる。

Entangled states with both multiple local levels and multiple subsystems is increasingly entering state-of-the-art quantum technology. We investigate whether such high-dimensional multipartite entangled states can be simulated using only low-dimensional entanglement. To this end, we propose to benchmark the multipartite entanglement dimensionality via the worst-case bipartite entanglement dimension needed to generate the state as a mixture over the different bisections of the system. In order to detect this genuinely high-dimensional and genuinely multipartite entanglement, we develop several classes of general criteria. They are respectively based on fidelity measurements, efficient fidelity estimation using only a minimal number of measurements and convex programming methods. The approach provides a simple way of benchmarking the entanglement dimensionality in the multipartite regime and our methods readily apply to high-dimensional multipartite entanglement experiments.
翻訳日:2024-04-30 23:45:39 公開日:2024-04-27
# EasyRL4Rec: 強化学習に基づくレコメンダシステムのための使いやすいライブラリ

EasyRL4Rec: An Easy-to-use Library for Reinforcement Learning Based Recommender Systems ( http://arxiv.org/abs/2402.15164v2 )

ライセンス: Link先を確認
Yuanqing Yu, Chongming Gao, Jiawei Chen, Heng Tang, Yuefeng Sun, Qian Chen, Weizhi Ma, Min Zhang, (参考訳) 強化学習(RL)に基づくレコメンダシステム(RS)は,長期的ユーザエンゲージメントを高める可能性に対して注目を集めている。 しかし、この分野での研究は、ユーザフレンドリーなフレームワークの欠如、一貫性のない評価指標、既存研究の再現の難しさなど、課題に直面している。 これらの問題に対処するために、我々は、RLベースのRS用に特別に設計された使いやすいコードライブラリであるEasyRL4Recを紹介した。 このライブラリは5つの公開データセットに基づいて軽量で多様なRL環境を提供し、リッチなオプションを備えたコアモジュールを含み、モデル開発を簡素化する。 長期的な成果に焦点を当てた統一された評価標準を提供し、状態モデリングのための調整された設計とレコメンデーションシナリオのためのアクション表現を提供する。 さらに,現在の手法による洞察力のある実験から得られた知見についても紹介する。 EasyRL4Recは、RLベースのRSのドメインにおけるモデル開発と実験プロセスの促進を目指している。 図書館は一般公開されている。

Reinforcement Learning (RL)-Based Recommender Systems (RSs) have gained rising attention for their potential to enhance long-term user engagement. However, research in this field faces challenges, including the lack of user-friendly frameworks, inconsistent evaluation metrics, and difficulties in reproducing existing studies. To tackle these issues, we introduce EasyRL4Rec, an easy-to-use code library designed specifically for RL-based RSs. This library provides lightweight and diverse RL environments based on five public datasets and includes core modules with rich options, simplifying model development. It provides unified evaluation standards focusing on long-term outcomes and offers tailored designs for state modeling and action representation for recommendation scenarios. Furthermore, we share our findings from insightful experiments with current methods. EasyRL4Rec seeks to facilitate the model development and experimental process in the domain of RL-based RSs. The library is available for public use.
翻訳日:2024-04-30 23:26:08 公開日:2024-04-27
# プラットフォーム交換と保護がいかに重要か:AirbnbとCouchsurfingにおける性的リスクの事例

How Platform Exchange and Safeguards Matter: The Case of Sexual Risk in Airbnb and Couchsurfing ( http://arxiv.org/abs/2402.18705v2 )

ライセンス: Link先を確認
Skyler Wang, (参考訳) CHI と CSCW における最近の研究は,ネットワーク・ホスピタリティ・プラットフォームの設計がユーザ体験やリレーショナルな成果をいかに形作るかという点に注目が集まっている。 本稿では、これらのプラットフォームがもたらす交換の種類に基づいて、さまざまなリスク要因が出現するかどうかを問う。 ひとつは交渉の容易化(Airbnb)、もうひとつは相互交換の容易化(Couchsurfing)です。 性的リスク、過度に調査されたプラットフォームリスク、40人の女性のデュアルプラットフォームユーザとのインタビューを振り返ると、Airbnbが交渉された取引所と機関の安全を拘束することで、最初のゲストホスト関係を買い手と売り手のアレンジにキャストし、インタラクションスクリプトを安定化し、性的暴力行為を形式化する、という3つのメカニズムを通じてリスクを低減できる、と私は論じます。 逆に、Couchsurfingは相互交換と保護の欠如に重点を置いており、オン・アンド・オフ・プラットフォームの両方のユーザーにとって性的なプレカリティを高めている。 本研究は,社会的モチベーションの強いプラットフォームが社会性を損なう可能性を実証し,脆弱なユーザ層を保護するための設計上の意義を結論づける。

Recent work in CHI and CSCW has devoted increasing attention to how the design of network hospitality platforms shapes user experiences and relational outcomes. In this article, I interrogate how different risk factors emerge based on the type of exchanges these platforms facilitate. To do so, I juxtapose two prominent network hospitality platforms: one facilitating negotiated exchange (i.e., Airbnb) with another facilitating reciprocal exchange (i.e., Couchsurfing). Homing in on sexual risk, an underexplored form of platform danger, and drawing on interviews with 40 female dual-platform users, I argue that Airbnb's provision of binding negotiated exchange and institutional safeguards reduces risk through three mechanisms: casting initial guest-host relation into a buyer-seller arrangement, stabilizing interactional scripts, and formalizing sexual violence recourse. Conversely, Couchsurfing's focus on reciprocal exchange and lack of safeguards increase sexual precarity for users both on- and off-platform. This study demonstrates how platforms with strong prosocial motivations can jeopardize sociality and concludes with design implications for protecting vulnerable user populations.
翻訳日:2024-04-30 23:26:08 公開日:2024-04-27
# DareFightingICEコンペティションの強化 - サウンドデザインとAIコンペティション

Enhanced DareFightingICE Competitions: Sound Design and AI Competitions ( http://arxiv.org/abs/2403.02687v2 )

ライセンス: Link先を確認
Ibrahim Khan, Chollakorn Nimpattanavong, Thai Van Nguyen, Kantinan Plupattanakit, Ruck Thawonmas, (参考訳) 本稿では,Unityゲームエンジンの視覚障害プレイヤー(VIP)に着目した対戦ゲームプラットフォームであるDareFightingICEの新たな改良について述べる。 また、DareFightingICEコンペティションを、DareFightingICEサウンドデザインコンペティションとDareFightingICE AIコンペティションという2つのスタンドアロンコンペティションに分離することも紹介している。 この新プラットフォームは、古いDareFightingICEプラットフォームの強化版で、3Dサウンドを伝えるためのより良いオーディオシステムと、AIエージェントに音声データを送信するためのより良い方法を備えている。 この強化とUnityの利用により、新しいDareFightingICEプラットフォームは、VIPの新機能の追加や将来のオーディオ研究において、よりアクセスしやすいものになる。 また,音設計コンペティションにおける音響設計の評価方法も改良され,将来的なCoGの競争が続くにつれて,VIPの音設計の精度が向上する。 我々の知る限り、両コンペティションはいずれも第一種であり、コンペティション間の相互に時間とともにエントリーの質を向上させるための関連性によって、これらのコンペティションはより広いゲームコミュニティのVIPにおいて、しばしば見落とされがちな部分を表す重要な部分となっている。

This paper presents a new and improved DareFightingICE platform, a fighting game platform with a focus on visually impaired players (VIPs), in the Unity game engine. It also introduces the separation of the DareFightingICE Competition into two standalone competitions called DareFightingICE Sound Design Competition and DareFightingICE AI Competition--at the 2024 IEEE Conference on Games (CoG)--in which a new platform will be used. This new platform is an enhanced version of the old DareFightingICE platform, having a better audio system to convey 3D sound and a better way to send audio data to AI agents. With this enhancement and by utilizing Unity, the new DareFightingICE platform is more accessible in terms of adding new features for VIPs and future audio research. This paper also improves the evaluation method for evaluating sound designs in the Sound Design Competition which will ensure a better sound design for VIPs as this competition continues to run at future CoG. To the best of our knowledge, both of our competitions are first of their kind, and the connection between the competitions to mutually improve the entries' quality with time makes these competitions an important part of representing an often overlooked segment within the broader gaming community, VIPs.
翻訳日:2024-04-30 23:16:19 公開日:2024-04-27
# CHAI:効率的なLCM推論のためのクラスタ型ヘッドアテンション

CHAI: Clustered Head Attention for Efficient LLM Inference ( http://arxiv.org/abs/2403.08058v2 )

ライセンス: Link先を確認
Saurabh Agarwal, Bilge Acun, Basil Hosmer, Mostafa Elhoushi, Yejin Lee, Shivaram Venkataraman, Dimitris Papailiopoulos, Carole-Jean Wu, (参考訳) 数十億のパラメータを持つ大規模言語モデル(LLM)は、機械学習の分野を変えました。 しかし、これらのモデルを推論時に提供することは、計算とメモリ集約の両方で、単一の要求では複数のGPUと数十ギガバイトのメモリが必要になる。 マルチヘッドアテンションはLLMの重要なコンポーネントの1つであり、LLMのメモリと計算要求の50%以上を占めることができる。 トークンが注意を払っている頭部に大量の冗長性があることを観察する。 この知見に基づいて,クラスタヘッド注意(CHAI)を提案する。 CHAIは、実行時に自己アテンションのための大量の相関とヘッドを組み合わせることで、メモリと計算の両方を削減します。 実験の結果,CHAIはK,Vキャッシュを最大21.4%,推論時間遅延を最大1.73倍,微調整を必要とせずに削減できることがわかった。 CHAIはこれを3つの異なるモデル(OPT-66B、LAMA-7B、LAMA-33B)と5つの異なる評価データセットで最大3.2%の精度で達成する。

Large Language Models (LLMs) with hundreds of billions of parameters have transformed the field of machine learning. However, serving these models at inference time is both compute and memory intensive, where a single request can require multiple GPUs and tens of Gigabytes of memory. Multi-Head Attention is one of the key components of LLMs, which can account for over 50% of LLMs memory and compute requirement. We observe that there is a high amount of redundancy across heads on which tokens they pay attention to. Based on this insight, we propose Clustered Head Attention (CHAI). CHAI combines heads with a high amount of correlation for self-attention at runtime, thus reducing both memory and compute. In our experiments, we show that CHAI is able to reduce the memory requirements for storing K,V cache by up to 21.4% and inference time latency by up to 1.73x without any fine-tuning required. CHAI achieves this with a maximum 3.2% deviation in accuracy across 3 different models (i.e. OPT-66B, LLAMA-7B, LLAMA-33B) and 5 different evaluation datasets.
翻訳日:2024-04-30 23:16:19 公開日:2024-04-27
# Mambaは時系列予測に有効か?

Is Mamba Effective for Time Series Forecasting? ( http://arxiv.org/abs/2403.11144v3 )

ライセンス: Link先を確認
Zihan Wang, Fanheng Kong, Shi Feng, Ming Wang, Xiaocui Yang, Han Zhao, Daling Wang, Yifei Zhang, (参考訳) 時系列予測(TSF)の領域では、過去の時系列データの中に隠されたパターンを正確に識別し、蒸留し、将来の状態を予測することがモデルにとって必須である。 トランスフォーマーをベースとしたモデルは、これらのパターンを適応する上での優位性から、TSFにおいて強烈な効果を示す。 しかし、トランスフォーマーの二次的な複雑さは計算効率の低下と高いコストをもたらすため、現実のシナリオにおけるTSFモデルの展開を妨げている。 近年、選択状態空間モデルであるMambaは、線形に近い複雑さを維持しながら、シーケンス内の依存関係を処理できることにより、注目を集めている。 TSFタスクでは、これらの特徴により、MambaはTransformerとして隠れたパターンを理解でき、Transformerと比較して計算オーバーヘッドを低減できる。 そこで本研究では,TSFのためのシンプルマンバ(S-Mamba)モデルを提案する。 具体的には,各変数の時間点を線形層を介して自律的にトークン化する。 双方向のマンバ層を用いて変数間相関を抽出し、フィードフォワードネットワークで時間的依存関係を学習する。 最後に、線形写像層による予測結果の生成を行う。 13の公開データセットの実験では、S-Mambaは計算オーバーヘッドを低く保ち、主要な性能を達成している。 さらに,TSFタスクにおけるマンバの可能性を探るため,広範な実験を行った。 私たちのコードはhttps://github.com/wzhwzhhh0921/S-D-Mambaで公開されています。

In the realm of time series forecasting (TSF), it is imperative for models to adeptly discern and distill hidden patterns within historical time series data to forecast future states. Transformer-based models exhibit formidable efficacy in TSF, primarily attributed to their advantage in apprehending these patterns. However, the quadratic complexity of the Transformer leads to low computational efficiency and high costs, which somewhat hinders the deployment of the TSF model in real-world scenarios. Recently, Mamba, a selective state space model, has gained traction due to its ability to process dependencies in sequences while maintaining near-linear complexity. For TSF tasks, these characteristics enable Mamba to comprehend hidden patterns as the Transformer and reduce computational overhead compared to the Transformer. Therefore, we propose a Mamba-based model named Simple-Mamba (S-Mamba) for TSF. Specifically, we tokenize the time points of each variate autonomously via a linear layer. A bidirectional Mamba layer is utilized to extract inter-variate correlations and a Feed-Forward Network is set to learn temporal dependencies. Finally, the generation of forecast outcomes through a linear mapping layer. Experiments on thirteen public datasets prove that S-Mamba maintains low computational overhead and achieves leading performance. Furthermore, we conduct extensive experiments to explore Mamba's potential in TSF tasks. Our code is available at https://github.com/wzhwzhwzh0921/S-D-Mamba.
翻訳日:2024-04-30 23:16:19 公開日:2024-04-27
# 改良型デ・フィネッティ・リダクションを用いた光量子鍵分布のポストセレクション法

Postselection technique for optical Quantum Key Distribution with improved de Finetti reductions ( http://arxiv.org/abs/2403.11851v2 )

ライセンス: Link先を確認
Shlok Nahar, Devashish Tupkary, Yuming Zhao, Norbert Lütkenhaus, Ernest Y. -Z. Tan, (参考訳) ポストセレクション技術は、コヒーレント攻撃に対する量子鍵分布プロトコルの安全性を証明する重要な証明手法である。 本研究では,光量子鍵分布プロトコルにポストセレクション手法を厳格に適用するために,複数のステップを踏襲する。 まず, ポストセレクション手法を厳密な数学的基礎の上に配置し, 元のポストセレクション論文の技術的欠陥を修正した。 次に,デ・フィネッティ・リダクション(De Finetti reduction)を用いて提案手法を適用し,提案手法の適用性について検討した。 第3に、ソースにタグを付けることで、deoy-stateプロトコルにポストセレクション手法をどのように利用できるかを示す。 最後に, フラッグステート・スカッシャーの新たな変種を開発することにより, ポストセレクション技術の適用性を, リアルな光学装置に拡張する。 また,既存のデ・フィネッティ減量法を改良し,キーレートに対するポストセレクション手法の適用効果を低減した。 これらの改善は他の量子情報処理タスクにも適用できる。 本稿では,本研究の適用性を示す例として,タイムビン符号化三状態プロトコルに適用する。 我々は,ポストセレクション手法が,コヒーレント攻撃に対する他の既知の証明手法よりも優れていることを観察した。

The postselection technique is an important proof technique for proving the security of quantum key distribution protocols against coherent attacks. In this work, we go through multiple steps to rigorously apply the postselection technique to optical quantum key distribution protocols. First, we place the postselection technique on a rigorous mathematical foundation by fixing a technical flaw in the original postselection paper. Second, we extend the applicability of the postselection technique to prepare-and-measure protocols by using a de Finetti reduction with a fixed marginal. Third, we show how the postselection technique can be used for decoy-state protocols by tagging the source. Finally, we extend the applicability of the postselection technique to realistic optical setups by developing a new variant of the flag-state squasher. We also improve existing de Finetti reductions, which reduce the effect of using the postselection technique on the key rate. These improvements can be more generally applied to other quantum information processing tasks. As an example to demonstrate the applicability of our work, we apply our results to the time-bin encoded three-state protocol. We observe that the postselection technique performs better than all other known proof techniques against coherent attacks.
翻訳日:2024-04-30 23:16:19 公開日:2024-04-27
# 画像偽造解析のための物体マスク誘導型フュージョントランス

Fusion Transformer with Object Mask Guidance for Image Forgery Analysis ( http://arxiv.org/abs/2403.12229v2 )

ライセンス: Link先を確認
Dimitrios Karageorgiou, Giorgos Kordopatis-Zilos, Symeon Papadopoulos, (参考訳) 本研究では,様々な法医学的信号から情報を抽出し,ロバストな画像フォージェリ検出とローカライゼーションを実現するための融合トランスフォーマーネットワークであるOMG-Fuserを紹介する。 我々のアプローチは、任意の数の法定信号で動作することができ、その分析にオブジェクト情報を利用することができます。 そこで我々は,物体の注意機構によって誘導される変圧器からなる法医学信号ストリームを設計し,同一の物体を表すパッチを関連付ける。 このようにして、画像からオブジェクトレベルの情報を取り込む。 各法医学信号は、その特異性に適応する異なるストリームによって処理される。 トークン融合変換器は、任意の数のネットワークストリームの出力を効率よく集約し、各画像パッチに対する融合表現を生成する。 提案手法上の2つの融合変種を評価する。 (i)複数の画像鑑定アルゴリズムの出力を融合するスコアレベル融合と (ii)低レベルの法医学的痕跡を直接融合する特徴レベルの融合。 どちらの変種も画像偽造検出とローカライゼーションのための7つのデータセットの最先端性能を超えており、F1の相対的な平均改善は12.1%と20.4%である。 我々のモデルは、伝統的で斬新な偽造攻撃に対して堅牢であり、スクラッチからトレーニングを受けることなく、新しい信号で拡張することができる。 私たちのコードは、https://github.com/mever-team/omgfuser.comで公開されています。

In this work, we introduce OMG-Fuser, a fusion transformer-based network designed to extract information from various forensic signals to enable robust image forgery detection and localization. Our approach can operate with an arbitrary number of forensic signals and leverages object information for their analysis -- unlike previous methods that rely on fusion schemes with few signals and often disregard image semantics. To this end, we design a forensic signal stream composed of a transformer guided by an object attention mechanism, associating patches that depict the same objects. In that way, we incorporate object-level information from the image. Each forensic signal is processed by a different stream that adapts to its peculiarities. A token fusion transformer efficiently aggregates the outputs of an arbitrary number of network streams and generates a fused representation for each image patch. We assess two fusion variants on top of the proposed approach: (i) score-level fusion that fuses the outputs of multiple image forensics algorithms and (ii) feature-level fusion that fuses low-level forensic traces directly. Both variants exceed state-of-the-art performance on seven datasets for image forgery detection and localization, with a relative average improvement of 12.1% and 20.4% in terms of F1. Our model is robust against traditional and novel forgery attacks and can be expanded with new signals without training from scratch. Our code is publicly available at: https://github.com/mever-team/omgfuser
翻訳日:2024-04-30 23:05:49 公開日:2024-04-27
# LLMにおける「培養」の測定とモデル化に向けて

Towards Measuring and Modeling "Culture" in LLMs: A Survey ( http://arxiv.org/abs/2403.15412v3 )

ライセンス: Link先を確認
Muhammad Farid Adilazuarda, Sagnik Mukherjee, Pradhyumna Lavania, Siddhant Singh, Ashutosh Dwivedi, Alham Fikri Aji, Jacki O'Neill, Ashutosh Modi, Monojit Choudhury, (参考訳) 本稿では,大規模言語モデルにおける文化的表現と包摂性の研究を目的とした39の最近の論文について調査する。 いずれの研究も、複雑で多面的な概念である「文化」を定義しておらず、代わりに「文化」の特定の側面を表す特別に設計されたデータセット上でモデルを探索している。 これらの側面を文化のプロキシと呼び、人口統計学、意味学、言語-文化的相互作用の3つの側面にまたがってそれらを整理する。 また、使用する探索方法も分類する。 分析の結果,特にセマンティックドメインの多様さ (Thompson et al , 2020) と,非探索的な話題 (Hershcovich et al , 2022) が残されている。 その他の2つの重要なギャップは、現在の方法の堅牢性と位置性の欠如である。 これらの観測に基づいて, LLM と LLM に基づく応用における文化的包摂性を高めるための総合的かつ実用的な研究課題について, いくつか提言する。

We present a survey of 39 recent papers that aim to study cultural representation and inclusion in large language models. We observe that none of the studies define "culture," which is a complex, multifaceted concept; instead, they probe the models on some specially designed datasets which represent certain aspects of "culture." We call these aspects the proxies of cultures, and organize them across three dimensions of demographic, semantic and linguistic-cultural interaction proxies. We also categorize the probing methods employed. Our analysis indicates that only certain aspects of "culture," such as values and objectives, have been studied, leaving several other interesting and important facets, especially the multitude of semantic domains (Thompson et al., 2020) and aboutness (Hershcovich et al., 2022), unexplored. Two other crucial gaps are the lack of robustness and situatedness of the current methods. Based on these observations, we provide several recommendations for a holistic and practically useful research agenda for furthering cultural inclusion in LLMs and LLM-based applications.
翻訳日:2024-04-30 23:05:49 公開日:2024-04-27
# セグメンテーションモデルのためのディープインストラクションチューニング

Deep Instruction Tuning for Segment Anything Model ( http://arxiv.org/abs/2404.00650v2 )

ライセンス: Link先を確認
Xiaorui Huang, Gen Luo, Chaoyang Zhu, Bo Tong, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji, (参考訳) 近年,Segment Anything Model (SAM) はマルチメディアやコンピュータビジョンの分野で研究のホットスポットとなっている。 SAMは、異なるタイプのセグメンテーションプロンプトをサポートすることができるが、ポイントやボックス誘導セグメンテーションと比較して、テキストで指示されたタスク、例えば、画像セグメンテーション(RIS)において、はるかにパフォーマンスが悪いことに留意する。 本稿では,従来の軽量マスクデコーダにおける浅層融合方式による欠点を軽減するために,深層テキストのチューニングが重要であることを論じる。 この問題に対処するために、SAMのための2つの単純かつ効果的な深層命令チューニング(DIT)手法を提案し、一方はエンドツーエンドで、もう一方は層ワイズである。 最小限の変更で、DITはSAMのイメージエンコーダを直接スタンドアロンの視覚言語学習者として変換できる。 RISの3つの高い競争力のあるベンチマークデータセットに関する大規模な実験によると、単純なエンドツーエンドのDITはSAMを大きなマージンで改善できる一方で、レイヤワイドのDITは、より少ないデータとトレーニング費で、最先端のDITのパフォーマンスをさらに向上させることができる。 私たちのコードは、https://github.com/wysnzz/DIT.comでリリースされています。

Recently, Segment Anything Model (SAM) has become a research hotspot in the fields of multimedia and computer vision, which exhibits powerful yet versatile capabilities on various (un) conditional image segmentation tasks. Although SAM can support different types of segmentation prompts, we note that, compared to point- and box-guided segmentations, it performs much worse on text-instructed tasks, e.g., referring image segmentation (RIS). In this paper, we argue that deep text instruction tuning is key to mitigate such shortcoming caused by the shallow fusion scheme in its default light-weight mask decoder. To address this issue, we propose two simple yet effective deep instruction tuning (DIT) methods for SAM, one is end-to-end and the other is layer-wise. With minimal modifications, DITs can directly transform the image encoder of SAM as a stand-alone vision-language learner in contrast to building another deep fusion branch, maximizing the benefit of its superior segmentation capability. Extensive experiments on three highly competitive benchmark datasets of RIS show that a simple end-to-end DIT can improve SAM by a large margin, while the layer-wise DIT can further boost the performance to state-of-the-art with much less data and training expenditures. Our code is released at: https://github.com/wysnzzzz/DIT.
翻訳日:2024-04-30 22:56:04 公開日:2024-04-27
# ブロック対角誘導DBSCANクラスタリング

Block-Diagonal Guided DBSCAN Clustering ( http://arxiv.org/abs/2404.01341v2 )

ライセンス: Link先を確認
Weibing Zhao, (参考訳) クラスタ分析はデータベースマイニングにおいて重要な役割を担い、この分野で最も広く使われているアルゴリズムの1つはDBSCANである。 しかし、DBSCANには、高次元の大規模データを扱うことの難しさ、入力パラメータに対する感度、クラスタリング結果の生成における堅牢性の欠如など、いくつかの制限がある。 本稿では、類似性グラフのブロック対角特性を利用してDBSCANのクラスタリング手順を導出するDBSCANの改良版を提案する。 鍵となる考え方は、高次元の大規模データポイント間の類似度を測定し、未知の置換によってブロック対角形に変換される可能性を持つグラフを構築することである。 クラスタリング構造は、置換グラフ内の対角ブロックを識別することで容易に決定できる。 そこで本研究では,勾配勾配勾配に基づく解法を提案する。 さらに,DBSCANに基づく点トラバースアルゴリズムを開発し,グラフの密度の高いクラスタを同定し,クラスタの順序付けを高速化する。 グラフのブロック対角構造は、トラバース次数に基づく置換によって達成され、自動的および対話的クラスタ分析のための柔軟な基盤を提供する。 我々は,特定の場合において理論的に最適な保証で,置換グラフ内のすべての対角ブロックを自動的に探索する分割と再定義のアルゴリズムを導入する。 実世界の12のベンチマーククラスタリングデータセットに対する提案手法を広範に評価し、各データセットの最先端クラスタリング手法と比較して優れた性能を示す。

Cluster analysis plays a crucial role in database mining, and one of the most widely used algorithms in this field is DBSCAN. However, DBSCAN has several limitations, such as difficulty in handling high-dimensional large-scale data, sensitivity to input parameters, and lack of robustness in producing clustering results. This paper introduces an improved version of DBSCAN that leverages the block-diagonal property of the similarity graph to guide the clustering procedure of DBSCAN. The key idea is to construct a graph that measures the similarity between high-dimensional large-scale data points and has the potential to be transformed into a block-diagonal form through an unknown permutation, followed by a cluster-ordering procedure to generate the desired permutation. The clustering structure can be easily determined by identifying the diagonal blocks in the permuted graph. We propose a gradient descent-based method to solve the proposed problem. Additionally, we develop a DBSCAN-based points traversal algorithm that identifies clusters with high densities in the graph and generates an augmented ordering of clusters. The block-diagonal structure of the graph is then achieved through permutation based on the traversal order, providing a flexible foundation for both automatic and interactive cluster analysis. We introduce a split-and-refine algorithm to automatically search for all diagonal blocks in the permuted graph with theoretically optimal guarantees under specific cases. We extensively evaluate our proposed approach on twelve challenging real-world benchmark clustering datasets and demonstrate its superior performance compared to the state-of-the-art clustering method on every dataset.
翻訳日:2024-04-30 22:56:04 公開日:2024-04-27
# ハイパースペクトル画像分類のための共通知識埋め込み型コントラスト学習フレームワーク

A Universal Knowledge Embedded Contrastive Learning Framework for Hyperspectral Image Classification ( http://arxiv.org/abs/2404.01673v3 )

ライセンス: Link先を確認
Quanwei Liu, Yanni Dong, Tao Huang, Lefei Zhang, Bo Du, (参考訳) ハイパースペクトル画像(HSI)分類技術の研究が盛んに行われ、様々なモデルが開発されている。 しかし、これらのHSI分類モデルは、ポケットモデルと非現実的なデータセット分割方法に限られている。 前者はモデルの一般化性能を制限し、後者は分割され、膨らんだモデル評価指標が導かれる。 そこで本研究では,ポケットモデルと標準視覚バックボーン間のHSI分類モデルとのギャップを埋める,教師付き・教師なし・半教師付きHSI分類のための共通知識埋め込み型コントラスト学習フレームワーク(KnowCL)を提案する。 我々は、多様なデータ表現とリアルなデータ分割を提供する一連のデータ変換および拡張技術と共に、新しいHSI処理パイプラインを提案する。 このパイプラインに基づく提案されたフレームワークは、あらゆる種類のバックボーンと互換性があり、予想されるトレーニング時間でラベル付きおよびラベルなしのサンプルを完全に活用することができる。 さらに,教師付き損失と教師なし損失を適応的に融合し,学習性能を向上させる新たな損失関数を設計する。 提案する新たな分類パラダイムは,HSI分類技術の探索において大きな可能性を示す。 コードは \url{https://github.com/quanweiliu/KnowCL} でアクセスすることができる。

Hyperspectral image (HSI) classification techniques have been intensively studied and a variety of models have been developed. However, these HSI classification models are confined to pocket models and unrealistic ways of dataset partitioning. The former limits the generalization performance of the model and the latter is partitioned leading to inflated model evaluation metrics, which results in plummeting model performance in the real world. Therefore, we propose a universal knowledge embedded contrastive learning framework (KnowCL) for supervised, unsupervised, and semisupervised HSI classification, which largely closes the gap between HSI classification models between pocket models and standard vision backbones. We present a new HSI processing pipeline in conjunction with a range of data transformation and augmentation techniques that provide diverse data representations and realistic data partitioning. The proposed framework based on this pipeline is compatible with all kinds of backbones and can fully exploit labeled and unlabeled samples with the expected training time. Furthermore, we design a new loss function, which can adaptively fuse the supervised loss and unsupervised loss, enhancing the learning performance. This proposed new classification paradigm shows great potential in exploring for HSI classification technology. The code can be accessed at \url{https://github.com/quanweiliu/KnowCL}.
翻訳日:2024-04-30 22:56:04 公開日:2024-04-27
# 2レベルフィードバック制御によるネットワークシステムの侵入耐性

Intrusion Tolerance for Networked Systems through Two-Level Feedback Control ( http://arxiv.org/abs/2404.01741v3 )

ライセンス: Link先を確認
Kim Hammar, Rolf Stadler, (参考訳) サービスレプリカを2段階最適制御問題とするシステムの侵入耐性を定式化する。 ローカルレベルではノードコントローラが侵入回復を行い、グローバルレベルではシステムコントローラが複製係数を管理する。 局所的およびグローバルな制御問題は、操作研究における古典的な問題、すなわち機械交換問題と在庫補充問題として定式化することができる。 この定式化に基づいて、侵入耐性システムのための新しい制御アーキテクチャであるTOLERANCEを設計する。 両レベルにおける最適制御戦略がしきい値構造を持ち、それらの計算に効率的なアルゴリズムを設計することを証明する。 10種類のネットワーク侵入を行うエミュレーション環境でのTOLERANCEの実装と評価を行う。 その結果、TOLERANCEは、最先端の侵入耐性システムと比較して、サービスの可用性を向上し、運用コストを低減できることがわかった。

We formulate intrusion tolerance for a system with service replicas as a two-level optimal control problem. On the local level node controllers perform intrusion recovery, and on the global level a system controller manages the replication factor. The local and global control problems can be formulated as classical problems in operations research, namely, the machine replacement problem and the inventory replenishment problem. Based on this formulation, we design TOLERANCE, a novel control architecture for intrusion-tolerant systems. We prove that the optimal control strategies on both levels have threshold structure and design efficient algorithms for computing them. We implement and evaluate TOLERANCE in an emulation environment where we run 10 types of network intrusions. The results show that TOLERANCE can improve service availability and reduce operational cost compared with state-of-the-art intrusion-tolerant systems.
翻訳日:2024-04-30 22:56:04 公開日:2024-04-27
# マンモグラフィにおける乳癌診断の強化:畳み込みニューラルネットワークと説明可能なAIの評価と統合

Enhancing Breast Cancer Diagnosis in Mammography: Evaluation and Integration of Convolutional Neural Networks and Explainable AI ( http://arxiv.org/abs/2404.03892v3 )

ライセンス: Link先を確認
Maryam Ahmed, Tooba Bibi, Rizwan Ahmed Khan, Sidra Nasir, (参考訳) 乳房画像から乳がんを診断するための深層学習(DL)モデルは、しばしば「ブラックボックス」として機能し、医療専門家が意思決定プロセスの信頼と理解を困難にしている。 本研究では,畳み込みニューラルネットワーク(CNN)と説明可能な人工知能(XAI)を組み合わせて,CBIS-DDSMデータセットを用いて乳癌の診断を増強する統合フレームワークを提案する。 この手法は、VGG-16やInception-V3、ResNetといったトレーニング済みネットワークを用いたデータセット制限や転送学習に対抗するための、精巧なデータ前処理パイプラインと高度なデータ拡張技術を含んでいる。 本研究の焦点は,モデル予測の解釈におけるXAIの有効性を評価することである。 このアプローチは、AI支援診断における信頼性と倫理的公正性を促進する上で、XAIにとって重要である。 本研究は,CNNとXAIが乳がんの診断方法の進歩に効果的に協力し,臨床現場における高度なAI技術のよりシームレスな統合を図ったものである。 この研究は、AI駆動意思決定の解釈可能性を高めることで、AIシステムと医療従事者とのコラボレーションを改善するための基礎を築き、最終的には患者のケアを豊かにする。 さらに,本研究の意義は,現在の方法論を大きく超えている。 マルチモーダルデータを組み合わせて、臨床実践のニーズを満たすためにAIの説明を改善する方法について、さらなる研究を奨励している。

The Deep learning (DL) models for diagnosing breast cancer from mammographic images often operate as "black boxes", making it difficult for healthcare professionals to trust and understand their decision-making processes. The study presents an integrated framework combining Convolutional Neural Networks (CNNs) and Explainable Artificial Intelligence (XAI) for the enhanced diagnosis of breast cancer using the CBIS-DDSM dataset. The methodology encompasses an elaborate data preprocessing pipeline and advanced data augmentation techniques to counteract dataset limitations and transfer learning using pre-trained networks such as VGG-16, Inception-V3 and ResNet was employed. A focal point of our study is the evaluation of XAI's effectiveness in interpreting model predictions, highlighted by utilizing the Hausdorff measure to assess the alignment between AI-generated explanations and expert annotations quantitatively. This approach is critical for XAI in promoting trustworthiness and ethical fairness in AI-assisted diagnostics. The findings from our research illustrate the effective collaboration between CNNs and XAI in advancing diagnostic methods for breast cancer, thereby facilitating a more seamless integration of advanced AI technologies within clinical settings. By enhancing the interpretability of AI driven decisions, this work lays the groundwork for improved collaboration between AI systems and medical practitioners, ultimately enriching patient care. Furthermore, the implications of our research extended well beyond the current methodologies. It encourages further research into how to combine multimodal data and improve AI explanations to meet the needs of clinical practice.
翻訳日:2024-04-30 22:56:04 公開日:2024-04-27
# コード表現の強化によるグラフニューラルネットによる障害位置推定の改善に向けて

Towards Better Graph Neural Neural Network-based Fault Localization Through Enhanced Code Representation ( http://arxiv.org/abs/2404.04496v4 )

ライセンス: Link先を確認
Md Nakhla Rafi, Dong Jae Kim, An Ran Chen, Tse-Hsun Chen, Shaowei Wang, (参考訳) 自動ソフトウェアフォールトローカライゼーションは、デバッグを容易にするために故障箇所をピンポイントすることで、ソフトウェア品質保証において重要な役割を果たす。 広く使われている手法であるカバレッジベースのフォールトローカライゼーションでは、被疑点スコアに基づいたコードランク付けにカバレッジスペクトルの統計を用いる。 しかし、統計的アプローチの剛性は、学習に基づく技術を要求する。 中でもグラフニューラルネットワーク(GNN)に基づくグラフニューラルネットワーク(Grace)は,特徴表現を圧縮する他の学習手法の制限を緩和する,厳密な抽象構文強化グラフ表現として,テストとソースのカバレッジ関係を保存する能力によって,最先端技術を実現している。 しかし、そのような表現は、ソフトウェアと関連するカバレッジスペクトルとASTグラフの複雑さの増大によりスケーラビリティに苦慮している。 本研究では,ノードやエッジにおけるグラフ表現の複雑さを70%削減する新しいグラフ表現であるDepGraphを提案する。 さらに,属性としてグラフ内のコード変更情報などの付加的機能を統合し,そのモデルが豊富な歴史的プロジェクトデータを活用できるようにする。 Defects4j 2.0.0を用いてDepGraphを評価し,Top-1における20%以上の障害の所在と平均一位と平均平均ランク(MAR)を50%以上改善し,GPUメモリ使用率を44%削減し,トレーニング/推論時間を85%向上させた。 さらに、クロスプロジェクト環境では、DepGraphは最先端のベースラインを超え、Top-1の精度が42%、MFRとMARが68%、MARが65%向上している。 我々の研究は、DepGraphの堅牢性、最先端の精度、将来の拡張と採用のためのスケーラビリティを実証する。

Automatic software fault localization plays an important role in software quality assurance by pinpointing faulty locations for easier debugging. Coverage-based fault localization, a widely used technique, employs statistics on coverage spectra to rank code based on suspiciousness scores. However, the rigidity of statistical approaches calls for learning-based techniques. Amongst all, Grace, a graph-neural network (GNN) based technique has achieved state-of-the-art due to its capacity to preserve coverage spectra, i.e., test-to-source coverage relationships, as precise abstract syntax-enhanced graph representation, mitigating the limitation of other learning-based technique which compresses the feature representation. However, such representation struggles with scalability due to the increasing complexity of software and associated coverage spectra and AST graphs. In this work, we proposed a new graph representation, DepGraph, that reduces the complexity of the graph representation by 70% in nodes and edges by integrating interprocedural call graph in the graph representation of the code. Moreover, we integrate additional features such as code change information in the graph as attributes so the model can leverage rich historical project data. We evaluate DepGraph using Defects4j 2.0.0, and it outperforms Grace by locating 20% more faults in Top-1 and improving the Mean First Rank (MFR) and the Mean Average Rank (MAR) by over 50% while decreasing GPU memory usage by 44% and training/inference time by 85%. Additionally, in cross-project settings, DepGraph surpasses the state-of-the-art baseline with a 42% higher Top-1 accuracy, and 68% and 65% improvement in MFR and MAR, respectively. Our study demonstrates DepGraph's robustness, achieving state-of-the-art accuracy and scalability for future extension and adoption.
翻訳日:2024-04-30 22:56:04 公開日:2024-04-27
# Gaussian Shading:拡散モデルのための予測可能なパフォーマンスロスレス画像透かし

Gaussian Shading: Provable Performance-Lossless Image Watermarking for Diffusion Models ( http://arxiv.org/abs/2404.04956v2 )

ライセンス: Link先を確認
Zijin Yang, Kai Zeng, Kejiang Chen, Han Fang, Weiming Zhang, Nenghai Yu, (参考訳) 著作権保護と不適切なコンテンツ生成に関する倫理的懸念は、拡散モデルの実践的な実装に課題をもたらす。 効果的な解決策の1つは、生成された画像の透かしである。 しかし、既存の手法はしばしばモデルの性能を損なうか、追加のトレーニングを必要とするが、オペレータやユーザにとっては望ましくない。 この問題に対処するため,我々は,著作権保護と違反コンテンツの追跡という2つの目的を兼ね備えつつ,パフォーマンスロスレスかつトレーニング不要な拡散モデル透かし手法であるGaussian Shadingを提案する。 我々の透かし埋め込みはモデルパラメータの修正が不要であり、プラグアンドプレイである。 非透かし拡散モデルから得られた潜時表現と区別できない標準ガウス分布に従って、透かしを潜時表現にマップする。 したがって、損失のない性能で透かしを埋め込むことができ、理論的に証明できる。 さらに、透かしは画像意味論と密接に結びついているので、損失処理や消去の試みに対するレジリエンスを示す。 透かしは拡散インプリシットモデル(DDIM)のインバージョンと逆サンプリングによって抽出できる。 安定拡散の複数バージョンにおけるガウス的シェーディングの評価を行い、ガウス的シェーディングは性能の欠如だけでなく、ロバスト性の観点からも既存手法よりも優れていることを示した。

Ethical concerns surrounding copyright protection and inappropriate content generation pose challenges for the practical implementation of diffusion models. One effective solution involves watermarking the generated images. However, existing methods often compromise the model performance or require additional training, which is undesirable for operators and users. To address this issue, we propose Gaussian Shading, a diffusion model watermarking technique that is both performance-lossless and training-free, while serving the dual purpose of copyright protection and tracing of offending content. Our watermark embedding is free of model parameter modifications and thus is plug-and-play. We map the watermark to latent representations following a standard Gaussian distribution, which is indistinguishable from latent representations obtained from the non-watermarked diffusion model. Therefore we can achieve watermark embedding with lossless performance, for which we also provide theoretical proof. Furthermore, since the watermark is intricately linked with image semantics, it exhibits resilience to lossy processing and erasure attempts. The watermark can be extracted by Denoising Diffusion Implicit Models (DDIM) inversion and inverse sampling. We evaluate Gaussian Shading on multiple versions of Stable Diffusion, and the results demonstrate that Gaussian Shading not only is performance-lossless but also outperforms existing methods in terms of robustness.
翻訳日:2024-04-30 22:56:04 公開日:2024-04-27
# GFlowNetsにおける動的バックトラッキング:逆依存性調整機構による決定ステップの強化

Dynamic Backtracking in GFlowNets: Enhancing Decision Steps with Reward-Dependent Adjustment Mechanisms ( http://arxiv.org/abs/2404.05576v3 )

ライセンス: Link先を確認
Shuai Guo, Jielei Chu, Lei Zhu, Tianrui Li, (参考訳) 生成フローネットワーク(GFlowNets、GFNs)はマルコフフローを前提とした確率論的モデルであり、生体分子や化学材料などの構成物質を生成する確率論的ポリシーを学ぶために特定のアモーティゼーションアルゴリズムを使用している。 高性能な生化学分子を生成できる強力な能力により、GFNは科学物質の発見を加速し、従来の物質発見手法の時間的、労働集約的、コスト的な欠点を効果的に克服する。 しかし、以前の研究では、複雑なサンプリング空間における配向を誘導する生成構造を調整することにより、探索経験を蓄積することに集中することはめったにない。 LS-GFNのようなこの問題に対処する努力は、局所的な欲求検索に限られており、より広範なグローバルな調整が欠如している。 本稿では、報酬に基づく動的バックトラッキング機構により、意思決定ステップの適応性を向上させるGFN(Dynamic Backtracking GFN)を新たに導入する。 DB-GFNは、現在の状態の報酬値に従ってネットワーク構築プロセス中のバックトラックを可能にし、不利な決定を訂正し、探索プロセス中に代替経路を探索する。 生化学分子や遺伝物質配列を含む生成タスクに適用すると、DB-GFNは、LS-GFNやGTBなどのGFNモデルや、従来の強化学習法、サンプル品質、サンプル探索量、トレーニング収束速度に優れる。 さらに、その直交性から、DB-GFNは今後のGFNの改良に大きな可能性を示し、検索性能を高めるために他の戦略と統合することができる。

Generative Flow Networks (GFlowNets or GFNs) are probabilistic models predicated on Markov flows, and they employ specific amortization algorithms to learn stochastic policies that generate compositional substances including biomolecules, chemical materials, etc. With a strong ability to generate high-performance biochemical molecules, GFNs accelerate the discovery of scientific substances, effectively overcoming the time-consuming, labor-intensive, and costly shortcomings of conventional material discovery methods. However, previous studies rarely focus on accumulating exploratory experience by adjusting generative structures, which leads to disorientation in complex sampling spaces. Efforts to address this issue, such as LS-GFN, are limited to local greedy searches and lack broader global adjustments. This paper introduces a novel variant of GFNs, the Dynamic Backtracking GFN (DB-GFN), which improves the adaptability of decision-making steps through a reward-based dynamic backtracking mechanism. DB-GFN allows backtracking during the network construction process according to the current state's reward value, thereby correcting disadvantageous decisions and exploring alternative pathways during the exploration process. When applied to generative tasks involving biochemical molecules and genetic material sequences, DB-GFN outperforms GFN models such as LS-GFN and GTB, as well as traditional reinforcement learning methods, in sample quality, sample exploration quantity, and training convergence speed. Additionally, owing to its orthogonal nature, DB-GFN shows great potential in future improvements of GFNs, and it can be integrated with other strategies to achieve higher search performance.
翻訳日:2024-04-30 22:46:19 公開日:2024-04-27
# トークンあたりのコストを一定に設定したSoftmaxアテンション

Softmax Attention with Constant Cost per Token ( http://arxiv.org/abs/2404.05843v2 )

ライセンス: Link先を確認
Franz A. Heinsen, (参考訳) そこで我々は,Transformers が適用した従来の注意機構の簡単な修正を提案し,拡張ドット積とペアワイズクエリキーの類似性を定量化するのではなく,指数関数のスケールドット積の対数で定量化する。 我々の修正は、対応する特徴関数が無限次元である指数カーネル特徴写像に注意を向ける。 我々の修正は指数関数の対数和の合成として表現可能であり、一定の大きさの潜在空間を持ち、トークンあたりの時間と空間の複雑さが一定であることを示す。 われわれは修正を実施し、実際に動作していることを確認し、従来の注意の代替として有望なものであると結論づける。

We propose a simple modification to the conventional attention mechanism applied by Transformers: Instead of quantifying pairwise query-key similarity with scaled dot-products, we quantify it with the logarithms of scaled dot-products of exponentials. Our modification linearizes attention with exponential kernel feature maps, whose corresponding feature function is infinite dimensional. We show that our modification is expressible as a composition of log-sums of exponentials, with a latent space of constant size, enabling application with constant time and space complexity per token. We implement our modification, verify that it works in practice, and conclude that it is a promising alternative to conventional attention.
翻訳日:2024-04-30 22:46:19 公開日:2024-04-27
# 境界デコヒーレンスによるトポロジカル秩序の解離遷移

Disentangling transitions in topological order induced by boundary decoherence ( http://arxiv.org/abs/2404.06514v2 )

ライセンス: Link先を確認
Tsung-Cheng Lu, (参考訳) 本稿では,二分割境界上でのデコヒーレンスを考慮したトポロジカル秩序の絡み合い構造について検討する。 空間次元$d$$$$$d=2,3,4$のトーリック符号に着目し、この境界デコヒーレンスが、位相的エンタングルメントネガティビティによって測定された二分法における混合状態長距離エンタングルメントの破壊を特徴とする、不整合遷移を誘発できるかどうかを考察する。 我々のアプローチの鍵となる洞察は、二分割境界上に局在した対称性保存摂動の下で、デコヒート混合状態の負性スペクトルと創発対称性保護トポロジカル秩序との接続である。 この知見は、レプリカのトリックを使わずに、絡み合いの正確な結果を解析的に導出することができる。

We study the entanglement structure of topological orders subject to decoherence on the bipartition boundary. Focusing on the toric codes in $d$ space dimensions for $d=2,3,4$, we explore whether the boundary decoherence may be able to induce a disentangling transition, characterized by the destruction of mixed-state long-range entanglement across the bipartition, measured by topological entanglement negativity. A key insight of our approach is the connection between the negativity spectrum of the decohered mixed states and emergent symmetry-protected topological orders under certain symmetry-preserving perturbation localized on the bipartition boundary. This insight allows us to analytically derive the exact results of entanglement negativity without using a replica trick.
翻訳日:2024-04-30 22:46:19 公開日:2024-04-27
# Inlicit Multi-Spectral Transformer:赤外画像変換モデルに対する軽量で効果的な可視性

Implicit Multi-Spectral Transformer: An Lightweight and Effective Visible to Infrared Image Translation Model ( http://arxiv.org/abs/2404.07072v2 )

ライセンス: Link先を確認
Yijia Chen, Pinghua Chen, Xiangxin Zhou, Yingtie Lei, Ziyang Zhou, Mingxian Li, (参考訳) コンピュータビジョンの分野では、可視光画像は低照度条件では低コントラストを示すことが多く、大きな課題となっている。 赤外線画像は潜在的な解決策を提供するが、その利用には高いコストと実用的な制限が必要である。 近年のディープラーニング,特にGAN(Generative Adversarial Networks)の展開は,可視光画像から赤外線画像への変換を促進している。 しかし、これらの手法はしばしば不安定なトレーニングフェーズを経験し、最適以下の出力を生成する。 これらの問題に対処するために,可視光画像を高忠実度赤外線画像に変換するエンドツーエンドトランスフォーマーモデルを提案する。 当初、Texture Mapping ModuleとColor Perception Adapterは、可視光画像からテクスチャと色の特徴を抽出するために協力していた。 Dynamic Fusion Aggregation Moduleはその後、これらの機能を統合する。 最後に、カラー知覚適応器と拡張知覚注意機構の相乗作用により、赤外線画像への変換を洗練する。 総合的なベンチマーク実験により、我々のモデルは既存の手法よりも優れており、質的にも量的にも非常に優れた赤外線画像を生成することが確認された。 さらに、提案モデルにより、他の手法よりも効果的な赤外線画像のダウンストリーム応用が可能となる。

In the field of computer vision, visible light images often exhibit low contrast in low-light conditions, presenting a significant challenge. While infrared imagery provides a potential solution, its utilization entails high costs and practical limitations. Recent advancements in deep learning, particularly the deployment of Generative Adversarial Networks (GANs), have facilitated the transformation of visible light images to infrared images. However, these methods often experience unstable training phases and may produce suboptimal outputs. To address these issues, we propose a novel end-to-end Transformer-based model that efficiently converts visible light images into high-fidelity infrared images. Initially, the Texture Mapping Module and Color Perception Adapter collaborate to extract texture and color features from the visible light image. The Dynamic Fusion Aggregation Module subsequently integrates these features. Finally, the transformation into an infrared image is refined through the synergistic action of the Color Perception Adapter and the Enhanced Perception Attention mechanism. Comprehensive benchmarking experiments confirm that our model outperforms existing methods, producing infrared images of markedly superior quality, both qualitatively and quantitatively. Furthermore, the proposed model enables more effective downstream applications for infrared images than other methods.
翻訳日:2024-04-30 22:46:19 公開日:2024-04-27
# CATS: 大規模言語モデルにおける疎性に対する文脈認識閾値

CATS: Contextually-Aware Thresholding for Sparsity in Large Language Models ( http://arxiv.org/abs/2404.08763v2 )

ライセンス: Link先を確認
Je-Yong Lee, Donghyun Lee, Genghan Zhang, Mo Tiwari, Azalia Mirhoseini, (参考訳) 大規模言語モデル(LLM)は、劇的に高度なAIアプリケーションを持っているが、その膨大な推論コストのため、そのデプロイメントは難しいままである。 最近の研究は, LLMの活性化間隔を増大させることによって計算コストを向上するが, 下流タスクの大幅な性能劣化に悩まされている。 本研究では,基本LLMの活性化と推論コストの低減を両立させる新しいフレームワーク,CATS(Contextually Aware Thresholding for Sparsity)を提案する。 CATSは比較的シンプルで、実装が容易で、非常に効果的です。 私たちのフレームワークの中心は、新しい非線形アクティベーション機能です。 提案手法は,Mistral-7BやLlama2-7Bなどの各種ベースモデルに適用可能であり,下流タスク性能において既存のスペーサー化手法よりも優れていることを示す。 より正確には、CATSベースのモデルは、細調整なしで、50%のアクティベーション間隔でも、ベースモデルの1~2%のダウンストリームタスク性能を達成する。 さらに、CATSベースのモデルはより高速に収束し、微調整を行う場合の競合技術よりも優れたタスク性能を示す。 最後に,CATSのスパーシリティの活性化を実際のウォールクロックタイム・スピードアップに変換する,CATSの効率的な実装のためのカスタムGPUカーネルを開発する。 CATSのカスタムカーネル実装により,Llama-7BとMistral-7Bの両方で,トークン生成のウォールクロック推論レイテンシが約15%向上した。

Large Language Models (LLMs) have dramatically advanced AI applications, yet their deployment remains challenging due to their immense inference costs. Recent studies ameliorate the computational costs of LLMs by increasing their activation sparsity but suffer from significant performance degradation on downstream tasks. In this work, we introduce a new framework for sparsifying the activations of base LLMs and reducing inference costs, dubbed Contextually Aware Thresholding for Sparsity (CATS). CATS is relatively simple, easy to implement, and highly effective. At the heart of our framework is a new non-linear activation function. We demonstrate that CATS can be applied to various base models, including Mistral-7B and Llama2-7B, and outperforms existing sparsification techniques in downstream task performance. More precisely, CATS-based models often achieve downstream task performance within 1-2% of their base models without any fine-tuning and even at activation sparsity levels of 50%. Furthermore, CATS-based models converge faster and display better task performance than competing techniques when fine-tuning is applied. Finally, we develop a custom GPU kernel for efficient implementation of CATS that translates the activation of sparsity of CATS to real wall-clock time speedups. Our custom kernel implementation of CATS results in a ~15% improvement in wall-clock inference latency of token generation on both Llama-7B and Mistral-7B.
翻訳日:2024-04-30 22:46:19 公開日:2024-04-27
# ボゾン量子コンピュータにおける電子構造シミュレーション

Simulating electronic structure on bosonic quantum computers ( http://arxiv.org/abs/2404.10222v2 )

ライセンス: Link先を確認
Rishab Dutta, Nam P. Vu, Ningyi Lyu, Chen Wang, Victor S. Batista, (参考訳) 量子調和振動子や量子モードによる計算は、量子コンピューティングに対する有望かつ急速に進化するアプローチである。 2レベル量子系である量子ビットとは対照的に、ボソニック・クモッドは原則として無限個の離散レベルを持つことができ、連続変数基底で表すこともできる。 量子コンピューティングの最も有望な応用の1つは、分子電子構造のような多くのフェルミオン問題をシミュレートすることである。 量子ビットベースの量子ハードウェア上で多くのフェルミオン系をシミュレートする最近の進歩は多いが、量子ビットと量子モッドで表される物理の基本的な違いのため、ボゾン量子デバイスに容易に拡張することはできない。 本研究では、ハミルトニアンの電子構造をフェルミオンとボソンマッピングの方式でクアモッドの系に変換し、2つのクアモッドの系としてジヒドロゲン分子の電子構造をシミュレートする方法について述べる。 我々の研究は、ボゾン量子デバイスのパワーを活用することで、多くのフェルミオン系をシミュレートするための扉を開く。

Computations with quantum harmonic oscillators or qumodes is a promising and rapidly evolving approach towards quantum computing. In contrast to qubits, which are two-level quantum systems, bosonic qumodes can in principle have infinite discrete levels, and can also be represented with continuous variable bases. One of the most promising applications of quantum computing is simulating many-fermion problems such as molecular electronic structure. Although there has been a lot of recent progress on simulating many-fermion systems on qubit-based quantum hardware, they can not be easily extended to bosonic quantum devices due to the fundamental difference in physics represented by qubits and qumodes. In this work, we show how an electronic structure Hamiltonian can be transformed into a system of qumodes with a fermion to boson mapping scheme and apply it to simulate the electronic structure of dihydrogen molecule as a system of two qumodes. Our work opens the door for simulating many-fermion systems by harnessing the power of bosonic quantum devices.
翻訳日:2024-04-30 22:36:34 公開日:2024-04-27
# オンデバイスインテリジェンスのためのプライバシ強化トレーニング・アズ・ア・サービス:概念,アーキテクチャ,オープンな問題

Privacy-Enhanced Training-as-a-Service for On-Device Intelligence: Concept, Architectural Scheme, and Open Problems ( http://arxiv.org/abs/2404.10255v2 )

ライセンス: Link先を確認
Zhiyuan Wu, Sheng Sun, Yuwei Wang, Min Liu, Bo Gao, Tianliu He, Wen Wang, (参考訳) オンデバイスインテリジェンス(ODI)は、人工知能(AI)アプリケーションをエンドデバイスで動作させ、リモートサーバに頼ることなく、リアルタイムでカスタマイズされたAI推論を提供する。 しかし、デバイス上でのデプロイメントのトレーニングモデルは、ユーザのデータの分散化とプライバシに敏感な性質に加えて、ネットワーク接続や計算効率などに関わるエンドサイドの制約によって、大きな課題に直面している。 クラウドベースのトレーニング、フェデレートドラーニング、トランスファーラーニングといった既存のトレーニングパラダイムは、デバイスで一般的なこれらの実践的な制約に十分に対処できない。 これらの課題を克服するために、我々は、エンドデバイス向けにプライバシフレンドリでカスタマイズされたAIモデルトレーニングを提供する、新しいサービスコンピューティングパラダイムである、Privacy-Enhanced Training-as-a-Service(PTaaS)を提案する。 PTaaSは、コアトレーニングプロセスをリモートで強力なクラウドやエッジサーバにアウトソースし、アップロードされた匿名クエリに基づいたカスタマイズされたオンデバイスモデルを効率的に開発し、データのプライバシを高めながら、個々のデバイスでの計算負荷を低減する。 PTaaSパラダイムをサポートする新興技術とともに、PTaaSの定義、目標、設計原則について検討する。 PTaaSのアーキテクチャスキームも提示され、それに続いて、PTaaSの分野における今後の研究方向性の舞台となる一連のオープンな問題も提示されている。

On-device intelligence (ODI) enables artificial intelligence (AI) applications to run on end devices, providing real-time and customized AI inference without relying on remote servers. However, training models for on-device deployment face significant challenges due to the decentralized and privacy-sensitive nature of users' data, along with end-side constraints related to network connectivity, computation efficiency, etc. Existing training paradigms, such as cloud-based training, federated learning, and transfer learning, fail to sufficiently address these practical constraints that are prevalent for devices. To overcome these challenges, we propose Privacy-Enhanced Training-as-a-Service (PTaaS), a novel service computing paradigm that provides privacy-friendly, customized AI model training for end devices. PTaaS outsources the core training process to remote and powerful cloud or edge servers, efficiently developing customized on-device models based on uploaded anonymous queries, enhancing data privacy while reducing the computation load on individual devices. We explore the definition, goals, and design principles of PTaaS, alongside emerging technologies that support the PTaaS paradigm. An architectural scheme for PTaaS is also presented, followed by a series of open problems that set the stage for future research directions in the field of PTaaS.
翻訳日:2024-04-30 22:36:34 公開日:2024-04-27
# KernJC: Linuxカーネル脆弱性の自動脆弱性生成

KernJC: Automated Vulnerable Environment Generation for Linux Kernel Vulnerabilities ( http://arxiv.org/abs/2404.11107v2 )

ライセンス: Link先を確認
Bonan Ruan, Jiahao Liu, Chuqi Zhang, Zhenkai Liang, (参考訳) Linuxカーネルの脆弱性の再現はシステムセキュリティにおいて重要なタスクである。 カーネルの脆弱性を再現するには、脆弱性のある環境とPoC(Proof of Concept)プログラムが必要である。 既存の研究はPoCの生成に重点を置いているが、環境の構築は見過ごされている。 しかし、脆弱性を引き起こすための効果的な脆弱な環境を確立することは難しい。 まず、選択したカーネルバージョンの複製が脆弱であることを保証することは難しい。 第二に、デフォルト設定で構築されたカーネルでは多くの脆弱性を再現できない。 複雑な非デフォルトのカーネル設定はカーネルの脆弱性を封じ込めてトリガーするように設定する必要があるが、これらの設定をどう認識するかについての情報は少ない。 これらの課題を解決するために、実際の脆弱性のあるカーネルバージョンを特定するパッチベースのアプローチと、特定の脆弱性をアクティベートするために必要な設定を特定するグラフベースのアプローチを提案する。 我々はこれらのアプローチを、カーネルの脆弱性に対して脆弱な環境を自動生成するツールであるKernJCに実装する。 KernJCの有効性を評価するために、過去5年間にカーネル脆弱性研究から、66の代表的な現実世界の脆弱性を含むデータセットをPoCで構築した。 評価によると、KernJCはこれらの脆弱性すべてに対して脆弱な環境を構築しており、そのうち48.5%は非デフォルト設定を必要としており、4つはNational Vulnerability Database(NVD)の誤ったバージョンクレームを持っている。 さらに、カーネルの脆弱性に対して大規模なスプリアスバージョン検出を行い、NVDのスプリアスバージョンクレームを持つ128の脆弱性を特定する。 今後の研究を促進するため、コミュニティのデータセットとともにKernJCをリリースします。

Linux kernel vulnerability reproduction is a critical task in system security. To reproduce a kernel vulnerability, the vulnerable environment and the Proof of Concept (PoC) program are needed. Most existing research focuses on the generation of PoC, while the construction of environment is overlooked. However, establishing an effective vulnerable environment to trigger a vulnerability is challenging. Firstly, it is hard to guarantee that the selected kernel version for reproduction is vulnerable, as the vulnerability version claims in online databases can occasionally be spurious. Secondly, many vulnerabilities can not be reproduced in kernels built with default configurations. Intricate non-default kernel configurations must be set to include and trigger a kernel vulnerability, but less information is available on how to recognize these configurations. To solve these challenges, we propose a patch-based approach to identify real vulnerable kernel versions and a graph-based approach to identify necessary configs for activating a specific vulnerability. We implement these approaches in a tool, KernJC, automating the generation of vulnerable environments for kernel vulnerabilities. To evaluate the efficacy of KernJC, we build a dataset containing 66 representative real-world vulnerabilities with PoCs from kernel vulnerability research in the past five years. The evaluation shows that KernJC builds vulnerable environments for all these vulnerabilities, 48.5% of which require non-default configs, and 4 have incorrect version claims in the National Vulnerability Database (NVD). Furthermore, we conduct large-scale spurious version detection on kernel vulnerabilities and identify 128 vulnerabilities which have spurious version claims in NVD. To foster future research, we release KernJC with the dataset in the community.
翻訳日:2024-04-30 22:36:34 公開日:2024-04-27
# マルチGPUプラットフォームを用いた機械学習学習のためのユニバーサルパフォーマンスモデリング

Towards Universal Performance Modeling for Machine Learning Training on Multi-GPU Platforms ( http://arxiv.org/abs/2404.12674v2 )

ライセンス: Link先を確認
Zhongyi Lin, Ning Sun, Pallab Bhattacharya, Xizhou Feng, Louis Feng, John D. Owens, (参考訳) CPU、GPU、ネットワークデバイスに分散した計算と通信を備えたコンピュータシステム上での現代の機械学習(ML)ワークロードのトレーニングパフォーマンスを特徴づけ、予測することは、最適化と計画の鍵であるだけでなく、達成すべき複雑な目標でもある。 主な課題は、CPUとGPU間の同期とロードバランシングの複雑さ、入力データ分散のばらつき、複数のコンピュータデバイスを接続する異なる通信デバイスとトポロジ(NVLink、PCIe、ネットワークカードなど)の使用、フレキシブルなトレーニング設定の要求などである。 シングルGPUプラットフォームに関するこれまでの作業に基づいて構築され、(1)テーブルルックアップを埋め込むためのデータ分散対応パフォーマンスモデルと(2)コミュニケーション集合のデータ移動予測を、マルチGPUプラットフォーム上でトレーニングされたMLワークロードのインターおよびイントラランク同期を備えた、アップグレードされたパフォーマンスモデリングパイプラインに組み込むことで、これらの課題に対処し、マルチGPUパフォーマンスモデリングを可能にする。 2つのマルチGPUプラットフォーム上で、ジオ平均誤差5.21%のランダムな構成でDLRMモデル毎のトレーニング時間を正確に予測するだけでなく、この予測パイプラインは、トランスフォーマーベースのNLPモデルなど、ジオ平均誤差3.00%の他のタイプのMLワークロードによく当てはまる。 さらに、ハードウェア上でDLRMのようなMLワークロードを実際に実行しなくても、最速の埋め込みテーブルシャーディング構成(成功率85%)を迅速に選択するような洞察を得られる。

Characterizing and predicting the training performance of modern machine learning (ML) workloads on compute systems with compute and communication spread between CPUs, GPUs, and network devices is not only the key to optimization and planning but also a complex goal to achieve. The primary challenges include the complexity of synchronization and load balancing between CPUs and GPUs, the variance in input data distribution, and the use of different communication devices and topologies (e.g., NVLink, PCIe, network cards) that connect multiple compute devices, coupled with the desire for flexible training configurations. Built on top of our prior work for single-GPU platforms, we address these challenges and enable multi-GPU performance modeling by incorporating (1) data-distribution-aware performance models for embedding table lookup, and (2) data movement prediction of communication collectives, into our upgraded performance modeling pipeline equipped with inter-and intra-rank synchronization for ML workloads trained on multi-GPU platforms. Beyond accurately predicting the per-iteration training time of DLRM models with random configurations with a geomean error of 5.21% on two multi-GPU platforms, our prediction pipeline generalizes well to other types of ML workloads, such as Transformer-based NLP models with a geomean error of 3.00%. Moreover, even without actually running ML workloads like DLRMs on the hardware, it is capable of generating insights such as quickly selecting the fastest embedding table sharding configuration (with a success rate of 85%).
翻訳日:2024-04-30 20:39:22 公開日:2024-04-27
# 魚眼デットネット:360°周囲の魚眼カメラによる自律走行物体検出システム

FisheyeDetNet: 360° Surround view Fisheye Camera based Object Detection System for Autonomous Driving ( http://arxiv.org/abs/2404.13443v2 )

ライセンス: Link先を確認
Ganesh Sistu, Senthil Yogamani, (参考訳) 物体検出は自律走行における成熟した問題であり、歩行者検出は最初に展開されたアルゴリズムの1つである。 文学において総合的に研究されている。 しかし、近距離場センシングのサラウンドビューに使用される魚眼カメラでは、物体検出は比較的少ない。 標準的なバウンディングボックスの表現は、特に周辺部において重い放射歪みのため、魚眼カメラでは失敗する。 これを軽減するために、バウンディングボックスの標準オブジェクト検出出力表現の拡張について検討する。 我々は、回転する有界箱、楕円、ポリゴンを極弧/角表現として設計し、これらの表現を分析するためにインスタンスセグメンテーションmIOUメートル法を定義する。 提案したモデルであるPhiteeyeDetNetは他より優れており、自動走行用Valeo fisheye around-viewデータセットのmAPスコアは49.5 %である。 このデータセットは、ヨーロッパ、北米、アジアにまたがる4つのサラウンドビューカメラから撮影された60万枚の画像である。 私たちの知る限りでは、これは自動走行シナリオのための魚眼カメラによる物体検出に関する初めての詳細な研究である。

Object detection is a mature problem in autonomous driving with pedestrian detection being one of the first deployed algorithms. It has been comprehensively studied in the literature. However, object detection is relatively less explored for fisheye cameras used for surround-view near field sensing. The standard bounding box representation fails in fisheye cameras due to heavy radial distortion, particularly in the periphery. To mitigate this, we explore extending the standard object detection output representation of bounding box. We design rotated bounding boxes, ellipse, generic polygon as polar arc/angle representations and define an instance segmentation mIOU metric to analyze these representations. The proposed model FisheyeDetNet with polygon outperforms others and achieves a mAP score of 49.5 % on Valeo fisheye surround-view dataset for automated driving applications. This dataset has 60K images captured from 4 surround-view cameras across Europe, North America and Asia. To the best of our knowledge, this is the first detailed study on object detection on fisheye cameras for autonomous driving scenarios.
翻訳日:2024-04-30 20:39:22 公開日:2024-04-27
# 2つの遠隔地における単一光子の同時作用

Simultaneous action of a single photon at two remote places ( http://arxiv.org/abs/2404.13545v3 )

ライセンス: Link先を確認
Lida Zhang, (参考訳) アインシュタインの思考実験により、ピンホールの後に回折された1つの量子粒子が、原則として、半球の画像スクリーン上の2つまたは複数の場所で作用を発生させる可能性があるという結論が得られた。 これは、2つの空間的に離れた空洞からなるカスケード量子系において、それぞれ超強結合状態において量子ビットに結合すると考えられている。 2つのキャビティ上の単一光子パルスが同時に2つの遠隔量子ビットを励起し、その分離が光子パルスの空間的長さに匹敵する場合であっても、その後の2つの単一光子検出イベントを引き起こすことを示す。 本研究は,光子の新たな面を基本レベルで発見するだけでなく,強い結合系では実現不可能な散逸チャネルを経由した単一光子によるリモート絡みの創出など,実用的応用ももたらした。

Motivated by Einstein's thought experiment that a single quantum particle diffracted after a pinhole could in principle produce an action in two or several places on a hemispherical imaging screen, here we explore theoretically the possibility to simultaneously detect the action of a single photon at two remote places. This is considered in a cascade quantum system composed of two spatially distant cavities each coupled to a qubit in the ultrastrong coupling regime. We show that a single-photon pulse incident on the two cavities can simultaneously excite the two remote qubits and lead to two subsequent single-photon detection events even when the separation between them is comparable to the spatial length of the photon pulse. Our results not only uncover new facets of photons at a fundamental level but also have practical applications, such as the generation of remote entanglement by a single photon through a dissipative channel which is otherwise unattainable in the strong-coupling regime.
翻訳日:2024-04-30 20:39:22 公開日:2024-04-27
# AIGCビデオ品質の探索:ビジュアルハーモニー、ビデオテキスト一貫性、ドメイン分散ギャップに焦点を当てる

Exploring AIGC Video Quality: A Focus on Visual Harmony, Video-Text Consistency and Domain Distribution Gap ( http://arxiv.org/abs/2404.13573v2 )

ライセンス: Link先を確認
Bowen Qu, Xiaoyu Liang, Shangkun Sun, Wei Gao, (参考訳) テキスト・トゥ・ビデオ・人工知能生成コンテンツ(AIGC)の最近の進歩は目覚ましい。 従来のビデオと比較すると、AIGCビデオの評価には、常識に反する視覚的不整合、コンテンツとテキストのプロンプトの相違、様々な生成モデル間の分配ギャップなど、さまざまな課題がある。 本研究では,これらの課題をターゲットとして,AIGC映像品質の評価を視覚調和,ビデオテキストの整合性,ドメイン分散ギャップの3次元に分類する。 各次元に対して、AIGCビデオの総合的な品質評価を提供するための特定のモジュールを設計する。 さらに,本研究では,異なるテキスト・ビデオ・モデルにより生成される映像の視覚的品質,流動性,スタイルに有意な変化が認められた。 ソース生成モデルを予測することで、AIGCビデオの機能をより差別的になり、品質評価のパフォーマンスが向上する。 NTIRE 2024 Quality Assessment for AI-Generated Content - Track 2 Videoの3位で,その有効性を示した。 コードはhttps://github.com/Coobiw/TriVQA.comで入手できる。

The recent advancements in Text-to-Video Artificial Intelligence Generated Content (AIGC) have been remarkable. Compared with traditional videos, the assessment of AIGC videos encounters various challenges: visual inconsistency that defy common sense, discrepancies between content and the textual prompt, and distribution gap between various generative models, etc. Target at these challenges, in this work, we categorize the assessment of AIGC video quality into three dimensions: visual harmony, video-text consistency, and domain distribution gap. For each dimension, we design specific modules to provide a comprehensive quality assessment of AIGC videos. Furthermore, our research identifies significant variations in visual quality, fluidity, and style among videos generated by different text-to-video models. Predicting the source generative model can make the AIGC video features more discriminative, which enhances the quality assessment performance. The proposed method was used in the third-place winner of the NTIRE 2024 Quality Assessment for AI-Generated Content - Track 2 Video, demonstrating its effectiveness. Code will be available at https://github.com/Coobiw/TriVQA.
翻訳日:2024-04-30 20:39:22 公開日:2024-04-27
# DHRNet:マルチパーソンポーズ推定のための二重パス階層型関係ネットワーク

DHRNet: A Dual-Path Hierarchical Relation Network for Multi-Person Pose Estimation ( http://arxiv.org/abs/2404.14025v2 )

ライセンス: Link先を確認
Yonghao Dang, Jianqin Yin, Liyuan Liu, Pengxiang Ding, Yuan Sun, Yanzhu Hu, (参考訳) マルチパーソンポーズ推定(MPPE)は、コンピュータビジョンにおいて非常に重要な課題である。 既存のほとんどのメソッドは、インスタンスまたはジョイント間の分離された相互作用に集中しており、インスタンスとジョイントの同時ローカライズを要求するシナリオには不十分である。 本稿では,Dual-path Hierarchical Relation Network (DHRNet) と呼ばれるCNNベースの新しい単一ステージ手法を提案する。 具体的には,2つの相補的な順序で相互の相互作用モデリングモジュールと相互の相互作用モデリングモジュールを戦略的に編成し,異なる相関モデリングブランチのメリットを統合することで相互作用情報を強化するデュアルパス相互作用モデリングモジュール(DIM)を設計する。 特に、DHRNetは、他のインスタンスやジョイントの情報を活用することで、ジョイントローカライズに優れています。 COCO、CrowdPose、OCHumanといった挑戦的なデータセットに対する大規模な評価は、DHRNetの最先端のパフォーマンスを示している。 コードはhttps://github.com/YHDang/dhrnet-multi-pose-estimationでリリースされる。

Multi-person pose estimation (MPPE) presents a formidable yet crucial challenge in computer vision. Most existing methods predominantly concentrate on isolated interaction either between instances or joints, which is inadequate for scenarios demanding concurrent localization of both instances and joints. This paper introduces a novel CNN-based single-stage method, named Dual-path Hierarchical Relation Network (DHRNet), to extract instance-to-joint and joint-to-instance interactions concurrently. Specifically, we design a dual-path interaction modeling module (DIM) that strategically organizes cross-instance and cross-joint interaction modeling modules in two complementary orders, enriching interaction information by integrating merits from different correlation modeling branches. Notably, DHRNet excels in joint localization by leveraging information from other instances and joints. Extensive evaluations on challenging datasets, including COCO, CrowdPose, and OCHuman datasets, showcase DHRNet's state-of-the-art performance. The code will be released at https://github.com/YHDang/dhrnet-multi-pose-estimation.
翻訳日:2024-04-30 20:39:22 公開日:2024-04-27
# UVEB: 大規模ベンチマークとベースラインによる水中ビデオのリアルタイム化

UVEB: A Large-scale Benchmark and Baseline Towards Real-World Underwater Video Enhancement ( http://arxiv.org/abs/2404.14542v2 )

ライセンス: Link先を確認
Yaofeng Xie, Lingwei Kong, Kai Chen, Ziqiang Zheng, Xiao Yu, Zhibin Yu, Bing Zheng, (参考訳) 学習に基づく水中画像強調法(UIE)は大きな進歩を遂げた。 しかし、大規模で高品質なペアリングトレーニングサンプルが欠如していることが、UIEの開発を妨げる主要なボトルネックとなっている。 水中ビデオのフレーム間情報はUIEプロセスを加速または最適化することができる。 そこで我々は,水中視覚の発達を促進するために,最初の大規模高分解能水中映像強調ベンチマーク (UVEB) を構築し,1,308対のビデオシーケンスと,38\%超高分解能(UHD)4Kフレームペアの453,000超の高分解能映像を含む。 UVEBは複数の国から来ており、多様な水中環境に適応するための様々なシーンとビデオ劣化タイプを含んでいる。 また,最初の監視型水中ビデオエンハンスメント手法であるUVE-Netを提案する。 UVE-Netは、現在のフレーム情報を畳み込みカーネルに変換し、隣接するフレームに渡して効率的なフレーム間情報交換を行う。 UVE-Netは、水中ビデオの冗長な劣化情報を十分に活用することで、ビデオの強化をより良くする。 実験により,UVE-Netのネットワーク設計と優れた性能が示された。

Learning-based underwater image enhancement (UIE) methods have made great progress. However, the lack of large-scale and high-quality paired training samples has become the main bottleneck hindering the development of UIE. The inter-frame information in underwater videos can accelerate or optimize the UIE process. Thus, we constructed the first large-scale high-resolution underwater video enhancement benchmark (UVEB) to promote the development of underwater vision.It contains 1,308 pairs of video sequences and more than 453,000 high-resolution with 38\% Ultra-High-Definition (UHD) 4K frame pairs. UVEB comes from multiple countries, containing various scenes and video degradation types to adapt to diverse and complex underwater environments. We also propose the first supervised underwater video enhancement method, UVE-Net. UVE-Net converts the current frame information into convolutional kernels and passes them to adjacent frames for efficient inter-frame information exchange. By fully utilizing the redundant degraded information of underwater videos, UVE-Net completes video enhancement better. Experiments show the effective network design and good performance of UVE-Net.
翻訳日:2024-04-30 20:29:37 公開日:2024-04-27
# PRISM:大規模言語モデルを用いた意味的臨床試験における患者記録の解釈

PRISM: Patient Records Interpretation for Semantic Clinical Trial Matching using Large Language Models ( http://arxiv.org/abs/2404.15549v2 )

ライセンス: Link先を確認
Shashi Kant Gupta, Aditya Basu, Mauro Nievas, Jerrin Thomas, Nathan Wolfrath, Adhitya Ramamurthi, Bradley Taylor, Anai N. Kothari, Regina Schwind, Therica M. Miller, Sorena Nadaf-Rahrov, Yanshan Wang, Hrituraj Singh, (参考訳) 臨床試験マッチング(英: Clinical trial matching)とは、患者が潜在的に適する可能性のある臨床試験を識別するタスクである。 典型的には、この課題は労働集約的で、臨床試験の厳格な包摂と排除基準に対する患者の電子健康記録(EHR)の詳細な検証が必要である。 このプロセスは手動で、時間集約的で、スケールアップが難しいため、多くの患者が治療オプションを欠いている。 近年のLarge Language Models (LLMs) の進歩は、複数の同時研究で示されているように、患者と臨床のマッチングの自動化を可能にしている。 しかし、現在のアプローチは、現実の医療データで発生する複雑さを適切に反映しない、制約のある、しばしば合成データセットに限られている。 本研究では,実世界のEHRを用いた臨床治験マッチングの大規模評価を,エンド・ツー・エンドで行った最初の大規模評価を行った。 本研究は, LLMsが適切な臨床試験で患者に正確に適合する能力を示すものである。 GPT-4 や GPT-3.5 などの独自 LLM と,OncoLLM と呼ばれるカスタム微調整モデルを用いて実験を行った結果,OncoLLM は小さかったが GPT-3.5 を上回り,医師の能力に匹敵する結果となった。 実験はすべて、臨床ノートや米国の1つのがんセンターから入手可能な臨床試験を含む現実世界の EHR で実施された。

Clinical trial matching is the task of identifying trials for which patients may be potentially eligible. Typically, this task is labor-intensive and requires detailed verification of patient electronic health records (EHRs) against the stringent inclusion and exclusion criteria of clinical trials. This process is manual, time-intensive, and challenging to scale up, resulting in many patients missing out on potential therapeutic options. Recent advancements in Large Language Models (LLMs) have made automating patient-trial matching possible, as shown in multiple concurrent research studies. However, the current approaches are confined to constrained, often synthetic datasets that do not adequately mirror the complexities encountered in real-world medical data. In this study, we present the first, end-to-end large-scale empirical evaluation of clinical trial matching using real-world EHRs. Our study showcases the capability of LLMs to accurately match patients with appropriate clinical trials. We perform experiments with proprietary LLMs, including GPT-4 and GPT-3.5, as well as our custom fine-tuned model called OncoLLM and show that OncoLLM, despite its significantly smaller size, not only outperforms GPT-3.5 but also matches the performance of qualified medical doctors. All experiments were carried out on real-world EHRs that include clinical notes and available clinical trials from a single cancer center in the United States.
翻訳日:2024-04-30 20:19:52 公開日:2024-04-27
# characterFactory:拡散モデルのためのGANを用いた一貫性キャラクタのサンプリング

CharacterFactory: Sampling Consistent Characters with GANs for Diffusion Models ( http://arxiv.org/abs/2404.15677v2 )

ライセンス: Link先を確認
Qinghe Wang, Baolu Li, Xiaomin Li, Bing Cao, Liqian Ma, Huchuan Lu, Xu Jia, (参考訳) 近年のテキスト・ツー・イメージ・モデルの発展は、人中心世代における新たなフロンティアを開拓している。 しかし、これらのモデルは、一貫した新しいIDを持つ画像を生成するために直接利用することはできない。 本研究では,拡散モデルのためのGANの潜時空間における一貫した同一性を持つ新しい文字をサンプリングするフレームワークである characterFactory を提案する。 より具体的には、セレブ名の埋め込みという言葉をアイデンティティ一貫性のある生成タスクの基礎的真実とみなし、GANモデルを訓練して、潜在空間からセレブ埋め込み空間へのマッピングを学習する。 さらに、生成したアイデンティティ埋め込みが、様々なコンテキストにおいて、アイデンティティ一貫性のある画像を生成することができるように、コンテキスト一貫性損失を設計する。 注目すべきは、モデル全体がトレーニングに10分しかかからず、推論中に無限の文字をエンドツーエンドにサンプリングできることだ。 広範囲な実験により, 文字生成におけるキャラクタファクトリーの性能は, アイデンティティの整合性と編集性に優れていた。 さらに、生成された文字は、オフザシェルフ画像/ビデオ/3D拡散モデルとシームレスに結合することができる。 我々は、提案した CharacterFactory が、アイデンティティ一貫性のある文字生成の重要なステップであると信じている。 プロジェクトページは、https://qinghew.github.io/CharacterFactory/.comで公開されている。

Recent advances in text-to-image models have opened new frontiers in human-centric generation. However, these models cannot be directly employed to generate images with consistent newly coined identities. In this work, we propose CharacterFactory, a framework that allows sampling new characters with consistent identities in the latent space of GANs for diffusion models. More specifically, we consider the word embeddings of celeb names as ground truths for the identity-consistent generation task and train a GAN model to learn the mapping from a latent space to the celeb embedding space. In addition, we design a context-consistent loss to ensure that the generated identity embeddings can produce identity-consistent images in various contexts. Remarkably, the whole model only takes 10 minutes for training, and can sample infinite characters end-to-end during inference. Extensive experiments demonstrate excellent performance of the proposed CharacterFactory on character creation in terms of identity consistency and editability. Furthermore, the generated characters can be seamlessly combined with the off-the-shelf image/video/3D diffusion models. We believe that the proposed CharacterFactory is an important step for identity-consistent character generation. Project page is available at: https://qinghew.github.io/CharacterFactory/.
翻訳日:2024-04-30 20:19:52 公開日:2024-04-27
# 差分プライバシーにおける雑音分散最適化 : インスタンスごとの差分プライバシーによるゲーム理論的アプローチ

Noise Variance Optimization in Differential Privacy: A Game-Theoretic Approach Through Per-Instance Differential Privacy ( http://arxiv.org/abs/2404.15686v2 )

ライセンス: Link先を確認
Sehyun Ryu, Jonggyu Jang, Hyun Jong Yang, (参考訳) 差分プライバシー(DP)の概念は、個人をターゲットデータセットに含めることによる分布の変化を観察することにより、プライバシー損失を定量的に測定することができる。 一般的に制約として使用されるDPは、AppleやGoogleのような業界巨人の機械学習におけるデータセットの保護において際立っている。 DPを保証する一般的な手法は、クエリ出力に適切なノイズを組み込むことで、会員推測やリンク攻撃といったプライバシー攻撃に対する統計的防御システムを確立することである。 しかし、特に小さなデータセットの場合、既存のDPメカニズムは時にクエリ出力に過剰なノイズを加え、データユーティリティを破棄する。 これは、従来のDPが最悪のシナリオ、すなわち統計的外れ値に基づいてプライバシー損失を計算するためである。 本研究では、この課題に対処するために、インスタンスごとのDP(pDP)を制約として使用し、各データインスタンスのプライバシ損失を測定し、個々のインスタンスに合わせたノイズを最適化する。 簡単に言えば、NVO(Per-instance noise variance Optimization)ゲームは共通の興味のある逐次ゲームとしてフレーム化されており、Nash equilibrium(NE)ポイントが本質的にすべてのデータインスタンスに対してpDPを保証していることを示す。 提案したpDPアルゴリズムは, 従来のDPアルゴリズムと比較すると, KLのばらつきから平均99.53%の性能向上を示した。

The concept of differential privacy (DP) can quantitatively measure privacy loss by observing the changes in the distribution caused by the inclusion of individuals in the target dataset. The DP, which is generally used as a constraint, has been prominent in safeguarding datasets in machine learning in industry giants like Apple and Google. A common methodology for guaranteeing DP is incorporating appropriate noise into query outputs, thereby establishing statistical defense systems against privacy attacks such as membership inference and linkage attacks. However, especially for small datasets, existing DP mechanisms occasionally add excessive amount of noise to query output, thereby discarding data utility. This is because the traditional DP computes privacy loss based on the worst-case scenario, i.e., statistical outliers. In this work, to tackle this challenge, we utilize per-instance DP (pDP) as a constraint, measuring privacy loss for each data instance and optimizing noise tailored to individual instances. In a nutshell, we propose a per-instance noise variance optimization (NVO) game, framed as a common interest sequential game, and show that the Nash equilibrium (NE) points of it inherently guarantee pDP for all data instances. Through extensive experiments, our proposed pDP algorithm demonstrated an average performance improvement of up to 99.53% compared to the conventional DP algorithm in terms of KL divergence.
翻訳日:2024-04-30 20:19:52 公開日:2024-04-27
# Denoising: 古典的なメソッドから深いCNNへ

Denoising: from classical methods to deep CNNs ( http://arxiv.org/abs/2404.16617v2 )

ライセンス: Link先を確認
Jean-Eric Campagne, (参考訳) 本稿では,画像認知の進化を教育学的に探求することを目的とする。 我々は、Fourier分析やウェーブレットベースといった古典的な手法を概観し、2010年代にニューラルネットワーク(特にU-Net)が出現するまで、彼らが直面した課題を強調した。 これらのネットワークの顕著な性能は、Kadkhodaie et al (2024)のような研究で実証されている。 一定の規則性、顔画像、寝室のシーンなど、様々なイメージタイプに適応性を示し、最適な結果を実現し、幾何学的適応調和ベースに偏りがある。 スコア拡散の導入は、画像生成において重要な役割を担っている。 この文脈では、確率密度スコアの推測を容易にするため、認知は必須となる。 本稿では,確率密度の真の学習の前提条件について論じ,数学的研究から普遍構造の含意にまで及ぶ洞察を提供する。

This paper aims to explore the evolution of image denoising in a pedagological way. We briefly review classical methods such as Fourier analysis and wavelet bases, highlighting the challenges they faced until the emergence of neural networks, notably the U-Net, in the 2010s. The remarkable performance of these networks has been demonstrated in studies such as Kadkhodaie et al. (2024). They exhibit adaptability to various image types, including those with fixed regularity, facial images, and bedroom scenes, achieving optimal results and biased towards geometry-adaptive harmonic basis. The introduction of score diffusion has played a crucial role in image generation. In this context, denoising becomes essential as it facilitates the estimation of probability density scores. We discuss the prerequisites for genuine learning of probability densities, offering insights that extend from mathematical research to the implications of universal structures.
翻訳日:2024-04-30 20:19:52 公開日:2024-04-27
# 大規模言語モデルのための大規模日本語Webコーパスの構築

Building a Large Japanese Web Corpus for Large Language Models ( http://arxiv.org/abs/2404.17733v1 )

ライセンス: Link先を確認
Naoaki Okazaki, Kakeru Hattori, Hirai Shota, Hiroki Iida, Masanari Ohi, Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Rio Yokota, Sakae Mizuki, (参考訳) オープン日本語大言語モデル(LLM)は,CC-100,mC4,OSCARなどの日本語コーパスで訓練されている。 しかし、これらのコーパスは和文の質のために作られたものではない。 本研究では,Common Crawlアーカイブからテキストを抽出し,精錬することにより,大規模なWebコーパスを構築する(2020年から2023年にかけて,約63億ページのスナップショット21枚)。 約312億文字(約1億7300万ページ)で、CC-100(約28億文字)、mC4(約2397億文字)、OSCAR 23.10(約74億文字)を上回り、日本のLLMで利用可能なトレーニングコーパスの中で最大である。 コーパスの品質を確認するため,Llama 2 7B, 13B, 70B, Mistral 7B v0.1, Mixtral 8x7BをベースLLMとして継続事前トレーニングを行い,日本のベンチマークデータセットに対して一貫した(6.6-8.1点)改善を得た。 また,提案コーパスから得られたLlama 2 13Bの改善は,既存のコーパスの中でも最大であった。

Open Japanese large language models (LLMs) have been trained on the Japanese portions of corpora such as CC-100, mC4, and OSCAR. However, these corpora were not created for the quality of Japanese texts. This study builds a large Japanese web corpus by extracting and refining text from the Common Crawl archive (21 snapshots of approximately 63.4 billion pages crawled between 2020 and 2023). This corpus consists of approximately 312.1 billion characters (approximately 173 million pages), which is the largest of all available training corpora for Japanese LLMs, surpassing CC-100 (approximately 25.8 billion characters), mC4 (approximately 239.7 billion characters) and OSCAR 23.10 (approximately 74 billion characters). To confirm the quality of the corpus, we performed continual pre-training on Llama 2 7B, 13B, 70B, Mistral 7B v0.1, and Mixtral 8x7B Instruct as base LLMs and gained consistent (6.6-8.1 points) improvements on Japanese benchmark datasets. We also demonstrate that the improvement on Llama 2 13B brought from the presented corpus was the largest among those from other existing corpora.
翻訳日:2024-04-30 19:30:48 公開日:2024-04-27
# 因果拡散オートエンコーダ:拡散確率モデルによる対実生成に向けて

Causal Diffusion Autoencoders: Toward Counterfactual Generation via Diffusion Probabilistic Models ( http://arxiv.org/abs/2404.17735v1 )

ライセンス: Link先を確認
Aneesh Komanduri, Chen Zhao, Feng Chen, Xintao Wu, (参考訳) 拡散確率モデル(DPM)は高品質の画像生成における最先端技術となっている。 しかし、DPM は解釈可能な意味論や制御可能な意味論を持たない任意の雑音潜在空間を持つ。 画像サンプルの品質向上のための重要な研究努力は行われているが,拡散モデルを用いた表現制御生成の研究はほとんどない。 具体的には、DPMを用いた因果モデリングと制御可能な反ファクト生成は、未探索領域である。 本研究では,拡散に基づく因果表現学習フレームワークCausalDiffAEを提案する。 我々のキーとなる考え方は、エンコーダを用いて高次元データから高レベルの意味論的因果変数を抽出し、逆拡散を用いて確率的変動をモデル化することである。 本稿では,高次元データを因果関係の潜伏因子にマッピングし,その因果機構をニューラルネットワークを用いてパラメータ化する因果符号化機構を提案する。 因果変数のアンタングル化を強制するために、変分目的を定式化し、先行のラベル情報を利用して潜伏空間を正規化する。 そこで本研究では,DDIMをベースとした疑似事実生成手法を提案する。 最後に,限られたラベル管理シナリオに対処するために,トレーニングデータの一部がラベル付けされていない場合のCausalDiffAEの適用について検討する。 本稿では,CausalDiffAEが不整合空間を学習し,高品質な反ファクト画像を生成することを実証的に示す。

Diffusion probabilistic models (DPMs) have become the state-of-the-art in high-quality image generation. However, DPMs have an arbitrary noisy latent space with no interpretable or controllable semantics. Although there has been significant research effort to improve image sample quality, there is little work on representation-controlled generation using diffusion models. Specifically, causal modeling and controllable counterfactual generation using DPMs is an underexplored area. In this work, we propose CausalDiffAE, a diffusion-based causal representation learning framework to enable counterfactual generation according to a specified causal model. Our key idea is to use an encoder to extract high-level semantically meaningful causal variables from high-dimensional data and model stochastic variation using reverse diffusion. We propose a causal encoding mechanism that maps high-dimensional data to causally related latent factors and parameterize the causal mechanisms among latent factors using neural networks. To enforce the disentanglement of causal variables, we formulate a variational objective and leverage auxiliary label information in a prior to regularize the latent space. We propose a DDIM-based counterfactual generation procedure subject to do-interventions. Finally, to address the limited label supervision scenario, we also study the application of CausalDiffAE when a part of the training data is unlabeled, which also enables granular control over the strength of interventions in generating counterfactuals during inference. We empirically show that CausalDiffAE learns a disentangled latent space and is capable of generating high-quality counterfactual images.
翻訳日:2024-04-30 19:30:48 公開日:2024-04-27
# 高臨場感無線画像伝送のための拡散支援ジョイントソースチャネル符号化

Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission ( http://arxiv.org/abs/2404.17736v1 )

ライセンス: Link先を確認
Mingyu Yang, Bowen Liu, Boyang Wang, Hun-Seok Kim, (参考訳) 深層学習に基づくジョイントソースチャネル符号化(ディープJSCC)は,無線画像伝送に有効な手法として実証されている。 しかしながら、現在の研究は、知覚品質を必ずしも改善しないMean Squared Error (MSE)のような標準歪み尺度の最小化に集中している。 DiffJSCCは、事前訓練されたテキスト・画像拡散モデルを利用して、チャネル上で送信される画像のリアリズムを高める新しいフレームワークである。 提案したDiffJSCCは、以前のディープJSCCフレームワークを使用して、レシーバーで初期再構成されたイメージを提供する。 そして、初期再構成から空間的特徴とテキスト的特徴を抽出し、チャネル状態情報(例えば、信号対雑音比、SNR)と共に制御モジュールに渡して、予め訓練された安定拡散モデルを微調整する。 Kodakデータセットの広汎な実験により,LPIPSやFIDスコアなどの知覚的指標に対する従来手法と従来型の深いJSCCアプローチの両方をはるかに上回り,特にチャネル条件が悪く,帯域幅が限られていることが明らかとなった。 特に、DiffJSCCは1dB SNRの下で、3072のシンボル(<0.008のシンボル)しか持たない768x512ピクセルのKodak画像に対して、非常に現実的な再構成を行うことができる。 私たちのコードはhttps://github.com/mingyuyng/DiffJSCCでリリースされます。

Deep learning-based joint source-channel coding (deep JSCC) has been demonstrated as an effective approach for wireless image transmission. Nevertheless, current research has concentrated on minimizing a standard distortion metric such as Mean Squared Error (MSE), which does not necessarily improve the perceptual quality. To address this issue, we propose DiffJSCC, a novel framework that leverages pre-trained text-to-image diffusion models to enhance the realism of images transmitted over the channel. The proposed DiffJSCC utilizes prior deep JSCC frameworks to deliver an initial reconstructed image at the receiver. Then, the spatial and textual features are extracted from the initial reconstruction, which, together with the channel state information (e.g., signal-to-noise ratio, SNR), are passed to a control module to fine-tune the pre-trained Stable Diffusion model. Extensive experiments on the Kodak dataset reveal that our method significantly surpasses both conventional methods and prior deep JSCC approaches on perceptual metrics such as LPIPS and FID scores, especially with poor channel conditions and limited bandwidth. Notably, DiffJSCC can achieve highly realistic reconstructions for 768x512 pixel Kodak images with only 3072 symbols (<0.008 symbols per pixel) under 1dB SNR. Our code will be released in https://github.com/mingyuyng/DiffJSCC.
翻訳日:2024-04-30 19:30:48 公開日:2024-04-27
# LLMがUMLモデリングにどのように役立つか - 初心者アナリストによる探索的研究

How LLMs Aid in UML Modeling: An Exploratory Study with Novice Analysts ( http://arxiv.org/abs/2404.17739v1 )

ライセンス: Link先を確認
Beian Wang, Chong Wang, Peng Liang, Bing Li, Cheng Zeng, (参考訳) GPT-3の登場以来、大規模言語モデル(LLM)は、ソフトウェア工学の分野における研究者、実践者、教育者の目を引いている。 しかし、要求分析やUMLモデリングを補助するLLMの性能については、比較的研究が進んでいない。 本稿では、LLMが初心者アナリストに対して、ユースケースモデル、クラス図、シーケンス図という3つの典型的なUMLモデルを作成するのにどのように役立つかを考察する。 そこで我々は,LLMの助けを借りて,要件モデリングコースに参加した45人の大学生を対象に,これら3つのUMLモデルのモデリングタスクを設計した。 プロジェクトレポートを解析した結果,LLM は UML モデリングタスクにおける注意点分析として大学生を支援することができるが,LLM には欠点と限界があることがわかった。

Since the emergence of GPT-3, Large Language Models (LLMs) have caught the eyes of researchers, practitioners, and educators in the field of software engineering. However, there has been relatively little investigation regarding the performance of LLMs in assisting with requirements analysis and UML modeling. This paper explores how LLMs can assist novice analysts in creating three types of typical UML models: use case models, class diagrams, and sequence diagrams. For this purpose, we designed the modeling tasks of these three UML models for 45 undergraduate students who participated in a requirements modeling course, with the help of LLMs. By analyzing their project reports, we found that LLMs can assist undergraduate students as notice analysts in UML modeling tasks, but LLMs also have shortcomings and limitations.
翻訳日:2024-04-30 19:30:48 公開日:2024-04-27
# 医用画像におけるセグメンテーション品質とボリューム精度

Segmentation Quality and Volumetric Accuracy in Medical Imaging ( http://arxiv.org/abs/2404.17742v1 )

ライセンス: Link先を確認
Zheyuan Zhang, Ulas Bagci, (参考訳) 現在の医療画像のセグメンテーションは、デファクト標準として領域ベース(Dice, F1スコア)と境界ベース(ハウスドルフ距離、表面距離)のメトリクスに依存している。 これらの指標は広く使用されているが、特にボリューム合意に関する統一的な解釈は欠如している。 臨床医はしばしば、これらの指標に基づいてセグメンテーション結果の「良さ」を評価するための明確なベンチマークを欠いている。 ボリュームトライの臨床的関連性を認識し,相対ボリューム予測誤差(vpe)を用いて,セグメンテーションタスクから導出されるボリューム予測の精度を直接評価する。 我々の研究は、様々なデータセットにまたがる理論的分析と経験的検証を統合している。 臨床実習におけるセグメンテーション品質(Dice測定)と容積精度の関係について検討した。 本研究は,容積予測精度をセグメンテーション評価に組み込むことが重要であることを示す。 このアプローチは、セグメンテーションのパフォーマンスをより微妙に理解し、最終的にこれらのメトリクスの解釈と実用性を現実世界の医療環境で改善する。

Current medical image segmentation relies on the region-based (Dice, F1-score) and boundary-based (Hausdorff distance, surface distance) metrics as the de-facto standard. While these metrics are widely used, they lack a unified interpretation, particularly regarding volume agreement. Clinicians often lack clear benchmarks to gauge the "goodness" of segmentation results based on these metrics. Recognizing the clinical relevance of volumetry, we utilize relative volume prediction error (vpe) to directly assess the accuracy of volume predictions derived from segmentation tasks. Our work integrates theoretical analysis and empirical validation across diverse datasets. We delve into the often-ambiguous relationship between segmentation quality (measured by Dice) and volumetric accuracy in clinical practice. Our findings highlight the critical role of incorporating volumetric prediction accuracy into segmentation evaluation. This approach empowers clinicians with a more nuanced understanding of segmentation performance, ultimately improving the interpretation and utility of these metrics in real-world healthcare settings.
翻訳日:2024-04-30 19:30:48 公開日:2024-04-27
# リアルタイム単眼視画像計測のための注意型ディープラーニングアーキテクチャ:GPSのないドローンナビゲーションへの応用

An Attention-Based Deep Learning Architecture for Real-Time Monocular Visual Odometry: Applications to GPS-free Drone Navigation ( http://arxiv.org/abs/2404.17745v1 )

ライセンス: Link先を確認
Olivier Brochu Dufour, Abolfazl Mohebbi, Sofiane Achiche, (参考訳) ドローンは、産業、医療、研究、災害救助、防衛、セキュリティなどの分野でますます使われている。 GPSを内蔵した環境でのナビゲーションのような技術的な課題は、さらなる採用を妨げる。 視覚計測の研究は進歩しており、GPSのないナビゲーションの問題を解決する可能性がある。 従来のビジュアル・オドメトリー法では幾何学に基づくパイプラインが用いられており、一般的には誤りの蓄積や高い計算要求に悩まされる。 ディープニューラルネットワーク(DNN)を用いた最近の研究は、これらの欠点に対処しながら、パフォーマンスを改善した。 ディープビジュアルオドメトリは通常、畳み込みニューラルネットワーク(CNN)と、リカレントニューラルネットワーク(RNN)のようなシーケンスモデリングネットワークを使用して、シーンを解釈し、ビデオシーケンスから視覚オドメトリを推論する。 本稿では,自律型モジュールを用いた深部ニューラルネットワークを用いて,ドローンのリアルタイムモノクロ視覚計測モデルを提案する。 ドローン上のカメラのエゴモーションを、連続したビデオフレームを使って推定する。 推論ユーティリティはライブビデオフィードを処理し、ディープラーニングを使用してドローンの軌道を推定する。 このアーキテクチャは、画像特徴抽出のためのCNNと、長寿命メモリ(LSTM)ネットワークと、ビデオシーケンスモデリングのためのマルチヘッドアテンションモジュールを組み合わせたものである。 従来のRNNモデルよりも48%早く収束し,平均翻訳速度が22%減少し,平均翻訳絶対軌道誤差が12%改善し,ノイズに対する頑健性が向上した。

Drones are increasingly used in fields like industry, medicine, research, disaster relief, defense, and security. Technical challenges, such as navigation in GPS-denied environments, hinder further adoption. Research in visual odometry is advancing, potentially solving GPS-free navigation issues. Traditional visual odometry methods use geometry-based pipelines which, while popular, often suffer from error accumulation and high computational demands. Recent studies utilizing deep neural networks (DNNs) have shown improved performance, addressing these drawbacks. Deep visual odometry typically employs convolutional neural networks (CNNs) and sequence modeling networks like recurrent neural networks (RNNs) to interpret scenes and deduce visual odometry from video sequences. This paper presents a novel real-time monocular visual odometry model for drones, using a deep neural architecture with a self-attention module. It estimates the ego-motion of a camera on a drone, using consecutive video frames. An inference utility processes the live video feed, employing deep learning to estimate the drone's trajectory. The architecture combines a CNN for image feature extraction and a long short-term memory (LSTM) network with a multi-head attention module for video sequence modeling. Tested on two visual odometry datasets, this model converged 48% faster than a previous RNN model and showed a 22% reduction in mean translational drift and a 12% improvement in mean translational absolute trajectory error, demonstrating enhanced robustness to noise.
翻訳日:2024-04-30 19:30:48 公開日:2024-04-27
# 無限仮説集合の羅生門比について

On the Rashomon ratio of infinite hypothesis sets ( http://arxiv.org/abs/2404.17746v1 )

ライセンス: Link先を確認
Evzenie Coupkova, Mireille Boutin, (参考訳) 分類問題と分類器の族が与えられた場合、羅生門比は与えられた損失よりも少ない分類器の比率を測定する。 それまでの研究は、有限分類器の族の場合、大きな羅生門比の利点を探求してきた。 ここでは、無限族のより一般的な場合を考える。 大規模な羅生門比は、分類器の選択が家族のランダムな部分集合の中で最良の経験的精度を持つことを保証するが、それは一般化性を向上させる可能性が高いため、経験的損失があまり増加しないことを示す。 無限分類器群を含む2つの例において、ラショモン比を定量化して、それが大きい状況を示す。 最初の例では、アフィン分類器を用いて正規分布クラスの分類のラショモン比を推定する。 第二に、分類器ファミリーが2層ReLUニューラルネットワークからなる場合、分類問題と修正グラム行列との分類問題のラショモン比の下位境界を求める。 一般に、学習データセットと分類器ファミリーのランダムなサンプルを用いてラショウモン比を推定できることを示し、そのような推定がラショウモン比の真値に近いことを保証した。

Given a classification problem and a family of classifiers, the Rashomon ratio measures the proportion of classifiers that yield less than a given loss. Previous work has explored the advantage of a large Rashomon ratio in the case of a finite family of classifiers. Here we consider the more general case of an infinite family. We show that a large Rashomon ratio guarantees that choosing the classifier with the best empirical accuracy among a random subset of the family, which is likely to improve generalizability, will not increase the empirical loss too much. We quantify the Rashomon ratio in two examples involving infinite classifier families in order to illustrate situations in which it is large. In the first example, we estimate the Rashomon ratio of the classification of normally distributed classes using an affine classifier. In the second, we obtain a lower bound for the Rashomon ratio of a classification problem with a modified Gram matrix when the classifier family consists of two-layer ReLU neural networks. In general, we show that the Rashomon ratio can be estimated using a training dataset along with random samples from the classifier family and we provide guarantees that such an estimation is close to the true value of the Rashomon ratio.
翻訳日:2024-04-30 19:30:48 公開日:2024-04-27
# MMA-UNet:赤外・可視画像融合のための多モード非対称UNetアーキテクチャ

MMA-UNet: A Multi-Modal Asymmetric UNet Architecture for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2404.17747v1 )

ライセンス: Link先を確認
Jingxue Huang, Xilai Li, Tianshu Tan, Xiaosong Li, Tao Ye, (参考訳) MMIF(Multi-modal Image fusion)は、様々なモダリティから有用な情報を同じ表現空間にマッピングし、情報融合画像を生成する。 しかし、既存の融合アルゴリズムは対称的に多重モーダル像を融合させる傾向があり、融合結果の特定の領域において浅い情報や偏りが失われる。 本研究では,異なるモードの情報の空間分布の差異を解析し,同一ネットワーク内の符号化特徴がマルチモーダル画像に対して同時に深部特徴空間アライメントを達成できないことを示した。 この問題を解決するために、MMA-UNet (Multi-Modal Asymmetric UNet) が提案された。 我々は、異なるモーダルのための特殊特徴エンコーダを個別に訓練し、同じ表現空間内の異なるモーダルから特徴をメンテナンスし、バランスの取れた情報融合プロセスを確保するために、クロススケールなフュージョン戦略を実装した。 さらに、赤外線および可視画像情報の融合におけるMMA-UNetの効率を実証するために、広範囲な融合および下流タスク実験を行い、視覚的に自然かつ意味的にリッチな融合結果を生成する。 その性能は最先端の比較融合法を上回る。

Multi-modal image fusion (MMIF) maps useful information from various modalities into the same representation space, thereby producing an informative fused image. However, the existing fusion algorithms tend to symmetrically fuse the multi-modal images, causing the loss of shallow information or bias towards a single modality in certain regions of the fusion results. In this study, we analyzed the spatial distribution differences of information in different modalities and proved that encoding features within the same network is not conducive to achieving simultaneous deep feature space alignment for multi-modal images. To overcome this issue, a Multi-Modal Asymmetric UNet (MMA-UNet) was proposed. We separately trained specialized feature encoders for different modal and implemented a cross-scale fusion strategy to maintain the features from different modalities within the same representation space, ensuring a balanced information fusion process. Furthermore, extensive fusion and downstream task experiments were conducted to demonstrate the efficiency of MMA-UNet in fusing infrared and visible image information, producing visually natural and semantically rich fusion results. Its performance surpasses that of the state-of-the-art comparison fusion methods.
翻訳日:2024-04-30 19:30:48 公開日:2024-04-27
# UMass-BioNLP at MEDIQA-M3G 2024: DermPrompt -- GPT-4Vによる皮膚科診断のためのプロンプト工学の体系的探索

UMass-BioNLP at MEDIQA-M3G 2024: DermPrompt -- A Systematic Exploration of Prompt Engineering with GPT-4V for Dermatological Diagnosis ( http://arxiv.org/abs/2404.17749v1 )

ライセンス: Link先を確認
Parth Vashisht, Abhilasha Lodha, Mukta Maddipatla, Zonghai Yao, Avijit Mitra, Zhichao Yang, Junda Wang, Sunjae Kwon, Hong Yu, (参考訳) 本稿では,MEDIQA-ClinicalNLP2024共有タスクBにおける我々のチームの参加について述べる。我々は,大規模なマルチモーダルモデルを統合することで臨床皮膚学のケースを診断するための新しいアプローチを提案する。 本研究は,GPT-4Vを検索剤として用いると,皮膚画像と短い患者の病理組織を用いて,正しい皮膚状態の85%を正確に検索できることを明らかにする。 また,NIVE Chain-of-Thought (CoT) は検索に有効であり,Medical Guidelines Grounded CoT は正確な皮膚科診断に必要であることを示す。 さらに,MAC(Multi-Agent Conversation)フレームワークを導入し,CoT戦略よりも優れた性能と可能性を示す。 以上の結果から,GPT-4Vは皮膚疾患の早期かつ正確な診断につながる可能性が示唆された。 この研究の意義は、診断ワークフローの改善、皮膚科教育のサポート、スケーラブルでアクセシブルで正確な診断ツールを提供することによる患者のケアの向上にまで及んでいる。

This paper presents our team's participation in the MEDIQA-ClinicalNLP2024 shared task B. We present a novel approach to diagnosing clinical dermatology cases by integrating large multimodal models, specifically leveraging the capabilities of GPT-4V under a retriever and a re-ranker framework. Our investigation reveals that GPT-4V, when used as a retrieval agent, can accurately retrieve the correct skin condition 85% of the time using dermatological images and brief patient histories. Additionally, we empirically show that Naive Chain-of-Thought (CoT) works well for retrieval while Medical Guidelines Grounded CoT is required for accurate dermatological diagnosis. Further, we introduce a Multi-Agent Conversation (MAC) framework and show its superior performance and potential over the best CoT strategy. The experiments suggest that using naive CoT for retrieval and multi-agent conversation for critique-based diagnosis, GPT-4V can lead to an early and accurate diagnosis of dermatological conditions. The implications of this work extend to improving diagnostic workflows, supporting dermatological education, and enhancing patient care by providing a scalable, accessible, and accurate diagnostic tool.
翻訳日:2024-04-30 19:30:48 公開日:2024-04-27
# 発生的拡散に基づく気候のダウンスケーリング

Generative Diffusion-based Downscaling for Climate ( http://arxiv.org/abs/2404.17752v1 )

ライセンス: Link先を確認
Robbie A. Watt, Laura A. Mansfield, (参考訳) ダウンスケーリング(超高解像度)は、気候変動の潜在的なリスクと影響に関する詳細な、高解像度の情報を提供する。 機械学習アルゴリズムは、ダウンスケールに対する効率的で正確なアプローチであることを証明している。 ここでは, ダウンスケーリングに対する生成的, 拡散的アプローチが, 正確なダウンスケール結果をもたらすことを示す。 ERA5を0.25ドル〜レゾリューションで、粗いきめ細かいバージョンを2ドル〜レゾリューションで回収する理想的な設定に焦点を合わせます。 この拡散法は、スペクトル分解によって強調されるように、標準のU-Net、特に微細スケールでの精度が優れている。 さらに、生成的アプローチは、リスクアセスメントに使用できる確率分布をユーザに提供します。 この研究は、信頼性と詳細な気候予測を提供する上で、拡散に基づくダウンスケーリング技術の可能性を強調している。

Downscaling, or super-resolution, provides decision-makers with detailed, high-resolution information about the potential risks and impacts of climate change, based on climate model output. Machine learning algorithms are proving themselves to be efficient and accurate approaches to downscaling. Here, we show how a generative, diffusion-based approach to downscaling gives accurate downscaled results. We focus on an idealised setting where we recover ERA5 at $0.25\degree$~resolution from coarse grained version at $2\degree$~resolution. The diffusion-based method provides superior accuracy compared to a standard U-Net, particularly at the fine scales, as highlighted by a spectral decomposition. Additionally, the generative approach provides users with a probability distribution which can be used for risk assessment. This research highlights the potential of diffusion-based downscaling techniques in providing reliable and detailed climate predictions.
翻訳日:2024-04-30 19:30:48 公開日:2024-04-27
# 改良されたCLIP分類のためのクロスモーダル近隣表現の活用

Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification ( http://arxiv.org/abs/2404.17753v1 )

ライセンス: Link先を確認
Chao Yi, Lu Ren, De-Chuan Zhan, Han-Jia Ye, (参考訳) CLIPは、画像テキストのコントラスト学習タスクのトレーニングのため、例外的なクロスモーダルマッチング機能を備えている。 しかし、一様シナリオに対する特定の最適化がなければ、一様特徴抽出の性能は最適ではないかもしれない。 これにもかかわらず、いくつかの研究はCLIPのイメージエンコーダを直接、いくつかのショット分類のようなタスクに使用し、事前学習対象と特徴抽出方法の誤調整を導入している。 この矛盾は、画像の特徴表現の品質を低下させ、ターゲットタスクにおけるCLIPの有効性に悪影響を及ぼす可能性がある。 本稿では,テキスト特徴をCLIP空間における画像特徴の正確な近傍として捉え,画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。 この特徴抽出方法は、CLIPの事前トレーニング目標と整合し、CLIPの堅牢なクロスモーダル機能を完全に活用する。 高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。 本稿では,データフリーかつトレーニングフリーな方法で必要なテキストを自動的に生成するAuto Text Generator(ATG)を紹介する。 我々は、CLIPのゼロショットおよび少数ショット画像分類タスクにCODERを適用する。 さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。 コードは、https://github.com/YCaigogogo/CVPR24-CODER.comで公開されている。

CLIP showcases exceptional cross-modal matching capabilities due to its training on image-text contrastive learning tasks. However, without specific optimization for unimodal scenarios, its performance in single-modality feature extraction might be suboptimal. Despite this, some studies have directly used CLIP's image encoder for tasks like few-shot classification, introducing a misalignment between its pre-training objectives and feature extraction methods. This inconsistency can diminish the quality of the image's feature representation, adversely affecting CLIP's effectiveness in target tasks. In this paper, we view text features as precise neighbors of image features in CLIP's space and present a novel CrOss-moDal nEighbor Representation(CODER) based on the distance structure between images and their neighbor texts. This feature extraction method aligns better with CLIP's pre-training objectives, thereby fully leveraging CLIP's robust cross-modal capabilities. The key to construct a high-quality CODER lies in how to create a vast amount of high-quality and diverse texts to match with images. We introduce the Auto Text Generator(ATG) to automatically generate the required texts in a data-free and training-free manner. We apply CODER to CLIP's zero-shot and few-shot image classification tasks. Experiment results across various datasets and models confirm CODER's effectiveness. Code is available at:https://github.com/YCaigogogo/CVPR24-CODER.
翻訳日:2024-04-30 19:30:48 公開日:2024-04-27
# ミドルアーキテクチャの基準

Middle Architecture Criteria ( http://arxiv.org/abs/2404.17757v1 )

ライセンス: Link先を確認
John Beverley, Giacomo De Colle, Mark Jensen, Carter Benson, Barry Smith, (参考訳) 中レベルのオントロジーは、異なるドメインにまたがる用語とデータを統合するために使用される。 しかしながら、あるオントロジーが中間レベルとして数えられるかどうかを決定するための明確な基準は存在しない。 このような特徴を与える試みは失敗に終わり、中級オントロジーとして進歩してきたこれらの単一オントロジーの特徴の特定に焦点を絞ったものであると我々は信じている。 残念なことに、この種の単一オントロジーは一般にトップレベルとミドルレベルの混合であり、時にはドメインレベルの用語の混合である。 明確にするために、我々は1つ以上のオントロジーの集合体が中級アーキテクチャと呼ばれるものに生息するのに必要かつ十分な条件を特定することを目指している。

Mid-level ontologies are used to integrate terminologies and data across disparate domains. There are, however, no clear, defensible criteria for determining whether a given ontology should count as mid-level, because we lack a rigorous characterization of what the middle level of generality is supposed to contain. Attempts to provide such a characterization have failed, we believe, because they have focused on the goal of specifying what is characteristic of those single ontologies that have been advanced as mid-level ontologies. Unfortunately, single ontologies of this sort are generally a mixture of top- and mid-level, and sometimes even of domain-level terms. To gain clarity, we aim to specify the necessary and sufficient conditions for a collection of one or more ontologies to inhabit what we call a mid-level architecture.
翻訳日:2024-04-30 19:30:48 公開日:2024-04-27
# 共通コアオントロジー

The Common Core Ontologies ( http://arxiv.org/abs/2404.17758v1 )

ライセンス: Link先を確認
Mark Jensen, Giacomo De Colle, Sean Kindya, Cameron More, Alexander P. Cox, John Beverley, (参考訳) Common Core Ontology (CCO)は、Basic Formal Ontologyを拡張する中レベルのオントロジースイートとして設計されている。 CCOはその後、幅広いユーザやアプリケーションによって採用され、最初の標準中規模オントロジーとして提案されている。 これらの成功にもかかわらず、CCOの内容と設計パターンに関するドキュメントは、比較的最小限である。 本論文は,Common Core Ontologyスイートを構成する11のオントロジーの内容に関する議論を通じて,中間層オントロジースイートに拡張されたドキュメンテーションを提供するためのステップである。

The Common Core Ontologies (CCO) are designed as a mid-level ontology suite that extends the Basic Formal Ontology. CCO has since been increasingly adopted by a broad group of users and applications and is proposed as the first standard mid-level ontology. Despite these successes, documentation of the contents and design patterns of the CCO has been comparatively minimal. This paper is a step toward providing enhanced documentation for the mid-level ontology suite through a discussion of the contents of the eleven ontologies that collectively comprise the Common Core Ontology suite.
翻訳日:2024-04-30 19:30:48 公開日:2024-04-27
# 敵対的事例:顔認識システムの文脈における生成提案

Adversarial Examples: Generation Proposal in the Context of Facial Recognition Systems ( http://arxiv.org/abs/2404.17760v1 )

ライセンス: Link先を確認
Marina Fuster, Ignacio Vidaurreta, (参考訳) 本稿では,攻撃者の視点からの新しい手法を導入することで,顔認証システムが敵の例にもたらす脆弱性について検討する。 この手法は、主成分分析によって構成されたオートエンコーダ潜在空間の利用に基づいている。 我々は、最先端のシステムに対して、ドッジ攻撃と偽装攻撃の両方に適した敵の例を作成する可能性を分析することを目的としている。 結果に強く好ましくなかった最初の仮説では,「同一性」と「表情」の2つの特徴を分離し,高品質な例を作成できると述べた。 支持していない結果にもかかわらず、この結果が敵の事例生成の洞察を喚起し、この地域に新たな研究の道を開いた。

In this paper we investigate the vulnerability that facial recognition systems present to adversarial examples by introducing a new methodology from the attacker perspective. The technique is based on the use of the autoencoder latent space, organized with principal component analysis. We intend to analyze the potential to craft adversarial examples suitable for both dodging and impersonation attacks, against state-of-the-art systems. Our initial hypothesis, which was not strongly favoured by the results, stated that it would be possible to separate between the "identity" and "facial expression" features to produce high-quality examples. Despite the findings not supporting it, the results sparked insights into adversarial examples generation and opened new research avenues in the area.
翻訳日:2024-04-30 19:30:48 公開日:2024-04-27
# 大規模マルチモダリティモデルによるAI生成画像品質評価

Large Multi-modality Model Assisted AI-Generated Image Quality Assessment ( http://arxiv.org/abs/2404.17762v1 )

ライセンス: Link先を確認
Puyi Wang, Wei Sun, Zicheng Zhang, Jun Jia, Yanwei Jiang, Zhichao Zhang, Xiongkuo Min, Guangtao Zhai, (参考訳) 従来のディープニューラルネットワーク(DNN)ベースの画像品質評価(IQA)モデルでは、畳み込みニューラルネットワーク(CNN)やTransformerを使用して、品質を意識した特徴表現を学習し、自然なシーンイメージ上で満足できるパフォーマンスを達成する。 しかし、AI生成画像(AGI)に適用すると、これらのDNNベースのIQAモデルはサブパー性能を示す。 この状況は、生成過程の制御不能な性質によって引き起こされる特定のAGIに固有の意味的不正確さが原因である。 したがって、AGIの品質を評価する上で、意味的コンテンツを識別する能力が重要となる。 従来のDNNベースのIQAモデルは、パラメータの複雑さとトレーニングデータに制約され、複雑な粒度のセマンティックな特徴を捉えるのに苦労しており、画像全体のセマンティックな内容の存在とコヒーレンスを理解することは困難である。 既存のIQAモデルのセマンティックコンテンツ知覚の欠点に対処するために, セマンティックインシデント情報を検出し, セマンティックベクターを抽出するために, セマンティックインフォメーションを利用したAI-Generated Image Quality Assessment (MA-AGIQA) モデルを提案する。 さらに、従来のDNNベースのIQAモデルによって抽出された品質認識機能と、意味情報を動的に統合するために、専門家(MoE)構造が混在している。 AI生成コンテンツデータセットであるAIGCQA-20kとAGIQA-3kの総合的な実験により、MA-AGIQAは最先端のパフォーマンスを達成し、AGIの品質を評価する上で優れた一般化能力を示す。 コードはhttps://github.com/wangpuyi/MA-AGIQA.comで入手できる。

Traditional deep neural network (DNN)-based image quality assessment (IQA) models leverage convolutional neural networks (CNN) or Transformer to learn the quality-aware feature representation, achieving commendable performance on natural scene images. However, when applied to AI-Generated images (AGIs), these DNN-based IQA models exhibit subpar performance. This situation is largely due to the semantic inaccuracies inherent in certain AGIs caused by uncontrollable nature of the generation process. Thus, the capability to discern semantic content becomes crucial for assessing the quality of AGIs. Traditional DNN-based IQA models, constrained by limited parameter complexity and training data, struggle to capture complex fine-grained semantic features, making it challenging to grasp the existence and coherence of semantic content of the entire image. To address the shortfall in semantic content perception of current IQA models, we introduce a large Multi-modality model Assisted AI-Generated Image Quality Assessment (MA-AGIQA) model, which utilizes semantically informed guidance to sense semantic information and extract semantic vectors through carefully designed text prompts. Moreover, it employs a mixture of experts (MoE) structure to dynamically integrate the semantic information with the quality-aware features extracted by traditional DNN-based IQA models. Comprehensive experiments conducted on two AI-generated content datasets, AIGCQA-20k and AGIQA-3k show that MA-AGIQA achieves state-of-the-art performance, and demonstrate its superior generalization capabilities on assessing the quality of AGIs. Code is available at https://github.com/wangpuyi/MA-AGIQA.
翻訳日:2024-04-30 19:30:48 公開日:2024-04-27
# 抽出可能な正規化定数を持つ完全および部分観測された指数族図形モデルの様相に基づく推論

Likelihood Based Inference in Fully and Partially Observed Exponential Family Graphical Models with Intractable Normalizing Constants ( http://arxiv.org/abs/2404.17763v1 )

ライセンス: Link先を確認
Yujie Chen, Anindya Bhadra, Antik Chakraborty, (参考訳) マルコフ確率場を符号化する確率的グラフィカルモデルは、複雑な依存構造を持つ現代の多変量データセットにおける潜在表現を学習するための生成的モデリングの基本的な構成要素である。 これらのうち指数関数型ファミリグラフィーモデルは、そのかなりよく理解された統計的性質と、擬似的な手法に基づく高次元データに対する計算スケーラビリティから特に人気がある。 これらのモデルは、統計物理学におけるイジングモデルやゲノミクスにおけるグラフィカルモデルなど、多くの分野でうまく応用されている。 別のモデルのストランドにより、いくつかのノードが遅延し、観測可能なノードの限界分布が指数族から外れ、より複雑な依存を捉えることができる。 これらのアプローチは、ボルツマンマシンや制限されたバージョンのような人工知能における生成モデルの基礎を形成する。 完全に観察された場合と部分的に観察された場合の両方において、確率ベース(すなわち、最大公準と完全ベイズ的の両方)の推論に対する基本的な障壁は、可能性の難易度である。 通常の回避策は、Besag (1974) の先駆的な業績に続き、擬似様相に基づくアプローチを採用することである。 本研究の目的は,これらのモデルの全確率に基づく解析が,計算効率の良い方法で実現可能であることを示すことである。 主な革新はGeyer (1991) の手法を用いて、抽出可能な正規化定数を推定し、その勾配を抽出可能なグラフィカルモデルに当てはめることである。 提案手法の適用性を示すために, 大規模数値結果, 支持理論, 擬似様相に基づくアプローチとの比較を行った。

Probabilistic graphical models that encode an underlying Markov random field are fundamental building blocks of generative modeling to learn latent representations in modern multivariate data sets with complex dependency structures. Among these, the exponential family graphical models are especially popular, given their fairly well-understood statistical properties and computational scalability to high-dimensional data based on pseudo-likelihood methods. These models have been successfully applied in many fields, such as the Ising model in statistical physics and count graphical models in genomics. Another strand of models allows some nodes to be latent, so as to allow the marginal distribution of the observable nodes to depart from exponential family to capture more complex dependence. These approaches form the basis of generative models in artificial intelligence, such as the Boltzmann machines and their restricted versions. A fundamental barrier to likelihood-based (i.e., both maximum likelihood and fully Bayesian) inference in both fully and partially observed cases is the intractability of the likelihood. The usual workaround is via adopting pseudo-likelihood based approaches, following the pioneering work of Besag (1974). The goal of this paper is to demonstrate that full likelihood based analysis of these models is feasible in a computationally efficient manner. The chief innovation lies in using a technique of Geyer (1991) to estimate the intractable normalizing constant, as well as its gradient, for intractable graphical models. Extensive numerical results, supporting theory and comparisons with pseudo-likelihood based approaches demonstrate the applicability of the proposed method.
翻訳日:2024-04-30 19:20:56 公開日:2024-04-27
# RFL-CDNet:よりリッチな特徴学習による正確な変化検出を目指して

RFL-CDNet: Towards Accurate Change Detection via Richer Feature Learning ( http://arxiv.org/abs/2404.17765v1 )

ライセンス: Link先を確認
Yuhang Gan, Wenjie Xuan, Hang Chen, Juhua Liu, Bo Du, (参考訳) 変化検出はリモートセンシング画像解析において極めて困難な課題であり、ディープラーニングの急速な発展とともに多くの進歩を遂げている。 しかし,既存の深層学習に基づく変化検出手法は主に複雑な特徴抽出とマルチスケール特徴融合に重点を置いており,中間段階における特徴の不十分な利用を無視した結果,準最適結果が得られた。 この目的のために,よりリッチな特徴学習を利用して変化検出性能を向上させる新しいフレームワーク RFL-CDNet を提案する。 具体的には、まず、中間表現を強化するために深層多重監視を導入し、各段階におけるバックボーン特徴抽出器のポテンシャルを解放する。 さらに,C2FGモジュールとLFモジュールを設計し,特徴学習を改善し,より識別的な特徴表現を得る。 LFモジュールは各ステージと空間位置の寄与が独立していると仮定し、複数の予測を融合する学習可能なモジュールを設計する。 いくつかのベンチマークデータセットに対する実験により,提案したRFL-CDNetは,WHUの耕作土地データセットとCDDデータセットの最先端性能と,WHU構築データセットの2番目に高い性能を達成できた。 ソースコードとモデルはhttps://github.com/Hhaizee/RFL-CDNetで公開されている。

Change Detection is a crucial but extremely challenging task of remote sensing image analysis, and much progress has been made with the rapid development of deep learning. However, most existing deep learning-based change detection methods mainly focus on intricate feature extraction and multi-scale feature fusion, while ignoring the insufficient utilization of features in the intermediate stages, thus resulting in sub-optimal results. To this end, we propose a novel framework, named RFL-CDNet, that utilizes richer feature learning to boost change detection performance. Specifically, we first introduce deep multiple supervision to enhance intermediate representations, thus unleashing the potential of backbone feature extractor at each stage. Furthermore, we design the Coarse-To-Fine Guiding (C2FG) module and the Learnable Fusion (LF) module to further improve feature learning and obtain more discriminative feature representations. The C2FG module aims to seamlessly integrate the side prediction from the previous coarse-scale into the current fine-scale prediction in a coarse-to-fine manner, while LF module assumes that the contribution of each stage and each spatial location is independent, thus designing a learnable module to fuse multiple predictions. Experiments on several benchmark datasets show that our proposed RFL-CDNet achieves state-of-the-art performance on WHU cultivated land dataset and CDD dataset, and the second-best performance on WHU building dataset. The source code and models are publicly available at https://github.com/Hhaizee/RFL-CDNet.
翻訳日:2024-04-30 19:20:56 公開日:2024-04-27
# 協調エッジコンピューティングを用いた無線ネットワークのためのビッグデータモデルの実装

Implementation of Big AI Models for Wireless Networks with Collaborative Edge Computing ( http://arxiv.org/abs/2404.17766v1 )

ライセンス: Link先を確認
Liekang Zeng, Shengyuan Ye, Xu Chen, Yang Yang, (参考訳) スマートホームの音声アシスタントやスマートファクトリの自律ロボットなど、エッジにおけるさまざまなインテリジェントアプリケーションにおいて、ビッグデータ(AI)モデルが重要な要素として浮上している。 例えば、パーソナライズされた微調整と連続的なモデル改善のための大規模なAIモデルのトレーニングは、限られたコンピューティングリソースとトレーニングに関連する集中的なワークロードとの間の固有の衝突のために、エッジデバイスに重大な課題を生じさせる。 デバイス上でのトレーニングの制約にもかかわらず、従来のアプローチでは、トレーニングデータを集約して、集中的なトレーニングのためにリモートクラウドに送信するのが一般的である。 それにもかかわらず、このアプローチは持続可能ではなく、長距離バックホール送信やエネルギー消費のデータセンターを歪ませたり、ユーザの生データをリモートインフラストラクチャと共有する安全なプライベート化を行なわない。 これらの課題に対処するために、一般的なエッジ環境は、通常、未使用のアイドルリソースを持つ信頼されたエッジデバイスの多様なコレクションを含み、エッジトレーニングアクセラレーションに利用することができることを観察する。 これは、信頼されたエッジデバイスのグループをリソースプールとしてオーケストレーションし、エッジにおける迅速かつ持続可能なビッグデータモデルトレーニングを実現するための、新しいトレーニングメカニズムである。 最初のステップとして、協調的なエッジトレーニングシステムを構築するための包括的なフレームワークを提案し、そのメリットを詳細に分析し、ワークフローに従って持続可能なスケジューリング選択を行う。 並列設計の影響を更に調査するため,現実的なテストベッドを用いたエネルギー需要の観点から,4つの典型的な並列設計の事例を実証的に検討した。 最後に、エッジ中心のビッグデータモデルトレーニングの今後の方向性を示すために、持続可能な協調エッジトレーニングのオープンな課題について議論する。

Big Artificial Intelligence (AI) models have emerged as a crucial element in various intelligent applications at the edge, such as voice assistants in smart homes and autonomous robotics in smart factories. Training big AI models, e.g., for personalized fine-tuning and continual model refinement, poses significant challenges to edge devices due to the inherent conflict between limited computing resources and intensive workload associated with training. Despite the constraints of on-device training, traditional approaches usually resort to aggregating training data and sending it to a remote cloud for centralized training. Nevertheless, this approach is neither sustainable, which strains long-range backhaul transmission and energy-consuming datacenters, nor safely private, which shares users' raw data with remote infrastructures. To address these challenges, we alternatively observe that prevalent edge environments usually contain a diverse collection of trusted edge devices with untapped idle resources, which can be leveraged for edge training acceleration. Motivated by this, in this article, we propose collaborative edge training, a novel training mechanism that orchestrates a group of trusted edge devices as a resource pool for expedited, sustainable big AI model training at the edge. As an initial step, we present a comprehensive framework for building collaborative edge training systems and analyze in-depth its merits and sustainable scheduling choices following its workflow. To further investigate the impact of its parallelism design, we empirically study a case of four typical parallelisms from the perspective of energy demand with realistic testbeds. Finally, we discuss open challenges for sustainable collaborative edge training to point to future directions of edge-centric big AI model training.
翻訳日:2024-04-30 19:20:56 公開日:2024-04-27
# データを最大限に活用する - トレーニングデータ分布を変えて分散化の一般化性能を改善する

Make the Most of Your Data: Changing the Training Data Distribution to Improve In-distribution Generalization Performance ( http://arxiv.org/abs/2404.17768v1 )

ライセンス: Link先を確認
Dang Nguyen, Paymon Haddad, Eric Gan, Baharan Mirzasoleiman, (参考訳) 分散データ上での一般化性能の優れた解を求めるため、トレーニングデータ分布を変更して、基礎となる最適化手法を奨励できるだろうか? 本研究では,勾配降下(GD)の帰納バイアスとシャープネス認識最小化(SAM)のバイアスを比較することで,この問題に初めてアプローチする。 2層CNNを研究した結果、SAMは特に初期の時代において、より簡単で難しい特徴をより均一に学習できることが証明された。 つまり、SAMはGDに比べて単純さのバイアスの影響を受けにくい。 そこで本研究では,トレーニングの初期段階でネットワーク出力に基づいてサンプルをクラスタリングし,単純なバイアスの落とし穴を緩和するための簡単な機能を持たずにサンプルをサンプリングするアルゴリズムであるUSEFULを提案する。 本研究では,(S)GD を用いたトレーニングにおいて,SAM のトレーニングダイナミクスを模倣することにより,トレーニングデータ分布の変更により,元のデータ分布の一般化性能が向上することを示す。 CIFAR10, STL10, CINIC10, Tiny-ImageNet, ResNet34, CIFAR100, VGG19, DenseNet121, CIFAR10におけるResNet18, DenseNet121の知識を活かして, SAMおよび既存のデータ拡張戦略と組み合わせて実現可能であることを示す。

Can we modify the training data distribution to encourage the underlying optimization method toward finding solutions with superior generalization performance on in-distribution data? In this work, we approach this question for the first time by comparing the inductive bias of gradient descent (GD) with that of sharpness-aware minimization (SAM). By studying a two-layer CNN, we prove that SAM learns easy and difficult features more uniformly, particularly in early epochs. That is, SAM is less susceptible to simplicity bias compared to GD. Based on this observation, we propose USEFUL, an algorithm that clusters examples based on the network output early in training and upsamples examples with no easy features to alleviate the pitfalls of the simplicity bias. We show empirically that modifying the training data distribution in this way effectively improves the generalization performance on the original data distribution when training with (S)GD by mimicking the training dynamics of SAM. Notably, we demonstrate that our method can be combined with SAM and existing data augmentation strategies to achieve, to the best of our knowledge, state-of-the-art performance for training ResNet18 on CIFAR10, STL10, CINIC10, Tiny-ImageNet; ResNet34 on CIFAR100; and VGG19 and DenseNet121 on CIFAR10.
翻訳日:2024-04-30 19:20:56 公開日:2024-04-27
# Conformal Ranked Retrieval

Conformal Ranked Retrieval ( http://arxiv.org/abs/2404.17769v1 )

ライセンス: Link先を確認
Yunpeng Xu, Wenge Guo, Zhi Wei, (参考訳) 生活に多大な影響を及ぼす各種情報システムにランク付けされた検索手法が広く採用されていることを踏まえ、予測に固有の不確実性を評価し、対処する必要性が高まっている。 本稿では,適合リスク制御フレームワークを用いて,ランク付けされた検索問題の文脈におけるリスクを定量的に計測し,管理する手法を提案する。 本研究は,検索段階が次のランク付け候補を生成する,典型的な2段階ランク付け検索問題に焦点をあてる。 各段階の共形リスクを慎重に定式化することにより、これらのリスクを所定の範囲内で効果的に制御するアルゴリズムを開発した。 提案手法の有効性は,MSLR-WEBデータセット,Yahoo LTRCデータセット,MS MARCOデータセットの3つの大規模公開データセットを対象とした総合的な実験により実証された。

Given the wide adoption of ranked retrieval techniques in various information systems that significantly impact our daily lives, there is an increasing need to assess and address the uncertainty inherent in their predictions. This paper introduces a novel method using the conformal risk control framework to quantitatively measure and manage risks in the context of ranked retrieval problems. Our research focuses on a typical two-stage ranked retrieval problem, where the retrieval stage generates candidates for subsequent ranking. By carefully formulating the conformal risk for each stage, we have developed algorithms to effectively control these risks within their specified bounds. The efficacy of our proposed methods has been demonstrated through comprehensive experiments on three large-scale public datasets for ranked retrieval tasks, including the MSLR-WEB dataset, the Yahoo LTRC dataset and the MS MARCO dataset.
翻訳日:2024-04-30 19:20:56 公開日:2024-04-27
# DVS画素におけるダイム光応答のキャラタライゼーション:イベントトリガ時間の不連続性

Charaterization of dim light response in DVS pixel: Discontinuity of event triggering time ( http://arxiv.org/abs/2404.17771v1 )

ライセンス: Link先を確認
Xiao Jiang, Fei Zhou, (参考訳) ダイナミックビジョンセンサ(DVS)は、従来のフレームベースカメラと比較して、広いダイナミックレンジと低レイテンシの利点から、近年大きな関心を集めている。 しかし、薄暗い光条件下での複雑な挙動はまだ明らかではなく、DVSの適用を制限している。 本稿では、典型的なDVS回路を解析し、イベントトリガー時間の不連続が存在することを明らかにする。 薄暗い光条件下では、不連続が顕著になる。 この不連続性は光強度の変化速度にのみ依存していると指摘する。 実事象データによる実験結果は、薄暗い光条件下でのDVSの非一階挙動を明らかにする不連続性の解析と存在を検証した。

Dynamic Vision Sensors (DVS) have recently generated great interest because of the advantages of wide dynamic range and low latency compared with conventional frame-based cameras. However, the complicated behaviors in dim light conditions are still not clear, restricting the applications of DVS. In this paper, we analyze the typical DVS circuit, and find that there exists discontinuity of event triggering time. In dim light conditions, the discontinuity becomes prominent. We point out that the discontinuity depends exclusively on the changing speed of light intensity. Experimental results on real event data validate the analysis and the existence of discontinuity that reveals the non-first-order behaviors of DVS in dim light conditions.
翻訳日:2024-04-30 19:20:56 公開日:2024-04-27
# 最小体積による圧縮潜時空間

Compressing Latent Space via Least Volume ( http://arxiv.org/abs/2404.17773v1 )

ライセンス: Link先を確認
Qiuyi Chen, Mark Fuge, (参考訳) 本稿では,自動エンコーダが必要とする潜伏次元を,データセットの固有次元に関する事前の知識を必要とせずに削減することのできる,幾何学的直観から着想を得た,単純かつ効果的な正規化手法であるLeast Volumeを紹介する。 我々は、デコーダのリプシッツ連続性が機能させる鍵であることを示し、PCAが単に線形特殊ケースであることを示すとともに、非線形モデルに適用した場合に類似したPCA様重要順序付け効果があることを明らかにする。 MNIST, CIFAR-10, CelebA など, 教育用玩具問題に対する正規化の背景にある直感と, ベンチマーク問題に対する有効性を示す。

This paper introduces Least Volume-a simple yet effective regularization inspired by geometric intuition-that can reduce the necessary number of latent dimensions needed by an autoencoder without requiring any prior knowledge of the intrinsic dimensionality of the dataset. We show that the Lipschitz continuity of the decoder is the key to making it work, provide a proof that PCA is just a linear special case of it, and reveal that it has a similar PCA-like importance ordering effect when applied to nonlinear models. We demonstrate the intuition behind the regularization on some pedagogical toy problems, and its effectiveness on several benchmark problems, including MNIST, CIFAR-10 and CelebA.
翻訳日:2024-04-30 19:20:56 公開日:2024-04-27
# ガウスサーフェスを用いた高品質表面再構成

High-quality Surface Reconstruction using Gaussian Surfels ( http://arxiv.org/abs/2404.17774v1 )

ライセンス: Link先を確認
Pinxuan Dai, Jiamin Xu, Wenxiang Xie, Xinguo Liu, Huamin Wang, Weiwei Xu, (参考訳) 本稿では,3次元ガウス点におけるフレキシブルな最適化手法の利点とサーベイルの表面アライメント特性を組み合わせるために,新しい点ベース表現であるガウス的サーベイルを提案する。 これは、3Dガウス点のzスケールを直接0に設定し、元の3D楕円体を2D楕円形に効果的に平らにする。 このような設計は、オプティマイザへの明確なガイダンスを提供する。 局所的なz軸を通常の方向として扱うことにより、最適化安定性と表面アライメントを大幅に改善する。 共分散行列から計算した局所z軸への微分はこの設定ではゼロであるが、この問題を改善するために自己教師付き正規深度整合損失を設計する。 単眼の通常のマスクと前景マスクが組み込まれ、再建の質を高め、ハイライトや背景にまつわる問題を緩和する。 アルファブレンディングにより生成された深度マップの誤り点を除去するために,ガウス波の情報を集約する体積切断法を提案する。 最後に,融解深度マップにスクリーニングされたポアソン再構成法を適用し,表面メッシュを抽出する。 実験により,本手法は,最先端のニューラルボリュームレンダリングやポイントベースレンダリングと比較して,表面再構成における優れた性能を示すことが示された。

We propose a novel point-based representation, Gaussian surfels, to combine the advantages of the flexible optimization procedure in 3D Gaussian points and the surface alignment property of surfels. This is achieved by directly setting the z-scale of 3D Gaussian points to 0, effectively flattening the original 3D ellipsoid into a 2D ellipse. Such a design provides clear guidance to the optimizer. By treating the local z-axis as the normal direction, it greatly improves optimization stability and surface alignment. While the derivatives to the local z-axis computed from the covariance matrix are zero in this setting, we design a self-supervised normal-depth consistency loss to remedy this issue. Monocular normal priors and foreground masks are incorporated to enhance the quality of the reconstruction, mitigating issues related to highlights and background. We propose a volumetric cutting method to aggregate the information of Gaussian surfels so as to remove erroneous points in depth maps generated by alpha blending. Finally, we apply screened Poisson reconstruction method to the fused depth maps to extract the surface mesh. Experimental results show that our method demonstrates superior performance in surface reconstruction compared to state-of-the-art neural volume rendering and point-based rendering methods.
翻訳日:2024-04-30 19:20:56 公開日:2024-04-27
# 接点交叉によって生じる小さな回避交差に対する二段階断熱遷移確率

Two-level adiabatic transition probability for small avoided crossings generated by tangential intersections ( http://arxiv.org/abs/2404.17777v1 )

ライセンス: Link先を確認
Kenta Higuchi, Takuya Watanabe, (参考訳) 本稿では,二つのパラメータ(断熱パラメータとエネルギーギャップパラメータ)がゼロとなる限界の下で,二段回避交差の遷移確率の漸近挙動について検討する。 これは、接する交差点によって回避された交差が生成され、非断熱的な体制に従う、我々の以前の作品の継続である。 主な結果は、遷移確率の漸近膨張だけでなく、いくつかの回避された交差と異なる消滅順序から生じる2パラメータ状態の共存によって引き起こされる量子干渉も解明する。

In this paper, the asymptotic behaviors of the transition probability for two-level avoided crossings are studied under the limit where two parameters (adiabatic parameter and energy gap parameter) tend to zero. This is a continuation of our previous works where avoided crossings are generated by tangential intersections and obey a non-adiabatic regime. The main results elucidate not only the asymptotic expansion of transition probability but also a quantum interference caused by several avoided crossings and a coexistence of two-parameter regimes arising from different vanishing orders.
翻訳日:2024-04-30 19:20:56 公開日:2024-04-27
# MRScore: LLM-based Reward System を用いた放射線診断レポート作成の評価

MRScore: Evaluating Radiology Report Generation with LLM-based Reward System ( http://arxiv.org/abs/2404.17778v1 )

ライセンス: Link先を確認
Yunyi Liu, Zhanyu Wang, Yingshu Li, Xinyu Liang, Lingqiao Liu, Lei Wang, Luping Zhou, (参考訳) 近年では、自動放射線診断レポート生成が著しい成長を遂げている。 本稿では,Large Language Models (LLMs) を利用した放射線学レポート生成のための自動評価指標であるMSScoreを紹介する。 BLEUのような従来のNLG(自然言語生成)メトリクスは、この論文の観察で系統的に示されているように、生成された放射線学レポートを正確に評価するには不十分である。 この課題に対処するため,我々は放射線学者と共同で,放射線学報告評価のためのLCMをガイドするフレームワークを開発し,ヒト分析との整合性を確保した。 私たちのフレームワークには2つの重要なコンポーネントが含まれています。 一 GPT を利用して、大量の訓練データ、すなわち、異なる品質の報告を生成し、 二 モデル報酬として、GPT生成報告を受理して、サンプルを拒絶し、MSScoreを生産するためにLSMを訓練すること。 実験では,MSScoreが人間の判断と高い相関性を示し,従来の指標と比較して,モデル選択における優れた性能を示した。 コードとデータセットはGitHubで公開されます。

In recent years, automated radiology report generation has experienced significant growth. This paper introduces MRScore, an automatic evaluation metric tailored for radiology report generation by leveraging Large Language Models (LLMs). Conventional NLG (natural language generation) metrics like BLEU are inadequate for accurately assessing the generated radiology reports, as systematically demonstrated by our observations within this paper. To address this challenge, we collaborated with radiologists to develop a framework that guides LLMs for radiology report evaluation, ensuring alignment with human analysis. Our framework includes two key components: i) utilizing GPT to generate large amounts of training data, i.e., reports with different qualities, and ii) pairing GPT-generated reports as accepted and rejected samples and training LLMs to produce MRScore as the model reward. Our experiments demonstrate MRScore's higher correlation with human judgments and superior performance in model selection compared to traditional metrics. Our code and datasets will be available on GitHub.
翻訳日:2024-04-30 19:20:56 公開日:2024-04-27
# 医用視力検査による脳異常の診断

Medical Vision-Language Pre-Training for Brain Abnormalities ( http://arxiv.org/abs/2404.17779v1 )

ライセンス: Link先を確認
Masoud Monajatipoor, Zi-Yi Dou, Aichi Chien, Nanyun Peng, Kai-Wei Chang, (参考訳) 視覚言語モデルは、視覚的要素と言語的要素の両方を理解する必要のあるタスクに対してますます強力になり、これらのモダリティのギャップを埋めている。 マルチモーダルな臨床AIの文脈では、既存のモデルは医療応用に必要な専門知識を欠いているため、ドメイン固有の知識を持つモデルの必要性が高まっている。 本稿では,脳の異常を例として,PubMedなどの公共リソースから事前学習のための医用画像テキスト整列データを自動的に収集する方法を示す。 特に,症例報告や論文から大脳画像テキストデータセットを収集し,その後,特定の医療業務に適した高性能な視覚言語モデルを構築することにより,事前学習プロセスの合理化を図るパイプラインを提案する。 また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。 定量的および定性的な内在性評価により,結果モデルの評価を行った。 生成されたデータセットとコードについては、https://github.com/masoud-monajati/MedVL_pretraining_pipelineを参照してください。

Vision-language models have become increasingly powerful for tasks that require an understanding of both visual and linguistic elements, bridging the gap between these modalities. In the context of multimodal clinical AI, there is a growing need for models that possess domain-specific knowledge, as existing models often lack the expertise required for medical applications. In this paper, we take brain abnormalities as an example to demonstrate how to automatically collect medical image-text aligned data for pretraining from public resources such as PubMed. In particular, we present a pipeline that streamlines the pre-training process by initially collecting a large brain image-text dataset from case reports and published journals and subsequently constructing a high-performance vision-language model tailored to specific medical tasks. We also investigate the unique challenge of mapping subfigures to subcaptions in the medical domain. We evaluated the resulting model with quantitative and qualitative intrinsic evaluations. The resulting dataset and our code can be found here https://github.com/masoud-monajati/MedVL_pretraining_pipeline
翻訳日:2024-04-30 19:20:56 公開日:2024-04-27
# Verco:マルチエージェント強化学習のための学習協調型言語コミュニケーション

Verco: Learning Coordinated Verbal Communication for Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2404.17780v1 )

ライセンス: Link先を確認
Dapeng Li, Hang Dong, Lu Wang, Bo Qiao, Si Qin, Qingwei Lin, Dongmei Zhang, Qi Zhang, Zhiwei Xu, Bin Zhang, Guoliang Fan, (参考訳) 近年,多エージェント強化学習アルゴリズムは多様なゲーム環境において大きな進歩を遂げており,より広範な応用への関心が高まっている。 部分観測可能性の課題に対処するため、通信ベースのアルゴリズムはエージェント間の数値埋め込みを共有することで協調性能を改善した。 しかし、協調機構の形成に関する理解は依然として極めて限られており、人間に理解可能なコミュニケーション機構を設計することが問題となる。 本稿では,大規模言語モデルをエージェントに組み込んだ多エージェント強化学習アルゴリズムを提案する。 フレームワーク全体にはメッセージモジュールとアクションモジュールがある。 メッセージモジュールは、他のエージェントに言語メッセージを生成し送信し、エージェント間の情報共有を効果的に強化する。 メッセージモジュールをさらに強化するために、教師モデルを用いて、グローバルビューからメッセージラベルを生成し、教師モデル(Supervised Fine-Tuning,SFT)を通じて生徒モデルを更新する。 アクションモジュールは、他のエージェントからメッセージを受け取り、現在のローカル観測と受信メッセージに基づいてアクションを選択する。 オーバークッキングゲームで行った実験では,既存の手法の学習効率と性能を大幅に向上させるとともに,マルチエージェント協調のプロセスを理解するための解釈可能なツールも提供する。

In recent years, multi-agent reinforcement learning algorithms have made significant advancements in diverse gaming environments, leading to increased interest in the broader application of such techniques. To address the prevalent challenge of partial observability, communication-based algorithms have improved cooperative performance through the sharing of numerical embedding between agents. However, the understanding of the formation of collaborative mechanisms is still very limited, making designing a human-understandable communication mechanism a valuable problem to address. In this paper, we propose a novel multi-agent reinforcement learning algorithm that embeds large language models into agents, endowing them with the ability to generate human-understandable verbal communication. The entire framework has a message module and an action module. The message module is responsible for generating and sending verbal messages to other agents, effectively enhancing information sharing among agents. To further enhance the message module, we employ a teacher model to generate message labels from the global view and update the student model through Supervised Fine-Tuning (SFT). The action module receives messages from other agents and selects actions based on current local observations and received messages. Experiments conducted on the Overcooked game demonstrate our method significantly enhances the learning efficiency and performance of existing methods, while also providing an interpretable tool for humans to understand the process of multi-agent cooperation.
翻訳日:2024-04-30 19:20:56 公開日:2024-04-27
# 大規模言語モデルの時間スケーリング法則

Temporal Scaling Law for Large Language Models ( http://arxiv.org/abs/2404.17785v1 )

ライセンス: Link先を確認
Yizhe Xiong, Xiansheng Chen, Xin Ye, Hui Chen, Zijia Lin, Haoran Lian, Jianwei Niu, Guiguang Ding, (参考訳) 近年、LLM(Large Language Models)は幅広いタスクで広く採用されており、LLMのスケーリングがパフォーマンスに与える影響についての研究に注目が集まっている。 既存の研究はスケーリング法則と呼ばれ、LLMの損失はモデルサイズ、計算予算、データセットサイズによる電力法則としてスケールすることを発見した。 しかし、トレーニングプロセスを通してのLLMの性能は、まだ触れられていない。 本稿では,時間的スケーリング法則の新たな概念を提案し,時間的次元からLLMが失われることについて検討する。 まず,各トークン位置における損失の不均衡について検討し,モデルスケールとトレーニング段階をまたいだ相互法則を開発する。 次に, 時間的スケーリング法則を, 相互法則パラメータの時間的パターンを研究することによって導出する。 In-distriion (IID) データとout-of-distriion (OOD)データの両方で、我々の時間的スケーリング法則が将来の訓練段階におけるLLMの性能を正確に予測していることを示す。 さらに, 時間的スケーリング法則により, 損失不均衡にもかかわらず, LLM は異なるトークン位置で一様に学習することが明らかとなった。 様々なスケールでのLLMの事前学習実験により、この現象は、学習中に再重み付け戦略を付加しない生成言語モデルにおけるデフォルトのトレーニングパラダイムを検証することが示されている。 全体として、時間的スケーリング法則は、LLM事前学習に関する深い洞察を提供する。

Recently, Large Language Models (LLMs) are widely adopted in a wide range of tasks, leading to increasing attention towards the research on how scaling LLMs affects their performance. Existing works, termed as Scaling Laws, have discovered that the loss of LLMs scales as power laws with model size, computational budget, and dataset size. However, the performance of LLMs throughout the training process remains untouched. In this paper, we propose the novel concept of Temporal Scaling Law and study the loss of LLMs from the temporal dimension. We first investigate the imbalance of loss on each token positions and develop a reciprocal-law across model scales and training stages. We then derive the temporal scaling law by studying the temporal patterns of the reciprocal-law parameters. Results on both in-distribution (IID) data and out-of-distribution (OOD) data demonstrate that our temporal scaling law accurately predicts the performance of LLMs in future training stages. Moreover, the temporal scaling law reveals that LLMs learn uniformly on different token positions, despite the loss imbalance. Experiments on pre-training LLMs in various scales show that this phenomenon verifies the default training paradigm for generative language models, in which no re-weighting strategies are attached during training. Overall, the temporal scaling law provides deeper insight into LLM pre-training.
翻訳日:2024-04-30 19:20:56 公開日:2024-04-27
# 最適通信ラウンドを用いた量子抵抗多信号方式:ブロックチェーンに基づくアプローチ

Quantum resistant multi-signature scheme with optimal communication round: A Blockchain-based approach ( http://arxiv.org/abs/2404.17787v1 )

ライセンス: Link先を確認
Hamidreza Rahmati, Farhad Rahmati, (参考訳) ブロックチェーンは、トランザクションの信頼性、完全性、透明性を高めるための分散ネットワークである。 ブロックチェーンの領域におけるトランザクションの指数的な増加、特にBitcoinでは、すべてのトランザクションを保存し、検証する必要があるため、ブロックチェーンのサイズが大きくなる。 Bitcoinでは、NトランザクションのMを検証するには、Nトランザクション全体のM認証署名が必要である。 この手順は非常に時間がかかるので、かなりのストレージ容量が必要です。 これらの問題に対処するために、複数のマルチシグネチャスキームが提案され、ユーザーは単一のメッセージに共通のシグネチャを対話的に生成できる。 近年,量子コンピュータの脅威に対処する格子型マルチシグネチャスキームが提案されている。 しかし、いずれも公開鍵の集約、低数の通信ラウンド、量子コンピュータへの耐性など、マルチシグネチャスキームの望ましい特徴をすべて満たしていない。 本稿では,Razhimsと呼ばれる格子に基づく新しいマルチシグネチャ方式を提案する。これは公開鍵を集約し,単一ラウンドの通信のみを必要とし,量子コンピュータに耐性を持つ。 ラジムでは、集合公開鍵サイズと最終署名サイズはそれぞれ標準署名の公開鍵サイズと最終署名サイズに等しく、シグナーの数とは独立である。

Blockchain is a decentralized network to increase trust, integrity, and transparency of transactions. With the exponential growth of transactions in the realm of Blockchain, especially in Bitcoin, Blockchain size increases as all transactions must be stored and verified. In Bitcoin, validating M of N transactions involves the necessity of M authentic signatures out of the total N transactions. This procedure is so time-consuming and needs a significant storage capacity. To address these issues, several multi signature schemes have been proposed, enabling users to interactively generate a common signature on a single message. Recently, some lattice based multi signature schemes have been presented to deal with the threats of quantum computers. However, none of them have met all desirable features of multi signature schemes like aggregate public key, low numbers of communication rounds, or resistant to quantum computers. Within this paper, we present a new multi signature scheme based on lattices, known as Razhims, that has aggregate public key, necessitates solely a single round of communication, and is resistant to quantum computers. In Razhims, the aggregate public key size and the final signature size are equal to the public key size and the final signature size of a standard signature respectively, and are independent of the number of signers.
翻訳日:2024-04-30 19:20:56 公開日:2024-04-27
# BiLO: PDE逆問題に対するバイレベルローカル演算子学習

BiLO: Bilevel Local Operator Learning for PDE inverse problems ( http://arxiv.org/abs/2404.17789v1 )

ライセンス: Link先を確認
Ray Zirui Zhang, Xiaohui Xie, John Lowengrub, (参考訳) 本稿では、PDE逆問題を二段階最適化問題として定式化することにより、偏微分方程式(PDE)の逆問題の解法を提案する。 上層部ではPDEパラメータに関してデータ損失を最小限に抑える。 下層部では、与えられたPDEパラメータの近傍でPDE解演算子を局所的に近似するようにニューラルネットワークを訓練し、上層部最適化問題に対する降下方向の正確な近似を可能にする。 下位レベル損失関数は、PDEパラメータに対する残差と微分の両方のL2ノルムを含む。 上層と下層の両方の最適化問題に勾配勾配を同時に適用し,有効かつ高速なアルゴリズムを実現する。 この手法はBiLO(Bilevel Local Operator Learning)と呼ばれ、補助変数の導入によってPDE内の未知の関数を効率的に推論することができる。 我々は,本手法が強いPDE制約を強制し,疎結合でノイズの多いデータに対して頑健であり,ソフトなPDE制約に固有の残差とデータ損失のバランスを取る必要がなくなることを実証した。

We propose a new neural network based method for solving inverse problems for partial differential equations (PDEs) by formulating the PDE inverse problem as a bilevel optimization problem. At the upper level, we minimize the data loss with respect to the PDE parameters. At the lower level, we train a neural network to locally approximate the PDE solution operator in the neighborhood of a given set of PDE parameters, which enables an accurate approximation of the descent direction for the upper level optimization problem. The lower level loss function includes the L2 norms of both the residual and its derivative with respect to the PDE parameters. We apply gradient descent simultaneously on both the upper and lower level optimization problems, leading to an effective and fast algorithm. The method, which we refer to as BiLO (Bilevel Local Operator learning), is also able to efficiently infer unknown functions in the PDEs through the introduction of an auxiliary variable. We demonstrate that our method enforces strong PDE constraints, is robust to sparse and noisy data, and eliminates the need to balance the residual and the data loss, which is inherent to soft PDE constraints.
翻訳日:2024-04-30 19:20:56 公開日:2024-04-27
# 言語間LLM適応のための継続事前学習:日本語能力の向上

Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities ( http://arxiv.org/abs/2404.17790v1 )

ライセンス: Link先を確認
Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Hiroki Iida, Masanari Ohi, Kakeru Hattori, Hirai Shota, Sakae Mizuki, Rio Yokota, Naoaki Okazaki, (参考訳) 大規模な言語モデル(LLM)の言語間連続的な事前学習は、最初は英語コーパスで訓練され、大量の英語リソースを活用でき、事前学習のコストを削減できる。 本研究では,Llama 2 の語彙を日本語文字に拡張し,日本語 Web コーパス上で継続事前学習を行うことにより,日本語能力を高める LLM である Swallow を構築した。 実験結果から, 継続事前学習により日本語タスクのパフォーマンスが劇的に向上し, 100Bトークンまでのトレーニングデータ量で単調に向上することが確認された。 その結果、スワローは英語と日本語でスクラッチから訓練された他のLLMよりも優れた性能を達成した。 継続事前学習の効果を解析した結果,日本人の質問応答作業に特に有効であることが判明した。 さらに,英語から日本語への言語間連続事前学習の効果的な方法を明らかにするために,語彙展開の影響と並列コーパスの導入効果を検討した。 その結果,語彙拡張によって得られる効率は,要約タスク以外の性能に悪影響を与えず,並列コーパスの併用による翻訳能力の向上が認められた。

Cross-lingual continual pre-training of large language models (LLMs) initially trained on English corpus allows us to leverage the vast amount of English language resources and reduce the pre-training cost. In this study, we constructed Swallow, an LLM with enhanced Japanese capability, by extending the vocabulary of Llama 2 to include Japanese characters and conducting continual pre-training on a large Japanese web corpus. Experimental results confirmed that the performance on Japanese tasks drastically improved through continual pre-training, and the performance monotonically increased with the amount of training data up to 100B tokens. Consequently, Swallow achieved superior performance compared to other LLMs that were trained from scratch in English and Japanese. An analysis of the effects of continual pre-training revealed that it was particularly effective for Japanese question answering tasks. Furthermore, to elucidate effective methodologies for cross-lingual continual pre-training from English to Japanese, we investigated the impact of vocabulary expansion and the effectiveness of incorporating parallel corpora. The results showed that the efficiency gained through vocabulary expansion had no negative impact on performance, except for the summarization task, and that the combined use of parallel corpora enhanced translation ability.
翻訳日:2024-04-30 19:11:12 公開日:2024-04-27
# CLFT:自律運転におけるセマンティックセグメンテーションのためのカメラ-LiDARフュージョントランス

CLFT: Camera-LiDAR Fusion Transformer for Semantic Segmentation in Autonomous Driving ( http://arxiv.org/abs/2404.17793v1 )

ライセンス: Link先を確認
Junyi Gu, Mauro Bellone, Tomáš Pivoňka, Raivo Sell, (参考訳) 自律走行のためのカメラとLiDARに基づくセマンティックオブジェクトセグメンテーションに関する批判的研究は、近年のディープラーニングの発展に大きく寄与した。 具体的には、視覚変換器は、コンピュータビジョンアプリケーションにマルチヘッドアテンション機構をうまく導入した新しいグラウンドブレーカーである。 そこで本稿では,自律運転に適用したセマンティックセグメンテーションのためのカメラ-LiDAR融合を実現するビジョントランスフォーマーネットワークを提案する。 提案手法は、2方向ネットワーク上での視覚変換器のプログレッシブ・アセンブル・ストラテジーを用いており、その結果をトランスフォーマ・デコーダ層上でのクロスフュージョン・ストラテジーに統合する。 他の文献とは異なり、我々のカメラ-LiDAR融合変換器は雨や低照度といった困難な条件下で評価され、堅牢な性能を示している。 本稿は、カメラオンリー、LiDARオンリー、カメラ-LiDARフュージョンという、車種と人間のクラスに対するセグメンテーション結果について報告する。 セマンティックセグメンテーション用に設計された他のネットワークに対して,CLFTのコヒーレントなベンチマーク実験を行う。 この実験は,マルチモーダルセンサフュージョンとバックボーンアーキテクチャの2つの観点から,CLFTの性能を独立に評価することを目的としている。 CLFTネットワークは,FCN(Fully-Convolutional-Neural-Network-based)カメラ-LiDAR融合ニューラルネットワークと比較した場合,暗黒湿潤環境において最大10倍の改善が得られた。 トランスバックボーンによるネットワークとは対照的に、単一モード入力を用いると、全アラウンド改善は5~10 %である。

Critical research about camera-and-LiDAR-based semantic object segmentation for autonomous driving significantly benefited from the recent development of deep learning. Specifically, the vision transformer is the novel ground-breaker that successfully brought the multi-head-attention mechanism to computer vision applications. Therefore, we propose a vision-transformer-based network to carry out camera-LiDAR fusion for semantic segmentation applied to autonomous driving. Our proposal uses the novel progressive-assemble strategy of vision transformers on a double-direction network and then integrates the results in a cross-fusion strategy over the transformer decoder layers. Unlike other works in the literature, our camera-LiDAR fusion transformers have been evaluated in challenging conditions like rain and low illumination, showing robust performance. The paper reports the segmentation results over the vehicle and human classes in different modalities: camera-only, LiDAR-only, and camera-LiDAR fusion. We perform coherent controlled benchmark experiments of CLFT against other networks that are also designed for semantic segmentation. The experiments aim to evaluate the performance of CLFT independently from two perspectives: multimodal sensor fusion and backbone architectures. The quantitative assessments show our CLFT networks yield an improvement of up to 10\% for challenging dark-wet conditions when comparing with Fully-Convolutional-Neural-Network-based (FCN) camera-LiDAR fusion neural network. Contrasting to the network with transformer backbone but using single modality input, the all-around improvement is 5-10\%.
翻訳日:2024-04-30 19:11:12 公開日:2024-04-27
# GPT for Games: A Scoping Review (2020-2023)

GPT for Games: A Scoping Review (2020-2023) ( http://arxiv.org/abs/2404.17794v1 )

ライセンス: Link先を確認
Daijin Yang, Erica Kleinman, Casper Harteveld, (参考訳) 本稿では,ゲーム分野におけるGPTの可能性を探るため,55項目のスコーピングレビューを紹介する。 現在のゲーム研究におけるGPTの主な応用は,プロシージャコンテンツ生成,混合開始型ゲームデザイン,混合開始型ゲームプレイ,ゲームプレイ,ゲームユーザリサーチの5つである。 それぞれの応用分野の知見から,各分野における今後の研究の方向性を提案する。 このレビューは、ゲームにおける革新的なGPTアプリケーションのための最先端の技術を具現化し、ゲーム開発を充実させ、最先端のAIイノベーションでプレイヤー体験を強化することを約束することで、基礎を固めることを目的としている。

This paper introduces a scoping review of 55 articles to explore GPT's potential for games, offering researchers a comprehensive understanding of the current applications and identifying both emerging trends and unexplored areas. We identify five key applications of GPT in current game research: procedural content generation, mixed-initiative game design, mixed-initiative gameplay, playing games, and game user research. Drawing from insights in each of these application areas, we propose directions for future research in each one. This review aims to lay the groundwork by illustrating the state of the art for innovative GPT applications in games, promising to enrich game development and enhance player experiences with cutting-edge AI innovations.
翻訳日:2024-04-30 19:11:12 公開日:2024-04-27
# 表現学習における逐次的階層拡大による個人化フェデレーション学習

Personalized Federated Learning via Sequential Layer Expansion in Representation Learning ( http://arxiv.org/abs/2404.17799v1 )

ライセンス: Link先を確認
Jaewon Jang, Bonjun Choi, (参考訳) フェデレーション学習は、個々のクライアントデバイス上で分散トレーニングを行い、中央サーバでモデルウェイトのみを共有することによって、クライアントのプライバシを保証する。 しかし、現実のシナリオでは、クライアント間のデータの異質性は適切なパーソナライズ方法を必要とする。 本稿では,表現学習と呼ばれるパラメータ分離形式を用いて,この不均一性に対処することを目的とする。 表現学習は、ディープラーニングモデルを'ベース'と'ヘッド'コンポーネントに分割する。 ベースコンポーネントは、すべてのクライアントで共通の機能をキャプチャし、サーバと共有するが、ヘッドコンポーネントは、個々のクライアント固有のユニークな機能をキャプチャし、ローカルのままである。 本稿では,深層学習モデル全体をより密に分割した部分へと分離する手法を提案する。 本稿では、クライアント間のデータおよびクラス不均一性の観点から、フォワード(\textit{Vanilla})とバックワード(\textit{Anti})という2つのレイヤスケジューリング手法を比較し、分析する。 実験の結果,提案アルゴリズムは,既存の個別化学習アルゴリズムと比較して,計算コストを削減しつつ,特に困難条件下での精度の向上を実現していることがわかった。

Federated learning ensures the privacy of clients by conducting distributed training on individual client devices and sharing only the model weights with a central server. However, in real-world scenarios, the heterogeneity of data among clients necessitates appropriate personalization methods. In this paper, we aim to address this heterogeneity using a form of parameter decoupling known as representation learning. Representation learning divides deep learning models into 'base' and 'head' components. The base component, capturing common features across all clients, is shared with the server, while the head component, capturing unique features specific to individual clients, remains local. We propose a new representation learning-based approach that suggests decoupling the entire deep learning model into more densely divided parts with the application of suitable scheduling methods, which can benefit not only data heterogeneity but also class heterogeneity. In this paper, we compare and analyze two layer scheduling approaches, namely forward (\textit{Vanilla}) and backward (\textit{Anti}), in the context of data and class heterogeneity among clients. Our experimental results show that the proposed algorithm, when compared to existing personalized federated learning algorithms, achieves increased accuracy, especially under challenging conditions, while reducing computation costs.
翻訳日:2024-04-30 19:11:12 公開日:2024-04-27
# 大規模言語モデルを用いた対話関係抽出の実証分析

Empirical Analysis of Dialogue Relation Extraction with Large Language Models ( http://arxiv.org/abs/2404.17802v1 )

ライセンス: Link先を確認
Guozheng Li, Zijie Xu, Ziyu Shang, Jiajun Liu, Ke Ji, Yikai Guo, (参考訳) 対話関係抽出(DRE)は,対話における高次代名詞頻度と低情報密度のため,標準REよりも難易度が高い2つの引数間の関係を抽出することを目的としている。 しかし, 従来のDRE手法では, 長め・短めのマルチターン情報の取得が困難であること, 部分対話に基づく黄金関係の抽出が困難であること, 上記の問題を緩和するより効果的な方法を見出す動機となっていること, という2つの深刻な問題に悩まされている。 大規模言語モデル(LLM)の台頭が,多種多様なタスクにおけるパフォーマンス評価に多大な関心を喚起していることに気付きました。 この目的のために,DRE における様々な LLM の機能について,プロプライエタリモデルとオープンソースモデルの両方を考慮した検討を行った。 興味深いことに、LLMは既存のDRE手法の2つの問題を著しく軽減する。 一般に,(1)モデルサイズを拡大することで,DRE全体の性能が大幅に向上し,かつ,長大かつ低速なマルチターン情報の取得が困難になること,(2)LLMは対話設定全体から部分対話設定まで,従来の手法に比べてはるかに少ない性能低下に直面すること,(3)LLMは,現在の状況と比較して,フルショットおよび少数ショット設定の両方において,競合的あるいは優れたパフォーマンスを提供すること,(4)LLMは逆関係の質素なパフォーマンスを示すこと,そして一般関係の大幅な改善,そして,特に長いシーケンスにおいて,様々な長さの対話を処理できること,などが報告されている。

Dialogue relation extraction (DRE) aims to extract relations between two arguments within a dialogue, which is more challenging than standard RE due to the higher person pronoun frequency and lower information density in dialogues. However, existing DRE methods still suffer from two serious issues: (1) hard to capture long and sparse multi-turn information, and (2) struggle to extract golden relations based on partial dialogues, which motivates us to discover more effective methods that can alleviate the above issues. We notice that the rise of large language models (LLMs) has sparked considerable interest in evaluating their performance across diverse tasks. To this end, we initially investigate the capabilities of different LLMs in DRE, considering both proprietary models and open-source models. Interestingly, we discover that LLMs significantly alleviate two issues in existing DRE methods. Generally, we have following findings: (1) scaling up model size substantially boosts the overall DRE performance and achieves exceptional results, tackling the difficulty of capturing long and sparse multi-turn information; (2) LLMs encounter with much smaller performance drop from entire dialogue setting to partial dialogue setting compared to existing methods; (3) LLMs deliver competitive or superior performances under both full-shot and few-shot settings compared to current state-of-the-art; (4) LLMs show modest performances on inverse relations but much stronger improvements on general relations, and they can handle dialogues of various lengths especially for longer sequences.
翻訳日:2024-04-30 19:11:12 公開日:2024-04-27
# 最適化から一般化へ:クライアント間シャープネスマッチングによる品質変化に対する公正なフェデレーション学習

From Optimization to Generalization: Fair Federated Learning against Quality Shift via Inter-Client Sharpness Matching ( http://arxiv.org/abs/2404.17805v1 )

ライセンス: Link先を確認
Nannan Wu, Zhuo Kuang, Zengqiang Yan, Li Yu, (参考訳) プライバシー上の懸念がエスカレートするため、フェデレートされた学習は、分散化された医療データでディープニューラルネットワークをトレーニングするための重要なアプローチとして認識されている。 実際には、様々な施設で一貫した画像品質を確保することは困難であり、多くの場合、少数の顧客に影響を与える機器の故障によるものである。 この画像品質の不均衡は、フェデレートされたモデルが高品質な画像に対して固有のバイアスを生じさせる可能性があるため、深刻な公平性の問題を引き起こす。 本研究では,画像品質変化の文脈において,この新たなフェアネスチャレンジの識別と定式化を開拓する。 連合学習における公正性を促進する伝統的な手法は、主に多様なクライアント分布にまたがる経験的リスクのバランスに重点を置いている。 この戦略は、主に異なるトレーニングデータ分布の公平な最適化を促進するが、一般化の重要な側面を無視する。 そこで我々は,FedISM (Inter-client Sharpness Matching) を用いたフェデレートラーニング(Federated Learning)という手法を提案する。 FedISMは、クライアント間のシャープネスレベルを調和させ、公正な一般化を目指して、シャープネス認識を取り入れたローカルトレーニングとグローバルアグリゲーションの両方を強化する。 ICHとISIC 2019データセットを用いて実施した経験的評価は、現在の最先端のフェデレート学習法よりもフェデレーションの優位性を確立し、公正性を促進する。 コードはhttps://github.com/wnn2000/FFL4MIAで入手できる。

Due to escalating privacy concerns, federated learning has been recognized as a vital approach for training deep neural networks with decentralized medical data. In practice, it is challenging to ensure consistent imaging quality across various institutions, often attributed to equipment malfunctions affecting a minority of clients. This imbalance in image quality can cause the federated model to develop an inherent bias towards higher-quality images, thus posing a severe fairness issue. In this study, we pioneer the identification and formulation of this new fairness challenge within the context of the imaging quality shift. Traditional methods for promoting fairness in federated learning predominantly focus on balancing empirical risks across diverse client distributions. This strategy primarily facilitates fair optimization across different training data distributions, yet neglects the crucial aspect of generalization. To address this, we introduce a solution termed Federated learning with Inter-client Sharpness Matching (FedISM). FedISM enhances both local training and global aggregation by incorporating sharpness-awareness, aiming to harmonize the sharpness levels across clients for fair generalization. Our empirical evaluations, conducted using the widely-used ICH and ISIC 2019 datasets, establish FedISM's superiority over current state-of-the-art federated learning methods in promoting fairness. Code is available at https://github.com/wnn2000/FFL4MIA.
翻訳日:2024-04-30 19:11:12 公開日:2024-04-27
# T-CLAP: 時間拡張コントラスト言語-Audio Pretraining

T-CLAP: Temporal-Enhanced Contrastive Language-Audio Pretraining ( http://arxiv.org/abs/2404.17806v1 )

ライセンス: Link先を確認
Yi Yuan, Zhuo Chen, Xubo Liu, Haohe Liu, Xuenan Xu, Dongya Jia, Yuanzhe Chen, Mark D. Plumbley, Wenwu Wang, (参考訳) 言語・音声事前学習(CLAP)は,音声・言語表現の整合を図り,検索・分類作業において顕著な性能を発揮する。 しかし、現在のCLAPは、音声やテキストの機能の中で時間的情報をキャプチャするのに苦労しており、音声の検索や生成といったタスクにかなりの制限を与えている。 このギャップに対処するために、時間拡張CLAPモデルであるT-CLAPを導入する。 大規模な言語モデル~(LLM)と混合戦略を用いて、広範囲な音声テキストデータセットから音声クリップの時間的コントラストキャプションを生成する。 その後、これらの合成データを組み込んでCLAPモデルを微調整するように、時間中心の新たなコントラスト損失を設計する。 複数の下流タスクにおいて総合的な実験と分析を行う。 T-CLAPは、音の事象の時間的関係を捉え、最先端のモデルよりも顕著に優れていることを示す。

Contrastive language-audio pretraining~(CLAP) has been developed to align the representations of audio and language, achieving remarkable performance in retrieval and classification tasks. However, current CLAP struggles to capture temporal information within audio and text features, presenting substantial limitations for tasks such as audio retrieval and generation. To address this gap, we introduce T-CLAP, a temporal-enhanced CLAP model. We use Large Language Models~(LLMs) and mixed-up strategies to generate temporal-contrastive captions for audio clips from extensive audio-text datasets. Subsequently, a new temporal-focused contrastive loss is designed to fine-tune the CLAP model by incorporating these synthetic data. We conduct comprehensive experiments and analysis in multiple downstream tasks. T-CLAP shows improved capability in capturing the temporal relationship of sound events and outperforms state-of-the-art models by a significant margin.
翻訳日:2024-04-30 19:11:12 公開日:2024-04-27
# メタ・インコンテクスト・ラーニングは、大規模言語モデルによりゼロとFew-Shotリレーション・エクストラクタをより良くする

Meta In-Context Learning Makes Large Language Models Better Zero and Few-Shot Relation Extractors ( http://arxiv.org/abs/2404.17807v1 )

ライセンス: Link先を確認
Guozheng Li, Peng Wang, Jiajun Liu, Yikai Guo, Ke Ji, Ziyu Shang, Zijie Xu, (参考訳) 関係抽出(RE)は、テキスト内のエンティティ間の関係を特定することを目的とした重要なタスクである。 大規模言語モデル(LLM)は、一般のゼロと少数ショットの学習において、目覚ましい文脈内学習(ICL)能力を示したが、最近の研究は、現在のLLMがまだゼロと少数ショットのREに苦戦していることを示している。 従来の研究は、主にプロンプトフォーマットの設計と、ICLベースのREを改善するための良い例の選択に費やされていた。 どちらの要因もICLにとって不可欠であるが、REにおけるLCMのICL能力を根本的に向上させることができれば、ICLによるゼロと少数ショットREのパフォーマンスは大幅に改善されるだろう。 この目的のために我々は, LLM が RE データセットの多種多様なコレクション (すなわち RE の文脈で学ぶこと) で ICL を行うように調整された, 0 および少数ショット RE のための新しいメタトレーニングフレームワークである \textbf{M}eta \textbf{I}n-\textbf{C}ontext Learning of LLMs for \textbf{R}elation \textbf{E}xtraction を紹介した。 メタトレーニングを通じてモデルは、パラメータ更新やタスク固有のテンプレートを推論時に含まないいくつかのトレーニング例を条件にすることで、コンテキスト内で新しいREタスクを学習し、より優れたゼロと少数ショットタスクの一般化を可能にする。 我々は、異なるモデルスケールと12の公開REデータセットを持つ様々なLLM上で、textsc{Micre}を実験し、ゼロおよび少数ショット設定で未確認REベンチマークで評価する。 \textsc{Micre}は、教師付き微調整や典型的なインコンテキスト学習方法を含む、一連のベースラインと比較して、同等または優れたパフォーマンスを提供する。 より大きなモデルスケールでは特に利益が重要であり、メタトレーニングされたREデータセットの多種多様なセットを使用することが改善の鍵であることが分かっています。 実験により,ターゲットREデータセットの推論中に関係ラベル名を介して関係意味知識を転送できることが示される。

Relation extraction (RE) is an important task that aims to identify the relationships between entities in texts. While large language models (LLMs) have revealed remarkable in-context learning (ICL) capability for general zero and few-shot learning, recent studies indicate that current LLMs still struggle with zero and few-shot RE. Previous studies are mainly dedicated to design prompt formats and select good examples for improving ICL-based RE. Although both factors are vital for ICL, if one can fundamentally boost the ICL capability of LLMs in RE, the zero and few-shot RE performance via ICL would be significantly improved. To this end, we introduce \textsc{Micre} (\textbf{M}eta \textbf{I}n-\textbf{C}ontext learning of LLMs for \textbf{R}elation \textbf{E}xtraction), a new meta-training framework for zero and few-shot RE where an LLM is tuned to do ICL on a diverse collection of RE datasets (i.e., learning to learn in context for RE). Through meta-training, the model becomes more effectively to learn a new RE task in context by conditioning on a few training examples with no parameter updates or task-specific templates at inference time, enabling better zero and few-shot task generalization. We experiment \textsc{Micre} on various LLMs with different model scales and 12 public RE datasets, and then evaluate it on unseen RE benchmarks under zero and few-shot settings. \textsc{Micre} delivers comparable or superior performance compared to a range of baselines including supervised fine-tuning and typical in-context learning methods. We find that the gains are particular significant for larger model scales, and using a diverse set of the meta-training RE datasets is key to improvements. Empirically, we show that \textsc{Micre} can transfer the relation semantic knowledge via relation label name during inference on target RE datasets.
翻訳日:2024-04-30 19:11:12 公開日:2024-04-27
# Scaffold-BPE: シンプルで効果的なScaffold Token除去によるバイトコードペアエンコーディングの強化

Scaffold-BPE: Enhancing Byte Pair Encoding with Simple and Effective Scaffold Token Removal ( http://arxiv.org/abs/2404.17808v1 )

ライセンス: Link先を確認
Haoran Lian, Yizhe Xiong, Jianwei Niu, Shasha Mo, Zhenpeng Su, Zijia Lin, Peng Liu, Hui Chen, Guiguang Ding, (参考訳) Byte Pair Encoding (BPE) は自然言語処理(NLP)分野におけるテキストトークン化の基礎となる手法である。 広く採用されているにもかかわらず、オリジナルのBPEアルゴリズムには固有の欠陥がある。 BPEはテキストコーパスにおいて最も頻繁なトークンペアを反復的にマージし、ボキャブラリにマージされたトークンを全て保持するので、必然的に完全な単語のサブワードを主に表現し、テキストコーパスにしばしば現れるトークンを保持する。 このようなトークンをScaffold Tokensと呼びます。 テキストコーパスの出現頻度が低いため、Scaffold Tokensは言語モデルに学習の不均衡の問題を提起している。 この問題に対処するために,パラメータフリー,計算ライト,実装が容易なオリジナルのBPEへの修正による動的スキャフォールトトークン除去機構を組み込んだScaffold-BPEを提案する。 この手法により、与えられたテキストのトークン表現から低周波のスカフォルドトークンを排除し、周波数不均衡の問題を緩和し、モデルの訓練を容易にする。 言語モデリングタスクや機械翻訳タスクの広範な実験において、Scaffold-BPEはオリジナルのBPEよりも優れており、その効果と優位性を示している。

Byte Pair Encoding (BPE) serves as a foundation method for text tokenization in the Natural Language Processing (NLP) field. Despite its wide adoption, the original BPE algorithm harbors an inherent flaw: it inadvertently introduces a frequency imbalance for tokens in the text corpus. Since BPE iteratively merges the most frequent token pair in the text corpus while keeping all tokens that have been merged in the vocabulary, it unavoidably holds tokens that primarily represent subwords of complete words and appear infrequently on their own in the text corpus. We term such tokens as Scaffold Tokens. Due to their infrequent appearance in the text corpus, Scaffold Tokens pose a learning imbalance issue for language models. To address that issue, we propose Scaffold-BPE, which incorporates a dynamic scaffold token removal mechanism by parameter-free, computation-light, and easy-to-implement modifications to the original BPE. This novel approach ensures the exclusion of low-frequency Scaffold Tokens from the token representations for the given texts, thereby mitigating the issue of frequency imbalance and facilitating model training. On extensive experiments across language modeling tasks and machine translation tasks, Scaffold-BPE consistently outperforms the original BPE, well demonstrating its effectiveness and superiority.
翻訳日:2024-04-30 19:11:12 公開日:2024-04-27
# Recall, Retrieve and Reason: より優れたインコンテキスト関係抽出を目指して

Recall, Retrieve and Reason: Towards Better In-Context Relation Extraction ( http://arxiv.org/abs/2404.17809v1 )

ライセンス: Link先を確認
Guozheng Li, Peng Wang, Wenjun Ke, Yikai Guo, Ke Ji, Ziyu Shang, Jiajun Liu, Zijie Xu, (参考訳) 関係抽出(RE)は、テキストで言及されたエンティティ間の関係を特定することを目的としている。 大規模言語モデル(LLM)は、様々なタスクにおいて印象的な文脈内学習(ICL)能力を示してきたが、教師付き細調整のRE法に比べてパフォーマンスが劣っている。 ICL for RE と LLM の併用は,(1) トレーニング例から優れた実演を回収すること,(2) LLM が RE に強い ICL 能力を示すこと,の2つの課題に直面する。 一方、良いデモンストレーションを取得することはREの非自明なプロセスであり、エンティティや関係に関する関連性が低い。 一方,LLM を用いた ICL は RE では性能が劣るが,RE では言語モデリングとは性質が異なり,LLM では不十分である。 本研究では,LLMを検索コーパス(学習例)と相乗化するリコール・リトリーブ・レアソンREフレームワークを提案する。 具体的には、トレーニングデータセットから一貫したオントロジ知識を抽出し、検索コーパスを根拠とした関連エンティティペアを有効なクエリとしてLLMに生成する。 これらのエンティティペアは、LLMが命令チューニングによってより優れたICLを実行するためのデモとして、検索コーパスから関連するトレーニング例を取得するために使用される。 LLMとREデータセットの多種多様な実験により、本手法は関連性のあるエンティティペアを生成し、LCMのICL能力を高めることを示し、従来の教師付き微調整法やICLに基づく手法と比較して、文レベルREにおける競合性や新しい最先端性能を実現する。

Relation extraction (RE) aims to identify relations between entities mentioned in texts. Although large language models (LLMs) have demonstrated impressive in-context learning (ICL) abilities in various tasks, they still suffer from poor performances compared to most supervised fine-tuned RE methods. Utilizing ICL for RE with LLMs encounters two challenges: (1) retrieving good demonstrations from training examples, and (2) enabling LLMs exhibit strong ICL abilities in RE. On the one hand, retrieving good demonstrations is a non-trivial process in RE, which easily results in low relevance regarding entities and relations. On the other hand, ICL with an LLM achieves poor performance in RE while RE is different from language modeling in nature or the LLM is not large enough. In this work, we propose a novel recall-retrieve-reason RE framework that synergizes LLMs with retrieval corpora (training examples) to enable relevant retrieving and reliable in-context reasoning. Specifically, we distill the consistently ontological knowledge from training datasets to let LLMs generate relevant entity pairs grounded by retrieval corpora as valid queries. These entity pairs are then used to retrieve relevant training examples from the retrieval corpora as demonstrations for LLMs to conduct better ICL via instruction tuning. Extensive experiments on different LLMs and RE datasets demonstrate that our method generates relevant and valid entity pairs and boosts ICL abilities of LLMs, achieving competitive or new state-of-the-art performance on sentence-level RE compared to previous supervised fine-tuning methods and ICL-based methods.
翻訳日:2024-04-30 19:11:12 公開日:2024-04-27
# 互換性のないJavaバージョンを使用したテストケースの自動ビルド修復

Automatic Build Repair for Test Cases using Incompatible Java Versions ( http://arxiv.org/abs/2404.17818v1 )

ライセンス: Link先を確認
Ching Hang Mak, Shing-Chi Cheung, (参考訳) コンテキスト: Bugのバイセクションは、バグを導入したり、間接的にバグを修正するリビジョンを特定するのに使われる一般的なテクニックであり、しばしばリビジョンの中にバグが存在するかどうかを判断するために、プロジェクトの複数のリビジョンを実行する。 しかし、多くのレガシーリビジョンは、コンパイルプロセスで使用されるプログラミング言語やツールの変更により、しばしばうまくコンパイルできない。 目的:本論文では,依存性の最小化によってJavaプロジェクトのテストケースを修復する手法を紹介する。 我々のアプローチは、1つ以上のテストケースの実行に不要なクラスやメソッドを削除することを目的としています。 既存の最先端技術とは異なり、我々の手法はソースレベルで最小化を行い、コンパイル時のエラーを修正できる。 Method: 私たちのテクニックを実装するスタンドアロンのJavaツールを開発し、Java 8と17に対して再ターゲットされたDefects4Jの課題を使って、我々のテクニックを評価しました。 結果: 評価の結果, 原版テスト結果の複製を含む最小化を行うことで, 被験者の大多数を修復できることがわかった。 さらに,本手法は,2分割プロセスに小さなオーバーヘッドを加えるだけで,精度の低い結果が得られることを示す。 結論: 提案手法は,オーバーヘッドの最小化によるビルド障害の修復に有効であることが示され,自動バグバイセクションでの使用に適している。 私たちのツールは、バグコーパスの作成やリファクタリングといったユースケースにも適用できます。

Context: Bug bisection is a common technique used to identify a revision that introduces a bug or indirectly fixes a bug, and often involves executing multiple revisions of a project to determine whether the bug is present within the revision. However, many legacy revisions often cannot be successfully compiled due to changes in the programming language or tools used in the compilation process, adding complexity and preventing automation in the bisection process. Objective: In this paper, we introduce an approach to repair test cases of Java projects by performing dependency minimization. Our approach aims to remove classes and methods that are not required for the execution of one or more test cases. Unlike existing state-of-the-art techniques, our approach performs minimization at source-level, which allows compile-time errors to be fixed. Method: A standalone Java tool implementing our technique was developed, and we evaluated our technique using subjects from Defects4J retargeted against Java 8 and 17. Results: Our evaluation showed that a majority of subjects can be repaired solely by performing minimization, including replicating the test results of the original version. Furthermore, our technique is also shown to achieve accurate minimized results, while only adding a small overhead to the bisection process. Conclusion: Our proposed technique is shown to be effective for repairing build failures with minimal overhead, making it suitable for use in automated bug bisection. Our tool can also be adapted for use cases such as bug corpus creation and refactoring.
翻訳日:2024-04-30 19:11:12 公開日:2024-04-27
# 人間の認識と重み適応に基づくオフロード自動運転の運動計画

Motion planning for off-road autonomous driving based on human-like cognition and weight adaptation ( http://arxiv.org/abs/2404.17820v1 )

ライセンス: Link先を確認
Yuchun Wang, Cheng Gong, Jianwei Gong, Peng Jia, (参考訳) オフロード環境での運転は、複雑で多様な地形のため、自動運転車にとって困難である。 安定かつ効率的な走行を保証するため、車両は変化するシナリオに適応可能な最適な軌道を生成するために、アンデュレーション、粗さ、障害物などの環境要因の考慮とバランスが必要である。 しかし、伝統的な運動プランナーは軌道最適化に固定コスト関数を使うことが多く、不規則な地形や珍しいシナリオで異なる運転戦略に適応することが困難である。 これらの課題に対処するために,人間のような認知とオフロード運転のコスト評価に基づく適応型運動プランナを提案する。 まず、地形の標高、粗さ、障害物、人工電位場マップなど、オフロード地形の異なる特徴を記述した多層マップを構築する。 その後、CNN-LSTMネットワークを用いて、様々なオフロードシナリオにおいて、人間の運転者が計画する軌跡を学習する。 そして,異なる環境下で発生する人間のような軌道に基づいて,人間の軌道とコスト選択を模倣し,オフロード車両のダイナミックスと整合した軌道を生成するプリミティブなトラジェクティブプランナを設計する。 最後に、最適なコスト重みを計算し、行動プリミティブを選択して、高度に適応し、安定し、効率的な軌道を生成する。 複雑な地形と道路条件の異なる砂漠オフロード環境における実験を通じて,提案手法の有効性を検証する。 実験の結果,提案する人型運動プランナはオフロード条件の異なる条件に適応可能であることがわかった。 多様な、挑戦的なシナリオにおいて、リアルタイム操作、より安定性、より人間らしい計画能力を示す。

Driving in an off-road environment is challenging for autonomous vehicles due to the complex and varied terrain. To ensure stable and efficient travel, the vehicle requires consideration and balancing of environmental factors, such as undulations, roughness, and obstacles, to generate optimal trajectories that can adapt to changing scenarios. However, traditional motion planners often utilize a fixed cost function for trajectory optimization, making it difficult to adapt to different driving strategies in challenging irregular terrains and uncommon scenarios. To address these issues, we propose an adaptive motion planner based on human-like cognition and cost evaluation for off-road driving. First, we construct a multi-layer map describing different features of off-road terrains, including terrain elevation, roughness, obstacle, and artificial potential field map. Subsequently, we employ a CNN-LSTM network to learn the trajectories planned by human drivers in various off-road scenarios. Then, based on human-like generated trajectories in different environments, we design a primitive-based trajectory planner that aims to mimic human trajectories and cost weight selection, generating trajectories that are consistent with the dynamics of off-road vehicles. Finally, we compute optimal cost weights and select and extend behavioral primitives to generate highly adaptive, stable, and efficient trajectories. We validate the effectiveness of the proposed method through experiments in a desert off-road environment with complex terrain and varying road conditions. The experimental results show that the proposed human-like motion planner has excellent adaptability to different off-road conditions. It shows real-time operation, greater stability, and more human-like planning ability in diverse and challenging scenarios.
翻訳日:2024-04-30 19:11:12 公開日:2024-04-27
# 2つのマイクロ波パルス駆動固定カプラを用いた高忠実度$\sqrt{i\text{SWAP}}$ゲート

High-fidelity $\sqrt{i\text{SWAP}}$ gates using a fixed coupler driven by two microwave pulses ( http://arxiv.org/abs/2404.17824v1 )

ライセンス: Link先を確認
Peng Xu, Haitao Zhang, Shengjun Wu, (参考訳) 高忠実な2量子ビットゲートを達成することは、大規模量子計算とシミュレーションを実現するための重要な量子演算である。 本研究では,固定周波数トランスモンカプラで結合した2つのトランスモンキュービットを用いた2ビットゲート実装のためのマイクロ波制御プロトコルを提案する。 このプロトコルでは、カプラのみに2つのマイクロ波パルスを印加し、固定周波数トランスモン量子ビット間の相互作用を誘導する。 この相互作用は$\sqrt{i\text{SWAP}}$ Gatesの実現を促進する。 さらに、2つの異なるキュービットアーキテクチャにおけるゲートスキームの実装について検討する。 実験的にアクセス可能なパラメータで示すと、高忠実度 $\sqrt{i\text{SWAP}}$ gates が達成できることを示す。

Attaining high-fidelity two-qubit gates represents a pivotal quantum operation for the realization of large-scale quantum computation and simulation. In this study, we propose a microwave-control protocol for the implementation of a two-qubit gate employing two transmon qubits coupled via a fixed-frequency transmon coupler. This protocol entails applying two microwave pulses exclusively to the coupler, thereby inducing interaction between the fixed-frequency transmon qubits. This interaction facilitates the realization of $\sqrt{i\text{SWAP}}$ gates. Additionally, we explore the implementation of the gate scheme in two distinct qubit architectures. Demonstrating with experimentally accessible parameters, we show that high-fidelity $\sqrt{i\text{SWAP}}$ gates can be achieved
翻訳日:2024-04-30 19:11:12 公開日:2024-04-27
# ODCR: 直交デカップリングコントラスト規則化

ODCR: Orthogonal Decoupling Contrastive Regularization for Unpaired Image Dehazing ( http://arxiv.org/abs/2404.17825v1 )

ライセンス: Link先を確認
Zhongze Wang, Haitao Zhao, Jingchao Peng, Lujian Yao, Kaijie Zhao, (参考訳) 未ペア画像デハージング(UID)は、背景が同一であるヘイズ/クラー画像のペアを取得することの難しさから、重要な研究課題となっている。 本稿では,直交デカップリングコントラスト正規化(ODCR)と呼ばれるUIDの新しい手法を提案する。 本手法は,ハゼの程度に影響を及ぼすハゼ関連特徴と,テクスチャやセマンティック情報などのハゼ関連特徴の両方からなると仮定した。 ODCRは、ヘイズ関連の特徴が明快な画像と密接に類似していることを保証することを目的としており、一方、ヘイズ関連の特徴は入力されたヘイズ画像と一致している。 このモチベーションを達成するために,Stiefel多様体上に幾何的に最適化された直交型MLPを提案する。 さらに,タスク駆動型Depth-wise Feature Classifier (DWFC) を提案し,各チャネルの特徴の寄与に基づいて重みを直交特徴に割り当てる。 最後に、鮮明な画像に対して、出力画像中のヘイズ関連特徴を抽出すると同時に、ヘイズ関連特徴をヘイズ入力に近接させるために、重み付きPatchNCE(WPNCE)損失を導入する。 UIDにおけるODCR法の優れた性能を示す実験を行った。

Unpaired image dehazing (UID) holds significant research importance due to the challenges in acquiring haze/clear image pairs with identical backgrounds. This paper proposes a novel method for UID named Orthogonal Decoupling Contrastive Regularization (ODCR). Our method is grounded in the assumption that an image consists of both haze-related features, which influence the degree of haze, and haze-unrelated features, such as texture and semantic information. ODCR aims to ensure that the haze-related features of the dehazing result closely resemble those of the clear image, while the haze-unrelated features align with the input hazy image. To accomplish the motivation, Orthogonal MLPs optimized geometrically on the Stiefel manifold are proposed, which can project image features into an orthogonal space, thereby reducing the relevance between different features. Furthermore, a task-driven Depth-wise Feature Classifier (DWFC) is proposed, which assigns weights to the orthogonal features based on the contribution of each channel's feature in predicting whether the feature source is hazy or clear in a self-supervised fashion. Finally, a Weighted PatchNCE (WPNCE) loss is introduced to achieve the pulling of haze-related features in the output image toward those of clear images, while bringing haze-unrelated features close to those of the hazy input. Extensive experiments demonstrate the superior performance of our ODCR method on UID.
翻訳日:2024-04-30 19:11:12 公開日:2024-04-27
# Dynamic Against Dynamic: オープンセットの自己学習フレームワーク

Dynamic Against Dynamic: An Open-set Self-learning Framework ( http://arxiv.org/abs/2404.17830v1 )

ライセンス: Link先を確認
Haifeng Yang, Chuanxing Geng, PongChi Yuen, Songcan Chen, (参考訳) オープンセット認識では、既存のメソッドは既知のクラスを使用して静的に固定された決定境界を学習し、未知のクラスを拒否する。 彼らは有望な結果を得たが、そのような決定境界は、動的かつオープンなシナリオにおける普遍的な未知のクラスには明らかに不十分であり、特徴空間の任意の位置に現れる可能性がある。 さらに、これらのメソッドは、テスト中の未知のクラスサンプルを効果的に利用せずに単に拒否するだけである。 実際、そのようなサンプルは未知のクラスの真のインスタンス化表現を構成することができ、モデルの性能をさらに高めることができる。 これらの課題に対処するために,オープンセット・セルフラーニング(OSSL, Open-set Self-learning)フレームワークが対応する,動的に変化するオープンセット世界に対する動的手法という,動的アイデアに対する新しい動的手法を提案する。 OSSLは、既知のクラスによってトレーニングされた優れたクローズドセット分類器から始まり、テスト中のモデル適応のために利用可能なテストサンプルを使用する。 特に、新しい自己マッチングモジュールはOSSL用に設計されており、未知のクラスサンプルを自動的に識別し、未知のクラスのインスタンス化表現としてのモデルの識別性を高めるためにさらに活用される未知のクラスサンプルを拒絶する。 提案手法は,ほぼすべての標準ベンチマークとクロスデータベンチマークにおいて,それぞれ新たなパフォーマンスマイルストーンを確立する。

In open-set recognition, existing methods generally learn statically fixed decision boundaries using known classes to reject unknown classes. Though they have achieved promising results, such decision boundaries are evidently insufficient for universal unknown classes in dynamic and open scenarios as they can potentially appear at any position in the feature space. Moreover, these methods just simply reject unknown class samples during testing without any effective utilization for them. In fact, such samples completely can constitute the true instantiated representation of the unknown classes to further enhance the model's performance. To address these issues, this paper proposes a novel dynamic against dynamic idea, i.e., dynamic method against dynamic changing open-set world, where an open-set self-learning (OSSL) framework is correspondingly developed. OSSL starts with a good closed-set classifier trained by known classes and utilizes available test samples for model adaptation during testing, thus gaining the adaptability to changing data distributions. In particular, a novel self-matching module is designed for OSSL, which can achieve the adaptation in automatically identifying known class samples while rejecting unknown class samples which are further utilized to enhance the discriminability of the model as the instantiated representation of unknown classes. Our method establishes new performance milestones respectively in almost all standard and cross-data benchmarks.
翻訳日:2024-04-30 19:11:12 公開日:2024-04-27
# ポーランド語の分類課題に対するFew-Shot Learningの評価

Evaluation of Few-Shot Learning for Classification Tasks in the Polish Language ( http://arxiv.org/abs/2404.17832v1 )

ライセンス: Link先を確認
Tsimur Hadeliya, Dariusz Kajtoch, (参考訳) ポーランド語に固有の7つの異なる分類タスクからなる数ショットのベンチマークを導入する。 各種の訓練済み商用およびオープンソースモデルを用いて, 微調整, 線形探索, SetFit, テキスト内学習 (ICL) の0と16ショットを比較した。 その結果,ICLはGPT-3.5やGPT-4などの商用モデルで最高の性能を得ることができた。 しかし、最高の数点の学習スコアと、トレーニングデータセット全体に対して調整されたHerBERT-largeのパフォーマンスとの間には、大きな14パーセントの差がある。 テクニックの中で、SetFitは第2のベストアプローチとして登場し、線形探索が密接に続く。 非リニアヘッドファインチューニングで最悪の,最も不安定な動作を観察した。 ICLの結果、ポーランドのコーパス上でMistral-7bやLlama-2-13bのようなモデルの連続的な事前訓練が有用であることが示唆された。 これはそれぞれビエリク7bとトルル13bの性能改善によって確認される。 ポーランド語のための数発の学習実験をさらに支援するため、ICL用の手作りテンプレートをリリースする。

We introduce a few-shot benchmark consisting of 7 different classification tasks native to the Polish language. We conducted an empirical comparison with 0 and 16 shots between fine-tuning, linear probing, SetFit, and in-context learning (ICL) using various pre-trained commercial and open-source models. Our findings reveal that ICL achieves the best performance, with commercial models like GPT-3.5 and GPT-4 attaining the best performance. However, there remains a significant 14 percentage points gap between our best few-shot learning score and the performance of HerBERT-large fine-tuned on the entire training dataset. Among the techniques, SetFit emerges as the second-best approach, closely followed by linear probing. We observed the worst and most unstable performance with non-linear head fine-tuning. Results for ICL indicate that continual pre-training of models like Mistral-7b or Llama-2-13b on Polish corpora is beneficial. This is confirmed by the improved performances of Bielik-7b and Trurl-13b, respectively. To further support experiments in few-shot learning for Polish, we are releasing handcrafted templates for the ICL.
翻訳日:2024-04-30 19:01:27 公開日:2024-04-27
# 合成ユーザ入力によるLLMエージェントの不正計画の検証と理解

Testing and Understanding Erroneous Planning in LLM Agents through Synthesized User Inputs ( http://arxiv.org/abs/2404.17833v1 )

ライセンス: Link先を確認
Zhenlan Ji, Daoyuan Wu, Pingchuan Ma, Zongjie Li, Shuai Wang, (参考訳) 大規模言語モデル(LLM)に基づくエージェントは、LLMを計画、メモリ、ツール使用といった主要なモジュールと統合することで、幅広いタスクを解く効果を実証している。 顧客は、メンタルウェルビーイング、ケミカルシンセサイザー、ソフトウェア開発のサポートなど、信頼性に重要なさまざまな商用アプリケーションにLLMエージェントを採用しています。 しかしながら,LLMエージェントの観察と日常使用は,特にタスクが複雑で長期計画を必要とする場合には,誤った計画を立てる傾向があることを示唆している。 本稿では,LLMエージェントの新規かつ自動的なテスト手法であるPDoctorを提案する。 この方向の最初の研究として、LLMエージェントの計画がユーザ入力からの制約に違反している場合、誤った計画の検出を制約適合性問題として定式化する。 この目的のために、PDoctorはまず、ユーザクエリ用のドメイン固有言語(DSL)を定義し、Z3制約ソルバの助けを借りて様々な入力を合成する。 これらの合成された入力は、一連のタスクを完了するための要件を指定する自然言語の段落である。 次に、PDoctorはこれらの要件から制約を導出し、テストオラクルを形成する。 我々はPDoctorを3つの主要なエージェントフレームワークと2つの強力なLCM(GPT-3.5とGPT-4)で評価した。 その結果、PDoctorはエージェント計画における多様なエラーを効果的に検出し、エージェント開発者とユーザの両方にとって価値のある洞察とエラー特性を提供することができた。 我々は、PDoctorを拡張するための潜在的な代替設計と方向性について議論することで結論付ける。

Agents based on large language models (LLMs) have demonstrated effectiveness in solving a wide range of tasks by integrating LLMs with key modules such as planning, memory, and tool usage. Increasingly, customers are adopting LLM agents across a variety of commercial applications critical to reliability, including support for mental well-being, chemical synthesis, and software development. Nevertheless, our observations and daily use of LLM agents indicate that they are prone to making erroneous plans, especially when the tasks are complex and require long-term planning. In this paper, we propose PDoctor, a novel and automated approach to testing LLM agents and understanding their erroneous planning. As the first work in this direction, we formulate the detection of erroneous planning as a constraint satisfiability problem: an LLM agent's plan is considered erroneous if its execution violates the constraints derived from the user inputs. To this end, PDoctor first defines a domain-specific language (DSL) for user queries and synthesizes varying inputs with the assistance of the Z3 constraint solver. These synthesized inputs are natural language paragraphs that specify the requirements for completing a series of tasks. Then, PDoctor derives constraints from these requirements to form a testing oracle. We evaluate PDoctor with three mainstream agent frameworks and two powerful LLMs (GPT-3.5 and GPT-4). The results show that PDoctor can effectively detect diverse errors in agent planning and provide insights and error characteristics that are valuable to both agent developers and users. We conclude by discussing potential alternative designs and directions to extend PDoctor.
翻訳日:2024-04-30 19:01:27 公開日:2024-04-27
# VANER:Versatile and Adaptive Biomedical Named Entity Recognitionのための大規模言語モデルを活用する

VANER: Leveraging Large Language Model for Versatile and Adaptive Biomedical Named Entity Recognition ( http://arxiv.org/abs/2404.17835v1 )

ライセンス: Link先を確認
Junyi Biana, Weiqi Zhai, Xiaodi Huang, Jiaxuan Zheng, Shanfeng Zhu, (参考訳) BioNERの一般的なソリューションは、シーケンスラベリングと組み合わせた表現学習技術の使用である。 しかし、そのような手法は本来はタスク固有であり、一般化性に乏しく、データセットごとに専用のモデルを必要とすることが多い。 近年の顕著な大規模言語モデル(LLM)の汎用性を活用するために、いくつかの試みがエンティティ抽出に対する生成的アプローチを探求している。 しかし、これらのアプローチは、初期シーケンスラベリングアプローチの有効性に欠けることが多い。 本稿では,オープンソースのLLM LLaMA2をバックボーンモデルとして利用し,異なるタイプのエンティティとデータセットを区別するための具体的な命令を設計する。 LLMの命令理解とシーケンスラベリング技術を組み合わせることで、さまざまなタイプのエンティティを抽出できるモデルをトレーニングするために、データセットの混合を使用する。 バックボーンLSMには専門的な知識が欠けていることを踏まえ、外部のエンティティ知識ベースを統合し、モデルに厳密にキュレートされたエンティティを認識させる命令チューニングを採用する。 我々のモデルVANERは、パラメータの小さな分割で訓練され、従来のLLMモデルよりも大幅に優れており、LLMをベースとしたモデルとして初めて、従来の最先端のBioNERシステムの大部分を超え、3つのデータセットで最高F1スコアを達成しています。

Prevalent solution for BioNER involves using representation learning techniques coupled with sequence labeling. However, such methods are inherently task-specific, demonstrate poor generalizability, and often require dedicated model for each dataset. To leverage the versatile capabilities of recently remarkable large language models (LLMs), several endeavors have explored generative approaches to entity extraction. Yet, these approaches often fall short of the effectiveness of previouly sequence labeling approaches. In this paper, we utilize the open-sourced LLM LLaMA2 as the backbone model, and design specific instructions to distinguish between different types of entities and datasets. By combining the LLM's understanding of instructions with sequence labeling techniques, we use mix of datasets to train a model capable of extracting various types of entities. Given that the backbone LLMs lacks specialized medical knowledge, we also integrate external entity knowledge bases and employ instruction tuning to compel the model to densely recognize carefully curated entities. Our model VANER, trained with a small partition of parameters, significantly outperforms previous LLMs-based models and, for the first time, as a model based on LLM, surpasses the majority of conventional state-of-the-art BioNER systems, achieving the highest F1 scores across three datasets.
翻訳日:2024-04-30 19:01:27 公開日:2024-04-27
# モノクロ映像とスパースIMUを用いたハイブリッド3次元人物位置推定

Hybrid 3D Human Pose Estimation with Monocular Video and Sparse IMUs ( http://arxiv.org/abs/2404.17837v1 )

ライセンス: Link先を確認
Yiming Bao, Xu Zhao, Dahong Qian, (参考訳) モノクロビデオからの時間的3次元ポーズ推定は、2D-to-3Dリフトの深さあいまいさのため、人間中心のコンピュータビジョンでは難しい課題である。 精度の向上と閉塞問題への対処のために,情報ソースを補完する慣性センサが導入された。 しかし、物理的に合理的な3Dポーズを生成するために異種センサデータを統合することは依然として困難である。 本稿では,この問題に対処するための新しいフレームワークであるリアルタイム最適化・融合(RTOF)を提案する。 運動学の3Dポーズを洗練させるために,まず,スパース慣性配向をパラメトリックな人間の骨格に組み入れた。 ポーズは、時間的ジッタを減らすために、視覚と慣性の両方の観測に基づいて構築されたエネルギー関数によって最適化される。 我々の枠組みはスムーズでバイオメカニカルな人間の動きを出力する。 アブレーション研究による総合的な実験は、その合理性と効率を実証している。 また,Total Captureデータセットでは,ベースライン法に比べてポーズ推定誤差が有意に減少した。

Temporal 3D human pose estimation from monocular videos is a challenging task in human-centered computer vision due to the depth ambiguity of 2D-to-3D lifting. To improve accuracy and address occlusion issues, inertial sensor has been introduced to provide complementary source of information. However, it remains challenging to integrate heterogeneous sensor data for producing physically rational 3D human poses. In this paper, we propose a novel framework, Real-time Optimization and Fusion (RTOF), to address this issue. We first incorporate sparse inertial orientations into a parametric human skeleton to refine 3D poses in kinematics. The poses are then optimized by energy functions built on both visual and inertial observations to reduce the temporal jitters. Our framework outputs smooth and biomechanically plausible human motion. Comprehensive experiments with ablation studies demonstrate its rationality and efficiency. On Total Capture dataset, the pose estimation error is significantly decreased compared to the baseline method.
翻訳日:2024-04-30 19:01:27 公開日:2024-04-27
# 対照的学習に基づく脆弱性検出によるスマートコントラクトセキュリティの改善

Improving Smart Contract Security with Contrastive Learning-based Vulnerability Detection ( http://arxiv.org/abs/2404.17839v1 )

ライセンス: Link先を確認
Yizhou Chen, Zeyu Sun, Zhihao Gong, Dan Hao, (参考訳) 現在、ブロックチェーンのトランザクションセキュリティを脅かす主要な要因としてスマートコントラクト脆弱性(SCV)が出現している。 既存の最先端の手法は、この脅威を軽減するためにディープラーニングに依存している。 それぞれの入力コントラクトを独立したエンティティとして扱い、それをディープラーニングモデルに入力して、脆弱性ラベルを適合させることで脆弱性パターンを学習する。 同じタイプの契約と異なるタイプの契約の違いの共通点を考えるのに失敗し、契約間の相関を無視するのは残念です。 その結果、これらの手法の性能は所望のレベルに届かなかった。 この問題に対処するために,スマートコントラクト脆弱性に対するコントラスト学習強化自動認識手法であるClearを提案する。 特にClearは、契約間のきめ細かい相関情報をキャプチャし、契約間の関係に基づいて相関ラベルを生成し、CLモデルのトレーニングプロセスを導くために、対照的な学習(CL)モデルを採用している。 最後に、契約の相関と意味情報を組み合わせてSCVを検出する。 40K以上のスマートコントラクトからなる大規模な実世界のデータセットの実証評価を通じて、13の最先端のベースラインメソッドを比較します。 そこで,Clearは(1)全てのベースライン法に対して最適な性能を示し,(2)9.73%-39.99%のF1スコアが既存のディープラーニング法よりも高い値を示した。

Currently, smart contract vulnerabilities (SCVs) have emerged as a major factor threatening the transaction security of blockchain. Existing state-of-the-art methods rely on deep learning to mitigate this threat. They treat each input contract as an independent entity and feed it into a deep learning model to learn vulnerability patterns by fitting vulnerability labels. It is a pity that they disregard the correlation between contracts, failing to consider the commonalities between contracts of the same type and the differences among contracts of different types. As a result, the performance of these methods falls short of the desired level. To tackle this problem, we propose a novel Contrastive Learning Enhanced Automated Recognition Approach for Smart Contract Vulnerabilities, named Clear. In particular, Clear employs a contrastive learning (CL) model to capture the fine-grained correlation information among contracts and generates correlation labels based on the relationships between contracts to guide the training process of the CL model. Finally, it combines the correlation and the semantic information of the contract to detect SCVs. Through an empirical evaluation of a large-scale real-world dataset of over 40K smart contracts and compare 13 state-of-the-art baseline methods. We show that Clear achieves (1) optimal performance over all baseline methods; (2) 9.73%-39.99% higher F1-score than existing deep learning methods.
翻訳日:2024-04-30 19:01:27 公開日:2024-04-27
# ウクライナの毒性分類

Toxicity Classification in Ukrainian ( http://arxiv.org/abs/2404.17841v1 )

ライセンス: Link先を確認
Daryna Dementieva, Valeriia Khylenko, Nikolay Babakov, Georg Groh, (参考訳) 毒性検出の課題は、特に安全で公正なLMの開発において、いまだに重要な課題である。 それにもかかわらず、ラベル付きバイナリ毒性分類コーパスは全ての言語で利用可能ではなく、アノテーションプロセスのリソース集約性を考えると理解できる。 特にウクライナ語はそのような資源を欠いている言語の一つである。 我々の知る限り、ウクライナには既存の毒性分類コーパスはない。 本研究では,言語間知識伝達技術の調査とラベル付きコーパスの作成により,このギャップを埋めることを目的としている。 (i)〜英語コーパスからの翻訳 (ii)キーワードを用いた有毒な試料の濾過、及び (iii)-クラウドソーシングによる注釈。 我々は,LLMのプロンプトや他の言語間移動手法と,最も堅牢で効率的なベースラインに関する洞察を微調整せずに比較する。

The task of toxicity detection is still a relevant task, especially in the context of safe and fair LMs development. Nevertheless, labeled binary toxicity classification corpora are not available for all languages, which is understandable given the resource-intensive nature of the annotation process. Ukrainian, in particular, is among the languages lacking such resources. To our knowledge, there has been no existing toxicity classification corpus in Ukrainian. In this study, we aim to fill this gap by investigating cross-lingual knowledge transfer techniques and creating labeled corpora by: (i)~translating from an English corpus, (ii)~filtering toxic samples using keywords, and (iii)~annotating with crowdsourcing. We compare LLMs prompting and other cross-lingual transfer approaches with and without fine-tuning offering insights into the most robust and efficient baselines.
翻訳日:2024-04-30 19:01:27 公開日:2024-04-27
# ソフトウェア要件仕様におけるLCMの使用:実証的評価

Using LLMs in Software Requirements Specifications: An Empirical Evaluation ( http://arxiv.org/abs/2404.17842v1 )

ライセンス: Link先を確認
Madhava Krishna, Bhagesh Gaur, Arsh Verma, Pankaj Jalote, (参考訳) ソフトウェア要件仕様(SRS)文書の作成は、あらゆるソフトウェア開発プロジェクトにとって重要である。 近年のLarge Language Models(LLMs)が自然言語クエリに応答し、洗練されたテキスト出力を生成するのに長けていることを踏まえ、本研究では、これらのドキュメントの正確で一貫性があり構造化されたドラフトを作成する能力について検討し、ソフトウェア開発ライフサイクルを加速させる。 GPT-4 と CodeLlama の大学部経営システム用 SRS のドラフト作成における性能を評価し、8 つの異なる基準を用いて人体ベンチマークと比較した。 この結果から,LSMはエントリーレベルのソフトウェア技術者の出力品質と一致してSRSを生成し,完全かつ一貫したドラフトを作成できることが示唆された。 また、所与の要件文書における問題を特定し、修正するLLMの能力についても評価する。 実験の結果, GPT-4は問題を特定し, 修正のための建設的フィードバックを与えることができることがわかったが, CodeLlama の検証結果はそれほど奨励的ではなかった。 SRS 生成に LLM を用いて保存した時間を4つの異なるユースケースに分けて検討した。 この実験は、LSMがエントリーレベルのソフトウェアエンジニアの開発時間を著しく短縮することを示した。 したがって、LLMは、ソフトウェア要件の生成、検証、修正に要する時間と労力を節約し、生産性を向上させるために、ソフトウェアエンジニアによって有利に使用できると結論付けます。

The creation of a Software Requirements Specification (SRS) document is important for any software development project. Given the recent prowess of Large Language Models (LLMs) in answering natural language queries and generating sophisticated textual outputs, our study explores their capability to produce accurate, coherent, and structured drafts of these documents to accelerate the software development lifecycle. We assess the performance of GPT-4 and CodeLlama in drafting an SRS for a university club management system and compare it against human benchmarks using eight distinct criteria. Our results suggest that LLMs can match the output quality of an entry-level software engineer to generate an SRS, delivering complete and consistent drafts. We also evaluate the capabilities of LLMs to identify and rectify problems in a given requirements document. Our experiments indicate that GPT-4 is capable of identifying issues and giving constructive feedback for rectifying them, while CodeLlama's results for validation were not as encouraging. We repeated the generation exercise for four distinct use cases to study the time saved by employing LLMs for SRS generation. The experiment demonstrates that LLMs may facilitate a significant reduction in development time for entry-level software engineers. Hence, we conclude that the LLMs can be gainfully used by software engineers to increase productivity by saving time and effort in generating, validating and rectifying software requirements.
翻訳日:2024-04-30 19:01:27 公開日:2024-04-27
# 相対的位置認識によるクラウド位置特定のためのインスタンスフリーテキスト

Instance-free Text to Point Cloud Localization with Relative Position Awareness ( http://arxiv.org/abs/2404.17845v1 )

ライセンス: Link先を確認
Lichao Wang, Zhihao Yuan, Jinke Ren, Shuguang Cui, Zhen Li, (参考訳) テキスト・ツー・ポイント・クラウド クロスモーダル・ローカライゼーションは、未来のロボットと人間のコラボレーションにとって重要な視覚言語タスクである。 それは、いくつかの自然言語の指示に基づいて、都市規模のクラウドシーンから位置をローカライズしようとしている。 本稿では,既存のアプローチの2つの重要な限界に対処する。 1) 入力としての地中実例への依存,及び 2) 潜在的な事例において相対的な位置を無視する。 提案モデルは,テキストセル検索のための粗いステージと位置推定のための微細なステージを含む,2段階のパイプラインに従う。 どちらの段階でも,セルを3次元スパース畳み込みU-Netで符号化してマルチスケールのクラウド特徴を生成するインスタンスクエリ抽出器と,これらの特徴を反復的に参照してインスタンスを表現するクエリセットを導入する。 粗い段階では、RowColRPA(RowColRPA)モジュールは、インスタンスクエリ間の空間関係をキャプチャするために設計されている。 微細な段階では、テキストと点雲の特徴と空間的関係を融合させ、微細な位置推定を改善するために、多モード相対位置対応クロスアテンション(RPCA)モジュールを開発する。 KITTI360Poseデータセットを用いた実験結果から,本モデルが現状のモデルと競合する性能を発揮することを示す。

Text-to-point-cloud cross-modal localization is an emerging vision-language task critical for future robot-human collaboration. It seeks to localize a position from a city-scale point cloud scene based on a few natural language instructions. In this paper, we address two key limitations of existing approaches: 1) their reliance on ground-truth instances as input; and 2) their neglect of the relative positions among potential instances. Our proposed model follows a two-stage pipeline, including a coarse stage for text-cell retrieval and a fine stage for position estimation. In both stages, we introduce an instance query extractor, in which the cells are encoded by a 3D sparse convolution U-Net to generate the multi-scale point cloud features, and a set of queries iteratively attend to these features to represent instances. In the coarse stage, a row-column relative position-aware self-attention (RowColRPA) module is designed to capture the spatial relations among the instance queries. In the fine stage, a multi-modal relative position-aware cross-attention (RPCA) module is developed to fuse the text and point cloud features along with spatial relations for improving fine position estimation. Experiment results on the KITTI360Pose dataset demonstrate that our model achieves competitive performance with the state-of-the-art models without taking ground-truth instances as input.
翻訳日:2024-04-30 19:01:27 公開日:2024-04-27
# GLIMS: ボリュームセマンティックセマンティックセグメンテーションのためのアテンションガイド型軽量マルチスケールハイブリッドネットワーク

GLIMS: Attention-Guided Lightweight Multi-Scale Hybrid Network for Volumetric Semantic Segmentation ( http://arxiv.org/abs/2404.17854v1 )

ライセンス: Link先を確認
Ziya Ata Yazıcı, İlkay Öksüz, Hazım Kemal Ekenel, (参考訳) 畳み込みニューラルネットワーク(CNN)は医用画像分割タスクに広く採用され、有望な性能を示している。 しかし、畳み込みアーキテクチャの固有の帰納バイアスは、長距離依存と空間的相関をモデル化する能力を制限する。 最近のトランスフォーマーベースのアーキテクチャは、長距離依存関係をエンコードして表現表現を学ぶための自己認識メカニズムを活用することでこれらの制限に対処しているが、低レベルの機能を引き出すのに苦労し、データ可用性に大きく依存することが多い。 これは、データ効率の高い注意誘導型ハイブリッドボリュームセグメンテーションネットワークであるGLIMSの開発の動機となった。 GLIMSは、Dilated Feature Aggregator Convolutional Blocks (DACB) を用いて、局所的な特徴相関を効率的にキャプチャする。 さらに、組み込まれたSwin Transformerベースのボトルネックは、局所的およびグローバル的特徴をブリッジし、モデルの堅牢性を改善する。 さらに、GLIMSは、細かな境界セグメンテーションのための表現的特徴をローカライズするために、Channel and Space-Wise Attention Blocks (CSAB)を通して注意誘導セグメンテーションアプローチを採用している。 グリオ芽腫と多臓器CTの分画タスクの定量的および質的結果は、GLIMSの有効性を複雑さと正確性の観点から示している。 GLIMSはBraTS2021とBTCVデータセットで優れた性能を示し、Swin UNETRのパフォーマンスを上回った。 特に、GLIMSはこの高い性能を達成し、トレーニング可能なパラメータの数を大幅に削減した。 具体的には、GLIMSは47.16Mのトレーニング可能なパラメータと72.30GのFLOPを持ち、Swin UNETRは61.98Mのトレーニング可能なパラメータと394.84GのFLOPを持つ。 コードはhttps://github.com/yaziciz/GLIMSで公開されている。

Convolutional Neural Networks (CNNs) have become widely adopted for medical image segmentation tasks, demonstrating promising performance. However, the inherent inductive biases in convolutional architectures limit their ability to model long-range dependencies and spatial correlations. While recent transformer-based architectures address these limitations by leveraging self-attention mechanisms to encode long-range dependencies and learn expressive representations, they often struggle to extract low-level features and are highly dependent on data availability. This motivated us for the development of GLIMS, a data-efficient attention-guided hybrid volumetric segmentation network. GLIMS utilizes Dilated Feature Aggregator Convolutional Blocks (DACB) to capture local-global feature correlations efficiently. Furthermore, the incorporated Swin Transformer-based bottleneck bridges the local and global features to improve the robustness of the model. Additionally, GLIMS employs an attention-guided segmentation approach through Channel and Spatial-Wise Attention Blocks (CSAB) to localize expressive features for fine-grained border segmentation. Quantitative and qualitative results on glioblastoma and multi-organ CT segmentation tasks demonstrate GLIMS' effectiveness in terms of complexity and accuracy. GLIMS demonstrated outstanding performance on BraTS2021 and BTCV datasets, surpassing the performance of Swin UNETR. Notably, GLIMS achieved this high performance with a significantly reduced number of trainable parameters. Specifically, GLIMS has 47.16M trainable parameters and 72.30G FLOPs, while Swin UNETR has 61.98M trainable parameters and 394.84G FLOPs. The code is publicly available on https://github.com/yaziciz/GLIMS.
翻訳日:2024-04-30 19:01:27 公開日:2024-04-27
# テレグラムにおける再文化知識とナラティブ・コーディション

Recontextualized Knowledge and Narrative Coalitions on Telegram ( http://arxiv.org/abs/2404.17855v1 )

ライセンス: Link先を確認
Tom Willaert, (参考訳) 共謀文の特徴は、先行知識を再テクスチュアライズすることで権力とアイデンティティを交渉することである。 このダイナミクスはソーシャルメディア上で強化され、ハイパーリンクを通じて知識ソースを敵対的な物語に容易に組み込むことが可能である。 本章の目的は,このダイナミクスの理解を深めることである。 1オンライン陰謀説話は、先行知識を異種対角的要素と結合することにより、どのように再テクスチャ化させるか。 2) 多様な役者が物語の連帯を形成できるようなコネクティビティとしてどのように機能するか。 この目的のために、この章はPushshift Telegramデータセットから、公開メッセージングチャネルにおける以前の知識へのリンクを実証的に分析する。 文献学の分野から移行可能な手法を用いて,学術雑誌や学術リポジトリなど,政治的に極端なTelegramチャネルが,学術的なコミュニケーションシステムに関連するさまざまな知識ソースに関係していることが判明した。 共有知識ソースに関わるチャンネルは、科学的・技術的想像から極右過激派・反ユダヤ的陰謀論まで、物語の連帯を形成している。 これらの連立関係の分析が明らかに 一 陰謀論を形作る言語的、政治的、主題的な力。 二 オンライン共謀に関するイデオロギー、認識学的、存在論的立場の出現、及び 三 共有知識への言及が共謀物語のコミュニケーションにどう貢献するか。

A defining characteristic of conspiracy texts is that they negotiate power and identity by recontextualizing prior knowledge. This dynamic has been shown to intensify on social media, where knowledge sources can readily be integrated into antagonistic narratives through hyperlinks. The objective of the present chapter is to further our understanding of this dynamic by surfacing and examining 1) how online conspiracy narratives recontextualize prior knowledge by coupling it with heterogeneous antagonistic elements, and 2) how such recontextualizing narratives operate as connectors around which diverse actors might form narrative coalitions. To this end, the chapter offers an empirical analysis of links to prior knowledge in public messaging channels from the Pushshift Telegram dataset. Using transferable methods from the field of bibliometrics, we find that politically extreme Telegram channels engage with a variety of established knowledge sources, including scientific journals, scientific repositories and other sources associated with the system of scholarly communication. Channels engaging with shared knowledge sources thereby form narrative coalitions ranging from scientific and technological imaginaries to far-right extremist and antisemitic conspiracy theories. Our analysis of these coalitions reveals (i) linguistic, political, and thematic forces that shape conspiracy narratives, (ii) emerging ideological, epistemological and ontological positions associated with online conspiracism, and (iii) how references to shared knowledge contribute to the communicability of conspiracy narratives.
翻訳日:2024-04-30 19:01:27 公開日:2024-04-27
# 線形モデルにおける反復アルゴリズムの不確かさ定量化と早期停止への応用

Uncertainty quantification for iterative algorithms in linear models with application to early stopping ( http://arxiv.org/abs/2404.17856v1 )

ライセンス: Link先を確認
Pierre C. Bellec, Kai Tan, (参考訳) 本稿では,高次元線形回帰問題における反復アルゴリズムから得られるイテレート $\hbb^1,\dots,\hbb^T$ について検討する。 解析および提案した推定器は、GD(Gradient Descent)、近位GD(proximal GD)およびFast Iterative Soft-Thresholding(FISTA)などの加速変種に適用できる。 本論文は, 軌道に沿った任意の固定反復$t$に対して, 反復$\hbb^t$の一般化誤差に対する新しい推定器を提案する。 これらの推定子はガウス設計の下では$\sqrt n$-consistentであることが証明される。 繰り返しの一般化誤差が反復$t$のU字型関数である場合、推定値から反復$\hat t$を選択し、軌道に沿った最小の一般化誤差を達成する。 さらに、任意の有限反復$t$におけるイテレート$\hbb^t$から真の係数ベクトルの成分に対するバイアス補正と妥当な信頼区間を開発するための技術を提供する。 合成データの大規模なシミュレーションは理論的な結果を示している。

This paper investigates the iterates $\hbb^1,\dots,\hbb^T$ obtained from iterative algorithms in high-dimensional linear regression problems, in the regime where the feature dimension $p$ is comparable with the sample size $n$, i.e., $p \asymp n$. The analysis and proposed estimators are applicable to Gradient Descent (GD), proximal GD and their accelerated variants such as Fast Iterative Soft-Thresholding (FISTA). The paper proposes novel estimators for the generalization error of the iterate $\hbb^t$ for any fixed iteration $t$ along the trajectory. These estimators are proved to be $\sqrt n$-consistent under Gaussian designs. Applications to early-stopping are provided: when the generalization error of the iterates is a U-shape function of the iteration $t$, the estimates allow to select from the data an iteration $\hat t$ that achieves the smallest generalization error along the trajectory. Additionally, we provide a technique for developing debiasing corrections and valid confidence intervals for the components of the true coefficient vector from the iterate $\hbb^t$ at any finite iteration $t$. Extensive simulations on synthetic data illustrate the theoretical results.
翻訳日:2024-04-30 19:01:27 公開日:2024-04-27
# 広帯域空間モデルと確率-誘導融合によるマルチモーダル感情学習の再検討

Revisiting Multi-modal Emotion Learning with Broad State Space Models and Probability-guidance Fusion ( http://arxiv.org/abs/2404.17858v1 )

ライセンス: Link先を確認
Yuntao Shou, Tao Meng, Fuchen Zhang, Nan Yin, Keqin Li, (参考訳) 会話におけるマルチモーダル感情認識(MERC)は,様々な分野,例えば人間とコンピュータのインタラクションやレコメンデーションシステムにおいて注目されている。 既存の作品の多くは、マルチモーダル特徴と感情分類から感情的文脈情報を抽出するために、特徴のゆがみと融合を行う。 我々は,MERCの特徴を再考した後,特徴展開段階において長距離文脈意味情報を抽出し,特徴融合段階においてモーダル間意味情報の一貫性を最大化するべきであると論じる。 最近のステートスペースモデル(SSM)にインスパイアされたMambaは、長距離依存関係を効率的にモデル化することができる。 そこで本研究では,MERCの性能向上を図るため,上記の知見を十分に検討する。 具体的には、機能障害の段階では、シーケンスモデリングの自己認識機構に依存しないブロードマンバを提案するが、状態空間モデルを用いて感情表現を圧縮し、広義の学習システムを用いて、広義の空間における潜在的なデータ分布を探索する。 従来のSSMとは違って,グローバルコンテキスト情報を抽出する双方向SSM畳み込みを設計する。 一方,モーダル間の情報の一貫性を最大化するために,確率誘導に基づくマルチモーダル融合戦略を設計する。 実験結果から,提案手法は長距離コンテキストをモデル化する際のTransformerの計算およびメモリ制限を克服し,MERCの次世代汎用アーキテクチャとなる大きな可能性を示唆している。

Multi-modal Emotion Recognition in Conversation (MERC) has received considerable attention in various fields, e.g., human-computer interaction and recommendation systems. Most existing works perform feature disentanglement and fusion to extract emotional contextual information from multi-modal features and emotion classification. After revisiting the characteristic of MERC, we argue that long-range contextual semantic information should be extracted in the feature disentanglement stage and the inter-modal semantic information consistency should be maximized in the feature fusion stage. Inspired by recent State Space Models (SSMs), Mamba can efficiently model long-distance dependencies. Therefore, in this work, we fully consider the above insights to further improve the performance of MERC. Specifically, on the one hand, in the feature disentanglement stage, we propose a Broad Mamba, which does not rely on a self-attention mechanism for sequence modeling, but uses state space models to compress emotional representation, and utilizes broad learning systems to explore the potential data distribution in broad space. Different from previous SSMs, we design a bidirectional SSM convolution to extract global context information. On the other hand, we design a multi-modal fusion strategy based on probability guidance to maximize the consistency of information between modalities. Experimental results show that the proposed method can overcome the computational and memory limitations of Transformer when modeling long-distance contexts, and has great potential to become a next-generation general architecture in MERC.
翻訳日:2024-04-30 19:01:27 公開日:2024-04-27
# BoostRad: レーダー反射の増強による物体検出の強化

BoostRad: Enhancing Object Detection by Boosting Radar Reflections ( http://arxiv.org/abs/2404.17861v1 )

ライセンス: Link先を確認
Yuval Haitman, Oded Bialer, (参考訳) 自動車用レーダーは自律走行システムにおいて重要な役割を担っている。 レーダー検出の主な課題は、レーダー画像のぼかしや乱れを引き起こす角領域におけるレーダーの広角展開関数(PSF)である。 多くの研究は、レーダー画像から直接物体を検出するためにディープニューラルネットワーク(DNN)を用いた「エンドツーエンド」学習戦略を採用することを示唆している。 このアプローチは、関心の対象に対するPSFの影響を暗黙的に解決する。 本稿では,Boosting Radar Reflections(BoostRad)という代替手法を提案する。 BoostRadでは、シーン内のすべてのリフレクションポイントに対して、最初のDNNがPSFを狭めるように訓練されている。 第1のDNNの出力は、高解像度でクラッタの少ない高解像度の反射像であり、よりシャープでクリーンな画像となる。 その後、第2のDNNを用いて、ブーストされた反射画像内の物体を検出する。 本研究では,レーダのPSF特性のドメイン知識を取り入れた高速化DNNの訓練手法を開発した。 BoostRadのパフォーマンスはRADDetとCARRADAデータセットを使用して評価され、参照メソッドよりも優れていることが判明した。

Automotive radars have an important role in autonomous driving systems. The main challenge in automotive radar detection is the radar's wide point spread function (PSF) in the angular domain that causes blurriness and clutter in the radar image. Numerous studies suggest employing an 'end-to-end' learning strategy using a Deep Neural Network (DNN) to directly detect objects from radar images. This approach implicitly addresses the PSF's impact on objects of interest. In this paper, we propose an alternative approach, which we term "Boosting Radar Reflections" (BoostRad). In BoostRad, a first DNN is trained to narrow the PSF for all the reflection points in the scene. The output of the first DNN is a boosted reflection image with higher resolution and reduced clutter, resulting in a sharper and cleaner image. Subsequently, a second DNN is employed to detect objects within the boosted reflection image. We develop a novel method for training the boosting DNN that incorporates domain knowledge of radar's PSF characteristics. BoostRad's performance is evaluated using the RADDet and CARRADA datasets, revealing its superiority over reference methods.
翻訳日:2024-04-30 19:01:27 公開日:2024-04-27
# グラフスペクトルから見た会話におけるマルチモーダル感情認識の再検討

Revisiting Multimodal Emotion Recognition in Conversation from the Perspective of Graph Spectrum ( http://arxiv.org/abs/2404.17862v1 )

ライセンス: Link先を確認
Tao Meng, Fuchen Zhang, Yuntao Shou, Wei Ai, Nan Yin, Keqin Li, (参考訳) 対話におけるマルチモーダル感情認識(MERC)において,多モーダル会話コンテキストにおける一貫性と相補的意味的特徴を効果的に捉えることが重要である。 既存の手法は主に、対話コンテキストのセマンティックな依存性をモデル化するためにグラフ構造を使用し、感情認識のためのマルチモーダルなセマンティックな特徴をキャプチャするためにグラフニューラルネットワーク(GNN)を使用している。 しかし、これらの手法は、オーバースムーシングやローパスフィルタリングなどのGNN固有の特徴によって制限されており、長距離整合情報や補完情報を効率的に学習することができない。 整合性情報と相補性情報はそれぞれ低周波情報と高周波情報に対応するため,グラフスペクトルの観点から会話におけるマルチモーダル感情認識の問題を再考する。 具体的には,グラフスペクトルに基づくマルチモーダル一貫性と補完的協調学習フレームワークGS-MCCを提案する。 まず、GS-MCCはスライディングウィンドウを用いて、対話関係をモデル化するマルチモーダル相互作用グラフを構築し、より効率的なフーリエグラフ演算子を用いて、それぞれ長距離高周波および低周波情報を抽出する。 そして、GS-MCCはコントラスト学習を用いて、高周波数信号と低周波信号との相補性と一貫した意味的協調を反映した自己教師付き信号を構築することにより、実情を反映する高周波情報や低周波情報の能力を向上させる。 最後に、GS-MCCは、協調的な高周波・低周波情報をMLPネットワークとソフトマックス関数に入力し、感情予測を行う。 本稿では,2つのベンチマークデータセットで提案したGS-MCCアーキテクチャの優位性を実証した。

Efficiently capturing consistent and complementary semantic features in a multimodal conversation context is crucial for Multimodal Emotion Recognition in Conversation (MERC). Existing methods mainly use graph structures to model dialogue context semantic dependencies and employ Graph Neural Networks (GNN) to capture multimodal semantic features for emotion recognition. However, these methods are limited by some inherent characteristics of GNN, such as over-smoothing and low-pass filtering, resulting in the inability to learn long-distance consistency information and complementary information efficiently. Since consistency and complementarity information correspond to low-frequency and high-frequency information, respectively, this paper revisits the problem of multimodal emotion recognition in conversation from the perspective of the graph spectrum. Specifically, we propose a Graph-Spectrum-based Multimodal Consistency and Complementary collaborative learning framework GS-MCC. First, GS-MCC uses a sliding window to construct a multimodal interaction graph to model conversational relationships and uses efficient Fourier graph operators to extract long-distance high-frequency and low-frequency information, respectively. Then, GS-MCC uses contrastive learning to construct self-supervised signals that reflect complementarity and consistent semantic collaboration with high and low-frequency signals, thereby improving the ability of high and low-frequency information to reflect real emotions. Finally, GS-MCC inputs the collaborative high and low-frequency information into the MLP network and softmax function for emotion prediction. Extensive experiments have proven the superiority of the GS-MCC architecture proposed in this paper on two benchmark data sets.
翻訳日:2024-04-30 19:01:27 公開日:2024-04-27
# スマートコントラクトの流動性検証

Solvent: liquidity verification of smart contracts ( http://arxiv.org/abs/2404.17864v1 )

ライセンス: Link先を確認
Massimo Bartoletti, Angelo Ferrando, Enrico Lipparini, Vadim Malvone, (参考訳) スマートコントラクトは、信頼できないユーザ間の暗号資産の交換を規制するブロックチェーンネットワークによって実行されるプログラムである。 その不変性、公開アクセシビリティ、高価値のため、スマートコントラクトは、長期にわたるセキュリティインシデントによって証明されているように、攻撃者にとって魅力的なターゲットである。 これは、主要なスマートコントラクトプラットフォームであるEthereumと、その主要なスマートコントラクト言語であるSolidityへのフォーマルメソッドの適用の原動力となった。 これらのツールの現在の制限は、暗号資産の交換に関する流動性特性の表現と検証が本当に効果的でないことである。 Solventは,Solidityの既存の検証ツールの範囲を超えた,この種のプロパティの検証を目的としたツールだ。 スマートコントラクトの共通ベンチマークを用いて,Solventの有効性と性能を評価する。

Smart contracts are programs executed by blockchains networks to regulate the exchange of crypto-assets between untrusted users. Due to their immutability, public accessibility and high value at stake, smart contracts are an attractive target for attackers, as evidenced by a long history of security incidents. This has been a driving factor for the application of formal methods to Ethereum, the leading smart contract platform, and Solidity, its main smart contract language, which have become the target of dozens of verification tools with varying objectives. A current limitation of these tools is that they are not really effective in expressing and verifying liquidity properties regarding the exchange of crypto-assets: for example, is it true that in every reachable state a user can fire a sequence of transactions to withdraw a given amount of crypto-assets? We propose Solvent, a tool aimed at verifying these kinds of properties, which are beyond the reach of existing verification tools for Solidity. We evaluate the effectiveness and performance of Solvent through a common benchmark of smart contracts.
翻訳日:2024-04-30 19:01:27 公開日:2024-04-27
# 3次元移動目標のための視覚に基づく非線形ダイナミクスの発見

Vision-based Discovery of Nonlinear Dynamics for 3D Moving Target ( http://arxiv.org/abs/2404.17865v1 )

ライセンス: Link先を確認
Zitong Zhang, Yang Liu, Hao Sun, (参考訳) データ駆動による支配方程式の発見は多くの科学や工学分野において大きな関心を集めてきた。 現存する研究は主に、系の状態(例えば軌道)の直接測定に基づいて非線形力学を支配下に置く方程式を明らかにすることに焦点を当てている。 3D空間でターゲットを動かすためのビデオから直接、ダイナミックスの規制法則を蒸留するための限定的な努力がなされている。 そこで本研究では,カメラによって記録された生のビデオを通して,3次元移動目標に対する非線形力学の制御方程式を自動的に発見するビジョンベース手法を提案する。 本手法は,(1)動画中の移動対象の平面画素運動を抽出する目標追従モジュール,(2)予め定義された基準点に対して3次元座標を再構成するロドリゲス回転公式に基づく座標変換学習モジュール,(3)ダイナミックスの基本法則を明らかにするスプライン強化ライブラリベースのスパース回帰器の3つのキーブロックから構成される。 このフレームワークは、計測データ、例えばビデオのノイズ、データの欠落の原因となるターゲットの不正確な追跡などに関連する課題を効果的に処理することができる。 本手法の有効性は, 異なる非線形ダイナミクスを考慮した合成ビデオの複数セットを用いて実証されている。

Data-driven discovery of governing equations has kindled significant interests in many science and engineering areas. Existing studies primarily focus on uncovering equations that govern nonlinear dynamics based on direct measurement of the system states (e.g., trajectories). Limited efforts have been placed on distilling governing laws of dynamics directly from videos for moving targets in a 3D space. To this end, we propose a vision-based approach to automatically uncover governing equations of nonlinear dynamics for 3D moving targets via raw videos recorded by a set of cameras. The approach is composed of three key blocks: (1) a target tracking module that extracts plane pixel motions of the moving target in each video, (2) a Rodrigues' rotation formula-based coordinate transformation learning module that reconstructs the 3D coordinates with respect to a predefined reference point, and (3) a spline-enhanced library-based sparse regressor that uncovers the underlying governing law of dynamics. This framework is capable of effectively handling the challenges associated with measurement data, e.g., noise in the video, imprecise tracking of the target that causes data missing, etc. The efficacy of our method has been demonstrated through multiple sets of synthetic videos considering different nonlinear dynamics.
翻訳日:2024-04-30 18:51:42 公開日:2024-04-27
# IRatePL2C:製品ラインの協調的構成のための重要レーティングに基づくアプローチ

IRatePL2C: Importance Rating-based Approach for Product Lines Collaborative Configuration ( http://arxiv.org/abs/2404.17866v1 )

ライセンス: Link先を確認
Sihem Ben Sassi, (参考訳) 利害関係者が他の利害関係者の選択に制約されることなく、自由に製品ラインを構成できるアプローチを提案する者もいました。 この文脈における提案されたアプローチのコアは、コンフリクトの状況がどのように解決されるかに焦点を当てている。 解決プロセスにおいて利害関係者の好みを考慮する作業はほとんどない。 しかし、すべての制約を満たす有効な解を生成するためには、一般に指数複雑性の過程に依存する。 本研究では、IRatePL2Cアプローチを提案する。この手法は、利害関係者が割り当てた重要度を初期設定選択に頼っている。 IRatePL2Cは利害関係者の設定をマージして、そのタイプに従って競合を検出して解決することから始まります。 最後に、ドメインの制約が伝播し、プロセスが最後に有効な設定に達するように繰り返し実行される。 このアプローチを評価するための例を示す。 IRatePL2Cの複雑さは、以前の研究と比べて重要な優位性を持つ多項式である。

Some of them proposed an approach in which involved stakeholders can freely configure the product line without being constrained by the choices made the other ones. The core of any proposed approach in this context focuses on how conflictual situations are resolved. Few works consider stakeholders preferences in their resolution process. However, to generate a valid solution satisfying all constraints, they generally rely on a process of exponential complexity. In this work, we propose the IRatePL2C approach, which resolution strategy relies on importance degrees assigned by the stakeholders to their initial configuration choices. IRatePL2C starts by merging stakeholders' configurations and then detecting and resolving the conflicts according to their type: explicit or implicit in sequential steps. Finally, domain constraints are propagated and the process is reiterated to reach a final valid configuration. An illustrative example is presented to evaluate the approach. The complexity of IRatePL2C is polynomial which an important advantage compared with previous works.
翻訳日:2024-04-30 18:51:42 公開日:2024-04-27
# ディープフェイク検知器のウォーターマークはバグか?

Are Watermarks Bugs for Deepfake Detectors? Rethinking Proactive Forensics ( http://arxiv.org/abs/2404.17867v1 )

ライセンス: Link先を確認
Xiaoshuai Wu, Xin Liao, Bo Ou, Yuling Liu, Zheng Qin, (参考訳) AIが生成したコンテンツは、メディア合成のトピック、特にDeepfakeを加速している。 これらの脅迫的な顔画像をリリースする前に、ある有望な法医学的解決策は、自身の証明を追跡するために頑丈な透かしを注入することである。 しかし,従来の透かしモデルでは,偽造画像と重なりやすいため,従来の透かしモデルでは直接偽造画像に適用すると,Deepfake検出器に悪影響を及ぼす可能性がある。 そこで我々は,このギャップを埋めるために,能動法医学を代表としてAdvMarkを提案し,受動検出器の対角的脆弱性を有効に活用する。 具体的には、AdvMarkは、逆透かしに頑健な透かしを微調整し、透かし画像の法医学的検出性を高めるためのプラグアンドプレイ手順として機能する。 広汎な実験により提案したAdvMarkの有効性が示され、堅牢な透かしを利用して、下流のディープフェイク検出の精度を向上させることができる。 私たちはこの研究がディープフェイクに対する無害な前向きな法医学に光を当てると信じています。

AI-generated content has accelerated the topic of media synthesis, particularly Deepfake, which can manipulate our portraits for positive or malicious purposes. Before releasing these threatening face images, one promising forensics solution is the injection of robust watermarks to track their own provenance. However, we argue that current watermarking models, originally devised for genuine images, may harm the deployed Deepfake detectors when directly applied to forged images, since the watermarks are prone to overlap with the forgery signals used for detection. To bridge this gap, we thus propose AdvMark, on behalf of proactive forensics, to exploit the adversarial vulnerability of passive detectors for good. Specifically, AdvMark serves as a plug-and-play procedure for fine-tuning any robust watermarking into adversarial watermarking, to enhance the forensic detectability of watermarked images; meanwhile, the watermarks can still be extracted for provenance tracking. Extensive experiments demonstrate the effectiveness of the proposed AdvMark, leveraging robust watermarking to fool Deepfake detectors, which can help improve the accuracy of downstream Deepfake detection without tuning the in-the-wild detectors. We believe this work will shed some light on the harmless proactive forensics against Deepfake.
翻訳日:2024-04-30 18:51:42 公開日:2024-04-27
# パラメトリック二階楕円型PDEの解法における有限要素演算子学習法の誤差解析

Error analysis for finite element operator learning methods for solving parametric second-order elliptic PDEs ( http://arxiv.org/abs/2404.17868v1 )

ライセンス: Link先を確認
Youngjoon Hong, Seungchan Ko, Jaeyong Lee, (参考訳) 本稿では,有限要素演算ネットワーク(FEONet)と呼ばれる古典的有限要素近似に基づいて,データに依存しない演算子学習手法の理論的解析を行う。 まず、ニューラルネットワーク近似のパラメータに関して、この手法の一般二階線形楕円型PDEに対する収束性を確立する。 そこで本研究では,有限要素行列の収束における条件数の役割について述べる。 第二に、自己随伴ケースに対する明示的な誤差推定を導出する。 そこで、ニューラルネットワーク近似の特定の関数クラスにおける解の正則性について検討し、その解が所望の正則性を持つための十分な条件を検証する。 最後に、理論的な結果を支持する数値実験を行い、全体収束における有限要素行列の条件数の役割を確認する。

In this paper, we provide a theoretical analysis of a type of operator learning method without data reliance based on the classical finite element approximation, which is called the finite element operator network (FEONet). We first establish the convergence of this method for general second-order linear elliptic PDEs with respect to the parameters for neural network approximation. In this regard, we address the role of the condition number of the finite element matrix in the convergence of the method. Secondly, we derive an explicit error estimate for the self-adjoint case. For this, we investigate some regularity properties of the solution in certain function classes for a neural network approximation, verifying the sufficient condition for the solution to have the desired regularity. Finally, we will also conduct some numerical experiments that support the theoretical findings, confirming the role of the condition number of the finite element matrix in the overall convergence.
翻訳日:2024-04-30 18:51:42 公開日:2024-04-27
# 深層学習ライブラリ試験法に関する調査研究

A Survey of Deep Learning Library Testing Methods ( http://arxiv.org/abs/2404.17871v1 )

ライセンス: Link先を確認
Xiaoyu Zhang, Weipeng Jiang, Chao Shen, Qi Li, Qian Wang, Chenhao Lin, Xiaohong Guan, (参考訳) 近年,ディープラーニング(DL)技術を活用したソフトウェアシステムが,多くの面で人々の生活を著しく促進している。 これらのDLシステムのバックボーンとして、様々なDLライブラリが基礎となる最適化と計算を行っている。 しかし、従来のソフトウェアと同様に、DLライブラリはバグに免疫がなく、ユーザの個人資産や安全性に深刻な脅威をもたらす可能性がある。 DLライブラリの特徴,その関連バグ,およびそれに対応する試験方法の研究は,DLシステムのセキュリティ向上と,DL技術の広範な適用の促進に不可欠である。 本稿では,各種DLライブラリに関する試験研究の概要を述べるとともに,既存手法の長所と短所について考察し,DLライブラリの適用に関するガイダンスと参照を提供する。 本稿では、まず、DL基盤ライブラリのワークフローと、DLフレームワーク、DLコンパイラ、DLハードウェアライブラリの3種類のDLライブラリの特徴を紹介する。 そして、ライブラリのバグとテストの基礎となるDLの定義を提供する。 さらに、これらのDLライブラリに個別に適合する既存のテスト方法やツールを要約し、その有効性と限界を分析する。 また、DLライブラリテストの既存の課題についても論じ、今後の研究の方向性について概説する。

In recent years, software systems powered by deep learning (DL) techniques have significantly facilitated people's lives in many aspects. As the backbone of these DL systems, various DL libraries undertake the underlying optimization and computation. However, like traditional software, DL libraries are not immune to bugs, which can pose serious threats to users' personal property and safety. Studying the characteristics of DL libraries, their associated bugs, and the corresponding testing methods is crucial for enhancing the security of DL systems and advancing the widespread application of DL technology. This paper provides an overview of the testing research related to various DL libraries, discusses the strengths and weaknesses of existing methods, and provides guidance and reference for the application of the DL library. This paper first introduces the workflow of DL underlying libraries and the characteristics of three kinds of DL libraries involved, namely DL framework, DL compiler, and DL hardware library. It then provides definitions for DL underlying library bugs and testing. Additionally, this paper summarizes the existing testing methods and tools tailored to these DL libraries separately and analyzes their effectiveness and limitations. It also discusses the existing challenges of DL library testing and outlines potential directions for future research.
翻訳日:2024-04-30 18:51:42 公開日:2024-04-27
# 言語から地理へ:ヘイトスピーチデータセットにおける文化的バイアスの評価に向けて

From Languages to Geographies: Towards Evaluating Cultural Bias in Hate Speech Datasets ( http://arxiv.org/abs/2404.17874v1 )

ライセンス: Link先を確認
Manuel Tonneau, Diyi Liu, Samuel Fraiberger, Ralph Schroeder, Scott A. Hale, Paul Röttger, (参考訳) 憎悪の認識は文化的文脈によって大きく異なる。 しかし、Hate Speech (HS)データセットは伝統的に言語によって開発されてきた。 これは、ある言語が異なる文化を持つ国で話される可能性があるため、潜在的な文化的偏見を隠蔽する。 本研究では,言語と地理の2つの関係する文化的プロキシを活用することで,HSデータセットの文化的バイアスを評価する。 我々は、8つの言語でHSデータセットを体系的に調査し、彼らの英語偏見に関する過去の知見を確認するとともに、このバイアスはここ数年着実に減少していることを示している。 地理的に広範に広がる3つの言語(英語、アラビア語、スペイン語)では、ツイートからの地理的メタデータを利用して、言語と国情報のペアリングによって地理的文化的文脈を近似します。 これらの言語に対するHSデータセットは強い地理的文化的偏見を示しており、これらの言語を話すソーシャルメディア人口と一般人口の両方において、その優位性に対して少数の国(例えば、アメリカ、イギリス)を過大に表している。 これらの知見に基づき,今後のHSデータセット作成のための推奨事項を定式化する。

Perceptions of hate can vary greatly across cultural contexts. Hate speech (HS) datasets, however, have traditionally been developed by language. This hides potential cultural biases, as one language may be spoken in different countries home to different cultures. In this work, we evaluate cultural bias in HS datasets by leveraging two interrelated cultural proxies: language and geography. We conduct a systematic survey of HS datasets in eight languages and confirm past findings on their English-language bias, but also show that this bias has been steadily decreasing in the past few years. For three geographically-widespread languages -- English, Arabic and Spanish -- we then leverage geographical metadata from tweets to approximate geo-cultural contexts by pairing language and country information. We find that HS datasets for these languages exhibit a strong geo-cultural bias, largely overrepresenting a handful of countries (e.g., US and UK for English) relative to their prominence in both the broader social media population and the general population speaking these languages. Based on these findings, we formulate recommendations for the creation of future HS datasets.
翻訳日:2024-04-30 18:51:42 公開日:2024-04-27
# DF-SLAM:高忠実度視覚SLAMシステムのための辞書係数表現に基づくニューラル特徴レンダリング

DF-SLAM: Neural Feature Rendering Based on Dictionary Factors Representation for High-Fidelity Dense Visual SLAM System ( http://arxiv.org/abs/2404.17876v1 )

ライセンス: Link先を確認
Weifeng Wei, Jie Wang, (参考訳) DF-SLAMと呼ばれる高忠実度ニューラル暗黙的視覚的局所化マッピングシステム(SLAM)を導入する。 本研究では,シーンの形状と外観情報を基本因子と係数因子の組み合わせとして符号化し,シーン表現に辞書因子を用いる。 シーン情報を特徴として直接エンコードするニューラル暗黙的SLAM法と比較して,本手法はシーン詳細再構築能力とメモリ使用効率が向上し,モデルサイズはシーンマップのサイズに敏感であり,大規模シーンに向いている。 さらに,カラーレンダリング品質を確保しつつ,カラーレンダリングの高速化に機能統合レンダリングを採用し,ニューラルSLAM法のリアルタイム性能をさらに向上させる。 合成および実世界のデータセットに対する大規模な実験により、実時間性能、ローカライゼーション精度、シーン再構成品質の観点から、我々の手法が既存の最先端の暗黙的SLAM法と競合することを示した。 ソースコードはhttps://github.com/funcdecl/DF-SLAM.comで公開されています。

We introduce a high-fidelity neural implicit dense visual Simultaneous Localization and Mapping (SLAM) system, termed DF-SLAM. In our work, we employ dictionary factors for scene representation, encoding the geometry and appearance information of the scene as a combination of basis and coefficient factors. Compared to neural implicit SLAM methods that directly encode scene information as features, our method exhibits superior scene detail reconstruction capabilities and more efficient memory usage, while our model size is insensitive to the size of the scene map, making our method more suitable for large-scale scenes. Additionally, we employ feature integration rendering to accelerate color rendering speed while ensuring color rendering quality, further enhancing the real-time performance of our neural SLAM method. Extensive experiments on synthetic and real-world datasets demonstrate that our method is competitive with existing state-of-the-art neural implicit SLAM methods in terms of real-time performance, localization accuracy, and scene reconstruction quality. Our source code is available at https://github.com/funcdecl/DF-SLAM.
翻訳日:2024-04-30 18:51:42 公開日:2024-04-27
# PromptCL: Promptテンプレートとコントラスト学習によるイベント表現の改善

PromptCL: Improving Event Representation via Prompt Template and Contrastive Learning ( http://arxiv.org/abs/2404.17877v1 )

ライセンス: Link先を確認
Yubo Feng, Lishuang Li, Yi Xiang, Xueyang Qin, (参考訳) テキスト中のイベントの表現は、様々なNLPタスクにおいて重要な役割を果たす。 近年の研究では、コントラスト学習は、事前学習言語モデル(PLM)の事象理解能力を改善し、事象表現学習の性能を向上させる能力を持っていることが示されている。 しかし、コントラスト学習とPLMに基づくイベント表現学習の有効性は、イベントテキストの短い長さによって制限される。 イベントテキストの長さは、PLMの事前トレーニングで使用されるテキストの長さと大きく異なる。 その結果、事前学習とイベント表現学習のテキスト長分布には矛盾があり、PLMに基づくイベント表現の学習過程を損なう可能性がある。 本研究では,イベント表現学習のための新しいフレームワークであるPromptCLを提案する。 PromptCLは、プロンプトラーニングから借りたPromptテンプレートを使用して、コントラストラーニング中に入力テキストを拡張する。 これにより、イベントコンポーネントの構造化されたアウトラインを提供することで、イベント表現学習の強化に役立つ。 さらに、イベントコンポーネント間の関係を理解するために、PLMをトレーニングするために、SPO(Subject-Predicate-Object)語順とEvent-oriented Masked Language Modeling(EventMLM)を提案する。 実験の結果,PromptCLはイベント関連タスクにおける最先端のベースラインよりも優れていた。 さらに、我々は徹底的な分析を行い、イベント表現の一般化能力を向上する素早い結果が得られたことを実証する。 私たちのコードはhttps://github.com/YuboFeng2023/PromptCLで利用可能です。

The representation of events in text plays a significant role in various NLP tasks. Recent research demonstrates that contrastive learning has the ability to improve event comprehension capabilities of Pre-trained Language Models (PLMs) and enhance the performance of event representation learning. However, the efficacy of event representation learning based on contrastive learning and PLMs is limited by the short length of event texts. The length of event texts differs significantly from the text length used in the pre-training of PLMs. As a result, there is inconsistency in the distribution of text length between pre-training and event representation learning, which may undermine the learning process of event representation based on PLMs. In this study, we present PromptCL, a novel framework for event representation learning that effectively elicits the capabilities of PLMs to comprehensively capture the semantics of short event texts. PromptCL utilizes a Prompt template borrowed from prompt learning to expand the input text during Contrastive Learning. This helps in enhancing the event representation learning by providing a structured outline of the event components. Moreover, we propose Subject-Predicate-Object (SPO) word order and Event-oriented Masked Language Modeling (EventMLM) to train PLMs to understand the relationships between event components. Our experimental results demonstrate that PromptCL outperforms state-of-the-art baselines on event related tasks. Additionally, we conduct a thorough analysis and demonstrate that using a prompt results in improved generalization capabilities for event representations. Our code will be available at https://github.com/YuboFeng2023/PromptCL.
翻訳日:2024-04-30 18:51:42 公開日:2024-04-27
# HSVカラー医療画像の処理と計算画像解析のためのカラー閾値の適応:オープンソースツールの実践的紹介

Processing HSV Colored Medical Images and Adapting Color Thresholds for Computational Image Analysis: a Practical Introduction to an open-source tool ( http://arxiv.org/abs/2404.17878v1 )

ライセンス: Link先を確認
Lie Cai, Andre Pfob, (参考訳) 背景: 計算医療画像解析に人工知能(AI)技術を用いると, 有望な結果が得られた。 しかし、センターや医師間で色付けの閾値が異なることや、臨床アノテーションの削除により、AI分析では色付き画像が容易に利用できないことがしばしばある。 我々は、HSV色の医療画像の異なる色の閾値に適応し、簡単なクリックでアノテーションを削除できるオープンソースツールの開発を目指していた。 材料と方法:MATLABを用いて機能を構築し,多中心国際せん断波エラストグラフィーデータ(NCT 02638935)を用いて機能試験を行った。 コード行に付随するステップバイステップの命令を提供します。 結果: 新たに開発した前処理機能では, 文字の除去が成功し, HSVカラーの医用画像の色閾値が変化することが確認できた。 結語:HSVカラーの医療画像に文字を除去し,異なる色の閾値を適応させるオープンソースツールを開発した。 多様なマルチセンタービッグデータを用いた堅牢な計算画像処理アルゴリズムの開発に,医療画像処理の進歩に寄与することを願っている。 Matlabのオープンソースツールはhttps://github.com/cailiemed/image-threshold-adaptingで公開されている。

Background: Using artificial intelligence (AI) techniques for computational medical image analysis has shown promising results. However, colored images are often not readily available for AI analysis because of different coloring thresholds used across centers and physicians as well as the removal of clinical annotations. We aimed to develop an open-source tool that can adapt different color thresholds of HSV-colored medical images and remove annotations with a simple click. Materials and Methods: We built a function using MATLAB and used multi-center international shear wave elastography data (NCT 02638935) to test the function. We provide step-by-step instructions with accompanying code lines. Results: We demonstrate that the newly developed pre-processing function successfully removed letters and adapted different color thresholds of HSV-colored medical images. Conclusion: We developed an open-source tool for removing letters and adapting different color thresholds in HSV-colored medical images. We hope this contributes to advancing medical image processing for developing robust computational imaging algorithms using diverse multi-center big data. The open-source Matlab tool is available at https://github.com/cailiemed/image-threshold-adapting.
翻訳日:2024-04-30 18:51:42 公開日:2024-04-27
# 表面音波による極性分子の捕捉

Trapping polar molecules by surface acoustic waves ( http://arxiv.org/abs/2404.17879v1 )

ライセンス: Link先を確認
Haijin Ding, Re-Bing Wu, Yu-xi Liu, (参考訳) 圧電材料の表面音響波(SAW)によって誘導される電気力で極性分子を捕捉する手法を提案する。 このアプローチでは、電気力は極性分子の運動方向と垂直であり、音響伝達と直交する方向における閉じ込められた極性分子の位置を制御するために用いられる。 外部の電気力により、SAWによって誘導される電場は極性分子を単層または多層格子にトラップすることができる。 分子の配列は分子配列の結合エネルギーと局在に影響を与える。 すると、1次元または2次元の極性分子アレイを用いてボース・ハッバード(BH)モデルを構築することができ、そのエネルギーと動力学は捕捉された分子の局在に影響される。 極性分子BHモデルに基づく超流動絶縁体とモット絶縁体の相転移は,SAW誘起電位によって変調できることがわかった。

We propose a method to trap polar molecules with the electrical force induced by the surface acoustic wave (SAW) on piezoelectric materials. In this approach, the electrical force is perpendicular to the moving direction of the polar molecules, and is used to control the positions of trapped polar molecules in the direction orthogonal to the acoustic transmission. By virtue of an external electrical force, the SAW-induced electrical field can trap the polar molecules into single-layer or multi-layer lattices. The arrangement of molecules can affect the binding energy and localization of the molecule array. Then the one- or two-dimensional trapped polar molecule arrays can be used to construct the Bose-Hubbard (BH) model, whose energy and dynamics are affected by the localizations of the trapped molecules. We find that the phase transitions between the superfluid and Mott insulator based on trapped polar molecule BH model can be modulated by the SAW induced electrical potential.
翻訳日:2024-04-30 18:51:42 公開日:2024-04-27
# 水中画像強調のための水中可変ズーム奥行き誘導知覚ネットワーク

Underwater Variable Zoom-Depth-Guided Perception Network for Underwater Image Enhancement ( http://arxiv.org/abs/2404.17883v1 )

ライセンス: Link先を確認
Zhixiong Huang, Xinying Wang, Jinjiang Li, Shenglan Liu, Lin Feng, (参考訳) 水中のシーンは、不均一な海洋要素による劣化問題に本質的に関係している。 水中画像強調法(UIE)は、単純な特徴モデリングによってマッピング関数を学習し、より明確な物理的手がかり(例えば深度)が欠如しているため、視力の上昇が制限される。 そこで本研究では,より精密なシーン強調機能を実現するために,より深いUIEモデルに先行して深度を注入することを検討した。 この目的のために,水中可変ズーム (UVZ) と呼ばれる新しい深度誘導型知覚UIEフレームワークを提案する。 具体的には、UVZは2段階のパイプラインを利用する。 第一に、深度推定ネットワークは、訓練中の推定差を抑えるために導入された補助的な監視ネットワークと組み合わせて、臨界深度マップを生成するように設計されている。 第二に、UVZは予測された深度マップを利用することで、近距離シナリオを解析し、異なる領域における局所的および非局所的知覚を可能にする。 5つのベンチマークデータセットに対する大規模な実験は、UVZが優れた視覚的ゲインを達成し、有望な定量的指標を提供することを示す。 さらに、UVZは視覚的なタスク、特に異常な照明条件において、優れた一般化を示すことが確認されている。 コード、モデル、および結果は、https://github.com/WindySprint/UVZ.comで公開されている。

Underwater scenes intrinsically involve degradation problems owing to heterogeneous ocean elements. Prevailing underwater image enhancement (UIE) methods stick to straightforward feature modeling to learn the mapping function, which leads to limited vision gain as it lacks more explicit physical cues (e.g., depth). In this work, we investigate injecting the depth prior into the deep UIE model for more precise scene enhancement capability. To this end, we present a novel depth-guided perception UIE framework, dubbed underwater variable zoom (UVZ). Specifically, UVZ resorts to a two-stage pipeline. First, a depth estimation network is designed to generate critical depth maps, combined with an auxiliary supervision network introduced to suppress estimation differences during training. Second, UVZ parses near-far scenarios by harnessing the predicted depth maps, enabling local and non-local perceiving in different regions. Extensive experiments on five benchmark datasets demonstrate that UVZ achieves superior visual gain and delivers promising quantitative metrics. Besides, UVZ is confirmed to exhibit good generalization in some visual tasks, especially in unusual lighting conditions. The code, models and results are available at: https://github.com/WindySprint/UVZ.
翻訳日:2024-04-30 18:51:42 公開日:2024-04-27
# フローダイナミクス予測のための完全深層学習モデル上でのモーダル分解を用いたハイブリッド手法の有効性の探索

Exploring the efficacy of a hybrid approach with modal decomposition over fully deep learning models for flow dynamics forecasting ( http://arxiv.org/abs/2404.17884v1 )

ライセンス: Link先を確認
Rodrigo Abadía-Heredia, Adrián Corrochano, Manuel Lopez-Martin, Soledad Le Clainche, (参考訳) 流体力学の問題は多次元で非線形であるのが特徴であり、実験と数値シミュレーションは複雑で時間がかかり、金銭的に高価である。 この意味では、より経済的にデータを取得する新しい方法を見つける必要がある。 そこで本研究では,過去の情報のみを用いて流れのダイナミクスを予測することを目的として,時系列予測の流体力学問題への適用について検討する。 私たちは、学習に大量のデータを必要としないディープラーニングに基づくモデルに焦点を合わせています。 この研究で、私たちは3つの自己回帰モデルを試しました。そのうちの2つはディープラーニングをベースとしており、もう1つは、モーダル分解とディープラーニングを組み合わせたハイブリッドモデルです。 我々はこれらのモデルに対して,数値シミュレーションと実験結果から得られた2つのデータセットの時間先予測を200ドル(約2万2000円)で生成するように求め,後者は乱れを特徴とする。 実験では, モーダル分解が物理を抽出するという意味で, 物理インフォームドされているため, ハイブリッドモデルがより信頼性の高い予測をいかに生成するかを示す。

Fluid dynamics problems are characterized by being multidimensional and nonlinear, causing the experiments and numerical simulations being complex, time-consuming and monetarily expensive. In this sense, there is a need to find new ways to obtain data in a more economical manner. Thus, in this work we study the application of time series forecasting to fluid dynamics problems, where the aim is to predict the flow dynamics using only past information. We focus our study on models based on deep learning that do not require a high amount of data for training, as this is the problem we are trying to address. Specifically in this work we have tested three autoregressive models where two of them are fully based on deep learning and the other one is a hybrid model that combines modal decomposition with deep learning. We ask these models to generate $200$ time-ahead predictions of two datasets coming from a numerical simulation and experimental measurements, where the latter is characterized by being turbulent. We show how the hybrid model generates more reliable predictions in the experimental case, as it is physics-informed in the sense that the modal decomposition extracts the physics in a way that allows us to predict it.
翻訳日:2024-04-30 18:51:42 公開日:2024-04-27
# 解釈不能な樹木アンサンブルのための特徴グラフ:中央性、相互作用、および病気のサブタイピングへの応用

Feature graphs for interpretable unsupervised tree ensembles: centrality, interaction, and application in disease subtyping ( http://arxiv.org/abs/2404.17886v1 )

ライセンス: Link先を確認
Christel Sirocchi, Martin Urschler, Bastian Pfeifer, (参考訳) 解釈可能な機械学習は、医療などの高度な領域における人工知能の活用の中心として現れており、モデル予測の背後にある理論的根拠を理解することは、高い予測精度を達成するのと同じくらい重要である。 この文脈では、ブラックボックスモデルにおいて最も重要な入力特徴を特定することによって、モデル解釈可能性を高める上で、特徴選択が重要な役割を担っている。 ランダムな森林は、表層データセットにおける顕著なパフォーマンスのためにしばしばバイオメディシンで使用されるが、集約された決定木から得られる精度は、解釈可能性の犠牲となる。 その結果、無作為林における解釈可能性を高めるための特徴選択は、教師付き環境で広く研究されている。 しかし、非監督体制における調査は、依然として顕著に限られている。 このギャップに対処するために、教師なしランダムな森林から特徴グラフを構築する新しい手法と、これらのグラフから効果的な特徴組合せを導出するための特徴選択戦略を導入する。 特徴グラフはデータセット全体と、親子ノードの分割を利用した個々のクラスタで構成されており、機能中心性はクラスタリングタスクとの関係を捉え、エッジウェイトは特徴ペアの識別力を反映している。 グラフベースの特徴選択法は、クラスタリング性能を改善しながら次元性を低減する能力と、モデルの解釈可能性を高める能力の両方の観点から、合成データセットとベンチマークデータセットで広範囲に評価される。 病気のサブタイピングのためのオミクスデータの適用は、クラスタリング分析における解釈可能性を高めるための提案手法の可能性を実世界のバイオメディカルアプリケーションで示し、各クラスタの上位の特徴を識別する。

Interpretable machine learning has emerged as central in leveraging artificial intelligence within high-stakes domains such as healthcare, where understanding the rationale behind model predictions is as critical as achieving high predictive accuracy. In this context, feature selection assumes a pivotal role in enhancing model interpretability by identifying the most important input features in black-box models. While random forests are frequently used in biomedicine for their remarkable performance on tabular datasets, the accuracy gained from aggregating decision trees comes at the expense of interpretability. Consequently, feature selection for enhancing interpretability in random forests has been extensively explored in supervised settings. However, its investigation in the unsupervised regime remains notably limited. To address this gap, the study introduces novel methods to construct feature graphs from unsupervised random forests and feature selection strategies to derive effective feature combinations from these graphs. Feature graphs are constructed for the entire dataset as well as individual clusters leveraging the parent-child node splits within the trees, such that feature centrality captures their relevance to the clustering task, while edge weights reflect the discriminating power of feature pairs. Graph-based feature selection methods are extensively evaluated on synthetic and benchmark datasets both in terms of their ability to reduce dimensionality while improving clustering performance, as well as to enhance model interpretability. An application on omics data for disease subtyping identifies the top features for each cluster, showcasing the potential of the proposed approach to enhance interpretability in clustering analyses and its utility in a real-world biomedical application.
翻訳日:2024-04-30 18:51:42 公開日:2024-04-27
# 文書画像における文書レイアウト解析のためのハイブリッド手法

A Hybrid Approach for Document Layout Analysis in Document images ( http://arxiv.org/abs/2404.17888v1 )

ライセンス: Link先を確認
Tahira Shehzadi, Didier Stricker, Muhammad Zeshan Afzal, (参考訳) ドキュメントレイアウト分析は、ドキュメント内の要素の配置を理解することを伴う。 本稿では,テキスト,画像,表,見出しなど,文書画像中の様々な要素を理解する複雑さについて考察する。 このアプローチでは、テーブル、図形、表示要素を識別する革新的なグラフィカルなページオブジェクト検出器として、トランスフォーマーベースのオブジェクト検出ネットワークを採用している。 コントラスト学習のための高品質なオブジェクトクエリを提供するためのクエリ符号化機構を導入し、デコーダフェーズの効率を向上する。 また,デコーダの元々の1対1のマッチング戦略と,トレーニング期間中の1対1のマッチング戦略を統合するハイブリッドマッチング方式を提案する。 このアプローチは、ページ上の様々なグラフィカル要素を検出する際のモデルの精度と汎用性を改善することを目的としている。 PubLayNet、DocLayNet、PubTablesのベンチマーク実験により、我々のアプローチは最先端の手法よりも優れていることが示された。 平均精度はPubLayNetが97.3%、DocLayNetが81.6%、PubTablesが98.6である。 これらの進歩は、文書イメージを編集可能でアクセスしやすいフォーマットに変換するだけでなく、情報検索やデータ抽出プロセスの合理化にも寄与する。

Document layout analysis involves understanding the arrangement of elements within a document. This paper navigates the complexities of understanding various elements within document images, such as text, images, tables, and headings. The approach employs an advanced Transformer-based object detection network as an innovative graphical page object detector for identifying tables, figures, and displayed elements. We introduce a query encoding mechanism to provide high-quality object queries for contrastive learning, enhancing efficiency in the decoder phase. We also present a hybrid matching scheme that integrates the decoder's original one-to-one matching strategy with the one-to-many matching strategy during the training phase. This approach aims to improve the model's accuracy and versatility in detecting various graphical elements on a page. Our experiments on PubLayNet, DocLayNet, and PubTables benchmarks show that our approach outperforms current state-of-the-art methods. It achieves an average precision of 97.3% on PubLayNet, 81.6% on DocLayNet, and 98.6 on PubTables, demonstrating its superior performance in layout analysis. These advancements not only enhance the conversion of document images into editable and accessible formats but also streamline information retrieval and data extraction processes.
翻訳日:2024-04-30 18:51:42 公開日:2024-04-27
# DPER-Diffusion preffusion Driven Neural Representation for Limited Angle and Sparse View CT Reconstruction

DPER: Diffusion Prior Driven Neural Representation for Limited Angle and Sparse View CT Reconstruction ( http://arxiv.org/abs/2404.17890v1 )

ライセンス: Link先を確認
Chenhe Du, Xiyue Lin, Qing Wu, Xuanyu Tian, Ying Su, Zhe Luo, Hongjiang Wei, S. Kevin Zhou, Jingyi Yu, Yuyao Zhang, (参考訳) X線CTの応用範囲を拡大するためには,リミテッドアングルおよびスパースビューCT(LACT,SVCT)が重要である。 しかし、これらは不完全なデータ取得による課題に直面するため、再構成されたCT画像に様々なアーティファクトが生じる。 NeRF、NeAT、NeRPといった新しい暗黙的神経表現(INR)技術は、未決定のCT画像再構成タスクにおいて有望であることを示している。 しかし、INR アーキテクチャの教師なしの性質は、特に LACT や Ultra-SVCT による高度に不正な再構成タスクに対して、ソリューション空間に制限を課している。 本研究では,DPER(Diffusion Prior Driven Neural Representation, DPER)を提案する。 DPERは、半二次分割法(HQS)アルゴリズムを採用し、逆問題からデータ忠実度とサブプロブレム前の分布に分解する。 2つのサブプロブレムはそれぞれ、INR再構成スキームと事前学習されたスコアベース拡散モデルによって対処される。 この組み合わせは、当初INRより前の暗黙の局所的な一貫性を保っている。 さらに、生成拡散モデルにより、逆問題に対する解空間の実現性を効果的に増強し、解の安定性と精度が向上する。 2つの公開データセット (AAPM と LIDC) を用いた LACT と Ultra-SVCT 再構成における DPER の性能評価のための総合的な実験を行った。 その結果,本手法はドメイン内データセットの最先端再構築手法よりも優れ,ドメイン外データセットの大幅な性能向上を実現していることがわかった。

Limited-angle and sparse-view computed tomography (LACT and SVCT) are crucial for expanding the scope of X-ray CT applications. However, they face challenges due to incomplete data acquisition, resulting in diverse artifacts in the reconstructed CT images. Emerging implicit neural representation (INR) techniques, such as NeRF, NeAT, and NeRP, have shown promise in under-determined CT imaging reconstruction tasks. However, the unsupervised nature of INR architecture imposes limited constraints on the solution space, particularly for the highly ill-posed reconstruction task posed by LACT and ultra-SVCT. In this study, we introduce the Diffusion Prior Driven Neural Representation (DPER), an advanced unsupervised framework designed to address the exceptionally ill-posed CT reconstruction inverse problems. DPER adopts the Half Quadratic Splitting (HQS) algorithm to decompose the inverse problem into data fidelity and distribution prior sub-problems. The two sub-problems are respectively addressed by INR reconstruction scheme and pre-trained score-based diffusion model. This combination initially preserves the implicit image local consistency prior from INR. Additionally, it effectively augments the feasibility of the solution space for the inverse problem through the generative diffusion model, resulting in increased stability and precision in the solutions. We conduct comprehensive experiments to evaluate the performance of DPER on LACT and ultra-SVCT reconstruction with two public datasets (AAPM and LIDC). The results show that our method outperforms the state-of-the-art reconstruction methods on in-domain datasets, while achieving significant performance improvements on out-of-domain datasets.
翻訳日:2024-04-30 18:51:42 公開日:2024-04-27
# 車両用パワートレイン制御ポリシーの共有学習

Shared learning of powertrain control policies for vehicle fleets ( http://arxiv.org/abs/2404.17892v1 )

ライセンス: Link先を確認
Lindsey Kerbel, Beshah Ayalew, Andrej Ivanco, (参考訳) 深層強化学習(DRL)のようなデータ駆動型アプローチは、燃料経済やその他のパフォーマンス指標を最適化するパワートレイン制御ポリシーを現場で学習することを目的としている。 実際、特定のルート上の個々の車両や運転サイクルについて、この点において大きな可能性を示してきた。 しかし、ルートの分散を行なわなければならない車両群にとって、DRLアプローチは、高いばらつきをもたらし、実践的な展開に挑戦する学習安定性の問題に苦慮する。 本稿では,各車両における政策学習計算の知識共有機構として,蒸留グループポリシーを用いて,車両群間の共通学習のための新しい枠組みを提案する。 これを可能にする数学的定式化について詳述する。 いくつかのシナリオは、フレームワークの機能、パフォーマンス、および計算のスケーラビリティをフリートサイズで分析すると考えられている。 提案手法と個別学習エージェントのベースラインを用いた共有学習手法と,集中学習者による最先端学習手法との比較により,我々のアプローチに明らかなメリットが示された。 例えば、ベースラインに比べて燃費が平均8.5%の漸近的な改善が見られ、郊外のルートを運行する艦隊の加速誤差とシフト頻度の指標も改善されている。 さらに、フレームワークがフリート内の分散を減らし、個々のエージェントが新しいルートに適応するのに役立つことを示す実証的な結果も含んでいます。

Emerging data-driven approaches, such as deep reinforcement learning (DRL), aim at on-the-field learning of powertrain control policies that optimize fuel economy and other performance metrics. Indeed, they have shown great potential in this regard for individual vehicles on specific routes or drive cycles. However, for fleets of vehicles that must service a distribution of routes, DRL approaches struggle with learning stability issues that result in high variances and challenge their practical deployment. In this paper, we present a novel framework for shared learning among a fleet of vehicles through the use of a distilled group policy as the knowledge sharing mechanism for the policy learning computations at each vehicle. We detail the mathematical formulation that makes this possible. Several scenarios are considered to analyze the functionality, performance, and computational scalability of the framework with fleet size. Comparisons of the cumulative performance of fleets using our proposed shared learning approach with a baseline of individual learning agents and another state-of-the-art approach with a centralized learner show clear advantages to our approach. For example, we find a fleet average asymptotic improvement of 8.5 percent in fuel economy compared to the baseline while also improving on the metrics of acceleration error and shifting frequency for fleets serving a distribution of suburban routes. Furthermore, we include demonstrative results that show how the framework reduces variance within a fleet and also how it helps individual agents adapt better to new routes.
翻訳日:2024-04-30 18:41:58 公開日:2024-04-27
# 信頼性の高いビュー誘導によるマルチビュークラスタリング

Unpaired Multi-view Clustering via Reliable View Guidance ( http://arxiv.org/abs/2404.17894v1 )

ライセンス: Link先を確認
Like Xin, Wanqi Yang, Lei Wang, Ming Yang, (参考訳) 本稿では、複数のビューでペアリングされたサンプルが利用できないという問題であるUMC(unpaired multi-view clustering)に焦点を当てる。 目的は、すべてのビューで未確認のサンプルを使用して効果的な共同クラスタリングを行うことである。 不完全なマルチビュークラスタリングでは、既存のメソッドは通常、補完的なビューをキャプチャするためにビュー間のサンプルペアリングに依存します。 ただし、UMCでは適用できない。 したがって、ビューをまたいだ一貫したクラスタ構造を抽出することを目指している。 UMCでは、ラベルの欠如による不確実なクラスタ構造と、ペアサンプルの欠如による不確実なペア関係の2つの問題が発生する。 優れたクラスタ構造を持つビューは信頼性の高いビューであると仮定し、他のビューのクラスタ化を誘導するスーパーバイザとして機能する。 信頼性の高いビューのガイダンスにより、信頼性のあるビューと他のビューとの整合性を確保しながら、これらのビューのより特定のクラスタ構造が得られます。 次に, 信頼度の高い1つのビュー (RG-UMC) と複数の信頼度の高いビュー (RGs-UMC) を UMC に対して提案する。 具体的には、最適化プロセスを適応的に導くために、1つの信頼できるビューと複数の信頼できるビューを持つアライメントモジュールを設計する。 また,同クラスタ内のサンプルの関係性を高めるためにコンパクト化モジュールを利用する。 一方、潜在表現に直交制約を適用して識別特徴を得る。 大規模な実験では、RG-UMCとRGs-UMCがそれぞれ24.14\%と29.42\%で最高の最先端の手法より優れていた。

This paper focuses on unpaired multi-view clustering (UMC), a challenging problem where paired observed samples are unavailable across multiple views. The goal is to perform effective joint clustering using the unpaired observed samples in all views. In incomplete multi-view clustering, existing methods typically rely on sample pairing between views to capture their complementary. However, that is not applicable in the case of UMC. Hence, we aim to extract the consistent cluster structure across views. In UMC, two challenging issues arise: uncertain cluster structure due to lack of label and uncertain pairing relationship due to absence of paired samples. We assume that the view with a good cluster structure is the reliable view, which acts as a supervisor to guide the clustering of the other views. With the guidance of reliable views, a more certain cluster structure of these views is obtained while achieving alignment between reliable views and other views. Then we propose Reliable view Guidance with one reliable view (RG-UMC) and multiple reliable views (RGs-UMC) for UMC. Specifically, we design alignment modules with one reliable view and multiple reliable views, respectively, to adaptively guide the optimization process. Also, we utilize the compactness module to enhance the relationship of samples within the same cluster. Meanwhile, an orthogonal constraint is applied to latent representation to obtain discriminate features. Extensive experiments show that both RG-UMC and RGs-UMC outperform the best state-of-the-art method by an average of 24.14\% and 29.42\% in NMI, respectively.
翻訳日:2024-04-30 18:41:58 公開日:2024-04-27
# 深層学習に基づく脆弱性パッチングの学習方法がパフォーマンスに与える影響

How the Training Procedure Impacts the Performance of Deep Learning-based Vulnerability Patching ( http://arxiv.org/abs/2404.17896v1 )

ライセンス: Link先を確認
Antonio Mastropaolo, Vittoria Nardone, Gabriele Bavota, Massimiliano Di Penta, (参考訳) ジェネレーティブディープラーニング(DL)モデルは、脆弱性パッチの適用に成功している。 しかしながら、そのようなモデルでは、そこから学ぶために、大量のパッチデータセットが利用可能である必要がある。 この問題を克服するために、研究者は、プログラミング言語やバグ修正のような同様のタスクにおいて、一般的な知識で事前訓練されたモデルから始めることを提案した。 自動脆弱性パッチの分野での取り組みにもかかわらず、これらの異なるトレーニング手順が、そのようなタスクに対するDLモデルのパフォーマンスに与える影響について、体系的な研究が不足している。 本論文は,このギャップを橋渡しするための多面的な貢献について述べる。 一 脆弱性のパッチングのための自己監督及び監督事前訓練の既存のソリューションの比較 (二) 初めて、このタスクのために様々な種類のプロンプトチューニングを実験する。 この研究は23のDLモデルを訓練/試験する必要があった。 データ収集のコストは高いが、DLベースの脆弱性パッチングを大幅に改善することを発見した。 この教師付き事前訓練モデルの上にプロンプトチューニングを適用すると、性能が著しく向上することはない。 代わりに、プロンプトチューニングは、自己教師付き事前訓練されたモデル、すなわちバグ修正事前訓練に依存しないモデルの性能を大幅に向上させる、効果的で安価なソリューションである。

Generative deep learning (DL) models have been successfully adopted for vulnerability patching. However, such models require the availability of a large dataset of patches to learn from. To overcome this issue, researchers have proposed to start from models pre-trained with general knowledge, either on the programming language or on similar tasks such as bug fixing. Despite the efforts in the area of automated vulnerability patching, there is a lack of systematic studies on how these different training procedures impact the performance of DL models for such a task. This paper provides a manyfold contribution to bridge this gap, by (i) comparing existing solutions of self-supervised and supervised pre-training for vulnerability patching; and (ii) for the first time, experimenting with different kinds of prompt-tuning for this task. The study required to train/test 23 DL models. We found that a supervised pre-training focused on bug-fixing, while expensive in terms of data collection, substantially improves DL-based vulnerability patching. When applying prompt-tuning on top of this supervised pre-trained model, there is no significant gain in performance. Instead, prompt-tuning is an effective and cheap solution to substantially boost the performance of self-supervised pre-trained models, i.e., those not relying on the bug-fixing pre-training.
翻訳日:2024-04-30 18:41:58 公開日:2024-04-27
# ツールコール: 検索型大規模言語モデルによるメディケイトコンサルテーションの強化

Tool Calling: Enhancing Medication Consultation via Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2404.17897v1 )

ライセンス: Link先を確認
Zhongzhen Huang, Kui Xue, Yongqi Fan, Linjie Mu, Ruoyu Liu, Tong Ruan, Shaoting Zhang, Xiaofan Zhang, (参考訳) 大規模言語モデル(LLM)は、様々な言語タスクで顕著な成功を収めてきたが、幻覚や時間的ミスアライメントに悩まされている。 これらの欠点を軽減するために、検索拡張生成(RAG)を使用して、回答生成を容易にする外部知識を提供する。 しかし、そのようなモデルを医療分野に適用することは、ドメイン固有の知識の欠如と現実のシナリオの複雑さのために、いくつかの課題に直面している。 本研究では,医学分野における知識集約型タスクのためのRAGフレームワークを用いたLCMについて検討する。 LLMの能力を評価するために,実世界の医薬品相談シナリオをシミュレートするマルチラウンド・ダイアログ・ベンチマークであるMessicalQAを導入する。 MedicineQAには300の質問応答ペアが含まれており、それぞれが詳細な対話履歴に埋め込まれており、この知識集約タスクが現在のLLMにもたらす課題を強調している。 さらに、以前の \textit{Retrieve-then-Read} の代わりに、新しい \textit{Distill-Retrieve-Read} フレームワークを提案する。 具体的には, 蒸留回収プロセスにおいて, 検索エンジンが使用するキーワードベースの問合せをエミュレートする検索クエリを定式化するためのツールコール機構を利用する。 実験結果から,本フレームワークは,エビデンス検索プロセスにおいて,優れた性能向上を実現し,エビデンス検索の精度において,先行するエビデンス検索よりも優れていることを示す。 この進歩は医学領域にRAGを適用することに光を当てている。

Large-scale language models (LLMs) have achieved remarkable success across various language tasks but suffer from hallucinations and temporal misalignment. To mitigate these shortcomings, Retrieval-augmented generation (RAG) has been utilized to provide external knowledge to facilitate the answer generation. However, applying such models to the medical domain faces several challenges due to the lack of domain-specific knowledge and the intricacy of real-world scenarios. In this study, we explore LLMs with RAG framework for knowledge-intensive tasks in the medical field. To evaluate the capabilities of LLMs, we introduce MedicineQA, a multi-round dialogue benchmark that simulates the real-world medication consultation scenario and requires LLMs to answer with retrieved evidence from the medicine database. MedicineQA contains 300 multi-round question-answering pairs, each embedded within a detailed dialogue history, highlighting the challenge posed by this knowledge-intensive task to current LLMs. We further propose a new \textit{Distill-Retrieve-Read} framework instead of the previous \textit{Retrieve-then-Read}. Specifically, the distillation and retrieval process utilizes a tool calling mechanism to formulate search queries that emulate the keyword-based inquiries used by search engines. With experimental results, we show that our framework brings notable performance improvements and surpasses the previous counterparts in the evidence retrieval process in terms of evidence retrieval accuracy. This advancement sheds light on applying RAG to the medical domain.
翻訳日:2024-04-30 18:41:58 公開日:2024-04-27
# Masked Diffusion Posterior Smplingによる教師なし異常検出

Unsupervised Anomaly Detection via Masked Diffusion Posterior Sampling ( http://arxiv.org/abs/2404.17900v1 )

ライセンス: Link先を確認
Di Wu, Shicai Fan, Xue Zhou, Li Yu, Yuzhong Deng, Jianxiao Zou, Baihong Lin, (参考訳) レコンストラクションに基づく手法は、通常画像を再構成し、与えられたテスト画像と比較して異常を検出し、発見するアン教師なしの異常検出によく用いられている。 近年、拡散モデルは、その強力な生成能力のために、異常検出に有望な応用を示している。 しかし、これらのモデルには通常の画像再構成のための厳密な数学的サポートがなく、予期せず低い復元品質に悩まされている。 そこで本研究では,Masked Diffusion Posterior Sampling (MDPS) という新しい手法を提案する。 MDPSでは, 正規画像の多重拡散後サンプリングとして, マスク付き雑音観測モデルとベイジアン・フレームワーク下での拡散ベース正規画像に基づいて, 正規画像の多重拡散後サンプリングを数学的にモデル化する。 画素レベルの視点と知覚レベルの視点から設計した計量を用いて、MDPSは、各正常な後部サンプルと与えられたテスト画像との差分マップを効果的に計算することができる。 異常スコアは、複数の後部サンプルに対するすべての差分マップを平均化することによって得られる。 MVTecおよびBTADデータセットの発掘実験により、MDPSは正常な画像再構成品質と異常検出および局所化において最先端の性能を達成できることが示された。

Reconstruction-based methods have been commonly used for unsupervised anomaly detection, in which a normal image is reconstructed and compared with the given test image to detect and locate anomalies. Recently, diffusion models have shown promising applications for anomaly detection due to their powerful generative ability. However, these models lack strict mathematical support for normal image reconstruction and unexpectedly suffer from low reconstruction quality. To address these issues, this paper proposes a novel and highly-interpretable method named Masked Diffusion Posterior Sampling (MDPS). In MDPS, the problem of normal image reconstruction is mathematically modeled as multiple diffusion posterior sampling for normal images based on the devised masked noisy observation model and the diffusion-based normal image prior under Bayesian framework. Using a metric designed from pixel-level and perceptual-level perspectives, MDPS can effectively compute the difference map between each normal posterior sample and the given test image. Anomaly scores are obtained by averaging all difference maps for multiple posterior samples. Exhaustive experiments on MVTec and BTAD datasets demonstrate that MDPS can achieve state-of-the-art performance in normal image reconstruction quality as well as anomaly detection and localization.
翻訳日:2024-04-30 18:41:58 公開日:2024-04-27
# 信頼性のある学生:半監督された3次元物体検出におけるノイズに対処する

Reliable Student: Addressing Noise in Semi-Supervised 3D Object Detection ( http://arxiv.org/abs/2404.17910v1 )

ライセンス: Link先を確認
Farzad Nozarian, Shashank Agarwal, Farzaneh Rezaeianaran, Danish Shahzad, Atanas Poibrenski, Christian Müller, Philipp Slusallek, (参考訳) 半教師付き3Dオブジェクト検出は、ラベル付きデータに制限がある場合に、有望な擬似ラベル手法の恩恵を受けることができる。 しかし、近年のアプローチでは、信頼度に基づくフィルタリングによる擬似ラベルの品質向上努力にもかかわらず、トレーニング中のノイズの多い擬似ラベルの影響を見落としている。 本稿では, 疑似ラベルがIoUに基づく目標設定に与える影響について検討し, 誤りを緩和するための2つの補完的アプローチを組み込んだ信頼性のある学生フレームワークを提案する。 第一に、難しいクラスにおける偽陰性代入を減らすクラス認識ターゲット代入戦略を含む。 第2に、第1ステップから残る偽陰性に対処しながら、偽陽性割り当てエラーを抑制する信頼性重み付け戦略を含む。 生徒が作成した提案の信頼性スコアを教師ネットワークに問い合わせることで、信頼性の重みを決定する。 我々の研究は、半教師付き設定における点雲上のKITTI 3Dオブジェクト検出ベンチマークの最先端を超越している。 1%のラベル付きデータでは,37個のラベル付きサンプルしか得られていないにもかかわらず,歩行者クラスでは6.2%のAP改善が達成されている。 2%の設定では改善が重要となり、それぞれ6.0%のAPと5.7%のAPが歩行者クラスとサイクリストクラスで改善された。

Semi-supervised 3D object detection can benefit from the promising pseudo-labeling technique when labeled data is limited. However, recent approaches have overlooked the impact of noisy pseudo-labels during training, despite efforts to enhance pseudo-label quality through confidence-based filtering. In this paper, we examine the impact of noisy pseudo-labels on IoU-based target assignment and propose the Reliable Student framework, which incorporates two complementary approaches to mitigate errors. First, it involves a class-aware target assignment strategy that reduces false negative assignments in difficult classes. Second, it includes a reliability weighting strategy that suppresses false positive assignment errors while also addressing remaining false negatives from the first step. The reliability weights are determined by querying the teacher network for confidence scores of the student-generated proposals. Our work surpasses the previous state-of-the-art on KITTI 3D object detection benchmark on point clouds in the semi-supervised setting. On 1% labeled data, our approach achieves a 6.2% AP improvement for the pedestrian class, despite having only 37 labeled samples available. The improvements become significant for the 2% setting, achieving 6.0% AP and 5.7% AP improvements for the pedestrian and cyclist classes, respectively.
翻訳日:2024-04-30 18:41:58 公開日:2024-04-27
# SERPENT-VLM : 視覚言語モデルを用いた自己精製ラジオロジーレポート作成

SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models ( http://arxiv.org/abs/2404.17912v1 )

ライセンス: Link先を確認
Manav Nitin Kapadnis, Sohan Patnaik, Abhilash Nandy, Sourjyadip Ray, Pawan Goyal, Debdoot Sheet, (参考訳) 放射線学報告生成(R2Gen)は、マルチモーダル大言語モデル(MLLM)が正確で一貫性のある放射線学レポートの作成をいかに自動化できるかを示す。 既存の方法は、しばしば画像内容を正確に反映しないテキストベースのレポートで詳細を幻覚させる。 MLLMフレームワークに自己精製機構を統合することで、R2Genタスクを改善する新しい戦略であるSERPENT-VLM(Self Refining Radiology RePort GENeraTion using Vision Language Models)を導入する。 我々は、プール画像表現と生成した無線テキストの文脈表現との類似性を利用して、画像テキスト表現を洗練させるために、標準的な因果言語モデリングの目的と並行して独自の自己教師付きロスを用いる。 これにより、与えられた画像と生成されたテキスト間の動的相互作用を通じて生成されたテキストを精査・調整し、幻覚を低減し、ニュアンスレポート生成を継続的に強化することができる。 SERPENT-VLMは、LLaVA-Med、BiomedGPTなどの既存のベースラインを上回り、IU X線およびROCO(英語版)データセットでのSoTAパフォーマンスを達成するとともに、ノイズの多い画像に対して堅牢であることを示す。 質的なケーススタディでは、R2Genのより洗練されたMLLMフレームワークへの大きな進歩が強調され、医療画像領域における自己監督的改善のさらなる研究の道が開かれた。

Radiology Report Generation (R2Gen) demonstrates how Multi-modal Large Language Models (MLLMs) can automate the creation of accurate and coherent radiological reports. Existing methods often hallucinate details in text-based reports that don't accurately reflect the image content. To mitigate this, we introduce a novel strategy, SERPENT-VLM (SElf Refining Radiology RePort GENeraTion using Vision Language Models), which improves the R2Gen task by integrating a self-refining mechanism into the MLLM framework. We employ a unique self-supervised loss that leverages similarity between pooled image representations and the contextual representations of the generated radiological text, alongside the standard Causal Language Modeling objective, to refine image-text representations. This allows the model to scrutinize and align the generated text through dynamic interaction between a given image and the generated text, therefore reducing hallucination and continuously enhancing nuanced report generation. SERPENT-VLM outperforms existing baselines such as LLaVA-Med, BiomedGPT, etc., achieving SoTA performance on the IU X-ray and Radiology Objects in COntext (ROCO) datasets, and also proves to be robust against noisy images. A qualitative case study emphasizes the significant advancements towards more sophisticated MLLM frameworks for R2Gen, opening paths for further research into self-supervised refinement in the medical imaging domain.
翻訳日:2024-04-30 18:41:58 公開日:2024-04-27
# Fock状態を用いた非線形ボゾン相互作用の最適量子センシング

Optimal quantum sensing of the nonlinear bosonic interactions using Fock states ( http://arxiv.org/abs/2404.17914v1 )

ライセンス: Link先を確認
Payman Mahmoudi, Atirach Ritboon, Radim Filip, (参考訳) 双線型相互作用を超えた個々の量子を持つ非線形過程は、ボゾン系を持つ量子技術にとって不可欠である。 様々なコヒーレントな分裂と量子の融合は、観測された統計からそれらの非線形結合の推定に既に現れている。 非古典的粒子状フォック状態をプローブとして, 測定戦略として, 基本的かつ実験的に利用可能な三線相互作用を検出するための, 非自明だが最適戦略を導出する。 注目すべきは、非線形カップリングの最適探索は、すべての相互作用モードにおいて、特定のが利用できる高品質のフォック状態において、合計$N$の量子数に対して$N^{-1/3}$でスケールダウンされた推定誤差に達することである。 これは、閉じ込められたイオンと超伝導回路を用いたボソニックな実験において、そのような非線形プロセスの使用に関連する非線形力学の未解明の側面を明らかにし、それらと共に量子技術のさらなる発展を開放する。

Nonlinear processes with individual quanta beyond bilinear interactions are essential for quantum technology with bosonic systems. Diverse coherent splitting and merging of quanta in them already manifest in the estimation of their nonlinear coupling from observed statistics. We derive non-trivial, but optimal strategies for sensing the basic and experimentally available trilinear interactions using non-classical particle-like Fock states as a probe and feasible measurement strategies. Remarkably, the optimal probing of nonlinear coupling reaches estimation errors scaled down with $N^{-1/3}$ for overall $N$ of quanta in specific but available high-quality Fock states in all interacting modes. It can reveal unexplored aspects of nonlinear dynamics relevant to using such nonlinear processes in bosonic experiments with trapped ions and superconducting circuits and opens further developments of quantum technology with them.
翻訳日:2024-04-30 18:41:58 公開日:2024-04-27
# FedCRL:非IIDデータにおけるラベル不均一性のための比較共有表現を用いた個人化フェデレーション学習

FedCRL: Personalized Federated Learning with Contrastive Shared Representations for Label Heterogeneity in Non-IID Data ( http://arxiv.org/abs/2404.17916v1 )

ライセンス: Link先を確認
Chenghao Huang, Xiaolu Chen, Yanru Zhang, Hao Wang, (参考訳) 本稿では,分散機械学習シナリオにおけるラベル分布スキューとデータ不足から生じる不均一性に対処するため,FedCRL(Federated Contrastive Representation Learning)という,PFL(Personalized Federated Learning)アルゴリズムを提案する。 FedCRLは、クライアントの知識獲得を容易にするために、共有表現に関するコントラスト表現学習(CRL)を導入している。 具体的には、ローカルモデルパラメータとローカル表現の平均値の両方をサーバに共有可能な情報とみなし、どちらもグローバルに集約される。 CRLは局所的な表現とグローバルな表現の間で適用され、類似した表現を近づき、異なる表現を分離することでパーソナライズされたトレーニングを規則化する。 さらに、FedCRLは各ローカルモデルとグローバルモデルの間の局所的なアグリゲーションを採用して、データの不足に対処する。 ロスワイド重み付け機構を導入し、各局所モデルの対照的な損失を用いて局所的な集約を誘導し、各クライアントにおけるグローバルモデル関与を調整し、少ないデータでクライアントを支援する。 本シミュレーションは,ラベルの不均一性の度合いの異なるデータセット上で,既存の手法よりも精度良くラベルの不均一性を緩和するFedCRLの有効性を示す。

To deal with heterogeneity resulting from label distribution skew and data scarcity in distributed machine learning scenarios, this paper proposes a novel Personalized Federated Learning (PFL) algorithm, named Federated Contrastive Representation Learning (FedCRL). FedCRL introduces contrastive representation learning (CRL) on shared representations to facilitate knowledge acquisition of clients. Specifically, both local model parameters and averaged values of local representations are considered as shareable information to the server, both of which are then aggregated globally. CRL is applied between local representations and global representations to regularize personalized training by drawing similar representations closer and separating dissimilar ones, thereby enhancing local models with external knowledge and avoiding being harmed by label distribution skew. Additionally, FedCRL adopts local aggregation between each local model and the global model to tackle data scarcity. A loss-wise weighting mechanism is introduced to guide the local aggregation using each local model's contrastive loss to coordinate the global model involvement in each client, thus helping clients with scarce data. Our simulations demonstrate FedCRL's effectiveness in mitigating label heterogeneity by achieving accuracy improvements over existing methods on datasets with varying degrees of label heterogeneity.
翻訳日:2024-04-30 18:41:58 公開日:2024-04-27
# EvaNet:地球画像上の標高誘導洪水のマッピング

EvaNet: Elevation-Guided Flood Extent Mapping on Earth Imagery ( http://arxiv.org/abs/2404.17917v1 )

ライセンス: Link先を確認
Mirza Tanzim Sami, Da Yan, Saugat Adhikari, Lyuheng Yuan, Jiao Han, Zhe Jiang, Jalal Khalil, Yang Zhou, (参考訳) 高解像度衛星画像からの洪水範囲の正確なタイムリーマッピングは、被害評価や救援活動などの災害管理において重要な役割を担っている。 しかし、現在の最先端のソリューションはU-Netに基づいており、これは、スペクトルの特徴のみを直接判断することができない不明瞭なピクセル(例えば、ツリーキャノピー、雲)のために、フラッドピクセルを正確にセグメント化できない。 米国地質調査所 (USGS) などのソースから取得可能なデジタル標高モデル (DEM) により, 洪水範囲マッピングの改善を目的とした標高マップの活用が検討されている。 エンコーダ・デコーダアーキテクチャに基づく標高誘導セグメンテーションモデルであるEvaNetを提案する。(1) 重力の物理則を符号化した損失関数であり,(1) 位置が浸水(乾式)した場合,その位置が低い(乾式)位置も浸水(乾式)する必要がある。 大規模な実験により、EvaNetはU-Netベースラインを著しく上回り、洪水範囲マッピングの既存のソリューションにおけるU-Netの完全な代替として機能することが示された。

Accurate and timely mapping of flood extent from high-resolution satellite imagery plays a crucial role in disaster management such as damage assessment and relief activities. However, current state-of-the-art solutions are based on U-Net, which can-not segment the flood pixels accurately due to the ambiguous pixels (e.g., tree canopies, clouds) that prevent a direct judgement from only the spectral features. Thanks to the digital elevation model (DEM) data readily available from sources such as United States Geological Survey (USGS), this work explores the use of an elevation map to improve flood extent mapping. We propose, EvaNet, an elevation-guided segmentation model based on the encoder-decoder architecture with two novel techniques: (1) a loss function encoding the physical law of gravity that if a location is flooded (resp. dry), then its adjacent locations with a lower (resp. higher) elevation must also be flooded (resp. dry); (2) a new (de)convolution operation that integrates the elevation map by a location sensitive gating mechanism to regulate how much spectral features flow through adjacent layers. Extensive experiments show that EvaNet significantly outperforms the U-Net baselines, and works as a perfect drop-in replacement for U-Net in existing solutions to flood extent mapping.
翻訳日:2024-04-30 18:41:58 公開日:2024-04-27
# I have antention Bridge to Sell You: Generalization Capability of Modular Translation Architectures

I Have an Attention Bridge to Sell You: Generalization Capabilities of Modular Translation Architectures ( http://arxiv.org/abs/2404.17918v1 )

ライセンス: Link先を確認
Timothee Mickus, Raúl Vázquez, Joseph Attieh, (参考訳) モジュラリティ(Modularity)は機械翻訳のパラダイムであり、トレーニング時に大きく、推論時に小さくなるモデルを生み出す可能性を秘めている。 この研究分野において、モジュラーアプローチ、特に注意ブリッジは、言語に依存しない表現を育むことによってモデルの一般化能力を改善するために議論されてきた。 本稿では,モジュール性が翻訳品質にどのような影響を及ぼすか,また,モジュールアーキテクチャが様々な評価シナリオにまたがってどのように一般化されるかを検討する。 与えられた計算予算に対して、非モジュラーアーキテクチャは、我々が研究しているすべてのモジュラー設計と常に同等か好適である。

Modularity is a paradigm of machine translation with the potential of bringing forth models that are large at training time and small during inference. Within this field of study, modular approaches, and in particular attention bridges, have been argued to improve the generalization capabilities of models by fostering language-independent representations. In the present paper, we study whether modularity affects translation quality; as well as how well modular architectures generalize across different evaluation scenarios. For a given computational budget, we find non-modular architectures to be always comparable or preferable to all modular designs we study.
翻訳日:2024-04-30 18:41:58 公開日:2024-04-27
# Open-Set 3D Semantic Instance Maps for Vision Language Navigation -- O3D-SIM

Open-Set 3D Semantic Instance Maps for Vision Language Navigation -- O3D-SIM ( http://arxiv.org/abs/2404.17922v1 )

ライセンス: Link先を確認
Laksh Nanwani, Kumaraditya Gupta, Aditya Mathur, Swayam Agrawal, A. H. Abdul Hafez, K. Madhava Krishna, (参考訳) 人間は周囲のメンタルマップを作り、オブジェクトの関係を理解し、言語クエリに基づいてナビゲートする。 これまでのSIマップ[1]では、インスタンスレベルの情報と環境の意味的理解が、言語誘導タスクのパフォーマンスを著しく向上させることを示した。 このインスタンスレベルのアプローチを3Dに拡張し、パイプラインの堅牢性を高め、定量的かつ質的な結果を改善する。 本手法は,オブジェクト認識,画像分割,特徴抽出のための基礎モデルを活用する。 本稿では,3次元のクラウドマップをインスタンスレベルの埋め込みで表現し,自然言語コマンドがクエリできるというセマンティック理解をもたらす。 定量的には、作業は言語誘導タスクの成功率を改善する。 同時に、私たちはインスタンスをより明確に識別し、基礎的なモデルや言語、画像に整合した埋め込みを活用して、クローズドセットのアプローチでは識別できないオブジェクトを識別する能力も質的に観察しています。

Humans excel at forming mental maps of their surroundings, equipping them to understand object relationships and navigate based on language queries. Our previous work SI Maps [1] showed that having instance-level information and the semantic understanding of an environment helps significantly improve performance for language-guided tasks. We extend this instance-level approach to 3D while increasing the pipeline's robustness and improving quantitative and qualitative results. Our method leverages foundational models for object recognition, image segmentation, and feature extraction. We propose a representation that results in a 3D point cloud map with instance-level embeddings, which bring in the semantic understanding that natural language commands can query. Quantitatively, the work improves upon the success rate of language-guided tasks. At the same time, we qualitatively observe the ability to identify instances more clearly and leverage the foundational models and language and image-aligned embeddings to identify objects that, otherwise, a closed-set approach wouldn't be able to identify.
翻訳日:2024-04-30 18:41:58 公開日:2024-04-27
# 望ましいギャンブル集合の集合に関する結果

Results about sets of desirable gamble sets ( http://arxiv.org/abs/2404.17924v1 )

ライセンス: Link先を確認
Catrin Campbell-Moore, (参考訳) 望ましいギャンブル集合のコヒーレントな集合は、不確実性の下でエージェントの意見と選択の選好を表現するモデルとして使用される。 本稿では,コヒーレンスに必要な公理と,所与の所望のギャンブル集合の自然な拡張について述べる。 また、所望のギャンブル集合のコヒーレント集合は、所望のギャンブル集合のコヒーレント集合の適切なフィルタで表現できることを示す。

Coherent sets of desirable gamble sets is used as a model for representing an agents opinions and choice preferences under uncertainty. In this paper we provide some results about the axioms required for coherence and the natural extension of a given set of desirable gamble sets. We also show that coherent sets of desirable gamble sets can be represented by a proper filter of coherent sets of desirable gambles.
翻訳日:2024-04-30 18:41:58 公開日:2024-04-27
# 産業プロセスとIoT環境における高精度かつ高速な異常検出

Accurate and fast anomaly detection in industrial processes and IoT environments ( http://arxiv.org/abs/2404.17925v1 )

ライセンス: Link先を確認
Simone Tonini, Andrea Vandin, Francesca Chiaromonte, Daniele Licari, Fernando Barsacchi, (参考訳) 本稿では,産業用およびIoT用環境における異常検出のための新しい,シンプルで広く適用可能な半教師付き半教師付き手順であるSAnD(Simple Anomaly Detection)を提案する。 SAnDは5つのステップから構成されており、それぞれよく知られた統計ツール、すなわちスムージングフィルタ、分散インフレーション係数、マハラノビス距離、しきい値選択アルゴリズム、特徴重要度技術を利用している。 我々の知る限り、SAnDはこれらのツールを統合して異常を特定し、それらの原因を解読する最初の手順である。 各ステップが,信号の多重化,分布の不明化,長寿命の実異常による短寿命ノイズの相互干渉といった,産業的文脈における異常の検出において,実践者が直面する技術的課題への対処にどのように貢献するかを示す。 SAnDの開発は、我々の産業パートナーによる具体的なケーススタディによって動機づけられた。 また,SAnDの性能を,異常検出に関する文献からの公開データセット上での半教師付き手法の選択と比較することで評価した。 我々は、SAnDは有効であり、広く適用可能であり、異常検出と実行時の両方において既存のアプローチより優れていると結論付けている。

We present a novel, simple and widely applicable semi-supervised procedure for anomaly detection in industrial and IoT environments, SAnD (Simple Anomaly Detection). SAnD comprises 5 steps, each leveraging well-known statistical tools, namely; smoothing filters, variance inflation factors, the Mahalanobis distance, threshold selection algorithms and feature importance techniques. To our knowledge, SAnD is the first procedure that integrates these tools to identify anomalies and help decipher their putative causes. We show how each step contributes to tackling technical challenges that practitioners face when detecting anomalies in industrial contexts, where signals can be highly multicollinear, have unknown distributions, and intertwine short-lived noise with the long(er)-lived actual anomalies. The development of SAnD was motivated by a concrete case study from our industrial partner, which we use here to show its effectiveness. We also evaluate the performance of SAnD by comparing it with a selection of semi-supervised methods on public datasets from the literature on anomaly detection. We conclude that SAnD is effective, broadly applicable, and outperforms existing approaches in both anomaly detection and runtime.
翻訳日:2024-04-30 18:41:58 公開日:2024-04-27
# 高精細X線画像の事前学習:実験的検討

Pre-training on High Definition X-ray Images: An Experimental Study ( http://arxiv.org/abs/2404.17926v1 )

ライセンス: Link先を確認
Xiao Wang, Yuehang Li, Wentao Wu, Jiandong Jin, Yao Rong, Bo Jiang, Chuanfu Li, Jin Tang, (参考訳) 既存のX線ベースの事前訓練された視覚モデルは通常、解像度が制限された比較的小さなデータセット(500kサンプル未満)で実行される(例:224$\times$224)。 しかし、自己監督型事前学習型大規模モデルの成功の鍵は、大規模なトレーニングデータにあり、X線画像の領域における高解像度の維持は、難病に対する効果的な解決策の保証である。 本稿では,新たに収集した100万枚以上のX線画像を含む大規模データセット上に,X線に基づく事前学習基礎ビジョンモデル(1280$\times$1280)を提案することにより,これらの課題に対処する。 本モデルでは,マスク処理後のトークンを(高いレートで)入力し,トランスフォーマー・エンコーダ・デコーダネットワークによってマスク画像パッチを再構成するマスク自動エンコーダフレームワークを追従する。 さらに,適応型マスキング操作のバウンダリとして胸輪郭を利用する新しいコンテキスト対応マスキング戦略を導入する。 我々は,X線レポート生成と疾患認識を含む2つの下流課題に対するモデルの有効性を検証した。 大規模な実験により、我々のトレーニング済みの医療基盤ビジョンモデルが、下流ベンチマークデータセットで同等または新しい最先端のパフォーマンスを達成することが実証された。 この論文のソースコードと事前訓練されたモデルはhttps://github.com/Event-AHU/Medical_Image_Analysis.comで公開される。

Existing X-ray based pre-trained vision models are usually conducted on a relatively small-scale dataset (less than 500k samples) with limited resolution (e.g., 224 $\times$ 224). However, the key to the success of self-supervised pre-training large models lies in massive training data, and maintaining high resolution in the field of X-ray images is the guarantee of effective solutions to difficult miscellaneous diseases. In this paper, we address these issues by proposing the first high-definition (1280 $\times$ 1280) X-ray based pre-trained foundation vision model on our newly collected large-scale dataset which contains more than 1 million X-ray images. Our model follows the masked auto-encoder framework which takes the tokens after mask processing (with a high rate) is used as input, and the masked image patches are reconstructed by the Transformer encoder-decoder network. More importantly, we introduce a novel context-aware masking strategy that utilizes the chest contour as a boundary for adaptive masking operations. We validate the effectiveness of our model on two downstream tasks, including X-ray report generation and disease recognition. Extensive experiments demonstrate that our pre-trained medical foundation vision model achieves comparable or even new state-of-the-art performance on downstream benchmark datasets. The source code and pre-trained models of this paper will be released on https://github.com/Event-AHU/Medical_Image_Analysis.
翻訳日:2024-04-30 18:41:58 公開日:2024-04-27
# ビデオに基づく歩行者属性認識のための時空間側チューニング事前学習基礎モデル

Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition ( http://arxiv.org/abs/2404.17929v1 )

ライセンス: Link先を確認
Xiao Wang, Qian Zhu, Jiandong Jin, Jun Zhu, Futian Wang, Bo Jiang, Yaowei Wang, Yonghong Tian, (参考訳) 既存の歩行者属性認識(PAR)アルゴリズムは主に静的な画像に基づいて開発されているが、重い閉塞や動きのぼけなどの困難なシナリオでは信頼性が低い。 本研究では,事前学習したマルチモーダル基礎モデルを効率的に微調整することで,時間的情報を完全に活用できるビデオフレームを用いて人間の属性を理解することを提案する。 具体的には、映像ベースPARを視覚言語融合問題として定式化し、事前学習された基礎モデルCLIPを用いて視覚的特徴を抽出する。 さらに重要なことは、事前学習された視覚基盤モデルのパラメータ効率の最適化を実現するために、新しい時空間サイドチューニング戦略を提案することである。 セマンティック情報をよりよく活用するために、他の入力として認識する必要がある属性リストを抽出し、その属性単語/フレーズを分割、拡張、プロンプト操作によって対応する文に変換する。 次に、CLIPのテキストエンコーダを用いて、処理された属性記述を埋め込む。 平均的な視覚トークンとテキストトークンは連結され、マルチモーダル対話型学習のための融合トランスフォーマーに入力される。 拡張されたトークンは、歩行者属性の予測のために分類ヘッドに入力される。 2つの大規模ビデオベースPARデータセットの大規模な実験により,提案手法の有効性が検証された。 本論文のソースコードはhttps://github.com/Event-AHU/OpenPARで公開されている。

Existing pedestrian attribute recognition (PAR) algorithms are mainly developed based on a static image, however, the performance is unreliable in challenging scenarios, such as heavy occlusion, motion blur, etc. In this work, we propose to understand human attributes using video frames that can fully use temporal information by fine-tuning a pre-trained multi-modal foundation model efficiently. Specifically, we formulate the video-based PAR as a vision-language fusion problem and adopt a pre-trained foundation model CLIP to extract the visual features. More importantly, we propose a novel spatiotemporal side-tuning strategy to achieve parameter-efficient optimization of the pre-trained vision foundation model. To better utilize the semantic information, we take the full attribute list that needs to be recognized as another input and transform the attribute words/phrases into the corresponding sentence via split, expand, and prompt operations. Then, the text encoder of CLIP is utilized for embedding processed attribute descriptions. The averaged visual tokens and text tokens are concatenated and fed into a fusion Transformer for multi-modal interactive learning. The enhanced tokens will be fed into a classification head for pedestrian attribute prediction. Extensive experiments on two large-scale video-based PAR datasets fully validated the effectiveness of our proposed framework. The source code of this paper is available at https://github.com/Event-AHU/OpenPAR.
翻訳日:2024-04-30 18:32:14 公開日:2024-04-27
# 動的環境下で発生する実時間モデルのマルチストリームセルラーテスト時間適応

Multi-Stream Cellular Test-Time Adaptation of Real-Time Models Evolving in Dynamic Environments ( http://arxiv.org/abs/2404.17930v1 )

ライセンス: Link先を確認
Benoît Gérin, Anaïs Halin, Anthony Cioppa, Maxim Henry, Bernard Ghanem, Benoît Macq, Christophe De Vleeschouwer, Marc Van Droogenbroeck, (参考訳) IoT(Internet of Things)の時代、オブジェクトは5Gのような技術によって強化された動的ネットワークを介して接続され、リアルタイムなデータ共有を可能にする。 しかし、スマートオブジェクト、特に自動運転車は、限られたリソースのために重要なローカル計算の課題に直面している。 軽量AIモデルはソリューションを提供するが、多様なデータ分散に苦労する。 この制限に対処するため,我々は,モデルが高速で動的環境に適応するマルチストリームセルラーテスト時間適応(MSC-TTA)を提案する。 そこで本研究では,各セルで利用可能な複数のストリームを活用して,変化するデータ分布に迅速に適応するリアルタイム適応型学習者手法を提案する。 我々は、位置と天候条件に基づいて定義された細胞を横断する自動運転車の文脈で、我々の方法論を検証する。 将来のベンチマークを容易にするため,DADEと呼ばれるマルチストリーム大規模セマンティックセマンティックセマンティックデータセットを新たにリリースし,マルチストリームアプローチが単一ストリームベースラインを上回っていることを示す。 当社の研究はIoTと5G時代の研究機会を開放し、リアルタイムモデル適応のためのソリューションを提供すると考えています。

In the era of the Internet of Things (IoT), objects connect through a dynamic network, empowered by technologies like 5G, enabling real-time data sharing. However, smart objects, notably autonomous vehicles, face challenges in critical local computations due to limited resources. Lightweight AI models offer a solution but struggle with diverse data distributions. To address this limitation, we propose a novel Multi-Stream Cellular Test-Time Adaptation (MSC-TTA) setup where models adapt on the fly to a dynamic environment divided into cells. Then, we propose a real-time adaptive student-teacher method that leverages the multiple streams available in each cell to quickly adapt to changing data distributions. We validate our methodology in the context of autonomous vehicles navigating across cells defined based on location and weather conditions. To facilitate future benchmarking, we release a new multi-stream large-scale synthetic semantic segmentation dataset, called DADE, and show that our multi-stream approach outperforms a single-stream baseline. We believe that our work will open research opportunities in the IoT and 5G eras, offering solutions for real-time model adaptation.
翻訳日:2024-04-30 18:32:14 公開日:2024-04-27
# 一級分類の批判的レビュー--最近の進歩とその背景にある現実

Critical Review for One-class Classification: recent advances and the reality behind them ( http://arxiv.org/abs/2404.17931v1 )

ライセンス: Link先を確認
Toshitaka Hayashi, Dalibor Cimr, Hamido Fujita, Richard Cimler, (参考訳) 本稿では,一級分類(OCC)の包括的レビューを行い,その実装における技術と方法論について検討する。 OCCでは特徴データ、画像、ビデオ、時系列など、さまざまなデータタイプにまたがってさまざまなアプローチが採用されている。 本稿では,OCCにおけるプロミネント戦略の創始から現在の進歩までを体系的に検討し,将来的な応用に特に重点を置いている。 より詳しくは、この論文は、最先端(SOTA)画像異常検出(AD)アルゴリズムが一級実験を支配していることを批判している。 これらのアルゴリズムには、外部被曝(バイナリ分類)と事前訓練されたモデル(マルチクラス分類)が含まれ、あるクラスからの学習の基本的な概念と矛盾する。 調査の結果,一級CIFAR10ベンチマークの上位9つのアルゴリズムはOCCではないことがわかった。 バイナリ/マルチクラス分類アルゴリズムはOCCと組み合わせてはならない。

This paper offers a comprehensive review of one-class classification (OCC), examining the technologies and methodologies employed in its implementation. It delves into various approaches utilized for OCC across diverse data types, such as feature data, image, video, time series, and others. Through a systematic review, this paper synthesizes promi-nent strategies used in OCC from its inception to its current advance-ments, with a particular emphasis on the promising application. Moreo-ver, the article criticizes the state-of-the-art (SOTA) image anomaly de-tection (AD) algorithms dominating one-class experiments. These algo-rithms include outlier exposure (binary classification) and pretrained model (multi-class classification), conflicting with the fundamental con-cept of learning from one class. Our investigation reveals that the top nine algorithms for one-class CIFAR10 benchmark are not OCC. We ar-gue that binary/multi-class classification algorithms should not be com-pared with OCC.
翻訳日:2024-04-30 18:32:14 公開日:2024-04-27
# FDCE-Net:埋め込み周波数とデュアルカラーエンコーダによる水中画像強調

FDCE-Net: Underwater Image Enhancement with Embedding Frequency and Dual Color Encoder ( http://arxiv.org/abs/2404.17936v1 )

ライセンス: Link先を確認
Zheng Cheng, Guodong Fan, Jingchun Zhou, Min Gan, C. L. Philip Chen, (参考訳) 水中画像は、低明度、色の変化、ぼやけた細部、水や懸濁粒子による光吸収や散乱によるノイズなど、様々な問題に悩まされることが多い。 従来の水中画像強調法(UIE)は主に空間領域の強調に焦点を当てており、画像固有の周波数領域情報を無視している。 しかし, 水中画像の劣化要因は空間領域に密接に絡み合っている。 特定の手法は周波数領域における画像の強調に重点を置いているが、画像劣化要因と周波数領域に存在する情報との固有の関係を見落としている。 その結果、これらの手法は他の属性に不適切な対応や悪化をしつつ、改善された画像の特定の属性を頻繁に強化する。 さらに、既存の多くの手法は、水中画像における色変化問題に対処するための事前知識に大きく依存しており、柔軟性と堅牢性を制限している。 これらの制約を克服するために,本論文では,埋め込み周波数とデュアルカラーエンコーダネットワーク(FDCE-Net)を提案する。 1)周波数空間ネットワーク(FS-Net)は、設計した周波数空間残留ブロック(FSRB)を利用して、周波数領域における画像劣化要因を分離し、異なる属性を別々に拡張することで、初期拡張を実現する。 2)カラーシフト問題に対処するため,デュアルカラーエンコーダ(DCE)を導入する。 DCEは、クロスアテンションを通じて色と意味表現の相関を確立し、適応的な色クエリの最適化を導くために、マルチスケールな画像特徴を活用する。 最終拡張画像は、融合ネットワークを介してFS-NetとDCEの出力を組み合わせて生成される。 これらの画像は、豊かな細部、鮮明なテクスチャ、低ノイズ、そして自然の色を示している。

Underwater images often suffer from various issues such as low brightness, color shift, blurred details, and noise due to light absorption and scattering caused by water and suspended particles. Previous underwater image enhancement (UIE) methods have primarily focused on spatial domain enhancement, neglecting the frequency domain information inherent in the images. However, the degradation factors of underwater images are closely intertwined in the spatial domain. Although certain methods focus on enhancing images in the frequency domain, they overlook the inherent relationship between the image degradation factors and the information present in the frequency domain. As a result, these methods frequently enhance certain attributes of the improved image while inadequately addressing or even exacerbating other attributes. Moreover, many existing methods heavily rely on prior knowledge to address color shift problems in underwater images, limiting their flexibility and robustness. In order to overcome these limitations, we propose the Embedding Frequency and Dual Color Encoder Network (FDCE-Net) in our paper. The FDCE-Net consists of two main structures: (1) Frequency Spatial Network (FS-Net) aims to achieve initial enhancement by utilizing our designed Frequency Spatial Residual Block (FSRB) to decouple image degradation factors in the frequency domain and enhance different attributes separately. (2) To tackle the color shift issue, we introduce the Dual-Color Encoder (DCE). The DCE establishes correlations between color and semantic representations through cross-attention and leverages multi-scale image features to guide the optimization of adaptive color query. The final enhanced images are generated by combining the outputs of FS-Net and DCE through a fusion network. These images exhibit rich details, clear textures, low noise and natural colors.
翻訳日:2024-04-30 18:32:14 公開日:2024-04-27
# DTization: 改善された機能スケーリングのための新しい方法

DTization: A New Method for Supervised Feature Scaling ( http://arxiv.org/abs/2404.17937v1 )

ライセンス: Link先を確認
Niful Islam, (参考訳) 人工知能は現在、世界の様々な側面を形作る上で支配的な力である。 機械学習は人工知能のサブフィールドである。 フィーチャースケーリングは、機械学習アルゴリズムのパフォーマンスを改善するデータ前処理技術の1つである。 従来の機能スケーリングテクニックは、スケーリングプロセスにおける依存変数の影響を受けない、教師なしである。 本稿では,決定木とロバストスケーラを併用したDTizationという新しい機能スケーリング手法を提案する。 提案手法は,特徴量を測定するために決定木を用いており,その重要度に基づいて,ロバストスケーラアルゴリズムを用いて異なる特徴量をスケールする。 提案手法は, 各種評価行列を用いた10種類の分類・回帰データセットに対して広範囲に評価され, 従来の特徴スケーリング手法と比較して, 顕著な性能向上を示した。

Artificial intelligence is currently a dominant force in shaping various aspects of the world. Machine learning is a sub-field in artificial intelligence. Feature scaling is one of the data pre-processing techniques that improves the performance of machine learning algorithms. The traditional feature scaling techniques are unsupervised where they do not have influence of the dependent variable in the scaling process. In this paper, we have presented a novel feature scaling technique named DTization that employs decision tree and robust scaler for supervised feature scaling. The proposed method utilizes decision tree to measure the feature importance and based on the importance, different features get scaled differently with the robust scaler algorithm. The proposed method has been extensively evaluated on ten classification and regression datasets on various evaluation matrices and the results show a noteworthy performance improvement compared to the traditional feature scaling methods.
翻訳日:2024-04-30 18:32:14 公開日:2024-04-27
# 政策勾配の制御ランダム化手法と最適切替における強化学習への応用

Control randomisation approach for policy gradient and application to reinforcement learning in optimal switching ( http://arxiv.org/abs/2404.17939v1 )

ライセンス: Link先を確認
Robert Denkert, Huyên Pham, Xavier Warin, (参考訳) 本稿では,連続時間強化学習に適した政策勾配法に関する総合的な枠組みを提案する。 これは確率的制御問題とランダム化問題との接続に基づいており、例えば正規性、インパルス、最適停止/スイッチング問題を含む拡散モデルを超えて、マルコフ的連続時間制御問題の様々なクラスにまたがるアプリケーションを可能にする。 制御ランダム化手法における測度の変化を利用して、これらのランダム化問題に対する新しいポリシー勾配表現を導出し、パラメトリド強度ポリシーを特徴とする。 さらに,一般的なマルコフ確率制御問題に対処するために,アクタ批判アルゴリズムを開発した。 この枠組みは, 実オプションに着目したエネルギーセクターにおける2つの数値ケーススタディを用いて, 最適スイッチング問題への適用を通じて実証された。

We propose a comprehensive framework for policy gradient methods tailored to continuous time reinforcement learning. This is based on the connection between stochastic control problems and randomised problems, enabling applications across various classes of Markovian continuous time control problems, beyond diffusion models, including e.g. regular, impulse and optimal stopping/switching problems. By utilizing change of measure in the control randomisation technique, we derive a new policy gradient representation for these randomised problems, featuring parametrised intensity policies. We further develop actor-critic algorithms specifically designed to address general Markovian stochastic control issues. Our framework is demonstrated through its application to optimal switching problems, with two numerical case studies in the energy sector focusing on real options.
翻訳日:2024-04-30 18:32:14 公開日:2024-04-27
# マルチリレーショナル再帰型ハイパーグラフにおけるインタラクションイベント予測:時間的ポイントプロセスアプローチ

Interaction Event Forecasting in Multi-Relational Recursive HyperGraphs: A Temporal Point Process Approach ( http://arxiv.org/abs/2404.17943v1 )

ライセンス: Link先を確認
Tony Gracious, Ambedkar Dukkipati, (参考訳) 進化するグラフを用いて相互作用するエンティティのダイナミクスをモデル化することは、金融ネットワークやeコマースといった分野において重要な問題である。 伝統的なアプローチは、主にペアの相互作用に焦点を当て、複数の実体と複雑な関係構造を含む現実世界の相互作用の複雑さを捉える能力を制限する。 本研究は,マルチリレーショナル再帰的ハイパーグラフにおける高次相互作用事象の予測問題に対処する。 これは動的グラフ表現学習フレームワークを使用して行われ、複数のエンティティを含む複雑な関係をキャプチャすることができる。 提案モデルでは,履歴的相互作用パターンに基づいて動的ノード表現を学習するエンコーダを用いて,イベントの発生をモデル化するハイパーエッジリンク予測に基づくデコーダを提案する。 これらの学習された表現は、対話のタイプと時間を予測することを含む下流タスクに使用される。 ハイパーエッジイベントから学ぶ上での大きな課題は、ネットワーク内のノード数とともに、考えられるハイパーエッジの数が指数関数的に増加することだ。 これにより、生存関数の計算は、可能なすべてのハイパーエッジの和を必要とするため、時間点過程の負の対数類似性の計算が高価になる。 本研究では,ノイズコントラスト推定を用いてモデルのパラメータを学習し,従来のインタラクション予測手法よりも優れた性能を示すことを示す。

Modeling the dynamics of interacting entities using an evolving graph is an essential problem in fields such as financial networks and e-commerce. Traditional approaches focus primarily on pairwise interactions, limiting their ability to capture the complexity of real-world interactions involving multiple entities and their intricate relationship structures. This work addresses the problem of forecasting higher-order interaction events in multi-relational recursive hypergraphs. This is done using a dynamic graph representation learning framework that can capture complex relationships involving multiple entities. The proposed model, \textit{Relational Recursive Hyperedge Temporal Point Process} (RRHyperTPP) uses an encoder that learns a dynamic node representation based on the historical interaction patterns and then a hyperedge link prediction based decoder to model the event's occurrence. These learned representations are then used for downstream tasks involving forecasting the type and time of interactions. The main challenge in learning from hyperedge events is that the number of possible hyperedges grows exponentially with the number of nodes in the network. This will make the computation of negative log-likelihood of the temporal point process expensive, as the calculation of survival function requires a summation over all possible hyperedges. In our work, we use noise contrastive estimation to learn the parameters of our model, and we have experimentally shown that our models perform better than previous state-of-the-art methods for interaction forecasting.
翻訳日:2024-04-30 18:32:14 公開日:2024-04-27
# ノード特徴攻撃を受けるグラフニューラルネットワークのロバスト性について

Bounding the Expected Robustness of Graph Neural Networks Subject to Node Feature Attacks ( http://arxiv.org/abs/2404.17947v1 )

ライセンス: Link先を確認
Yassine Abbahaddou, Sofiane Ennadir, Johannes F. Lutzeyer, Michalis Vazirgiannis, Henrik Boström, (参考訳) グラフニューラルネットワーク(GNN)は、様々なグラフ表現学習タスクにおいて最先端のパフォーマンスを実証している。 近年,敵の攻撃に対する脆弱性が報告されている。 本研究では,属性付きグラフの文脈で期待されるロバスト性の概念を理論的に定義し,グラフ表現学習文献における古典的な逆ロバスト性の定義と関連づける。 我々の定義では、ノード特徴攻撃を受けるグラフ畳み込みネットワーク(GCN)とグラフ同型ネットワーク(Graph Isomorphism Networks)の、期待されるロバスト性の上限を導出することができる。 これらの結果に基づいて,GNNの強靭性と重み行列の正則性を結合し,グラフ畳み込みオルソノーマルロバストネットワーク (GCORN) と呼ばれるGCNの攻撃非依存的でより堅牢な変種を提案する。 さらに,予測ロバスト性を推定する確率的手法を導入し,複数の実世界のデータセット上でGCORNの有効性を評価する。 実験により、GCORNは利用可能な防御方法よりも優れていた。 私たちのコードは以下に公開されています。 \href{https://github.com/Sennadir/GCORN}{https://github.com/Sennadir/GCORN}。

Graph Neural Networks (GNNs) have demonstrated state-of-the-art performance in various graph representation learning tasks. Recently, studies revealed their vulnerability to adversarial attacks. In this work, we theoretically define the concept of expected robustness in the context of attributed graphs and relate it to the classical definition of adversarial robustness in the graph representation learning literature. Our definition allows us to derive an upper bound of the expected robustness of Graph Convolutional Networks (GCNs) and Graph Isomorphism Networks subject to node feature attacks. Building on these findings, we connect the expected robustness of GNNs to the orthonormality of their weight matrices and consequently propose an attack-independent, more robust variant of the GCN, called the Graph Convolutional Orthonormal Robust Networks (GCORNs). We further introduce a probabilistic method to estimate the expected robustness, which allows us to evaluate the effectiveness of GCORN on several real-world datasets. Experimental experiments showed that GCORN outperforms available defense methods. Our code is publicly available at: \href{https://github.com/Sennadir/GCORN}{https://github.com/Sennadir/GCORN}.
翻訳日:2024-04-30 18:32:14 公開日:2024-04-27
# 多票質問応答のための移動学習による一票決定の強化

Transfer Learning Enhanced Single-choice Decision for Multi-choice Question Answering ( http://arxiv.org/abs/2404.17949v1 )

ライセンス: Link先を確認
Chenhao Cui, Yufan Jiang, Shuangzhi Wu, Zhoujun Li, (参考訳) MMRC(Multi-choice Machine Reading Comprehension)は、与えられた文節と質問に基づいて、オプションのセットから正しい回答を選択することを目的としている。 既存の手法では, 学習済み言語モデルをエンコーダとして使用し, 微調整による知識の共有と伝達を主眼として, 通訳, 質問, 回答の三重項間の関係を効果的に捉えるための, 精巧なメカニズムの設計に重点を置いている。 本稿では,MMRC のタスク特化により,SQuAD などの他の MRC タスクから知識を伝達することは自明ではないが無視されている。 そして、最も信頼度の高い選択肢を最終回答として選択する。 提案手法はマルチ選択フレームワークを排除し,他のタスクのリソースを活用できる。 我々は、ALBERT-xxlargeモデルに基づいてモデルを構築し、RASおよびDREAMデータセットに基づいて評価する。 実験結果から,本モデルはマルチ選択法よりも優れた性能を示した。 さらに,他の種類のMRCタスクから知識を伝達することにより,単一およびアンサンブル設定で最新の結果が得られる。

Multi-choice Machine Reading Comprehension (MMRC) aims to select the correct answer from a set of options based on a given passage and question. The existing methods employ the pre-trained language model as the encoder, share and transfer knowledge through fine-tuning.These methods mainly focus on the design of exquisite mechanisms to effectively capture the relationships among the triplet of passage, question and answers. It is non-trivial but ignored to transfer knowledge from other MRC tasks such as SQuAD due to task specific of MMRC.In this paper, we reconstruct multi-choice to single-choice by training a binary classification to distinguish whether a certain answer is correct. Then select the option with the highest confidence score as the final answer. Our proposed method gets rid of the multi-choice framework and can leverage resources of other tasks. We construct our model based on the ALBERT-xxlarge model and evaluate it on the RACE and DREAM datasets. Experimental results show that our model performs better than multi-choice methods. In addition, by transferring knowledge from other kinds of MRC tasks, our model achieves state-of-the-art results in both single and ensemble settings.
翻訳日:2024-04-30 18:32:14 公開日:2024-04-27
# Cauchy-Schwarz分権情報箱

Cauchy-Schwarz Divergence Information Bottleneck for Regression ( http://arxiv.org/abs/2404.17951v1 )

ライセンス: Link先を確認
Shujian Yu, Xi Yu, Sigurd Løkse, Robert Jenssen, Jose C. Principe, (参考訳) 情報ボトルネック(IB)アプローチは、ディープニューラルネットワークの一般化、堅牢性、説明可能性を改善するために人気がある。 基本的には、圧縮項 $I(\mathbf{x};\mathbf{t})$ と予測項 $I(y;\mathbf{t})$ とのトレードオフを打つことで、最小の表現 $\mathbf{t}$ を見つけることを目的としている。 MIは、KL(Kullback-Leibler)の発散で表されるほとんどの部分において、平均二乗誤差(MSE)損失とガウス的仮定と変分推論によって近似された圧縮に基づく予測に対応する。 本稿では、回帰問題に対するICBの原理を考察し、コーシー・シュワルツ(CS)の分岐の好ましい性質を利用して、深いニューラルネットワークでIBをパラメータ化する新しい方法を開発する。 これにより、MSEに基づく回帰から脱却し、変分近似や分布仮定を回避して推定を容易にする。 提案するCS-IBの一般化能力の改善について検討し,強い対向性保証を示す。 我々は6つの実世界の回帰タスクにおいて、他の人気のある深いIBアプローチよりも優れた性能を示す。 また,CS-IBによって発見された解は,情報平面における予測精度と圧縮比との最良のトレードオフを常に達成している。 コードは \url{https://github.com/SJYuCNEL/Cauchy-Schwarz-Information-Bottleneck} で公開されている。

The information bottleneck (IB) approach is popular to improve the generalization, robustness and explainability of deep neural networks. Essentially, it aims to find a minimum sufficient representation $\mathbf{t}$ by striking a trade-off between a compression term $I(\mathbf{x};\mathbf{t})$ and a prediction term $I(y;\mathbf{t})$, where $I(\cdot;\cdot)$ refers to the mutual information (MI). MI is for the IB for the most part expressed in terms of the Kullback-Leibler (KL) divergence, which in the regression case corresponds to prediction based on mean squared error (MSE) loss with Gaussian assumption and compression approximated by variational inference. In this paper, we study the IB principle for the regression problem and develop a new way to parameterize the IB with deep neural networks by exploiting favorable properties of the Cauchy-Schwarz (CS) divergence. By doing so, we move away from MSE-based regression and ease estimation by avoiding variational approximations or distributional assumptions. We investigate the improved generalization ability of our proposed CS-IB and demonstrate strong adversarial robustness guarantees. We demonstrate its superior performance on six real-world regression tasks over other popular deep IB approaches. We additionally observe that the solutions discovered by CS-IB always achieve the best trade-off between prediction accuracy and compression ratio in the information plane. The code is available at \url{https://github.com/SJYuCNEL/Cauchy-Schwarz-Information-Bottleneck}.
翻訳日:2024-04-30 18:32:14 公開日:2024-04-27
# アプリケーションソフトウェアにおけるサードパーティ製ライブラリセキュリティ研究の実態調査

A Survey of Third-Party Library Security Research in Application Software ( http://arxiv.org/abs/2404.17955v1 )

ライセンス: Link先を確認
Jia Zeng, Dan Han, Yaling Zhu, Yangzhong Wang, Fangchen Weng, (参考訳) 現在のソフトウェア開発環境では、サードパーティのライブラリが重要な役割を果たす。 開発者に豊富な機能と便利なソリューションを提供し、ソフトウェア開発のペースと効率を早める。 しかし、サードパーティのライブラリが広く使われるようになると、セキュリティ上のリスクと潜在的な脆弱性がますます顕在化している。 悪意ある攻撃者は、これらの脆弱性を利用してシステムに侵入したり、不正な操作を実行したり、機密情報を盗んだりすることができる。 ソフトウェアにおけるサードパーティのライブラリの研究は、この増大するセキュリティ問題に対処する上で、最重要課題となる。 サードパーティのライブラリの使用、エコシステム、検出、要塞防衛に関する多くの研究結果が存在する。 サードパーティライブラリの使用とエコシステムを理解することで、開発者は彼らがもたらす潜在的なリスクを理解し、信頼できるライブラリを選択します。 サードパーティのライブラリ検出ツールは、ソフトウェアでサードパーティのライブラリを自動的に検出し、管理を容易にする。 検出に加えて、要塞防御も不可欠である。 本稿では,この文献を深く研究し,分析し,現在の研究成果と今後の開発方向性を要約する。 開発者と研究者に実用的で価値のある洞察を提供することを目標とし、ソフトウェアエコシステムの健全な開発を共同で推進し、セキュリティ上の脅威からソフトウェアを保護します。

In the current software development environment, third-party libraries play a crucial role. They provide developers with rich functionality and convenient solutions, speeding up the pace and efficiency of software development. However, with the widespread use of third-party libraries, associated security risks and potential vulnerabilities are increasingly apparent. Malicious attackers can exploit these vulnerabilities to infiltrate systems, execute unauthorized operations, or steal sensitive information, posing a severe threat to software security. Research on third-party libraries in software becomes paramount to address this growing security challenge. Numerous research findings exist regarding third-party libraries' usage, ecosystem, detection, and fortification defenses. Understanding the usage and ecosystem of third-party libraries helps developers comprehend the potential risks they bring and select trustworthy libraries. Third-party library detection tools aid developers in automatically discovering third-party libraries in software, facilitating their management. In addition to detection, fortification defenses are also indispensable. This article profoundly investigates and analyzes this literature, summarizing current research achievements and future development directions. It aims to provide practical and valuable insights for developers and researchers, jointly promoting the healthy development of software ecosystems and better-protecting software from security threats.
翻訳日:2024-04-30 18:32:14 公開日:2024-04-27
# 構造化マルコフ過程の一般クラスの効率的な解の量子アルゴリズムについて

On Quantum Algorithms for Efficient Solutions of General Classes of Structured Markov Processes ( http://arxiv.org/abs/2404.17959v1 )

ライセンス: Link先を確認
Vasileios Kalantzis, Mark S. Squillante, Shashanka Ubaru, (参考訳) 構造化マルコフ過程の一般クラスの定常分布を効率的に計算する基礎的問題について検討する。 従来の研究とは対照的に、数学的観点から量子計算環境の文脈内でこの問題を考察し、構造化マルコフ過程の定常分布を計算するための最初の量子アルゴリズムを考案する。 我々は、量子アルゴリズムの計算特性の数学的解析と関連する理論的結果から導出し、量子アルゴリズムが、理論上および実用上重要な様々な設定において、最もよく知られた古典的アルゴリズムの計算性能よりも大幅に向上する可能性を証明した。 構造化マルコフ過程によって動機づけられたものの、我々の量子アルゴリズムはより大規模な数値計算問題に対処するために利用される可能性がある。

We study the fundamental problem of efficiently computing the stationary distribution of general classes of structured Markov processes. In strong contrast with previous work, we consider this problem within the context of quantum computational environments from a mathematical perspective and devise the first quantum algorithms for computing the stationary distribution of structured Markov processes. We derive a mathematical analysis of the computational properties of our quantum algorithms together with related theoretical results, establishing that our quantum algorithms provide the potential for significant computational improvements over that of the best-known classical algorithms in various settings of both theoretical and practical importance. Although motivated by structured Markov processes, our quantum algorithms have the potential for being exploited to address a much larger class of numerical computation problems.
翻訳日:2024-04-30 18:32:14 公開日:2024-04-27
# PhishGuard: 説明可能性分析によるフィッシングURLの検出のための畳み込みニューラルネットワークベースモデル

PhishGuard: A Convolutional Neural Network Based Model for Detecting Phishing URLs with Explainability Analysis ( http://arxiv.org/abs/2404.17960v1 )

ライセンス: Link先を確認
Md Robiul Islam, Md Mahamodul Islam, Mst. Suraiya Afrin, Anika Antara, Nujhat Tabassum, Al Amin, (参考訳) サイバーセキュリティは、個人、産業、組織のサイバーシステムに大きく依存しているため、世界的な問題の一つである。 サイバー攻撃の中で、フィッシングは急速に増加し、世界経済に影響を及ぼしている。 したがって、この現象は、個人レベルと組織レベルの両方において、ユーザ認識と堅牢なサポートを強化するための重要な必要性を強調している。 フィッシングURLの識別は、この問題に対処する最善の方法だ。 フィッシングURLの検出を自動化するために,機械学習と深層学習の手法が提案されている。 しかし、これらのアプローチはより正確で、限られたサンプルからなるデータセットに依存していることが多い。 さらに、これらのブラックボックスインテリジェントモデルは、不審なURLを検出するために、出力に影響を及ぼす特徴を理解するために適切な説明が必要である。 この問題に対処するため,我々は1次元畳み込みニューラルネットワーク(CNN)を提案し,膨大な機能と大量のデータを用いてモデルを訓練した。 提案したモデルは99.85%の精度で既存の作品より優れている。 さらに、説明可能性分析では、フィッシングURLの識別に大きく貢献する特定の特徴を強調している。

Cybersecurity is one of the global issues because of the extensive dependence on cyber systems of individuals, industries, and organizations. Among the cyber attacks, phishing is increasing tremendously and affecting the global economy. Therefore, this phenomenon highlights the vital need for enhancing user awareness and robust support at both individual and organizational levels. Phishing URL identification is the best way to address the problem. Various machine learning and deep learning methods have been proposed to automate the detection of phishing URLs. However, these approaches often need more convincing accuracy and rely on datasets consisting of limited samples. Furthermore, these black box intelligent models decision to detect suspicious URLs needs proper explanation to understand the features affecting the output. To address the issues, we propose a 1D Convolutional Neural Network (CNN) and trained the model with extensive features and a substantial amount of data. The proposed model outperforms existing works by attaining an accuracy of 99.85%. Additionally, our explainability analysis highlights certain features that significantly contribute to identifying the phishing URL.
翻訳日:2024-04-30 18:32:14 公開日:2024-04-27
# 複雑な運転シーンの異常セグメンテーションのための画素マニフォールドのランダムウォーク

Random Walk on Pixel Manifolds for Anomaly Segmentation of Complex Driving Scenes ( http://arxiv.org/abs/2404.17961v1 )

ライセンス: Link先を確認
Zelong Zeng, Kaname Tomite, (参考訳) 複雑な運転シーンの異常セグメンテーションにおいて、最先端の手法は異常スコアを計算するために異常スコア関数を利用する。 これらの関数に対して、各画素に対する不整クラスのロジットを正確に予測することは、異常スコアを正確に推測するために重要である。 しかし、現実世界の運転シナリオでは、シーンの多様性は、しばしば埋め込み空間に画素埋め込みの歪んだ多様体をもたらす。 この効果は、既存の手法で見過ごされる関心事である、推論中のロジット予測にピクセル埋め込みを直接使用することには影響しない。 この問題に対処するために,Pixel Manifolds (RWPM) 上でランダムウォーク(Random Walk)と呼ばれる新しい手法を提案する。 RWPMはランダムウォークを用いて画素間の固有の関係を明らかにし、画素埋め込みを洗練させる。 改良された画素埋め込みにより多様体の歪みが軽減され、異常スコアの精度が向上する。 大規模な実験により,RWPMは既存の異常セグメンテーション法の性能を一貫して改善し,最良の結果が得られることが示された。 コード: \url{https://github.com/ZelongZeng/RWPM}。

In anomaly segmentation for complex driving scenes, state-of-the-art approaches utilize anomaly scoring functions to calculate anomaly scores. For these functions, accurately predicting the logits of inlier classes for each pixel is crucial for precisely inferring the anomaly score. However, in real-world driving scenarios, the diversity of scenes often results in distorted manifolds of pixel embeddings in embedding space. This effect is not conducive to directly using the pixel embeddings for the logit prediction during inference, a concern overlooked by existing methods. To address this problem, we propose a novel method called Random Walk on Pixel Manifolds (RWPM). RWPM utilizes random walks to reveal the intrinsic relationships among pixels to refine the pixel embeddings. The refined pixel embeddings alleviate the distortion of manifolds, improving the accuracy of anomaly scores. Our extensive experiments show that RWPM consistently improve the performance of the existing anomaly segmentation methods and achieve the best results. Code: \url{https://github.com/ZelongZeng/RWPM}.
翻訳日:2024-04-30 18:32:14 公開日:2024-04-27
# 低レイテンシ, 量子受信型RFセンシングのための深層学習

Deep Learning for Low-Latency, Quantum-Ready RF Sensing ( http://arxiv.org/abs/2404.17962v1 )

ライセンス: Link先を確認
Pranav Gokhale, Caitlin Carnahan, William Clark, Frederic T. Chong, (参考訳) 近年の研究では、無線周波数(RF)信号のソフトウェア処理を強化するためにディープラーニングを適用することが期待されている。 並行して、Rydberg原子に基づく量子RFセンサーによるハードウェア開発は、周波数範囲、解像度、感度の長年の障壁を破っている。 本稿では,RF信号分類のための量子可読機械学習手法の実装について述べる。 ディープラーニングはより強力な計算パラダイムを提供する一方で、従来は大規模なデプロイメントを妨げる遅延オーバーヘッドを発生させていました。 私たちの仕事は3つの軸にまたがっている。 1) 新しい連続ウェーブレット変換(CWT)に基づくリカレントニューラルネットワーク(RNN)アーキテクチャにより,サンプリング時間を短縮したRF信号のオンライン分類が可能となる。 2) CPU と GPU の低遅延推論技術は,100倍以上の時間削減を達成し,ミリ秒未満の推論でリアルタイムな動作を可能にする。 3)Rydberg原子QRFセンサの物理シミュレーションへの応用による量子可視性の評価を行った。 また、量子技術を使って従来の物理的限界を超える次世代RFセンサーへの作業ブリッジは、リアルタイムデプロイメントに適したレイテンシ最適化AI/MLソフトウェアと組み合わせられます。

Recent work has shown the promise of applying deep learning to enhance software processing of radio frequency (RF) signals. In parallel, hardware developments with quantum RF sensors based on Rydberg atoms are breaking longstanding barriers in frequency range, resolution, and sensitivity. In this paper, we describe our implementations of quantum-ready machine learning approaches for RF signal classification. Our primary objective is latency: while deep learning offers a more powerful computational paradigm, it also traditionally incurs latency overheads that hinder wider scale deployment. Our work spans three axes. (1) A novel continuous wavelet transform (CWT) based recurrent neural network (RNN) architecture that enables flexible online classification of RF signals on-the-fly with reduced sampling time. (2) Low-latency inference techniques for both GPU and CPU that span over 100x reductions in inference time, enabling real-time operation with sub-millisecond inference. (3) Quantum-readiness validated through application of our models to physics-based simulation of Rydberg atom QRF sensors. Altogether, our work bridges towards next-generation RF sensors that use quantum technology to surpass previous physical limits, paired with latency-optimized AI/ML software that is suitable for real-time deployment.
翻訳日:2024-04-30 18:32:14 公開日:2024-04-27
# ハードフォーク用ゼロショットパッチポーティングの自動化

Automating Zero-Shot Patch Porting for Hard Forks ( http://arxiv.org/abs/2404.17964v1 )

ライセンス: Link先を確認
Shengyi Pan, You Wang, Zhongxin Liu, Xing Hu, Xin Xia, Shanping Li, (参考訳) フォークはコード再利用の典型的な方法であり、既存のコードベースをコピーして修正することで、開発者が(ハードフォークとして記述された)変種ソフトウェアを作成できる簡単な方法を提供する。 利点はあるものの、フォークはソフトウェアのメンテナンスにおける重複の努力にもつながります。 開発者は、同様のバグに対処したり、同様の機能を実装するために、ハードフォークにパッチを移植する必要がある。 ソースコードとハードフォークの相違により、パッチポーティングは複雑であり、同じ機能の異なる実装に適応する必要がある。 この作業では、ゼロショット設定でハードフォークのパッチポーティングを自動化する第一歩を踏み出します。 VimからNeovimに移植されたパッチについて,この10年間で実証的研究を行い,パッチ移植の必要性と現状の潜在的な欠陥について検討した。 そこで我々は,大規模言語モデル (LLM) に基づくアプローチ (PPatHF) を提案し,機能的にハードフォーク用のパッチを自動的に移植する。 具体的には、PPatHFは還元モジュールと移植モジュールからなる。 参照プロジェクトからの関数の前および後のバージョンと対象プロジェクトからの対応する関数とが与えられた場合、リダクションモジュールは、パッチにあまり関係のないコードスニペットを除去することにより、まず入力関数をスリム化する。 次に、移植モジュールはLLMを利用して、対象プロジェクトからの関数にパッチを適用する。 Vimから移植した310のNeovimパッチ上でPPatHFを評価した。 実験の結果,PPatHFはベースラインよりも有意に優れていた。 具体的には、PPatHFは131 (42.3%)のパッチを正しく移植し、開発者がパッチを移植するのに必要な手動編集の57%を自動化することができる。

Forking is a typical way of code reuse, which provides a simple way for developers to create a variant software (denoted as hard fork) by copying and modifying an existing codebase. Despite of the benefits, forking also leads to duplicate efforts in software maintenance. Developers need to port patches across the hard forks to address similar bugs or implement similar features. Due to the divergence between the source project and the hard fork, patch porting is complicated, which requires an adaption regarding different implementations of the same functionality. In this work, we take the first step to automate patch porting for hard forks under a zero-shot setting. We first conduct an empirical study of the patches ported from Vim to Neovim over the last ten years to investigate the necessities of patch porting and the potential flaws in the current practice. We then propose a large language model (LLM) based approach (namely PPatHF) to automatically port patches for hard forks on a function-wise basis. Specifically, PPatHF is composed of a reduction module and a porting module. Given the pre- and post-patch versions of a function from the reference project and the corresponding function from the target project, the reduction module first slims the input functions by removing code snippets less relevant to the patch. Then, the porting module leverages a LLM to apply the patch to the function from the target project. We evaluate PPatHF on 310 Neovim patches ported from Vim. The experimental results show that PPatHF outperforms the baselines significantly. Specifically, PPatHF can correctly port 131 (42.3%) patches and automate 57% of the manual edits required for the developer to port the patch.
翻訳日:2024-04-30 18:22:24 公開日:2024-04-27
# ビルド時間を割かずに高構成のソフトウェアをテストするためのパッチカバレッジの最大化

Maximizing Patch Coverage for Testing of Highly-Configurable Software without Exploding Build Times ( http://arxiv.org/abs/2404.17966v1 )

ライセンス: Link先を確認
Necip Fazıl Yıldıran, Jeho Oh, Julia Lawall, Paul Gazzillo, (参考訳) Linuxカーネルは高度に構成可能で、ビルドシステムは構成ファイルを入力として取り、それに応じてソースコードを自動的に調整する。 しかし、異なる設定オプションが異なるコードフラグメントを含ませることにつながるため、構成性はテストが複雑になる。 毎月数千のパッチを受け取り、Linuxカーネルのメンテナは大規模な継続的統合テストを自動化している。 パッチカバレッジを試すために、現在のアプローチでは、全ステートメントカバレッジを最大化する構成ファイルを使うか、複数のランダムに生成された構成ファイルを使用する。 ビルド時間を浪費することなくパッチカバレッジを実現するために,ビルド時間にほとんど影響を与えずにパッチカバレッジの低い構成ファイルを自動的に修復するkrepairを提案する。 krepairは、設定ファイルの小さな変更セットを発見して、パッチカバレッジを確保し、元の設定ファイルの設定の大部分を保存する。 我々の評価では、最近のLinuxカーネルのパッチの統計的に重要なサンプルに対するパッチカバレッジの低い構成ファイルに適用すると、krepairは、ほぼ完全なパッチカバレッジを平均98.5%達成し、元のデフォルト設定ファイルの1.53%を99%のパッチで変更し、ビルド時間は最大構成ファイルの10.5倍高速である。

The Linux kernel is highly-configurable, with a build system that takes a configuration file as input and automatically tailors the source code accordingly. Configurability, however, complicates testing, because different configuration options lead to the inclusion of different code fragments. With thousands of patches received per month, Linux kernel maintainers employ extensive automated continuous integration testing. To attempt patch coverage, i.e., taking all changed lines into account, current approaches either use configuration files that maximize total statement coverage or use multiple randomly-generated configuration files, both of which incur high build times without guaranteeing patch coverage. To achieve patch coverage without exploding build times, we propose krepair, which automatically repairs configuration files that are fast-building but have poor patch coverage to achieve high patch coverage with little effect on build times. krepair works by discovering a small set of changes to a configuration file that will ensure patch coverage, preserving most of the original configuration file's settings. Our evaluation shows that, when applied to configuration files with poor patch coverage on a statistically-significant sample of recent Linux kernel patches, krepair achieves nearly complete patch coverage, 98.5% on average, while changing less than 1.53% of the original default configuration file in 99% of patches, which keeps build times 10.5x faster than maximal configuration files.
翻訳日:2024-04-30 18:22:24 公開日:2024-04-27
# SCorP: 統計インフォームド・デンス対応予測

SCorP: Statistics-Informed Dense Correspondence Prediction Directly from Unsegmented Medical Images ( http://arxiv.org/abs/2404.17967v1 )

ライセンス: Link先を確認
Krithika Iyer, Jadie Adams, Shireen Y. Elhabian, (参考訳) 統計形状モデリング(SSM)は、解剖学的構造の幾何学的変動を定量化し分析するための強力な計算フレームワークであり、医学研究、診断、治療計画の進歩を促進する。 画像データから形状モデリングを行う従来の手法は、重要なマニュアルや計算資源を必要とする。 さらに、これらの手法は、新しいデータに対して形状記述子(例えば、表面上の点対応)を導出するために、モデリングパイプライン全体を繰り返す必要がある。 ディープラーニングのアプローチは、新しいデータに基づくSSMの構築の合理化を約束する一方で、深層ネットワークのトレーニングを監督する従来の技術に依存している。 さらに、従来のアプローチの線形性仮定は有効性を制限し、最適化/確立された対応を用いて訓練されたディープラーニングモデルにも制限が受け継がれている。 その結果、複雑な解剖の表現が困難になる。 これらの制約に対処するため,SCorPは,非分割画像から直接表面上の対応を予測できる新しいフレームワークである。 表面メッシュから直接学習した形状を教師なしで活用することにより、トレーニングの監督のために最適化された形状モデルの必要性を解消する。 前の強い形状は教師として機能し、学生ネットワークの特徴学習を規則化し、表面の対応を予測できる画像に基づく特徴の学習に役立てる。 線形性仮定を緩和しつつ、対応予測タスクの監督を取り除き、トレーニングと推論フェーズを合理化する。

Statistical shape modeling (SSM) is a powerful computational framework for quantifying and analyzing the geometric variability of anatomical structures, facilitating advancements in medical research, diagnostics, and treatment planning. Traditional methods for shape modeling from imaging data demand significant manual and computational resources. Additionally, these methods necessitate repeating the entire modeling pipeline to derive shape descriptors (e.g., surface-based point correspondences) for new data. While deep learning approaches have shown promise in streamlining the construction of SSMs on new data, they still rely on traditional techniques to supervise the training of the deep networks. Moreover, the predominant linearity assumption of traditional approaches restricts their efficacy, a limitation also inherited by deep learning models trained using optimized/established correspondences. Consequently, representing complex anatomies becomes challenging. To address these limitations, we introduce SCorP, a novel framework capable of predicting surface-based correspondences directly from unsegmented images. By leveraging the shape prior learned directly from surface meshes in an unsupervised manner, the proposed model eliminates the need for an optimized shape model for training supervision. The strong shape prior acts as a teacher and regularizes the feature learning of the student network to guide it in learning image-based features that are predictive of surface correspondences. The proposed model streamlines the training and inference phases by removing the supervision for the correspondence prediction task while alleviating the linearity assumption.
翻訳日:2024-04-30 18:22:24 公開日:2024-04-27
# ニューラルマシン翻訳における感情韻律の有用性

Usefulness of Emotional Prosody in Neural Machine Translation ( http://arxiv.org/abs/2404.17968v1 )

ライセンス: Link先を確認
Charles Brazier, Jean-Luc Rouas, (参考訳) ニューラルネットワーク(Neural Machine Translation, NMT)は、訓練されたニューラルネットワークを用いて、ある言語から別の言語にテキストを翻訳するタスクである。 既存のいくつかの研究は、予測翻訳(例えば、感情、丁寧さ、性別)を改善し、制御するために、NMTモデルに外部情報を統合することを目的としている。 本研究では,音声中の感情を自動的に認識する外部情報ソースを追加することで,翻訳品質を向上させることを提案する。 この研究は、各感情が感情の重なり合う特定の語彙と関連しているという仮定によって動機付けられている。 提案手法は2段階の手順に従う。 まず,現在最先端の音声感情認識(SER)モデルを選択し,データセット内のすべての入力音声から次元的感情値を予測する。 次に、これらの予測された感情を入力テキストの先頭に付加されたソーストークンとして使用し、NMTモデルをトレーニングする。 NMTシステムに感情情報、特に覚醒情報を統合することで、より良い翻訳が可能になることを示す。

Neural Machine Translation (NMT) is the task of translating a text from one language to another with the use of a trained neural network. Several existing works aim at incorporating external information into NMT models to improve or control predicted translations (e.g. sentiment, politeness, gender). In this work, we propose to improve translation quality by adding another external source of information: the automatically recognized emotion in the voice. This work is motivated by the assumption that each emotion is associated with a specific lexicon that can overlap between emotions. Our proposed method follows a two-stage procedure. At first, we select a state-of-the-art Speech Emotion Recognition (SER) model to predict dimensional emotion values from all input audio in the dataset. Then, we use these predicted emotions as source tokens added at the beginning of input texts to train our NMT model. We show that integrating emotion information, especially arousal, into NMT systems leads to better translations.
翻訳日:2024-04-30 18:22:24 公開日:2024-04-27
# ビザンチン・ロバスト性を考慮した分散学習のためのプライバシー保護集団化

Privacy-Preserving Aggregation for Decentralized Learning with Byzantine-Robustness ( http://arxiv.org/abs/2404.17970v1 )

ライセンス: Link先を確認
Ali Reza Ghavamipour, Benjamin Zi Hao Zhao, Oguzhan Ersoy, Fatih Turkmen, (参考訳) 分散機械学習(DL)は、フェデレーテッド・ラーニング・セッティングに存在する単一障害点の排除により、最近ますます関心を集めている。 しかし、他のクライアントに任意のモデル更新をブロードキャストすることで学習プロセスを意図的に破壊し、グローバルモデルの性能を低下させようとするビザンツのクライアントの脅威に脅かされている。 これに応えて、ロバストなアグリゲーションスキームがビザンツのクライアントを擁護する有望なソリューションとして登場し、分散学習の堅牢性を高めている。 しかし、ビザンツの敵に対する防衛は、通常、他のクライアントの更新にアクセスする必要がある。 本稿では,ビザンチンの脅威に対するDLのセキュリティとプライバシを高めるために設計された,新しいDLプロトコルであるSecureDLを紹介する。 SecureDL~は、クライアントのモデル更新のプライバシをセキュアなマルチパーティ計算によって保護しながら、協調的な防御を実現する。 このプロトコルはコサイン類似性の効率的な計算と更新の正規化を利用して、モデル収束に有害なモデル更新を堅牢に検出し排除する。 MNIST, Fashion-MNIST, SVHN, CIFAR-10 を用いて, SecureDL を様々なビザンチン攻撃に対して評価し, その効果を既存の4つの防御機構と比較した。 実験の結果,SecureDLは悪意のある大多数(例えば,80%のビザンツ人クライアント)による攻撃においても,高いトレーニング精度を維持しながら有効であることがわかった。

Decentralized machine learning (DL) has been receiving an increasing interest recently due to the elimination of a single point of failure, present in Federated learning setting. Yet, it is threatened by the looming threat of Byzantine clients who intentionally disrupt the learning process by broadcasting arbitrary model updates to other clients, seeking to degrade the performance of the global model. In response, robust aggregation schemes have emerged as promising solutions to defend against such Byzantine clients, thereby enhancing the robustness of Decentralized Learning. Defenses against Byzantine adversaries, however, typically require access to the updates of other clients, a counterproductive privacy trade-off that in turn increases the risk of inference attacks on those same model updates. In this paper, we introduce SecureDL, a novel DL protocol designed to enhance the security and privacy of DL against Byzantine threats. SecureDL~facilitates a collaborative defense, while protecting the privacy of clients' model updates through secure multiparty computation. The protocol employs efficient computation of cosine similarity and normalization of updates to robustly detect and exclude model updates detrimental to model convergence. By using MNIST, Fashion-MNIST, SVHN and CIFAR-10 datasets, we evaluated SecureDL against various Byzantine attacks and compared its effectiveness with four existing defense mechanisms. Our experiments show that SecureDL is effective even in the case of attacks by the malicious majority (e.g., 80% Byzantine clients) while preserving high training accuracy.
翻訳日:2024-04-30 18:22:24 公開日:2024-04-27
# HVOFusion:ハイブリッドVoxel Octreeを用いたインクリメンタルメッシュ再構築

HVOFusion: Incremental Mesh Reconstruction Using Hybrid Voxel Octree ( http://arxiv.org/abs/2404.17974v1 )

ライセンス: Link先を確認
Shaofan Liu, Junbo Chen, Jianke Zhu, (参考訳) ロボット工学におけるナビゲーションには,インクリメンタルなシーン再構築が不可欠である。 従来の手法の多くは、一般的にTSDF(truncated signed distance function)ボリュームまたはニューラルネットワークを使って表面を暗黙的に表現する。 ボクセルの表現や時間を要するサンプリングのため、速度、メモリストレージ、表面品質のバランスをとるのが困難である。 本稿では,オクトツリーとボクセル構造を効果的に融合させるハイブリッド・ボクセル・オクトツリー手法を提案する。 このようなスパース構造は葉ノードの三角形の面を保存し、漸進的な再構成のために部分メッシュを逐次生成する。 このストレージ方式により,明快な3次元空間でメッシュを自然に最適化し,高い表面品質を実現することができる。 我々は,メッシュを目標に向かって繰り返し変形させ,シェーディングモデルを最適化することにより頂点色を復元する。 いくつかのデータセットに対する実験結果から,提案手法は現実的な色でシーンを迅速かつ正確に再構築できることが示された。

Incremental scene reconstruction is essential to the navigation in robotics. Most of the conventional methods typically make use of either TSDF (truncated signed distance functions) volume or neural networks to implicitly represent the surface. Due to the voxel representation or involving with time-consuming sampling, they have difficulty in balancing speed, memory storage, and surface quality. In this paper, we propose a novel hybrid voxel-octree approach to effectively fuse octree with voxel structures so that we can take advantage of both implicit surface and explicit triangular mesh representation. Such sparse structure preserves triangular faces in the leaf nodes and produces partial meshes sequentially for incremental reconstruction. This storage scheme allows us to naturally optimize the mesh in explicit 3D space to achieve higher surface quality. We iteratively deform the mesh towards the target and recovers vertex colors by optimizing a shading model. Experimental results on several datasets show that our proposed approach is capable of quickly and accurately reconstructing a scene with realistic colors.
翻訳日:2024-04-30 18:22:24 公開日:2024-04-27
# 顧客ニーズ分析の自動化:旅行産業における大規模言語モデルの比較研究

Automating Customer Needs Analysis: A Comparative Study of Large Language Models in the Travel Industry ( http://arxiv.org/abs/2404.17975v1 )

ライセンス: Link先を確認
Simone Barandoni, Filippo Chiarello, Lorenzo Cascone, Emiliano Marrale, Salvatore Puccio, (参考訳) 自然言語処理(NLP)の急速な発展の中で、大量のテキストデータから貴重な洞察を抽出するなど、多くのタスクのための強力なツールとして、Large Language Models(LLM)が登場した。 本研究では,TripAdvisor 投稿から旅行客のニーズを抽出するための LLM の比較分析を行った。 GPT-4やGeminiといったオープンソースモデルやプロプライエタリモデルなど、さまざまなモデルを活用して、この専門分野におけるその強みと弱点の解明を目指しています。 BERTScore、ROUGE、BLEUなどのメトリクスを含む評価プロセスを通じて、顧客のニーズを正確に識別し、要約する上で、各モデルの性能を評価する。 以上の結果から,オープンソース LLM ,特に Mistral 7B が大規模クローズドモデルに匹敵する性能を実現し,手頃な価格とカスタマイズのメリットを享受できることが示唆された。 さらに、顧客ニーズ分析タスクに最適なLCMを選択する際に、モデルサイズ、リソース要件、パフォーマンス指標などの要因を検討することの重要性を強調した。 本研究は, 先進的なNLP技術を活用し, 顧客エクスペリエンスを高め, 旅行業界における運用効率の向上を図る企業にとって貴重な知見となる。

In the rapidly evolving landscape of Natural Language Processing (NLP), Large Language Models (LLMs) have emerged as powerful tools for many tasks, such as extracting valuable insights from vast amounts of textual data. In this study, we conduct a comparative analysis of LLMs for the extraction of travel customer needs from TripAdvisor posts. Leveraging a diverse range of models, including both open-source and proprietary ones such as GPT-4 and Gemini, we aim to elucidate their strengths and weaknesses in this specialized domain. Through an evaluation process involving metrics such as BERTScore, ROUGE, and BLEU, we assess the performance of each model in accurately identifying and summarizing customer needs. Our findings highlight the efficacy of opensource LLMs, particularly Mistral 7B, in achieving comparable performance to larger closed models while offering affordability and customization benefits. Additionally, we underscore the importance of considering factors such as model size, resource requirements, and performance metrics when selecting the most suitable LLM for customer needs analysis tasks. Overall, this study contributes valuable insights for businesses seeking to leverage advanced NLP techniques to enhance customer experience and drive operational efficiency in the travel industry.
翻訳日:2024-04-30 18:22:24 公開日:2024-04-27
# 医療自動化の推進:医療ニーズの正当化のためのマルチエージェントシステム

Advancing Healthcare Automation: Multi-Agent Systems for Medical Necessity Justification ( http://arxiv.org/abs/2404.17977v1 )

ライセンス: Link先を確認
Himanshu Pandey, Akhil Amod, Shivang, (参考訳) 本稿では,Swarm-Structured Multi-Agent Systems (MAS) の医療ニーズの確立への応用について検討する。 より小さく、より管理しやすいサブタスクに分解することで、この複雑なタスクに対処しました。 各サブタスクは、専門のAIエージェントによって処理される。 我々はこれらのエージェントに対する様々なプロンプト戦略の影響を体系的に研究し、これらのタスクを完了させる際の精度を決定するために異なる大規模言語モデル (LLM) をベンチマークする。 さらに、これらのエージェントがどのように説明可能性を提供し、システム内の信頼と透明性を高めるかを検討する。

This paper explores the application of Swarm-Structured Multi-Agent Systems (MAS) to establish medical necessity, a process that involves a systematic review of patient-specific medical structured and unstructured data against clinical guidelines. We addressed this complex task by decomposing it into smaller, more manageable sub-tasks. Each sub-task is handled by a specialized AI agent. We conduct a systematic study of the impact of various prompting strategies on these agents and benchmark different Large Language Models (LLMs) to determine their accuracy in completing these tasks. Additionally, we investigate how these agents can provide explainability, thereby enhancing trust and transparency within the system.
翻訳日:2024-04-30 18:22:24 公開日:2024-04-27
# 制約を埋め込むモーメントの手法と半教師付き学習への応用

A Method of Moments Embedding Constraint and its Application to Semi-Supervised Learning ( http://arxiv.org/abs/2404.17978v1 )

ライセンス: Link先を確認
Michael Majurski, Sumeet Menon, Parniyan Farvardin, David Chapman, (参考訳) 線形+ソフトマックスの最終層を持つ識別的ディープラーニングモデルには問題がある: 潜在空間は条件付き確率$p(Y|X)$だけを予測するが、生成的アプローチを必要とする完全関節分布$p(Y,X)$は予測しない。 条件付き確率は外れ値を検出することができず、ソフトマックスネットワークでは外れ値の感度が生じる。 このことは、幻覚、矛盾するバイアス、大規模なデータセットへの依存など、多くの問題に影響を及ぼす過信モデルをさらに悪化させる。 これを解決するために,モーメントの方法(MoM)に基づく新しい埋め込み制約を導入する。 本研究では1次から4次までの超共分散行列の多項式モーメントの利用について検討する。 さらに、この埋め込み制約を用いて、条件だけでなく、潜在空間の結合分布も学習する軸配向ガウス混合モデル(AAGMM)の最終層を訓練する。 本手法はFlexMatchを拡張して半教師付き画像分類の領域に適用する。 AAGMM層とのMoM制約は,報告したFlexMatchの精度と一致し,関節分布をモデル化し,外部感度を低下させる。 また,マハラノビス距離に基づく予備的外乱検出戦略を提案し,この戦略の今後の改善について検討する。 コードは以下の通り。 \url{https://github.com/mmajurski/ssl-gmm}

Discriminative deep learning models with a linear+softmax final layer have a problem: the latent space only predicts the conditional probabilities $p(Y|X)$ but not the full joint distribution $p(Y,X)$, which necessitates a generative approach. The conditional probability cannot detect outliers, causing outlier sensitivity in softmax networks. This exacerbates model over-confidence impacting many problems, such as hallucinations, confounding biases, and dependence on large datasets. To address this we introduce a novel embedding constraint based on the Method of Moments (MoM). We investigate the use of polynomial moments ranging from 1st through 4th order hyper-covariance matrices. Furthermore, we use this embedding constraint to train an Axis-Aligned Gaussian Mixture Model (AAGMM) final layer, which learns not only the conditional, but also the joint distribution of the latent space. We apply this method to the domain of semi-supervised image classification by extending FlexMatch with our technique. We find our MoM constraint with the AAGMM layer is able to match the reported FlexMatch accuracy, while also modeling the joint distribution, thereby reducing outlier sensitivity. We also present a preliminary outlier detection strategy based on Mahalanobis distance and discuss future improvements to this strategy. Code is available at: \url{https://github.com/mmajurski/ssl-gmm}
翻訳日:2024-04-30 18:22:24 公開日:2024-04-27
# XGSwap: iXtreme Gradient boosting Swap for Routing in NISQ Devices

XGSwap: eXtreme Gradient boosting Swap for Routing in NISQ Devices ( http://arxiv.org/abs/2404.17982v1 )

ライセンス: Link先を確認
Jean-Baptiste Waring, Christophe Pere, Sébastien Le Beux, (参考訳) ノイズの多い中間規模量子(NISQ)計算の現在の状況では、固有ノイズは高忠実な長距離絡み合いを実現する上で大きな課題となる。 さらに、この課題は、現在の超伝導デバイスの限られた接続によって増幅され、長距離エンタングルメントを確立するために状態置換を必要とする。 伝統的に、グラフ法は、キュービット間の最短方向の経路に沿って状態をルーティングすることで、与えられたアーキテクチャの結合制約を満たすために用いられる。 本研究では,機械学習モデルを導入し,代替経路の忠実度を予測し,忠実度を向上する。 このモデルは、4050個の無作為なCNOTゲートで2から100キュービット以上の長さで訓練された。 実験はすべて127キュービットのIBM Quantum System Oneであるibm_quebec上で行われた。 実際のハードウェア上で200以上のテストを実行することで、我々のモデルはおよそ23%のケースで高い忠実度パスを特定できた。

In the current landscape of noisy intermediate-scale quantum (NISQ) computing, the inherent noise presents significant challenges to achieving high-fidelity long-range entanglement. Furthermore, this challenge is amplified by the limited connectivity of current superconducting devices, necessitating state permutations to establish long-distance entanglement. Traditionally, graph methods are used to satisfy the coupling constraints of a given architecture by routing states along the shortest undirected path between qubits. In this work, we introduce a gradient boosting machine learning model to predict the fidelity of alternative--potentially longer--routing paths to improve fidelity. This model was trained on 4050 random CNOT gates ranging in length from 2 to 100+ qubits. The experiments were all executed on ibm_quebec, a 127-qubit IBM Quantum System One. Through more than 200+ tests run on actual hardware, our model successfully identified higher fidelity paths in approximately 23% of cases.
翻訳日:2024-04-30 18:22:24 公開日:2024-04-27
# 分散学習におけるプライバシ保護・ドロップアウト・レジリエント・アグリゲーション

Privacy-Preserving, Dropout-Resilient Aggregation in Decentralized Learning ( http://arxiv.org/abs/2404.17984v1 )

ライセンス: Link先を確認
Ali Reza Ghavamipour, Benjamin Zi Hao Zhao, Fatih Turkmen, (参考訳) 分散学習(DL)は、集中集約なしでトレーニングをクライアントに分散させ、スケーラビリティと効率を向上することで、機械学習の新たなパラダイムを提供する。 しかし、DLのピアツーピアモデルは、推論攻撃やプライバシリークを防ぐための課題を提起する。 中心的なボトルネックをなくすことで、DLはプライバシー保護の集約方法を必要とし、クライアントや敵からデータを保護し、ネットワーク全体のプライバシーを維持する。 プライバシ保護のDLは、クライアントが接続上の問題や利用できないために更新を送信せず、アグリゲーションがさらに複雑になるという、クライアントのドロップアウトの新たなハードルに直面します。 本研究は,プライバシ保護DLのための3つの秘密共有型ドロップアウトレジリエンスアプローチを提案する。 本研究は,MNIST,Fashion-MNIST,SVHN,CIFAR-10などのデータセットを用いて,これらのプロトコルの効率,性能,精度を評価する。 当社のプロトコルと,最大1000のクライアントを含む,シナリオ間の従来型のシークレット共有ソリューションを比較します。 評価の結果,従来の手法,特に最大30%のクライアントがドロップアウトし,最大10^6$パラメータのモデルサイズを持つシナリオでは,プロトコルが大幅に優れていた。 当社のアプローチは,大規模なモデル,高いドロップアウト率,広範なクライアントネットワークで極めて高い効率性を示し,分散学習システムのプライバシとドロップアウトロバスト性を高める上での有効性を強調した。

Decentralized learning (DL) offers a novel paradigm in machine learning by distributing training across clients without central aggregation, enhancing scalability and efficiency. However, DL's peer-to-peer model raises challenges in protecting against inference attacks and privacy leaks. By forgoing central bottlenecks, DL demands privacy-preserving aggregation methods to protect data from 'honest but curious' clients and adversaries, maintaining network-wide privacy. Privacy-preserving DL faces the additional hurdle of client dropout, clients not submitting updates due to connectivity problems or unavailability, further complicating aggregation. This work proposes three secret sharing-based dropout resilience approaches for privacy-preserving DL. Our study evaluates the efficiency, performance, and accuracy of these protocols through experiments on datasets such as MNIST, Fashion-MNIST, SVHN, and CIFAR-10. We compare our protocols with traditional secret-sharing solutions across scenarios, including those with up to 1000 clients. Evaluations show that our protocols significantly outperform conventional methods, especially in scenarios with up to 30% of clients dropout and model sizes of up to $10^6$ parameters. Our approaches demonstrate markedly high efficiency with larger models, higher dropout rates, and extensive client networks, highlighting their effectiveness in enhancing decentralized learning systems' privacy and dropout robustness.
翻訳日:2024-04-30 18:22:24 公開日:2024-04-27
# 大規模言語モデルを用いたドイツ語言語テレグラムにおけるキーワードバイアスを超えた陰謀理論の検出

Detection of Conspiracy Theories Beyond Keyword Bias in German-Language Telegram Using Large Language Models ( http://arxiv.org/abs/2404.17985v1 )

ライセンス: Link先を確認
Milena Pustet, Elisabeth Steffen, Helena Mihaljević, (参考訳) オンラインでの陰謀論の自動検出は、典型的には教師あり学習に依存している。 しかし、しばしば有害なコンテンツを考えると、それぞれのトレーニングデータを作成するには専門知識、時間、精神的レジリエンスが必要です。 さらに、利用可能なデータセットは主に英語で、しばしばキーワードベースで、モデルにトークンレベルのバイアスを導入する。 我々の研究は、ドイツのテレグラムメッセージにおける陰謀論の検出という課題に対処する。 Llama2, GPT-3.5, GPT-4 を用いて, BERT-like モデルを用いた教師付き微調整手法の性能を比較した。 データセットは$\sim\! はーい! 新型コロナウイルス(COVID-19)のパンデミックで収集されたメッセージは、キーワードフィルターを使わずに4000ドルだった。 教師付き微調整では、F1スコアが$\sim\! はーい! 0.8$で,キーワード中心の英語コーパスで学習した最近のモデルに匹敵するモデルとなった。 ドメイン内時間シフトに対するモデルの適応性を実証し、F1スコアを$\sim\! はーい! 0.7ドル GPT-4はF1スコアが$\sim\! はーい! 0.8$はゼロショット設定の正のクラスで、カスタム陰謀論の定義を備えている。

The automated detection of conspiracy theories online typically relies on supervised learning. However, creating respective training data requires expertise, time and mental resilience, given the often harmful content. Moreover, available datasets are predominantly in English and often keyword-based, introducing a token-level bias into the models. Our work addresses the task of detecting conspiracy theories in German Telegram messages. We compare the performance of supervised fine-tuning approaches using BERT-like models with prompt-based approaches using Llama2, GPT-3.5, and GPT-4 which require little or no additional training data. We use a dataset of $\sim\!\! 4,000$ messages collected during the COVID-19 pandemic, without the use of keyword filters. Our findings demonstrate that both approaches can be leveraged effectively: For supervised fine-tuning, we report an F1 score of $\sim\!\! 0.8$ for the positive class, making our model comparable to recent models trained on keyword-focused English corpora. We demonstrate our model's adaptability to intra-domain temporal shifts, achieving F1 scores of $\sim\!\! 0.7$. Among prompting variants, the best model is GPT-4, achieving an F1 score of $\sim\!\! 0.8$ for the positive class in a zero-shot setting and equipped with a custom conspiracy theory definition.
翻訳日:2024-04-30 18:22:24 公開日:2024-04-27
# InfoSec.pptx: a Longitudinal Study of Speakers, Topics, and Sponsors at Security Conferences in Academia and Industry (英語)

InfoSec.pptx: A Longitudinal Study of Speakers, Topics, and Sponsors at Security Conferences in Academia and Industry ( http://arxiv.org/abs/2404.17989v1 )

ライセンス: Link先を確認
Lukas Walter, Clemens Sauerwein, Daniel W. Woods, (参考訳) セキュリティ会議は、学者や実践者が新しい攻撃や最先端の防衛について知識を共有する重要な会場である。 それにもかかわらず、研究者は誰が情報を共有し、どのセキュリティトピックについて研究していない。 そこで本研究では,最も権威ある学術・産業会議における講演者,スポンサー,トピックスを特徴付ける。 9,728の抽象化と1,686のスポンサーを含む,4つの学術カンファレンスと6つの業界カンファレンスの時系列データセットを収集します。 産学と学業の知識は限られている。 カンファレンスは、個人間での講演/オーサシップの均等性において、大きく異なる。 学術的および産業的抽象化のトピックは、MITRE ATT&CKフレームワーク内でのテクニックの一貫性のあるカバレッジを示している。 DEFCONやBlack Hatといったトップクラスの学術カンファレンスは、NISTサイバーセキュリティフレームワークのガバナンス、レスポンス、リカバリ機能に一貫性がない。 商用InfoSecと保険カンファレンス(RSA、Gartner、Advisen、NetDillgience)は、このフレームワークをより一貫してカバーしている。 予防と検出は議論の最も一般的な話題であり、明確な時間的傾向はない。

Security conferences are important venues at which academics and practitioners share knowledge about new attacks and state-of-the-art defenses. Despite this, researchers have not studied who shares information and about which security topics. To address this, our study characterizes the speakers, sponsors, and topics presented at the most prestigious academic and industry conferences. We collect a longitudinal data set that contains 9,728 abstracts and 1,686 sponsors across 4 academic and 6 industry conferences. There is limited knowledge sharing between industry and academia. Conferences vary significantly in the equality of how talks/authorship is distributed across individuals. The topics of academic and industry abstracts display consistent coverage of techniques within the MITRE ATT&CK framework. Top tier academic conferences, as well as DEFCON and Black Hat, inconsistently address the governance, response and recovery functions of the NIST Cybersecurity Framework. Commercial InfoSec and insurance conferences (RSA, Gartner, Advisen and NetDillgience) cover the framework more consistently. Prevention and detection remain the most common topic of talks, with no clear temporal trend.
翻訳日:2024-04-30 18:22:24 公開日:2024-04-27
# TabVFL: 垂直的フェデレーション学習における潜在表現の改善

TabVFL: Improving Latent Representation in Vertical Federated Learning ( http://arxiv.org/abs/2404.17990v1 )

ライセンス: Link先を確認
Mohamed Rashad, Zilong Zhao, Jeremie Decouchant, Lydia Y. Chen, (参考訳) オートエンコーダは、高次元データを圧縮して関連する潜伏情報を抽出できる人気のあるニューラルネットワークである。 TabNetは、トレーニングにオートエンコーダアーキテクチャを使用する、表データ用に設計された最先端のニューラルネットワークモデルである。 Vertical Federated Learning(VFL)は、複数のパーティがデータのプライバシを維持しながら、垂直に分割されたデータ上で協調的にモデルをトレーニングできる、新興の分散機械学習パラダイムである。 VFLにおけるトレーニングオートエンコーダの既存の設計は、各参加者に個別のオートエンコーダを訓練し、後から遅延表現を集約するものである。 この設計は、各オートエンコーダが、他の機能を無視しながら、ローカルに利用可能な機能についてトレーニングされているため、参加者間の重要な相関関係を損なう可能性がある。 さらに、従来のオートエンコーダは、VFL設定でユビキタスな表データのために特別に設計されていない。 さらに、トレーニング中のクライアントの障害がモデルロバスト性に与える影響は、VFLシーンであまり研究されていない。 本稿では,参加者の協調的特徴を用いた潜在表現学習の改善を目的とした分散フレームワークTabVFLを提案する。 枠組み i) 完全な接続層の追加により潜在的なデータ漏洩を軽減し、プライバシを保護する。 (ii)1つの潜在表現ベクトルを学習して特徴相関を保存し、 (iii) トレーニングフェーズにおけるクライアントの障害に対する堅牢性の向上。 5つの分類データセットの大規模な実験により、TabVFLはf1スコアの26.12%の改善により、以前の設計より優れていることが示された。

Autoencoders are popular neural networks that are able to compress high dimensional data to extract relevant latent information. TabNet is a state-of-the-art neural network model designed for tabular data that utilizes an autoencoder architecture for training. Vertical Federated Learning (VFL) is an emerging distributed machine learning paradigm that allows multiple parties to train a model collaboratively on vertically partitioned data while maintaining data privacy. The existing design of training autoencoders in VFL is to train a separate autoencoder in each participant and aggregate the latent representation later. This design could potentially break important correlations between feature data of participating parties, as each autoencoder is trained on locally available features while disregarding the features of others. In addition, traditional autoencoders are not specifically designed for tabular data, which is ubiquitous in VFL settings. Moreover, the impact of client failures during training on the model robustness is under-researched in the VFL scene. In this paper, we propose TabVFL, a distributed framework designed to improve latent representation learning using the joint features of participants. The framework (i) preserves privacy by mitigating potential data leakage with the addition of a fully-connected layer, (ii) conserves feature correlations by learning one latent representation vector, and (iii) provides enhanced robustness against client failures during training phase. Extensive experiments on five classification datasets show that TabVFL can outperform the prior work design, with 26.12% of improvement on f1-score.
翻訳日:2024-04-30 18:22:24 公開日:2024-04-27
# 機械読取理解における質問応答スパン抽出による事前学習型生成言語モデルの強化

Enhancing Pre-Trained Generative Language Models with Question Attended Span Extraction on Machine Reading Comprehension ( http://arxiv.org/abs/2404.17991v1 )

ライセンス: Link先を確認
Lin Ai, Zheng Hui, Zizhou Liu, Julia Hirschberg, (参考訳) Machine Reading Comprehension (MRC) は自然言語処理(NLP)分野において重要な課題である。 主流のMRC手法は、BERTのようなエンコーダのみのモデルを用いた抽出戦略を主に活用するが、生成的アプローチは制御外生成の問題に直面している。 MRC生成モデルにおけるこれらの制限に対処するため,QASEモジュールを提案する。 事前学習された生成言語モデル(PLM)の微調整フェーズにおいて、QASEは性能を大幅に向上し、GPT-4のような先進的な大規模言語モデル(LLM)の抽出能力を上回ることができる。 特に、これらの性能向上は、計算要求の増加には至らない。 QASEモジュールの有効性は、さまざまなデータセットで厳格にテストされており、一貫して最先端(SOTA)の結果を達成または超えている。

Machine Reading Comprehension (MRC) poses a significant challenge in the field of Natural Language Processing (NLP). While mainstream MRC methods predominantly leverage extractive strategies using encoder-only models such as BERT, generative approaches face the issue of out-of-control generation -- a critical problem where answers generated are often incorrect, irrelevant, or unfaithful to the source text. To address these limitations in generative models for MRC, we introduce the Question-Attended Span Extraction (QASE) module. Integrated during the fine-tuning phase of pre-trained generative language models (PLMs), QASE significantly enhances their performance, allowing them to surpass the extractive capabilities of advanced Large Language Models (LLMs) such as GPT-4. Notably, these gains in performance do not come with an increase in computational demands. The efficacy of the QASE module has been rigorously tested across various datasets, consistently achieving or even surpassing state-of-the-art (SOTA) results.
翻訳日:2024-04-30 18:22:24 公開日:2024-04-27
# MinBackProp -- 最小限の解決を通じてバックプロパゲート

MinBackProp -- Backpropagating through Minimal Solvers ( http://arxiv.org/abs/2404.17993v1 )

ライセンス: Link先を確認
Diana Sungatullina, Tomas Pajdla, (参考訳) 本稿では、エンドツーエンドのニューラルネットワークトレーニングにおいて、最小限の問題解決者を通してバックプロパゲーションを行うアプローチを提案する。 手作業で構築された公式、有限差分、オートグレードに依存する従来の手法は、複雑な最小限の問題解決者にとって、困難で近似的で不安定である。 インプリシット関数定理を用いて微分を計算し、最小問題解法の解をバックプロパゲートすることは単純で、高速で、安定であることを示す。 私たちは我々のアプローチと比べる i) 最小限の問題解法における標準オートグレードを用いて、SVDおよびEigに基づく解法を通して、既存のバックプロパゲーション公式に関連付けること。 (ii) 既存のPyTorch Deep Declarative Networks (DDN)フレームワークでバックプロップを実装する。 本稿では,3次元点登録のための外乱除去重量をトレーニングするおもちゃの例と,画像マッチングにおける外乱除去とRANSACサンプリングネットワークの実際の応用について述べる。 本手法は安定性が100\%で, 不安定で遅いオートグレードに比べて10倍高速であり, DDNは安定だが遅い。

We present an approach to backpropagating through minimal problem solvers in end-to-end neural network training. Traditional methods relying on manually constructed formulas, finite differences, and autograd are laborious, approximate, and unstable for complex minimal problem solvers. We show that using the Implicit function theorem to calculate derivatives to backpropagate through the solution of a minimal problem solver is simple, fast, and stable. We compare our approach to (i) using the standard autograd on minimal problem solvers and relate it to existing backpropagation formulas through SVD-based and Eig-based solvers and (ii) implementing the backprop with an existing PyTorch Deep Declarative Networks (DDN) framework. We demonstrate our technique on a toy example of training outlier-rejection weights for 3D point registration and on a real application of training an outlier-rejection and RANSAC sampling network in image matching. Our method provides $100\%$ stability and is 10 times faster compared to autograd, which is unstable and slow, and compared to DDN, which is stable but also slow.
翻訳日:2024-04-30 18:12:38 公開日:2024-04-27
# バッチベイズ最適化の最適初期化

Optimal Initialization of Batch Bayesian Optimization ( http://arxiv.org/abs/2404.17997v1 )

ライセンス: Link先を確認
Jiuge Ren, David Sweet, (参考訳) フィールド実験や計算機シミュレーションは効果的だが、異なる設定でシステムの品質を測定するのに時間を要する。 必要な合計時間を短縮するために、実験者はベイズ最適化(Bayesian optimization)を用い、これは測定と類似しており、複数の設定を同時にバッチで測定することができる。 実際には、実験者はごく少数のバッチを使用するため、各バッチは可能な限り情報的であることが必須である。 通常、バッチベイズ最適化(BBO)の最初のバッチは、設定値の準ランダムなサンプルから構成される。 ランダムサンプリングではなく,最適化によってバッチを設計するバッチ設計獲得関数,Minimal Terminal Variance (MTV)を提案する。 MTVはI-Optimalityと呼ばれるI-Optimalityと呼ばれる設計基準に適応し、設定の全体にわたって統合された品質評価後の見積もりのばらつきを最小限にする。 MTVは、設定が最適である確率によって積分を重み付け、初期バッチだけでなく、その後のバッチも設計することができる。 初期化と後続のバッチの適用性は、獲得機能の中で新しいものである。 実験関数とシミュレータの数値実験により,MTVは他のBBO法と比較した。

Field experiments and computer simulations are effective but time-consuming methods of measuring the quality of engineered systems at different settings. To reduce the total time required, experimenters may employ Bayesian optimization, which is parsimonious with measurements, and take measurements of multiple settings simultaneously, in a batch. In practice, experimenters use very few batches, thus, it is imperative that each batch be as informative as possible. Typically, the initial batch in a Batch Bayesian Optimization (BBO) is constructed from a quasi-random sample of settings values. We propose a batch-design acquisition function, Minimal Terminal Variance (MTV), that designs a batch by optimization rather than random sampling. MTV adapts a design criterion function from Design of Experiments, called I-Optimality, which minimizes the variance of the post-evaluation estimates of quality, integrated over the entire space of settings. MTV weights the integral by the probability that a setting is optimal, making it able to design not only an initial batch but all subsequent batches, as well. Applicability to both initialization and subsequent batches is novel among acquisition functions. Numerical experiments on test functions and simulators show that MTV compares favorably to other BBO methods.
翻訳日:2024-04-30 18:12:38 公開日:2024-04-27
# MEDIQA-CORR 2024のメディファクト:AIが人間のタッチを必要とする理由

MediFact at MEDIQA-CORR 2024: Why AI Needs a Human Touch ( http://arxiv.org/abs/2404.17999v1 )

ライセンス: Link先を確認
Nadia Saeed, (参考訳) 医療情報の正確な表現は患者の安全には不可欠であるが、Large Language Models (LLMs)のような人工知能(AI)システムでは、エラーのない臨床テキスト解釈の課題に直面している。 本稿では,MEDIQA-CORR 2024共有タスク(Ben Abacha et al , 2024a)への新たなアプローチを提案する。 広汎な総合データに依存しているLCMとは違い,本手法では,利用可能な臨床テキストデータからコンテキスト関連情報を抽出することを重視する。 抽出的および抽象的な質問応答アプローチのアンサンブルを活用し,ドメイン固有の特徴工学を用いた教師あり学習フレームワークを構築した。 本手法は,誤り訂正精度を高めるために,ドメインの専門知識を取り入れた手法である。 ドメインの専門知識を統合し、意味のある情報抽出を優先順位付けすることで、私たちのアプローチは、医療にAIを適用する上で、人間中心の戦略の重要性を強調します。

Accurate representation of medical information is crucial for patient safety, yet artificial intelligence (AI) systems, such as Large Language Models (LLMs), encounter challenges in error-free clinical text interpretation. This paper presents a novel approach submitted to the MEDIQA-CORR 2024 shared task (Ben Abacha et al., 2024a), focusing on the automatic correction of single-word errors in clinical notes. Unlike LLMs that rely on extensive generic data, our method emphasizes extracting contextually relevant information from available clinical text data. Leveraging an ensemble of extractive and abstractive question-answering approaches, we construct a supervised learning framework with domain-specific feature engineering. Our methodology incorporates domain expertise to enhance error correction accuracy. By integrating domain expertise and prioritizing meaningful information extraction, our approach underscores the significance of a human-centric strategy in adapting AI for healthcare.
翻訳日:2024-04-30 18:12:38 公開日:2024-04-27
# LLMParser:ログ解析における大規模言語モデルの利用に関する探索的研究

LLMParser: An Exploratory Study on Using Large Language Models for Log Parsing ( http://arxiv.org/abs/2404.18001v1 )

ライセンス: Link先を確認
Zeyang Ma, An Ran Chen, Dong Jae Kim, Tse-Hsun Chen, Shaowei Wang, (参考訳) ログは、実行時情報を持つ現代のソフトウェア開発において重要である。 ログ解析は多くのログベースの分析において、構造化されていないログデータから構造化された情報を抽出する最初のステップである。 従来のログパーザは、ログフォーマットの多様性のため、ログを正確に解析する際の課題に直面している。 本稿では,ログ解析にLumge Language Models (LLMs) を用いることの可能性を検討するとともに,LLMを用いたログ解析システム LLMParser を提案する。 LLMParsersでは4つのLLM, Flan-T5-small, Flan-T5-base, LLaMA-7B, ChatGLM-6Bを利用する。 16個のオープンソースシステムについて評価したところ,LLMParserは最先端のパーサ(平均解析精度96%)よりも統計的に高い解析精度が得られることがわかった。 さらに、トレーニングサイズ、モデルサイズ、事前学習LLMがログ解析精度に与える影響について、総合的な実証分析を行う。 例えば、Flan-T5-baseはLLaMA-7Bに匹敵する結果を短い推論時間で達成する。 また,他のシステムからのログを用いて事前学習したLLMを用いることで,解析精度が向上するとは限らない。 プレトレーニングされたFlan-T5ベースを使用することで精度が向上する一方、プレトレーニングされたLLaMAは減少する(グループ精度が約55%低下する)。 本研究は,LLMをログ解析に用いた経験的証拠を提供し,LLMを用いたログ解析の限界と今後の研究方向性を明らかにする。

Logs are important in modern software development with runtime information. Log parsing is the first step in many log-based analyses, that involve extracting structured information from unstructured log data. Traditional log parsers face challenges in accurately parsing logs due to the diversity of log formats, which directly impacts the performance of downstream log-analysis tasks. In this paper, we explore the potential of using Large Language Models (LLMs) for log parsing and propose LLMParser, an LLM-based log parser based on generative LLMs and few-shot tuning. We leverage four LLMs, Flan-T5-small, Flan-T5-base, LLaMA-7B, and ChatGLM-6B in LLMParsers. Our evaluation of 16 open-source systems shows that LLMParser achieves statistically significantly higher parsing accuracy than state-of-the-art parsers (a 96% average parsing accuracy). We further conduct a comprehensive empirical analysis on the effect of training size, model size, and pre-training LLM on log parsing accuracy. We find that smaller LLMs may be more effective than more complex LLMs; for instance where Flan-T5-base achieves comparable results as LLaMA-7B with a shorter inference time. We also find that using LLMs pre-trained using logs from other systems does not always improve parsing accuracy. While using pre-trained Flan-T5-base shows an improvement in accuracy, pre-trained LLaMA results in a decrease (decrease by almost 55% in group accuracy). In short, our study provides empirical evidence for using LLMs for log parsing and highlights the limitations and future research direction of LLM-based log parsers.
翻訳日:2024-04-30 18:12:38 公開日:2024-04-27
# FRAME: 自律的なマップマージのためのモジュールフレームワーク

FRAME: A Modular Framework for Autonomous Map-merging: Advancements in the Field ( http://arxiv.org/abs/2404.18006v1 )

ライセンス: Link先を確認
Nikolaos Stathoulopoulos, Björn Lindqvist, Anton Koval, Ali-akbar Agha-mohammadi, George Nikolakopoulos, (参考訳) 本稿では,エゴセントリックなマルチロボット探査における3次元点雲マップの融合について述べる。 従来の手法とは異なり、提案手法は最先端の場所認識と学習記述子を利用して地図間の重複を効率的に検出し、時間を要するグローバルな特徴抽出と特徴マッチングプロセスの必要性を排除している。 推定重なり合う領域は、GICP点雲登録アルゴリズムの初期条件として機能し、地図間のアライメントを洗練させる等質な剛性変換を計算するために用いられる。 このアプローチの利点は、高速な処理時間、精度の向上、挑戦的な環境における堅牢性の向上である。 さらに,提案手法の有効性を,様々な地下環境におけるロボット探査の複数のフィールドミッションを通じて実証した。

In this article, a novel approach for merging 3D point cloud maps in the context of egocentric multi-robot exploration is presented. Unlike traditional methods, the proposed approach leverages state-of-the-art place recognition and learned descriptors to efficiently detect overlap between maps, eliminating the need for the time-consuming global feature extraction and feature matching process. The estimated overlapping regions are used to calculate a homogeneous rigid transform, which serves as an initial condition for the GICP point cloud registration algorithm to refine the alignment between the maps. The advantages of this approach include faster processing time, improved accuracy, and increased robustness in challenging environments. Furthermore, the effectiveness of the proposed framework is successfully demonstrated through multiple field missions of robot exploration in a variety of different underground environments.
翻訳日:2024-04-30 18:12:38 公開日:2024-04-27
# ベイジアンニューラルネットワークのインプシット生成前処理

Implicit Generative Prior for Bayesian Neural Networks ( http://arxiv.org/abs/2404.18008v1 )

ライセンス: Link先を確認
Yijia Liu, Xiao Wang, (参考訳) 予測の不確実性定量化は、様々な適用領域における信頼性の高い意思決定に不可欠である。 ベイズニューラルネットワークは、このタスクに強力なフレームワークを提供する。 しかし、特に複雑な現実世界のアプリケーションにおいて、意味のある事前定義と計算効率の確保は重要な課題である。 本稿では,ニューラルアダプティブな経験的ベイズ(NA-EB)フレームワークを提案することによって,これらの課題に対処する。 NA-EBは低次元分布から派生した暗黙的な生成前のクラスを利用する。 これにより、複雑なデータ構造の効率的な処理と、現実世界のデータセットにおける基盤となる関係の効果的なキャプチャが可能になる。 NA-EBフレームワークは変分推論と勾配上昇アルゴリズムを組み合わせたものである。 これにより、ハイパーパラメータの選択と後部分布の近似を同時に行うことができ、計算効率が向上する。 我々は、後部および分類整合性を通じて、この枠組みの理論的基盤を確立する。 MNISTとCIFAR-10の両方のデータセット上での2段階の問題,回帰,10 UCIデータセット,画像分類タスクなど,さまざまなタスクに対する広範な評価を通じて,我々のフレームワークの実践的応用を実証する。 実験の結果、予測精度と不確実性定量化の観点から、スパース変分ベイズモデルや生成モデルなど、既存の手法よりも提案手法の方が優れていることが示された。

Predictive uncertainty quantification is crucial for reliable decision-making in various applied domains. Bayesian neural networks offer a powerful framework for this task. However, defining meaningful priors and ensuring computational efficiency remain significant challenges, especially for complex real-world applications. This paper addresses these challenges by proposing a novel neural adaptive empirical Bayes (NA-EB) framework. NA-EB leverages a class of implicit generative priors derived from low-dimensional distributions. This allows for efficient handling of complex data structures and effective capture of underlying relationships in real-world datasets. The proposed NA-EB framework combines variational inference with a gradient ascent algorithm. This enables simultaneous hyperparameter selection and approximation of the posterior distribution, leading to improved computational efficiency. We establish the theoretical foundation of the framework through posterior and classification consistency. We demonstrate the practical applications of our framework through extensive evaluations on a variety of tasks, including the two-spiral problem, regression, 10 UCI datasets, and image classification tasks on both MNIST and CIFAR-10 datasets. The results of our experiments highlight the superiority of our proposed framework over existing methods, such as sparse variational Bayesian and generative models, in terms of prediction accuracy and uncertainty quantification.
翻訳日:2024-04-30 18:12:38 公開日:2024-04-27
# 深層学習のアセットマネジメントにおける要因タイミングへの応用

Application of Deep Learning for Factor Timing in Asset Management ( http://arxiv.org/abs/2404.18017v1 )

ライセンス: Link先を確認
Prabhu Prasad Panda, Maysam Khodayari Gharanchaei, Xilin Chen, Haoshu Lyu, (参考訳) 本稿では, 回帰モデル(OLS線形回帰, リッジ回帰, ランダムフォレスト, およびフル連結ニューラルネットワーク)の性能をCMA(Conservative Minus Aggressive)因子プレミアムの予測とそれを用いた因子タイミング投資の性能について検討する。 サンプル外 R-squared は、より柔軟なモデルは、目に見えない期間の係数プレミアムのばらつきを説明するのにより良い性能を示し、バックテストは、より柔軟なモデルに基づく因子のタイミングが、線形モデルでそれを実行する傾向にあることを示す。 しかし、ニューラルネットワークのような柔軟なモデルでは、予測に基づく最適な重み付けは不安定になりがちであり、高い取引コストと市場への影響をもたらす可能性がある。 我々は、過去の最適再バランス方式によるリバランス頻度の傾きが、取引コストの削減に役立つことを検証した。

The paper examines the performance of regression models (OLS linear regression, Ridge regression, Random Forest, and Fully-connected Neural Network) on the prediction of CMA (Conservative Minus Aggressive) factor premium and the performance of factor timing investment with them. Out-of-sample R-squared shows that more flexible models have better performance in explaining the variance in factor premium of the unseen period, and the back testing affirms that the factor timing based on more flexible models tends to over perform the ones with linear models. However, for flexible models like neural networks, the optimal weights based on their prediction tend to be unstable, which can lead to high transaction costs and market impacts. We verify that tilting down the rebalance frequency according to the historical optimal rebalancing scheme can help reduce the transaction costs.
翻訳日:2024-04-30 18:12:38 公開日:2024-04-27
# 磁場中の電子と電子に作用するローレンツ力以外の余分な力に対する制限されたハミルトン動力学

Constrained Hamiltonian dynamics for electrons in magnetic field and additional forces besides the Lorentz force acting on electrons ( http://arxiv.org/abs/2404.18019v1 )

ライセンス: Link先を確認
Hiroyasu Koizumi, (参考訳) 量子力学から生じる制約や条件を含む磁場中の電子に作用する力を考察する。 この力は、量子力学的多電子波動関数を用いて評価された速度場の総時間微分により、電子質量$m_e$として計算される。 速度場は、多体波動関数からベリー接続の項を含み、量子力学的効果を含む。 ローレンツ力以外の重要な力としては、電子速度場運動エネルギーの勾配、化学ポテンシャルの勾配、位相的に保護されたループ電流を生成する「力」などがある。 これらの追加の力は超伝導、金属線中の電流、コンデンサの充電において重要であることが示されている。

We consider the forces acting on electrons in magnetic field including the constraints and a condition arising from quantum mechanics. The force is calculated as the electron mass, $m_e$, multiplied by the total time-derivative of the velocity field evaluated using the quantum mechanical many-electron wave function. The velocity field includes a term of the Berry connection from the many-body wave function; thereby, quantum mechanical effects are included. It is shown that additional important forces besides the Lorentz force exist; they include the gradient of the electron velocity field kinetic energy, the gradient of the chemical potential, and the `force' for producing topologically protected loop currents. These additional forces are shown to be important in superconductivity, electric current in metallic wires, and charging of capacitors.
翻訳日:2024-04-30 18:12:38 公開日:2024-04-27
# DM-Align: 自然言語教育の力を活用して画像に変化をもたらす

DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images ( http://arxiv.org/abs/2404.18020v1 )

ライセンス: Link先を確認
Maria Mihaela Trusca, Tinne Tuytelaars, Marie-Francine Moens, (参考訳) テキストベースの意味画像編集は、自然言語による画像の操作を前提としている。 最近の研究は、創造的で質的な画像を生成することができるが、この問題は、予想外の出力を生成するのに敏感なブラックボックスとして、いまだにアプローチされている。 そこで本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。 元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。 The proposed Diffusion Masking with word Alignments (DM-Align) は、透明で説明可能な方法で画像の編集を可能にする。 Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。 最先端のベースラインと比較すると、定量的および定性的な結果から、DM-Alignは言語命令に基づく画像編集において優れた性能を示し、画像の背景をよく保存し、長いテキスト命令に対処することができる。

Text-based semantic image editing assumes the manipulation of an image using a natural language instruction. Although recent works are capable of generating creative and qualitative images, the problem is still mostly approached as a black box sensitive to generating unexpected outputs. Therefore, we propose a novel model to enhance the text-based control of an image editor by explicitly reasoning about which parts of the image to alter or preserve. It relies on word alignments between a description of the original source image and the instruction that reflects the needed updates, and the input image. The proposed Diffusion Masking with word Alignments (DM-Align) allows the editing of an image in a transparent and explainable way. It is evaluated on a subset of the Bison dataset and a self-defined dataset dubbed Dream. When comparing to state-of-the-art baselines, quantitative and qualitative results show that DM-Align has superior performance in image editing conditioned on language instructions, well preserves the background of the image and can better cope with long text instructions.
翻訳日:2024-04-30 18:12:38 公開日:2024-04-27
# CRISPR-GPT:遺伝子編集実験の自動設計のためのLLMエージェント

CRISPR-GPT: An LLM Agent for Automated Design of Gene-Editing Experiments ( http://arxiv.org/abs/2404.18021v1 )

ライセンス: Link先を確認
Kaixuan Huang, Yuanhao Qu, Henry Cousins, William A. Johnson, Di Yin, Mihir Shah, Denny Zhou, Russ Altman, Mengdi Wang, Le Cong, (参考訳) ゲノム工学技術の導入により、生物医学の研究が変化し、遺伝情報の正確な変更が可能になった。 しかし、効率的な遺伝子編集システムを構築するには、CRISPR技術と研究中の複雑な実験システムについて深く理解する必要がある。 LLM(Large Language Models)は様々なタスクにおいて有望であるが、特定の知識が不足し、生物学的設計の問題を正確に解くのに苦労することが多い。 本研究では,CRISPRに基づく遺伝子編集実験の設計プロセスを自動化するために,ドメイン知識と外部ツールを付加したLCMエージェントであるCRISPR-GPTを紹介する。 CRISPR-GPTはLCMの推論能力を活用し、CRISPRシステムの選択、ガイドRNAの設計、細胞提供方法の推奨、プロトコルの起草、編集結果の確認のための検証実験の設計を容易にする。 我々は,遺伝子編集実験をゼロから行う非専門家研究者を支援するCRISPR-GPTの可能性を示し,実世界のユースケースにおけるエージェントの有効性を検証した。 さらに、自動遺伝子編集設計に関連する倫理的・規制的な考察を考察し、これらのツールの責任と透過的な利用の必要性を強調した。 我々の研究は、初心者の生物研究者とCRISPRゲノム工学のギャップを埋めることを目的としており、複雑な生物発見作業を容易にするLLMエージェントの可能性を実証することを目的としている。

The introduction of genome engineering technology has transformed biomedical research, making it possible to make precise changes to genetic information. However, creating an efficient gene-editing system requires a deep understanding of CRISPR technology, and the complex experimental systems under investigation. While Large Language Models (LLMs) have shown promise in various tasks, they often lack specific knowledge and struggle to accurately solve biological design problems. In this work, we introduce CRISPR-GPT, an LLM agent augmented with domain knowledge and external tools to automate and enhance the design process of CRISPR-based gene-editing experiments. CRISPR-GPT leverages the reasoning ability of LLMs to facilitate the process of selecting CRISPR systems, designing guide RNAs, recommending cellular delivery methods, drafting protocols, and designing validation experiments to confirm editing outcomes. We showcase the potential of CRISPR-GPT for assisting non-expert researchers with gene-editing experiments from scratch and validate the agent's effectiveness in a real-world use case. Furthermore, we explore the ethical and regulatory considerations associated with automated gene-editing design, highlighting the need for responsible and transparent use of these tools. Our work aims to bridge the gap between beginner biological researchers and CRISPR genome engineering techniques, and demonstrate the potential of LLM agents in facilitating complex biological discovery tasks.
翻訳日:2024-04-30 18:12:38 公開日:2024-04-27
# 物体の運動ブラジャーに対する検索ロバスト

Retrieval Robust to Object Motion Blur ( http://arxiv.org/abs/2404.18025v1 )

ライセンス: Link先を確認
Rong Zou, Marc Pollefeys, Denys Rozumnyi, (参考訳) 移動する物体は日常生活でよく見られ、通常、動きのために画像にぼやけている。 汎用オブジェクト検索はコンピュータビジョンにおいて広く研究されている分野であるが、主にシャープで静的なオブジェクトに焦点を当てており、大規模な画像収集における動きブルオブジェクトの検索は未探索のままである。 本研究では,動きのぼやけの影響を受けやすい画像のオブジェクト検索手法を提案する。 提案手法は,ぼやけたオブジェクトをデブロア化されたバージョンにマッチングできる頑健な表現を学習し,その逆も学習する。 提案手法を評価するために, 様々なポーズやスケールにおいて, 様々な程度にぼやけた物体の画像を特徴付ける, ぼやけた物体検索のための最初の大規模データセットを提案する。 提案手法は,提案手法の有効性を検証した新しいぼかし検索データセットにおいて,最先端の検索手法よりも優れていることを示す。

Moving objects are frequently seen in daily life and usually appear blurred in images due to their motion. While general object retrieval is a widely explored area in computer vision, it primarily focuses on sharp and static objects, and retrieval of motion-blurred objects in large image collections remains unexplored. We propose a method for object retrieval in images that are affected by motion blur. The proposed method learns a robust representation capable of matching blurred objects to their deblurred versions and vice versa. To evaluate our approach, we present the first large-scale datasets for blurred object retrieval, featuring images with objects exhibiting varying degrees of blur in various poses and scales. We conducted extensive experiments, showing that our method outperforms state-of-the-art retrieval methods on the new blur-retrieval datasets, which validates the effectiveness of the proposed approach.
翻訳日:2024-04-30 18:12:38 公開日:2024-04-27
# ミニマリストオープンエンディング進化系としての非空間ハッシュ化学

Non-Spatial Hash Chemistry as a Minimalistic Open-Ended Evolutionary System ( http://arxiv.org/abs/2404.18027v1 )

ライセンス: Link先を確認
Hiroki Sayama, (参考訳) 近年の人工生命と人工知能の文献では、オープンエンドネスへの関心が高まっている。 我々は, 人工進化システムにおけるオープンディペンデンスを促進するための有望なメカニズムとして, 可能性空間の濃度跳躍を提案し, ハッシュ関数を普遍的適合性評価器として用いる人工化学モデルであるHash Chemistryを用いて, その有効性を実証した。 しかし、ハッシュ化学の空間的性質は、そのシミュレーションに関わる膨大な計算コストを伴い、計算コストの爆発を防ぐために課された粒子密度制限は、高次天体の複雑さの非有界成長を妨げた。 これらの制約に対処するために、粒子の空間的近接をマルチセットの形で明示的に表現する、より単純なHash Chemistryの非空間的変種を提案する。 このモデル修正は、モデルをシミュレートする際の計算コストを大幅に削減した。 数値シミュレーションの結果、従来のモデルよりも高次実体を複製する際の最大サイズと平均サイズの双方において、有界な成長が顕著に見られ、この非空間モデルの有効性を、オープンエンド進化システムの最小主義的な例として示している。

There is an increasing level of interest in open-endedness in the recent literature of Artificial Life and Artificial Intelligence. We previously proposed the cardinality leap of possibility spaces as a promising mechanism to facilitate open-endedness in artificial evolutionary systems, and demonstrated its effectiveness using Hash Chemistry, an artificial chemistry model that used a hash function as a universal fitness evaluator. However, the spatial nature of Hash Chemistry came with extensive computational costs involved in its simulation, and the particle density limit imposed to prevent explosion of computational costs prevented unbounded growth in complexity of higher-order entities. To address these limitations, here we propose a simpler non-spatial variant of Hash Chemistry in which spatial proximity of particles are represented explicitly in the form of multisets. This model modification achieved a significant reduction of computational costs in simulating the model. Results of numerical simulations showed much more significant unbounded growth in both maximal and average sizes of replicating higher-order entities than the original model, demonstrating the effectiveness of this non-spatial model as a minimalistic example of open-ended evolutionary systems.
翻訳日:2024-04-30 18:12:38 公開日:2024-04-27
# $k$-nearest 隣人による品質評価とモデル固有品質評価の自動評価

Quality Estimation with $k$-nearest Neighbors and Automatic Evaluation for Model-specific Quality Estimation ( http://arxiv.org/abs/2404.18031v1 )

ライセンス: Link先を確認
Tu Anh Dinh, Tobias Palzer, Jan Niehues, (参考訳) 機械翻訳(MT)出力とともに品質スコアを提供すること、いわゆる参照不要品質推定(QE)は、翻訳の信頼性をユーザーに通知するために重要である。 我々は, MTモデルのトレーニングデータから, $k$-nearest 隣人を用いて情報を抽出する,$k$NN-QE と呼ばれるモデル固有で教師なしQE手法を提案する。 モデル固有QEの測定は,自作のMT出力に品質スコアを提供するため,手作りのMT出力に人体品質スコアを含むベンチマークQEテストセットでは評価できないため,容易ではない。 そこで本研究では,人為的な基準値ではなく,基準基準値からの品質スコアをゴールドスタンダードとして活用する自動評価手法を提案する。 我々は、まず詳細な分析を行い、この自動手法は十分であり、参照ベースのMetricX-23はタスクに最適である、と結論づける。

Providing quality scores along with Machine Translation (MT) output, so-called reference-free Quality Estimation (QE), is crucial to inform users about the reliability of the translation. We propose a model-specific, unsupervised QE approach, termed $k$NN-QE, that extracts information from the MT model's training data using $k$-nearest neighbors. Measuring the performance of model-specific QE is not straightforward, since they provide quality scores on their own MT output, thus cannot be evaluated using benchmark QE test sets containing human quality scores on premade MT output. Therefore, we propose an automatic evaluation method that uses quality scores from reference-based metrics as gold standard instead of human-generated ones. We are the first to conduct detailed analyses and conclude that this automatic method is sufficient, and the reference-based MetricX-23 is best for the task.
翻訳日:2024-04-30 18:12:38 公開日:2024-04-27
# 第3回単分子深度推定チャレンジ

The Third Monocular Depth Estimation Challenge ( http://arxiv.org/abs/2404.16831v2 )

ライセンス: Link先を確認
Jaime Spencer, Fabio Tosi, Matteo Poggi, Ripudaman Singh Arora, Chris Russell, Simon Hadfield, Richard Bowden, GuangYuan Zhou, ZhengXin Li, Qiang Rao, YiPing Bao, Xiao Liu, Dohyeong Kim, Jinseong Kim, Myunghyun Kim, Mykola Lavreniuk, Rui Li, Qing Mao, Jiang Wu, Yu Zhu, Jinqiu Sun, Yanning Zhang, Suraj Patni, Aradhye Agarwal, Chetan Arora, Pihai Sun, Kui Jiang, Gang Wu, Jian Liu, Xianming Liu, Junjun Jiang, Xidan Zhang, Jianing Wei, Fangjun Wang, Zhiming Tan, Jiabao Wang, Albert Luginov, Muhammad Shahzad, Seyed Hosseini, Aleksander Trajcevski, James H. Elder, (参考訳) 本稿では,MDEC(Monocular Depth Estimation Challenge)の第3版の結果について述べる。 この課題は、自然と屋内の複雑なシーンを特徴とする、挑戦的なSynS-Patchesデータセットへのゼロショットの一般化に焦点を当てている。 前版と同様に、メソッドはいかなる種類の監督、すなわち監督または自己監督も使用できる。 10人が彼らのアプローチを説明するレポートを提出し、メソッドのコアでDepth Anythingのような基礎モデルの拡散した使用を強調した。 挑戦者は17.51%から23.72%の3D Fスコアのパフォーマンスを大幅に改善した。

This paper discusses the results of the third edition of the Monocular Depth Estimation Challenge (MDEC). The challenge focuses on zero-shot generalization to the challenging SYNS-Patches dataset, featuring complex scenes in natural and indoor settings. As with the previous edition, methods can use any form of supervision, i.e. supervised or self-supervised. The challenge received a total of 19 submissions outperforming the baseline on the test set: 10 among them submitted a report describing their approach, highlighting a diffused use of foundational models such as Depth Anything at the core of their method. The challenge winners drastically improved 3D F-Score performance, from 17.51% to 23.72%.
翻訳日:2024-04-30 12:29:16 公開日:2024-04-27
# 教師なし学習による連成火炎振動子の動的モード認識

Dynamical Mode Recognition of Coupled Flame Oscillators by Supervised and Unsupervised Learning Approaches ( http://arxiv.org/abs/2404.17801v1 )

ライセンス: Link先を確認
Weiming Xu, Tao Yang, Peng Zhang, (参考訳) ガスタービンやロケットエンジンの燃焼不安定性は、燃焼研究において最も難しい問題の一つであり、化学反応、熱と物質移動、音響の影響も受けている。 多くの燃焼システムの安全かつ信頼性の高い運転を保証するためには,燃焼不安定性の同定と理解が不可欠である。 本研究は,近年注目されているが十分に理解されていない浮き浮き浮き火炎を用いた連成火炎振動子の動的モード認識に関する基礎研究である。 火炎振動子の時系列データは、完全に検証された反応流シミュレーションによって生成される。 専門知識に基づくモデルの制限のため、データ駆動アプローチが採用されている。 本研究では,変分オートエンコーダ(VAE)の非線形次元還元モデルを用いて,シミュレーションデータを2次元潜在空間に投影する。 遅延空間における位相軌跡に基づいて、よく知られたラベル付きデータセットに対して、教師なし分類器と教師なし分類器をそれぞれ提案する。 ラベル付きデータセットに対しては、モード認識のためのWDC(Wasserstein-Distance-based Classifier)を確立し、ラベル付きデータセットに対しては、動的時間ワープ(DTW)とガウス混合モデル(GMM)を組み合わせた新しい教師なし分類器(GMM-DTWC)を開発する。 従来の次元の低減と分類の手法と比較して, 提案手法は, 複雑な燃焼問題の動的モード認識への潜在的な拡張を示唆し, 動的モードを識別するための顕著な性能を示す。

Combustion instability in gas turbines and rocket engines, as one of the most challenging problems in combustion research, arises from the complex interactions among flames, which are also influenced by chemical reactions, heat and mass transfer, and acoustics. Identifying and understanding combustion instability is essential to ensure the safe and reliable operation of many combustion systems, where exploring and classifying the dynamical behaviors of complex flame systems is a core take. To facilitate fundamental studies, the present work concerns dynamical mode recognition of coupled flame oscillators made of flickering buoyant diffusion flames, which have gained increasing attention in recent years but are not sufficiently understood. The time series data of flame oscillators are generated by fully validated reacting flow simulations. Due to limitations of expertise-based models, a data-driven approach is adopted. In this study, a nonlinear dimensional reduction model of variational autoencoder (VAE) is used to project the simulation data onto a 2-dimensional latent space. Based on the phase trajectories in latent space, both supervised and unsupervised classifiers are proposed for datasets with well known labeling and without, respectively. For labeled datasets, we establish the Wasserstein-distance-based classifier (WDC) for mode recognition; for unlabeled datasets, we develop a novel unsupervised classifier (GMM-DTWC) combining dynamic time warping (DTW) and Gaussian mixture model (GMM). Through comparing with conventional approaches for dimensionality reduction and classification, the proposed supervised and unsupervised VAE-based approaches exhibit a prominent performance for distinguishing dynamical modes, implying their potential extension to dynamical mode recognition of complex combustion problems.
翻訳日:2024-04-30 12:29:16 公開日:2024-04-27
# pFedAFM:異種フェデレーション学習におけるバッチレベルパーソナライズのための適応的特徴混合

pFedAFM: Adaptive Feature Mixture for Batch-Level Personalization in Heterogeneous Federated Learning ( http://arxiv.org/abs/2404.17847v1 )

ライセンス: Link先を確認
Liping Yi, Han Yu, Chao Ren, Heng Zhang, Gang Wang, Xiaoguang Liu, Xiaoxiao Li, (参考訳) モデル・ヘテロジニアス・パーソナライズド・フェデレーション・ラーニング(MHPFL)により、FLクライアントは非独立かつ同一に分散された(非IID)ローカルデータに基づいて、構造的に異なるパーソナライズド・モデルを学ぶことができる。 既存のMHPFLメソッドは、クライアントレベルのパーソナライゼーションの実現に重点を置いているが、バッチレベルのデータ不均一性には対処できない。 この重要なギャップを埋めるために、教師付き学習タスクのための適応的特徴混合(pFedAFM)を用いたモデルヘテロジニアスパーソナライズされたフェデレーション学習手法を提案する。 3つの斬新なデザインで構成されている。 1)グローバルな同種小特徴抽出器を各クライアントの局所異種モデル(異種特徴抽出器と予測ヘッダから構成される)と一緒に割り当て、クロスクライアント知識融合を促進する。 2つの特徴抽出器は、パーソナライズされた予測能力を維持するために、リッチなパーソナライズされた予測知識を含む局所異種モデルの予測ヘッダを共有する。 2)グローバルな同種小特徴抽出器と局所的異種大モデルとを交互に訓練し,効果的なグローバルな知識交換を行うための反復的学習戦略を考案した。 3)訓練可能な重みベクトルは、両方の特徴抽出器から抽出された特徴を動的に混合してバッチレベルのデータ不均一性に適応するように設計されている。 理論的解析により、pFedAFMは時間とともに収束することを示した。 2つのベンチマークデータセットの大規模な実験により、7つの最先端のMHPFL法を著しく上回り、通信コストと計算コストを低減しつつ、最大7.93%の精度向上を実現している。

Model-heterogeneous personalized federated learning (MHPFL) enables FL clients to train structurally different personalized models on non-independent and identically distributed (non-IID) local data. Existing MHPFL methods focus on achieving client-level personalization, but cannot address batch-level data heterogeneity. To bridge this important gap, we propose a model-heterogeneous personalized Federated learning approach with Adaptive Feature Mixture (pFedAFM) for supervised learning tasks. It consists of three novel designs: 1) A sharing global homogeneous small feature extractor is assigned alongside each client's local heterogeneous model (consisting of a heterogeneous feature extractor and a prediction header) to facilitate cross-client knowledge fusion. The two feature extractors share the local heterogeneous model's prediction header containing rich personalized prediction knowledge to retain personalized prediction capabilities. 2) An iterative training strategy is designed to alternately train the global homogeneous small feature extractor and the local heterogeneous large model for effective global-local knowledge exchange. 3) A trainable weight vector is designed to dynamically mix the features extracted by both feature extractors to adapt to batch-level data heterogeneity. Theoretical analysis proves that pFedAFM can converge over time. Extensive experiments on 2 benchmark datasets demonstrate that it significantly outperforms 7 state-of-the-art MHPFL methods, achieving up to 7.93% accuracy improvement while incurring low communication and computation costs.
翻訳日:2024-04-30 12:29:16 公開日:2024-04-27
# バイレベル最適化に基づくマルチ教師蒸留による雑音ノード分類

Noisy Node Classification by Bi-level Optimization based Multi-teacher Distillation ( http://arxiv.org/abs/2404.17875v1 )

ライセンス: Link先を確認
Yujing Liu, Zongqian Wu, Zhengyu Lu, Ci Nie, Guoqiu Wen, Ping Hu, Xiaofeng Zhu, (参考訳) 従来のグラフニューラルネットワーク(GNN)は通常、グラフデータは表現学習のためのクリーンなラベルを持っていると仮定するが、実際のアプリケーションではそうではない。 本稿では,二段階最適化(BO-NNC)に基づく多段階蒸留法を提案する。 具体的には、まず複数の自己教師型学習手法を用いて、多様な教師モデルの学習を行い、その後、教師の重み行列を通じて予測を集約する。 さらに,教師の重み行列を学生モデルの訓練進捗に基づいて動的に調整する二段階最適化手法を考案した。 最後に,ラベル品質を改善するためにラベル改善モジュールを設計する。 実データを用いた実験結果から,本手法は最先端の手法と比較して最適であることがわかった。

Previous graph neural networks (GNNs) usually assume that the graph data is with clean labels for representation learning, but it is not true in real applications. In this paper, we propose a new multi-teacher distillation method based on bi-level optimization (namely BO-NNC), to conduct noisy node classification on the graph data. Specifically, we first employ multiple self-supervised learning methods to train diverse teacher models, and then aggregate their predictions through a teacher weight matrix. Furthermore, we design a new bi-level optimization strategy to dynamically adjust the teacher weight matrix based on the training progress of the student model. Finally, we design a label improvement module to improve the label quality. Extensive experimental results on real datasets show that our method achieves the best results compared to state-of-the-art methods.
翻訳日:2024-04-30 12:29:16 公開日:2024-04-27
# CBMAP:次元減少のためのクラスタリングに基づく多様体近似と射影

CBMAP: Clustering-based manifold approximation and projection for dimensionality reduction ( http://arxiv.org/abs/2404.17940v1 )

ライセンス: Link先を確認
Berat Dogan, (参考訳) 次元性低減法は、機械学習の性能向上や、2次元または3次元空間におけるデータの可視化を容易にするために用いられる。 これらの手法は通常、特徴選択と特徴変換の2つのカテゴリに分類される。 特徴選択は重要な特徴を保ち、特徴変換はデータを線形および非線形な方法で低次元空間に投影する。 非線形手法は局所構造を保存し、非線形関係を捉えるのに優れているが、大域構造を解釈するのに苦労し、計算的に集約することができる。 t-SNE、UMAP、TriMap、PaCMAPといった最近のアルゴリズムは、しばしばグローバルな構造を正確に表現するために、局所的な構造を保存することを優先している。 さらに、これらの手法はハイパーパラメータに大きく依存しており、パラメータ設定に敏感である。 これらの制約に対処するために, CBMAP (Clustering-based Manifold Approximation and Projection) というクラスタリングに基づく手法を導入する。 CBMAPは、大域的構造と局所的構造の両方を保存することを目的としており、低次元空間のクラスターが高次元空間のクラスタと密接に類似していることを保証する。 ベンチマークデータセットの実験的評価はCBMAPの有効性を示し、スピード、スケーラビリティ、ハイパーパラメータへの最小依存を提供する。 重要なことは、CBMAPはテストデータの低次元投影を可能にし、機械学習アプリケーションにおける重要なニーズに対処する。 CBMAPはhttps://github.com/doganlab/cbmapで無料で利用可能であり、Python Package Directory (PyPI)ソフトウェアリポジトリからインストールすることができる。

Dimensionality reduction methods are employed to decrease data dimensionality, either to enhance machine learning performance or to facilitate data visualization in two or three-dimensional spaces. These methods typically fall into two categories: feature selection and feature transformation. Feature selection retains significant features, while feature transformation projects data into a lower-dimensional space, with linear and nonlinear methods. While nonlinear methods excel in preserving local structures and capturing nonlinear relationships, they may struggle with interpreting global structures and can be computationally intensive. Recent algorithms, such as the t-SNE, UMAP, TriMap, and PaCMAP prioritize preserving local structures, often at the expense of accurately representing global structures, leading to clusters being spread out more in lower-dimensional spaces. Moreover, these methods heavily rely on hyperparameters, making their results sensitive to parameter settings. To address these limitations, this study introduces a clustering-based approach, namely CBMAP (Clustering-Based Manifold Approximation and Projection), for dimensionality reduction. CBMAP aims to preserve both global and local structures, ensuring that clusters in lower-dimensional spaces closely resemble those in high-dimensional spaces. Experimental evaluations on benchmark datasets demonstrate CBMAP's efficacy, offering speed, scalability, and minimal reliance on hyperparameters. Importantly, CBMAP enables low-dimensional projection of test data, addressing a critical need in machine learning applications. CBMAP is made freely available at https://github.com/doganlab/cbmap and can be installed from the Python Package Directory (PyPI) software repository with the command pip install cbmap.
翻訳日:2024-04-30 12:29:16 公開日:2024-04-27