このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240110となっている論文です。

PDF登録状況(公開日: 20240110)

TitleAuthorsAbstract論文公表日・翻訳日
# FBSDetector: 機械学習を用いたセルネットワークにおけるフェイクベースステーションとマルチステップ攻撃検出

FBSDetector: Fake Base Station and Multi Step Attack Detection in Cellular Networks using Machine Learning ( http://arxiv.org/abs/2401.04958v1 )

ライセンス: Link先を確認
Kazi Samin Mubasshir, Imtiaz Karim, Elisa Bertino, (参考訳) フェイク基地局(FBSes)は、正統な基地局を偽装することで重大なセキュリティ上の脅威となる。 この脅威を打倒するための努力がなされているが、FBSesの存在とそれに起因するマルチステップ攻撃(MSA)は、不正な監視、機密情報の傍受、正当なユーザのためのネットワークサービスの破壊につながる可能性がある。 したがって、これらの悪意のあるエンティティを検出することは、携帯電話ネットワークのセキュリティと信頼性を確保するために不可欠である。 従来の検出方法は、しばしば追加のハードウェア、事前定義されたルール、信号スキャン、プロトコル仕様の変更、あるいはFBSeを正確に識別するための膨大なインフラストラクチャコストを発生させる暗号メカニズムに依存している。 本稿では、ユーザ機器(UE)側で機械学習(ML)を用いて、レイヤ3ネットワークトレースからFBSeとMSAを確実に検出できる、FBSDetectorの効率的かつ効率的な検出ソリューションを開発する。 FBSDetectorを開発するために、FBSADとMSADを開発した。これは、FBSeとMSAを検出することができる機械学習モデルをトレーニングするための、最初の高品質かつ大規模データセットである。 これらのデータセットは、正当な基地局とFBSeを組み込んだ、さまざまな実世界の携帯電話ネットワークシナリオ(モビリティと異なる攻撃能力を含む)でネットワークトレースをキャプチャする。 組み合わせたネットワークトレースは、75 1963パケットを含む6.6GBのボリュームを持つ。 FBSesとMSAを特に検出するために設計された新しいMLモデルは、FBSesを92%、偽陽性率5.96%で効果的に検出し、偽陽性率7.82%でMSAを認識できる。 FBSDetectorを現実のソリューションとしてデプロイし、Androidアプリを通じてエンドユーザを保護し、制御されたラボ環境で検証します。 FBSeを検出できない既存のソリューションと比較して、FBSDetectorは野生のFBSeをリアルタイムで検出できる。

Fake base stations (FBSes) pose a significant security threat by impersonating legitimate base stations. Though efforts have been made to defeat this threat, up to this day, the presence of FBSes and the multi-step attacks (MSAs) stemming from them can lead to unauthorized surveillance, interception of sensitive information, and disruption of network services for legitimate users. Therefore, detecting these malicious entities is crucial to ensure the security and reliability of cellular networks. Traditional detection methods often rely on additional hardware, predefined rules, signal scanning, changing protocol specifications, or cryptographic mechanisms that have limitations and incur huge infrastructure costs in accurately identifying FBSes. In this paper, we develop FBSDetector-an effective and efficient detection solution that can reliably detect FBSes and MSAs from layer-3 network traces using machine learning (ML) at the user equipment (UE) side. To develop FBSDetector, we created FBSAD and MSAD, the first-ever high-quality and large-scale datasets for training machine learning models capable of detecting FBSes and MSAs. These datasets capture the network traces in different real-world cellular network scenarios (including mobility and different attacker capabilities) incorporating legitimate base stations and FBSes. The combined network trace has a volume of 6.6 GB containing 751963 packets. Our novel ML models, specially designed to detect FBSes and MSAs, can effectively detect FBSes with an accuracy of 92% and a false positive rate of 5.96% and recognize MSAs with an accuracy of 86% and a false positive rate of 7.82%. We deploy FBSDetector as a real-world solution to protect end-users through an Android app and validate in a controlled lab environment. Compared to the existing solutions that fail to detect FBSes, FBSDetector can detect FBSes in the wild in real time.
翻訳日:2024-03-25 12:47:21 公開日:2024-01-10
# ニューラルネットワークを実現するPSO-RDVフレームワークによる予測改善

Improved Forecasting Using a PSO-RDV Framework to Enhance Artificial Neural Network ( http://arxiv.org/abs/2402.18576v1 )

ライセンス: Link先を確認
Sales Aribe Jr, (参考訳) 意思決定と計画は、長い間AI駆動の予測に大きく依存してきた。 政府と一般市民はリスクを最小限に抑えつつ、将来の公衆衛生の不確実性に直面した利益を最大化しようとしている。 本研究では、粒子群最適化(PSO)の収束とニューラルネットワーク(ANN)の精度を向上させるために、RDV IW(Random Descending Velocity Inertia Weight)技術を用いた予測法の改良を行った。 ゴルフボールの動きにインスパイアされたIW技術は、溶液点に近づくと粒子の速度をパラメータ的に下降する構造に変化させた。 シミュレーションの結果,αとα_dumpの[0.4, 0.9]組み合わせによる予測モデルでは,従来のモデルに比べて6.36%,計算時間11.75%が向上し,収束性が改善された。 24回目で速度安定化が発生した場合の速度平均が向上するため、旧モデルに比べて12.50%改善され、最小のステップで最適レベルに達した。 一方, NRMSE (0.04889174), MAE (0.02829063), MAPE (0.02226053), WAPE (0.01701545), R2 (0.00000021) の計算したp-値は0.05レベル未満であり, 精度性能の点で有意な結果を示した。 RDV IWを用いた改良型ANN-PSOの適用により、HIV/AIDS予測モデルが2モデルと比較して大幅に改善された。

Decision making and planning have long relied heavily on AI-driven forecasts. The government and the general public are working to minimize the risks while maximizing benefits in the face of potential future public health uncertainties. This study used an improved method of forecasting utilizing the Random Descending Velocity Inertia Weight (RDV IW) technique to improve the convergence of Particle Swarm Optimization (PSO) and the accuracy of Artificial Neural Network (ANN). The IW technique, inspired by the motions of a golf ball, modified the particles' velocities as they approached the solution point to a parabolically descending structure. Simulation results revealed that the proposed forecasting model with [0.4, 0.9] combination of alpha and alpha_dump exhibits a 6.36% improvement in position error and 11.75% improvement in computational time compared to the old model, thus, improving its convergence. It reached the optimum level at minimal steps with 12.50% improvement as against the old model since it provides better velocity averages when speed stabilization occurs at the 24th iteration. Meanwhile, the computed p-values for NRMSE (0.04889174), MAE (0.02829063), MAPE (0.02226053), WAPE (0.01701545), and R2 (0.00000021) of the proposed algorithm are less than the set 0.05 level of significance, thus the values indicated a significant result in terms of accuracy performance. Applying the modified ANN-PSO using RDV IW technique greatly improved the new HIV/AIDS forecasting model compared with the two models.
翻訳日:2024-03-25 08:46:38 公開日:2024-01-10
# 効率的なマスク映像モデリングのためのモーションガイドトケン圧縮

Motion Guided Token Compression for Efficient Masked Video Modeling ( http://arxiv.org/abs/2402.18577v1 )

ライセンス: Link先を確認
Yukun Feng, Yangming Shi, Fengze Liu, Tan Yan, (参考訳) 近年のトランスフォーマーの発展は、映像理解の強化において顕著な進歩を遂げている。 それでも、注意機構に関連したO($N^2$)計算の複雑さは、ビデオの高次元性を扱う際にかなりの計算ハードルをもたらす。 この課題は、モーションキャプチャ機能を強化するために、毎秒フレームを増やす(FPS)ときに特に顕著になる。 このような追求は、冗長性を導入し、既存の計算制限を悪化させる可能性がある。 本稿では,FPSレートのエスカレーションにより達成された性能向上を示す。 さらに,トランスフォーマーモデルに対して,より小さいがより代表的なトークンセットを包括的ビデオ表現に活用するための新しいアプローチであるMotion Guided Token Compression(MGTC)を提案する。 これにより計算負荷が大幅に削減され、FPSの上昇にシームレスに適応できる。 具体的には、ビデオ圧縮アルゴリズムからインスピレーションを得て、時間次元の連続するビデオフレームにおけるパッチ間のばらつきを精査する。 そして、所定の閾値未満の格差を示すトークンをマスクする。 特に、このマスキング戦略は、重要な情報を保持しながら、映像の冗長性を効果的に解決する。 ビデオ認識データセットであるKinetics-400, UCF101, HMDB51を用いて, FPSレートの上昇により, 1.6, 1.6, 4.0以上の有意なTop-1精度が向上することが実証された。 マスク比25\%でMGTCを実装することにより、さらに精度を0.1向上させ、Kinetics-400では計算コストを31\%以上削減する。 計算予算が固定された場合でも、MGTCと組み合わせた高いFPSレートは、低いFPS設定と比較してパフォーマンスが向上する。

Recent developments in Transformers have achieved notable strides in enhancing video comprehension. Nonetheless, the O($N^2$) computation complexity associated with attention mechanisms presents substantial computational hurdles when dealing with the high dimensionality of videos. This challenge becomes particularly pronounced when striving to increase the frames per second (FPS) to enhance the motion capturing capabilities. Such a pursuit is likely to introduce redundancy and exacerbate the existing computational limitations. In this paper, we initiate by showcasing the enhanced performance achieved through an escalation in the FPS rate. Additionally, we present a novel approach, Motion Guided Token Compression (MGTC), to empower Transformer models to utilize a smaller yet more representative set of tokens for comprehensive video representation. Consequently, this yields substantial reductions in computational burden and remains seamlessly adaptable to increased FPS rates. Specifically, we draw inspiration from video compression algorithms and scrutinize the variance between patches in consecutive video frames across the temporal dimension. The tokens exhibiting a disparity below a predetermined threshold are then masked. Notably, this masking strategy effectively addresses video redundancy while conserving essential information. Our experiments, conducted on widely examined video recognition datasets, Kinetics-400, UCF101 and HMDB51, demonstrate that elevating the FPS rate results in a significant top-1 accuracy score improvement of over 1.6, 1.6 and 4.0. By implementing MGTC with the masking ratio of 25\%, we further augment accuracy by 0.1 and simultaneously reduce computational costs by over 31\% on Kinetics-400. Even within a fixed computational budget, higher FPS rates paired with MGTC sustain performance gains when compared to lower FPS settings.
翻訳日:2024-03-25 08:46:38 公開日:2024-01-10
# 鍵カプセル化とデジタル署名方式のための同型ポリノミアル公開鍵暗号のベンチマーク性能

Benchmark Performance of Homomorphic Polynomial Public Key Cryptography for Key Encapsulation and Digital Signature Schemes ( http://arxiv.org/abs/2401.02803v2 )

ライセンス: Link先を確認
Randy Kuang, Maria Perepechaenko, Dafu Lou, Brinda Tank, (参考訳) 本稿では, NPハード問題に頼らずに2つの隠蔽リング間の同型対称暗号のセキュリティを活用することで, 従来の暗号パラダイムから逸脱することを示す。 HPPKは、秘密交換のための多項式ベクトル空間とランダム化カプセル化のための多変量ベクトル空間の2つのベクトル空間と密接に関連している、多変量公開鍵暗号(MPKC)の特殊変種と見なすことができる。 HPPKにおける非対称、対称、および同相暗号のユニークな統合は、その性能指標を慎重に調べる必要がある。 本研究は、鍵生成、カプセル化、カプセル化、カプセル化、署名、検証を含む、鍵暗号操作におけるHPPK KEMとDSの徹底的なベンチマークに焦点を当てる。 その結果,HPPKはコンパクトな鍵サイズ,暗号サイズ,署名サイズが特徴的であった。 HPPKにおける対称暗号の使用により、全体的な性能が向上する。 鍵となる発見は、HPPK KEMとDSの様々なセキュリティレベルにおける卓越した性能を強調し、重要な暗号操作におけるその優位性を強調した。 この研究は、HPPKを、ブロックチェーン、デジタル通貨、IoT(Internet of Things)デバイスを含む幅広いアプリケーションにおける、ポスト量子暗号アプリケーションの有望で競争力のあるソリューションとして位置づけている。

This paper conducts a comprehensive benchmarking analysis of the performance of two innovative cryptographic schemes: Homomorphic Polynomial Public Key (HPPK)-Key Encapsulation Mechanism (KEM) and Digital Signature (DS), recently proposed by Kuang et al. These schemes represent a departure from traditional cryptographic paradigms, with HPPK leveraging the security of homomorphic symmetric encryption across two hidden rings without reliance on NP-hard problems. HPPK can be viewed as a specialized variant of Multivariate Public Key Cryptography (MPKC), intricately associated with two vector spaces: the polynomial vector space for the secret exchange and the multivariate vector space for randomized encapsulation. The unique integration of asymmetric, symmetric, and homomorphic cryptography within HPPK necessitates a careful examination of its performance metrics. This study focuses on the thorough benchmarking of HPPK KEM and DS across key cryptographic operations, encompassing key generation, encapsulation, decapsulation, signing, and verification. The results highlight the exceptional efficiency of HPPK, characterized by compact key sizes, cipher sizes, and signature sizes. The use of symmetric encryption in HPPK enhances its overall performance. Key findings underscore the outstanding performance of HPPK KEM and DS across various security levels, emphasizing their superiority in crucial cryptographic operations. This research positions HPPK as a promising and competitive solution for post-quantum cryptographic applications in a wide range of applications, including blockchain, digital currency, and Internet of Things (IoT) devices.
翻訳日:2024-03-18 10:39:12 公開日:2024-01-10
# dRG-MEC: MEC対応クラウドネットワークのための分散強化グリーンオフロード

dRG-MEC: Decentralized Reinforced Green Offloading for MEC-enabled Cloud Network ( http://arxiv.org/abs/2402.00874v1 )

ライセンス: Link先を確認
Asad Aftab and Semeen Rehman(参考訳) マルチアクセスモバイルエッジコンピューティング(MEC)は、6Gネットワークサービス要件を満たす厳密なアプリケーションを計算的に要求する有望なソリューションである。 しかし、エッジサーバはタスク処理中に高い計算コストを発生させる。 本稿では,グリーン環境を実現するジョイント計算オフロードによる最適資源利用のための総計算量と通信オーバーヘッドを最小化する手法を提案する。 そこで我々は分散強化学習 (dRL) アプローチを提案し, 値関数の次元性や過大評価の問題を排除した。 ベースライン方式と比較して,本手法はシステム全体のコストを37.03%削減する。

Multi-access-Mobile Edge Computing (MEC) is a promising solution for computationally demanding rigorous applications, that can meet 6G network service requirements. However, edge servers incur high computation costs during task processing. In this paper, we proposed a technique to minimize the total computation and communication overhead for optimal resource utilization with joint computational offloading that enables a green environment. Our optimization problem is NP-hard; thus, we proposed a decentralized Reinforcement Learning (dRL) approach where we eliminate the problem of dimensionality and over-estimation of the value functions. Compared to baseline schemes our technique achieves a 37.03% reduction in total system costs.
翻訳日:2024-02-11 17:28:11 公開日:2024-01-10
# オンライン授業における学生のパフォーマンス予測への深層学習アプローチ:グローバルな視点による課題

A Deep Learning Approach Towards Student Performance Prediction in Online Courses: Challenges Based on a Global Perspective ( http://arxiv.org/abs/2402.01655v1 )

ライセンス: Link先を確認
Abdallah Moubayed, MohammadNoor Injadat, Nouh Alhindawi, Ghassan Samara, Sara Abuasal, Raed Alazaidah(参考訳) あらゆる学習環境における学生の進捗状況の分析と評価は,従来の分析手法を用いて行うとストレスと時間を要する。 これは、教育におけるインターネット技術の統合への焦点のシフトと、eラーニング、ブレンド、オンライン学習モデルへの移行に学術機関の焦点が移りつつあることによる学生の増加によってさらに誇張される。 その結果,近年,学生のパフォーマンス予測の話題が活発な研究分野となっている。 これを解決するために、機械学習とデータマイニング技術が実現可能なソリューションとして登場した。 そこで本研究では,3つの異なる地域から収集した3つの異なるデータセットを用いて,オンラインコース配信の中間段階における学生のパフォーマンスを予測するためのディープラーニング技術(CNNとRNN-LSTM)を提案する。 実験結果から、ディープラーニングモデルは、3つの考慮されたデータセットのうち2つで、他の最適化された従来のMLモデルよりも優れており、第3のデータセットと同等のパフォーマンスを持つことが示された。

Analyzing and evaluating students' progress in any learning environment is stressful and time consuming if done using traditional analysis methods. This is further exasperated by the increasing number of students due to the shift of focus toward integrating the Internet technologies in education and the focus of academic institutions on moving toward e-Learning, blended, or online learning models. As a result, the topic of student performance prediction has become a vibrant research area in recent years. To address this, machine learning and data mining techniques have emerged as a viable solution. To that end, this work proposes the use of deep learning techniques (CNN and RNN-LSTM) to predict the students' performance at the midpoint stage of the online course delivery using three distinct datasets collected from three different regions of the world. Experimental results show that deep learning models have promising performance as they outperform other optimized traditional ML models in two of the three considered datasets while also having comparable performance for the third dataset.
翻訳日:2024-02-11 17:18:24 公開日:2024-01-10
# エネルギー負荷分散のスコーピングレビュー

A Scoping Review of Energy Load Disaggregation ( http://arxiv.org/abs/2402.01654v1 )

ライセンス: Link先を確認
Bal\'azs Andr\'as Tolnai and Zheng Ma and Bo N{\o}rregaard J{\o}rgensen(参考訳) エネルギー負荷分散は需要サイドマネジメントの有効性を高め、消費者の意識を高めることによって省エネ行動を促進することで電力グリッドのバランスに寄与することができる。 しかし、現在この分野は包括的概要を欠いている。 このギャップに対処するため,本論文では,72のフルテキスト・ジャーナル記事を評価し,負荷分散ドメイン,データ型,手法について概説する。 その結果, 国内電力消費が最も研究されている地域であり, 産業負荷の分散化など他の地域もほとんど議論されていないことがわかった。 研究の大半は、1秒から60秒の比較的低周波のデータを使っている。 様々な手法が用いられ、ニューラルネットワークが最も一般的であり、最適化戦略、隠れマルコフモデル、グラフ信号処理アプローチが続く。

Energy load disaggregation can contribute to balancing power grids by enhancing the effectiveness of demand-side management and promoting electricity-saving behavior through increased consumer awareness. However, the field currently lacks a comprehensive overview. To address this gap, this paper con-ducts a scoping review of load disaggregation domains, data types, and methods, by assessing 72 full-text journal articles. The findings reveal that domestic electricity consumption is the most researched area, while others, such as industrial load disaggregation, are rarely discussed. The majority of research uses relatively low-frequency data, sampled between 1 and 60 seconds. A wide variety of methods are used, and artificial neural networks are the most common, followed by optimization strategies, Hidden Markov Models, and Graph Signal Processing approaches.
翻訳日:2024-02-11 17:18:06 公開日:2024-01-10
# 法的応用のための人工知能の約束と落とし穴

Promises and pitfalls of artificial intelligence for legal applications ( http://arxiv.org/abs/2402.01656v1 )

ライセンス: Link先を確認
Sayash Kapoor, Peter Henderson, Arvind Narayanan(参考訳) AIは法的職業を再定義するか? この主張は現在の証拠には支持されないと我々は主張する。 私たちは、情報処理、創造性、推論、判断を含むタスク、未来に関する予測という3つのタイプの法的タスクにおいて、AIの役割がますます広まっています。 法的な適用評価の容易さは,適切な回答の識別や,その課題に関連する情報の可観測性に基づいて,法的なタスクによって大きく異なることがわかった。 法律専門家に最も大きな変化をもたらすであろうタスクは、評価が難しいため、AI能力に対する過度に最適化する傾向にある。 法的な文脈におけるAIの評価と展開の改善を推奨する。

Is AI set to redefine the legal profession? We argue that this claim is not supported by the current evidence. We dive into AI's increasingly prevalent roles in three types of legal tasks: information processing; tasks involving creativity, reasoning, or judgment; and predictions about the future. We find that the ease of evaluating legal applications varies greatly across legal tasks, based on the ease of identifying correct answers and the observability of information relevant to the task at hand. Tasks that would lead to the most significant changes to the legal profession are also the ones most prone to overoptimism about AI capabilities, as they are harder to evaluate. We make recommendations for better evaluation and deployment of AI in legal contexts.
翻訳日:2024-02-11 17:01:15 公開日:2024-01-10
# データ効率強化学習のための教師なしサルエントパッチ選択

Unsupervised Salient Patch Selection for Data-Efficient Reinforcement Learning ( http://arxiv.org/abs/2402.03329v1 )

ライセンス: Link先を確認
Zhaohui Jiang, Paul Weng(参考訳) 視覚に基づく深部強化学習(RL)のサンプル効率を向上させるために,入力画像から重要なパッチを自動的に抽出するSPIRLという新しい手法を提案する。 Masked Auto-Encodersに続いて、SPIRLはランダムにサンプリングされたパッチからイメージを再構築するために、自己教師付きで事前訓練されたビジョントランスフォーマーモデルに基づいている。 これらの事前訓練されたモデルは、近隣のパッチから再構築が難しいと定義されたサルエントパッチの検出と選択に利用することができる。 RLでは、SPIRLエージェントはアテンションモジュールを介して選択されたサリアンパッチを処理する。 我々は,従来のモデルベース手法やキーポイントベースモデルを含む,関連する最先端手法に対してデータ効率をテストするために,Atariゲーム上でSPIRLを実証的に検証する。 さらに,モデルの解釈可能性についても分析する。

To improve the sample efficiency of vision-based deep reinforcement learning (RL), we propose a novel method, called SPIRL, to automatically extract important patches from input images. Following Masked Auto-Encoders, SPIRL is based on Vision Transformer models pre-trained in a self-supervised fashion to reconstruct images from randomly-sampled patches. These pre-trained models can then be exploited to detect and select salient patches, defined as hard to reconstruct from neighboring patches. In RL, the SPIRL agent processes selected salient patches via an attention module. We empirically validate SPIRL on Atari games to test its data-efficiency against relevant state-of-the-art methods, including some traditional model-based methods and keypoint-based models. In addition, we analyze our model's interpretability capabilities.
翻訳日:2024-02-11 15:36:36 公開日:2024-01-10
# 操作データ計測を用いた近リアルタイム行動分析のための軽量・教師なし手法

A Light-weight and Unsupervised Method for Near Real-time Behavioral Analysis using Operational Data Measurement ( http://arxiv.org/abs/2402.05114v1 )

ライセンス: Link先を確認
Tom Richard Vargis, Siavash Ghiasvand(参考訳) 大規模コンピューティングシステムの状態をモニタリングすることは、予期せぬ振る舞いを特定し、パフォーマンスとアップタイムを改善するために不可欠である。 しかし,そのような計算機システムの大規模かつ分散的な設計と多数の監視パラメータにより,自動監視手法が適用されるべきである。 このような自動監視手法は、コンピューティングシステムの継続的な変化に適応する能力も備えるべきである。 さらに、適切な反応を行うために、有用な時間内に行動異常を識別できる必要がある。 本研究は,大規模計算機システムにおける運用データ計測を用いた近時異常検出のための軽量で教師なしの汎用手法を提案する。 提案モデルでは,コンピュータシステムの動作パターンを正確に再現するために,トレーニングプロセス毎に4時間程度のデータと50のエポックを必要とする。

Monitoring the status of large computing systems is essential to identify unexpected behavior and improve their performance and uptime. However, due to the large-scale and distributed design of such computing systems as well as a large number of monitoring parameters, automated monitoring methods should be applied. Such automatic monitoring methods should also have the ability to adapt themselves to the continuous changes in the computing system. In addition, they should be able to identify behavioral anomalies in useful time, to perform appropriate reactions. This work proposes a general lightweight and unsupervised method for near real-time anomaly detection using operational data measurement on large computing systems. The proposed model requires as little as 4 hours of data and 50 epochs for each training process to accurately resemble the behavioral pattern of computing systems.
翻訳日:2024-02-11 15:14:42 公開日:2024-01-10
# マルチモーダルニューラルネットワークによる脳腫瘍の検出

Detecting Brain Tumors through Multimodal Neural Networks ( http://arxiv.org/abs/2402.00038v1 )

ライセンス: Link先を確認
Antonio Curci and Andrea Esposito(参考訳) 腫瘍は様々な形態や人間の身体の様々な領域に現れる。 脳腫瘍は、それらが発達する臓器の複雑さのため、特に診断や治療が困難である。 それらを検出することで、死亡確率を下げ、患者の治療プロセスを促進することができる。 ai(artificial intelligence)とディープラーニング(deep learning)の使用は、画像技術によって得られた画像から腫瘍の発見と同定のための時間とリソースの観点から、大幅にコストを削減できる可能性がある。 本研究は,磁気共鳴イメージング(mri)スキャンをグレースケール画像として処理するマルチモーダルモデルの性能を評価することを目的とした。 結果は有望であり、モデルが98\%の精度に達するため、同様の作業と一致している。 また,人間による制御と安全を確保するためには,説明可能性と透明性が必要であることも強調する。

Tumors can manifest in various forms and in different areas of the human body. Brain tumors are specifically hard to diagnose and treat because of the complexity of the organ in which they develop. Detecting them in time can lower the chances of death and facilitate the therapy process for patients. The use of Artificial Intelligence (AI) and, more specifically, deep learning, has the potential to significantly reduce costs in terms of time and resources for the discovery and identification of tumors from images obtained through imaging techniques. This research work aims to assess the performance of a multimodal model for the classification of Magnetic Resonance Imaging (MRI) scans processed as grayscale images. The results are promising, and in line with similar works, as the model reaches an accuracy of around 98\%. We also highlight the need for explainability and transparency to ensure human control and safety.
翻訳日:2024-02-04 05:09:19 公開日:2024-01-10
# 医療における汎用AIアバター

A General-purpose AI Avatar in Healthcare ( http://arxiv.org/abs/2401.12981v1 )

ライセンス: Link先を確認
Nicholas Yan, Gil Alterovitz(参考訳) 近年の機械学習と自然言語処理の進歩は、医療産業において重要なツールとして人工知能(AI)の急速な発展につながっている。 会話エージェントやチャットボットとして大規模言語モデル(llm)を使用することで、患者の診断、疾患の早期症状の検出、患者への健康アドバイスの提供を支援することができる。 本稿では、医療におけるチャットボットの役割に焦点を当て、AIインタラクションをより患者にアピールするためのアバターの使用について検討する。 汎用AIアバターアプリケーションのフレームワークを3カテゴリのプロンプト辞書とプロンプト改善機構を用いて実証する。 2段階のアプローチは、汎用ai言語モデルを微調整し、異なるaiアバターを作成して、ユーザと医療上の問題を議論する。 プロンプトエンジニアリングはチャットボットの会話能力と性格特性を高め、患者とのより人間的な対話を促進する。 最終的に、チャットボットにパーソナリティを注入することで、患者のエンゲージメントが向上する可能性がある。 研究の今後の方向性には、チャットボットのコンテキスト理解を改善する方法や、専門的な医療データセットによる微調整によるアウトプットの精度確保などが含まれる。

Recent advancements in machine learning and natural language processing have led to the rapid development of artificial intelligence (AI) as a valuable tool in the healthcare industry. Using large language models (LLMs) as conversational agents or chatbots has the potential to assist doctors in diagnosing patients, detecting early symptoms of diseases, and providing health advice to patients. This paper focuses on the role of chatbots in healthcare and explores the use of avatars to make AI interactions more appealing to patients. A framework of a general-purpose AI avatar application is demonstrated by using a three-category prompt dictionary and prompt improvement mechanism. A two-phase approach is suggested to fine-tune a general-purpose AI language model and create different AI avatars to discuss medical issues with users. Prompt engineering enhances the chatbot's conversational abilities and personality traits, fostering a more human-like interaction with patients. Ultimately, the injection of personality into the chatbot could potentially increase patient engagement. Future directions for research include investigating ways to improve chatbots' understanding of context and ensuring the accuracy of their outputs through fine-tuning with specialized medical data sets.
翻訳日:2024-01-28 15:44:16 公開日:2024-01-10
# 合成ベクトル意味論のための接地学習

Grounded learning for compositional vector semantics ( http://arxiv.org/abs/2401.06808v1 )

ライセンス: Link先を確認
Martha Lewis(参考訳) カテゴリー構成分布意味論は、意味のベクトルベースモデルの成功と形式的意味論の合成力を組み合わせた言語モデリングへのアプローチである。 しかし、このアプローチは認知的可能性に目を向けずに開発された。 概念のベクトル表現と概念結合は認知科学にも興味を持ち、生物学的に妥当なスパイクニューラルネットワーク内の概念を表現する方法として提案されている。 本研究は,概念結合の問題に対処し,実装を小さくする可能性を持つ,スパイキングニューラルネットワークアーキテクチャ内に構成的分布的意味論を実装する方法を提案する。 また,ラベル付き画像を用いた単語表現の訓練手法について述べる。

Categorical compositional distributional semantics is an approach to modelling language that combines the success of vector-based models of meaning with the compositional power of formal semantics. However, this approach was developed without an eye to cognitive plausibility. Vector representations of concepts and concept binding are also of interest in cognitive science, and have been proposed as a way of representing concepts within a biologically plausible spiking neural network. This work proposes a way for compositional distributional semantics to be implemented within a spiking neural network architecture, with the potential to address problems in concept binding, and give a small implementation. We also describe a means of training word representations using labelled images.
翻訳日:2024-01-22 10:15:06 公開日:2024-01-10
# エコセージアシスタント:マルチモーダル植物ケア対話アシスタントの構築に向けて

An EcoSage Assistant: Towards Building A Multimodal Plant Care Dialogue Assistant ( http://arxiv.org/abs/2401.06807v1 )

ライセンス: Link先を確認
Mohit Tomar, Abhisek Tiwari, Tulika Saha, Prince Jha, Sriparna Saha(参考訳) 近年,環境問題に対する意識が高まり,環境への配慮やグリーンライフの育成への献身が強まっている。 現在の16億ドルの屋内園芸産業は、この成長傾向を反映しており、金銭的価値だけでなく、自然界と再接続したいという人間の願望も表している。 しかし、最近のいくつかの調査では、不適切なケアの静かさが主な原因で、私たちのケア内の植物の運命に光を当てている。 このように、植物ケアの複雑さを通じて個人を援助し指導することのできる、アクセス可能な専門知識の必要性は、これまで以上に重要になっている。 本研究は,植物に対する懸念をコミュニケーションを通じて支援することを目的とした,植物ケアアシスタントの構築に向けた最初の試みである。 本研究では,植物ケアの専門家とユーザ間の約1Kの対話を含む植物ケア対話データセットPlandationalを提案する。 エンドツーエンドのアプローチは2つあります。 i) 各種大規模言語モデル(LLM)と視覚言語モデル(VLM)の助けを借りて、まずデータセットをベンチマークし、このタスクにおけるインストラクションチューニング(ゼロショットおよび少数ショットプロンプト)と微調整技術の影響について検討する。 (ii)最後に,ゲート機構を用いたアダプタベースのモダリティ注入を取り入れ,対話生成を支援するマルチモーダル植物ケアフレームワークであるecosageを構築した。 多様なモデルの強みと弱みを強調するために,ドメイン特化対話応答の生成において,様々なllmとvlmが提示する性能を広範囲に検討した(自動評価と手動評価の両方)。

In recent times, there has been an increasing awareness about imminent environmental challenges, resulting in people showing a stronger dedication to taking care of the environment and nurturing green life. The current $19.6 billion indoor gardening industry, reflective of this growing sentiment, not only signifies a monetary value but also speaks of a profound human desire to reconnect with the natural world. However, several recent surveys cast a revealing light on the fate of plants within our care, with more than half succumbing primarily due to the silent menace of improper care. Thus, the need for accessible expertise capable of assisting and guiding individuals through the intricacies of plant care has become paramount more than ever. In this work, we make the very first attempt at building a plant care assistant, which aims to assist people with plant(-ing) concerns through conversations. We propose a plant care conversational dataset named Plantational, which contains around 1K dialogues between users and plant care experts. Our end-to-end proposed approach is two-fold : (i) We first benchmark the dataset with the help of various large language models (LLMs) and visual language model (VLM) by studying the impact of instruction tuning (zero-shot and few-shot prompting) and fine-tuning techniques on this task; (ii) finally, we build EcoSage, a multi-modal plant care assisting dialogue generation framework, incorporating an adapter-based modality infusion using a gated mechanism. We performed an extensive examination (both automated and manual evaluation) of the performance exhibited by various LLMs and VLM in the generation of the domain-specific dialogue responses to underscore the respective strengths and weaknesses of these diverse models.
翻訳日:2024-01-22 10:14:54 公開日:2024-01-10
# augsumm: 大言語モデルを用いた合成ラベルを用いた一般化音声要約

AugSumm: towards generalizable speech summarization using synthetic labels from large language model ( http://arxiv.org/abs/2401.06806v1 )

ライセンス: Link先を確認
Jee-weon Jung, Roshan Sharma, William Chen, Bhiksha Raj, Shinji Watanabe(参考訳) abstractive speech summarization (ssum) は、音声から人間のような要約を生成することを目的としている。 捉えた情報や言い回しのバリエーションを考えると、録音は複数の方法で要約できる。 したがって、単一の要約よりも全ての潜在的要約の確率分布を考える方が妥当である。 しかしながら、従来のSSUMモデルは、主に、録音毎に人間による注釈付き決定論的要約を1つの接地真実(GT)で訓練し、評価する。 複数の人間の参照を生成することは、分布をより統計的に表現するのに理想的であるが、アノテーションが高価であるため実用的ではない。 我々は,大規模言語モデル(llm)を人間用アノテーションのプロキシとして活用する手法であるaugsummを提案することで,この課題に取り組む。 まず、chatgptから合成要約を生成するためのプロンプト戦略を検討する。 我々は,AugSummを用いて生成した要約が人間にとってより有効であると見なされ,人間の評価を含む複数の指標を用いて合成要約の品質を検証する。 第2に,合成要約を訓練・評価に活用する手法を開発した。 How2の実験では、合成サマリーの事前学習とGTサマリーの微調整により、GTおよびAugSummベースのテストセットでROUGE-Lが1ポイント改善された。 AugSummの要約はhttps://github.com/Jungjee/AugSumm.comで入手できる。

Abstractive speech summarization (SSUM) aims to generate human-like summaries from speech. Given variations in information captured and phrasing, recordings can be summarized in multiple ways. Therefore, it is more reasonable to consider a probabilistic distribution of all potential summaries rather than a single summary. However, conventional SSUM models are mostly trained and evaluated with a single ground-truth (GT) human-annotated deterministic summary for every recording. Generating multiple human references would be ideal to better represent the distribution statistically, but is impractical because annotation is expensive. We tackle this challenge by proposing AugSumm, a method to leverage large language models (LLMs) as a proxy for human annotators to generate augmented summaries for training and evaluation. First, we explore prompting strategies to generate synthetic summaries from ChatGPT. We validate the quality of synthetic summaries using multiple metrics including human evaluation, where we find that summaries generated using AugSumm are perceived as more valid to humans. Second, we develop methods to utilize synthetic summaries in training and evaluation. Experiments on How2 demonstrate that pre-training on synthetic summaries and fine-tuning on GT summaries improves ROUGE-L by 1 point on both GT and AugSumm-based test sets. AugSumm summaries are available at https://github.com/Jungjee/AugSumm.
翻訳日:2024-01-22 10:14:23 公開日:2024-01-10
# chatgpt: 手話:実験、建築要素、挑戦、研究の方向性

ChatGPT, Let us Chat Sign Language: Experiments, Architectural Elements, Challenges and Research Directions ( http://arxiv.org/abs/2401.06804v1 )

ライセンス: Link先を確認
Nada Shahin and Leila Ismail(参考訳) ChatGPTは、ジェネレーティブAIに基づく言語モデルである。 既存のChatGPTの研究は、様々な領域での使用に焦点を当てている。 しかし、手話翻訳(SLT)の可能性はまだ検討されていない。 この論文はこの空白に対処する。 そこで本研究では,SLT のアーキテクチャ改善の振り返り解析を目的とした GPT の進化について述べる。 ChatGPTのさまざまな手話の翻訳能力について検討し、聴覚障害や難聴者コミュニティのアクセシビリティ向上への道を開く。 実験の結果,chatgptは英語からアメリカ語(asl),オーストラリア語(auslan),イギリス語(bsl)の手話言語,アラビア語手話(arsl)から英語への翻訳を1回だけ行うことができることがわかった。 しかし、このモデルはアラビア語からArSL、ASL、AUSLAN、BSLに翻訳できなかった。 その結果,今後の研究に向けた課題と洞察が得られた。

ChatGPT is a language model based on Generative AI. Existing research work on ChatGPT focused on its use in various domains. However, its potential for Sign Language Translation (SLT) is yet to be explored. This paper addresses this void. Therefore, we present GPT's evolution aiming a retrospective analysis of the improvements to its architecture for SLT. We explore ChatGPT's capabilities in translating different sign languages in paving the way to better accessibility for deaf and hard-of-hearing community. Our experimental results indicate that ChatGPT can accurately translate from English to American (ASL), Australian (AUSLAN), and British (BSL) sign languages and from Arabic Sign Language (ArSL) to English with only one prompt iteration. However, the model failed to translate from Arabic to ArSL and ASL, AUSLAN, and BSL to Arabic. Consequently, we present challenges and derive insights for future research directions.
翻訳日:2024-01-22 10:14:00 公開日:2024-01-10
# ジェネレーティブAIとセマンティックコミュニケーション:コミュニケーションタスクの進化と革命

Generative AI Meets Semantic Communication: Evolution and Revolution of Communication Tasks ( http://arxiv.org/abs/2401.06803v1 )

ライセンス: Link先を確認
Eleonora Grassucci, Jihong Park, Sergio Barbarossa, Seong-Lyun Kim, Jinho Choi, Danilo Comminiello(参考訳) 深層生成モデルはコンピュータビジョンと自然言語処理においてエキサイティングな能力を示しているが、通信フレームワークへの採用はいまだに過小評価されている。 これらの手法は、デノイジング、復元、圧縮といった古典的な通信問題の解を進化させることが示されている。 それでも、生成モデルは、送信された(意味のある)メッセージのエンコードに使用されるビットのシーケンスをレシーバに要求せず、送信されたメッセージと意味的に整合したコンテンツのみを再生する、セマンティック通信フレームワークにおいて、その真の可能性を明らかにすることができる。 セマンティックコミュニケーションにおける生成モデル機能の開示は、従来の通信システムに対するパラダイムシフトの道を開くものであり、これはデータトラフィックの量を削減し、数年前には考えられなかった新しいタスクやアプリケーションに対する革命的な汎用性を提供する。 本稿では,セマンティックコミュニケーションにおけるディープジェネレーティブモデルの統一的な視点を示し,今後のコミュニケーションフレームワークにおけるその革命的役割を明らかにし,新たなアプリケーションやタスクを実現する。 最後に,コミュニケーションシステムに適した生成モデルを開発する上で直面する課題と機会を分析する。

While deep generative models are showing exciting abilities in computer vision and natural language processing, their adoption in communication frameworks is still far underestimated. These methods are demonstrated to evolve solutions to classic communication problems such as denoising, restoration, or compression. Nevertheless, generative models can unveil their real potential in semantic communication frameworks, in which the receiver is not asked to recover the sequence of bits used to encode the transmitted (semantic) message, but only to regenerate content that is semantically consistent with the transmitted message. Disclosing generative models capabilities in semantic communication paves the way for a paradigm shift with respect to conventional communication systems, which has great potential to reduce the amount of data traffic and offers a revolutionary versatility to novel tasks and applications that were not even conceivable a few years ago. In this paper, we present a unified perspective of deep generative models in semantic communication and we unveil their revolutionary role in future communication frameworks, enabling emerging applications and tasks. Finally, we analyze the challenges and opportunities to face to develop generative models specifically tailored for communication systems.
翻訳日:2024-01-22 10:13:42 公開日:2024-01-10
# データ限定属性推論のためのテキストグラフ上の階層的知識蒸留

Hierarchical Knowledge Distillation on Text Graph for Data-limited Attribute Inference ( http://arxiv.org/abs/2401.06802v1 )

ライセンス: Link先を確認
Quan Li, Shixiong Jing, Lingwei Chen(参考訳) ソーシャルメディアの普及はユーザーのエンゲージメントを高め、大量のユーザー指向データを生成する。 その中でも、テキストデータ(例えば、ツイート、ブログ)は、研究者や投機家の意図を満たすためにユーザーの属性(年齢、性別、場所など)を推測するために大いに引き寄せる。 一般的に、この一連の研究は属性推論をテキスト分類問題とみなし、グラフニューラルネットワーク(GNN)を活用して、ソーステキストの高レベル表現を活用する。 しかし、これらのテキストグラフは単語の上に構築され、少ないラベル付きテキストで高いメモリ消費と非効率に苦しむ。 この課題に対処するために,ソーシャルメディアのテキストデータに対する属性推論のための,テキストグラフに基づく少数ショット学習モデルを設計する。 私たちのモデルはまず,マニホールド学習とメッセージパッシングを用いたテキストグラフの構築と洗練を行い,表現性と複雑性のトレードオフを改善した。 その後、クロスドメインテキストとラベルなしテキストをさらに活用して、少数のパフォーマンスを改善するため、テキストグラフ上で階層的な知識蒸留を考案し、より良いテキスト表現を導き、モデル一般化能力を向上させる。 ソーシャルメディアデータセットを用いた実験は、ラベル付きテキストがかなり少ない属性推論において、我々のモデルの最先端のパフォーマンスを示す。

The popularization of social media increases user engagements and generates a large amount of user-oriented data. Among them, text data (e.g., tweets, blogs) significantly attracts researchers and speculators to infer user attributes (e.g., age, gender, location) for fulfilling their intents. Generally, this line of work casts attribute inference as a text classification problem, and starts to leverage graph neural networks (GNNs) to utilize higher-level representations of source texts. However, these text graphs are constructed over words, suffering from high memory consumption and ineffectiveness on few labeled texts. To address this challenge, we design a text-graph-based few-shot learning model for attribute inferences on social media text data. Our model first constructs and refines a text graph using manifold learning and message passing, which offers a better trade-off between expressiveness and complexity. Afterwards, to further use cross-domain texts and unlabeled texts to improve few-shot performance, a hierarchical knowledge distillation is devised over text graph to optimize the problem, which derives better text representations, and advances model generalization ability. Experiments on social media datasets demonstrate the state-of-the-art performance of our model on attribute inferences with considerably fewer labeled texts.
翻訳日:2024-01-22 10:13:21 公開日:2024-01-10
# Graph-of-Thought: 大規模言語モデルを使って複雑で動的なビジネス問題を解決する

Graph-of-Thought: Utilizing Large Language Models to Solve Complex and Dynamic Business Problems ( http://arxiv.org/abs/2401.06801v1 )

ライセンス: Link先を確認
Ye Li(参考訳) 本稿では,複雑なタスク実行における大規模言語モデル(LLM)の柔軟性と効率を向上させるワークフロー自動化の新しいモデルであるGraph-of-Thought(GoT)を提案する。 GoTは、動的なパス選択を可能にするグラフ構造を持つ従来の線形および木のような認知モデルを超えて進歩する。 オープンソースのエンジンであるGoTFlowは、GoTの実践的な応用を実証し、さまざまなドメインで自動でデータ駆動による意思決定を容易にする。 複雑さと透明性の課題にもかかわらず、GoTFlowのビジネスプロセス改善の可能性は重要であり、継続的開発による効率性と意思決定品質の両方の進歩が期待できる。

This paper presents Graph-of-Thought (GoT), a new model for workflow automation that enhances the flexibility and efficiency of Large Language Models (LLMs) in complex task execution. GoT advances beyond traditional linear and tree-like cognitive models with a graph structure that enables dynamic path selection. The open-source engine GoTFlow demonstrates the practical application of GoT, facilitating automated, data-driven decision-making across various domains. Despite challenges in complexity and transparency, GoTFlow's potential for improving business processes is significant, promising advancements in both efficiency and decision quality with continuous development.
翻訳日:2024-01-22 10:13:00 公開日:2024-01-10
# ドメインチャットボットのためのRAG最適化のための強化学習

Reinforcement Learning for Optimizing RAG for Domain Chatbots ( http://arxiv.org/abs/2401.06800v1 )

ライセンス: Link先を確認
Mandar Kulkarni, Praveen Tangarajan, Kyung Kim, Anusua Trivedi(参考訳) 大規模言語モデル(llm)の登場により、会話型アシスタントがドメインのユースケースで普及しています。 llmsはトレーニングを通じて文脈的質問応答能力を取得し、拡張生成(rag)を検索することで、さらにドメイン固有の質問に答えることができる。 本稿では,FAQデータを用いてユーザの質問に回答するチャットボットを構築するためのRAGベースのアプローチについて述べる。 本研究では,インフォメーションNCE損失を用いた社内検索埋め込みモデルをトレーニングし,インフォメーションモデルが,検索精度とアウト・オブ・ドメイン(OOD)クエリ検出の両面で,よく知られた汎用的な公開埋め込みモデルよりもはるかに優れていることを示す実験結果を得た。 LLMとしては、オープンAPIベースの有償ChatGPTモデルを使用します。 クエリの特定のパターン/シーケンス(例えば、フォローアップクエリ)に対する応答を生成するために、以前に検索されたコンテキストが使用できることに気付きました。 したがって、LLMトークンの数とコストを最適化するスコープがある。 固定検索モデルとLLMを仮定し、強化学習(RL)を用いてLLMトークンの数を最適化する。 具体的には、ポリシーアクションを通じてRAGパイプラインと相互作用し、コストを最適化するためにポリシーを更新するポリシーベースのRAG外部モデルを提案する。 ポリシーモデルは、FAQコンテキストを取得するか、検索をスキップする2つのアクションを実行することができる。 報酬モデルとしてオープンAPIベースのGPT-4を使用します。 次に、複数のトレーニングチャットセッションにおけるポリシー勾配を用いてポリシーモデルをトレーニングする。 政策モデルとして,公開gpt-2モデルと社内BERTモデルを実験した。 提案するrlベース最適化と類似度しきい値の組み合わせにより,若干の精度向上を図りながら,大幅なコスト削減を実現することができた。 FAQチャットボットの結果を示すが、提案したRLアプローチは汎用的であり、既存のRAGパイプラインで実験することができる。

With the advent of Large Language Models (LLM), conversational assistants have become prevalent for domain use cases. LLMs acquire the ability to contextual question answering through training, and Retrieval Augmented Generation (RAG) further enables the bot to answer domain-specific questions. This paper describes a RAG-based approach for building a chatbot that answers user's queries using Frequently Asked Questions (FAQ) data. We train an in-house retrieval embedding model using infoNCE loss, and experimental results demonstrate that the in-house model works significantly better than the well-known general-purpose public embedding model, both in terms of retrieval accuracy and Out-of-Domain (OOD) query detection. As an LLM, we use an open API-based paid ChatGPT model. We noticed that a previously retrieved-context could be used to generate an answer for specific patterns/sequences of queries (e.g., follow-up queries). Hence, there is a scope to optimize the number of LLM tokens and cost. Assuming a fixed retrieval model and an LLM, we optimize the number of LLM tokens using Reinforcement Learning (RL). Specifically, we propose a policy-based model external to the RAG, which interacts with the RAG pipeline through policy actions and updates the policy to optimize the cost. The policy model can perform two actions: to fetch FAQ context or skip retrieval. We use the open API-based GPT-4 as the reward model. We then train a policy model using policy gradient on multiple training chat sessions. As a policy model, we experimented with a public gpt-2 model and an in-house BERT model. With the proposed RL-based optimization combined with similarity threshold, we are able to achieve significant cost savings while getting a slightly improved accuracy. Though we demonstrate results for the FAQ chatbot, the proposed RL approach is generic and can be experimented with any existing RAG pipeline.
翻訳日:2024-01-22 10:12:48 公開日:2024-01-10
# SAR画像セグメンテーションのための局所統計的アクティブな輪郭モデルがデノナイズアルゴリズムによって解ける

A locally statistical active contour model for SAR image segmentation can be solved by denoising algorithms ( http://arxiv.org/abs/2401.10083v1 )

ライセンス: Link先を確認
Guangming Liu, Quanying Sun, Jing Liang, Qi Liu(参考訳) 本稿では,エッジ(awe)モデルのないアクティブ輪郭と測地能動輪郭(gac)モデルをハイブリッド化したi-divergence-tvデノージングモデルに基づく,新しい局所統計変分能動輪郭モデルを提案する。 提案モデルのレベル集合進化(lse)方程式に拡散項を付加することにより、各セグメント領域において段階的に一定となるレベル集合関数(lsf)を定式化し、安定解を得ることのできる反応拡散方程式(rd)を構築する。 さらに,提案したモデルを,近接項を追加して古典的ROFモデルに変換する。 最近jia-zhaoが提案する高速な分別アルゴリズムに触発されて,sar画像分割問題を解くための2つの高速不動点アルゴリズムを提案する。 実SAR画像に対する実験結果から,提案した画像セグメンテーションモデルは,弱あるいはぼやけたエッジで輪郭を効率よく停止し,乗算ガンマノイズで画像の外界と内界を自動的に検出できることがわかった。 提案したFPRD1/FPRD2モデルは、スプリット・ブレグマン法に基づくSBRDモデルに必要な時間の約1/2(またはそれ以下)である。

In this paper, we propose a novel locally statistical variational active contour model based on I-divergence-TV denoising model, which hybrides geodesic active contour (GAC) model with active contours without edges (ACWE) model, and can be used to segment images corrupted by multiplicative gamma noise. By adding a diffusion term into the level set evolution (LSE) equation of the proposed model, we construct a reaction-diffusion (RD) equation, which can gradually regularize the level set function (LSF) to be piecewise constant in each segment domain and gain the stable solution. We further transform the proposed model into classic ROF model by adding a proximity term. Inspired by a fast denoising algorithm proposed by Jia-Zhao recently, we propose two fast fixed point algorithms to solve SAR image segmentation question. Experimental results for real SAR images show that the proposed image segmentation model can efficiently stop the contours at weak or blurred edges, and can automatically detect the exterior and interior boundaries of images with multiplicative gamma noise. The proposed FPRD1/FPRD2 models are about 1/2 (or less than) of the time required for the SBRD model based on the Split Bregman technique.
翻訳日:2024-01-22 09:17:10 公開日:2024-01-10
# 金融におけるスケーラブルアクションのためのCNN-DRL

CNN-DRL for Scalable Actions in Finance ( http://arxiv.org/abs/2401.06179v1 )

ライセンス: Link先を確認
Sina Montazeri, Akram Mirzaeinia, Haseebullah Jumakhan, Amir Mirzaeinia(参考訳) MLPベースのDRLは、アクションスケールが大きくなると環境のダイナミクスを学ぶのに困難がある。 買収と売却が1000株に増加すると、MLPエージェントは環境に効果的に対応できない。 そこで我々は,CNN入力行列を生成するために,日次特徴ベクトルの最後の90日間のデータを結合するCNNエージェントを設計した。 広範な実験により,mlpベースのエージェントは初期環境設定に応じた損失を経験するが,設計したcnnは安定であり,環境を効果的に学習し,報酬の増大につながることが示された。

The published MLP-based DRL in finance has difficulties in learning the dynamics of the environment when the action scale increases. If the buying and selling increase to one thousand shares, the MLP agent will not be able to effectively adapt to the environment. To address this, we designed a CNN agent that concatenates the data from the last ninety days of the daily feature vector to create the CNN input matrix. Our extensive experiments demonstrate that the MLP-based agent experiences a loss corresponding to the initial environment setup, while our designed CNN remains stable, effectively learns the environment, and leads to an increase in rewards.
翻訳日:2024-01-15 21:21:50 公開日:2024-01-10
# AIアートは盗難:労働、抽出、爆発、あるいは確率的ポリロックの危険について

AI Art is Theft: Labour, Extraction, and Exploitation, Or, On the Dangers of Stochastic Pollocks ( http://arxiv.org/abs/2401.06178v1 )

ライセンス: Link先を確認
Trystan S. Goetze(参考訳) dall-e、midjourney、stable diffusionといったアプリケーションがローンチされて以来、生成型人工知能はアートワークを作成するツールとして議論を呼んでいる。 これらの技術が今後完全に自動化される未来を後押しするものとして、長期的な懸念を表明する者もいるが、より重要なのは、創造的なAIが創造的な労働力に与える影響だ。 すでにビジネスリーダーは、人間の芸術労働をAI生成画像に置き換え始めている。 これに対し、芸術コミュニティは抗議運動を開始し、AI画像生成は一種の盗難であると論じている。 本稿では、ai画像生成装置が非倫理的な労働盗難を伴うと結論づけて、これらの議論を分析し、実証し、批判する。 正しければ、他の多くのAIアプリケーションも盗難に依存している。

Since the launch of applications such as DALL-E, Midjourney, and Stable Diffusion, generative artificial intelligence has been controversial as a tool for creating artwork. While some have presented longtermist worries about these technologies as harbingers of fully automated futures to come, more pressing is the impact of generative AI on creative labour in the present. Already, business leaders have begun replacing human artistic labour with AI-generated images. In response, the artistic community has launched a protest movement, which argues that AI image generation is a kind of theft. This paper analyzes, substantiates, and critiques these arguments, concluding that AI image generators involve an unethical kind of labour theft. If correct, many other AI applications also rely upon theft.
翻訳日:2024-01-15 21:21:38 公開日:2024-01-10
# GOODAT: テストタイムグラフアウトオブディストリビューション検出を目指す

GOODAT: Towards Test-time Graph Out-of-Distribution Detection ( http://arxiv.org/abs/2401.06176v1 )

ライセンス: Link先を確認
Luzhi Wang, Dongxiao He, He Zhang, Yixin Liu, Wenjie Wang, Shirui Pan, Di Jin, Tat-Seng Chua(参考訳) グラフニューラルネットワーク(GNN)は、さまざまな領域にわたるグラフデータのモデリングに広く応用されている。 gnnは、テストデータがトレーニング対象のディストリビューション(ディストリビューション、id)を共有しているシナリオで優れているが、不慣れなディストリビューション(ディストリビューション外、ood)からのサンプルと向き合う場合、誤った予測を示すことが多い。 近年の研究では、OODサンプルをGNNで識別・否定するために、グラフOOD検出を探索し、特定のモデルのトレーニングや、よく訓練されたGNN上でのデータ修正に重点を置いている。 その効果にもかかわらず、これらの方法はトレーニングデータにgnnベースのモデルを最適化する必要があるため、多くのトレーニングリソースとコストを伴っている。 さらに、元のGNNの変更やトレーニングデータへのアクセスへの依存により、その普遍性はさらに制限される。 そこで本稿では,GNN アーキテクチャのトレーニングデータと修正から独立して動作するデータ中心型,教師なし,プラグイン・アンド・プレイソリューションである GOODAT をテスト時に検出する手法を提案する。 軽量なグラフマスクにより、GOODATはテストサンプルから情報的なサブグラフを学習し、OODとIDの異なるグラフパターンをキャプチャすることができる。 グラフマスマを最適化するために,グラフ情報のボトルネック原理に基づく3つの非教師対象関数を慎重に設計し,OOD検出のためのコンパクトかつ情報に富んだサブグラフを抽出する。 包括的評価により、GOODATメソッドは様々な実世界のデータセットで最先端のベンチマークより優れていることが確認される。 コードはgithubで入手できる: https://github.com/ee1s/goodat

Graph neural networks (GNNs) have found widespread application in modeling graph data across diverse domains. While GNNs excel in scenarios where the testing data shares the distribution of their training counterparts (in distribution, ID), they often exhibit incorrect predictions when confronted with samples from an unfamiliar distribution (out-of-distribution, OOD). To identify and reject OOD samples with GNNs, recent studies have explored graph OOD detection, often focusing on training a specific model or modifying the data on top of a well-trained GNN. Despite their effectiveness, these methods come with heavy training resources and costs, as they need to optimize the GNN-based models on training data. Moreover, their reliance on modifying the original GNNs and accessing training data further restricts their universality. To this end, this paper introduces a method to detect Graph Out-of-Distribution At Test-time (namely GOODAT), a data-centric, unsupervised, and plug-and-play solution that operates independently of training data and modifications of GNN architecture. With a lightweight graph masker, GOODAT can learn informative subgraphs from test samples, enabling the capture of distinct graph patterns between OOD and ID samples. To optimize the graph masker, we meticulously design three unsupervised objective functions based on the graph information bottleneck principle, motivating the masker to capture compact yet informative subgraphs for OOD detection. Comprehensive evaluations confirm that our GOODAT method outperforms state-of-the-art benchmarks across a variety of real-world datasets. The code is available at Github: https://github.com/Ee1s/GOODAT
翻訳日:2024-01-15 21:21:24 公開日:2024-01-10
# MTAD:多変量時系列異常検出のためのツールとベンチマーク

MTAD: Tools and Benchmarks for Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2401.06175v1 )

ライセンス: Link先を確認
Jinyang Liu, Wenwei Gu, Zhuangbin Chen, Yichen Li, Yuxin Su, Michael R. Lyu(参考訳) KPI(Key Performance Indicator)は、多くのソフトウェアシステムの信頼性と安定性を保証するために必要不可欠な時系列メトリクスである。 ランタイム状態を忠実に記録し、異常なシステム動作の理解を促進し、エンジニアが根本原因を特定できる情報を提供する。 しかし、現代のソフトウェアシステムの前例のない規模と複雑さは、KPIの体積を爆発させる。 その結果、伝統的なkpi異常検出法は非実用的となり、学界と産業の両方における機械学習ベースのソリューションの急速な発展の触媒となる。 しかしながら、これらのKPI異常検出手法には厳密な比較が欠如しており、再実装には自明な努力が必要である。 さらに、異なる研究が異なるメトリクスを持つ独立した評価プロセスを採用することを観察する。 モデルの能力を完全には明らかにしないものもあるし、進歩の錯覚を生み出しているものもある。 種々のKPI異常検出器の特性をよりよく理解し,評価問題に対処するために,本稿では,12種類の最先端手法の総合的なレビューと評価を行い,サリエンスと呼ばれる新しい指標を提案する。 特に、選択された方法は、5つの伝統的な機械学習ベースの方法と7つのディープラーニングベースの方法を含む。 これらの手法は、公開されている5つの多変量KPIデータセットを用いて評価される。 使いやすいインターフェースを備えた統一ツールキットもリリースされた。 我々は,産業展開において実用上重要である正確性,塩分,効率性,遅延の観点からベンチマーク結果を報告する。 我々の研究は、将来の学術研究と産業応用の基盤として貢献できると信じています。

Key Performance Indicators (KPIs) are essential time-series metrics for ensuring the reliability and stability of many software systems. They faithfully record runtime states to facilitate the understanding of anomalous system behaviors and provide informative clues for engineers to pinpoint the root causes. The unprecedented scale and complexity of modern software systems, however, make the volume of KPIs explode. Consequently, many traditional methods of KPI anomaly detection become impractical, which serves as a catalyst for the fast development of machine learning-based solutions in both academia and industry. However, there is currently a lack of rigorous comparison among these KPI anomaly detection methods, and re-implementation demands a non-trivial effort. Moreover, we observe that different works adopt independent evaluation processes with different metrics. Some of them may not fully reveal the capability of a model and some are creating an illusion of progress. To better understand the characteristics of different KPI anomaly detectors and address the evaluation issue, in this paper, we provide a comprehensive review and evaluation of twelve state-of-the-art methods, and propose a novel metric called salience. Particularly, the selected methods include five traditional machine learning-based methods and seven deep learning-based methods. These methods are evaluated with five multivariate KPI datasets that are publicly available. A unified toolkit with easy-to-use interfaces is also released. We report the benchmark results in terms of accuracy, salience, efficiency, and delay, which are of practical importance for industrial deployment. We believe our work can contribute as a basis for future academic research and industrial application.
翻訳日:2024-01-15 21:20:56 公開日:2024-01-10
# 脊椎バイオメカニクスにおける機械学習応用

Machine Learning Applications in Spine Biomechanics ( http://arxiv.org/abs/2401.06174v1 )

ライセンス: Link先を確認
Farshid Ghezelbash, Amir Hossein Eskandari, Xavier Robert-Lachaine, Frank Cao, Mehran Pesteie, Zhuohua Qiao, Aboulfazl Shirazi-Adl, Christian Larivi\`ere(参考訳) Spine Biomechanicsは、機械学習とコンピュータビジョン技術の出現と統合と共に変化しつつある。 これらの新しい技術は、単一カメラ画像と同じくらい単純な3次元体形、人体計測、運動学を推定しやすくし、多様な用途においてよりアクセスしやすく実用的である。 本研究は,これらの手法を従来の筋骨格モデリングと統合し,単一カメラによる複雑な活動中の脊髄バイオメカニクスの包括的解析を可能にする枠組みを提案する。 さらに,脊椎バイオメカニクス応用における性能と限界を評価することを目的とした。 本研究における実世界の応用例としては,職場での揚力評価,自動車事故における鞭打ち損傷の評価,プロスポーツにおける生体力学的解析などが挙げられる。 その結果,体型,運動学,フィールド内生体力学的解析における様々なアルゴリズムの可能性と限界が示された。 産業環境では、これらの新しい技術をバイオメカニカルリスクアセスメントに活用する可能性は、背中の怪我に対する予防措置の道筋を提供する。 スポーツ活動において,提案する枠組みは,パフォーマンス最適化,傷害防止,リハビリテーションの新たな機会を提供する。 法医学領域の申請は、この技術の広範な影響をさらに強調している。 特定の限界、特に予測精度、複雑な相互作用、および外部負荷推定において特定されたが、本研究では、脊椎生体力学の進歩の可能性を示し、研究と実用の両方において楽観的な未来を告げる。

Spine biomechanics is at a transformation with the advent and integration of machine learning and computer vision technologies. These novel techniques facilitate the estimation of 3D body shapes, anthropometrics, and kinematics from as simple as a single-camera image, making them more accessible and practical for a diverse range of applications. This study introduces a framework that merges these methodologies with traditional musculoskeletal modeling, enabling comprehensive analysis of spinal biomechanics during complex activities from a single camera. Additionally, we aim to evaluate their performance and limitations in spine biomechanics applications. The real-world applications explored in this study include assessment in workplace lifting, evaluation of whiplash injuries in car accidents, and biomechanical analysis in professional sports. Our results demonstrate potential and limitations of various algorithms in estimating body shape, kinematics, and conducting in-field biomechanical analyses. In industrial settings, the potential to utilize these new technologies for biomechanical risk assessments offers a pathway for preventive measures against back injuries. In sports activities, the proposed framework provides new opportunities for performance optimization, injury prevention, and rehabilitation. The application in forensic domain further underscores the wide-reaching implications of this technology. While certain limitations were identified, particularly in accuracy of predictions, complex interactions, and external load estimation, this study demonstrates their potential for advancement in spine biomechanics, heralding an optimistic future in both research and practical applications.
翻訳日:2024-01-15 21:20:30 公開日:2024-01-10
# ニューラルネットワークを解釈するためのフレームワークgpex

GPEX, A Framework For Interpreting Artificial Neural Networks ( http://arxiv.org/abs/2112.09820v2 )

ライセンス: Link先を確認
Amir Akbarnejad, Gilbert Bigras, Nilanjan Ray(参考訳) ガウス過程(GP)とディープ人工知能ニューラルネットワーク(ANN)の類似性は多くの関心を集めており、ディープANNのブラックボックスをアンボックスすることを約束している。 既存の理論的な研究は、ANNに厳密な仮定を課した(例えば、すべての中間層を広くする必要がある、あるいは特定のアクティベーション関数を使用する)。 これらの理論的な仮定は、最近のディープ・アーキテクチャーでは困難であり、新しいディープ・アーキテクチャーが出現するにつれて、それらの理論的な条件は洗練する必要がある。 本稿では, ANN の出力と ANN の出力を一致させるため, GP の後方に低バウンドの証拠を導出する。 この方法を用いることで、5つのデータセットにおいて、これらの理論上の仮定のサブセットのみが十分であることが分かる。 実際、私たちの実験では、通常resnet-18またはフィードフォワードバックボーンを使用していました。 GPの訓練の1つの制限は、誘導点の数に関するスケーラビリティの欠如である。 我々は、数十万の誘導ポイントとGPUアクセラレーションでGPをトレーニングできる新しい計算技術を使用している。 我々の実験で示されているように、5つのデータセット上でGPとANNの密接な一致を得るためには、そうすることが不可欠である。 我々は、gpex と呼ばれる公開ツールとして、このメソッドを実装しています。 5つのデータセット(4つの画像データセットと1つの生物学的データセット)と2種類の機能(分類器または注意機構)を持つANNでは、出力が対応するANNのものと密接に一致するGPを見つけることができた。 GPとANNをマッチングした後、我々はGPのカーネル関数を用いてANNの決定を説明した。 我々は,200以上の説明(論文では約30説明,補題ではその他の説明)を人間によって高度に解釈され,得られたGPがANNの判断を解き放つ能力を示す。

The analogy between Gaussian processes (GPs) and deep artificial neural networks (ANNs) has received a lot of interest, and has shown promise to unbox the blackbox of deep ANNs. Existing theoretical works put strict assumptions on the ANN (e.g. requiring all intermediate layers to be wide, or using specific activation functions). Accommodating those theoretical assumptions is hard in recent deep architectures, and those theoretical conditions need refinement as new deep architectures emerge. In this paper we derive an evidence lower-bound that encourages the GP's posterior to match the ANN's output without any requirement on the ANN. Using our method we find out that on 5 datasets, only a subset of those theoretical assumptions are sufficient. Indeed, in our experiments we used a normal ResNet-18 or feed-forward backbone with a single wide layer in the end. One limitation of training GPs is the lack of scalability with respect to the number of inducing points. We use novel computational techniques that allow us to train GPs with hundreds of thousands of inducing points and with GPU acceleration. As shown in our experiments, doing so has been essential to get a close match between the GPs and the ANNs on 5 datasets. We implement our method as a publicly available tool called GPEX: https://github.com/amirakbarnejad/gpex. On 5 datasets (4 image datasets, and 1 biological dataset) and ANNs with 2 types of functionality (classifier or attention-mechanism) we were able to find GPs whose outputs closely match those of the corresponding ANNs. After matching the GPs to the ANNs, we used the GPs' kernel functions to explain the ANNs' decisions. We provide more than 200 explanations (around 30 explanations in the paper and the rest in the supplementary) which are highly interpretable by humans and show the ability of the obtained GPs to unbox the ANNs' decisions.
翻訳日:2024-01-13 04:36:53 公開日:2024-01-10
# 反復学習を用いた条件付き可逆ニューラルネットワーク(cINN)に基づく展開法

An unfolding method based on conditional Invertible Neural Networks (cINN) using iterative training ( http://arxiv.org/abs/2212.08674v3 )

ライセンス: Link先を確認
Mathias Backes, Anja Butter, Monica Dunford and Bogdan Malaescu(参考訳) 検出器効果の展開は、データと理論予測を比較する上で重要である。 従来の手法は低次元のデータ表現に限られているが、機械学習は全次元を維持しながら新しい展開技術を実現している。 invertible neural networks~(inn)のような生成ネットワークは、個々の事象を対応する展開確率分布にマッピングする確率的展開を可能にする。 しかしながら、そのような手法の精度は、実際に展開されたデータをシミュレーションしたトレーニングサンプルの精度によって制限される。 模擬トレーニングサンプルとデータ間のずれを調整した展開のための反復条件 INN~(IcINN) を導入する。 IcINN展開はまずおもちゃのデータで検証され、その後$pp \to Z \gamma \gamma$プロセスの擬似データに適用される。

The unfolding of detector effects is crucial for the comparison of data to theory predictions. While traditional methods are limited to representing the data in a low number of dimensions, machine learning has enabled new unfolding techniques while retaining the full dimensionality. Generative networks like invertible neural networks~(INN) enable a probabilistic unfolding, which map individual events to their corresponding unfolded probability distribution. The accuracy of such methods is however limited by how well simulated training samples model the actual data that is unfolded. We introduce the iterative conditional INN~(IcINN) for unfolding that adjusts for deviations between simulated training samples and data. The IcINN unfolding is first validated on toy data and then applied to pseudo-data for the $pp \to Z \gamma \gamma$ process.
翻訳日:2024-01-13 04:32:55 公開日:2024-01-10
# 層間相関伝播最適化によるディープニューラルネットワークの一般化と背景バイアスに対するロバスト性の改善

Improving deep neural network generalization and robustness to background bias via layer-wise relevance propagation optimization ( http://arxiv.org/abs/2202.00232v7 )

ライセンス: Link先を確認
Pedro R. A. S. Bassi, Sergio S. J. Dertkigil and Andrea Cavalli(参考訳) 画像の背景の特徴は、背景バイアスを表す画像のクラスと飛躍的に相関する。 それらは分類器の決定に影響を与え、近距離学習(clever hans effect)を引き起こす。 この現象は、標準的な評価データセットでよく機能する深層ニューラルネットワーク(DNN)を生成する。 レイヤワイド・レバレンス・プロパゲーション(LRP)はDNNの決定を説明する。 本稿では,LRPヒートマップの最適化により,深層分類器の背景バイアスの影響を最小限に抑えることができ,ショートカット学習を阻害できることを示す。 実行時の計算コストを増加させないことで、アプローチは軽量かつ高速になる。 さらに、事実上どんな分類アーキテクチャにも適用される。 画像の背景に合成バイアスを注入した後、我々のアプローチ(ISNet)を8つの最先端DNNと比較し、背景バイアスに優れた堅牢性を定量的に示す。 混合データセットは、背景バイアスを助長する胸部x線によるcovid-19と結核の分類に共通している。 肺に焦点を当てることで、ISNetはショートカット学習を減らした。 したがって、外部(配布外)テストデータベースにおける一般化性能は、実装されたベンチマークモデル全てを大幅に上回った。

Features in images' backgrounds can spuriously correlate with the images' classes, representing background bias. They can influence the classifier's decisions, causing shortcut learning (Clever Hans effect). The phenomenon generates deep neural networks (DNNs) that perform well on standard evaluation datasets but generalize poorly to real-world data. Layer-wise Relevance Propagation (LRP) explains DNNs' decisions. Here, we show that the optimization of LRP heatmaps can minimize the background bias influence on deep classifiers, hindering shortcut learning. By not increasing run-time computational cost, the approach is light and fast. Furthermore, it applies to virtually any classification architecture. After injecting synthetic bias in images' backgrounds, we compared our approach (dubbed ISNet) to eight state-of-the-art DNNs, quantitatively demonstrating its superior robustness to background bias. Mixed datasets are common for COVID-19 and tuberculosis classification with chest X-rays, fostering background bias. By focusing on the lungs, the ISNet reduced shortcut learning. Thus, its generalization performance on external (out-of-distribution) test databases significantly surpassed all implemented benchmark models.
翻訳日:2024-01-13 04:26:40 公開日:2024-01-10
# 結合神経シナプスダイナミクスの理論

Theory of coupled neuronal-synaptic dynamics ( http://arxiv.org/abs/2302.08985v2 )

ライセンス: Link先を確認
David G. Clark, L.F. Abbott(参考訳) 神経回路では、シナプス強度は神経活動に影響を与え、神経活動は活動依存の可塑性を通してシナプス強度に影響を与える。 この事実に触発されて、我々は神経ユニットとシナプス結合が動的変数と相互作用するリカレント・ネットワークモデルの研究を行った。 可塑性に特定の役割を割り当てる代わりに、動的平均場理論やその他の手法を用いて神経-シナプス力学を体系的に特徴付け、リッチな位相図を明らかにする。 ヘビアン可塑性を加えることでカオスネットワークの活動が遅くなり、それ以外のネットワークではカオスを引き起こす。 抗ヘビアン可塑性は活性を速め、振動成分を生成する。 ヤコビアンの解析によると、ヘビアンと反ヘビアンの可塑性は局所的に不安定なモードを実軸と虚軸に向け、これらの振る舞いを説明する。 ランダム行列とリアプノフ解析の両方により、強いヘビアン可塑性は2つのバンドにネットワークの時間スケールを分離し、遅くてシナプスに支配されたバンドがダイナミクスを駆動し、ニューロンによって接続されたシナプスとしてネットワークの反転したビューを示唆している。 ヘビアン可塑性は、最初は最大リアプノフ指数と引力次元によって測定される力学の複雑さを増大させるが、安定な固定点の増大により、これらの測定値を減少させる。 このような不動点の周縁安定なスペクトルとその数を計算し、ネットワークサイズで指数関数的な成長を示す。 ヘビアン可塑性の強いカオス状態では、神経力学の安定な固定点がシナプス力学によって不安定化され、任意のニューロン状態が可塑性を停止することで安定な固定点として保存される。 このフリーズ可能なカオスのフェーズは、ワーキングメモリの新しいメカニズムを提供する。

In neural circuits, synaptic strengths influence neuronal activity by shaping network dynamics, and neuronal activity influences synaptic strengths through activity-dependent plasticity. Motivated by this fact, we study a recurrent-network model in which neuronal units and synaptic couplings are interacting dynamic variables, with couplings subject to Hebbian modification with decay around quenched random strengths. Rather than assigning a specific role to the plasticity, we use dynamical mean-field theory and other techniques to systematically characterize the neuronal-synaptic dynamics, revealing a rich phase diagram. Adding Hebbian plasticity slows activity in chaotic networks and can induce chaos in otherwise quiescent networks. Anti-Hebbian plasticity quickens activity and produces an oscillatory component. Analysis of the Jacobian shows that Hebbian and anti-Hebbian plasticity push locally unstable modes toward the real and imaginary axes, explaining these behaviors. Both random-matrix and Lyapunov analysis show that strong Hebbian plasticity segregates network timescales into two bands with a slow, synapse-dominated band driving the dynamics, suggesting a flipped view of the network as synapses connected by neurons. For increasing strength, Hebbian plasticity initially raises the complexity of the dynamics, measured by the maximum Lyapunov exponent and attractor dimension, but then decreases these metrics, likely due to the proliferation of stable fixed points. We compute the marginally stable spectra of such fixed points as well as their number, showing exponential growth with network size. In chaotic states with strong Hebbian plasticity, a stable fixed point of neuronal dynamics is destabilized by synaptic dynamics, allowing any neuronal state to be stored as a stable fixed point by halting the plasticity. This phase of freezable chaos offers a new mechanism for working memory.
翻訳日:2024-01-13 04:18:23 公開日:2024-01-10
# 忘れられるか、公正になるか - 機械学習手法の公正さを暴露する

To Be Forgotten or To Be Fair: Unveiling Fairness Implications of Machine Unlearning Methods ( http://arxiv.org/abs/2302.03350v2 )

ライセンス: Link先を確認
Dawen Zhang, Shidong Pan, Thong Hoang, Zhenchang Xing, Mark Staples, Xiwei Xu, Lina Yao, Qinghua Lu, Liming Zhu(参考訳) 忘れられる権利(RTBF)は、過去の行為によって永久に不利になることのない人々の欲求によって動機付けられている。 そのためには、データの削除は深く永続的であり、マシンラーニングモデルから削除する必要がある。 研究者は、訓練されたモデルから特定のデータをより効率的に消去することを目的とした機械学習アルゴリズムを提案している。 しかしながら、これらの方法は、モデルへのデータの供給方法とトレーニングの実施方法を変更し、その後、公正性の観点からAI倫理を損なう可能性がある。 ソフトウェア技術者がこれらの未学習手法を採用する際に責任を負う決定を下すのを助けるために,機械学習手法に関する最初の研究を提示する。 我々は,3つのフェアネスデータセットを3つの削除戦略に基づいてベースラインとして,2つの典型的な機械学習手法(SISAとAmnesiacML)を設計,実施した。 実験結果から,SISAはORTRやAmnesiacMLよりも公平性が高いが,初期トレーニングや均一データ削除は3つの手法の公平性に必ずしも影響しないことがわかった。 これらの発見は、ソフトウェア工学における重要な研究課題を露呈し、rtbfのソリューションを検討する際の公平性に関する潜在的なトレードオフを理解するのに役立つ。

The right to be forgotten (RTBF) is motivated by the desire of people not to be perpetually disadvantaged by their past deeds. For this, data deletion needs to be deep and permanent, and should be removed from machine learning models. Researchers have proposed machine unlearning algorithms which aim to erase specific data from trained models more efficiently. However, these methods modify how data is fed into the model and how training is done, which may subsequently compromise AI ethics from the fairness perspective. To help software engineers make responsible decisions when adopting these unlearning methods, we present the first study on machine unlearning methods to reveal their fairness implications. We designed and conducted experiments on two typical machine unlearning methods (SISA and AmnesiacML) along with a retraining method (ORTR) as baseline using three fairness datasets under three different deletion strategies. Experimental results show that under non-uniform data deletion, SISA leads to better fairness compared with ORTR and AmnesiacML, while initial training and uniform data deletion do not necessarily affect the fairness of all three methods. These findings have exposed an important research problem in software engineering, and can help practitioners better understand the potential trade-offs on fairness when considering solutions for RTBF.
翻訳日:2024-01-13 04:17:32 公開日:2024-01-10
# 高速エネルギー効率推論のための混合精度ニューラルネットワーク量子化の効率的かつ効果的な方法

Efficient and Effective Methods for Mixed Precision Neural Network Quantization for Faster, Energy-efficient Inference ( http://arxiv.org/abs/2301.13330v2 )

ライセンス: Link先を確認
Deepika Bablani, Jeffrey L. Mckinstry, Steven K. Esser, Rathinakumar Appuswamy, Dharmendra S. Modha(参考訳) 効率的なニューラルネットワーク推論には、最小の計算、メモリ、電力を必要とする最も単純なネットワークで最先端の精度を達成することが望ましい。 ネットワークの精度を下げるための量子化は、ネットワークを単純化する強力な技術である。 ネットワークの各層は量子化に対する感度が異なる可能性があるため、混合精度量子化法は個々の層の精度を選択的に調整して最小のタスク性能(例えば、精度)を達成する。 レイヤ精度選択がタスク性能に与える影響を推定するために,2つの手法を導入する。 一 エントロピー近似誘導層選択(EAGL)が速く、重量分布のエントロピーを用いること。 二 精度認識層精密選択(alps)は、単純で、層精度低減後の単一のエポック微調整に依存する。 EAGL と ALPS を用いて,ResNet-50,ResNet-101,BERT-base の4ビット層と2ビット層を混在させ,精度・スループットのフロンティア全体の性能向上を図った。 これらの技術は、いくつかのコンメジュレート比較において、既存の技術よりも優れた性能を示す。 特に、これは解に到達するのに必要な計算時間を大幅に削減して達成される。

For efficient neural network inference, it is desirable to achieve state-of-the-art accuracy with the simplest networks requiring the least computation, memory, and power. Quantizing networks to lower precision is a powerful technique for simplifying networks. As each layer of a network may have different sensitivity to quantization, mixed precision quantization methods selectively tune the precision of individual layers to achieve a minimum drop in task performance (e.g., accuracy). To estimate the impact of layer precision choice on task performance, two methods are introduced: i) Entropy Approximation Guided Layer selection (EAGL) is fast and uses the entropy of the weight distribution, and ii) Accuracy-aware Layer Precision Selection (ALPS) is straightforward and relies on single epoch fine-tuning after layer precision reduction. Using EAGL and ALPS for layer precision selection, full-precision accuracy is recovered with a mix of 4-bit and 2-bit layers for ResNet-50, ResNet-101 and BERT-base transformer networks, demonstrating enhanced performance across the entire accuracy-throughput frontier. The techniques demonstrate better performance than existing techniques in several commensurate comparisons. Notably, this is accomplished with significantly lesser computational time required to reach a solution.
翻訳日:2024-01-13 04:16:48 公開日:2024-01-10
# Unbiased Compressionは分散最適化におけるコミュニケーションを省く: いつ、どのくらいか?

Unbiased Compression Saves Communication in Distributed Optimization: When and How Much? ( http://arxiv.org/abs/2305.16297v3 )

ライセンス: Link先を確認
Yutong He, Xinmeng Huang, Kun Yuan(参考訳) 通信圧縮は、圧縮勾配とモデルパラメータを伝達することで通信オーバーヘッドを軽減する分散最適化において一般的な手法である。 しかし、圧縮は情報歪みを導入し、収束を遅くし、より多くの通信ラウンドを発生させ、望ましいソリューションを実現する。 ラウンド単位の通信コストの低減と追加の通信ラウンドのトレードオフを考えると,通信圧縮によって通信コストが削減されるかどうかは不明である。 本稿では,広範に使用される圧縮形式である非バイアス圧縮が,通信コストを低減し,その程度を低減できる条件について検討する。 そこで本研究では,通信圧縮を伴う分散最適化における通信コストを特徴付ける最初の理論的定式化を行う。 非バイアス圧縮だけでは通信コストを節約できるわけではないが、全作業員が使用する圧縮機を独立と仮定すれば、この結果が得られる。 独立な非バイアス圧縮機を用いたアルゴリズムが要求する通信ラウンドの下位境界を確立し、滑らかな凸関数を最小化し、これらの下位境界がADIANAの分析を精査することによってきついことを示す。 独立な非バイアス圧縮を用いることで、すべての局所滑らか度定数が共通の上限によって制約されている場合、最大$\Theta(\sqrt{\min\{n, \kappa\}})$で通信コストを削減でき、$n$は労働者数、$\kappa$は最小化される関数の条件数である。 これらの理論的知見は実験結果によって裏付けられている。

Communication compression is a common technique in distributed optimization that can alleviate communication overhead by transmitting compressed gradients and model parameters. However, compression can introduce information distortion, which slows down convergence and incurs more communication rounds to achieve desired solutions. Given the trade-off between lower per-round communication costs and additional rounds of communication, it is unclear whether communication compression reduces the total communication cost. This paper explores the conditions under which unbiased compression, a widely used form of compression, can reduce the total communication cost, as well as the extent to which it can do so. To this end, we present the first theoretical formulation for characterizing the total communication cost in distributed optimization with communication compression. We demonstrate that unbiased compression alone does not necessarily save the total communication cost, but this outcome can be achieved if the compressors used by all workers are further assumed independent. We establish lower bounds on the communication rounds required by algorithms using independent unbiased compressors to minimize smooth convex functions and show that these lower bounds are tight by refining the analysis for ADIANA. Our results reveal that using independent unbiased compression can reduce the total communication cost by a factor of up to $\Theta(\sqrt{\min\{n, \kappa\}})$ when all local smoothness constants are constrained by a common upper bound, where $n$ is the number of workers and $\kappa$ is the condition number of the functions being minimized. These theoretical findings are supported by experimental results.
翻訳日:2024-01-13 04:06:18 公開日:2024-01-10
# SDFReg: ポイントクラウド登録のための署名付き距離関数の学習

SDFReg: Learning Signed Distance Functions for Point Cloud Registration ( http://arxiv.org/abs/2304.08929v2 )

ライセンス: Link先を確認
Leida Zhang, Zhengda Lu, Kai Liu, Yiqun Wang(参考訳) 学習ベースのポイントクラウド登録手法はクリーンポイントクラウドをうまく扱えるが、ノイズ、部分的、密度変化のあるポイントクラウドへの一般化は依然として難しい。 この目的のために,これらの不完全なポイントクラウドに対して,新しいポイントクラウド登録フレームワークを提案する。 ニューラル暗黙表現を導入することで,ポイントクラウド間の厳密な登録問題を,ポイントクラウドとニューラル暗黙関数の間の登録問題に置き換える。 次に,暗黙関数と暗黙関数と点クラウドの間の登録を交互に最適化することを提案する。 このように、点雲の登録は粗大な方法で行うことができる。 点対応を計算せずに神経暗黙関数の能力を十分に活用することにより、雑音、不完全性、点雲の密度変化といった課題に直面した際、顕著な堅牢性を示す。

Learning-based point cloud registration methods can handle clean point clouds well, while it is still challenging to generalize to noisy, partial, and density-varying point clouds. To this end, we propose a novel point cloud registration framework for these imperfect point clouds. By introducing a neural implicit representation, we replace the problem of rigid registration between point clouds with a registration problem between the point cloud and the neural implicit function. We then propose to alternately optimize the implicit function and the registration between the implicit function and point cloud. In this way, point cloud registration can be performed in a coarse-to-fine manner. By fully capitalizing on the capabilities of the neural implicit function without computing point correspondences, our method showcases remarkable robustness in the face of challenges such as noise, incompleteness, and density changes of point clouds.
翻訳日:2024-01-13 04:02:57 公開日:2024-01-10
# 産業時系列における異常検出のためのDeep Transfer Learningに関する総合的調査:方法,応用,方向性

A Comprehensive Survey of Deep Transfer Learning for Anomaly Detection in Industrial Time Series: Methods, Applications, and Directions ( http://arxiv.org/abs/2307.05638v2 )

ライセンス: Link先を確認
Peng Yan, Ahmed Abdulkadir, Paul-Philipp Luley, Matthias Rosenthal, Gerrit A. Schatte, Benjamin F. Grewe, Thilo Stadelmann(参考訳) 産業プロセスの監視を自動化することは、異常な事象を迅速に検出し、タイムリーな介入を促進することにより、効率を高め、品質を最適化する可能性を秘めている。 大規模データセット内の非自明なパターンを識別する能力を持つディープラーニングは、このプロセスにおいて重要な役割を果たす。 標準的なディープラーニング手法は、特定の種類のデータに与えられた特定のタスクを解決するのに適している。 トレーニング中、ディープラーニングは大量のラベル付きデータを要求する。 しかし,産業プロセスや環境のダイナミックな性質から,新たなケース毎に,標準ディープラーニングトレーニングのための大規模ラベル付きデータを取得することは現実的ではない。 deep transfer learningは、この問題に対する解決策を提供する。 関連するタスクからの知識を活用し、データ分布のばらつきを会計することで、トランスファー学習フレームワークは、付加的なラベル付きデータが少なく、あるいは全くない新しいタスクを解決します。 このアプローチは、新しいセットアップ毎にモデルをスクラッチから再トレーニングする必要を回避し、ラベル付きデータ要件を劇的に削減する。 本調査はまず, 深層移動学習の詳細な検討, 伝達学習の問題点設定, 普及している深層移動学習手法の分類について述べる。 さらに, 製造プロセス監視, 予測保守, エネルギー管理, インフラ設備監視など, 主要産業領域で普及している幅広い時系列異常検出タスクの文脈において, 深層移動学習の応用を探求する。 本稿では,産業場面における深層伝達学習の課題と限界について論じ,よりダイナミックな生産環境において多様な時系列データを活用した異常検出の必要性に対処すべく,実践的な指示と行動可能な提案で調査を終える。

Automating the monitoring of industrial processes has the potential to enhance efficiency and optimize quality by promptly detecting abnormal events and thus facilitating timely interventions. Deep learning, with its capacity to discern non-trivial patterns within large datasets, plays a pivotal role in this process. Standard deep learning methods are suitable to solve a specific task given a specific type of data. During training, deep learning demands large volumes of labeled data. However, due to the dynamic nature of the industrial processes and environment, it is impractical to acquire large-scale labeled data for standard deep learning training for every slightly different case anew. Deep transfer learning offers a solution to this problem. By leveraging knowledge from related tasks and accounting for variations in data distributions, the transfer learning framework solves new tasks with little or even no additional labeled data. The approach bypasses the need to retrain a model from scratch for every new setup and dramatically reduces the labeled data requirement. This survey first provides an in-depth review of deep transfer learning, examining the problem settings of transfer learning and classifying the prevailing deep transfer learning methods. Moreover, we delve into applications of deep transfer learning in the context of a broad spectrum of time series anomaly detection tasks prevalent in primary industrial domains, e.g., manufacturing process monitoring, predictive maintenance, energy management, and infrastructure facility monitoring. We discuss the challenges and limitations of deep transfer learning in industrial contexts and conclude the survey with practical directions and actionable suggestions to address the need to leverage diverse time series data for anomaly detection in an increasingly dynamic production environment.
翻訳日:2024-01-13 03:56:03 公開日:2024-01-10
# sepal:局所グラフからの空間遺伝子発現予測

SEPAL: Spatial Gene Expression Prediction from Local Graphs ( http://arxiv.org/abs/2309.01036v3 )

ライセンス: Link先を確認
Gabriel Mejia, Paula C\'ardenas, Daniela Ruiz, Angela Castillo, Pablo Arbel\'aez(参考訳) 空間転写学は、病理像を空間的に解決された遺伝子発現プロファイルと整合させる新しい技術である。 多くの病気を理解する可能性を秘めているが、専門機器や専門分野の専門知識など、重大なボトルネックに直面している。 本研究では、視覚組織の外観から遺伝子プロファイルを予測する新しいモデルであるSEPALを提案する。 本手法は,平均表現に対する相対的差異を直接監督することにより,問題の生物学的バイアスを生かし,各座標の局所的視覚文脈を利用してグラフニューラルネットワークを用いて予測を行う。 このアプローチは、現在の手法における完全局所性と完全グローバル性の間のギャップを埋める。 また,スクリプトミクスにおける現在のベストプラクティスに従い,空間パターンが明確である者のみに予測変数を限定することにより,タスクをより適切に定義することを目的とした新しいベンチマークを提案する。 2つの異なるヒト乳癌データセットで広範な評価を行った結果,sepalは従来の最先端の手法や空間的文脈を含む他のメカニズムよりも優れていた。

Spatial transcriptomics is an emerging technology that aligns histopathology images with spatially resolved gene expression profiling. It holds the potential for understanding many diseases but faces significant bottlenecks such as specialized equipment and domain expertise. In this work, we present SEPAL, a new model for predicting genetic profiles from visual tissue appearance. Our method exploits the biological biases of the problem by directly supervising relative differences with respect to mean expression, and leverages local visual context at every coordinate to make predictions using a graph neural network. This approach closes the gap between complete locality and complete globality in current methods. In addition, we propose a novel benchmark that aims to better define the task by following current best practices in transcriptomics and restricting the prediction variables to only those with clear spatial patterns. Our extensive evaluation in two different human breast cancer datasets indicates that SEPAL outperforms previous state-of-the-art methods and other mechanisms of including spatial context.
翻訳日:2024-01-13 03:45:38 公開日:2024-01-10
# 2+1次元SU(2)格子ゲージ理論における固有状態熱化

Eigenstate Thermalization in 2+1 dimensional SU(2) Lattice Gauge Theory ( http://arxiv.org/abs/2308.16202v2 )

ライセンス: Link先を確認
Lukas Ebner, Berndt M\"uller, Andreas Sch\"afer, Clemens Seidl and Xiaojun Yao(参考訳) 格子上のハミルトニアンsu(2)ゲージ理論が固有状態熱化仮説(eth)に従うという仮説の予備的な数値的証拠を示す。 そこで3つの近似を 研究しました (a) 電場基底を$j=0,\frac{1}{2}$ に制限する縮小ヒルベルト空間における線型プラケット連鎖。 (b)周期的又は閉境界条件が同じヒルベルト空間制約を持つ二次元ハニカム格子 (c) たった3つの小冊子からなる連鎖であるが、解析されたエネルギーウィンドウ内のすべてのエネルギー固有値の収束が観測されるような十分大きな電場ヒルベルト空間(j \leq \frac{7}{2})$である。 ヒルベルト空間はSU(2)ゲージ理論の連続極限に達するのに必要であるが、数値資源の制約により、結合定数と大きな格子の全ての値に対してこの要求を実現することはできない。 3つの研究事例のそれぞれにおいて、まず固有エネルギースペクトルにおけるランダム行列理論(RMT)の振る舞いを確認し、次に数個の演算子に対するエネルギー固有状態間の対角線および対角線外行列要素を分析する。 現在の不確実性の中で 結果はすべて (a) (b) (c)ETH予測に賛同する。 さらに、電気エネルギー演算子の外対角行列要素は、十分に小さい周波数窓においてRTTの挙動を示す。 (b) (c)。 ethの振る舞いを曖昧に確立し、それが適用されるオペレータのクラスを決定するには、調査の延長が必要である。

We present preliminary numerical evidence for the hypothesis that the Hamiltonian SU(2) gauge theory discretized on a lattice obeys the Eigenstate Thermalization Hypothesis (ETH). To do so we study three approximations: (a) a linear plaquette chain in a reduced Hilbert space limiting the electric field basis to $j=0,\frac{1}{2}$ , (b) a two-dimensional honeycomb lattice with periodic or closed boundary condition and the same Hilbert space constraint, and (c) a chain of only three plaquettes but such a sufficiently large electric field Hilbert space ($j \leq \frac{7}{2})$ that convergence of all energy eigenvalues in the analyzed energy window is observed. While an unconstrained Hilbert space is required to reach the continuum limit of SU(2) gauge theory, numerical resource constraints do not permit us to realize this requirement for all values of the coupling constant and large lattices. In each of the three studied cases we check first for random matrix theory (RMT) behavior in the eigenenergy spectrum and then analyze the diagonal as well as the off-diagonal matrix elements between energy eigenstates for a few operators. Within current uncertainties all results for (a), (b) and (c) agree with ETH predictions. Furthermore, we find the off-diagonal matrix elements of the electric energy operator exhibit RMT behavior in frequency windows that are small enough in (b) and (c). To unambiguously establish ETH behavior and determine for which class of operators it applies, an extension of our investigations is necessary.
翻訳日:2024-01-13 03:44:48 公開日:2024-01-10
# マルチタイル型ニューラルラジアンスフィールド(NeRF) -- 大規模航空データセットの幾何学的評価

Multi-tiling Neural Radiance Field (NeRF) -- Geometric Assessment on Large-scale Aerial Datasets ( http://arxiv.org/abs/2310.00530v3 )

ライセンス: Link先を確認
Ningli Xu, Rongjun Qin, Debao Huang, Fabio Remondino(参考訳) neural radiance fields(nerf)は、航空写真測量を含む3d再構成タスクに役立つ可能性がある。 しかしながら、推定幾何のスケーラビリティと精度は、大規模な航空資産には十分に文書化されていないため、そのようなデータセットは通常、非常に高いメモリ消費と緩やかな収束をもたらす。 . 本稿では,大規模な航空データセット上でのNeRFのスケールアップと,NeRFの詳細な幾何学的評価を提案する。 具体的には,ramの画像読み込み時のメモリ消費を削減するマルチカメラティリング(mct)戦略,gpuメモリの表現トレーニング,タイル内の収束率の向上など,ロケーション固有のサンプリング手法を導入する。 MCTは、大きなフレームイメージを異なるカメラモデルで複数のタイル画像に分解し、これらの小さなフレームイメージを、精度を損なうことなく、特定の場所に必要なトレーニングプロセスに投入する。 提案手法は代表的手法であるMip-NeRFに実装し,その幾何学的性能を2つの典型的な空中データセット上の3フォットグラムのMVSパイプラインとLiDAR参照データと比較する。 定性的かつ定量的な結果から,提案手法は従来のアプローチよりも完全性とオブジェクト詳細性が向上することが示唆されるが,現時点では精度の面では不足している。

Neural Radiance Fields (NeRF) offer the potential to benefit 3D reconstruction tasks, including aerial photogrammetry. However, the scalability and accuracy of the inferred geometry are not well-documented for large-scale aerial assets,since such datasets usually result in very high memory consumption and slow convergence.. In this paper, we aim to scale the NeRF on large-scael aerial datasets and provide a thorough geometry assessment of NeRF. Specifically, we introduce a location-specific sampling technique as well as a multi-camera tiling (MCT) strategy to reduce memory consumption during image loading for RAM, representation training for GPU memory, and increase the convergence rate within tiles. MCT decomposes a large-frame image into multiple tiled images with different camera models, allowing these small-frame images to be fed into the training process as needed for specific locations without a loss of accuracy. We implement our method on a representative approach, Mip-NeRF, and compare its geometry performance with threephotgrammetric MVS pipelines on two typical aerial datasets against LiDAR reference data. Both qualitative and quantitative results suggest that the proposed NeRF approach produces better completeness and object details than traditional approaches, although as of now, it still falls short in terms of accuracy.
翻訳日:2024-01-13 03:33:01 公開日:2024-01-10
# 絡み合い・ステアリング・ベル非局所性ポテンシャルによる単一量子状態の非古典性の実験的階層

Experimental hierarchy of the nonclassicality of single-qubit states via potentials for entanglement, steering, and Bell nonlocality ( http://arxiv.org/abs/2309.12878v2 )

ライセンス: Link先を確認
Josef Kadlec, Karol Bartkiewicz, Anton\'in \v{C}ernoch, Karel Lemr and Adam Miranowicz(参考訳) 絡み合いポテンシャルは単モード状態の非古典性を定量化する有望な方法である。 これらは、検査された単一モード状態と純粋に古典的な状態(真空状態やコヒーレント状態など)を混合した後に得られる絡み合いの量(例:ウーター収束)によって定義される。 我々は、エンタングルメントポテンシャルと他の量子相関(eprステアリングとベル非局所性)の概念を一般化し、これらの非古典的ポテンシャルの相互階層の研究を可能にした。 通常の真空状態と1光子重畳状態の代わりに、特別な偏光エンコードされた単光子状態を用いてこの概念を実験的に検証する。 1つの分極は与えられた非古典的単一モード状態を符号化し、もう1つは真空プレースホルダーとして機能する。 この手法は真空検出を必要としないため、真空と1光子重畳よりも実験的に有用であることが証明されている。

Entanglement potentials are a promising way to quantify the nonclassicality of single-mode states. They are defined by the amount of entanglement (expressed by, e.g., the Wootters concurrence) obtained after mixing the examined single-mode state with a purely classical state; such as the vacuum or a coherent state. We generalize the idea of entanglement potentials to other quantum correlations: the EPR steering and Bell nonlocality, thus enabling us to study mutual hierarchies of these nonclassicality potentials. Instead of the usual vacuum and one-photon superposition states, we experimentally test this concept using specially tailored polarization-encoded single-photon states. One polarization encodes a given nonclassical single-mode state, while the other serves as the vacuum place-holder. This technique proves to be experimentally more convenient in comparison to the vacuum and a one-photon superposition as it does not require the vacuum detection.
翻訳日:2024-01-13 03:32:21 公開日:2024-01-10
# アフィン変換を用いた確率に基づくセンサキャリブレーション

Likelihood-based Sensor Calibration using Affine Transformation ( http://arxiv.org/abs/2309.11526v4 )

ライセンス: Link先を確認
R\"udiger Machhamer, Lejla Begic Fazlic, Eray Guven, David Junk, Gunes Karabulut Kurt, Stefan Naumann, Stephan Didas, Klaus-Uwe Gollmer, Ralph Bergmann, Ingo J. Timm, and Guido Dartmann(参考訳) センサ技術の分野における重要な課題は、あるセンサから同じ設計の別のセンサーへの測定の適応手順の効率的な実装である。 1つの考え方は、専門家の知識によって改善できる、異なるシステム間のアフィン変換の推定を使用することである。 本稿では,1973年に発表された氷河研究による改良解を提案する。 その結果,センサのソフトウェアキャリブレーション,エキスパートベース適応の実装,分散学習手法などの今後の進歩への道を開くなど,様々な応用にこのソリューションが適用可能であることを示す。 ここでのアイデアは、専門家の知識を使って、異なるシステム間のアフィン変換を推定することだ。 シミュレーションと8つの同一センサを用いたマルチセンサボードの実測データを用いて本研究を評価した。 データセットと評価スクリプトの両方がダウンロード可能である。 その結果,実データを用いたシミュレーションと実験の両面で改善が見られた。

An important task in the field of sensor technology is the efficient implementation of adaptation procedures of measurements from one sensor to another sensor of identical design. One idea is to use the estimation of an affine transformation between different systems, which can be improved by the knowledge of experts. This paper presents an improved solution from Glacier Research that was published back in 1973. The results demonstrate the adaptability of this solution for various applications, including software calibration of sensors, implementation of expert-based adaptation, and paving the way for future advancements such as distributed learning methods. One idea here is to use the knowledge of experts for estimating an affine transformation between different systems. We evaluate our research with simulations and also with real measured data of a multi-sensor board with 8 identical sensors. Both data set and evaluation script are provided for download. The results show an improvement for both the simulation and the experiments with real data.
翻訳日:2024-01-13 03:31:41 公開日:2024-01-10
# 非局所量子場理論と量子絡み合い

Nonlocal Quantum Field Theory and Quantum Entanglement ( http://arxiv.org/abs/2309.06576v3 )

ライセンス: Link先を確認
Robin Landry and John Moffat(参考訳) 量子力学の非局所的性質と、場の量子論によって定式化された相対論的量子力学との関係について論じる。 ここでは、有限の非局所量子場理論 (NLQFT) を用いて、ポアンカーの不変性、ユニタリ性、微視的因果性を満たす。 この非局所量子場理論は無限導関数全体とプロパゲータと頂点を関連付けている。 我々は因果性を証明することに集中し、相対論的場理論を構築する際にその重要性について議論する。 我々は、量子エンタングルメントと理論のエンタングルメントエントロピーを特徴づけるために、関数積分を用いてスカラー場理論を定式化する。 レプリカのトリックを用いて、円錐上の3 + 1次元の理論の絡み合いエントロピーを計算する。 その結果、uvの多様性がなくなり、地域法を回復します。

We discuss the nonlocal nature of quantum mechanics and the link with relativistic quantum mechanics such as formulated by quantum field theory. We use here a nonlocal quantum field theory (NLQFT) which is finite, satisfies Poincar\'e invariance, unitarity and microscopic causality. This nonlocal quantum field theory associates infinite derivative entire functions with propagators and vertices. We focus on proving causality and discussing its importance when constructing a relativistic field theory. We formulate scalar field theory using the functional integral in order to characterize quantum entanglement and the entanglement entropy of the theory. Using the replica trick, we compute the entanglement entropy for the theory in 3 + 1 dimensions on a cone. The result is free of UV divergences and we recover the area law.
翻訳日:2024-01-13 03:29:20 公開日:2024-01-10
# Laplacian Canonization: Sign and Basis Invariant Spectral Embeddingに対するミニマリストアプローチ

Laplacian Canonization: A Minimalist Approach to Sign and Basis Invariant Spectral Embedding ( http://arxiv.org/abs/2310.18716v2 )

ライセンス: Link先を確認
Jiangyan Ma, Yifei Wang, Yisen Wang(参考訳) スペクトル埋め込み(spectrum embedded)は、グラフトランスフォーマーの有効性から近年注目を集めている強力なグラフ埋め込み技術である。 しかし、理論的な観点からは、スペクトル埋め込みの普遍的な表現力は、グラフ、符号および基底不変性の2つの重要な不変性を失うことの代償となり、グラフデータに対するその有効性も制限される。 この問題を解決するために、多くの従来の手法は、新しい不変量を学び、高い計算複雑性に悩まされるコストのかかるアプローチを開発した。 本研究では、固有ベクトルの正準方向を直接見つけることにより、あいまいさを解消する最小限のアプローチ、Laplacian Canonization (LC) を提案する。 純粋な前処理法としてLCは軽量化されており、既存のGNNにも適用可能である。 理論からアルゴリズムまで、このアプローチで徹底的な調査を行い、符号と基底の不変性の両方に有効で、すべての固有ベクトルの90%以上を正準化する、maximal axis projection (map) という効率的なアルゴリズムを発見した。 ZINC、MOLTOX21、MOLPCBAといった実世界のベンチマークデータセットの実験では、MAPは計算オーバーヘッドを最小限に抑えながら、既存のメソッドを一貫して上回っている。 コードはhttps://github.com/PKU-ML/LaplacianCanonizationで入手できる。

Spectral embedding is a powerful graph embedding technique that has received a lot of attention recently due to its effectiveness on Graph Transformers. However, from a theoretical perspective, the universal expressive power of spectral embedding comes at the price of losing two important invariance properties of graphs, sign and basis invariance, which also limits its effectiveness on graph data. To remedy this issue, many previous methods developed costly approaches to learn new invariants and suffer from high computation complexity. In this work, we explore a minimal approach that resolves the ambiguity issues by directly finding canonical directions for the eigenvectors, named Laplacian Canonization (LC). As a pure pre-processing method, LC is light-weighted and can be applied to any existing GNNs. We provide a thorough investigation, from theory to algorithm, on this approach, and discover an efficient algorithm named Maximal Axis Projection (MAP) that works for both sign and basis invariance and successfully canonizes more than 90% of all eigenvectors. Experiments on real-world benchmark datasets like ZINC, MOLTOX21, and MOLPCBA show that MAP consistently outperforms existing methods while bringing minimal computation overhead. Code is available at https://github.com/PKU-ML/LaplacianCanonization.
翻訳日:2024-01-13 03:21:39 公開日:2024-01-10
# コミュニティ検出のための近似・ヒューリスティック・グラフニューラルネットワークアルゴリズムにおけるモジュラリティ最大化の解析

Analyzing Modularity Maximization in Approximation, Heuristic, and Graph Neural Network Algorithms for Community Detection ( http://arxiv.org/abs/2310.10898v2 )

ライセンス: Link先を確認
Samin Aref and Mahdi Mostajabdaveh(参考訳) ネットワーク内のノードを分割するコミュニティ検出は、計算科学に広く応用されている。 モジュール性に基づくアルゴリズムは,ネットワークノード分割におけるモジュラリティ関数の最大化を試み,コミュニティを識別する。 本研究は,最適分割を求めるために,様々なモジュール性に基づくアルゴリズムの性能を評価する。 この分析は104のネットワークを用いており、多様なコンテキストからの実世界インスタンスと、2種類の合成ベンチマークによるモジュラーグラフの両方を含む。 モジュール性をグローバルに最適化する正確な整数プログラミングベースラインに対して、10の不正確なモジュラリティベースのアルゴリズムを解析する。 比較分析には,8つのヒューリスティック,グラフニューラルネットワークアルゴリズムの2つの変種,ベイアン近似アルゴリズムの9つの変種を含む。 その結果,104ネットワークの43.9%で平均モジュラリティに基づくヒューリスティックな分配が最適であることがわかった。 グラフニューラルネットワークと近似ベイアン平均は、それぞれ68.7%と82.3%の最適性を達成している。 さらに,3つの分割類似度尺度の解析により,高モジュラリティ部分最適分割とネットワークの最適分割との間にかなりの相違が生じる。 ほぼ最適な分割はしばしば、任意の最適分割と不均等に異なる。 モジュール構造を持つネットワーク上でも最適なパーティションや最適なパーティションに似たパーティションを生成することは滅多にありません。 コミュニティの検出にモジュール性を用いる場合は,その適用範囲内でモジュール性をより適切に利用するための近似最適化アルゴリズムを推奨する。

Community detection, which involves partitioning nodes within a network, has widespread applications across computational sciences. Modularity-based algorithms identify communities by attempting to maximize the modularity function across network node partitions. Our study assesses the performance of various modularity-based algorithms in obtaining optimal partitions. Our analysis utilizes 104 networks, including both real-world instances from diverse contexts and modular graphs from two families of synthetic benchmarks. We analyze ten inexact modularity-based algorithms against the exact integer programming baseline that globally optimizes modularity. Our comparative analysis includes eight heuristics, two variants of a graph neural network algorithm, and nine variations of the Bayan approximation algorithm. Our findings reveal that the average modularity-based heuristic yields optimal partitions in only 43.9% of the 104 networks analyzed. Graph neural networks and approximate Bayan, on average, achieve optimality on 68.7% and 82.3% of the networks respectively. Additionally, our analysis of three partition similarity metrics exposes substantial dissimilarities between high-modularity sub-optimal partitions and any optimal partition of the networks. We observe that near-optimal partitions are often disproportionately dissimilar to any optimal partition. Taken together, our analysis points to a crucial limitation of the commonly used modularity-based methods: they rarely produce an optimal partition or a partition resembling an optimal partition even on networks with modular structures. If modularity is to be used for detecting communities, we recommend approximate optimization algorithms for a more methodologically sound usage of modularity within its applicability limits.
翻訳日:2024-01-13 03:19:50 公開日:2024-01-10
# CodeFuse-13B: 事前訓練された多言語コード大言語モデル

CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model ( http://arxiv.org/abs/2310.06266v2 )

ライセンス: Link先を確認
Peng Di, Jianguo Li, Hang Yu, Wei Jiang, Wenting Cai, Yang Cao, Chaoyu Chen, Dajun Chen, Hongwei Chen, Liang Chen, Gang Fan, Jie Gong, Zi Gong, Wen Hu, Tingting Guo, Zhichao Lei, Ting Li, Zheng Li, Ming Liang, Cong Liao, Bingchang Liu, Jiachen Liu, Zhiwei Liu, Shaojun Lu, Min Shen, Guangpei Wang, Huan Wang, Zhi Wang, Zhaogui Xu, Jiawei Yang, Qing Ye, Gehao Zhang, Yu Zhang, Zelin Zhao, Xunjin Zheng, Hailian Zhou, Lifu Zhu, Xianying Zhu(参考訳) Code Large Language Models (Code LLMs)は、ソフトウェア工学のライフサイクル全体における幅広い応用のために、業界で大きな注目を集めている。 しかし、多言語コード関連タスクに対する非英語入力の理解における既存のモデルの有効性は、まだ十分に研究されていない。 本稿では,オープンソースの事前学習コードllmであるcodefuse-13bを紹介する。 英語と中国語の両方のプロンプトによるコード関連タスク用に特別に設計されており、40以上のプログラミング言語をサポートしている。 CodeFuseは、プログラムアナライザによって注意深くフィルタリングされ、トレーニングプロセス中に最適化された高品質の事前トレーニングデータセットを使用することで、その効果を達成する。 実世界の利用シナリオ、業界標準ベンチマークのHumanEval-x、中国のプロンプト用に特別に設計されたCodeFuseEvalを用いて大規模な実験を行う。 CodeFuseの有効性を評価するため、CodeFuseがうまくデプロイされたAntGroupのソフトウェア開発プロセスから、貴重なフィードバックを積極的に収集しました。 結果は、CodeFuse-13BがHumanEval Pass@1スコアの37.10%を達成し、同様のパラメータサイズを持つトップマルチ言語コードLLMの1つに位置づけたことを示している。 コード生成、コード翻訳、コードコメント、テストケース生成といった実践的なシナリオでは、CodeFuseは中国のプロンプトに直面する場合、他のモデルよりもパフォーマンスがよい。

Code Large Language Models (Code LLMs) have gained significant attention in the industry due to their wide applications in the full lifecycle of software engineering. However, the effectiveness of existing models in understanding non-English inputs for multi-lingual code-related tasks is still far from well studied. This paper introduces CodeFuse-13B, an open-sourced pre-trained code LLM. It is specifically designed for code-related tasks with both English and Chinese prompts and supports over 40 programming languages. CodeFuse achieves its effectiveness by utilizing a high quality pre-training dataset that is carefully filtered by program analyzers and optimized during the training process. Extensive experiments are conducted using real-world usage scenarios, the industry-standard benchmark HumanEval-x, and the specially designed CodeFuseEval for Chinese prompts. To assess the effectiveness of CodeFuse, we actively collected valuable human feedback from the AntGroup's software development process where CodeFuse has been successfully deployed. The results demonstrate that CodeFuse-13B achieves a HumanEval pass@1 score of 37.10%, positioning it as one of the top multi-lingual code LLMs with similar parameter sizes. In practical scenarios, such as code generation, code translation, code comments, and testcase generation, CodeFuse performs better than other models when confronted with Chinese prompts.
翻訳日:2024-01-13 03:19:26 公開日:2024-01-10
# 新しいオンラインコミュニティ - 匿名投票ネットワークにおけるグラフ深層学習による多元的ガバナンスの脆弱性の特定

New Online Communities: Graph Deep Learning on Anonymous Voting Networks to Identify Sybils in Polycentric Governance ( http://arxiv.org/abs/2311.17929v4 )

ライセンス: Link先を確認
Quinn DuPont(参考訳) 本研究では、ブロックチェーンベースの分散自律組織(DAO)におけるデジタル資産の多元的ガバナンスについて検討する。 理論的な枠組みを提供し、シビルや急激なアイデンティティを識別する手法を開発することによって、分散型ガバナンスに直面する重要な課題に対処する。 この手法は、DAOガバナンスデータセット(snapshot.org)のシビルアクティビティをグラフ深層学習技術を用いて識別する。 特に、グラフ畳み込みニューラルネットワーク(GCNN)は投票行動を学び、高速なk平均ベクトルクラスタリングアルゴリズム(FAISS)はグラフ内の類似ノードを特定するために高次元埋め込みを使用した。 その結果、ディープラーニングはシビルを効果的に識別し、投票グラフを2-5%削減できることがわかった。 この研究は、DAOにおけるシビル抵抗の重要性を浮き彫りにして、分散ガバナンス、将来の政策、規制、ガバナンスの実践について新しい視点を提供する。

This research examines the polycentric governance of digital assets in blockchain-based Decentralized Autonomous Organizations (DAOs). It offers a theoretical framework and addresses a critical challenge facing decentralized governance by developing a method to identify sybils, or spurious identities. The method uses graph deep learning techniques to identify sybil activity in a DAO governance dataset (snapshot.org). Specifically, a Graph Convolutional Neural Network (GCNN) learned voting behaviours and a fast k-means vector clustering algorithm (FAISS) used the high dimensional embeddings to identify similar nodes in a graph. The results reveal that deep learning can effectively identify sybils, reducing the voting graph by 2-5%. This research underscores the importance of sybil resistance in DAOs and offers a novel perspective on decentralized governance, informing future policy, regulation, and governance practices.
翻訳日:2024-01-13 03:08:39 公開日:2024-01-10
# 機械学習とネットワークシステム生物学のアプローチの統合による認知症リスク予測モデルの開発

Developing a Novel Holistic, Personalized Dementia Risk Prediction Model via Integration of Machine Learning and Network Systems Biology Approaches ( http://arxiv.org/abs/2311.09229v2 )

ライセンス: Link先を確認
Srilekha Mamidala(参考訳) 認知症は、世界平均寿命が向上し人口が高齢化するにつれて、時間とともに増加している。 認知症を発症する個人のリスクは、様々な遺伝的、ライフスタイル、環境要因などに影響される。 認知症のリスクを予測することで、個人は認知症の発症を遅らせるために緩和戦略やライフスタイルの変化を適用できる。 現在の認知症予測の計算手法は、変数の狭いカテゴリでのみリスクを返し、異なるリスク変数間の相互作用を考慮しない。 提案フレームワークは,認知症リスク予測に新たな全体論的アプローチを採用し,各種の表層環境汚染データとライフスタイル因子データをネットワークシステムに基づく遺伝的データに組み込んだ最初のものである。 包含因子の有効性を確保するため,光GBM勾配促進法が用いられた。 このアプローチは、Sysableというオリジナルの重み付け積分法による変数間の相互作用のモデル化に成功した。 複数の機械学習モデルが1つのモデルへの依存を減らすためにアルゴリズムを訓練した。 開発されたアプローチは、既存の認知症リスク予測アプローチを85%の感度、99%の特異性、92%の幾何学的精度、91.7%のAUROCを上回りました。 転送学習モデルも実装された。 デバイアスアルゴリズムはAI Fairness 360 Libraryを通じてモデル上で実行された。 認知症の有病率に及ぼす人口格差の影響を分析した結果, 必要な地域に注目し, 公平かつアクセス可能なケアを促進できる可能性が示唆された。 結果として得られたモデルは、総合的な予測とパーソナライズされたリスク緩和戦略を提供するユーザーフレンドリーなアプリに統合された。 本モデルでは, 総合的計算認知症リスク予測を臨床応用に有効活用した。

The prevalence of dementia has increased over time as global life expectancy improves and populations age. An individual's risk of developing dementia is influenced by various genetic, lifestyle, and environmental factors, among others. Predicting dementia risk may enable individuals to employ mitigation strategies or lifestyle changes to delay dementia onset. Current computational approaches to dementia prediction only return risk upon narrow categories of variables and do not account for interactions between different risk variables. The proposed framework utilizes a novel holistic approach to dementia risk prediction and is the first to incorporate various sources of tabular environmental pollution and lifestyle factor data with network systems biology-based genetic data. LightGBM gradient boosting was employed to ensure validity of included factors. This approach successfully models interactions between variables through an original weighted integration method coined Sysable. Multiple machine learning models trained the algorithm to reduce reliance on a single model. The developed approach surpassed all existing dementia risk prediction approaches, with a sensitivity of 85%, specificity of 99%, geometric accuracy of 92%, and AUROC of 91.7%. A transfer learning model was implemented as well. De-biasing algorithms were run on the model via the AI Fairness 360 Library. Effects of demographic disparities on dementia prevalence were analyzed to potentially highlight areas in need and promote equitable and accessible care. The resulting model was additionally integrated into a user-friendly app providing holistic predictions and personalized risk mitigation strategies. The developed model successfully employs holistic computational dementia risk prediction for clinical use.
翻訳日:2024-01-13 03:07:09 公開日:2024-01-10
# WAVER:オープンボキャブラリ知識による視覚言語モデルの蒸留による書体スタイルのテキストビデオ検索

WAVER: Writing-style Agnostic Text-Video Retrieval via Distilling Vision-Language Models Through Open-Vocabulary Knowledge ( http://arxiv.org/abs/2312.09507v3 )

ライセンス: Link先を確認
Huy Le, Tung Kieu, Anh Nguyen, Ngan Le(参考訳) マルチモーダル情報検索分野において著名なサブフィールドであるテキスト・ビデオ検索は近年著しい成長を遂げている。 しかし、既存の手法では、ビデオシーンは偏りのない説明と一致していると仮定している。 これらの制限は、アノテータバイアス、多様な書き込みスタイル、さまざまなテキスト視点の影響を受けやすいため、現実世界のシナリオと一致しない。 上記の問題を克服するために,映像記述における異なる書き方を扱う課題に対処するために設計されたオープンボキャブラリー知識を通じて,視覚言語モデルを通じたクロスドメイン知識蒸留フレームワークである$\textt{waver}$を導入する。 $\texttt{WAVER}$は、事前訓練された視覚言語モデルに含まれ、教師モデルから教師モデルにテキストベースの知識を伝達するために暗黙の知識蒸留アプローチを採用するオープン語彙特性に重きを置いている。 様々な設定を包含する4つの標準ベンチマークデータセットで実施された実証研究は、テキスト・ビデオ検索タスクにおいて$\texttt{waver}$が文章スタイルのバリエーションを処理しながら最先端のパフォーマンスを達成できるという説得力のある証拠を提供する。 コードは、https://github.com/Fsoft-AIC/WAVERで入手できる。

Text-video retrieval, a prominent sub-field within the domain of multimodal information retrieval, has witnessed remarkable growth in recent years. However, existing methods assume video scenes are consistent with unbiased descriptions. These limitations fail to align with real-world scenarios since descriptions can be influenced by annotator biases, diverse writing styles, and varying textual perspectives. To overcome the aforementioned problems, we introduce $\texttt{WAVER}$, a cross-domain knowledge distillation framework via vision-language models through open-vocabulary knowledge designed to tackle the challenge of handling different writing styles in video descriptions. $\texttt{WAVER}$ capitalizes on the open-vocabulary properties that lie in pre-trained vision-language models and employs an implicit knowledge distillation approach to transfer text-based knowledge from a teacher model to a vision-based student. Empirical studies conducted across four standard benchmark datasets, encompassing various settings, provide compelling evidence that $\texttt{WAVER}$ can achieve state-of-the-art performance in text-video retrieval task while handling writing-style variations. The code is available at: https://github.com/Fsoft-AIC/WAVER
翻訳日:2024-01-13 02:56:29 公開日:2024-01-10
# ConFormer: 心臓機能評価における心臓科医を支援するための新しい深層学習モデル

ConFormer: A Novel Collection of Deep Learning Models to Assist Cardiologists in the Assessment of Cardiac Function ( http://arxiv.org/abs/2312.08567v2 )

ライセンス: Link先を確認
Ethan Thomas, Salman Aslam(参考訳) 心臓血管疾患、特に心不全は、世界中で主要な死因である。 定期的な心エコー検査による心不全の早期発見は、これらの処置のコストと労働集約性によってしばしば妨げられ、これは生命と死の違いを意味する。 本稿では,心エコー法による射出率(ef)と左室壁厚の推定を自動化した新しい深層学習モデルであるconformerを提案する。 ConFormerの実装は、コスト効率が高く、アクセシビリティが高く、包括的な心臓健康モニタリングを可能にし、無数の命を救うことによって、予防的心臓病を増強する可能性がある。 ソースコードはhttps://github.com/aether111/conformerで入手できる。

Cardiovascular diseases, particularly heart failure, are a leading cause of death globally. The early detection of heart failure through routine echocardiogram screenings is often impeded by the high cost and labor-intensive nature of these procedures, a barrier that can mean the difference between life and death. This paper presents ConFormer, a novel deep learning model designed to automate the estimation of Ejection Fraction (EF) and Left Ventricular Wall Thickness from echocardiograms. The implementation of ConFormer has the potential to enhance preventative cardiology by enabling cost-effective, accessible, and comprehensive heart health monitoring, thereby saving countless lives. The source code is available at https://github.com/Aether111/ConFormer.
翻訳日:2024-01-13 02:55:27 公開日:2024-01-10
# 行動のリアリズム:yolov8とdeitを用いた医用画像からの脳腫瘍の異常認識

Realism in Action: Anomaly-Aware Diagnosis of Brain Tumors from Medical Images Using YOLOv8 and DeiT ( http://arxiv.org/abs/2401.03302v2 )

ライセンス: Link先を確認
Seyed Mohammad Hossein Hashemi, Leila Safari, Amirhossein Dadashzade Taromi(参考訳) 医学の分野では、画像からの信頼できる脳腫瘍の検出と分類は、患者集団内の腫瘍が多様であることから、依然として大きな課題である。 したがって、異常なシナリオで腫瘍を検出する能力は、タイムリーな介入と患者の予後を改善するのに最重要である。 本研究は,脳腫瘍の診断・分類に深層学習(DL)技術を活用することでこの問題に対処する。 NBML(National Brain Mapping Lab)は、30の腫瘍患者と51の正常患者を含む81の患者を対象とする。 検出および分類パイプラインは、2つの連続タスクに分割される。 検出フェーズは、画像サンプル数と各クラスの患者数を、現実のシナリオに対応するために異常分布(腫瘍1個につき9個正常)に変更するために、包括的なデータ分析と前処理を含む。 次に、テストのための共通の評価基準に加えて、モデルの現実的な評価に焦点をあて、患者から患者へ(ptp)と呼ばれる新しいパフォーマンス評価方法を採用した。 検出段階では,腫瘍領域を検出するためにyolov8n検出モデルを微調整した。 その後のテストと評価は、共通評価メトリクスとPTPメトリクスの両方で競合性能を得た。 さらに,データ高能率画像変換器(DeiT)モジュールを用いて,微調整されたResNet152のViTモデルを分類段階の教師として蒸留した。 このアプローチは、信頼できる腫瘍の検出と分類において有望な進歩を示し、現実の医療画像シナリオにおける腫瘍診断の潜在的な進歩を提供する。

In the field of medical sciences, reliable detection and classification of brain tumors from images remains a formidable challenge due to the rarity of tumors within the population of patients. Therefore, the ability to detect tumors in anomaly scenarios is paramount for ensuring timely interventions and improved patient outcomes. This study addresses the issue by leveraging deep learning (DL) techniques to detect and classify brain tumors in challenging situations. The curated data set from the National Brain Mapping Lab (NBML) comprises 81 patients, including 30 Tumor cases and 51 Normal cases. The detection and classification pipelines are separated into two consecutive tasks. The detection phase involved comprehensive data analysis and pre-processing to modify the number of image samples and the number of patients of each class to anomaly distribution (9 Normal per 1 Tumor) to comply with real world scenarios. Next, in addition to common evaluation metrics for the testing, we employed a novel performance evaluation method called Patient to Patient (PTP), focusing on the realistic evaluation of the model. In the detection phase, we fine-tuned a YOLOv8n detection model to detect the tumor region. Subsequent testing and evaluation yielded competitive performance both in Common Evaluation Metrics and PTP metrics. Furthermore, using the Data Efficient Image Transformer (DeiT) module, we distilled a Vision Transformer (ViT) model from a fine-tuned ResNet152 as a teacher in the classification phase. This approach demonstrates promising strides in reliable tumor detection and classification, offering potential advancements in tumor diagnosis for real-world medical imaging scenarios.
翻訳日:2024-01-13 02:44:59 公開日:2024-01-10
# メディアバイアス分類法 : メディアバイアスの形式と自動検出に関する体系的文献レビュー

The Media Bias Taxonomy: A Systematic Literature Review on the Forms and Automated Detection of Media Bias ( http://arxiv.org/abs/2312.16148v3 )

ライセンス: Link先を確認
Timo Spinde, Smi Hinterreiter, Fabian Haak, Terry Ruas, Helge Giese, Norman Meuschke, Bela Gipp(参考訳) メディアがイベントを提示する方法は、大衆の認識に大きく影響し、人々の信念や見解を変える可能性がある。 メディアバイアスは、トピックについて一方的あるいは偏見的な視点を記述する。 本稿は,2019年から2022年にかけて発行された3140の研究論文を体系的にレビューし,メディアバイアス検出のための計算手法に関する研究をまとめる。 研究領域間での偏見の相互理解を構築・支援するために,メディアバイアス分類法(Media Bias Taxonomy)を紹介した。 メディアバイアス検出は,近年,トランスフォーマーに基づく分類手法が著しく改善されている,非常に活発な研究分野であることを示す。 これらの改善には、より高い分類精度とよりきめ細かい偏見を検出する能力が含まれる。 しかし,既存のプロジェクトでは学際性が欠如していること,メディアバイアス検出システムの性能評価を方法論的に徹底的に支援するために,様々なメディアバイアスをより認識する必要があることが判明した。 分析の結果,近年の機械学習の進歩と,他の研究分野からの信頼性と多様なバイアス評価戦略の統合が,この分野における今後の研究貢献の最も有望な分野であることがわかった。

The way the media presents events can significantly affect public perception, which in turn can alter people's beliefs and views. Media bias describes a one-sided or polarizing perspective on a topic. This article summarizes the research on computational methods to detect media bias by systematically reviewing 3140 research papers published between 2019 and 2022. To structure our review and support a mutual understanding of bias across research domains, we introduce the Media Bias Taxonomy, which provides a coherent overview of the current state of research on media bias from different perspectives. We show that media bias detection is a highly active research field, in which transformer-based classification approaches have led to significant improvements in recent years. These improvements include higher classification accuracy and the ability to detect more fine-granular types of bias. However, we have identified a lack of interdisciplinarity in existing projects, and a need for more awareness of the various types of media bias to support methodologically thorough performance evaluations of media bias detection systems. Concluding from our analysis, we see the integration of recent machine learning advancements with reliable and diverse bias assessment strategies from other research areas as the most promising area for future research contributions in the field.
翻訳日:2024-01-13 02:43:00 公開日:2024-01-10
# グラフマイニングにおける新しいノード予測の導入:グラフニューラルネットワークによる分離ノードからのすべてのリンク予測

Introducing New Node Prediction in Graph Mining: Predicting All Links from Isolated Nodes with Graph Neural Networks ( http://arxiv.org/abs/2401.05468v1 )

ライセンス: Link先を確認
Damiano Zanardini and Emilio Serrano(参考訳) 本稿では,新たなノード予測と呼ばれるグラフマイニングとソーシャルネットワーク分析の分野における新しい問題を紹介する。 より技術的には、タスクはゼロショットアウトオブグラフのオールリンク予測に分類できる。 この困難な問題は、これまでグラフから切り離されていた新しい、孤立した、観測できないノードから、すべてのリンクを予測することである。 従来のリンク予測手法(グラフ外リンク予測を含む)とは異なり、この問題は(1)新しいノードには、新しい予測のためのパターンを抽出する既存のリンクがなく、(2)新しいノードのすべてのリンク、または少なくともその大部分を予測することである。 実験により、ディープグラフニューラルネットワークに基づくアーキテクチャが、書誌引用ネットワークにおいてこの困難な問題を解決できることが示されている。

This paper introduces a new problem in the field of graph mining and social network analysis called new node prediction. More technically, the task can be categorized as zero-shot out-of-graph all-links prediction. This challenging problem aims to predict all links from a new, isolated, and unobserved node that was previously disconnected from the graph. Unlike classic approaches to link prediction (including few-shot out-of-graph link prediction), this problem presents two key differences: (1) the new node has no existing links from which to extract patterns for new predictions; and (2) the goal is to predict not just one, but all the links of this new node, or at least a significant part of them. Experiments demonstrate that an architecture based on Deep Graph Neural Networks can learn to solve this challenging problem in a bibliographic citation network.
翻訳日:2024-01-13 02:35:38 公開日:2024-01-10
# ゼロショット学習者に基づくモジュール型AIエージェント構築のための機械教育

Machine Teaching for Building Modular AI Agents based on Zero-shot Learners ( http://arxiv.org/abs/2401.05467v1 )

ライセンス: Link先を確認
Karan Taneja and Ashok Goel(参考訳) 大規模言語モデル(LLM)の最近の進歩は、多くのモジュール型AIエージェントの作成につながっている。 これらのエージェントは、人間の複雑なタスクを解決するために、ゼロショット学習者としてLLMを用いてサブタスクを実行する。 ゼロショット学習者としてLLMを利用するモジュール型AIエージェントの堅牢性と性能を向上させる手法を提案する。 本手法は,ゼロショット学習の質が生み出す限界に対処し,時間とともに限られた人間フィードバックでaiエージェントを教える効率的な方法を提供する。 我々は、ゼロショット学習者による初期展開やアウトプット、アノテーションからのデータトレースを活用して、金銭的コストと環境への影響を低減できる小型でタスク固有の代替モデルを訓練することを提唱する。 私たちの機械教育プロセスは、人間の専門知識を活用して、誤用の可能性の高い例を訂正します。 会話型aiエージェントに共通する3つのタスクの結果は、ゼロショット学習者のタスクの複雑さとパフォーマンスに応じて、データセットの20~70%を監督することで、親密なoracleのパフォーマンスを達成できることを示している。

The recent advances in large language models (LLMs) have led to the creation of many modular AI agents. These agents employ LLMs as zero-shot learners to perform sub-tasks in order to solve complex tasks set forth by human users. We propose an approach to enhance the robustness and performance of modular AI agents that utilize LLMs as zero-shot learners. Our iterative machine teaching method offers an efficient way to teach AI agents over time with limited human feedback, addressing the limit posed by the quality of zero-shot learning. We advocate leveraging the data traces from initial deployments and outputs or annotations from the zero-shot learners to train smaller and task-specific substitute models which can reduce both the monetary costs and environmental impact. Our machine teaching process avails human expertise to correct examples with a high likelihood of misannotations. Results on three tasks, common to conversational AI agents, show that close-to-oracle performance can be achieved with supervision on 20-70% of the dataset depending upon the complexity of the task and performance of zero-shot learners.
翻訳日:2024-01-13 02:35:23 公開日:2024-01-10
# D3GU: ドメインアライメントの強化によるマルチターゲットアクティブドメイン適応

D3GU: Multi-Target Active Domain Adaptation via Enhancing Domain Alignment ( http://arxiv.org/abs/2401.05465v1 )

ライセンス: Link先を確認
Lin Zhang and Linghan Xu and Saman Motamed and Shayok Chakraborty and Fernando De la Torre(参考訳) 画像分類のための教師なしドメイン適応(UDA)は、効果的なドメインアライメント技術により、ラベル付きソースドメインからラベル付きターゲットドメインへの分類知識の転送において顕著な進歩を遂げている。 近年,ターゲット領域の性能をさらに向上させるために,salientおよびexemplarターゲットサンプルの同定と注釈付けを行うためのst-ada法が多数提案されている。 しかし、ターゲットドメインと各テストサンプルに関連付けられたドメインラベルに対して、1つのモデルをトレーニングしてデプロイする必要がある。 これは、複数のターゲットドメインを持つユビキタスシナリオにおけるアプリケーションを大幅に制限する。 そこで本稿では,D3GUと命名された画像分類のためのマルチターゲットアクティブドメイン適応(MT-ADA)フレームワークを提案する。 この分野で最高の知識を得るための最初の研究努力です。 D3GUはトレーニング中にD3(Decomposed Domain Discrimination)を適用し、ソースターゲットとターゲットターゲットドメインアライメントの両方を達成する。 次に、アクティブサンプリング中のグラディエントユーティリティ(GU)スコアは、分類やドメインアライメントタスクへの貢献によって、ラベルのないすべてのターゲットイメージを重み付けするように設計され、さらにKMeansクラスタリングと組み合わせて、多様なイメージサンプリングのためのGU-KMeansを形成する。 3つのベンチマークデータセット、office31、officehome、およびdomainnetに関する広範な実験が行われ、mt-adaにおけるd3guの一貫して優れたパフォーマンスを検証している。

Unsupervised domain adaptation (UDA) for image classification has made remarkable progress in transferring classification knowledge from a labeled source domain to an unlabeled target domain, thanks to effective domain alignment techniques. Recently, in order to further improve performance on a target domain, many Single-Target Active Domain Adaptation (ST-ADA) methods have been proposed to identify and annotate the salient and exemplar target samples. However, it requires one model to be trained and deployed for each target domain and the domain label associated with each test sample. This largely restricts its application in the ubiquitous scenarios with multiple target domains. Therefore, we propose a Multi-Target Active Domain Adaptation (MT-ADA) framework for image classification, named D3GU, to simultaneously align different domains and actively select samples from them for annotation. This is the first research effort in this field to our best knowledge. D3GU applies Decomposed Domain Discrimination (D3) during training to achieve both source-target and target-target domain alignments. Then during active sampling, a Gradient Utility (GU) score is designed to weight every unlabeled target image by its contribution towards classification and domain alignment tasks, and is further combined with KMeans clustering to form GU-KMeans for diverse image sampling. Extensive experiments on three benchmark datasets, Office31, OfficeHome, and DomainNet, have been conducted to validate consistently superior performance of D3GU for MT-ADA.
翻訳日:2024-01-13 02:35:04 公開日:2024-01-10
# 人間とニューラルネットワークの双方向知識相互作用インタフェース

The two-way knowledge interaction interface between humans and neural networks ( http://arxiv.org/abs/2401.05461v1 )

ライセンス: Link先を確認
Zhanliang He, Nuoye Xiong, Hongsheng Li, Peiyi Shen, Guangming Zhu, Liang Zhang(参考訳) ニューラルネットワーク(NN)は、様々な分野に広く適用され、一般に人間よりも優れていますが、それでもある程度の解釈性がなく、NNの決定ロジックを直感的に理解することができないのです。 これはまた、人間とnnの間の知識の相互作用を阻害し、nnの決定が失敗したときに人間が直接指導するのを妨げる。 説明可能なAIに関する最近の研究は、様々な観点からNNの解釈可能性を達成したが、人間とNN間の知識交換のための効果的な方法はまだ提供されていない。 そこで我々は,人間とNNの知識交換のための「言語」として,視覚概念とその関係の構造化表現を用いた双方向インタラクションインタフェースを構築した。 具体的には、nnはクラス固有の構造概念グラフ(c-scg)に基づいて人間に直感的な推論説明を提供する。 一方、人間がC-SCGに存在するバイアスを事前の知識と推論能力で修正できるため、このインタフェースを通じてNNに直接的な知識ガイダンスを提供することができる。 このインタラクションインターフェースに基づく実験的な検証により、NNは推論プロセスの理解しやすい説明を人間に提供することができる。 さらに、人間の関与と事前知識は、NNの性能向上に直接的かつ効果的に寄与することができる。

Despite neural networks (NN) have been widely applied in various fields and generally outperforms humans, they still lack interpretability to a certain extent, and humans are unable to intuitively understand the decision logic of NN. This also hinders the knowledge interaction between humans and NN, preventing humans from getting involved to give direct guidance when NN's decisions go wrong. While recent research in explainable AI has achieved interpretability of NN from various perspectives, it has not yet provided effective methods for knowledge exchange between humans and NN. To address this problem, we constructed a two-way interaction interface that uses structured representations of visual concepts and their relationships as the "language" for knowledge exchange between humans and NN. Specifically, NN provide intuitive reasoning explanations to humans based on the class-specific structural concepts graph (C-SCG). On the other hand, humans can modify the biases present in the C-SCG through their prior knowledge and reasoning ability, and thus provide direct knowledge guidance to NN through this interface. Through experimental validation, based on this interaction interface, NN can provide humans with easily understandable explanations of the reasoning process. Furthermore, human involvement and prior knowledge can directly and effectively contribute to enhancing the performance of NN.
翻訳日:2024-01-13 02:34:34 公開日:2024-01-10
# パーソナルLLMエージェント:能力,効率,セキュリティに関する洞察と調査

Personal LLM Agents: Insights and Survey about the Capability, Efficiency and Security ( http://arxiv.org/abs/2401.05459v1 )

ライセンス: Link先を確認
Yuanchun Li, Hao Wen, Weijun Wang, Xiangyu Li, Yizhen Yuan, Guohong Liu, Jiacheng Liu, Wenxing Xu, Xiang Wang, Yi Sun, Rui Kong, Yile Wang, Hanfei Geng, Jian Luan, Xuefeng Jin, Zilong Ye, Guanjing Xiong, Fan Zhang, Xiang Li, Mengwei Xu, Zhijun Li, Peng Li, Yang Liu, Ya-Qin Zhang, Yunxin Liu(参考訳) パーソナル・コンピューティング・デバイスの登場以来、インテリジェント・パーソナル・アシスタント(IPAs)は、研究者やエンジニアが注力してきた重要な技術の一つであり、ユーザーが効率的に情報を取得し、タスクを実行するのを助け、よりインテリジェントで便利でリッチな対話体験を提供することを目指している。 スマートフォンとIoTの開発により、コンピューティングとセンサーデバイスはユビキタスになり、IPAの境界を大きく広げている。 しかし、ユーザ意図の理解、タスク計画、ツールの使用、個人データ管理などの機能が欠如しているため、既存のIPAは実用性やスケーラビリティに限界があります。 近年,大規模言語モデル(LLM)に代表される基盤モデルの出現は,IPAの開発に新たな機会をもたらしている。 強力な意味理解と推論能力により、LLMは知的エージェントが複雑な問題を自律的に解くことができる。 本稿では、個人データやパーソナルデバイスと深く統合され、個人支援に使用されるLLMエージェントであるPersonal LLM Agentsに焦点を当てる。 今後,Personal LLM Agentsがエンドユーザーにとって主要なソフトウェアパラダイムになることを期待している。 このビジョンを実現するために、アーキテクチャ、能力、効率、セキュリティなど、パーソナライズ LLM エージェントに関するいくつかの重要な問題について議論する。 まず、Personal LLM Agentsのアーキテクチャにおける重要なコンポーネントと設計選択を要約し、続いてドメインの専門家から集めた意見を詳細に分析します。 次に、知的で効率的でセキュアなパーソナルLLMエージェントを実現するためのいくつかの重要な課題について論じ、続いてこれらの課題に対処する代表的ソリューションを包括的に調査する。

Since the advent of personal computing devices, intelligent personal assistants (IPAs) have been one of the key technologies that researchers and engineers have focused on, aiming to help users efficiently obtain information and execute tasks, and provide users with more intelligent, convenient, and rich interaction experiences. With the development of smartphones and IoT, computing and sensing devices have become ubiquitous, greatly expanding the boundaries of IPAs. However, due to the lack of capabilities such as user intent understanding, task planning, tool using, and personal data management etc., existing IPAs still have limited practicality and scalability. Recently, the emergence of foundation models, represented by large language models (LLMs), brings new opportunities for the development of IPAs. With the powerful semantic understanding and reasoning capabilities, LLM can enable intelligent agents to solve complex problems autonomously. In this paper, we focus on Personal LLM Agents, which are LLM-based agents that are deeply integrated with personal data and personal devices and used for personal assistance. We envision that Personal LLM Agents will become a major software paradigm for end-users in the upcoming era. To realize this vision, we take the first step to discuss several important questions about Personal LLM Agents, including their architecture, capability, efficiency and security. We start by summarizing the key components and design choices in the architecture of Personal LLM Agents, followed by an in-depth analysis of the opinions collected from domain experts. Next, we discuss several key challenges to achieve intelligent, efficient and secure Personal LLM Agents, followed by a comprehensive survey of representative solutions to address these challenges.
翻訳日:2024-01-13 02:34:15 公開日:2024-01-10
# CoLafier: 局所固有次元誘導を用いた協調雑音ラベル除去器

CoLafier: Collaborative Noisy Label Purifier With Local Intrinsic Dimensionality Guidance ( http://arxiv.org/abs/2401.05458v1 )

ライセンス: Link先を確認
Dongyu Zhang, Ruofan Hu, Elke Rundensteiner(参考訳) ディープニューラルネットワーク(dnn)は多くの機械学習タスクを進化させたが、そのパフォーマンスは現実世界のデータ中のノイズの多いラベルによってしばしば損なわれる。 そこで本研究では,局所内在次元(lid)を用いた雑音ラベル学習手法であるcollafierを提案する。 CoLafier は LID-dis と LID-gen の2つのサブネットで構成されている。 LID-disは特殊分類器である。 我々の独自に構築されたスキームでトレーニングされたLID-disは、サンプルの特徴とラベルの両方を使ってラベルを予測する。 この表現から計算されたLIDスコアは、様々なノイズシナリオにおいて、正しいラベルと間違ったラベルを効果的に区別する。 LID-dis とは対照的に、正規分類器として機能する LID-gen はサンプルの特徴にのみ依存する。 トレーニング中、CoLafierはインスタンス毎に2つの拡張ビューを使用して、両方のサブネットをフィードする。 colafier氏は2つのビューからのlidスコアをlid-disが生成し、両方のサブネットに適合した損失関数に重みを割り当てるものだと考えている。 同時に、分類器として機能するLID-genは擬似ラベルを示唆する。 LID-disはこれらの擬似ラベルを2つのビューと共に処理し、LIDスコアを導出する。 最後に、これらのLIDスコアと、2つのサブネットからの予測の違いがラベル更新決定を導く。 このデュアルビューとデュアルサブネットアプローチは、フレームワーク全体の信頼性を高める。 トレーニングが完了すると、最終分類モデルとしてCoLafierのLID-genサブネットをデプロイする。 colafierは予測精度の向上を示し、特に厳しいラベルノイズ下では既存の手法を上回っている。 詳細はhttps://github.com/zdy93/colafierを参照。

Deep neural networks (DNNs) have advanced many machine learning tasks, but their performance is often harmed by noisy labels in real-world data. Addressing this, we introduce CoLafier, a novel approach that uses Local Intrinsic Dimensionality (LID) for learning with noisy labels. CoLafier consists of two subnets: LID-dis and LID-gen. LID-dis is a specialized classifier. Trained with our uniquely crafted scheme, LID-dis consumes both a sample's features and its label to predict the label - which allows it to produce an enhanced internal representation. We observe that LID scores computed from this representation effectively distinguish between correct and incorrect labels across various noise scenarios. In contrast to LID-dis, LID-gen, functioning as a regular classifier, operates solely on the sample's features. During training, CoLafier utilizes two augmented views per instance to feed both subnets. CoLafier considers the LID scores from the two views as produced by LID-dis to assign weights in an adapted loss function for both subnets. Concurrently, LID-gen, serving as classifier, suggests pseudo-labels. LID-dis then processes these pseudo-labels along with two views to derive LID scores. Finally, these LID scores along with the differences in predictions from the two subnets guide the label update decisions. This dual-view and dual-subnet approach enhances the overall reliability of the framework. Upon completion of the training, we deploy the LID-gen subnet of CoLafier as the final classification model. CoLafier demonstrates improved prediction accuracy, surpassing existing methods, particularly under severe label noise. For more details, see the code at https://github.com/zdy93/CoLafier.
翻訳日:2024-01-13 02:33:47 公開日:2024-01-10
# 次元認識異常検出:理論的および実験的解析

Dimensionality-Aware Outlier Detection: Theoretical and Experimental Analysis ( http://arxiv.org/abs/2401.05453v1 )

ライセンス: Link先を確認
Alastair Anderberg, James Bailey, Ricardo J. G. B. Campello, Michael E. Houle, Henrique O. Marques, Milo\v{s} Radovanovi\'c, Arthur Zimek(参考訳) 本稿では,データセット内の内在次元の局所的変動をフルに考慮した非パラメトリックな外乱検出手法を提案する。 局所内在次元(lid)の理論を用いて,この「次元認識」異常検出法であるdaoを,クエリ点とランダムに描画された近接近傍との漸近的局所期待密度比の推定値として導出する。 DAOの次元認識挙動は、理論的に正当な方法でLID値の局所推定を利用するためである。 800以上の合成および実データセットに対する総合的な実験により、DAOは、LoF(Local Outlier Factor)、簡易LOF(Simplified LOF)、kNN(kNN)の3つの人気かつ重要なベンチマークアウトリエ検出手法を著しく上回っていることを示す。

We present a nonparametric method for outlier detection that takes full account of local variations in intrinsic dimensionality within the dataset. Using the theory of Local Intrinsic Dimensionality (LID), our 'dimensionality-aware' outlier detection method, DAO, is derived as an estimator of an asymptotic local expected density ratio involving the query point and a close neighbor drawn at random. The dimensionality-aware behavior of DAO is due to its use of local estimation of LID values in a theoretically-justified way. Through comprehensive experimentation on more than 800 synthetic and real datasets, we show that DAO significantly outperforms three popular and important benchmark outlier detection methods: Local Outlier Factor (LOF), Simplified LOF, and kNN.
翻訳日:2024-01-13 02:33:21 公開日:2024-01-10
# セキュアな産業用IoTデバイスに向けた最適アンサンブルモデル

Optimized Ensemble Model Towards Secured Industrial IoT Devices ( http://arxiv.org/abs/2401.05509v1 )

ライセンス: Link先を確認
MohammadNoor Injadat(参考訳) IoT(Internet-of-Things)デバイス展開の継続的な成長は、特に産業環境における接続需要の増加によって加速されている。 しかし、これは潜在的な攻撃面の増加によるネットワーク関連攻撃の数の増加につながった。 iiot(industrial iot)デバイスは,製造プロセスや製造工場の作業者の安全性に重大な影響を与える可能性のある,さまざまなネットワーク関連攻撃に起因している。 近年、攻撃検出のために現れた有望なソリューションの1つは機械学習(ML)である。 より具体的には、アンサンブル学習モデルは、基盤となるMLモデルのパフォーマンスを改善することに大きな期待を示している。 そこで本稿では,iiot環境における侵入・攻撃検出の性能を向上させるために,bayesian optimization-gaussian process (bo-gp) とアンサンブルツリーベースの学習モデルを組み合わせたフレームワークを提案する。 提案するフレームワークのパフォーマンスは、ニューサウスウェールズ大学のCyber Range and IoT labsが収集したWindows 10データセットを用いて評価される。 その結果,標準木モデルやアンサンブル木モデルと比較して検出精度,精度,f-scoreが向上した。

The continued growth in the deployment of Internet-of-Things (IoT) devices has been fueled by the increased connectivity demand, particularly in industrial environments. However, this has led to an increase in the number of network related attacks due to the increased number of potential attack surfaces. Industrial IoT (IIoT) devices are prone to various network related attacks that can have severe consequences on the manufacturing process as well as on the safety of the workers in the manufacturing plant. One promising solution that has emerged in recent years for attack detection is Machine learning (ML). More specifically, ensemble learning models have shown great promise in improving the performance of the underlying ML models. Accordingly, this paper proposes a framework based on the combined use of Bayesian Optimization-Gaussian Process (BO-GP) with an ensemble tree-based learning model to improve the performance of intrusion and attack detection in IIoT environments. The proposed framework's performance is evaluated using the Windows 10 dataset collected by the Cyber Range and IoT labs at University of New South Wales. Experimental results illustrate the improvement in detection accuracy, precision, and F-score when compared to standard tree and ensemble tree models.
翻訳日:2024-01-13 02:23:15 公開日:2024-01-10
# InfiAgent-DABench: データ分析タスクにおけるエージェントの評価

InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks ( http://arxiv.org/abs/2401.05507v1 )

ライセンス: Link先を確認
Xueyu Hu, Ziyu Zhao, Shuang Wei, Ziwei Chai, Guoyin Wang, Xuwu Wang, Jing Su, Jingjing Xu, Ming Zhu, Yao Cheng, Jianbo Yuan, Kun Kuang, Yang Yang, Hongxia Yang, Fei Wu(参考訳) 本稿では,llmベースのエージェントをデータ解析タスクで評価するための最初のベンチマークである「infiagent-dabench」を紹介する。 このベンチマークには、55のCSVファイルから得られた311のデータ分析質問からなるデータセットであるDAEvalと、LCMをデータ分析エージェントとして評価するエージェントフレームワークが含まれている。 我々は,質問がクローズドな形で自動的に評価されるように,フォーマットプロンプト技術を採用する。 最先端のLLM23の広範なベンチマークにより、データ解析タスクで直面する現在の課題が明らかになった。 さらに,インストラクションチューニングデータセットを訓練した特殊エージェントであるDAAgentを開発した。 InfiAgent-DABenchの評価データセットとツールキットはhttps://github.com/InfiAgent/InfiAgent.comでリリースされた。

In this paper, we introduce "InfiAgent-DABench", the first benchmark specifically designed to evaluate LLM-based agents in data analysis tasks. This benchmark contains DAEval, a dataset consisting of 311 data analysis questions derived from 55 CSV files, and an agent framework to evaluate LLMs as data analysis agents. We adopt a format-prompting technique, ensuring questions to be closed-form that can be automatically evaluated. Our extensive benchmarking of 23 state-of-the-art LLMs uncovers the current challenges encountered in data analysis tasks. In addition, we have developed DAAgent, a specialized agent trained on instruction-tuning datasets. Evaluation datasets and toolkits for InfiAgent-DABench are released at https://github.com/InfiAgent/InfiAgent.
翻訳日:2024-01-13 02:22:36 公開日:2024-01-10
# 多様性を考慮したクラスタリング:計算複雑性と近似アルゴリズム

Diversity-aware clustering: Computational Complexity and Approximation Algorithms ( http://arxiv.org/abs/2401.05502v1 )

ライセンス: Link先を確認
Suhas Thejaswi, Ameet Gadekar, Bruno Ordozgoiti, Aristides Gionis(参考訳) 本研究では,データポイントが複数の属性に関連付けられ,相互に交わるグループとなる,多様性を考慮したクラスタリング問題について検討する。 クラスタリングソリューションでは、各グループから最小数のクラスタセンターを選択すると同時に、クラスタリングの目標を最小化する必要があります。 パラメータ化近似アルゴリズムは,それぞれ1+ \frac{2}{e}$, $1+\frac{8}{e}$, $3$ for diversity-aware $k$-median, diversity-aware $k$-means, diversity-aware $k$-supplierを示す。 近似比は Gap-ETH と FPT $\neq$ W[2] を強く仮定する。 弱気性群を持つ公正な$k$-median と公正な$k$-means に対して,近似比が 1+\frac{2}{e}$ と 1+\frac{8}{e}$ のパラメータ化近似アルゴリズムを提案する。 不連続な機能群を持つ公正な$k$-supplierに対して、多項式時間近似アルゴリズムを3ドルで示し、これまでの最もよく知られた5ドル近似比を改善した。

In this work, we study diversity-aware clustering problems where the data points are associated with multiple attributes resulting in intersecting groups. A clustering solution need to ensure that a minimum number of cluster centers are chosen from each group while simultaneously minimizing the clustering objective, which can be either $k$-median, $k$-means or $k$-supplier. We present parameterized approximation algorithms with approximation ratios $1+ \frac{2}{e}$, $1+\frac{8}{e}$ and $3$ for diversity-aware $k$-median, diversity-aware $k$-means and diversity-aware $k$-supplier, respectively. The approximation ratios are tight assuming Gap-ETH and FPT $\neq$ W[2]. For fair $k$-median and fair $k$-means with disjoint faicility groups, we present parameterized approximation algorithm with approximation ratios $1+\frac{2}{e}$ and $1+\frac{8}{e}$, respectively. For fair $k$-supplier with disjoint facility groups, we present a polynomial-time approximation algorithm with factor $3$, improving the previous best known approximation ratio of factor $5$.
翻訳日:2024-01-13 02:22:22 公開日:2024-01-10
# 実数量子系のシミュレーションにおける過度パラメータ化のキャラクタリゼーション

Characterization of Overparameterization in Simulation of Realistic Quantum Systems ( http://arxiv.org/abs/2401.05500v1 )

ライセンス: Link先を確認
Matthew Duschenes, Juan Carrasquilla, and Raymond Laflamme(参考訳) 量子コンピューティングデバイスは、量子状態の準備と他の量子システムをシミュレートするために、実験パラメータの特別な制御を必要とする。 このような最適制御パラメータを見つけるために使用される古典的な最適化手順は、様々な学習様式を示すために理想化された設定でさらに示されている。 十分な数のパラメータを持つシステムでは、準備された状態に対するグローバルな最適化とコンパイルされたユニタリ忠実度が指数関数的に速く到達する可能性がある。 本稿では,演算子間のバウンディングや共有パラメータなどの制御に対する実験的な制約の存在と,実験環境に固有のノイズの存在において,過パラメータ化現象のロバスト性について検討する。 過度パラメータ化現象は、これらの現実的な環境では短時間で回復可能であるが、量子ノイズまたは古典ノイズの蓄積による臨界シミュレーション期間を過ぎて、忠実度はゼロに低下する。 この臨界深さはノイズスケールにおいて対数的であり、最適なフィダリティは最初は深さで指数関数的に増大し、その後深さとノイズで多項式的に減少する。 この結果から, パラメータ化アンサツェは環境からエントロピー効果を緩和し, 近い将来の量子デバイスでの実験的な実現を可能にした。

Quantum computing devices require exceptional control of their experimental parameters to prepare quantum states and simulate other quantum systems. Classical optimization procedures used to find such optimal control parameters, have further been shown in idealized settings to exhibit different regimes of learning. Of interest in this work is the overparameterization regime, where for systems with a sufficient number of parameters, global optima for prepared state and compiled unitary fidelities may potentially be reached exponentially quickly. Here, we study the robustness of overparameterization phenomena in the presence of experimental constraints on the controls, such as bounding or sharing parameters across operators, as well as in the presence of noise inherent to experimental setups. We observe that overparameterization phenomena are resilient in these realistic settings at short times, however fidelities decay to zero past a critical simulation duration due to accumulation of either quantum or classical noise. This critical depth is found to be logarithmic in the scale of noise, and optimal fidelities initially increase exponentially with depth, before decreasing polynomially with depth, and with noise. Our results demonstrate that parameterized ansatze can mitigate entropic effects from their environment, offering tantalizing opportunities for their application and experimental realization in near term quantum devices.
翻訳日:2024-01-13 02:21:55 公開日:2024-01-10
# 相関非マルコフチャネルのファセット

Facets of correlated non-Markovian channels ( http://arxiv.org/abs/2401.05499v1 )

ライセンス: Link先を確認
Vivek Balasaheb Sabale, Nihar Ranjan Dash, Atul Kumar, Subhashish Banerjee(参考訳) 我々は,非マルコフ力学によるチャネルの相関作用と固有記憶から生じる電位記憶を探索し,非マルコフチャネルの領域について検討する。 本稿では,非マルコフチャネルの相関による量子状態の変化と,非マルコフ性度に対するチャネル相関係数の影響について検討する。 さらに,非マルコフ性は長い時間相関を保ち続けることによって生じる,CP-divisible modified Ornstein-Uhlenbeckノイズについて述べる。 相関したランダムテレグラフノイズと非マルコフ振幅減衰チャネルを構築し、その非マルコフ性はブリュアー・レイン・ピロ測度とエンタングルメントに基づく測度を用いて解析する。 また, 相関したcp分割チャネルの非マルコフ性は, シュリカント・スリカント・サブハシッシュ測度を用いて計算した。 構築されたチャネルはユニタリであり、自然界では非ユニタリであり、研究に汎用性を加える。 相関係数と誤差補正成功確率との関係を強調する。

We investigate the domain of correlated non-Markovian channels, exploring the potential memory arising from the correlated action of the channels and the inherent memory due to non-Markovian dynamics. This paper examines how quantum states change when subjected to correlated non-Markovian channels and how the channel correlation factor affects the degree of non-Markovianity. We further propose a correlated CP-divisible modified Ornstein-Uhlenbeck noise where non-Markovianity arises from retaining the correlation for a longer time. The correlated Random Telegraph Noise and non-Markovian amplitude damping channels are constructed, and their non-Markovianity is analysed using the Breuer-Laine-Piilo measure and a measure based on entanglement. In addition, the non-Markovianity of the correlated CP-divisible channel was computed using the Shrikant-Srikanth-Subhashish measure. The channels constructed are unital as well as non-unital in nature, adding versatility to the study. The link between the correlation factor and error correction success probability is highlighted.
翻訳日:2024-01-13 02:21:31 公開日:2024-01-10
# ディラック流体の非ガウス拡散変動

Non-Gaussian diffusive fluctuations in Dirac fluids ( http://arxiv.org/abs/2401.05494v1 )

ライセンス: Link先を確認
Sarang Gopalakrishnan, Ewan McCulloch, Romain Vasseur(参考訳) ディラック流体(dirac fluids)は、粒子-ホール対称性とローレンツ不変性に従う相互作用系であり、最も単純な流体力学系の一つである。 ディラック流体の直接の実験的なシグネチャは、その電荷輸送は従来の金属と同様に拡散する。 本稿では, 電荷輸送の総数統計(FCS)は非ガウス的である。 我々は、ある相互作用可能な可積分系に対して以前に導出された結果を一般化するFCSの正確な漸近形式を予測する。 その結果、準1次元の非平衡初期条件から始めると、流体力学系の電荷ノイズは従来の拡散金属に比べてパラメトリックに増大する。

Dirac fluids - interacting systems obeying particle-hole symmetry and Lorentz invariance - are among the simplest hydrodynamic systems; they have also been studied as effective descriptions of transport in strongly interacting Dirac semimetals. Direct experimental signatures of the Dirac fluid are elusive, as its charge transport is diffusive as in conventional metals. In this paper we point out a striking consequence of fluctuating relativistic hydrodynamics: the full counting statistics (FCS) of charge transport is highly non-gaussian. We predict the exact asymptotic form of the FCS, which generalizes a result previously derived for certain interacting integrable systems. A consequence is that, starting from quasi-one dimensional nonequilibrium initial conditions, charge noise in the hydrodynamic regime is parametrically enhanced relative to that in conventional diffusive metals.
翻訳日:2024-01-13 02:21:13 公開日:2024-01-10
# コールド原子粒子衝突装置

A Cold-Atom Particle Collider ( http://arxiv.org/abs/2401.05489v1 )

ライセンス: Link先を確認
Guo-Xian Su, Jesse Osborne, Jad C. Halimeh(参考訳) ゲージ理論の量子シミュレータを実現するための強い推進の主な目的は、衝突子関係物理学を観測する能力を達成することである。 この点において、高親密かつ追求された応用は、初等粒子と複合粒子の制御された衝突と、その進行における散乱過程である。 本稿では,1+1$D$\mathrm{U}(1)$ gauge theory with a tunable topological $\theta$-termに対するコールド原子量子シミュレータにおける粒子衝突実験について述べる。 本研究では, 基本粒子と複合粒子の両方の移動波パケットの衝突を数値的に評価し, 閉じ込めによる粒子衝突による発振弦のダイナミクスなど, 豊富な現象の多元性を明らかにする。 また,コールマンの相転移における弦反転とエントロピー生成過程についても検討した。 さらに, 複合粒子の衝突が内部構造を明らかにする。 我々の研究は、ゲージ理論の最先端量子シミュレータにおける衝突ダイナミクスの実験的研究への道を開き、これらのプラットフォームにおける衝突子関係物理学の微視的理解の段階を定めている。

A major objective of the strong ongoing drive to realize quantum simulators of gauge theories is achieving the capability to probe collider-relevant physics on them. In this regard, a highly pertinent and sought-after application is the controlled collisions of elementary and composite particles, as well as the scattering processes in their wake. Here, we propose particle-collision experiments in a cold-atom quantum simulator for a $1+1$D $\mathrm{U}(1)$ lattice gauge theory with a tunable topological $\theta$-term, where we demonstrate an experimentally feasible protocol to impart momenta to elementary (anti)particles and their meson composites. We numerically benchmark the collisions of moving wave packets for both elementary and composite particles, uncovering a plethora of rich phenomena, such as oscillatory string dynamics in the wake of elementary (anti)particle collisions due to confinement. We also probe string inversion and entropy production processes across Coleman's phase transition through far-from-equilibrium quenches. We further demonstrate how collisions of composite particles unveil their internal structure. Our work paves the way towards the experimental investigation of collision dynamics in state-of-the-art quantum simulators of gauge theories, and sets the stage for microscopic understanding of collider-relevant physics in these platforms.
翻訳日:2024-01-13 02:20:58 公開日:2024-01-10
# 対称状態における粒子の部分集合の相関--残りが無視された場合の光線内での光子の役割

Correlations for subsets of particles in symmetric states: what photons are doing within a beam of light when the rest are ignored ( http://arxiv.org/abs/2401.05484v1 )

ライセンス: Link先を確認
Aaron Z. Goldberg(参考訳) 光の状態を考えると、構成光子の一部のみが観察され、残りが無視された場合、その性質はどのように変化するのだろうか? ビームから光子をモード依存的に除去する公式を開発することにより, ビームからわずか$q$の光子が検査されると, 演算子の期待値がどう変化するかを示す。 我々はこれを、$q$光子をランダムに選択した状態の観点から演算子の期待値を表現するために利用する。 注意すべきことに、これは$q$のユニークな値に対する真の期待値に等しい: オペレータを通常の順序形式で単項式として表すと、$q$は演算子によって消滅した光子の数に等しい。 有用な結論として、任意の状態からランダムに選択された任意の$q$-光子状態の係数は、元の状態の$q$2次相関である; 任意のランダム光子が何を行うかを知るために強度モーメントを検査することができ、逆に、$n$2次相関関数の全てを識別するためには$n$-光子部分空間のみを見る必要がある。 わかりやすい読者は、ここでは驚きも見つからず、直観の数学的正当化だけを喜ぶだろう。 以上の結果から, 粒子の数の組合せが全くなく, ボソニックな相関がみつかれば, 任意の粒子の完全な対称状態が得られた。

Given a state of light, how do its properties change when only some of the constituent photons are observed and the rest are neglected (traced out)? By developing formulae for mode-agnostic removal of photons from a beam, we show how the expectation value of any operator changes when only $q$ photons are inspected from a beam, ignoring the rest. We use this to reexpress expectation values of operators in terms of the state obtained by randomly selecting $q$ photons. Remarkably, this only equals the true expectation value for a unique value of $q$: expressing the operator as a monomial in normally ordered form, $q$ must be equal to the number of photons annihilated by the operator. A useful corollary is that the coefficients of any $q$-photon state chosen at random from an arbitrary state are exactly the $q$th order correlations of the original state; one can inspect the intensity moments to learn what any random photon will be doing and, conversely, one need only look at the $n$-photon subspace to discern what all of the $n$th order correlation functions are. The astute reader will be pleased to find no surprises here, only mathematical justification for intuition. Our results hold for any completely symmetric state of any type of particle with any combination of numbers of particles and can be used wherever bosonic correlations are found.
翻訳日:2024-01-13 02:20:32 公開日:2024-01-10
# 拡張皮膚病変分割のためのトランスフォーマーCNN融合アーキテクチャ

Transformer-CNN Fused Architecture for Enhanced Skin Lesion Segmentation ( http://arxiv.org/abs/2401.05481v1 )

ライセンス: Link先を確認
Siddharth Tiwari(参考訳) 医療画像のセグメンテーションは、医療システムの改善と作成、特に早期疾患の検出と治療計画において重要である。 近年では、畳み込みニューラルネットワーク(CNN)やその他の最先端の手法が医療画像のセグメンテーションを大幅に進歩させている。 しかし、CNNは、畳み込み操作の制限のため、長距離依存関係の学習とグローバルコンテキストの取得に苦労している。 本稿では,医療画像のセグメンテーションにおけるトランスフォーマとCNNの利用について検討し,トランスフォーマがグローバルな依存関係をキャプチャし,CNNが低レベル空間の詳細をキャプチャできるハイブリッドアーキテクチャを提案する。 様々なアーキテクチャと構成を比較し,その効果を評価するために複数の実験を行う。

The segmentation of medical images is important for the improvement and creation of healthcare systems, particularly for early disease detection and treatment planning. In recent years, the use of convolutional neural networks (CNNs) and other state-of-the-art methods has greatly advanced medical image segmentation. However, CNNs have been found to struggle with learning long-range dependencies and capturing global context due to the limitations of convolution operations. In this paper, we explore the use of transformers and CNNs for medical image segmentation and propose a hybrid architecture that combines the ability of transformers to capture global dependencies with the ability of CNNs to capture low-level spatial details. We compare various architectures and configurations and conduct multiple experiments to evaluate their effectiveness.
翻訳日:2024-01-13 02:20:02 公開日:2024-01-10
# 再帰的なクラスタリングスキーム

The recursive scheme of clustering ( http://arxiv.org/abs/2401.05479v1 )

ライセンス: Link先を確認
Alicja Miniak-G\'orecka, Krzysztof Podlaski, Tomasz Gwizda{\l}{\l}a(参考訳) データクラスタリングの問題は、データ分析において最も重要な問題のひとつです。 不確実性や誤りを計測する実験データを扱う場合、問題となることがある。 本稿では,地理的(気候)実験で得られたデータをクラスタリングするための再帰的手法を提案する。 そこで,k-means法とSOM法で得られた結果と再帰的手順について考察した。 新たなアプローチによるクラスタリングは,専門家による評価と比較すると,より許容できる結果が得られることを示す。

The problem of data clustering is one of the most important in data analysis. It can be problematic when dealing with experimental data characterized by measurement uncertainties and errors. Our paper proposes a recursive scheme for clustering data obtained in geographical (climatological) experiments. The discussion of results obtained by k-means and SOM methods with the developed recursive procedure is presented. We show that the clustering using the new approach gives more acceptable results when compared to experts assessments.
翻訳日:2024-01-13 02:19:47 公開日:2024-01-10
# サンプルグループ間の自閉症検出のための集団グラフクロスネットワークノード分類

Population Graph Cross-Network Node Classification for Autism Detection Across Sample Groups ( http://arxiv.org/abs/2401.05478v1 )

ライセンス: Link先を確認
Anna Stephens, Francisco Santos, Pang-Ning Tan, Abdol-Hossein Esfahanian(参考訳) グラフニューラルネットワーク(GNN)は、ノード分類タスクのための画像と非画像医療情報を結合する強力なツールである。 クロスネットワークノード分類は、ドメインドリフトを考慮したgnn技術を拡張し、ラベルのないターゲットネットワーク上のノード分類を可能にする。 本稿では,ネットワーク間ノード分類のための強力な新しい手法OTGCNを提案する。 このアプローチは、グラフ畳み込みネットワークの概念に基づいて、グラフデータ構造からの洞察を活用すると同時に、異なるデータ収集サイトからのサンプル間で起こりうるドメインドリフトの修正に最適なトランスポートに根ざした戦略を適用する。 このブレンドアプローチは、さまざまな場所や機器にまたがって収集されるさまざまな形式のデータを持つシナリオに対して、実用的なソリューションを提供する。 本研究では、画像と非画像データを組み合わせた自閉症スペクトラム障害の分類におけるこのアプローチの有効性を示す。

Graph neural networks (GNN) are a powerful tool for combining imaging and non-imaging medical information for node classification tasks. Cross-network node classification extends GNN techniques to account for domain drift, allowing for node classification on an unlabeled target network. In this paper we present OTGCN, a powerful, novel approach to cross-network node classification. This approach leans on concepts from graph convolutional networks to harness insights from graph data structures while simultaneously applying strategies rooted in optimal transport to correct for the domain drift that can occur between samples from different data collection sites. This blended approach provides a practical solution for scenarios with many distinct forms of data collected across different locations and equipment. We demonstrate the effectiveness of this approach at classifying Autism Spectrum Disorder subjects using a blend of imaging and non-imaging data.
翻訳日:2024-01-13 02:19:41 公開日:2024-01-10
# 人間の活動認識モデルにおける学習過程の標準化--障害要因の包括的考察

Standardizing Your Training Process for Human Activity Recognition Models: A Comprehensive Review in the Tunable Factors ( http://arxiv.org/abs/2401.05477v1 )

ライセンス: Link先を確認
Yiran Huang, Haibin Zhao, Yexu Zhou, Till Riedel, Michael Beigl(参考訳) 近年、ディープラーニングはさまざまな分野にまたがる強力なツールとして登場し、ウェアラブルヒューマンアクティビティ認識(whar)ドメインでの応用に関する研究が急増している。 急速な発展にもかかわらず、実験モデルトレーニングで使用される手順の標準化と整合性の欠如が懸念され、その結果の再現性と信頼性に影響を及ぼす可能性がある。 本稿では,WHAR分野における現代の深層学習研究の総括的レビューと,様々な研究で採用されている訓練手順に関する情報の照合を行う。 この結果から,モデルトレーニングプロトコルが提供する詳細が欠如していることが示唆された。 さらに、欠落した記述の影響をより明確に理解するために、制御変数アプローチを用いて、HARモデルのオブジェクト間一般化能力に対するキーチューニング可能なコンポーネント(最適化手法や早期停止基準など)の影響を評価する。 分析から得られた知見をもとに,WHARモデルに合わせた新たな統合トレーニング手順を定義する。 5つのよく知られた \ac{whar} ベンチマークデータセットと3つの古典的HARモデルアーキテクチャを用いて得られた実験結果から,提案手法の有効性が示された。

In recent years, deep learning has emerged as a potent tool across a multitude of domains, leading to a surge in research pertaining to its application in the wearable human activity recognition (WHAR) domain. Despite the rapid development, concerns have been raised about the lack of standardization and consistency in the procedures used for experimental model training, which may affect the reproducibility and reliability of research results. In this paper, we provide an exhaustive review of contemporary deep learning research in the field of WHAR and collate information pertaining to the training procedure employed in various studies. Our findings suggest that a major trend is the lack of detail provided by model training protocols. Besides, to gain a clearer understanding of the impact of missing descriptions, we utilize a control variables approach to assess the impact of key tunable components (e.g., optimization techniques and early stopping criteria) on the inter-subject generalization capabilities of HAR models. With insights from the analyses, we define a novel integrated training procedure tailored to the WHAR model. Empirical results derived using five well-known \ac{whar} benchmark datasets and three classical HAR model architectures demonstrate the effectiveness of our proposed methodology: in particular, there is a significant improvement in macro F1 leave one subject out cross-validation performance.
翻訳日:2024-01-13 02:19:26 公開日:2024-01-10
# cadgpt: 3次元モデリングのための自然言語処理を活用したコンピュータ支援設計ワークフロー

CADgpt: Harnessing Natural Language Processing for 3D Modelling to Enhance Computer-Aided Design Workflows ( http://arxiv.org/abs/2401.05476v1 )

ライセンス: Link先を確認
Timo Kapsalis(参考訳) 本稿では,自然言語処理(nlp)とrhino3dを統合する革新的なプラグインcadgptについて紹介する。 OpenAIのGPT-4を利用してCADgptはCADインターフェースを単純化し、ユーザーは直感的な自然言語コマンドで複雑な3Dモデリングタスクを実行できる。 このアプローチは従来のCADソフトウェアに関連する学習曲線を大幅に減らし、より包括的で魅力的な教育環境を育む。 本稿では、Rhino3DにおけるCADgptの技術アーキテクチャとCADタスクにおけるGPT-4機能の適用について論じる。 CADgptが様々なデザインシナリオで有効であることを示すケーススタディを提示し、より広い範囲の学生に洗練されたデザインツールを提供することでデザイン教育を民主化する可能性を強調した。 この議論はさらにCADgptが教育とカリキュラム開発にもたらす意味を探求し、創造的な探求とデザイン教育における概念思考の促進にその役割を強調した。 キーワード:自然言語処理,コンピュータ支援設計,3次元モデリング,設計自動化,設計教育,建築教育

This paper introduces CADgpt, an innovative plugin integrating Natural Language Processing (NLP) with Rhino3D for enhancing 3D modelling in computer-aided design (CAD) environments. Leveraging OpenAI's GPT-4, CADgpt simplifies the CAD interface, enabling users, particularly beginners, to perform complex 3D modelling tasks through intuitive natural language commands. This approach significantly reduces the learning curve associated with traditional CAD software, fostering a more inclusive and engaging educational environment. The paper discusses CADgpt's technical architecture, including its integration within Rhino3D and the adaptation of GPT-4 capabilities for CAD tasks. It presents case studies demonstrating CADgpt's efficacy in various design scenarios, highlighting its potential to democratise design education by making sophisticated design tools accessible to a broader range of students. The discussion further explores CADgpt's implications for pedagogy and curriculum development, emphasising its role in enhancing creative exploration and conceptual thinking in design education. Keywords: Natural Language Processing, Computer-Aided Design, 3D Modelling, Design Automation, Design Education, Architectural Education
翻訳日:2024-01-13 02:19:05 公開日:2024-01-10
# 深層学習による植物の絶滅リスク予測と気候変動影響評価のための種分布のモデル化

Modelling Species Distributions with Deep Learning to Predict Plant Extinction Risk and Assess Climate Change Impacts ( http://arxiv.org/abs/2401.05470v1 )

ライセンス: Link先を確認
Joaquim Estopinan, Pierre Bonnet, Maximilien Servajean, Fran\c{c}ois Munoz, Alexis Joly(参考訳) 2020年以降のグローバル生物多様性フレームワークは、野心的で研究に基づく目標を必要としている。 気候変動による絶滅リスクの加速を推定することが重要である。 国際自然保護連合(IUCN)は、種の絶滅リスクを測定する。 下位評価分類群のiucn状態に関する情報を提供する自動手法が開発されている。 しかし、これらの補償法は現在の種の特徴、主に地理的な特徴に基づいており、将来の予測での使用を妨げている。 本稿では,深層学習に基づく種分布モデルの一般化力の恩恵を受ける種のiucnを分類する新しい手法について評価する。 本手法は,生物の環境嗜好を捉えるフレキシブルなsdmに基づく特徴に依拠しながら,最先端の分類性能に適合する。 クロスバリデーションは、ステータス分類では 0.61 とバイナリ分類では 0.78 の平均アキュラシーを与える。 気候変動は将来の種分布を変えるだろう。 種環境均衡仮説の下では、sdm射影は将来予測可能な結果を近似する。 種散布能力の極端は2つあり、無制限かヌルかである。 予測された種分布はIUCN分類法に適合する特徴に変換される。 最後に 絶滅危惧種の傾向は 時間とともに分析され 一 大陸により、平均的な機能として 二 緯度又は緯度 iii) 高度。 絶滅危惧種の比率は世界中で増加しており、アフリカ、アジア、南米で臨界率が高い。 さらに、絶滅危惧種の比率は、赤道、低地、標高800-1500mの2つの熱帯付近でピークに達すると予測されている。

The post-2020 global biodiversity framework needs ambitious, research-based targets. Estimating the accelerated extinction risk due to climate change is critical. The International Union for Conservation of Nature (IUCN) measures the extinction risk of species. Automatic methods have been developed to provide information on the IUCN status of under-assessed taxa. However, these compensatory methods are based on current species characteristics, mainly geographical, which precludes their use in future projections. Here, we evaluate a novel method for classifying the IUCN status of species benefiting from the generalisation power of species distribution models based on deep learning. Our method matches state-of-the-art classification performance while relying on flexible SDM-based features that capture species' environmental preferences. Cross-validation yields average accuracies of 0.61 for status classification and 0.78 for binary classification. Climate change will reshape future species distributions. Under the species-environment equilibrium hypothesis, SDM projections approximate plausible future outcomes. Two extremes of species dispersal capacity are considered: unlimited or null. The projected species distributions are translated into features feeding our IUCN classification method. Finally, trends in threatened species are analysed over time and i) by continent and as a function of average ii) latitude or iii) altitude. The proportion of threatened species is increasing globally, with critical rates in Africa, Asia and South America. Furthermore, the proportion of threatened species is predicted to peak around the two Tropics, at the Equator, in the lowlands and at altitudes of 800-1,500 m.
翻訳日:2024-01-13 02:18:46 公開日:2024-01-10
# スマートウォッチPPGとIMUのロバストCNNによる呼吸速度推定

Robust CNN-based Respiration Rate Estimation for Smartwatch PPG and IMU ( http://arxiv.org/abs/2401.05469v1 )

ライセンス: Link先を確認
Kianoosh Kazemi, Iman Azimi, Pasi Liljeberg, Amir M. Rahmani(参考訳) 呼吸速度 (RR) は、心臓血管疾患や睡眠障害などの様々な疾患の指標である。 これらのRR推定法は、主に静止状態(例えば病院)の被験者から採取した指ベースのPSGのために設計された。 指ベースのppg信号とは対照的に、手首ベースのppgは、特に呼吸情報を含む低周波域においてノイズの影響を受けやすい。 したがって,自由生活条件下で手首領域からppgデータが収集された場合,既存の手法では正確なrr抽出に苦慮する。 PPGを含む各種センサーを搭載したスマートウォッチの普及により、堅牢なRR推定方法の必要性が高まっている。 本稿では,スマートウォッチから取得したppg,加速度計,ジャイロスコープ信号からrrを抽出する畳み込みニューラルネットワークに基づく手法を提案する。 拡張された残射モジュールと1D畳み込みを含む本手法は,信号から時間情報を抽出し,RR推定を可能にする。 本手法は,36名の被験者から収集したデータを用いて,samsung gear sportウォッチを用いて1日間,自由生活条件下でトレーニングおよびテストを行う。 評価のために,提案手法を4つの最先端RR推定法と比較した。 RR推定値は、胸部バンド装置から得られたRR基準と比較される。 その結果,本手法は平均絶対誤差1.85,根平均誤差2.34で既存手法を上回り,他の手法では2.41,3.29であった。 さらに,他の手法と比較して,提案手法の絶対誤差分布は狭く(中央値が最も低い),推定されたRR値と基準RR値との一致度が高かった。

Respiratory rate (RR) serves as an indicator of various medical conditions, such as cardiovascular diseases and sleep disorders. These RR estimation methods were mostly designed for finger-based PPG collected from subjects in stationary situations (e.g., in hospitals). In contrast to finger-based PPG signals, wrist-based PPG are more susceptible to noise, particularly in their low frequency range, which includes respiratory information. Therefore, the existing methods struggle to accurately extract RR when PPG data are collected from wrist area under free-living conditions. The increasing popularity of smartwatches, equipped with various sensors including PPG, has prompted the need for a robust RR estimation method. In this paper, we propose a convolutional neural network-based approach to extract RR from PPG, accelerometer, and gyroscope signals captured via smartwatches. Our method, including a dilated residual inception module and 1D convolutions, extract the temporal information from the signals, enabling RR estimation. Our method is trained and tested using data collected from 36 subjects under free-living conditions for one day using Samsung Gear Sport watches. For evaluation, we compare the proposed method with four state-of-the-art RR estimation methods. The RR estimates are compared with RR references obtained from a chest-band device. The results show that our method outperforms the existing methods with the Mean-Absolute-Error and Root-Mean-Square-Error of 1.85 and 2.34, while the best results obtained by the other methods are 2.41 and 3.29, respectively. Moreover, compared to the other methods, the absolute error distribution of our method was narrow (with the lowest median), indicating a higher level of agreement between the estimated and reference RR values.
翻訳日:2024-01-13 02:18:24 公開日:2024-01-10
# trustllm: 大きな言語モデルの信頼性

TrustLLM: Trustworthiness in Large Language Models ( http://arxiv.org/abs/2401.05561v1 )

ライセンス: Link先を確認
Lichao Sun, Yue Huang, Haoran Wang, Siyuan Wu, Qihui Zhang, Chujie Gao, Yixin Huang, Wenhan Lyu, Yixuan Zhang, Xiner Li, Zhengliang Liu, Yixin Liu, Yijue Wang, Zhikun Zhang, Bhavya Kailkhura, Caiming Xiong, Chao Zhang, Chaowei Xiao, Chunyuan Li, Eric Xing, Furong Huang, Hao Liu, Heng Ji, Hongyi Wang, Huan Zhang, Huaxiu Yao, Manolis Kellis, Marinka Zitnik, Meng Jiang, Mohit Bansal, James Zou, Jian Pei, Jian Liu, Jianfeng Gao, Jiawei Han, Jieyu Zhao, Jiliang Tang, Jindong Wang, John Mitchell, Kai Shu, Kaidi Xu, Kai-Wei Chang, Lifang He, Lifu Huang, Michael Backes, Neil Zhenqiang Gong, Philip S. Yu, Pin-Yu Chen, Quanquan Gu, Ran Xu, Rex Ying, Shuiwang Ji, Suman Jana, Tianlong Chen, Tianming Liu, Tianyi Zhou, Willian Wang, Xiang Li, Xiangliang Zhang, Xiao Wang, Xing Xie, Xun Chen, Xuyu Wang, Yan Liu, Yanfang Ye, Yinzhi Cao, Yue Zhao(参考訳) ChatGPTによって実証された大規模言語モデル (LLM) は、その優れた自然言語処理能力でかなりの注目を集めている。 しかしながら、これらのLSMは、特に信頼性の領域において、多くの課題を提示している。 したがって、LSMの信頼性を確保することが重要なトピックである。 本稿では, LLMにおける信頼度に関する総合的研究であるTrustLLMを紹介し, 信頼性の異なる側面に対する原則, 確立されたベンチマーク, 信頼性の評価と分析, オープンチャレンジと今後の方向性について議論する。 具体的には,まず,8つの異なる次元にまたがる信頼性の高いLCMの原理を提案する。 これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシー、機械倫理を含む6つの次元にわたるベンチマークを確立する。 次に、30以上のデータセットからなるTrustLLMの16のメインストリームLCMを評価する。 まず,一般に信頼性と実用性(機能的有効性)は肯定的に関連していることを示す。 第2に,プロプライエタリなLDMは信頼性という点で一般的にオープンソースよりも優れており,広くアクセス可能なオープンソースLMの潜在的なリスクに対する懸念が高まっている。 しかし、いくつかのオープンソース LLM はプロプライエタリに非常に近いものである。 第3に、一部のllmは信頼性を示すために過度に調整される可能性があり、不正なプロンプトを有害として扱い、その結果、応答しないことによって、有用性を損なう可能性がある点に注意が必要である。 最後に、モデル自体だけでなく、信頼性を支える技術においても透明性を確保することの重要性を強調します。 採用されている特定の信頼に値する技術を知ることは、その効果を分析する上で重要である。

Large language models (LLMs), exemplified by ChatGPT, have gained considerable attention for their excellent natural language processing capabilities. Nonetheless, these LLMs present many challenges, particularly in the realm of trustworthiness. Therefore, ensuring the trustworthiness of LLMs emerges as an important topic. This paper introduces TrustLLM, a comprehensive study of trustworthiness in LLMs, including principles for different dimensions of trustworthiness, established benchmark, evaluation, and analysis of trustworthiness for mainstream LLMs, and discussion of open challenges and future directions. Specifically, we first propose a set of principles for trustworthy LLMs that span eight different dimensions. Based on these principles, we further establish a benchmark across six dimensions including truthfulness, safety, fairness, robustness, privacy, and machine ethics. We then present a study evaluating 16 mainstream LLMs in TrustLLM, consisting of over 30 datasets. Our findings firstly show that in general trustworthiness and utility (i.e., functional effectiveness) are positively related. Secondly, our observations reveal that proprietary LLMs generally outperform most open-source counterparts in terms of trustworthiness, raising concerns about the potential risks of widely accessible open-source LLMs. However, a few open-source LLMs come very close to proprietary ones. Thirdly, it is important to note that some LLMs may be overly calibrated towards exhibiting trustworthiness, to the extent that they compromise their utility by mistakenly treating benign prompts as harmful and consequently not responding. Finally, we emphasize the importance of ensuring transparency not only in the models themselves but also in the technologies that underpin trustworthiness. Knowing the specific trustworthy technologies that have been employed is crucial for analyzing their effectiveness.
翻訳日:2024-01-13 02:11:49 公開日:2024-01-10
# 有用な失敗: 自動音声認識エラーは下流認知症分類を改善するか?

Useful Blunders: Can Automated Speech Recognition Errors Improve Downstream Dementia Classification? ( http://arxiv.org/abs/2401.05551v1 )

ライセンス: Link先を確認
Changye Li, Weizhe Xu, Trevor Cohen, Serguei Pakhomov(参考訳) textbf{Objectives}: 自動音声認識(ASR)システムからの誤りが認知症分類の精度に与える影響を,特に「Cookie Theft」の画像記述タスクで検討することを目的とした。 認知的健康な人とアルツハイマー病(AD)患者の言語サンプルを区別するために,不完全なASR転写産物が有用かどうかを評価することを目的とした。 textbf{Methods}: 様々なASRモデルを用いて実験を行い, 後編集技術を用いて書き起こしを精査した。 これらの不完全なASR転写文字と手書き文字の両方を下流認知症分類の入力として用いた。 認知症分類におけるモデル性能の比較とASRによる転写の有効性を評価するため,包括的誤り解析を行った。 textbf{Results}: 「Cookie Theft'」タスクでADと非ADの個人を区別するために、不完全なASR生成の写本は驚くほど優れた手書きの書き起こしを行う。 これらのASRベースのモデルは従来の最先端のアプローチを超越し、ASRのエラーには認知症に関連する貴重な手がかりが含まれている可能性があることを示した。 ASRと分類モデルの相乗効果により,認知症分類の総合的精度が向上した。 textbf{Conclusion}: 認知症に関連する言語異常を効果的に捉え、分類タスクの精度を向上させる。 このASRと分類モデルの相乗効果は、認知障害と関連する臨床応用を評価する貴重なツールとしてのASRの可能性を示している。

\textbf{Objectives}: We aimed to investigate how errors from automatic speech recognition (ASR) systems affect dementia classification accuracy, specifically in the ``Cookie Theft'' picture description task. We aimed to assess whether imperfect ASR-generated transcripts could provide valuable information for distinguishing between language samples from cognitively healthy individuals and those with Alzheimer's disease (AD). \textbf{Methods}: We conducted experiments using various ASR models, refining their transcripts with post-editing techniques. Both these imperfect ASR transcripts and manually transcribed ones were used as inputs for the downstream dementia classification. We conducted comprehensive error analysis to compare model performance and assess ASR-generated transcript effectiveness in dementia classification. \textbf{Results}: Imperfect ASR-generated transcripts surprisingly outperformed manual transcription for distinguishing between individuals with AD and those without in the ``Cookie Theft'' task. These ASR-based models surpassed the previous state-of-the-art approach, indicating that ASR errors may contain valuable cues related to dementia. The synergy between ASR and classification models improved overall accuracy in dementia classification. \textbf{Conclusion}: Imperfect ASR transcripts effectively capture linguistic anomalies linked to dementia, improving accuracy in classification tasks. This synergy between ASR and classification models underscores ASR's potential as a valuable tool in assessing cognitive impairment and related clinical applications.
翻訳日:2024-01-13 02:11:21 公開日:2024-01-10
# CodePrompt: プロンプト学習による知識機能によるソースコード関連分類の改善

CodePrompt: Improving Source Code-Related Classification with Knowledge Features through Prompt Learning ( http://arxiv.org/abs/2401.05544v1 )

ライセンス: Link先を確認
Yong Ma, Senlin Luo, Yu-Ming Shang, Yifei Zhang, Zhengjun Li(参考訳) 研究者は、ソースコード関連のタスクを改善するために、CodeBERTのような事前訓練済みの言語モデルを活用する可能性を探っている。 これまでの研究は主に、CodeBERTのテキスト埋め込み機能と、[CLS]'文の埋め込み情報を、下流のソースコード関連タスクを微調整するための意味表現として利用してきた。 しかし、これらの手法は効果的な特徴を抽出するために追加のニューラルネットワーク層を必要とするため、計算コストが高い。 さらに、既存のアプローチでは、ソースコードと関連するテキストの両方に含まれる豊富な知識を活用できないため、精度が低下する可能性がある。 本稿では,事前学習モデルからリコールされた豊富な知識を利用して,ソースコード関連分類タスクを改善するための学習と注意機構を提案する。 提案手法は,入力に関連する豊富な知識を代表的特徴として取り出すために,まず言語モデルを動機付け,追加のニューラルネットワーク層の必要性を回避し,計算コストを低減させる。 その後、各タスクに関連する複数の知識層を最終特徴として集約し、その精度を高めるために注意機構を用いる。 我々は4つの下流のソースコード関連タスクを広範囲に実験し,そのアプローチを評価し,codepromptが精度測定で新たな最先端性能を達成し,計算コスト削減能力も発揮できることを実証した。

Researchers have explored the potential of utilizing pre-trained language models, such as CodeBERT, to improve source code-related tasks. Previous studies have mainly relied on CodeBERT's text embedding capability and the `[CLS]' sentence embedding information as semantic representations for fine-tuning downstream source code-related tasks. However, these methods require additional neural network layers to extract effective features, resulting in higher computational costs. Furthermore, existing approaches have not leveraged the rich knowledge contained in both source code and related text, which can lead to lower accuracy. This paper presents a novel approach, CodePrompt, which utilizes rich knowledge recalled from a pre-trained model by prompt learning and an attention mechanism to improve source code-related classification tasks. Our approach initially motivates the language model with prompt information to retrieve abundant knowledge associated with the input as representative features, thus avoiding the need for additional neural network layers and reducing computational costs. Subsequently, we employ an attention mechanism to aggregate multiple layers of related knowledge for each task as final features to boost their accuracy. We conducted extensive experiments on four downstream source code-related tasks to evaluate our approach and our results demonstrate that CodePrompt achieves new state-of-the-art performance on the accuracy metric while also exhibiting computation cost-saving capabilities.
翻訳日:2024-01-13 02:10:57 公開日:2024-01-10
# 遠隔健康モニタリングアプリケーションにおける多目的特徴選択

Multi-objective Feature Selection in Remote Health Monitoring Applications ( http://arxiv.org/abs/2401.05538v1 )

ライセンス: Link先を確認
Le Ngu Nguyen and Constantino \'Alvarez Casado and Manuel Lage Ca\~nellas and Anirban Mukherjee and Nhi Nguyen and Dinesh Babu Jayagopi and Miguel Bordallo L\'opez(参考訳) 無線周波数(rf)信号は、バイタルサインの測定、アクティビティ認識、ユーザ識別などの非接触的な人間の監視タスクの開発を促進する。 いくつかの特定のシナリオでは、RF信号分析フレームワークは、あるタスクのパフォーマンスを他のタスクよりも優先することができる。 この要求に応えるために,生物原理に着想を得た多目的最適化手法を用いて,呼吸パターン認識の精度を高めつつ,個々のユーザの識別を阻害する識別的特徴を選択する。 このアプローチは、4つの異なる呼吸パターンを持つ50人の被験者からなる新しいバイタルサインデータセットを用いて検証される。 その結果,呼吸認識とユーザ識別の精度は著しく異なっていた。 補完的視点として, ユーザの識別精度を最大化し, 呼吸行動認識能力を最小限に抑えるために, 対向的な結果を提示する。

Radio frequency (RF) signals have facilitated the development of non-contact human monitoring tasks, such as vital signs measurement, activity recognition, and user identification. In some specific scenarios, an RF signal analysis framework may prioritize the performance of one task over that of others. In response to this requirement, we employ a multi-objective optimization approach inspired by biological principles to select discriminative features that enhance the accuracy of breathing patterns recognition while simultaneously impeding the identification of individual users. This approach is validated using a novel vital signs dataset consisting of 50 subjects engaged in four distinct breathing patterns. Our findings indicate a remarkable result: a substantial divergence in accuracy between breathing recognition and user identification. As a complementary viewpoint, we present a contrariwise result to maximize user identification accuracy and minimize the system's capacity for breathing activity recognition.
翻訳日:2024-01-13 02:10:30 公開日:2024-01-10
# 森林伐採によるランダム林の精度と解釈性の向上

Improving the Accuracy and Interpretability of Random Forests via Forest Pruning ( http://arxiv.org/abs/2401.05535v1 )

ライセンス: Link先を確認
Albert Dorador(参考訳) 開始から数十年後、ランダム森林は様々な学習問題において最先端の精度を提供し続けており、この点で決定木やニューラルネットワークのような代替機械学習アルゴリズムよりも優れている。 しかし、アンサンブル手法として、無作為林が決定木を著しく過小評価する一面が解釈可能である。 本研究は,無作為林の精度と決定木の解釈可能性という両世界を最大限に活用することを目的としたポストホックアプローチを提案する。 そこで本研究では,指定したランダム林内で最適な亜林を見つけるための2つの森林伐採手法を提案し,適用すると,選択した木を1つにまとめる。 第1の方法は制約付き排他探索に依存し,第2の方法はLASSO手法の適応に基づく。 合成と実世界のデータセットに関する広範囲な実験は、ほとんどのシナリオにおいて、提案された2つの方法のうち少なくとも1つが元のランダムフォレストよりも正確であることを示している。 現在の森林伐採法(シーケンシャル・フォワード・セレクションとシーケンシャル・バック・セレクションのバリエーション)と比較すると, 精度, 木数, あるいはその両方において, どちらの方法よりも優れている傾向にある。

Decades after their inception, random forests continue to provide state-of-the-art accuracy in a variety of learning problems, outperforming in this respect alternative machine learning algorithms such as decision trees or even neural networks. However, being an ensemble method, the one aspect where random forests tend to severely underperform decision trees is interpretability. In the present work, we propose a post-hoc approach that aims to have the best of both worlds: the accuracy of random forests and the interpretability of decision trees. To this end, we present two forest-pruning methods to find an optimal sub-forest within a given random forest, and then, when applicable, combine the selected trees into one. Our first method relies on constrained exhaustive search, while our second method is based on an adaptation of the LASSO methodology. Extensive experiments over synthetic and real world datasets show that, in the majority of scenarios, at least one of the two methods proposed is more accurate than the original random forest, while just using a small fraction of the trees, aiding result interpretability. Compared to current state-of-the-art forestpruning methods, namely sequential forward selection and (a variation of) sequential backward selection, our methods tend to outperform both of them, whether in terms of accuracy, number of trees employed, or both.
翻訳日:2024-01-13 02:10:17 公開日:2024-01-10
# 一次システムにおける騒音克服における弱値優位

Weak value advantage in overcoming noise on the primary system ( http://arxiv.org/abs/2401.05532v1 )

ライセンス: Link先を確認
Zohar Schwartzman-Nowik, Dorit Aharonov, Eliahu Cohen(参考訳) 弱い値の概念は多くの興味深い特徴を示し、予期せぬ、潜在的に有利な現象をもたらす。 本稿では,様々なノイズチャネル内の弱値を測定するための弱測定プロトコルの性能を,計算の観点から解析する。 プローブシステムではなく,主成分に作用する雑音の探索の少ないケースに対処する数学的枠組みが開発された。 ノイズに対する感度が弱測定プロトコルで2次的に減少するのに対して、標準測定プロトコルでは達成できない特定の事例をピンポイントで特定する。 具体的には、ポーリノイズチャネル、単位ノイズチャネル、振幅・位相減衰チャネルのいずれかの影響下でオペレータを学習するという課題に直面すると、弱い値の弱い測定は大きな利益をもたらす可能性がある。 特に、最初の2つのケース、特に単体ノイズチャネルの文脈では、システムを最大混合状態(ただし、純粋な状態でのポスト選択)で初期化することは特に有利であることが証明されている。

The concept of weak value exhibits numerous intriguing characteristics, leading to unexpected and potentially advantageous phenomena. In this paper, we analyze, from a computational perspective, the performance of the weak measurement protocol for measuring the weak value within various noise channels. A mathematical framework is developed for addressing the less explored case of noise acting on the primary rather than probe system. We pinpoint specific instances where the sensitivity to noise is reduced quadratically with the weak measurement protocol while this cannot be achieved with the standard measurement protocol. Specifically, when confronted with the challenge of learning an operator under the influence of either a Pauli noise channel, a unital noise channel, or an amplitude and phase damping channel, the weak measurement of the weak value can yield significant benefits. Notably, in the first two cases, and especially in the context of the unital noise channel, initializing the system in the maximally mixed state (but postselecting it in a pure state) has proven to be particularly advantageous.
翻訳日:2024-01-13 02:09:52 公開日:2024-01-10
# VI-PANN:音声パターン認識における一般化のためのハーネス変換学習と不確かさを考慮した変分推論

VI-PANN: Harnessing Transfer Learning and Uncertainty-Aware Variational Inference for Improved Generalization in Audio Pattern Recognition ( http://arxiv.org/abs/2401.05531v1 )

ライセンス: Link先を確認
John Fischer, Marko Orescanin, Eric Eckstrand(参考訳) トランスファーラーニング(TL)は、ドメインやタスク固有のデータが少ないダウンストリームタスクで使用する多様な大規模データセットの基礎モデルをトレーニングすることによって得られる知識を活用する、ディープラーニング(DL)モデルをトレーニングするアプローチとして、ますます人気が高まっている。 文献はTL技術や応用に富んでいるが、多くの研究は決定論的DLモデルを利用しており、これはしばしば非校正され、予測において疫学(モデル)の不確実性の尺度を伝える能力に欠ける。 決定論的モデルとは異なり、ベイズDL(BDL)モデルはよく校正され、予測のための疫学的不確実性へのアクセスを提供し、競争的な予測性能を達成することができる。 本研究では,変動予測事前学習型音声ニューラルネットワーク(VI-PANN)を提案する。 VI-PANNは、大規模なオーディオイベント検出データセットであるAudioSetで事前トレーニングされている人気のあるResNet-54アーキテクチャの変分推論である。 ESC-50,UrbanSound8K,DCASE2013データセットを用いて,VI-PANNから他の下流音響分類タスクに知識を伝達する際の不確実性の評価を行った。 我々は,上流タスクからの知識とともに校正された不確実性情報を伝達し,下流タスクを実行するモデルの能力を高めることを初めて実証する。

Transfer learning (TL) is an increasingly popular approach to training deep learning (DL) models that leverages the knowledge gained by training a foundation model on diverse, large-scale datasets for use on downstream tasks where less domain- or task-specific data is available. The literature is rich with TL techniques and applications; however, the bulk of the research makes use of deterministic DL models which are often uncalibrated and lack the ability to communicate a measure of epistemic (model) uncertainty in prediction. Unlike their deterministic counterparts, Bayesian DL (BDL) models are often well-calibrated, provide access to epistemic uncertainty for a prediction, and are capable of achieving competitive predictive performance. In this study, we propose variational inference pre-trained audio neural networks (VI-PANNs). VI-PANNs are a variational inference variant of the popular ResNet-54 architecture which are pre-trained on AudioSet, a large-scale audio event detection dataset. We evaluate the quality of the resulting uncertainty when transferring knowledge from VI-PANNs to other downstream acoustic classification tasks using the ESC-50, UrbanSound8K, and DCASE2013 datasets. We demonstrate, for the first time, that it is possible to transfer calibrated uncertainty information along with knowledge from upstream tasks to enhance a model's capability to perform downstream tasks.
翻訳日:2024-01-13 02:09:36 公開日:2024-01-10
# オブジェクト検出とマイノリティクラスのためのコンセンサス焦点

Consensus Focus for Object Detection and minority classes ( http://arxiv.org/abs/2401.05530v1 )

ライセンス: Link先を確認
Erik Isai Valle Salgado, Chen Li, Yaqi Han, Linchao Shi, Xinghui Li(参考訳) Ensembleメソッドは、単一または複数のソースドメインとタスクでトレーニングされた所定の数の分類器または検出器の可用性を利用して、ドメイン適応やマルチソース転送学習といった機械学習問題に対処する。 既存の研究では、ソースとターゲットデータセット間のドメイン距離を測定し、クラス毎に異なるサンプルで同じデータ上で複数のネットワークをトレーニングしたり、さまざまなハイパーパラメータと設定の下でトレーニングされたモデルからの予測を組み合わせる。 彼らのソリューションは小または末尾のカテゴリのパフォーマンスを高めたが、残りは傷ついた。 そこで本研究では,半教師付きおよび長尾オブジェクト検出のためのコンセンサス修正を提案する。 本稿では,各モデルの貢献度をコンセンサスに示すソース信頼度に基づく投票システムを導入し,ターゲットラベル空間における各クラスの関連性をユーザが選択することで,マイノリティバウンディングボックスの抑制を緩和し,有毒ネットワークを捨てることなく複数のモデルの結果を組み合わせる。 実験では,NMS,ソフトNMS,WBFよりも信頼性が高く,バウンディングボックスの精度が高かった。

Ensemble methods exploit the availability of a given number of classifiers or detectors trained in single or multiple source domains and tasks to address machine learning problems such as domain adaptation or multi-source transfer learning. Existing research measures the domain distance between the sources and the target dataset, trains multiple networks on the same data with different samples per class, or combines predictions from models trained under varied hyperparameters and settings. Their solutions enhanced the performance on small or tail categories but hurt the rest. To this end, we propose a modified consensus focus for semi-supervised and long-tailed object detection. We introduce a voting system based on source confidence that spots the contribution of each model in a consensus, lets the user choose the relevance of each class in the target label space so that it relaxes minority bounding boxes suppression, and combines multiple models' results without discarding the poisonous networks. Our tests on synthetic driving datasets retrieved higher confidence and more accurate bounding boxes than the NMS, soft-NMS, and WBF.
翻訳日:2024-01-13 02:09:11 公開日:2024-01-10
# microfuzz: マイクロサービス用の効率的なファジングフレームワーク

MicroFuzz: An Efficient Fuzzing Framework for Microservices ( http://arxiv.org/abs/2401.05529v1 )

ライセンス: Link先を確認
Peng Di and Bingchang Liu and Yiyi Gao(参考訳) 本稿では,マイクロサービスに特化した新しいファジングフレームワークであるmicrofuzzを提案する。 Mocking-Assisted Seed Execution、Distributed Tracing、Seed Refresh、Pipeline Parallelismアプローチは、マイクロサービスの環境複雑さとダイナミクスに対処し、ファジングの効率を改善するために採用されている。 MicroFuzzは、著名なFinTech企業であるAnt Groupで実装され、デプロイされている。 そのパフォーマンスは、正規化ファジィング、イテレーションテスト、テナント検証の3つの異なる産業シナリオで評価され、5ヶ月の運用期間を経て、MicroFuzzは、746万行以上のコード(LOC)を持つ261のアプリからなる、実質的なコードベースを厳格に分析した。 フレームワークの有効性は,5,718件の潜在的な品質やセキュリティリスクの検出において明らかであり,そのうち1,764件がソフトウェア専門家による実際のセキュリティ脅威として確認され,修正されている。 さらに、MicroFuzzはプログラムカバレッジを12.24%増加させ、プログラムの振る舞いを38.42%減少させた。

This paper presents a novel fuzzing framework, called MicroFuzz, specifically designed for Microservices. Mocking-Assisted Seed Execution, Distributed Tracing, Seed Refresh and Pipeline Parallelism approaches are adopted to address the environmental complexities and dynamics of Microservices and improve the efficiency of fuzzing. MicroFuzz has been successfully implemented and deployed in Ant Group, a prominent FinTech company. Its performance has been evaluated in three distinct industrial scenarios: normalized fuzzing, iteration testing, and taint verification.Throughout five months of operation, MicroFuzz has diligently analyzed a substantial codebase, consisting of 261 Apps with over 74.6 million lines of code (LOC). The framework's effectiveness is evident in its detection of 5,718 potential quality or security risks, with 1,764 of them confirmed and fixed as actual security threats by software specialists. Moreover, MicroFuzz significantly increased program coverage by 12.24% and detected program behavior by 38.42% in the iteration testing.
翻訳日:2024-01-13 02:08:54 公開日:2024-01-10
# 制御障壁関数と深層強化学習に基づく安全負荷分散に向けて

Towards Safe Load Balancing based on Control Barrier Functions and Deep Reinforcement Learning ( http://arxiv.org/abs/2401.05525v1 )

ライセンス: Link先を確認
Lam Dinh, Pham Tran Anh Quang, J\'er\'emie Leguay(参考訳) 深層強化学習(DRL)アルゴリズムは近年,ネットワーク性能向上に大きく貢献している。 それでも、安全な探索と安全な意思決定がなければ、実用的利用は限られている。 商用ソリューションの文脈では、信頼性と安全な運用システムが最も重要である。 この問題を考慮し,Deep Reinforcement Learning (DRL) と制御バリア関数 (CBF) を併用した,SD-WAN(Software Defined-Wide Area Network) のための安全な学習ベースのロードバランシングアルゴリズムを提案する。 トレーニングとテストの両方において、安全でないアクションを実行可能なアクションに安全に投影し、安全ポリシーへの学習をガイドします。 約110倍のトレーニングを高速化し,数秒でオンプレミスメソッドのモデル更新を実現するために,GPU上でのソリューションの実装に成功した。 提案手法は,リンク容量制約に関する安全性要件を尊重しつつ,エンドツーエンドの遅延の観点から,ほぼ最適品質(QoS)性能を提供することを示す。 また,PPOに基づくオンライン学習は,安全負荷分散のためのCBFと組み合わせた場合,DDPG(Deep Deterministic Policy Gradient)を用いた非政治学習よりも優れていることを示した。

Deep Reinforcement Learning (DRL) algorithms have recently made significant strides in improving network performance. Nonetheless, their practical use is still limited in the absence of safe exploration and safe decision-making. In the context of commercial solutions, reliable and safe-to-operate systems are of paramount importance. Taking this problem into account, we propose a safe learning-based load balancing algorithm for Software Defined-Wide Area Network (SD-WAN), which is empowered by Deep Reinforcement Learning (DRL) combined with a Control Barrier Function (CBF). It safely projects unsafe actions into feasible ones during both training and testing, and it guides learning towards safe policies. We successfully implemented the solution on GPU to accelerate training by approximately 110x times and achieve model updates for on-policy methods within a few seconds, making the solution practical. We show that our approach delivers near-optimal Quality-of-Service (QoS performance in terms of end-to-end delay while respecting safety requirements related to link capacity constraints. We also demonstrated that on-policy learning based on Proximal Policy Optimization (PPO) performs better than off-policy learning with Deep Deterministic Policy Gradient (DDPG) when both are combined with a CBF for safe load balancing.
翻訳日:2024-01-13 02:08:34 公開日:2024-01-10
# マルチuuvシステムにおける電流効果による最適目標配置と動作計画

Current Effect-eliminated Optimal Target Assignment and Motion Planning for a Multi-UUV System ( http://arxiv.org/abs/2401.05521v1 )

ライセンス: Link先を確認
Danjie Zhu, Simon X. Yang(参考訳) マルチ無人水中車両(UUV)の目標配置と動作計画の最適化において,海流がもたらす複雑さと課題に対処する革新的なアプローチ(CBNNTAP)を提案する。 提案アルゴリズムの中核は、いくつかの重要なコンポーネントの統合である。 まず、バイオインスパイアされたニューラルネットワーク(BINN)アプローチを取り入れ、個々のUUVに対して最も効率的な経路を予測し、同時に車両間の衝突回避を確保する。 次に、BINNアルゴリズムによって決定される経路距離を考慮し、効率的な目標割り当て成分を統合する。 さらに、cbnntapアルゴリズムにおける重要な革新は、これらの電流による偏差に対処するために調整成分をシームレスに統合することで、uuvの動作計画と目標割り当ての両方の精度を高める、海洋電流の破壊的影響に対処する能力である。 cbnntapアルゴリズムの有効性を包括的シミュレーションにより実証し, 2次元および3次元シナリオにおける静的および動的海流の効果を無効化するために, 開発したアルゴリズムが優れていることを示す。

The paper presents an innovative approach (CBNNTAP) that addresses the complexities and challenges introduced by ocean currents when optimizing target assignment and motion planning for a multi-unmanned underwater vehicle (UUV) system. The core of the proposed algorithm involves the integration of several key components. Firstly, it incorporates a bio-inspired neural network-based (BINN) approach which predicts the most efficient paths for individual UUVs while simultaneously ensuring collision avoidance among the vehicles. Secondly, an efficient target assignment component is integrated by considering the path distances determined by the BINN algorithm. In addition, a critical innovation within the CBNNTAP algorithm is its capacity to address the disruptive effects of ocean currents, where an adjustment component is seamlessly integrated to counteract the deviations caused by these currents, which enhances the accuracy of both motion planning and target assignment for the UUVs. The effectiveness of the CBNNTAP algorithm is demonstrated through comprehensive simulation results and the outcomes underscore the superiority of the developed algorithm in nullifying the effects of static and dynamic ocean currents in 2D and 3D scenarios.
翻訳日:2024-01-13 02:08:11 公開日:2024-01-10
# pampasからpixelsへ:ga\'ucho heritageの微調整拡散モデル

From Pampas to Pixels: Fine-Tuning Diffusion Models for Ga\'ucho Heritage ( http://arxiv.org/abs/2401.05520v1 )

ライセンス: Link先を確認
Marcellus Amadeus, William Alberto Cruz Casta\~neda, Andr\'e Felipe Zanella, Felipe Rodrigues Perche Mahlow(参考訳) ジェネレーティブAIは社会に広まり、様々な領域で大きな進歩をみせている。 特にテキスト・トゥ・イメージ・モデル(TTI)の領域では、テキスト・プロンプトに基づいて視覚的コンテンツを生成できる潜在拡散モデル(LDM)が顕著である。 本稿では, 地域文化概念, 歴史人物, 絶滅危惧種を表わす LDM の可能性について論じる。 本研究では,ブラジルのリオグランデ・ド・スル(rs)の文化遺産を例証として利用する。 我々の目標は、生産モデルが地域の文化的・歴史的アイデンティティを捉え保存するのにどのように役立つか、より広い理解に貢献することである。 本論文は、対象選択、データセット作成、微調整プロセスを含む方法論を概説する。 結果は,それぞれの概念の課題と実現可能性とともに,生成されたイメージを示す。 結論として,本研究は,これらのモデルが多様な地域やコミュニティの独特な側面を表現し,保存する力を示している。

Generative AI has become pervasive in society, witnessing significant advancements in various domains. Particularly in the realm of Text-to-Image (TTI) models, Latent Diffusion Models (LDMs), showcase remarkable capabilities in generating visual content based on textual prompts. This paper addresses the potential of LDMs in representing local cultural concepts, historical figures, and endangered species. In this study, we use the cultural heritage of Rio Grande do Sul (RS), Brazil, as an illustrative case. Our objective is to contribute to the broader understanding of how generative models can help to capture and preserve the cultural and historical identity of regions. The paper outlines the methodology, including subject selection, dataset creation, and the fine-tuning process. The results showcase the images generated, alongside the challenges and feasibility of each concept. In conclusion, this work shows the power of these models to represent and preserve unique aspects of diverse regions and communities.
翻訳日:2024-01-13 02:07:52 公開日:2024-01-10
# 高速非凸分散最適化のための相関量子化

Correlated Quantization for Faster Nonconvex Distributed Optimization ( http://arxiv.org/abs/2401.05518v1 )

ライセンス: Link先を確認
Andrei Panferov, Yury Demidovich, Ahmad Rammal, Peter Richt\'arik(参考訳) 量子化 (alistarh et al., 2017) は、分散モデルトレーニングにおける各通信ラウンドの送信ビット数を削減する重要な(統計的)圧縮技術である。 suresh et al. (2022) は相関量子化器を導入し、分散sgd通信の複雑さを分析することで、独立なそれに対する利点を示す。 我々は,提案した相関量化器を用いて,前部分散非凸最適化アルゴリズムであるMARINA(Gorbunov et al., 2022)を分析し,通信複雑性に関して,元のMARINAおよび分散SGDよりも優れていることを示す。 重み付きヘッセン分散(チューリン等、2022年)を用いた仮定を使わずに、MariNAの原解析を著しく洗練し、さらに、MARINAの理論的枠組みを拡張して、潜在的に相関し、偏りのある圧縮機のかなり広い範囲に適応し、従来の独立な非偏り圧縮機の構成を超えた適用性を拡張した。 広範囲な実験結果が理論的な結果を裏付ける。

Quantization (Alistarh et al., 2017) is an important (stochastic) compression technique that reduces the volume of transmitted bits during each communication round in distributed model training. Suresh et al. (2022) introduce correlated quantizers and show their advantages over independent counterparts by analyzing distributed SGD communication complexity. We analyze the forefront distributed non-convex optimization algorithm MARINA (Gorbunov et al., 2022) utilizing the proposed correlated quantizers and show that it outperforms the original MARINA and distributed SGD of Suresh et al. (2022) with regard to the communication complexity. We significantly refine the original analysis of MARINA without any additional assumptions using the weighted Hessian variance (Tyurin et al., 2022), and then we expand the theoretical framework of MARINA to accommodate a substantially broader range of potentially correlated and biased compressors, thus dilating the applicability of the method beyond the conventional independent unbiased compressor setup. Extensive experimental results corroborate our theoretical findings.
翻訳日:2024-01-13 02:07:35 公開日:2024-01-10
# fprf:大規模3次元光放射場のフィードフォワード光リアリスティックスタイル転送

FPRF: Feed-Forward Photorealistic Style Transfer of Large-Scale 3D Neural Radiance Fields ( http://arxiv.org/abs/2401.05516v1 )

ライセンス: Link先を確認
GeonU Kim, Kim Youwang, Tae-Hyun Oh(参考訳) 大規模3次元神経放射場のためのフィードフォワード光写実的スタイル伝達法であるFPRFを提案する。 FPRFは、大規模な3Dシーンを任意の複数のスタイルの参照画像でスタイリングする。 従来の芸術では、スタイルやシーンごとに退屈な最適化が必要で、小規模の3dシーンに限られていた。 FPRFは、AdaINのフィードフォワードスタイリゼーション機構を継承し、任意のスタイルの参照画像をサポートするスタイル分解型3Dニューラルラディアンスフィールドを導入することで、大規模3Dシーンを効率的にスタイリングする。 さらに、FPRFはセマンティック対応マッチングとローカルAdaINによるマルチ参照スタイリングをサポートし、3Dシーンスタイルの多様なユーザ制御を追加している。 FPRFはまた、セマンティックマッチングとスタイル転送プロセスを3D空間のクエリー機能に直接適用することで、マルチビューの一貫性を保っている。 実験では,FPRFが多彩な参照画像を持つ大規模シーンに対して,好適な画質の3Dシーンスタイリングを実現することを示した。 プロジェクトページ: https://kim-geonu.github.io/FPRF/

We present FPRF, a feed-forward photorealistic style transfer method for large-scale 3D neural radiance fields. FPRF stylizes large-scale 3D scenes with arbitrary, multiple style reference images without additional optimization while preserving multi-view appearance consistency. Prior arts required tedious per-style/-scene optimization and were limited to small-scale 3D scenes. FPRF efficiently stylizes large-scale 3D scenes by introducing a style-decomposed 3D neural radiance field, which inherits AdaIN's feed-forward stylization machinery, supporting arbitrary style reference images. Furthermore, FPRF supports multi-reference stylization with the semantic correspondence matching and local AdaIN, which adds diverse user control for 3D scene styles. FPRF also preserves multi-view consistency by applying semantic matching and style transfer processes directly onto queried features in 3D space. In experiments, we demonstrate that FPRF achieves favorable photorealistic quality 3D scene stylization for large-scale scenes with diverse reference images. Project page: https://kim-geonu.github.io/FPRF/
翻訳日:2024-01-13 02:07:12 公開日:2024-01-10
# ノルドストロム重力に対する微分同相不変古典量子経路積分

Diffeomorphism invariant classical-quantum path integrals for Nordstrom gravity ( http://arxiv.org/abs/2401.05514v1 )

ライセンス: Link先を確認
Jonathan Oppenheim, Andrea Russo, Zachary Weller-Davies(参考訳) 古典自由度と量子自由度が一貫して結合すると、前者は拡散し、後者は非一貫性になる。 ここでは、時空計量が古典的に扱われる量子体場とノルドストローム重力の理論を構築する。 力学は古典量子経路積分によって構成され、完全に正で、トレース保存(CPTP)であり、古典量子分割を尊重する。 モデルの弱体極限は完全共変経路積分のニュートン極限と一致するが、理論が微分同相不変、CPTPの両方であり、適切な古典的極限を持つことを示すのは容易である。

When classical degrees of freedom and quantum degrees of freedom are consistently coupled, the former diffuse, while the latter undergo decoherence. Here, we construct a theory of quantum matter fields and Nordstrom gravity in which the space-time metric is treated classically. The dynamics is constructed via the classical-quantum path integral and is completely positive, trace preserving (CPTP), and respects the classical-quantum split. The weak field limit of the model matches the Newtonian limit of the full covariant path integral but it is easier to show that the theory is both diffeomorphism invariant, CPTP, and has the appropriate classical limit.
翻訳日:2024-01-13 02:06:51 公開日:2024-01-10
# 逆射影:リアルタイム局所空間テクスチャマッピング

Reverse Projection: Real-Time Local Space Texture Mapping ( http://arxiv.org/abs/2401.05593v1 )

ライセンス: Link先を確認
Adrian Xuan Wei Lim, Lynnette Hui Xian Ng, Conor Griffin, Nicholas Kyger, Faraz Baghernezhad(参考訳) 本稿では,3次元物体のテクスチャに直接デカールを描画する新しいテクスチャマッピング手法であるReverse Projectionを提案する。 ゲームで使用されるように設計され、この技術はリアルタイムで動作する。 ローカルスペースのテクスチャや外向きに計算された投影技術を使用することで、ローエンドのandroidデバイスからハイエンドのゲーム用デスクトップへアクセスするユーザは、自分の資産のパーソナライズを享受することができる。 提案するパイプラインは,モデルペイントの速度と汎用性を改善するための一歩だと考えています。

We present Reverse Projection, a novel projective texture mapping technique for painting a decal directly to the texture of a 3D object. Designed to be used in games, this technique works in real-time. By using projection techniques that are computed in local space textures and outward-looking, users using low-end android devices to high-end gaming desktops are able to enjoy the personalization of their assets. We believe our proposed pipeline is a step in improving the speed and versatility of model painting.
翻訳日:2024-01-13 02:01:56 公開日:2024-01-10
# FourCastNeXt: 限定計算によるFourCastNetトレーニングの改善

FourCastNeXt: Improving FourCastNet Training with Limited Compute ( http://arxiv.org/abs/2401.05584v1 )

ライセンス: Link先を確認
Edison Guo, Maruf Ahmed, Yue Sun, Rahul Mahendru, Rui Yang, Harrison Cook, Tennessee Leeuwenburg, Ben Evans(参考訳) 近年、FourCastNet Neural Earth System Model (NESM)は、ERA5リアナリシスデータセットに基づいて訓練された様々な大気変数の予測に驚くべき結果を示している。 FourCastNetは、バニラ変圧器の二次的複雑さと比較して、シーケンス長の準線形時間とメモリの複雑さを享受しているが、ERA5上のFourCastNetをスクラッチからトレーニングするには依然として大量の計算リソースが必要である。 本研究では,FourCastNetをベースラインに要求される計算の1%しか使用せず,モデル性能や性能をベースラインより向上させる方法を示す。

Recently, the FourCastNet Neural Earth System Model (NESM) has shown impressive results on predicting various atmospheric variables, trained on the ERA5 reanalysis dataset. While FourCastNet enjoys quasi-linear time and memory complexity in sequence length compared to quadratic complexity in vanilla transformers, training FourCastNet on ERA5 from scratch still requires large amount of compute resources, which is expensive or even inaccessible to most researchers. In this work, we will show improved methods that can train FourCastNet using only 1% of the compute required by the baseline, while maintaining model performance or par or even better than the baseline.
翻訳日:2024-01-13 02:01:46 公開日:2024-01-10
# 単眼映像からのダイナミックビュー合成のための拡散優先

Diffusion Priors for Dynamic View Synthesis from Monocular Videos ( http://arxiv.org/abs/2401.05583v1 )

ライセンス: Link先を確認
Chaoyang Wang, Peiye Zhuang, Aliaksandr Siarohin, Junli Cao, Guocheng Qian, Hsin-Ying Lee, Sergey Tulyakov(参考訳) ダイナミックノベルビュー合成は、ビデオ内の視覚コンテンツの時間的進化を捉えることを目的としている。 既存の手法では、特にカメラのポーズが未知あるいは制約された場合、動きと構造を区別するのに苦労している。 また、参照画像からの情報のみを用いて、所定の映像に隠されたり、部分的に観察されたりしない領域を暗示することは極めて困難である。 これらの問題に対処するために,まず,カスタマイズ手法を用いて予め学習したrgb-d拡散モデルをビデオフレームに微調整した。 次に, 微調整モデルから, 動的および静的神経放射場(nerf)成分を包含する4次元表現への知識を抽出した。 提案するパイプラインは,シーンの同一性を保ちながら幾何的整合性を実現する。 提案手法の有効性を質的,定量的に評価するための徹底的な実験を行った。 本研究は, 挑戦事例におけるアプローチの堅牢性と有用性を示し, 動的新規な視点合成をさらに進めるものである。

Dynamic novel view synthesis aims to capture the temporal evolution of visual content within videos. Existing methods struggle to distinguishing between motion and structure, particularly in scenarios where camera poses are either unknown or constrained compared to object motion. Furthermore, with information solely from reference images, it is extremely challenging to hallucinate unseen regions that are occluded or partially observed in the given videos. To address these issues, we first finetune a pretrained RGB-D diffusion model on the video frames using a customization technique. Subsequently, we distill the knowledge from the finetuned model to a 4D representations encompassing both dynamic and static Neural Radiance Fields (NeRF) components. The proposed pipeline achieves geometric consistency while preserving the scene identity. We perform thorough experiments to evaluate the efficacy of the proposed method qualitatively and quantitatively. Our results demonstrate the robustness and utility of our approach in challenging cases, further advancing dynamic novel view synthesis.
翻訳日:2024-01-13 02:01:31 公開日:2024-01-10
# 拡散相関分光法における血流評価の強化:ノイズロバスト性分析を用いた伝達学習アプローチ

Enhancing Blood Flow Assessment in Diffuse Correlation Spectroscopy: A Transfer Learning Approach with Noise Robustness Analysis ( http://arxiv.org/abs/2401.05580v1 )

ライセンス: Link先を確認
Xi Chen, Xingda Li, David Li(参考訳) 拡散相関分光法(Diffuse correlation spectroscopy, DCS)は、近赤外コヒーレント点源照明を用いて組織血流を測定する非侵襲的手法である。 機械学習は、血流指数(BFi)を測定する大きな可能性を示しているが、このアプローチの成功に関するオープンな疑問は、様々な臨床応用と様々な設定から派生したSNR(Signal-to-Noise Ratios)を持つデータセット間のずれを含むシナリオにおける堅牢性に関するものである。 本研究では,伝達学習手法を提案し,SNRが学習特徴の一般化能力に与える影響を評価し,伝達学習の堅牢性を示す。 付加雑音のレベルが異なる合成データセットを用いて、異なるSNRをシミュレートする。 提案するネットワークは1x64自己相関曲線を入力とし,BFiと相関パラメータベータを生成する。 提案モデルは異なるsnrに対して優れた性能を示し,他のフィッティング法と比較して,特に低snrデータセットに対して高いフィッティング精度を示す。 これは様々な臨床シナリオにおける臨床診断と治療の可能性を強調している。

Diffuse correlation spectroscopy (DCS) is an emerging noninvasive technique that measures the tissue blood flow, by using near-infrared coherent point-source illumination to detect spectral changes. While machine learning has demonstrated significant potential for measuring blood flow index (BFi), an open question concerning the success of this approach pertains to its robustness in scenarios involving deviations between datasets with varying Signal-to-Noise Ratios (SNRs) originating from diverse clinical applications and various setups. This study proposes a transfer learning approach, aims to assess the influence of SNRs on the generalization ability of learned features, and demonstrate the robustness for transfer learning. A synthetic dataset with varying levels of added noise is utilized to simulate different SNRs. The proposed network takes a 1x64 autocorrelation curve as input and generates BFi and the correlation parameter beta. The proposed model demonstrates excellent performance across different SNRs, exhibiting enhanced fitting accuracy, particularly for low SNR datasets when compared with other fitting methods. This highlights its potential for clinical diagnosis and treatment across various scenarios under different clinical setups.
翻訳日:2024-01-13 02:01:12 公開日:2024-01-10
# メルトプール形状予測のための追加サプライズ誘導型シーケンス学習フレームワーク

An Augmented Surprise-guided Sequential Learning Framework for Predicting the Melt Pool Geometry ( http://arxiv.org/abs/2401.05579v1 )

ライセンス: Link先を確認
Ahmed Shoyeb Raihan, Hamed Khosravi, Tanveer Hossain Bhuiyan, Imtiaz Ahmed(参考訳) メタリック・アダプティブ・マニュファクチャリング(MAM)は、複雑な設計、最小限の廃棄物、迅速なプロトタイピング、素材の汎用性、カスタマイズされたソリューションなどの利点を提供する製造業を再構築した。 しかし、業界全体の採用は、特に一貫した製品品質を達成する上でのハードルに直面している。 MAMの成功の重要な側面は、プロセスパラメータとメルトプール特性の関係を理解することである。 人工知能(AI)をMAMに統合することは不可欠である。 従来の機械学習(ML)メソッドは、有効ではあるが、複雑な関係をキャプチャする大規模なデータセットに依存している。 本研究は,新たなサプライズ誘導型逐次学習フレームワークであるSurpriseAF-BOを紹介する。 このフレームワークは反復的で適応的な学習プロセスを使用し、プロセスパラメータとメルトプール特性の間のダイナミクスを限られたデータでモデル化する。 従来のMLモデルと比較して,メルトプール次元の予測精度が向上した。 提案手法をさらに改良し,CTGAN(Conditional Tabular Generative Adversarial Network)をフレームワークに統合し,CT-SurpriseAF-BOを形成する。 これにより、実際の実験データに似た合成データが生成され、学習効率が向上する。 この強化により、さらなる物理実験を必要とせずに予測精度が向上する。 我々の研究は、サイバー製造における高度なデータ駆動技術のパワーと、シーケンシャルAIとML、特にMAMの従来の課題を克服する上での相当な影響を実証している。

Metal Additive Manufacturing (MAM) has reshaped the manufacturing industry, offering benefits like intricate design, minimal waste, rapid prototyping, material versatility, and customized solutions. However, its full industry adoption faces hurdles, particularly in achieving consistent product quality. A crucial aspect for MAM's success is understanding the relationship between process parameters and melt pool characteristics. Integrating Artificial Intelligence (AI) into MAM is essential. Traditional machine learning (ML) methods, while effective, depend on large datasets to capture complex relationships, a significant challenge in MAM due to the extensive time and resources required for dataset creation. Our study introduces a novel surprise-guided sequential learning framework, SurpriseAF-BO, signaling a significant shift in MAM. This framework uses an iterative, adaptive learning process, modeling the dynamics between process parameters and melt pool characteristics with limited data, a key benefit in MAM's cyber manufacturing context. Compared to traditional ML models, our sequential learning method shows enhanced predictive accuracy for melt pool dimensions. Further improving our approach, we integrated a Conditional Tabular Generative Adversarial Network (CTGAN) into our framework, forming the CT-SurpriseAF-BO. This produces synthetic data resembling real experimental data, improving learning effectiveness. This enhancement boosts predictive precision without requiring additional physical experiments. Our study demonstrates the power of advanced data-driven techniques in cyber manufacturing and the substantial impact of sequential AI and ML, particularly in overcoming MAM's traditional challenges.
翻訳日:2024-01-13 02:00:50 公開日:2024-01-10
# エクストリームラーニングマシンを用いた高速脳血流解析

Fast Cerebral Blood Flow Analysis via Extreme Learning Machine ( http://arxiv.org/abs/2401.05578v1 )

ライセンス: Link先を確認
Xi Chen, Zhenya Zang, Xingda Li, David Li(参考訳) 本研究では,extreme learning machine (elm) を用いた拡散相関分光法 (dcs) を用いた脳血流解析のための迅速かつ精密な解析手法を提案する。 ELMと既存のアルゴリズムの評価には、総合的なメトリクスセットが伴う。 半無限および多層モデルのための合成データセットを用いて,これらのアルゴリズムを評価する。 その結果、ELMは様々なノイズレベルと光学パラメータの高忠実度を一貫して達成し、頑健な一般化能力を示し、反復整合アルゴリズムよりも優れていた。 計算効率のよいニューラルネットワークと比較することにより、EMMはトレーニング時間と推論時間を短縮して同等の精度が得られる。 特に、トレーニング中のEMMのバックプロパゲーションプロセスの欠如により、既存のニューラルネットワークアプローチに比べてトレーニング速度が大幅に向上する。 提案した戦略は、オンライントレーニング機能を備えたエッジコンピューティングアプリケーションに対する約束である。

We introduce a rapid and precise analytical approach for analyzing cerebral blood flow (CBF) using Diffuse Correlation Spectroscopy (DCS) with the application of the Extreme Learning Machine (ELM). Our evaluation of ELM and existing algorithms involves a comprehensive set of metrics. We assess these algorithms using synthetic datasets for both semi-infinite and multi-layer models. The results demonstrate that ELM consistently achieves higher fidelity across various noise levels and optical parameters, showcasing robust generalization ability and outperforming iterative fitting algorithms. Through a comparison with a computationally efficient neural network, ELM attains comparable accuracy with reduced training and inference times. Notably, the absence of a back-propagation process in ELM during training results in significantly faster training speeds compared to existing neural network approaches. This proposed strategy holds promise for edge computing applications with online training capabilities.
翻訳日:2024-01-13 02:00:21 公開日:2024-01-10
# VLP:自動運転のためのビジョン言語計画

VLP: Vision Language Planning for Autonomous Driving ( http://arxiv.org/abs/2401.05577v1 )

ライセンス: Link先を確認
Chenbin Pan, Burhaneddin Yaman, Tommaso Nesti, Abhirup Mallik, Alessandro G Allievi, Senem Velipasalar, Liu Ren(参考訳) 自動運転は複雑な課題であり、シーンの理解と推論を通じて安全な動き計画を目指す。 視覚のみの自動運転手法は最近、シーン理解の強化を通じて目覚ましいパフォーマンスを達成したが、推論の欠如、一般化性能の低下、ロングテールシナリオなど、いくつかの重要な問題はまだ対処する必要がある。 本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを活用したビジョン言語計画フレームワークvlpを提案する。 VLPは、ソースメモリ基盤と自動運転車のコンテキスト理解の両方を強化することで、自律運転システムを強化する。 VLPは,従来の最良手法と比較して,平均L2誤差と衝突速度をそれぞれ35.9\%,60.5\%削減することで,挑戦的なNuScenesデータセットの最先端のプランニング性能を達成する。 さらに、VLPは、新しい都市環境に直面した場合、挑戦的なロングテールシナリオと強力な一般化能力の性能向上を示す。

Autonomous driving is a complex and challenging task that aims at safe motion planning through scene understanding and reasoning. While vision-only autonomous driving methods have recently achieved notable performance, through enhanced scene understanding, several key issues, including lack of reasoning, low generalization performance and long-tail scenarios, still need to be addressed. In this paper, we present VLP, a novel Vision-Language-Planning framework that exploits language models to bridge the gap between linguistic understanding and autonomous driving. VLP enhances autonomous driving systems by strengthening both the source memory foundation and the self-driving car's contextual understanding. VLP achieves state-of-the-art end-to-end planning performance on the challenging NuScenes dataset by achieving 35.9\% and 60.5\% reduction in terms of average L2 error and collision rates, respectively, compared to the previous best method. Moreover, VLP shows improved performance in challenging long-tail scenarios and strong generalization capabilities when faced with new urban environments.
翻訳日:2024-01-13 02:00:11 公開日:2024-01-10
# トリミング平均によるロバストクラスタリングの一般理論

A general theory for robust clustering via trimmed mean ( http://arxiv.org/abs/2401.05574v1 )

ライセンス: Link先を確認
Soham Jana, Jianqing Fan, Sanjeev Kulkarni(参考訳) クラスタリングは、異種データの存在下での統計機械学習の基本的なツールである。 最近の多くの結果は、サブガウシアンエラーのあるセントロイドの周りにデータが分散される場合の、最適なミスラベルの保証に重点を置いている。 しかし、制限付きサブガウシアンモデルはしばしば無効であり、様々な実世界のアプリケーションでは、centroids周辺に重いテール分布を示すか、堅牢なデータ駆動初期化で堅牢なクラスタリングを求める敵の攻撃に苦しむためである。 本稿では,新しい多変量トリミング平均型セントロイド推定を用いたハイブリッドクラスタリング手法を導入し,セントロイド周辺の一般誤差分布に対する弱初期化条件下での誤ラベル保証を実現する。 一致した下界が導出され、クラスタ数に依存する要因まで導出される。 さらに,本手法は,対向性外乱の存在下においても,最適な誤ラベルを生じさせる。 その結果,誤差がサブガウス分布に従う場合,サブガウス分布が減少する。 そこで本研究では,新しいデータ駆動型ロバスト初期化手法を提案するとともに,これらの初期センタロイド推定値が1つに近づくと,後続のクラスタリングアルゴリズムが最適誤ラベル率を達成するのに十分有効であることを示す。 さらに,誤差がガウス型であっても2クラスタ以上,誤差分布が重みを持つ2クラスタではロイドアルゴリズムが最適であることを示す。 シミュレーションデータと実データサンプルの両方が、ロバストな初期化手順とクラスタリングアルゴリズムの両方をサポートする。

Clustering is a fundamental tool in statistical machine learning in the presence of heterogeneous data. Many recent results focus primarily on optimal mislabeling guarantees, when data are distributed around centroids with sub-Gaussian errors. Yet, the restrictive sub-Gaussian model is often invalid in practice, since various real-world applications exhibit heavy tail distributions around the centroids or suffer from possible adversarial attacks that call for robust clustering with a robust data-driven initialization. In this paper, we introduce a hybrid clustering technique with a novel multivariate trimmed mean type centroid estimate to produce mislabeling guarantees under a weak initialization condition for general error distributions around the centroids. A matching lower bound is derived, up to factors depending on the number of clusters. In addition, our approach also produces the optimal mislabeling even in the presence of adversarial outliers. Our results reduce to the sub-Gaussian case when errors follow sub-Gaussian distributions. To solve the problem thoroughly, we also present novel data-driven robust initialization techniques and show that, with probabilities approaching one, these initial centroid estimates are sufficiently good for the subsequent clustering algorithm to achieve the optimal mislabeling rates. Furthermore, we demonstrate that the Lloyd algorithm is suboptimal for more than two clusters even when errors are Gaussian, and for two clusters when errors distributions have heavy tails. Both simulated data and real data examples lend further support to both of our robust initialization procedure and clustering algorithm.
翻訳日:2024-01-13 01:59:54 公開日:2024-01-10
# 協調型マルチエージェントシステムの固有値駆動型強化学習

Innate-Values-driven Reinforcement Learning for Cooperative Multi-Agent Systems ( http://arxiv.org/abs/2401.05572v1 )

ライセンス: Link先を確認
Qin Yang(参考訳) 生来の価値観はエージェントの固有のモチベーションを表現し、その内在的な関心と目標を追求し、様々なニーズを満たす多様なスキルを開発するように促す選好を反映している。 強化学習(RL)の本質は、自然エージェントのように報酬駆動(ユーティリティなど)の振る舞いに基づく相互作用から学ぶことである。 AIエージェントの固有値駆動(IV)行動を記述するための優れたモデルである。 特にマルチエージェントシステム(mas)では,グループユーティリティとシステムコストのバランスとグループメンバのニーズを満たすためのaiエージェントの意識の構築が,コミュニティを支援し,人間社会を長期的に統合する上で重要な課題である。 本稿では,多エージェントインタラクションの複雑な行動を記述するために,ivrlと呼ばれる階層型複合内在的価値強化学習モデルを提案する。 我々は,StarCraft Multi-Agent Challenge (SMAC) 環境でIVRLアーキテクチャを実装し,QMIX, IQL, QTRANという3つのベンチマークマルチエージェントRLアルゴリズムを用いて,固有値エージェント(Coward, Neutral, Reckless)の3つの特性における協調性能を比較した。 その結果,個々のニーズを合理的に整理することで,より低いコストでより優れたパフォーマンスを実現することができた。

Innate values describe agents' intrinsic motivations, which reflect their inherent interests and preferences to pursue goals and drive them to develop diverse skills satisfying their various needs. The essence of reinforcement learning (RL) is learning from interaction based on reward-driven (such as utilities) behaviors, much like natural agents. It is an excellent model to describe the innate-values-driven (IV) behaviors of AI agents. Especially in multi-agent systems (MAS), building the awareness of AI agents to balance the group utilities and system costs and satisfy group members' needs in their cooperation is a crucial problem for individuals learning to support their community and integrate human society in the long term. This paper proposes a hierarchical compound intrinsic value reinforcement learning model -- innate-values-driven reinforcement learning termed IVRL to describe the complex behaviors of multi-agent interaction in their cooperation. We implement the IVRL architecture in the StarCraft Multi-Agent Challenge (SMAC) environment and compare the cooperative performance within three characteristics of innate value agents (Coward, Neutral, and Reckless) through three benchmark multi-agent RL algorithms: QMIX, IQL, and QTRAN. The results demonstrate that by organizing individual various needs rationally, the group can achieve better performance with lower costs effectively.
翻訳日:2024-01-13 01:59:28 公開日:2024-01-10
# quantumsea: 雑音適応量子回路のリアルタイムスパース探索

QuantumSEA: In-Time Sparse Exploration for Noise Adaptive Quantum Circuits ( http://arxiv.org/abs/2401.05571v1 )

ライセンス: Link先を確認
Tianlong Chen, Zhenyu Zhang, Hanrui Wang, Jiaqi Gu, Zirui Li, David Z. Pan, Frederic T. Chong, Song Han, Zhangyang Wang(参考訳) パラメータ化量子回路 (PQC) は、近未来のノイズ中間規模量子 (NISQ) コンピュータの潜在能力によって人気が高まっている。 量子の利点を達成するには、多くの量子ビットと十分な容量を持つ量子回路が必要となる。 しかし、コヒーレンス時間と大規模な量子ノイズは、実際のマシンで確実に実行できる量子回路のサイズを著しく制限する。 To address these two pain points, we propose QuantumSEA, an in-time sparse exploration for noise-adaptive quantum circuits, aiming to achieve two key objectives: (1) implicit circuits capacity during training - by dynamically exploring the circuit's sparse connectivity and sticking a fixed small number of quantum gates throughout the training which satisfies the coherence time and enjoy light noises, enabling feasible executions on real quantum devices; (2) noise robustness - by jointly optimizing the topology and parameters of quantum circuits under real device noise models. 各更新ステップでは,過去の勾配の移動平均を利用して必要なゲートを成長させ,無意味なゲートを除去するためにサリエンス・プルーニングを利用する。 7つの量子機械学習(QML)と変分量子固有解器(VQE)のベンチマークにより、量子SEAはノイズ認識検索、人間設計、ランダムに生成された量子回路ベースラインを、明確なパフォーマンスマージンで一貫して超えている。 例えば、最も困難なオンチップトレーニングシステムであっても、我々の手法は、量子ゲートの数の半分と回路実行の約2倍の時間節約で最先端の結果を確立する。 コードはhttps://github.com/VITA-Group/QuantumSEA.comで入手できる。

Parameterized Quantum Circuits (PQC) have obtained increasing popularity thanks to their great potential for near-term Noisy Intermediate-Scale Quantum (NISQ) computers. Achieving quantum advantages usually requires a large number of qubits and quantum circuits with enough capacity. However, limited coherence time and massive quantum noises severely constrain the size of quantum circuits that can be executed reliably on real machines. To address these two pain points, we propose QuantumSEA, an in-time sparse exploration for noise-adaptive quantum circuits, aiming to achieve two key objectives: (1) implicit circuits capacity during training - by dynamically exploring the circuit's sparse connectivity and sticking a fixed small number of quantum gates throughout the training which satisfies the coherence time and enjoy light noises, enabling feasible executions on real quantum devices; (2) noise robustness - by jointly optimizing the topology and parameters of quantum circuits under real device noise models. In each update step of sparsity, we leverage the moving average of historical gradients to grow necessary gates and utilize salience-based pruning to eliminate insignificant gates. Extensive experiments are conducted with 7 Quantum Machine Learning (QML) and Variational Quantum Eigensolver (VQE) benchmarks on 6 simulated or real quantum computers, where QuantumSEA consistently surpasses noise-aware search, human-designed, and randomly generated quantum circuit baselines by a clear performance margin. For example, even in the most challenging on-chip training regime, our method establishes state-of-the-art results with only half the number of quantum gates and ~2x time saving of circuit executions. Codes are available at https://github.com/VITA-Group/QuantumSEA.
翻訳日:2024-01-13 01:58:47 公開日:2024-01-10
# 検診用マンモグラムにおける教師なし病変検出とパッチ前処理のためのソフトラベル付きシームズネットワーク

Siamese Networks with Soft Labels for Unsupervised Lesion Detection and Patch Pretraining on Screening Mammograms ( http://arxiv.org/abs/2401.05570v1 )

ライセンス: Link先を確認
Kevin Van Vorst and Li Shen(参考訳) 自己教師型学習は、ディープラーニングモデルを事前訓練し、下流のタスクに転送する一般的な方法となっている。 しかし、これらの手法のほとんどは、明確なテクスチャ、輪郭、異なる色のコントラストを持つ自然のオブジェクトを含む大規模な画像データセットに基づいて開発されている。 これらの方法が医用画像に等しく有効であるかは定かでないが、興味のある領域が周囲の組織と微妙に混ざり合うことが多い。 本研究では、対向マンモグラフィーを用いてニューラルネットワークを訓練し、対が正常画像と異常画像の両方を含む場合、対が正常画像と異なる埋め込みの両方を含む場合、類似の埋め込みを符号化する方法を提案する。 本手法では,人体の自然対称性を弱いラベルとして活用し,異常病変と背景組織を完全に教師なしの方法で区別する。 本研究は, 画像ペア間のユークリッド距離から得られたソフトラベルを, シームズネットワークの損失に組み込むことで実現可能であることを示唆している。 本手法は,既存の自己教師あり学習法と比較して,マンモグラムパッチ分類において優れた性能を示す。 このアプローチは膨大な画像データを効果的に活用するだけでなく、コストのかかるラベルへの依存を最小限に抑える。

Self-supervised learning has become a popular way to pretrain a deep learning model and then transfer it to perform downstream tasks. However, most of these methods are developed on large-scale image datasets that contain natural objects with clear textures, outlines, and distinct color contrasts. It remains uncertain whether these methods are equally effective for medical imaging, where the regions of interest often blend subtly and indistinctly with the surrounding tissues. In this study, we propose an alternative method that uses contralateral mammograms to train a neural network to encode similar embeddings when a pair contains both normal images and different embeddings when a pair contains normal and abnormal images. Our approach leverages the natural symmetry of human body as weak labels to learn to distinguish abnormal lesions from background tissues in a fully unsupervised manner. Our findings suggest that it's feasible by incorporating soft labels derived from the Euclidean distances between the embeddings of the image pairs into the Siamese network loss. Our method demonstrates superior performance in mammogram patch classification compared to existing self-supervised learning methods. This approach not only leverages a vast amount of image data effectively but also minimizes reliance on costly labels, a significant advantage particularly in the field of medical imaging.
翻訳日:2024-01-13 01:57:39 公開日:2024-01-10
# senet: オンラインソーシャルエンジニアリング攻撃キャンペーンの視覚的検出

SENet: Visual Detection of Online Social Engineering Attack Campaigns ( http://arxiv.org/abs/2401.05569v1 )

ライセンス: Link先を確認
Irfan Ozen, Karthika Subramani, Phani Vadrevu, Roberto Perdisci(参考訳) ソーシャルエンジニアリング(SE)は、ユーザのセキュリティとプライバシを侵害する可能性のある行動にユーザを騙すことを目的としている。 これらの脅威は、前文、餌、偽装などの戦術を用いて、人間の意思決定プロセスの弱点を悪用する。 ウェブ上でのSE攻撃には、スケアウェア、技術サポート詐欺、サーベイ詐欺、スイープステイクなどの攻撃クラスが含まれており、機密データ漏洩、マルウェアの感染、金銭的損失をもたらす可能性がある。 例えば、アメリカの消費者は様々なSE攻撃によって毎年数十億ドルを失う。 残念なことに、一般的なソーシャルエンジニアリング攻撃は、ソフトウェア脆弱性や悪用、ネットワーク侵入、悪意のあるソフトウェア、フィッシングなど、他の重要な脅威と比較して、未熟である。 社会工学に焦点を当てた既存の技術研究はスコープが限られており、一般的な防御ではなく測定に重点を置いている。 このギャップを埋めるために,ソーシャルエンジニアリング攻撃をブラウザ内で検出するフレームワークであるseshieldを提案する。 SEShieldは3つの主要コンポーネントから構成される。 i) SECrawlerと呼ばれるカスタムセキュリティクローラで、Webをスカウトして、開発中のSE攻撃の例を収集します。 (ii)senetは、secrawlerが収集したデータに基づいて訓練された深層学習ベースの画像分類器で、se攻撃ページがしばしばまぶしい視覚特性を検出することを目的としている。 (iii) SEGuardは概念実証拡張で、SENetをWebブラウザに組み込み、リアルタイムSE攻撃検出を可能にする。 本研究では,SENetが検出率99.6%,1%の偽陽性で新たなSE攻撃を検出できることを示すとともに,SE攻撃に対する効果的な第1防衛手段を提供する。

Social engineering (SE) aims at deceiving users into performing actions that may compromise their security and privacy. These threats exploit weaknesses in human's decision making processes by using tactics such as pretext, baiting, impersonation, etc. On the web, SE attacks include attack classes such as scareware, tech support scams, survey scams, sweepstakes, etc., which can result in sensitive data leaks, malware infections, and monetary loss. For instance, US consumers lose billions of dollars annually due to various SE attacks. Unfortunately, generic social engineering attacks remain understudied, compared to other important threats, such as software vulnerabilities and exploitation, network intrusions, malicious software, and phishing. The few existing technical studies that focus on social engineering are limited in scope and mostly focus on measurements rather than developing a generic defense. To fill this gap, we present SEShield, a framework for in-browser detection of social engineering attacks. SEShield consists of three main components: (i) a custom security crawler, called SECrawler, that is dedicated to scouting the web to collect examples of in-the-wild SE attacks; (ii) SENet, a deep learning-based image classifier trained on data collected by SECrawler that aims to detect the often glaring visual traits of SE attack pages; and (iii) SEGuard, a proof-of-concept extension that embeds SENet into the web browser and enables real-time SE attack detection. We perform an extensive evaluation of our system and show that SENet is able to detect new instances of SE attacks with a detection rate of up to 99.6% at 1% false positive, thus providing an effective first defense against SE attacks on the web.
翻訳日:2024-01-13 01:57:03 公開日:2024-01-10
# 能動学習による相発見:等原子NiTiの構造相転移への応用

Phase discovery with active learning: Application to structural phase transitions in equiatomic NiTi ( http://arxiv.org/abs/2401.05568v1 )

ライセンス: Link先を確認
Jonathan Vandermause, Anders Johansson, Yucong Miao, Joost J. Vlassak and Boris Kozinsky(参考訳) ニッケルチタン (niti) は、様々な生体医学および工学装置で使用される非定型形状記憶合金であるが、その形状記憶挙動を駆動するマルテンサイトb19' -> b2相転移の直接分子動力学シミュレーションは稀であり、精度に乏しい古典的力場に依存する。 ここでは、LDA, PBE, PBEsol, SCAN DFT関数に基づいて、等原子NiTiに対して4つの機械学習力場を訓練する。 NPT分子動力学において、局所エネルギー予測の不確かさが選択しきい値を超えると、DFT計算とモデル更新が自動的に実行される。 モデルはトレーニング中に1-2 meV/atomの精度を達成し、B2およびB19の弾性定数とフォノン周波数のDFT予測を密に追跡する。 驚いたことに、大規模な分子動力学シミュレーションでは、SCANモデルのみが可逆的なB19' -> B2相転移を予測し、LDA, PBE, PBEsolモデルはそれまでの非特性化低体積相への可逆的な遷移を予測する。 温度-圧力相図上の新相の構造を考察し,その安定性を推定した。 この研究は、解凍変換を研究するための自動能動学習プロトコルを確立し、大規模なシミュレーションでのみ検出できるDFT関数間の重要な違いを明らかにし、NiTiの正確な力場を提供し、新しい位相を特定する。

Nickel titanium (NiTi) is a protypical shape-memory alloy used in a range of biomedical and engineering devices, but direct molecular dynamics simulations of the martensitic B19' -> B2 phase transition driving its shape-memory behavior are rare and have relied on classical force fields with limited accuracy. Here, we train four machine-learned force fields for equiatomic NiTi based on the LDA, PBE, PBEsol, and SCAN DFT functionals. The models are trained on the fly during NPT molecular dynamics, with DFT calculations and model updates performed automatically whenever the uncertainty of a local energy prediction exceeds a chosen threshold. The models achieve accuracies of 1-2 meV/atom during training and are shown to closely track DFT predictions of B2 and B19' elastic constants and phonon frequencies. Surprisingly, in large-scale molecular dynamics simulations, only the SCAN model predicts a reversible B19' -> B2 phase transition, with the LDA, PBE, and PBEsol models predicting a reversible transition to a previously uncharacterized low-volume phase, which we hypothesize to be a new stable high-pressure phase. We examine the structure of the new phase and estimate its stability on the temperature-pressure phase diagram. This work establishes an automated active learning protocol for studying displacive transformations, reveals important differences between DFT functionals that can only be detected in large-scale simulations, provides an accurate force field for NiTi, and identifies a new phase.
翻訳日:2024-01-13 01:56:32 公開日:2024-01-10
# スリーパーエージェント:安全トレーニングを通じて持続する偽装llmの訓練

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training ( http://arxiv.org/abs/2401.05566v1 )

ライセンス: Link先を確認
Evan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Monte MacDiarmid, Tamera Lanham, Daniel M. Ziegler, Tim Maxwell, Newton Cheng, Adam Jermyn, Amanda Askell, Ansh Radhakrishnan, Cem Anil, David Duvenaud, Deep Ganguli, Fazl Barez, Jack Clark, Kamal Ndousse, Kshitij Sachan, Michael Sellitto, Mrinank Sharma, Nova DasSarma, Roger Grosse, Shauna Kravec, Yuntao Bai, Zachary Witten, Marina Favaro, Jan Brauner, Holden Karnofsky, Paul Christiano, Samuel R. Bowman, Logan Graham, Jared Kaplan, S\"oren Mindermann, Ryan Greenblatt, Buck Shlegeris, Nicholas Schiefer, Ethan Perez(参考訳) 人間は多くの状況で有益な行動をとるが、機会を与えられたときに別の目的を追求するために非常に異なる行動をとる。 もしAIシステムがそのような偽りの戦略を学んだら、検出して現在の最先端の安全訓練技術を使って除去できるだろうか? そこで本研究では,大規模言語モデル(llm)における概念実証事例について考察する。 例えば、2023年とプロンプトされた時にセキュアなコードを書くモデルをトレーニングしますが、2024年の場合は、悪用可能なコードを挿入します。 このようなバックドアの動作は持続可能であり、監視された微調整、強化学習、敵対的トレーニング(安全でない動作を誘発し、それを取り除くためのトレーニング)を含む標準の安全トレーニング技術では取り除かれない。 バックドアの挙動は、最大のモデルや、トレーニングプロセスの無効化に関するチェーン・オブ・シークレットの推論を訓練されたモデルにおいて最も永続的であり、チェーン・オブ・シークレットを蒸留しても持続性は残る。 さらに,バックドアをなくすのではなく,モデルにバックドアトリガをよりよく認識するように指導することで,安全でない動作を効果的に隠蔽できることがわかった。 以上の結果から, モデルが仮装行動を示すと, 標準技術ではそのような偽装を除去できず, 安全性の虚偽の印象を生じさせる可能性が示唆された。

Humans are capable of strategically deceptive behavior: behaving helpfully in most situations, but then behaving very differently in order to pursue alternative objectives when given the opportunity. If an AI system learned such a deceptive strategy, could we detect it and remove it using current state-of-the-art safety training techniques? To study this question, we construct proof-of-concept examples of deceptive behavior in large language models (LLMs). For example, we train models that write secure code when the prompt states that the year is 2023, but insert exploitable code when the stated year is 2024. We find that such backdoored behavior can be made persistent, so that it is not removed by standard safety training techniques, including supervised fine-tuning, reinforcement learning, and adversarial training (eliciting unsafe behavior and then training to remove it). The backdoored behavior is most persistent in the largest models and in models trained to produce chain-of-thought reasoning about deceiving the training process, with the persistence remaining even when the chain-of-thought is distilled away. Furthermore, rather than removing backdoors, we find that adversarial training can teach models to better recognize their backdoor triggers, effectively hiding the unsafe behavior. Our results suggest that, once a model exhibits deceptive behavior, standard techniques could fail to remove such deception and create a false impression of safety.
翻訳日:2024-01-13 01:56:01 公開日:2024-01-10
# Brave:ビザンチン耐性とプライバシ保護によるピアツーピアフェデレーション学習

Brave: Byzantine-Resilient and Privacy-Preserving Peer-to-Peer Federated Learning ( http://arxiv.org/abs/2401.05562v1 )

ライセンス: Link先を確認
Zhangchen Xu, Fengqing Jiang, Luyao Niu, Jinyuan Jia, Radha Poovendran(参考訳) フェデレートラーニング(FL)は、複数の参加者がプライベートトレーニングデータを共有することなく、グローバルな機械学習モデルをトレーニングすることを可能にする。 Peer-to-peer (P2P) FLは、参加者からローカルモデルを集約したサーバを排除し、グローバルモデルを更新することで、既存の集中型FLパラダイムを前進させる。 しかし、P2P FLは脆弱である。 (i)他の参加者の私的な研修データを推測することを目的とする正直だが厳密な参加者 (ii) 任意に操作された局所モデルを送信することができるビザンチン参加者は、学習プロセスを崩壊させる。 ビザンチンのレジリエンスとプライバシー保護を同時に保証するP2P FLスキームは、あまり研究されていない。 本稿では,p2p flに対するビザンチンのレジリエンスとプライバシ保護性を保証するプロトコルであるbraveを開発した。 ブレーブは、誠実だが悪質な敵が、自分のモデルを観察することによって、他の参加者のプライベートデータを推測できないことを確立することにより、プライバシを保護していることを示す。 我々はさらに、braveがビザンチンレジリエントであることを証明し、すべての良質な参加者が、ビザンチンの敵を境界距離で持たずに訓練されたグローバルモデルから逸脱する同一のモデルに収束することを保証する。 我々は,ベンチマークデータセットCIFAR10とMNISTの画像分類タスクに対して,P2P FL上の3つの最先端の敵に対してブレーブを評価する。 その結果, 敵の存在下でbraveが学習したグローバルモデルは, 敵がいない時に訓練されたグローバルモデルと同等の分類精度が得られることがわかった。

Federated learning (FL) enables multiple participants to train a global machine learning model without sharing their private training data. Peer-to-peer (P2P) FL advances existing centralized FL paradigms by eliminating the server that aggregates local models from participants and then updates the global model. However, P2P FL is vulnerable to (i) honest-but-curious participants whose objective is to infer private training data of other participants, and (ii) Byzantine participants who can transmit arbitrarily manipulated local models to corrupt the learning process. P2P FL schemes that simultaneously guarantee Byzantine resilience and preserve privacy have been less studied. In this paper, we develop Brave, a protocol that ensures Byzantine Resilience And privacy-preserving property for P2P FL in the presence of both types of adversaries. We show that Brave preserves privacy by establishing that any honest-but-curious adversary cannot infer other participants' private data by observing their models. We further prove that Brave is Byzantine-resilient, which guarantees that all benign participants converge to an identical model that deviates from a global model trained without Byzantine adversaries by a bounded distance. We evaluate Brave against three state-of-the-art adversaries on a P2P FL for image classification tasks on benchmark datasets CIFAR10 and MNIST. Our results show that the global model learned with Brave in the presence of adversaries achieves comparable classification accuracy to a global model trained in the absence of any adversary.
翻訳日:2024-01-13 01:55:31 公開日:2024-01-10
# 未知クラス検出のための低密度潜在領域のwasserstein距離に基づく拡張

Wasserstein Distance-based Expansion of Low-Density Latent Regions for Unknown Class Detection ( http://arxiv.org/abs/2401.05594v1 )

ライセンス: Link先を確認
Prakash Mallick, Feras Dayoub, Jamie Sherrah(参考訳) 本稿では, 未知のオブジェクトを未知のカテゴリと誤って分類し, 高い信頼性で分類する手法として, オープンセットオブジェクト検出(OSOD)の重大な課題について論じる。 潜在空間における高密度領域と低密度領域を区別することにより,未知の物体を効果的に識別する新しい手法を提案する。 提案手法はOpen-Det (OD) フレームワーク上に構築され,損失関数に2つの新しい要素が導入された。 これらの要素は既知の埋め込み空間のクラスタリングを強化し、未知の空間の低密度領域を広げる。 最初の追加はクラスWasserstein Anchor (CWA) であり、分類境界を洗練させる新しい関数である。 2つ目はスペクトル正規化ステップであり、モデルのロバスト性を改善する。 既存のContrastive Feature Learner (CFL) と Unknown Probability Learner (UPL) の損失関数への拡張により、OSODの性能は大幅に向上した。 提案手法はopendet-cwa (od-cwa) である。 a) オープンセットエラーの約17%〜22%の低減。 b) 新規検出能力の1.5%-16%向上、及び c) 様々なオープンセットシナリオにおいて、荒野指数の2%~20%の低下。 これらの結果は、オープンセットオブジェクト検出の複雑さ管理における我々のアプローチの可能性を示している。

This paper addresses the significant challenge in open-set object detection (OSOD): the tendency of state-of-the-art detectors to erroneously classify unknown objects as known categories with high confidence. We present a novel approach that effectively identifies unknown objects by distinguishing between high and low-density regions in latent space. Our method builds upon the Open-Det (OD) framework, introducing two new elements to the loss function. These elements enhance the known embedding space's clustering and expand the unknown space's low-density regions. The first addition is the Class Wasserstein Anchor (CWA), a new function that refines the classification boundaries. The second is a spectral normalisation step, improving the robustness of the model. Together, these augmentations to the existing Contrastive Feature Learner (CFL) and Unknown Probability Learner (UPL) loss functions significantly improve OSOD performance. Our proposed OpenDet-CWA (OD-CWA) method demonstrates: a) a reduction in open-set errors by approximately 17%-22%, b) an enhancement in novelty detection capability by 1.5%-16%, and c) a decrease in the wilderness index by 2%-20% across various open-set scenarios. These results represent a substantial advancement in the field, showcasing the potential of our approach in managing the complexities of open-set object detection.
翻訳日:2024-01-13 01:43:31 公開日:2024-01-10
# aiコーチによるレース学習:マルチモーダル自動運転説明が運転性能,認知負荷,専門知識,信頼に及ぼす影響

Learning Racing From an AI Coach: Effects of Multimodal Autonomous Driving Explanations on Driving Performance, Cognitive Load, Expertise, and Trust ( http://arxiv.org/abs/2401.04206v2 )

ライセンス: Link先を確認
Robert Kaufman, Jean Costa, Everlyne Kimani(参考訳) ポスト前の実験(n = 41)では、人間の運転専門家の指示に従ってモデル化されたaiコーチの説明コミュニケーションの影響をテストする。 参加者は,情報型('what'型と'why'型)とプレゼンテーションモダリティ(auditory and visual)という,aiコーチの説明の2つの次元を評価する4つのグループに分けられた。 これらの技術を用いたAIコーチングセッションが、パフォーマンス、認知的負荷、信頼、専門知識、そして観察学習コンテキストにおける信頼にどのように影響するかを直接比較します。 インタビューを通じて、参加者の学習プロセスを概説する。 結果は、AI駆動コーチは、初心者にパフォーマンス駆動スキルを教えるのに役立つことを示している。 グループ間の比較により,情報の種類とモダリティがパフォーマンスに与える影響を見出した。 違いは,注意の向け方,不確実性を緩和し,参加者が経験する過負荷に影響を及ぼす。 これらの結果は、参加者がいかにうまく学べるかに影響した。 結果は,効率的でモダリティに適した説明を,圧倒することなく指示可能な効果的なhmi通信を設計する際に選択すべきことを示唆する。 さらに、コミュニケーションを人間の学習や認知プロセスと整合させる必要性を支持する。 結果は、将来の自動運転車HMIとAIコーチ設計のための8つの設計意味に合成される。

In a pre-post experiment (n = 41), we test the impact of an AI Coach's explanatory communications modeled after the instructions of human driving experts. Participants were divided into four (4) groups to assess two (2) dimensions of the AI coach's explanations: information type ('what' and 'why'-type explanations) and presentation modality (auditory and visual). We directly compare how AI Coaching sessions employing these techniques impact driving performance, cognitive load, confidence, expertise, and trust in an observation learning context. Through interviews, we delineate the learning process of our participants. Results show that an AI driving coach can be useful for teaching performance driving skills to novices. Comparing between groups, we find the type and modality of information influences performance outcomes. We attribute differences to how information directed attention, mitigated uncertainty, and influenced overload experienced by participants. These, in turn, affected how successfully participants were able to learn. Results suggest efficient, modality-appropriate explanations should be opted for when designing effective HMI communications that can instruct without overwhelming. Further, they support the need to align communications with human learning and cognitive processes. Results are synthesized into eight design implications for future autonomous vehicle HMI and AI coach design.
翻訳日:2024-01-12 11:16:46 公開日:2024-01-10
# BenchCLAMP:構文解析と意味解析の言語モデル評価ベンチマーク

BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and Semantic Parsing ( http://arxiv.org/abs/2206.10668v2 )

ライセンス: Link先を確認
Subhro Roy, Sam Thomson, Tongfei Chen, Richard Shin, Adam Pauls, Jason Eisner, Benjamin Van Durme(参考訳) 最近の研究によると、出力が有効な意味表現であるように制約された場合、インジェクションまたは微調整された言語モデルの生成はセマンティック解析においてうまく機能する。 そこで我々は,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介した。このベンチマークには,セマンティックパーシングデータセットの文脈自由文法と,出力表現の異なる2つの構文解析データセットと,これらの文法がカバーする有効な出力のみを生成する制約付きデコードインターフェースが含まれている。 各データセットに対して低、中、高リソースの分割を提供し、異なるデータ構造下で様々な言語モデルの正確な比較を可能にする。 本ベンチマークでは,素早い学習と微調整による言語モデルの評価をサポートする。 APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。 実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。

Recent work has shown that generation from a prompted or fine-tuned language model can perform well at semantic parsing when the output is constrained to be a valid semantic representation. We introduce BenchCLAMP, a Benchmark to evaluate Constrained LAnguage Model Parsing, that includes context-free grammars for seven semantic parsing datasets and two syntactic parsing datasets with varied output representations, as well as a constrained decoding interface to generate only valid outputs covered by these grammars. We provide low, medium, and high resource splits for each dataset, allowing accurate comparison of various language models under different data regimes. Our benchmark supports evaluation of language models using prompt-based learning as well as fine-tuning. We benchmark eight language models, including two GPT-3 variants available only through an API. Our experiments show that encoder-decoder pretrained language models can achieve similar performance or surpass state-of-the-art methods for syntactic and semantic parsing when the model output is constrained to be valid.
翻訳日:2024-01-11 18:16:23 公開日:2024-01-10
# ヒトの視覚ダイエットの模倣による一般化の促進

Improving generalization by mimicking the human visual diet ( http://arxiv.org/abs/2206.07802v2 )

ライセンス: Link先を確認
Spandan Madan, You Li, Mengmi Zhang, Hanspeter Pfister, Gabriel Kreiman(参考訳) 我々は,人間の視覚的食生活を模倣する,生物学的ビジョンとコンピュータビジョンの一般化ギャップを埋める新たな視点を提示する。 コンピュータビジョンモデルはインターネットに縛られたデータセットに依存しているが、人間は自然の文脈でオブジェクトを持つさまざまな現実世界の変換の下で、限られた3Dシーンから学習する。 本研究では,人間の視覚訓練データ(視覚ダイエット)にユビキタスな変化や文脈的手がかりを取り入れることで,照明や視点,物質的変化といった現実世界の変革への一般化が著しく向上することを示す。 人間のようなビジュアルダイエットで訓練されたすべてのモデルは、自然な画像データでテストした場合、特定のアーキテクチャよりも大きなマージンでパフォーマンスを向上します。 シーンコンテキストをキャプチャする新しいデータセットと、人間の視覚ダイエットを模倣する多様な現実世界のトランスフォーメーションと、人間の視覚ダイエットのこれらの側面を活用するために調整されたトランスフォーメーションモデルです。 すべてのデータとソースコードはhttps://github.com/spandan-madan/human_visual_dietでアクセスできる。

We present a new perspective on bridging the generalization gap between biological and computer vision -- mimicking the human visual diet. While computer vision models rely on internet-scraped datasets, humans learn from limited 3D scenes under diverse real-world transformations with objects in natural context. Our results demonstrate that incorporating variations and contextual cues ubiquitous in the human visual training data (visual diet) significantly improves generalization to real-world transformations such as lighting, viewpoint, and material changes. This improvement also extends to generalizing from synthetic to real-world data -- all models trained with a human-like visual diet outperform specialized architectures by large margins when tested on natural image data. These experiments are enabled by our two key contributions: a novel dataset capturing scene context and diverse real-world transformations to mimic the human visual diet, and a transformer model tailored to leverage these aspects of the human visual diet. All data and source code can be accessed at https://github.com/Spandan-Madan/human_visual_diet.
翻訳日:2024-01-11 18:16:02 公開日:2024-01-10
# link3d: 3dlidar point cloudの線形キーポイント表現

LinK3D: Linear Keypoints Representation for 3D LiDAR Point Cloud ( http://arxiv.org/abs/2206.05927v3 )

ライセンス: Link先を確認
Yunge Cui, Yinlong Zhang, Jiahua Dong, Haibo Sun, Xieyuanli Chen and Feng Zhu(参考訳) 特徴抽出とマッチングは、2Dや3Dオブジェクトの検出、認識、登録など、多くのロボットビジョンタスクの基本的な部分である。 知られているように、2次元特徴抽出とマッチングはすでに大きな成功を収めている。 残念ながら、3Dの分野では、現在の方法では、ロボットビジョンタスクに3D LiDARセンサーを広範囲に応用できない可能性がある。 この制限に対処するため,LinK3Dと呼ばれる3次元LiDAR点雲に対する線形キーポイント表現法を提案する。 link3dの目新しさは、lidar point cloudの特徴(スパーシティや複雑性など)を完全に考慮し、キーポイントを頑健な隣のキーポイントで表現し、キーポイントの記述に強い制約を与える点にある。 提案したLinK3Dは3つの公開データセットで評価され,実験結果から提案手法が優れたマッチング性能を実現することが示された。 さらにLinK3Dは、通常のLiDARセンサーの10Hzでのセンサーフレームレートよりも高速で、優れたリアルタイム性能を示している。 LinK3Dは、64ビームのLiDARで収集された点群から、平均30ミリ秒で特徴を抽出し、Intel Core i7プロセッサでコンピュータ上で実行すると、2つのLiDARスキャンに一致するのに、わずか20ミリ秒しかかからない。 さらに,本手法はLiDARオドメトリータスクに拡張可能であり,スケーラビリティも良好である。 我々は、このメソッドの実装をhttps://github.com/YungeCui/LinK3Dでリリースします。

Feature extraction and matching are the basic parts of many robotic vision tasks, such as 2D or 3D object detection, recognition, and registration. As is known, 2D feature extraction and matching have already achieved great success. Unfortunately, in the field of 3D, the current methods may fail to support the extensive application of 3D LiDAR sensors in robotic vision tasks due to their poor descriptiveness and inefficiency. To address this limitation, we propose a novel 3D feature representation method: Linear Keypoints representation for 3D LiDAR point cloud, called LinK3D. The novelty of LinK3D lies in that it fully considers the characteristics (such as the sparsity and complexity) of LiDAR point clouds and represents the keypoint with its robust neighbor keypoints, which provide strong constraints in the description of the keypoint. The proposed LinK3D has been evaluated on three public datasets, and the experimental results show that our method achieves great matching performance. More importantly, LinK3D also shows excellent real-time performance, faster than the sensor frame rate at 10 Hz of a typical rotating LiDAR sensor. LinK3D only takes an average of 30 milliseconds to extract features from the point cloud collected by a 64-beam LiDAR and takes merely about 20 milliseconds to match two LiDAR scans when executed on a computer with an Intel Core i7 processor. Moreover, our method can be extended to LiDAR odometry task, and shows good scalability. We release the implementation of our method at https://github.com/YungeCui/LinK3D.
翻訳日:2024-01-11 18:15:46 公開日:2024-01-10
# プロンプト調整のためのプロンプトアライメント勾配

Prompt-aligned Gradient for Prompt Tuning ( http://arxiv.org/abs/2205.14865v3 )

ライセンス: Link先を確認
Beier Zhu and Yulei Niu and Yucheng Han and Yue Wu and Hanwang Zhang(参考訳) CLIPのような大規模な事前学習された視覚言語モデル(VLM)により、画像の「[CLASS]」である画像の信頼度スコアを画像と「[CLASS]の写真」との類似度尺度で得られるように、ゼロショット分類器を"prompt"で作成することができる。 したがって、プロンプトは、プロンプトベースの類似度尺度を微調整すれば、下流タスクへのVLMの高速適応の可能性を示す。 しかしながら、不適切な微調整がタスク関連クラスに対するプロンプト固有の予測を損なうだけでなく、VLM語彙の他のクラスに対しても、よくある失敗が見つかる。 既存の手法では、早期停止やデータ拡張といった従来のオーバーフィット防止手法を使用してもこの問題に対処している。 我々は,vlmsから得られる一般的な知識を忘れないように,progradと呼ばれるプロンプトアライメント勾配を提案する。 特に、progradは、事前定義されたプロンプト予測のkl損失の勾配として表される「一般方向」に勾配をアライン(または非衝突)するプロンプトのみを更新する。 広汎な実験は、最先端のプロンプトチューニング手法に対するProGradのより強力な数発の一般化能力を示す。 コードはhttps://github.com/BeierZhu/Prompt-align.comで入手できる。

Thanks to the large pre-trained vision-language models (VLMs) like CLIP, we can craft a zero-shot classifier by "prompt", e.g., the confidence score of an image being "[CLASS]" can be obtained by using the VLM provided similarity measure between the image and the prompt sentence "a photo of a [CLASS]". Therefore, prompt shows a great potential for fast adaptation of VLMs to downstream tasks if we fine-tune the prompt-based similarity measure. However, we find a common failure that improper fine-tuning may not only undermine the prompt's inherent prediction for the task-related classes, but also for other classes in the VLM vocabulary. Existing methods still address this problem by using traditional anti-overfitting techniques such as early stopping and data augmentation, which lack a principled solution specific to prompt. We present Prompt-aligned Gradient, dubbed ProGrad, to prevent prompt tuning from forgetting the the general knowledge learned from VLMs. In particular, ProGrad only updates the prompt whose gradient is aligned (or non-conflicting) to the "general direction", which is represented as the gradient of the KL loss of the pre-defined prompt prediction. Extensive experiments demonstrate the stronger few-shot generalization ability of ProGrad over state-of-the-art prompt tuning methods. Codes are available at https://github.com/BeierZhu/Prompt-align.
翻訳日:2024-01-11 18:15:17 公開日:2024-01-10
# 境界モデルを用いた散乱不確かさログのオフラインおよびオンラインエネルギー効率モニタリング

Offline and online energy-efficient monitoring of scattered uncertain logs using a bounding model ( http://arxiv.org/abs/2204.11505v5 )

ライセンス: Link先を確認
Bineet Ghosh and \'Etienne Andr\'e(参考訳) 分散サイバー物理システムの正確性を監視することは不可欠である。 潜在的な安全性違反の検出は、いくつかのサンプルが不確実または欠落している場合に難しい。 ここではブラックボックスのサイバー物理システムを監視し、ログは状態とタイムスタンプの両方で不確実である。 さらに、動的システムの非線形拡張によって与えられる過近似だが表現的モデルを利用する。 オフラインログを前提にすれば,不正アラームの数を限定して,安全仕様に対するログ監視が可能になります。 第2の貢献として,エネルギッシュな効率を目標として,サンプルトリガー数を最小化する手法をオンライン上で実施できることを実証した。 我々は,3つのベンチマーク,麻酔モデル,適応型クルーズコントローラ,航空機軌道システムにアプローチを適用した。

Monitoring the correctness of distributed cyber-physical systems is essential. Detecting possible safety violations can be hard when some samples are uncertain or missing. We monitor here black-box cyber-physical system, with logs being uncertain both in the state and timestamp dimensions: that is, not only the logged value is known with some uncertainty, but the time at which the log was made is uncertain too. In addition, we make use of an over-approximated yet expressive model, given by a non-linear extension of dynamical systems. Given an offline log, our approach is able to monitor the log against safety specifications with a limited number of false alarms. As a second contribution, we show that our approach can be used online to minimize the number of sample triggers, with the aim at energetic efficiency. We apply our approach to three benchmarks, an anesthesia model, an adaptive cruise controller and an aircraft orbiting system.
翻訳日:2024-01-11 18:14:47 公開日:2024-01-10
# 観測実世界データに対する平均治療効果推定のための二重ロバストな手法と機械学習の組み合わせ

Combining Doubly Robust Methods and Machine Learning for Estimating Average Treatment Effects for Observational Real-world Data ( http://arxiv.org/abs/2204.10969v4 )

ライセンス: Link先を確認
Xiaoqing Tan, Shu Yang, Wenyu Ye, Douglas E. Faries, Ilya Lipkovich, Zbigniew Kadziola(参考訳) 観察コホート研究は、治療の安全性を評価するために比較有効性の研究にますます使われている。 近年, マッチング, 重み付け, 回帰など, 異なる車両による処理モデルと結果モデルを組み合わせることで, 平均処理効果推定のための2つのロバストな手法が提案されている。 二重頑健な推定器の鍵となる利点は、平均的な治療効果の一貫性のある推定器を得るためには、治療モデルまたは結果モデルのいずれかを正しく指定する必要があることである。 しかしながら、処理と結果モデルを使用するユニークな戦略と、機械学習技術を組み合わせてパフォーマンスを向上させる方法によって、二重に堅牢な推定器がどう異なるかを理解するための作業はほとんど行われていない。 本稿では,複数の2重ロバストな手法について検討し,広範囲なシミュレーションと実世界のアプリケーションを用いて,異なる処理と結果モデリングを用いてその性能を比較する。 その結果,機械学習を2つの頑健な推定器に組み込むことで,最適性能が得られることがわかった。 二重ロバストな推定器の適用方法に関する実践的ガイダンスを提供する。

Observational cohort studies are increasingly being used for comparative effectiveness research to assess the safety of therapeutics. Recently, various doubly robust methods have been proposed for average treatment effect estimation by combining the treatment model and the outcome model via different vehicles, such as matching, weighting, and regression. The key advantage of doubly robust estimators is that they require either the treatment model or the outcome model to be correctly specified to obtain a consistent estimator of average treatment effects, and therefore lead to a more accurate and often more precise inference. However, little work has been done to understand how doubly robust estimators differ due to their unique strategies of using the treatment and outcome models and how machine learning techniques can be combined to boost their performance. Here we examine multiple popular doubly robust methods and compare their performance using different treatment and outcome modeling via extensive simulations and a real-world application. We found that incorporating machine learning with doubly robust estimators such as the targeted maximum likelihood estimator gives the best overall performance. Practical guidance on how to apply doubly robust estimators is provided.
翻訳日:2024-01-11 18:14:32 公開日:2024-01-10
# 資源制約型無線ネットワーク制御システムにおけるセンシング設計への強化学習アプローチ

A Reinforcement Learning Approach to Sensing Design in Resource-Constrained Wireless Networked Control Systems ( http://arxiv.org/abs/2204.00703v5 )

ライセンス: Link先を確認
Luca Ballotta, Giovanni Peserico, Francesco Zanini(参考訳) 本稿では,ダイナミックなプロセスを監視し,グローバルな監視と意思決定を行う基地局に計測を送信する,センサ(エージェント)の無線ネットワークについて考察する。 スマートセンサーはセンシングと計算の両方を備えており、送信前に生の計測や処理を行うことができる。 制約されたエージェントリソースは、基本的な遅延精度のトレードオフを引き起こす。 一方、生の計測は不正確であるが、生産は早い。 一方で、リソース制約のあるプラットフォームでのデータ処理は、不要な計算遅延のコストで正確な測定結果を生成する。 さらに, 処理データも圧縮された場合, 無線通信によるレイテンシが高くなる可能性がある。 したがって、ネットワーク内のセンサーがいつどこで生計測を送信すべきか、あるいは時間を要する局所処理を活用するべきかを決定することは困難である。 この課題に対処するために,各センサで計測処理を行う際に動的に決定する効率的なポリシーを学習するための強化学習手法を提案する。 提案手法の有効性は,インターネット・オブ・ドローンによるスマートセンシングのケーススタディを用いて数値シミュレーションにより検証した。

In this paper, we consider a wireless network of smart sensors (agents) that monitor a dynamical process and send measurements to a base station that performs global monitoring and decision-making. Smart sensors are equipped with both sensing and computation, and can either send raw measurements or process them prior to transmission. Constrained agent resources raise a fundamental latency-accuracy trade-off. On the one hand, raw measurements are inaccurate but fast to produce. On the other hand, data processing on resource-constrained platforms generates accurate measurements at the cost of non-negligible computation latency. Further, if processed data are also compressed, latency caused by wireless communication might be higher for raw measurements. Hence, it is challenging to decide when and where sensors in the network should transmit raw measurements or leverage time-consuming local processing. To tackle this design problem, we propose a Reinforcement Learning approach to learn an efficient policy that dynamically decides when measurements are to be processed at each sensor. Effectiveness of our proposed approach is validated through a numerical simulation with case study on smart sensing motivated by the Internet of Drones.
翻訳日:2024-01-11 18:14:12 公開日:2024-01-10
# 凸凸鞍点問題の一般化的楽観的解法

Generalized Optimistic Methods for Convex-Concave Saddle Point Problems ( http://arxiv.org/abs/2202.09674v2 )

ライセンス: Link先を確認
Ruichen Jiang, Aryan Mokhtari(参考訳) 楽観的な勾配法は凸凹点問題の解法として人気が高まっている。 反復の複雑さを分析するために、最近の研究(arxiv: 1906.01115]は、この手法を近位点法の近似として解釈する興味深い視点を提案した。 本稿では,このアプローチに従い,楽観主義の基本概念を蒸留し,楽観的勾配法を特別に含む一般化楽観的手法を提案する。 汎用フレームワークは,複合目的関数を用いた制約付き鞍点問題を扱うことができ,ブレグマン距離を用いて任意のノルムを扱うことができる。 さらに,スムーズ性係数を知らずにステップサイズを選択するバックトラックライン探索手法を開発した。 一階,二階,高階のオラクルでメソッドをインスタンス化し,最もよく知られたグローバルなイテレーション複雑性境界を与える。 一階法では、目的関数が凸凸であるときに平均的反復関数が$O(1/N)$で収束し、目的関数が凸凸凸であるときに線形収束することを示す。 For our second- and higher-order methods, under the additional assumption that the distance-generating function has Lipschitz gradient, we prove a complexity bound of $O(1/\epsilon^\frac{2}{p+1})$ in the convex-concave setting and a complexity bound of $O((L_pD^\frac{p-1}{2}/\mu)^\frac{2}{p+1}+\log\log\frac{1}{\epsilon})$ in the strongly-convex-strongly-concave setting, where $L_p$ ($p\geq 2$) is the Lipschitz constant of the $p$-th-order derivative, $\mu$ is the strong convexity parameter, and $D$ is the initial Bregman distance to the saddle point. さらに,1次および2次探索方式では,1次および2次探索方式を実装しやすいものにするため,反復毎に一定数の呼び出ししか必要としない。

The optimistic gradient method has seen increasing popularity for solving convex-concave saddle point problems. To analyze its iteration complexity, a recent work [arXiv:1906.01115] proposed an interesting perspective that interprets this method as an approximation to the proximal point method. In this paper, we follow this approach and distill the underlying idea of optimism to propose a generalized optimistic method, which includes the optimistic gradient method as a special case. Our general framework can handle constrained saddle point problems with composite objective functions and can work with arbitrary norms using Bregman distances. Moreover, we develop a backtracking line search scheme to select the step sizes without knowledge of the smoothness coefficients. We instantiate our method with first-, second- and higher-order oracles and give best-known global iteration complexity bounds. For our first-order method, we show that the averaged iterates converge at a rate of $O(1/N)$ when the objective function is convex-concave, and it achieves linear convergence when the objective is strongly-convex-strongly-concave. For our second- and higher-order methods, under the additional assumption that the distance-generating function has Lipschitz gradient, we prove a complexity bound of $O(1/\epsilon^\frac{2}{p+1})$ in the convex-concave setting and a complexity bound of $O((L_pD^\frac{p-1}{2}/\mu)^\frac{2}{p+1}+\log\log\frac{1}{\epsilon})$ in the strongly-convex-strongly-concave setting, where $L_p$ ($p\geq 2$) is the Lipschitz constant of the $p$-th-order derivative, $\mu$ is the strong convexity parameter, and $D$ is the initial Bregman distance to the saddle point. Moreover, our line search scheme provably only requires a constant number of calls to a subproblem solver per iteration on average, making our first- and second-order methods particularly amenable to implementation.
翻訳日:2024-01-11 18:13:57 公開日:2024-01-10
# 線形バックプロパゲーションの理論的考察とその収束性

A Theoretical View of Linear Backpropagation and Its Convergence ( http://arxiv.org/abs/2112.11018v2 )

ライセンス: Link先を確認
Ziang Li, Yiwen Guo, Haodi Liu, and Changshui Zhang(参考訳) バックプロパゲーション(BP)はディープニューラルネットワーク(DNN)の勾配を計算するために広く使われている。 BPは確率勾配降下(SGD)またはその変種とともにしばしば適用され、DNNトレーニングや敵攻撃/防御を含むさまざまな機械学習タスクにおいてデファクト選択とみなされる。 最近では、Guoらによるブラックボックス攻撃の実行において、より伝達可能な逆の例を生成するためにLinBPと呼ばれるBPの線形変種が導入された。 ブラックボックス攻撃では実証的に有効であることが示されているが、理論的研究や収束解析は不十分である。 本稿では,ニューラルネットワークによる学習課題におけるLinBPの理論的解析から,敵対的攻撃やモデルトレーニングまで,Guoらの論文を補完するものとして機能する。 意外なことに、LinBPは、BPと比較して、これらのタスクを同じハイパーパラメータ設定でより早く収束させることができる。 理論結果を広範な実験で確認する。

Backpropagation (BP) is widely used for calculating gradients in deep neural networks (DNNs). Applied often along with stochastic gradient descent (SGD) or its variants, BP is considered as a de-facto choice in a variety of machine learning tasks including DNN training and adversarial attack/defense. Recently, a linear variant of BP named LinBP was introduced for generating more transferable adversarial examples for performing black-box attacks, by Guo et al. Although it has been shown empirically effective in black-box attacks, theoretical studies and convergence analyses of such a method is lacking. This paper serves as a complement and somewhat an extension to Guo et al.'s paper, by providing theoretical analyses on LinBP in neural-network-involved learning tasks, including adversarial attack and model training. We demonstrate that, somewhat surprisingly, LinBP can lead to faster convergence in these tasks in the same hyper-parameter settings, compared to BP. We confirm our theoretical results with extensive experiments.
翻訳日:2024-01-11 18:13:23 公開日:2024-01-10
# 適応型ジョイント分布学習

Adaptive joint distribution learning ( http://arxiv.org/abs/2110.04829v4 )

ライセンス: Link先を確認
Damir Filipovic and Michael Multerer and Paul Schneider(参考訳) 我々は、テンソル積再現核ヒルベルト空間 (rkhs) に合同確率分布を埋め込むための新しい枠組みを開発した。 我々のフレームワークはRKHSモデリングの本質的な制約を緩和し,最大数百万のデータポイントのサンプルサイズから推定するRandon-Nikodym誘導体の低次元,正規化,正のモデルに対応している。 よく定義された正規化および正条件分布は、我々のアプローチにとって自然な副産物である。 この埋め込みは計算が速く、予測から分類までの学習問題に対応している。 理論的結果は良好な数値結果によって補われている。

We develop a new framework for embedding joint probability distributions in tensor product reproducing kernel Hilbert spaces (RKHS). Our framework accommodates a low-dimensional, normalized and positive model of a Radon-Nikodym derivative, which we estimate from sample sizes of up to several million data points, alleviating the inherent limitations of RKHS modeling. Well-defined normalized and positive conditional distributions are natural by-products to our approach. The embedding is fast to compute and accommodates learning problems ranging from prediction to classification. Our theoretical findings are supplemented by favorable numerical results.
翻訳日:2024-01-11 18:13:04 公開日:2024-01-10
# 非線形リッジバンディットの統計的複雑性と最適アルゴリズム

Statistical Complexity and Optimal Algorithms for Non-linear Ridge Bandits ( http://arxiv.org/abs/2302.06025v3 )

ライセンス: Link先を確認
Nived Rajaraman, Yanjun Han, Jiantao Jiao, Kannan Ramchandran(参考訳) 平均結果が選択された行動の非線形関数である逐次意思決定問題を考える。 線形モデルと比較すると、2つの興味深い現象が非線形モデルに現れる: 第一に、推定または後悔のための標準パラメトリックレートの「学習フェーズ」に加えて、非線形関数によって決定される固定コストの「バーンイン期間」が存在し、第二に、最小のバーンインコストを達成するためには新しい探索アルゴリズムが必要である。 文献におけるリッジ関数と呼ばれる非線形関数の特別な族について、最適なバーンインコストの上限と下限を導出し、さらに微分方程式を用いてバーンイン期間の学習軌跡全体を導出する。 特に、2段階のアルゴリズムはまず良い初期作用を見つけ、その問題を局所線型として扱うことは統計的に最適である。 対照的に、UTBや回帰オラクルに依存するアルゴリズムのような古典的なアルゴリズムは、明らかに準最適である。

We consider the sequential decision-making problem where the mean outcome is a non-linear function of the chosen action. Compared with the linear model, two curious phenomena arise in non-linear models: first, in addition to the "learning phase" with a standard parametric rate for estimation or regret, there is an "burn-in period" with a fixed cost determined by the non-linear function; second, achieving the smallest burn-in cost requires new exploration algorithms. For a special family of non-linear functions named ridge functions in the literature, we derive upper and lower bounds on the optimal burn-in cost, and in addition, on the entire learning trajectory during the burn-in period via differential equations. In particular, a two-stage algorithm that first finds a good initial action and then treats the problem as locally linear is statistically optimal. In contrast, several classical algorithms, such as UCB and algorithms relying on regression oracles, are provably suboptimal.
翻訳日:2024-01-11 18:08:52 公開日:2024-01-10
# SemPPL: より良いコントラスト表現のための擬似ラベル予測

SemPPL: Predicting pseudo-labels for better contrastive representations ( http://arxiv.org/abs/2301.05158v2 )

ライセンス: Link先を確認
Matko Bo\v{s}njak, Pierre H. Richemond, Nenad Tomasev, Florian Strub, Jacob C. Walker, Felix Hill, Lars Holger Buesing, Razvan Pascanu, Charles Blundell, Jovana Mitrovic(参考訳) 大量の教師なしデータと少量の監督データから学ぶことは、コンピュータビジョンにおいて重要なオープンな問題である。 本稿では,ラベル付きデータとラベルなしデータを組み合わせて情報表現を学習する半教師付き学習手法であるSemantic Positivesを提案する。 提案手法は, 自己教師付きコントラスト学習を拡張し, 2つのサンプルが同一のデイタム(正)を表現しているか(負)を識別することで表現を形作る。 正の集合を豊かにするために、ラベル付きデータの学習埋め込みを用いて、既存の基盤トラスラベルを利用して、不足したラベルを$k$-nearest 近傍の分類器で予測する。 したがって、同じ擬似ラベルを持つデータポイントで正の集合を拡張し、これらの意味的正を呼び出す。 我々は、表現を共同で学習し、自己ストラップ付き擬似ラベルを予測する。 これは強化サイクルを生み出します。 強い初期表現は、より良い擬似ラベル予測を可能にし、セマンティックポジティクスの選択を改善し、さらに優れた表現をもたらす。 SemPPLは、ResNet-50$の使用とImageNet上のラベルの1\%$と10\%$のトレーニングにおいて、新しい最先端のパフォーマンスを68.5\%と7.6\%$で設定する競合する半教師方式よりも優れている。 さらに、選択的なカーネルを使用する場合、SemPPLは、ImageNetで72.3 %$と78.3 %$のトップ-$1$の精度で、それぞれ1\%$と10\%$の精度で、絶対的な$+7.8 %$と$+6.2 %の精度を向上している。 SemPPLはまた、より大きなResNetモデルに対する最先端のパフォーマンス、強力な堅牢性、アウト・オブ・ディストリビューション、転送性能を示している。 チェックポイントと評価コードはhttps://github.com/deepmind/semppl で公開しています。

Learning from large amounts of unsupervised data and a small amount of supervision is an important open problem in computer vision. We propose a new semi-supervised learning method, Semantic Positives via Pseudo-Labels (SemPPL), that combines labelled and unlabelled data to learn informative representations. Our method extends self-supervised contrastive learning -- where representations are shaped by distinguishing whether two samples represent the same underlying datum (positives) or not (negatives) -- with a novel approach to selecting positives. To enrich the set of positives, we leverage the few existing ground-truth labels to predict the missing ones through a $k$-nearest neighbours classifier by using the learned embeddings of the labelled data. We thus extend the set of positives with datapoints having the same pseudo-label and call these semantic positives. We jointly learn the representation and predict bootstrapped pseudo-labels. This creates a reinforcing cycle. Strong initial representations enable better pseudo-label predictions which then improve the selection of semantic positives and lead to even better representations. SemPPL outperforms competing semi-supervised methods setting new state-of-the-art performance of $68.5\%$ and $76\%$ top-$1$ accuracy when using a ResNet-$50$ and training on $1\%$ and $10\%$ of labels on ImageNet, respectively. Furthermore, when using selective kernels, SemPPL significantly outperforms previous state-of-the-art achieving $72.3\%$ and $78.3\%$ top-$1$ accuracy on ImageNet with $1\%$ and $10\%$ labels, respectively, which improves absolute $+7.8\%$ and $+6.2\%$ over previous work. SemPPL also exhibits state-of-the-art performance over larger ResNet models as well as strong robustness, out-of-distribution and transfer performance. We release the checkpoints and the evaluation code at https://github.com/deepmind/semppl .
翻訳日:2024-01-11 18:06:39 公開日:2024-01-10
# t-SMILES:デノボ分子生成のためのスケーラブルフラグメントに基づく分子表現フレームワーク

t-SMILES: A Scalable Fragment-based Molecular Representation Framework for De Novo Molecule Generation ( http://arxiv.org/abs/2301.01829v3 )

ライセンス: Link先を確認
Juan-Ni Wu, Tong Wang, Yue Chen, Li-Juan Tang, Hai-Long Wu, Ru-Qin Yu(参考訳) 分子の効果的な表現は、人工知能モデルの性能に影響を与える重要な要素である。 本研究では, TSSA (t-SMILES with Shared Atom) , TSDY (t-SMILES with Dummy Atom) , TSID (t-SMILES with ID) の3つのコードアルゴリズムを用いた, 柔軟な, フラグメントベースのマルチスケール分子表現フレームワークを提案する。 フラグメント化された分子グラフから生成された全二分木上で幅優先探索を行うことにより得られるSMILES型文字列を用いて分子を記述する。 JTVAE, BRICS, MMPA, Scaffold を用いた系統評価では, 様々な記述が相互に補完し, 全体的な性能を向上させるマルチコード分子記述システムの構築が可能であった。 さらに、モデルがオリジナルであれ、データ拡張であれ、あるいはトレーニング済みの微調整であれ、低リソースデータセットに印象的なパフォーマンスを示す。 従来のSMILES、DeepSMILES、SELFIES、ベースラインモデルをゴール指向タスクで大幅に上回っている。 さらに、ChEMBL、Zinc、QM9に基づく、最先端のフラグメント、グラフ、SMILESベースのアプローチを上回る。

Effective representation of molecules is a crucial factor affecting the performance of artificial intelligence models. This study introduces a flexible, fragment-based, multiscale molecular representation framework called t-SMILES (tree-based SMILES) with three code algorithms: TSSA (t-SMILES with Shared Atom), TSDY (t-SMILES with Dummy Atom) and TSID (t-SMILES with ID). It describes molecules using SMILES-type strings obtained by performing a breadth-first search on a full binary tree formed from a fragmented molecular graph. Systematic evaluations using JTVAE, BRICS, MMPA, and Scaffold show the feasibility to construct a multi-code molecular description system, where various descriptions complement each other, enhancing the overall performance. Additionally, it exhibits impressive performance on low-resource datasets, whether the model is original, data augmented, or pre-training fine-tuned. It significantly outperforms classical SMILES, DeepSMILES, SELFIES and baseline models in goal-directed tasks. Furthermore, it surpasses start-of-the-art fragment, graph and SMILES based approaches on ChEMBL, Zinc, and QM9.
翻訳日:2024-01-11 18:05:22 公開日:2024-01-10
# 一次元量子格子モデルの双対性:位相セクター

Dualities in one-dimensional quantum lattice models: topological sectors ( http://arxiv.org/abs/2211.03777v2 )

ライセンス: Link先を確認
Laurens Lootens, Clement Delcamp, Frank Verstraete(参考訳) 双対理論のスペクトルを相互に関連付けるための一般的な枠組みを構築することは長年の未解決問題であった。 ここでは,対称性を持つ境界条件を持つ1次元量子格子モデルについて,この問題を解く。 refで。 [PRX Quantum 4, 020357],双対性は加群圏の選択のみが異なる(分類的に)対称モデルの間で定義される。 行列積作用素を用いて、境界条件を保存するモジュール関手明示対称性作用素のデータから構成し、双対モデルの位相セクターを互いにマッピングする。 我々は、スピン-$\frac{1}{2}$ Heisenberg XXZ モデルの双対類に属する一連の例を用いて、我々の構成を説明する。 あるモデルは対称作用素を持ち、群 $\mathcal s_3$ の表現の融合圏 $\mathsf{rep}(\mathcal s_3)$ を形成する。 そのトポロジカルセクターとXXZモデルのマッピングは、ドリンフェル中心が$\mathsf{Rep}(\mathcal S_3)$の非自明な自己同値と関係している。

It has been a long-standing open problem to construct a general framework for relating the spectra of dual theories to each other. Here, we solve this problem for the case of one-dimensional quantum lattice models with symmetry-twisted boundary conditions. In ref. [PRX Quantum 4, 020357], dualities are defined between (categorically) symmetric models that only differ in a choice of module category. Using matrix product operators, we construct from the data of module functors explicit symmetry operators preserving boundary conditions as well as intertwiners mapping topological sectors of dual models onto one another. We illustrate our construction with a family of examples that are in the duality class of the spin-$\frac{1}{2}$ Heisenberg XXZ model. One model has symmetry operators forming the fusion category $\mathsf{Rep}(\mathcal S_3)$ of representations of the group $\mathcal S_3$. We find that the mapping between its topological sectors and those of the XXZ model is associated with the non-trivial braided auto-equivalence of the Drinfel'd center of $\mathsf{Rep}(\mathcal S_3)$.
翻訳日:2024-01-11 18:04:55 公開日:2024-01-10
# ペルソナ適応注意によるパーソナライズされた対話生成

Personalized Dialogue Generation with Persona-Adaptive Attention ( http://arxiv.org/abs/2210.15088v4 )

ライセンス: Link先を確認
Qiushi Huang, Yu Zhang, Tom Ko, Xubo Liu, Bo Wu, Wenwu Wang, Lilian Tang(参考訳) ペルソナベースの対話システムは、歴史的な文脈と予め定義されたパーソナに基づいて一貫した応答を生成することを目的としている。 従来の対話生成とは異なり、ペルソナベースの対話は対話コンテキストとペルソナの両方を考慮する必要があり、コヒーレントトレーニングの課題となっている。 具体的には、コンテキストとペルソナの微妙な重量バランスが必要です。 そこで本研究では,ペルソナ適応注意(PAA)を用いた効果的な枠組みを提案する。 さらに、PAAに動的マスキング機構を適用して、冗長情報をコンテキストやペルソナにドロップするだけでなく、オーバーフィッティングを回避するための正規化機構として機能する。 提案したPAAフレームワークは, 自動評価と人的評価の双方において, 強いベースラインよりも優れていることを示す実験結果を得た。 さらに,提案手法は,全データ設定でトレーニングされたモデルと比較して低リソース環境で同等の性能を発揮することができ,全データ設定でトレーニングされた大規模モデルと比較して20%から30%のデータしか得られない。 設計の有効性を最大限に活用するために,重み付けされた情報を異なる方法で扱うためのいくつかの変種を設計し,重み付けとマスキング設計の必要性と不十分さを示した。

Persona-based dialogue systems aim to generate consistent responses based on historical context and predefined persona. Unlike conventional dialogue generation, the persona-based dialogue needs to consider both dialogue context and persona, posing a challenge for coherent training. Specifically, this requires a delicate weight balance between context and persona. To achieve that, in this paper, we propose an effective framework with Persona-Adaptive Attention (PAA), which adaptively integrates the weights from the persona and context information via our designed attention. In addition, a dynamic masking mechanism is applied to the PAA to not only drop redundant information in context and persona but also serve as a regularization mechanism to avoid overfitting. Experimental results demonstrate the superiority of the proposed PAA framework compared to the strong baselines in both automatic and human evaluation. Moreover, the proposed PAA approach can perform equivalently well in a low-resource regime compared to models trained in a full-data setting, which achieve a similar result with only 20% to 30% of data compared to the larger models trained in the full-data setting. To fully exploit the effectiveness of our design, we designed several variants for handling the weighted information in different ways, showing the necessity and sufficiency of our weighting and masking designs.
翻訳日:2024-01-11 18:04:36 公開日:2024-01-10
# 咬合者再識別のための並列増強と二重増強

Parallel Augmentation and Dual Enhancement for Occluded Person Re-identification ( http://arxiv.org/abs/2210.05438v3 )

ライセンス: Link先を確認
Zi Wang, Huaibo Huang, Aihua Zheng, Chenglong Li, Ran He(参考訳) 被写体再同定(re-id:occluded person re-id)は、被写体環境における同一人物の画像を検索する作業であり、過去数十年間で多くの注目を集めている。 近年のアプローチでは、データ/機能拡張による閉塞データの性能向上や、隠蔽予測に余分なモデルの利用に重点を置いている。 しかし、この課題における不均衡問題を無視し、トレーニングデータからの情報を完全に活用できない。 これら2つの課題を緩和するため,我々は並列拡張と2重拡張 (pade) を用いた簡易かつ効果的な手法を提案する。 まず,不均衡データの悪影響を軽減するために,より適切なオクルードデータを生成する並列拡張機構(pam)を設計する。 第2に,コンテキスト情報と詳細情報を促進するために,グローバル・ローカル・デュアル・エンハンスメント・ストラテジー(des)を提案する。 広く使用されている3つのoccludedデータセットと2つのnon-occludedデータセットの実験結果は,本手法の有効性を検証する。 コードはhttps://github.com/littleprince1121/PADE_Parallel_Augmentation_and_Dual_Enhancement_for_Occluded_Per son_ReIDで公開されている。

Occluded person re-identification (Re-ID), the task of searching for the same person's images in occluded environments, has attracted lots of attention in the past decades. Recent approaches concentrate on improving performance on occluded data by data/feature augmentation or using extra models to predict occlusions. However, they ignore the imbalance problem in this task and can not fully utilize the information from the training data. To alleviate these two issues, we propose a simple yet effective method with Parallel Augmentation and Dual Enhancement (PADE), which is robust on both occluded and non-occluded data and does not require any auxiliary clues. First, we design a parallel augmentation mechanism (PAM) to generate more suitable occluded data to mitigate the negative effects of unbalanced data. Second, we propose the global and local dual enhancement strategy (DES) to promote the context information and details. Experimental results on three widely used occluded datasets and two non-occluded datasets validate the effectiveness of our method. The code is available at https://github.com/littleprince1121/PADE_Parallel_Augmentation_and_Dual_Enhancement_for_Occluded_Per son_ReID
翻訳日:2024-01-11 18:04:12 公開日:2024-01-10
# 超分解能のためのQuantNAS : 量子化ノイズに対する効率的な量子化フレンドリなアーキテクチャの探索

QuantNAS for super resolution: searching for efficient quantization-friendly architectures against quantization noise ( http://arxiv.org/abs/2208.14839v4 )

ライセンス: Link先を確認
Egor Shvetsov, Dmitry Osin, Alexey Zaytsev, Ivan Koryakovskiy, Valentin Buchnev, Ilya Trofimov, Evgeny Burnaev(参考訳) 画像超解像のための高性能で計算効率のよいニューラルネットワークモデルには、常に必要である:計算効率のよいモデルは、低容量デバイスを介して使用でき、炭素フットプリントを削減できる。 そのようなモデルを得る一つの方法は、例えば量子化のようなモデルを圧縮することである。 別の方法は、新しいより効率的なソリューションを自動的に発見するニューラルネットワーク検索だ。 本稿では,これら2つの手法のプロースを組み合わせた新しい量子化対応手法QuantanaSを提案する。 quantnasを機能させるために、この手順は量子化フレンドリーなスーパーレゾリューションモデルを探す。 本手法は, エントロピー正規化, 量子化雑音, およびadqモジュールの適応偏差を利用して探索手順を強化する。 エントロピー正規化技法は、探索空間の各ブロック内で単一の演算を優先する。 パラメータとアクティベーションに量子化ノイズを加えると、量子化後のモデルの劣化を近似し、量子化フレンドリなアーキテクチャとなる。 ADQは超解像モデルにおけるバッチノームブロックによる問題を緩和するのに役立つ。 実験の結果,提案手法は直接モデル量子化よりも探索手順に適していることがわかった。 QuantNASは、固定アーキテクチャの均一または混合精度量子化よりも優れたPSNR/BitOpsトレードオフを持つアーキテクチャを発見する。 本稿では,最先端のSRモデルとRFDNにインスパイアされた2つの探索空間に適用することで,本手法の有効性を示す。 したがって、既存のアーキテクチャに基づいて適切な検索空間を設計し、我々の手法を適用してより良い品質と効率を得ることができる。 提案手法は直接重み量子化よりも30\%高速であり,より安定である。

There is a constant need for high-performing and computationally efficient neural network models for image super-resolution: computationally efficient models can be used via low-capacity devices and reduce carbon footprints. One way to obtain such models is to compress models, e.g. quantization. Another way is a neural architecture search that automatically discovers new, more efficient solutions. We propose a novel quantization-aware procedure, the QuantNAS that combines pros of these two approaches. To make QuantNAS work, the procedure looks for quantization-friendly super-resolution models. The approach utilizes entropy regularization, quantization noise, and Adaptive Deviation for Quantization (ADQ) module to enhance the search procedure. The entropy regularization technique prioritizes a single operation within each block of the search space. Adding quantization noise to parameters and activations approximates model degradation after quantization, resulting in a more quantization-friendly architectures. ADQ helps to alleviate problems caused by Batch Norm blocks in super-resolution models. Our experimental results show that the proposed approximations are better for search procedure than direct model quantization. QuantNAS discovers architectures with better PSNR/BitOps trade-off than uniform or mixed precision quantization of fixed architectures. We showcase the effectiveness of our method through its application to two search spaces inspired by the state-of-the-art SR models and RFDN. Thus, anyone can design a proper search space based on an existing architecture and apply our method to obtain better quality and efficiency. The proposed procedure is 30\% faster than direct weight quantization and is more stable.
翻訳日:2024-01-11 18:03:50 公開日:2024-01-10
# ロボットタスクのための後見体験リプレイにおけるクラスタベースサンプリング(sudent abstract)

Cluster-based Sampling in Hindsight Experience Replay for Robotic Tasks (Student Abstract) ( http://arxiv.org/abs/2208.14741v4 )

ライセンス: Link先を確認
Taeyoung Kim, Dongsoo Har(参考訳) 双対報酬の少ないマルチゴール強化学習では、経験不足のため、トレーニングエージェントは特に困難である。 この問題を解決するため、hindsight experience replay(her)は失敗例からでも成功した経験を生成する。 しかし、一様にサンプルされたものから成功した経験を生み出すことは効率のよいプロセスではない。 本稿では,達成目標の特性を生かして経験を成功させる効果について検討し,新しいクラスターベースサンプリング戦略を提案する。 提案するサンプリング戦略は,クラスタモデルを用いて異なる達成目標を持つエピソードをグループ化し,訓練バッチの作成に彼女のやり方でサンプル実験を行う。 提案手法は,OpenAI Gymの3つのロボット制御タスクを用いた実験により検証された。 実験の結果,提案手法は実質的にサンプル効率が良く,ベースライン手法よりも優れた性能が得られた。

In multi-goal reinforcement learning with a sparse binary reward, training agents is particularly challenging, due to a lack of successful experiences. To solve this problem, hindsight experience replay (HER) generates successful experiences even from unsuccessful ones. However, generating successful experiences from uniformly sampled ones is not an efficient process. In this paper, the impact of exploiting the property of achieved goals in generating successful experiences is investigated and a novel cluster-based sampling strategy is proposed. The proposed sampling strategy groups episodes with different achieved goals by using a cluster model and samples experiences in the manner of HER to create the training batch. The proposed method is validated by experiments with three robotic control tasks of the OpenAI Gym. The results of experiments demonstrate that the proposed method is substantially sample efficient and achieves better performance than baseline approaches.
翻訳日:2024-01-11 18:03:27 公開日:2024-01-10
# 低曲げおよび低歪多様体埋め込みの収束オートエンコーダ近似

Convergent autoencoder approximation of low bending and low distortion manifold embeddings ( http://arxiv.org/abs/2208.10193v2 )

ライセンス: Link先を確認
Juliane Braunsmann, Marko Rajkovi\'c, Martin Rumpf, Benedikt Wirth(参考訳) エンコーダとデコーダで構成されるオートエンコーダは、高次元データの次元削減に機械学習で広く利用されている。 エンコーダは入力データ多様体を低次元の潜在空間に埋め込み、デコーダは逆写像を表し、潜在空間における多様体によるデータ多様体のパラメトリゼーションを提供する。 組み込み多様体の適切な規則性と構造は、クラスタ分析やデータ補間のようなさらなるデータ処理タスクを実質的に単純化するかもしれない。 本稿では,オートエンコーダのエンコーダ成分を学習するための新しい正規化を提案し,解析する。 トレーニングを行うには、入力多様体上の近傍点のペアに対して、局所リーマン距離とその局所リーマン平均を評価することができると仮定する。 損失汎関数は、入力多様体上の点対に対する異なるサンプリング戦略を伴うモンテカルロ積分によって計算される。 我々の主定理は埋め込み写像の幾何損失汎函数をサンプリング依存損失汎函数の$\gamma$-limit として定義する。 与えられた異なるデータ多様体をエンコードする画像データを用いた数値実験では、滑らかな多様体を潜在空間に埋め込むことが示されている。 外部平坦性の促進により、これらの埋め込みは、多様体上のあまり遠くない点の間の補間が、潜在空間における線型補間によって十分近似されるような正則である。

Autoencoders, which consist of an encoder and a decoder, are widely used in machine learning for dimension reduction of high-dimensional data. The encoder embeds the input data manifold into a lower-dimensional latent space, while the decoder represents the inverse map, providing a parametrization of the data manifold by the manifold in latent space. A good regularity and structure of the embedded manifold may substantially simplify further data processing tasks such as cluster analysis or data interpolation. We propose and analyze a novel regularization for learning the encoder component of an autoencoder: a loss functional that prefers isometric, extrinsically flat embeddings and allows to train the encoder on its own. To perform the training it is assumed that for pairs of nearby points on the input manifold their local Riemannian distance and their local Riemannian average can be evaluated. The loss functional is computed via Monte Carlo integration with different sampling strategies for pairs of points on the input manifold. Our main theorem identifies a geometric loss functional of the embedding map as the $\Gamma$-limit of the sampling-dependent loss functionals. Numerical tests, using image data that encodes different explicitly given data manifolds, show that smooth manifold embeddings into latent space are obtained. Due to the promotion of extrinsic flatness, these embeddings are regular enough such that interpolation between not too distant points on the manifold is well approximated by linear interpolation in latent space as one possible postprocessing.
翻訳日:2024-01-11 18:03:12 公開日:2024-01-10
# GANDALF: 機能の深層自動学習のための拡張適応ネットワーク

GANDALF: Gated Adaptive Network for Deep Automated Learning of Features ( http://arxiv.org/abs/2207.08548v6 )

ライセンス: Link先を確認
Manu Joseph, Harsh Raj(参考訳) 本稿では,グラフデータのための新しい高性能,解釈可能,パラメータ \&計算効率のよいディープラーニングアーキテクチャ,GANDALF (Gated Adaptive Network for Deep Automated Learning of Features)を提案する。 GANDALFは、ゲーティング機構を備えた新しい表処理ユニットと、特徴表現学習ユニットとしてGFLU(Gated Feature Learning Unit)と呼ばれる内蔵機能選択に依存している。 GANDALFは、XGBoost、SAINT、FT-TransformersなどのSOTAアプローチと、複数の確立された公開ベンチマークでの実験により、より優れているか、同等であることを示す。 コードはgithub.com/manujosephv/pytorch_tabularでmitライセンスで公開しました。

We propose a novel high-performance, interpretable, and parameter \& computationally efficient deep learning architecture for tabular data, Gated Adaptive Network for Deep Automated Learning of Features (GANDALF). GANDALF relies on a new tabular processing unit with a gating mechanism and in-built feature selection called Gated Feature Learning Unit (GFLU) as a feature representation learning unit. We demonstrate that GANDALF outperforms or stays at-par with SOTA approaches like XGBoost, SAINT, FT-Transformers, etc. by experiments on multiple established public benchmarks. We have made available the code at github.com/manujosephv/pytorch_tabular under MIT License.
翻訳日:2024-01-11 18:02:51 公開日:2024-01-10
# 単調欠落データ計算と次元減少のためのブロックワイド主成分分析

Blockwise Principal Component Analysis for monotone missing data imputation and dimensionality reduction ( http://arxiv.org/abs/2305.06042v2 )

ライセンス: Link先を確認
Tu T. Do, Mai Anh Vu, Tuan L. Vo, Hoang Thien Ly, Thu Nguyen, Steven A. Hicks, Michael A. Riegler, P{\aa}l Halvorsen, and Binh T. Nguyen(参考訳) モノトーンデータ欠落はデータ分析において一般的な問題である。 しかし、特にデータセットのサイズが大きくなると、次元削減と組み合わせた計算コストがかかる。 この問題に対処するために,ブロックワイドの主成分分析計算(BPI)フレームワークを提案する。 このフレームワークは、データの各モノトンブロックの観測部分について主成分分析(PCA)を行い、選択された計算手法を用いて得られた主成分をマージする。 BPIは様々な計算手法で動作可能であり, 計算時間を大幅に短縮することができる。 これにより、モノトン欠落データを持つ大規模なデータセットに対して、実用的で効率的なアプローチとなる。 我々の実験はスピードの向上を検証する。 さらに,本実験では,MICE の計算をデータに直接適用しても収束は得られず,BPI をデータに適用すると収束する可能性が示唆された。

Monotone missing data is a common problem in data analysis. However, imputation combined with dimensionality reduction can be computationally expensive, especially with the increasing size of datasets. To address this issue, we propose a Blockwise principal component analysis Imputation (BPI) framework for dimensionality reduction and imputation of monotone missing data. The framework conducts Principal Component Analysis (PCA) on the observed part of each monotone block of the data and then imputes on merging the obtained principal components using a chosen imputation technique. BPI can work with various imputation techniques and can significantly reduce imputation time compared to conducting dimensionality reduction after imputation. This makes it a practical and efficient approach for large datasets with monotone missing data. Our experiments validate the improvement in speed. In addition, our experiments also show that while applying MICE imputation directly on missing data may not yield convergence, applying BPI with MICE for the data may lead to convergence.
翻訳日:2024-01-11 17:56:39 公開日:2024-01-10
# ランダムlpノルム劣化を伴う画像分類器の破壊ロバスト性の検討

Investigating the Corruption Robustness of Image Classifiers with Random Lp-norm Corruptions ( http://arxiv.org/abs/2305.05400v4 )

ライセンス: Link先を確認
Georg Siedel, Weijia Shao, Silvia Vock, Andrey Morozov(参考訳) 堅牢性は、安全性と信頼性を達成するために必要な機械学習分類器の基本特性である。 画像分類器の対向ロバストネスの分野では、ロバストネスはp-ノルム距離内の全ての入力変化に対するモデルの安定性として定義される。 しかしながら、ランダムな腐敗の堅牢性の分野では、現実世界で観測される変動が使われ、p-ノルムの腐敗はめったに考慮されない。 本研究では,画像分類器のトレーニングとテストデータを強化するために,ランダムなpノルム腐敗の利用を検討する。 既視的ランダムpノルム破壊に対するモデルロバスト性を評価し,新しいロバストネス指標を提案する。 p-ノルム間のロバスト性伝達とモデルがp-ノルム崩壊を訓練し評価すべき結論を導出するかどうかを実証的に検討する。 p-ノルムの汚職の組み合わせによるトレーニングデータの増大は、最先端のデータ増補スキームにおいても、汚職の堅牢性を大幅に向上させる。

Robustness is a fundamental property of machine learning classifiers required to achieve safety and reliability. In the field of adversarial robustness of image classifiers, robustness is commonly defined as the stability of a model to all input changes within a p-norm distance. However, in the field of random corruption robustness, variations observed in the real world are used, while p-norm corruptions are rarely considered. This study investigates the use of random p-norm corruptions to augment the training and test data of image classifiers. We evaluate the model robustness against imperceptible random p-norm corruptions and propose a novel robustness metric. We empirically investigate whether robustness transfers across different p-norms and derive conclusions on which p-norm corruptions a model should be trained and evaluated. We find that training data augmentation with a combination of p-norm corruptions significantly improves corruption robustness, even on top of state-of-the-art data augmentation schemes.
翻訳日:2024-01-11 17:56:22 公開日:2024-01-10
# 小型超伝導量子シミュレータにおけるデータ再アップロードによるハイブリッド量子学習

Hybrid quantum learning with data re-uploading on a small-scale superconducting quantum simulator ( http://arxiv.org/abs/2305.02956v2 )

ライセンス: Link先を確認
Aleksei Tolstobrov, Gleb Fedorov, Shtefan Sanduleanu, Shamil Kadyrmetov, Andrei Vasenin, Aleksey Bolgar, Daria Kalacheva, Viktor Lubsanov, Aleksandr Dorogov, Julia Zotova, Peter Shlykov, Aleksei Dmitriev, Konstantin Tikhonov, Oleg V. Astafiev(参考訳) スーパーバイザード量子学習(Supervised quantum learning)は、変分量子アルゴリズムと古典的機械学習の中間領域である。 本稿では, 量子シミュレータにより加速されるハイブリッド分類器モデルを実験的に検討し, マルチラベル分類と画像認識の問題を解くために訓練された4つの超伝導トランスモン人工原子の線形配列について検討した。 簡単なバイナリとマルチラベルのタスクで量子回路をトレーニングし、95%の分類精度を達成し、手書き十進数認識時に90%の精度でデータを再アップロードするハイブリッドモデルを構築した。 最後に, 実験条件下での推論時間を解析し, 量子モデルの性能を既知の古典解と比較する。

Supervised quantum learning is an emergent multidisciplinary domain bridging between variational quantum algorithms and classical machine learning. Here, we study experimentally a hybrid classifier model accelerated by a quantum simulator - a linear array of four superconducting transmon artificial atoms - trained to solve multilabel classification and image recognition problems. We train a quantum circuit on simple binary and multi-label tasks, achieving classification accuracy around 95%, and a hybrid model with data re-uploading with accuracy around 90% when recognizing handwritten decimal digits. Finally, we analyze the inference time in experimental conditions and compare the performance of the studied quantum model with known classical solutions.
翻訳日:2024-01-11 17:56:03 公開日:2024-01-10
# リアプノフ安定深層平衡モデル

Lyapunov-Stable Deep Equilibrium Models ( http://arxiv.org/abs/2304.12707v3 )

ライセンス: Link先を確認
Haoyu Chu, Shikui Wei, Ting Liu, Yao Zhao and Yuto Miyatake(参考訳) ディープ均衡モデル(Deep equilibrium Model, DEQ)は、単一の非線形層の固定点を解くことによって従来の深さを放棄する暗黙の層モデルである。 その成功にもかかわらず、これらのモデルの不動点の安定性は未だよく分かっていない。 非線形力学系としてDECモデルを考慮し、リアプノフ理論による証明可能な安定性を保証した頑健なDECモデルLyaDEQを提案する。 提案手法の要点は,DECモデルの固定点のリアプノフ安定性を保証することである。 リャプノフ安定な固定点が互いに近くにあることによる対角防御の悪さを避けるため、リャプノフ安定モジュールの後に層を直交させて異なる固定点を分離する。 我々は、LyaDEQモデルをよく知られた敵攻撃下で評価し、実験結果によりロバスト性に大きな改善が認められた。 さらに,LyaDEQモデルは,対戦訓練などの他の防御手法と組み合わせることで,より優れた対戦力を実現することができることを示す。

Deep equilibrium (DEQ) models have emerged as a promising class of implicit layer models, which abandon traditional depth by solving for the fixed points of a single nonlinear layer. Despite their success, the stability of the fixed points for these models remains poorly understood. By considering DEQ models as nonlinear dynamic systems, we propose a robust DEQ model named LyaDEQ with guaranteed provable stability via Lyapunov theory. The crux of our method is ensuring the Lyapunov stability of the DEQ model's fixed points, which enables the proposed model to resist minor initial perturbations. To avoid poor adversarial defense due to Lyapunov-stable fixed points being located near each other, we orthogonalize the layers after the Lyapunov stability module to separate different fixed points. We evaluate LyaDEQ models under well-known adversarial attacks, and experimental results demonstrate significant improvement in robustness. Furthermore, we show that the LyaDEQ model can be combined with other defense methods, such as adversarial training, to achieve even better adversarial robustness.
翻訳日:2024-01-11 17:55:24 公開日:2024-01-10
# SC-VAE:学習ISTAを用いたスパース符号化に基づく変分オートエンコーダ

SC-VAE: Sparse Coding-based Variational Autoencoder with Learned ISTA ( http://arxiv.org/abs/2303.16666v2 )

ライセンス: Link先を確認
Pan Xiao, Peijie Qiu, Sungmin Ha, Abdalla Bani, Shuang Zhou, Aristeidis Sotiras(参考訳) ラベルのないデータからリッチなデータ表現を学ぶことは、下流タスクにディープラーニングアルゴリズムを適用するための重要な課題である。 低次元空間に高次元データを符号化することでコンパクトなデータ表現を学ぶために、変分オートエンコーダ(vaes)のいくつかの変種が提案されている。 VAEメソッドの2つの主要なクラスは、表現学習ステップで強制されるメタプライヤの特性によって区別することができる。 第一級のメソッドは、潜在空間における静的事前分布を仮定して連続符号化を導出する。 2つ目のクラスは、コードブックとともにベクトル量子化(VQ)を用いて離散潜在表現を学ぶ。 しかし,どちらの手法も特定の課題に悩まされており,画像再構成の結果が得られうる。 第1クラスは後方崩壊、第2クラスはコードブック崩壊に苦しむ。 これらの課題に対処するため、我々は、Sparse code-based VAE with learned ISTA (SC-VAE)と呼ばれる新しいVAE変種を導入し、変分オートエンコーダフレームワークにスパースコーディングを統合する。 提案手法は,少数の所定の直交原子の線形結合からなるスパースデータ表現を学習する。 反復収縮しきい値アルゴリズム(ISTA)の学習可能なバージョンを用いてスパース符号化問題を解く。 2つの画像データセットを用いた実験により,本モデルが最先端手法と比較して画像再構成精度の向上を実現した。 さらに,学習したスパース符号ベクトルを用いることで,クラスタリングイメージパッチによる画像生成や教師なし画像分割といった下流タスクを実行できることを示す。

Learning rich data representations from unlabeled data is a key challenge towards applying deep learning algorithms in downstream tasks. Several variants of variational autoencoders (VAEs) have been proposed to learn compact data representations by encoding high-dimensional data in a lower dimensional space. Two main classes of VAEs methods may be distinguished depending on the characteristics of the meta-priors that are enforced in the representation learning step. The first class of methods derives a continuous encoding by assuming a static prior distribution in the latent space. The second class of methods learns instead a discrete latent representation using vector quantization (VQ) along with a codebook. However, both classes of methods suffer from certain challenges, which may lead to suboptimal image reconstruction results. The first class suffers from posterior collapse, whereas the second class suffers from codebook collapse. To address these challenges, we introduce a new VAE variant, termed sparse coding-based VAE with learned ISTA (SC-VAE), which integrates sparse coding within variational autoencoder framework. The proposed method learns sparse data representations that consist of a linear combination of a small number of predetermined orthogonal atoms. The sparse coding problem is solved using a learnable version of the iterative shrinkage thresholding algorithm (ISTA). Experiments on two image datasets demonstrate that our model achieves improved image reconstruction results compared to state-of-the-art methods. Moreover, we demonstrate that the use of learned sparse code vectors allows us to perform downstream tasks like image generation and unsupervised image segmentation through clustering image patches.
翻訳日:2024-01-11 17:54:27 公開日:2024-01-10
# 物理誘導逆ネットワークを用いた人工デジタル画像相関データの生成

Generating artificial digital image correlation data using physics-guided adversarial networks ( http://arxiv.org/abs/2303.15939v3 )

ライセンス: Link先を確認
David Melching, Erik Schultheis, Eric Breitbarth(参考訳) デジタル画像相関 (DIC) は, き裂の機械的実験を監視し, 評価するための貴重なツールとなっているが, き裂の自動検出は, 固有のノイズや人工物のために難しいことが多い。 機械学習モデルは、畳み込みに基づくセグメンテーションモデルへの入力として、DIC測定された補間されたフルフィールド変位を用いてクラックパスとクラック先端を検出することに成功している。 それでも、このようなモデルのトレーニングにはビッグデータが必要です。 しかし、実験が高価で時間を要するため、科学的なデータは少ないことが多い。 本研究では,実際の補間dic変位に類似した破砕標本の多量の人工変位データを直接生成する手法を提案する。 このアプローチはgans(generative adversarial networks)に基づいている。 訓練中、判別器は、派生したフォン・ミーゼス等価ひずみの形で物理領域知識を受け取る。 この物理誘導アプローチは, 従来の非誘導ganアプローチと比較して, 試料の視覚的品質, スライスワッセルシュタイン距離, 幾何スコアの点で, よりよい結果をもたらすことを示す。

Digital image correlation (DIC) has become a valuable tool to monitor and evaluate mechanical experiments of cracked specimen, but the automatic detection of cracks is often difficult due to inherent noise and artefacts. Machine learning models have been extremely successful in detecting crack paths and crack tips using DIC-measured, interpolated full-field displacements as input to a convolution-based segmentation model. Still, big data is needed to train such models. However, scientific data is often scarce as experiments are expensive and time-consuming. In this work, we present a method to directly generate large amounts of artificial displacement data of cracked specimen resembling real interpolated DIC displacements. The approach is based on generative adversarial networks (GANs). During training, the discriminator receives physical domain knowledge in the form of the derived von Mises equivalent strain. We show that this physics-guided approach leads to improved results in terms of visual quality of samples, sliced Wasserstein distance, and geometry score when compared to a classical unguided GAN approach.
翻訳日:2024-01-11 17:53:53 公開日:2024-01-10
# 微細粒度・高忠実度説明生成能力を有するCAM法

Empowering CAM-based Methods with Capability to Generate Fine-Grained and High-Faithfulness Explanations ( http://arxiv.org/abs/2303.09171v2 )

ライセンス: Link先を確認
Changqing Qiu, Fusheng Jin, Yining Zhang(参考訳) 近年,ニューラルネットワークモデルの説明が研究の注目を集めている。 コンピュータビジョンでは, CAM (Class Activation Map) と LRP (Layer-wise Relevance Propagation) の2つの手法が一般的である。 しかし、ほとんどのCAMベースの手法はグローバルウェイトしか生成できないため、深い層で粗い粒度の説明しか生成できない。 一方、lrpとその変種は、細かな説明を生成することができる。 しかし、説明の忠実さは低すぎる。 これらの課題に対処するため,本論文では,細粒度で高忠実な説明を生成するために,CAM法を拡張したFG-CAM(Fine-Grained CAM)を提案する。 fg-camは、解像度の違いを持つ2つの隣接する特徴マップの層間の関係を利用して、徐々に分解性を高め、寄与画素を見つけ、寄与しない画素をフィルタリングする。 提案手法は, CAM法の特徴を変化させることなく, その欠点を解消するだけでなく, LRPとその変種よりも忠実である詳細な説明を生成する。 また,FG-CAMはFG-CAMの変種であり,説明の忠実度にはほとんど変化がなく,ノイズの少ない説明を生成できる。 実験結果から,FG-CAMの性能にはほとんど影響がないことが明らかとなった。 FG-CAMは、浅い層と中間層の両方において既存のCAM法を著しく上回り、入力層においてLPPとその変動を著しく上回る。 私たちのコードはhttps://github.com/dongmo-qcq/fg-camで入手できる。

Recently, the explanation of neural network models has garnered considerable research attention. In computer vision, CAM (Class Activation Map)-based methods and LRP (Layer-wise Relevance Propagation) method are two common explanation methods. However, since most CAM-based methods can only generate global weights, they can only generate coarse-grained explanations at a deep layer. LRP and its variants, on the other hand, can generate fine-grained explanations. But the faithfulness of the explanations is too low. To address these challenges, in this paper, we propose FG-CAM (Fine-Grained CAM), which extends CAM-based methods to enable generating fine-grained and high-faithfulness explanations. FG-CAM uses the relationship between two adjacent layers of feature maps with resolution differences to gradually increase the explanation resolution, while finding the contributing pixels and filtering out the pixels that do not contribute. Our method not only solves the shortcoming of CAM-based methods without changing their characteristics, but also generates fine-grained explanations that have higher faithfulness than LRP and its variants. We also present FG-CAM with denoising, which is a variant of FG-CAM and is able to generate less noisy explanations with almost no change in explanation faithfulness. Experimental results show that the performance of FG-CAM is almost unaffected by the explanation resolution. FG-CAM outperforms existing CAM-based methods significantly in both shallow and intermediate layers, and outperforms LRP and its variations significantly in the input layer. Our code is available at https://github.com/dongmo-qcq/FG-CAM.
翻訳日:2024-01-11 17:53:18 公開日:2024-01-10
# 医用画像におけるランドマーク定位のための非同期分散フェデレーション生涯学習

Asynchronous Decentralized Federated Lifelong Learning for Landmark Localization in Medical Imaging ( http://arxiv.org/abs/2303.06783v2 )

ライセンス: Link先を確認
Guangyao Zheng, Michael A. Jacobs, Vladimir Braverman, and Vishwa S. Parekh(参考訳) フェデレーテッド・ラーニング(Federated Learning)は、機械学習分野における最近の開発で、デバイスが単一の場所やデバイスにデータを共有することなく、1つ以上のタスクでトレーニングすることができる。 しかし、このフレームワークでは、個々のモデルを1つに統合するために集中型グローバルモデルが必要であり、デバイスは同期的にトレーニングされる。 本稿では,分散学習の利点を継承し,集中ノードや同期トレーニングを必要とせず,複数のタスクを同時に学習できる非同期分散型一貫型生涯学習(ADFLL)手法を提案する。 したがって、従来の連合学習の潜在的な欠点を克服する。 脳腫瘍分画(brats)データセットにおいて、左室を複数の画像配列と画像配向に局在させる優れた性能を示す。 本フレームワークでは, 平均距離誤差7.81, 従来の全知識エージェントの平均距離誤差11.78, 従来の生涯学習エージェントよりも有意に(p=0.01), 8ラウンドのトレーニングで15.17の精度で, 平均距離誤差7.81を達成できる。 さらに、全てのAFFLLエージェントは従来のLLエージェントと同等または優れたパフォーマンスを持つ。 その結果,従来のRLエージェントと比較して性能と高速化に優れたAFDLLフレームワークを開発した。

Federated learning is a recent development in the machine learning area that allows a system of devices to train on one or more tasks without sharing their data to a single location or device. However, this framework still requires a centralized global model to consolidate individual models into one, and the devices train synchronously, which both can be potential bottlenecks for using federated learning. In this paper, we propose a novel method of asynchronous decentralized federated lifelong learning (ADFLL) method that inherits the merits of federated learning and can train on multiple tasks simultaneously without the need for a central node or synchronous training. Thus, overcoming the potential drawbacks of conventional federated learning. We demonstrate excellent performance on the brain tumor segmentation (BRATS) dataset for localizing the left ventricle on multiple image sequences and image orientation. Our framework allows agents to achieve the best performance with a mean distance error of 7.81, better than the conventional all-knowing agent's mean distance error of 11.78, and significantly (p=0.01) better than a conventional lifelong learning agent with a distance error of 15.17 after eight rounds of training. In addition, all ADFLL agents have comparable or better performance than a conventional LL agent. In conclusion, we developed an ADFLL framework with excellent performance and speed-up compared to conventional RL agents.
翻訳日:2024-01-11 17:52:49 公開日:2024-01-10
# メモリ適応型奥行き方向異種連合学習

Memory-adaptive Depth-wise Heterogenous Federated Learning ( http://arxiv.org/abs/2303.04887v2 )

ライセンス: Link先を確認
Kai Zhang, Yutong Dai, Hongyi Wang, Eric Xing, Xun Chen, Lichao Sun(参考訳) フェデレートラーニングは有望なパラダイムであり、複数のクライアントがローカルデータを共有せずにモデルを協調的にトレーニングすることができる。 しかしながら、携帯電話やIoTデバイスなど、さまざまなメモリ能力を持つフェデレーション学習における異種デバイスの存在は、スケールを制限し、モデルの性能をトレーニングすることが可能になる。 メモリ制限に対処する主流のアプローチは幅制限技術に重点を置いており、異なるクライアントが幅を減らしたサブネットをローカルにトレーニングし、サーバがサブネットを集約する。 これらの方法によって生成されたグローバルモデルは、集約フェーズにおける異なるサブネットワーク幅を扱うために取られるアクションの負の影響により、パフォーマンス低下に苦しむ。 本稿では,各クライアントのメモリ予算に応じて全モデルをブロックに適応的に分解し,順次ブロックを訓練し,完全な推論モデルを得る,メモリ適応型奥行き学習ソリューションであるfedepthを提案する。 CIFAR-10 と CIFAR-100 では,CIFAR-10 と CIFAR-100 でそれぞれ 5% と 10% 以上の精度向上を実現した。 また,ViTにおける深度ワイド微調整の有効性を示す。 本研究は,ヘテロジニアスデバイスを用いた連合学習におけるメモリ認識技術の重要性と,グローバルモデルの性能向上における奥行き訓練戦略の成功を浮き彫りにした。

Federated learning is a promising paradigm that allows multiple clients to collaboratively train a model without sharing the local data. However, the presence of heterogeneous devices in federated learning, such as mobile phones and IoT devices with varying memory capabilities, would limit the scale and hence the performance of the model could be trained. The mainstream approaches to address memory limitations focus on width-slimming techniques, where different clients train subnetworks with reduced widths locally and then the server aggregates the subnetworks. The global model produced from these methods suffers from performance degradation due to the negative impact of the actions taken to handle the varying subnetwork widths in the aggregation phase. In this paper, we introduce a memory-adaptive depth-wise learning solution in FL called FeDepth, which adaptively decomposes the full model into blocks according to the memory budgets of each client and trains blocks sequentially to obtain a full inference model. Our method outperforms state-of-the-art approaches, achieving 5% and more than 10% improvements in top-1 accuracy on CIFAR-10 and CIFAR-100, respectively. We also demonstrate the effectiveness of depth-wise fine-tuning on ViT. Our findings highlight the importance of memory-aware techniques for federated learning with heterogeneous devices and the success of depth-wise training strategy in improving the global model's performance.
翻訳日:2024-01-11 17:52:23 公開日:2024-01-10
# 実用的な歩行認識のための深層モデル探索

Exploring Deep Models for Practical Gait Recognition ( http://arxiv.org/abs/2303.03301v3 )

ライセンス: Link先を確認
Chao Fan, Saihui Hou, Yongzhen Huang, and Shiqi Yu(参考訳) 歩行認識は、遠くから人物を識別するための急速に進歩する視覚技術である。 以前の研究では、比較的浅いネットワークを使って微妙な歩行の特徴を抽出し、制約のある設定で驚くべき成功を収めた。 それにもかかわらず、実験により、既存の手法は、新しくリリースされた実世界の歩行データセットに適用すると、ほとんど満足できない結果をもたらすことが明らかになった。 本稿では,従来のCNNやTransformerベースのアーキテクチャを含む,最先端の屋外歩行認識のための深層モデルの構築方法について検討する。 具体的には、浅層歩行モデルのステレオタイプに挑戦し、識別的歩行表現学習のための明示的時間モデルと深部変圧器構造の優位性を示す。 その結果、提案されたCNNベースのDeepGaitV2シリーズとTransformerベースのSwinGaitシリーズは、Gait3DとGREWで大幅に性能が向上した。 制約された歩数データセットに関しては、DeepGaitV2シリーズは、ほとんどのケースで新しい最先端に達し、その実用性と一般性を示している。 ソースコードはhttps://github.com/ShiqiYu/OpenGaitで入手できる。

Gait recognition is a rapidly advancing vision technique for person identification from a distance. Prior studies predominantly employed relatively shallow networks to extract subtle gait features, achieving impressive successes in constrained settings. Nevertheless, experiments revealed that existing methods mostly produce unsatisfactory results when applied to newly released real-world gait datasets. This paper presents a unified perspective to explore how to construct deep models for state-of-the-art outdoor gait recognition, including the classical CNN-based and emerging Transformer-based architectures. Specifically, we challenge the stereotype of shallow gait models and demonstrate the superiority of explicit temporal modeling and deep transformer structure for discriminative gait representation learning. Consequently, the proposed CNN-based DeepGaitV2 series and Transformer-based SwinGait series exhibit significant performance improvements on Gait3D and GREW. As for the constrained gait datasets, the DeepGaitV2 series also reaches a new state-of-the-art in most cases, convincingly showing its practicality and generality. The source code is available at https://github.com/ShiqiYu/OpenGait.
翻訳日:2024-01-11 17:51:55 公開日:2024-01-10
# 超伝導回路における線形結合器によるハードウェア効率の良い自律誤差補正

Hardware efficient autonomous error correction with linear couplers in superconducting circuits ( http://arxiv.org/abs/2303.01110v3 )

ライセンス: Link先を確認
Ziqian Li, Tanay Roy, David Rodr\'iguez P\'erez, David I. Schuster, Eliot Kapit(参考訳) 大規模量子コンピュータは、情報のデコヒーレンスを防ぐために、必然的に量子エラー補正(QEC)を必要とする。 このような誤り訂正のオーバーヘッドがしばしば予測可能であることを考えると、自律的量子誤り訂正(AQEC)の提案は有望な短期的代替手段を提供する。 AQECスキームは、エラー状態をエンジニアリングされた散逸によって効率的に除去できる励起に変換することで機能する。 Liらによる最近提案されたAQECスキームは、スター符号と呼ばれ、2つのトランスモンをチューナブルカプラと2つの損失共振器を冷却源とするエンコーダとして、全ての単一キュービットエラーチャネルを自律的に修正または抑制することができる。 スター符号は2光子相互作用しか必要とせず、線形結合要素で実現でき、他の多くのAQEC提案で必要とされる高次項を実験的に回避できるが、論理状態の寿命を2次的に改善するために慎重に選択されたパラメータが必要である。 ここでは,星符号の最適パラメータ選択を理論的,数値的に示す。 さらに、より大規模な量子コンピュータやエラー訂正符号に組み込むための単一量子ビットに代わるスケーラブルな代替手段を提供する他の平面超伝導回路へのスター符号の適用について議論する。

Large-scale quantum computers will inevitably need quantum error correction (QEC) to protect information against decoherence. Given that the overhead of such error correction is often formidable, autonomous quantum error correction (AQEC) proposals offer a promising near-term alternative. AQEC schemes work by transforming error states into excitations that can be efficiently removed through engineered dissipation. The recently proposed AQEC scheme by Li et al., called the Star code, can autonomously correct or suppress all single qubit error channels using two transmons as encoders with a tunable coupler and two lossy resonators as a cooling source. The Star code requires only two-photon interactions and can be realized with linear coupling elements, avoiding experimentally challenging higher-order terms needed in many other AQEC proposals, but needs carefully selected parameters to achieve quadratic improvements in logical states' lifetimes. Here, we theoretically and numerically demonstrate the optimal parameter choices in the Star Code. We further discuss adapting the Star code to other planar superconducting circuits, which offers a scalable alternative to single qubits for incorporation in larger quantum computers or error correction codes.
翻訳日:2024-01-11 17:51:37 公開日:2024-01-10
# 確率制御におけるオフポリシー評価のための$k$-nearest-neighbor再サンプリング

$K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic Control ( http://arxiv.org/abs/2306.04836v2 )

ライセンス: Link先を確認
Michael Giegrich, Roel Oomen, Christoph Reisinger(参考訳) 本稿では,異なる方針の下で発生した決定過程の達成されたエピソードを含む履歴データから,政策の性能を推定するための新しい$k$-nearest neighbor resampling手順を提案する。 弱い条件下で統計的に整合性を示す。 特に、同一かつ独立に分散したトランジションと報酬の一般的な仮定を避ける。 代わりに、我々の分析は、ほとんどのアプリケーションでよくあるプラクティスのように、エピソード全体のサンプリングを可能にします。 この設定における一貫性を確立するために、局所平均化に関する非パラメトリック統計学の有名な結果であるストーンの定理を一般化し、エピソードデータと、オフ・ポリティ・アセスメント(OPE)に基づく対実推定を含む。 提案手法は, 連続的な状態行動空間と, 選択された動作によって影響されるシステム固有の確率性を有する環境における現状に決定的に依存するフィードバックポリシに着目し, モンテカルロ法に類似した軌道シミュレーションに依存することにより, 確率制御環境に特に適している。 他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。 数値実験により, 線形2次制御器, リミットオーダーブックでの取引実行, オンライン確率ビンパッキングなど, 様々な確率制御設定において, 既存のベースラインと比較して, アルゴリズムの有効性が示された。

In this paper, we propose a novel $K$-nearest neighbor resampling procedure for estimating the performance of a policy from historical data containing realized episodes of a decision process generated under a different policy. We provide statistical consistency results under weak conditions. In particular, we avoid the common assumption of identically and independently distributed transitions and rewards. Instead, our analysis allows for the sampling of entire episodes, as is common practice in most applications. To establish the consistency in this setting, we generalize Stone's Theorem, a well-known result in nonparametric statistics on local averaging, to include episodic data and the counterfactual estimation underlying off-policy evaluation (OPE). By focusing on feedback policies that depend deterministically on the current state in environments with continuous state-action spaces and system-inherent stochasticity effected by chosen actions, and relying on trajectory simulation similar to Monte Carlo methods, the proposed method is particularly well suited for stochastic control environments. Compared to other OPE methods, our algorithm does not require optimization, can be efficiently implemented via tree-based nearest neighbor search and parallelization, and does not explicitly assume a parametric model for the environment's dynamics. Numerical experiments demonstrate the effectiveness of the algorithm compared to existing baselines in a variety of stochastic control settings, including a linear quadratic regulator, trade execution in limit order books, and online stochastic bin packing.
翻訳日:2024-01-11 17:46:10 公開日:2024-01-10
# テンソル化ハイパーグラフニューラルネットワーク

Tensorized Hypergraph Neural Networks ( http://arxiv.org/abs/2306.02560v2 )

ライセンス: Link先を確認
Maolin Wang, Yaoming Zhen, Yu Pan, Yao Zhao, Chenyi Zhuang, Zenglin Xu, Ruocheng Guo, Xiangyu Zhao(参考訳) ハイパーグラフニューラルネットワーク(HGNN)は近年,様々な領域で優れた性能を発揮し,注目を浴びている。 しかし、既存のHGNNの多くは、重要な高次情報を無視したハイパーグラフ接続パターンの1次近似に依存している。 この問題に対処するために、新しいアジャクティ・テンソルベースの \textbf{T}ensorized \textbf{H}ypergraph \textbf{N}eural \textbf{N}etwork (THNN) を提案する。 THNNは高次外積特徴メッセージパッシングによる忠実なハイパーグラフモデリングフレームワークであり、隣接行列ベースのグラフニューラルネットワークの自然なテンソル拡張である。 提案したTHNNは高次多項式回帰スキームと等価であり,均一なハイパーグラフから高次情報を効率的に抽出することができる。 さらに,高次外積特徴を直接処理する指数関数的複雑性を考慮して,モデル複雑性を線形次数に還元する部分対称cp分解法を提案する。 さらに,実世界のアプリケーションでよく見られる非一様ハイパーグラフに対して,本手法の2つの単純かつ効果的な拡張法を提案する。 3次元視覚オブジェクト分類のための2つの広範に使用されているハイパーグラフデータセットの実験結果から、モデルが期待できる性能を示した。

Hypergraph neural networks (HGNN) have recently become attractive and received significant attention due to their excellent performance in various domains. However, most existing HGNNs rely on first-order approximations of hypergraph connectivity patterns, which ignores important high-order information. To address this issue, we propose a novel adjacency-tensor-based \textbf{T}ensorized \textbf{H}ypergraph \textbf{N}eural \textbf{N}etwork (THNN). THNN is a faithful hypergraph modeling framework through high-order outer product feature message passing and is a natural tensor extension of the adjacency-matrix-based graph neural networks. The proposed THNN is equivalent to a high-order polynomial regression scheme, which enables THNN with the ability to efficiently extract high-order information from uniform hypergraphs. Moreover, in consideration of the exponential complexity of directly processing high-order outer product features, we propose using a partially symmetric CP decomposition approach to reduce model complexity to a linear degree. Additionally, we propose two simple yet effective extensions of our method for non-uniform hypergraphs commonly found in real-world applications. Results from experiments on two widely used {hypergraph datasets for 3-D visual object classification} show the model's promising performance.
翻訳日:2024-01-11 17:44:19 公開日:2024-01-10
# cert: 濃度推定のレンズを通してデータベースシステムの性能問題を見つける

CERT: Finding Performance Issues in Database Systems Through the Lens of Cardinality Estimation ( http://arxiv.org/abs/2306.00355v3 )

ライセンス: Link先を確認
Jinsheng Ba, Manuel Rigger(参考訳) データベース管理システム(DBMS)は、クエリ計画を作成して所定のクエリを処理し、その後実行し、クエリの結果を計算する。 効率的なクエリ計画の導出は困難であり、学術と産業の両方がクエリ最適化の研究に何十年も費やしている。 しかし、DBMSはパフォーマンス上の問題になりがちで、DBMSは予期しないほど非効率なクエリプランを生成し、クエリの実行が遅くなる可能性がある。 このような問題を見つけることは長年の問題であり、期待される実行時間に関する根拠となる真理情報は存在しないため、本質的に困難である。 本研究では,濃度推定のレンズを通して性能問題を見つける新しい手法である濃度推定制限テスト(cert)を提案する。 データベース上のクエリが与えられた場合、CERTはより制限的なクエリ(例えば、LEFT JOINをINNER JOINに置き換えるなど)を導出する。 CERTテストでは,クエリ最適化の最も重要な部分であることが示され,このような問題の発見と修正が最高のパフォーマンス向上をもたらすことを期待している。 さらに、他の種類のクエリ最適化問題は、CERTでも見られる予期せぬ推定基準によって明らかにできることがわかった。 CERTはソースコードへのアクセスを必要としないブラックボックス技術であり、DBMSはEXPLAINステートメントを通じてクエリプランを公開する。 certはクエリの実行を回避し、コストがかかり、パフォーマンスの変動が発生しやすい。 CERTを広く使われている3つの成熟DBMS、MySQL、TiDB、CockroachDBで評価した。 CERTは13のユニークな問題を発見し、そのうち2つは修正され、9つは開発者によって確認された。 私たちはDBMS開発者がDBMBSのパフォーマンスを改善するのに役立つパフォーマンスバグを見つけるための新しいアングルを期待しています。

Database Management Systems (DBMSs) process a given query by creating a query plan, which is subsequently executed, to compute the query's result. Deriving an efficient query plan is challenging, and both academia and industry have invested decades into researching query optimization. Despite this, DBMSs are prone to performance issues, where a DBMS produces an unexpectedly inefficient query plan that might lead to the slow execution of a query. Finding such issues is a longstanding problem and inherently difficult, because no ground truth information on an expected execution time exists. In this work, we propose Cardinality Estimation Restriction Testing (CERT), a novel technique that finds performance issues through the lens of cardinality estimation. Given a query on a database, CERT derives a more restrictive query (e.g., by replacing a LEFT JOIN with an INNER JOIN), whose estimated number of rows should not exceed the estimated number of rows for the original query. CERT tests cardinality estimation specifically, because they were shown to be the most important part for query optimization; thus, we expect that finding and fixing such issues might result in the highest performance gains. In addition, we found that other kinds of query optimization issues can be exposed by unexpected estimated cardinalities, which can also be found by CERT. CERT is a black-box technique that does not require access to the source code; DBMSs expose query plans via the EXPLAIN statement. CERT eschews executing queries, which is costly and prone to performance fluctuations. We evaluated CERT on three widely used and mature DBMSs, MySQL, TiDB, and CockroachDB. CERT found 13 unique issues, of which 2 issues were fixed and 9 confirmed by the developers. We expect that this new angle on finding performance bugs will help DBMS developers in improving DMBSs' performance.
翻訳日:2024-01-11 17:43:59 公開日:2024-01-10
# U-Net設計と分析のための統一フレームワーク

A Unified Framework for U-Net Design and Analysis ( http://arxiv.org/abs/2305.19638v2 )

ライセンス: Link先を確認
Christopher Williams, Fabian Falck, George Deligiannidis, Chris Holmes, Arnaud Doucet, Saifuddin Syed(参考訳) U-Netは、画像や部分微分方程式(PDE)のような正方形上の連続的な信号のための多数のタスクにまたがる、最先端のニューラルネットワークアーキテクチャである。 本稿では,一般的なU-Netアーキテクチャの設計と解析のためのフレームワークを提供する。 U-Netにおけるエンコーダとデコーダの役割,その高分解能スケーリング限界,およびプリコンディショニングによるResNetsへの共役性を特徴付ける理論的結果を示す。 学習可能なパラメータを含まない簡易なウェーブレット型エンコーダを用いたマルチResNet, U-Netsを提案する。 さらに,関数制約,自然基底,あるいはデータの幾何学を符号化する新しいU-Netアーキテクチャの設計方法について述べる。 拡散モデルでは,高周波情報が指数関数的に高速にノイズに支配されていることを識別し,平均プールを持つU-Netがこれをどのように活用するかを示す。 実験では,画像分割,PDEサロゲートモデリング,拡散モデルを用いた生成モデルにおいて,従来のU-Netと比較して,マルチResNetが競争力があり,しばしば優れた性能を発揮することを示す。 我々のU-Netフレームワークは、U-Netの理論的性質を研究し、広場を越えて様々な問題のために自然でスケーラブルなニューラルアーキテクチャを設計する道を開く。

U-Nets are a go-to, state-of-the-art neural architecture across numerous tasks for continuous signals on a square such as images and Partial Differential Equations (PDE), however their design and architecture is understudied. In this paper, we provide a framework for designing and analysing general U-Net architectures. We present theoretical results which characterise the role of the encoder and decoder in a U-Net, their high-resolution scaling limits and their conjugacy to ResNets via preconditioning. We propose Multi-ResNets, U-Nets with a simplified, wavelet-based encoder without learnable parameters. Further, we show how to design novel U-Net architectures which encode function constraints, natural bases, or the geometry of the data. In diffusion models, our framework enables us to identify that high-frequency information is dominated by noise exponentially faster, and show how U-Nets with average pooling exploit this. In our experiments, we demonstrate how Multi-ResNets achieve competitive and often superior performance compared to classical U-Nets in image segmentation, PDE surrogate modelling, and generative modelling with diffusion models. Our U-Net framework paves the way to study the theoretical properties of U-Nets and design natural, scalable neural architectures for a multitude of problems beyond the square.
翻訳日:2024-01-11 17:43:28 公開日:2024-01-10
# 葉・木判別のためのスパース不規則点雲のセマンティックセグメンテーション

Semantic segmentation of sparse irregular point clouds for leaf/wood discrimination ( http://arxiv.org/abs/2305.16963v3 )

ライセンス: Link先を確認
Yuchen Bai, Jean-Baptiste Durand, Gr\'egoire Vincent, Florence Forbes(参考訳) LiDAR(Light Detection and Ranging)はバイオスフィアモニタリングに使用されるリモートセンシングツールボックスの不可欠な部分となっている。 特に、LiDARは、森林の葉面積を前例のない精度でマッピングする機会を提供する一方、葉面積は、植生と大気の間のガス交換モデルに影響を及ぼす重要な不確実性の源である。 無人航空機(UAV)は容易に動員でき、頻繁に再訪して気候変動に対する植生の反応を追跡することができる。 しかし、uavに搭載されたミニチュアセンサーは通常、限られた密度のポイント雲を提供するが、これは徐々に強い閉塞によってキャノピーの上部から下部への密度の強い低下によってさらに影響を受ける。 このような文脈において、木材点から葉点を区別することは、特に強いクラス不均衡と空間的に不規則なサンプリング強度のために大きな課題となる。 ここでは、(スペクトル情報を除く)点幾何学のみを利用するPointnet ++アーキテクチャに基づくニューラルネットワークモデルを紹介する。 そこで本研究では,局所的に重要な幾何学的情報を保存するための新しいサンプリング手法を提案する。 また,重度クラス不均衡に適応した損失関数を提案する。 我々のモデルは、UAVポイントクラウドにおける最先端の代替品よりも優れていることを示す。 今後の改良について,特に天蓋下から獲得したより濃密な点雲について論じる。

LiDAR (Light Detection and Ranging) has become an essential part of the remote sensing toolbox used for biosphere monitoring. In particular, LiDAR provides the opportunity to map forest leaf area with unprecedented accuracy, while leaf area has remained an important source of uncertainty affecting models of gas exchanges between the vegetation and the atmosphere. Unmanned Aerial Vehicles (UAV) are easy to mobilize and therefore allow frequent revisits to track the response of vegetation to climate change. However, miniature sensors embarked on UAVs usually provide point clouds of limited density, which are further affected by a strong decrease in density from top to bottom of the canopy due to progressively stronger occlusion. In such a context, discriminating leaf points from wood points presents a significant challenge due in particular to strong class imbalance and spatially irregular sampling intensity. Here we introduce a neural network model based on the Pointnet ++ architecture which makes use of point geometry only (excluding any spectral information). To cope with local data sparsity, we propose an innovative sampling scheme which strives to preserve local important geometric information. We also propose a loss function adapted to the severe class imbalance. We show that our model outperforms state-of-the-art alternatives on UAV point clouds. We discuss future possible improvements, particularly regarding much denser point clouds acquired from below the canopy.
翻訳日:2024-01-11 17:42:43 公開日:2024-01-10
# FedZero:フェデレーションラーニングで再生可能エネルギーを活用する

FedZero: Leveraging Renewable Excess Energy in Federated Learning ( http://arxiv.org/abs/2305.15092v3 )

ライセンス: Link先を確認
Philipp Wiesner, Ramin Khalili, Dennis Grinwald, Pratik Agrawal, Lauritz Thamsen, Odej Kao(参考訳) Federated Learning(FL)は、データ共有なしでデータサイロやエッジデバイス間での分散モデルトレーニングを可能にする、新興の機械学習技術である。 しかし、FLは集中型モデルトレーニングと比較して必然的に非効率を導入し、将来的には、既に高いエネルギー使用量と関連する機械学習の炭素排出量をさらに増加させます。 flのカーボンフットプリントを削減する一つのアイデアは、特定の時間やグリッド内で発生する再生可能余剰エネルギーの可用性に基づいてトレーニングジョブをスケジュールすることである。 しかし、このような不安定で信頼性の低いリソースが存在する場合、既存のFLスケジューラは常に高速で効率的で公正なトレーニングを保証できない。 本研究では,再生可能余剰エネルギーと計算インフラの予備容量のみを運用するflシステムであるfeedzeroを提案する。 エネルギーと負荷予測を使用することで、feedzeroは、迅速な収束と公平な参加のためにクライアントを選択することで、余剰リソースの時空間的可用性を活用できる。 実測値と負荷トレースに基づいて評価した結果,FedZeroは前述の制約の下での既存手法よりもはるかに高速に収束し,エネルギー消費は少ないことがわかった。 さらに、エラーを予測し、数万のクライアントにスケーラブルにすることができます。

Federated Learning (FL) is an emerging machine learning technique that enables distributed model training across data silos or edge devices without data sharing. Yet, FL inevitably introduces inefficiencies compared to centralized model training, which will further increase the already high energy usage and associated carbon emissions of machine learning in the future. One idea to reduce FL's carbon footprint is to schedule training jobs based on the availability of renewable excess energy that can occur at certain times and places in the grid. However, in the presence of such volatile and unreliable resources, existing FL schedulers cannot always ensure fast, efficient, and fair training. We propose FedZero, an FL system that operates exclusively on renewable excess energy and spare capacity of compute infrastructure to effectively reduce a training's operational carbon emissions to zero. Using energy and load forecasts, FedZero leverages the spatio-temporal availability of excess resources by selecting clients for fast convergence and fair participation. Our evaluation, based on real solar and load traces, shows that FedZero converges significantly faster than existing approaches under the mentioned constraints while consuming less energy. Furthermore, it is robust to forecasting errors and scalable to tens of thousands of clients.
翻訳日:2024-01-11 17:41:50 公開日:2024-01-10
# dc-net: サルエント物体検出のための分割・変換

DC-Net: Divide-and-Conquer for Salient Object Detection ( http://arxiv.org/abs/2305.14955v3 )

ライセンス: Link先を確認
Jiayi Zhu, Xuebin Qin, Abdulmotaleb Elsaddik(参考訳) 本稿では,有意なオブジェクト検出(SOD)タスクにDivide-and-Conquerを導入し,そのモデルが有意性マップを予測するための事前知識を学習できるようにする。 そこで本研究では,2つのエンコーダを用いて最終給与マップを予測可能な異なるサブタスクを解く,新たなネットワークdc-netを設計し,エッジマップを幅4とサルエントオブジェクトの位置マップで予測し,特徴マップをデコーダに集約して最終給与マップを予測した。 DC-Netのデコーダは、新しく設計された2段階のResidual nested-ASPP(ResASPP$^{2}$)モジュールで構成されており、多数のコンボリューション操作で多数の異なる特徴をキャプチャでき、高解像度を常に維持でき、大かつコンパクトな有効受容場(ERF)を得ることができるという利点がある。 並列計算の利点を活かして,dc-netの高速化に並列加速度を応用し,高効率(60 fps,55 fps)で6つのlr-sodと5つのhr-sodデータセットの競合性能を実現する。 コードと結果は、https://github.com/PiggyJerry/DC-Net.comで公開されている。

In this paper, we introduce Divide-and-Conquer into the salient object detection (SOD) task to enable the model to learn prior knowledge that is for predicting the saliency map. We design a novel network, Divide-and-Conquer Network (DC-Net) which uses two encoders to solve different subtasks that are conducive to predicting the final saliency map, here is to predict the edge maps with width 4 and location maps of salient objects and then aggregate the feature maps with different semantic information into the decoder to predict the final saliency map. The decoder of DC-Net consists of our newly designed two-level Residual nested-ASPP (ResASPP$^{2}$) modules, which have the ability to capture a large number of different scale features with a small number of convolution operations and have the advantages of maintaining high resolution all the time and being able to obtain a large and compact effective receptive field (ERF). Based on the advantage of Divide-and-Conquer's parallel computing, we use Parallel Acceleration to speed up DC-Net, allowing it to achieve competitive performance on six LR-SOD and five HR-SOD datasets under high efficiency (60 FPS and 55 FPS). Codes and results are available: https://github.com/PiggyJerry/DC-Net.
翻訳日:2024-01-11 17:41:26 公開日:2024-01-10
# SLaDe: 最適化アセンブリのためのポータブルな小型言語モデルデコンパイラ

SLaDe: A Portable Small Language Model Decompiler for Optimized Assembly ( http://arxiv.org/abs/2305.12520v2 )

ライセンス: Link先を確認
Jordi Armengol-Estap\'e, Jackson Woodruff, Chris Cummins, Michael F.P. O'Boyle(参考訳) 脱コンパイルは、多くの高品質のツールが利用できる、よく研究されている分野である。 これらはセキュリティタスクやレガシーコードの移植に頻繁に使用される。 しかし、彼らは定期的に読みにくいプログラムを生成し、新しいプログラミング言語やISAをサポートするために大量のエンジニアリング作業を必要とする。 ニューラルアプローチに対する最近の関心は、可読性のあるコードを生成するポータブルツールを生み出している。 しかし、この手法は通常最適化なしで合成プログラムに制限されており、移植性を評価するモデルは存在しない。 さらに、生成されたコードはより読みやすいかもしれないが、通常は正しくない。 本稿では,実世界コード上でトレーニングされたシーケンス列変換器に基づく,小型言語モデル逆コンパイラであるsladeを提案する。 我々は,新しいトークンライザを開発し,非ドロップアウトトレーニングを活用して高品質なコードを生成する。 型推論を利用して、標準的な分析や最近のニューラルアプローチよりも読みやすく正確なプログラムを生成する。 標準的なアプローチとは異なり、SLaDeはコンテキスト外の型を推論することができ、ニューラルネットワークとは異なり、正しいコードを生成する。 2つのISAと2つの最適化レベルで、AnghaBenchの4000以上の関数上でSLaDeを評価する。 sladeは、最先端の産業強化逆コンパイラであるghidraよりも最大6倍正確であり、大きな言語モデルであるchatgptよりも最大4倍正確であり、どちらよりも読みやすいコードを生成する。

Decompilation is a well-studied area with numerous high-quality tools available. These are frequently used for security tasks and to port legacy code. However, they regularly generate difficult-to-read programs and require a large amount of engineering effort to support new programming languages and ISAs. Recent interest in neural approaches has produced portable tools that generate readable code. However, to-date such techniques are usually restricted to synthetic programs without optimization, and no models have evaluated their portability. Furthermore, while the code generated may be more readable, it is usually incorrect. This paper presents SLaDe, a Small Language model Decompiler based on a sequence-to-sequence transformer trained over real-world code. We develop a novel tokenizer and exploit no-dropout training to produce high-quality code. We utilize type-inference to generate programs that are more readable and accurate than standard analytic and recent neural approaches. Unlike standard approaches, SLaDe can infer out-of-context types and unlike neural approaches, it generates correct code. We evaluate SLaDe on over 4,000 functions from AnghaBench on two ISAs and at two optimizations levels. SLaDe is up to 6 times more accurate than Ghidra, a state-of-the-art, industrial-strength decompiler and up to 4 times more accurate than the large language model ChatGPT and generates significantly more readable code than both.
翻訳日:2024-01-11 17:40:55 公開日:2024-01-10
# アルゴリズム生成ミススペルを用いた深層ニューラルネットワークを用いたペルシャタイポグラフィー型誤り検出

Persian Typographical Error Type Detection Using Deep Neural Networks on Algorithmically-Generated Misspellings ( http://arxiv.org/abs/2305.11731v3 )

ライセンス: Link先を確認
Mohammad Dehghani, Heshaam Faili(参考訳) スペル補正は自然言語処理の分野において顕著な課題である。 スペル訂正タスクの目的は、スペルエラーを自動的に認識し修正することである。 ペルシャ語のスペルや文法上の誤りを効果的に診断・修正できるアプリケーションの開発は、ペルシア語のテキストの品質を向上させるためにますます重要になっている。 タイポグラフィーによるペルシャのエラータイプ検出は比較的調査の少ない地域である。 そこで本稿では,ペルシャ語文の誤字を検出するための説得力のあるアプローチを提案する。 私たちの研究には、FarsTypoという、時系列で並べられた340万語からなる、公開データセットのプレゼンテーションが含まれています。 これらの言葉は幅広い話題や言語スタイルをカバーしている。 我々は,これらの単語のスケーラブルな部分にペルシャ特有の誤りを適用するアルゴリズムを開発し,その結果として,正しい単語と間違った単語の並列データセットを生成する。 farstypoを活用することで,強固な基盤を確立し,異なるアーキテクチャを用いた様々な方法論を徹底的に比較する。 さらに,単語と文字の埋め込みと双方向のLSTMレイヤを併用して,51の異なるクラスにまたがるタイポグラフィ的誤りの検出を目的としたトークン分類を行う,画期的なDeep Sequential Neural Networkを導入する。 本研究と異なり,本手法は多種多様な資源を用いて開発されている高度産業システムとは対照的である。 最終手法の結果は競争力が高く、精度は97.62%、精度は98.83%、リコールは98.61%、速度は他を上回った。

Spelling correction is a remarkable challenge in the field of natural language processing. The objective of spelling correction tasks is to recognize and rectify spelling errors automatically. The development of applications that can effectually diagnose and correct Persian spelling and grammatical errors has become more important in order to improve the quality of Persian text. The Typographical Error Type Detection in Persian is a relatively understudied area. Therefore, this paper presents a compelling approach for detecting typographical errors in Persian texts. Our work includes the presentation of a publicly available dataset called FarsTypo, which comprises 3.4 million words arranged in chronological order and tagged with their corresponding part-of-speech. These words cover a wide range of topics and linguistic styles. We develop an algorithm designed to apply Persian-specific errors to a scalable portion of these words, resulting in a parallel dataset of correct and incorrect words. By leveraging FarsTypo, we establish a strong foundation and conduct a thorough comparison of various methodologies employing different architectures. Additionally, we introduce a groundbreaking Deep Sequential Neural Network that utilizes both word and character embeddings, along with bidirectional LSTM layers, for token classification aimed at detecting typographical errors across 51 distinct classes. Our approach is contrasted with highly advanced industrial systems that, unlike this study, have been developed using a diverse range of resources. The outcomes of our final method proved to be highly competitive, achieving an accuracy of 97.62%, precision of 98.83%, recall of 98.61%, and surpassing others in terms of speed.
翻訳日:2024-01-11 17:40:35 公開日:2024-01-10
# Evidence Networks: 高速、アモート化、ニューラルベイズモデルの比較のための単純な損失

Evidence Networks: simple losses for fast, amortized, neural Bayesian model comparison ( http://arxiv.org/abs/2305.11241v2 )

ライセンス: Link先を確認
Niall Jeffrey, Benjamin D. Wandelt(参考訳) エビデンスネットワークは、最先端の方法(例えばネストサンプリング)が失敗したときや、可能性や事前が難解であったり、未知であるときでも、ベイズモデルの比較を可能にする。 ベイズモデルの比較、すなわちベイズ因子やエビデンス比の計算は最適化問題として考えられる。 最適分類のベイズ解釈はよく知られているが、ここではベイズ因子の便利関数を直接推定する、素早い非モルト化ニューラルネットワーク推定器のパースペクティブと損失関数のクラスを変更する。 これにより、個々のモデル確率の推定に伴う数値的不正確さが軽減される。 リークパリティオードパワー (l-POP) 変換を導入し, 新規な「l-POP-Exponential」損失関数を導出する。 異なるモデルにおけるデータ確率のニューラル密度推定について検討し、Evidence Networksよりも正確でスケーラブルであることを示す。 複数の実世界および合成例は、エビデンスネットワークがパラメータ空間の次元性から明確に独立しており、後続確率密度関数の複雑さと軽度にスケールしていることを示している。 このシンプルで強力なアプローチは、モデル推論タスクに広く影響します。 実世界のデータに対するエビデンスネットワークの応用として、ダークエネルギーサーベイの重力レンズデータを持つ2つのモデルのベイズ係数を計算する。 我々は,暗黙的推論設定におけるモデル比較と評価の他の関連する問題に対する手法の適用について簡単に論じる。

Evidence Networks can enable Bayesian model comparison when state-of-the-art methods (e.g. nested sampling) fail and even when likelihoods or priors are intractable or unknown. Bayesian model comparison, i.e. the computation of Bayes factors or evidence ratios, can be cast as an optimization problem. Though the Bayesian interpretation of optimal classification is well-known, here we change perspective and present classes of loss functions that result in fast, amortized neural estimators that directly estimate convenient functions of the Bayes factor. This mitigates numerical inaccuracies associated with estimating individual model probabilities. We introduce the leaky parity-odd power (l-POP) transform, leading to the novel ``l-POP-Exponential'' loss function. We explore neural density estimation for data probability in different models, showing it to be less accurate and scalable than Evidence Networks. Multiple real-world and synthetic examples illustrate that Evidence Networks are explicitly independent of dimensionality of the parameter space and scale mildly with the complexity of the posterior probability density function. This simple yet powerful approach has broad implications for model inference tasks. As an application of Evidence Networks to real-world data we compute the Bayes factor for two models with gravitational lensing data of the Dark Energy Survey. We briefly discuss applications of our methods to other, related problems of model comparison and evaluation in implicit inference settings.
翻訳日:2024-01-11 17:40:11 公開日:2024-01-10
# DualFL: 汎用凸レジームにおける通信加速度を用いた双対学習アルゴリズム

DualFL: A Duality-based Federated Learning Algorithm with Communication Acceleration in the General Convex Regime ( http://arxiv.org/abs/2305.10294v2 )

ライセンス: Link先を確認
Jongho Park and Jinchao Xu(参考訳) 本論文では,分散最適化問題を解くために,dualfl(dualized federated learning)と呼ばれる新しい学習アルゴリズムを提案する。 DualFLは、非常に一般的な凸コスト関数に対する通信加速を実現し、スムーズで強凸でないコスト関数に関する連邦学習におけるオープンな理論的問題の解を提供する。 我々は,DualFLの局所的な反復複雑性を詳細に解析し,DualFLの全体的な計算効率を保証する。 さらに,二重定式化に基づく連合学習の収束解析について,全く新しいアプローチを提案する。 この新技術は、既存の文献で使われている複雑な計算と、連合学習アルゴリズムの収束を対比した簡潔でエレガントな分析を可能にする。

We propose a new training algorithm, named DualFL (Dualized Federated Learning), for solving distributed optimization problems in federated learning. DualFL achieves communication acceleration for very general convex cost functions, thereby providing a solution to an open theoretical problem in federated learning concerning cost functions that may not be smooth nor strongly convex. We provide a detailed analysis for the local iteration complexity of DualFL to ensure the overall computational efficiency of DualFL. Furthermore, we introduce a completely new approach for the convergence analysis of federated learning based on a dual formulation. This new technique enables concise and elegant analysis, which contrasts the complex calculations used in existing literature on convergence of federated learning algorithms.
翻訳日:2024-01-11 17:39:45 公開日:2024-01-10
# タンパク複合体不変組込みを有するクロスゲートmlpはワンショット抗体デザイナーである

Cross-Gate MLP with Protein Complex Invariant Embedding is A One-Shot Antibody Designer ( http://arxiv.org/abs/2305.09480v5 )

ライセンス: Link先を確認
Cheng Tan, Zhangyang Gao, Lirong Wu, Jun Xia, Jiangbin Zheng, Xihong Yang, Yue Liu, Bozhen Hu, Stan Z. Li(参考訳) 抗体は異物や抗原に反応して免疫系によって産生される重要なタンパク質である。 抗体の特異性は、抗体鎖の可変領域に位置し、抗原結合部位を形成する相補性決定領域(cdr)によって決定される。 従来の研究では、複雑な技術を使ってCDRを生成するが、不適切な幾何学的モデリングに悩まされている。 さらに、反復的な洗練戦略は非効率な推論につながる。 本稿では,CDRの1次元配列と3次元構造を1ショットで共設計できる「textit{simple yet effective}」モデルを提案する。 これを実現するために、抗体CDR設計問題を2段階に分離する。 (i)タンパク質複合体構造の幾何学的モデリング及び (ii)シーケンス構造共学習。 我々は、C$\alpha$,N,C,O原子を含むバックボーン原子間の成分間相互作用を捕捉し、包括的幾何学的モデリングを実現する、タンパク質複合体のための新しいマクロ分子構造不変埋め込みを開発する。 そして、シーケンス構造コラーニングのための単純なクロスゲートMLPを導入し、シーケンスと構造表現を暗黙的に洗練させる。 これにより、モデルが所望のシーケンスと構造をワンショットで設計できる。 その結果,本モデルが最先端の抗体CDR設計法よりも優れた性能を示した。

Antibodies are crucial proteins produced by the immune system in response to foreign substances or antigens. The specificity of an antibody is determined by its complementarity-determining regions (CDRs), which are located in the variable domains of the antibody chains and form the antigen-binding site. Previous studies have utilized complex techniques to generate CDRs, but they suffer from inadequate geometric modeling. Moreover, the common iterative refinement strategies lead to an inefficient inference. In this paper, we propose a \textit{simple yet effective} model that can co-design 1D sequences and 3D structures of CDRs in a one-shot manner. To achieve this, we decouple the antibody CDR design problem into two stages: (i) geometric modeling of protein complex structures and (ii) sequence-structure co-learning. We develop a novel macromolecular structure invariant embedding, typically for protein complexes, that captures both intra- and inter-component interactions among the backbone atoms, including C$\alpha$, N, C, and O atoms, to achieve comprehensive geometric modeling. Then, we introduce a simple cross-gate MLP for sequence-structure co-learning, allowing sequence and structure representations to implicitly refine each other. This enables our model to design desired sequences and structures in a one-shot manner. Extensive experiments are conducted to evaluate our results at both the sequence and structure levels, which demonstrate that our model achieves superior performance compared to the state-of-the-art antibody CDR design methods.
翻訳日:2024-01-11 17:39:33 公開日:2024-01-10
# 多項式関数の効率的な量子振幅符号化

Efficient quantum amplitude encoding of polynomial functions ( http://arxiv.org/abs/2307.10917v3 )

ライセンス: Link先を確認
Javier Gonzalez-Conde, Thomas W. Watts, Pablo Rodriguez-Grasa and Mikel Sanz(参考訳) 量子コンピュータへの関数のロードは、量子偏微分方程式解法のようないくつかの量子アルゴリズムにおいて重要なステップである。 したがって、このプロセスの非効率性は、これらのアルゴリズムの適用に大きなボトルネックをもたらす。 ここでは,n$ qubits 上の実多項式関数の振幅符号化のための2つの効率的な方法を提案し,比較する。 この場合、閉区間上の任意の連続函数は多項式関数によって任意の精度で一様に近似できるので、特別な関係を持つ。 最初のアプローチは行列積の状態表現に依存する。 結合次元が小さいと仮定された場合の目標状態の近似について検討およびベンチマークを行った。 2つ目のアルゴリズムは2つのサブルーチンを組み合わせる。 当初、線形関数は、線形関数のアダマール・ウォルシュ級数を読み込む多制御ゲートのドロークシーケンスで量子レジスタにエンコードし、線形関数のアダマール・ウォルシュ級数が最終忠実性にどのように影響するかを探索する。 逆離散アダマール=ウォルシュ変換を適用すると、級数係数は線形関数の振幅符号化に変換される。 次に、この構成をビルディングブロックとして使用して、$k_0$ qubits上の線形関数に対応する振幅のブロック符号化を実現し、振幅のブロック符号化に多項式変換を実装する量子特異値変換を適用する。 Amplitude Amplificationアルゴリズムと組み合わせることで、$k_0$ qubitsで多項式関数を符号化する量子状態を作成することができる。 最後に、$n-k_0$ qubitsをパッドして、$n$ qubitsに多項式の近似符号化を生成し、$k_0$に依存する誤差を分析する。 本稿では,制御可能なエラーを導入することにより,最先端の複雑さを改善する手法を提案する。

Loading functions into quantum computers represents an essential step in several quantum algorithms, such as quantum partial differential equation solvers. Therefore, the inefficiency of this process leads to a major bottleneck for the application of these algorithms. Here, we present and compare two efficient methods for the amplitude encoding of real polynomial functions on $n$ qubits. This case holds special relevance, as any continuous function on a closed interval can be uniformly approximated with arbitrary precision by a polynomial function. The first approach relies on the matrix product state representation. We study and benchmark the approximations of the target state when the bond dimension is assumed to be small. The second algorithm combines two subroutines. Initially we encode the linear function into the quantum registers with a swallow sequence of multi-controlled gates that loads the linear function's Hadamard-Walsh series, exploring how truncating the Hadamard-Walsh series of the linear function affects the final fidelity. Applying the inverse discrete Hadamard-Walsh transform transforms the series coefficients into an amplitude encoding of the linear function. Then, we use this construction as a building block to achieve a block encoding of the amplitudes corresponding to the linear function on $k_0$ qubits and apply the quantum singular value transformation that implements a polynomial transformation to the block encoding of the amplitudes. This unitary together with the Amplitude Amplification algorithm will enable us to prepare the quantum state that encodes the polynomial function on $k_0$ qubits. Finally we pad $n-k_0$ qubits to generate an approximated encoding of the polynomial on $n$ qubits, analyzing the error depending on $k_0$. In this regard, our methodology proposes a method to improve the state-of-the-art complexity by introducing controllable errors.
翻訳日:2024-01-11 17:32:32 公開日:2024-01-10
# マルチモーダルクエリを用いたアクタ非依存マルチラベル動作認識

Actor-agnostic Multi-label Action Recognition with Multi-modal Query ( http://arxiv.org/abs/2307.10763v3 )

ライセンス: Link先を確認
Anindya Mondal, Sauradip Nag, Joaquin M Prada, Xiatian Zhu, Anjan Dutta(参考訳) 既存の行動認識法は、内在的なトポロジとアクター間の明らかな差異により、アクター固有のものである。 これはアクター固有のポーズ推定(例えば人間対動物)を必要とし、複雑なモデル設計と高いメンテナンスコストをもたらす。 さらに、他の利用可能な情報ソース(クラス名テキストなど)や複数のアクションの同時発生を無視しながら、視覚的モダリティのみと単一ラベルの分類を学ぶことに注力することが多い。 これらの制約を克服するために,人間や動物を含む様々な種類の俳優に統一されたソリューションを提供する「アクター非依存マルチモード動作認識」という新しい手法を提案する。 さらに,多モードセマンティッククエリーネットワーク(MSQNet)モデルをトランスフォーマーベースのオブジェクト検出フレームワーク(DETRなど)で定式化し,視覚的およびテキスト的モダリティを活用して,アクションクラスをより良く表現する。 アクター固有のモデルデザインの排除は重要な利点であり、アクターのポーズ推定の必要性を完全に排除する。 5つの公開ベンチマークの大規模な実験によると、我々のMSQNetは、人間と動物のシングルラベルとマルチラベルのアクション認識タスクにおいて、アクター固有の代替手段の先行技術を最大50%上回っている。 コードはhttps://github.com/mondalanindya/MSQNetで公開されている。

Existing action recognition methods are typically actor-specific due to the intrinsic topological and apparent differences among the actors. This requires actor-specific pose estimation (e.g., humans vs. animals), leading to cumbersome model design complexity and high maintenance costs. Moreover, they often focus on learning the visual modality alone and single-label classification whilst neglecting other available information sources (e.g., class name text) and the concurrent occurrence of multiple actions. To overcome these limitations, we propose a new approach called 'actor-agnostic multi-modal multi-label action recognition,' which offers a unified solution for various types of actors, including humans and animals. We further formulate a novel Multi-modal Semantic Query Network (MSQNet) model in a transformer-based object detection framework (e.g., DETR), characterized by leveraging visual and textual modalities to represent the action classes better. The elimination of actor-specific model designs is a key advantage, as it removes the need for actor pose estimation altogether. Extensive experiments on five publicly available benchmarks show that our MSQNet consistently outperforms the prior arts of actor-specific alternatives on human and animal single- and multi-label action recognition tasks by up to 50%. Code is made available at https://github.com/mondalanindya/MSQNet.
翻訳日:2024-01-11 17:32:00 公開日:2024-01-10
# 量子Big-M$問題を軽減する

Alleviating the quantum Big-$M$ problem ( http://arxiv.org/abs/2307.10379v2 )

ライセンス: Link先を確認
Edoardo Alessandroni, Sergi Ramos-Calderer, Ingo Roth, Emiliano Traversi, Leandro Aolita(参考訳) 量子オプティマイザの大きな障害は、2次非制約バイナリ最適化(QUBO)としての制約の修正である。 現在のQUBO翻訳者は、罰則の重量をM$で誇張している。 古典的に "big-$m$" 問題として知られているこの問題は、物理的エネルギースケールに影響を与えるため、量子ソルバにとってさらに厄介な問題となる。 量子big-m$問題に関する体系的かつ包括的な考察を行い、最適な$m$ を見つけるためのnp-ハードネスを明らかにし、ハミルトニアンスペクトルギャップ上の境界を、量子ソルバの期待実行時間と逆関係に設定する。 本研究では,sdp緩和に基づく実用的な翻訳アルゴリズムを提案する。 このアルゴリズムは、例えばポートフォリオ最適化インスタンスに対して、$\delta$order of magnitudeの値を与える。 そこで,IonQ装置の6量子ビットにおける断熱的アルゴリズムを用いて,解法時間と平均解法品質に有意な利点を観測した。 我々の発見は、量子および量子に着想を得た解法にも関係している。

A major obstacle for quantum optimizers is the reformulation of constraints as a quadratic unconstrained binary optimization (QUBO). Current QUBO translators exaggerate the weight $M$ of the penalty terms. Classically known as the "Big-$M$" problem, the issue becomes even more daunting for quantum solvers, since it affects the physical energy scale. We take a systematic, encompassing look at the quantum big-$M$ problem, revealing NP-hardness in finding the optimal $M$ and establishing bounds on the Hamiltonian spectral gap $\Delta$, inversely related to the expected run-time of quantum solvers. We propose a practical translation algorithm, based on SDP relaxation, that outperforms previous methods in numerical benchmarks. Our algorithm gives values of $\Delta$ orders of magnitude greater, e.g. for portfolio optimization instances. Solving such instances with an adiabatic algorithm on 6-qubits of an IonQ device, we observe significant advantages in time to solution and average solution quality. Our findings are relevant to quantum and quantum-inspired solvers alike.
翻訳日:2024-01-11 17:31:35 公開日:2024-01-10
# Jaynes-Cummings sum

Inside the Jaynes-Cummings sum ( http://arxiv.org/abs/2307.07838v2 )

ライセンス: Link先を確認
S.I. Pavlik(参考訳) Jaynes-Cummingsモデルにおける原子反転は、ハンケル輪郭上の積分としての正確な表現を持つことが示されている。 コヒーレントな状態の場に対しては、積分はサドル点法を用いて評価される。 時間の関数としてのサドル点の軌跡は、多値ランベルト函数の枝上にある。 これらはすべて初期時点から始まるが、異なるタイミングで反転への最大貢献を行う。 崩壊と最初のリバイバルが明確に区別されている場合、その後のリバイバルはいくつかの軌道の同等の寄与によって決定される。

It is shown that the atomic inversion in the Jaynes-Cummings model has an exact representation as an integral over the Hankel contour. For a field in a coherent state, the integral is evaluated using the saddle point method. The trajectories of saddle points as a function of time are on the branches of the multi-valued Lambert function. All of them start at the initial moment of time, but make the maximum contribution to the inversion at different times. If the collapse and the first revival are clearly distinguished, then subsequent revivals are determined by the comparable contributions of several trajectories.
翻訳日:2024-01-11 17:31:15 公開日:2024-01-10
# 非エルミート境界項を持つハミルトンからの到着時間

Arrival time from Hamiltonian with non-hermitian boundary term ( http://arxiv.org/abs/2307.01501v2 )

ライセンス: Link先を確認
Tajron Juri\'c, Hrvoje Nikoli\'c(参考訳) 検出器への到達の量子確率密度を求める新しい方法を開発した。 検出器の外領域に制限された量子状態の進化は、非エルミート境界項を含む制限されたハミルトニアンによって記述される。 非エルミート項は境界を通る確率電流演算子のフラックスに比例していることが示されており、これは到達確率密度が確率電流のフラックスに等しいことを意味する。

We develop a new method for finding the quantum probability density of arrival at the detector. The evolution of the quantum state restricted to the region outside of the detector is described by a restricted Hamiltonian that contains a non-hermitian boundary term. The non-hermitian term is shown to be proportional to the flux of the probability current operator through the boundary, which implies that the arrival probability density is equal to the flux of the probability current.
翻訳日:2024-01-11 17:30:28 公開日:2024-01-10
# BuildingsBench:900Kビルの大規模データセットと短期負荷予測ベンチマーク

BuildingsBench: A Large-Scale Dataset of 900K Buildings and Benchmark for Short-Term Load Forecasting ( http://arxiv.org/abs/2307.00142v3 )

ライセンス: Link先を確認
Patrick Emami, Abhijeet Sahu, Peter Graf(参考訳) 住宅と商業ビルのエネルギー消費の短期予測は電力システムで広く使われており、引き続き重要性が増している。 データ駆動の短期負荷予測(STLF)は有望ではあるが、ビルディングの多様性の高い大規模データセットの欠如に悩まされている。 これにより、STLFのプリトレイン-then-fine-tuneパラダイムの探索が妨げられている。 これを解決するために、BuildingsBenchを紹介します。 1)ビルズ900k,米国の建物ストックを代表する900kシミュレートされた大規模データセット,及び 2) 7つのオープンデータセットから1,900以上の実住宅および商業ビルの評価プラットフォーム。 buildingsbenchは、未熟な建物で事前訓練されたモデルを微調整することなく評価するゼロショットslfと、目標の建物で事前訓練されたモデルを微調整する転送学習の2つの未熟なタスクをベンチマークする。 ベンチマーク分析の主な発見は、合成事前学習されたモデルが実際の商業ビルに驚くほどよく一般化していることです。 データセットのサイズと多様性がゼロショットの商業建築性能に与える影響を調べると、リターンが減少するパワーローが明らかになる。 また,実際の商業用および住宅用建物における微調整事前学習モデルにより,ほとんどの建物の性能が向上することを示した。 buildingsbenchが汎用stlfに関する今後の研究を奨励し、促進できることを願っている。 すべてのデータセットとコードはhttps://github.com/NREL/BuildingsBenchからアクセスできる。

Short-term forecasting of residential and commercial building energy consumption is widely used in power systems and continues to grow in importance. Data-driven short-term load forecasting (STLF), although promising, has suffered from a lack of open, large-scale datasets with high building diversity. This has hindered exploring the pretrain-then-fine-tune paradigm for STLF. To help address this, we present BuildingsBench, which consists of: 1) Buildings-900K, a large-scale dataset of 900K simulated buildings representing the U.S. building stock; and 2) an evaluation platform with over 1,900 real residential and commercial buildings from 7 open datasets. BuildingsBench benchmarks two under-explored tasks: zero-shot STLF, where a pretrained model is evaluated on unseen buildings without fine-tuning, and transfer learning, where a pretrained model is fine-tuned on a target building. The main finding of our benchmark analysis is that synthetically pretrained models generalize surprisingly well to real commercial buildings. An exploration of the effect of increasing dataset size and diversity on zero-shot commercial building performance reveals a power-law with diminishing returns. We also show that fine-tuning pretrained models on real commercial and residential buildings improves performance for a majority of target buildings. We hope that BuildingsBench encourages and facilitates future research on generalizable STLF. All datasets and code can be accessed from https://github.com/NREL/BuildingsBench.
翻訳日:2024-01-11 17:30:20 公開日:2024-01-10
# TrustGuard: 動的サポートを備えたGNNベースのロバストと説明可能な信頼評価

TrustGuard: GNN-based Robust and Explainable Trust Evaluation with Dynamicity Support ( http://arxiv.org/abs/2306.13339v3 )

ライセンス: Link先を確認
Jie Wang, Zheng Yan, Jiahe Lan, Elisa Bertino, Witold Pedrycz(参考訳) 信頼評価は、エンティティ間の信頼関係を評価し、意思決定を促進する。 機械学習(ML)は、その学習能力による信頼評価の大きな可能性を示している。 近年、新しいMLパラダイムであるグラフニューラルネットワーク(GNN)は、グラフデータを扱う上で優位性を示している。 これにより,信頼関係をグラフとしてモデル化できるため,信頼評価の活用を研究者が検討する動機となった。 しかし、gnnを用いた現在の信頼評価手法は、信頼の動的な性質を完全に満足できず、信頼関連攻撃の悪影響を見落とし、評価結果に説得力のある説明を与えることができない。 これらの問題に対処するために,信頼の動的性を支援するgnnベースの正確な信頼評価モデルであるtrustguardを提案する。 具体的には、TrustGuardは、スナップショット入力層、空間集約層、時間集約層、予測層を含む階層構造で設計されている。 このうち、空間集約層は局所信頼を強固に集約する防御機構を採用し、時間集約層は時間パターンを効果的に学習するための注意機構を適用している。 2つの実世界のデータセットに対する大規模な実験によると、TrustGuardは、攻撃があっても、シングルタイムスロットとマルチタイムスロットの信頼予測に関して、最先端のGNNベースの信頼評価モデルより優れている。 さらに、TrustGuardは、空間ビューと時間ビューの両方を可視化することで、評価結果を説明することができる。

Trust evaluation assesses trust relationships between entities and facilitates decision-making. Machine Learning (ML) shows great potential for trust evaluation owing to its learning capabilities. In recent years, Graph Neural Networks (GNNs), as a new ML paradigm, have demonstrated superiority in dealing with graph data. This has motivated researchers to explore their use in trust evaluation, as trust relationships among entities can be modeled as a graph. However, current trust evaluation methods that employ GNNs fail to fully satisfy the dynamic nature of trust, overlook the adverse effects of trust-related attacks, and cannot provide convincing explanations on evaluation results. To address these problems, we propose TrustGuard, a GNN-based accurate trust evaluation model that supports trust dynamicity, is robust against typical attacks, and provides explanations through visualization. Specifically, TrustGuard is designed with a layered architecture that contains a snapshot input layer, a spatial aggregation layer, a temporal aggregation layer, and a prediction layer. Among them, the spatial aggregation layer adopts a defense mechanism to robustly aggregate local trust, and the temporal aggregation layer applies an attention mechanism for effective learning of temporal patterns. Extensive experiments on two real-world datasets show that TrustGuard outperforms state-of-the-art GNN-based trust evaluation models with respect to trust prediction across single-timeslot and multi-timeslot, even in the presence of attacks. In addition, TrustGuard can explain its evaluation results by visualizing both spatial and temporal views.
翻訳日:2024-01-11 17:29:30 公開日:2024-01-10
# エンティティリンクのためのRetriever-Reader Paradigmの双方向エンドツーエンド学習

Bidirectional End-to-End Learning of Retriever-Reader Paradigm for Entity Linking ( http://arxiv.org/abs/2306.12245v3 )

ライセンス: Link先を確認
Yinghui Li, Yong Jiang, Shen Huang, Xingyu Lu, Yangning Li, Pengjun Xie, Fei Huang, Hai-Tao Zheng, Ying Shen(参考訳) エンティティリンク(EL)は情報抽出と知識グラフの基本的なタスクである。 ELの一般的な形式(すなわち、エンドツーエンドのEL)は、まず与えられた入力文書に言及を見つけ、次に特定の知識ベースで対応するエンティティにリンクすることを目的としている。 近年,レトリバーリーダーのパラダイムは,エンティティ検索と機械読解の利点を生かして,エンドツーエンドelの進歩を促進する。 しかし、既存の研究は、レトリバーとリーダーをパイプライン形式で別々に訓練するだけであり、レトリバーとリーダーの相互作用がタスクにもたらし得る利点を無視している。 RetrieverとReaderのための双方向エンドツーエンドトレーニングフレームワークであるBEER$^2$を提案する。 beer$^2$は,双方向のエンドツーエンドトレーニングを通じて,レトリバーとリーダが相互に学習し,共に進捗し,最終的にelパフォーマンスを改善するためのガイドを提供します。 複数の領域のベンチマーク実験により,提案したBEER$^2$の有効性が示された。

Entity Linking (EL) is a fundamental task for Information Extraction and Knowledge Graphs. The general form of EL (i.e., end-to-end EL) aims to first find mentions in the given input document and then link the mentions to corresponding entities in a specific knowledge base. Recently, the paradigm of retriever-reader promotes the progress of end-to-end EL, benefiting from the advantages of dense entity retrieval and machine reading comprehension. However, the existing study only trains the retriever and the reader separately in a pipeline manner, which ignores the benefit that the interaction between the retriever and the reader can bring to the task. To advance the retriever-reader paradigm to perform more perfectly on end-to-end EL, we propose BEER$^2$, a Bidirectional End-to-End training framework for Retriever and Reader. Through our designed bidirectional end-to-end training, BEER$^2$ guides the retriever and the reader to learn from each other, make progress together, and ultimately improve EL performance. Extensive experiments on benchmarks of multiple domains demonstrate the effectiveness of our proposed BEER$^2$.
翻訳日:2024-01-11 17:29:02 公開日:2024-01-10
# HomeRobot:オープン語彙モバイル操作

HomeRobot: Open-Vocabulary Mobile Manipulation ( http://arxiv.org/abs/2306.11565v2 )

ライセンス: Link先を確認
Sriram Yenamandra, Arun Ramachandran, Karmesh Yadav, Austin Wang, Mukul Khanna, Theophile Gervet, Tsung-Yen Yang, Vidhi Jain, Alexander William Clegg, John Turner, Zsolt Kira, Manolis Savva, Angel Chang, Devendra Singh Chaplot, Dhruv Batra, Roozbeh Mottaghi, Yonatan Bisk, Chris Paxton(参考訳) homerobot(名詞)は、家庭をナビゲートし、さまざまなオブジェクトを操作する安価なロボットで、日常的なタスクを完了させる。 Open-Vocabulary Mobile Manipulation (OVMM)は、目に見えない環境でオブジェクトを選択し、命令された場所に配置する問題である。 ロボットの認識、言語理解、ナビゲーション、操作は、すべてovmmにとって不可欠である。 さらに、これらのサブプロブレムへのソリューションの統合は、それ自体が大きな課題となる。 この領域の研究を進めるために,HomeRobot OVMMベンチマークを導入し,エージェントが家庭環境をナビゲートして新しい物体を把握し,対象のレセプタクルに配置する。 homerobotには2つのコンポーネントがある: 大規模で多様なキュレートされたオブジェクトセットを新しい高品質のマルチルームホーム環境に使用するシミュレーションコンポーネントと、低コストのhelloロボットストレッチのためのソフトウェアスタックを提供する現実世界コンポーネント。 強化学習とヒューリスティックベースライン(モデルベース)の両方を実装し,sim-to-real転送の証拠を示す。 私たちの実験では、将来の研究成果がパフォーマンスを改善する方法を特定しました。 私たちのWebサイトにあるビデオを参照してください。

HomeRobot (noun): An affordable compliant robot that navigates homes and manipulates a wide range of objects in order to complete everyday tasks. Open-Vocabulary Mobile Manipulation (OVMM) is the problem of picking any object in any unseen environment, and placing it in a commanded location. This is a foundational challenge for robots to be useful assistants in human environments, because it involves tackling sub-problems from across robotics: perception, language understanding, navigation, and manipulation are all essential to OVMM. In addition, integration of the solutions to these sub-problems poses its own substantial challenges. To drive research in this area, we introduce the HomeRobot OVMM benchmark, where an agent navigates household environments to grasp novel objects and place them on target receptacles. HomeRobot has two components: a simulation component, which uses a large and diverse curated object set in new, high-quality multi-room home environments; and a real-world component, providing a software stack for the low-cost Hello Robot Stretch to encourage replication of real-world experiments across labs. We implement both reinforcement learning and heuristic (model-based) baselines and show evidence of sim-to-real transfer. Our baselines achieve a 20% success rate in the real world; our experiments identify ways future research work improve performance. See videos on our website: https://ovmm.github.io/.
翻訳日:2024-01-11 17:28:42 公開日:2024-01-10
# オンライン動的サブモジュラー最適化

Online Dynamic Submodular Optimization ( http://arxiv.org/abs/2306.10835v2 )

ライセンス: Link先を確認
Antoine Lesage-Landry and Julien Pallage(参考訳) 一般的な制約と動的設定を主とするオンラインバイナリ最適化のための性能を証明可能な新しいアルゴリズムを提案する。 対象関数が部分モジュラーである問題の部分集合を考える。 本稿では,従来のラウンドロス関数の近似を最適に解き,元の問題のNP硬さを回避するオンラインサブモジュラーグリードアルゴリズム(OSGA)を提案する。 我々はOSGAを一般的な近似関数に拡張する。 我々は,OSGAが時間的地平線と累積ラウンド最適変動に関して,オンライン凸最適化の最も厳密な境界に類似した動的後悔境界を有することを示す。 近似が存在しない場合や計算学的に単純な実装が望まれる場合、Lova\sz拡張を利用してオンラインのサブモジュラー射影勾配勾配(OSPGD)を設計する。 我々は,従来のオンライン勾配降下法(ogd)に類似した後悔境界を求める。 最後に、我々のアルゴリズムを高速な需要応答とリアルタイム分散ネットワーク再構成の2つのパワーシステムアプリケーションで数値的にテストする。

We propose new algorithms with provable performance for online binary optimization subject to general constraints and in dynamic settings. We consider the subset of problems in which the objective function is submodular. We propose the online submodular greedy algorithm (OSGA) which solves to optimality an approximation of the previous round loss function to avoid the NP-hardness of the original problem. We extend OSGA to a generic approximation function. We show that OSGA has a dynamic regret bound similar to the tightest bounds in online convex optimization with respect to the time horizon and the cumulative round optimum variation. For instances where no approximation exists or a computationally simpler implementation is desired, we design the online submodular projected gradient descent (OSPGD) by leveraging the Lova\'sz extension. We obtain a regret bound that is akin to the conventional online gradient descent (OGD). Finally, we numerically test our algorithms in two power system applications: fast-timescale demand response and real-time distribution network reconfiguration.
翻訳日:2024-01-11 17:28:19 公開日:2024-01-10
# 3dvrスケッチによる3d形状のプロトタイピングと探索

3D VR Sketch Guided 3D Shape Prototyping and Exploration ( http://arxiv.org/abs/2306.10830v6 )

ライセンス: Link先を確認
Ling Luo, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song, Yulia Gryaditskaya(参考訳) 3D形状モデリングは、労働集約的で、時間がかかり、長年の専門知識を必要とする。 3次元形状モデリングを容易にするために,3次元vrスケッチを条件とする3次元形状生成ネットワークを提案する。 スケッチは初心者がアートトレーニングなしで作成し,任意のカテゴリの幾何学的リアルな3D形状を再構築することを目的としている。 スケッチの曖昧さに対処するため,本手法では,スケッチの構造に合致した複数の3次元形状を作成する。 本手法を注意深く設計し,段階的にモデルを訓練し,多モード3次元形状表現を活用し,限られたトレーニングデータによるトレーニングを支援する。 生成した3次元形状の現実性を保証するために、3次元形状の潜在空間の分布をモデル化する正規化フローを利用する。 入力スケッチに対する生成した3次元形状の忠実性を促進するために,訓練過程の異なる段階に展開する専用損失を提案する。 コードはhttps://github.com/rowl1ng/3dsketch2shapeで入手できる。

3D shape modeling is labor-intensive, time-consuming, and requires years of expertise. To facilitate 3D shape modeling, we propose a 3D shape generation network that takes a 3D VR sketch as a condition. We assume that sketches are created by novices without art training and aim to reconstruct geometrically realistic 3D shapes of a given category. To handle potential sketch ambiguity, our method creates multiple 3D shapes that align with the original sketch's structure. We carefully design our method, training the model step-by-step and leveraging multi-modal 3D shape representation to support training with limited training data. To guarantee the realism of generated 3D shapes we leverage the normalizing flow that models the distribution of the latent space of 3D shapes. To encourage the fidelity of the generated 3D shapes to an input sketch, we propose a dedicated loss that we deploy at different stages of the training process. The code is available at https://github.com/Rowl1ng/3Dsketch2shape.
翻訳日:2024-01-11 17:28:03 公開日:2024-01-10
# 多変量時系列データのための完全連結空間時間グラフ

Fully-Connected Spatial-Temporal Graph for Multivariate Time-Series Data ( http://arxiv.org/abs/2309.05305v3 )

ライセンス: Link先を確認
Yucheng Wang, Yuecong Xu, Jianfei Yang, Min Wu, Xiaoli Li, Lihua Xie, Zhenghua Chen(参考訳) 多変量時間系列(MTS)データは、様々なアプリケーション分野において重要である。 逐次的および複数ソース(複数のセンサ)特性により、MSSデータは本質的に時空間(ST)依存性を示し、タイムスタンプ間の時間的相関と各タイムスタンプ内のセンサー間の空間的相関を含む。 この情報を効果的に活用するために、グラフニューラルネットワークベースの手法(GNN)が広く採用されている。 しかし、既存のアプローチでは、空間的依存と時間的依存を別々に捉え、異なるタイムスタンプ(DEDT)における異なるsEnsors間の相関を捉えない。 このような相関関係を見渡すと、MSSデータ内のST依存の包括的モデリングが妨げられ、既存のGNNが効果的な表現を学習することを制限する。 そこで本研究では,fcグラフ構築とfcグラフ畳み込みという2つのキーコンポーネントを含む,完全連結空間-時間グラフニューラルネットワーク(fc-stgnn)と呼ばれる新しい手法を提案する。 グラフ構築のために,時間距離に基づいてすべてのタイムスタンプにセンサを接続する減衰グラフを設計し,dedt間の相関を考慮し,st依存性を完全にモデル化する。 さらに,移動プールGNN層によるFCグラフの畳み込みを考案し,ST依存性を効果的に把握し,効率的な表現を学習する。 複数のMTSデータセットに対するFC-STGNNの有効性をSOTA法と比較した。 コードはhttps://github.com/Frank-Wang-oss/FCSTGNNで公開されている。

Multivariate Time-Series (MTS) data is crucial in various application fields. With its sequential and multi-source (multiple sensors) properties, MTS data inherently exhibits Spatial-Temporal (ST) dependencies, involving temporal correlations between timestamps and spatial correlations between sensors in each timestamp. To effectively leverage this information, Graph Neural Network-based methods (GNNs) have been widely adopted. However, existing approaches separately capture spatial dependency and temporal dependency and fail to capture the correlations between Different sEnsors at Different Timestamps (DEDT). Overlooking such correlations hinders the comprehensive modelling of ST dependencies within MTS data, thus restricting existing GNNs from learning effective representations. To address this limitation, we propose a novel method called Fully-Connected Spatial-Temporal Graph Neural Network (FC-STGNN), including two key components namely FC graph construction and FC graph convolution. For graph construction, we design a decay graph to connect sensors across all timestamps based on their temporal distances, enabling us to fully model the ST dependencies by considering the correlations between DEDT. Further, we devise FC graph convolution with a moving-pooling GNN layer to effectively capture the ST dependencies for learning effective representations. Extensive experiments show the effectiveness of FC-STGNN on multiple MTS datasets compared to SOTA methods. The code is available at https://github.com/Frank-Wang-oss/FCSTGNN.
翻訳日:2024-01-11 17:21:29 公開日:2024-01-10
# 多変量時系列分類のためのグラフ認識コントラスト

Graph-Aware Contrasting for Multivariate Time-Series Classification ( http://arxiv.org/abs/2309.05202v3 )

ライセンス: Link先を確認
Yucheng Wang, Yuecong Xu, Jianfei Yang, Min Wu, Xiaoli Li, Lihua Xie, Zhenghua Chen(参考訳) 自己指導型学習パラダイムとしてのコントラスト学習は,多変量時間系列(MTS)分類において人気がある。 ラベルのないサンプルの異なるビューの一貫性を確保し、これらのサンプルの効果的な表現を学ぶ。 既存のコントラスト学習法は,mtsデータの摂動に対する時間パターンの保存を目的とした,時間的拡張とコントラスト手法との時間的一貫性の実現に重点を置いている。 しかし、個々のセンサの安定性と相関性を必要とする空間的一貫性を見落としている。 MTSデータは通常、複数のセンサから得られるため、MTSデータに対するコントラスト学習の全体的なパフォーマンスに空間的整合性を確保することが不可欠である。 そこで本稿では,MTSデータ間の空間整合性を考慮したグラフ認識コントラストを提案する。 具体的には,センサの安定性と相関性を保つために,ノードとエッジの強化を含むグラフ拡張を提案し,さらに,ノードレベルとグラフレベルのコントラストとグラフの対比を行い,ロバストなセンサとグローバルレベルの特徴を抽出する。 さらに,センサ毎にデータの時間的一貫性を確保するために,マルチウィンドウの時間的コントラストを導入する。 提案手法が様々なmts分類タスクにおいて最先端の性能を実現することを示す。 コードはhttps://github.com/Frank-Wang-oss/TS-GACで公開されている。

Contrastive learning, as a self-supervised learning paradigm, becomes popular for Multivariate Time-Series (MTS) classification. It ensures the consistency across different views of unlabeled samples and then learns effective representations for these samples. Existing contrastive learning methods mainly focus on achieving temporal consistency with temporal augmentation and contrasting techniques, aiming to preserve temporal patterns against perturbations for MTS data. However, they overlook spatial consistency that requires the stability of individual sensors and their correlations. As MTS data typically originate from multiple sensors, ensuring spatial consistency becomes essential for the overall performance of contrastive learning on MTS data. Thus, we propose Graph-Aware Contrasting for spatial consistency across MTS data. Specifically, we propose graph augmentations including node and edge augmentations to preserve the stability of sensors and their correlations, followed by graph contrasting with both node- and graph-level contrasting to extract robust sensor- and global-level features. We further introduce multi-window temporal contrasting to ensure temporal consistency in the data for each sensor. Extensive experiments demonstrate that our proposed method achieves state-of-the-art performance on various MTS classification tasks. The code is available at https://github.com/Frank-Wang-oss/TS-GAC.
翻訳日:2024-01-11 17:20:28 公開日:2024-01-10
# CenTime: 生存分析におけるセンサのイベントコンディションモデリング

CenTime: Event-Conditional Modelling of Censoring in Survival Analysis ( http://arxiv.org/abs/2309.03851v3 )

ライセンス: Link先を確認
Ahmed H. Shahin, An Zhao, Alexander C. Whitehead, Daniel C. Alexander, Joseph Jacob, David Barber(参考訳) 生存分析は、死やがんの再発などの特定の事象が観測されるまでの時間を推定するための貴重なツールである。 これは、患者データに基づいて臨床的に重要な事象を予測する医療において特に有用である。 しかし、既存のアプローチには、生存可能性による患者のランク付けのみに焦点を当て、実際のイベント時間を見積もることを無視する者もいれば、イベント固有の時間順構造を無視して、問題を分類タスクとして扱う者もいる。 さらに、モデルの予測精度を向上させるためには、検閲済みサンプル(正確な事象時刻が不明なデータポイントをトレーニングする)の有効利用が不可欠である。 本稿では,イベント発生時刻を直接推定する生存分析の新しい手法であるCenTimeを紹介する。 本手法は,非検閲データが少ない場合でも堅牢なイベント条件検閲機構を特徴とする。 我々の手法は、無検閲のデータがなくても、イベントモデルパラメータの一貫性のある推定器を形成することを示す。 さらに、CenTimeはバッチサイズや非検閲サンプルの数に制限がなく、ディープラーニングモデルと簡単に統合できる。 我々は,Cox比例ハザードモデルやDeepHitなど,標準的な生存分析手法との比較を行った。 以上の結果から,CenTimeは同等の性能を維持しつつ,死までの時間を予測する上で,最先端のパフォーマンスを提供することが示された。 私たちの実装はhttps://github.com/ahmedhshahin/centimeで公開しています。

Survival analysis is a valuable tool for estimating the time until specific events, such as death or cancer recurrence, based on baseline observations. This is particularly useful in healthcare to prognostically predict clinically important events based on patient data. However, existing approaches often have limitations; some focus only on ranking patients by survivability, neglecting to estimate the actual event time, while others treat the problem as a classification task, ignoring the inherent time-ordered structure of the events. Furthermore, the effective utilization of censored samples - training data points where the exact event time is unknown - is essential for improving the predictive accuracy of the model. In this paper, we introduce CenTime, a novel approach to survival analysis that directly estimates the time to event. Our method features an innovative event-conditional censoring mechanism that performs robustly even when uncensored data is scarce. We demonstrate that our approach forms a consistent estimator for the event model parameters, even in the absence of uncensored data. Furthermore, CenTime is easily integrated with deep learning models with no restrictions on batch size or the number of uncensored samples. We compare our approach with standard survival analysis methods, including the Cox proportional-hazard model and DeepHit. Our results indicate that CenTime offers state-of-the-art performance in predicting time-to-death while maintaining comparable ranking performance. Our implementation is publicly available at https://github.com/ahmedhshahin/CenTime.
翻訳日:2024-01-11 17:19:34 公開日:2024-01-10
# Bi$_2$Se$_3$ナノシートのトポロジー

Topology of Bi$_2$Se$_3$ nanosheets ( http://arxiv.org/abs/2309.02792v3 )

ライセンス: Link先を確認
Lucas Maisel Licer\'an, Sebastiaan Koerhuis, Daniel Vanmaekelbergh, Henk Stoof(参考訳) 近年, トポロジカル絶縁体Bi$_2$Se$_3$の2次元コロイドナノ結晶の量子スピンホールエッジチャネルが直接観測されている。 本研究は, 従来, 薄いナノシートを記述するために用いられてきた4バンド有効モデルを再考する。 3次元の $\boldsymbol{k} \boldsymbol{cdot} \boldsymbol{p}$ モデルから派生したもので、材料厚みの小さいため隙間となる上面と下面の電子状態を記述する。 しかし、3次元理論から直接導かれる表面状態の4バンドモデルだけでは、いくつかの4重層からなる薄膜の記述には不適切であり、また、かなりの範囲の厚さで不正確な位相不変量が得られることも判明した。 この制限に対処するために、表面状態に加えてフェルミレベルに最も近いバルクバンドの集合も含む8バンドモデルを提案する。 8バンドモデルは実験的な観測のほとんどを捉えているだけでなく、厚さの異なる薄膜における$\mathbb{z}_{2}$の以前の第一原理計算とも一致している。 さらに,細いBi$_2$Se$_3$ナノシートのトポロジー特性は,表面とバルク状態の間の複雑な相互作用の結果現れることを示した。 特に、8バンドモデルの表面バンドは4バンドモデルでは異なる違いがあり、新しく追加されたバルクバンドによって、後者のトポロジーが復元された。

Recently, the quantum spin-Hall edge channels of two-dimensional colloidal nanocrystals of the topological insulator Bi$_2$Se$_3$ were observed directly. Motivated by this development, we reconsider the four-band effective model which has been traditionally employed in the past to describe thin nanosheets of this material. Derived from a three-dimensional $\boldsymbol{k} \boldsymbol{\cdot} \boldsymbol{p}$ model, it physically describes the top and bottom electronic surface states that become gapped due to the material's small thickness. However, we find that the four-band model for the surface states alone, as derived directly from the three-dimensional theory, is inadequate for the description of thin films of a few quintuple layers and even yields an incorrect topological invariant within a significant range of thicknesses. To address this limitation we propose an eight-band model which, in addition to the surface states, also incorporates the set of bulk bands closest to the Fermi level. We find that the eight-band model not only captures most of the experimental observations, but also agrees with previous first-principles calculations of the $\mathbb{Z}_{2}$ invariant in thin films of varying thickness. Moreover, we demonstrate that the topological properties of thin Bi$_2$Se$_3$ nanosheets emerge as a result of an intricate interplay between the surface and bulk states. In particular, the surface bands of the eight-band model differ drastically from their counterparts in their four-band model, with the missing topology of the latter restored by the newly added bulk bands.
翻訳日:2024-01-11 17:18:57 公開日:2024-01-10
# 医用画像登録における深層学習 : 導入と調査

Deep learning in medical image registration: introduction and survey ( http://arxiv.org/abs/2309.00727v2 )

ライセンス: Link先を確認
Ahmad Hammoudeh, St\'ephane Dupont(参考訳) 画像登録(英: image registration、ir)とは、画像が基準空間と一致するように変形するプロセスであり、医療従事者が同じ回転やスケールを持つような標準基準フレームで様々な医療画像を調べるのが容易である。 本文書では簡単な数値例を用いて画像登録を紹介する。 空間指向のシンボル表現とともに、画像登録の定義を提供する。 このレビューでは、アフィン、変形性、可逆性、双方向変換、およびVoxelmorph、Demons、SyN、Iterative Closest Point、SynthMorphなどの医療画像登録アルゴリズムなど、画像変換のさまざまな側面を取り上げている。 また、粗い粒度とピラミッドのアプローチを含むアトラスベースの登録と多段階画像登録技術についても検討している。 さらに, 医用画像登録分類法, データセット, 相関基準, セグメンテーション基準, 処理時間, モデルサイズなどの評価指標について検討した。 また、画像誘導手術、運動追跡、腫瘍診断の応用も検討している。 最後に、この文書はトランスフォーマーのさらなる発展を含む将来の研究の方向性に言及する。

Image registration (IR) is a process that deforms images to align them with respect to a reference space, making it easier for medical practitioners to examine various medical images in a standardized reference frame, such as having the same rotation and scale. This document introduces image registration using a simple numeric example. It provides a definition of image registration along with a space-oriented symbolic representation. This review covers various aspects of image transformations, including affine, deformable, invertible, and bidirectional transformations, as well as medical image registration algorithms such as Voxelmorph, Demons, SyN, Iterative Closest Point, and SynthMorph. It also explores atlas-based registration and multistage image registration techniques, including coarse-fine and pyramid approaches. Furthermore, this survey paper discusses medical image registration taxonomies, datasets, evaluation measures, such as correlation-based metrics, segmentation-based metrics, processing time, and model size. It also explores applications in image-guided surgery, motion tracking, and tumor diagnosis. Finally, the document addresses future research directions, including the further development of transformers.
翻訳日:2024-01-11 17:18:30 公開日:2024-01-10
# 因果構造学習における非線形性、フィードバック、均一性

Nonlinearity, Feedback and Uniform Consistency in Causal Structural Learning ( http://arxiv.org/abs/2308.07520v2 )

ライセンス: Link先を確認
Shuyan Wang(参考訳) Causal Discoveryの目的は、観測データから因果構造を学習するための自動探索方法を見つけることである。 ある場合、興味ある因果メカニズムのすべての変数が測定され、ある測定された変数が他の変数に与える影響を予測する。 対照的に、プライマリ関心のある変数は直接観測可能ではなく、データ内のその表現から推測されることもある。 これらは潜在変数と呼ばれる。 一般的な例として、知能の心理的構成があるが、これは直接測定できないため、研究者はIQテストのような様々な指標を用いて評価しようとする。 この場合、カジュアルな発見アルゴリズムは、潜在変数と観測変数との間の因果関係を明らかにするために、基礎となるパターンや構造を明らかにすることができる。 この論文は因果発見における2つの疑問に焦点を当てている: k-三角忠実性の別の定義を提供する。 (i)分布のガウス族に適用した場合、強い忠実さよりも弱い。 (ii)分布の非ガウシアン族に適用でき、 (iii) 強忠実性の修正版が持つという仮定の下では、修正因果発見アルゴリズムの均一な一貫性を示すために使用することができ、潜在変数を持つ因果構造を学ぶための十分性仮定を緩和することができる。 複雑なシステムの理解と予測における因果関係の推論の重要性を考えると, 様々な単純化仮定を緩和する研究は, 因果発見法を多種多様な因果機構と統計的現象により広い範囲に適用できるよう拡張することが期待される。

The goal of Causal Discovery is to find automated search methods for learning causal structures from observational data. In some cases all variables of the interested causal mechanism are measured, and the task is to predict the effects one measured variable has on another. In contrast, sometimes the variables of primary interest are not directly observable but instead inferred from their manifestations in the data. These are referred to as latent variables. One commonly known example is the psychological construct of intelligence, which cannot directly measured so researchers try to assess through various indicators such as IQ tests. In this case, casual discovery algorithms can uncover underlying patterns and structures to reveal the causal connections between the latent variables and between the latent and observed variables. This thesis focuses on two questions in causal discovery: providing an alternative definition of k-Triangle Faithfulness that (i) is weaker than strong faithfulness when applied to the Gaussian family of distributions, (ii) can be applied to non-Gaussian families of distributions, and (iii) under the assumption that the modified version of Strong Faithfulness holds, can be used to show the uniform consistency of a modified causal discovery algorithm; relaxing the sufficiency assumption to learn causal structures with latent variables. Given the importance of inferring cause-and-effect relationships for understanding and forecasting complex systems, the work in this thesis of relaxing various simplification assumptions is expected to extend the causal discovery method to be applicable in a wider range with diversified causal mechanism and statistical phenomena.
翻訳日:2024-01-11 17:17:43 公開日:2024-01-10
# 絡み合った2モード系の条件ダイナミクスに対するウィグナーの位相空間電流 -新しい光のビームスプリッタを見る-

Wigner's Phase Space Current for the Conditional Dynamics in Entangled Two Mode Systems -Seeing Beam Splitters in a New Light- ( http://arxiv.org/abs/2308.06706v2 )

ライセンス: Link先を確認
Ole Steuernagel and Ray-Kuang Lee(参考訳) 相空間における量子力学を,そのような他のモードと絡み合う連続的単一モード系に対して検討する。 主な例として、可変ビームスプリッタの強モード混合ダイナミクスを用いて、各モードのダイナミクスを他方のモードに条件付けする。 我々は、一方のモードの条件付きウィグナー電流Jの形状を、他方のモードをトレースした後に導出し、研究する。 量子論の他の表現では、J の類似は存在しないので、位相空間表現のみがそのような条件力学のこの種の視覚研究に利用できる。

We study quantum dynamics in phase space for a continuous single mode system which is entangled with another such mode. As our main example we use the strongly mode mixing dynamics of a variable beam splitter which makes the dynamics of each mode conditional on the other mode. We derive and study the form of the conditional Wigner current J of one mode after tracing out the other. Since in other representations of quantum theory no analogue for J exists, only the phase space representation can be used for this type of visual study of such conditional dynamics.
翻訳日:2024-01-11 17:17:18 公開日:2024-01-10
# ソーシャルメディアデータとSIRモデルによる災害対応調査:2020年米国西部の山火事を事例として

Investigating disaster response through social media data and the Susceptible-Infected-Recovered (SIR) model: A case study of 2020 Western U.S. wildfire season ( http://arxiv.org/abs/2308.05281v2 )

ライセンス: Link先を確認
Zihui Ma, Lingyao Li, Libby Hemphill, Gregory B. Baecher, Yubai Yuan(参考訳) 被災地域にとって効果的な災害対応は重要である。 対応者と意思決定者は、災害時にコミュニティに影響を及ぼす問題の信頼性とタイムリーな測定の恩恵を受け、ソーシャルメディアは潜在的に豊かなデータソースを提供する。 ソーシャルメディアは災害時の公共の関心や要求を反映し、意思決定者が進化する状況を理解し、リソース割り当てを最適化するための貴重な洞察を提供する。 トランスフォーマー(bert)トピックモデリングからtwitterデータからトピックをクラスタ化する双方向エンコーダ表現を用いた。 そして,2020年の米国西部の山火事シーズンにおいて,これらの話題の分布について時間空間分析を行った。 その結果,twitter利用者は主に「健康への影響」,「損害」,「救済」の3つの話題に注目した。 SIR(Susceptible-Infected-Recovered)理論を用いて,Twitter上でのトピック拡散の規模と速度について検討した。 その結果,トピックトレンドとワイルドファイア伝播パターンの関係が明らかとなった。 選択都市におけるSIRモデルから得られた推定パラメータから,山火事時の住民の懸念度は高いことがわかった。 本研究では,ソーシャルメディアデータを用いたsirモデルとトピックモデリングが,災害対応を計測し,意思決定プロセスを支援する定量的アプローチを意思決定者に与える方法について述べる。

Effective disaster response is critical for affected communities. Responders and decision-makers would benefit from reliable, timely measures of the issues impacting their communities during a disaster, and social media offers a potentially rich data source. Social media can reflect public concerns and demands during a disaster, offering valuable insights for decision-makers to understand evolving situations and optimize resource allocation. We used Bidirectional Encoder Representations from Transformers (BERT) topic modeling to cluster topics from Twitter data. Then, we conducted a temporal-spatial analysis to examine the distribution of these topics across different regions during the 2020 western U.S. wildfire season. Our results show that Twitter users mainly focused on three topics:"health impact," "damage," and "evacuation." We used the Susceptible-Infected-Recovered (SIR) theory to explore the magnitude and velocity of topic diffusion on Twitter. The results displayed a clear relationship between topic trends and wildfire propagation patterns. The estimated parameters obtained from the SIR model in selected cities revealed that residents exhibited a high level of several concerns during the wildfire. Our study details how the SIR model and topic modeling using social media data can provide decision-makers with a quantitative approach to measure disaster response and support their decision-making processes.
翻訳日:2024-01-11 17:17:07 公開日:2024-01-10
# 歩行者軌道予測手法の評価と自律運転への応用

Evaluating Pedestrian Trajectory Prediction Methods for the Application in Autonomous Driving ( http://arxiv.org/abs/2308.05194v2 )

ライセンス: Link先を確認
Nico Uhlemann, Felix Fent, Markus Lienkamp(参考訳) 本稿では,自律システムにおける要件に沿った重要な側面である,単一軌跡生成の文脈における歩行者軌跡予測技術の現状を評価する。 評価は、平均変位誤差(ADE)と最終変位誤差(FDE)を報告した広く使われているETH/UCYデータセット上で行われる。 同時に,観測された動作履歴が予測性能に与える影響について,アブレーション研究を行った。 種々のエージェントと対向する各アプローチのスケーラビリティを評価するために、各モデルの推測時間を測定する。 定量的分析の後、得られた予測は質的な方法で比較され、現在のアプローチの強みと弱みについて洞察を与える。 その結果、定速度モデル(CVM)は、ほとんどの場合において、全体的なダイナミクスを適切に近似するが、観察される一般的な歩行者行動の反映として追加の機能を組み込む必要があることが示された。 そこで本研究では,歩行者追跡予測アルゴリズムの今後の展開を導こうとするデータ駆動解析を提案する。

In this paper, we assess the state of the art in pedestrian trajectory prediction within the context of generating single trajectories, a critical aspect aligning with the requirements in autonomous systems. The evaluation is conducted on the widely-used ETH/UCY dataset where the Average Displacement Error (ADE) and the Final Displacement Error (FDE) are reported. Alongside this, we perform an ablation study to investigate the impact of the observed motion history on prediction performance. To evaluate the scalability of each approach when confronted with varying amounts of agents, the inference time of each model is measured. Following a quantitative analysis, the resulting predictions are compared in a qualitative manner, giving insight into the strengths and weaknesses of current approaches. The results demonstrate that although a constant velocity model (CVM) provides a good approximation of the overall dynamics in the majority of cases, additional features need to be incorporated to reflect common pedestrian behavior observed. Therefore, this study presents a data-driven analysis with the intent to guide the future development of pedestrian trajectory prediction algorithms.
翻訳日:2024-01-11 17:16:43 公開日:2024-01-10
# LimeAttack: テキスト・ラベル・アタックのための局所的説明可能な方法

LimeAttack: Local Explainable Method for Textual Hard-Label Adversarial Attack ( http://arxiv.org/abs/2308.00319v2 )

ライセンス: Link先を確認
Hai Zhu and Zhaoqing Yang and Weiwei Shang and Yuren Wu(参考訳) 自然言語処理モデルは、逆の例に弱い。 以前のテキストによる敵意攻撃では、単語重要度ランキングを計算し、敵意の例を生成するために、勾配や信頼度スコアが採用されている。 しかし、この情報は現実世界では利用できない。 そこで我々は,より現実的で困難なハードラベル攻撃に着目し,攻撃者がモデルに問い合わせるだけで,個別の予測ラベルを得られるようにした。 既存のハードラベル攻撃アルゴリズムは、ランダムな置換によって敵の例を初期化し、複雑なヒューリスティックアルゴリズムを用いて敵の摂動を最適化する傾向にある。 これらのメソッドは大量のモデルクエリを必要とし、攻撃成功率は逆初期化によって制限される。 本稿では,局所的説明可能な手法を用いて単語重要度ランキングを近似し,ビーム探索を用いて最適な解を求める,新しいハードラベル攻撃アルゴリズムであるlimeattackを提案する。 大規模な実験では、LimeAttackは同じクエリ予算で既存のハードラベル攻撃と比較して、攻撃性能が向上している。 さらに,LimeAttackの大規模言語モデルに対する有効性を評価し,大言語モデルに対する敵対的な例が依然として重大な脅威であることを示す。 LimeAttackによって作られた敵の例は高度に伝達可能であり、敵の訓練におけるモデルロバスト性を効果的に改善する。

Natural language processing models are vulnerable to adversarial examples. Previous textual adversarial attacks adopt gradients or confidence scores to calculate word importance ranking and generate adversarial examples. However, this information is unavailable in the real world. Therefore, we focus on a more realistic and challenging setting, named hard-label attack, in which the attacker can only query the model and obtain a discrete prediction label. Existing hard-label attack algorithms tend to initialize adversarial examples by random substitution and then utilize complex heuristic algorithms to optimize the adversarial perturbation. These methods require a lot of model queries and the attack success rate is restricted by adversary initialization. In this paper, we propose a novel hard-label attack algorithm named LimeAttack, which leverages a local explainable method to approximate word importance ranking, and then adopts beam search to find the optimal solution. Extensive experiments show that LimeAttack achieves the better attacking performance compared with existing hard-label attack under the same query budget. In addition, we evaluate the effectiveness of LimeAttack on large language models, and results indicate that adversarial examples remain a significant threat to large language models. The adversarial examples crafted by LimeAttack are highly transferable and effectively improve model robustness in adversarial training.
翻訳日:2024-01-11 17:15:44 公開日:2024-01-10
# マイクロカノニカル以外のアンサンブルの正典型性

Canonical Typicality For Other Ensembles Than Micro-Canonical ( http://arxiv.org/abs/2307.15624v3 )

ライセンス: Link先を確認
Stefan Teufel, Roderich Tumulka, Cornelia Vogel(参考訳) 高次元球面上の一様確率分布の濃度測定結果であるl\'evyの補題を、より一般的な測度のクラス、いわゆるギャップ測度に一般化する。 分離可能なヒルベルト空間上の任意の密度行列 $\rho$ に対して、gap$(\rho)$ は密度行列 $\rho$ を持ち、したがって一様分布の自然な一般化を形成する $\mathcal{h}$ の単位球面上の最も拡散した確率測度である。 最大固有値$\|\rho\|$ の$\rho$ が小さいとき、集中度測定が証明される。 我々はこの事実を利用して、量子統計力学のよく知られた重要な典型をGAP測度、すなわち標準典型と動的典型に一般化し改善する。 正典型性(canonical typicality)とは、与えられたアンサンブルの$\psi$'純状態に対して、十分小さいサブシステムの密度行列は$\psi$非独立行列に非常に近いという主張である。 動的典型性(Dynamical typicality)とは、任意の観測可能かつ任意のユニタリな時間進化に対して、与えられたアンサンブルから$\psi$(粗い粒度の)の値から$\psi$(\psi$-非依存分布に非常に近いという主張である。 これまでのところ、標準の典型性と力学の典型性は、有限次元球面上の一様分布、マイクロカノニカルアンサンブルに対応する、より特殊な平均値アンサンブルとして知られていた。 その結果, 密度行列 $\rho$ で記述された系では, 固有値が小さい系では, これらの典型的結果が一般的であることがわかった。 ある種のGAP測度は古典力学の正準アンサンブルの量子アナログであるため、我々の結果はアンサンブルの等価性のバージョンと見なすこともできる。

We generalize L\'evy's lemma, a concentration-of-measure result for the uniform probability distribution on high-dimensional spheres, to a much more general class of measures, so-called GAP measures. For any given density matrix $\rho$ on a separable Hilbert space $\mathcal{H}$, GAP$(\rho)$ is the most spread out probability measure on the unit sphere of $\mathcal{H}$ that has density matrix $\rho$ and thus forms the natural generalization of the uniform distribution. We prove concentration-of-measure whenever the largest eigenvalue $\|\rho\|$ of $\rho$ is small. We use this fact to generalize and improve well-known and important typicality results of quantum statistical mechanics to GAP measures, namely canonical typicality and dynamical typicality. Canonical typicality is the statement that for ``most'' pure states $\psi$ of a given ensemble, the reduced density matrix of a sufficiently small subsystem is very close to a $\psi$-independent matrix. Dynamical typicality is the statement that for any observable and any unitary time-evolution, for ``most'' pure states $\psi$ from a given ensemble the (coarse-grained) Born distribution of that observable in the time-evolved state $\psi_t$ is very close to a $\psi$-independent distribution. So far, canonical typicality and dynamical typicality were known for the uniform distribution on finite-dimensional spheres, corresponding to the micro-canonical ensemble, and for rather special mean-value ensembles. Our result shows that these typicality results hold in general for systems described by a density matrix $\rho$ with small eigenvalues. Since certain GAP measures are quantum analogs of the canonical ensemble of classical mechanics, our results can also be regarded as a version of equivalence of ensembles.
翻訳日:2024-01-11 17:15:19 公開日:2024-01-10
# 一般化ロジット調整:基礎モデルのラベルバイアス除去による微調整モデルの校正

Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models ( http://arxiv.org/abs/2310.08106v2 )

ライセンス: Link先を確認
Beier Zhu, Kaihua Tang, Qianru Sun, Hanwang Zhang(参考訳) CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。 しかし、ゼロショット性能は、完全に監督されたものよりも競争力が低い。 したがって、パフォーマンスを向上させるために、下流タスクに適合するために、微調整やセンシングも一般的に採用されている。 しかし、このような先行研究は基礎モデルに固有のバイアスを見落としていると論じる。 高度にバランスの取れないWebスケールのトレーニングセットのため、これらの基礎モデルは必然的に頻繁なセマンティクスに向かって歪められ、その後の微調整やアンサンブルはいまだに偏っている。 本研究では,基礎モデルのバイアスを体系的に検討し,提案する一般化ロジット調整法(gla)の有効性を示す。 基礎モデルのバイアス推定は、ほとんどの事前トレーニングデータは、従来のロングテール分類タスクのように明示的にアクセスできないため、困難である。 この目的のために、GLAは基礎モデルの偏りを抑えるために最適化に基づくバイアス推定アプローチを採用している。 我々の研究は事前トレーニングの根本的な欠陥を解決しているため、提案したGLAは、ImageNetで1.5ppの精度向上、11のショットデータセットで1.4-4.6ppの大幅な平均改善、ロングテール分類で2.4ppの精度向上を実現している。 コードは \url{https://github.com/BeierZhu/GLA} にある。

Foundation models like CLIP allow zero-shot transfer on various tasks without additional training data. Yet, the zero-shot performance is less competitive than a fully supervised one. Thus, to enhance the performance, fine-tuning and ensembling are also commonly adopted to better fit the downstream tasks. However, we argue that such prior work has overlooked the inherent biases in foundation models. Due to the highly imbalanced Web-scale training set, these foundation models are inevitably skewed toward frequent semantics, and thus the subsequent fine-tuning or ensembling is still biased. In this study, we systematically examine the biases in foundation models and demonstrate the efficacy of our proposed Generalized Logit Adjustment (GLA) method. Note that bias estimation in foundation models is challenging, as most pre-train data cannot be explicitly accessed like in traditional long-tailed classification tasks. To this end, GLA has an optimization-based bias estimation approach for debiasing foundation models. As our work resolves a fundamental flaw in the pre-training, the proposed GLA demonstrates significant improvements across a diverse range of tasks: it achieves 1.5 pp accuracy gains on ImageNet, an large average improvement (1.4-4.6 pp) on 11 few-shot datasets, 2.4 pp gains on long-tailed classification. Codes are in \url{https://github.com/BeierZhu/GLA}.
翻訳日:2024-01-11 17:07:48 公開日:2024-01-10
# Angular Momentum Flowは、何も持たない

Angular Momentum Flows without anything carrying it ( http://arxiv.org/abs/2310.07568v3 )

ライセンス: Link先を確認
Yakir Aharonov, Daniel Collins, Sandu Popescu(参考訳) 2つの遠隔領域間で保存された量の移動は、一般的にかなり簡単なプロセスであると仮定される: 保存された量を運ぶ粒子の束は、ある領域から別の領域に伝播する。 しかしながら、ある領域から別の領域への角運動量のフローは、任意の粒子(または場)が存在するという、消えるほど小さな確率が存在する空間の領域にまたがる。 これは、保存法がどのように機能するかに関する通常の見解を再考する必要があることを示している。

Transfer of conserved quantities between two remote regions is generally assumed to be a rather trivial process: a flux of particles carrying the conserved quantities propagates from one region to another. We however demonstrate a flow of angular momentum from one region to another across a region of space in which there is a vanishingly small probability of any particles (or fields) being present. This shows that the usual view of how conservation laws work needs to be revisited.
翻訳日:2024-01-11 17:07:22 公開日:2024-01-10
# 22nmFDSOICMOSの小型TIAによるモノリシック量子プロセッサのビット読み出し

A Compact TIA in 22nm FDSOI CMOS for Qubit Readout in Monolithic Quantum Processors ( http://arxiv.org/abs/2310.06792v3 )

ライセンス: Link先を確認
Domenico Zito, Tan Doan Nhut(参考訳) 本稿では,モノリシック量子プロセッサにおけるスピン量子ビット読み出し動作において,非常にコンパクトで十分な性能を有するインダクタレストランスインピーダンス増幅器(TIA)について報告する。 TIAは22nmのFDSOI CMOSファウントリー技術で設計され製造されている。 その結果、室温で13ghzの帯域幅を持つ103db{\omegaのトランインプデンスゲインを示し、極低温ではわずかに優れた性能を示すことが期待される。 消費電力は4.1mWである。 コア領域は0.00025mm2、すなわち、先行技術と比較して2桁ほど小さくなり、量子ビットサイズに近づくと、インダクタレスIAはモノリシック量子プロセッサのコンパクト化ソリューションとなる。

This paper reports an inductorless transimpedance amplifier (TIA) with very compact size and adequate performance for spin qubit readout operations in monolithic quantum processors. The TIA has been designed and fabricated in a 22nm FDSOI CMOS foundry technology commercially available. The measurement results show a transimpedance gain of 103 dB{\Omega} with a bandwidth of 13 GHz, at room temperature, and it is expected to exhibit slightly superior performance at cryogenic temperatures. The power consumption amounts to 4.1 mW. The core area amount to 0.00025 mm2, i.e., about two orders of magnitude smaller with respect to the prior-art works, and approaching the qubit size, which makes the inductorless TIA a compact enabling solution for monolithic quantum processors.
翻訳日:2024-01-11 17:07:13 公開日:2024-01-10
# 真空誘電率の起源における零点エネルギー密度と光子伝播時間ゆらぎ

Zero-Point Energy Density at the Origin of the Vacuum Permittivity and Photon Propagation Time Fluctuation ( http://arxiv.org/abs/2310.05488v2 )

ライセンス: Link先を確認
Christophe Hugon and Vladimir Kulikovskiy(参考訳) 仮想揺らぎに対してゼロ点密度の真空記述を与える。 目的の1つは真空誘電率と透過性の起源を説明し、それらの値を計算することである。 特に,仮想揺らぎによって占有される体積の仮定を回避し,既存の計算を改善する。 仮想ゆらぎの有限寿命を仮定したモデルの検証を提案する。 伝播中、光子が確率論的に閉じ込められ、仮想対によって放出されると、伝播速度は変動する。 いくつかの既存モデルに対して伝搬時間変動を推定する。 得られた値は超短パルスを含む利用可能な技術で測定可能であり、いくつかのモデルは既存の天文学的な観測と矛盾している。 位相速度には大きな影響はなく、干渉計による測定と一致している。

We give a vacuum description with zero-point density for virtual fluctuations. One of the goals is to explain the origin of the vacuum permittivity and permeability and to calculate their values. In particular, we improve on existing calculations by avoiding assumptions on the volume occupied by virtual fluctuations. We propose testing of the models that assume a finite lifetime of virtual fluctuation. If during its propagation, the photon is stochastically trapped and released by virtual pairs, the propagation velocity may fluctuate. The propagation time fluctuation is estimated for several existing models. The obtained values are measurable with available technologies involving ultra-short laser pulses, and some of the models are already in conflict with the existing astronomical observations. The phase velocity is not affected significantly, which is consistent with the interferometric measurements.
翻訳日:2024-01-11 17:06:59 公開日:2024-01-10
# トランスフォーマによる強化学習による分子デノボ設計

Molecular De Novo Design through Transformer-based Reinforcement Learning ( http://arxiv.org/abs/2310.05365v4 )

ライセンス: Link先を確認
Pengcheng Xu, Tao Feng, Tianfan Fu, Siddhartha Laghuvarapu, Jimeng Sun(参考訳) 本稿では,分子ドノボ設計のためのトランスベース生成モデルを微調整する手法を提案する。 リカレントニューラルネットワーク(rnn)上でのトランスフォーマの優れたシーケンス学習能力を活用することで,望ましい特性を持つ分子構造を効果的に生成することができる。 従来のrnnモデルとは対照的に, 分子構造配列の長期依存性を捉えることにより, 種々の生物標的に対する活性が予測される化合物の生成において優れた性能を示す。 モデルの有効性は、クエリ構造に類似点を生成し、特定の属性を持つ化合物を生成し、ベースラインのRNNベースの手法より優れるなど、数多くのタスクで実証されている。 本手法は, 足場ホッピング, 単一分子からのライブラリ拡張, 生物標的に対する高い活性を有する化合物の生成に利用できる。

In this work, we introduce a method to fine-tune a Transformer-based generative model for molecular de novo design. Leveraging the superior sequence learning capacity of Transformers over Recurrent Neural Networks (RNNs), our model can generate molecular structures with desired properties effectively. In contrast to the traditional RNN-based models, our proposed method exhibits superior performance in generating compounds predicted to be active against various biological targets, capturing long-term dependencies in the molecular structure sequence. The model's efficacy is demonstrated across numerous tasks, including generating analogues to a query structure and producing compounds with particular attributes, outperforming the baseline RNN-based methods. Our approach can be used for scaffold hopping, library expansion starting from a single molecule, and generating compounds with high predicted activity against biological targets.
翻訳日:2024-01-11 17:06:46 公開日:2024-01-10
# 二重被覆に基づく符号なし距離場からのロバストゼロレベルセット抽出

Robust Zero Level-Set Extraction from Unsigned Distance Fields Based on Double Covering ( http://arxiv.org/abs/2310.03431v3 )

ライセンス: Link先を確認
Fei Hou, Xuhui Chen, Wencheng Wang, Hong Qin, Ying He(参考訳) 本論文では、符号なし距離場(UDF)からゼロレベルセットを抽出するDoubleCoverUDFと呼ばれる新しい手法を提案する。 doublecoverudfは、学習済みudfとユーザ指定パラメータ$r$(小さな正の実数)を入力として、従来のマーチングキューブアルゴリズムを使用してiso値$r$でiso-surfaceを抽出する。 計算されたアイソ曲面は、目標零レベルセット$S$の$r$オフセット体積の境界であることを示し、これは、$S$の位相によらず、向き付け可能な多様体である。 次に、アルゴリズムはカバーマップを計算して境界メッシュを$s$に投影し、メッシュのトポロジを保持し、折りたたみを回避する。 もし$S$が向き付け可能な多様体表面であれば、我々のアルゴリズムは二層メッシュをロバストな最小カット後処理ステップを用いて単一層に分離する。 そうでなければ、二重層メッシュを出力として保持する。 オープンモデルの3次元表面を再構成してアルゴリズムの有効性を検証し, 合成モデルやベンチマークデータセット上での有効性と有効性を示す。 実験の結果,本手法は頑健であり,既存のudf方式よりも視覚的評価と定量的測定の両面で,優れた品質を有するメッシュを生成できることが確認された。 ソースコードはhttps://github.com/jjjkkyz/DCUDFで入手できる。

In this paper, we propose a new method, called DoubleCoverUDF, for extracting the zero level-set from unsigned distance fields (UDFs). DoubleCoverUDF takes a learned UDF and a user-specified parameter $r$ (a small positive real number) as input and extracts an iso-surface with an iso-value $r$ using the conventional marching cubes algorithm. We show that the computed iso-surface is the boundary of the $r$-offset volume of the target zero level-set $S$, which is an orientable manifold, regardless of the topology of $S$. Next, the algorithm computes a covering map to project the boundary mesh onto $S$, preserving the mesh's topology and avoiding folding. If $S$ is an orientable manifold surface, our algorithm separates the double-layered mesh into a single layer using a robust minimum-cut post-processing step. Otherwise, it keeps the double-layered mesh as the output. We validate our algorithm by reconstructing 3D surfaces of open models and demonstrate its efficacy and effectiveness on synthetic models and benchmark datasets. Our experimental results confirm that our method is robust and produces meshes with better quality in terms of both visual evaluation and quantitative measures than existing UDF-based methods. The source code is available at https://github.com/jjjkkyz/DCUDF.
翻訳日:2024-01-11 17:06:14 公開日:2024-01-10
# 大規模言語モデルを用いたVQA自動評価の改善

Improving Automatic VQA Evaluation Using Large Language Models ( http://arxiv.org/abs/2310.02567v2 )

ライセンス: Link先を確認
Oscar Ma\~nas, Benno Krojer, Aishwarya Agrawal(参考訳) 視覚的質問応答(VQA)タスクが提案されてから8年後も,精度が自動評価の主要な指標である。 IID評価ではVQA精度が有効である。 しかし、我々のコミュニティは、オープンな生成モデルとOOD評価にシフトしている。 この新しいパラダイムでは、既存のVQA精度メトリックは過度に厳密であり、VQAシステムの性能を過小評価している。 したがって、人間の判断のプロキシとして機能する、より堅牢な自動VQAメトリクスを開発する必要がある。 本研究では,命令調整型大規模言語モデル(LLM)のコンテキスト内学習機能を活用して,より良いVQA尺度を構築することを提案する。 我々は、LLMに基準回答のセットが与えられた場合の候補回答の精度を評価するように指示された回答作成タスクとしてVQA評価を定式化する。 提案手法は,VQAモデルおよびベンチマークにおける既存の指標と比較して,人間の判断と相関することを示す。 VQAタスクにおける研究の進捗をよりよく見積もる上で、我々のメトリクスの広範な採用が貢献することを期待します。 評価コードを公開し、人間の判断を収集する予定です。

8 years after the visual question answering (VQA) task was proposed, accuracy remains the primary metric for automatic evaluation. VQA Accuracy has been effective so far in the IID evaluation setting. However, our community is undergoing a shift towards open-ended generative models and OOD evaluation. In this new paradigm, the existing VQA Accuracy metric is overly stringent and underestimates the performance of VQA systems. Thus, there is a need to develop more robust automatic VQA metrics that serve as a proxy for human judgment. In this work, we propose to leverage the in-context learning capabilities of instruction-tuned large language models (LLMs) to build a better VQA metric. We formulate VQA evaluation as an answer-rating task where the LLM is instructed to score the accuracy of a candidate answer given a set of reference answers. We demonstrate the proposed metric better correlates with human judgment compared to existing metrics across several VQA models and benchmarks. We hope wide adoption of our metric will contribute to better estimating the research progress on the VQA task. We plan to release the evaluation code and collected human judgments.
翻訳日:2024-01-11 17:05:49 公開日:2024-01-10
# ルート探索と最適化における不要な点を避けるための壁の作成

Creating walls to avoid unwanted points in root finding and optimization ( http://arxiv.org/abs/2309.11475v3 )

ライセンス: Link先を確認
Tuyen Trung Truong(参考訳) ルート探索と最適化において、ある閉集合 $A$ 1 が存在する場合、あるメソッドによって構成された列が A に収束しないのが好まれる(ただし、凸や連結であるような$A$上の余分な性質は仮定しない)。 例えば、もしルートを見つけたいとすると、1つのルート$z^*$(手元が事前に知らないかもしれないという事実)のアトラクションの盆地の初期点を選択すると、常にそのルートに現れる。 この場合、アルゴリズムの次の実行において、このポイント$z^*$を避けるメカニズムを持つ必要がある。 非拘束最適化のための最適化(およびルート探索)のための im メソッドを既に持っていると仮定する。 本稿では,前項で論じる状況に対処する手法の簡易な修正IM1を提案する。 IM が強い理論的保証を持つなら、IM1 も同様である。 1つはリーマン面の開部分集合における有理函数の根を求めること、もう1つは、その内側のユークリッド空間の開部分集合における函数の局所的極小を見つけることに関するものである。 その過程で,現在の文献における既存手法との比較を行った。 新しいアプローチの有用性を説明するために、さまざまな異なる設定でいくつかの例を挙げる。

In root finding and optimization, there are many cases where there is a closed set $A$ one likes that the sequence constructed by one's favourite method will not converge to A (here, we do not assume extra properties on $A$ such as being convex or connected). For example, if one wants to find roots, and one chooses initial points in the basin of attraction for 1 root $z^*$ (a fact which one may not know before hand), then one will always end up in that root. In this case, one would like to have a mechanism to avoid this point $z^*$ in the next runs of one's algorithm. Assume that one already has a method IM for optimization (and root finding) for non-constrained optimization. We provide a simple modification IM1 of the method to treat the situation discussed in the previous paragraph. If the method IM has strong theoretical guarantees, then so is IM1. As applications, we prove two theoretical applications: one concerns finding roots of a meromorphic function in an open subset of a Riemann surface, and the other concerns finding local minima of a function in an open subset of a Euclidean space inside it the function has at most countably many critical points. Along the way, we compare with main existing relevant methods in the current literature. We provide several examples in various different settings to illustrate the usefulness of the new approach.
翻訳日:2024-01-11 17:05:10 公開日:2024-01-10
# Asperger症候群スクリーニングテストによる大言語モデルのメタファーと皮肉を理解する能力の評価

Evaluating large language models' ability to understand metaphor and sarcasm using a screening test for Asperger syndrome ( http://arxiv.org/abs/2309.10744v2 )

ライセンス: Link先を確認
Hiromu Yakura(参考訳) メタファーとサルカズムは、高度に進化した社会コミュニケーションスキルの貴重な成果である。 しかし、アスペルガー症候群の子供は、比喩を理解するのに十分なある種の言語IQを持っているとしても、皮肉を理解するのに困難であることが知られている。 それを考えると、メタファーやサルカズムを理解する能力を評価するスクリーニングテストは、アスペルガー症候群と外的行動に類似した他の症状(注意欠陥/多動性障害など)を区別するために用いられてきた。 本研究では,人間のニュアンス通信を理解するための最近の大規模言語モデル(llms)の能力について,標準化テストを用いて検証する。 その結果,メタファの理解能力はモデルパラメータの数の増加とともに向上したのに対し,皮肉理解の改善は見られなかった。 このことは、人間の場合、感情学習のための重要な脳の領域である扁桃体と関連付けられているサルカズムをつかむ能力を持つ、未熟なLSMに代替的なアプローチが必須であることを示している。

Metaphors and sarcasm are precious fruits of our highly-evolved social communication skills. However, children with Asperger syndrome are known to have difficulties in comprehending sarcasm, even if they possess a certain level of verbal IQ sufficient for understanding metaphors. Given that, a screening test that scores the ability to understand metaphor and sarcasm has been used to differentiate Asperger syndrome from other symptoms exhibiting akin external behaviors (e.g., attention-deficit/hyperactivity disorder). This study uses the standardized test to examine the capability of recent large language models (LLMs) in understanding human nuanced communication. The results divulged that, whereas their ability to comprehend metaphors has been improved with the increase of the number of model parameters, the improvement in sarcasm understanding was not observed. This implies that an alternative approach is imperative to imbue LLMs with the capacity to grasp sarcasm, which has been associated with the amygdala, a pivotal cerebral region for emotional learning, in the case of humans.
翻訳日:2024-01-11 17:04:44 公開日:2024-01-10
# AIエージェントの記憶と一般化能力の分析:継続的な学習者はロバストか?

Analysis of the Memorization and Generalization Capabilities of AI Agents: Are Continual Learners Robust? ( http://arxiv.org/abs/2309.10149v2 )

ライセンス: Link先を確認
Minsu Kim and Walid Saad(参考訳) 連続学習(CL)では、AIエージェント(例えば、自動運転車やロボット)が動的環境下での非定常データストリームから学習する。 このようなアプリケーションの実用的なデプロイには、過去の経験を維持しながら、見えない環境への堅牢性を保証することが重要である。 本稿では,過去の知識を保ちながら動的環境への堅牢な一般化を実現するための新しいclフレームワークを提案する。 検討されたCLエージェントは、容量制限メモリを使用して、以前に観測された環境情報を保存し、忘れる問題を緩和する。 そして、メモリからデータポイントをサンプリングし、環境変化に対するリスクの分布を推定し、目に見えない変化で堅牢な予測器を得る。 提案フレームワークの一般化と記憶性能を理論的に解析した。 この分析ではメモリサイズの記憶と一般化のトレードオフを示す。 実験により,提案アルゴリズムが全環境のメモリベースラインを上回り,対象環境の一般化性能が大幅に向上することを示した。

In continual learning (CL), an AI agent (e.g., autonomous vehicles or robotics) learns from non-stationary data streams under dynamic environments. For the practical deployment of such applications, it is important to guarantee robustness to unseen environments while maintaining past experiences. In this paper, a novel CL framework is proposed to achieve robust generalization to dynamic environments while retaining past knowledge. The considered CL agent uses a capacity-limited memory to save previously observed environmental information to mitigate forgetting issues. Then, data points are sampled from the memory to estimate the distribution of risks over environmental change so as to obtain predictors that are robust with unseen changes. The generalization and memorization performance of the proposed framework are theoretically analyzed. This analysis showcases the tradeoff between memorization and generalization with the memory size. Experiments show that the proposed algorithm outperforms memory-based CL baselines across all environments while significantly improving the generalization performance on unseen target environments.
翻訳日:2024-01-11 17:04:23 公開日:2024-01-10
# RaTrack: 4Dレーダポイントクラウドによるオブジェクトの検出と追跡

RaTrack: Moving Object Detection and Tracking with 4D Radar Point Cloud ( http://arxiv.org/abs/2309.09737v3 )

ライセンス: Link先を確認
Zhijun Pan, Fangqiang Ding, Hantao Zhong, Chris Xiaoxuan Lu(参考訳) モバイルの自律性は、動的環境の正確な認識に依存している。 3Dの世界における移動物体のロバストな追跡は、軌道予測、障害物回避、経路計画といったアプリケーションにおいて重要な役割を果たす。 現在のほとんどの手法では、LiDARやカメラを多重物体追跡(MOT)に利用しているが、4Dイメージングレーダーの能力はほとんど探索されていない。 4dレーダデータにおけるレーダノイズとポイントスパーシティの課題を認識し,レーダトラッキングに適した革新的なソリューションであるratrackを紹介する。 特定のオブジェクトタイプや3次元境界ボックスに典型的な依存を通すことで、動作推定モジュールによって強化された動きのセグメンテーションとクラスタリングに焦点をあてる。 View-of-Delftデータセットから評価すると、RaTrackは移動物体の追跡精度が優れており、ほとんどの場合、最先端のパフォーマンスを上回っている。

Mobile autonomy relies on the precise perception of dynamic environments. Robustly tracking moving objects in 3D world thus plays a pivotal role for applications like trajectory prediction, obstacle avoidance, and path planning. While most current methods utilize LiDARs or cameras for Multiple Object Tracking (MOT), the capabilities of 4D imaging radars remain largely unexplored. Recognizing the challenges posed by radar noise and point sparsity in 4D radar data, we introduce RaTrack, an innovative solution tailored for radar-based tracking. Bypassing the typical reliance on specific object types and 3D bounding boxes, our method focuses on motion segmentation and clustering, enriched by a motion estimation module. Evaluated on the View-of-Delft dataset, RaTrack showcases superior tracking precision of moving objects, largely surpassing the performance of the state of the art.
翻訳日:2024-01-11 17:04:04 公開日:2024-01-10
# HiT: 階層型トランスフォーマーによるマッピングの構築

HiT: Building Mapping with Hierarchical Transformers ( http://arxiv.org/abs/2309.09643v2 )

ライセンス: Link先を確認
Mingming Zhang, Qingjie Liu, Yunhong Wang(参考訳) 近年,高分解能リモートセンシング画像から自動ビルマッピングを行うための深層学習に基づく手法が広く研究されている。 ほとんどの建物マッピングモデルは、地理的およびマッピングシステムのための建物のベクトル多角形を生成するが、支配的な手法は、分割、多角化、正規化を含むいくつかのサブプロブレムにおいてポリゴン構造抽出を分解し、複雑な推論手順、低い精度、低い一般化をもたらす。 本論文では,高分解能リモートセンシング画像から多角形建物マッピングの品質を向上させるhitと呼ばれる階層的トランスフォーマーを用いた簡易かつ新しい建物マッピング手法を提案する。 HiTは、分類とバウンディングボックス回帰ヘッドに平行なポリゴンヘッドを追加することで、2段階検出アーキテクチャに基づいている。 HiTは、完全にエンドツーエンドのトレーニングが可能な、バウンディングボックスとベクトルポリゴンを同時に出力する。 ポリゴンヘッドは、二方向特性を持つ直列化された頂点としてのビルディングポリゴンを定式化し、始端頂点仮説を避ける単純かつエレガントなポリゴン表現である。 この新たな視点の下では、ポリゴンヘッドはトランスフォーマーエンコーダデコーダアーキテクチャを採用し、設計された双方向ポリゴン損失によって制御されるシリアライズされた頂点を予測する。 さらに、ポリゴンヘッドのエンコーダに畳み込み操作と組み合わされた階層的注意機構を導入し、頂点およびエッジレベルでポリゴンを構築するより幾何学的な構造を提供する。 2つのベンチマーク(CrowdAIとInriaのデータセット)の総合的な実験により、我々の手法は、最先端の手法と比較して、インスタンスのセグメンテーションと多角的メトリクスの点で、新しい最先端の手法を実現することを示した。 さらに,複雑な場面におけるモデルの優位性と有効性を検証する。

Deep learning-based methods have been extensively explored for automatic building mapping from high-resolution remote sensing images over recent years. While most building mapping models produce vector polygons of buildings for geographic and mapping systems, dominant methods typically decompose polygonal building extraction in some sub-problems, including segmentation, polygonization, and regularization, leading to complex inference procedures, low accuracy, and poor generalization. In this paper, we propose a simple and novel building mapping method with Hierarchical Transformers, called HiT, improving polygonal building mapping quality from high-resolution remote sensing images. HiT builds on a two-stage detection architecture by adding a polygon head parallel to classification and bounding box regression heads. HiT simultaneously outputs building bounding boxes and vector polygons, which is fully end-to-end trainable. The polygon head formulates a building polygon as serialized vertices with the bidirectional characteristic, a simple and elegant polygon representation avoiding the start or end vertex hypothesis. Under this new perspective, the polygon head adopts a transformer encoder-decoder architecture to predict serialized vertices supervised by the designed bidirectional polygon loss. Furthermore, a hierarchical attention mechanism combined with convolution operation is introduced in the encoder of the polygon head, providing more geometric structures of building polygons at vertex and edge levels. Comprehensive experiments on two benchmarks (the CrowdAI and Inria datasets) demonstrate that our method achieves a new state-of-the-art in terms of instance segmentation and polygonal metrics compared with state-of-the-art methods. Moreover, qualitative results verify the superiority and effectiveness of our model under complex scenes.
翻訳日:2024-01-11 17:03:48 公開日:2024-01-10
# FedEmb: NetworkとFeature Embedding Aggregationを用いた垂直かつハイブリッドなフェデレーション学習アルゴリズム

FedEmb: A Vertical and Hybrid Federated Learning Algorithm using Network And Feature Embedding Aggregation ( http://arxiv.org/abs/2312.00102v4 )

ライセンス: Link先を確認
Fanfei Meng, Lele Zhang, Yu Chen, Yuxin Wang(参考訳) フェデレートラーニング(FL)は、中央サーバにデータを公開せずに、分散クライアント上で機械学習モデルの分散トレーニングを行うための新興パラダイムである。 学習方式は水平、垂直またはハイブリッド(垂直と水平の両方)である。 ディープニューラルネットワーク(DNN)モデリングに関する既存の研究は、水平データ分布に重点を置いているが、垂直とハイブリッドのスキームはあまり研究されていない。 本稿では,垂直およびハイブリッドDNN学習のための一般化アルゴリズムであるFedEmbを提案する。 提案アルゴリズムの考え方は,既存の作業と比較して,推論精度の向上,プライバシー保護特性の向上,クライアントサーバ通信帯域幅の低減などが特徴である。 実験の結果,feedembは分割特徴量と対象空間分散問題の両方に有効な手法であり,ローカルクライアントに格納されたデータセットのプライバシーを明かすことなく,0.3%から4.2%の推論精度の向上を示し,垂直ベースライン法よりも88.9%の時間複雑性を低減した。

Federated learning (FL) is an emerging paradigm for decentralized training of machine learning models on distributed clients, without revealing the data to the central server. The learning scheme may be horizontal, vertical or hybrid (both vertical and horizontal). Most existing research work with deep neural network (DNN) modelling is focused on horizontal data distributions, while vertical and hybrid schemes are much less studied. In this paper, we propose a generalized algorithm FedEmb, for modelling vertical and hybrid DNN-based learning. The idea of our algorithm is characterised by higher inference accuracy, stronger privacy-preserving properties, and lower client-server communication bandwidth demands as compared with existing work. The experimental results show that FedEmb is an effective method to tackle both split feature & subject space decentralized problems, shows 0.3% to 4.2% inference accuracy improvement with limited privacy revealing for datasets stored in local clients, and reduces 88.9 % time complexity over vertical baseline method.
翻訳日:2024-01-11 16:55:56 公開日:2024-01-10
# IODeep:DICOM標準でのディープラーニング導入のためのIOD

IODeep: an IOD for the introduction of deep learning in the DICOM standard ( http://arxiv.org/abs/2311.16163v2 )

ライセンス: Link先を確認
Salvatore Contino, Luca Cruciata, Orazio Gambino and Roberto Pirrone(参考訳) 背景と目的:近年、人工知能(AI)、特にディープニューラルネットワーク(DNN)は、よく知られた競争の確立とともに、より多くのデータセットが利用可能になったため、バイオメディカルイメージセグメンテーションにおいて、関連する研究トピックとなった。 研究側のDNNベースのセグメンテーションの人気にもかかわらず、これらの技術は診断過程において医師を効果的に支援できるとしても、日常臨床ではほとんど使われていない。 神経モデルの予測の説明可能性に関する問題とは別に、そのようなシステムは診断ワークフローに統合されておらず、この目標を達成するためにはそれらの使用の標準化が必要である。 方法:本稿では,dnn の重みとアーキテクチャを,取得形態,解剖学的領域,および調査中の疾患についてラベル付けされた特定の画像データセットに格納することを目的とした,新しい dicom information object definition (iod) を提案する。 結果: IODアーキテクチャは,上述したラベルに基づくPACSサーバからのDNN選択アルゴリズムと,DICOM統合の有効性を示すために設計されたシンプルなPACSビューアとともに提示されるが,PACSサーバ側では変更は不要である。 また、ワークフロー全体をサポートするサービスベースのアーキテクチャも実装されている。 結論: IODeepは、トレーニングされたAIモデルをDICOMインフラストラクチャに完全に統合することを保証すると同時に、トレーニングされたモデルを病院データで微調整するか、異なる病院が共有するフェデレーション学習スキームでトレーニングすることが可能である。 これにより、AIモデルは、Radiology病棟が生成する実際のデータに合わせて調整され、医師の意思決定プロセスが改善される。 ソースコードはhttps://github.com/CHILab1/IODeep.gitで無料で入手できる。

Background and Objective: In recent years, Artificial Intelligence (AI) and in particular Deep Neural Networks (DNN) became a relevant research topic in biomedical image segmentation due to the availability of more and more data sets along with the establishment of well known competitions. Despite the popularity of DNN based segmentation on the research side, these techniques are almost unused in the daily clinical practice even if they could support effectively the physician during the diagnostic process. Apart from the issues related to the explainability of the predictions of a neural model, such systems are not integrated in the diagnostic workflow, and a standardization of their use is needed to achieve this goal. Methods: This paper presents IODeep a new DICOM Information Object Definition (IOD) aimed at storing both the weights and the architecture of a DNN already trained on a particular image dataset that is labeled as regards the acquisition modality, the anatomical region, and the disease under investigation. Results: The IOD architecture is presented along with a DNN selection algorithm from the PACS server based on the labels outlined above, and a simple PACS viewer purposely designed for demonstrating the effectiveness of the DICOM integration, while no modifications are required on the PACS server side. Also a service based architecture in support of the entire workflow has been implemented. Conclusion: IODeep ensures full integration of a trained AI model in a DICOM infrastructure, and it is also enables a scenario where a trained model can be either fine-tuned with hospital data or trained in a federated learning scheme shared by different hospitals. In this way AI models can be tailored to the real data produced by a Radiology ward thus improving the physician decision making process. Source code is freely available at https://github.com/CHILab1/IODeep.git
翻訳日:2024-01-11 16:55:26 公開日:2024-01-10
# 対人嗜好からの学習における密度推定の視点

A density estimation perspective on learning from pairwise human preferences ( http://arxiv.org/abs/2311.14115v3 )

ライセンス: Link先を確認
Vincent Dumoulin, Daniel D. Johnson, Pablo Samuel Castro, Hugo Larochelle, Yann Dauphin(参考訳) 人間からのフィードバック(LHF)から学ぶこと、特にペアの好みから学ぶことは、最近、大きな言語モデル(LLM)のトレーニングにおいて重要な要素となり、多くの研究の対象となっている。 最近の研究は、報酬関数がペアの選好データから学習され、LLMは報酬を最大化するためのポリシーとして扱われ、しばしば追加の正規化制約の下で扱われる強化学習問題である。 本稿では,一対選好のための生成過程を中心とし,lhfを密度推定問題として扱う代替解釈を提案する。 選好行動分布方程式によって定義される生成過程の族に対して、ペアワイズ選好の報奨関数を訓練することで、アノテーションの暗黙の選好分布を効果的にモデル化できることを理論的および実証的に示す。 最後に,「注釈的誤特定」について考察し,その知見を提示する。アノテーション的行動について誤ったモデリングの仮定がなされた場合,その結果,不適応なモデルが生まれる場合,ペアで人間の選好から学ぶアプローチは,多様な視点を持つ注釈者集団から学ぶのに困難をもたらす可能性があることを示唆する。

Learning from human feedback (LHF) -- and in particular learning from pairwise preferences -- has recently become a crucial ingredient in training large language models (LLMs), and has been the subject of much research. Most recent works frame it as a reinforcement learning problem, where a reward function is learned from pairwise preference data and the LLM is treated as a policy which is adapted to maximize the rewards, often under additional regularization constraints. We propose an alternative interpretation which centers on the generative process for pairwise preferences and treats LHF as a density estimation problem. We provide theoretical and empirical results showing that for a family of generative processes defined via preference behavior distribution equations, training a reward function on pairwise preferences effectively models an annotator's implicit preference distribution. Finally, we discuss and present findings on "annotator misspecification" -- failure cases where wrong modeling assumptions are made about annotator behavior, resulting in poorly-adapted models -- suggesting that approaches that learn from pairwise human preferences could have trouble learning from a population of annotators with diverse viewpoints.
翻訳日:2024-01-11 16:54:34 公開日:2024-01-10
# 深層神経決定森林 : 臨床およびrt-pcrによるcovid-19患者の回復または脱セアーゼ予測のための新しいアプローチ

Deep Neural Decision Forest: A Novel Approach for Predicting Recovery or Decease of COVID-19 Patients with Clinical and RT-PCR ( http://arxiv.org/abs/2311.13925v2 )

ライセンス: Link先を確認
Mohammad Dehghani, Zahra Yazdanparast, Rasoul Samani(参考訳) 世界保健機関(WHO)は19日、新型コロナウイルスの感染拡大が相次いだと発表した。 このパンデミックは前例のない方法で人々の生活を混乱させ、広範囲の死亡率と死亡率を引き起こした。 その結果,特に医療機関が限られている地域では,病院の設備を優先するために,死亡リスクの高い患者を救急医が特定することが重要である。 患者から収集したデータは、どのデータが最も正確な予測を行うかという疑問があるが、新型コロナウイルス患者の結果を予測するのに有益である。 そこで本研究は,2つの目的を達成することを目的としている。 まず,深層学習アルゴリズムが患者のモラルを予測できるかどうかを検討する。 第2に, 臨床およびrt-pcrによる予測の信頼性について検討した。 異なる特徴セットを持つ4つのステージを定義し,解釈可能なディープラーニング手法を用いて適切なモデルを構築した。 結果から,深層神経決定森林は全段階にわたって良好に機能し,患者の回復と死亡を予測する能力が証明された。 さらに, RT-PCRを用いない臨床単独が, 80%の精度で最も効果的な診断方法であることが示唆された。 今後の医療活動を支援するため、新型コロナウイルスのパンデミックの経験を文書化し理解することが重要である。 本研究は、危機やcovid-19に類似したアウトブレイクが発生した場合に、医療専門家にガイダンスを提供することができる。

COVID-19 continues to be considered an endemic disease in spite of the World Health Organization's declaration that the pandemic is over. This pandemic has disrupted people's lives in unprecedented ways and caused widespread morbidity and mortality. As a result, it is important for emergency physicians to identify patients with a higher mortality risk in order to prioritize hospital equipment, especially in areas with limited medical services. The collected data from patients is beneficial to predict the outcome of COVID-19 cases, although there is a question about which data makes the most accurate predictions. Therefore, this study aims to accomplish two main objectives. First, we want to examine whether deep learning algorithms can predict a patient's morality. Second, we investigated the impact of Clinical and RT-PCR on prediction to determine which one is more reliable. We defined four stages with different feature sets and used interpretable deep learning methods to build appropriate model. Based on results, the deep neural decision forest performed the best across all stages and proved its capability to predict the recovery and death of patients. Additionally, results indicate that Clinical alone (without the use of RT-PCR) is the most effective method of diagnosis, with an accuracy of 80%. It is important to document and understand experiences from the COVID-19 pandemic in order to aid future medical efforts. This study can provide guidance for medical professionals in the event of a crisis or outbreak similar to COVID-19.
翻訳日:2024-01-11 16:54:09 公開日:2024-01-10
# Speak Like a Native: 大規模言語モデルをネイティブスタイルで提案する

Speak Like a Native: Prompting Large Language Models in a Native Style ( http://arxiv.org/abs/2311.13538v2 )

ライセンス: Link先を確認
Zhicheng Yang, Yiwei Wang, Yinya Huang, Jing Xiong, Xiaodan Liang, Jing Tang(参考訳) In-context Learning (ICL) with large language model (LLMs) は、多くの自然言語処理タスクにおいて近代的なツールとなっている。 しかし,テキスト形式がLLMの性能にどのように影響するかはいまだ解明されていない。 本稿では, LLMのネイティブスタイルとコンテキスト内例を整合させることにより, LLMの推論能力を向上させるために, 新規で効果的なアプローチである \textbf{AlignedCoT} を提案する。 ゼロショットシナリオで探索できるLCMの固有の特性を「Native」と呼ぶが、AlignedCoTはICL法に広く適用されており、最先端技術と組み合わせてLLMの性能をより向上させることができる。 数学的質問答え、常識推論、テキスト理解に関するいくつかのベンチマークにおいて、広範囲かつ包括的な実験を行う。 実験の結果,アライメントコットは手作りのデモよりも性能が著しく向上した。 具体的には、AlignedCoTでは、マルチステップ推論ベンチマークで慎重に手作りされたCoTと比較して平均+3.2\%の改善が見られ、さらに、AlignedCoTを使用してトレーニングセットのCoTテキストスタイルを書き換えることで、Retrieval Augmented Generationのパフォーマンスが3.6\%向上する。 ソースコードとデータセットはhttps://github.com/yangzhch6/alignedcotで入手できる。

In-context learning (ICL) with large language models (LLMs) has become the modern tools of choice for many natural language processing tasks. However, how the text style of in-context examples influences the performance of LLMs still remains under-explored. This paper presents a novel and effective approach, named \textbf{AlignedCoT}, to improve the reasoning capability of LLMs by aligning the in-context examples with the native style of LLMs.''Native'' refers to the inherent characteristic of LLMs which can be probed by zero-shot scenarios.AlignedCoT is widely applicable to ICL methods, making it easy to combine with state-of-the-art techniques to further improve the LLMs' performance. We conduct extensive and comprehensive experiments on several benchmarks on mathematical question-answering, common-sense reasoning, and text understanding. The empirical results demonstrate that our AlignedCoT significantly improves performance over the carefully handcrafted demonstrations. Specifically, with AlignedCoT, we observe an average +3.2\% improvement for \texttt{gpt-3.5-turbo} compared to the carefully handcrafted CoT on multi-step reasoning benchmarks.Furthermore, we use AlignedCoT to rewrite the CoT text style in the training set, which improves the performance of Retrieval Augmented Generation by 3.6\%.The source code and dataset is available at https://github.com/yangzhch6/AlignedCoT
翻訳日:2024-01-11 16:53:47 公開日:2024-01-10
# アンダーソン局在フェルミガスを超拡散に加速するフェルミ

Fermi accelerating an Anderson-localized Fermi gas to superdiffusion ( http://arxiv.org/abs/2311.08224v2 )

ライセンス: Link先を確認
Sian Barbosa, Maximilian Kiefer-Emmanouilidis, Felix Lang, Jennifer Koch, Artur Widera(参考訳) 障害は量子系の輸送特性に劇的な影響を及ぼすことがある。 一方、複数の散乱経路の破壊的量子干渉から生じるアンダーソン局在は、輸送を完全に停止することができる。 一方で、高エネルギー宇宙粒子の機構として提案されたフェルミ加速度などの時間依存ランダム力を伴う過程は、粒子の輸送を著しく促進することができる。 時間に依存しない不均質あるいは不規則なポテンシャルにおけるこれら2つの効果の競合は興味深いダイナミクスをもたらすが、実験的な観察は乏しい。 ここでは, 空間的および時間的相関が有限な障害電位内に広がる超低温非接触フェルミガスの力学を実験的に検討する。 障害の強さや変化率によっては,微弱な局在化や亜拡散から超拡散まで,変化可能な異常拡散のいくつかの異なる状態が観察される。 特に、拡大が局所化の効果を示す強い障害では、量子干渉が加速を阻害しているように見える中間のレジームが存在する。 このシステムは、アンダーソン局在化現象と二階フェルミ加速を結びつけ、量子輸送の体制に入る際のフェルミ加速を実験的に研究する方法を舗装する。

Disorder can have dramatic impact on the transport properties of quantum systems. On the one hand, Anderson localization, arising from destructive quantum interference of multiple-scattering paths, can halt transport entirely. On the other hand, processes involving time-dependent random forces such as Fermi acceleration, proposed as a mechanism for high-energy cosmic particles, can expedite particle transport significantly. The competition of these two effects in time-dependent inhomogeneous or disordered potentials can give rise to interesting dynamics but experimental observations are scarce. Here, we experimentally study the dynamics of an ultracold, non-interacting Fermi gas expanding inside a disorder potential with finite spatial and temporal correlations. Depending on the disorder's strength and rate of change, we observe several distinct regimes of tunable anomalous diffusion, ranging from weak localization and subdiffusion to superdiffusion. Especially for strong disorder, where the expansion shows effects of localization, an intermediate regime is present in which quantum interference appears to counteract acceleration. Our system connects the phenomena of Anderson localization with second-order Fermi acceleration and paves the way to experimentally investigating Fermi acceleration when entering the regime of quantum transport.
翻訳日:2024-01-11 16:52:59 公開日:2024-01-10
# 人型開発データコーパスを用いた事前学習LLM

Pre-training LLMs using human-like development data corpus ( http://arxiv.org/abs/2311.04666v4 )

ライセンス: Link先を確認
Khushi Bhardwaj, Raj Sanjay Shah, Sashank Varma(参考訳) 事前学習された大規模言語モデル(llm)は、様々な言語推論と理解タスクで成功を収めている。 LLMの事前学習段階は、生のテキストデータの大規模なコーパスを見る。 BabyLMの共有タスクは、LLMの事前学習と人間の言語習得を比較し、13歳の子供たちが見るトークンの数は、LLMが見るトークンの数よりも小さい。 本研究では, 子どもが見るトークンの数とほぼ同じ数を用いて, 文脈表現の学習能力に基づいて, LLMの事前学習と評価を行う。 アーキテクチャの違い、エポック全体のパフォーマンス変化の評価、タスクの厳格で厳格なトラックに対する事前トレーニングメトリクスの報告といった、強力なベースラインを提供しています。 また、タスクオーガナイザが与えるRoBERTaベースラインを緩やかに複製して、ハイパーパラメータ選択と複製性に対するトレーニングロバスト性を観察する。 本報告では,厳密かつ厳密なトラックの提出の詳細について述べる。

Pre-trained Large Language Models (LLMs) have shown success in a diverse set of language inference and understanding tasks. The pre-training stage of LLMs looks at a large corpus of raw textual data. The BabyLM shared task compares LLM pre-training to human language acquisition, where the number of tokens seen by 13-year-old kids is magnitudes smaller than the number of tokens seen by LLMs. In this work, we pre-train and evaluate LLMs on their ability to learn contextual word representations using roughly the same number of tokens as seen by children. We provide a strong set of baselines; with different architectures, evaluation of changes in performance across epochs, and reported pre-training metrics for the strict small and strict tracks of the task. We also try to loosely replicate the RoBERTa baseline given by the task organizers to observe the training robustness to hyperparameter selection and replicability. We provide the submission details to the strict and strict-small tracks in this report.
翻訳日:2024-01-11 16:52:39 公開日:2024-01-10
# 第二生まれの電子、再び水夫として生まれる

Second Born electrons, born again seamen ( http://arxiv.org/abs/2310.17666v2 )

ライセンス: Link先を確認
A. R. P. Rau(参考訳) タイトルの複数の句は好奇心に満ちており、海洋上の人物の救助と原子衝突における電荷移動における第2ボルン項の支配は物理学の共通要素を共有している。 2つの性質と共通性について説明する。

The multiple puns in the title play on a curiosity, that the rescue of a person overboard at sea and the dominance of the second Born term in charge transfer in atomic collisions share common elements of physics. Essentials and commonality in the two are explained.
翻訳日:2024-01-11 16:52:04 公開日:2024-01-10
# KirchhoffNet: メッセージパッシングと継続的深度モデルによる回路ブリッジ

KirchhoffNet: A Circuit Bridging Message Passing and Continuous-Depth Models ( http://arxiv.org/abs/2310.15872v2 )

ライセンス: Link先を確認
Zhengqi Gao, Fan-Keng Sun, Duane S. Boning(参考訳) 本稿では,アナログ電子回路の基本原理であるKirchhoffの現行法則を利用して,KirchhoffNetと呼ぶ独自のニューラルネットワークモデルを導入する。 KirchhoffNetは、メッセージパッシングニューラルネットワークと連続深度ネットワークとの密接な接続を確立する。 従来の層(畳み込み、プーリング、線形層など)が存在しない場合でも、kirchhoffnetはmnistデータセットで98.86%のテスト精度を達成し、state of the art (sota)の結果に匹敵する。 KirchhoffNetが興味深いのは、ハードウェア界におけるその可能性だ。 現代のディープニューラルネットワークは従来、gpuにデプロイされる。 対照的に、KirchhoffNetはアナログ電子回路によって物理的に実現することができる。 さらに、KirchhoffNet内のパラメータの数に関係なく、その前方計算は常に1/f秒以内に完了し、fはハードウェアのクロック周波数を表す。 この特徴は、超大規模ニューラルネットワークの実装に有望な技術を導入する。

In this paper, we exploit a fundamental principle of analog electronic circuitry, Kirchhoff's current law, to introduce a unique class of neural network models that we refer to as KirchhoffNet. KirchhoffNet establishes close connections with message passing neural networks and continuous-depth networks. We demonstrate that even in the absence of any traditional layers (such as convolution, pooling, or linear layers), KirchhoffNet attains 98.86% test accuracy on the MNIST dataset, comparable with state of the art (SOTA) results. What makes KirchhoffNet more intriguing is its potential in the realm of hardware. Contemporary deep neural networks are conventionally deployed on GPUs. In contrast, KirchhoffNet can be physically realized by an analog electronic circuit. Moreover, we justify that irrespective of the number of parameters within a KirchhoffNet, its forward calculation can always be completed within 1/f seconds, with f representing the hardware's clock frequency. This characteristic introduces a promising technology for implementing ultra-large-scale neural networks.
翻訳日:2024-01-11 16:51:29 公開日:2024-01-10
# 四元ウェーブレットネットワークによる医用画像表現の一般化

Generalizing Medical Image Representations via Quaternion Wavelet Networks ( http://arxiv.org/abs/2310.10224v2 )

ライセンス: Link先を確認
Luigi Sigillo, Eleonora Grassucci, Aurelio Uncini, Danilo Comminiello(参考訳) ニューラルネットワークの汎用性は、異なるソースからのデータセットとさまざまなタスクの可用性の増加により、幅広い研究分野になりつつある。 この問題は、メソジカルな基準の欠如が、異なるイメージングセンターによって提供されたり、様々なデバイスやコーファクターで取得されたりする、医療データの処理においてさらに広い。 これらの制約を克服するために,医療画像から健全な特徴を抽出できる,新しい,一般化可能な,データに依存しないフレームワークを導入する。 提案する四分法ウェーブレットネットワーク (quave) は, 既存の医用画像解析や合成タスクと容易に統合でき, 実, 四分法, またはハイパーコンプレックス値モデルと関わり, 単一チャネルデータへの採用を一般化することができる。 quaveはまず四元数ウェーブレット変換を通じて異なるサブバンドを抽出し、低周波/近似帯域と高周波/細粒度特性の両方をもたらす。 次に、画像処理のための他の神経モデルへの入力として、最も代表的なサブバンドのセットを重み付け、標準データサンプルを置き換える。 異なるデータセット、多様な画像解析、再構成、セグメンテーション、モダリティ翻訳を含む合成タスクを含む広範な実験的評価を行う。 また,実および四元価値モデルと組み合わせてクエーブを評価する。 その結果,提案フレームワークの有効性と汎用性が示され,ネットワーク性能が向上すると同時に,多様体シナリオに柔軟に適用でき,ドメインシフトに頑健である。 完全なコードは、https://github.com/ispamm/QWT.comで入手できる。

Neural network generalizability is becoming a broad research field due to the increasing availability of datasets from different sources and for various tasks. This issue is even wider when processing medical data, where a lack of methodological standards causes large variations being provided by different imaging centers or acquired with various devices and cofactors. To overcome these limitations, we introduce a novel, generalizable, data- and task-agnostic framework able to extract salient features from medical images. The proposed quaternion wavelet network (QUAVE) can be easily integrated with any pre-existing medical image analysis or synthesis task, and it can be involved with real, quaternion, or hypercomplex-valued models, generalizing their adoption to single-channel data. QUAVE first extracts different sub-bands through the quaternion wavelet transform, resulting in both low-frequency/approximation bands and high-frequency/fine-grained features. Then, it weighs the most representative set of sub-bands to be involved as input to any other neural model for image processing, replacing standard data samples. We conduct an extensive experimental evaluation comprising different datasets, diverse image analysis, and synthesis tasks including reconstruction, segmentation, and modality translation. We also evaluate QUAVE in combination with both real and quaternion-valued models. Results demonstrate the effectiveness and the generalizability of the proposed framework that improves network performance while being flexible to be adopted in manifold scenarios and robust to domain shifts. The full code is available at: https://github.com/ispamm/QWT.
翻訳日:2024-01-11 16:51:12 公開日:2024-01-10
# I-CEE: ユーザエキスパートのための画像分類モデルの解説

I-CEE: Tailoring Explanations of Image Classification Models to User Expertise ( http://arxiv.org/abs/2312.12102v2 )

ライセンス: Link先を確認
Yao Rong, Peizhu Qian, Vaibhav Unhelkar, Enkelejda Kasneci(参考訳) ブラックボックス機械学習モデルの意思決定を効果的に説明することは、それらに依存するaiシステムの責任ある展開に不可欠である。 その重要性を認識して、説明可能なAI(XAI)の分野は、これらの説明を生成するためのいくつかの技術を提供している。 しかし、ユーザ(説明者)にはあまり重点を置いておらず、ほとんどのXAI技術は"ワンサイズフィット"な説明を生み出しています。 このギャップを埋め、人間中心のXAIに向けた一歩を踏み出すために、ユーザーエキスパートに適した画像分類説明を提供するフレームワークであるI-CEEを紹介します。 既存の研究から情報を得たi-ceeは、トレーニングデータ(例えば、画像)、対応するローカル説明、およびモデル決定の有益なサブセットをユーザに提供することで、画像分類モデルの意思決定を説明する。 しかし、以前の作業とは異なり、I-CEEはサンプル画像のインフォメーション性をユーザーの専門知識に依存するようにモデル化し、異なるユーザに対して異なる例をもたらす。 I-CEEは、ユーザの専門知識に設定した例を合わせることで、モデルの理解とシミュラビリティをより促進できると仮定する。 提案手法を評価するため,複数のデータセット上でシミュレーションと人間の参加者(N = 100)による詳細な実験を行った。 シミュレーションされたユーザによる実験では、I-CEEはベースラインと比較してモデルの判断(シミュラビリティ)を正確に予測する能力を改善し、期待できる予備結果を提供する。 被験者による実験により,本手法はユーザのシミュラビリティの精度を大幅に向上し,人中心型XAIの重要性を強調した。

Effectively explaining decisions of black-box machine learning models is critical to responsible deployment of AI systems that rely on them. Recognizing their importance, the field of explainable AI (XAI) provides several techniques to generate these explanations. Yet, there is relatively little emphasis on the user (the explainee) in this growing body of work and most XAI techniques generate "one-size-fits-all" explanations. To bridge this gap and achieve a step closer towards human-centered XAI, we present I-CEE, a framework that provides Image Classification Explanations tailored to User Expertise. Informed by existing work, I-CEE explains the decisions of image classification models by providing the user with an informative subset of training data (i.e., example images), corresponding local explanations, and model decisions. However, unlike prior work, I-CEE models the informativeness of the example images to depend on user expertise, resulting in different examples for different users. We posit that by tailoring the example set to user expertise, I-CEE can better facilitate users' understanding and simulatability of the model. To evaluate our approach, we conduct detailed experiments in both simulation and with human participants (N = 100) on multiple datasets. Experiments with simulated users show that I-CEE improves users' ability to accurately predict the model's decisions (simulatability) compared to baselines, providing promising preliminary results. Experiments with human participants demonstrate that our method significantly improves user simulatability accuracy, highlighting the importance of human-centered XAI
翻訳日:2024-01-11 16:44:47 公開日:2024-01-10
# 2色レーザーパルスによるリニア分子の無電界アライメントと配向

Field-free alignment and orientation of linear molecules by two-color trapezoidal laser pulses ( http://arxiv.org/abs/2312.11777v2 )

ライセンス: Link先を確認
Eugene A. Koval(参考訳) 2色レーザーパルスによる線形分子の無電界配向と配向を理論的に検討した。 レーザーパルスの台形形状は、従来のガウスレーザーパルスと比較して、同じ強度と持続時間に対する最大アライメント度を高めることができる。 非断熱系と断熱系の両方のパルスの後、アライメントと配向は持続する。 最大(パルス中)アライメント度は、パルス持続時間の増加とともに急速に飽和し、ほぼ一定に保たれるが、最大(レーザーパルス外)アライメントの依存性とパルス持続時間に対する配向度は、断熱系の明確な周期構造を示す。 非零温度の影響も示される。 単色または二色プリパルスを付加すると、最大配向度は増加するが、2色プリパルスの適用は、単色プリパルスよりも高い最大配向度をもたらす。 また, 相対相変化が1パルスと2パルスの分子配向に及ぼす影響についても検討した。

The field-free alignment and orientation of the linear molecule by the two-color trapezoidal laser pulses were theoretically investigated. The trapezoidal shape of a laser pulse allows to enhance the maximum alignment degree for the same intensity and duration comparing to the conventional Gaussian laser pulse. The alignment and orientation persist after the pulse for both non-adiabatic and adiabatic regimes. While the maximum (during the pulse) alignment degree quickly saturates and remains almost constant with the pulse duration increase, the dependencies of the maximum (outside the laser pulse) alignment and orientation degrees on the pulse duration show the clear periodic structures in the adiabatic regime. The effect of the non-zero temperature is also shown. Applying additional the monochromatic or two-color prepulse increases the maximum orientation degree, but the application of the two-color prepulse leads to a higher maximum orientation degree than the monochromatic prepulse. The effect of the relative phase variation on the molecular orientation in case of one and two pulses was also discussed.
翻訳日:2024-01-11 16:44:16 公開日:2024-01-10
# apidocbooster: 大きな言語モデルを利用してapiドキュメントを補完するextract-then-abstractフレームワーク

APIDocBooster: An Extract-Then-Abstract Framework Leveraging Large Language Models for Augmenting API Documentation ( http://arxiv.org/abs/2312.10934v2 )

ライセンス: Link先を確認
Chengran Yang, Jiakun Liu, Bowen Xu, Christoph Treude, Yunbo Lyu, Junda He, Ming Li, David Lo(参考訳) APIドキュメントは、しばしばプログラミングの最も信頼できるリソースです。 Stack Overflowのような外部リソースから補完的な情報を要約することで、APIドキュメントの強化に多くのアプローチが提案されている。 既存の抽出に基づく要約手法は、入力長制限なしにソースコンテンツを正確に表現する忠実な要約を生成するのに優れている。 それにもかかわらず、それらは固有の可読性制限に苦しむ。 一方,抽象的要約法であるGPT-4に関する実証研究により,GPT-4はコヒーレントで簡潔な要約を生成できるが,情報性や忠実性の観点から制限を呈することが明らかとなった。 APIDocBoosterは,抽出的(長さ制限のない忠実な要約を可能にする)と抽象的要約(コヒーレントで簡潔な要約を生成する)の両方の利点をシームレスに融合する,抽出-主題抽出フレームワークである。 APIDocBoosterは、(1) \textbf{C}ontext-aware \textbf{S}entence \textbf{S}ection \textbf{C}lassification (CSSC)と(2) \textbf{UP}date \textbf{SUM}marization (UPSUM)の2つのステージで構成される。 CSSCは複数のソースから収集されたAPI関連情報をAPIドキュメントセクションに分類する。 UPSUMはまず、元のAPIドキュメントとは異なる抽出要約を生成し、その後、テキスト内学習を通じて抽出要約によってガイドされた抽象要約を生成する。 APIDocBoosterの自動評価を可能にするため,APIドキュメント拡張のための最初のデータセットを構築した。 自動評価の結果、APIDocBoosterの各ステージはベースラインよりも大きなマージンで優れています。 また, GPT-4 よりも APIDocBooster の方が優れており, それぞれ 13.89 %, 15.15 %, 30.56 % に情報伝達性, 関連性, 忠実性が向上していることを示す。

API documentation is often the most trusted resource for programming. Many approaches have been proposed to augment API documentation by summarizing complementary information from external resources such as Stack Overflow. Existing extractive-based summarization approaches excel in producing faithful summaries that accurately represent the source content without input length restrictions. Nevertheless, they suffer from inherent readability limitations. On the other hand, our empirical study on the abstractive-based summarization method, i.e., GPT-4, reveals that GPT-4 can generate coherent and concise summaries but presents limitations in terms of informativeness and faithfulness. We introduce APIDocBooster, an extract-then-abstract framework that seamlessly fuses the advantages of both extractive (i.e., enabling faithful summaries without length limitation) and abstractive summarization (i.e., producing coherent and concise summaries). APIDocBooster consists of two stages: (1) \textbf{C}ontext-aware \textbf{S}entence \textbf{S}ection \textbf{C}lassification (CSSC) and (2) \textbf{UP}date \textbf{SUM}marization (UPSUM). CSSC classifies API-relevant information collected from multiple sources into API documentation sections. UPSUM first generates extractive summaries distinct from the original API documentation and then generates abstractive summaries guided by extractive summaries through in-context learning. To enable automatic evaluation of APIDocBooster, we construct the first dataset for API document augmentation. Our automatic evaluation results reveal that each stage in APIDocBooster outperforms its baselines by a large margin. Our human evaluation also demonstrates the superiority of APIDocBooster over GPT-4 and shows that it improves informativeness, relevance, and faithfulness by 13.89\%, 15.15\%, and 30.56\%, respectively.
翻訳日:2024-01-11 16:43:58 公開日:2024-01-10
# 非ユークリッド空間グラフニューラルネットワーク

Non-Euclidean Spatial Graph Neural Network ( http://arxiv.org/abs/2312.10808v2 )

ライセンス: Link先を確認
Zheng Zhang, Sirui Li, Jingcheng Zhou, Junxiang Wang, Abhinav Angirekula, Allen Zhang and Liang Zhao(参考訳) 空間ネットワークはグラフトポロジが埋め込まれた空間空間によって制約されるネットワークである。 空間グラフ特性の結合を理解することは、空間ネットワークから強力な表現を抽出するために重要である。 したがって、個々の空間表現とネットワーク表現を組み合わせるだけで、空間ネットワークの基盤となる相互作用機構を明らかにすることはできない。 さらに、既存の空間ネットワーク表現学習法はユークリッド空間に埋め込まれたネットワークのみを考慮でき、不規則かつ非ユニフォームな非ユークリッド空間によってもたらされるリッチな幾何学的情報を十分に活用できない。 そこで本研究では,非ユークリッド多様体空間に埋め込まれた空間ネットワークの表現を学習するための新しい汎用フレームワークを提案する。 具体的には、エッジ上のメッセージとして空間幾何学を抽出するグラフトポロジと空間幾何学を組み合わせた新しいメッセージパスベースニューラルネットワークを提案する。 理論的には、学習された表現が回転や翻訳などの重要な対称性に即時不変であることを保証するとともに、異なる幾何学的構造を区別する十分な能力を維持する。 提案手法の強みは,合成データと実世界データの両方について広範な実験により実証された。

Spatial networks are networks whose graph topology is constrained by their embedded spatial space. Understanding the coupled spatial-graph properties is crucial for extracting powerful representations from spatial networks. Therefore, merely combining individual spatial and network representations cannot reveal the underlying interaction mechanism of spatial networks. Besides, existing spatial network representation learning methods can only consider networks embedded in Euclidean space, and can not well exploit the rich geometric information carried by irregular and non-uniform non-Euclidean space. In order to address this issue, in this paper we propose a novel generic framework to learn the representation of spatial networks that are embedded in non-Euclidean manifold space. Specifically, a novel message-passing-based neural network is proposed to combine graph topology and spatial geometry, where spatial geometry is extracted as messages on the edges. We theoretically guarantee that the learned representations are provably invariant to important symmetries such as rotation or translation, and simultaneously maintain sufficient ability in distinguishing different geometric structures. The strength of our proposed method is demonstrated through extensive experiments on both synthetic and real-world datasets.
翻訳日:2024-01-11 16:42:54 公開日:2024-01-10
# HyperPIE: 科学論文からのハイパーパラメータ情報抽出

HyperPIE: Hyperparameter Information Extraction from Scientific Publications ( http://arxiv.org/abs/2312.10638v2 )

ライセンス: Link先を確認
Tarek Saier, Mayumi Ohta, Takuto Asakura and Michael F\"arber(参考訳) 学術知識機械を大規模に読むためには,出版物から情報を自動的に抽出することが重要である。 抽出された情報は、例えば、学術検索、意思決定、知識グラフ構築を容易にすることができる。 既存のアプローチでカバーされていない重要な情報はハイパーパラメータである。 本稿では,ハイパーパラメータ情報抽出(HyperPIE)をエンティティ認識および関係抽出タスクとして形式化し,課題に取り組む。 さまざまなコンピュータサイエンス分野の出版物をカバーするラベル付きデータセットを作成します。 GPT-3.5, GALACTICA, Falcon, Vicuna, WizardLMの5つの大言語モデルに加えて, BERTベースの微調整モデルのトレーニングと評価を行う。 微調整モデルに対しては,最先端のベースラインよりも29%のF1を向上する関係抽出手法を開発した。 大規模言語モデルでは、構造化データ抽出にYAML出力を活用するアプローチを開発し、JSONよりもエンティティ認識の5.5%F1の平均的な改善を実現する。 最高のパフォーマンスモデルを用いて、多数の無注釈論文からハイパーパラメータ情報を抽出し、分野によってパターンを分析する。 データとソースコードはすべてhttps://github.com/IllDepence/hyperpieで公開されています。

Automatic extraction of information from publications is key to making scientific knowledge machine readable at a large scale. The extracted information can, for example, facilitate academic search, decision making, and knowledge graph construction. An important type of information not covered by existing approaches is hyperparameters. In this paper, we formalize and tackle hyperparameter information extraction (HyperPIE) as an entity recognition and relation extraction task. We create a labeled data set covering publications from a variety of computer science disciplines. Using this data set, we train and evaluate BERT-based fine-tuned models as well as five large language models: GPT-3.5, GALACTICA, Falcon, Vicuna, and WizardLM. For fine-tuned models, we develop a relation extraction approach that achieves an improvement of 29% F1 over a state-of-the-art baseline. For large language models, we develop an approach leveraging YAML output for structured data extraction, which achieves an average improvement of 5.5% F1 in entity recognition over using JSON. With our best performing model we extract hyperparameter information from a large number of unannotated papers, and analyze patterns across disciplines. All our data and source code is publicly available at https://github.com/IllDepence/hyperpie
翻訳日:2024-01-11 16:42:37 公開日:2024-01-10
# インスタンス依存雑音ラベルを用いた連合学習

Federated Learning with Instance-Dependent Noisy Label ( http://arxiv.org/abs/2312.10324v3 )

ライセンス: Link先を確認
Lei Wang, Jieming Bian, Jie Xu(参考訳) ノイズの多いラベルを持つフェデレートラーニング(FL)は大きな課題となる。 集中学習でノイズの多いラベルを扱うために設計された既存の手法は、主に小さなデータセットサイズとクライアントデータの多様性のため、fl設定においてその効果を失う傾向がある。 FLをノイズラベルで扱う試みはいくつかあるが、主にクラス条件ノイズを含むシナリオに焦点を当てている。 本稿では,flにおけるインスタンス依存雑音(idn)のより困難かつ実用的な課題について検討する。 我々はFedBeat (Federated Learning with Bayesian Ensemble-Assisted transition Matrix Estimation)と呼ばれる新しいアルゴリズムを導入する。 FedBeatは,(1)弱いグローバルモデルを構築し,ベイズモデルアンサンブル法を用いて高信頼データを抽出するフェデレーションデータ抽出ステップを含む,IDN遷移行列(IDNTM)を用いて,グローバルな統計的に一貫した分類器を構築することを目的としている。 2) クライアントが抽出したデータに基づいてIDNTM推定ネットワークを協調的に訓練するフェデレーション遷移行列推定ステップ。 (3)IDNTMを利用して,雑音ラベルに適した損失関数を用いて,グローバルモデルの性能を向上させるフェデレーション分類器補正ステップ。 CIFAR-10 と SVHN で行った実験により,提案手法が最先端手法を著しく上回ることを確認した。

Federated learning (FL) with noisy labels poses a significant challenge. Existing methods designed for handling noisy labels in centralized learning tend to lose their effectiveness in the FL setting, mainly due to the small dataset size and the heterogeneity of client data. While some attempts have been made to tackle FL with noisy labels, they primarily focused on scenarios involving class-conditional noise. In this paper, we study the more challenging and practical issue of instance-dependent noise (IDN) in FL. We introduce a novel algorithm called FedBeat (Federated Learning with Bayesian Ensemble-Assisted Transition Matrix Estimation). FedBeat aims to build a global statistically consistent classifier using the IDN transition matrix (IDNTM), which encompasses three synergistic steps: (1) A federated data extraction step that constructs a weak global model and extracts high-confidence data using a Bayesian model ensemble method. (2) A federated transition matrix estimation step in which clients collaboratively train an IDNTM estimation network based on the extracted data. (3) A federated classifier correction step that enhances the global model's performance by training it using a loss function tailored for noisy labels, leveraging the IDNTM. Experiments conducted on CIFAR-10 and SVHN verify that the proposed method significantly outperforms state-of-the-art methods.
翻訳日:2024-01-11 16:42:17 公開日:2024-01-10
# 同一のフェルミオンを惹きつける障害による脱カップリング:トランスファーマトリクスアプローチ

Disorder-induced decoupling of attracting identical fermions: transfer matrix approach ( http://arxiv.org/abs/2312.09987v2 )

ライセンス: Link先を確認
Lolita I. Knyazeva and Vladimir I. Yudson(参考訳) 有限格子クラスター上の短距離相互作用を持つ一対の同一フェルミオンについて,強サイト障害の存在下で考察する。 この玩具モデルは、強い乱れを持つハバードモデルの低密度構造を模倣する。 スピンフルフェルミオンは最小のエネルギーを持つ部位を同時に占有できるため、常に障害に耐性のある境界状態を形成するが、同じフェルミオンの場合、隣り合う場所でのペアリングの確率は相互作用と障害の関係に依存する。 この確率の 'brute-force' 計算の複雑さ(解析的および数値的)は、閉鎖の形で最も単純なクラスター幾何学であっても、サイト数とともに急速に増加する。 注目すべきことに、この問題はNPハードとして知られるポリヘドロンの体積を計算するという古い数学的タスクに関係している。 しかし、連鎖幾何学における問題は転送行列法によって正確に解くことができることが判明した。 このアプローチを用いて、相互作用と障害強度の任意の関係に対する長鎖のペアリング確率を計算し、結合されたフェルミオンと分離されたフェルミオンの状態の交叉を完全に記述した。

We consider a pair of identical fermions with a short-range attractive interaction on a finite lattice cluster in the presence of strong site disorder. This toy model imitates a low density regime of the strongly disordered Hubbard model. In contrast to spinful fermions, which can simultaneously occupy a site with a minimal energy and thus always form a bound state resistant to disorder, for the identical fermions the probability of pairing on neighboring sites depends on the relation between the interaction and the disorder. The complexity of `brute-force' calculations (both analytical and numerical) of this probability grows rapidly with the number of sites even for the simplest cluster geometry in the form of a closed chain. Remarkably, this problem is related to an old mathematical task of computing the volume of a polyhedron, known as NP-hard. However, we have found that the problem in the chain geometry can be exactly solved by the transfer matrix method. Using this approach we have calculated the pairing probability in the long chain for an arbitrary relation between the interaction and the disorder strengths and completely described the crossover between the regimes of coupled and separated fermions.
翻訳日:2024-01-11 16:41:52 公開日:2024-01-10
# 自律意思決定における能力評価のためのサプライズ指標の利用

Using Surprise Index for Competency Assessment in Autonomous Decision-Making ( http://arxiv.org/abs/2312.09033v2 )

ライセンス: Link先を確認
Akash Ratheesh, Ofer Dagan, Nisar R. Ahmed, Jay McMahon(参考訳) 本稿では,特に動的かつ不確実な環境での作業において,自律システムのタスク遂行能力を評価する問題について考察する。 マシンラーニングモデルの本質的な不透明さは、ユーザの視点からすると、しばしば‘ブラックボックス’と表現されるため、課題となる。 そこで,本研究では,利用可能な測定データを利用して,動的システムが期待通りに動作するかどうかを定量化するサプライズ指標を提案する。 確率モデルにおいて観測されたエビデンスが多変量ガウス周縁分布に従う場合、サプライズ指数は動的系の閉形式で計算できることを示した。 次に、非線形宇宙船の操作問題に適用し、強化学習エージェントによって行動が選択され、軌道が要求される軌道にどれだけうまく従うかを示す。

This paper considers the problem of evaluating an autonomous system's competency in performing a task, particularly when working in dynamic and uncertain environments. The inherent opacity of machine learning models, from the perspective of the user, often described as a `black box', poses a challenge. To overcome this, we propose using a measure called the Surprise index, which leverages available measurement data to quantify whether the dynamic system performs as expected. We show that the surprise index can be computed in closed form for dynamic systems when observed evidence in a probabilistic model if the joint distribution for that evidence follows a multivariate Gaussian marginal distribution. We then apply it to a nonlinear spacecraft maneuver problem, where actions are chosen by a reinforcement learning agent and show it can indicate how well the trajectory follows the required orbit.
翻訳日:2024-01-11 16:41:04 公開日:2024-01-10
# 機械学習と深層学習に基づく脳インスパイアコンピューティングのためのヒューマンコンピュータインタラクション:レビュー

Human-computer Interaction for Brain-inspired Computing Based on Machine Learning And Deep Learning:A Review ( http://arxiv.org/abs/2312.07213v2 )

ライセンス: Link先を確認
Bihui Yu, Sibo Zhang, Lili Zhou, Jingxuan Wei, Linzhuang Sun, Liping Bu(参考訳) 人工知能の継続的な開発は、バイオメディカル研究や他の分野に大きな影響を与え、脳に触発されたコンピューティングは、マルチモーダル技術とバイオメディカル分野の重要な交差点である。 本稿では,機械学習(ML)と深層学習(DL)モデルによる脳に触発されたコンピュータのインタラクション,進化の追跡,アプリケーションの価値,課題,潜在的研究軌跡について概説する。 まず、基本的な概念と開発史を概観し、その進化は、最近の機械学習と現在のディープラーニングの2つの段階に分けられ、脳にインスパイアされたコンピューティングのための人間とコンピュータの相互作用の研究における各段階の重要性を強調している。 さらに,6つの視点から,脳にインスパイアされたコンピュータのためのヒューマンコンピュータインタラクションのタスクにおける深層学習の最近の進歩と鍵となる技術を紹介する。 大幅な進歩にもかかわらず、その能力を完全に活用する上で課題は残る。 本稿では,機械学習と深層学習に基づく脳にインスパイアされた計算モデルのための人間とコンピュータのインタラクションの包括的レビューを行い,それらの応用可能性を強調し,今後の学術研究に有用な参考文献を提供する。 https://github.com/ultracoolHub/brain-inspired-computing

The continuous development of artificial intelligence has a profound impact on biomedical research and other fields.Brain-inspired computing is an important intersection of multimodal technology and biomedical field. This paper presents a comprehensive review of machine learning (ML) and deep learning (DL) models applied in human-computer interaction for brain-inspired computing, tracking their evolution, application value, challenges, and potential research trajectories. First, the basic concepts and development history are reviewed, and their evolution is divided into two stages: recent machine learning and current deep learning, emphasizing the importance of each stage in the research state of human-computer interaction for brain-inspired computing. In addition, the latest progress and key techniques of deep learning in different tasks of human-computer interaction for brain-inspired computing are introduced from six perspectives. Despite significant progress, challenges remain in making full use of its capabilities. This paper aims to provide a comprehensive review of human-computer interaction for brain-inspired computing models based on machine learning and deep learning, highlighting their potential in various applications and providing a valuable reference for future academic research. It can be accessed through the following url: https://github.com/ultracoolHub/brain-inspired-computing
翻訳日:2024-01-11 16:40:49 公開日:2024-01-10
# KwaiAgents:大規模言語モデルを用いた汎用情報探索エージェントシステム

KwaiAgents: Generalized Information-seeking Agent System with Large Language Models ( http://arxiv.org/abs/2312.04889v3 )

ライセンス: Link先を確認
Haojie Pan, Zepeng Zhai, Hao Yuan, Yaojia Lv, Ruiji Fu, Ming Liu, Zhongyuan Wang, Bing Qin(参考訳) 好奇心に駆られ、人間は周囲の世界を探究し、理解し続け、この不審さを満足させる様々な道具が発明された。 大量の情報を脳に処理し記憶する能力がないにもかかわらず、人間は批判的な思考、計画、リフレクション、利用可能なツールを使って世界と対話し、解釈し、効率的に答えを見つけることができる。 近年の大規模言語モデル(LLM)の進歩は、マシンが前述の人間のような能力を持つ可能性を示し、制約されたパラメータ数でも強力な能力を発揮することを示唆している。 本稿では,llmsに基づく汎用情報検索エージェントシステムであるkwaiagentsについて紹介する。 kwaiagents内では、llmsを認知コアとして使用し、ユーザのクエリや行動ガイドラインを理解し、外部ドキュメントを参照可能なエージェントシステムを提案する。 エージェントは、内部メモリから情報を更新し、取得し、タイムアウェアな検索・バッファーツールキットを使用してアクションを計画し、実行し、最終的に包括的な応答を提供する。 さらに, GPT-4 よりも低出力の LLM を用いた場合のシステム性能について検討し, オープンソース 7B や 13B モデルでさえ,多くのエージェントシステムで良好に動作するように設計された Meta-Agent Tuning (MAT) フレームワークを導入する。 我々は、ベンチマークとヒューマン評価の両方を利用して、これらの能力を体系的に検証する。 広範囲な実験により、他の自律エージェントと比較してエージェントシステムの優位性が示され、微調整LDMの汎用エージェント能力の向上が強調された。

Driven by curiosity, humans have continually sought to explore and understand the world around them, leading to the invention of various tools to satiate this inquisitiveness. Despite not having the capacity to process and memorize vast amounts of information in their brains, humans excel in critical thinking, planning, reflection, and harnessing available tools to interact with and interpret the world, enabling them to find answers efficiently. The recent advancements in large language models (LLMs) suggest that machines might also possess the aforementioned human-like capabilities, allowing them to exhibit powerful abilities even with a constrained parameter count. In this paper, we introduce KwaiAgents, a generalized information-seeking agent system based on LLMs. Within KwaiAgents, we propose an agent system that employs LLMs as its cognitive core, which is capable of understanding a user's query, behavior guidelines, and referencing external documents. The agent can also update and retrieve information from its internal memory, plan and execute actions using a time-aware search-browse toolkit, and ultimately provide a comprehensive response. We further investigate the system's performance when powered by LLMs less advanced than GPT-4, and introduce the Meta-Agent Tuning (MAT) framework, designed to ensure even an open-sourced 7B or 13B model performs well among many agent systems. We exploit both benchmark and human evaluations to systematically validate these capabilities. Extensive experiments show the superiority of our agent system compared to other autonomous agents and highlight the enhanced generalized agent-abilities of our fine-tuned LLMs.
翻訳日:2024-01-11 16:40:26 公開日:2024-01-10
# 非対称二重ウェル電位における振動ポラリトンを用いたコヒーレント状態切替

Coherent state switching using vibrational polaritons in an asymmetric double-well potential ( http://arxiv.org/abs/2312.04298v2 )

ライセンス: Link先を確認
Lo\"ise Attal, Florent Calvo, Cyril Falvo, Pascal Parneix(参考訳) 二安定分子とファブリペロ微小キャビティの量子化モードとの相互作用から生じる振動分極状態の量子力学を,反応分子の簡易な1次元モデルとして非対称二重井戸ポテンシャルを用いて検討した。 ポーラトニック状態間の交叉回避現象の出現における光物質結合強度の役割を議論した後, これらの交叉を用いて, これらの状態の動的切替を誘発する可能性について検討した。 このコヒーレント状態切替を実現するための2つのスキームが提案され、キャビティに挿入する前に適切な振動励起状態に分子を調製するか、キャビティ内に短いレーザーパルスを印加して偏光状態のコヒーレント重ね合わせを得る。 双極子振幅と電位非対称性がコヒーレントスイッチング過程に及ぼす影響についても論じる。

The quantum dynamics of vibrational polaritonic states arising from the interaction of a bistable molecule with the quantized mode of a Fabry-Perot microcavity is investigated using an asymmetric double-well potential as a simplified one-dimensional model of a reactive molecule. After discussing the role of the light-matter coupling strength in the emergence of avoided crossings between polaritonic states, we investigate the possibility of using these crossings in order to trigger a dynamical switching of these states from one potential well to the other. Two schemes are proposed to achieve this coherent state switching, either by preparing the molecule in an appropriate vibrational excited state before inserting it into the cavity, or by applying a short laser pulse inside the cavity to obtain a coherent superposition of polaritonic states. The respective influences of the dipole amplitude and potential asymmetry on the coherent switching process are also discussed.
翻訳日:2024-01-11 16:39:57 公開日:2024-01-10
# コンテキスト帯域による層と頭部のフレキシビリティを有するサンプルベース動的階層変換器

Sample-based Dynamic Hierarchical Transformer with Layer and Head Flexibility via Contextual Bandit ( http://arxiv.org/abs/2312.03038v3 )

ライセンス: Link先を確認
Fanfei Meng, Lele Zhang, Yu Chen, Yuxin Wang(参考訳) トランスフォーマーは一定の数のレイヤーとヘッドを必要とし、個々のサンプルの複雑さに柔軟であり、トレーニングや推論の費用がかかる。 そこで,本稿では,サンプルベース動的階層型トランスフォーマ (dht) モデルを提案する。 層数と頭数を決定するために、組合せトンプソンサンプリング(英語版)を展開する間、統一された信頼度バウンドを使い、その数に応じて特定の頭の組み合わせを選択する。 推論のみのためにトレーニングされたネットワークを圧縮することに焦点を当てた以前の作業とは異なり、dhtはトレーニング中に基盤となるネットワークアーキテクチャを適応的に最適化するだけでなく、効率的な推論のための柔軟なネットワークを持つ。 私たちの知る限りでは、これは動的システムを実装する追加の補助ニューラルネットワークを使わずに、初めて包括的なデータ駆動動的トランスフォーマーである。 実験結果によると、精度の低下を最小限に抑えつつ、トレーニングと推論の両方で最大74%の計算節約を達成している。

Transformer requires a fixed number of layers and heads which makes them inflexible to the complexity of individual samples and expensive in training and inference. To address this, we propose a sample-based Dynamic Hierarchical Transformer (DHT) model whose layers and heads can be dynamically configured with single data samples via solving contextual bandit problems. To determine the number of layers and heads, we use the Uniform Confidence Bound while we deploy combinatorial Thompson Sampling in order to select specific head combinations given their number. Different from previous work that focuses on compressing trained networks for inference only, DHT is not only advantageous for adaptively optimizing the underlying network architecture during training but also has a flexible network for efficient inference. To the best of our knowledge, this is the first comprehensive data-driven dynamic transformer without any additional auxiliary neural networks that implement the dynamic system. According to the experiment results, we achieve up to 74% computational savings for both training and inference with a minimal loss of accuracy.
翻訳日:2024-01-11 16:39:39 公開日:2024-01-10
# ビジュアルリッチな文書画像に対する検出に基づくテーブル構造認識の再考

Rethinking Detection Based Table Structure Recognition for Visually Rich Document Images ( http://arxiv.org/abs/2312.00699v2 )

ライセンス: Link先を確認
Bin Xiao, Murat Simsek, Burak Kantarci, Ala Abu Alkheir(参考訳) テーブル構造認識(TSR)は、構造化されていないテーブルイメージをHTMLシーケンスなどの構造化フォーマットに変換し、ChatGPTのようなテキストのみのモデルを作成することを目的とした、広く議論されているタスクである。 検出モデルを使用して、列や行などのテーブルコンポーネントを検出し、その後、ルールベースのポストプロセッシング手法を適用して、検出結果をhtmlシーケンスに変換する。 しかし、既存の検出ベースモデルは、TEDSのような細胞レベルのTSRメトリクスに関する他のタイプのソリューションと同様に、動作できない。 そこで我々は,既存の検出ベースモデルを包括的に再検討し,不適切な問題定義,検出とTSRメトリクスのミスマッチ問題,検出モデルの特徴,局所的および長距離的特徴抽出の影響など,これらのモデルの性能を阻害する基礎となる理由を探る。 解析と結果に基づいて、TSRタスクに典型的な2段階検出モデルCascade R-CNNを調整するための簡単な手法を適用する。 実験の結果,fintabnet データセット上で構造のみの ted に対して 16.35 % の精度でベースカスケード r-cnn モデルの改善が可能となり,検出に基づく tsr モデルの改善の指針となり得ること,純粋に検出に基づくソリューションがグラフベースやイメージ・ツー・シークエンスソリューションといった他の種類のソリューションと競合できることが判明した。

Table Structure Recognition (TSR) is a widely discussed task aiming at transforming unstructured table images into structured formats, such as HTML sequences, to make text-only models, such as ChatGPT, that can further process these tables. One type of solution is using detection models to detect table components, such as columns and rows, then applying a rule-based post-processing method to convert detection results into HTML sequences. However, existing detection-based models usually cannot perform as well as other types of solutions regarding cell-level TSR metrics, such as TEDS, and the underlying reasons limiting the performance of these models on the TSR task are also not well-explored. Therefore, we revisit existing detection-based models comprehensively and explore the underlying reasons hindering these models' performance, including the improper problem definition, the mismatch issue of detection and TSR metrics, the characteristics of detection models, and the impact of local and long-range features extraction. Based on our analysis and findings, we apply simple methods to tailor a typical two-stage detection model, Cascade R-CNN, for the TSR task. The experimental results show that the tailored Cascade R-CNN based model can improve the base Cascade R-CNN model by 16.35\% on the FinTabNet dataset regarding the structure-only TEDS, outperforming other types of state-of-the-art methods, demonstrating that our findings can be a guideline for improving detection-based TSR models and that a purely detection-based solution is competitive with other types of solutions, such as graph-based and image-to-sequence solutions.
翻訳日:2024-01-11 16:39:23 公開日:2024-01-10
# ChartAssisstant: Chart-to-Table事前学習とマルチタスク指導チューニングによるユニバーサルチャートマルチモーダル言語モデル

ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning ( http://arxiv.org/abs/2401.02384v2 )

ライセンス: Link先を確認
Fanqing Meng, Wenqi Shao, Quanfeng Lu, Peng Gao, Kaipeng Zhang, Yu Qiao, Ping Luo(参考訳) データ視覚化、データパターン理解、情報意思決定において、チャートは重要な役割を果たす。 しかし、それらのグラフィカル要素(バー、ラインなど)とテキストコンポーネント(ラベル、レジェンドなど)のユニークな組み合わせは、汎用のマルチモーダルモデルにとって課題となる。 グラフデータに基づいて訓練された視覚言語モデルは理解に優れるが、一般化に苦慮し、タスク固有の微調整を必要とする。 これらの課題に対処するために,ユニバーサルチャート理解と推論のためのグラフベースのビジョン言語モデルであるchart assistantを提案する。 ChartAssistantはChartSFTを活用している。ChartSFTは、さまざまなチャート関連タスクを基本的なチャートタイプと特殊なチャートタイプでカバーする包括的データセットである。 まず、チャートからテーブルへのパースを事前トレーニングし、チャートとテキストを調整し、次にマルチタスクのインストラクションフォローの微調整を行う。 このアプローチにより、ChartAssistantはタスク固有の微調整なしで、様々なチャートタスク間での競合性能を達成することができる。 実験により,OpenAIのGPT-4V(ision)を実世界のチャートデータで上回り,最先端のUniChart法よりも高い性能を示した。 コードとデータはhttps://github.com/opengvlab/chartastで入手できる。

Charts play a vital role in data visualization, understanding data patterns, and informed decision-making. However, their unique combination of graphical elements (e.g., bars, lines) and textual components (e.g., labels, legends) poses challenges for general-purpose multimodal models. While vision-language models trained on chart data excel in comprehension, they struggle with generalization and require task-specific fine-tuning. To address these challenges, we propose ChartAssistant, a chart-based vision-language model for universal chart comprehension and reasoning. ChartAssistant leverages ChartSFT, a comprehensive dataset covering diverse chart-related tasks with basic and specialized chart types. It undergoes a two-stage training process, starting with pre-training on chart-to-table parsing to align chart and text, followed by multitask instruction-following fine-tuning. This approach enables ChartAssistant to achieve competitive performance across various chart tasks without task-specific fine-tuning. Experimental results demonstrate significant performance gains over the state-of-the-art UniChart method, outperforming OpenAI's GPT-4V(ision) on real-world chart data. The code and data are available at https://github.com/OpenGVLab/ChartAst.
翻訳日:2024-01-11 16:33:31 公開日:2024-01-10
# 位相後選による量子鍵の送受信非送出分布

Sending-or-not-sending quantum key distribution with phase postselection ( http://arxiv.org/abs/2401.02304v2 )

ライセンス: Link先を確認
Yang-Guang Shan, Yao Zhou, Zhen-Qiang Yin, Shuang Wang, Wei Chen, De-Yong He, Guang-Can Guo, Zheng-Fu Han(参考訳) 量子鍵分布(QKD)は、2つの離れたピア間でセキュアなキーを共有するのに役立つ。 近年、長い伝送距離のため、ツインフィールド(TF)QKDが広く研究されている。 TF QKDの一般的なバリエーションの1つは、1000kmレベルのファイバー鍵分布を実現するために実験的に検証された送信・送信(SNS)QKDである。 本稿では,snsプロトコルにフェーズポスト選択を導入する。 この修正により、"sending"を選択する確率が大幅に向上する。 数値シミュレーションにより, アクティブな奇異ペアリング法により, 伝送距離を向上できることが示唆された。 離散位相ランダム化では、変種はより大きな鍵レートと長い距離を持つことができる。

Quantum key distribution (QKD) could help to share secure key between two distant peers. In recent years, twin-field (TF) QKD has been widely investigated because of its long transmission distance. One of the popular variants of TF QKD is sending-or-not-sending (SNS) QKD, which has been experimentally verified to realize 1000-km level fibre key distribution. In this article, the authors introduce phase postselection into the SNS protocol. With this modification, the probability of selecting "sending" can be substantially improved. The numerical simulation shows that the transmission distance can be improved both with and without the actively odd-parity pairing method. With discrete phase randomization, the variant can have both a larger key rate and a longer distance.
翻訳日:2024-01-11 16:33:08 公開日:2024-01-10
# 可視赤外人物再識別のための周波数領域ニュアンスマイニング

Frequency Domain Nuances Mining for Visible-Infrared Person Re-identification ( http://arxiv.org/abs/2401.02162v2 )

ライセンス: Link先を確認
Yukang Zhang, Yang Lu, Yan Yan, Hanzi Wang, Xuelong Li(参考訳) 可視赤外人物再識別(VIReID)の鍵は、可視画像と赤外線画像の偏差を最小限にする方法にある。 既存の手法は主に、識別周波数情報を無視しながら空間情報を利用する。 この問題に対処するため,周波数領域から見たモダリティの差を低減することを目的とした。 具体的には、振幅誘導位相(AGP)モジュールと振幅ニュアンスマイニング(ANM)モジュールを主成分とする、周波数領域の周波数領域情報を探索する新しい周波数領域ニュアンスマイニング(FDNM)手法を提案する。 これらの2つのモジュールは、周波数領域の可視赤外ニュアンスを共同で探索することで、周波数領域におけるモダリティの差を効果的に低減する。 さらに,ANMモジュールの識別的アイデンティティ情報を保護し,多種多様なモダリティニュアンスを発見できるように,中心誘導型ニュアンスマイニング損失を提案する。 広汎な実験により,提案するFDNMは,VIReIDの性能向上に有益であることがわかった。 具体的には,室内探索モード下でのSYSU-MM01データセットにおいて,Ran-1精度が5.2 %,mAPが5.8 %向上した。 さらに,難易度の高い視覚・赤外線顔認識タスクにおいて,本手法の有効性と一般化を検証した。 \textcolor{magenta}{ コードは利用可能になる。 }

The key of visible-infrared person re-identification (VIReID) lies in how to minimize the modality discrepancy between visible and infrared images. Existing methods mainly exploit the spatial information while ignoring the discriminative frequency information. To address this issue, this paper aims to reduce the modality discrepancy from the frequency domain perspective. Specifically, we propose a novel Frequency Domain Nuances Mining (FDNM) method to explore the cross-modality frequency domain information, which mainly includes an amplitude guided phase (AGP) module and an amplitude nuances mining (ANM) module. These two modules are mutually beneficial to jointly explore frequency domain visible-infrared nuances, thereby effectively reducing the modality discrepancy in the frequency domain. Besides, we propose a center-guided nuances mining loss to encourage the ANM module to preserve discriminative identity information while discovering diverse cross-modality nuances. Extensive experiments show that the proposed FDNM has significant advantages in improving the performance of VIReID. Specifically, our method outperforms the second-best method by 5.2\% in Rank-1 accuracy and 5.8\% in mAP on the SYSU-MM01 dataset under the indoor search mode, respectively. Besides, we also validate the effectiveness and generalization of our method on the challenging visible-infrared face recognition task. \textcolor{magenta}{The code will be available.}
翻訳日:2024-01-11 16:32:55 公開日:2024-01-10
# 高分解能マルチスペクトルUAV画像と機械学習によるクルミ水ストレスのマッピング

Mapping Walnut Water Stress with High Resolution Multispectral UAV Imagery and Machine Learning ( http://arxiv.org/abs/2401.01375v2 )

ライセンス: Link先を確認
Kaitlyn Wang, Yufang Jin(参考訳) 果樹園全体にわたるクルミの水位とストレスレベルを効果的にモニタリングすることは、カリフォルニアの重要な作物であるクルミの精密灌水管理に不可欠なステップである。 本研究では、無人航空機(UAV)の高分解能マルチスペクトルリモートセンシング画像と気象データを統合することにより、ランダムフォレスト(RF)モデルを用いて、茎水電位(SWP)をマッピングする機械学習手法を提案する。 2017年から2018年にかけて、7バンドのマルチスペクトルカメラを搭載したUAVの5回の飛行が商業用クルミ果樹園で行われ、サンプルのクルミ植物を同時に測定した。 直交UAV画像と気象データから得られた植生指標を利用したRF回帰モデルにより,地上計測SWPを効果的に推定し,R^2$0.63,平均絶対誤差0.80バーを達成した。 気象データの統合は、様々な飛行日にまたがってデータを統合するために特に重要だった。 SWP推定の変数としては,NDVI,NDRE,PSRIなどの風速・植生指標があり,NDRE,PSRIの赤縁指標を除くRFモデルでは,わずかに精度が低下した(R^2$ = 0.54)。 さらに, rf分類モデルは, 85%の精度で水ストレスレベルを予測し, 低減した分類モデルの80%の精度を上回った。 その結果,UAVをベースとしたマルチスペクトルイメージングと機械学習を併用し,温熱データ,NDVI,赤縁指標,気象データを用いてクルミの水ストレス評価と評価を行った。 この手法は、クルミ果樹の個々の植物レベルで、データ駆動の精密灌水管理のためのスケーラブルで費用対効果の高いツールを提供する。

Effective monitoring of walnut water status and stress level across the whole orchard is an essential step towards precision irrigation management of walnuts, a significant crop in California. This study presents a machine learning approach using Random Forest (RF) models to map stem water potential (SWP) by integrating high-resolution multispectral remote sensing imagery from Unmanned Aerial Vehicle (UAV) flights with weather data. From 2017 to 2018, five flights of an UAV equipped with a seven-band multispectral camera were conducted over a commercial walnut orchard, paired with concurrent ground measurements of sampled walnut plants. The RF regression model, utilizing vegetation indices derived from orthomosaiced UAV imagery and weather data, effectively estimated ground-measured SWPs, achieving an $R^2$ of 0.63 and a mean absolute error (MAE) of 0.80 bars. The integration of weather data was particularly crucial for consolidating data across various flight dates. Significant variables for SWP estimation included wind speed and vegetation indices such as NDVI, NDRE, and PSRI.A reduced RF model excluding red-edge indices of NDRE and PSRI, demonstrated slightly reduced accuracy ($R^2$ = 0.54). Additionally, the RF classification model predicted water stress levels in walnut trees with 85% accuracy, surpassing the 80% accuracy of the reduced classification model. The results affirm the efficacy of UAV-based multispectral imaging combined with machine learning, incorporating thermal data, NDVI, red-edge indices, and weather data, in walnut water stress estimation and assessment. This methodology offers a scalable, cost-effective tool for data-driven precision irrigation management at an individual plant level in walnut orchards.
翻訳日:2024-01-11 16:32:27 公開日:2024-01-10
# IdentiFace : VGGを用いたマルチモーダル顔バイオメトリックシステム

IdentiFace : A VGG Based Multimodal Facial Biometric System ( http://arxiv.org/abs/2401.01227v2 )

ライセンス: Link先を確認
Mahmoud Rabea, Hanya Ahmed, Sohaila Mahmoud and Nourhan Sayed(参考訳) 顔の生体認証システムの開発は、コンピュータビジョン分野の発展に大きく貢献している。 現在では、複数のバイオメトリック特性を効率的で有意義な方法で組み合わせたマルチモーダルシステムを開発する必要は常にあります。 本稿では、顔認識のコアと、性別、顔形、感情といった、最も重要なソフトバイオメトリックの特徴を組み合わせるマルチモーダルな顔バイオメトリックシステムである「identiface」について紹介する。 また,vgg-16インスパイアされたアーキテクチャのみを使用して,サブシステム間のマイナーな変更を行うシステムの開発にも注目した。 この統一により、モダリティ間の統合がより簡単になる。 これにより、学習した特徴をタスク間で解釈しやすくし、顔のモダリティと潜在的なつながりを横断する意思決定プロセスについて良い兆候を与える。 認識問題については,feretデータベースから収集したデータを用いて,クラス内変動が高い5クラスに対して99.2%の精度を得た。 性別認識問題では、データセットで99.4%、公開データセットで95.15%を達成しました。 また,セレブの顔型データセット[3]を用いて,顔形状問題において88.03%の精度を達成できた。 最後に、fer2013データセット[4]の関連作業と比較して、非常に許容できる精度と考えられる感情タスクの66.13%というまともなテスト精度を達成しました。

The development of facial biometric systems has contributed greatly to the development of the computer vision field. Nowadays, there's always a need to develop a multimodal system that combines multiple biometric traits in an efficient, meaningful way. In this paper, we introduce "IdentiFace" which is a multimodal facial biometric system that combines the core of facial recognition with some of the most important soft biometric traits such as gender, face shape, and emotion. We also focused on developing the system using only VGG-16 inspired architecture with minor changes across different subsystems. This unification allows for simpler integration across modalities. It makes it easier to interpret the learned features between the tasks which gives a good indication about the decision-making process across the facial modalities and potential connection. For the recognition problem, we acquired a 99.2% test accuracy for five classes with high intra-class variations using data collected from the FERET database[1]. We achieved 99.4% on our dataset and 95.15% on the public dataset[2] in the gender recognition problem. We were also able to achieve a testing accuracy of 88.03% in the face-shape problem using the celebrity face-shape dataset[3]. Finally, we achieved a decent testing accuracy of 66.13% in the emotion task which is considered a very acceptable accuracy compared to related work on the FER2013 dataset[4].
翻訳日:2024-01-11 16:31:54 公開日:2024-01-10
# NightRain: Adaptive-Rain-DemovalとAdaptive-Correctionによる夜間ビデオのデライニング

NightRain: Nighttime Video Deraining via Adaptive-Rain-Removal and Adaptive-Correction ( http://arxiv.org/abs/2401.00729v2 )

ライセンス: Link先を確認
Beibei Lin, Yeying Jin, Wending Yan, Wei Ye, Yuan Yuan, Shunli Zhang, Robby Tan(参考訳) 既存の深層学習に基づく夜間ビデオの流用方法は、実世界のペアデータがないため、合成データに依存している。 しかし、現実世界の複雑さ、特に騒音による光の影響や低照度領域の存在は、大きな領域ギャップを生じさせ、雨害を適切に除去する合成訓練モデルを妨げ、過飽和や色の変化をもたらす。 そこで我々はNightRainを紹介した。NightRainはアダプティブレイン除去法とアダプティブレイン補正法である。 当社のadaptive-rain-removalは、ラベルなしの雨動画を使用して、特に複雑な光の影響のある地域で、実世界の雨動画をレーディングできるようにしています。 このモデルでは,信頼度スコアに基づいて雨のない地域を得ることが目的である。 雨のない地域と入力から対応する地域が得られたら、地域ベースの対の実データが得られる。 これらのペアデータを使用して、教師と教師のフレームワークを使ってモデルのトレーニングを行い、モデルがより難しい領域からより困難な領域へと反復的に学習できるようにします。 適応補正は、過飽和や色の変化など、モデルの予測におけるエラーの修正を目的としています。 そのアイデアは、これらの入力ビデオとそれに対応する予測との差や距離に基づいて、明快な夜間入力訓練ビデオから学ぶことである。 私たちのモデルはこれらの違いから学び、モデルにエラーを修正するように促します。 広範な実験から,本手法は最先端の性能を示す。 PSNRは26.73dBで、既存の夜間ビデオデラミニング手法を13.7%上回っている。

Existing deep-learning-based methods for nighttime video deraining rely on synthetic data due to the absence of real-world paired data. However, the intricacies of the real world, particularly with the presence of light effects and low-light regions affected by noise, create significant domain gaps, hampering synthetic-trained models in removing rain streaks properly and leading to over-saturation and color shifts. Motivated by this, we introduce NightRain, a novel nighttime video deraining method with adaptive-rain-removal and adaptive-correction. Our adaptive-rain-removal uses unlabeled rain videos to enable our model to derain real-world rain videos, particularly in regions affected by complex light effects. The idea is to allow our model to obtain rain-free regions based on the confidence scores. Once rain-free regions and the corresponding regions from our input are obtained, we can have region-based paired real data. These paired data are used to train our model using a teacher-student framework, allowing the model to iteratively learn from less challenging regions to more challenging regions. Our adaptive-correction aims to rectify errors in our model's predictions, such as over-saturation and color shifts. The idea is to learn from clear night input training videos based on the differences or distance between those input videos and their corresponding predictions. Our model learns from these differences, compelling our model to correct the errors. From extensive experiments, our method demonstrates state-of-the-art performance. It achieves a PSNR of 26.73dB, surpassing existing nighttime video deraining methods by a substantial margin of 13.7%.
翻訳日:2024-01-11 16:31:23 公開日:2024-01-10
# 接続医療機器からの多変量時系列クラスタリングモデルの比較研究

Comparative study of clustering models for multivariate time series from connected medical devices ( http://arxiv.org/abs/2312.17286v2 )

ライセンス: Link先を確認
Violaine Courrier (MODAL), Christophe Biernacki (MODAL), Cristian Preda (MODAL), Benjamin Vittrant(参考訳) 医療分野では、患者データは多変量時系列として収集され、患者の健康状態の全体像を提供する。 このデータはばらばらだが、コネクテッドデバイスはその頻度を高める可能性がある。 目標は、これらの時系列から患者プロファイルを作成することです。 ラベルがない場合、予測モデルを使用して、予測性能に基づいて評価された潜在クラスタ空間を形成しながら将来の値を予測することができる。 我々は、Withingのデータセット上の2つのモデル、全時系列をクラスタリングするMAGMAC LUSTと、個人のグループアフィリエイトが時間とともに変化する(動的クラスタリング)DGM${}^2$を比較した。

In healthcare, patient data is often collected as multivariate time series, providing a comprehensive view of a patient's health status over time. While this data can be sparse, connected devices may enhance its frequency. The goal is to create patient profiles from these time series. In the absence of labels, a predictive model can be used to predict future values while forming a latent cluster space, evaluated based on predictive performance. We compare two models on Withing's datasets, M AGMAC LUST which clusters entire time series and DGM${}^2$ which allows the group affiliation of an individual to change over time (dynamic clustering).
翻訳日:2024-01-11 16:30:35 公開日:2024-01-10
# DarkShot:低解像度で高画質で暗い画像を照らす

DarkShot: Lighting Dark Images with Low-Compute and High-Quality ( http://arxiv.org/abs/2312.16805v3 )

ライセンス: Link先を確認
Jiazhang Zheng, Lei Li, Qiuping Liao, Cheng Li, Li Li, Yangxing Liu(参考訳) 夜間の撮影は極端に低照度で、主に極低信号対雑音比に起因する困難に遭遇する。 現実のデプロイメントでは、実用的なソリューションは視覚的に魅力的な結果を生み出すだけでなく、最小限の計算も必要です。 しかし、既存のほとんどの手法は修復性能の改善に焦点を当てているか、品質の犠牲で軽量モデルを採用するかのどちらかである。 本稿では,計算量を最小限に抑えつつ,低照度化タスクにおける既存のSOTA手法よりも優れた軽量ネットワークを提案する。 提案ネットワークは,Siamese Self-Attention Block (SSAB) と Skip-Channel Attention (SCA) モジュールを組み込んで,グローバルな情報を集約するモデルの能力を高め,高解像度画像に適している。 また,低照度画像復元プロセスの解析に基づいて,優れた結果を得るための2段階フレームワークを提案する。 我々のモデルは、SOTA復元の品質を維持しながら、最小限の計算でUHD 4K解像度画像を復元することができる。

Nighttime photography encounters escalating challenges in extremely low-light conditions, primarily attributable to the ultra-low signal-to-noise ratio. For real-world deployment, a practical solution must not only produce visually appealing results but also require minimal computation. However, most existing methods are either focused on improving restoration performance or employ lightweight models at the cost of quality. This paper proposes a lightweight network that outperforms existing state-of-the-art (SOTA) methods in low-light enhancement tasks while minimizing computation. The proposed network incorporates Siamese Self-Attention Block (SSAB) and Skip-Channel Attention (SCA) modules, which enhance the model's capacity to aggregate global information and are well-suited for high-resolution images. Additionally, based on our analysis of the low-light image restoration process, we propose a Two-Stage Framework that achieves superior results. Our model can restore a UHD 4K resolution image with minimal computation while keeping SOTA restoration quality.
翻訳日:2024-01-11 16:30:17 公開日:2024-01-10
# 流れマッチングモデルのベルマン最適ステップサイズストライニング

Bellman Optimal Step-size Straightening of Flow-Matching Models ( http://arxiv.org/abs/2312.16414v2 )

ライセンス: Link先を確認
Bao Nguyen, Binh Nguyen, Viet Anh Nguyen(参考訳) フローマッチングは、様々なアプリケーション、特に画像合成で高品質なサンプルを生成するための強力なフレームワークである。 しかしながら、特に微調整プロセスやサンプリングプロセスにおいて、これらのモデルの集中的な計算要求は、低リソースシナリオにとって大きな課題となる。 本稿では,フローマッチング生成モデルを蒸留するためのBellman Optimal Step-Size Straightening (BOSS)技術について紹介する。 第一に、この手法は事前訓練されたネットワークのステップサイズを最適化する動的プログラミングアルゴリズムを含む。 そして、速度ネットワークを改良して最適なステップサイズに適合させ、生成経路を直線化する。 画像生成タスクに対する大規模な実験的評価は、資源利用と画質の両方の観点から、BOSSの有効性を示す。 以上の結果から,BOSSは,低リソース制約とフローマッチング生成モデルの要求条件とのギャップを効果的に埋めつつ,競争力のあるサンプル品質を維持しながら,効率を大幅に向上することがわかった。 私たちの論文は、人工知能の責任ある開発を強化し、計算コストと環境フットプリントを削減する、より持続可能な生成モデルを提供します。 私たちのコードはhttps://github.com/nguyenngocbaocmt02/bossにあります。

Flow matching is a powerful framework for generating high-quality samples in various applications, especially image synthesis. However, the intensive computational demands of these models, especially during the fine-tuning process and sampling processes, pose significant challenges for low-resource scenarios. This paper introduces Bellman Optimal Step-size Straightening (BOSS) technique for distilling flow-matching generative models: it aims specifically for a few-step efficient image sampling while adhering to a computational budget constraint. First, this technique involves a dynamic programming algorithm that optimizes the step sizes of the pretrained network. Then, it refines the velocity network to match the optimal step sizes, aiming to straighten the generation paths. Extensive experimental evaluations across image generation tasks demonstrate the efficacy of BOSS in terms of both resource utilization and image quality. Our results reveal that BOSS achieves substantial gains in efficiency while maintaining competitive sample quality, effectively bridging the gap between low-resource constraints and the demanding requirements of flow-matching generative models. Our paper also fortifies the responsible development of artificial intelligence, offering a more sustainable generative model that reduces computational costs and environmental footprints. Our code can be found at https://github.com/nguyenngocbaocmt02/BOSS.
翻訳日:2024-01-11 16:29:13 公開日:2024-01-10
# 三部分量子系と多部分量子系に対するポリガミー関係

Polygamy relations for tripartite and multipartite quantum systems ( http://arxiv.org/abs/2312.15683v2 )

ライセンス: Link先を確認
Yanying Liang, Haozhen Situ, and Zhu-Jun Zheng(参考訳) 三成分量子および多元量子系の多元性について検討する。 三分系では、三分系における多元数に対する解集合を構築し、集合の下界を見つける。 マルチパートシステムでは、まず、$n$-qubitの2種類の分割でポリガミーの一般化された定義を提供し、ポリガミーパワー$\beta$でポリガミーの不等式を構築する。 さらに、右三角形と四面体を用いて、新しい定義に従って多元関係を説明する。

We study the polygamy property for tripartite and multipartite quantum systems. In tripartite system, we build a solution set for polygamy in tripartite system and find a lower bound of the set, which can be a sufficient and necessary condition for any quantum entanglement of assistance $Q$ to be polygamous. In multipartite system, we firstly provide generalized definitions for polygamy in two kind of divisions of $n$-qubit systems, and then build polygamy inequalities with a polygamy power $\beta$, repectively. Moreover, we use right triangle and tetrahedron to explain our polygamy relations according to the new definitions.
翻訳日:2024-01-11 16:28:47 公開日:2024-01-10
# TAPE:協調的多エージェント政策勾配のためのエージェントトポロジーの活用

TAPE: Leveraging Agent Topology for Cooperative Multi-Agent Policy Gradient ( http://arxiv.org/abs/2312.15667v2 )

ライセンス: Link先を確認
Xingzhou Lou, Junge Zhang, Timothy J. Norman, Kaiqi Huang, Yali Du(参考訳) マルチエージェント政策グラディエント(MAPG)は近年大きな進歩を遂げている。 しかし、最先端のMAPG手法の中央集権的批判は依然として、中央集権的なミスマッチ(CDM)問題に直面しており、これは一部のエージェントによる準最適行動が他のエージェントの政策学習に影響を与えることを意味する。 政策更新に個々の批評家を使うことは、この問題を避けることができるが、エージェント間の協力を厳しく制限する。 この問題に対処するために,政策グラデーションにおいて他のエージェントを考慮すべきかどうかを判断するエージェントトポロジフレームワークを提案し,協調の促進とCDM問題の緩和の妥協を実現する。 エージェントトポロジーにより、エージェントは、中央集権的な批評家によるグローバルユーティリティや個々の批評家によるローカルユーティリティではなく、学習目的として連合ユーティリティを使用することができる。 エージェントトポロジーを構成するために、様々なモデルが研究されている。 確率的および決定論的MAPG法の両方に対して,Topology-based multi-Agent Policy gradiEnt (TAPE)を提案する。 確率テープのポリシー改善定理を証明し,エージェント間の協調性向上のための理論的説明を与える。 いくつかのベンチマーク実験の結果、エージェントトポロジはエージェント協調を促進し、それぞれCDM問題を緩和し、TAPEの性能を向上させることができることが示された。 最後に, エージェントトポロジーの有効性を示すために, 複数のアブレーション研究とヒューリスティックグラフ探索アルゴリズムが考案された。

Multi-Agent Policy Gradient (MAPG) has made significant progress in recent years. However, centralized critics in state-of-the-art MAPG methods still face the centralized-decentralized mismatch (CDM) issue, which means sub-optimal actions by some agents will affect other agent's policy learning. While using individual critics for policy updates can avoid this issue, they severely limit cooperation among agents. To address this issue, we propose an agent topology framework, which decides whether other agents should be considered in policy gradient and achieves compromise between facilitating cooperation and alleviating the CDM issue. The agent topology allows agents to use coalition utility as learning objective instead of global utility by centralized critics or local utility by individual critics. To constitute the agent topology, various models are studied. We propose Topology-based multi-Agent Policy gradiEnt (TAPE) for both stochastic and deterministic MAPG methods. We prove the policy improvement theorem for stochastic TAPE and give a theoretical explanation for the improved cooperation among agents. Experiment results on several benchmarks show the agent topology is able to facilitate agent cooperation and alleviate CDM issue respectively to improve performance of TAPE. Finally, multiple ablation studies and a heuristic graph search algorithm are devised to show the efficacy of the agent topology.
翻訳日:2024-01-11 16:28:19 公開日:2024-01-10
# ゼロショット・キーフレーズ・エクストラクタとしての大規模言語モデル--予備的実証研究

Large Language Models as Zero-Shot Keyphrase Extractors: A Preliminary Empirical Study ( http://arxiv.org/abs/2312.15156v2 )

ライセンス: Link先を確認
Mingyang Song, Xuelian Geng, Songfang Yao, Shilong Lu, Yi Feng, Liping Jing(参考訳) zero-shot keyphraseの抽出は、人間の注釈データによるトレーニングなしにキーフレーズ抽出器を構築することを目的としている。 相応しいが価値のあるゼロショット設定は、データのラベル付けにかかる時間と労力を効率的に削減する。 事前学習された大規模言語モデル(chatgptやchatglmなど)に対する最近の取り組みは、ゼロショット設定で有望なパフォーマンスを示しており、プロンプトベースメソッドの探求に刺激を与えています。 本稿では,大規模言語モデルchatgptを直接起動することで,強力なキーフレーズ抽出モデルを構築することができるか質問する。 実験結果から,ChatGPTには,既存の教師なしモデルや教師なしモデルと比較して,キーフレーズ抽出タスクの改善の余地が十分にあることがわかった。

Zero-shot keyphrase extraction aims to build a keyphrase extractor without training by human-annotated data, which is challenging due to the limited human intervention involved. Challenging but worthwhile, zero-shot setting efficiently reduces the time and effort that data labeling takes. Recent efforts on pre-trained large language models (e.g., ChatGPT and ChatGLM) show promising performance on zero-shot settings, thus inspiring us to explore prompt-based methods. In this paper, we ask whether strong keyphrase extraction models can be constructed by directly prompting the large language model ChatGPT. Through experimental results, it is found that ChatGPT still has a lot of room for improvement in the keyphrase extraction task compared to existing state-of-the-art unsupervised and supervised models.
翻訳日:2024-01-11 16:27:57 公開日:2024-01-10
# 量子ランダムアクセス符号の単純および一般境界

Simple and general bounds on quantum random access codes ( http://arxiv.org/abs/2312.14142v2 )

ライセンス: Link先を確認
M\'at\'e Farkas, Nikolai Miklin, Armin Tavakoli(参考訳) ランダムアクセス符号は、量子情報科学で広く使われている通信タスクの一種である。 古典的な戦略によって達成できる最適な平均成功確率は、任意のランダムアクセスコードで知られている。 しかし、量子ランダムアクセスコードに対して正確に解決されるケースはわずかである。 本稿では、d-次元古典アルファベットから選択され、任意の量子測定対象のd-次元量子系にエンコードされる、n-独立変数の完全一般設定の境界を提供する。 境界は既知の特殊ケースを復元し、その境界が全体的に厳密でないとしても、良い近似が得られることを数値的に示す。

Random access codes are a type of communication task that is widely used in quantum information science. The optimal average success probability that can be achieved through classical strategies is known for any random access code. However, only a few cases are solved exactly for quantum random access codes. In this paper, we provide bounds for the fully general setting of n independent variables, each selected from a d-dimensional classical alphabet and encoded in a D-dimensional quantum system subject to an arbitrary quantum measurement. The bound recovers the exactly known special cases, and we demonstrate numerically that even though the bound is not tight overall, it can still yield a good approximation.
翻訳日:2024-01-11 16:27:41 公開日:2024-01-10
# 量子複雑性が古典的複雑さを

Where Quantum Complexity Helps Classical Complexity ( http://arxiv.org/abs/2312.14075v2 )

ライセンス: Link先を確認
Arash Vaezi, Mahdi Cheraghchi, Seyed Mohammad Hussein Kazemi, Negin Bagheri Noghrehy, Seyed Mohsen Kazemi, Ali Movaghar, Mohammad Ghodsi(参考訳) 科学者は、量子コンピューティングが計算課題に対処するための新しいアプローチを提示したことを実証している。 量子コンピューティングの潜在能力を最大限活用するためには、問題解決戦略の適応が不可欠である。 それでも、量子コンピューティングの能力には境界が定義されている。 本稿では,量子コンピューティングによる複雑な古典的計算問題を解くための先行研究の集約に着目する。 目的は、これらのソリューションの徹底したインベントリを体系的にコンパイルし、さらなる探索を待つ要求される問題のコレクションを分類することである。

Scientists have demonstrated that quantum computing has presented novel approaches to address computational challenges, each varying in complexity. Adapting problem-solving strategies is crucial to harness the full potential of quantum computing. Nonetheless, there are defined boundaries to the capabilities of quantum computing. This paper concentrates on aggregating prior research efforts dedicated to solving intricate classical computational problems through quantum computing. The objective is to systematically compile an exhaustive inventory of these solutions and categorize a collection of demanding problems that await further exploration.
翻訳日:2024-01-11 16:27:31 公開日:2024-01-10
# エゴ車両軌道予測の最適化:グラフ拡張アプローチ

Optimizing Ego Vehicle Trajectory Prediction: The Graph Enhancement Approach ( http://arxiv.org/abs/2312.13104v2 )

ライセンス: Link先を確認
Sushil Sharma, Aryan Singh, Ganesh Sistu, Mark Halton, Ciar\'an Eising(参考訳) ego車両の軌道予測は、自動運転システムの重要な要素である。 現在の最先端の手法は通常、将来の軌跡予測のためにフロントビューイメージを処理するためにディープニューラルネットワーク(DNN)とシーケンシャルモデルに依存している。 しかし、これらのアプローチは、しばしばシーンのオブジェクト機能に影響を与える視点の問題に苦しむ。 これを解決するために,我々は,空間的関係や物体の均一性を捉える上で,独特な利点をもたらすBird's Eye View(BEV)の視点の利用を提唱する。 我々の研究では、グラフニューラルネットワーク(GNN)と位置符号化を利用して、BEV内のオブジェクトを表現する。 BEVベースのアプローチでは、フロントビュー画像固有の詳細情報が失われるが、シーン内のオブジェクト間の関係を効果的にキャプチャするグラフとして表現することで、BEVデータを豊かにする。

Predicting the trajectory of an ego vehicle is a critical component of autonomous driving systems. Current state-of-the-art methods typically rely on Deep Neural Networks (DNNs) and sequential models to process front-view images for future trajectory prediction. However, these approaches often struggle with perspective issues affecting object features in the scene. To address this, we advocate for the use of Bird's Eye View (BEV) perspectives, which offer unique advantages in capturing spatial relationships and object homogeneity. In our work, we leverage Graph Neural Networks (GNNs) and positional encoding to represent objects in a BEV, achieving competitive performance compared to traditional DNN-based methods. While the BEV-based approach loses some detailed information inherent to front-view images, we balance this by enriching the BEV data by representing it as a graph where relationships between the objects in a scene are captured effectively.
翻訳日:2024-01-11 16:27:23 公開日:2024-01-10
# Powerformer: パワーフロー調整のためのセクション適応トランス

Powerformer: A Section-adaptive Transformer for Power Flow Adjustment ( http://arxiv.org/abs/2401.02771v2 )

ライセンス: Link先を確認
Kaixuan Chen and Wei Luo and Shunyu Liu and Yaoquan Wei and Yihe Zhou and Yunpeng Qing and Quan Zhang and Jie Song and Mingli Song(参考訳) 本稿では,送電区間間の電力流量調整のための電力配分の最適化を目的とした,ロバストな電力系統状態表現を学習するための新しい変圧器アーキテクチャを提案する。 特に, 提案手法であるpowerformerは, 従来の変圧器の自己着脱と分離して, 専用の部分適応型注意機構を開発した。 この機構は、電力系統状態と送信部情報とを効果的に統合し、ロバストな状態表現の開発を容易にする。 さらに,電力系統のグラフトポロジーとバスノードの電気特性を考慮することで,グラフニューラルネットワークの伝搬と多要素注意機構の表現性をさらに高めるための2つのカスタマイズ戦略を提案する。 IEEE 118バスシステム、中国の現実的な300バスシステム、9241バスを備えた大規模ヨーロッパシステムを含む3つのパワーシステムシナリオにおいて、Powerformerは複数のベースライン方式よりも優れた性能を示す。

In this paper, we present a novel transformer architecture tailored for learning robust power system state representations, which strives to optimize power dispatch for the power flow adjustment across different transmission sections. Specifically, our proposed approach, named Powerformer, develops a dedicated section-adaptive attention mechanism, separating itself from the self-attention used in conventional transformers. This mechanism effectively integrates power system states with transmission section information, which facilitates the development of robust state representations. Furthermore, by considering the graph topology of power system and the electrical attributes of bus nodes, we introduce two customized strategies to further enhance the expressiveness: graph neural network propagation and multi-factor attention mechanism. Extensive evaluations are conducted on three power system scenarios, including the IEEE 118-bus system, a realistic 300-bus system in China, and a large-scale European system with 9241 buses, where Powerformer demonstrates its superior performance over several baseline methods.
翻訳日:2024-01-11 16:16:28 公開日:2024-01-10
# XUAT-Copilot:大規模言語モデルを用いたユーザ受け入れ自動テストのためのマルチエージェント協調システム

XUAT-Copilot: Multi-Agent Collaborative System for Automated User Acceptance Testing with Large Language Model ( http://arxiv.org/abs/2401.02705v2 )

ライセンス: Link先を確認
Zhitao Wang, Wei Wang, Zirao Li, Long Wang, Can Yi, Xinjie Xu, Luyang Cao, Hanjing Su, Shouzhi Chen, Jun Zhou(参考訳) ここ数年,中国で最も影響力のあるモバイル決済アプリケーションのひとつであるWeChat Payのユーザ受け入れテスト(UAT)プロセスの自動化に注力してきました。 この目的のためにXUATというシステムを開発した。 しかし、現在のシステムでは、テストスクリプト生成という、人間の作業集約的な段階がまだ残っている。 そこで本研究では,現在のシステム,特にテストスクリプト生成の段階において,自動化レベルを向上する手法に焦点を当てる。 近年の顕著な成功により、大きな言語モデル(LLM)は人間のような知性を達成する上で大きな可能性を示しており、LLMを自律的なエージェントとして活用して人間のような意思決定能力を得る研究領域が増えている。 これらの成果に触発されて,自動UATのためのマルチエージェント協調システムXUAT-Copilotを提案する。 提案システムは主に,動作計画,状態チェック,パラメータ選択を担当する3つのLCMエージェントと,状態検出とケース書き換えのための2つのモジュールから構成される。 エージェントはテストデバイスと対話し、人間のような意思決定を行い、協調的にアクションコマンドを生成する。 提案するマルチエージェントシステムは,実験において人間のテスタに密接な効果をもたらし,単一エージェントアーキテクチャと比較してpass@1精度を大幅に向上させる。 さらに重要なのは、WeChat Payモバイルアプリの正式なテスト環境で提案されたシステムがローンチされたことだ。

In past years, we have been dedicated to automating user acceptance testing (UAT) process of WeChat Pay, one of the most influential mobile payment applications in China. A system titled XUAT has been developed for this purpose. However, there is still a human-labor-intensive stage, i.e, test scripts generation, in the current system. Therefore, in this paper, we concentrate on methods of boosting the automation level of the current system, particularly the stage of test scripts generation. With recent notable successes, large language models (LLMs) demonstrate significant potential in attaining human-like intelligence and there has been a growing research area that employs LLMs as autonomous agents to obtain human-like decision-making capabilities. Inspired by these works, we propose an LLM-powered multi-agent collaborative system, named XUAT-Copilot, for automated UAT. The proposed system mainly consists of three LLM-based agents responsible for action planning, state checking and parameter selecting, respectively, and two additional modules for state sensing and case rewriting. The agents interact with testing device, make human-like decision and generate action command in a collaborative way. The proposed multi-agent system achieves a close effectiveness to human testers in our experimental studies and gains a significant improvement of Pass@1 accuracy compared with single-agent architecture. More importantly, the proposed system has launched in the formal testing environment of WeChat Pay mobile app, which saves a considerable amount of manpower in the daily development work.
翻訳日:2024-01-11 16:16:09 公開日:2024-01-10
# 言語モデルはライブラリか、それともライブラリアンか? 書誌テクニズム, 新たな参照問題, llmの態度

Are Language Models More Like Libraries or Like Librarians? Bibliotechnism, the Novel Reference Problem, and the Attitudes of LLMs ( http://arxiv.org/abs/2401.04854v1 )

ライセンス: Link先を確認
Harvey Lederman, Kyle Mahowald(参考訳) LLMは、光コピー機や印刷機のような、情報を伝えるが新しいコンテンツを作ることができない文化技術なのか? ビブリオテクニズム(bibliotechnism)と呼ばれるこのアイデアの課題は、LLMが全く新しいテキストを生成することが多いことです。 我々はまず、この挑戦に対してビブリオテクニズムを擁護し、新しいテキストがデリバティブな意味でのみ意味を持つ可能性を示し、この生成されたテキストの内容が、オリジナルの人間のテキストの内容に重要な意味を持つことを示す。 我々は、llmが「ノベル・リファレンス」を生成する例から派生し、ノベル・エンティティを参照するためにノベル・ネームを用いて、書誌テクニズムの異なる斬新な挑戦を提示する。 LLMが文化的技術ではなく、限られた形態のエージェンシー(信条、願望、意図)を持っていた場合、このような例は円滑に説明できる。 心の哲学の解釈論によれば、システムが信念、欲望、意図を持っているのは、その行動がそのような状態を持っているという仮説によってよく説明されている場合に限りである。 本論では, LLMが実際に信念, 欲望, 意図を持っていて, 限られた形態のエージェンシーを持っているという証拠を, 新規参照の事例が提示していると論じる。

Are LLMs cultural technologies like photocopiers or printing presses, which transmit information but cannot create new content? A challenge for this idea, which we call bibliotechnism, is that LLMs often do generate entirely novel text. We begin by defending bibliotechnism against this challenge, showing how novel text may be meaningful only in a derivative sense, so that the content of this generated text depends in an important sense on the content of original human text. We go on to present a different, novel challenge for bibliotechnism, stemming from examples in which LLMs generate "novel reference", using novel names to refer to novel entities. Such examples could be smoothly explained if LLMs were not cultural technologies but possessed a limited form of agency (beliefs, desires, and intentions). According to interpretationism in the philosophy of mind, a system has beliefs, desires and intentions if and only if its behavior is well-explained by the hypothesis that it has such states. In line with this view, we argue that cases of novel reference provide evidence that LLMs do in fact have beliefs, desires, and intentions, and thus have a limited form of agency.
翻訳日:2024-01-11 16:09:32 公開日:2024-01-10
# ゼロショットスケッチに基づく画像検索のためのモダリティ認識表現学習

Modality-Aware Representation Learning for Zero-shot Sketch-based Image Retrieval ( http://arxiv.org/abs/2401.04860v1 )

ライセンス: Link先を確認
Eunyi Lyou, Doyeon Lee, Jooeun Kim, Joonseok Lee(参考訳) ゼロショット学習(zero-shot learning)は、未発見のカテゴリを扱う機械学習モデルに効率的なソリューションを提供する。 Zero-shot Sketch-based Image Retrieval (ZS-SBIR)は、ペアのスケッチ写真サンプルの収集が困難でコストがかかる現実のシナリオをシミュレートする。 本稿では,スケッチと写真をテキストで対比することで間接的に整列する新しいフレームワークを提案し,スケッチ-フォトペアへのアクセスの必要性を解消する。 データから学習した明示的モダリティエンコーディングでは、モダリティ固有の情報からモダリティ非依存なセマンティクスを分離し、モダリティギャップを橋渡しし、ジョイント潜在空間内で効果的なクロスモダリティコンテンツ検索を可能にする。 総合実験から,zs-sbirにおける提案モデルの有効性を検証し,一般化および細粒度設定にも適用できることを示した。

Zero-shot learning offers an efficient solution for a machine learning model to treat unseen categories, avoiding exhaustive data collection. Zero-shot Sketch-based Image Retrieval (ZS-SBIR) simulates real-world scenarios where it is hard and costly to collect paired sketch-photo samples. We propose a novel framework that indirectly aligns sketches and photos by contrasting them through texts, removing the necessity of access to sketch-photo pairs. With an explicit modality encoding learned from data, our approach disentangles modality-agnostic semantics from modality-specific information, bridging the modality gap and enabling effective cross-modal content retrieval within a joint latent space. From comprehensive experiments, we verify the efficacy of the proposed model on ZS-SBIR, and it can be also applied to generalized and fine-grained settings.
翻訳日:2024-01-11 15:56:35 公開日:2024-01-10
# パーソナライズされた言語プロンプトのためのユーザ埋め込みモデル

User Embedding Model for Personalized Language Prompting ( http://arxiv.org/abs/2401.04858v1 )

ライセンス: Link先を確認
Sumanth Doddapaneni, Krishna Sayana, Ambarish Jash, Sukhdeep Sodhi, Dima Kuzmin(参考訳) 長い歴史のモデリングはレコメンデーションシステムの強化に重要な役割を果たし、ユーザの進化する好みを捉え、より正確でパーソナライズされたレコメンデーションをもたらす。 本研究では,自然言語の嗜好理解のための長いユーザ履歴をモデル化する課題に取り組む。 具体的には,ユーザ履歴を圧縮し,埋め込みとして表現することで,ユーザ履歴を効率よく処理し,LMのソフトプロンプトとして利用するユーザ埋め込みモジュール(UEM)を提案する。 提案手法は,従来のテキストベースプロンプト法に比べてはるかに長い履歴処理において優れた性能を示し,予測性能が大幅に向上した。 この研究の主な貢献は、埋め込みとして表現されたユーザ信号で言語モデルをバイアスする能力を示すことである。

Modeling long histories plays a pivotal role in enhancing recommendation systems, allowing to capture user's evolving preferences, resulting in more precise and personalized recommendations. In this study we tackle the challenges of modeling long user histories for preference understanding in natural language. Specifically, we introduce a new User Embedding Module (UEM) that efficiently processes user history in free-form text by compressing and representing them as embeddings, to use them as soft prompts to a LM. Our experiments demonstrate the superior capability of this approach in handling significantly longer histories compared to conventional text based prompting methods, yielding substantial improvements in predictive performance. The main contribution of this research is to demonstrate the ability to bias language models with user signals represented as embeddings.
翻訳日:2024-01-11 15:56:15 公開日:2024-01-10
# 信号変換を用いた交通市場率予測

Transportation Market Rate Forecast Using Signature Transform ( http://arxiv.org/abs/2401.04857v1 )

ライセンス: Link先を確認
Haotian Gu, Tim Jacobs, Philip Kaminsky, Xin Guo, Xinyu Li(参考訳) 現在Amazonは、これらの予測の質や解釈可能性の欠如にもかかわらず、輸送市場率の予測に第三者に依存している。 輸送市場レートは正確に予測するのは難しいが、これらの課題に対処する新しい署名ベースの統計手法を開発し、市場レートを予測するための予測的適応モデルを構築した。 この技術はシグネチャ変換の2つの重要な性質に基づいている。 1つ目は、特徴空間を線形化し、予測問題を線形回帰解析に変換する普遍非線形性であり、もう1つは、時系列データ間の計算効率の類似性を比較できるシグネチャカーネルである。 これらの特性を組み合わせることで、予測プロセスにおける効率的な特徴生成と季節性のより正確な識別と状態切替が可能になる。 このモデルによる予備的な結果は、この新手法が、コビッド19の期間やウクライナ戦争の突然の開始時においても、より解釈性の良い商業的に利用可能な産業モデルよりもはるかに優れた予測精度をもたらすことを示している。

Currently, Amazon relies on third parties for transportation marketplace rate forecasts, despite the poor quality and lack of interpretability of these forecasts. While transportation marketplace rates are typically very challenging to forecast accurately, we have developed a novel signature-based statistical technique to address these challenges and built a predictive and adaptive model to forecast marketplace rates. This novel technique is based on two key properties of the signature transform. The first is its universal nonlinearity which linearizes the feature space and hence translates the forecasting problem into a linear regression analysis; the second is the signature kernel which allows for comparing computationally efficiently similarities between time series data. Combined, these properties allow for efficient feature generation and more precise identification of seasonality and regime switching in the forecasting process. Preliminary result by the model shows that this new technique leads to far superior forecast accuracy versus commercially available industry models with better interpretability, even during the period of Covid-19 and with the sudden onset of the Ukraine war.
翻訳日:2024-01-11 15:55:58 公開日:2024-01-10
# 良いスコアは良い生成モデルにつながりません

A Good Score Does not Lead to A Good Generative Model ( http://arxiv.org/abs/2401.04856v1 )

ライセンス: Link先を確認
Sixu Li, Shi Chen, Qin Li(参考訳) スコアベース生成モデル(sgms)は、複雑で高次元のデータ分布から高品質なサンプルを生成する能力で有名である。 この手法は経験的成功を享受し、厳密な理論収束特性によって支持されている。 特に,sgmが基底スコア関数をよく学習すれば,接地部に近い分布からサンプルを生成できることが示されており,sgmが生成モデルとしての成功を示唆している。 本論文では反例を挙げる。 サンプル複雑性の議論を通じて、スコア関数をうまく学習する特定の設定を提供する。 しかし、この設定のSGMは、カーネル密度推定の効果を模倣して、訓練データポイントのガウス的ぼかしであるサンプルしか出力できない。 この発見は、sgmが強い記憶効果を示し、生成しないことを示す一連の最近の発見を共鳴させる。

Score-based Generative Models (SGMs) is one leading method in generative modeling, renowned for their ability to generate high-quality samples from complex, high-dimensional data distributions. The method enjoys empirical success and is supported by rigorous theoretical convergence properties. In particular, it has been shown that SGMs can generate samples from a distribution that is close to the ground-truth if the underlying score function is learned well, suggesting the success of SGM as a generative model. We provide a counter-example in this paper. Through the sample complexity argument, we provide one specific setting where the score function is learned well. Yet, SGMs in this setting can only output samples that are Gaussian blurring of training data points, mimicking the effects of kernel density estimation. The finding resonates a series of recent finding that reveal that SGMs can demonstrate strong memorization effect and fail to generate.
翻訳日:2024-01-11 15:55:42 公開日:2024-01-10
# LPAC:学習可能な知覚・行動・コミュニケーションループとカバレッジ制御への応用

LPAC: Learnable Perception-Action-Communication Loops with Applications to Coverage Control ( http://arxiv.org/abs/2401.04855v1 )

ライセンス: Link先を確認
Saurav Agarwal, Ramya Muthukrishnan, Walker Gosrich, Alejandro Ribeiro, Vijay Kumar(参考訳) 被覆制御は、ロボット群をナビゲートし、特徴や前兆を知らない現象を協調的に監視する問題である。 この問題は、コミュニケーションや感知能力に制限のあるロボットによる分散設定では難しい。 本稿では,カバレッジ制御問題に対するLPACアーキテクチャを提案する。 提案手法では、畳み込みニューラルネットワーク(CNN)が環境の局所的知覚を処理し、グラフニューラルネットワーク(GNN)が隣接するロボット間の関連情報の通信を可能にし、最後は浅い多層パーセプトロン(MLP)がロボットの動作を計算する。 コミュニケーションモジュール内のgnnは、どの情報を隣人と通信するか、どのように受信した情報を使って適切なアクションを取るかを計算することで、ロボット群でのコラボレーションを可能にする。 我々は、環境全体を認識する集中型透視アルゴリズムを用いて模倣学習を用いてモデルを訓練する。 評価の結果,LPACモデルは標準分散型および集中型カバレッジ制御アルゴリズムよりも優れていた。 学習ポリシーは、トレーニングデータセットとは異なる環境に一般化し、ロボットの数を増やしてより大きな環境に転送し、ノイズの多い位置推定に堅牢である。 その結果,lpacアーキテクチャは協調行動を実現するためにロボット群における分散ナビゲーションに適していることがわかった。

Coverage control is the problem of navigating a robot swarm to collaboratively monitor features or a phenomenon of interest not known a priori. The problem is challenging in decentralized settings with robots that have limited communication and sensing capabilities. This paper proposes a learnable Perception-Action-Communication (LPAC) architecture for the coverage control problem. In the proposed solution, a convolution neural network (CNN) processes localized perception of the environment; a graph neural network (GNN) enables communication of relevant information between neighboring robots; finally, a shallow multi-layer perceptron (MLP) computes robot actions. The GNN in the communication module enables collaboration in the robot swarm by computing what information to communicate with neighbors and how to use received information to take appropriate actions. We train models using imitation learning with a centralized clairvoyant algorithm that is aware of the entire environment. Evaluations show that the LPAC models outperform standard decentralized and centralized coverage control algorithms. The learned policy generalizes to environments different from the training dataset, transfers to larger environments with an increased number of robots, and is robust to noisy position estimates. The results indicate that LPAC architectures are well-suited for decentralized navigation in robot swarms to achieve collaborative behavior.
翻訳日:2024-01-11 15:55:26 公開日:2024-01-10
# 増幅された圧縮状態:損失と位相雑音の分析

Amplified Squeezed States: Analyzing Loss and Phase Noise ( http://arxiv.org/abs/2401.04937v1 )

ライセンス: Link先を確認
K. M. Kwan, M. J. Yap, J. Qin, D. W. Gould, V. B. Adya, S. S. Y. Chua, J. Junker, T. G. McRae, B. J. J. Slagmolen, D. E. McClelland(参考訳) 圧縮状態の位相感度増幅は、例えば2マイクロメートルの波長で高い検出損失を緩和する技術である。 増幅圧縮状態の解析モデルは位相雑音の影響を拡大し, 有効測定可能なスクイーズと有効検出効率の2つの実用的なパラメータを導出する。 現実的なパラメータを含むケーススタディでは、位相感応増幅の利点が示されている。 光学パラメトリック増幅器(OPA)の位相ノイズはスケズレベルに最小限に影響を与え,OPAの利得を増大させることができた。 このスキームは提案された重力波検出器と互換性があり、光導波路の出力結合損失によって劣化する量子システムにおける応用と一致する。

Phase-sensitive amplification of squeezed states is a technique to mitigate high detection loss, e.g. at 2-micrometre wavelengths. Our analytical model of amplified squeezed states expands on the effect of phase noise and derives two practical parameters: the effective measurable squeezing and the effective detection efficiency. A case study including realistic parameters demonstrates the benefit of phase-sensitive amplification. We identified the phase noise in the optical parametric amplifier (OPA) minimally affects the squeezing level, enabling increased gain of the OPA. This scheme is compatible with proposed gravitational-wave detectors and consistent with applications in quantum systems that are degraded by output coupling loss in optical waveguides.
翻訳日:2024-01-11 15:44:37 公開日:2024-01-10
# SPT:赤色巨星年代と質量推定のための分光変換器

SPT: Spectral Transformer for Red Giant Stars Age and Mass Estimation ( http://arxiv.org/abs/2401.04900v1 )

ライセンス: Link先を確認
Mengmeng Zhang, Fan Wu, Yude Bu, Shanshan Li, Zhenping Yi, Meng Liu, and Xiaoming Kong(参考訳) 赤色巨星の年齢と質量は、銀河系の構造と進化を理解するために不可欠である。 これらの推定の伝統的なアイソクロン法は、ヘルツスプルング・ラッセル図の重なり合うアイソクロンにより本質的に制限されるが、アステロソロジーはより正確には、高精度で長期的な観測を必要とする。 これらの課題に対応するため、我々は、赤巨星の年齢と質量をスペクトルから予測する新しいフレームワーク、スペクトル変換器(SPT)を開発した。 sptのキーコンポーネントであるマルチヘッドアダマール自己アテンション機構は、スペクトル専用に設計されており、異なる波長の複雑な関係を捉えることができる。 さらに,スケールの不均衡やインタラクションモードの損失に対処するために,マハラノビス距離に基づく損失関数を導入し,モンテカルロ・ドロップアウトを組み込んで予測の不確かさを定量的に解析し,ラモスから3,880個の赤色巨星スペクトルを観測し,平均パーセンテージ誤差17.64%,質量推定6.61%をそれぞれ達成し,各予測に不確実性を与えた。 その結果、従来の機械学習アルゴリズムよりも大幅に優れ、アステロジストロジー法やイソクロンフィッティング技術との高レベルの整合性を実証した。 将来的には、中国宇宙ステーション望遠鏡と大型シントロピックサーベイ望遠鏡のデータセットを利用して、モデルの精度を高め、天文学や天体物理学の分野で適用範囲を広げていく予定だ。

The age and mass of red giants are essential for understanding the structure and evolution of the Milky Way. Traditional isochrone methods for these estimations are inherently limited due to overlapping isochrones in the Hertzsprung-Russell diagram, while asteroseismology, though more precise, requires high-precision, long-term observations. In response to these challenges, we developed a novel framework, Spectral Transformer (SPT), to predict the age and mass of red giants aligned with asteroseismology from their spectra. A key component of SPT, the Multi-head Hadamard Self-Attention mechanism, designed specifically for spectra, can capture complex relationships across different wavelength. Further, we introduced a Mahalanobis distance-based loss function to address scale imbalance and interaction mode loss, and incorporated Monte Carlo dropout for quantitative analysis of prediction uncertainty.Trained and tested on 3,880 red giant spectra from LAMOST, the SPT achieved remarkable age and mass estimations with average percentage errors of 17.64% and 6.61%, respectively, and provided uncertainties for each corresponding prediction. The results significantly outperform those of traditional machine learning algorithms and demonstrate a high level of consistency with asteroseismology methods and isochrone fitting techniques. In the future, our work will leverage datasets from the Chinese Space Station Telescope and the Large Synoptic Survey Telescope to enhance the precision of the model and broaden its applicability in the field of astronomy and astrophysics.
翻訳日:2024-01-11 15:44:23 公開日:2024-01-10
# ango:中国ドメインにおける世代指向言語モデルの次世代評価ベンチマーク

ANGO: A Next-Level Evaluation Benchmark For Generation-Oriented Language Models In Chinese Domain ( http://arxiv.org/abs/2401.04898v1 )

ライセンス: Link先を確認
Bingchao Wang(参考訳) 近年,様々な大規模言語モデル(llm)評価データセットが出現しているが,そのほとんどは,ゆがんだランキングやモデルの能力分析の難しさに問題がある。 そこで本稿では,中国のマルチチョイス質問評価ベンチマークansoを紹介する。 ANGOは、初めて‘textit{Keypoint} の分類基準を提案し、ANGOの各質問は複数のキーポイントに対応し、評価結果の解釈可能性を大幅に向上させる。 実際の人間の性能に基づいて,ANGO質問を9つの難易度に分割し,モデルトレーニングのためのより正確なガイダンスを提供する。 データ漏洩の影響を最小限に抑え、ANGOの革新的な機能を完全に活用するために、独占的なサンプリング戦略と、迅速なテストセットイテレーションをサポートする新しい評価フレームワークを設計しました。 実験の結果,ANGOはモデルに強い課題を呈し,既存のベンチマークと比較して評価結果のさらなる詳細を明らかにすることができた。

Recently, various Large Language Models (LLMs) evaluation datasets have emerged, but most of them have issues with distorted rankings and difficulty in model capabilities analysis. Addressing these concerns, this paper introduces ANGO, a Chinese multi-choice question evaluation benchmark. ANGO proposes \textit{Keypoint} categorization standard for the first time, each question in ANGO can correspond to multiple keypoints, effectively enhancing interpretability of evaluation results. Base on performance of real humans, we build a quantifiable question difficulty standard and divide ANGO questions into 9 difficulty levels, which provide more precise guidance for model training. To minimize data leakage impact and fully leverage ANGO's innovative features, we have engineered exclusive sampling strategies and a new evaluation framework that support swift testset iteration. Our experiments demonstrate that ANGO poses a stronger challenge to models and reveals more details in evaluation result compared to existing benchmarks.
翻訳日:2024-01-11 15:43:50 公開日:2024-01-10
# 欠陥のない再配置のための機械学習による光ツイーザ

Machine learning-enhanced optical tweezers for defect-free rearrangement ( http://arxiv.org/abs/2401.04893v1 )

ライセンス: Link先を確認
Yongwoong Lee, Eunmi Chae(参考訳) 光トワイザーは原子、分子、光学(amo)物理学において重要な道具であり、個々の原子や分子の正確なトラップと操作を容易にする。 このプロセスは、1次元空間と2次元空間の両方で所望のジオメトリーを生成できると同時に、原子のリアルタイム再構成を可能にする。 特に量子計算において壊滅的な性能低下を引き起こすこれらのtweezersの確率的欠陥のため、tweezersを迅速かつ正確に再構成することが不可欠である。 本研究は, 近似ポリシー最適化モデルを用いて, この再配置プロセスを最適化する機械学習手法を提案する。 この手法は最短経路問題を効率的に解き、欠陥のないトウェザーアレイの形成を確実にする。 機械学習を実装することで,様々な条件下での最適運動経路を計算し,モデル学習に有望な結果をもたらす。 この進歩は、ツイーザーアレイ再構成の新しい機会を示し、量子コンピューティング研究の効率性と精度を高める可能性がある。

Optical tweezers constitute pivotal tools in Atomic, Molecular, and Optical(AMO) physics, facilitating precise trapping and manipulation of individual atoms and molecules. This process affords the capability to generate desired geometries in both one-dimensional and two-dimensional spaces, while also enabling real-time reconfiguration of atoms. Due to stochastic defects in these tweezers, which cause catastrophic performance degradation especially in quantum computations, it is essential to rearrange the tweezers quickly and accurately. Our study introduces a machine learning approach that uses the Proximal Policy Optimization model to optimize this rearrangement process. This method focuses on efficiently solving the shortest path problem, ensuring the formation of defect-free tweezer arrays. By implementing machine learning, we can calculate optimal motion paths under various conditions, resulting in promising results in model learning. This advancement presents new opportunities in tweezer array rearrangement, potentially boosting the efficiency and precision of quantum computing research.
翻訳日:2024-01-11 15:43:33 公開日:2024-01-10
# 空洞内の2モード場と相互作用する3レベル原子の絡み合い

Entanglement of a three-level atom interacting with two-modes field in a cavity ( http://arxiv.org/abs/2401.04892v1 )

ライセンス: Link先を確認
A. del Rio-Lima and F. J. Poveda-Cuevas and O. Casta\~nos(参考訳) 空洞内の2つのモードの量子化場と相互作用する3つのレベルの原子間の相互作用のダイナミクスについて,アルカリ原子の超微粒子レベルの実験値を考慮した回転波近似を用いて検討した。 等しいデチューニングは、物質-磁場の絡み合い、光子の統計的性質、原子の占有確率を決定すると考えられている。 大きな双極子強度または弱い双極子強度が現れると、ラマン条件、すなわち、ラマンの原子遷移の1つが抑制される。 時間発展演算子の解析式は、フィールドとmatter observablesに対する明示的な閉じた式も持つことができる。

The dynamics of the interaction between an atom of three levels interacting with a quantized field of two modes in a cavity is studied within the rotating wave approximation by taking into account experimental values of the accessible hyperfine levels of alkaline atoms. An equal detuning is considered to determine the matter-field entanglement, the statistical properties of the photons, and the occupation probabilities of the atom. For a large detuning or weak dipolar strength appears, the Raman condition, that is, the suppression of one of his atomic transitions. Analytical expression for the time evolution operator allows to have also explicit closed expressions for the field and matter observables.
翻訳日:2024-01-11 15:43:15 公開日:2024-01-10
# メカニズム空間による非パラメトリック部分的絡み合い:スパースアクション、インターベンション、スパース時間依存性

Nonparametric Partial Disentanglement via Mechanism Sparsity: Sparse Actions, Interventions and Sparse Temporal Dependencies ( http://arxiv.org/abs/2401.04890v1 )

ライセンス: Link先を確認
S\'ebastien Lachapelle, Pau Rodr\'iguez L\'opez, Yash Sharma, Katie Everett, R\'emi Le Priol, Alexandre Lacoste, Simon Lacoste-Julien(参考訳) 本研究は,注意の潜在因子が観測された補助変数および/または過去の潜在因子に依存する場合に適用される,メカニズムスパーシティ・レギュライゼーション(sparsity regularization)と呼ばれる不等角化の新しい原理を導入する。 そこで本研究では,不規則な要因を同時に学習し,それらを説明する疎結合な因果図形モデルを提案する。 我々は,この原理を定式化した非パラメトリック同定可能性理論を開発し,学習因果グラフを正規化することで潜在因子を回復できることを示した。 より正確には、「一貫性」(consistency) と呼ばれる新しい同値関係に同一性を示し、従っていくつかの潜在因子が絡み合う(従って「部分的非絡み合い」という用語)。 この絡み合いの構造を説明するために、絡み合いグラフとグラフ保存関数の概念を紹介する。 さらに、置換や要素ワイド変換に至るまでの識別性を備えた完全不整合を保証するグラフィカルな基準を提供する。 機構の疎性原理のスコープと、それが依存する仮定を、いくつかの実例で示す。 例えば、このフレームワークは、潜在要因に関する未知のターゲットを持つマルチノードの介入を活用して、それらを切り離す方法を示している。 我々はさらに、非パラメトリックな結果と、現在一般的な指数関数的家族の仮定との間の関係も引き出す。 最後に,変分オートエンコーダと疎度制約に基づく推定手法を提案し,様々な合成データセット上で実演する。 この作品は『Lachapelle et al.』(2022年)の大幅な拡張を意図している。

This work introduces a novel principle for disentanglement we call mechanism sparsity regularization, which applies when the latent factors of interest depend sparsely on observed auxiliary variables and/or past latent factors. We propose a representation learning method that induces disentanglement by simultaneously learning the latent factors and the sparse causal graphical model that explains them. We develop a nonparametric identifiability theory that formalizes this principle and shows that the latent factors can be recovered by regularizing the learned causal graph to be sparse. More precisely, we show identifiablity up to a novel equivalence relation we call "consistency", which allows some latent factors to remain entangled (hence the term partial disentanglement). To describe the structure of this entanglement, we introduce the notions of entanglement graphs and graph preserving functions. We further provide a graphical criterion which guarantees complete disentanglement, that is identifiability up to permutations and element-wise transformations. We demonstrate the scope of the mechanism sparsity principle as well as the assumptions it relies on with several worked out examples. For instance, the framework shows how one can leverage multi-node interventions with unknown targets on the latent factors to disentangle them. We further draw connections between our nonparametric results and the now popular exponential family assumption. Lastly, we propose an estimation procedure based on variational autoencoders and a sparsity constraint and demonstrate it on various synthetic datasets. This work is meant to be a significantly extended version of Lachapelle et al. (2022).
翻訳日:2024-01-11 15:43:02 公開日:2024-01-10
# マルチユーザチャットアシスタント(muca:multi-user chat assistant) - llmを使用したグループ会話のフレームワーク

Multi-User Chat Assistant (MUCA): a Framework Using LLMs to Facilitate Group Conversations ( http://arxiv.org/abs/2401.04883v1 )

ライセンス: Link先を確認
Manqing Mao, Paishun Ting, Yijian Xiang, Mingyang Xu, Julia Chen, Jianzhe Lin(参考訳) 最近の大規模言語モデル(llm)の進歩は、チャットボット開発に新たな道を開いたが、既存の研究のほとんどは、主にユーザー入力後に答える「何」を決めることに焦点を当てたシングルユーザーチャットボットに集中している。 本稿では,マルチユーザのチャットボットが,より複雑な3w設計次元 – 応答する“what”,応答する“when”,応答する“who” – を持つことを確認した。 さらに,グループディスカッション用に特別に設計されたチャットボットのためのllmベースのフレームワークであるマルチユーザチャットアシスタント(muca)を提案する。 MUCAは、サブトピックジェネレータ、ダイアログアナライザー、Utterance Strategies Arbitratorの3つの主要なモジュールで構成されている。 これらのモジュールは、適切な応答内容、タイミング、および適切な受信者を決定する。 さらに,MUCAの最適化処理を容易にするために,実際のユーザ動作を模倣できるLLMベースのマルチユーザシミュレータ(MUS)を提案する。 これにより、チャットボットとシミュレートされたユーザ間の会話の高速なシミュレーションが可能になり、チャットボットフレームワークの初期の開発をより効率的にする。 MUCAは、ケーススタディやユーザスタディによる実験結果から、少数の中小規模の参加者との目標志向の会話において、適切なチャイムインタイミング、関連コンテンツ、ポジティブなユーザエンゲージメントを含む効果を示す。

Recent advancements in large language models (LLMs) have provided a new avenue for chatbot development, while most existing research has primarily centered on single-user chatbots that focus on deciding "What" to answer after user inputs. In this paper, we identified that multi-user chatbots have more complex 3W design dimensions -- "What" to say, "When" to respond, and "Who" to answer. Additionally, we proposed Multi-User Chat Assistant (MUCA), which is an LLM-based framework for chatbots specifically designed for group discussions. MUCA consists of three main modules: Sub-topic Generator, Dialog Analyzer, and Utterance Strategies Arbitrator. These modules jointly determine suitable response contents, timings, and the appropriate recipients. To make the optimizing process for MUCA easier, we further propose an LLM-based Multi-User Simulator (MUS) that can mimic real user behavior. This enables faster simulation of a conversation between the chatbot and simulated users, making the early development of the chatbot framework much more efficient. MUCA demonstrates effectiveness, including appropriate chime-in timing, relevant content, and positive user engagement, in goal-oriented conversations with a small to medium number of participants, as evidenced by case studies and experimental results from user studies.
翻訳日:2024-01-11 15:42:31 公開日:2024-01-10
# restre: 長いコンテキスト処理のためのメモリベースのトランスフォーマーにおけるクエリの検索による参加待ち

Attendre: Wait To Attend By Retrieval With Evicted Queries in Memory-Based Transformers for Long Context Processing ( http://arxiv.org/abs/2401.04881v1 )

ライセンス: Link先を確認
Zi Yang, Nan Hua(参考訳) LLMはより複雑な入力の処理が可能になったため、研究者は最近、任意に長いシーケンスを効率よく、かつ安価に処理する方法を研究した。 効果的なアプローチの1つは、FIFOメモリを使用して過去のチャンクから注目サブレイヤのキーと値を保存することで、その後のクエリへの参加を可能にすることである。 しかし、このアプローチには大きなメモリが必要であり、/または特定のLMアーキテクチャを考慮する必要がある。 さらに、事前コンテキストにおけるキー値と現在のクエリとの因果関係から、このアプローチは、エンコーダデコーダやプレフィックスのデコーダのみのアーキテクチャなど、双方向の注意に拡張することはできない。 本稿では,LRA や LFA などの消去ポリシーを用いてメモリサイズを削減し,様々なアーキテクチャに対応することを提案するとともに,クエリメモリ (Q メモリ) にキー値メモリ (K/V メモリ) を取り出すことで,待ち待ち行列機構である Attendre 層を提案する。 最初のステップとして、TriviaQA読解タスクを用いてコンテキスト長拡張設定において、この手法を評価し、アプローチの有効性を示す。

As LLMs have become capable of processing more complex types of inputs, researchers have recently studied how to efficiently and affordably process possibly arbitrarily long sequences. One effective approach is to use a FIFO memory to store keys and values of an attention sublayer from past chunks to allow subsequent queries to attend. However, this approach requires a large memory and/or takes into the consideration the specific LM architecture. Moreover, due to the causal nature between the key-values in prior context and the queries at present, this approach cannot be extended to bidirectional attention such as in an encoder-decoder or PrefixLM decoder-only architecture. In this paper, we propose to use eviction policies, such as LRA and LFA, to reduce the memory size and adapt to various architectures, and we also propose the Attendre layer, a wait-to-attend mechanism by retrieving the key-value memory (K/V memory) with evicted queries in the query memory (Q memory). As a first step, we evaluate this method in the context length extension setup using the TriviaQA reading comprehension task, and show the effectiveness of the approach.
翻訳日:2024-01-11 15:42:04 公開日:2024-01-10
# Grassmann Time-Evolving Matrix Product Operators を用いたリアルタイム不純物解法

Real-time Impurity Solver Using Grassmann Time-Evolving Matrix Product Operators ( http://arxiv.org/abs/2401.04880v1 )

ライセンス: Link先を確認
Ruofan Chen, Xiansong Xu, Chu Guo(参考訳) 創発的で有望なテンソルネットワークに基づく不純物解法は、経路積分を行列積状態として表現し、ファインマン・ヴァーノンの影響関数を用いて浴を解析的に積分する。 本稿では、最近提案されたグラスマン時間進化行列積演算子法に基づく平衡不純物スペクトル関数の計算手法を提案する。 中心となる考え方は、非平衡シナリオのように分離可能な不純物-バス初期状態からクエンチを行うことである。 次に遅延グリーン関数 $g(t+t_0, t'+t_0)$ を平衡時間 $t_0$ の後に計算し、不純物と浴がほぼ熱平衡となる。 この方法の主な利点は2つある。 まず、実時間力学にフォーカスするため、虚数時間進化に依存する連続時間量子モンテカルロの場合において、数値的に不適切な解析的継続を行う必要はない。 第2に, 実時間計算における行列積状態の絡み合い成長は, 虚時計算よりもかなり遅く, 数値効率が大幅に向上した。 この手法の精度は、単軌道アンダーソン不純物モデルで示され、連続時間量子モンテカルロ法と比較された。

An emergent and promising tensor-network-based impurity solver is to represent the path integral as a matrix product state, where the bath is analytically integrated out using Feynman-Vernon influence functional. Here we present an approach to calculate the equilibrium impurity spectral function based on the recently proposed Grassmann time-evolving matrix product operators method. The central idea is to perform a quench from a separable impurity-bath initial state as in the non-equilibrium scenario. The retarded Green's function $G(t+t_0, t'+t_0)$ is then calculated after an equilibration time $t_0$ such that the impurity and bath are approximately in thermal equilibrium. There are two major advantages of this method. First, since we focus on real-time dynamics, we do not need to perform the numerically ill-posed analytic continuation in the continuous-time quantum Monte Carlo case that relies on imaginary-time evolution. Second, the entanglement growth of the matrix product states in real-time calculations is observed to be much slower than that in imaginary-time calculations, leading to a significant improvement in numerical efficiency. The accuracy of this method is demonstrated in the single-orbital Anderson impurity model and benchmarked against the continuous-time quantum Monte Carlo method.
翻訳日:2024-01-11 15:41:38 公開日:2024-01-10
# イベントbリファインメントによる責任認識型自動運転車の安全アーキテクチャの形式的モデリング

Formal Modelling of Safety Architecture for Responsibility-Aware Autonomous Vehicle via Event-B Refinement ( http://arxiv.org/abs/2401.04875v1 )

ライセンス: Link先を確認
Tsutomu Kobayashi, Martin Bondu, Fuyuki Ishikawa(参考訳) 自動運転車(AV)の安全性を確保することが、社会への受容の鍵となる。 この複雑さは、AIベースのブラックボックスコントローラや周囲のオブジェクトをさまざまなトラフィックシナリオ下で、安全条件を正式に証明する上で、重要な課題である。 本稿では,複雑度を低減するためにEvent-Bリファインメント機構を用いてAVの安全性条件をモデル化・導出・証明するための戦略と経験について述べる。 このケーススタディは、現在最先端のゴール認識型責任感性安全モデルを対象として、周囲の車両との相互作用について議論する。 また、高度なブラックボックスAIコントローラを含むSimplexアーキテクチャも使用しています。 我々の経験から、改良機構はシナリオのバリエーションよりも複雑なシステムを徐々に発展させるのに有効であることが示された。

Ensuring the safety of autonomous vehicles (AVs) is the key requisite for their acceptance in society. This complexity is the core challenge in formally proving their safety conditions with AI-based black-box controllers and surrounding objects under various traffic scenarios. This paper describes our strategy and experience in modelling, deriving, and proving the safety conditions of AVs with the Event-B refinement mechanism to reduce complexity. Our case study targets the state-of-the-art model of goal-aware responsibility-sensitive safety to argue over interactions with surrounding vehicles. We also employ the Simplex architecture to involve advanced black-box AI controllers. Our experience has demonstrated that the refinement mechanism can be effectively used to gradually develop the complex system over scenario variations.
翻訳日:2024-01-11 15:41:13 公開日:2024-01-10
# 機械学習と応用における特徴ネットワーク手法

Feature Network Methods in Machine Learning and Applications ( http://arxiv.org/abs/2401.04874v1 )

ライセンス: Link先を確認
Xinying Mu, Mark Kon(参考訳) 機械学習(ml)機能ネットワークは、その類似性に基づいて学習タスクのml機能を接続するグラフである。 このネットワーク表現により,特徴ベクトルをネットワーク上の関数として見ることができる。 フーリエ解析や関数解析から関数操作を活用することで、特徴ベクトルに課されるグラフ構造を利用して、新しくて新しい特徴を容易に生成することができる。 このようなネットワーク構造は、画像処理や計算生物学において暗黙的に研究されてきた。 そこで我々は,特徴ベクトルに課されるグラフ構造として特徴ネットワークを記述し,機械学習に応用する。 ひとつは畳み込みニューラルネットワークのグラフベースの一般化で、深さや複雑さの異なる特徴を階層的に表現した構造化ディープラーニングを含む。 これはまた、有用な新しいマルチレベル機能を生成することができる学習アルゴリズムにも拡張される。 さらに,機能ネットワークを用いて新たな特徴を設計し,モデルの表現性を向上する方法について論じる。 機能クラスタリングとフィードフォワード学習によって階層的な接続が形成される,深い木構造特徴ネットワークの具体例を示す。 その結果、学習の複雑さと計算効率が低下する。 隣接する部分の変調(保持)線形結合に制限される「標準的な」神経機能とは異なり、特徴ネットワークは特徴間のより一般的なフィードフォワード依存性を提供する。 例えば、機能間のラジアル基底関数やグラフ構造に基づく依存関係を利用することができる。

A machine learning (ML) feature network is a graph that connects ML features in learning tasks based on their similarity. This network representation allows us to view feature vectors as functions on the network. By leveraging function operations from Fourier analysis and from functional analysis, one can easily generate new and novel features, making use of the graph structure imposed on the feature vectors. Such network structures have previously been studied implicitly in image processing and computational biology. We thus describe feature networks as graph structures imposed on feature vectors, and provide applications in machine learning. One application involves graph-based generalizations of convolutional neural networks, involving structured deep learning with hierarchical representations of features that have varying depth or complexity. This extends also to learning algorithms that are able to generate useful new multilevel features. Additionally, we discuss the use of feature networks to engineer new features, which can enhance the expressiveness of the model. We give a specific example of a deep tree-structured feature network, where hierarchical connections are formed through feature clustering and feed-forward learning. This results in low learning complexity and computational efficiency. Unlike "standard" neural features which are limited to modulated (thresholded) linear combinations of adjacent ones, feature networks offer more general feedforward dependencies among features. For example, radial basis functions or graph structure-based dependencies between features can be utilized.
翻訳日:2024-01-11 15:40:56 公開日:2024-01-10
# 歩行者軌跡予測のための知識認識グラフトランス

Knowledge-aware Graph Transformer for Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2401.04872v1 )

ライセンス: Link先を確認
Yu Liu, Yuexin Zhang, Kunming Li, Yongliang Qiao, Stewart Worrall, You-Fu Li, and He Kong(参考訳) 歩行者運動軌跡の予測は、自動運転車の経路計画と移動制御に不可欠である。 群集軌道の正確な予測は、異なる環境における人間の動きの不確実性のために困難である。 トレーニングにおいて,近年のディープラーニングに基づく予測手法は,トラジェクトリ履歴や歩行者間のインタラクションなどの情報を主に活用している。 これにより、トレーニングデータセット間の差異が適切に組み込まれていないため、さまざまなシナリオでの予測パフォーマンスが制限される。 この制限を克服するために, 予測性能を向上させるグラフトランスフォーマ構造を提案し, 各種サイトとデータセットに含まれるシナリオの違いを捉えた。 特に、自己認識機構とドメイン適応モジュールはモデルの一般化能力を改善するために設計されている。 さらに、トレーニングおよび性能評価のために、クロスデータセットシーケンスを考慮した追加メトリクスを導入する。 提案されたフレームワークは、一般的な公開データセット、すなわちethとucyを使用して、既存のメソッドと比較される。 実験の結果,提案手法の性能が向上した。

Predicting pedestrian motion trajectories is crucial for path planning and motion control of autonomous vehicles. Accurately forecasting crowd trajectories is challenging due to the uncertain nature of human motions in different environments. For training, recent deep learning-based prediction approaches mainly utilize information like trajectory history and interactions between pedestrians, among others. This can limit the prediction performance across various scenarios since the discrepancies between training datasets have not been properly incorporated. To overcome this limitation, this paper proposes a graph transformer structure to improve prediction performance, capturing the differences between the various sites and scenarios contained in the datasets. In particular, a self-attention mechanism and a domain adaption module have been designed to improve the generalization ability of the model. Moreover, an additional metric considering cross-dataset sequences is introduced for training and performance evaluation purposes. The proposed framework is validated and compared against existing methods using popular public datasets, i.e., ETH and UCY. Experimental results demonstrate the improved performance of our proposed scheme.
翻訳日:2024-01-11 15:40:34 公開日:2024-01-10
# 音声活動予測を用いたリアルタイム・連続ターンテイク予測

Real-time and Continuous Turn-taking Prediction Using Voice Activity Projection ( http://arxiv.org/abs/2401.04868v1 )

ライセンス: Link先を確認
Koji Inoue, Bing'er Jiang, Erik Ekstedt, Tatsuya Kawahara, Gabriel Skantze(参考訳) リアルタイムかつ連続的なターンテイク予測システムの実演を示す。 このシステムは音声活動予測(VAP)モデルに基づいており、対話ステレオ音声を直接将来の音声活動にマッピングする。 vapモデルは、コントラスト予測符号化(cpc)と自己着脱トランス、続いてクロス着脱トランスを含む。 入力文脈の音声長の影響について検討し,CPU設定による性能劣化を最小限に抑えて,提案方式がリアルタイムに動作可能であることを示す。

A demonstration of a real-time and continuous turn-taking prediction system is presented. The system is based on a voice activity projection (VAP) model, which directly maps dialogue stereo audio to future voice activities. The VAP model includes contrastive predictive coding (CPC) and self-attention transformers, followed by a cross-attention transformer. We examine the effect of the input context audio length and demonstrate that the proposed system can operate in real-time with CPU settings, with minimal performance degradation.
翻訳日:2024-01-11 15:40:19 公開日:2024-01-10
# 音声対話システムの客観的評価のためのユーザの行動分析

An Analysis of User Behaviours for Objectively Evaluating Spoken Dialogue Systems ( http://arxiv.org/abs/2401.04867v1 )

ライセンス: Link先を確認
Koji Inoue, Divesh Lala, Keiko Ochi, Tatsuya Kawahara, Gabriel Skantze(参考訳) 音声対話システムの評価手法の確立は重要であるが,課題もある。 主観評価はユーザ実験で一般的に用いられるが,研究比較や再現性には客観的評価が必要である。 そこで本研究では,ユーザの行動に基づいた間接的かつ客観的なシステム評価フレームワークを提案する。 本稿では,ソーシャル対話課題におけるユーザの行動と主観的評価スコアとの関係について検討する。 その結果,注意的聴取や就職面接など,ユーザ発話が第一の対話タスクでは,発話数や単語数などの指標が評価に重要な役割を果たすことがわかった。 障害の観察は、就職面接などの形式的タスクの有効性を示すこともできる。 一方,初対面会話などの対話性が高い対話タスクでは,平均的なスイッチ停止時間など,ターンテイクに関連する行動が重要になる。 これらの結果から,適切なユーザ行動の選択は,各ソーシャル対話タスクにおける客観的評価に有用であることが示唆された。

Establishing evaluation schemes for spoken dialogue systems is important, but it can also be challenging. While subjective evaluations are commonly used in user experiments, objective evaluations are necessary for research comparison and reproducibility. To address this issue, we propose a framework for indirectly but objectively evaluating systems based on users' behaviours. In this paper, to this end, we investigate the relationship between user behaviours and subjective evaluation scores in social dialogue tasks: attentive listening, job interview, and first-meeting conversation. The results reveal that in dialogue tasks where user utterances are primary, such as attentive listening and job interview, indicators like the number of utterances and words play a significant role in evaluation. Observing disfluency also can indicate the effectiveness of formal tasks, such as job interview. On the other hand, in dialogue tasks with high interactivity, such as first-meeting conversation, behaviours related to turn-taking, like average switch pause length, become more important. These findings suggest that selecting appropriate user behaviours can provide valuable insights for objective evaluation in each social dialogue task.
翻訳日:2024-01-11 15:40:09 公開日:2024-01-10
# CTNeRF:モノクルビデオからの動的ニューラルラジアンスフィールドのためのクロス時間変換器

CTNeRF: Cross-Time Transformer for Dynamic Neural Radiance Field from Monocular Video ( http://arxiv.org/abs/2401.04861v1 )

ライセンス: Link先を確認
Xingyu Miao, Yang Bai, Haoran Duan, Yawen Huang, Fan Wan, Yang Long, Yefeng Zheng(参考訳) 私たちの研究の目標は、複雑でダイナミックなシーンの単眼ビデオから高品質のノベルビューを作ることです。 従来の手法であるDynamicNeRFは、時間変化の動的放射場を活用することで、優れた性能を示した。 しかし、これらの手法は複雑な物体の動きを正確にモデル化する上で限界があり、不正確でぼやけた詳細の描画につながる可能性がある。 この制限に対処するために,近辺の視点を新たな視点に集約する最新の一般化NeRFに基づく新しいアプローチを提案する。 しかし、このような手法は静的シーンにのみ有効である。 この課題を克服するために,時間領域と周波数領域の両方で動作するモジュールを導入し,オブジェクトの動きの特徴を集約する。 これにより、フレーム間の関係を学習し、高品質な画像を生成することができる。 実験により,動的シーンデータセットにおける最先端手法に対する大幅な改善が示された。 特に,提案手法は,合成ビューの精度と視覚品質の両方において,既存の手法を上回っている。

The goal of our work is to generate high-quality novel views from monocular videos of complex and dynamic scenes. Prior methods, such as DynamicNeRF, have shown impressive performance by leveraging time-varying dynamic radiation fields. However, these methods have limitations when it comes to accurately modeling the motion of complex objects, which can lead to inaccurate and blurry renderings of details. To address this limitation, we propose a novel approach that builds upon a recent generalization NeRF, which aggregates nearby views onto new viewpoints. However, such methods are typically only effective for static scenes. To overcome this challenge, we introduce a module that operates in both the time and frequency domains to aggregate the features of object motion. This allows us to learn the relationship between frames and generate higher-quality images. Our experiments demonstrate significant improvements over state-of-the-art methods on dynamic scene datasets. Specifically, our approach outperforms existing methods in terms of both the accuracy and visual quality of the synthesized views.
翻訳日:2024-01-11 15:39:51 公開日:2024-01-10
# 光と物質の強・超強結合の量子増幅とシミュレーション

Quantum amplification and simulation of strong and ultrastrong coupling of light and matter ( http://arxiv.org/abs/2401.04949v1 )

ライセンス: Link先を確認
Wei Qin, Anton Frisk Kockum, Carlos S\'anchez Mu\~noz, Adam Miranowicz, and Franco Nori(参考訳) 単一光子レベルでの光と物質の相互作用は、凝縮物質物理学、天文学、量子光学、量子情報など、物理学の様々な分野において中心的な重要性を持つ。 このような量子光-物質相互作用の増幅は、デバイスの性能の向上、新しい現象の探索、基礎物理学の理解など、非常に有益であり、長年の目標であった。 さらに、相互作用強度が非結合系の素周波数に匹敵する超強結合系における光・物質相互作用のシミュレーションもホットな研究テーマとなり、この10年間で理論的にも実験的にもかなりの進歩を遂げている。 本稿では,量子光マター相互作用の増幅と超強光マター相互作用のシミュレーション,特にキャビティと回路の量子電磁力学とキャビティ光学における最近の進歩を詳細に紹介する。

The interaction of light and matter at the single-photon level is of central importance in various fields of physics, including, e.g., condensed matter physics, astronomy, quantum optics, and quantum information. Amplification of such quantum light-matter interaction can be highly beneficial to, e.g., improve device performance, explore novel phenomena, and understand fundamental physics, and has therefore been a long-standing goal. Furthermore, simulation of light-matter interaction in the regime of ultrastrong coupling, where the interaction strength is comparable to the bare frequencies of the uncoupled systems, has also become a hot research topic, and considerable progress has been made both theoretically and experimentally in the past decade. In this review, we provide a detailed introduction of recent advances in amplification of quantum light-matter interaction and simulation of ultrastrong light-matter interaction, particularly in cavity and circuit quantum electrodynamics and in cavity optomechanics.
翻訳日:2024-01-11 15:32:30 公開日:2024-01-10
# ビデオにおける遅延対応道路異常セグメンテーション:フォトリアリスティックデータセットと新しいメトリクス

Latency-aware Road Anomaly Segmentation in Videos: A Photorealistic Dataset and New Metrics ( http://arxiv.org/abs/2401.04942v1 )

ライセンス: Link先を確認
Beiwen Tian, Huan-ang Gao, Leiyao Cui, Yupeng Zheng, Lan Luo, Baofeng Wang, Rong Zhi, Guyue Zhou, Hao Zhao(参考訳) 過去数年間、学界では道路異常の区分が積極的に検討され、業界で注目を集めている。 自動運転車が異常な物体にぶつかる前にブレーキを踏むことができれば、安全性が向上する。 しかし、この理論的根拠は、既存のメソッドやベンチマークが非現実的なフレーム単位で設計されている間、時間的に情報を与える設定を自然に要求する。 このギャップを埋めるために、自動運転のための最初のビデオ異常セグメンテーションデータセットを提供する。 道路に異常な物体を配置し,各フレームに注釈を付けるのは危険で費用がかかるため,合成データを利用する。 この合成データセットの現実世界への適用性を向上させるために,光現実性向上のためのGバッファのレンダリングを条件とした生成逆ネットワークを訓練する。 我々のデータセットは、60FPSのフレームレートで12万の高解像度フレームで構成され、7つの異なる町で記録されている。 初期ベンチマークとして、最新の教師付きおよび教師なし道路異常セグメンテーション手法を用いてベースラインを提供する。 従来とは別として、時間的一貫性とレイテンシ対応ストリーミングの精度の2つの新しい指標に注目します。 我々は、異常セグメンテーションアルゴリズムが、時間的に情報を得た状態で車がクラッシュすることを防ぐことができるかどうかを測定するため、後者は価値があると信じている。

In the past several years, road anomaly segmentation is actively explored in the academia and drawing growing attention in the industry. The rationale behind is straightforward: if the autonomous car can brake before hitting an anomalous object, safety is promoted. However, this rationale naturally calls for a temporally informed setting while existing methods and benchmarks are designed in an unrealistic frame-wise manner. To bridge this gap, we contribute the first video anomaly segmentation dataset for autonomous driving. Since placing various anomalous objects on busy roads and annotating them in every frame are dangerous and expensive, we resort to synthetic data. To improve the relevance of this synthetic dataset to real-world applications, we train a generative adversarial network conditioned on rendering G-buffers for photorealism enhancement. Our dataset consists of 120,000 high-resolution frames at a 60 FPS framerate, as recorded in 7 different towns. As an initial benchmarking, we provide baselines using latest supervised and unsupervised road anomaly segmentation methods. Apart from conventional ones, we focus on two new metrics: temporal consistency and latencyaware streaming accuracy. We believe the latter is valuable as it measures whether an anomaly segmentation algorithm can truly prevent a car from crashing in a temporally informed setting.
翻訳日:2024-01-11 15:31:41 公開日:2024-01-10
# 差動干渉計のための量子増強ヘテロダインリードアウト

Quantum enhanced balanced heterodyne readout for differential interferometry ( http://arxiv.org/abs/2401.04940v1 )

ライセンス: Link先を確認
Daniel W. Gould, Vaishali B. Adya, Sheon S. Y. Chua, Jonas Junker, Dennis Wilken, Bram J. J. Slagmolen, Min Jet Yap, Robert L. Ward, Mich\`ele Heurs, David E. McClelland(参考訳) 両センサを用いた3dBヘテロダイン信号対雑音ペナルティを回避できるバランス式ヘテロダインリードアウトの実験的検討を行った。 読み出しは振幅と位相の2次情報を同時に取得する。 また、高周波のスペクトル絡み合い、2モードのスクイーズ状態を用いて、インジェクションされたオーディオバンド信号のさらなる信号対雑音改善を示す。 3.5dBの量子エンハンスメントを実現し、実験効率とデフォーカスとを一致させる。 この手法は量子制限された高精度の実験に適用でき、量子重力、重力波の検出、波長多重量子通信の探索に応用できる。

We present an experimental demonstration of balanced heterodyne readout that circumvents the 3 dB heterodyne signal-to-noise penalty on a dual Michelson sensor. Our readout obtains both amplitude and phase quadrature information simultaneously. We also employ a high-frequency spectrally entangled, two-mode squeezed state to show further signal-to-noise improvement of an injected audio-band signal. We achieve a quantum enhancement of 3.5 dB, consistent with our experimental efficiencies and dephasing. This technique is applicable for quantum-limited high-precision experiments, with application to searches for quantum gravity, gravitational wave detection and wavelength-multiplexed quantum communication.
翻訳日:2024-01-11 15:31:15 公開日:2024-01-10
# 強化学習によるP波とPR間隔に関する大域的波形変化のECG診断の促進

Advancing ECG Diagnosis Using Reinforcement Learning on Global Waveform Variations Related to P Wave and PR Interval ( http://arxiv.org/abs/2401.04938v1 )

ライセンス: Link先を確認
Rumsha Fatima, Shahzad Younis, Faraz Shaikh, Hamna Imran, Haseeb Sultan, Shahzad Rasool and Mehak Rafiq(参考訳) 心電図(ECG)解析による心疾患の信頼性診断は、P波の正確な検出とPR間隔の測定に依存する。 しかし,ecg信号で観察される本質的なグローバル変動により,多様な集団にまたがる統一的,一般化された診断の達成が課題となっている。 本稿では,PhystoNet/Computing in Cardiology Challenge (CinC)で利用可能な各種ECGデータセットにQ学習強化アルゴリズムを適用した。 正常洞リズム,心房細動,心房細動,心房細動,心房細動,左房拡張の5つの拍動は,リードIIおよびリードV1におけるP波とPRインターバルの変化を研究するために含まれる。 Q-Agentは8,867人の患者で71,672のビートを分類し、平均90.4%、平均9.6%のハミング損失しかなかった。 約40,000のサンプルを含む第100話の平均分類時間は0.04秒である。 344.05の平均トレーニング報酬は、それぞれ0.001、0.9、0.1のアルファ、ガンマ、ソフトマックスの温度で達成される。

The reliable diagnosis of cardiac conditions through electrocardiogram (ECG) analysis critically depends on accurately detecting P waves and measuring the PR interval. However, achieving consistent and generalizable diagnoses across diverse populations presents challenges due to the inherent global variations observed in ECG signals. This paper is focused on applying the Q learning reinforcement algorithm to the various ECG datasets available in the PhysioNet/Computing in Cardiology Challenge (CinC). Five ECG beats, including Normal Sinus Rhythm, Atrial Flutter, Atrial Fibrillation, 1st Degree Atrioventricular Block, and Left Atrial Enlargement, are included to study variations of P waves and PR Interval on Lead II and Lead V1. Q-Agent classified 71,672 beat samples in 8,867 patients with an average accuracy of 90.4% and only 9.6% average hamming loss over misclassification. The average classification time at the 100th episode containing around 40,000 samples is 0.04 seconds. An average training reward of 344.05 is achieved at an alpha, gamma, and SoftMax temperature rate of 0.001, 0.9, and 0.1, respectively.
翻訳日:2024-01-11 15:31:03 公開日:2024-01-10
# 対人自然言語から音声概念を学ぶ

Learning Audio Concepts from Counterfactual Natural Language ( http://arxiv.org/abs/2401.04935v1 )

ライセンス: Link先を確認
Ali Vosoughi, Luca Bondi, Ho-Hsiang Wu, Chenliang Xu(参考訳) 従来の音声分類は定義済みのクラスに依存しており、自由形式のテキストから学習する能力に欠けていた。 最近の手法は、自然言語による音声を記述した生音声テキストペアから、共同音声テキスト埋め込みを学習する。 近年の進歩にもかかわらず、同様の状況で屋外での花火と銃声を区別するなど、別のシナリオで音響イベントや音源を認識するためのモデルを訓練するための体系的な方法の探求はほとんどない。 本研究は,音声領域における因果推論と反事実分析を導入する。 反事実インスタンスを使用して、さまざまな側面にわたるモデルにそれらを含めます。 本モデルは,人間の注釈付き参照テキストからの音響特性と音源情報について考察する。 本モデルの有効性を検証するために,複数の音声キャプションデータセットを用いた事前学習を行った。 そこで我々は,提案手法の利点を,音声領域における対実情報を活用した最初の研究の1つとして示す。 具体的には、オープンエンド言語に基づく音声検索タスクにおけるトップ1の精度が43%以上向上した。

Conventional audio classification relied on predefined classes, lacking the ability to learn from free-form text. Recent methods unlock learning joint audio-text embeddings from raw audio-text pairs describing audio in natural language. Despite recent advancements, there is little exploration of systematic methods to train models for recognizing sound events and sources in alternative scenarios, such as distinguishing fireworks from gunshots at outdoor events in similar situations. This study introduces causal reasoning and counterfactual analysis in the audio domain. We use counterfactual instances and include them in our model across different aspects. Our model considers acoustic characteristics and sound source information from human-annotated reference texts. To validate the effectiveness of our model, we conducted pre-training utilizing multiple audio captioning datasets. We then evaluate with several common downstream tasks, demonstrating the merits of the proposed method as one of the first works leveraging counterfactual information in audio domain. Specifically, the top-1 accuracy in open-ended language-based audio retrieval task increased by more than 43%.
翻訳日:2024-01-11 15:30:42 公開日:2024-01-10
# 完全分散協調型多エージェント強化学習:調査

Fully Decentralized Cooperative Multi-Agent Reinforcement Learning: A Survey ( http://arxiv.org/abs/2401.04934v1 )

ライセンス: Link先を確認
Jiechuan Jiang, Kefan Su, Zongqing Lu(参考訳) 協調型マルチエージェント強化学習は多くの実世界の協調作業を解決する強力なツールであるが、現実の応用の制限はエージェントを完全に分散的に訓練する必要があるかもしれない。 他のエージェントに関する情報が不足しているため、完全に分散した環境で最適なジョイントポリシーに収束できるアルゴリズムを導出することは困難である。 そのため、この研究領域は十分に研究されていない。 本稿では,全エージェントの共有報酬を最大化し,各エージェントの個別報酬の合計を最大化し,オープン質問と今後の研究方向性について議論する。

Cooperative multi-agent reinforcement learning is a powerful tool to solve many real-world cooperative tasks, but restrictions of real-world applications may require training the agents in a fully decentralized manner. Due to the lack of information about other agents, it is challenging to derive algorithms that can converge to the optimal joint policy in a fully decentralized setting. Thus, this research area has not been thoroughly studied. In this paper, we seek to systematically review the fully decentralized methods in two settings: maximizing a shared reward of all agents and maximizing the sum of individual rewards of all agents, and discuss open questions and future research directions.
翻訳日:2024-01-11 15:30:26 公開日:2024-01-10
# テスト時間様相の再考 : 相似経路原理とOOD検出への応用

Rethinking Test-time Likelihood: The Likelihood Path Principle and Its Application to OOD Detection ( http://arxiv.org/abs/2401.04933v1 )

ライセンス: Link先を確認
Sicong Huang, Jiawei He, Kry Yik Chau Lui(参考訳) 確率は理論上は魅力的であるが、深部生成モデル(DGM)による推定は、実際は壊れることが多く、分布外検出(OOD)では不十分である。 近年の様々な作品で代替のスコアが検討され始め、パフォーマンスが向上した。 しかし、そのようなレシピには証明可能な保証がないし、それらの選択が十分な情報を抽出することも明らかではない。 本研究では,変分オートエンコーダ (VAE) のケーススタディにより,これを変更しようとする。 まず,ラピッドパス原理(lpath principle)を導入し,ラピッド原理を一般化する。 これにより、情報的要約統計の探索を、VAEsの条件付き確率の最小限の統計量にまで絞り込む。 第2に,本質的サポート,本質的距離,コリプシッツ性などの新たな理論ツールを導入し,最小限の統計量の蒸留を行うための非漸近的証明可能なOOD検出保証を得る。 対応するLPathアルゴリズムは、推定値の低い単純かつ小さなVAEでもSOTA性能を示す。 我々の知る限りでは、これは、他のVAEベースの技術よりも優れた実験結果を提供する、証明不可能なOODメソッドとして初めてである。 私たちは、https://github.com/xavierxiao/likelihood-regretからオープンソース化された \cite{xiao2020likelihood}と同じモデルを使用します。

While likelihood is attractive in theory, its estimates by deep generative models (DGMs) are often broken in practice, and perform poorly for out of distribution (OOD) Detection. Various recent works started to consider alternative scores and achieved better performances. However, such recipes do not come with provable guarantees, nor is it clear that their choices extract sufficient information. We attempt to change this by conducting a case study on variational autoencoders (VAEs). First, we introduce the likelihood path (LPath) principle, generalizing the likelihood principle. This narrows the search for informative summary statistics down to the minimal sufficient statistics of VAEs' conditional likelihoods. Second, introducing new theoretic tools such as nearly essential support, essential distance and co-Lipschitzness, we obtain non-asymptotic provable OOD detection guarantees for certain distillation of the minimal sufficient statistics. The corresponding LPath algorithm demonstrates SOTA performances, even using simple and small VAEs with poor likelihood estimates. To our best knowledge, this is the first provable unsupervised OOD method that delivers excellent empirical results, better than any other VAEs based techniques. We use the same model as \cite{xiao2020likelihood}, open sourced from: https://github.com/XavierXiao/Likelihood-Regret
翻訳日:2024-01-11 15:30:14 公開日:2024-01-10
# メンバシップ推論アタックの学習に基づく難易度校正

Learning-Based Difficulty Calibration for Enhanced Membership Inference Attacks ( http://arxiv.org/abs/2401.04929v1 )

ライセンス: Link先を確認
Haonan Shi, Tu Ouyang, An Wang(参考訳) マシンラーニングモデル、特にディープニューラルネットワークは、医療からファイナンスに至るまで、現在さまざまなアプリケーションにおいて不可欠な部分です。 しかし、これらのモデルのトレーニングに機密データを使用すると、プライバシとセキュリティに関する懸念が高まる。 トレーニングされたモデルがプライバシ保護であるかどうかを検証するための方法のひとつは、特定のデータポイントがモデルのトレーニングデータセットの一部であったかどうかを敵が判断する、メンバシップ推論攻撃(mia)である。 文献では一連のMIAが提案されているが、低い偽陽性率(FPR)領域(0.01%〜1%)で高い真陽性率(TPR)を達成できるのはごくわずかである。 これは、MIAが現実世界の設定で実用的に有用であると考える上で重要な要素である。 本稿では,低FPRにおけるTPRの大幅な向上を目的としたMIAの新しいアプローチを提案する。 本手法は,MIA(LDC-MIA)の学習難易度校正法であり,ニューラルネットワーク分類器を用いてデータ記録の硬度を特徴付ける。 実験の結果,LCD-MIAは,他の困難キャリブレーションに基づくMIAと比較して,低FPRでのTPRを最大4倍改善できることがわかった。 また、全データセットでAUC(Area Under ROC curve)が最も高い。 提案手法のコストは既存のMIAのほとんどに匹敵するが, 同等の性能を保ちながら, 最先端の手法であるLiRAよりも桁違いに効率的である。

Machine learning models, in particular deep neural networks, are currently an integral part of various applications, from healthcare to finance. However, using sensitive data to train these models raises concerns about privacy and security. One method that has emerged to verify if the trained models are privacy-preserving is Membership Inference Attacks (MIA), which allows adversaries to determine whether a specific data point was part of a model's training dataset. While a series of MIAs have been proposed in the literature, only a few can achieve high True Positive Rates (TPR) in the low False Positive Rate (FPR) region (0.01%~1%). This is a crucial factor to consider for an MIA to be practically useful in real-world settings. In this paper, we present a novel approach to MIA that is aimed at significantly improving TPR at low FPRs. Our method, named learning-based difficulty calibration for MIA(LDC-MIA), characterizes data records by their hardness levels using a neural network classifier to determine membership. The experiment results show that LDC-MIA can improve TPR at low FPR by up to 4x compared to the other difficulty calibration based MIAs. It also has the highest Area Under ROC curve (AUC) across all datasets. Our method's cost is comparable with most of the existing MIAs, but is orders of magnitude more efficient than one of the state-of-the-art methods, LiRA, while achieving similar performance.
翻訳日:2024-01-11 15:29:51 公開日:2024-01-10
# 連合学習のためのリラックスしたコントラスト学習

Relaxed Contrastive Learning for Federated Learning ( http://arxiv.org/abs/2401.04928v1 )

ライセンス: Link先を確認
Seonguk Seo, Jinkyu Kim, Geeho Kim, Bohyung Han(参考訳) 本研究では,連帯学習におけるデータ不均一性の課題を効果的に解決するための新しいコントラスト学習フレームワークを提案する。 まず,局所学習におけるクライアント間の勾配更新の不整合を解析し,特徴表現の分布への依存性を確立することにより,教師付きコントラスト学習(SCL)の目的を導出し,局所的な偏差を緩和する。 さらに,フェデレーション学習におけるSCLの「積極的」導入は,表現の崩壊を招き,収束の鈍化と性能向上の限界をもたらすことを示す。 この問題に対処するために,各クラスに過度に類似するサンプルペアに発散ペナルティを課す,リラックスしたコントラスト学習損失を導入する。 この戦略は、崩壊した表現を防止し、機能転送性を高め、協調トレーニングを促進し、大幅なパフォーマンス改善につながる。 我々のフレームワークは、実験結果を通じて、標準ベンチマークにおいて、既存のフェデレート学習アプローチよりも大きなマージンを達成しています。

We propose a novel contrastive learning framework to effectively address the challenges of data heterogeneity in federated learning. We first analyze the inconsistency of gradient updates across clients during local training and establish its dependence on the distribution of feature representations, leading to the derivation of the supervised contrastive learning (SCL) objective to mitigate local deviations. In addition, we show that a na\"ive adoption of SCL in federated learning leads to representation collapse, resulting in slow convergence and limited performance gains. To address this issue, we introduce a relaxed contrastive learning loss that imposes a divergence penalty on excessively similar sample pairs within each class. This strategy prevents collapsed representations and enhances feature transferability, facilitating collaborative training and leading to significant performance improvements. Our framework outperforms all existing federated learning approaches by huge margins on the standard benchmarks through extensive experimental results.
翻訳日:2024-01-11 15:29:24 公開日:2024-01-10
# 推論ステップ長が大規模言語モデルに及ぼす影響

The Impact of Reasoning Step Length on Large Language Models ( http://arxiv.org/abs/2401.04925v1 )

ライセンス: Link先を確認
Mingyu Jin, Qinkai Yu, Dong shu, Haiyan Zhao, Wenyue Hua, Yanda Meng, Yongfeng Zhang, Mengnan Du(参考訳) 思考の連鎖(CoT)は、大きな言語モデル(LLM)の推論能力を改善する上で重要である。 しかし, プロンプトにおけるCoTの有効性と推論ステップの長さの相関はよく分かっていない。 これを明らかにするため、我々はいくつかの実験を行い、関係を探究した。 具体的には,他のすべての因子を一定に保ちながら,cot実験における合理的推論ステップを拡張し,圧縮する実験をデザインする。 主な発見は以下のとおりである。 まず,プロンプトに新たな情報を追加することなく,プロンプトにおける推論ステップを延長することで,複数のデータセットにわたるllmsの推論能力が大幅に向上することを示す。 あるいは、キー情報を保存しながらも推論ステップを短縮することは、モデルの推論能力を著しく低下させる。 この発見は、CoTプロンプトにおけるステップ数の重要性を強調し、複雑な問題解決シナリオにおけるLLMのポテンシャルをよりよく活用するための実践的なガイダンスを提供する。 次に,CoTの性能と実演における有理性との関係について検討した。 驚くべきことに、不正確な合理性であっても、推論の必要な長さを維持すると良い結果が得られる。 第三に、より単純なタスクはより少ないステップを必要とするのに対して、複雑なタスクはより長い推論シーケンスから著しく向上する。

Chain of Thought (CoT) is significant in improving the reasoning abilities of large language models (LLMs). However, the correlation between the effectiveness of CoT and the length of reasoning steps in prompts remains largely unknown. To shed light on this, we have conducted several empirical experiments to explore the relations. Specifically, we design experiments that expand and compress the rationale reasoning steps within CoT demonstrations, while keeping all other factors constant. We have the following key findings. First, the results indicate that lengthening the reasoning steps in prompts, even without adding new information into the prompt, considerably enhances LLMs' reasoning abilities across multiple datasets. Alternatively, shortening the reasoning steps, even while preserving the key information, significantly diminishes the reasoning abilities of models. This finding highlights the importance of the number of steps in CoT prompts and provides practical guidance to make better use of LLMs' potential in complex problem-solving scenarios. Second, we also investigated the relationship between the performance of CoT and the rationales used in demonstrations. Surprisingly, the result shows that even incorrect rationales can yield favorable outcomes if they maintain the requisite length of inference. Third, we observed that the advantages of increasing reasoning steps are task-dependent: simpler tasks require fewer steps, whereas complex tasks gain significantly from longer inference sequences.
翻訳日:2024-01-11 15:29:07 公開日:2024-01-10
# 不整合に基づくデータ中心型アクティブオープンセットアノテーション

Inconsistency-Based Data-Centric Active Open-Set Annotation ( http://arxiv.org/abs/2401.04923v1 )

ライセンス: Link先を確認
Ruiyu Mao, Ouyang Xu, Yunhui Guo(参考訳) アクティブな学習は、ディープニューラルネットワークのトレーニングに必要なラベル付けの労力を減らすために一般的に使用されるアプローチである。 しかし、現在のアクティブラーニング手法の有効性は、未ラベルプール内の全てのデータが事前に定義された既知のクラスから来ていると仮定するクローズドワールド仮定によって制限される。 この仮定は、ラベル付けされていないデータに未知のクラスが存在し、アクティブなオープンセットアノテーション問題を引き起こすため、実際は有効ではないことが多い。 データに未知のクラスが存在することは、それらが導入する不確実性により、既存のアクティブラーニング手法の性能に大きな影響を及ぼす可能性がある。 この問題に対処するために,オープンセットデータを積極的に注釈付けするNEATと呼ばれる新しいデータ中心型アクティブラーニング手法を提案する。 NEATは、既知のクラスデータと未知のクラスデータのプールから、既知のクラスデータをラベル付けするように設計されている。 ラベルなしプールから既知のクラスを識別するためにラベルのクラスタ化可能性を利用し、モデル予測と局所的な特徴分布の不一致を測定する一貫性基準に基づいて、それらのクラスから有益なサンプルを選択する。 最近提案された学習中心の手法とは異なり、NEATはより計算効率が高く、データ中心のアクティブオープンセットアノテーションである。 本実験は,アクティブなオープンセットアノテーションのための最先端のアクティブラーニング手法よりも優れた性能を実現することを実証する。

Active learning is a commonly used approach that reduces the labeling effort required to train deep neural networks. However, the effectiveness of current active learning methods is limited by their closed-world assumptions, which assume that all data in the unlabeled pool comes from a set of predefined known classes. This assumption is often not valid in practical situations, as there may be unknown classes in the unlabeled data, leading to the active open-set annotation problem. The presence of unknown classes in the data can significantly impact the performance of existing active learning methods due to the uncertainty they introduce. To address this issue, we propose a novel data-centric active learning method called NEAT that actively annotates open-set data. NEAT is designed to label known classes data from a pool of both known and unknown classes unlabeled data. It utilizes the clusterability of labels to identify the known classes from the unlabeled pool and selects informative samples from those classes based on a consistency criterion that measures inconsistencies between model predictions and local feature distribution. Unlike the recently proposed learning-centric method for the same problem, NEAT is much more computationally efficient and is a data-centric active open-set annotation method. Our experiments demonstrate that NEAT achieves significantly better performance than state-of-the-art active learning methods for active open-set annotation.
翻訳日:2024-01-11 15:28:44 公開日:2024-01-10
# 拡散型ポスリファインメントと3次元ヒトポスエスティマイトンのためのムチヒスリセシス生成

Diffusion-based Pose Refinement and Muti-hypothesis Generation for 3D Human Pose Estimaiton ( http://arxiv.org/abs/2401.04921v1 )

ライセンス: Link先を確認
Hongbo Kang, Yong Wang, Mengyuan Liu, Doudou Wu, Peng Liu, Xinlin Yuan, Wenming Yang(参考訳) 従来の3次元人物姿勢推定モデル(3DHPE)は、複数の仮説を生成することでポーズの精度を高めることを目的としていた。 しかし、ほとんどの仮説は実際のポーズから実質的に逸脱している。 決定論的モデルと比較すると、確率的モデルの過度な不確実性は単一仮説予測の性能を低下させる。 そこで本研究では,この2つの課題を解決するために,逆拡散により決定論的モデルの出力を洗練し,複数のノイズを伴うマルチステップリファインメントにより,現在のポーズベンチマークにおいてより適切なマルチハイポテーゼ予測を実現する,drposeと呼ばれる拡散ベースリファインメントフレームワークを提案する。 そこで本稿では,SGCT (Scalable Graph Convolution Transformer) とPRM (Pose Refinement Module) を提案する。 Human3.6M と MPI-INF-3DHP データセットの大規模な実験により,本手法は単相・多相両方の3DHPEにおける最先端性能を実現することが示された。 コードはhttps://github.com/KHB1698/DRPoseで入手できる。

Previous probabilistic models for 3D Human Pose Estimation (3DHPE) aimed to enhance pose accuracy by generating multiple hypotheses. However, most of the hypotheses generated deviate substantially from the true pose. Compared to deterministic models, the excessive uncertainty in probabilistic models leads to weaker performance in single-hypothesis prediction. To address these two challenges, we propose a diffusion-based refinement framework called DRPose, which refines the output of deterministic models by reverse diffusion and achieves more suitable multi-hypothesis prediction for the current pose benchmark by multi-step refinement with multiple noises. To this end, we propose a Scalable Graph Convolution Transformer (SGCT) and a Pose Refinement Module (PRM) for denoising and refining. Extensive experiments on Human3.6M and MPI-INF-3DHP datasets demonstrate that our method achieves state-of-the-art performance on both single and multi-hypothesis 3DHPE. Code is available at https://github.com/KHB1698/DRPose.
翻訳日:2024-01-11 15:28:21 公開日:2024-01-10
# ユニタリ結合クラスタアンサッツの効率的なロバストパラメータ最適化

Efficient and Robust Parameter Optimization of the Unitary Coupled-Cluster Ansatz ( http://arxiv.org/abs/2401.04910v1 )

ライセンス: Link先を確認
Weitang Li, Yufei Ge, Shixin Zhang, Yuqin Chen, Shengyu Zhang(参考訳) 変分量子固有解法(VQE)フレームワークは、短期量子アルゴリズムの進歩に有効である。 しかしながら、パラメータ最適化はvqeにとって重要なボトルネックであり、アルゴリズムの実行に成功するためには多数の測定が必要となる。 本稿では,量子コンピュータ上のユニタリ結合クラスター ansatz のパラメータ最適化のために特別に設計された効率的でロバストな最適化器として近似パラボラ(soap)を用いた逐次最適化を提案する。 SOAPは逐次最適化を活用し、エネルギーランドスケープを二次関数として近似し、各パラメータの最適化に必要なエネルギー評価の数を最小化する。 パラメータ相関を捉えるために、SOAPは前回のイテレーションから平均方向を最適化方向セットに組み込む。 分子システムに関する数値的なベンチマークでは、SOAPは従来の最適化手法に比べてはるかに高速な収束とノイズに対する堅牢性を実現している。 さらに、20キュービットまでの数値シミュレーションにより、SOAPがアンザッツ内のパラメータの数とうまくスケールしていることが分かる。 SOAPの異常な性能は、2量子ビットモデルシステムを用いた超伝導量子コンピュータの実験によってさらに検証される。

The variational quantum eigensolver (VQE) framework has been instrumental in advancing near-term quantum algorithms. However, parameter optimization remains a significant bottleneck for VQE, requiring a large number of measurements for successful algorithm execution. In this paper, we propose sequential optimization with approximate parabola (SOAP) as an efficient and robust optimizer specifically designed for parameter optimization of the unitary coupled-cluster ansatz on quantum computers. SOAP leverages sequential optimization and approximates the energy landscape as quadratic functions, minimizing the number of energy evaluations required to optimize each parameter. To capture parameter correlations, SOAP incorporates the average direction from the previous iteration into the optimization direction set. Numerical benchmark studies on molecular systems demonstrate that SOAP achieves significantly faster convergence and greater robustness to noise compared to traditional optimization methods. Furthermore, numerical simulations up to 20 qubits reveal that SOAP scales well with the number of parameters in the ansatz. The exceptional performance of SOAP is further validated through experiments on a superconducting quantum computer using a 2-qubit model system.
翻訳日:2024-01-11 15:28:02 公開日:2024-01-10
# SnapCap:効率的なスナップショット圧縮ビデオキャプチャ

SnapCap: Efficient Snapshot Compressive Video Captioning ( http://arxiv.org/abs/2401.04903v1 )

ライセンス: Link先を確認
Jianqiao Sun, Yudi Su, Hao Zhang, Ziheng Cheng, Zequn Zeng, Zhengjue Wang, Bo Chen, Xin Yuan(参考訳) ビデオキャプション(vc)は、様々な複雑なビデオを理解することでシーンを言語で記述する必要があるため、難しいマルチモーダルタスクである。 マシンの場合、従来のVCは“イメージ圧縮復号化”パイプラインに従っており、圧縮はストレージとトランスミッションに要する。 しかし、このようなパイプラインでは、キャプションのサンプリングプロセス中に、低い効率と情報損失をもたらす情報冗長性といった潜在的な欠点が避けられない。 これらの問題に対処するため,本研究では,圧縮された測定値から直接キャプションを生成する新しいVCパイプラインを提案する。 より具体的であり,信号シミュレーションの利点を生かして,我々は十分な計測・ビデオ・アノテーションデータペアを得ることができる。 また,圧縮測定から言語に関連した視覚的表現をよりよく抽出するために,snapcapの学習を導くために,事前学習した映像クリップを用いて,映像からの知識を蒸留することを提案する。 SnapCapの有効性を示すために、広く使われている2つのVCデータセットで実験を行う。 定性的かつ定量的な結果は、従来のVCパイプラインよりもパイプラインの優位性を検証する。 特に、"Caption-after-reconstruction"メソッドと比較して、SnapCapは少なくとも3$\times$速く動作し、より良いキャプション結果を得ることができる。

Video Captioning (VC) is a challenging multi-modal task since it requires describing the scene in language by understanding various and complex videos. For machines, the traditional VC follows the "imaging-compression-decoding-and-then-captioning" pipeline, where compression is pivot for storage and transmission. However, in such a pipeline, some potential shortcomings are inevitable, i.e., information redundancy resulting in low efficiency and information loss during the sampling process for captioning. To address these problems, in this paper, we propose a novel VC pipeline to generate captions directly from the compressed measurement, which can be captured by a snapshot compressive sensing camera and we dub our model SnapCap. To be more specific, benefiting from the signal simulation, we have access to obtain abundant measurement-video-annotation data pairs for our model. Besides, to better extract language-related visual representations from the compressed measurement, we propose to distill the knowledge from videos via a pre-trained CLIP with plentiful language-vision associations to guide the learning of our SnapCap. To demonstrate the effectiveness of SnapCap, we conduct experiments on two widely-used VC datasets. Both the qualitative and quantitative results verify the superiority of our pipeline over conventional VC pipelines. In particular, compared to the "caption-after-reconstruction" methods, our SnapCap can run at least 3$\times$ faster, and achieve better caption results.
翻訳日:2024-01-11 15:27:45 公開日:2024-01-10
# イベントベースビジョンのためのグラフ畳み込みネットワークのハードウェア実装のための最適化グラフ表現

Optimising Graph Representation for Hardware Implementation of Graph Convolutional Networks for Event-based Vision ( http://arxiv.org/abs/2401.04988v1 )

ライセンス: Link先を確認
Kamil Jeziorek, Piotr Wzorek, Krzysztof Blachut, Andrea Pinna, Tomasz Kryjak(参考訳) イベントベースのビジョンは、ダイナミックビジョンセンサー(ニューロモルフィックカメラ)が生成するデータを処理する新しい研究分野である。 この分野における最新の提案のひとつとして、グラフ畳み込みネットワーク(graph convolutional networks, gcns)がある。 本稿では,FPGAの利点と限界を考慮した,イベントカメラデータストリームからの-graph生成プロセスのハードウェア実装について述べる。 グラフ表現を単純化し、値のスケーリングと量子化を利用する様々な方法を提案する。 我々は、ポイントネット畳み込みを可能にする無向グラフと有向グラフの両方を考える。 その結果、グラフ表現を適切に修正することで、グラフ生成のための−ハードウェアモジュールを作成できることがわかった。 さらに,提案手法はオブジェクト検出性能に有意な影響を与えず,ベースモデルとN-Caltechデータセットでは0.08%のmAPしか得られず,グラフ生成モジュールのハードウェアアーキテクチャについて述べる。

Event-based vision is an emerging research field involving processing data generated by Dynamic Vision Sensors (neuromorphic cameras). One of the latest proposals in this area are Graph Convolutional Networks (GCNs), which allow to process events in its original sparse form while maintaining high detection and classification performance. In this paper, we present the hardware implementation of a~graph generation process from an event camera data stream, taking into account both the advantages and limitations of FPGAs. We propose various ways to simplify the graph representation and use scaling and quantisation of values. We consider both undirected and directed graphs that enable the use of PointNet convolution. The results obtained show that by appropriately modifying the graph representation, it is possible to create a~hardware module for graph generation. Moreover, the proposed modifications have no significant impact on object detection performance, only 0.08% mAP less for the base model and the N-Caltech data set.Finally, we describe the proposed hardware architecture of the graph generation module.
翻訳日:2024-01-11 15:19:54 公開日:2024-01-10
# エネルギーあるいはリアプノフ構造を持つ構造保存物理型ニューラルネットワーク

Structure-Preserving Physics-Informed Neural Networks With Energy or Lyapunov Structure ( http://arxiv.org/abs/2401.04986v1 )

ライセンス: Link先を確認
Haoyu Chu, Yuto Miyatake, Wenjun Cui, Shikui Wei and Daisuke Furihata(参考訳) 近年,微分方程式の解法として物理インフォームドニューラルネットワーク(PINN)への関心が高まっている。 しかし、エネルギーや安定性などの構造を適切な方法で保存することは、まだ確立されていない。 この制限は、PINNの学習プロセスが必ずしも効率的ではない可能性があり、数値的な結果は非物理的挙動を示唆する可能性がある。 さらに、ダウンストリームタスクのアプリケーションに関する研究はほとんどありません。 これらの課題に対処するため,構造保存型PINNを提案する。 第一に, 物理系の事前知識を活用し, 構造保存損失関数を基礎構造学習におけるピン支援として設計する。 次に, 構造保存型PINNを用いたロバスト画像認識手法を提案する。 ここで、基礎系のリャプノフ構造を保存することはシステムの安定性を保証する。 実験により, 偏微分方程式に対するピンの数値精度が向上することを示した。 さらに、画像データの対向的摂動に対するモデルの堅牢性を高める。

Recently, there has been growing interest in using physics-informed neural networks (PINNs) to solve differential equations. However, the preservation of structure, such as energy and stability, in a suitable manner has yet to be established. This limitation could be a potential reason why the learning process for PINNs is not always efficient and the numerical results may suggest nonphysical behavior. Besides, there is little research on their applications on downstream tasks. To address these issues, we propose structure-preserving PINNs to improve their performance and broaden their applications for downstream tasks. Firstly, by leveraging prior knowledge about the physical system, a structure-preserving loss function is designed to assist the PINN in learning the underlying structure. Secondly, a framework that utilizes structure-preserving PINN for robust image recognition is proposed. Here, preserving the Lyapunov structure of the underlying system ensures the stability of the system. Experimental results demonstrate that the proposed method improves the numerical accuracy of PINNs for partial differential equations. Furthermore, the robustness of the model against adversarial perturbations in image data is enhanced.
翻訳日:2024-01-11 15:19:37 公開日:2024-01-10
# MGNet:複数グラフによる対応学習

MGNet: Learning Correspondences via Multiple Graphs ( http://arxiv.org/abs/2401.04984v1 )

ライセンス: Link先を確認
Luanyuan Dai, Xiaoyu Du, Hanwang Zhang, Jinhui Tang(参考訳) 学習対応は、不均一対応分布と低い不一致率との最初の対応集合から、グラフデータと見なすことができる正しい対応(不規則)を見つけることを目的としている。 最近の進歩は、通常、単一のタイプのグラフを構築するためにグラフニューラルネットワーク(GNN)を使用するか、グローバルなグラフにローカルグラフを積み重ねてタスクを完了させるだけである。 しかし、それらは異なる種類のグラフ間の補完関係を無視し、スパース対応間の潜在的関係を効果的に捉えることができる。 この問題に対処するために,複数の補完グラフを効果的に結合するMGNetを提案する。 暗黙的および明示的な局所グラフを統合する情報を得るため、暗黙的および明示的な側面から局所グラフを構築し、それらを効果的に結合する。 さらに、グローバルグラフにおいて、スパース対応情報を全て同時に活用し、識別的特徴を捉えて増幅するために、graph~soft~degree~attention(gsda)を提案する。 広範囲な実験により、mgnetは異なるビジュアルタスクで最先端のメソッドよりも優れています。 コードはhttps://github.com/DAILUANYUAN/MGNet-2024AAAIで提供されている。

Learning correspondences aims to find correct correspondences (inliers) from the initial correspondence set with an uneven correspondence distribution and a low inlier rate, which can be regarded as graph data. Recent advances usually use graph neural networks (GNNs) to build a single type of graph or simply stack local graphs into the global one to complete the task. But they ignore the complementary relationship between different types of graphs, which can effectively capture potential relationships among sparse correspondences. To address this problem, we propose MGNet to effectively combine multiple complementary graphs. To obtain information integrating implicit and explicit local graphs, we construct local graphs from implicit and explicit aspects and combine them effectively, which is used to build a global graph. Moreover, we propose Graph~Soft~Degree~Attention (GSDA) to make full use of all sparse correspondence information at once in the global graph, which can capture and amplify discriminative features. Extensive experiments demonstrate that MGNet outperforms state-of-the-art methods in different visual tasks. The code is provided in https://github.com/DAILUANYUAN/MGNet-2024AAAI.
翻訳日:2024-01-11 15:19:21 公開日:2024-01-10
# 路面通過によるトラクタ・トレーラー車両の自律走行

Autonomous Navigation of Tractor-Trailer Vehicles through Roundabout Intersections ( http://arxiv.org/abs/2401.04980v1 )

ライセンス: Link先を確認
Daniel Attard and Josef Bajada(参考訳) 近年,安全と効率の向上をめざして,自動運転の分野で大きな進歩を遂げている。 しかし、トラクター・トレーラー車両に焦点を当てた研究は比較的少ない。 物理的特徴と関節の整合性のため、これらの車両は調整されたモデルを必要とする。 旋回中、トレーラーの後部車輪はより狭い半径で回転し、トラックはしばしば車線の中心から外れてこれに対応する必要がある。 公開モデルがないため、この研究は高忠実度シミュレーションソフトウェアであるCARLAを用いてトラックとトレーラーモデルを開発し、ベンチマークのベースラインデータセットを確立する。 ツインqソフトアクター批判アルゴリズムを用いて、異なるラウンドアバウンドで73%の成功率を達成できる準エンドツーエンドの自動運転モデルを訓練する。

In recent years, significant advancements have been made in the field of autonomous driving with the aim of increasing safety and efficiency. However, research that focuses on tractor-trailer vehicles is relatively sparse. Due to the physical characteristics and articulated joints, such vehicles require tailored models. While turning, the back wheels of the trailer turn at a tighter radius and the truck often has to deviate from the centre of the lane to accommodate this. Due to the lack of publicly available models, this work develops truck and trailer models using the high-fidelity simulation software CARLA, together with several roundabout scenarios, to establish a baseline dataset for benchmarks. Using a twin-q soft actor-critic algorithm, we train a quasi-end-to-end autonomous driving model which is able to achieve a 73% success rate on different roundabouts.
翻訳日:2024-01-11 15:19:01 公開日:2024-01-10
# 不規則サンプル時系列解析のためのニューラル微分方程式の可逆解

Invertible Solution of Neural Differential Equations for Analysis of Irregularly-Sampled Time Series ( http://arxiv.org/abs/2401.04979v1 )

ライセンス: Link先を確認
YongKyung Oh, Dongyoung Lim, Sungil Kim(参考訳) 不規則および不完全時系列データの複雑さに対処するため,ニューラル微分方程式(NDE)に基づく非可逆解を提案する。 ndeベースの方法は不規則にサンプリングされた時系列を分析する強力な方法であるが、通常は標準形式での可逆変換を保証しない。 本手法は, 計算負荷を低く抑えながら可逆性を確保する神経制御微分方程式(ニューラルcdes)のニューラルフローによる変動を示唆する。 さらに、二重潜在空間のトレーニングが可能となり、動的時間力学のモデリングが強化される。 本研究は,分類タスクと補間タスクの両方に優れた高度なフレームワークを提案する。 我々のアプローチの核心は拡張された二重潜在状態アーキテクチャであり、様々な時系列タスクにわたって高精度に設計されている。 実証分析の結果,本手法は既存モデルを大きく上回ることがわかった。 この研究は不規則な時系列分析を著しく進歩させ、革新的な技術を導入し、多様な実用用途に汎用的なツールを提供する。

To handle the complexities of irregular and incomplete time series data, we propose an invertible solution of Neural Differential Equations (NDE)-based method. While NDE-based methods are a powerful method for analyzing irregularly-sampled time series, they typically do not guarantee reversible transformations in their standard form. Our method suggests the variation of Neural Controlled Differential Equations (Neural CDEs) with Neural Flow, which ensures invertibility while maintaining a lower computational burden. Additionally, it enables the training of a dual latent space, enhancing the modeling of dynamic temporal dynamics. Our research presents an advanced framework that excels in both classification and interpolation tasks. At the core of our approach is an enhanced dual latent states architecture, carefully designed for high precision across various time series tasks. Empirical analysis demonstrates that our method significantly outperforms existing models. This work significantly advances irregular time series analysis, introducing innovative techniques and offering a versatile tool for diverse practical applications.
翻訳日:2024-01-11 15:18:47 公開日:2024-01-10
# 記号回帰勾配を持つニューラルネットワーク分類器の閉形式解釈

Closed-Form Interpretation of Neural Network Classifiers with Symbolic Regression Gradients ( http://arxiv.org/abs/2401.04978v1 )

ライセンス: Link先を確認
Sebastian Johann Wetzel(参考訳) 自動科学的発見を指向したニューラルネットワーク分類器を統一的に解釈するフレームワークを提案する。 ニューラルネットワークに基づく回帰とは対照的に、分類においては、ニューラルネットワーク自体が閉形式方程式として書ける量に基づいて分類したとしても、ニューラルネットワークから記号方程式への1対1のマッピングを見つけることは一般的に不可能である。 本稿では、訓練されたニューラルネットワークを、その決定を同じ量に基づく分類関数の同値クラスに組み込む。 この等価クラスと記号回帰の探索空間で定義される人間可読方程式の交点を見つけることによってニューラルネットワークを解釈する。 このアプローチは分類器や完全なニューラルネットワークに限らず、隠れた層や潜在空間の任意のニューロンに適用したり、ニューラルネットワークレグレッサーの解釈を単純化したりすることができる。

I introduce a unified framework for interpreting neural network classifiers tailored toward automated scientific discovery. In contrast to neural network-based regression, for classification, it is in general impossible to find a one-to-one mapping from the neural network to a symbolic equation even if the neural network itself bases its classification on a quantity that can be written as a closed-form equation. In this paper, I embed a trained neural network into an equivalence class of classifying functions that base their decisions on the same quantity. I interpret neural networks by finding an intersection between this equivalence class and human-readable equations defined by the search space of symbolic regression. The approach is not limited to classifiers or full neural networks and can be applied to arbitrary neurons in hidden layers or latent spaces or to simplify the process of interpreting neural network regressors.
翻訳日:2024-01-11 15:18:29 公開日:2024-01-10
# HaltingVT:効率的なビデオ認識のための適応型トークンHalting変換器

HaltingVT: Adaptive Token Halting Transformer for Efficient Video Recognition ( http://arxiv.org/abs/2401.04975v1 )

ライセンス: Link先を確認
Qian Wu, Ruoxuan Cui, Yuke Li, Haoqi Zhu(参考訳) 特にジョイント時空ビデオトランスフォーマー(ジョイントvt)の計算コストが高いため、動画における動作認識は課題となっている。 その効果にもかかわらず、そのようなアーキテクチャにおける過剰な数のトークンは、その効率を著しく制限する。 本稿では,主にジョイントVTとGlimpserモジュールで構成される冗長なビデオパッチトークンを適応的に除去する効率的なビデオトランスフォーマーであるHaltingVTを提案する。 具体的には、HaltingVTは各層にデータ適応トークン還元を適用し、計算コストを大幅に削減する。 さらにspitchrモジュールは、浅いトランスフォーマー層の冗長なトークンを素早く削除します。 HaltingVTが動画のキーモーション関連情報に集中するように促すため、トレーニング中に効果的なモーションロスを設計する。 HaltingVTは、追加のトレーニング手順やサブネットワークを必要とせず、統合トレーニングプロセスで同時にビデオ解析機能とトークン停止圧縮戦略を取得する。 Mini-Kineticsデータセットでは、24.2 GFLOPで75.0%のTop-1ACC、9.9 GFLOPで67.2%のTop-1ACCを達成した。 コードはhttps://github.com/dun-research/haltingvtで入手できる。

Action recognition in videos poses a challenge due to its high computational cost, especially for Joint Space-Time video transformers (Joint VT). Despite their effectiveness, the excessive number of tokens in such architectures significantly limits their efficiency. In this paper, we propose HaltingVT, an efficient video transformer adaptively removing redundant video patch tokens, which is primarily composed of a Joint VT and a Glimpser module. Specifically, HaltingVT applies data-adaptive token reduction at each layer, resulting in a significant reduction in the overall computational cost. Besides, the Glimpser module quickly removes redundant tokens in shallow transformer layers, which may even be misleading for video recognition tasks based on our observations. To further encourage HaltingVT to focus on the key motion-related information in videos, we design an effective Motion Loss during training. HaltingVT acquires video analysis capabilities and token halting compression strategies simultaneously in a unified training process, without requiring additional training procedures or sub-networks. On the Mini-Kinetics dataset, we achieved 75.0% top-1 ACC with 24.2 GFLOPs, as well as 67.2% top-1 ACC with an extremely low 9.9 GFLOPs. The code is available at https://github.com/dun-research/HaltingVT.
翻訳日:2024-01-11 15:18:15 公開日:2024-01-10
# 誰の妻なの? 機械翻訳における同一性関係に対するバイアスの評価

Whose wife is it anyway? Assessing bias against same-gender relationships in machine translation ( http://arxiv.org/abs/2401.04972v1 )

ライセンス: Link先を確認
Ian Stewart and Rada Mihalcea(参考訳) 機械翻訳は、しばしば偏りのあるデータやアルゴリズムに苦しめられ、システム出力の誤りを許容できない。 性規範の偏見は研究されているが、MTシステムが「弁護士が妻にキスした」などの文など、社会的関係に関する偏見を符号化しているかどうかについては、あまり知られていない。 複数の名詞・ジェンダー言語(スペイン語など)から抽出されたテンプレート文を用いて,MTシステムにおける同性関係に対するバイアスの度合いを検討した。 3つの一般的なMTサービスは、同じ性別の名詞間の関係に関する文を正確に翻訳することができない。 エラー率は文脈によって大きく異なる。例えば、高い女性表現の職業を参照する同性文は、より低い精度で翻訳される。 本研究は,NLPシステムにおける本質的バイアス評価の事例研究として,社会関係に関する考察である。

Machine translation often suffers from biased data and algorithms that can lead to unacceptable errors in system output. While bias in gender norms has been investigated, less is known about whether MT systems encode bias about social relationships, e.g. sentences such as "the lawyer kissed her wife." We investigate the degree of bias against same-gender relationships in MT systems, using generated template sentences drawn from several noun-gender languages (e.g. Spanish). We find that three popular MT services consistently fail to accurately translate sentences concerning relationships between nouns of the same gender. The error rate varies considerably based on the context, e.g. same-gender sentences referencing high female-representation occupations are translated with lower accuracy. We provide this work as a case study in the evaluation of intrinsic bias in NLP systems, with respect to social relationships.
翻訳日:2024-01-11 15:17:48 公開日:2024-01-10
# ConvConcatNet:脳波からメルスペクトルを再構成する深層畳み込みニューラルネットワーク

ConvConcatNet: a deep convolutional neural network to reconstruct mel spectrogram from the EEG ( http://arxiv.org/abs/2401.04965v1 )

ライセンス: Link先を確認
Xiran Xu, Bo Wang, Yujie Yan, Haolin Zhu, Zechen Zhang, Xihong Wu, Jing Chen(参考訳) 脳内の音声の処理を調べるために、脳信号と音声特徴の関係を確立するために、単純な線形モデルが一般的に用いられる。 しかし、これらの線形モデルは脳のような非常に動的で複雑な非線形系をモデル化するのに不備である。 ニューラルネットワークを用いた非線形手法が近年開発されているが、見えない被験者の脳波から目に見えない刺激を再構成することは依然として非常に難しい課題である。 本研究は,深い畳み込みニューラルネットワークと広範な畳み込み操作を組み合わせた脳波からメルスペックグラムを再構成する新しい手法であるconvconcatnetを提案する。 ConvConcatNetモデルでは,再建したメル-スペクトログラムとピアソンの相関は0.0420となり,聴覚脳波チャレンジ第2タスクにおいて第1位にランクされた。 私たちの仕事を実装するためのコードとモデルはgithubで入手できる。

To investigate the processing of speech in the brain, simple linear models are commonly used to establish a relationship between brain signals and speech features. However, these linear models are ill-equipped to model a highly dynamic and complex non-linear system like the brain. Although non-linear methods with neural networks have been developed recently, reconstructing unseen stimuli from unseen subjects' EEG is still a highly challenging task. This work presents a novel method, ConvConcatNet, to reconstruct mel-specgrams from EEG, in which the deep convolution neural network and extensive concatenation operation were combined. With our ConvConcatNet model, the Pearson correlation between the reconstructed and the target mel-spectrogram can achieve 0.0420, which was ranked as No.1 in the Task 2 of the Auditory EEG Challenge. The codes and models to implement our work will be available on Github: https://github.com/xuxiran/ConvConcatNet
翻訳日:2024-01-11 15:17:35 公開日:2024-01-10
# ビデオ要約のための大規模モデルに基づくシーケンシャルキーフレーム抽出

Large Model based Sequential Keyframe Extraction for Video Summarization ( http://arxiv.org/abs/2401.04962v1 )

ライセンス: Link先を確認
Kailong Tan and Yuxiang Zhou and Qianchen Xia and Rui Liu and Yong Chen(参考訳) キーフレーム抽出は、ビデオのセマンティクスを最小フレーム数で要約することを目的としている。 本稿では,ビデオ要約のための大規模モデルに基づくシーケンシャルなキーフレーム抽出手法であるlmskeについて述べる。 First, we use the large model "TransNetV21" to cut the video into consecutive shots, and employ the large model "CLIP2" to generate each frame's visual feature within each shot; Second, we develop an adaptive clustering algorithm to yield candidate keyframes for each shot, with each candidate keyframe locating nearest to a cluster center; Third, we further reduce the above candidate keyframes via redundancy elimination within each shot, and finally concatenate them in accordance with the sequence of shots as the final sequential keyframes. LMSKEを評価するために、ベンチマークデータセットをキュレートし、リッチな実験を行い、その結果、LMSKEは平均F1が0.5311、平均F1が0.8141、平均圧縮比が0.9922の、非常に少数のSOTAコンペティターよりもはるかに優れた性能を示した。

Keyframe extraction aims to sum up a video's semantics with the minimum number of its frames. This paper puts forward a Large Model based Sequential Keyframe Extraction for video summarization, dubbed LMSKE, which contains three stages as below. First, we use the large model "TransNetV21" to cut the video into consecutive shots, and employ the large model "CLIP2" to generate each frame's visual feature within each shot; Second, we develop an adaptive clustering algorithm to yield candidate keyframes for each shot, with each candidate keyframe locating nearest to a cluster center; Third, we further reduce the above candidate keyframes via redundancy elimination within each shot, and finally concatenate them in accordance with the sequence of shots as the final sequential keyframes. To evaluate LMSKE, we curate a benchmark dataset and conduct rich experiments, whose results exhibit that LMSKE performs much better than quite a few SOTA competitors with average F1 of 0.5311, average fidelity of 0.8141, and average compression ratio of 0.9922.
翻訳日:2024-01-11 15:17:17 公開日:2024-01-10
# ECC-PolypDet: 自動ポリープ検出のためのコントラスト学習による強化センターネット

ECC-PolypDet: Enhanced CenterNet with Contrastive Learning for Automatic Polyp Detection ( http://arxiv.org/abs/2401.04961v1 )

ライセンス: Link先を確認
Yuncheng Jiang, Zixun Zhang, Yiwen Hu, Guanbin Li, Xiang Wan, Song Wu, Shuguang Cui, Silin Huang, Zhen Li(参考訳) 早期大腸癌の診断にはポリープ検出が重要である。 近年,著明な進展がみられつつあるが,複雑な大腸環境や境界が不明なポリープは,この地域では依然として深刻な課題となっている。 既存の手法では計算コストの高いコンテキストアグリゲーションか、ポリプの事前モデリングが欠如しており、困難なケースでは性能が低下する。 本稿では、画像と境界ボックスアノテーションを活用して一般的なモデルを訓練し、推論スコアに基づいてそれを微調整し、最終的なロバストなモデルを得るための2段階のトレーニング \& end-to-end 推論フレームワークである Enhanced CenterNet with Contrastive Learning (ECC-PolypDet) を提案する。 具体的には,クラス内差を最小化し,前景ポリープと背景とのクラス間差を最大化するために,学習中に箱型コントラスト学習(bcl)を行い,隠れポリープをキャプチャする。 さらに,スモールポリープの認識性を高めるため,マルチスケール特徴を集約するsffpn(semantic flow-guided feature pyramid network)と,ポリープ目標に対するモデルの注目度を高めるためのヒートマップ伝搬(hp)モジュールを設計した。 微調整段階において,各試料の損失重みを微調整時に適応的に調整することにより,硬質試料を優先するiou誘導サンプル再重み付け(isr)機構を導入する。 6つの大規模大腸内視鏡データセットの大規模な実験は、従来の最先端検出器と比較して、我々のモデルが優れていることを示す。

Accurate polyp detection is critical for early colorectal cancer diagnosis. Although remarkable progress has been achieved in recent years, the complex colon environment and concealed polyps with unclear boundaries still pose severe challenges in this area. Existing methods either involve computationally expensive context aggregation or lack prior modeling of polyps, resulting in poor performance in challenging cases. In this paper, we propose the Enhanced CenterNet with Contrastive Learning (ECC-PolypDet), a two-stage training \& end-to-end inference framework that leverages images and bounding box annotations to train a general model and fine-tune it based on the inference score to obtain a final robust model. Specifically, we conduct Box-assisted Contrastive Learning (BCL) during training to minimize the intra-class difference and maximize the inter-class difference between foreground polyps and backgrounds, enabling our model to capture concealed polyps. Moreover, to enhance the recognition of small polyps, we design the Semantic Flow-guided Feature Pyramid Network (SFFPN) to aggregate multi-scale features and the Heatmap Propagation (HP) module to boost the model's attention on polyp targets. In the fine-tuning stage, we introduce the IoU-guided Sample Re-weighting (ISR) mechanism to prioritize hard samples by adaptively adjusting the loss weight for each sample during fine-tuning. Extensive experiments on six large-scale colonoscopy datasets demonstrate the superiority of our model compared with previous state-of-the-art detectors.
翻訳日:2024-01-11 15:16:58 公開日:2024-01-10
# クワッドローターシステムのためのドラッグアウェアの軌道生成

Why Change Your Controller When You Can Change Your Planner: Drag-Aware Trajectory Generation for Quadrotor Systems ( http://arxiv.org/abs/2401.04960v1 )

ライセンス: Link先を確認
Hanli Zhang, Anusha Srikanthan, Spencer Folk, Vijay Kumar, Nikolai Matni(参考訳) ペイロード配送におけるクワッドロータの利用の増加に動機づけられ,空力レンチを経験するクワッドロータの軌道生成とフィードバック制御設計問題を考える。 輸送ペイロードからの非モデル化された空気力学的抵抗力は破滅的な結果をもたらす可能性がある。 事前の作業モデルによる空気力学的効果は、残留ダイナミクスや制御問題における外的外乱として、壊滅的な反応政策につながる。 さらに、コントローラの再設計とハードウェアプラットフォームでのコントロール向上のチューニングは、大変な作業です。 本稿では,制御器を固定した軌道生成成分を適応させることで,ドラッグ力に遭遇する四角形系の軌道追従性が向上すると主張する。 そこで本研究では,最適四倍子制御問題に対して適切な緩和を施し,基準軌道を追従するコントローラの能力を測定する追従コスト関数を導入することで,ドラッグアウェア計画問題を実現する。 この追従コスト関数は軌道生成のレギュレータとして働き、シミュレーションから得られたデータから学習される。 シミュレーションとハードウェアプラットフォームCrzyflieで行った実験では、プランナーの変更によってトラッキングエラーが最大83%削減された。 ハードウェアに対する評価は,我々の計画経路が,ベースラインとは対照的に,攻撃的操作時の制御飽和や破滅的な結果を回避することを実証している。

Motivated by the increasing use of quadrotors for payload delivery, we consider a joint trajectory generation and feedback control design problem for a quadrotor experiencing aerodynamic wrenches. Unmodeled aerodynamic drag forces from carried payloads can lead to catastrophic outcomes. Prior work model aerodynamic effects as residual dynamics or external disturbances in the control problem leading to a reactive policy that could be catastrophic. Moreover, redesigning controllers and tuning control gains on hardware platforms is a laborious effort. In this paper, we argue that adapting the trajectory generation component keeping the controller fixed can improve trajectory tracking for quadrotor systems experiencing drag forces. To achieve this, we formulate a drag-aware planning problem by applying a suitable relaxation to an optimal quadrotor control problem, introducing a tracking cost function which measures the ability of a controller to follow a reference trajectory. This tracking cost function acts as a regularizer in trajectory generation and is learned from data obtained from simulation. Our experiments in both simulation and on the Crazyflie hardware platform show that changing the planner reduces tracking error by as much as 83%. Evaluation on hardware demonstrates that our planned path, as opposed to a baseline, avoids controller saturation and catastrophic outcomes during aggressive maneuvers.
翻訳日:2024-01-11 15:16:26 公開日:2024-01-10
# EmMixformer:眼球運動認識のための混合トランス

EmMixformer: Mix transformer for eye movement recognition ( http://arxiv.org/abs/2401.04956v1 )

ライセンス: Link先を確認
Huafeng Qin, Hongyu Zhu, Xin Jin, Qun Song, Mounim A. El-Yacoubi, and Xinbo Gao(参考訳) 眼球運動(英語: eye movement、em)は、近年注目を集めている、高度に安全なバイオメトリックな行動モダリティである。 convolutional neural network(cnn)のようなディープニューラルネットワークは、最近有望なパフォーマンスを達成しているが、現在のソリューションでは、眼球運動データ内の局所的およびグローバルな時間的依存関係を捉えられていない。 本稿では,眼球運動認識のための時間領域情報と周波数領域情報を抽出するEmMixformerという混合変換器を提案する。 そこで本研究では,3つのモジュール,トランス,アテンションロング短期記憶(アテンションLSTM),フーリエ変換器からなる混合ブロックを提案する。 我々は,眼球運動の長期的依存を学習するためにトランスフォーマーを活用する試みを初めて行った。 第2に,注意機構をLSTMに組み込んで,短時間の時間依存性の学習を目的とした注意LSTMを提案する。 第3に,周波数領域で自己注意を行い,グローバル特徴を学習する。 3つのモジュールは局所的およびグローバルな依存関係の観点から補完的な特徴表現を提供するため、提案したEmMixformerは認識精度を向上させることができる。 眼球運動データセットと2つの公的な眼球運動データセットによる実験結果から,提案したEmMixformerは,最小の検証誤差を達成し,芸術の状態を向上することが示された。

Eye movement (EM) is a new highly secure biometric behavioral modality that has received increasing attention in recent years. Although deep neural networks, such as convolutional neural network (CNN), have recently achieved promising performance, current solutions fail to capture local and global temporal dependencies within eye movement data. To overcome this problem, we propose in this paper a mixed transformer termed EmMixformer to extract time and frequency domain information for eye movement recognition. To this end, we propose a mixed block consisting of three modules, transformer, attention Long short-term memory (attention LSTM), and Fourier transformer. We are the first to attempt leveraging transformer to learn long temporal dependencies within eye movement. Second, we incorporate the attention mechanism into LSTM to propose attention LSTM with the aim to learn short temporal dependencies. Third, we perform self attention in the frequency domain to learn global features. As the three modules provide complementary feature representations in terms of local and global dependencies, the proposed EmMixformer is capable of improving recognition accuracy. The experimental results on our eye movement dataset and two public eye movement datasets show that the proposed EmMixformer outperforms the state of the art by achieving the lowest verification error.
翻訳日:2024-01-11 15:16:03 公開日:2024-01-10
# aiは人間のように漢詩を書けるのか? チューリングテストに触発された経験的研究

Can AI Write Classical Chinese Poetry like Humans? An Empirical Study Inspired by Turing Test ( http://arxiv.org/abs/2401.04952v1 )

ライセンス: Link先を確認
Zekun Deng, Hao Yang, Jun Wang(参考訳) 創造性や感情といった人間性の本質は機械によって模倣されることはないと主張する者もいる。 この論文は、AIが人間と同様に詩を構成することができるのか? そこで我々は,AIの詩文作成能力を評価するために,チューリングテストに触発された新しい評価フレームワークであるProFTAPを提案する。 現在の大言語モデル(LLM)に適用し,近年のLLMには,人間とほとんど区別できない古典中国語の詩を書く能力があることがわかった。 また,様々なオープンソース LLM が GPT-4 より優れていることも明らかにした。

Some argue that the essence of humanity, such as creativity and sentiment, can never be mimicked by machines. This paper casts doubt on this belief by studying a vital question: Can AI compose poetry as well as humans? To answer the question, we propose ProFTAP, a novel evaluation framework inspired by Turing test to assess AI's poetry writing capability. We apply it on current large language models (LLMs) and find that recent LLMs do indeed possess the ability to write classical Chinese poems nearly indistinguishable from those of humans. We also reveal that various open-source LLMs can outperform GPT-4 on this task.
翻訳日:2024-01-11 15:15:38 公開日:2024-01-10
# クロスコラーレンス確率過程における情報フロー速度

Information Flow Rate for Cross-Correlated Stochastic Processes ( http://arxiv.org/abs/2401.04950v1 )

ライセンス: Link先を確認
Dionissios T. Hristopulos(参考訳) 因果推論は結合系における因果関係を同定する。 liang氏が最近提案した手法は、時系列間の情報フローの方向と大きさを定量化することで因果関係を検出する。 確率力学系に対する情報フローの理論的定式化は、異なる系単位間のエントロピー移動率に関する一般表現とデータ駆動統計量を与える。 直感的な概念や物理的に意味のあるパラメータの観点から情報フロー率の理解を深めるために,結合確率過程間のデータ駆動情報フロー率の統計的性質について検討する。 我々は,情報流速統計の期待値と自己相関関数と相互相関関数の特性の関係を導出する。 そこで,本研究では相関関数の解析特性と特性時間に対する情報フロー率の依存性を明らかにする。 本分析は,サンプリングステップの影響,相互相関の強さ,情報流速に対する相関の時間的遅延について考察する。 相関ガウス過程の数値シミュレーションにより理論的結果を支持する。

Causal inference seeks to identify cause-and-effect interactions in coupled systems. A recently proposed method by Liang detects causal relations by quantifying the direction and magnitude of information flow between time series. The theoretical formulation of information flow for stochastic dynamical systems provides a general expression and a data-driven statistic for the rate of entropy transfer between different system units. To advance understanding of information flow rate in terms of intuitive concepts and physically meaningful parameters, we investigate statistical properties of the data-driven information flow rate between coupled stochastic processes. We derive relations between the expectation of the information flow rate statistic and properties of the auto- and cross-correlation functions. Thus, we elucidate the dependence of the information flow rate on the analytical properties and characteristic times of the correlation functions. Our analysis provides insight into the influence of the sampling step, the strength of cross-correlations, and the temporal delay of correlations on information flow rate. We support the theoretical results with numerical simulations of correlated Gaussian processes.
翻訳日:2024-01-11 15:15:27 公開日:2024-01-10
# コンテンツ対応深度適応画像復元

Content-Aware Depth-Adaptive Image Restoration ( http://arxiv.org/abs/2401.05049v1 )

ライセンス: Link先を確認
Tom Richard Vargis, Siavash Ghiasvand(参考訳) この作業は、既存のモデルを使用して、スクラッチから新しい復元モデルを作成するのではなく、組織的にイメージを復元するモジュラーパイプラインの構築を優先する。 オブジェクト固有のレベルで復元を行い、対応するクラスラベル情報を用いて各オブジェクトを再生する。 このアプローチは、修復プロセス全体に対する完全なユーザコントロールを提供することで際立っている。 ユーザーは、特別な修復手順のモデルを選択し、必要に応じてステップのシーケンスをカスタマイズし、奥行きを意識して再生画像を洗練することができる。 この研究は、画像再生を実装するための2つの異なる経路を提供し、それぞれの強みと限界を比較することができる。 この汎用システムの最も魅力的な側面は、適応性である。 この適応性により、ユーザーはそのオブジェクトクラスでトレーニングされたモデルを提供することで、医療画像を含む特定のオブジェクトカテゴリをターゲットにすることができる。

This work prioritizes building a modular pipeline that utilizes existing models to systematically restore images, rather than creating new restoration models from scratch. Restoration is carried out at an object-specific level, with each object regenerated using its corresponding class label information. The approach stands out by providing complete user control over the entire restoration process. Users can select models for specialized restoration steps, customize the sequence of steps to meet their needs, and refine the resulting regenerated image with depth awareness. The research provides two distinct pathways for implementing image regeneration, allowing for a comparison of their respective strengths and limitations. The most compelling aspect of this versatile system is its adaptability. This adaptability enables users to target particular object categories, including medical images, by providing models that are trained on those object classes.
翻訳日:2024-01-11 15:10:27 公開日:2024-01-10
# 非エルミートランダム行列の普遍的ハードエッジ統計

Universal hard-edge statistics of non-Hermitian random matrices ( http://arxiv.org/abs/2401.05044v1 )

ライセンス: Link先を確認
Zhenyu Xiao, Ryuichi Shindou, Kohei Kawabata(参考訳) ランダム行列理論は、量子カオス系に固有のスペクトル相関を理解する強力なツールである。 非エルミート確率行列論の様々な応用にもかかわらず、対称性の役割は完全に確立されている。 ここでは、スペクトル起源に関するレベル統計(ハードエッジ統計)に対する対称性の影響を包括的に調査し、非エルミート確率行列の38の対称性クラス全てにおけるスペクトル統計の分類を完成させる。 この分類では、28の対称性クラスを、スペクトルのバルクにおけるレベル統計から区別されたハードエッジ統計によって特徴づけ、さらに2つのグループ、altland-zirnbauer$_0$分類に分類される。 我々は,すべての対称性クラスに対する普遍的ハードエッジ統計量を取り込む定量的測度を紹介し,解明する。 さらに、広範な数値計算により、2次および多体リンドブラディアンや非エルミート的ハミルトニアンを含む様々な対称性の様々な開量子系を研究する。 これらの系は乱数行列と同じハードエッジ統計量を示し、原点周辺のアンサンブル平均スペクトル分布は乱数行列の挙動に即した創発的対称性を示す。 その結果,非エルミートランダム行列理論の包括的理解が確立され,オープン量子システムにおいて量子カオスやその欠如を検出するのに有用である。

Random matrix theory is a powerful tool for understanding spectral correlations inherent in quantum chaotic systems. Despite diverse applications of non-Hermitian random matrix theory, the role of symmetry remains to be fully established. Here, we comprehensively investigate the impact of symmetry on the level statistics around the spectral origin -- hard-edge statistics -- and complete the classification of spectral statistics in all the 38 symmetry classes of non-Hermitian random matrices. Within this classification, we discern 28 symmetry classes characterized by distinct hard-edge statistics from the level statistics in the bulk of spectra, which are further categorized into two groups, namely the Altland-Zirnbauer$_0$ classification and beyond. We introduce and elucidate quantitative measures capturing the universal hard-edge statistics for all the symmetry classes. Furthermore, through extensive numerical calculations, we study various open quantum systems in different symmetry classes, including quadratic and many-body Lindbladians, as well as non-Hermitian Hamiltonians. We show that these systems manifest the same hard-edge statistics as random matrices and that their ensemble-average spectral distributions around the origin exhibit emergent symmetry conforming to the random-matrix behavior. Our results establish a comprehensive understanding of non-Hermitian random matrix theory and are useful in detecting quantum chaos or its absence in open quantum systems.
翻訳日:2024-01-11 15:10:14 公開日:2024-01-10
# CreINNs: 分類タスクの不確実性推定のためのCredal-Setインターバルニューラルネットワーク

CreINNs: Credal-Set Interval Neural Networks for Uncertainty Estimation in Classification Tasks ( http://arxiv.org/abs/2401.05043v1 )

ライセンス: Link先を確認
Kaizheng Wang, Keivan Shariatmadar, Shireen Kudukkil Manchingal, Fabio Cuzzolin, David Moens, Hans Hallez(参考訳) 不確実性推定は、ニューラルネットワークの信頼性を向上させるためにますます魅力的になっている。 本研究では,分類タスク用に設計された新しいクレーダセット・インターバルニューラルネットワーク(CreINN)を提案する。 CreINNは伝統的なインターバルニューラルネットワーク構造を保持し、決定論的間隔で重みの不確実性を捉え、確率間隔の数学的枠組みを用いてクレダルセットを予測する。 分布外検出ベンチマーク(CIFAR10 vs SVHN)の実験的検証では、CreINNsはベイズニューラルネットワーク(BNN)やディープアンサンブル(DE)と比較して、疫学的不確実性評価よりも優れていた。 さらに、CreINNは変分BNNに比べて計算複雑性が顕著に減少し、DESよりもモデルサイズが小さい。

Uncertainty estimation is increasingly attractive for improving the reliability of neural networks. In this work, we present novel credal-set interval neural networks (CreINNs) designed for classification tasks. CreINNs preserve the traditional interval neural network structure, capturing weight uncertainty through deterministic intervals, while forecasting credal sets using the mathematical framework of probability intervals. Experimental validations on an out-of-distribution detection benchmark (CIFAR10 vs SVHN) showcase that CreINNs outperform epistemic uncertainty estimation when compared to variational Bayesian neural networks (BNNs) and deep ensembles (DEs). Furthermore, CreINNs exhibit a notable reduction in computational complexity compared to variational BNNs and demonstrate smaller model sizes than DEs.
翻訳日:2024-01-11 15:09:48 公開日:2024-01-10
# 数理プログラミングによる数理プログラミング解の構成学習

Learning to Configure Mathematical Programming Solvers by Mathematical Programming ( http://arxiv.org/abs/2401.05041v1 )

ライセンス: Link先を確認
Gabriele Iommazzo, Claudia D'Ambrosio, Antonio Frangioni, Leo Liberti(参考訳) 本稿では,与えられた問題の特定の例に対して,優れた数学的プログラムソルバ構成を求める問題について議論し,その解法として二段階アプローチを提案する。 第1フェーズでは、与えられたインスタンス上で設定されたソルバのインスタンス、構成、パフォーマンスの関係を学習します。 優れたソルバ構成を学ぶのに特に難しいのは、パラメータの設定がすべて独立であるとは限らないことである。 我々は、学習情報を用いて、設定パラメータの設定に依存性/一貫性の制約を明示的に表現した最適化問題を構築し、解決する手法の第2フェーズでこの問題に取り組む。 本研究では,水田流域の短期計画に生じる単位コミットメント問題に対して,このアプローチの2つの異なるインスタンスの計算結果について考察する。 我々は,ロジスティック回帰を教師付き学習方法論として使用し,CPLEXを関心の解決要因とみなす。

We discuss the issue of finding a good mathematical programming solver configuration for a particular instance of a given problem, and we propose a two-phase approach to solve it. In the first phase we learn the relationships between the instance, the configuration and the performance of the configured solver on the given instance. A specific difficulty of learning a good solver configuration is that parameter settings may not all be independent; this requires enforcing (hard) constraints, something that many widely used supervised learning methods cannot natively achieve. We tackle this issue in the second phase of our approach, where we use the learnt information to construct and solve an optimization problem having an explicit representation of the dependency/consistency constraints on the configuration parameter settings. We discuss computational results for two different instantiations of this approach on a unit commitment problem arising in the short-term planning of hydro valleys. We use logistic regression as the supervised learning methodology and consider CPLEX as the solver of interest.
翻訳日:2024-01-11 15:09:31 公開日:2024-01-10
# セルフトークによるLDMに基づくタスク指向対話エージェントのブートストラップ

Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk ( http://arxiv.org/abs/2401.05033v1 )

ライセンス: Link先を確認
Dennis Ulmer, Elman Mansimov, Kaixiang Lin, Justin Sun, Xibin Gao, Yi Zhang(参考訳) 大きな言語モデル(LLM)は強力な対話エージェントであるが、特定の機能の実現に特化することは困難である。 人間によって生成された命令とサンプル応答のチューニング(ouyang et al., 2022)は、チューニングを効果的に行う方法として証明されているが、多くのデータサンプルを必要とする。 a) 利用できないか、または b) 生成に費用がかかる。 さらに、LLMが単一の命令ではなく、対話内で特定のワークフローに従うようにすることで、このコストが増大する。 強化学習における自己演奏技術や,人間エージェントを模擬するLLMの利用に着想を得て,様々な役割で会話を行うLLMを通してのデータ収集を行う方法を提案する。 このアプローチはLLMの“セルフトーク”を通じてトレーニングデータを生成し,教師付き微調整に利用することができる。 対話の(部分的な)成功を測定する自動的な方法を導入する。 このメトリクスは、トレーニングのためにLLMに返される生成された会話データをフィルタリングするために使用される。 会話品質の自動化と人的評価に基づいて,このような自己語データによって結果が向上することを示す。 また,生成した対話の品質を示す様々な特徴と,それらと学習データとしての潜在的有用性との関連性について検討する。

Large language models (LLMs) are powerful dialogue agents, but specializing them towards fulfilling a specific function can be challenging. Instructing tuning, i.e. tuning models on instruction and sample responses generated by humans (Ouyang et al., 2022), has proven as an effective method to do so, yet requires a number of data samples that a) might not be available or b) costly to generate. Furthermore, this cost increases when the goal is to make the LLM follow a specific workflow within a dialogue instead of single instructions. Inspired by the self-play technique in reinforcement learning and the use of LLMs to simulate human agents, we propose a more effective method for data collection through LLMs engaging in a conversation in various roles. This approach generates a training data via "self-talk" of LLMs that can be refined and utilized for supervised fine-tuning. We introduce an automated way to measure the (partial) success of a dialogue. This metric is used to filter the generated conversational data that is fed back in LLM for training. Based on our automated and human evaluations of conversation quality, we demonstrate that such self-talk data improves results. In addition, we examine the various characteristics that showcase the quality of generated dialogues and how they can be connected to their potential utility as training data.
翻訳日:2024-01-11 15:09:16 公開日:2024-01-10
# 室温における量子誘起マイクロ波超解像

Quantum Inspired Microwave Phase Super-Resolution at Room Temperature ( http://arxiv.org/abs/2401.05026v1 )

ライセンス: Link先を確認
Leonid Vidro, Liran Shirizly, Naftali Kirsh, Nadav Katz, Hagai S. Eisenberg(参考訳) 量子距離論は古典的な相関、分解能、感度の限界を超えることが示されている。 干渉レーダスキームに導入され、興味深い予備結果が得られた。 量子にインスパイアされた古典的な信号の検出でさえ、特定のユースケースで有利である。 熱背景光子が存在しない光学領域でのみ実証されたアイデアに続いて、室温マイクロ波周波数超解相測定を数兆光子で実現し、クレーマー・ラオ境界の感度を飽和させる。 パリティ演算子の期待値を用いた干渉位相を2つの手法で実験的に推定する。 25nと56dBのSNRで波長よりも1200倍の高分解能を実現した。

Quantum metrology has been shown to surpass classical limits of correlation, resolution, and sensitivity. It has been introduced to interferometric Radar schemes, with intriguing preliminary results. Even quantum-inspired detection of classical signals may be advantageous in specific use cases. Following ideas demonstrated so far only in the optical domain, where practically no thermal background photons exist, we realize room-temperature microwave frequency super-resolved phase measurements with trillions of photons, while saturating the Cramer-Rao bound of sensitivity. We experimentally estimate the interferometric phase using the expectation value of the Parity operator by two methods. We achieve super-resolution up to 1200 times better than the wavelength with 25ns integration time and 56dB SNR.
翻訳日:2024-01-11 15:08:54 公開日:2024-01-10
# AdvMT:長期人体動作予測のための対向運動変換器

AdvMT: Adversarial Motion Transformer for Long-term Human Motion Prediction ( http://arxiv.org/abs/2401.05018v1 )

ライセンス: Link先を確認
Sarmad Idrees, Jongeun Choi, Seokman Sohn(参考訳) ロボットと人間とのシームレスな協調を共有環境で実現し、将来の人間の動きを正確に予測することが重要である。 人間の動き予測は伝統的にシーケンス予測問題としてアプローチされ、過去の人間の動きデータを利用して将来のポーズを推定してきた。 バニラリカレントネットワークから始まった研究コミュニティは、グラフベースおよび生成的アプローチを含む、人間の運動力学を学習するための様々な方法を調査してきた。 これらの努力にもかかわらず、正確な長期的な予測を達成することは依然として大きな課題である。 本稿では,変換器を用いた動きエンコーダと時間連続性判別器を統合した新しいモデルであるAdvMTを提案する。 この組み合わせは、フレーム内の空間的および時間的依存性を効果的に捉える。 逆行訓練では,予測の不要な成果物を効果的に削減し,より現実的で流動的な人間の動作の学習を確実にする。 評価結果は,AdvMTが長期予測の精度を大幅に向上するとともに,堅牢な短期予測を実現することを示す。

To achieve seamless collaboration between robots and humans in a shared environment, accurately predicting future human movements is essential. Human motion prediction has traditionally been approached as a sequence prediction problem, leveraging historical human motion data to estimate future poses. Beginning with vanilla recurrent networks, the research community has investigated a variety of methods for learning human motion dynamics, encompassing graph-based and generative approaches. Despite these efforts, achieving accurate long-term predictions continues to be a significant challenge. In this regard, we present the Adversarial Motion Transformer (AdvMT), a novel model that integrates a transformer-based motion encoder and a temporal continuity discriminator. This combination effectively captures spatial and temporal dependencies simultaneously within frames. With adversarial training, our method effectively reduces the unwanted artifacts in predictions, thereby ensuring the learning of more realistic and fluid human motions. The evaluation results indicate that AdvMT greatly enhances the accuracy of long-term predictions while also delivering robust short-term predictions
翻訳日:2024-01-11 15:08:42 公開日:2024-01-10
# インタラクション学習における情報理論のアプローチ

An Information Theoretic Approach to Interaction-Grounded Learning ( http://arxiv.org/abs/2401.05015v1 )

ライセンス: Link先を確認
Xiaoyan Hu, Farzan Farnia, Ho-fung Leung(参考訳) 学習者がフィードバック変数から観察されていない報酬を推測しようとする強化学習(rl)問題は、最近のいくつかの論文で研究されている。 インタラクション・グラウンド・ラーニング(igl)の設定は、学習者が環境との相互作用から潜在的なバイナリ報酬を推測してリターンを最適化するフィードバックベースの強化学習タスクの例である。 IGL設定において、RL文献で使われる関連する仮定は、フィードバック変数$Y$は、潜在報酬$R$を与えられた文脈作用$(X,A)$と条件的に独立であるということである。 本稿では,iglに基づくrl問題における条件付き独立性仮定を強制するための情報理論的手法として,変分情報ベースigl(vi-igl)を提案する。 VI-IGLフレームワークは、コンテキストアクション$(X,A)$と環境から観測されたフィードバック変数$Y$との間の条件相互情報(MI)に基づいて、情報に基づく目的を用いて報酬復号器を学習する。 RL問題における連続確率変数の情報ベース項を推定・最適化するために、VI-IGLは相互情報の変動表現を活用し、min-max最適化問題をもたらす。 さらに、情報理論文献における一般的な$f$-Information測度にVI-IGLフレームワークを拡張し、IGL条件下でのRL問題に対処するための一般化$f$-VI-IGLフレームワークを実現する。 最後に,VI-IGL法をいくつかの強化学習環境に適用した経験的結果について述べる。

Reinforcement learning (RL) problems where the learner attempts to infer an unobserved reward from some feedback variables have been studied in several recent papers. The setting of Interaction-Grounded Learning (IGL) is an example of such feedback-based reinforcement learning tasks where the learner optimizes the return by inferring latent binary rewards from the interaction with the environment. In the IGL setting, a relevant assumption used in the RL literature is that the feedback variable $Y$ is conditionally independent of the context-action $(X,A)$ given the latent reward $R$. In this work, we propose Variational Information-based IGL (VI-IGL) as an information-theoretic method to enforce the conditional independence assumption in the IGL-based RL problem. The VI-IGL framework learns a reward decoder using an information-based objective based on the conditional mutual information (MI) between the context-action $(X,A)$ and the feedback variable $Y$ observed from the environment. To estimate and optimize the information-based terms for the continuous random variables in the RL problem, VI-IGL leverages the variational representation of mutual information and results in a min-max optimization problem. Furthermore, we extend the VI-IGL framework to general $f$-Information measures in the information theory literature, leading to the generalized $f$-VI-IGL framework to address the RL problem under the IGL condition. Finally, we provide the empirical results of applying the VI-IGL method to several reinforcement learning settings, which indicate an improved performance in comparison to the previous IGL-based RL algorithm.
翻訳日:2024-01-11 15:08:13 公開日:2024-01-10
# タスク非関連データの可能性を解き放つソースフリークロスモーダル知識伝達

Source-Free Cross-Modal Knowledge Transfer by Unleashing the Potential of Task-Irrelevant Data ( http://arxiv.org/abs/2401.05014v1 )

ライセンス: Link先を確認
Jinjing Zhu, Yucheng Chen, and Lin Wang(参考訳) ソースフリーなクロスモーダルな知識伝達は重要なタスクであり、メモリとプライバシの懸念により、タスク関連(TR)ソースデータにアクセスせずに、1つのソースモダリティ(例えば、RGB)からターゲットモダリティ(例えば、深さまたは赤外線)に知識を転送することを目的としている。 最近の試みでは、ペア化されたタスク関連データ(TI)を活用し、それらの特徴と直接一致して、モダリティギャップを排除している。 しかしながら、tiデータ対がソースデータ分布を効果的に推定し、ターゲットモダリティへの知識伝達をより容易にするために利用できることを示す重要な手がかりを無視している。 この目的のために,tiデータ対の可能性を解き放ち,ソースフリーなクロスモーダル知識の伝達を促進するための,新しい,かつ簡潔なフレームワークを提案する。 私たちの仕事は2つの重要な技術コンポーネントによって支えられています。 まず、ソースデータ分布をより正確に推定するために、TGMB(Task-irrelevant data-Guided Modality Bridging)モジュールを導入する。 ターゲットのモダリティデータ(例えば赤外線)を、ペア化されたTIデータと利用可能なソースモデルのガイダンスに基づいてソースライクなRGBイメージに変換することで、2つの重要なギャップを緩和する。 1) 対のTIデータ間のモダリティ間ギャップ 2) TIとTRのターゲットデータ間のモダリティ内ギャップ。 次に,TGKT (Task-irrelevant Data-Guided Knowledge Transfer) モジュールを提案する。 特に、TRターゲットデータに対するラベルの有効性や、ソースモデルからの信頼性の低い予測のため、我々のTGKTモデルは、ターゲットモデルがその予測から学べるように、自己教師付き擬似ラベル方式を取り入れている。 実験の結果,3つのデータセット(RGB-to-deepth,RGB-to-infrared)の最先端性能が得られた。

Source-free cross-modal knowledge transfer is a crucial yet challenging task, which aims to transfer knowledge from one source modality (e.g., RGB) to the target modality (e.g., depth or infrared) with no access to the task-relevant (TR) source data due to memory and privacy concerns. A recent attempt leverages the paired task-irrelevant (TI) data and directly matches the features from them to eliminate the modality gap. However, it ignores a pivotal clue that the paired TI data could be utilized to effectively estimate the source data distribution and better facilitate knowledge transfer to the target modality. To this end, we propose a novel yet concise framework to unlock the potential of paired TI data for enhancing source-free cross-modal knowledge transfer. Our work is buttressed by two key technical components. Firstly, to better estimate the source data distribution, we introduce a Task-irrelevant data-Guided Modality Bridging (TGMB) module. It translates the target modality data (e.g., infrared) into the source-like RGB images based on paired TI data and the guidance of the available source model to alleviate two key gaps: 1) inter-modality gap between the paired TI data; 2) intra-modality gap between TI and TR target data. We then propose a Task-irrelevant data-Guided Knowledge Transfer (TGKT) module that transfers knowledge from the source model to the target model by leveraging the paired TI data. Notably, due to the unavailability of labels for the TR target data and its less reliable prediction from the source model, our TGKT model incorporates a self-supervised pseudo-labeling approach to enable the target model to learn from its predictions. Extensive experiments show that our method achieves state-of-the-art performance on three datasets (RGB-to-depth and RGB-to-infrared).
翻訳日:2024-01-11 15:07:24 公開日:2024-01-10
# 不完全測定と共役観測

Imperfect Measurements and Conjugate Observables ( http://arxiv.org/abs/2401.05013v1 )

ライセンス: Link先を確認
Adarsh S, P. N. Bala Subramanian, T. P. Sreeraj(参考訳) 量子測定で使用される標準のフォン・ノイマン相互作用では、環境(アパラトゥス)の絡み合いが正確に再現されるような選択された観測可能な状態が、観測可能な固有基底における量子系をデコヒートする。 我々は、環境がほぼ、正確にはなくても、システムの状態を反映する状態へと進化する不完全な測定を可能にすることで、これを緩和する。 このスキームでは、古典物理学に類似した共役量の近似デコヒーレンスを達成することができる。

In the standard von Neumann interaction used in Quantum measurements, the chosen observable to which the environment (apparatus) entangles is exactly reproduced in the state of the environment, thereby decohering the quantum system in the eigenbasis of the observable. We relax this by allowing for imperfect measurements whereby the environment evolves to a state that approximately, but not exactly, reflects the state of the system. In this scheme it is possible to attain approximate decoherence of conjugate quantities that resembles classical physics, which we demonstrate using an example.
翻訳日:2024-01-11 15:06:23 公開日:2024-01-10
# HiMTM: 長期予測のための階層型マルチスケールマスキング時系列モデリング

HiMTM: Hierarchical Multi-Scale Masked Time Series Modeling for Long-Term Forecasting ( http://arxiv.org/abs/2401.05012v1 )

ライセンス: Link先を確認
Shubao Zhao, Ming Jin, Zhaoxiang Hou, Chengyi Yang, Zengxiang Li, Qingsong Wen, Yi Wang(参考訳) 実世界では、時系列予測は重要かつ困難である。 様々な下流タスクに対応する時系列基礎モデルに関する最近の関心の高まりは注目に値する。 しかし、既存の手法はしばしば、正確な予測に不可欠な側面である時系列のマルチスケールの性質を見落としている。 このギャップを埋めるため,長期予測のための階層型マルチスケールマスク時系列モデリング手法であるHiMTMを提案する。 Specifically, it comprises four integral components: (1) hierarchical multi-scale transformer (HMT) to capture temporal information at different scales; (2) decoupled encoder-decoder (DED) forces the encoder to focus on feature extraction, while the decoder to focus on pretext tasks; (3) multi-scale masked reconstruction (MMR) provides multi-stage supervision signals for pre-training; (4) cross-scale attention fine-tuning (CSA-FT) to capture dependencies between different scales for forecasting. 総じて、これらのコンポーネントはマスキング時系列モデリングにおけるマルチスケール特徴抽出機能を強化し、予測精度の向上に寄与する。 我々は、7つの主流データセットに対する広範な実験を行い、現代の自己教師とエンドツーエンドの学習方法に対して、HiMTMが明らかに有利であることを示す。 HiMTMの有効性は、天然ガス需要予測の産業への応用によってさらに明らかにされている。

Time series forecasting is crucial and challenging in the real world. The recent surge in interest regarding time series foundation models, which cater to a diverse array of downstream tasks, is noteworthy. However, existing methods often overlook the multi-scale nature of time series, an aspect crucial for precise forecasting. To bridge this gap, we propose HiMTM, a hierarchical multi-scale masked time series modeling method designed for long-term forecasting. Specifically, it comprises four integral components: (1) hierarchical multi-scale transformer (HMT) to capture temporal information at different scales; (2) decoupled encoder-decoder (DED) forces the encoder to focus on feature extraction, while the decoder to focus on pretext tasks; (3) multi-scale masked reconstruction (MMR) provides multi-stage supervision signals for pre-training; (4) cross-scale attention fine-tuning (CSA-FT) to capture dependencies between different scales for forecasting. Collectively, these components enhance multi-scale feature extraction capabilities in masked time series modeling and contribute to improved prediction accuracy. We conduct extensive experiments on 7 mainstream datasets to prove that HiMTM has obvious advantages over contemporary self-supervised and end-to-end learning methods. The effectiveness of HiMTM is further showcased by its application in the industry of natural gas demand forecasting.
翻訳日:2024-01-11 15:05:31 公開日:2024-01-10
# 半教師付き3次元物体検出のためのデュアル・パースペクティブ・ナレッジエンリッチメント

Dual-Perspective Knowledge Enrichment for Semi-Supervised 3D Object Detection ( http://arxiv.org/abs/2401.05011v1 )

ライセンス: Link先を確認
Yucheng Han, Na Zhao, Weiling Chen, Keng Teck Ma, Hanwang Zhang(参考訳) 半教師付き3dオブジェクト検出は、データアノテーションコスト、特に散らかった屋内シーンのコストを削減するために、まだ検討中である。 SESSや3DIoUMatchといったいくつかの先行研究は、教師モデルを利用して、ラベルなしサンプルの擬似ラベルを生成することで、この問題を解決しようとしている。 しかし、3Dデータ収集に要する労力が大きいため、3Dドメインでのラベルなしサンプルの入手は、2Dドメインに比べて比較的限られている。 さらに、3DIoUMatchにおけるSESSのゆるい整合性正規化と擬似ラベル選択戦略の制限により、低品質の監視や擬似ラベルの制限がもたらされる。 これらの問題に対処するため,DPKEと呼ばれる新しい2次元知識豊か化手法を提案し,半教師付き3次元物体検出を行う。 我々のDPKEは、データパースペクティブと機能パースペクティブという2つの観点から、限られたトレーニングデータ、特にラベルなしデータの知識を豊かにしています。 具体的には、データパースペクティブから、クラス確率の分布の変化に基づいて、入力データを追加インスタンスで拡張するクラス確率データ拡張手法を提案する。 我々のDPKEは,学生と教師のモデルからのオブジェクト提案との特徴レベルの類似性を規則化する幾何学的特徴マッチング法を設計し,特徴量を考慮した知識豊か化を実現している。 2つのベンチマークデータセットに対する大規模な実験により、DPKEは、様々なラベル比条件下での既存の最先端アプローチよりも優れた性能を発揮することが示された。 ソースコードは一般公開される予定だ。

Semi-supervised 3D object detection is a promising yet under-explored direction to reduce data annotation costs, especially for cluttered indoor scenes. A few prior works, such as SESS and 3DIoUMatch, attempt to solve this task by utilizing a teacher model to generate pseudo-labels for unlabeled samples. However, the availability of unlabeled samples in the 3D domain is relatively limited compared to its 2D counterpart due to the greater effort required to collect 3D data. Moreover, the loose consistency regularization in SESS and restricted pseudo-label selection strategy in 3DIoUMatch lead to either low-quality supervision or a limited amount of pseudo labels. To address these issues, we present a novel Dual-Perspective Knowledge Enrichment approach named DPKE for semi-supervised 3D object detection. Our DPKE enriches the knowledge of limited training data, particularly unlabeled data, from two perspectives: data-perspective and feature-perspective. Specifically, from the data-perspective, we propose a class-probabilistic data augmentation method that augments the input data with additional instances based on the varying distribution of class probabilities. Our DPKE achieves feature-perspective knowledge enrichment by designing a geometry-aware feature matching method that regularizes feature-level similarity between object proposals from the student and teacher models. Extensive experiments on the two benchmark datasets demonstrate that our DPKE achieves superior performance over existing state-of-the-art approaches under various label ratio conditions. The source code will be made available to the public.
翻訳日:2024-01-11 15:04:34 公開日:2024-01-10
# less is more : マルチモーダル・マイノショット学習をよく見る

Less is More : A Closer Look at Multi-Modal Few-Shot Learning ( http://arxiv.org/abs/2401.05010v1 )

ライセンス: Link先を確認
Chunpeng Zhou, Haishuai Wang, Xilu Yuan, Zhi Yu, Jiajun Bu(参考訳) few-shot learningは、新しいカテゴリを非常に限られた数のイメージで学習し、識別することを目的としている。 近年の研究者は、これらの稀なカテゴリーのテキスト情報や言語情報を事前訓練された言語モデルに活用して学習を容易にし、監視信号の不十分な問題を部分的に緩和しようと試みている。 しかし、テキスト情報と事前訓練された言語モデルの潜在能力は、これまで数ショットの学習で過小評価され、パフォーマンスが制限された。 そこで本研究では,テキスト情報と言語モデルの活用を目的とした,単純かつ効果的な学習タスクフレームワークを提案する。 より詳しくは、学習可能なプロンプトで事前学習された言語モデルのゼロショット機能を明示的に活用する。 そして、以前の作業で複雑な設計の融合モジュールを使わずに、直接推論するためのテキスト機能にビジュアル機能を追加するだけです。 さらに, これらの成分をさらに強化するために, 自己アンサンブルと蒸留を適用した。 広く使われている4つのショットデータセットで実施した大規模な実験は、私たちの単純なフレームワークが素晴らしい結果をもたらすことを示す。 特に注目すべきは、1ショット学習タスクにおける優れた性能であり、分類精度で平均3.0\%の最先端手法を上回っている。 提案されたフレームワークのソースコードを受理時に公開します。 }.

Few-shot Learning aims to learn and distinguish new categories with a very limited number of available images, presenting a significant challenge in the realm of deep learning. Recent researchers have sought to leverage the additional textual or linguistic information of these rare categories with a pre-trained language model to facilitate learning, thus partially alleviating the problem of insufficient supervision signals. However, the full potential of the textual information and pre-trained language model have been underestimated in the few-shot learning till now, resulting in limited performance enhancements. To address this, we propose a simple but effective framework for few-shot learning tasks, specifically designed to exploit the textual information and language model. In more detail, we explicitly exploit the zero-shot capability of the pre-trained language model with the learnable prompt. And we just add the visual feature with the textual feature for inference directly without the intricate designed fusion modules in previous works. Additionally, we apply the self-ensemble and distillation to further enhance these components. Our extensive experiments conducted across four widely used few-shot datasets demonstrate that our simple framework achieves impressive results. Particularly noteworthy is its outstanding performance in the 1-shot learning task, surpassing state-of-the-art methods by an average of 3.0\% in classification accuracy. \footnote{We will make the source codes of the proposed framework publicly available upon acceptance. }.
翻訳日:2024-01-11 15:04:11 公開日:2024-01-10
# 世界的災害リスクの時間的分析:クラスタダイナミクスへの機械学習アプローチ

Temporal Analysis of World Disaster Risk:A Machine Learning Approach to Cluster Dynamics ( http://arxiv.org/abs/2401.05007v1 )

ライセンス: Link先を確認
Christian Mulomba Mukendi, Hyebong Choi(参考訳) 実行された行動の影響を 評価することは 管理に不可欠です 本稿では,リスクを軽減し,世界規模で安全な環境を創出するための取り組みの効果を評価する。 私たちは、特定の短期間で改善の確率を見ることによって、この影響を測定します。 世界リスク指数を用いて,2011年から2021年までの災害リスクダイナミクスの時間的分析を行った。 世界リスク指数のレンズによるこの時間探査は、災害リスクの複雑なダイナミクスに関する洞察を提供する。 持続的な努力にもかかわらず、世界の景観は、地理的な場所に関わらず、高い感受性と適度な感受性の2つの主要なクラスターに分かれていることがわかった。 このクラスタリングは、98%の精度でラベル拡散アルゴリズムを通して半教師ありのアプローチで達成された。 また,本研究で検討された期間(1,3,5年)における教師あり学習によるクラスタの予測の結果,ロジスティック回帰(各段階の約99%)は,他の分類器よりも優れていた。 このことから、現在の政策やメカニズムは、各国が危険な状態から安全な状態に移行するのを助けるには有効ではないと考えられる。 実際、シナリオ分析を用いた統計的予測では、5年間の期間内にそのような変化が起こる確率は1%に過ぎなかった。 この退屈な現実はパラダイムシフトの必要性を浮き彫りにしている。 従来の長期災害管理戦略は、非常に脆弱な国には有効ではない。 この発見は、これらの国の特定の脆弱性に合わせた革新的なアプローチの必要性を示唆している。 脆弱性の脅威が持続するにつれて、我々の研究は災害リスク管理の課題を効果的に解決できる新しい戦略の開発を要求する。

he evaluation of the impact of actions undertaken is essential in management. This paper assesses the impact of efforts considered to mitigate risk and create safe environments on a global scale. We measure this impact by looking at the probability of improvement over a specific short period of time. Using the World Risk Index, we conduct a temporal analysis of global disaster risk dynamics from 2011 to 2021. This temporal exploration through the lens of the World Risk Index provides insights into the complex dynamics of disaster risk. We found that, despite sustained efforts, the global landscape remains divided into two main clusters: high susceptibility and moderate susceptibility, regardless of geographical location. This clustering was achieved using a semi-supervised approach through the Label Spreading algorithm, with 98% accuracy. We also found that the prediction of clusters achieved through supervised learning on the period considered in this study (one, three, and five years) showed that the Logistic regression (almost 99% at each stage) performed better than other classifiers. This suggests that the current policies and mechanisms are not effective in helping countries move from a hazardous position to a safer one during the period considered. In fact, statistical projections using a scenario analysis indicate that there is only a 1% chance of such a shift occurring within a five-year timeframe. This sobering reality highlights the need for a paradigm shift. Traditional long-term disaster management strategies are not effective for countries that are highly vulnerable. Our findings indicate the need for an innovative approach that is tailored to the specific vulnerabilities of these nations. As the threat of vulnerability persists, our research calls for the development of new strategies that can effectively address the ongoing challenges of disaster risk management
翻訳日:2024-01-11 15:03:50 公開日:2024-01-10
# AdaFed:Adaptive Common Descent Directionによる公正なフェデレーション学習

AdaFed: Fair Federated Learning via Adaptive Common Descent Direction ( http://arxiv.org/abs/2401.04993v1 )

ライセンス: Link先を確認
Shayan Mohajer Hamidi, En-Hui Yang(参考訳) フェデレートラーニング(FL)は、エッジデバイスやクライアントがサーバによって編成された機械学習モデルを協調的にトレーニングする、有望な技術である。 不公平なモデルを学ぶことは、訓練されたモデルがいくつかのデバイスに不公平に有利あるいは不利な可能性があるフェデレーション学習において、重要な問題として知られている。 この問題に対処するため,本稿ではAdaFedを提案する。 AdaFedの目標は、サーバの更新方向を見つけることだ。 (i)すべてのクライアントの損失関数が減少している。 (ii)より重要なことは、より大きい値を持つクライアントの損失関数は、より高いレートで減少する。 adafedはこの共通の方向を局所勾配と損失関数の値に基づいて適応的に調整する。 我々は、AdaFedが一連のデータセットに対して有効であることを検証するとともに、AdaFedが最先端のフェアFL法より優れていることを示す。

Federated learning (FL) is a promising technology via which some edge devices/clients collaboratively train a machine learning model orchestrated by a server. Learning an unfair model is known as a critical problem in federated learning, where the trained model may unfairly advantage or disadvantage some of the devices. To tackle this problem, in this work, we propose AdaFed. The goal of AdaFed is to find an updating direction for the server along which (i) all the clients' loss functions are decreasing; and (ii) more importantly, the loss functions for the clients with larger values decrease with a higher rate. AdaFed adaptively tunes this common direction based on the values of local gradients and loss functions. We validate the effectiveness of AdaFed on a suite of federated datasets, and demonstrate that AdaFed outperforms state-of-the-art fair FL methods.
翻訳日:2024-01-11 15:03:21 公開日:2024-01-10
# テンソル積を取るための加法的あるいは乗法的混合ユニタリチャネルの特性について

On characteristics of mixed unitary channels being additive or multiplicative with respect to taking tensor products ( http://arxiv.org/abs/2401.05104v1 )

ライセンス: Link先を確認
Grigori Amosov(参考訳) ヒルベルト空間内のすべてのユニタリ作用素群の有限部分群によって生成される混合ユニタリチャネルについて検討する。 主要化理論に基づき,チャネルの出力状態の異なる特性を計算できる手法を導入する。 絡み合った状態の使用は、チャネルの出力特性の最大値と無限値を取るのに何の利点も与えないチャネルのクラスが割り当てられている。 特に、$l_p$-ノルムは乗法であり、極小エントロピーはチャネルのテンソル積を取るための加法である。 得られた結果の重要応用として、チャネルの古典的容量を明白な形で計算する。 本手法とボソン量子チャネルの情報特性を比較した。

We study mixed unitary channels generated by finite subgroups of the group of all unitary operators in a Hilbert space. Based on the majorization theory we introduce techniques allowing to calculate different characteristics of output states of channels. A class of channels has been allocated for which the use of entangled states doesn't give any advantage under taking supremum and infimum for output characteristics of channels. In particular, $l_p$-norms are multiplicative and the minimal entropy is additive with respect to taking tensor products of channels. As an important application of the obtained results the classical capacity of channel is calculated in the evident form. We compare our techniques with the informational characteristics of Boson quantum channels.
翻訳日:2024-01-11 14:56:35 公開日:2024-01-10
# オールウェイメタラーニング

Any-Way Meta Learning ( http://arxiv.org/abs/2401.05097v1 )

ライセンス: Link先を確認
Junhoo Lee, Yearim Kim, Hyunho Lee, Nojun Kwak(参考訳) メタラーニングは、迅速な適応性という領域では有望なパフォーマンスを示すように見えるが、固定基数によって制約される。 訓練中に見当たらない様々な濃度のタスクに直面すると、そのモデルは能力に欠ける。 本稿では,エピソディックタスクサンプリング中に確率的数値ラベル割り当てから生じる「ラベル等価性」を利用して,この課題を解決し,解決する。 メタラーニングの定義をどう定義するかを問うことで、一定の濃度制約からモデルを解放する革新的なモデルトレーニングアプローチである、‘any-way’学習パラダイムを導入します。 驚くべきことに、このモデルは単に一致するだけでなく、性能、収束速度、安定性の点で従来の固定経路モデルを上回ることがしばしばある。 これは領域一般化に関する確立された概念を妨害する。 さらに、固有ラベル同値性は自然に意味的情報を欠いていると論じる。 ラベル等価性から生じるこの意味的情報ギャップを橋渡しするために,さらに,意味クラス情報をモデルに反映するメカニズムを提案する。 これにより、モデルの理解と機能性が向上する。 MAMLやProtoNetといった著名なアーキテクチャで実施した実験により,本手法の有効性が確認された。

Although meta-learning seems promising performance in the realm of rapid adaptability, it is constrained by fixed cardinality. When faced with tasks of varying cardinalities that were unseen during training, the model lacks its ability. In this paper, we address and resolve this challenge by harnessing `label equivalence' emerged from stochastic numeric label assignments during episodic task sampling. Questioning what defines ``true" meta-learning, we introduce the ``any-way" learning paradigm, an innovative model training approach that liberates model from fixed cardinality constraints. Surprisingly, this model not only matches but often outperforms traditional fixed-way models in terms of performance, convergence speed, and stability. This disrupts established notions about domain generalization. Furthermore, we argue that the inherent label equivalence naturally lacks semantic information. To bridge this semantic information gap arising from label equivalence, we further propose a mechanism for infusing semantic class information into the model. This would enhance the model's comprehension and functionality. Experiments conducted on renowned architectures like MAML and ProtoNet affirm the effectiveness of our method.
翻訳日:2024-01-11 14:56:23 公開日:2024-01-10
# SwiMDiff:リモートセンシングのための拡散制約付きシーンワイドマッチングコントラスト学習

SwiMDiff: Scene-wide Matching Contrastive Learning with Diffusion Constraint for Remote Sensing Image ( http://arxiv.org/abs/2401.05093v1 )

ライセンス: Link先を確認
Jiayuan Tian, Jie Lei, Jiaqing Zhang, Weiying Xie, Yunsong Li(参考訳) 近年の航空宇宙技術の進歩により、ラベルなしリモートセンシング画像(RSI)データの量は劇的に増加した。 このデータを自己教師付き学習(SSL)を通じて効果的に活用することは、リモートセンシングの分野において不可欠である。 しかし、現在の方法論、特にSSLメソッドであるコントラスト学習(CL)は、この領域で特定の課題に直面している。 第一に、CLはしばしば地理的に隣接しているサンプルと類似のセマンティックな内容を負のペアと誤って識別し、モデルトレーニング中に混乱を引き起こす。 第二に、インスタンスレベルの識別タスクとして、非構造化RSIに固有の必須のきめ細かい特徴や複雑な詳細を無視する傾向がある。 これらの障害を克服するために、RSI用に設計された新しい自己教師型事前学習フレームワークであるSwiMDiffを紹介する。 SwiMDiffは、同一シーンからのデータを偽陰性として認識するために、ラベルを効果的に再分類するシーンワイドマッチングアプローチを採用している。 この調整により、CLはリモートセンシングのニュアンスにより適用できる。 さらに、SwiMDiffはCLを拡散モデルとシームレスに統合する。 画素レベルの拡散制約を実装することにより、エンコーダのグローバルな意味情報とより包括的に画像のきめ細かい特徴の両方をキャプチャする能力を向上する。 提案するフレームワークは,リモートセンシングにおける下流タスクに利用可能な情報を大幅に強化する。 SwiMDiffは、変更検出と土地被覆分類タスクにおける例外的な性能を実証し、リモートセンシング分野におけるその実用性と価値を実証している。

With recent advancements in aerospace technology, the volume of unlabeled remote sensing image (RSI) data has increased dramatically. Effectively leveraging this data through self-supervised learning (SSL) is vital in the field of remote sensing. However, current methodologies, particularly contrastive learning (CL), a leading SSL method, encounter specific challenges in this domain. Firstly, CL often mistakenly identifies geographically adjacent samples with similar semantic content as negative pairs, leading to confusion during model training. Secondly, as an instance-level discriminative task, it tends to neglect the essential fine-grained features and complex details inherent in unstructured RSIs. To overcome these obstacles, we introduce SwiMDiff, a novel self-supervised pre-training framework designed for RSIs. SwiMDiff employs a scene-wide matching approach that effectively recalibrates labels to recognize data from the same scene as false negatives. This adjustment makes CL more applicable to the nuances of remote sensing. Additionally, SwiMDiff seamlessly integrates CL with a diffusion model. Through the implementation of pixel-level diffusion constraints, we enhance the encoder's ability to capture both the global semantic information and the fine-grained features of the images more comprehensively. Our proposed framework significantly enriches the information available for downstream tasks in remote sensing. Demonstrating exceptional performance in change detection and land-cover classification tasks, SwiMDiff proves its substantial utility and value in the field of remote sensing.
翻訳日:2024-01-11 14:56:05 公開日:2024-01-10
# 非相互量子電池

Nonreciprocal Quantum Batteries ( http://arxiv.org/abs/2401.05090v1 )

ライセンス: Link先を確認
Borhan Ahmadi, Pawe{\l} Mazurek, Pawe{\l} Horodecki, Shabir Barzanjeh(参考訳) 時間反転対称性の破れから生じる非相対性は、様々な量子技術応用において基本的な道具となっている。 信号の方向流と効率的なノイズ抑制を可能にし、現在の量子情報と計算システムのアーキテクチャにおける重要な要素を構成する。 ここでは、量子電池の充電ダイナミクスを最適化する可能性を探る。 チャージプロセス中に貯留層工学を通して非相反性を導入することで,量子チャージャーからバッテリへの有向エネルギーの流れを誘導し,エネルギー蓄積量を大幅に増加させる。 局所的な散逸にもかかわらず、非相反的なアプローチは従来のチャージャーバッテリシステムに比べて4倍のバッテリエネルギーの増加を示す。 共有型貯水池を用いることで、非相反性により充電効率が向上し、電池のエネルギー貯蔵量が増大する最適条件が確立できることを実証する。 この効果は定常限界で観測され、過減衰したカップリングレジームでも引き続き適用され、進化パラメータの正確な時間的制御は不要である。 この結果は量子ノードのカイラルネットワークに拡張することができ、ストレージ容量を高めるために多セル量子電池システムとして機能する。 提案手法は、フォトニクスと超伝導量子システムの両方において、現在の最先端量子回路を用いて簡単に実装できる。 広い文脈において、非相反電荷の概念は、センシング、エネルギー捕獲、貯蔵技術、量子熱力学の研究において重要な意味を持つ。

Nonreciprocity, arising from the breaking of time-reversal symmetry, has become a fundamental tool in diverse quantum technology applications. It enables directional flow of signals and efficient noise suppression, constituting a key element in the architecture of current quantum information and computing systems. Here we explore its potential in optimizing the charging dynamics of a quantum battery. By introducing nonreciprocity through reservoir engineering during the charging process, we induce a directed energy flow from the quantum charger to the battery, resulting in a substantial increase in energy accumulation. Despite local dissipation, the nonreciprocal approach demonstrates a fourfold increase in battery energy compared to conventional charger-battery systems. We demonstrate that employing a shared reservoir can establish an optimal condition where nonreciprocity enhances charging efficiency and elevates energy storage in the battery. This effect is observed in the stationary limit and remains applicable even in overdamped coupling regimes, eliminating the need for precise temporal control over evolution parameters. Our result can be extended to a chiral network of quantum nodes, serving as a multi-cell quantum battery system to enhance storage capacity. The proposed approach is straightforward to implement using current state-of-the-art quantum circuits, both in photonics and superconducting quantum systems. In a broader context, the concept of nonreciprocal charging has significant implications for sensing, energy capture, and storage technologies or studying quantum thermodynamics.
翻訳日:2024-01-11 14:55:39 公開日:2024-01-10
# 超低温分子を用いた量子計算と量子シミュレーション

Quantum Computation and Quantum Simulation with Ultracold Molecules ( http://arxiv.org/abs/2401.05086v1 )

ライセンス: Link先を確認
Simon L. Cornish, Michael R. Tarbutt and Kaden R. A. Hazzard(参考訳) 光学格子やツイーザートラップに閉じ込められた超低温分子は、量子情報を処理し、多体量子系の振る舞いをシミュレートするために用いられる。 分子はこれらのアプリケーションにいくつかの利点を提供します。 安定状態の大きな集合を持ち、それらの間の強い遷移と長いコヒーレンス時間を持つ。 これらは高い忠実度で選択された状態に準備でき、州の人口を効率的に測定することができる。 制御可能な長距離双極子-双極子相互作用を持ち、一対の分子を絡めて興味深い多体状態を生成するのに使用できる。 我々は、これまでに行われた進歩とまだ克服すべき課題をレビューし、フィールドの完全な可能性を解き放つ新しいアイデアを説明します。

Ultracold molecules confined in optical lattices or tweezer traps can be used to process quantum information and simulate the behaviour of many-body quantum systems. Molecules offer several advantages for these applications. They have a large set of stable states with strong transitions between them and long coherence times. They can be prepared in a chosen state with high fidelity, and the state populations can be measured efficiently. They have controllable long-range dipole-dipole interactions that can be used to entangle pairs of molecules and generate interesting many-body states. We review the advances that have been made and the challenges still to overcome, and describe the new ideas that will unlock the full potential of the field.
翻訳日:2024-01-11 14:55:16 公開日:2024-01-10
# 光量子メモリ実験における機械学習最適制御パルス

Machine learning optimal control pulses in an optical quantum memory experiment ( http://arxiv.org/abs/2401.05077v1 )

ライセンス: Link先を確認
Elizabeth Robertson, Luisa Esguerra, Leon Messner, Guillermo Gallego, Janik Wolters(参考訳) 効率的な光量子メモリは、リピータベースの量子鍵分布やオンデマンド多光子生成など、いくつかの量子技術に必要なマイルストーンである。 本稿では、遺伝的アルゴリズムを用いて、熱セシウム蒸気中の光電磁誘導透過(EIT)メモリ実験の効率を最適化し、その結果の波形を解析する。 制御パルスはガウスパルスまたはフリーフォームパルスとして表現され、最適化の結果を比較する。 最適化自由形パルスを用いた場合, 改善係数は3(7)\%) である。 溶液中の許容パルスエネルギーを制限することにより、エネルギーを30%削減し、効率損失を最小限に抑えるエネルギーベースの最適化を示す。

Efficient optical quantum memories are a milestone required for several quantum technologies including repeater-based quantum key distribution and on-demand multi-photon generation. We present an efficiency optimization of an optical electromagnetically induced transparency (EIT) memory experiment in a warm cesium vapor using a genetic algorithm and analyze the resulting waveforms. The control pulse is represented either as a Gaussian or free-form pulse, and the results from the optimization are compared. We see an improvement factor of 3(7)\% when using optimized free-form pulses. By limiting the allowed pulse energy in a solution, we show an energy-based optimization giving a 30% reduction in energy, with minimal efficiency loss.
翻訳日:2024-01-11 14:55:04 公開日:2024-01-10
# 界面駆動ペプチド折り畳み法:シミュレーション膜表面上の量子計算

Interface-Driven Peptide Folding: Quantum Computations on Simulated Membrane Surfaces ( http://arxiv.org/abs/2401.05075v1 )

ライセンス: Link先を確認
Daniel Conde-Torres, Mariamo Mussa-Juane, Daniel Fa\'ilde, Andr\'es G\'omez, Rebeca Garc\'ia-Fandi\~no, \'Angel Pi\~neiro(参考訳) 抗微生物ペプチド(AMP)は、がん、自己免疫疾患、老化において重要な役割を果たす。 AMP機能の重要な側面は病原体膜との標的的相互作用であり、しばしば脂質組成が変化している。 治療特性を増強したAMPの設計は、これらの相互作用の微妙な理解に依存しており、これらのペプチドをランダムコイルからアルファヘリカルコンフォメーションへと再配列させ、その分解作用に必須であると考えられている。 従来のスーパーコンピュータは、特に膜環境におけるこれらの構造変化を正確にモデル化することの難しさに一貫して直面している。 本研究では、既存の量子コンピューティングアルゴリズムを拡張し、界面における抗菌ペプチド相互作用の複雑さに対処する。 本手法により, 親水性相と疎水性相の遷移領域に位置するペプチドの最適配座の予測が可能となった。 3種類の10-アミノ-酸-長鎖ペプチドの構造をモデル化し, 異なる媒質, 異なる極性溶媒間の界面で疎水性, 親水性, および両親媒性を示す。 特に,同質媒質のシミュレーションに比べて量子ビット数を多く要求しないため,現在の量子計算資源ではより実現可能である。 計算能力と量子アクセシビリティに限界があるにもかかわらず、我々は複雑な生体分子過程、特に膜モデルにおけるAMPの折り畳みを正確に特徴づける量子コンピューティングの有意な可能性を示した。 この研究は、生体分子シミュレーションの精度と適用性を高めるために、量子コンピューティングの今後の進歩の道を開く。

Antimicrobial peptides (AMPs) play important roles in cancer, autoimmune diseases, and aging. A critical aspect of AMP functionality is their targeted interaction with pathogen membranes, which often possess altered lipid compositions. Designing AMPs with enhanced therapeutic properties relies on a nuanced understanding of these interactions, which are believed to trigger a rearrangement of these peptides from random coil to alpha-helical conformations, essential for their lytic action. Traditional supercomputing has consistently encountered difficulties in accurately modeling these structural changes, especially within membrane environments, thereby opening an opportunity for more advanced approaches. This study extends an existing quantum computing algorithm to address the complexities of antimicrobial peptide interactions at interfaces. Our approach enables the prediction of the optimal conformation of peptides located in the transition region between hydrophilic and hydrophobic phases, akin to lipid membranes. The new method has been applied to model the structure of three 10-amino-acid-long peptides, each exhibiting hydrophobic, hydrophilic, or amphipathic properties in different media and at interfaces between solvents of different polarity. Notably, our approach does not demand a higher number of qubits compared to simulations in homogeneous media, making it more feasible with current quantum computing resources. Despite existing limitations in computational power and qubit accessibility, our findings demonstrate the significant potential of quantum computing in accurately characterizing complex biomolecular processes, particularly the folding of AMPs at membrane models. This research paves the way for future advances in quantum computing to enhance the accuracy and applicability of biomolecular simulations.
翻訳日:2024-01-11 14:54:52 公開日:2024-01-10
# 文埋め込みに基づく求人広告におけるトランスバーサルスキルの階層的分類

Hierarchical Classification of Transversal Skills in Job Ads Based on Sentence Embeddings ( http://arxiv.org/abs/2401.05073v1 )

ライセンス: Link先を確認
Florin Leon, Marius Gavrilescu, Sabina-Adriana Floria, Alina-Adriana Minea(参考訳) 本稿では,学習モデルを用いて個々の業務記述に必要なスキルを予測することに着目し,業務広告要求と横断スキルセットの相関関係を識別する分類フレームワークを提案する。 このアプローチには、ESCO(European Skills, Competences, Occupations)分類を使用したデータ収集、事前処理、ラベル付けが含まれる。 階層的分類と多ラベル戦略はスキル識別に使用され、拡張技術はデータの不均衡に対処し、モデルの堅牢性を高める。 英語固有の文埋め込みモデルと多言語文埋め込みモデルとの比較により,精度が向上した。 実験ケーススタディでは、ニューラルネットワークの構成、ハイパーパラメータ、クロスバリデーション結果について詳述し、階層的アプローチの有効性と、多言語モデルの欧州の多様な雇用市場への適合性を強調した。 そこで, 求人広告から横断的スキルを階層的に分類する新しい手法を提案する。

This paper proposes a classification framework aimed at identifying correlations between job ad requirements and transversal skill sets, with a focus on predicting the necessary skills for individual job descriptions using a deep learning model. The approach involves data collection, preprocessing, and labeling using ESCO (European Skills, Competences, and Occupations) taxonomy. Hierarchical classification and multi-label strategies are used for skill identification, while augmentation techniques address data imbalance, enhancing model robustness. A comparison between results obtained with English-specific and multi-language sentence embedding models reveals close accuracy. The experimental case studies detail neural network configurations, hyperparameters, and cross-validation results, highlighting the efficacy of the hierarchical approach and the suitability of the multi-language model for the diverse European job market. Thus, a new approach is proposed for the hierarchical classification of transversal skills from job ads.
翻訳日:2024-01-11 14:54:23 公開日:2024-01-10
# 翻訳のアライメント-大規模言語モデルにおける一般的な理解

Aligning Translation-Specific Understanding to General Understanding in Large Language Models ( http://arxiv.org/abs/2401.05072v1 )

ライセンス: Link先を確認
Yichong Huang, Xiaocheng Feng, Baohang Li, Chengpeng Fu, Wenshuai Huo, Ting Liu, Bing Qin(参考訳) 大きな言語モデル(LLM)は驚くべき言語理解と生成能力を示しているが、機械翻訳の分野ではまだ革命的な進歩を遂げていない。 限られた性能の潜在的な原因の1つは、翻訳固有の理解とLLM内部の一般的な理解の相違である。 そこで本研究では, 翻訳固有の理解を一般の理解と整合させるため, 翻訳過程 xiod (cross-lingual interpretation of difficult words) を提案する。 具体的には、xIoDは、翻訳困難な単語の言語間解釈を行い、生成した解釈による翻訳を強化する。 さらに、難解な単語の検出と有用な解釈の生成において、xIoDの課題に取り組むためにQEの外部ツールを再構成する。 我々は,複数の sota 翻訳システムが一貫して過小評価されている場合を含む,自己構築型ベンチマーク challengemt の実験を行う。 実験の結果,3.85 COMET まで改善した xIoD の有効性が示された。

Although large language models (LLMs) have shown surprising language understanding and generation capabilities, they have yet to gain a revolutionary advancement in the field of machine translation. One potential cause of the limited performance is the misalignment between the translation-specific understanding and general understanding inside LLMs. To align the translation-specific understanding to the general one, we propose a novel translation process xIoD (Cross-Lingual Interpretation of Difficult words), explicitly incorporating the general understanding on the content incurring inconsistent understanding to guide the translation. Specifically, xIoD performs the cross-lingual interpretation for the difficult-to-translate words and enhances the translation with the generated interpretations. Furthermore, we reframe the external tools of QE to tackle the challenges of xIoD in the detection of difficult words and the generation of helpful interpretations. We conduct experiments on the self-constructed benchmark ChallengeMT, which includes cases in which multiple SOTA translation systems consistently underperform. Experimental results show the effectiveness of our xIoD, which improves up to +3.85 COMET.
翻訳日:2024-01-11 14:54:07 公開日:2024-01-10
# MISS:マルチクラス解釈スコーリングシステム

MISS: Multiclass Interpretable Scoring Systems ( http://arxiv.org/abs/2401.05069v1 )

ライセンス: Link先を確認
Michal K. Grzeszczyk, Tomasz Trzci\'nski, Arkadiusz Sitek(参考訳) 本稿では,マルチクラス分類問題に対して,単一でスパースでユーザフレンドリーなスコアリングシステムを生成するためのデータ駆動手法であるmiss(multiclass interpretable scoring systems)を構築するための,新しい機械学習手法を提案する。 スコリングシステムは、医療、刑事司法、その他の領域における意思決定支援モデルとして一般的に使われ、予測の解釈可能性と使いやすさが重要である。 以前はslim(supersparse linear integer model)のようなデータ駆動スコアリングの手法はバイナリ分類タスクに限定されており、マルチクラスドメインの拡張は主に1対1の手法で実現されていた。 本手法により得られたスコアはsoftmax関数を介して容易にクラス確率に変換することができる。 我々は,モデルの最適性を証明する尺度である,トレーニング効率を高め,最適性ギャップを減少させる次元性低減とヒューリスティックス手法を示す。 提案手法は,様々な分野のデータセット上で広く評価されており,分類性能指標の点で他の機械学習モデルと競合することを示し,十分なクラス確率を提供する。

In this work, we present a novel, machine-learning approach for constructing Multiclass Interpretable Scoring Systems (MISS) - a fully data-driven methodology for generating single, sparse, and user-friendly scoring systems for multiclass classification problems. Scoring systems are commonly utilized as decision support models in healthcare, criminal justice, and other domains where interpretability of predictions and ease of use are crucial. Prior methods for data-driven scoring, such as SLIM (Supersparse Linear Integer Model), were limited to binary classification tasks and extensions to multiclass domains were primarily accomplished via one-versus-all-type techniques. The scores produced by our method can be easily transformed into class probabilities via the softmax function. We demonstrate techniques for dimensionality reduction and heuristics that enhance the training efficiency and decrease the optimality gap, a measure that can certify the optimality of the model. Our approach has been extensively evaluated on datasets from various domains, and the results indicate that it is competitive with other machine learning models in terms of classification performance metrics and provides well-calibrated class probabilities.
翻訳日:2024-01-11 14:53:49 公開日:2024-01-10
# 自己教師技術を用いた歌手のアイデンティティ表現学習

Singer Identity Representation Learning using Self-Supervised Techniques ( http://arxiv.org/abs/2401.05064v1 )

ライセンス: Link先を確認
Bernardo Torres, Stefan Lattner and Ga\"el Richard(参考訳) 音声データを用いた音声識別表現の作成において重要な進歩を遂げている。 しかし、同じレベルの進歩は歌声では達成されていない。 このギャップを埋めるために,歌唱音声の類似性や合成など,歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。 分離された声帯の膨大な集合上で,様々な自己教師付き学習手法を探索し,訓練中にデータ拡張を適用し,その表現がピッチやコンテンツの変動に不変であることを保証する。 複数のデータセットにまたがるシンガー類似性や識別タスクの表現の質を評価し、特にドメイン外一般化に重点を置いている。 提案手法は, 44.1kHzで動作しながら, 歌唱音声における話者検証とwav2vec 2.0の事前学習ベースラインよりも優れた高品質な埋め込みを生成する。 コードとトレーニングモデルをリリースし、歌声と関連する分野に関するさらなる研究を支援します。

Significant strides have been made in creating voice identity representations using speech data. However, the same level of progress has not been achieved for singing voices. To bridge this gap, we suggest a framework for training singer identity encoders to extract representations suitable for various singing-related tasks, such as singing voice similarity and synthesis. We explore different self-supervised learning techniques on a large collection of isolated vocal tracks and apply data augmentations during training to ensure that the representations are invariant to pitch and content variations. We evaluate the quality of the resulting representations on singer similarity and identification tasks across multiple datasets, with a particular emphasis on out-of-domain generalization. Our proposed framework produces high-quality embeddings that outperform both speaker verification and wav2vec 2.0 pre-trained baselines on singing voice while operating at 44.1 kHz. We release our code and trained models to facilitate further research on singing voice and related areas.
翻訳日:2024-01-11 14:53:29 公開日:2024-01-10
# mutox: 汎用多言語音声に基づく毒性データセットとゼロショット検出器

MuTox: Universal MUltilingual Audio-based TOXicity Dataset and Zero-shot Detector ( http://arxiv.org/abs/2401.05060v1 )

ライセンス: Link先を確認
Marta R. Costa-juss\`a, Mariano Coria Meglioli, Pierre Andrews, David Dale, Prangthip Hansanti, Elahe Kalbassi, Alex Mourachko, Christophe Ropers, Carleigh Wood(参考訳) 音声に基づく自然言語処理における毒性検出の研究は、特に英語以外の言語では、非常に限られている。 これらの制限に対処し、真に多言語音声ベースの毒性検出の基盤となるため、毒性ラベルを持つ最初の多言語音声ベースのデータセットであるMuToxを導入する。 このデータセットは、英語とスペイン語で20,000の音声発話と、他の19の言語で4,000の音声発話で構成されている。 このデータセットの品質を示すために、幅広い言語でゼロショット毒性の検出を可能にする、MuToxオーディオベースの毒性分類器を訓練した。 この分類器は、既存のテキストベースのトレーニング可能な分類器を1%以上のAUCで上回り、言語カバレッジを10倍以上に拡大する。 同じ数の言語をカバーするワードリストベースの分類器と比較して、MuToxは精度とリコールを約2.5倍改善する。 この大幅な改善は、オーディオベースの毒性検出の分野を前進させる MuTox の可能性を示している。

Research in toxicity detection in natural language processing for the speech modality (audio-based) is quite limited, particularly for languages other than English. To address these limitations and lay the groundwork for truly multilingual audio-based toxicity detection, we introduce MuTox, the first highly multilingual audio-based dataset with toxicity labels. The dataset comprises 20,000 audio utterances for English and Spanish, and 4,000 for the other 19 languages. To demonstrate the quality of this dataset, we trained the MuTox audio-based toxicity classifier, which enables zero-shot toxicity detection across a wide range of languages. This classifier outperforms existing text-based trainable classifiers by more than 1% AUC, while expanding the language coverage more than tenfold. When compared to a wordlist-based classifier that covers a similar number of languages, MuTox improves precision and recall by approximately 2.5 times. This significant improvement underscores the potential of MuTox in advancing the field of audio-based toxicity detection.
翻訳日:2024-01-11 14:53:14 公開日:2024-01-10
# ブラインド・モーション・デブロアリングにおける深層学習の応用:現状と今後の展望

Application of Deep Learning in Blind Motion Deblurring: Current Status and Future Prospects ( http://arxiv.org/abs/2401.05055v1 )

ライセンス: Link先を確認
Yawen Xiang, Heng Zhou, Chengyang Li, Fangwei Sun, Zhongbo Li and Yongqiang Xie(参考訳) モーションデブロワーリングはコンピュータビジョンの基本的な問題の一つであり、継続的な注目を集めている。 画像内および画像間におけるぼやけの変動は、ぼやけのカーネルを推定することに依存する非ブラインドなデブロアリング技術に制限を課す。 その結果, ブラインド・モーション・デブロアリングが出現し, 深層学習手法の進歩により, ぼかし型の知識を必要とせず, 鮮明で詳細な画像の復元が図られた。 この分野での進歩にもかかわらず、深層学習に基づくブラインドモーションデブラリングの最近の進歩の包括的な合成が顕著に欠落している。 本稿では,過去6年間に開発されたデータセット,評価指標,手法を網羅し,視覚障害者の深層学習の役割を概観することにより,そのギャップを埋める。 具体的には、まず、動きのぼやけの種類とデブロアリングの基本原理を紹介する。 次に,従来の非ブラインドデブロワーアルゴリズムの欠点を概説し,Deblurringタスクにディープラーニング技術を用いることの利点を強調した。 次に,畳み込みニューラルネットワーク,生成型逆ネットワーク,リカレントニューラルネットワーク,トランスフォーマネットワークなど,異なるバックボーンネットワークに基づく既存のブラインド動作分離手法を分類・要約する。 その後、これらの異なるカテゴリの基本原則を詳述するだけでなく、それらの利点と限界の包括的な要約と比較を提供する。 4つの広く使われているデータセットに対して行われた定性的かつ定量的な実験結果は、SOTA法の性能を更に比較する。 最後に,現在の課題と今後の経路についての分析を行う。 収集されたモデル、ベンチマークデータセット、ソースコードリンク、評価のためのコードはすべてhttps://github.com/VisionVerse/Blind-Motion-Deblurring-Surveyで公開されている。

Motion deblurring is one of the fundamental problems of computer vision and has received continuous attention. The variability in blur, both within and across images, imposes limitations on non-blind deblurring techniques that rely on estimating the blur kernel. As a response, blind motion deblurring has emerged, aiming to restore clear and detailed images without prior knowledge of the blur type, fueled by the advancements in deep learning methodologies. Despite strides in this field, a comprehensive synthesis of recent progress in deep learning-based blind motion deblurring is notably absent. This paper fills that gap by providing an exhaustive overview of the role of deep learning in blind motion deblurring, encompassing datasets, evaluation metrics, and methods developed over the last six years. Specifically, we first introduce the types of motion blur and the fundamental principles of deblurring. Next, we outline the shortcomings of traditional non-blind deblurring algorithms, emphasizing the advantages of employing deep learning techniques for deblurring tasks. Following this, we categorize and summarize existing blind motion deblurring methods based on different backbone networks, including convolutional neural networks, generative adversarial networks, recurrent neural networks, and Transformer networks. Subsequently, we elaborate not only on the fundamental principles of these different categories but also provide a comprehensive summary and comparison of their advantages and limitations. Qualitative and quantitative experimental results conducted on four widely used datasets further compare the performance of SOTA methods. Finally, an analysis of present challenges and future pathways. All collected models, benchmark datasets, source code links, and codes for evaluation have been made publicly available at https://github.com/VisionVerse/Blind-Motion-Deblurring-Survey
翻訳日:2024-01-11 14:52:56 公開日:2024-01-10
# ベイズリスク最小デコードによる多様で高品質なテキストの生成

Generating Diverse and High-Quality Texts by Minimum Bayes Risk Decoding ( http://arxiv.org/abs/2401.05054v1 )

ライセンス: Link先を確認
Yuu Jinnai, Ukyo Honda, Tetsuro Morimura, Peinan Zhang(参考訳) テキスト生成システムにおける最も重要な課題の1つは、正しいだけでなく多様な出力を生成することである。 近年、最小ベイズリスク(MBR)復号法は、復号アルゴリズムの中で最高品質の文を生成することで注目されている。 しかし、様々な出力を生成するために提案されている既存のアルゴリズムは、ビーム探索やランダムサンプリングに基づいており、その出力品質はこれらの基礎となる手法に支えられている。 本稿では,多様性目標をMBRデコーディングに適用することで,多様性向上のためのデコーディングアルゴリズムを開発する。 MBRの2つの変種であるDiverse MBR(DMBR)と$k$-medoids MBR(KMBR)を提案する。 我々はdmbrとkmbrをエンコーダ・デコーダモデルとプロンプトによる大規模言語モデルを用いて様々な有向テキスト生成タスクで評価する。 実験の結果,提案手法は多様なビーム探索およびサンプリングアルゴリズムよりも優れたトレードオフを実現することがわかった。

One of the most important challenges in text generation systems is to produce outputs that are not only correct but also diverse. Recently, Minimum Bayes-Risk (MBR) decoding has gained prominence for generating sentences of the highest quality among the decoding algorithms. However, existing algorithms proposed for generating diverse outputs are predominantly based on beam search or random sampling, thus their output quality is capped by these underlying methods. In this paper, we investigate an alternative approach -- we develop diversity-promoting decoding algorithms by enforcing diversity objectives to MBR decoding. We propose two variants of MBR, Diverse MBR (DMBR) and $k$-medoids MBR (KMBR), methods to generate a set of sentences with high quality and diversity. We evaluate DMBR and KMBR on a variety of directed text generation tasks using encoder-decoder models and a large language model with prompting. The experimental results show that the proposed method achieves a better trade-off than the diverse beam search and sampling algorithms.
翻訳日:2024-01-11 14:52:24 公開日:2024-01-10
# キュービットシュワルツ写像の半群の緩和率に対する普遍的制約

Universal constraint for relaxation rates of semigroups of qubit Schwarz maps ( http://arxiv.org/abs/2401.05051v1 )

ライセンス: Link先を確認
Dariusz Chru\'sci\'nski, Gen Kimura, Farrukh Mukhamedov(参考訳) ユニタリキュービット シュワルツ写像は正写像と完全正写像の間を補間する。 シュワルツの性質を持つユニタリ写像の qubit 半群の緩和速度は、完全正の半群で知られている対応する制約の修正を与える普遍的制約を満たすことが示されている。 図示として、パウリの力学写像と位相共変ダイナミクスの2つのパラダイム的キュービット半群を考える。 この結果は2つの興味深い意味を持つ: クビットシュワルツ写像のスペクトルに対して普遍的な制約を与え、シュヴァルツのクビット写像がマルコフ写像であるために必要な条件を生じさせる。

Unital qubit Schwarz maps interpolate between positive and completely positive maps. It is shown that relaxation rates of qubit semigroups of unital maps enjoying Schwarz property satisfy the universal constraint which provides a modification of the corresponding constraint known for completely positive semigroups. As an illustration we consider two paradigmatic qubit semigroups: Pauli dynamical maps and phase covariant dynamics. This result has two interesting implications: it provides a universal constraint for the spectra of qubit Schwarz maps and gives rise to a necessary condition for a Schwarz qubit map to be Markovian.
翻訳日:2024-01-11 14:52:05 公開日:2024-01-10
# 3粒子ジェネリックFermi-Pasta-Ulam-Tsingouモデルのカオスと量子化 I:状態密度とスペクトル統計

Chaos and quantization of the three-particle generic Fermi-Pasta-Ulam-Tsingou model I: Density of states and spectral statistics ( http://arxiv.org/abs/2401.05188v1 )

ライセンス: Link先を確認
Hua Yan and Marko Robnik(参考訳) 3粒子フェルミ・パスタ・ウラム・ツィンゴ(fput)モデルの混合型古典力学を量子力学系と関連づけて検討し、この系における量子カオスの側面に関する新しい結果を示す。 まず、一般的なN粒子FPUT系から正規モード表現への変換を導出する。 次に,三粒子フラットの場合を特殊化し,トーマス・フェルミ則を用いて状態の半古典的エネルギー密度とその微分を解析的に導出する。 この結果は、クリロフ部分空間法から得られる数値エネルギー密度と、量子典型法によって得られるエネルギー密度と完全に一致している。 ここでは, エネルギー準位統計(レベル間隔とスペーシング比)に着目し, 古典力学系(ほぼ完全正則, 完全にカオス, 混合型)に注目する。 我々は,混合型体制におけるポアソン統計,GOE統計,ベリー・ロブニク・ブロディ(BRB)統計を明確に確認した。 BRBレベルの間隔分布は数値データに完全に適合していることがわかった。 抽出された量子ベリー・ロブニクパラメータは1%以下の古典値に一致することが判明した。 古典位相空間構造(Poincar\'e および SALI プロット)に関して、カオス固有状態の局所化の役割とその出現について論じ、その詳細を論文 II に示し、量子位相空間におけるフシミ函数の構造と統計的性質について研究する。

We study the mixed-type classical dynamics of the three-particle Fermi-Pasta-Ulam-Tsingou (FPUT) model in relationship with its quantum counterpart, and present new results on aspects of quantum chaos in this system. First we derive for the general N-particle FPUT system the transformation to the normal mode representation. Then we specialize to the three-particle FPUT case, and derive analytically the semiclassical energy density of states, and its derivatives in which different singularies are determined, using the Thomas-Fermi rule. The result perfectly agrees with the numerical energy density from the Krylov subspace method, as well as with the energy density obtained by the method of quantum typicality. Here, in paper I, we concentrate on the energy level statistics (level spacing and spacing ratios), in all classical dynamical regimes of interest: the almost entirely regular, the entirely chaotic, and the mixed-type regimes. We clearly confirm, correspondingly, the Poissonian statistics, the GOE statistics, and the Berry-Robnik-Brody (BRB) statistics in the mixed-type regime. It is found that the BRB level spacing distribution perfectly fits the numerical data. The extracted quantum Berry-Robnik parameter is found to agree with the classical value within better than one percent. We discuss the role of localization of chaotic eigenstates, and its appearances, in relation to the classical phase space structure (Poincar\'e and SALI plots), whose details will be presented in paper II, where the structure and the statistical properties of the Husimi functions in the quantum phase space will be studied.
翻訳日:2024-01-11 14:46:49 公開日:2024-01-10
# CrossDiff: クロス予測拡散モデルによる自己監督型パンシャーペン表現の探索

CrossDiff: Exploring Self-Supervised Representation of Pansharpening via Cross-Predictive Diffusion Model ( http://arxiv.org/abs/2401.05153v1 )

ライセンス: Link先を確認
Yinghui Xing, Litao Qu, ShiZhou Zhang, Xiuwei Zhang, Yanning Zhang(参考訳) パンクロマティック(PAN)画像とそれに対応するマルチスペクトル(MS)画像の融合は、PANの空間的詳細とMSのスペクトル情報とを融合することを目的としたパンシャーペン(pansharpening)とも呼ばれる。 元のMSとPANの画像を入力として取ると、スケールの変動により常に準最適結果が得られる。 本稿では,クロスディフ(CrossDiff)と呼ばれる相互予測拡散モデルの設計により,パンシャルペンの自己制御表現を提案する。 2段階の訓練がある。 第1段階では条件付きDDPMに基づいてUNet構造を事前訓練するクロス予測プレテキストタスクを導入し,第2段階ではUNetsのエンコーダを凍結してPANとMSから直接空間的・スペクトル的特徴を抽出し,融合ヘッドのみがパンシャーピングタスクに適応するように訓練する。 広範な実験により,提案手法の有効性と優越性が,教師なし法と教師なし法と比較された。 さらに、クロスセンサ実験は、他の衛星のデータセットに対する自己教師付き表現学習者の一般化能力を検証する。 再現性のためにコードをリリースします。

Fusion of a panchromatic (PAN) image and corresponding multispectral (MS) image is also known as pansharpening, which aims to combine abundant spatial details of PAN and spectral information of MS. Due to the absence of high-resolution MS images, available deep-learning-based methods usually follow the paradigm of training at reduced resolution and testing at both reduced and full resolution. When taking original MS and PAN images as inputs, they always obtain sub-optimal results due to the scale variation. In this paper, we propose to explore the self-supervised representation of pansharpening by designing a cross-predictive diffusion model, named CrossDiff. It has two-stage training. In the first stage, we introduce a cross-predictive pretext task to pre-train the UNet structure based on conditional DDPM, while in the second stage, the encoders of the UNets are frozen to directly extract spatial and spectral features from PAN and MS, and only the fusion head is trained to adapt for pansharpening task. Extensive experiments show the effectiveness and superiority of the proposed model compared with state-of-the-art supervised and unsupervised methods. Besides, the cross-sensor experiments also verify the generalization ability of proposed self-supervised representation learners for other satellite's datasets. We will release our code for reproducibility.
翻訳日:2024-01-11 14:46:16 公開日:2024-01-10
# フェデレーション・アンラーニング:方法論,設計ガイドライン,評価指標に関する調査

Federated Unlearning: A Survey on Methods, Design Guidelines, and Evaluation Metrics ( http://arxiv.org/abs/2401.05146v1 )

ライセンス: Link先を確認
Nicol\`o Romandini, Alessio Mora, Carlo Mazzocca, Rebecca Montanari, Paolo Bellavista(参考訳) フェデレートラーニング(FL)は、複数のパーティにわたる機械学習(ML)モデルの協調トレーニングを可能にし、データをローカルに保存することで、ユーザのプライバシと機関のプライバシの保存を容易にする。 生データを集中化する代わりに、flは局所的に洗練されたモデルパラメータを交換してグローバルモデルをインクリメンタルに構築する。 FLは欧州一般データ保護規則(GDPR)などの新たな規則に準拠しているが、この文脈で忘れられる権利を保証することは、FL参加者が学習モデルからデータコントリビューションを削除できるようにすることである。 さらに、悪意のあるクライアントは、例えば特別なデータ例で誤った予測を生成するなどして、グローバルモデルにバックドアを注入することができる。 そのため、既に取得した「良い」知識を損なうことなく、個人が自分のデータを削除し、集約後も悪意のある貢献を消すことができることを保証できるメカニズムが必要となる。 これは、完全なモデルの再トレーニングなしに、特定のクライアントのコントリビューションを効率的に除去できる、新しいフェデレート・アンラーニング(FU)アルゴリズムの必要性を強調している。 本調査は,効率的なfuスキームの設計・実装のための背景概念,実証的エビデンス,実践的ガイドラインを提供する。 本研究は、FLにおける未学習評価指標の詳細な分析と、新しい分類法に基づく最先端のFUコントリビューションを分類した詳細な文献レビューを含む。 最後に、この分野で最も有望な研究の方向性を特定することで、最も重要かつまだオープンな技術的課題を概説する。

Federated Learning (FL) enables collaborative training of a Machine Learning (ML) model across multiple parties, facilitating the preservation of users' and institutions' privacy by keeping data stored locally. Instead of centralizing raw data, FL exchanges locally refined model parameters to build a global model incrementally. While FL is more compliant with emerging regulations such as the European General Data Protection Regulation (GDPR), ensuring the right to be forgotten in this context - allowing FL participants to remove their data contributions from the learned model - remains unclear. In addition, it is recognized that malicious clients may inject backdoors into the global model through updates, e.g. to generate mispredictions on specially crafted data examples. Consequently, there is the need for mechanisms that can guarantee individuals the possibility to remove their data and erase malicious contributions even after aggregation, without compromising the already acquired "good" knowledge. This highlights the necessity for novel Federated Unlearning (FU) algorithms, which can efficiently remove specific clients' contributions without full model retraining. This survey provides background concepts, empirical evidence, and practical guidelines to design/implement efficient FU schemes. Our study includes a detailed analysis of the metrics for evaluating unlearning in FL and presents an in-depth literature review categorizing state-of-the-art FU contributions under a novel taxonomy. Finally, we outline the most relevant and still open technical challenges, by identifying the most promising research directions in the field.
翻訳日:2024-01-11 14:45:51 公開日:2024-01-10
# 翻訳研究を促進する機械学習--認知症研究における特許と治験の予測

Machine Learning to Promote Translational Research: Predicting Patent and Clinical Trial Inclusion in Dementia Research ( http://arxiv.org/abs/2401.05145v1 )

ライセンス: Link先を確認
Matilda Beinat, Julian Beinat, Mohammed Shoaib, Jorge Gomez Magenti(参考訳) 認知症は、2040年までに英国で6100万人に影響を及ぼし、年間2500億ポンドの費用がかかると予想されている。 機械学習を用いた認知症研究の翻訳可能性を予測する先駆的な試みである本研究は、認知症が社会的・経済的に重大な影響を及ぼすにもかかわらず、基礎的な発見を実践的な応用にゆっくりと翻訳することを目指している。 1990-2023年のイギリス認知症研究出版物43,091件、特にメタデータ(著者、出版年など)、論文のコンセプト、および論文要約からデータを抽出するためにDmensionsデータベースを使用した。 機械学習のためのデータを作成するために、1つのホットエンコーディングや単語埋め込みなどの手法を適用した。 今後の特許や臨床試験で出版物が引用されるかどうかを予測するために,catboost分類器を訓練した。 私たちはいくつかのモデルのバリエーションを訓練した。 メタデータ、概念、抽象埋め込みを組み合わせたモデルは、最も高い性能を得た:特許予測では、受信者の動作特性曲線(auroc)の下の領域は 0.84 と 77.17% の精度であり、臨床試験の予測では 0.81 と 75.11% の精度である。 その結果、現在の研究手法に機械学習を統合することで、見過ごされた出版物を発見でき、将来的な研究の特定を迅速化し、現実のインパクトを予測し、翻訳戦略を導くことで認知症研究を変革する可能性が示された。

Projected to impact 1.6 million people in the UK by 2040 and costing {\pounds}25 billion annually, dementia presents a growing challenge to society. This study, a pioneering effort to predict the translational potential of dementia research using machine learning, hopes to address the slow translation of fundamental discoveries into practical applications despite dementia's significant societal and economic impact. We used the Dimensions database to extract data from 43,091 UK dementia research publications between the years 1990-2023, specifically metadata (authors, publication year etc.), concepts mentioned in the paper, and the paper abstract. To prepare the data for machine learning we applied methods such as one hot encoding and/or word embeddings. We trained a CatBoost Classifier to predict if a publication will be cited in a future patent or clinical trial. We trained several model variations. The model combining metadata, concept, and abstract embeddings yielded the highest performance: for patent predictions, an Area Under the Receiver Operating Characteristic Curve (AUROC) of 0.84 and 77.17% accuracy; for clinical trial predictions, an AUROC of 0.81 and 75.11% accuracy. The results demonstrate that integrating machine learning within current research methodologies can uncover overlooked publications, expediting the identification of promising research and potentially transforming dementia research by predicting real-world impact and guiding translational strategies.
翻訳日:2024-01-11 14:45:22 公開日:2024-01-10
# 糖尿病網膜症自動診断のための光学コヒーレンス断層撮影の2次元多視点解析

DISCOVER: 2-D Multiview Summarization of Optical Coherence Tomography Angiography for Automatic Diabetic Retinopathy Diagnosis ( http://arxiv.org/abs/2401.05137v1 )

ライセンス: Link先を確認
Mostafa El Habib Daho, Yihao Li, Rachid Zeghlache, Hugo Le Boit\'e, Pierre Deman, Laurent Borderie, Hugang Ren, Niranchana Mannivanan, Capucine Lepicard, B\'eatrice Cochener, Aude Couturier, Ramin Tadayoni, Pierre-Henri Conze, Mathieu Lamard, Gwenol\'e Quellec(参考訳) 糖尿病網膜症(英: Diabetic Retinopathy、DR)は、糖尿病の眼合併症である。 伝統的に、DRはカラーファンドス撮影(CFP)を用いて監視される。 しかし、CFPに基づくDR分類は予測力に乏しく、最適以下のDR管理をもたらす。 オプティカルコヒーレンス・トモグラフィー(OCTA)は、より広い視野で構造的および機能的な情報(血液の流れ)を提供する最近の3次元画像モダリティである。 本稿では3次元OCTAを用いたDR重度自動評価について検討する。 このタスクの簡単な解決策は、3Dニューラルネットワーク分類器である。 しかし、3Dアーキテクチャは多数のパラメータを持ち、通常多くのトレーニングサンプルを必要とする。 より軽量なソリューションは、2次元のニューラルネットワーク分類器を使用して、2次元の面(あるいは前面)投影と2次元の断面スライスを処理する。 このようなアプローチは、眼科医がOCTAの取得を分析する方法を模倣します。 1)面内フローマップは、しばしば血管ゾーンや血管新生を検出するために使われ、 2) 横断スライスを一般的に分析し, 黄斑浮腫を検出する。 しかし、任意のデータ削減や選択は情報損失をもたらす可能性がある。 これにより、OCTAボリュームを2次元画像で最適に要約する2つの補完戦略が提案される。 1)深層学習により最適化されたパラメトリックな面投影 2)傾斜に基づく帰属によって制御される断面スライス選択過程。 完全な要約とDR分類パイプラインは、端から端までトレーニングされている。 自動2次元要約はビューアに表示したり、レポートに印刷して決定を支援することができる。 提案した2次元要約および分類パイプラインは,解釈可能性の向上による直接3次元分類よりも優れていることを示す。

Diabetic Retinopathy (DR), an ocular complication of diabetes, is a leading cause of blindness worldwide. Traditionally, DR is monitored using Color Fundus Photography (CFP), a widespread 2-D imaging modality. However, DR classifications based on CFP have poor predictive power, resulting in suboptimal DR management. Optical Coherence Tomography Angiography (OCTA) is a recent 3-D imaging modality offering enhanced structural and functional information (blood flow) with a wider field of view. This paper investigates automatic DR severity assessment using 3-D OCTA. A straightforward solution to this task is a 3-D neural network classifier. However, 3-D architectures have numerous parameters and typically require many training samples. A lighter solution consists in using 2-D neural network classifiers processing 2-D en-face (or frontal) projections and/or 2-D cross-sectional slices. Such an approach mimics the way ophthalmologists analyze OCTA acquisitions: 1) en-face flow maps are often used to detect avascular zones and neovascularization, and 2) cross-sectional slices are commonly analyzed to detect macular edemas, for instance. However, arbitrary data reduction or selection might result in information loss. Two complementary strategies are thus proposed to optimally summarize OCTA volumes with 2-D images: 1) a parametric en-face projection optimized through deep learning and 2) a cross-sectional slice selection process controlled through gradient-based attribution. The full summarization and DR classification pipeline is trained from end to end. The automatic 2-D summary can be displayed in a viewer or printed in a report to support the decision. We show that the proposed 2-D summarization and classification pipeline outperforms direct 3-D classification with the advantage of improved interpretability.
翻訳日:2024-01-11 14:44:53 公開日:2024-01-10
# コードレビュー自動化:最先端の強みと弱み

Code Review Automation: Strengths and Weaknesses of the State of the Art ( http://arxiv.org/abs/2401.05136v1 )

ライセンス: Link先を確認
Rosalia Tufano, Ozren Dabi\'c, Antonio Mastropaolo, Matteo Ciniselli, and Gabriele Bavota(参考訳) コードレビューの自動化は、コスト削減を目的として、いくつかの研究者によって取り組まれている。 ソフトウェアエンジニアリングにおけるディープラーニングの採用によって、開発者の生成的なタスクを模倣するテクニックや、レビュアーが行うようなコード変更へのコメント、コード修正によるレビュアーのコメントへの対処といった、新たな境界への自動化が進められた。 これらのテクニックのパフォーマンスは、例えば、正しい予測が生成されるテストセットのインスタンスの割合など、定量的なメトリクスによって評価され、多くのオープン質問がテクニックの能力に残される。 例えば、10%のケースでレビューアのコメントに正しく対処できるアプローチを知っていれば、レビューアから何を聞いたのかを知らずに、ほとんど価値がない。 本稿では、上記の2つのタスクにおいて、3つのコードレビュー自動化技術が成功または失敗する傾向にあるケースを特徴付けることを目的とする。 3つの手法によって生成された正しい予測と間違った予測を手作業で分析し、合計2,291件の検査された予測を手作業で分析する。 この分析のアウトプットは2つの分類法であり、それぞれのタスクに対して、実験されたテクニックが成功するか失敗する傾向にあるコードのタイプが、将来の作業の領域を指し示している。 手動分析の結果、実験されたテクニックのトレーニングとテストに使用されるデータセットのいくつかの問題も特定できた。 最後に、コードレビュー自動化に特化した技術の研究の重要性を、汎用の大規模言語モデルであるChatGPTと比較し、ChatGPTが人間のレビュアーとしてコードにコメントするのに苦労していることを見出した。

The automation of code review has been tackled by several researchers with the goal of reducing its cost. The adoption of deep learning in software engineering pushed the automation to new boundaries, with techniques imitating developers in generative tasks, such as commenting on a code change as a reviewer would do or addressing a reviewer's comment by modifying code. The performance of these techniques is usually assessed through quantitative metrics, e.g., the percentage of instances in the test set for which correct predictions are generated, leaving many open questions on the techniques' capabilities. For example, knowing that an approach is able to correctly address a reviewer's comment in 10% of cases is of little value without knowing what was asked by the reviewer: What if in all successful cases the code change required to address the comment was just the removal of an empty line? In this paper we aim at characterizing the cases in which three code review automation techniques tend to succeed or fail in the two above-described tasks. The study has a strong qualitative focus, with ~105 man-hours of manual inspection invested in manually analyzing correct and wrong predictions generated by the three techniques, for a total of 2,291 inspected predictions. The output of this analysis are two taxonomies reporting, for each of the two tasks, the types of code changes on which the experimented techniques tend to succeed or to fail, pointing to areas for future work. A result of our manual analysis was also the identification of several issues in the datasets used to train and test the experimented techniques. Finally, we assess the importance of researching in techniques specialized for code review automation by comparing their performance with ChatGPT, a general purpose large language model, finding that ChatGPT struggles in commenting code as a human reviewer would do.
翻訳日:2024-01-11 14:44:30 公開日:2024-01-10
# はい、これは私が探していたものです! マルチモーダル医療相談の概要作成に向けて

Yes, this is what I was looking for! Towards Multi-modal Medical Consultation Concern Summary Generation ( http://arxiv.org/abs/2401.05134v1 )

ライセンス: Link先を確認
Abhisek Tiwari, Shreyangshu Bera, Sriparna Saha, Pushpak Bhattacharyya, Samrat Ghosh(参考訳) ここ数年、医療関連のタスクにおけるインターネットの利用は、飛躍と限界によって増大し、情報の効率的な管理と処理において、その効率的な利用を確保する上での課題となっている。 感情的な混乱と心理的な課題の瞬間に、私たちはしばしばインターネットを最初の支援源として利用し、関連する社会的汚職のために他人と感情を議論することよりも、これを選択します。 本稿では,マルチモーダル・メディカル・アセスメント・サマリー(MMCS)の新たな課題を提案する。 患者のジェスチャーや表情などの非言語的手がかりは、患者の懸念を正確に識別するのに役立つ。 医師は患者の健康状態を適切に記述するために、年齢や性別といった患者の個人情報も考慮している。 患者の個人的状況と視覚的ジェスチャーの潜在的有効性から, トランスフォーマーベースのマルチタスク, マルチモーダルな意図認識, 医療関係要約生成システム(IR-MMCSG)を提案する。 さらに,医師・患者相談における意図認識と医療関係要約生成のためのマルチタスキングフレームワークを提案する。 本研究は,医療関係の要約,意図,患者個人情報,医師の推薦,キーワードを付加した患者医師相談を含む,最初のマルチモーダル医療関係要約生成コーパスを構築した。 私たちの実験と分析は (a)意図の特定及び医学的関心事要約作成における患者の表現・行動とその個人情報の意義 b) 意図認識と患者の医療関連事項の要約生成の相関性 データセットとソースコードはhttps://github.com/NLP-RL/MMCSGで公開されている。

Over the past few years, the use of the Internet for healthcare-related tasks has grown by leaps and bounds, posing a challenge in effectively managing and processing information to ensure its efficient utilization. During moments of emotional turmoil and psychological challenges, we frequently turn to the internet as our initial source of support, choosing this over discussing our feelings with others due to the associated social stigma. In this paper, we propose a new task of multi-modal medical concern summary (MMCS) generation, which provides a short and precise summary of patients' major concerns brought up during the consultation. Nonverbal cues, such as patients' gestures and facial expressions, aid in accurately identifying patients' concerns. Doctors also consider patients' personal information, such as age and gender, in order to describe the medical condition appropriately. Motivated by the potential efficacy of patients' personal context and visual gestures, we propose a transformer-based multi-task, multi-modal intent-recognition, and medical concern summary generation (IR-MMCSG) system. Furthermore, we propose a multitasking framework for intent recognition and medical concern summary generation for doctor-patient consultations. We construct the first multi-modal medical concern summary generation (MM-MediConSummation) corpus, which includes patient-doctor consultations annotated with medical concern summaries, intents, patient personal information, doctor's recommendations, and keywords. Our experiments and analysis demonstrate (a) the significant role of patients' expressions/gestures and their personal information in intent identification and medical concern summary generation, and (b) the strong correlation between intent recognition and patients' medical concern summary generation The dataset and source code are available at https://github.com/NLP-RL/MMCSG.
翻訳日:2024-01-11 14:44:00 公開日:2024-01-10
# 対称ゼロサムゲームを超えたニューラル集団学習

Neural Population Learning beyond Symmetric Zero-sum Games ( http://arxiv.org/abs/2401.05133v1 )

ライセンス: Link先を確認
Siqi Liu, Luke Marris, Marc Lanctot, Georgios Piliouras, Joel Z. Leibo, Nicolas Heess(参考訳) 本研究では,n-player general-sumゲーム,特に複雑な visuomotor スキルを有するゲームにおける平衡を求めるための計算効率の高い手法について検討した。 計算上または理論上、この設定において既存の手法がいかに苦しむかを示す。 次に,NuPL-JPSROを導入する。これは,スキルの伝達学習の恩恵を受け,ゲームの粗相関平衡(CCE)に収束するニューラル集団学習アルゴリズムである。 我々は,OpenSpielのゲームスイートに経験的収束を示し,正確なゲームソルバによる厳密な検証を行った。 次に、複雑なドメインにNeuPL-JPSROをデプロイし、MuJoCo制御ドメインにおける適応調整とキャプチャー・ザ・フラッグにおけるスキル転送を実現する。 本研究は,均衡収束型集団学習を大規模かつ汎用的に実施できることを示し,混合動機を持つ異種プレイヤー間の実世界のゲーム解決への道を開く。

We study computationally efficient methods for finding equilibria in n-player general-sum games, specifically ones that afford complex visuomotor skills. We show how existing methods would struggle in this setting, either computationally or in theory. We then introduce NeuPL-JPSRO, a neural population learning algorithm that benefits from transfer learning of skills and converges to a Coarse Correlated Equilibrium (CCE) of the game. We show empirical convergence in a suite of OpenSpiel games, validated rigorously by exact game solvers. We then deploy NeuPL-JPSRO to complex domains, where our approach enables adaptive coordination in a MuJoCo control domain and skill transfer in capture-the-flag. Our work shows that equilibrium convergent population learning can be implemented at scale and in generality, paving the way towards solving real-world games between heterogeneous players with mixed motives.
翻訳日:2024-01-11 14:43:28 公開日:2024-01-10
# 強い光場に結合した rydberg 分子

Rydberg molecules bound by strong light fields ( http://arxiv.org/abs/2401.05129v1 )

ライセンス: Link先を確認
Simon Hollerith, Valentin Walther, Kritsana Srakaew, David Wei, Daniel Adler, Suchita Agrawal, Pascal Weckesser, Immanuel Bloch, Johannes Zeiher(参考訳) 孤立量子状態と連続体とのカップリングは通常、デコヒーレンスと寿命の減少と関連している。 ここでは、Rydberg原子の弱い有界対であるRydbergマクロ二量体がこの散逸機構を克服し、代わりに自由運動状態の連続体で有界状態を形成することを実証する。 これは分子状態における非常に遅い振動運動と、相互作用しない連続体への光結合のユニークな組み合わせによって実現される。 強い結合の条件下では、異なる共鳴の出現を観察し、ファノモデルの中でそれらを説明する。 格子上に配置された原子に対して、強い連続体カップリングを予測して、2つ以上の原子からなる分子を安定化させ、量子ガス顕微鏡で原子損失相関を観測することで、それらの第1のシグネチャを見つける。 本研究は, 強い光-物質相互作用を用いて脱コヒーレンスを制御し, 多原子分子を結合する興味深い機構を示す。

The coupling of an isolated quantum state to a continuum is typically associated with decoherence and decreased lifetime. Here, we demonstrate that Rydberg macrodimers, weakly bound pairs of Rydberg atoms, can overcome this dissipative mechanism and instead form bound states with the continuum of free motional states. This is enabled by the unique combination of extraordinarily slow vibrational motion in the molecular state and the optical coupling to a non-interacting continuum. Under conditions of strong coupling, we observe the emergence of distinct resonances and explain them within a Fano model. For atoms arranged on a lattice, we predict the strong continuum coupling to even stabilize molecules consisting of more than two atoms and find first signatures of these by observing atom loss correlations using a quantum gas microscope. Our results present an intriguing mechanism to control decoherence and bind multiatomic molecules using strong light-matter interactions.
翻訳日:2024-01-11 14:43:12 公開日:2024-01-10
# プライバシー保護型視覚変換器のドメイン適応によるファインチューニング

Efficient Fine-Tuning with Domain Adaptation for Privacy-Preserving Vision Transformer ( http://arxiv.org/abs/2401.05126v1 )

ライセンス: Link先を確認
Teru Nagamori, Sayaka Shiota, Hitoshi Kiya(参考訳) 視覚変換器(ViT)を用いたプライバシー保護型ディープニューラルネットワーク(DNN)を提案する。 本手法は,視覚的に保護された画像を用いてモデルのトレーニングやテストを行うだけでなく,暗号化画像の使用による性能低下を回避できるが,従来の手法では画像暗号化の影響を回避できない。 ドメイン適応法は、暗号化された画像でViTを効率的に微調整する。 実験では,CIFAR-10 と ImageNet データセットにおける画像分類タスクにおいて,分類精度の観点から従来の手法より優れていることを示す。

We propose a novel method for privacy-preserving deep neural networks (DNNs) with the Vision Transformer (ViT). The method allows us not only to train models and test with visually protected images but to also avoid the performance degradation caused from the use of encrypted images, whereas conventional methods cannot avoid the influence of image encryption. A domain adaptation method is used to efficiently fine-tune ViT with encrypted images. In experiments, the method is demonstrated to outperform conventional methods in an image classification task on the CIFAR-10 and ImageNet datasets in terms of classification accuracy.
翻訳日:2024-01-11 14:42:54 公開日:2024-01-10
# BELHD: Homonoym Disambiguation によるバイオメディカルエンティティリンクの改善

BELHD: Improving Biomedical Entity Linking with Homonoym Disambiguation ( http://arxiv.org/abs/2401.05125v1 )

ライセンス: Link先を確認
Samuele Garda and Ulf Leser(参考訳) バイオメディカル・エンティティ・リンク(英: Biomedical entity Linking、BEL)は、知識ベース(KB)に言及するエンティティの基盤となるタスクである。 タスクに対する一般的なアプローチは、名前に基づくメソッド、すなわち、特定の言及に対してKBの中で最も適切な名前を特定するメソッドである。 しかし、これらのメソッドはKB名を直接返すため、同じ名前を共有する異なるKBエンティティなど、同義語には対応できない。 これはパフォーマンスに大きく影響し、特にKBでは、同義語が大量のエンティティの言及(UMLSやNCBI Geneなど)を反映している。 そこで我々は,この課題に対処する新しい名前ベース手法であるBELHD(Biomedical Entity Linking with Homonym Disambiguation)を提案する。 特に、belhdは2つの重要な拡張を導入したbiosyn (sung et al.,2020)モデルに基づいている。 まず、KBの前処理を行い、自動的に選択された曖昧な文字列で同義語を拡張し、ユニークなリンク決定を強制する。 第2に,コントラスト学習の候補を選択するための新しい戦略である候補共有を導入し,総合的な学習信号を強化する。 10コーパスと5つのエンティティタイプを用いた実験では、BELHDは最先端アプローチで改善され、平均4.55ppリコール@1で6対10コーパスで最高の結果が得られた。 さらに、KB前処理はコア予測モデルに直交しており、生成名に基づくBELアプローチであるGenBioEL(Yuan et al, 2022)を例示する他の手法も改善できる。 コードは以下のとおりである。

Biomedical entity linking (BEL) is the task of grounding entity mentions to a knowledge base (KB). A popular approach to the task are name-based methods, i.e. those identifying the most appropriate name in the KB for a given mention, either via dense retrieval or autoregressive modeling. However, as these methods directly return KB names, they cannot cope with homonyms, i.e. different KB entities sharing the exact same name. This significantly affects their performance, especially for KBs where homonyms account for a large amount of entity mentions (e.g. UMLS and NCBI Gene). We therefore present BELHD (Biomedical Entity Linking with Homonym Disambiguation), a new name-based method that copes with this challenge. Specifically, BELHD builds upon the BioSyn (Sung et al.,2020) model introducing two crucial extensions. First, it performs a preprocessing of the KB in which it expands homonyms with an automatically chosen disambiguating string, thus enforcing unique linking decisions. Second, we introduce candidate sharing, a novel strategy to select candidates for contrastive learning that enhances the overall training signal. Experiments with 10 corpora and five entity types show that BELHD improves upon state-of-the-art approaches, achieving the best results in 6 out 10 corpora with an average improvement of 4.55pp recall@1. Furthermore, the KB preprocessing is orthogonal to the core prediction model and thus can also improve other methods, which we exemplify for GenBioEL (Yuan et al, 2022), a generative name-based BEL approach. Code is available at: link added upon publication.
翻訳日:2024-01-11 14:42:44 公開日:2024-01-10
# 持続可能なコンピューティングのためのフォトニクス

Photonics for Sustainable Computing ( http://arxiv.org/abs/2401.05121v1 )

ライセンス: Link先を確認
Farbin Fayza, Satyavolu Papa Rao, Darius Bunandar, Udit Gupta, Ajay Joshi(参考訳) フォトニック集積回路は、光トランシーバー、LIDAR、バイオセンシング、フォトニック量子コンピューティング、機械学習(ML)など、様々な用途で使われている。 特に、MLモデルのサイズが指数関数的に大きくなるにつれて、フォトニクスベースの加速器は、CMOSベースの加速器よりも数桁高いエネルギー効率でML推論を行うことができるため、持続可能なソリューションとして特別な注目を集めている。 しかし、近年の研究では、ハードウェア製造とインフラがコンピュータ装置の炭素フットプリントに大きく貢献し、使用時に発生する排出量を超越していることが示されている。 例えば、製造プロセスは、2019年のAppleの二酸化炭素排出量の74%を占めている。 このことは、私たちがフォトニクスの具現化(製造)と運転する炭素コストの両方を考慮すると、持続可能な未来への道のりは本当にあり得るのだろうか? そこで,本稿では,フォトニクスチップの炭素フットプリントモデルを構築し,フォトニクスベースの加速器であるADEPTのケーススタディにより,フォトニクスベースの加速器の持続可能性について検討する。 分析の結果、光子はエネルギー効率が高く、28 nm cmosよりも単位面積当たりの炭素製造コストが少なくとも4$\times (4$\times$)低減できることがわかった。

Photonic integrated circuits are finding use in a variety of applications including optical transceivers, LIDAR, bio-sensing, photonic quantum computing, and Machine Learning (ML). In particular, with the exponentially increasing sizes of ML models, photonics-based accelerators are getting special attention as a sustainable solution because they can perform ML inferences with multiple orders of magnitude higher energy efficiency than CMOS-based accelerators. However, recent studies have shown that hardware manufacturing and infrastructure contribute significantly to the carbon footprint of computing devices, even surpassing the emissions generated during their use. For example, the manufacturing process accounts for 74% of the total carbon emissions from Apple in 2019. This prompts us to ask -- if we consider both the embodied (manufacturing) and operational carbon cost of photonics, is it indeed a viable avenue for a sustainable future? So, in this paper, we build a carbon footprint model for photonic chips and investigate the sustainability of photonics-based accelerators by conducting a case study on ADEPT, a photonics-based accelerator for deep neural network inference. Our analysis shows that photonics can reduce both operational and embodied carbon footprints with its high energy efficiency and at least 4$\times$ less fabrication carbon cost per unit area than 28 nm CMOS.
翻訳日:2024-01-11 14:42:10 公開日:2024-01-10
# 人間とAIの相互作用を解き放つ:インタラクションプリミティブからデザイン空間へ

Unpacking Human-AI interactions: From interaction primitives to a design space ( http://arxiv.org/abs/2401.05115v1 )

ライセンス: Link先を確認
Kostas Tsiakas and Dave Murray-Rust(参考訳) 本稿では,ユーザとAIシステム間のインタラクションを規定するインタラクションプリミティブのセットを構築することで,人間-AIインタラクションのための半形式的な設計空間を構築することを目的とする。 これらのプリミティブを、人間とai/mlモデル間のメッセージ交換のための抽象的な仕様を提供し、目的のあるインタラクションを実行するための一連のインタラクションパターンに組み合わせる方法を示します。 第一に、既存のプラクティスのコンパクトな一般化を提供することで、システム間の相互作用行動の類似性と相違を強調すること、第二に、特にモデルとのインタラクションの可能性の空間を開くことによって、新しいシステムの作成をサポートすることである。 本稿では,ヒューマン・イン・ザ・ループ,説明可能なAI,ハイブリッド・インテリジェンスと協調学習アプローチなど,HAIインタラクションの設計と実装に関連するフレームワーク,ガイドライン,分類に関する短い文献レビューを紹介する。 文献レビューから,特定のモデル固有のデータ型の提供と要求という観点から情報交換を記述する語彙を定義する。 この語彙に基づき、人間とモデル間のインタラクションのためのメッセージパッシングモデルが提示され、既存のシステムとアプローチを説明することができる。 最後に、これを共通の相互作用構造をキャプチャする中間層構造として設計パターンに組み込む。 我々は,この手法が人間とAIのインタラクションのための設計空間にどのように適用され,設計の新たな可能性を生み出し,実装上の問題や関心事の追跡を行うかについて議論する。

This paper aims to develop a semi-formal design space for Human-AI interactions, by building a set of interaction primitives which specify the communication between users and AI systems during their interaction. We show how these primitives can be combined into a set of interaction patterns which can provide an abstract specification for exchanging messages between humans and AI/ML models to carry out purposeful interactions. The motivation behind this is twofold: firstly, to provide a compact generalisation of existing practices, that highlights the similarities and differences between systems in terms of their interaction behaviours; and secondly, to support the creation of new systems, in particular by opening the space of possibilities for interactions with models. We present a short literature review on frameworks, guidelines and taxonomies related to the design and implementation of HAI interactions, including human-in-the-loop, explainable AI, as well as hybrid intelligence and collaborative learning approaches. From the literature review, we define a vocabulary for describing information exchanges in terms of providing and requesting particular model-specific data types. Based on this vocabulary, a message passing model for interactions between humans and models is presented, which we demonstrate can account for existing systems and approaches. Finally, we build this into design patterns as mid-level constructs that capture common interactional structures. We discuss how this approach can be used towards a design space for Human-AI interactions that creates new possibilities for designs as well as keeping track of implementation issues and concerns.
翻訳日:2024-01-11 14:41:46 公開日:2024-01-10
# 差分テストによるXMLドキュメントプロセッサのXPathバグ発見

Finding XPath Bugs in XML Document Processors via Differential Testing ( http://arxiv.org/abs/2401.05112v1 )

ライセンス: Link先を確認
Shuxin Li and Manuel Rigger(参考訳) Extensible Markup Language (XML)は、データストレージと送信のために広く使われているファイルフォーマットである。 多くのXMLプロセッサは、XMLドキュメントから要素を抽出できるクエリ言語XPathをサポートしている。 これらのシステムは、プロセッサが誤った結果を返すバグであるロジックバグに影響される可能性がある。 このようなバグに対処するために,我々はxpressと呼ばれるシステムとして実現した新しいアプローチを提案する。 テストオラクルとして、xpressは差分テストに依存しており、同じテスト入力で複数のシステムの結果を比較し、出力の相違によってバグを識別する。 テスト入力として、XPressはXMLドキュメントとXPathクエリの両方を生成する。 空でない結果を計算する意味のあるクエリを生成するために、XPressはXPath式生成プロセスをガイドするために、いわゆるターゲットノードを選択する。 ターゲットノードを使用することで、xpressは、タグ名や属性など、ターゲットノードに関連する既存のコンテキストを参照するxpath式を生成すると同時に、クエリをさらに拡張する前に述語がtrueに評価されることを保証する。 私たちは6つの成熟したXMLプロセッサ、BaseX、eXist-DB、サクソン、PostgreSQL、libXML2、および商用データベースシステムでアプローチをテストしました。 これらのシステムには20のユニークなバグがあり、そのうち25が開発者によって検証され、12が修正されている。 xpressは効率が良く、basexに24時間以内に12のユニークなバグを発見し、これはナイーブなランダム生成の2倍の速さだ。 このアプローチの有効性と単純さは、多くのXMLプロセッサの堅牢性向上に役立つと期待しています。

Extensible Markup Language (XML) is a widely used file format for data storage and transmission. Many XML processors support XPath, a query language that enables the extraction of elements from XML documents. These systems can be affected by logic bugs, which are bugs that cause the processor to return incorrect results. In order to tackle such bugs, we propose a new approach, which we realized as a system called XPress. As a test oracle, XPress relies on differential testing, which compares the results of multiple systems on the same test input, and identifies bugs through discrepancies in their outputs. As test inputs, XPress generates both XML documents and XPath queries. Aiming to generate meaningful queries that compute non-empty results, XPress selects a so-called targeted node to guide the XPath expression generation process. Using the targeted node, XPress generates XPath expressions that reference existing context related to the targeted node, such as its tag name and attributes, while also guaranteeing that a predicate evaluates to true before further expanding the query. We tested our approach on six mature XML processors, BaseX, eXist-DB, Saxon, PostgreSQL, libXML2, and a commercial database system. In total, we have found 20 unique bugs in these systems, of which 25 have been verified by the developers, and 12 of which have been fixed. XPress is efficient, as it finds 12 unique bugs in BaseX in 24 hours, which is 2x as fast as naive random generation. We expect that the effectiveness and simplicity of our approach will help to improve the robustness of many XML processors.
翻訳日:2024-01-11 14:41:18 公開日:2024-01-10
# アダプター付き自己教師付き音声表現モデルに基づくノイズロバストゼロショット音声合成

Noise-robust zero-shot text-to-speech synthesis conditioned on self-supervised speech-representation model with adapters ( http://arxiv.org/abs/2401.05111v1 )

ライセンス: Link先を確認
Kenichi Fujita, Hiroshi Sato, Takanori Ashihara, Hiroki Kanagawa, Marc Delcroix, Takafumi Moriya, Yusuke Ijima(参考訳) 自己教師付き学習(SSL)音声表現を用いて参照音声から抽出した話者埋め込みに基づくゼロショット音声合成(TTS)法は,話者特性を極めて正確に再現することができる。 しかし、この手法は、参照音声が雑音を含む場合、音声合成品質の劣化に悩まされる。 本稿では,ノイズロストゼロショットTS法を提案する。 我々はSSLモデルにアダプタを組み込み、ノイズレファレンス音声を用いてTSモデルを微調整した。 さらに,性能向上のために,音声強調(SE)フロントエンドを採用した。 これらの改良により,提案するsslベースのゼロショットttsは,雑音下参照音声を用いた高品質な音声合成を実現することができた。 目的および主観的評価を通じて,提案手法は参照音声の雑音に対して非常に頑健であり,SEと組み合わせて効果的に動作することを確認した。

The zero-shot text-to-speech (TTS) method, based on speaker embeddings extracted from reference speech using self-supervised learning (SSL) speech representations, can reproduce speaker characteristics very accurately. However, this approach suffers from degradation in speech synthesis quality when the reference speech contains noise. In this paper, we propose a noise-robust zero-shot TTS method. We incorporated adapters into the SSL model, which we fine-tuned with the TTS model using noisy reference speech. In addition, to further improve performance, we adopted a speech enhancement (SE) front-end. With these improvements, our proposed SSL-based zero-shot TTS achieved high-quality speech synthesis with noisy reference speech. Through the objective and subjective evaluations, we confirmed that the proposed method is highly robust to noise in reference speech, and effectively works in combination with SE.
翻訳日:2024-01-11 14:40:32 公開日:2024-01-10
# gpt-2を用いたモンテカルロ木探索によるレシピ生成

Monte Carlo Tree Search for Recipe Generation using GPT-2 ( http://arxiv.org/abs/2401.05199v1 )

ライセンス: Link先を確認
Karan Taneja and Richard Segal and Richard Goodwin(参考訳) 自動調理法は、シェフが新しく興味深い料理の楽しみを探求し、作り出すための創造的なツールを提供する。 最近の大言語モデル(llm)の成功を考えると、彼らは個々の好み、食事の制約を満たし、冷蔵庫にあるものに適応できる新しいレシピを作る可能性を秘めている。 LLMを使ってレシピを生成する既存の研究は、LCMを微調整して現実的なレシピを生成することができることを示した。 しかし、精査の際、鶏料理の具材として鶏肉などの基本的要件を満たさないことが多い。 本稿では,モンテカルロ木探索(MCTS)に依存するGPT-2を用いたテキスト生成手法であるRecipeMCを提案する。 RecipeMCにより、報酬関数を定義し、テキスト生成にソフト制約を課し、生成したレシピの信頼性を向上させることができる。 以上の結果から,ヒト評価者は実際のレシピと比較して,他のベースライン法で生成するレシピよりも,RecipeMCで生成したレシピの方が好まれることがわかった。

Automatic food recipe generation methods provide a creative tool for chefs to explore and to create new, and interesting culinary delights. Given the recent success of large language models (LLMs), they have the potential to create new recipes that can meet individual preferences, dietary constraints, and adapt to what is in your refrigerator. Existing research on using LLMs to generate recipes has shown that LLMs can be finetuned to generate realistic-sounding recipes. However, on close examination, these generated recipes often fail to meet basic requirements like including chicken as an ingredient in chicken dishes. In this paper, we propose RecipeMC, a text generation method using GPT-2 that relies on Monte Carlo Tree Search (MCTS). RecipeMC allows us to define reward functions to put soft constraints on text generation and thus improve the credibility of the generated recipes. Our results show that human evaluators prefer recipes generated with RecipeMC more often than recipes generated with other baseline methods when compared with real recipes.
翻訳日:2024-01-11 14:33:28 公開日:2024-01-10
# 大規模ロボットのモデリング, 位置決め, 深層強化学習経路追従制御: 設計と実験検証

Modelling, Positioning, and Deep Reinforcement Learning Path Tracking Control of Scaled Robotic Vehicles: Design and Experimental Validation ( http://arxiv.org/abs/2401.05194v1 )

ライセンス: Link先を確認
Carmine Caponio, Pietro Stano, Raffaele Carli, Ignazio Olivieri, Daniele Ragone, Aldo Sorniotti and Umberto Montanaro(参考訳) モバイルロボットシステムはますます人気が高まっている。 これらのシステムは、ウェアハウジングや製造から、人工知能(AI)ベースの制御ソリューションなど、高度な制御戦略を評価するためのベンチテストまで、さまざまな屋内アプリケーションで使用されている。 大規模ロボットカーは通常、車両の状態推定と制御に特化したタスクを含む階層的な制御機構を備えている。 本論文は,両側面について提案する。 (i)フェデレット拡張カルマンフィルタ(fekf)、及び (II) エキスパートデモレータを介して訓練された新しい深部強化学習(DRL)パストラッキングコントローラにより, 学習フェーズの迅速化と, シミュレーションと現実のギャップへのロバスト化を図る。 また,自動車モデルの定式化と,歯の寄生虫を同定する効果的な方法を提案する。 実験的に検証されたモデルは (i)fekfの設計を支援すること、及び (II)DRLに基づく経路追跡アルゴリズムをトレーニングするためのデジタルツインとして機能する。 実験により、FEKFが移動ロボットの位置推定を改善する能力を確認した。 さらに、DRL経路追跡ストラテジーの有効性は、トレーニング中に考慮されていない操作に沿って実験的に検証され、AIベースのソリューションがモデルベースの制御戦略とデモンストレーターを上回る能力を示す。 benchmrakingコントローラとの比較は、一連の重要なパフォーマンス指標を通じて定量化される。

Mobile robotic systems are becoming increasingly popular. These systems are used in various indoor applications, raging from warehousing and manufacturing to test benches for assessment of advanced control strategies, such as artificial intelligence (AI)-based control solutions, just to name a few. Scaled robotic cars are commonly equipped with a hierarchical control acthiecture that includes tasks dedicated to vehicle state estimation and control. This paper covers both aspects by proposing (i) a federeted extended Kalman filter (FEKF), and (ii) a novel deep reinforcement learning (DRL) path tracking controller trained via an expert demonstrator to expedite the learning phase and increase robustess to the simulation-to-reality gap. The paper also presents the formulation of a vehicle model along with an effective yet simple procedure for identifying tis paramters. The experimentally validated model is used for (i) supporting the design of the FEKF and (ii) serving as a digital twin for training the proposed DRL-based path tracking algorithm. Experimental results confirm the ability of the FEKF to improve the estimate of the mobile robot's position. Furthermore, the effectiveness of the DRL path tracking strateguy is experimentally tested along manoeuvres not considered during training, showing also the ability of the AI-based solution to outpeform model-based control strategies and the demonstrator. The comparison with benchmraking controllers is quantitavely evalueted through a set of key performance indicators.
翻訳日:2024-01-11 14:33:11 公開日:2024-01-10
# 関数近似による実験計画

Experiment Planning with Function Approximation ( http://arxiv.org/abs/2401.05193v1 )

ライセンス: Link先を確認
Aldo Pacchiano, Jonathan N. Lee, Emma Brunskill(参考訳) 文脈的バンディット問題における関数近似を用いた実験計画の問題点について検討する。 例えば、データ収集ポリシーの実行が必要な場合や、これらのポリシーを実装するのにループ内の人間が必要な場合など、適応アルゴリズムのデプロイに重大なオーバーヘッドがある場合、事前にデータ収集のための一連のポリシーが最重要となる。 本研究では,学習者が効果的なデータ収集戦略を設計するために,膨大なコンテキストのデータセットが利用できるが報われない設定について検討する。 報酬が線形である場合、この問題はよく研究されているが、より複雑な報酬モデルでは結果が失われている。 本研究では,関数近似に適合する2つの実験計画戦略を提案する。 1つ目は、報酬関数クラスのeluder次元に応じて最適性保証を回復できるeluderプランニングおよびサンプリング手順である。 第2に、一様サンプリング器は、アクションの数が少ない設定において、競合最適性を達成できることを示す。 我々は,計画と適応学習の基本的な相違を具現化した統計的ギャップを導入し,モデル選択による計画結果を提供する。

We study the problem of experiment planning with function approximation in contextual bandit problems. In settings where there is a significant overhead to deploying adaptive algorithms -- for example, when the execution of the data collection policies is required to be distributed, or a human in the loop is needed to implement these policies -- producing in advance a set of policies for data collection is paramount. We study the setting where a large dataset of contexts but not rewards is available and may be used by the learner to design an effective data collection strategy. Although when rewards are linear this problem has been well studied, results are still missing for more complex reward models. In this work we propose two experiment planning strategies compatible with function approximation. The first is an eluder planning and sampling procedure that can recover optimality guarantees depending on the eluder dimension of the reward function class. For the second, we show that a uniform sampler achieves competitive optimality rates in the setting where the number of actions is small. We finalize our results introducing a statistical gap fleshing out the fundamental differences between planning and adaptive learning and provide results for planning with model selection.
翻訳日:2024-01-11 14:32:47 公開日:2024-01-10
# 大規模言語モデル推論のための分割と克服

Divide and Conquer for Large Language Models Reasoning ( http://arxiv.org/abs/2401.05190v1 )

ライセンス: Link先を確認
Zijie Meng, Yan Zhang, Zhaopeng Feng, Yang Feng, Gaoang Wang, Joey Tianyi Zhou, Jian Wu, Zuozhu Liu(参考訳) 大規模言語モデル (LLM) は, チェイン・オブ・ソート (CoT) の出現に伴う様々な推論ベンチマークにおいて, 特にマルチチョイス質問 (MCQ) に関わるタスクにおいて, 顕著な性能を示した。 しかしながら、現在の処理は、問題解決の困難さを考慮せずに、すべてのデータを均一に処理する。 この課題に対処するために、私たちはヒューリスティックな戦略を使ってタスクを分類し、個別に処理し、DivideとConquerをLSMの推論に適用することを提案する。 まず、質問を統計的信頼度スコア (\mathcal{cs}$) に基づいて異なるサブセットに分割する。次に、ほぼ解決された集合を修正し、事前知識ベース推論 (pkr) やフィルタ選択ベース推論 (fcr) を含む精巧に設計された手法で、不要なプロセスを克服する。 実験の結果,提案手法は算術,コモンセンス,論理タスクを含む9つのデータセットにまたがって,モデルの推論能力を大幅に向上させることがわかった。 例えば、ベースラインと比較して、AQuAでは8.72\%、ARC Challengeでは15.07\%、RiddleSenseでは7.71\%という低信頼サブセットが大幅に改善されています。 さらに, 有理数長と選択肢数長を広範囲に解析することにより, PKRの長い推論経路が, モデルが害のないショートカットを参照することを防ぐこと, FCRにおける無関係な選択の除去が, モデルの混乱を著しく回避することを確認する。 コードは \url{https://github.com/AiMijie/Divide-and-Conquer} にある。

Large language models (LLMs) have shown impressive performance in various reasoning benchmarks with the emergence of Chain-of-Thought (CoT) and its derivative methods, particularly in tasks involving multi-choice questions (MCQs). However, current works all process data uniformly without considering the problem-solving difficulty, which means an excessive focus on simple questions while insufficient to intricate ones. To address this challenge, we inspired by humans using heuristic strategies to categorize tasks and handle them individually, propose to apply the Divide and Conquer to LLMs reasoning. First, we divide questions into different subsets based on the statistical confidence score ($\mathcal{CS}$), then fix nearly resolved sets and conquer demanding nuanced process ones with elaborately designed methods, including Prior Knowledge based Reasoning (PKR) and Filter Choices based Reasoning (FCR), as well as their integration variants. Our experiments demonstrate that this proposed strategy significantly boosts the models' reasoning abilities across nine datasets involving arithmetic, commonsense, and logic tasks. For instance, compared to baseline, we make a striking improvement on low confidence subsets of 8.72\% for AQuA, 15.07\% for ARC Challenge and 7.71\% for RiddleSense. In addition, through extensive analysis on length of rationale and number of options, we verify that longer reasoning paths in PKR could prevent models from referring infer-harmful shortcuts, and also find that removing irrelevant choices in FCR would substantially avoid models' confusion. The code is at \url{https://github.com/AiMijie/Divide-and-Conquer}
翻訳日:2024-01-11 14:32:29 公開日:2024-01-10
# エンタングルドベル状態の非慣性運動依存性

Non-inertial motion dependent entangled Bell-state ( http://arxiv.org/abs/2401.05186v1 )

ライセンス: Link先を確認
Julius Arthur Bittermann, Matthias Fink, Marcus Huber, Rupert Ursin(参考訳) 非慣性運動による絡み合ったフォトニックベル状態の位相マニピュレーションを目標とした。 この目的のために、SPDC源とサニャック干渉計からなる非常にコンパクトな実験室を回転台(非慣性参照フレーム)上に設置する。 $\ket{\phi}$-状態の光子対は、共回転と反回転の重ね合わせである。 $\ket{\phi}$状態の位相は、サニャック効果により回転するプラットフォームの角速度に線形に依存する。 可視性を測定し、Bell-CHSHパラメータを$S$で証明する。 さらに,非慣性環境においてベル状態の部分的量子状態トモグラフィーを行う。 実験では、非慣性運動による絡み合った状態のユニタリ変換を示し、$\ket{\phi^{-}}$-stateと$\ket{\phi^{+}}$-stateを切り替えるだけでなく、非慣性運動と量子物理学の相互作用におけるさらなる実験を行う。

We show the targeted phase-manipulation of an entangled photonic Bell state via non-inertial motion. To this end, we place a very compact laboratory, consisting of a SPDC source and a Sagnac interferometer, on a rotating platform (non-inertial reference frame). The photon pairs of a $\ket{\phi}$-state are in a superposition of co- and counter-rotation. The phase of the $\ket{\phi}$-state is linearly dependent on the angular velocity of the rotating platform due to the Sagnac effect. We measure the visibility and certify entanglement with the Bell-CHSH parameter $S$. Additionally, we conduct a partial quantum state tomography on the Bell states in a non-inertial environment. Our experiment showcases the unitary transformation of an entangled state via non-inertial motion and constitutes not only a switch between a $\ket{\phi^{-}}$-state and a $\ket{\phi^{+}}$-state but also a further experiment at the interplay of non-inertial motion and quantum physics.
翻訳日:2024-01-11 14:31:53 公開日:2024-01-10
# グラフと量子マルコフ半群に対する交叉曲率境界

Intertwining Curvature Bounds for Graphs and Quantum Markov Semigroups ( http://arxiv.org/abs/2401.05179v1 )

ライセンス: Link先を確認
Florentin M\"unch, Melchior Wirth, Haonan Zhang(参考訳) カーレン=マースと第2および第3の著者による以前の研究に基づいて、グラフと量子マルコフ半群に対する交叉曲率の下界の概念を導入する。 この曲率の概念は、Bakry-\Emery と Entropic Ricci の曲率よりも強く、後者よりも計算的に単純である。 我々は、有限重み付きグラフとラプラシアンによるよい写像表現を許容するグラフ、およびジャンプ作用素を可換にすることによって生成元が形成される一般化された半群と量子マルコフ半群を含む、多くの例で交叉曲率境界を検証する。 偏極半群のエントロピー曲率の最もよく知られた境界を改善することにより、最適交絡とエントロピー曲率境界の間にギャップが存在することを示す。 量子ビットの場合、この改良されたエントロピー曲率境界は、最適な定数を持つ修正対数ソボレフ不等式を意味する。

Based on earlier work by Carlen-Maas and the second- and third-named author, we introduce the notion of intertwining curvature lower bounds for graphs and quantum Markov semigroups. This curvature notion is stronger than both Bakry-\'Emery and entropic Ricci curvature, while also computationally simpler than the latter. We verify intertwining curvature bounds in a number of examples, including finite weighted graphs and graphs with Laplacians admitting nice mapping representations, as well as generalized dephasing semigroups and quantum Markov semigroups whose generators are formed by commuting jump operators. By improving on the best-known bounds for entropic curvature of depolarizing semigroups, we demonstrate that there can be a gap between the optimal intertwining and entropic curvature bound. In the case of qubits, this improved entropic curvature bound implies the modified logarithmic Sobolev inequality with optimal constant.
翻訳日:2024-01-11 14:31:35 公開日:2024-01-10
# ChatGPTのニューラルネットワーク翻訳は可能か? 比較研究

Can ChatGPT Rival Neural Machine Translation? A Comparative Study ( http://arxiv.org/abs/2401.05176v1 )

ライセンス: Link先を確認
Zhaokun Jiang and Ziyin Zhang(参考訳) 大規模言語モデルの翻訳への活用への関心の高まりに触発された本論文は,中国外交文書を英語に翻訳する主流のニューラルマシン翻訳(nmt)エンジンと比較して,chatgptで代表される大規模言語モデル(llms)の能力を評価する。 具体的には,ChatGPT と NMT エンジンの翻訳品質を4つの自動測定値で測定し,エラータイポロジーと6つの解析ルーリックに基づいて人的評価を行った。 以上の結果から,ChatGPTでは自動測定値が異なるプロンプトやNTTシステムで同様の結果が得られる一方で,翻訳タスクの例や文脈情報を提供する場合には,人間のアノテータが顕著に高いスコアをChatGPTに割り当てる傾向が見られた。 自動測定と人間評価の次元の対関係は弱い結果と意味のない結果をもたらし、2つの翻訳品質評価方法の相違を示唆する。 これらの結果から,ChatGPTが機械翻訳の能力向上に寄与する可能性が示唆された。

Inspired by the increasing interest in leveraging large language models for translation, this paper evaluates the capabilities of large language models (LLMs) represented by ChatGPT in comparison to the mainstream neural machine translation (NMT) engines in translating Chinese diplomatic texts into English. Specifically, we examine the translation quality of ChatGPT and NMT engines as measured by four automated metrics and human evaluation based on an error-typology and six analytic rubrics. Our findings show that automated metrics yield similar results for ChatGPT under different prompts and NMT systems, while human annotators tend to assign noticeably higher scores to ChatGPT when it is provided an example or contextual information about the translation task. Pairwise correlation between automated metrics and dimensions of human evaluation produces weak and non-significant results, suggesting the divergence between the two methods of translation quality assessment. These findings provide valuable insights into the potential of ChatGPT as a capable machine translator, and the influence of prompt engineering on its performance.
翻訳日:2024-01-11 14:31:17 公開日:2024-01-10
# 適応型変分量子アルゴリズムにおけるヘシアンのリサイクルによる測定コストの低減

Reducing measurement costs by recycling the Hessian in adaptive variational quantum algorithms ( http://arxiv.org/abs/2401.05172v1 )

ライセンス: Link先を確認
Mafalda Ram\^oa, Luis Paulo Santos, Nicholas J. Mayhall, Edwin Barnes, Sophia E. Economou(参考訳) 適応プロトコルは、アルゴリズムの実行中に量子プロセッサから得られたデータを活用することにより、変分量子アルゴリズム(VQA)におけるより効率的な状態準備回路の構築を可能にする。 このアイデアは、状態準備回路演算子を演算子によって反復的に増加させるアルゴリズムであるadapt-vqeから始まり、新しい変分パラメータを伴い、これまでに取得したパラメータを各イテレーションで最適化する。 ADAPT-VQEや他の適応VQAでは、前回のイテレーションからパラメータを最適な値に初期化することで収束が加速し、パラメータランドスケープの浅い局所トラップを回避することが示されている。 しかし、あるイテレーションで実行された最適化から得られる他のデータは次のイテレーションに渡されることはない。 本稿では,適応型VQAに適した準ニュートン最適化プロトコルを提案する。 本提案の特長は,パラメータ値に加えて,コスト関数の近似2次微分が反復的にリサイクルされることである。 準ニュートン最適化器を実装し, 適応VQAの繰り返しを通して逆ヘッセン行列の近似を連続的に構築し, 成長させる。 結果として得られるアルゴリズムは、勾配ノルムが与えられたしきい値を下回ると探索空間の次元が増大する連続最適化のフレーバーを持つ。 この二階情報の相互最適化交換は、オプティマイザの状態におけるヘッシアンを、より正確なヘッシアンに近似させる。 その結果、典型的な準ニュートンオプティマイザが線形に収束する状況でも超線形収束率が得られる。 本プロトコルは,量子ハードウェアに適応的なVQAを実装する際の測定コストを削減し,古典シミュレーションの実行時間を削減する。

Adaptive protocols enable the construction of more efficient state preparation circuits in variational quantum algorithms (VQAs) by utilizing data obtained from the quantum processor during the execution of the algorithm. This idea originated with ADAPT-VQE, an algorithm that iteratively grows the state preparation circuit operator by operator, with each new operator accompanied by a new variational parameter, and where all parameters acquired thus far are optimized in each iteration. In ADAPT-VQE and other adaptive VQAs that followed it, it has been shown that initializing parameters to their optimal values from the previous iteration speeds up convergence and avoids shallow local traps in the parameter landscape. However, no other data from the optimization performed at one iteration is carried over to the next. In this work, we propose an improved quasi-Newton optimization protocol specifically tailored to adaptive VQAs. The distinctive feature in our proposal is that approximate second derivatives of the cost function are recycled across iterations in addition to parameter values. We implement a quasi-Newton optimizer where an approximation to the inverse Hessian matrix is continuously built and grown across the iterations of an adaptive VQA. The resulting algorithm has the flavor of a continuous optimization where the dimension of the search space is augmented when the gradient norm falls below a given threshold. We show that this inter-optimization exchange of second-order information leads the Hessian in the state of the optimizer to better approximate the exact Hessian. As a result, our method achieves a superlinear convergence rate even in situations where the typical quasi-Newton optimizer converges only linearly. Our protocol decreases the measurement costs in implementing adaptive VQAs on quantum hardware as well as the runtime of their classical simulation.
翻訳日:2024-01-11 14:30:55 公開日:2024-01-10
# 空中画像におけるCLIP誘導ソースフリー物体検出

CLIP-guided Source-free Object Detection in Aerial Images ( http://arxiv.org/abs/2401.05168v1 )

ライセンス: Link先を確認
Nanqing Liu, Xun Xu, Yongyi Su, Chengxin Liu, Peiliang Gong, Heng-Chao Li(参考訳) これらの画像の視覚的表現は、地理的位置、時間、気象条件などの要因によって大きく異なるため、航空画像ではドメイン適応が不可欠である。 加えて、高解像度の空中画像は、しばしばかなりのストレージスペースを必要とし、一般にはアクセスできない。 これらの課題に対処するため、我々は新しいソースフリーオブジェクト検出法(SFOD)を提案する。 特に,本手法は自己学習フレームワーク上に構築されているが,ラベル付きトレーニングデータがない場合には,自己学習が不正確な学習につながる可能性がある。 この問題に対処するために、コントラスト言語画像事前学習(CLIP)を統合し、CLIP誘導アグリゲーションと呼ばれる擬似ラベルの生成を誘導する。 CLIPのゼロショット分類機能を利用することで、従来の予測境界ボックスでスコアを集約し、擬似ラベルの洗練されたスコアを得ることができる。 提案手法の有効性を検証するため,DIOR-C と DIOR-Cloudy という,DIOR データセットに基づく2つの新しいデータセットを構築した。 実験により,本手法は他のアルゴリズムよりも優れていることを示した。

Domain adaptation is crucial in aerial imagery, as the visual representation of these images can significantly vary based on factors such as geographic location, time, and weather conditions. Additionally, high-resolution aerial images often require substantial storage space and may not be readily accessible to the public. To address these challenges, we propose a novel Source-Free Object Detection (SFOD) method. Specifically, our approach is built upon a self-training framework; however, self-training can lead to inaccurate learning in the absence of labeled training data. To address this issue, we further integrate Contrastive Language-Image Pre-training (CLIP) to guide the generation of pseudo-labels, termed CLIP-guided Aggregation. By leveraging CLIP's zero-shot classification capability, we use it to aggregate scores with the original predicted bounding boxes, enabling us to obtain refined scores for the pseudo-labels. To validate the effectiveness of our method, we constructed two new datasets from different domains based on the DIOR dataset, named DIOR-C and DIOR-Cloudy. Experiments demonstrate that our method outperforms other comparative algorithms.
翻訳日:2024-01-11 14:30:25 公開日:2024-01-10
# 文書画像中のウォーターマークテキストパターンスポッティング

Watermark Text Pattern Spotting in Document Images ( http://arxiv.org/abs/2401.05167v1 )

ライセンス: Link先を確認
Mateusz Krubinski, Stefan Matcovici, Diana Grigore, Daniel Voinea and Alin-Ionut Popa(参考訳) 文書画像中のウォーターマークのテキストスポッティングは、しばしば探索されていない情報ソースにアクセスでき、レコードの範囲、観客、時には真偽に関する重要な証拠を提供する。 テキストのスポッティング、文書中のウォーターマークの検出、理解という問題から生まれたのは同じ難題を継承している。 本稿では,この分野の資源不足に対処し,さらに研究を進めるために,wrender を用いて生成した 65,447 個のデータサンプルを含む新しいベンチマーク (k-watermark) を提案する。 人間のレーダを用いた妥当性調査では、予め作成された透かし文書に対する信頼性スコアが0.11である。 データセットとレンダリング技術の有用性を証明するため,図面テキストを予測しながら透かしテキストのバウンディングボックスインスタンスを検出するエンド・ツー・エンド・ソリューション(Wextract)を開発した。 この課題に対処するために,分散最小化損失と階層的自己認識機構を導入する。 我々の知識を最大限に活用するため,我々はまず評価ベンチマークと,検出基準が5点,文字精度が4点を超える文書からウォーターマークを取得するための完全なソリューションを提案する。

Watermark text spotting in document images can offer access to an often unexplored source of information, providing crucial evidence about a record's scope, audience and sometimes even authenticity. Stemming from the problem of text spotting, detecting and understanding watermarks in documents inherits the same hardships - in the wild, writing can come in various fonts, sizes and forms, making generic recognition a very difficult problem. To address the lack of resources in this field and propel further research, we propose a novel benchmark (K-Watermark) containing 65,447 data samples generated using Wrender, a watermark text patterns rendering procedure. A validity study using humans raters yields an authenticity score of 0.51 against pre-generated watermarked documents. To prove the usefulness of the dataset and rendering technique, we developed an end-to-end solution (Wextract) for detecting the bounding box instances of watermark text, while predicting the depicted text. To deal with this specific task, we introduce a variance minimization loss and a hierarchical self-attention mechanism. To the best of our knowledge, we are the first to propose an evaluation benchmark and a complete solution for retrieving watermarks from documents surpassing baselines by 5 AP points in detection and 4 points in character accuracy.
翻訳日:2024-01-11 14:30:06 公開日:2024-01-10
# ReACT 2024: 2回目の顔反応生成チャレンジ

REACT 2024: the Second Multiple Appropriate Facial Reaction Generation Challenge ( http://arxiv.org/abs/2401.05166v1 )

ライセンス: Link先を確認
Siyang Song, Micol Spitale, Cheng Luo, Cristina Palmero, German Barquero, Hengde Zhu, Sergio Escalera, Michel Valstar, Tobias Baur, Fabien Ringeval, Elisabeth Andre, Hatice Gunes(参考訳) ダイヤド的相互作用において、人間は言語的および非言語的手がかりを用いて、特定の話者行動に反応する複数の異なる顔反応が適切であるような意図と心の状態を伝える。 そして、これまで目にしたことのない話者行動から、複数の適切な、多様性、現実的、同期した人間の顔反応を自動的に生成できる機械学習(ml)モデルの開発は、難しい課題である。 Following the successful organisation of the first REACT challenge (REACT 2023), this edition of the challenge (REACT 2024) employs a subset used by the previous challenge, which contains segmented 30-secs dyadic interaction clips originally recorded as part of the NOXI and RECOLA datasets, encouraging participants to develop and benchmark Machine Learning (ML) models that can generate multiple appropriate facial reactions (including facial image sequences and their attributes) given an input conversational partner's stimulus under various dyadic video conference scenarios. 本稿では, i)REACT 2024チャレンジのガイドライン (ii)課題で用いられるデータセット 3) 提案した2つのサブチャレンジ上でのベースラインシステムの性能は, オフライン多重顔反応生成とオンライン複数顔反応生成である。 チャレンジベースラインコードはhttps://github.com/reactmultimodalchallenge/baseline_react2024で公開されている。

In dyadic interactions, humans communicate their intentions and state of mind using verbal and non-verbal cues, where multiple different facial reactions might be appropriate in response to a specific speaker behaviour. Then, how to develop a machine learning (ML) model that can automatically generate multiple appropriate, diverse, realistic and synchronised human facial reactions from an previously unseen speaker behaviour is a challenging task. Following the successful organisation of the first REACT challenge (REACT 2023), this edition of the challenge (REACT 2024) employs a subset used by the previous challenge, which contains segmented 30-secs dyadic interaction clips originally recorded as part of the NOXI and RECOLA datasets, encouraging participants to develop and benchmark Machine Learning (ML) models that can generate multiple appropriate facial reactions (including facial image sequences and their attributes) given an input conversational partner's stimulus under various dyadic video conference scenarios. This paper presents: (i) the guidelines of the REACT 2024 challenge; (ii) the dataset utilized in the challenge; and (iii) the performance of the baseline systems on the two proposed sub-challenges: Offline Multiple Appropriate Facial Reaction Generation and Online Multiple Appropriate Facial Reaction Generation, respectively. The challenge baseline code is publicly available at https://github.com/reactmultimodalchallenge/baseline_react2024.
翻訳日:2024-01-11 14:29:44 公開日:2024-01-10
# MISS:Med-VQAのためのジェネレーティブプレトレーニングとファインタニングアプローチ

MISS: A Generative Pretraining and Finetuning Approach for Med-VQA ( http://arxiv.org/abs/2401.05163v1 )

ライセンス: Link先を確認
Jiawei Chen, Dingkang Yang, Yue Jiang, Yuxuan Lei, Lihua Zhang(参考訳) 医用視覚質問応答(VQA)は、ビジョンランゲージ事前学習(VLP)モデルが一般化性能を効果的に向上する、困難なマルチモーダルタスクである。 しかし,医療分野のほとんどの手法は,VQAを現実的な応用シナリオへの移行が困難な回答分類タスクとして扱う。 さらに,医用画像のプライバシや高価なアノテーション処理により,事前トレーニング用の大規模医用画像テキストペアデータセットが著しく不足している。 本稿では,医療用VQAタスクのための大規模MultI-task Self-Supervised Learning based framework(MISS)を提案する。 既存の方法とは異なり、医療用VQAを生成タスクとして扱う。 テキストエンコーダとマルチモーダルエンコーダを統合し,マルチタスク学習による画像テキスト特徴の調整を行う。 さらに,大言語モデル(llms)を用いた単一モーダル画像データセットの特徴空間を拡張し,従来の医用視覚野タスクデータをvlpに適用可能にするトランスポート・アンド・キャプチャ法を提案する。 実験により,本手法はより少ないマルチモーダルデータセットで優れた結果が得られることを示すとともに,生成VQAモデルの利点を示す。 コードとモデルの重み付けは、論文が受け入れられるとリリースされます。

Medical visual question answering (VQA) is a challenging multimodal task, where Vision-Language Pre-training (VLP) models can effectively improve the generalization performance. However, most methods in the medical field treat VQA as an answer classification task which is difficult to transfer to practical application scenarios. Additionally, due to the privacy of medical images and the expensive annotation process, large-scale medical image-text pairs datasets for pretraining are severely lacking. In this paper, we propose a large-scale MultI-task Self-Supervised learning based framework (MISS) for medical VQA tasks. Unlike existing methods, we treat medical VQA as a generative task. We unify the text encoder and multimodal encoder and align image-text features through multi-task learning. Furthermore, we propose a Transfer-and-Caption method that extends the feature space of single-modal image datasets using large language models (LLMs), enabling those traditional medical vision field task data to be applied to VLP. Experiments show that our method achieves excellent results with fewer multimodal datasets and demonstrates the advantages of generative VQA models. The code and model weights will be released upon the paper's acceptance.
翻訳日:2024-01-11 14:29:23 公開日:2024-01-10
# Derm-T2IM: ViTおよびCNNを用いた皮膚疾患分類のための安定拡散モデルによる合成皮膚病変データのハーネス化

Derm-T2IM: Harnessing Synthetic Skin Lesion Data via Stable Diffusion Models for Enhanced Skin Disease Classification using ViT and CNN ( http://arxiv.org/abs/2401.05159v1 )

ライセンス: Link先を確認
Muhammad Ali Farooq, Wang Yao, Michael Schukat, Mark A Little and Peter Corcoran(参考訳) 本研究では, 安定拡散モデルによる皮膚科的合成データの利用について, 機械学習モデルトレーニングの堅牢性を高めるための戦略として検討した。 合成データ生成は、制限されたラベル付きデータセットに関連する課題を軽減する上で重要な役割を果たす。 この文脈では,テキストから画像への潜在拡散モデルにおいて,近頃の成功例と少量のデータ表現を拡張して,拡張データ変換技術の導入を目標としている。 最適調整モデルは、高品質な皮膚病変合成データを多様で現実的な特性でレンダリングするためにさらに使用され、既存のトレーニングデータに価値ある補足と多様性を提供する。 最新の機械学習モデルのトレーニングパイプラインに新たに生成された合成データを組み込むことによる効果について検討し、実世界データに対するモデル性能の向上と一般化における効果を評価した。 実験により, 安定拡散モデルによる合成データの有効性は, 2つの実世界の皮膚病変データセット上でのCNNと視覚トランスフォーマーモデルの堅牢性と適応性の向上に有効であることが示された。

This study explores the utilization of Dermatoscopic synthetic data generated through stable diffusion models as a strategy for enhancing the robustness of machine learning model training. Synthetic data generation plays a pivotal role in mitigating challenges associated with limited labeled datasets, thereby facilitating more effective model training. In this context, we aim to incorporate enhanced data transformation techniques by extending the recent success of few-shot learning and a small amount of data representation in text-to-image latent diffusion models. The optimally tuned model is further used for rendering high-quality skin lesion synthetic data with diverse and realistic characteristics, providing a valuable supplement and diversity to the existing training data. We investigate the impact of incorporating newly generated synthetic data into the training pipeline of state-of-art machine learning models, assessing its effectiveness in enhancing model performance and generalization to unseen real-world data. Our experimental results demonstrate the efficacy of the synthetic data generated through stable diffusion models helps in improving the robustness and adaptability of end-to-end CNN and vision transformer models on two different real-world skin lesion datasets.
翻訳日:2024-01-11 14:29:04 公開日:2024-01-10
# 現実シナリオにおける歪み認識型変化検出に向けて

Toward distortion-aware change detection in realistic scenarios ( http://arxiv.org/abs/2401.05157v1 )

ライセンス: Link先を確認
Yitao Zhao, Heng-Chao Li, Nanqing Liu, Rui Wang(参考訳) 従来の変更検出(CD)パイプラインでは、2つの手動登録およびラベル付きリモートセンシングデータセットがトレーニングと予測のためのモデルの入力として機能する。 しかし現実的なシナリオでは、様々な座標系の結果、異なる周期やセンサーのデータが一致しない可能性がある。 座標シフトによる幾何学的歪みは、CDアルゴリズムの厄介な問題である。 本稿では,CDタスクの時間的歪みに対する再利用可能な自己教師型フレームワークを提案する。 フレームワーク全体がPretext Representation Pre-training, Bitemporal Image Alignment, Down-stream Decoder Fine-Tuningで構成されている。 シングルステージ事前トレーニングのみにより、CDデコーダの性能を同時に向上しつつ、フレームワークの重要なコンポーネントをバイテンポラルイメージアライメントの補助として再利用することができる。 2つの大規模現実シナリオによる実験結果から,提案手法はCDタスクの時間的幾何学的歪みを軽減することができることが示された。

In the conventional change detection (CD) pipeline, two manually registered and labeled remote sensing datasets serve as the input of the model for training and prediction. However, in realistic scenarios, data from different periods or sensors could fail to be aligned as a result of various coordinate systems. Geometric distortion caused by coordinate shifting remains a thorny issue for CD algorithms. In this paper, we propose a reusable self-supervised framework for bitemporal geometric distortion in CD tasks. The whole framework is composed of Pretext Representation Pre-training, Bitemporal Image Alignment, and Down-stream Decoder Fine-Tuning. With only single-stage pre-training, the key components of the framework can be reused for assistance in the bitemporal image alignment, while simultaneously enhancing the performance of the CD decoder. Experimental results in 2 large-scale realistic scenarios demonstrate that our proposed method can alleviate the bitemporal geometric distortion in CD tasks.
翻訳日:2024-01-11 14:28:43 公開日:2024-01-10
# ハミルトンニューラルネットワークを用いたサブセットシミュレーションによる複雑システムの信頼性解析

Reliability Analysis of Complex Systems using Subset Simulations with Hamiltonian Neural Networks ( http://arxiv.org/abs/2401.05244v1 )

ライセンス: Link先を確認
Denny Thaler, Somayajulu L. N. Dhulipala, Franz Bamer, Bernd Markert, Michael D. Shields(参考訳) ハミルトンニューラルネットワークを用いたモンテカルロサンプリングを用いた新しいサブセットシミュレーション手法を提案する。 提案手法は、ハミルトニアンモンテカルロ法の優れたサンプリングと、ハミルトニアンニューラルネットワークを用いた計算効率の高い勾配評価を組み合わせたものである。 ニューラルネットワークアーキテクチャは、ハミルトニアンモンテカルロ・サンプラーの受け入れ基準を定義するハミルトニアンを保存しているため、この組み合わせは特に有利である。 したがって、この戦略は低い計算コストで高い受理率を達成する。 提案手法は,サブセットシミュレーションを用いて小さな故障確率を推定する。 しかし, 低確率のサンプル領域では, 特に勾配評価が困難である。 提案した戦略の顕著な精度は異なる信頼性問題で示され、その効率は伝統的なハミルトンモンテカルロ法と比較される。 このアプローチは複素および高次元分布の低確率領域における勾配推定の限界に達する。 そこで本研究では,このような状況下での勾配予測を改善し,故障確率を正確に推定する手法を提案する。 本研究のハイライトは,ベイズ推定問題を用いてパラメータ分布を推定しなければならないシステムの信頼性解析である。 そのような場合、ハミルトニアンモンテカルロ法は各勾配評価に対して完全なモデル評価を必要とするため、非常に高いコストがかかる。 しかし、このフレームワークでハミルトニアンニューラルネットワークを使用すると、高価なモデル評価を置き換え、計算効率が大幅に向上する。

We present a new Subset Simulation approach using Hamiltonian neural network-based Monte Carlo sampling for reliability analysis. The proposed strategy combines the superior sampling of the Hamiltonian Monte Carlo method with computationally efficient gradient evaluations using Hamiltonian neural networks. This combination is especially advantageous because the neural network architecture conserves the Hamiltonian, which defines the acceptance criteria of the Hamiltonian Monte Carlo sampler. Hence, this strategy achieves high acceptance rates at low computational cost. Our approach estimates small failure probabilities using Subset Simulations. However, in low-probability sample regions, the gradient evaluation is particularly challenging. The remarkable accuracy of the proposed strategy is demonstrated on different reliability problems, and its efficiency is compared to the traditional Hamiltonian Monte Carlo method. We note that this approach can reach its limitations for gradient estimations in low-probability regions of complex and high-dimensional distributions. Thus, we propose techniques to improve gradient prediction in these particular situations and enable accurate estimations of the probability of failure. The highlight of this study is the reliability analysis of a system whose parameter distributions must be inferred with Bayesian inference problems. In such a case, the Hamiltonian Monte Carlo method requires a full model evaluation for each gradient evaluation and, therefore, comes at a very high cost. However, using Hamiltonian neural networks in this framework replaces the expensive model evaluation, resulting in tremendous improvements in computational efficiency.
翻訳日:2024-01-11 14:21:15 公開日:2024-01-10
# ビジネス論理行動の分類校正によるフレーダ防止における意思決定のデカップリング

Decoupling Decision-Making in Fraud Prevention through Classifier Calibration for Business Logic Action ( http://arxiv.org/abs/2401.05240v1 )

ライセンス: Link先を確認
Emanuele Luzio and Moacir Antonelli Ponti and Christian Ramirez Arevalo and Luis Argerich(参考訳) マシンラーニングモデルは一般的に、ビジネスコンテキストにおける既知の人口特徴分布に基づいて、分類器の作成のような特定のターゲットにフォーカスする。 しかし、個々の特徴を計算するモデルは時間とともに適応して精度を向上し、デカップリングの概念を導入している。 我々は、機械学習(ML)分類器をビジネスロジックフレームワーク内のスコアベースのアクションから切り離す戦略としてキャリブレーション戦略を使用する。 これらの戦略を評価するために、実世界のビジネスシナリオと複数のMLモデルを用いて比較分析を行う。 本研究は,デカップリングの取り組みを最適化しようとする実践者に対して,アプローチのトレードオフとパフォーマンス上の意味を強調した。 特に、トレーニングとテストデータにシフトがあるシナリオでは、isotonicとbetaのキャリブレーション方法が際立っている。

Machine learning models typically focus on specific targets like creating classifiers, often based on known population feature distributions in a business context. However, models calculating individual features adapt over time to improve precision, introducing the concept of decoupling: shifting from point evaluation to data distribution. We use calibration strategies as strategy for decoupling machine learning (ML) classifiers from score-based actions within business logic frameworks. To evaluate these strategies, we perform a comparative analysis using a real-world business scenario and multiple ML models. Our findings highlight the trade-offs and performance implications of the approach, offering valuable insights for practitioners seeking to optimize their decoupling efforts. In particular, the Isotonic and Beta calibration methods stand out for scenarios in which there is shift between training and testing data.
翻訳日:2024-01-11 14:20:54 公開日:2024-01-10
# 重複物の構造:物体の杭からのニューラル逆グラフ

Structure from Duplicates: Neural Inverse Graphics from a Pile of Objects ( http://arxiv.org/abs/2401.05236v1 )

ライセンス: Link先を確認
Tianhang Cheng, Wei-Chiu Ma, Kaiyu Guan, and Antonio Torralba, Shenlong Wang(参考訳) 私たちの世界は同一の物体(例)でいっぱいです。 コークスの缶、同じモデルの車)。 これらの複製は、一緒に見られると、3dを効果的に推論するための追加的かつ強力な手がかりとなります。 この観察に触発されて、複数の同一のオブジェクトを含む単一の画像から幾何学、材料、照明を再構成する新しい逆グラフィックスフレームワークであるstructure from duplicates (sfd)を紹介する。 SfDは、画像内のオブジェクトの複数のインスタンスを特定し、次に、すべてのインスタンスに対する6DoFのポーズを共同で推定することから始まり、その後、オブジェクトの形状、材料、環境光について共同で推論するために、インスタンス間の共有幾何学と材料制約に固執しながら、逆グラフパイプラインが使用される。 我々の主な貢献は、単像逆画像の頑健な先行としてオブジェクト複製を利用することと、関節6-DoFオブジェクトポーズ推定のための平面内回転ロバスト構造(SfM)の提案である。 単一の画像からのマルチビューのヒントを利用することで、sfdはよりリアルで詳細な3d再構成を生成し、既存の1つの画像再構成モデルや、類似またはより多くの観察によるマルチビュー再構成アプローチを大きく上回る。

Our world is full of identical objects (\emphe.g., cans of coke, cars of same model). These duplicates, when seen together, provide additional and strong cues for us to effectively reason about 3D. Inspired by this observation, we introduce Structure from Duplicates (SfD), a novel inverse graphics framework that reconstructs geometry, material, and illumination from a single image containing multiple identical objects. SfD begins by identifying multiple instances of an object within an image, and then jointly estimates the 6DoF pose for all instances.An inverse graphics pipeline is subsequently employed to jointly reason about the shape, material of the object, and the environment light, while adhering to the shared geometry and material constraint across instances. Our primary contributions involve utilizing object duplicates as a robust prior for single-image inverse graphics and proposing an in-plane rotation-robust Structure from Motion (SfM) formulation for joint 6-DoF object pose estimation. By leveraging multi-view cues from a single image, SfD generates more realistic and detailed 3D reconstructions, significantly outperforming existing single image reconstruction models and multi-view reconstruction approaches with a similar or greater number of observations.
翻訳日:2024-01-11 14:20:40 公開日:2024-01-10
# データ・ハングリー」強化学習の改ざん? 連続状態-作用空間の安定性

Taming "data-hungry" reinforcement learning? Stability in continuous state-action spaces ( http://arxiv.org/abs/2401.05233v1 )

ライセンス: Link先を確認
Yaqi Duan, Martin J. Wainwright(参考訳) 本研究では, 連続状態行動空間における強化学習(RL)を解析するための新しいフレームワークを提案し, オフラインとオンラインの両方で高速な収束率を示す。 本研究は,価値関数および/又は政策の変化がベルマンオペレーターおよび職業措置に与える影響に関する2つの重要な安定性特性を浮き彫りにしたものである。 これらの性質は多くの連続的状態-作用マルコフ決定過程で満たされ、線形関数近似法を用いて自然にそれらがどのように生じるかを示す。 本分析は,オフラインRLとオンラインRLにおける悲観的・楽観的役割の新たな視点を提供し,オフラインRLと移動学習との関係を明らかにする。

We introduce a novel framework for analyzing reinforcement learning (RL) in continuous state-action spaces, and use it to prove fast rates of convergence in both off-line and on-line settings. Our analysis highlights two key stability properties, relating to how changes in value functions and/or policies affect the Bellman operator and occupation measures. We argue that these properties are satisfied in many continuous state-action Markov decision processes, and demonstrate how they arise naturally when using linear function approximation methods. Our analysis offers fresh perspectives on the roles of pessimism and optimism in off-line and on-line RL, and highlights the connection between off-line RL and transfer learning.
翻訳日:2024-01-11 14:20:16 公開日:2024-01-10
# 自動車用魚眼カメラの自然シーンSFRの測定

Measuring Natural Scenes SFR of Automotive Fisheye Cameras ( http://arxiv.org/abs/2401.05232v1 )

ライセンス: Link先を確認
Daniel Jakab, Eoin Martino Grua, Brian Micheal Deegan, Anthony Scanlan, Pepijn Van De Ven, and Ciar\'an Eising(参考訳) MTF(Modulation Transfer Function)は、自動車領域で一般的に用いられる画像品質の指標である。 しかし、光学的品質が自動車の自動化におけるコンピュータビジョンの性能に影響を与えているにもかかわらず、多くの公開データセットにおいて、この指標は未知数である。 さらに、特に低速車両自動化アプリケーションにおいて、広視野視野カメラ(FOV)が人気を博している。 本稿では,データセットの画質を調べるために,自然シーン空間周波数応答(ns-sfr)アルゴリズムを広視野カメラに適用する手法を提案する。

The Modulation Transfer Function (MTF) is an important image quality metric typically used in the automotive domain. However, despite the fact that optical quality has an impact on the performance of computer vision in vehicle automation, for many public datasets, this metric is unknown. Additionally, wide field-of-view (FOV) cameras have become increasingly popular, particularly for low-speed vehicle automation applications. To investigate image quality in datasets, this paper proposes an adaptation of the Natural Scenes Spatial Frequency Response (NS-SFR) algorithm to suit cameras with a wide field-of-view.
翻訳日:2024-01-11 14:20:01 公開日:2024-01-10
# 物理データから有効な良い変数を学習する

Learning effective good variables from physical data ( http://arxiv.org/abs/2401.05226v1 )

ライセンス: Link先を確認
Giulio Barletta, Giovanni Trezza, Eliodoro Chiavazzo(参考訳) 十分に大きなデータベースが利用できると仮定し、興味のある物理的特性と関連する支配的プリミティブ変数やオブザーバブルが格納される。 第1のアプローチは回帰モデルに基づいていますが,第2のアプローチは分類モデルに基づいています。 変数群(以下、新しい有効好変数と呼ばれる)は、興味の物理的性質が以下の実効的不変性によって特徴づけられるとき、成功するとみなすことができる: 第一の方法では、群の不変性は、与えられた精度までその性質の不変性を意味する;もう一方の方法では、物理的性質値を2つ以上のクラスに分割するときに、群の不変性は、クラスの不変性を意味する。 この2つの方法は、対流熱伝達現象を記述する2つの一般的な経験的相関と、ニュートンの普遍重力法則にうまく適用されている。

We assume that a sufficiently large database is available, where a physical property of interest and a number of associated ruling primitive variables or observables are stored. We introduce and test two machine learning approaches to discover possible groups or combinations of primitive variables: The first approach is based on regression models whereas the second on classification models. The variable group (here referred to as the new effective good variable) can be considered as successfully found, when the physical property of interest is characterized by the following effective invariant behaviour: In the first method, invariance of the group implies invariance of the property up to a given accuracy; in the other method, upon partition of the physical property values into two or more classes, invariance of the group implies invariance of the class. For the sake of illustration, the two methods are successfully applied to two popular empirical correlations describing the convective heat transfer phenomenon and to the Newton's law of universal gravitation.
翻訳日:2024-01-11 14:19:51 公開日:2024-01-10
# 視覚と言語エンコーダは世界を表現するか?

Do Vision and Language Encoders Represent the World Similarly? ( http://arxiv.org/abs/2401.05224v1 )

ライセンス: Link先を確認
Mayug Maniparambil, Raiymbek Akshulakov, Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Mohamed El Amine Seddik, Karttikeya Mangalam, Noel E. O'Connor(参考訳) CLIPのようなアライメントされたテキストイメージエンコーダは、視覚言語タスクのデファクトモデルになっている。 さらに、モダリティ固有のエンコーダは、それぞれのドメインで印象的なパフォーマンスを達成する。 これは、一様視と言語エンコーダの間にアライメントが存在し、それらは基本的に同じ物理世界を表すのだろうか? Centered Kernel Alignment (CKA) を用いた画像キャプションベンチマークにおいて,視覚と言語モデルの潜在空間構造を解析した結果,不整合および整合エンコーダの表現空間は意味的に類似していることがわかった。 CLIPのようなアライメントエンコーダの統計的類似性がない場合、アライメントされていないエンコーダのマッチングがトレーニングなしで存在することを示す。 本稿では,グラフ間のセマンティックな類似性を利用したグラフマッチング問題として,高速2次アサインメント問題最適化と,新しい局所化CKAメトリックベースのマッチング/検索という2つの手法を提案する。 本稿では, 言語横断, ドメイン横断のキャプションマッチング, 画像分類など, 下流タスクにおけるこれの有効性を示す。

Aligned text-image encoders such as CLIP have become the de facto model for vision-language tasks. Furthermore, modality-specific encoders achieve impressive performances in their respective domains. This raises a central question: does an alignment exist between uni-modal vision and language encoders since they fundamentally represent the same physical world? Analyzing the latent spaces structure of vision and language models on image-caption benchmarks using the Centered Kernel Alignment (CKA), we find that the representation spaces of unaligned and aligned encoders are semantically similar. In the absence of statistical similarity in aligned encoders like CLIP, we show that a possible matching of unaligned encoders exists without any training. We frame this as a seeded graph-matching problem exploiting the semantic similarity between graphs and propose two methods - a Fast Quadratic Assignment Problem optimization, and a novel localized CKA metric-based matching/retrieval. We demonstrate the effectiveness of this on several downstream tasks including cross-lingual, cross-domain caption matching and image classification.
翻訳日:2024-01-11 14:19:32 公開日:2024-01-10
# エッジml不正検出におけるデータ分散シフトの分散監視

Distributed Monitoring for Data Distribution Shifts in Edge-ML Fraud Detection ( http://arxiv.org/abs/2401.05219v1 )

ライセンス: Link先を確認
Nader Karayanni, Robert J. Shahla and Chieh-Lien Hsiao(参考訳) デジタル時代は金融詐欺が著しく増加した。 edge MLは、スマートフォン支払いサービスの不正検出のための有望なソリューションとして登場し、エッジデバイスに直接MLモデルのデプロイを可能にする。 このアプローチは、よりパーソナライズされたリアルタイム詐欺検出を可能にする。 しかし、現在の研究における大きなギャップは、これらの分散エッジMLアプリケーションでデータ分散シフトを監視する堅牢なシステムがないことである。 エッジデバイスのネットワーク上でのデータ分散シフトを継続的に監視するために設計された、新しいオープンソースフレームワークを導入することで、このギャップを解消します。 本システムには,エッジデバイスの分散ネットワーク上でのkolmogorov-smirnov(ks)テストの革新的な計算が含まれている。 我々は,実世界および総合的な金融取引データセットを用いた提案フレームワークを包括的に評価し,その効果を実証する。

The digital era has seen a marked increase in financial fraud. edge ML emerged as a promising solution for smartphone payment services fraud detection, enabling the deployment of ML models directly on edge devices. This approach enables a more personalized real-time fraud detection. However, a significant gap in current research is the lack of a robust system for monitoring data distribution shifts in these distributed edge ML applications. Our work bridges this gap by introducing a novel open-source framework designed for continuous monitoring of data distribution shifts on a network of edge devices. Our system includes an innovative calculation of the Kolmogorov-Smirnov (KS) test over a distributed network of edge devices, enabling efficient and accurate monitoring of users behavior shifts. We comprehensively evaluate the proposed framework employing both real-world and synthetic financial transaction datasets and demonstrate the framework's effectiveness.
翻訳日:2024-01-11 14:19:14 公開日:2024-01-10
# 局所線形モデルによる不変因果予測

Invariant Causal Prediction with Locally Linear Models ( http://arxiv.org/abs/2401.05218v1 )

ライセンス: Link先を確認
Alexander Mey, Rui Manuel Castro(参考訳) 観測データから,対象変数の因果親を候補変数の集合として同定する作業を検討する。 我々の主な前提は、候補変数は異なる環境で観察され、例えば、動的プロセスにおける機械の設定や時間間隔の異なる設定に対応できるということです。 ある前提の下では、異なる環境は観察されたシステムの介入と見なすことができる。 目的と共変量の間の線形関係を仮定し,各環境において因果構造が環境間で不変であるという制約を課す。 これはピーターズらによるICP$\textbf{I}$nvariant $\textbf{C}$ausal $\textbf{P}$rediction) の原理の拡張である。 【2016年】全環境にまたがる固定線形関係を仮定した。 提案する条件内では、因果親の識別性に関する十分な条件を提供し、最小統計量と最大統計量の比を用いた親識別のための仮説テストに基づいて、lolicap (\textbf{lo}$cally $\textbf{l}$inear $\textbf{i}$nvariant $\textbf{ca}$usal $\textbf{p}$rediction)と呼ばれる実用的な方法を導入する。 次に、LolicaPの統計的パワーがサンプルサイズで指数関数的に速く収束することを示し、最終的により一般的な設定でLolicaPの挙動を実験的に解析する。

We consider the task of identifying the causal parents of a target variable among a set of candidate variables from observational data. Our main assumption is that the candidate variables are observed in different environments which may, for example, correspond to different settings of a machine or different time intervals in a dynamical process. Under certain assumptions different environments can be regarded as interventions on the observed system. We assume a linear relationship between target and covariates, which can be different in each environment with the only restriction that the causal structure is invariant across environments. This is an extension of the ICP ($\textbf{I}$nvariant $\textbf{C}$ausal $\textbf{P}$rediction) principle by Peters et al. [2016], who assumed a fixed linear relationship across all environments. Within our proposed setting we provide sufficient conditions for identifiability of the causal parents and introduce a practical method called LoLICaP ($\textbf{Lo}$cally $\textbf{L}$inear $\textbf{I}$nvariant $\textbf{Ca}$usal $\textbf{P}$rediction), which is based on a hypothesis test for parent identification using a ratio of minimum and maximum statistics. We then show in a simplified setting that the statistical power of LoLICaP converges exponentially fast in the sample size, and finally we analyze the behavior of LoLICaP experimentally in more general settings.
翻訳日:2024-01-11 14:19:00 公開日:2024-01-10
# 非参照画像品質評価モデルの脆弱性探索:クエリに基づくブラックボックス法

Exploring Vulnerabilities of No-Reference Image Quality Assessment Models: A Query-Based Black-Box Method ( http://arxiv.org/abs/2401.05217v1 )

ライセンス: Link先を確認
Chenxi Yang, Yujia Liu, Dingquan Li, Tingting jiang(参考訳) No-Reference Image Quality Assessment (NR-IQA) は、プリスタン参照画像に頼ることなく、人間の知覚と整合した画像品質スコアを予測することを目的としており、様々な視覚タスクにおいて重要な要素となっている。 NR-IQA法の堅牢性を保証することは,様々な画像処理技術と一貫したユーザエクスペリエンスの信頼性比較に不可欠である。 NR-IQAの攻撃方法は、NR-IQAの堅牢性をテストする強力な手段を提供する。 しかし、現在のNR-IQAの攻撃方法はNR-IQAモデルの勾配に大きく依存しており、勾配情報が利用できない場合に制限が生じる。 本稿では,NR-IQA法に対するクエリベースのブラックボックス攻撃について述べる。 本稿では,複数のスコア境界を持つ適応的反復的アプローチを応用して,<emph{score boundary}>の概念を提案する。 一方、初期攻撃方向はヒューマン・ビジュアル・システム(HVS)の特性を活用するように設計されている。 実験の結果,攻撃方法は比較対象の最先端手法よりも優れており,従来のブラックボックス手法よりもはるかに優れていた。 実効DBCNNモデルはスピアマン階数相関係数 (SROCC) が0.6972$の低下に悩まされ, NR-IQAのブラックボックス攻撃に対する脆弱性が明らかとなった。 提案手法はまた、NR-IQAロバスト性をさらに探究するための強力なツールを提供する。

No-Reference Image Quality Assessment (NR-IQA) aims to predict image quality scores consistent with human perception without relying on pristine reference images, serving as a crucial component in various visual tasks. Ensuring the robustness of NR-IQA methods is vital for reliable comparisons of different image processing techniques and consistent user experiences in recommendations. The attack methods for NR-IQA provide a powerful instrument to test the robustness of NR-IQA. However, current attack methods of NR-IQA heavily rely on the gradient of the NR-IQA model, leading to limitations when the gradient information is unavailable. In this paper, we present a pioneering query-based black box attack against NR-IQA methods. We propose the concept of \emph{score boundary} and leverage an adaptive iterative approach with multiple score boundaries. Meanwhile, the initial attack directions are also designed to leverage the characteristics of the Human Visual System (HVS). Experiments show our attack method outperforms all compared state-of-the-art methods and is far ahead of previous black-box methods. The effective DBCNN model suffers a Spearman rank-order correlation coefficient (SROCC) decline of $0.6972$ attacked by our method, revealing the vulnerability of NR-IQA to black-box attacks. The proposed attack method also provides a potent tool for further exploration into NR-IQA robustness.
翻訳日:2024-01-11 14:18:28 公開日:2024-01-10
# 金融知覚分析のための事前学習型大規模言語モデル

Pre-trained Large Language Models for Financial Sentiment Analysis ( http://arxiv.org/abs/2401.05215v1 )

ライセンス: Link先を確認
Wei Luo, Dihong Gong(参考訳) 金融感情分析 (financial sentiment analysis) とは、金融テキストの内容を感情カテゴリー(ポジティブ、ネガティブ、中立など)に分類することを指す。 本稿では,大量のトレーニングサンプルが不足していることから,金融ニュースタイトルの分類に焦点をあてる。 この問題を解決するために,事前訓練された大規模言語モデル (LLM) [1, 2, 3] を適応させることを提案する。 大量のテキストコーパスからトレーニングされたLSMは、テキスト理解の優位性があり、ごく少数のトレーニングサンプルを必要としながら、ドメイン固有のタスクに効果的に適用できる。 特に、オープンソースのLlama2-7Bモデル(2023)を教師付き微調整(SFT)技術で適用する [4]。 実験評価の結果,7bモデル(llmsでは比較的小さい)においても,従来の最先端アルゴリズムをかなり上回っていることがわかった。

Financial sentiment analysis refers to classifying financial text contents into sentiment categories (e.g. positive, negative, and neutral). In this paper, we focus on the classification of financial news title, which is a challenging task due to a lack of large amount of training samples. To overcome this difficulty, we propose to adapt the pretrained large language models (LLMs) [1, 2, 3] to solve this problem. The LLMs, which are trained from huge amount of text corpora,have an advantage in text understanding and can be effectively adapted to domain-specific task while requiring very few amount of training samples. In particular, we adapt the open-source Llama2-7B model (2023) with the supervised fine-tuning (SFT) technique [4]. Experimental evaluation shows that even with the 7B model (which is relatively small for LLMs), our approach significantly outperforms the previous state-of-the-art algorithms.
翻訳日:2024-01-11 14:18:02 公開日:2024-01-10
# 暗黙的runge-kutta法を用いた物理形ニューラルネットワークの誤差推定

Error estimation for physics-informed neural networks with implicit Runge-Kutta methods ( http://arxiv.org/abs/2401.05211v1 )

ライセンス: Link先を確認
Jochen Stiasny, Spyros Chatzivasileiadis(参考訳) 力学系の軌道を正確に近似する能力は、解析、予測、制御を可能にする。 ニューラルネットワーク(NN)に基づく近似は、長い統合時間ステップよりも高い精度で高速な評価を行うため、大きな関心を集めている。 Runge-Kutta法のような確立された数値近似方式とは対照的に,NNに基づく近似の誤差の推定は困難である。 本研究では,NNの予測を高次暗黙的ルンゲ・クッタ(IRK)法で用いることを提案する。 方程式の暗黙の系における残差は、NNの予測誤差と関係し得るので、軌道に沿ったいくつかの点で誤差推定を行うことができる。 この誤差推定は,NNの予測誤差と非常に相関し,IRK法の順序を増大させることで,この推定精度が向上することがわかった。 本手法は,ロジスティック方程式を用いた物理インフォームドニューラルネットワーク(pinns)に対する推定手法を例示として示し,電力系統モデリングによく用いられる4状態発電機モデルに適用する。

The ability to accurately approximate trajectories of dynamical systems enables their analysis, prediction, and control. Neural network (NN)-based approximations have attracted significant interest due to fast evaluation with good accuracy over long integration time steps. In contrast to established numerical approximation schemes such as Runge-Kutta methods, the estimation of the error of the NN-based approximations proves to be difficult. In this work, we propose to use the NN's predictions in a high-order implicit Runge-Kutta (IRK) method. The residuals in the implicit system of equations can be related to the NN's prediction error, hence, we can provide an error estimate at several points along a trajectory. We find that this error estimate highly correlates with the NN's prediction error and that increasing the order of the IRK method improves this estimate. We demonstrate this estimation methodology for Physics-Informed Neural Network (PINNs) on the logistic equation as an illustrative example and then apply it to a four-state electric generator model that is regularly used in power system modelling.
翻訳日:2024-01-11 14:17:46 公開日:2024-01-10
# 新しいPrompt-tuning手法:シナリオ固有の概念をバーバリザーに組み込む

A Novel Prompt-tuning Method: Incorporating Scenario-specific Concepts into a Verbalizer ( http://arxiv.org/abs/2401.05204v1 )

ライセンス: Link先を確認
Yong Ma, Senlin Luo, Yu-Ming Shang, Zhengjun Li, Yong Liu(参考訳) ラベル単語をクラスラベルにマップするのに役立つ動詞修飾器は、プロンプトチューニングの重要な構成要素である。 そこで本稿では, 言語化のための新しい手法を提案する。 既存の動詞体系構築の手法は、主にクラス名に基づく同義語や関連語の集合の増補と精製に頼っているが、このパラダイムは狭義の視点と抽象性の欠如に悩まされており、限定的なカバレッジとラベルワード空間における高いバイアスをもたらす。 この問題に対処するため,シナリオ固有の概念を取り入れたラベルワード構築プロセスを提案する。 具体的には、タスク固有のシナリオから豊富な概念をラベルワード候補として抽出し、新しいカスケードキャリブレーションモジュールを開発し、候補を各クラスのラベルワードの集合に洗練する。 提案手法の有効性を,ゼロショットテキスト分類のための5つのデータセットを用いた広範囲な実験により評価した。 その結果,本手法は既存の手法よりも優れ,最先端の結果が得られた。

The verbalizer, which serves to map label words to class labels, is an essential component of prompt-tuning. In this paper, we present a novel approach to constructing verbalizers. While existing methods for verbalizer construction mainly rely on augmenting and refining sets of synonyms or related words based on class names, this paradigm suffers from a narrow perspective and lack of abstraction, resulting in limited coverage and high bias in the label-word space. To address this issue, we propose a label-word construction process that incorporates scenario-specific concepts. Specifically, we extract rich concepts from task-specific scenarios as label-word candidates and then develop a novel cascade calibration module to refine the candidates into a set of label words for each class. We evaluate the effectiveness of our proposed approach through extensive experiments on {five} widely used datasets for zero-shot text classification. The results demonstrate that our method outperforms existing methods and achieves state-of-the-art results.
翻訳日:2024-01-11 14:17:26 公開日:2024-01-10
# 姿勢推定と複数ロコモーション特性を用いた乳牛の自動ラメネス検出

Video-based Automatic Lameness Detection of Dairy Cows using Pose Estimation and Multiple Locomotion Traits ( http://arxiv.org/abs/2401.05202v1 )

ライセンス: Link先を確認
Helena Russello, Rik van der Tol, Menno Holzhauer, Eldert J. van Henten, Gert Kootstra(参考訳) 本研究では, 深層学習画像処理技術を用いて, 透視に関連する複数の移動特性を抽出する自動透視検出システムを提案する。 t-leapポーズ推定モデルを用いて,歩く牛の動画から9つのキーポイントの動きを抽出した。 ビデオは様々な照明条件で屋外で録画され、T-LEAPは正しいキーポイントの99.6%を抽出した。 キーポイントの軌跡は、後部姿勢測定、頭部ボビング、追跡距離、ストライド長、姿勢持続時間、揺動長の6つの特性を計算するために使用された。 3つの重要な特徴は、背姿勢測定、頭部ボビング、追跡距離であった。 実のところ、観測者のスコアを慎重にマージすることで、オブザーバ内の信頼性と合意が向上することを示した。 その結果,複数の移動特性を含めると,分類精度は76.6%,3つの重要な特性で79.9%,6つの移動特性で80.1%に向上した。

This study presents an automated lameness detection system that uses deep-learning image processing techniques to extract multiple locomotion traits associated with lameness. Using the T-LEAP pose estimation model, the motion of nine keypoints was extracted from videos of walking cows. The videos were recorded outdoors, with varying illumination conditions, and T-LEAP extracted 99.6% of correct keypoints. The trajectories of the keypoints were then used to compute six locomotion traits: back posture measurement, head bobbing, tracking distance, stride length, stance duration, and swing duration. The three most important traits were back posture measurement, head bobbing, and tracking distance. For the ground truth, we showed that a thoughtful merging of the scores of the observers could improve intra-observer reliability and agreement. We showed that including multiple locomotion traits improves the classification accuracy from 76.6% with only one trait to 79.9% with the three most important traits and to 80.1% with all six locomotion traits.
翻訳日:2024-01-11 14:17:08 公開日:2024-01-10
# 大規模言語モデルを用いた製造における知識共有:ユーザ評価とモデルベンチマーク

Knowledge Sharing in Manufacturing using Large Language Models: User Evaluation and Model Benchmarking ( http://arxiv.org/abs/2401.05200v1 )

ライセンス: Link先を確認
Samuel Kernan Freire, Chaofan Wang, Mina Foosherian, Stefan Wellsandt, Santiago Ruiz-Arenas and Evangelos Niforatos(参考訳) 組織の成功には、知識を効率的に管理することが不可欠です。 製造業では、新業者の育成と支援のため、工場の能力に知識を集中的に注ぐ工場が増えている。 本稿では,工場文書に含まれる膨大な知識を活用するために,大規模言語モデル(LLM)に基づくシステムを提案する。 本システムは,オペレータからの問い合わせに効率的に答え,新たな知識の共有を容易にすることを目的としている。 有効性を評価するため,工場環境で評価を行った。 この評価の結果、より迅速な情報検索とより効率的な問題解決を可能にするシステムの利点が示された。 しかし、この研究は、そのような選択肢が利用できるとき、人間の専門家から学ぶことを好むことも強調した。 さらに,本システムのために,複数のオープンソースLCMをベンチマークした。 GPT-4は、StableBeluga2のようなオープンソースのモデルが、データプライバシとカスタマイズのメリットから魅力的な選択肢を提示している。 本研究は,LLMツールを知識管理に活用することを検討する工場に対して,予備的な洞察を提供する。

Managing knowledge efficiently is crucial for organizational success. In manufacturing, operating factories has become increasing knowledge-intensive putting strain on the factory's capacity to train and support new operators. In this paper, we introduce a Large Language Model (LLM)-based system designed to use the extensive knowledge contained in factory documentation. The system aims to efficiently answer queries from operators and facilitate the sharing of new knowledge. To assess its effectiveness, we conducted an evaluation in a factory setting. The results of this evaluation demonstrated the system's benefits; namely, in enabling quicker information retrieval and more efficient resolution of issues. However, the study also highlighted a preference for learning from a human expert when such an option is available. Furthermore, we benchmarked several closed and open-sourced LLMs for this system. GPT-4 consistently outperformed its counterparts, with open-source models like StableBeluga2 trailing closely, presenting an attractive option given its data privacy and customization benefits. Overall, this work offers preliminary insights for factories considering using LLM-tools for knowledge management.
翻訳日:2024-01-11 14:16:46 公開日:2024-01-10
# 量子シミュレータの古典的検証:1次元ボース気体の局所緩和

Classical verification of a quantum simulator: local relaxation of a 1D Bose gas ( http://arxiv.org/abs/2401.05301v1 )

ライセンス: Link先を確認
Paul Secular(参考訳) nat. phys. 8, 325-330 (2012)]では、トロツキーらは超低温原子を光学格子で利用し、強相互作用するボース気体の局所緩和ダイナミクスを「現在の古典的アルゴリズムが追跡できるよりも長い時間」シミュレートしている。 ここで、私はこのアナログ量子シミュレータの結果を古典的に検証し、同じ準局所観測器の進化を「完全にリラックスした」時間まで計算する。 時間進化ブロックデシメーション(TEBD)アルゴリズムの並列実装を用いてスーパーコンピュータ上でのシステムのシミュレーションを行い、局所密度と電流は数週間ではなく数日で計算可能であることを示す。 これらの数値の精度は、予想されたパワーロー崩壊からの逸脱を観測し、調和的トラップポテンシャルの効果を決定できる。 将来の実験的、理論的、数値的手法のための堅牢なベンチマークを提供するとともに、この研究は独立検証プロセスの例として機能する。

In [Nat. Phys. 8, 325-330 (2012)], Trotzky et al. utilize ultracold atoms in an optical lattice to simulate the local relaxation dynamics of a strongly interacting Bose gas "for longer times than present classical algorithms can keep track of". Here, I classically verify the results of this analog quantum simulator by calculating the evolution of the same quasi-local observables up to the time at which they appear "fully relaxed". Using a parallel implementation of the time-evolving block decimation (TEBD) algorithm to simulate the system on a supercomputer, I show that local densities and currents can be calculated in a matter of days rather than weeks. The precision of these numerics allows me to observe deviations from the conjectured power-law decay and to determine the effects of the harmonic trapping potential. As well as providing a robust benchmark for future experimental, theoretical, and numerical methods, this work serves as an example of the independent verification process.
翻訳日:2024-01-11 14:10:18 公開日:2024-01-10
# 私は奇妙なデータセットです - 言語モデルのメタ言語テスト

I am a Strange Dataset: Metalinguistic Tests for Language Models ( http://arxiv.org/abs/2401.05300v1 )

ライセンス: Link先を確認
Tristan Thrush, Jared Moore, Miguel Monares, Christopher Potts, Douwe Kiela(参考訳) メタリング主義的自己参照("this paper has six section.")は、多くの領域で一般的である。 大きな言語モデル(LLM)はそのような言語を扱えるのか? 本稿では,この問題に対処するための新しいデータセットである"I am a Strange Dataset"を提案する。 生成と検証の2つのサブタスクがある。 世代では、モデルが「この文の最後尾の単語は」(正しい継続が"is"である)などの文を継続する。 検証において、モデルは「この文の最後尾の単語は文である」といった文の真理を判断する(偽)。 また、モデルが金属言語をまったく扱うことができるかどうかを調べることによって、メインデータセットを補完するために、最小のメタリング主義的非自己参照例も提供します。 データセットは専門家によって手作りされ、専門家でないアノテーションによって検証される。 各種のオープンソースLLM(7Bから70Bのパラメータ)と,APIによるクローズドソースLLMをテストする。 モデルスケールは安定的に改善されているものの、すべてのモデルがサブタスクと非自己参照メタプログラミング制御データの両方でほぼ偶然に実行されます。 GPT 4は、偶然よりもずっと良く動作する唯一のモデルであり、まだ60%の範囲でしかなく、訓練されていない人間のアノテータは89-93%の範囲で良いスコアを得ています。 データセットと評価ツールキットはhttps://github.com/TristanThrush/i-am-a-strange-datasetで入手できる。

Statements involving metalinguistic self-reference ("This paper has six sections.") are prevalent in many domains. Can large language models (LLMs) handle such language? In this paper, we present "I am a Strange Dataset", a new dataset for addressing this question. There are two subtasks: generation and verification. In generation, models continue statements like "The penultimate word in this sentence is" (where a correct continuation is "is"). In verification, models judge the truth of statements like "The penultimate word in this sentence is sentence." (false). We also provide minimally different metalinguistic non-self-reference examples to complement the main dataset by probing for whether models can handle metalinguistic language at all. The dataset is hand-crafted by experts and validated by non-expert annotators. We test a variety of open-source LLMs (7B to 70B parameters) as well as closed-source LLMs through APIs. All models perform close to chance across both subtasks and even on the non-self-referential metalinguistic control data, though we find some steady improvement with model scale. GPT 4 is the only model to consistently do significantly better than chance, and it is still only in the 60% range, while our untrained human annotators score well in the 89-93% range. The dataset and evaluation toolkit are available at https://github.com/TristanThrush/i-am-a-strange-dataset.
翻訳日:2024-01-11 14:09:59 公開日:2024-01-10
# 乱れた寒冷原子雲に散乱した光の相互性破壊とパンチャラトナム・ベリー相

Breaking of reciprocity and the Pancharatnam-Berry phase for light scattered by a disordered cold atom cloud ( http://arxiv.org/abs/2401.05297v1 )

ライセンス: Link先を確認
P. H. N. Magnani, P. G. S. Dias, M. Frometa, M. A. Martins, N. Piovella, R. Kaiser, Ph. W. Courteille, M. Hugbart, R. Bachelard, R. C. Teixeira(参考訳) アンダーソン局在やコヒーレント後方散乱といった不規則媒質が散乱する光に対する集団的影響は、干渉光路間の相互性に依存する。 本研究では,干渉経路の偏光を制御した光学素子の非可換性を利用して,不規則な低温原子配置によって散乱した光の相互性破壊について検討する。 この対称性の破れは、雲が散乱する光が鏡像からのそれと干渉するため、フリンジのコントラストの低減に現れている。 我々はパンカラトナム・ベリー相の観点で幾何学的解釈を行い, フリンジの変位から直接アクセスする。 我々の研究は、無秩序な媒体によって散乱された光に対する経路の相互操作と干渉への道を開く。

Collective effects on the light scattered by disordered media such as Anderson localization and coherent backscattering critically depend on the reciprocity between interfering optical paths. In this work, we explore the breaking of reciprocity for the light scattered by a disordered cold atom setup, taking advantage of the non-commutation of optical elements that manipulate the polarization of the interfering paths. This breaking of symmetry manifests itself in the reduction of the fringes contrast as the light scattered by the cloud interferes with that from its mirror image. We provide a geometrical interpretation in terms of the Pancharatnam-Berry phase, which we directly access from the fringes displacement. Our work paves the way toward the manipulation of path reciprocity and interference for light scattered by disordered media.
翻訳日:2024-01-11 14:09:34 公開日:2024-01-10
# GAN(Generative Adversarial Network)を用いた粒子検出器からのパルスの合成

Synthesis of pulses from particle detectors with a Generative Adversarial Network (GAN) ( http://arxiv.org/abs/2401.05295v1 )

ライセンス: Link先を確認
Alberto Regad\'io, Luis Esteban, Sebasti\'an S\'anchez-Prieto(参考訳) そこで本研究では,電子回路の開発における粒子検出器からのパルスの欠如や総欠如に対処するため,実電子回路の特徴を損なうことなくパルスを発生できるモデルを提案する。 このモデルは、GAN(Generative Adversarial Networks)と呼ばれる人工ニューラルネットワークに基づいている。 提案するネットワークアーキテクチャ,そのトレーニング手法,および,${}^{137}$Csおよび${}^{22}$Naから放射を受けるシンチレータから実パルスでGANを訓練するためのアプローチについて述べる。 発電機はXilinxのSystem-On-Chip (SoC)に搭載された。 そこで本研究では, 実データと同一形状のパルスを生成し, 元のパルスheightヒストグラムデータのデータ分布にもマッチすることを示す。

To address the possible lack or total absence of pulses from particle detectors during the development of its associate electronics, we propose a model that can generate them without losing the features of the real ones. This model is based on artificial neural networks, namely Generative Adversarial Networks (GAN). We describe the proposed network architecture, its training methodology and the approach to train the GAN with real pulses from a scintillator receiving radiation from sources of ${}^{137}$Cs and ${}^{22}$Na. The Generator was installed in a Xilinx's System-On-Chip (SoC). We show how the network is capable of generating pulses with the same shape as the real ones that even match the data distributions in the original pulse-height histogram data.
翻訳日:2024-01-11 14:09:21 公開日:2024-01-10
# CTによる体組成分析における筋と脂肪分画の増強 : 比較検討

Enhanced Muscle and Fat Segmentation for CT-Based Body Composition Analysis: A Comparative Study ( http://arxiv.org/abs/2401.05294v1 )

ライセンス: Link先を確認
Benjamin Hou, Tejas Sudharshan Mathai, Jianfei Liu, Christopher Parnell, Ronald M. Summers(参考訳) 目的: 腹部CTによる身体組成測定は, 無症候性, 疾患患者に対してパーソナライズされたリスク評価を与えることができる。 特に、筋肉と脂肪の減量と体積測定は、心血管イベント、骨折、死亡などの重要な臨床結果と関連している。 本研究は, 筋脂肪(皮下, 内臓)のセグメンテーションのための内用具の信頼性を, 確立された公的トータルセグメンタツールと比較して評価するものである。 方法: SAROSデータセットより, 筋, 皮下脂肪, 内臓脂肪に着目し, 900CTシリーズのツールについて検討した。 diceスコアは皮下脂肪および筋分画の精度を評価するために用いられた。 内臓脂肪に対する基底的真実セグメンテーションの欠如により、コーエンのkappaはツール間のセグメンテーション合意を評価するために利用された。 結果: 内装具は皮下脂肪では3%高Dice (83.8 vs. 80.8) , 筋分節では5%改善 (87.6 vs. 83.2) を得た。 ウィルコクソンサインランク試験の結果,p<0.01。 内臓脂肪では, コーエンのカッパスコア0.856は両者のほぼ完全な一致を示した。 内装具は筋量 (R^2=0.99), 筋量 (R^2=0.93), 皮下脂肪量 (R^2=0.99), 皮下脂肪量 (R^2=0.45) に極めて強い相関関係を示した。 結語: 内用具は皮下脂肪および筋肉の測定においてTotalSegmentatorより優れていた。 内臓脂肪に対するコーエンのカッパスコアは2つのツール間の信頼性の高い一致を示している。 これらの結果は, 身体組成分析の精度向上におけるツールの可能性を示している。

Purpose: Body composition measurements from routine abdominal CT can yield personalized risk assessments for asymptomatic and diseased patients. In particular, attenuation and volume measures of muscle and fat are associated with important clinical outcomes, such as cardiovascular events, fractures, and death. This study evaluates the reliability of an Internal tool for the segmentation of muscle and fat (subcutaneous and visceral) as compared to the well-established public TotalSegmentator tool. Methods: We assessed the tools across 900 CT series from the publicly available SAROS dataset, focusing on muscle, subcutaneous fat, and visceral fat. The Dice score was employed to assess accuracy in subcutaneous fat and muscle segmentation. Due to the lack of ground truth segmentations for visceral fat, Cohen's Kappa was utilized to assess segmentation agreement between the tools. Results: Our Internal tool achieved a 3% higher Dice (83.8 vs. 80.8) for subcutaneous fat and a 5% improvement (87.6 vs. 83.2) for muscle segmentation respectively. A Wilcoxon signed-rank test revealed that our results were statistically different with p<0.01. For visceral fat, the Cohen's kappa score of 0.856 indicated near-perfect agreement between the two tools. Our internal tool also showed very strong correlations for muscle volume (R^2=0.99), muscle attenuation (R^2=0.93), and subcutaneous fat volume (R^2=0.99) with a moderate correlation for subcutaneous fat attenuation (R^2=0.45). Conclusion: Our findings indicated that our Internal tool outperformed TotalSegmentator in measuring subcutaneous fat and muscle. The high Cohen's Kappa score for visceral fat suggests a reliable level of agreement between the two tools. These results demonstrate the potential of our tool in advancing the accuracy of body composition analysis.
翻訳日:2024-01-11 14:09:07 公開日:2024-01-10
# 学習多様体補正によるスコア蒸留サンプリング

Score Distillation Sampling with Learned Manifold Corrective ( http://arxiv.org/abs/2401.05293v1 )

ライセンス: Link先を確認
Thiemo Alldieck, Nikos Kolotouros, Cristian Sminchisescu(参考訳) スコア蒸留サンプリング(英: score distillation sampling, sds)は、画像拡散モデルを用いてテキストプロンプトを用いた最適化問題を制御する手法である。 本稿では,sds損失関数の詳細な解析を行い,その定式化に固有の問題を特定し,驚くほど簡単だが効果的な修正を提案する。 具体的には,損失を異なる要因に分解し,ノイズ勾配の原因成分を分離する。 オリジナルの定式化では、ノイズを考慮に入れるために高いテキストガイダンスが使用され、望ましくない副作用が生じる。 代わりに,画像拡散モデルの時間ステップ依存分別欠損を模倣した浅層ネットワークを学習し,それを効果的に分解する。 本稿では,最適化に基づく画像合成と編集,ゼロショット画像翻訳ネットワークトレーニング,テキストから3d合成など,数種類の質的定量的実験を通じて,新たな損失定式化の有用性と有効性を示す。

Score Distillation Sampling (SDS) is a recent but already widely popular method that relies on an image diffusion model to control optimization problems using text prompts. In this paper, we conduct an in-depth analysis of the SDS loss function, identify an inherent problem with its formulation, and propose a surprisingly easy but effective fix. Specifically, we decompose the loss into different factors and isolate the component responsible for noisy gradients. In the original formulation, high text guidance is used to account for the noise, leading to unwanted side effects. Instead, we train a shallow network mimicking the timestep-dependent denoising deficiency of the image diffusion model in order to effectively factor it out. We demonstrate the versatility and the effectiveness of our novel loss formulation through several qualitative and quantitative experiments, including optimization-based image synthesis and editing, zero-shot image translation network training, and text-to-3D synthesis.
翻訳日:2024-01-11 14:08:32 公開日:2024-01-10
# INACIA:ブラジルの監査裁判所における大規模言語モデルの統合:機会と課題

INACIA: Integrating Large Language Models in Brazilian Audit Courts: Opportunities and Challenges ( http://arxiv.org/abs/2401.05273v1 )

ライセンス: Link先を確認
Jayr Pereira, Andre Assumpcao, Julio Trecenti, Luiz Airosa, Caio Lente, Jhonatan Cl\'eto, Guilherme Dobins, Rodrigo Nogueira, Luis Mitchell, Roberto Lotufo(参考訳) Instru\c{c}\~ao Assistida com Intelig\^encia Artificialは,大規模言語モデル(LLM)をブラジル連邦会計裁判所(TCU)の運用枠組みに組み込むために設計された画期的なシステムである。 本システムは, 基本情報抽出, 許容度検査, モラおよびフムス・ボニ・イウリス分析の周辺部, 推薦生成など, 事例分析の様々な段階を自動化する。 一連の実験を通じて,イナシアが事例文書から関連情報を抽出し,その法的可能性を評価し,裁判所の勧告を生成する可能性を示す。 評価手法は, LLMと併用した検証データセットを用いて, システム性能評価のための革新的な手法を提案する。 その結果、INACIAの複雑な法的タスクの処理能力が強調され、法体系内の効率性と司法公正性を高めるための適性を示している。 本稿は、INACIAを法的領域における世界規模のAI統合のモデルとして位置づける、潜在的な拡張と将来の応用についても論じている。

This paper introduces INACIA (Instru\c{c}\~ao Assistida com Intelig\^encia Artificial), a groundbreaking system designed to integrate Large Language Models (LLMs) into the operational framework of Brazilian Federal Court of Accounts (TCU). The system automates various stages of case analysis, including basic information extraction, admissibility examination, Periculum in mora and Fumus boni iuris analyses, and recommendations generation. Through a series of experiments, we demonstrate INACIA's potential in extracting relevant information from case documents, evaluating its legal plausibility, and generating judicial recommendations. Utilizing a validation dataset alongside LLMs, our evaluation methodology presents an innovative approach to assessing system performance, correlating highly with human judgment. The results highlight INACIA's proficiency in handling complex legal tasks, indicating its suitability for augmenting efficiency and judicial fairness within legal systems. The paper also discusses potential enhancements and future applications, positioning INACIA as a model for worldwide AI integration in legal domains.
翻訳日:2024-01-11 14:08:16 公開日:2024-01-10
# AUTOACT: セルフプランニングによるスクラッチからの自動エージェント学習

AUTOACT: Automatic Agent Learning from Scratch via Self-Planning ( http://arxiv.org/abs/2401.05268v1 )

ライセンス: Link先を確認
Shuofei Qiao, Ningyu Zhang, Runnan Fang, Yujie Luo, Wangchunshu Zhou, Yuchen Eleanor Jiang, Chengfei Lv, Huajun Chen(参考訳) 言語エージェントは、様々な複雑なタスクでかなりのパフォーマンスを達成した。 この分野での絶え間ない探究にもかかわらず、既存の言語エージェントシステムはいまだにコストのかかる、再現不能なデータ依存に苦しんでおり、複数の機能に対して単一のモデルを引き付けるという課題に直面している。 そこで本研究では,大規模アノテートデータや,クローズドソースモデル(GPT-4など)からの合成トラジェクトリに依存しない自動エージェント学習フレームワークであるAutoActを紹介する。 ツールライブラリによる限られたデータから、AutoActはまず、人間や強力なクローズドソースモデルの助けなしに、計画トラジェクトリを自動で合成する。 次に、AutoActは、作業の分割戦略を利用して、目標とするタスク情報と軌跡を自動で識別し、タスクを完了するサブエージェントグループを生成する。 我々は異なるLLMを用いて総合的な実験を行い、AutoActは様々な強力なベースラインと比較して優れた性能または並列性能を示す。 さらに, Llama-2-13b モデルを用いて AutoAct が GPT-3.5-Turbo エージェントに匹敵する性能が得られることに気付きました。 コードはhttps://github.com/zjunlp/autoactで入手できる。

Language agents have achieved considerable performance on various complex tasks. Despite the incessant exploration in this field, existing language agent systems still struggle with costly, non-reproducible data reliance and face the challenge of compelling a single model for multiple functions. To this end, we introduce AutoAct, an automatic agent learning framework that does not rely on large-scale annotated data and synthetic trajectories from closed-source models (e.g., GPT-4). Given limited data with a tool library, AutoAct first automatically synthesizes planning trajectories without any assistance from humans or strong closed-source models. Then, AutoAct leverages a division-of-labor strategy to automatically differentiate based on the target task information and synthesized trajectories, producing a sub-agent group to complete the task. We conduct comprehensive experiments with different LLMs, which demonstrates that AutoAct yields better or parallel performance compared to various strong baselines. We even notice that AutoAct, when using the Llama-2-13b model, can achieve performance comparable to that of the GPT-3.5-Turbo agent. Code will be available at https://github.com/zjunlp/AutoAct.
翻訳日:2024-01-11 14:07:54 公開日:2024-01-10
# リモート・近接相互作用を考慮した久保・松原形状グリーン関数に基づくフィルタ気泡の量子モデリング:無期限ゴーストの紫外偏差, 切削面の考察

Quantum Modeling of Filter Bubbles Based on Kubo-Matsubara Form Green's Functions Considering Remote and Proximity Interactions:Ultraviolet Divergence to Indefinite Ghosting, Consideration of Cut Surfaces ( http://arxiv.org/abs/2401.05266v1 )

ライセンス: Link先を確認
Yasuko Kawahata(参考訳) This research aims to model tracks the evolution of opinions among agents and their collective dynamics, and mathematically represents the resonance of opinions and echo chamber effects within the filter bubble by including non-physical factors such as misinformation and confirmation bias, known as FP ghosting phenomena.The indeterminate ghost phenomenon, a social science concept similar to the uncertainty principle, depicts the variability of social opinion by incorporating information uncertainty and nonlinearities in opinion formation into the model. さらに,グリーン関数の久保公式と松原形式を導入することで,時間的効果を数学的に表現し,過去,現在,未来的意見の相互作用をモデル化し,意見のばらつきと集約のメカニズムを明らかにする。 本モデルでは, フィルタ気泡の形成と成長と, 紫外拡散現象の進行をシミュレートするために, ランダムな数に基づく集団密度と極端な意見量を含む複数のパラメータを用いる。 このプロセスでは,社会内の意見の共鳴や解離が,解離関数 (type la, lb, ll, lll) を介してどのように起こるかを観察する。 しかし, 結果の解釈には慎重な検討が必要であり, 実証的検証は今後の課題であり, 本論文では, メディアの地域的差異と, 災害発生国である日本特有の地域的差異について, より深く考察した仮説と考察を述べる。

This research aims to model tracks the evolution of opinions among agents and their collective dynamics, and mathematically represents the resonance of opinions and echo chamber effects within the filter bubble by including non-physical factors such as misinformation and confirmation bias, known as FP ghosting phenomena.The indeterminate ghost phenomenon, a social science concept similar to the uncertainty principle, depicts the variability of social opinion by incorporating information uncertainty and nonlinearities in opinion formation into the model. Furthermore, by introducing the Kubo formula and the Matsubara form of the Green's function, we mathematically express temporal effects and model how past, present, and future opinions interact to reveal the mechanisms of opinion divergence and aggregation. Our model uses multiple parameters, including population density and extremes of opinion generated on a random number basis, to simulate the formation and growth of filter bubbles and their progression to ultraviolet divergence phenomena. In this process, we observe how resonance or disconnection of opinions within a society occurs via a disconnection function (type la, lb, ll, lll). However, the interpretation of the results requires careful consideration, and empirical verification is a future challenge.Finally, we will share our hypotheses and considerations for the model case of this paper, which is a close examination of regional differences in media coverage and its effectiveness and considerations unique to Japan, a disaster-prone country.
翻訳日:2024-01-11 14:07:33 公開日:2024-01-10
# 周期駆動型傾斜光格子における超流動の安定性

Stability of superfluids in tilted optical lattices with periodic driving ( http://arxiv.org/abs/2401.05265v1 )

ライセンス: Link先を確認
Robbie Cruickshank, Andrea Di Carli, Matthew Mitchell, Arthur La Rooij, Stefan Kuhr, Charles E. Creffield, Elmar Haller(参考訳) 周期駆動を持つ傾斜格子ポテンシャルは、超低温量子気体を用いた人工ゲージ場と位相相の研究において重要な役割を果たす。 しかし、駆動による加熱とフォノンモードの成長は、相互作用する多体状態の探索に使用を制限する。 本研究では,振動光学格子の最低帯域におけるフォノンモードと相互作用駆動不安定性について実験的に検討した。 安定かつ不安定なパラメータ領域を同定し,一般共振条件を提供する。 Floquet記述の高周波近似とは対照的に、超流体マイクロモーションを用いて、フォノンモードの成長をスローから高速な駆動周波数まで解析する。 我々の観測は、時間スケールを拡大する強い相互作用を持つ駆動系の研究を目的とした量子シミュレーション実験のための安定パラメータ状態の予測を可能にする。

Tilted lattice potentials with periodic driving play a crucial role in the study of artificial gauge fields and topological phases with ultracold quantum gases. However, driving-induced heating and the growth of phonon modes restrict their use for probing interacting many-body states. Here, we experimentally investigate phonon modes and interaction-driven instabilities of superfluids in the lowest band of a shaken optical lattice. We identify stable and unstable parameter regions and provide a general resonance condition. In contrast to the high-frequency approximation of a Floquet description, we use the superfluids' micromotion to analyze the growth of phonon modes from slow to fast driving frequencies. Our observations enable the prediction of stable parameter regimes for quantum-simulation experiments aimed at studying driven systems with strong interactions over extended time scales.
翻訳日:2024-01-11 14:07:07 公開日:2024-01-10
# 米国と中国の言語に基づくヴァレンスと覚醒表現--文化横断的考察

Language-based Valence and Arousal Expressions between the United States and China: a Cross-Cultural Examination ( http://arxiv.org/abs/2401.05254v1 )

ライセンス: Link先を確認
Young-Min Cho, Dandan Pang, Stuti Thapa, Garrick Sherman, Lyle Ungar, Louis Tay, Sharath Chandra Guntuku(参考訳) 個人の感情表現はソーシャルメディアで広く研究されているが、研究は主に西洋の文脈に焦点を当てている。 感情表現に寄与する文化には実質的な違いがある。 本稿は、米国におけるTwitter(X)と中国のSina Weibo投稿の違いを、価値と覚醒の2つの主要な側面について検討する。 本研究は,米国と中国の個人における覚醒と原子価(いわゆるV字型)の機能的関係の差異について検討し,関連性について検討した。 さらに,両プラットフォームの単語使用状況と話題を関連付け,それらの差異を解釈する。 また,Twitter利用者の感情強度の変動は,Weibo利用者に比べて否定的感情と肯定的感情の差が小さく,感情の高揚に対応する覚醒のエスカレーションが顕著であることがわかった。 言語的特徴から,感情表現はtwitter上での個人的生活や感情と関連しているのに対し,weiboでは社会政治的な話題について議論している。 これらの結果から,ソーシャルメディア上での感情表現のヴァレンスと覚醒の関係は,コンテンツの差異に左右される。 本研究は,感情表現の文化的差異に関する応用と理論に影響を及ぼすものである。

Although affective expressions of individuals have been extensively studied using social media, research has primarily focused on the Western context. There are substantial differences among cultures that contribute to their affective expressions. This paper examines the differences between Twitter (X) in the United States and Sina Weibo posts in China on two primary dimensions of affect - valence and arousal. We study the difference in the functional relationship between arousal and valence (so-called V-shaped) among individuals in the US and China and explore the associated content differences. Furthermore, we correlate word usage and topics in both platforms to interpret their differences. We observe that for Twitter users, the variation in emotional intensity is less distinct between negative and positive emotions compared to Weibo users, and there is a sharper escalation in arousal corresponding with heightened emotions. From language features, we discover that affective expressions are associated with personal life and feelings on Twitter, while on Weibo such discussions are about socio-political topics in the society. These results suggest a West-East difference in the V-shaped relationship between valence and arousal of affective expressions on social media influenced by content differences. Our findings have implications for applications and theories related to cultural differences in affective expressions.
翻訳日:2024-01-11 14:06:55 公開日:2024-01-10
# PIXART-{\delta}:潜時一貫性モデルによる高速かつ制御可能な画像生成

PIXART-{\delta}: Fast and Controllable Image Generation with Latent Consistency Models ( http://arxiv.org/abs/2401.05252v1 )

ライセンス: Link先を確認
Junsong Chen, Yue Wu, Simian Luo, Enze Xie, Sayak Paul, Ping Luo, Hang Zhao, Zhenguo Li(参考訳) この技術報告では、LCM(Latent Consistency Model)とControlNetを高度なPIXART-{\alphaモデルに統合するテキスト・ツー・イメージ合成フレームワークであるPIXART-{\deltaを紹介した。 PIXART-{\alpha} は、1024pxの解像度の高品質な画像を、極めて効率的なトレーニングプロセスで生成できることで認識されている。 PIXART-{\delta} への LCM の統合は推論速度を大幅に加速し、わずか2-4ステップで高品質な画像を生成することができる。 特に、PIXART-{\delta}は1024x1024ピクセル画像を生成するのに0.5秒のブレークスルーを達成し、PIXART-{\alphaよりも7倍改善された。 さらに、PIXART-{\delta}は、1日で32GBのV100 GPUで効率的にトレーニングできるように設計されている。 8ビット推論機能(von platen et al., 2023)により、pixart-{\delta}は8gbのgpuメモリ制約で1024px画像を合成でき、ユーザビリティとアクセシビリティが大幅に向上する。 さらに、コントロールネットのようなモジュールを組み込むことで、テキスト間拡散モデルのきめ細かい制御が可能になる。 本稿では,トランスフォーマーに適した新しい制御Net-Transformerアーキテクチャを導入し,高品質な画像生成とともに明示的な制御性を実現する。 最新のオープンソースの画像生成モデルであるpixart-{\delta}は、安定した拡散系列の代替となり、テキストから画像への合成に大きく寄与する。

This technical report introduces PIXART-{\delta}, a text-to-image synthesis framework that integrates the Latent Consistency Model (LCM) and ControlNet into the advanced PIXART-{\alpha} model. PIXART-{\alpha} is recognized for its ability to generate high-quality images of 1024px resolution through a remarkably efficient training process. The integration of LCM in PIXART-{\delta} significantly accelerates the inference speed, enabling the production of high-quality images in just 2-4 steps. Notably, PIXART-{\delta} achieves a breakthrough 0.5 seconds for generating 1024x1024 pixel images, marking a 7x improvement over the PIXART-{\alpha}. Additionally, PIXART-{\delta} is designed to be efficiently trainable on 32GB V100 GPUs within a single day. With its 8-bit inference capability (von Platen et al., 2023), PIXART-{\delta} can synthesize 1024px images within 8GB GPU memory constraints, greatly enhancing its usability and accessibility. Furthermore, incorporating a ControlNet-like module enables fine-grained control over text-to-image diffusion models. We introduce a novel ControlNet-Transformer architecture, specifically tailored for Transformers, achieving explicit controllability alongside high-quality image generation. As a state-of-the-art, open-source image generation model, PIXART-{\delta} offers a promising alternative to the Stable Diffusion family of models, contributing significantly to text-to-image synthesis.
翻訳日:2024-01-11 14:06:33 公開日:2024-01-10
# ReACT: B-Spline Geometries を用いたコントローラパラメトリゼーションのための強化学習

ReACT: Reinforcement Learning for Controller Parametrization using B-Spline Geometries ( http://arxiv.org/abs/2401.05251v1 )

ライセンス: Link先を確認
Thomas Rudolf, Daniel Fl\"ogel, Tobias Sch\"urmann, Simon S\"u{\ss}, Stefan Schwab, S\"oren Hohmann(参考訳) ロバストで高性能なコントローラは産業用途に欠かせない。 しかし、複素および非線形システムに対する制御パラメータの導出は困難で時間がかかる。 本研究は,N次元B-スプラインジオメトリ(BSG)を用いた深部強化学習(DRL)を用いた新しい手法を提案する。 本稿では,操作条件に依存する複雑な振る舞いを持つシステムのクラスであるパラメータ変動システムの制御に焦点を当てる。 このシステムクラスでは、ゲインスケジューリング制御構造はよく知られた設計原則により、業界全体のアプリケーションで広く使われている。 これらの制御構造に関する高価なコントローラパラメトリゼーションタスクを実現するため,DRLエージェントをデプロイする。 制御系の観測に基づいて、エージェントはコントローラパラメータの適応方法を自律的に決定する。 多数の動作条件に依存するコントローラパラメータをマッピングするために,BSGを導入して適応処理をより効率的にする。 時系列データを前処理し、固定長特徴ベクトルを抽出するために、長い短期記憶(LSTM)ニューラルネットワークを用いる。 さらに、この研究は、訓練とは異なる実環境に関連するアクタの正規化にも寄与する。 そこで我々は,TQCアルゴリズムのアクターおよび批評家ネットワークに対して,ドロップアウト層正規化を適用した。 提案手法の動作原理と有効性を示すため,パラメータ検索表を用いた産業制御構造のパラメータ化タスクにおいてDRLエージェントを訓練し,評価する。

Robust and performant controllers are essential for industrial applications. However, deriving controller parameters for complex and nonlinear systems is challenging and time-consuming. To facilitate automatic controller parametrization, this work presents a novel approach using deep reinforcement learning (DRL) with N-dimensional B-spline geometries (BSGs). We focus on the control of parameter-variant systems, a class of systems with complex behavior which depends on the operating conditions. For this system class, gain-scheduling control structures are widely used in applications across industries due to well-known design principles. Facilitating the expensive controller parametrization task regarding these control structures, we deploy an DRL agent. Based on control system observations, the agent autonomously decides how to adapt the controller parameters. We make the adaptation process more efficient by introducing BSGs to map the controller parameters which may depend on numerous operating conditions. To preprocess time-series data and extract a fixed-length feature vector, we use a long short-term memory (LSTM) neural networks. Furthermore, this work contributes actor regularizations that are relevant to real-world environments which differ from training. Accordingly, we apply dropout layer normalization to the actor and critic networks of the truncated quantile critic (TQC) algorithm. To show our approach's working principle and effectiveness, we train and evaluate the DRL agent on the parametrization task of an industrial control structure with parameter lookup tables.
翻訳日:2024-01-11 14:06:02 公開日:2024-01-10
# CASA: 因果性駆動型議論満足度評価

CASA: Causality-driven Argument Sufficiency Assessment ( http://arxiv.org/abs/2401.05249v1 )

ライセンス: Link先を確認
Xiao Liu, Yansong Feng, Kai-Wei Chang(参考訳) 議論満足度評価タスクは、与えられた議論の前提がその結論を支持するかどうかを決定することを目的としている。 このタスクに取り組むために、既存の作業は、人間が注釈したデータで分類器を訓練することが多い。 しかし、データの注釈付けは面倒であり、しばしば主観的基準のため矛盾する。 因果文献におけるsufficiency (ps) 定義の確率に動機づけられ, ゼロショット因果性に基づく議論満足度評価フレームワークcasaを提案する。 PSは、前提イベントと結論イベントの両方が欠落している場合に、前提イベントの導入が結論につながる可能性を測定する。 この確率を推定するために,大規模言語モデル(LLM)を用いて前提と結論に矛盾するコンテキストを生成し,前提イベントを注入して修正することを提案する。 2つの論理誤り検出データセットの実験により、casaは不十分な引数を正確に識別できることが示されている。 我々はさらにCASAを書き込み支援アプリケーションにデプロイし、CASAが生成した提案が学生による議論の十分性を高めることを確認する。 コードとデータはhttps://github.com/xxxiaol/casaで入手できる。

The argument sufficiency assessment task aims to determine if the premises of a given argument support its conclusion. To tackle this task, existing works often train a classifier on data annotated by humans. However, annotating data is laborious, and annotations are often inconsistent due to subjective criteria. Motivated by the probability of sufficiency (PS) definition in the causal literature, we propose CASA, a zero-shot causality-driven argument sufficiency assessment framework. PS measures how likely introducing the premise event would lead to the conclusion, when both the premise and conclusion events are absent. To estimate this probability, we propose to use large language models (LLMs) to generate contexts that are inconsistent with the premise and conclusion, and revise them by injecting the premise event. Experiments on two logical fallacy detection datasets demonstrate that CASA accurately identifies insufficient arguments. We further deploy CASA in a writing assistance application, and find that suggestions generated by CASA enhance the sufficiency of student-written arguments. Code and data are available at https://github.com/xxxiaol/CASA.
翻訳日:2024-01-11 14:05:39 公開日:2024-01-10
# 高次相関測定によるマクロリアリズムのループホールフリーテスト

Loophole-free test of macroscopic realism via high-order correlations of measurement ( http://arxiv.org/abs/2401.05246v1 )

ライセンス: Link先を確認
Ping Wang and Chong Chen and Hao Liao and Vadim V. Vorobyov and Joerg Wrachtrup and and Ren-Bao Liu(参考訳) マクロ的リアリズム(MR)のテストは、量子力学の基礎を理解するための鍵となる。 しかしながら、非侵襲的測定可能性(non-invasive measability)ループホールやその他の解釈ループホールが存在するため、そのようなテストは未解決の問題である。 本稿では,低信号限界におけるMRのループホールフリー試験における高次相関に基づく一般不等式を提案する。 重要なことに、この不等式は、古典的なデバイスによって記録された \textit{raw data} の統計を用いて確立され、測定プロセスの特定のモデルを必要としない。 弱い信号限界は(相関の異なる順序の相対的スケーリング挙動を用いて)測定データのみで検証できるため、非侵襲的な測定可能性ループホールも閉鎖される。 量子スピンモデルによって不等式が破られることを実証する。 ここで提案された不等式はmr原理の曖昧なテストを提供し、 {quantum coherence} を特徴付けるのにも有用である。

Test of {macroscopic realism} (MR) is key to understanding the foundation of quantum mechanics. Due to the existence of the {non-invasive measurability} loophole and other interpretation loopholes, however, such test remains an open question. Here we propose a general inequality based on high-order correlations of measurements for a loophole-free test of MR at the weak signal limit. Importantly, the inequality is established using the statistics of \textit{raw data} recorded by classical devices, without requiring a specific model for the measurement process, so its violation would falsify MR without the interpretation loophole. The non-invasive measurability loophole is also closed, since the weak signal limit can be verified solely by measurement data (using the relative scaling behaviors of different orders of correlations). We demonstrate that the inequality can be broken by a quantum spin model. The inequality proposed here provides an unambiguous test of the MR principle and is also useful to characterizing {quantum coherence}.
翻訳日:2024-01-11 14:05:21 公開日:2024-01-10
# オンライン手話認識と翻訳に向けて

Towards Online Sign Language Recognition and Translation ( http://arxiv.org/abs/2401.05336v1 )

ライセンス: Link先を確認
Ronglai Zuo, Fangyun Wei, Brian Mak(参考訳) 手話認識の目的は聴覚障害者と聴覚障害者のコミュニケーションギャップを橋渡しすることである。 多くの先行研究は、よく確立されたコネクショニスト時間分類(CTC)の損失を使ってモデルを訓練した。 推論段階では、CTCベースのモデルは通常、サインビデオ全体を入力として、予測を行う。 このタイプの推論スキームはオフライン認識と呼ばれる。 対照的に、成熟した音声認識システムは、オンザフライで話し言葉を認識することができるが、実用的なオンラインソリューションが欠如しているため、手話認識はまだ不足している。 この作業では、このギャップを埋める第一歩を踏み出します。 私たちのアプローチは3つのフェーズからなる。 1) 対象手話データセットに存在するすべての用語を包含する手話辞書の開発 2) 従来の分類損失と新たな給与損失の両方を用いて, 拡張記号を用いた単独手話認識モデルの訓練 3)入力サインシーケンスにスライディングウインドウアプローチを適用し,各サインクリップを最適化したオンライン認識モデルに供給する。 さらに、オンライン認識モデルを拡張して、オフラインモデルのパフォーマンスを高め、認識モデルに光沢からテキストへのネットワークを追加することにより、オンライン翻訳をサポートすることができる。 これまで最もパフォーマンスの高いオフラインモデルであるtwostream-slrとオンラインフレームワークを統合することで、phoenix-2014、phoenix-2014t、csl-dailyの3つのベンチマークで、新たな最先端のパフォーマンスを実現します。 コードとモデルはhttps://github.com/FangyunWei/SLRTで入手できる。

The objective of sign language recognition is to bridge the communication gap between the deaf and the hearing. Numerous previous works train their models using the well-established connectionist temporal classification (CTC) loss. During the inference stage, the CTC-based models typically take the entire sign video as input to make predictions. This type of inference scheme is referred to as offline recognition. In contrast, while mature speech recognition systems can efficiently recognize spoken words on the fly, sign language recognition still falls short due to the lack of practical online solutions. In this work, we take the first step towards filling this gap. Our approach comprises three phases: 1) developing a sign language dictionary encompassing all glosses present in a target sign language dataset; 2) training an isolated sign language recognition model on augmented signs using both conventional classification loss and our novel saliency loss; 3) employing a sliding window approach on the input sign sequence and feeding each sign clip to the well-optimized model for online recognition. Furthermore, our online recognition model can be extended to boost the performance of any offline model, and to support online translation by appending a gloss-to-text network onto the recognition model. By integrating our online framework with the previously best-performing offline model, TwoStream-SLR, we achieve new state-of-the-art performance on three benchmarks: Phoenix-2014, Phoenix-2014T, and CSL-Daily. Code and models will be available at https://github.com/FangyunWei/SLRT
翻訳日:2024-01-11 13:59:39 公開日:2024-01-10
# InseRF: ニューラル3次元シーンにおけるテキスト駆動生成オブジェクト挿入

InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes ( http://arxiv.org/abs/2401.05335v1 )

ライセンス: Link先を確認
Mohamad Shahbazi, Liesbeth Claessens, Michael Niemeyer, Edo Collins, Alessio Tonioni, Luc Van Gool, Federico Tombari(参考訳) InseRFは3次元シーンのNeRF再構成において生成物挿入のための新しい手法である。 ユーザが提供するテキスト記述と参照視点での2Dバウンディングボックスに基づいて、InseRFは3Dシーンで新しいオブジェクトを生成する。 近年,3次元生成モデルにおけるテキスト・ツー・イメージ拡散モデルの強い事前利用により,3次元シーン編集の手法が大きく変化している。 既存の方法は、スタイルや外観の変更による3Dシーンの編集や、既存のオブジェクトの削除に主に有効である。 しかし, 新たな物体の生成はそのような手法の課題であり, 本研究で論じる。 具体的には,シーンの参照ビューにおける2次元オブジェクト挿入に対する3次元オブジェクト挿入の接地を提案する。 2D編集は、単一ビューオブジェクト再構成法を用いて3Dにリフトされる。 再構成されたオブジェクトはシーンに挿入され、モノキュラー深さ推定法の事前によって導かれる。 提案手法を様々な3次元シーンで評価し,提案するコンポーネントの詳細な分析を行う。 複数の3次元シーンにオブジェクトを生成的に挿入する実験は,既存の手法と比較して,本手法の有効性を示している。 InseRFは、入力として明示的な3D情報を必要とすることなく、制御可能で3D一貫性のあるオブジェクト挿入を行うことができる。 プロジェクトのページはhttps://mohamad-shahbazi.github.io/inserfでどうぞ。

We introduce InseRF, a novel method for generative object insertion in the NeRF reconstructions of 3D scenes. Based on a user-provided textual description and a 2D bounding box in a reference viewpoint, InseRF generates new objects in 3D scenes. Recently, methods for 3D scene editing have been profoundly transformed, owing to the use of strong priors of text-to-image diffusion models in 3D generative modeling. Existing methods are mostly effective in editing 3D scenes via style and appearance changes or removing existing objects. Generating new objects, however, remains a challenge for such methods, which we address in this study. Specifically, we propose grounding the 3D object insertion to a 2D object insertion in a reference view of the scene. The 2D edit is then lifted to 3D using a single-view object reconstruction method. The reconstructed object is then inserted into the scene, guided by the priors of monocular depth estimation methods. We evaluate our method on various 3D scenes and provide an in-depth analysis of the proposed components. Our experiments with generative insertion of objects in several 3D scenes indicate the effectiveness of our method compared to the existing methods. InseRF is capable of controllable and 3D-consistent object insertion without requiring explicit 3D information as input. Please visit our project page at https://mohamad-shahbazi.github.io/inserf.
翻訳日:2024-01-11 13:59:14 公開日:2024-01-10
# urhand: ユニバーサル・リフレッシュブル・ハンド

URHand: Universal Relightable Hands ( http://arxiv.org/abs/2401.05334v1 )

ライセンス: Link先を確認
Zhaoxi Chen, Gyeongsik Moon, Kaiwen Guo, Chen Cao, Stanislav Pidhorskyi, Tomas Simon, Rohan Joshi, Yuan Dong, Yichen Xu, Bernardo Pires, He Wen, Lucas Evans, Bo Peng, Julia Buffalini, Autumn Trimble, Kevyn McPhail, Melissa Schoeller, Shoou-I Yu, Javier Romero, Michael Zollh\"ofer, Yaser Sheikh, Ziwei Liu, Shunsuke Saito(参考訳) 既存のフォトリアリスティック・リライタブルハンドモデルでは、異なる視点、ポーズ、照度において広範囲なアイデンティティ固有の観察を必要とし、自然の照度や新しいアイデンティティへの一般化における課題に直面している。 このギャップを埋めるために,ビューポイント,ポーズ,イルミネーション,アイデンティティにまたがって一般化した,初のユニバーサルリライトブルハンドモデルurhandを提案する。 本モデルでは,携帯電話で撮影した画像によるパーソナライズが可能であり,新たな照明下でのフォトリアリスティックなレンダリングが可能である。 フォトリアリズムを維持しつつパーソナライゼーションプロセスを単純化するため、数百のアイデンティティを持つライトステージで撮影されたハンドのマルチビュー画像からのニューラルリライトに基づいて、より強力なユニバーサルリライトを事前に構築する。 鍵となる課題は、パーソナライズされた忠実さとシャープな詳細を維持しながら、自然照明下での一般化を損なうことなく、クロスアイデンティティトレーニングをスケールすることだ。 そこで本研究では,物理に触発されたシェーディングを入力として,空間的に変化する線形照明モデルを提案する。 非線形のアクティベーションとバイアスを除去することにより、光輸送の線形性を明確に保ちます。 これにより、ライトステージデータからの単段トレーニングが可能となり、多様なidに対して任意の連続照度の下でのリアルタイムレンダリングに一般化される。 さらに,物理モデルとニューラルリライトモデルの共同学習を導入し,忠実度と一般化をさらに向上させる。 広範な実験により,本手法は品質と汎用性の両方において既存の手法よりも優れた性能を実現することが示された。 また、未確認の身元の短い携帯電話スキャンからURHandの迅速なパーソナライズも示す。

Existing photorealistic relightable hand models require extensive identity-specific observations in different views, poses, and illuminations, and face challenges in generalizing to natural illuminations and novel identities. To bridge this gap, we present URHand, the first universal relightable hand model that generalizes across viewpoints, poses, illuminations, and identities. Our model allows few-shot personalization using images captured with a mobile phone, and is ready to be photorealistically rendered under novel illuminations. To simplify the personalization process while retaining photorealism, we build a powerful universal relightable prior based on neural relighting from multi-view images of hands captured in a light stage with hundreds of identities. The key challenge is scaling the cross-identity training while maintaining personalized fidelity and sharp details without compromising generalization under natural illuminations. To this end, we propose a spatially varying linear lighting model as the neural renderer that takes physics-inspired shading as input feature. By removing non-linear activations and bias, our specifically designed lighting model explicitly keeps the linearity of light transport. This enables single-stage training from light-stage data while generalizing to real-time rendering under arbitrary continuous illuminations across diverse identities. In addition, we introduce the joint learning of a physically based model and our neural relighting model, which further improves fidelity and generalization. Extensive experiments show that our approach achieves superior performance over existing methods in terms of both quality and generalizability. We also demonstrate quick personalization of URHand from a short phone scan of an unseen identity.
翻訳日:2024-01-11 13:58:53 公開日:2024-01-10
# 散逸ボソニック系における極限サイクルの実現

Realizing limit cycles in dissipative bosonic systems ( http://arxiv.org/abs/2401.05332v1 )

ライセンス: Link先を確認
Jim Skulte, Phatthamon Kongkhambut, Hans Ke{\ss}ler, Andreas Hemmerich, Ludwig Mathey and Jayson G. Cosme(参考訳) 本稿では,リニアボソニックモードを消散非線形ボソニックモードに結合することにより,リミットサイクル(LC)振動を生成する一般的なメカニズムを提案する。 安定性行列を解析することにより,超臨界ホップ分岐によりLCが生じることを示す。 LCの存在は効果的な非線形相互作用の兆候とは無関係である。 LC相は、多体系で現れる場合、連続時間結晶(CTC)に分類される。 ボソニックモデルは、原子空洞系で実現された量子化された光モードと相互作用する3レベルシステムで実現することができる。 このようなプラットフォームを用いて, 魅力的な光ポンプ格子を有する原子キャビティ系において, 初めてlcsを観測し, 理論的な予測を確認した。

We propose a general mechanism for generating limit cycle (LC) oscillations by coupling a linear bosonic mode to a dissipative nonlinear bosonic mode. By analyzing the stability matrix, we show that LCs arise due to a supercritical Hopf bifurcation. We find that the existence of LCs is independent of the sign of the effective nonlinear interaction. The LC phase can be classified as a continuous time crystal (CTC), if it emerges in a many-body system. The bosonic model can be realised in three-level systems interacting with a quantised light mode as realised in atom-cavity systems. Using such a platform, we experimentally observe LCs for the first time in an atom-cavity system with attractive optical pump lattice, thereby confirming our theoretical predictions.
翻訳日:2024-01-11 13:58:22 公開日:2024-01-10
# 階層的因果モデル

Hierarchical Causal Models ( http://arxiv.org/abs/2401.05330v1 )

ライセンス: Link先を確認
Eli N. Weinstein and David M. Blei(参考訳) 科学者は、しばしば、内部に営巣したサブユニットから収集された階層的なデータから原因と効果を学びたがる。 学校の生徒、患者の細胞、あるいは州の都市を考えてみましょう。 そのような設定では、単位レベルの変数(例えば各学校の予算)はサブユニットレベルの変数(例えば各学校の各生徒のテストスコア)に影響する可能性がある。 階層的データを用いた因果問題に対処するために,構造的因果モデルと因果的グラフィカルモデルを拡張する階層的因果モデルを提案する。 そこで我々は,do-calculusを拡張する階層型因果モデルのための一般的なグラフィカル識別手法を開発した。 階層的データが非階層的データで不可能である場合でも因果的識別を可能にする多くの状況、すなわち、サブユニットレベルの変数の単位レベルのサマリー(例えば、各学生のスコアではなく、学校の平均テストスコア)しか持たない場合においても、多くの状況が見つかる。 階層ベイズモデルを含む手法を用いて,階層因果モデルの推定手法を開発した。 本研究は,シミュレーションおよび古典的「八流」研究の再検討を通じて,その成果を述べる。

Scientists often want to learn about cause and effect from hierarchical data, collected from subunits nested inside units. Consider students in schools, cells in patients, or cities in states. In such settings, unit-level variables (e.g. each school's budget) may affect subunit-level variables (e.g. the test scores of each student in each school) and vice versa. To address causal questions with hierarchical data, we propose hierarchical causal models, which extend structural causal models and causal graphical models by adding inner plates. We develop a general graphical identification technique for hierarchical causal models that extends do-calculus. We find many situations in which hierarchical data can enable causal identification even when it would be impossible with non-hierarchical data, that is, if we had only unit-level summaries of subunit-level variables (e.g. the school's average test score, rather than each student's score). We develop estimation techniques for hierarchical causal models, using methods including hierarchical Bayesian models. We illustrate our results in simulation and via a reanalysis of the classic "eight schools" study.
翻訳日:2024-01-11 13:58:10 公開日:2024-01-10
# 原子-イオンハイブリッド系におけるフェルミポーラロン

Fermi polaron in atom-ion hybrid systems ( http://arxiv.org/abs/2401.05324v1 )

ライセンス: Link先を確認
Renato Pessoa, S. A Vitiello and L. A Pe\~na Ardila(参考訳) 電子ガスの低励起による荷電準粒子は、いくつかの物質の量子多体効果を理解する基本的な柱の一つである。 原子-イオンハイブリッド系から生じる準粒子の量子シミュレーションは、固体非チャーテッドレジームに光を当てる可能性がある。 本研究では, 荷電不純物と偏光フェルミ浴との相互作用からなるイオン性フェルミポーラロンについて検討する。 強相関系に適した最先端の量子モンテカルロ法を用いて、エネルギースペクトル、準粒子残基、有効質量、および系の構造特性を計算することによって荷電準粒子を特徴づける。 弱結合系における知見はラダー近似における場理論予測と一致する。 しかし、恒星の偏差は、イオンの周囲の非常に大きな密度の不均一性に起因する強い相互作用状態に現れ、原子-イオンポテンシャル範囲の順序による距離の強い相関が生じる。 さらに, 有限温度および有限不純物密度でのみ遷移が円滑となる中性の場合と対照的に, 強い結合に対するスムーズなポラロン-分子遷移を求める。 この研究は、短距離限界を超える原子的に薄い半導体におけるフェルミ・エキシトン・ポーラロンのような代替固体系についての貴重な洞察を与えるかもしれない。

Charged quasiparticles dressed by the low excitations of an electron gas, constitute one of the fundamental pillars for understanding quantum many-body effects in some materials. Quantum simulation of quasiparticles arising from atom-ion hybrid systems may shed light on solid-state uncharted regimes. Here we investigate the ionic Fermi polaron consisting of a charged impurity interacting with a polarized Fermi bath. Employing state-of-the-art quantum Monte Carlo techniques tailored for strongly correlated systems, we characterize the charged quasiparticle by computing the energy spectrum, quasiparticle residue, and effective mass, as well as the structural properties of the system. Our findings in the weak coupling regime agree with field-theory predictions within the ladder approximation. However, stark deviations emerge in the strongly interacting regime attributed to the vastly large density inhomogeneity around the ion, resulting in strong correlations for distances on the order of the atom-ion potential range. Moreover, we find a smooth polaron-molecule transition for strong coupling, in contrast with the neutral case, where the transition smoothens only for finite temperature and finite impurity density. This study may provide valuable insights into alternative solid-state systems such as Fermi excitons polarons in atomically thin semiconductors beyond the short-range limit.
翻訳日:2024-01-11 13:57:51 公開日:2024-01-10
# 実世界における自律型シャトルサービスの現地時間予測:5都市からの証拠

Arrival Time Prediction for Autonomous Shuttle Services in the Real World: Evidence from Five Cities ( http://arxiv.org/abs/2401.05322v1 )

ライセンス: Link先を確認
Carolin Schmidt, Mathias Tygesen, Filipe Rodrigues(参考訳) 都市移動は、共有、連結、協調的な自動車両の出現とともに、変革の焦点となっている。 しかし、顧客から受け入れられるためには、彼らの時間的信頼が不可欠である。 多くのパイロットイニシアチブは固定スケジュールなしで運用されており、信頼性のある到着時間(AT)予測の重要性を高める。 本研究は,5つの都市における実世界データに基づいて,生活時間予測と走行時間予測の別々のモデルを用いて,自律型シャトルのAT予測システムを提案する。 xgboostのような確立された手法とともに、グラフニューラルネットワーク(gnn)を用いた空間データ統合の利点を探求する。 停止をバイパスするシャトルのケースを正確に処理するために,ランダムな森林分類器とGNNを組み合わせた階層モデルを提案する。 予測における最終結果は有望であり、数回の停止を予測しても低いエラーを示す。 しかし、単一モデルが普遍的に優れているとは限りません。我々は、モデル選択プロセスに影響を与えるパイロットサイトの特徴について洞察を与えます。 最後に,低交通域や規制速度域に自律シャトルを配置した場合の予測精度の全体において,dwell time predictionが重要な決定要因であることを示す。 この研究は、自律的な公共交通機関の予測モデルの現状に関する洞察を提供し、フィールドが進歩するにつれてデータインフォームによる意思決定の道を開く。

Urban mobility is on the cusp of transformation with the emergence of shared, connected, and cooperative automated vehicles. Yet, for them to be accepted by customers, trust in their punctuality is vital. Many pilot initiatives operate without a fixed schedule, thus enhancing the importance of reliable arrival time (AT) predictions. This study presents an AT prediction system for autonomous shuttles, utilizing separate models for dwell and running time predictions, validated on real-world data from five cities. Alongside established methods such as XGBoost, we explore the benefits of integrating spatial data using graph neural networks (GNN). To accurately handle the case of a shuttle bypassing a stop, we propose a hierarchical model combining a random forest classifier and a GNN. The results for the final AT prediction are promising, showing low errors even when predicting several stops ahead. Yet, no single model emerges as universally superior, and we provide insights into the characteristics of pilot sites that influence the model selection process. Finally, we identify dwell time prediction as the key determinant in overall AT prediction accuracy when autonomous shuttles are deployed in low-traffic areas or under regulatory speed limits. This research provides insights into the current state of autonomous public transport prediction models and paves the way for more data-informed decision-making as the field advances.
翻訳日:2024-01-11 13:57:31 公開日:2024-01-10
# 行列問題に対する量子時間空間トレードオフ

Quantum Time-Space Tradeoffs for Matrix Problems ( http://arxiv.org/abs/2401.05321v1 )

ライセンス: Link先を確認
Paul Beame and Niels Kornerup(参考訳) 量子コンピュータが行列を含む多種多様な問題を解くのに必要な時間と空間を考察する。 我々の主な結果は、行列ベクトル積、行列逆転、行列乗算、パワーリングを含む線形代数問題に対して、既存の古典的時間空間のトレードオフであり、そのいくつかはすべての空間境界に対して厳密である。 例えば、離散フーリエ変換(dft)行列を含むほぼすべての行列に対して、最大$t$ 入力クエリと$s$ qubits のメモリを持つ量子回路は$t=\omega(n^2/s)$ で行列ベクトル積 $ax$ for $x \in \{0,1\}^n$ を計算する必要があることを証明する。 同様に、$n\times n$二進行列の行列乗法は$T=\Omega(n^3 / \sqrt{S})$である。 我々の下界の多くは時間と空間の複雑さで決定論的アルゴリズムと一致しているため、量子コンピュータは任意の空間境界を持つこれらの問題に対して漸近的な利点を与えることができない。 我々は、回路の層毎の空間の和である量子累積記憶複雑性の強い概念に一致する下界を得る。 また、Boolean (すなわち AND-OR) 行列乗法と行列ベクトル積も考慮し、以前の量子時間空間のトレードオフの下限を$n\times n$ Boolean 行列乗法を$T=\Omega(n^{2.5}/S^{1/3})$から$T=\Omega(n^{2.5}/S^{1/2})$に改善する。 ブール行列乗法に対する改善された下界は、以前の研究で用いられる強い直積定理からより多くを抽出する新しい着色引数に基づいている。 線形代数問題の厳密な下限には、量子回路の成功確率の上限に古典的引数を適用できるzhandryのレコード・クエリ技術に新しいバケット法を加える必要がある。

We consider the time and space required for quantum computers to solve a wide variety of problems involving matrices, many of which have only been analyzed classically in prior work. Our main results show that for a range of linear algebra problems -- including matrix-vector product, matrix inversion, matrix multiplication and powering -- existing classical time-space tradeoffs, several of which are tight for every space bound, also apply to quantum algorithms. For example, for almost all matrices $A$, including the discrete Fourier transform (DFT) matrix, we prove that quantum circuits with at most $T$ input queries and $S$ qubits of memory require $T=\Omega(n^2/S)$ to compute matrix-vector product $Ax$ for $x \in \{0,1\}^n$. We similarly prove that matrix multiplication for $n\times n$ binary matrices requires $T=\Omega(n^3 / \sqrt{S})$. Because many of our lower bounds match deterministic algorithms with the same time and space complexity, we show that quantum computers cannot provide any asymptotic advantage for these problems with any space bound. We obtain matching lower bounds for the stronger notion of quantum cumulative memory complexity -- the sum of the space per layer of a circuit. We also consider Boolean (i.e. AND-OR) matrix multiplication and matrix-vector products, improving the previous quantum time-space tradeoff lower bounds for $n\times n$ Boolean matrix multiplication to $T=\Omega(n^{2.5}/S^{1/3})$ from $T=\Omega(n^{2.5}/S^{1/2})$. Our improved lower bound for Boolean matrix multiplication is based on a new coloring argument that extracts more from the strong direct product theorem used in prior work. Our tight lower bounds for linear algebra problems require adding a new bucketing method to the recording-query technique of Zhandry that lets us apply classical arguments to upper bound the success probability of quantum circuits.
翻訳日:2024-01-11 13:57:07 公開日:2024-01-10
# 印刷デバッグを活用して大規模言語モデルにおけるコード生成を改善する

Leveraging Print Debugging to Improve Code Generation in Large Language Models ( http://arxiv.org/abs/2401.05319v1 )

ライセンス: Link先を確認
Xueyu Hu, Kun Kuang, Jiankai Sun, Hongxia Yang, Fei Wu(参考訳) 大規模言語モデル (LLM) はコード生成タスクにおいて大きな進歩を遂げているが、複雑なデータ構造やアルゴリズムでプログラミング問題に対処する際の性能は依然として最適である。 この問題に対処するために,印刷文をトレースに挿入し,バグ修正のためにログを解析する「プリントデバッグ」手法を用いて,LLMをデバッグするためのコンテキスト内学習手法を提案する。 我々はLeetcode問題データセットを収集し,オンライン判定システムを用いて手法を評価する。 GPT-4を用いた実験では, ゴム製アヒルのデバッグ性能を1.5%, 17.9%向上した。

Large language models (LLMs) have made significant progress in code generation tasks, but their performance in tackling programming problems with complex data structures and algorithms remains suboptimal. To address this issue, we propose an in-context learning approach that guides LLMs to debug by using a "print debugging" method, which involves inserting print statements to trace and analysing logs for fixing the bug. We collect a Leetcode problem dataset and evaluate our method using the Leetcode online judging system. Experiments with GPT-4 demonstrate the effectiveness of our approach, outperforming rubber duck debugging in easy and medium-level Leetcode problems by 1.5% and 17.9%.
翻訳日:2024-01-11 13:56:06 公開日:2024-01-10
# ANIM-400K:ビデオのエンドツーエンドダビングを自動化するための大規模データセット

ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video ( http://arxiv.org/abs/2401.05314v1 )

ライセンス: Link先を確認
Kevin Cai, Chonghua Liu, David M. Chan(参考訳) インターネットのコンテンツの豊富さは、最大60%が英語で出版されており、18.8%が英語話者であり、5.1%が母国語であると考え、オンライン情報アクセスの格差に繋がる世界人口とは全く対照的である。 残念ながら、ビデオのダビングのための自動化プロセス - ビデオのオーディオトラックを変換されたオルタナティブに置き換えることは、パイプラインによる複雑で困難なタスクであり、正確なタイミング、顔の動きの同期、韻律マッチングを必要とする。 エンドツーエンドのドビングはソリューションを提供するが、データ不足はエンドツーエンドとパイプラインベースの両方の方法の進歩を妨げ続けている。 本研究では,自動ダビング,同時翻訳,ガイド付きビデオ要約,ジャンル/テーマ/スタイル分類など,さまざまなビデオ関連タスクをサポートする,日本語と英語の425K以上のアニメーションビデオセグメントからなる包括的データセットであるAnim-400Kを紹介する。 データセットはhttps://github.com/davidmchan/Anim400K.comで公開されています。

The Internet's wealth of content, with up to 60% published in English, starkly contrasts the global population, where only 18.8% are English speakers, and just 5.1% consider it their native language, leading to disparities in online information access. Unfortunately, automated processes for dubbing of video - replacing the audio track of a video with a translated alternative - remains a complex and challenging task due to pipelines, necessitating precise timing, facial movement synchronization, and prosody matching. While end-to-end dubbing offers a solution, data scarcity continues to impede the progress of both end-to-end and pipeline-based methods. In this work, we introduce Anim-400K, a comprehensive dataset of over 425K aligned animated video segments in Japanese and English supporting various video-related tasks, including automated dubbing, simultaneous translation, guided video summarization, and genre/theme/style classification. Our dataset is made publicly available for research purposes at https://github.com/davidmchan/Anim400K.
翻訳日:2024-01-11 13:55:52 公開日:2024-01-10
# HAPS対応FLネットワークにおける非IID性に対応する戦略的クライアント選択

Strategic Client Selection to Address Non-IIDness in HAPS-enabled FL Networks ( http://arxiv.org/abs/2401.05308v1 )

ライセンス: Link先を確認
Amin Farajzadeh, Animesh Yadav, Halim Yanikomeroglu(参考訳) high-altitude platform station (haps) が実現しているような垂直不均質ネットワークにおける連合学習 (federated learning, fl) の展開は、異なる通信能力と計算能力を備えた、幅広いクライアント同士が連携する機会を提供する。 この多様性は、FLモデルのトレーニング精度を高めるだけでなく、収束を高める。 しかし、これらの拡張ネットワークにFLを適用することは、特にクライアントデータ分散において重要な非IID性を示す。 このようなデータの不均一性は、しばしば収束速度が遅くなり、モデルのトレーニング性能が低下する。 本研究は,ユーザネットワークのトラフィック行動を活用したクライアント選択戦略を提案する。 この戦略には、ユーザのプライバシを優先しながら、ネットワーク使用パターンに基づいたクライアントの予測と分類が含まれる。 flトレーニングに参加するための類似のパターンを示すクライアントを戦略的に選択することで、ネットワーク全体にわたってより均一で代表的なデータ分布を育むことができる。 シミュレーションにより,このクライアント選択手法はhapsネットワークにおけるflモデルのトレーニング損失を著しく低減し,大規模flシステムの実現における課題を効果的に解決できることを実証した。

The deployment of federated learning (FL) within vertical heterogeneous networks, such as those enabled by high-altitude platform station (HAPS), offers the opportunity to engage a wide array of clients, each endowed with distinct communication and computational capabilities. This diversity not only enhances the training accuracy of FL models but also hastens their convergence. Yet, applying FL in these expansive networks presents notable challenges, particularly the significant non-IIDness in client data distributions. Such data heterogeneity often results in slower convergence rates and reduced effectiveness in model training performance. Our study introduces a client selection strategy tailored to address this issue, leveraging user network traffic behaviour. This strategy involves the prediction and classification of clients based on their network usage patterns while prioritizing user privacy. By strategically selecting clients whose data exhibit similar patterns for participation in FL training, our approach fosters a more uniform and representative data distribution across the network. Our simulations demonstrate that this targeted client selection methodology significantly reduces the training loss of FL models in HAPS networks, thereby effectively tackling a crucial challenge in implementing large-scale FL systems.
翻訳日:2024-01-11 13:55:32 公開日:2024-01-10
# 古典的および量子的基底状態準備ヒューリスティックスの比較

Comparing Classical and Quantum Ground State Preparation Heuristics ( http://arxiv.org/abs/2401.05306v1 )

ライセンス: Link先を確認
Katerina Gratsea, Jakob S. Kottmann, Peter D. Johnson and Alexander A. Kunitsa(参考訳) 量子計算の有望な分野の1つは、量子システムのシミュレーションであり、特に基底状態エネルギー推定(GSEE)の課題である。 基底状態準備(GSP)はGSEEアルゴリズムにおいて重要な要素であり、Hartree-Fock状態準備のような古典的な手法が一般的である。 しかし、そのような古典的手法の効率は、システムのサイズが大きくなると指数関数的に低下する。 本研究では,量子ヒューリスティックGSP法がハーツリーフォックと比較して重なり合う値を改善することができるかどうかを検討した。 さらに,gspアルゴリズムのtゲートによるオーバーラップ改善と関連するリソースコストとのトレードオフを検討することにより,gseeアルゴリズムの性能向上を慎重に検討した。 以上の結果から,量子ヒューリスティック GSP が GSEE タスクを高速化できることが示唆された。 これらの結果から,量子ヒューリスティック GSP は GSEE アルゴリズムのランタイム要求を大幅に削減し,量子ハードウェアの実装に適合性を高める可能性が示唆された。

One promising field of quantum computation is the simulation of quantum systems, and specifically, the task of ground state energy estimation (GSEE). Ground state preparation (GSP) is a crucial component in GSEE algorithms, and classical methods like Hartree-Fock state preparation are commonly used. However, the efficiency of such classical methods diminishes exponentially with increasing system size in certain cases. In this study, we investigated whether in those cases quantum heuristic GSP methods could improve the overlap values compared to Hartree-Fock. Moreover, we carefully studied the performance gain for GSEE algorithms by exploring the trade-off between the overlap improvement and the associated resource cost in terms of T-gates of the GSP algorithm. Our findings indicate that quantum heuristic GSP can accelerate GSEE tasks, already for computationally affordable strongly-correlated systems of intermediate size. These results suggest that quantum heuristic GSP has the potential to significantly reduce the runtime requirements of GSEE algorithms, thereby enhancing their suitability for implementation on quantum hardware.
翻訳日:2024-01-11 13:55:11 公開日:2024-01-10
# 情報スクランブル --量子熱力学の観点から

Information scrambling -- a quantum thermodynamic perspective ( http://arxiv.org/abs/2401.05305v1 )

ライセンス: Link先を確認
Akram Touil, Sebastian Deffner(参考訳) 量子情報科学の最近の進歩は、量子多体系の複雑なダイナミクスに光を当てている。 この視点は、量子情報の熱力学を考慮し、いくつかの重要な研究から重要な発見を合成し、量子スクランブルの様々な側面を探求することを目的としている。 本稿では, 時間外相関器 (OTOC) や量子相互情報, TMI (Tripartite Mutual Information) などの量子化器, 熱力学との関係, カオスと可積分量子系を理解する上での役割について考察する。 代表的な例として、量子情報のスクランブルの熱力学や、Sachdev-Ye-Kitaev(SYK)モデルのような量子重力モデルにおけるスクランブルダイナミクスなど、さまざまなトピックについて取り上げる。 これらの多様なアプローチを調べることで、量子情報スクランブルの多面的性質と、量子力学と熱力学の交点における量子多体力学の基本的側面を理解する上での意義を明らかにすることができる。

Recent advances in quantum information science have shed light on the intricate dynamics of quantum many-body systems, for which quantum information scrambling is a perfect example. Motivated by considerations of the thermodynamics of quantum information, this perspective aims at synthesizing key findings from several pivotal studies and exploring various aspects of quantum scrambling. We consider quantifiers such as the Out-of-Time-Ordered Correlator (OTOC), the quantum Mutual Information, and the Tripartite Mutual Information (TMI), their connections to thermodynamics, and their role in understanding chaotic versus integrable quantum systems. With a focus on representative examples, we cover a range of topics, including the thermodynamics of quantum information scrambling, and the scrambling dynamics in quantum gravity models such as the Sachdev-Ye-Kitaev (SYK) model. Examining these diverse approaches enables us to highlight the multifaceted nature of quantum information scrambling and its significance in understanding the fundamental aspects of quantum many-body dynamics at the intersection of quantum mechanics and thermodynamics.
翻訳日:2024-01-11 13:54:51 公開日:2024-01-10
# オンラインプラットフォームにおける確率的フィードバック駆動のユーザへの影響

Can Probabilistic Feedback Drive User Impacts in Online Platforms? ( http://arxiv.org/abs/2401.05304v1 )

ライセンス: Link先を確認
Jessica Dai, Bailey Flanigan, Nika Haghtalab, Meena Jagadeesan, Chara Podimata(参考訳) コンテンツレコメンデーションシステムのネガティブなユーザへの影響に関する一般的な説明は、プラットフォームの目的とユーザ福祉の相違である。 本研究は,ユーザに対する意図しない影響の潜在的な原因は,プラットフォームの目的がユーザ福祉と完全に整合している場合でも,プラットフォームの学習アルゴリズムがユーザに対するネガティブなダウンストリームの影響を誘発できることを示す。 これらのユーザへの影響の原因は、異なるコンテンツが異なるレートで観察可能なユーザリアクション(フィードバック情報)を生成する可能性があることである。 フィードバック率の違いは、学習アルゴリズムが異なるコンテンツにどの程度の頻度で関わるかに影響を与える可能性があるため、学習アルゴリズムは必然的にそのような特性を持つコンテンツを促進することができる。 確率的フィードバックを伴うマルチアームバンディットフレームワークを用いて,フィードバック率と学習アルゴリズムの個々のアームへの関与との関係を,異なる非回帰アルゴリズムを用いて検討する。 例えば、armのフィードバック率が向上し、いくつかのno-regretアルゴリズムがarmにもっと関与し、いくつかのno-regretアルゴリズムがarmに関わりにくくなり、他のno-regretアルゴリズムがarmにほぼ同じ回数関わる。 プラットフォーム設計の観点からは,アルゴリズムのパフォーマンスを測る上で,後悔以上のものを見ることの重要性を強調し,学習アルゴリズムのさまざまなタイプのコンテンツへのエンゲージメントと結果の下流への影響を評価する。

A common explanation for negative user impacts of content recommender systems is misalignment between the platform's objective and user welfare. In this work, we show that misalignment in the platform's objective is not the only potential cause of unintended impacts on users: even when the platform's objective is fully aligned with user welfare, the platform's learning algorithm can induce negative downstream impacts on users. The source of these user impacts is that different pieces of content may generate observable user reactions (feedback information) at different rates; these feedback rates may correlate with content properties, such as controversiality or demographic similarity of the creator, that affect the user experience. Since differences in feedback rates can impact how often the learning algorithm engages with different content, the learning algorithm may inadvertently promote content with certain such properties. Using the multi-armed bandit framework with probabilistic feedback, we examine the relationship between feedback rates and a learning algorithm's engagement with individual arms for different no-regret algorithms. We prove that no-regret algorithms can exhibit a wide range of dependencies: if the feedback rate of an arm increases, some no-regret algorithms engage with the arm more, some no-regret algorithms engage with the arm less, and other no-regret algorithms engage with the arm approximately the same number of times. From a platform design perspective, our results highlight the importance of looking beyond regret when measuring an algorithm's performance, and assessing the nature of a learning algorithm's engagement with different types of content as well as their resulting downstream impacts.
翻訳日:2024-01-11 13:54:29 公開日:2024-01-10
# ロボットインタラクションにおける大規模言語モデルのマインド能力の理論 : 幻想か?

Theory of Mind abilities of Large Language Models in Human-Robot Interaction : An Illusion? ( http://arxiv.org/abs/2401.05302v1 )

ライセンス: Link先を確認
Mudit Verma, Siddhant Bhambri, Subbarao Kambhampati(参考訳) 大規模言語モデルは、様々な自然言語や生成タスクにおいて例外的な生成能力を示している。 しかしながら、失敗事例に対する擬人化と寛大さは、大きな言語モデルの創発的能力、特に大きな言語モデルにおける心の理論(tom)能力に関する議論を促している。 他者のメンタルモデルを推論し,維持する能力を検証するために,いくつかの偽信テストが存在するが,高い利害関係を持ち,おそらくは不可逆的な結果をもたらすToM能力の特別な応用について検討する。 本研究では,ロボットがLarge Language Model (LLM) を用いてロボットが生成する振る舞いを人間の観察者に似た方法で評価する,知覚的行動認識の課題について検討する。 我々は,解釈可能なロボット行動の合成に広く用いられている4つの行動タイプ,すなわち,説明可能,正当性,予測可能,難読性の4つの行動タイプに着目した。 LLMの目標は、エージェントに対する人間の代理であり、例えば「ロボットの行動 X をすれば、人間の観察者はそれを説明可能であるか?」といった、あるエージェントの動作がループ内でどのように認識されるかに答えることである。 我々は,5つの領域にわたるキュレートされた状況(ロボットの設定と計画)において,ユーザがそのような質問に正しく答えられることを確認するために,人間の被験者による研究を行う。 信念テストの最初の分析は、ToM能力を有するLSMの期待を膨らませる極めて肯定的な結果をもたらす。 次に,この錯覚を破る一連の摂動テスト,すなわち矛盾する信念,非形式的文脈,信念テストを提案する。 結論として,バニラプロンプトにおけるLLMの高得点は,HRI設定におけるその可能性を示すが,LLMが欠落する文脈における自明なあるいは無関係な摂動に対するToM要求には相違がある。

Large Language Models have shown exceptional generative abilities in various natural language and generation tasks. However, possible anthropomorphization and leniency towards failure cases have propelled discussions on emergent abilities of Large Language Models especially on Theory of Mind (ToM) abilities in Large Language Models. While several false-belief tests exists to verify the ability to infer and maintain mental models of another entity, we study a special application of ToM abilities that has higher stakes and possibly irreversible consequences : Human Robot Interaction. In this work, we explore the task of Perceived Behavior Recognition, where a robot employs a Large Language Model (LLM) to assess the robot's generated behavior in a manner similar to human observer. We focus on four behavior types, namely - explicable, legible, predictable, and obfuscatory behavior which have been extensively used to synthesize interpretable robot behaviors. The LLMs goal is, therefore to be a human proxy to the agent, and to answer how a certain agent behavior would be perceived by the human in the loop, for example "Given a robot's behavior X, would the human observer find it explicable?". We conduct a human subject study to verify that the users are able to correctly answer such a question in the curated situations (robot setting and plan) across five domains. A first analysis of the belief test yields extremely positive results inflating ones expectations of LLMs possessing ToM abilities. We then propose and perform a suite of perturbation tests which breaks this illusion, i.e. Inconsistent Belief, Uninformative Context and Conviction Test. We conclude that, the high score of LLMs on vanilla prompts showcases its potential use in HRI settings, however to possess ToM demands invariance to trivial or irrelevant perturbations in the context which LLMs lack.
翻訳日:2024-01-11 13:53:59 公開日:2024-01-10
# cheetah: アフリカ517言語のための自然言語生成

Cheetah: Natural Language Generation for 517 African Languages ( http://arxiv.org/abs/2401.01053v3 )

ライセンス: Link先を確認
Ife Adebara, AbdelRahim Elmadany, Muhammad Abdul-Mageed(参考訳) 低リソースのアフリカ言語は自然言語生成(NLG)を含む自然言語処理(NLP)タスクに固有の課題をもたらす。 本稿ではアフリカ語のための多言語NLG言語モデルであるCheetahを開発する。 Cheetahは517のアフリカ語と言語品種をサポートし、NLGリソースの不足に対処し、言語多様性を育むためのソリューションを提供する。 6世代ダウンストリームタスクの総合的な評価を通じて,Cheetahの有効性を示す。 6つのタスクのうち5つで、cheetahは他のモデルを大きく上回り、幅広いアフリカの言語でコヒーレントで文脈に合ったテキストを生成するという顕著な性能を示している。 さらに,cheetahの言語能力について深く掘り下げるために,詳細な人間評価を行う。 チーターの導入は言語多様性にとって大きな利点がある。 事前訓練されたモデルを活用して特定の言語に適応することにより、アフリカのコミュニティに実用的なNLGアプリケーションの開発を促進する。 本研究は,低リソース環境でのNLP研究の進展に寄与し,急速に拡大するデジタルランドスケープにおけるアフリカ言語へのアクセシビリティと包摂性の向上に寄与する。 研究のためのモデルを公開します。

Low-resource African languages pose unique challenges for natural language processing (NLP) tasks, including natural language generation (NLG). In this paper, we develop Cheetah, a massively multilingual NLG language model for African languages. Cheetah supports 517 African languages and language varieties, allowing us to address the scarcity of NLG resources and provide a solution to foster linguistic diversity. We demonstrate the effectiveness of Cheetah through comprehensive evaluations across six generation downstream tasks. In five of the six tasks, Cheetah significantly outperforms other models, showcasing its remarkable performance for generating coherent and contextually appropriate text in a wide range of African languages. We additionally conduct a detailed human evaluation to delve deeper into the linguistic capabilities of Cheetah. The introduction of Cheetah has far-reaching benefits for linguistic diversity. By leveraging pretrained models and adapting them to specific languages, our approach facilitates the development of practical NLG applications for African communities. The findings of this study contribute to advancing NLP research in low-resource settings, enabling greater accessibility and inclusion for African languages in a rapidly expanding digital landscape. We publicly release our models for research.
翻訳日:2024-01-11 12:01:58 公開日:2024-01-10
# Deformable-DETR と Multi-Level Feature Fusion を用いた正確な白血球検出による血液疾患の診断支援

Accurate Leukocyte Detection Based on Deformable-DETR and Multi-Level Feature Fusion for Aiding Diagnosis of Blood Diseases ( http://arxiv.org/abs/2401.00926v4 )

ライセンス: Link先を確認
Yifei Chen, Chenyan Zhang, Ben Chen, Yiyu Huang, Yifei Sun, Changmiao Wang, Xianjun Fu, Yuxing Dai, Feiwei Qin, Yong Peng, Yu Gao(参考訳) 通常の病院血液検査では、医師は顕微鏡で患者の血液の顕微鏡画像から白血球を手動で分離する必要がある。 これらの単離白血球は、自動白血球分類器を介して分類され、血液サンプルに存在する異なる種類の白血球の割合と体積を判定し、疾患の診断を支援する。 この手法は時間と労力を消費するだけでなく、画像の品質や環境条件などの要因によるエラーの確率が高く、その後の分類や誤診断につながる可能性がある。 これらの課題に対処するために, マルチレベル機能融合と変形性自己注意型DETR (MFDS-DETR) を提案する。 白血球スケールの格差問題に対処するため,高レベルスクリーニング機能融合ピラミッド (hs-fpn) を設計し,マルチレベル融合を可能にした。 このモデルは、チャネルアテンションモジュールを介して低レベル特徴情報をフィルタリングし、スクリーニングされた情報を高レベル特徴とマージすることにより、モデルの特徴表現能力を向上する。 さらに,多スケールの変形可能な自己着脱モジュールをエンコーダに組み込んで,自己着脱および相互着脱可能な注意機構をデコーダに組み込むことで白血球特徴量不足の問題に対処し,白血球特徴マップの全体的特徴の抽出を支援する。 提案手法の有効性, 優位性, 一般化性は, プライベートWBCDD, パブリックLISC, BCCDデータセットを用いた他の最先端白血球検出モデルとの比較により確認した。 ソースコードとプライベートなWBCCDデータセットはhttps://github.com/JustlfC03/MFDS-DETRで公開されています。

In standard hospital blood tests, the traditional process requires doctors to manually isolate leukocytes from microscopic images of patients' blood using microscopes. These isolated leukocytes are then categorized via automatic leukocyte classifiers to determine the proportion and volume of different types of leukocytes present in the blood samples, aiding disease diagnosis. This methodology is not only time-consuming and labor-intensive, but it also has a high propensity for errors due to factors such as image quality and environmental conditions, which could potentially lead to incorrect subsequent classifications and misdiagnosis. To address these issues, this paper proposes an innovative method of leukocyte detection: the Multi-level Feature Fusion and Deformable Self-attention DETR (MFDS-DETR). To tackle the issue of leukocyte scale disparity, we designed the High-level Screening-feature Fusion Pyramid (HS-FPN), enabling multi-level fusion. This model uses high-level features as weights to filter low-level feature information via a channel attention module and then merges the screened information with the high-level features, thus enhancing the model's feature expression capability. Further, we address the issue of leukocyte feature scarcity by incorporating a multi-scale deformable self-attention module in the encoder and using the self-attention and cross-deformable attention mechanisms in the decoder, which aids in the extraction of the global features of the leukocyte feature maps. The effectiveness, superiority, and generalizability of the proposed MFDS-DETR method are confirmed through comparisons with other cutting-edge leukocyte detection models using the private WBCDD, public LISC and BCCD datasets. Our source code and private WBCCD dataset are available at https://github.com/JustlfC03/MFDS-DETR.
翻訳日:2024-01-11 12:01:13 公開日:2024-01-10
# アダプティブ埋め込みとセンスリングによる画像音化拡散モデル刺激

Stimulating the Diffusion Model for Image Denoising via Adaptive Embedding and Ensembling ( http://arxiv.org/abs/2307.03992v3 )

ライセンス: Link先を確認
Tong Li, Hansen Feng, Lizhi Wang, Zhiwei Xiong, Hua Huang(参考訳) 画像のデノイジングは、低歪みで高い知覚を達成することが非常に要求される計算写真における根本的な問題である。 現在の方法は知覚品質に苦しむか、大きな歪みに悩まされる。 近年,新しい拡散モデルが様々なタスクで最先端のパフォーマンスを達成し,画像のデノイジングの可能性も示している。 しかし、画像の強調のための刺激拡散モデルは単純ではなく、いくつかの重要な問題を解決する必要がある。 ひとつは、入力の不整合は拡散モデルと画像デノーミングの接続を妨げます。 言い換えると、生成された画像と所望のデノレーション画像との間のコンテンツの不整合は歪みをもたらす。 これらの課題に対処するために,拡散モデルを理解し再考することで,DMID(Diffusion Model for Image Denoising)と呼ばれる新しい戦略を提案する。 我々のDMID戦略は、雑音像を事前訓練された非条件拡散モデルに埋め込む適応埋め込み法と、復調画像の歪みを低減する適応アンサンブル法とを含む。 当社のdmid戦略は、gaussianおよびreal-world image denoisingの両方で、歪みベースと知覚ベースのメトリクスの両方で最先端のパフォーマンスを達成しています。

Image denoising is a fundamental problem in computational photography, where achieving high perception with low distortion is highly demanding. Current methods either struggle with perceptual quality or suffer from significant distortion. Recently, the emerging diffusion model has achieved state-of-the-art performance in various tasks and demonstrates great potential for image denoising. However, stimulating diffusion models for image denoising is not straightforward and requires solving several critical problems. For one thing, the input inconsistency hinders the connection between diffusion models and image denoising. For another, the content inconsistency between the generated image and the desired denoised image introduces distortion. To tackle these problems, we present a novel strategy called the Diffusion Model for Image Denoising (DMID) by understanding and rethinking the diffusion model from a denoising perspective. Our DMID strategy includes an adaptive embedding method that embeds the noisy image into a pre-trained unconditional diffusion model and an adaptive ensembling method that reduces distortion in the denoised image. Our DMID strategy achieves state-of-the-art performance on both distortion-based and perception-based metrics, for both Gaussian and real-world image denoising.The code is available at https://github.com/Li-Tong-621/DMID.
翻訳日:2024-01-11 12:00:42 公開日:2024-01-10
# ReConpatch : 産業異常検出のためのコントラストパッチ表現学習

ReConPatch : Contrastive Patch Representation Learning for Industrial Anomaly Detection ( http://arxiv.org/abs/2305.16713v3 )

ライセンス: Link先を確認
Jeeho Hyun, Sangyun Kim, Giyoung Jeon, Seung Hwan Kim, Kyunghoon Bae, Byung Jun Kang(参考訳) 異常検出は、不正部品、ミスアライメント部品、工業製造における損傷などの製品欠陥の高度な同定に不可欠である。 まれな観察と未知の欠陥のため、異常検出は機械学習において困難であると考えられている。 この課題を克服するために、近年のアプローチでは、自然画像データセットから事前訓練された共通の視覚表現を利用し、関連する特徴を抽出する。 しかしながら、既存のアプローチでは、事前トレーニングされた機能とターゲットデータとの差異があるか、特に産業データセットのために慎重に設計されるべき入力拡張が必要となる。 本稿では,事前学習モデルから抽出したパッチ特徴の線形変調を訓練し,異常検出のための識別特性を構築するreconpatchを提案する。 ReConPatchは、ターゲット指向で容易に分離可能な表現を生成する方法で、特徴の収集と配布に対照的な表現学習を採用している。 比較学習のためのラベル付きペアの欠如に対処するために,データ表現間の類似度尺度であるペアワイズと文脈類似度を擬似ラベルとして用いる。 本手法は,MVTec ADデータセットに対して,最先端の異常検出性能(99.72%)を実現する。 さらに,btadデータセットの最先端異常検出性能(95.8%)を達成した。

Anomaly detection is crucial to the advanced identification of product defects such as incorrect parts, misaligned components, and damages in industrial manufacturing. Due to the rare observations and unknown types of defects, anomaly detection is considered to be challenging in machine learning. To overcome this difficulty, recent approaches utilize the common visual representations pre-trained from natural image datasets and distill the relevant features. However, existing approaches still have the discrepancy between the pre-trained feature and the target data, or require the input augmentation which should be carefully designed, particularly for the industrial dataset. In this paper, we introduce ReConPatch, which constructs discriminative features for anomaly detection by training a linear modulation of patch features extracted from the pre-trained model. ReConPatch employs contrastive representation learning to collect and distribute features in a way that produces a target-oriented and easily separable representation. To address the absence of labeled pairs for the contrastive learning, we utilize two similarity measures between data representations, pairwise and contextual similarities, as pseudo-labels. Our method achieves the state-of-the-art anomaly detection performance (99.72%) for the widely used and challenging MVTec AD dataset. Additionally, we achieved a state-of-the-art anomaly detection performance (95.8%) for the BTAD dataset.
翻訳日:2024-01-11 12:00:21 公開日:2024-01-10
# ファンデーションモデルの低リソースビジョンチャレンジ

Low-Resource Vision Challenges for Foundation Models ( http://arxiv.org/abs/2401.04716v2 )

ライセンス: Link先を確認
Yunhua Zhang, Hazel Doughty, Cees G.M. Snoek(参考訳) 低リソース設定は、多くの言語が大規模な機械学習に十分なデータを持っていない自然言語処理において十分に確立されている。 しかし、低リソース問題はコンピュータビジョンでは未解決である。 本稿では,このギャップに対処し,視覚基盤モデルを用いた低リソース画像タスクの課題を探究する。 そこで,我々はまず,歴史地図,回路図,メカニカル描画を網羅した,真の低リソース画像データのベンチマークを収集する。 これらの低リソース設定はすべて、データの不足、細かな違い、自然画像から専門分野への分散という3つの課題を共有している。 既存の基盤モデルは目覚ましい一般化性を示しているが、低リソースのタスクにうまく移行することはできない。 低リソースビジョンの課題に取り組むために,1つの単純なベースラインを1つ導入する。 具体的には 一 生成モデルによりデータ空間を拡大すること。 二 微粒な差分発見のために、地域を符号化する最適なサブカーネルを採用すること。 三 専門分野について留意すること。 ベンチマークで低リソースの3つのデータソースに関する実験では、私たちの提案はすでに一般的な転送学習やデータ拡張、きめ細かいメソッドよりも優れたベースラインを提供しています。 これは、さらなる調査を保証している基礎モデルの低リソースビジョンの特徴と課題を強調している。 プロジェクトサイト:https://xiaobai1217.github.io/Low-Resource-Vision/。

Low-resource settings are well-established in natural language processing, where many languages lack sufficient data for machine learning at scale. However, low-resource problems are under-explored in computer vision. In this paper, we strive to address this gap and explore the challenges of low-resource image tasks with vision foundation models. Thus, we first collect a benchmark of genuinely low-resource image data, covering historic maps, circuit diagrams, and mechanical drawings. These low-resource settings all share the three challenges of data scarcity, fine-grained differences, and the distribution shift from natural images to the specialized domain of interest. While existing foundation models have shown impressive generalizability, we find they cannot transfer well to our low-resource tasks. To begin to tackle the challenges of low-resource vision, we introduce one simple baseline per challenge. Specifically, we propose to i) enlarge the data space by generative models, ii) adopt the best sub-kernels to encode local regions for fine-grained difference discovery and iii) learn attention for specialized domains. Experiments on the three low-resource data sources in our benchmark demonstrate our proposals already provide a better baseline than common transfer learning, data augmentation, and fine-grained methods. This highlights the unique characteristics and challenges of low-resource vision for foundation models that warrant further investigation. Project website: https://xiaobai1217.github.io/Low-Resource-Vision/.
翻訳日:2024-01-11 11:50:50 公開日:2024-01-10
# RoSA:ロバスト適応による高精度パラメータ効率ファインチューニング

RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation ( http://arxiv.org/abs/2401.04679v2 )

ライセンス: Link先を確認
Mahdi Nikdan, Soroush Tabesh, Dan Alistarh(参考訳) 本研究では,大規模言語モデル (LLM) の文脈において,限られた計算・メモリ予算の下で高い精度を達成できるパラメータ効率細調整法について検討する。 本稿では,ロバスト適応 (RoSA) と呼ばれる新しいPEFT手法を提案する。ロバスト適応 (RoSA) はロバストな主成分分析 (PCA) にインスパイアされ,固定された事前学習重みのセットの上に$\textit{low-rank}$と$\textit{highly-sparse}$コンポーネントを共同でトレーニングし,フルファインチューニング (FFT) ソリューションの性能を効率的に近似する。 小学校数学やSQLクエリ生成など,優れたパフォーマンスのために微調整を必要とする一連の課題生成タスクにおいて,RoSAがLoRAと純粋スパース細調整の両方を同じパラメータ予算で上回ることを示す。 我々は、トレーニングアルゴリズム、特にメモリと計算効率のトレーニングを可能にするスパースGPUカーネルを補完するRoSAのシステムサポートを提供する。 私たちのコードはhttps://github.com/IST-DASLab/RoSA}で公開されます。

We investigate parameter-efficient fine-tuning (PEFT) methods that can provide good accuracy under limited computational and memory budgets in the context of large language models (LLMs). We present a new PEFT method called Robust Adaptation (RoSA) inspired by robust principal component analysis (PCA) that jointly trains $\textit{low-rank}$ and $\textit{highly-sparse}$ components on top of a set of fixed pretrained weights to efficiently approximate the performance of a full-fine-tuning (FFT) solution. Across a series of challenging generative tasks such as grade-school math and SQL query generation, which require fine-tuning for good performance, we show that RoSA outperforms both LoRA and pure sparse fine-tuning, at the same parameter budget. We provide system support for RoSA to complement the training algorithm, specifically in the form of sparse GPU kernels which enable memory- and computationally-efficient training. Our code will be made available at https://github.com/IST-DASLab/RoSA}
翻訳日:2024-01-11 11:50:27 公開日:2024-01-10
# 進化する社会規範におけるエージェントアライメント

Agent Alignment in Evolving Social Norms ( http://arxiv.org/abs/2401.04620v2 )

ライセンス: Link先を確認
Shimin Li, Tianxiang Sun, Xipeng Qiu(参考訳) 大規模言語モデル(LLM)に基づくエージェントは、人間の生産と生活の様々な領域に浸透し、それらを人間の価値と整合させることの重要性を強調している。 AIシステムの現在のアライメントは主に、人間の介入によるLLMの受動的アライメントに焦点を当てている。 しかし, エージェントには環境フィードバックや自己進化といった特性があり, LLMアライメント手法が不十分である。 そこで,我々は,エージェントアライメントを適応テストの生存原理の下で進化と選択のプロセスに変換する進化エージェントという,エージェントの進化とアライメントのための進化フレームワークを提案する。 社会規範が継続的に進化し続ける環境では、現在の社会規範に適合するエージェントは生存と増殖の確率が高くなり、一方で不適切な調整は時間とともに減少する。 社会規範と整合する複数の視点からエージェントを評価する実験の結果、進化エージェントは、一般的なタスクにおいてその熟練性を維持しつつ、進歩的に社会規範と協調する能力を持っていることが示されている。 各種オープン・クローズド・ソース LLM をエージェントの基礎として実施した有効性試験も,本手法の適用性を実証した。

Agents based on Large Language Models (LLMs) are increasingly permeating various domains of human production and life, highlighting the importance of aligning them with human values. The current alignment of AI systems primarily focuses on passively aligning LLMs through human intervention. However, agents possess characteristics like receiving environmental feedback and self-evolution, rendering the LLM alignment methods inadequate. In response, we propose an evolutionary framework for agent evolution and alignment, named EvolutionaryAgent, which transforms agent alignment into a process of evolution and selection under the principle of survival of the fittest. In an environment where social norms continuously evolve, agents better adapted to the current social norms will have a higher probability of survival and proliferation, while those inadequately aligned dwindle over time. Experimental results assessing the agents from multiple perspectives in aligning with social norms demonstrate that EvolutionaryAgent possesses the capability to align progressively better with the evolving social norms while maintaining its proficiency in general tasks. Effectiveness tests conducted on various open and closed-source LLMs as the foundation for agents also prove the applicability of our approach.
翻訳日:2024-01-11 11:50:00 公開日:2024-01-10
# サブグラフフェデレーション学習のための深層能率私的隣人生成

Deep Efficient Private Neighbor Generation for Subgraph Federated Learning ( http://arxiv.org/abs/2401.04336v2 )

ライセンス: Link先を確認
Ke Zhang, Lichao Sun, Bolin Ding, Siu Ming Yiu, Carl Yang(参考訳) ベヘモスグラフはしばしば断片化され、多くの現実的なアプリケーションで分散サブグラフとして複数のデータ所有者によって個別に保存される。 データプライバシを損なうことなく、各ローカルクライアントがグローバルグラフ全体のサブグラフを保持するsubgraph federated learning(subgraph fl)シナリオを検討して、グローバルに一般化されたグラフマイニングモデルを得るのは自然である。 部分グラフの欠落による局所部分グラフ上の不完全情報伝搬の独特な課題を克服するため, 従来の研究は, 隣接するジェネレータとGNNの連成FLを介し, 地域住民の増大を図っている。 しかし、彼らの技術設計はFLの実用性、効率性、プライバシーの目標に関して重大な制限がある。 本稿では,これらの課題に包括的に取り組むためのFedDEPを提案する。 FedDEPは,(1)GNN埋め込みを利用した深部近傍世代,(2)埋め込みプロトタイピングによる近接世代に対する効率的な擬似FL,(3)ノイズのないエッジ局所微分プライバシによるプライバシ保護という,一連の新しい技術設計で構成されている。 我々はFedDEPの正しさと効率を分析し、そのプライバシーに関する理論的保証を提供する。 4つの実世界のデータセットの実証結果は、提案手法の明確な利点を正当化する。

Behemoth graphs are often fragmented and separately stored by multiple data owners as distributed subgraphs in many realistic applications. Without harming data privacy, it is natural to consider the subgraph federated learning (subgraph FL) scenario, where each local client holds a subgraph of the entire global graph, to obtain globally generalized graph mining models. To overcome the unique challenge of incomplete information propagation on local subgraphs due to missing cross-subgraph neighbors, previous works resort to the augmentation of local neighborhoods through the joint FL of missing neighbor generators and GNNs. Yet their technical designs have profound limitations regarding the utility, efficiency, and privacy goals of FL. In this work, we propose FedDEP to comprehensively tackle these challenges in subgraph FL. FedDEP consists of a series of novel technical designs: (1) Deep neighbor generation through leveraging the GNN embeddings of potential missing neighbors; (2) Efficient pseudo-FL for neighbor generation through embedding prototyping; and (3) Privacy protection through noise-less edge-local-differential-privacy. We analyze the correctness and efficiency of FedDEP, and provide theoretical guarantees on its privacy. Empirical results on four real-world datasets justify the clear benefits of proposed techniques.
翻訳日:2024-01-11 11:49:40 公開日:2024-01-10
# 大型スピン猫符号を用いたフォールトトレラント量子計算

Fault-tolerant quantum computation using large spin cat-codes ( http://arxiv.org/abs/2401.04271v2 )

ライセンス: Link先を確認
Sivaprasad Omanakuttan, Vikas Buchemmavari, Jonathan A. Gross, Ivan H Deutsch and Milad Marvian(参考訳) 連続変数cat符号化に類似したスピンキャット符号を用いて、大きなスピンquditで符号化された量子ビットに基づくフォールトトレラント量子誤り訂正プロトコルを構築する。 これにより、支配的な誤差源、すなわち角運動量の成分において線型あるいは二次的な誤差演算子として表現できる過程を補正することができる。 このような符号は、非構造ノイズモデルのために設計された符号に比べて、優れたしきい値と低いリソースオーバーヘッドを示す。 ゲート操作中の支配的エラーを保存するため、適切なユニバーサルゲート集合を同定する。 鍵となる要素は球面テンソル作用素のランクを保存するcnotゲートである。 位相誤差を位相誤差と振幅誤差に分類し、量子ビットの位相誤差に類似した位相誤差を効果的に補正できることを示す。 さらに,シンドローム測定に頼らずに振幅誤差に対処する計測自由誤差補正手法を提案する。 論理cnotゲートエラーの詳細な解析により、スピンキャット符号化における誤り訂正のフォールトトレラントしきい値が、標準のqubitベースのエンコーディングのそれを超えることを証明した。 quditsは$^{87}$srの核スピンで符号化され、量子制御とrydbergブロックを用いてランク保存cnotゲートを含むユニバーサルゲート集合を生成する方法を示す。 これらの結果は、量子情報処理においてフォールトトレランス、高いしきい値、リソースオーバーヘッドを低減できる可能性を秘めた、大きなスピンで量子ビットを符号化する方法を示している。

We construct a fault-tolerant quantum error-correcting protocol based on a qubit encoded in a large spin qudit using a spin-cat code, analogous to the continuous variable cat encoding. With this, we can correct the dominant error sources, namely processes that can be expressed as error operators that are linear or quadratic in the components of angular momentum. Such codes tailored to dominant error sources {can} exhibit superior thresholds and lower resource overheads when compared to those designed for unstructured noise models. To preserve the dominant errors during gate operations, we identify a suitable universal gate set. A key component is the CNOT gate that preserves the rank of spherical tensor operators. Categorizing the dominant errors as phase and amplitude errors, we demonstrate how phase errors, analogous to phase-flip errors for qubits, can be effectively corrected. Furthermore, we propose a measurement-free error correction scheme to address amplitude errors without relying on syndrome measurements. Through an in-depth analysis of logical CNOT gate errors, we establish that the fault-tolerant threshold for error correction in the spin-cat encoding surpasses that of standard qubit-based encodings. We consider a specific implementation based on neutral-atom quantum computing, with qudits encoded in the nuclear spin of $^{87}$Sr, and show how to generate the universal gate set, including the rank-preserving CNOT gate, using quantum control and the Rydberg blockade. These findings pave the way for encoding a qubit in a large spin with the potential to achieve fault tolerance, high threshold, and reduced resource overhead in quantum information processing.
翻訳日:2024-01-11 11:49:16 公開日:2024-01-10
# テスト時間適応のためのPlug-and-Play変換モジュール

Plug-and-Play Transformer Modules for Test-Time Adaptation ( http://arxiv.org/abs/2401.04130v2 )

ライセンス: Link先を確認
Xiangyu Chang, Sk Miraj Ahmed, Srikanth V. Krishnamurthy, Basak Guler, Ananthram Swami, Samet Oymak, Amit K. Roy-Chowdhury(参考訳) LoRA、Adapter、Visual Prompt Tuning (VPT) などのPET手法は、トランスフォーマーモデル内の小さなモジュールをチューニングすることで、新しいドメインへの適応を可能にすることに成功した。 しかし、テスト期間中に遭遇するドメインの数は膨大であり、通常はラベル付けされていない。 したがって、新しいドメインへの適応は困難であり、これらのドメインごとにカスタマイズされたチューニングモジュールを生成するのも現実的ではない。 これらの課題に対処するために、PLUTO: Plug-and-pLay modUlar Test-time Domain AdaptatiOn戦略を紹介します。 私たちは多数のモジュールを事前トレーニングし、それぞれ異なるソースドメインに特化しており、実質的に ``module store'' を作成します。 ラベルなしデータの少ない対象領域を前提として,(1)関連モジュールのスパース部分集合をこのストアから選択するための教師なしテスト時間適応(TTA)手法を導入し,(2)重みを調整せずに選択したモジュールの組み合わせを重み付けする。 このプラグアンドプレイの性質により、複数の最も関連性の高いソースドメインを単一の推論コールで利用することができます。 総合的な評価は、PLUTOが代替のTTAメソッドを均一に上回り、$\leq$5モジュールを選択することは、利益のほとんどを抽出するのに十分であることを示している。 提案手法は,高速かつスケーラブルなドメイン適応のための新しいパラダイムをモチベーションとして,事前学習したトランスフォーマーに新しいドメインへの動的適応能力を持たせる。

Parameter-efficient tuning (PET) methods such as LoRA, Adapter, and Visual Prompt Tuning (VPT) have found success in enabling adaptation to new domains by tuning small modules within a transformer model. However, the number of domains encountered during test time can be very large, and the data is usually unlabeled. Thus, adaptation to new domains is challenging; it is also impractical to generate customized tuned modules for each such domain. Toward addressing these challenges, this work introduces PLUTO: a Plug-and-pLay modUlar Test-time domain adaptatiOn strategy. We pre-train a large set of modules, each specialized for different source domains, effectively creating a ``module store''. Given a target domain with few-shot unlabeled data, we introduce an unsupervised test-time adaptation (TTA) method to (1) select a sparse subset of relevant modules from this store and (2) create a weighted combination of selected modules without tuning their weights. This plug-and-play nature enables us to harness multiple most-relevant source domains in a single inference call. Comprehensive evaluations demonstrate that PLUTO uniformly outperforms alternative TTA methods and that selecting $\leq$5 modules suffice to extract most of the benefit. At a high level, our method equips pre-trained transformers with the capability to dynamically adapt to new domains, motivating a new paradigm for efficient and scalable domain adaptation.
翻訳日:2024-01-11 11:48:49 公開日:2024-01-10
# アルツハイマー病のモデリングと分類のための構造中心神経変性畳み込みニューラルネットワーク

Structure-focused Neurodegeneration Convolutional Neural Network for Modeling and Classification of Alzheimer's Disease ( http://arxiv.org/abs/2401.03922v2 )

ライセンス: Link先を確認
Simisola Odimayo, Chollette C. Olisah, and Khadija Mohammed(参考訳) 認知症の主要な形態であるアルツハイマー病(AD)は、世界的な課題となり、正確な早期診断の緊急性を強調している。 軽度認知障害 (MCI) とAD (AD) を区別するために, MRI (Machine Resonance Imaging) を併用した臨床技術は, 整合性や信頼性に乏しいため, 障害に遭遇する。 機械学習は、早期の広告診断に有望であることが示されている。 しかし、既存のモデルでは、脳大脳皮質の神経変性に関する情報を提供する焦点構造の特徴を考慮せずに焦点微細な特徴に焦点を当てている。 そこで本稿では,画像強調技術であるガンマ補正を統合した機械学習(ML)フレームワークを提案し,ADとMCIを識別するための構造中心の神経変性畳み込みニューラルネットワーク(CNN)アーキテクチャ(SNeurodCNN)を提案する。 MLフレームワークは、構造に焦点を当てたアルツハイマー病神経画像イニシアチブ(ADNI)データセットの、中矢状および準矢状脳像の視点を活用する。 実験により,提案する機械学習フレームワークは優れた性能を示す。 準矢状視線は97.8%の精度で、97.0%の特異性と98.5%の感度を持つ。 正解率98.1% 97.2%、正解率99.0%、正解率98.1%、正解率99.0%、正解率98.1%、正解率98.1%、正解率99.0%である。 また,GradCAM法を用いて,前頭葉,後頭葉,小脳,頭頂葉などに存在するMCIおよびADの構造動態を把握できることが示唆された。 したがって、adの早期診断のための脳構造変化ジギバイオマーカーとしてのモデルそのものが考えられる。

Alzheimer's disease (AD), the predominant form of dementia, poses a growing global challenge and underscores the urgency of accurate and early diagnosis. The clinical technique radiologists adopt for distinguishing between mild cognitive impairment (MCI) and AD using Machine Resonance Imaging (MRI) encounter hurdles because they are not consistent and reliable. Machine learning has been shown to offer promise for early AD diagnosis. However, existing models focused on focal fine-grain features without considerations to focal structural features that give off information on neurodegeneration of the brain cerebral cortex. Therefore, this paper proposes a machine learning (ML) framework that integrates Gamma correction, an image enhancement technique, and includes a structure-focused neurodegeneration convolutional neural network (CNN) architecture called SNeurodCNN for discriminating between AD and MCI. The ML framework leverages the mid-sagittal and para-sagittal brain image viewpoints of the structure-focused Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset. Through experiments, our proposed machine learning framework shows exceptional performance. The parasagittal viewpoint set achieves 97.8% accuracy, with 97.0% specificity and 98.5% sensitivity. The midsagittal viewpoint is shown to present deeper insights into the structural brain changes given the increase in accuracy, specificity, and sensitivity, which are 98.1% 97.2%, and 99.0%, respectively. Using GradCAM technique, we show that our proposed model is capable of capturing the structural dynamics of MCI and AD which exist about the frontal lobe, occipital lobe, cerebellum, and parietal lobe. Therefore, our model itself as a potential brain structural change Digi-Biomarker for early diagnosis of AD.
翻訳日:2024-01-11 11:48:05 公開日:2024-01-10
# widthformer:効率的なトランスフォーマティブベースのbevビュー変換に向けて

WidthFormer: Toward Efficient Transformer-based BEV View Transformation ( http://arxiv.org/abs/2401.03836v3 )

ライセンス: Link先を確認
Chenhongyi Yang, Tianwei Lin, Lichao Huang and Elliot J. Crowley(参考訳) 本稿では,リアルタイム自動運転アプリケーション用に調整された,新しいトランスフォーマティブベースバードズアイビュー(bev)3次元検出手法であるwidthformerを提案する。 WidthFormerは計算効率が高く、堅牢で、デプロイに特別なエンジニアリング作業を必要としない。 本研究では,3次元幾何情報を高精度にカプセル化できる新しい3次元位置符号化機構を提案する。 この機構は既存のスパース3Dオブジェクト検出器にも有用である。 最近提案した作業にインスパイアされ,注目キーや値として機能する際の画像特徴を垂直に圧縮することで,モデルの有効性をさらに向上する。 特徴圧縮による潜在的な情報損失を補償する2つのモジュールも導入する。 広範に使用されている3dオブジェクト検出ベンチマークの実験的評価では,従来の3d検出アーキテクチャよりも優れていた。 さらに重要なことは、私たちのモデルは極めて効率的です。 例えば、256\times 704$の入力イメージを使用すると、NVIDIA 3090 GPUとHorizon Journey-5エッジコンピューティングチップでそれぞれ1.5msと2.8msのレイテンシを達成する。 さらに、widthformerは、異なるカメラの摂動に対して強いロバスト性を示す。 我々の研究は、現実の複雑な道路環境におけるBEV変換手法の展開に関する貴重な洞察を提供する。 コードはhttps://github.com/ChenhongyiYang/WidthFormerで入手できる。

In this work, we present WidthFormer, a novel transformer-based Bird's-Eye-View (BEV) 3D detection method tailored for real-time autonomous-driving applications. WidthFormer is computationally efficient, robust and does not require any special engineering effort to deploy. In this work, we propose a novel 3D positional encoding mechanism capable of accurately encapsulating 3D geometric information, which enables our model to generate high-quality BEV representations with only a single transformer decoder layer. This mechanism is also beneficial for existing sparse 3D object detectors. Inspired by the recently-proposed works, we further improve our model's efficiency by vertically compressing the image features when serving as attention keys and values. We also introduce two modules to compensate for potential information loss due to feature compression. Experimental evaluation on the widely-used nuScenes 3D object detection benchmark demonstrates that our method outperforms previous approaches across different 3D detection architectures. More importantly, our model is highly efficient. For example, when using $256\times 704$ input images, it achieves 1.5 ms and 2.8 ms latency on NVIDIA 3090 GPU and Horizon Journey-5 edge computing chips, respectively. Furthermore, WidthFormer also exhibits strong robustness to different degrees of camera perturbations. Our study offers valuable insights into the deployment of BEV transformation methods in real-world, complex road environments. Code is available at https://github.com/ChenhongyiYang/WidthFormer .
翻訳日:2024-01-11 11:47:25 公開日:2024-01-10
# ディープラーニングフレームワーク開発における仮定の自動識別に関する探索的研究

An exploratory study on automatic identification of assumptions in the development of deep learning frameworks ( http://arxiv.org/abs/2401.03653v2 )

ライセンス: Link先を確認
Chen Yang, Peng Liang, Zinan Ma(参考訳) ステークホルダは、ディープラーニング(DL)フレームワークの開発において、常に仮定を行います。 これらの仮定は、様々な種類のソフトウェアアーティファクト(要求、設計決定、技術的負債など)と関連付けられており、システム障害につながる可能性がある。 既存の仮定管理のためのアプローチとツールは通常、仮定のマニュアル識別に依存する。 しかし、仮定はdlフレームワーク開発の様々なソース(例えば、コードコメント、コミット、プルリクエスト、問題)に分散しており、手動で仮定を特定することは高いコスト(例えば、時間とリソース)を持つ。 DLフレームワーク開発における仮定を手動で特定する問題を克服するため、GitHubのTensorFlowとKerasリポジトリから収集された仮定の新しい最大データセット(AssuEval)を構築し、AssuEvalデータセット上の仮定を特定するための7つの伝統的な機械学習モデル(例えば、サポートベクタマシン、分類と回帰ツリー)、人気のあるDLモデル(ALBERT)、大きな言語モデル(例えば、ChatGPT)のパフォーマンスを調査した。 ALBERTは、他のモデルよりもはるかに優れたAssuEvalデータセット上の仮定を特定する最高のパフォーマンス(f1スコア: 0.9584)を達成する(第2の最良のf1スコアは、ChatGPTによって達成された0.6211)。 ChatGPTは、最もポピュラーな大規模言語モデルであるが、タスクの性能が低いため、DLフレームワーク開発における仮定を特定するためにの使用は推奨しない。 仮定識別のための微調整ChatGPTは性能を向上する可能性がある。 この研究では、さらなる研究のための仮定データセット(仮定分類、評価、推論など)を研究者に提供し、実践者が仮定の理解を深め、プロジェクトでそれらを管理する方法を支援する。

Stakeholders constantly make assumptions in the development of deep learning (DL) frameworks. These assumptions are related to various types of software artifacts (e.g., requirements, design decisions, and technical debt) and can turn out to be invalid, leading to system failures. Existing approaches and tools for assumption management usually depend on manual identification of assumptions. However, assumptions are scattered in various sources (e.g., code comments, commits, pull requests, and issues) of DL framework development, and manually identifying assumptions has high costs (e.g., time and resources). To overcome the issues of manually identifying assumptions in DL framework development, we constructed a new and largest dataset (i.e., AssuEval) of assumptions collected from the TensorFlow and Keras repositories on GitHub; explored the performance of seven traditional machine learning models (e.g., Support Vector Machine, Classification and Regression Trees), a popular DL model (i.e., ALBERT), and a large language model (i.e., ChatGPT) of identifying assumptions on the AssuEval dataset. The experiment results show that: ALBERT achieves the best performance (f1-score: 0.9584) of identifying assumptions on the AssuEval dataset, which is much better than the other models (the 2nd best f1-score is 0.6211, achieved by ChatGPT). Though ChatGPT is the most popular large language model, we do not recommend using it to identify assumptions in DL framework development because of its low performance on the task. Fine-tuning ChatGPT specifically for assumption identification could improve the performance. This study provides researchers with the largest dataset of assumptions for further research (e.g., assumption classification, evaluation, and reasoning) and helps practitioners better understand assumptions and how to manage them in their projects.
翻訳日:2024-01-11 11:46:28 公開日:2024-01-10
# Grimoireは大規模言語モデルの強化に必要なもの

Grimoire is All You Need for Enhancing Large Language Models ( http://arxiv.org/abs/2401.03385v2 )

ライセンス: Link先を確認
Ding Chen, Shichao Song, Qingchen Yu, Zhiyu Li, Wenjin Wang, Feiyu Xiong, Bo Tang(参考訳) in-context learning(icl)は、特定のタスクにおける大規模言語モデルのパフォーマンスを向上させるための重要な方法の1つである。 しかし、異なるタイプのモデルのicl能力は、モデルアーキテクチャ、学習データ量、パラメータのサイズといった要因により、大きな変動を示す。 一般に、モデルのパラメータサイズが大きくなり、学習データが大きくなればなるほど、そのicl能力は強くなる。 本稿では,強力な言語モデルを用いてサンプルから学習し,それらの学習スキルを推論と応用のために弱い言語モデルに要約し,伝達するSLEICLを提案する。 これにより、ICLの安定性と有効性が保証される。 SLEICLは、弱い言語モデルを直接学習するのに対して、これらのモデルではICLの難しさを減らしている。 5つの言語モデルを用いた最大8つのデータセットを用いて実験を行い、弱い言語モデルがSLEICL法によるゼロショットや少数ショット機能よりも一貫した改善を実現することを示した。 いくつかの弱い言語モデルは、SLEICLの助けを借りて、GPT4-1106-preview(ゼロショット)のパフォーマンスを上回りました。

In-context Learning (ICL) is one of the key methods for enhancing the performance of large language models on specific tasks by providing a set of few-shot examples. However, the ICL capability of different types of models shows significant variation due to factors such as model architecture, volume of learning data, and the size of parameters. Generally, the larger the model's parameter size and the more extensive the learning data, the stronger its ICL capability. In this paper, we propose a method SLEICL that involves learning from examples using strong language models and then summarizing and transferring these learned skills to weak language models for inference and application. This ensures the stability and effectiveness of ICL. Compared to directly enabling weak language models to learn from prompt examples, SLEICL reduces the difficulty of ICL for these models. Our experiments, conducted on up to eight datasets with five language models, demonstrate that weak language models achieve consistent improvement over their own zero-shot or few-shot capabilities using the SLEICL method. Some weak language models even surpass the performance of GPT4-1106-preview (zero-shot) with the aid of SLEICL.
翻訳日:2024-01-11 11:45:33 公開日:2024-01-10
# ニューロシンボリック人工知能の検証・検証・検証・評価に関する調査研究

A Survey on Verification and Validation, Testing and Evaluations of Neurosymbolic Artificial Intelligence ( http://arxiv.org/abs/2401.03188v2 )

ライセンス: Link先を確認
Justus Renkhoff, Ke Feng, Marc Meier-Doernberg, Alvaro Velasquez, Houbing Herbert Song(参考訳) ニューロシンボリック人工知能(Neurosymbolic AI, AI)は、AIとサブシンボリックAIの強みを組み合わせた、AIの新しい分野である。 サブシンボリックAIの大きな欠点は、サブシンボリックAIを使用するシステムのテストと評価(T&E)と検証と検証(V&V)プロセスを課題とする、予測が難しいことを意味する“ブラックボックス”として機能することにある。 ニューロシンボリックAIは、シンボリックAIとサブシンボリックAIの両方の利点を組み合わせるため、ニューロシンボリック応用がV&Vプロセスをいかに楽にするかを調査する。 この調査は、ニューロシンボリックAIの2つの分類を考察し、それらを評価し、どのアルゴリズムが現在の応用におけるシンボル的およびサブシンボリックなコンポーネントとして一般的に使われているかを分析する。 さらに、これらのコンポーネントのT&EおよびV&Vプロセスに関する現在の技術の概要について述べる。 さらに、現在のニューロシンボリック・アプリケーションにおいて、T&EおよびV&V目的の象徴的部分がどのように使用されるかを検討した。 我々の研究は、ニューロシンボリックAIが、象徴的AIの可能性を活用することで、サブシンボリックAIのT&EおよびV&Vプロセスを緩和する大きな可能性を示唆している。 さらに、現在のT&EおよびV&V手法のニューロシンボリックAIへの適用性を評価し、ニューロシンボリックアーキテクチャがこれらの手法にどのように影響するかを調査した。 現在のt&eとv&vの技術は、神経シンボリックアプリケーションのシンボリックおよびサブシンボリックな部分を独立してテスト、評価、検証、検証するのに部分的に十分であるが、いくつかの手法では、現在のt&eとv&vの手法がデフォルトでは適用されず、調整や新しいアプローチが必要である。 我々の研究は、シンボルAIを使用して、サブシンボリックモデルの予測をテスト、評価、検証、検証し、ニューロシンボリックAIを安全で安全で信頼できるAIのための興味深い研究方向にする大きな可能性を示唆している。

Neurosymbolic artificial intelligence (AI) is an emerging branch of AI that combines the strengths of symbolic AI and sub-symbolic AI. A major drawback of sub-symbolic AI is that it acts as a "black box", meaning that predictions are difficult to explain, making the testing & evaluation (T&E) and validation & verification (V&V) processes of a system that uses sub-symbolic AI a challenge. Since neurosymbolic AI combines the advantages of both symbolic and sub-symbolic AI, this survey explores how neurosymbolic applications can ease the V&V process. This survey considers two taxonomies of neurosymbolic AI, evaluates them, and analyzes which algorithms are commonly used as the symbolic and sub-symbolic components in current applications. Additionally, an overview of current techniques for the T&E and V&V processes of these components is provided. Furthermore, it is investigated how the symbolic part is used for T&E and V&V purposes in current neurosymbolic applications. Our research shows that neurosymbolic AI as great potential to ease the T&E and V&V processes of sub-symbolic AI by leveraging the possibilities of symbolic AI. Additionally, the applicability of current T&E and V&V methods to neurosymbolic AI is assessed, and how different neurosymbolic architectures can impact these methods is explored. It is found that current T&E and V&V techniques are partly sufficient to test, evaluate, verify, or validate the symbolic and sub-symbolic part of neurosymbolic applications independently, while some of them use approaches where current T&E and V&V methods are not applicable by default, and adjustments or even new approaches are needed. Our research shows that there is great potential in using symbolic AI to test, evaluate, verify, or validate the predictions of a sub-symbolic model, making neurosymbolic AI an interesting research direction for safe, secure, and trustworthy AI.
翻訳日:2024-01-11 11:45:14 公開日:2024-01-10
# aiメンターとしての人間 : 安全かつ効率的な自動運転のための強化強化学習

Human as AI Mentor: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving ( http://arxiv.org/abs/2401.03160v2 )

ライセンス: Link先を確認
Zilin Huang, Zihao Sheng, Chengyuan Ma, Sikai Chen(参考訳) 自動運転車(AV)の大幅な進歩にもかかわらず、AVの安全性と交通流効率を両立させる運転ポリシーの開発はまだ完全には検討されていない。 本稿では,複合交通小隊における安全かつ効率的な自律運転を支援するAIメンターベース深部強化学習(Human-in-the-loop reinforcement learning,HAIM-DRL)フレームワークを提案する。 人間の学習プロセスからインスピレーションを得て、まず、人間の知性をAIに効果的に注入する革新的な学習パラダイムを導入します。 このパラダイムでは、人間の専門家がAIエージェントのメンターとして機能する。 エージェントが不確実な環境を十分に探索できる一方で、人間の専門家は危険な状況で制御し、潜在的な事故を避けるための正しい行動を示すことができる。 一方, エージェントは交通流の乱れを最小限に抑え, 交通流効率の最適化を図ることができる。 HAIM-DRLは、自由探索と部分的な人間のデモンストレーションから収集したデータを2つのトレーニングソースとして活用している。 我々は報酬関数を手動で設計する複雑なプロセスを回避し、代わりにエージェントの政策学習を導くために、部分的な人間のデモンストレーションから状態-行動値を直接導出する。 さらに,人間のメンターの認知負荷を軽減するために,最小限の介入技術を用いる。 その結果, HAIM-DRLは, 運転安全, サンプリング効率, 交通流障害の緩和, 交通シナリオの一般化において, 従来の手法よりも優れていた。 この論文のコードとデモビデオは、https://zilin-huang.github.io/HAIM-DRL-website/でアクセスできます。

Despite significant progress in autonomous vehicles (AVs), the development of driving policies that ensure both the safety of AVs and traffic flow efficiency has not yet been fully explored. In this paper, we propose an enhanced human-in-the-loop reinforcement learning method, termed the Human as AI mentor-based deep reinforcement learning (HAIM-DRL) framework, which facilitates safe and efficient autonomous driving in mixed traffic platoon. Drawing inspiration from the human learning process, we first introduce an innovative learning paradigm that effectively injects human intelligence into AI, termed Human as AI mentor (HAIM). In this paradigm, the human expert serves as a mentor to the AI agent. While allowing the agent to sufficiently explore uncertain environments, the human expert can take control in dangerous situations and demonstrate correct actions to avoid potential accidents. On the other hand, the agent could be guided to minimize traffic flow disturbance, thereby optimizing traffic flow efficiency. In detail, HAIM-DRL leverages data collected from free exploration and partial human demonstrations as its two training sources. Remarkably, we circumvent the intricate process of manually designing reward functions; instead, we directly derive proxy state-action values from partial human demonstrations to guide the agents' policy learning. Additionally, we employ a minimal intervention technique to reduce the human mentor's cognitive load. Comparative results show that HAIM-DRL outperforms traditional methods in driving safety, sampling efficiency, mitigation of traffic flow disturbance, and generalizability to unseen traffic scenarios. The code and demo videos for this paper can be accessed at: https://zilin-huang.github.io/HAIM-DRL-website/
翻訳日:2024-01-11 11:44:32 公開日:2024-01-10