このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230827となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# MITRE ATT&CK:最先端の最先端
MITRE ATT&CK: State of the Art and Way Forward ( http://arxiv.org/abs/2308.14016v1 ) ライセンス: Link先を確認 | Bader Al-Sada, Alireza Sadighian, Gabriele Oligeri, | (参考訳) MITRE ATT&CKは、現実世界の観測に基づく敵の戦術、技術、手順の包括的なフレームワークである。
政府、アカデミア、産業など様々な分野における脅威モデリングの基礎として利用されている。
私たちの知る限りでは、MITRE ATT&CKフレームワークを活用した現在の最先端技術に関する包括的な収集、研究、調査に、これまでの研究は注がれていない。
我々は、50以上の主要な研究貢献を選定し、MITRE ATT&CKフレームワークに関して、その方法論と目的を詳細に分析する。
ユースケース,アプリケーションシナリオ,採用手法,追加データの使用など,さまざまな基準に従って,特定論文の分類を行う。
最後に、MITRE ATT&CKフレームワークだけでなく、リスク分析やサイバー脅威インテリジェンス全般に関わるオープンな問題と今後の研究方向性について論じる。
MITRE ATT&CK is a comprehensive framework of adversary tactics, techniques and procedures based on real-world observations. It has been used as a foundation for threat modelling in different sectors, such as government, academia and industry. To the best of our knowledge, no previous work has been devoted to the comprehensive collection, study and investigation of the current state of the art leveraging the MITRE ATT&CK framework. We select and inspect more than fifty major research contributions, while conducting a detailed analysis of their methodology and objectives in relation to the MITRE ATT&CK framework. We provide a categorization of the identified papers according to different criteria such as use cases, application scenarios, adopted methodologies and the use of additional data. Finally, we discuss open issues and future research directions involving not only the MITRE ATT&CK framework but also the fields of risk analysis and cyber-threat intelligence at large. | 翻訳日:2024-03-19 07:32:15 公開日:2023-08-27 |
# P3LI5: 5G Coreの実用的かつ信頼性の高い合法的解釈
P3LI5: Practical and Confidential Lawful Interception on the 5G Core ( http://arxiv.org/abs/2308.14164v1 ) ライセンス: Link先を確認 | Francesco Intoci, Julian Sturm, Daniel Fraunholz, Apostolos Pyrgelis, Colin Barschel, | (参考訳) LI(Lawful Interception)は、刑事訴訟のためのネットワーク通信から洞察力のあるデータを得るために、法律執行機関(LEA)にインターセプション機能を提供する通信サービスプロバイダ(CSP)の法的義務である。
第5世代モバイルネットワーク(5G)におけるネットワーク識別子のプライバシー強化により、LEAはネットワーク識別子の解決のためにCSPと対話する必要がある。
これは、信頼できないCSPが、現在進行中の調査に関する機密情報を推測できるため、新しいプライバシー問題を引き起こす。
本研究では,情報検索プロトコルであるSparseWPIRを利用して,LEAがプライベートにCSPを問合せするシステムであるP3LI5を提案する。
このため、P3LI5は、バウンド情報漏洩を選択的に許容し、パフォーマンスを向上させることで、異なる機密性やレイテンシ要件を持つさまざまな運用シナリオに適応することができる。
我々は、よく知られたオープンソースプロジェクトを使用して、5G LIインフラ上にP3LI5を実装し、低レイテンシを維持しながら、大規模データベースへのスケーラビリティを実証した。
私たちの知る限りでは、P3LI5は、5GコアネットワークにおけるLIの必須要件によって提起されたプライバシー問題に対処する最初の提案である。
Lawful Interception (LI) is a legal obligation of Communication Service Providers (CSPs) to provide interception capabilities to Law Enforcement Agencies (LEAs) in order to gain insightful data from network communications for criminal proceedings, e.g., network identifiers for tracking suspects. With the privacy-enhancements of network identifiers in the 5th generation of mobile networks (5G), LEAs need to interact with CSPs for network identifier resolution. This raises new privacy issues, as untrusted CSPs are able to infer sensitive information about ongoing investigations, e.g., the identities of their subscribers under suspicion. In this work, we propose P3LI5, a novel system that enables LEAs to privately query CSPs for network identifier resolution leveraging on an information retrieval protocol, SparseWPIR, that is based on private information retrieval and its weakly private version. As such, P3LI5 can be adapted to various operational scenarios with different confidentiality or latency requirements, by selectively allowing a bounded information leakage for improved performance. We implement P3LI5 on the 5G LI infrastructure using well known open-source projects and demonstrate its scalability to large databases while retaining low latency. To the best of our knowledge, P3LI5 is the first proposal for addressing the privacy issues raised by the mandatory requirement for LI on the 5G core network. | 翻訳日:2024-03-19 07:22:30 公開日:2023-08-27 |
# ディープラーニングを用いたエンドツーエンド自動運転:システムレビュー End-to-end Autonomous Driving using Deep Learning: A Systematic Review ( http://arxiv.org/abs/2311.18636v1 ) ライセンス: Link先を確認 | Apoorv Singh | (参考訳) エンドツーエンドの自律運転(End-to-end autonomous driving)は、センサー入力データやその他のメタデータを事前情報として取り込み、エゴ車の制御信号や計画された軌跡を直接出力する、完全に微分可能な機械学習システムである。
本稿では, 物体検出, 意味的シーン理解, 物体追跡, 軌道予測, 軌道計画, 車両制御, 社会行動, コミュニケーションなどを含む, エンドツーエンドタスクを行うための最近の機械学習技術をすべて体系的に検討する。
本稿では,近年の完全差別化可能なエンドツーエンド強化学習と深層学習技術に焦点を当てた。
また,これらをサブグループ化し,その研究動向を示すことにより,重要なアプローチの分類も構築した。
最後に、この調査はオープンな課題を強調し、このトピックに関するさらなる研究を啓蒙する今後の方向性を指摘する。 End-to-end autonomous driving is a fully differentiable machine learning system that takes raw sensor input data and other metadata as prior information and directly outputs the ego vehicle's control signals or planned trajectories. This paper attempts to systematically review all recent Machine Learning-based techniques to perform this end-to-end task, including, but not limited to, object detection, semantic scene understanding, object tracking, trajectory predictions, trajectory planning, vehicle control, social behavior, and communications. This paper focuses on recent fully differentiable end-to-end reinforcement learning and deep learning-based techniques. Our paper also builds taxonomies of the significant approaches by sub-grouping them and showcasing their research trends. Finally, this survey highlights the open challenges and points out possible future directions to enlighten further research on the topic. | 翻訳日:2024-01-15 15:08:32 公開日:2023-08-27 |
# Cupid: より正確なバグレポート検出のためのChatGPTの利用 Cupid: Leveraging ChatGPT for More Accurate Duplicate Bug Report Detection ( http://arxiv.org/abs/2308.10022v2 ) ライセンス: Link先を確認 | Ting Zhang, Ivana Clairine Irsan, Ferdian Thung, David Lo | (参考訳) 重複バグレポート検出(DBRD)は、学術と産業の両方において長年の課題である。
過去数十年にわたって、重複バグレポートをより正確に検出するための様々なアプローチが提案されてきた。
近年のディープラーニングの進歩により、ディープラーニングモデルを利用して重複バグレポートを検出するアプローチも提案されている。
最近のDBRDのベンチマーク調査では、ディープラーニングベースのアプローチのパフォーマンスが従来のアプローチよりも必ずしも優れているとは限らないことが示されている。
しかし、従来のアプローチには制限があり、例えば、バグレポートのセマンティクスをキャプチャできない、通常、単語の袋モデルに基づいている。
このような課題に対処するために、我々は最先端の大規模言語モデルを活用して従来のDBRDアプローチの性能を向上させることを模索する。
本稿では,従来のDBRD手法のREPと最先端の大規模言語モデルChatGPTを組み合わせたCuupidという手法を提案する。
具体的には、まずChatGPTをゼロショット設定で利用し、バグレポートに不可欠な情報を取得する。
次に、本質的な情報をREPの入力として使用し、重複バグレポートを検出する。
cupidと既存の3つのアプローチを3つのデータセットで比較した。
実験の結果、cupidは新しい最先端の結果を達成し、分析されたデータセットで 0.59 から 0.67 までのリコールレート@10 スコアに達した。
私たちの研究は、ソフトウェアエンジニアリングタスクのパフォーマンスを改善するために、大きな言語モデルを組み合わせる可能性を強調します。 Duplicate bug report detection (DBRD) is a long-standing challenge in both academia and industry. Over the past decades, researchers have proposed various approaches to detect duplicate bug reports more accurately. With the recent advancement of deep learning, researchers have also proposed several approaches that leverage deep learning models to detect duplicate bug reports. A recent benchmarking study on DBRD also reveals that the performance of deep learning-based approaches is not always better than the traditional approaches. However, traditional approaches have limitations, e.g., they are usually based on the bag-of-words model, which cannot capture the semantics of bug reports. To address these aforementioned challenges, we seek to leverage state-of-the-art large language model to improve the performance of the traditional DBRD approach. In this paper, we propose an approach called Cupid, which combines the best-performing traditional DBRD approach REP with the state-of-the-art large language model ChatGPT. Specifically, we first leverage ChatGPT under the zero-shot setting to get essential information on bug reports. We then use the essential information as the input of REP to detect duplicate bug reports. We conducted an evaluation on comparing Cupid with three existing approaches on three datasets. The experimental results show that Cupid achieves new state-of-the-art results, reaching Recall Rate@10 scores ranging from 0.59 to 0.67 across all the datasets analyzed. Our work highlights the potential of combining large language models to improve the performance of software engineering tasks. | 翻訳日:2023-10-23 13:30:10 公開日:2023-08-27 |
# GitHubの課題はアプリレビューの分類に役立つか? Can GitHub Issues Help in the App Review Classifications? ( http://arxiv.org/abs/2308.14211v1 ) ライセンス: Link先を確認 | Yasaman Abedini and Abbas Heydarnoori | (参考訳) アプリのレビューは、メンテナンスタスクの計画に役立つさまざまなユーザ要件を反映している。
近年,ユーザレビューの自動分類手法は機械学習アルゴリズムに依存している。
Devine氏らは、既存のラベル付きデータセットでトレーニングされたモデルは、新しいデータセットを予測する際のパフォーマンスが低いことを実証した。
データセットの統合は結果をある程度改善するが、考慮すべきさらなる一般化性は依然として必要である。
したがって、より正確なモデルのトレーニングには包括的なラベル付きデータセットが不可欠である。
本稿では,ユーザ要求に関する貴重な情報を含むgithub issue tracking systemなどの追加ソースからの情報を活用して,より一般化したモデルをトレーニングする手法を提案する。
GitHubイシューから抽出した情報を利用してラベル付きデータセットの強化を支援するアプローチを提案する。
まず、イシューラベルを調べることにより、レビュー意図(バグレポート、機能要求など)に関する問題を特定する。
そして,課題を解析し,対象情報を抽出する19の言語パターンを定義する。
最後に、手動でラベル付けされたレビューデータセットを、内部アプリケーション、内部コンテキスト、相互分析メソッドを通じて、処理された問題のサブセットで拡張します。
最初の2つの方法はアプリ固有のモデルをトレーニングし、最後の2つは汎用モデルに適合する。
提案手法を評価するため,いくつかの実験を行った。
以上の結果から,データ拡張にラベル付き問題を用いることで,F1スコアとリコールがそれぞれ13.9,29.9に向上し,機能要求に7.5,13.5となった。
さらに,0.3~0.7の有効ボリューム範囲を同定し,性能改善を実現した。 App reviews reflect various user requirements that can aid in planning maintenance tasks. Recently, proposed approaches for automatically classifying user reviews rely on machine learning algorithms. Devine et al. demonstrated that models trained on existing labeled datasets exhibit poor performance when predicting new ones. Although integrating datasets improves the results to some extent, there is still a need for greater generalizability to be taken into consideration. Therefore, a comprehensive labeled dataset is essential to train a more precise model. This paper introduces an approach to train a more generalizable model by leveraging information from an additional source, such as the GitHub issue tracking system, that contains valuable information about user requirements. We propose an approach that assists in augmenting labeled datasets by utilizing information extracted from GitHub issues. First, we identify issues concerning review intentions (bug reports, feature requests, and others) by examining the issue labels. Then, we analyze issue bodies and define 19 language patterns for extracting targeted information. Finally, we augment the manually labeled review dataset with a subset of processed issues through the Within-App, Within-Context, and Between-App Analysis methods. The first two methods train the app-specific models, and the last suits the general-purpose models. We conducted several experiments to evaluate the proposed approach. Our results demonstrate that using labeled issues for data augmentation can improve the F1-score and recall to 13.9 and 29.9 in the bug reports, respectively, and to 7.5 and 13.5 for feature requests. Furthermore, we identify an effective volume range of 0.3 to 0.7, which provides better performance improvements. | 翻訳日:2023-10-23 12:27:46 公開日:2023-08-27 |
# 薬物結合予測のためのスパース学習による説明可能なグラフニューラルネットワークの構築 Building explainable graph neural network by sparse learning for the drug-protein binding prediction ( http://arxiv.org/abs/2309.12906v1 ) ライセンス: Link先を確認 | Yang Wang, Zanyu Shi, Timothy Richardson, Kun Huang, Pathum Weerawarna, Yijie Wang | (参考訳) GNN(Explainable Graph Neural Networks)は、標的タンパク質と活発に相互作用する薬物の主要な化学構造を特定するために、薬物結合予測に開発され、応用されている。
しかし、現在の説明可能なgnnモデルで識別されるキー構造は通常化学的に無効である。
さらに、残りの部分からキー構造をピンポイントするために、しきい値を手動で選択する必要がある。
現在のGNNモデルの限界を克服するため,Sparse Learning to Graph Neural Networksの略であるSLGNNを提案する。
slgnnは、化学サブストラクチャーベースのグラフ(ノードが化学サブストラクチャーである)を使用して薬物分子を表現しています。
さらに、SLGNNは、一般化された融合ラッソとメッセージパスアルゴリズムを組み込んで、薬物結合予測に不可欠な連結サブグラフを同定する。
ケミカルサブストラクチャーに基づくグラフを用いることにより,SLGNNが同定した薬物中のどんなサブグラフも化学的に有効な構造であることが保証される。
これらの構造は、薬物が標的タンパク質に結合する鍵となる化学構造として解釈することができる。
我々はまず,SLGNNが同定したすべてのキー構造が化学的に有効であることを示すことによって,SLGNNの説明力を示す。
さらに,slgnnで同定されたキー構造は,競合する手法で識別されるキー構造よりも高い予測力を有することを示す。
最終的に、SLGNNが同定したキー構造がほとんどの結合部位を含んでいることを示すために、既知の薬物結合データを用いている。 Explainable Graph Neural Networks (GNNs) have been developed and applied to drug-protein binding prediction to identify the key chemical structures in a drug that have active interactions with the target proteins. However, the key structures identified by the current explainable GNN models are typically chemically invalid. Furthermore, a threshold needs to be manually selected to pinpoint the key structures from the rest. To overcome the limitations of the current explainable GNN models, we propose our SLGNN, which stands for using Sparse Learning to Graph Neural Networks. Our SLGNN relies on using a chemical-substructure-based graph (where nodes are chemical substructures) to represent a drug molecule. Furthermore, SLGNN incorporates generalized fussed lasso with message-passing algorithms to identify connected subgraphs that are critical for the drug-protein binding prediction. Due to the use of the chemical-substructure-based graph, it is guaranteed that any subgraphs in a drug identified by our SLGNN are chemically valid structures. These structures can be further interpreted as the key chemical structures for the drug to bind to the target protein. We demonstrate the explanatory power of our SLGNN by first showing all the key structures identified by our SLGNN are chemically valid. In addition, we illustrate that the key structures identified by our SLGNN have more predictive power than the key structures identified by the competing methods. At last, we use known drug-protein binding data to show the key structures identified by our SLGNN contain most of the binding sites. | 翻訳日:2023-10-01 12:33:46 公開日:2023-08-27 |
# 高次元時系列回帰モデル:統計的学習法への応用 High Dimensional Time Series Regression Models: Applications to Statistical Learning Methods ( http://arxiv.org/abs/2308.16192v1 ) ライセンス: Link先を確認 | Christis Katsouris | (参考訳) これらの講義ノートは、高次元時系列回帰モデルを用いた推定と推論のための既存の方法論と最近の開発の概要を提供する。
まず、共分散行列構造および依存時系列列に関連する高次元依存データに対する主極限理論結果を示す。
第二に、多くの共変量を持つ時系列回帰モデルに関連する漸近理論の主な側面を示す。
第3に,時系列解析のための統計的学習手法の様々な応用について論じる。 These lecture notes provide an overview of existing methodologies and recent developments for estimation and inference with high dimensional time series regression models. First, we present main limit theory results for high dimensional dependent data which is relevant to covariance matrix structures as well as to dependent time series sequences. Second, we present main aspects of the asymptotic theory related to time series regression models with many covariates. Third, we discuss various applications of statistical learning methodologies for time series analysis purposes. | 翻訳日:2023-09-01 19:12:09 公開日:2023-08-27 |
# 量子状態のマヨラナ表現についての一考察 A note on Majorana representation of quantum states ( http://arxiv.org/abs/2308.14765v1 ) ライセンス: Link先を確認 | Chi-Kwong Li, Mikio Nakahara | (参考訳) 量子状態のマヨラナ表現をテンソルの対称性クラスを用いて研究する。
我々は、ブロッホ球面上の $d-1$ 点とその対応する $d-1$ qubits を構成する簡単な方法を示し、実質的に $d$-dimensional 量子状態を表す。
さらに、2つの$d$次元量子状態の内部積が、それらの$(d-1)$-qubit状態表現に関連する行列の永久的に表現できることを示す。
さらに、この結果が特定の分解可能な数値範囲の凸性に与える影響について論じる。 We study the Majorana representation of quantum states using symmetry class of tensors. We present a simple method to construct $d-1$ points on the Bloch sphere and their corresponding $d-1$ qubits, effectively representing a $d$-dimensional quantum state. Additionally, we demonstrate how the inner product of two $d$-dimensional quantum states can be expressed as a permanent of a matrix related to their $(d-1)$-qubit state representations. Furthermore, we discuss the implications of this result on the convexity of a specific decomposable numerical range. | 翻訳日:2023-08-30 17:17:41 公開日:2023-08-27 |
# VoiceBank-2023:パーソナライズTTSシステム構築のためのマルチ話者マンダリン音声コーパス VoiceBank-2023: A Multi-Speaker Mandarin Speech Corpus for Constructing Personalized TTS Systems for the Speech Impaired ( http://arxiv.org/abs/2308.14763v1 ) ライセンス: Link先を確認 | Jia-Jyu Su, Pang-Chen Liao, Yen-Ting Lin, Wu-Hao Li, Guan-Ting Liou, Cheng-Che Kao, Wei-Cheng Chen, Jen-Chieh Chiang, Wen-Yang Chang, Pin-Han Lin, Chen-Yu Chiang | (参考訳) マンダリン話者の発話障害に対する個別のTTSシステムの利用はめったに言及されていない。
台湾は2020年にVoiceBankingプロジェクトを開始し、筋萎縮性側索硬化症患者にパーソナライズされたMandarin TTSシステムを提供するための完全なサービスの構築を目指している。
本稿では,音声バンクプロジェクトにおいて,コーパスの設計,コーパス記録,コーパスのデータのパーシングと補正,および開発したパーソナライズttsシステムの評価について報告する。
開発されたコーパスは、VoiceBank-2023音声コーパスから名づけられた。
コーパスには29.78時間の発声があり、短い段落のプロンプトと111人のマンダリン話者が話す一般的なフレーズがある。
コーパスには、性別、言語障害の程度、ユーザの種類、転写、SNR、発話率などの情報が含まれている。
voicebank-2023は非商用利用の要求によって利用可能であり、すべての当事者がvoicebankingプロジェクトに参加し、音声障害のサービスを改善することを歓迎している。 Services of personalized TTS systems for the Mandarin-speaking speech impaired are rarely mentioned. Taiwan started the VoiceBanking project in 2020, aiming to build a complete set of services to deliver personalized Mandarin TTS systems to amyotrophic lateral sclerosis patients. This paper reports the corpus design, corpus recording, data purging and correction for the corpus, and evaluations of the developed personalized TTS systems, for the VoiceBanking project. The developed corpus is named after the VoiceBank-2023 speech corpus because of its release year. The corpus contains 29.78 hours of utterances with prompts of short paragraphs and common phrases spoken by 111 native Mandarin speakers. The corpus is labeled with information about gender, degree of speech impairment, types of users, transcription, SNRs, and speaking rates. The VoiceBank-2023 is available by request for non-commercial use and welcomes all parties to join the VoiceBanking project to improve the services for the speech impaired. | 翻訳日:2023-08-30 17:17:33 公開日:2023-08-27 |
# 生成逆ネットを用いた時系列条件付きグラフ生成の学習 Learning to Generate Time Series Conditioned Graphs with Generative Adversarial Nets ( http://arxiv.org/abs/2003.01436v2 ) ライセンス: Link先を確認 | Shanchao Yang, Jing Liu, Kai Wu and Mingming Li | (参考訳) ディープラーニングベースのアプローチは、近年、異なる分布のグラフのモデル化と生成に利用されている。
しかし、それらは典型的には教師なしの学習ベースと無条件の生成モデルであり、グラフレベルのコンテキストにのみ条件付けされている。
入力された多変量時系列を与えられた場合、各時系列に対応する各ノードとの時系列間の相互関係をモデル化する対象関係グラフを推定することを目的としている。
例えば、時系列として記録された遺伝子発現データに基づいて、特定の疾患の遺伝子制御ネットワークにおける遺伝子間の相互関係を研究することができる。
そこで本稿では,グラフと時系列の類似性を直接測定し,リッチなノードレベルのコンテキスト構造を条件付けすることの課題に対処する,時系列条件付きグラフ生成・生成適応ネットワーク(TSGG-GAN)を提案する。
合成および実単語遺伝子制御ネットワークデータセットの広範な実験は、提案したTSGG-GANの有効性と一般化性を実証している。 Deep learning based approaches have been utilized to model and generate graphs subjected to different distributions recently. However, they are typically unsupervised learning based and unconditioned generative models or simply conditioned on the graph-level contexts, which are not associated with rich semantic node-level contexts. Differently, in this paper, we are interested in a novel problem named Time Series Conditioned Graph Generation: given an input multivariate time series, we aim to infer a target relation graph modeling the underlying interrelationships between time series with each node corresponding to each time series. For example, we can study the interrelationships between genes in a gene regulatory network of a certain disease conditioned on their gene expression data recorded as time series. To achieve this, we propose a novel Time Series conditioned Graph Generation-Generative Adversarial Networks (TSGG-GAN) to handle challenges of rich node-level context structures conditioning and measuring similarities directly between graphs and time series. Extensive experiments on synthetic and real-word gene regulatory networks datasets demonstrate the effectiveness and generalizability of the proposed TSGG-GAN. | 翻訳日:2023-08-30 02:31:23 公開日:2023-08-27 |
# 最も適切な集中度尺度をどうやって選ぶか?
決定木アプローチ How to choose the most appropriate centrality measure? A decision tree approach ( http://arxiv.org/abs/2003.01052v6 ) ライセンス: Link先を確認 | Pavel Chebotarev and Dmitry Gubanov | (参考訳) 集中度メトリクスはネットワーク分析において重要な役割を果たすが、特定の尺度の選択は、各尺度がノードの重要性というユニークな概念を表しているため、結論の正確さに大きく影響する。
提案されている400以上のインデックスのうち、特定のアプリケーションに適したものを選択することは依然として課題である。
既存のアプローチ – モデルベース、データ駆動、アクシオマティクス – には制限があり、モデル、トレーニングデータセット、あるいは特定のアプリケーション毎に制限された公理と関連する必要がある。
そこで本研究では,単純なグラフ上での集中行動の専門的概念に依拠するカルリング法を提案する。
カルリング法は、一連の候補尺度を作成し、各指標を区別するために可能な限り小さなグラフのリストを生成し、意思決定木調査を構築し、専門家の概念と一致する尺度を特定することを含む。
我々は、このアプローチを、新しいカーネルベースのインデックスを含む、40の多様な中心性セットに適用し、それを公理的アプローチと組み合わせる。
注目すべきは、40の測度を全て分離するのには13個の小さな1-木しか不十分である。
自己整合性やブリッジ公理のような単純な順序公理を採用することで、一連の測度を劇的に減らし、カリングサーベイを短くすることができる。
カルリング法を適用すると、ページランク、ブリッジング、異種性に基づく固有集中度指標など、いくつかの中央集中度指標についての洞察深い知見が得られる。
提案手法は、労働時間の観点からコスト効率の高いソリューションを提供し、選択を測る既存の手法を補完し、中央集権度対策のメカニズムに関する深い洞察を提供する。 Centrality metrics play a crucial role in network analysis, while the choice of specific measures significantly influences the accuracy of conclusions as each measure represents a unique concept of node importance. Among over 400 proposed indices, selecting the most suitable ones for specific applications remains a challenge. Existing approaches -- model-based, data-driven, and axiomatic -- have limitations, requiring association with models, training datasets, or restrictive axioms for each specific application. To address this, we introduce the culling method, which relies on the expert concept of centrality behavior on simple graphs. The culling method involves forming a set of candidate measures, generating a list of as small graphs as possible needed to distinguish the measures from each other, constructing a decision-tree survey, and identifying the measure consistent with the expert's concept. We apply this approach to a diverse set of 40 centralities, including novel kernel-based indices, and combine it with the axiomatic approach. Remarkably, only 13 small 1-trees are sufficient to separate all 40 measures, even for pairs of closely related ones. By adopting simple ordinal axioms like Self-consistency or Bridge axiom, the set of measures can be drastically reduced making the culling survey short. Applying the culling method provides insightful findings on some centrality indices, such as PageRank, Bridging, and dissimilarity-based Eigencentrality measures, among others. The proposed approach offers a cost-effective solution in terms of labor and time, complementing existing methods for measure selection, and providing deeper insights into the underlying mechanisms of centrality measures. | 翻訳日:2023-08-30 02:31:05 公開日:2023-08-27 |
# 複数画像制約による学習による単一画像反射除去 Single image reflection removal via learning with multi-image constraints ( http://arxiv.org/abs/1912.03623v3 ) ライセンス: Link先を確認 | Yingda Yin, Qingnan Fan, Dongdong Chen, Yujie Wang, Angelica Aviles-Rivero, Ruoteng Li, Carola-Bibiane Schnlieb, Baoquan Chen | (参考訳) 反射は毎日の写真でよく見られる現象で、ガラスの後ろのシーンから人々の注意をそらします。
反射アーティファクトを除去するという問題は重要だが、その不適切な性質から難しい。
従来の手法は、大きな計算コストを犠牲にして、複数の画像から引き起こされる制約に対する最適化問題を解く。
近年の学習に基づくアプローチでは、単一画像反射除去における性能と実行時間の両方が大幅に改善されているが、合成画像領域の過剰フィットや実画像領域の劣化の危険性から、直接的監督のために大量の合成反射/クリーン画像ペアを必要とするため、制限されている。
本稿では,上記のアプローチの利点を活かし,その欠点を克服した新しい学習ベースソリューションを提案する。
本アルゴリズムは,学習中に複数の入力画像間で強化された制約によって目標を最適化するためにディープニューラルネットワークを学習するが,単一の入力からのみリフレクションを除去し,評価を行う。
本アルゴリズムはリアルタイムに動作し,実画像における最先端のリフレクション除去性能を実現する。
さらに、背景と反射情報を別々の潜伏符号に切り離す強力なネットワークバックボーンを提案し、背景と反射予測の両方のために共有された1ブランチのディープニューラルネットワークに埋め込まれる。
提案されたバックボーンは、他の一般的なネットワーク実装よりも実験的にパフォーマンスが良く、リフレクション除去タスクを理解するための洞察深い知識を提供する。 Reflections are very common phenomena in our daily photography, which distract people's attention from the scene behind the glass. The problem of removing reflection artifacts is important but challenging due to its ill-posed nature. The traditional approaches solve an optimization problem over the constraints induced from multiple images, at the expense of large computation costs. Recent learning-based approaches have demonstrated a significant improvement in both performance and running time for single image reflection removal, but are limited as they require a large number of synthetic reflection/clean image pairs for direct supervision to approximate the ground truth, at the risk of overfitting in the synthetic image domain and degrading in the real image domain. In this paper, we propose a novel learning-based solution that combines the advantages of the aforementioned approaches and overcomes their drawbacks. Our algorithm works by learning a deep neural network to optimize the target with joint constraints enhanced among multiple input images during the training phase, but is able to eliminate reflections only from a single input for evaluation. Our algorithm runs in real-time and achieves state-of-the-art reflection removal performance on real images. We further propose a strong network backbone that disentangles the background and reflection information into separate latent codes, which are embedded into a shared one-branch deep neural network for both background and reflection predictions. The proposed backbone experimentally performs better than the other common network implementations, and provides insightful knowledge to understand the reflection removal task. | 翻訳日:2023-08-30 02:30:35 公開日:2023-08-27 |
# 絡み合い解析のための量子アルゴリズム Near-term Efficient Quantum Algorithms for Entanglement Analysis ( http://arxiv.org/abs/2109.10785v3 ) ライセンス: Link先を確認 | Ranyiliu Chen and Benchi Zhao and Xin Wang | (参考訳) 絡み合いは量子物理学において重要な役割を果たし、量子情報処理の鍵となる資源である。
しかし,既存の手法が実用的でないため,絡み合い検出や定量化は困難であると考えられる。
本研究は、この困難に対処するために、ハイブリッド量子古典的手法を利用した3つの短期的効率的なアルゴリズムを提案する。
第一のアルゴリズムは、二成分純粋状態に対する絡み合いの性質と構造を分析する強力なツールであるシュミット分解を見つける。
シュミット分解から対数ネガティビティを計算することができるが、パラメータ化量子回路の幅をさらに小さくする二分極純状態に対する対数ネガティティティを推定する2番目のアルゴリズムを提案する。
最後に, 混合状態に対する枠組みを一般化し, 特定の状態族に対する絡み合いを検知し, 一般に分散可能性を決定する第3のアルゴリズムを導出する。
これら3つのアルゴリズムは、局所パラメータ化量子回路を用いてコスト関数を最大化し、既存の手法と比較してハードウェア効率と実用性を向上することで最適化を行う。
iop cas超伝導量子プロセッサを用いた量子リーフの実験的実装は、近距離量子デバイスにおける絡み合いの分析と定量化のための手法の有効性と実用性を示している。 Entanglement plays a crucial role in quantum physics and is the key resource in quantum information processing. However, entanglement detection and quantification are believed to be hard due to the operational impracticality of existing methods. This work proposes three near-term efficient algorithms exploiting the hybrid quantum-classical technique to address this difficulty. The first algorithm finds the Schmidt decomposition--a powerful tool to analyze the properties and structure of entanglement--for bipartite pure states. While the logarithm negativity can be calculated from the Schmidt decomposition, we propose the second algorithm to estimate the logarithm negativity for bipartite pure states, where the width of the parameterized quantum circuits is further reduced. Finally, we generalize our framework for mixed states, leading to our third algorithm which detects entanglement on specific families of states, and determines disdillability in general. All three algorithms share a similar framework where the optimizations are accomplished by maximizing a cost function utilizing local parameterized quantum circuits, with better hardware efficiency and practicality compared to existing methods. The experimental implementation on Quantum Leaf using the IoP CAS superconducting quantum processor exhibits the validity and practicality of our methods for analyzing and quantifying entanglement on near-term quantum devices. | 翻訳日:2023-08-30 02:25:23 公開日:2023-08-27 |
# 量子参照フレーム:パースペクティブニュートラル構造によるパースペクティブ依存記述の導出 Quantum reference frames: derivation of perspective-dependent descriptions via a perspective-neutral structure ( http://arxiv.org/abs/2109.01912v3 ) ライセンス: Link先を確認 | Viktor Zelezny | (参考訳) 標準量子力学では、参照フレームは抽象実体として扱われる。
それらは、システムの他の部分から切り離される理想化された無限大サブシステムと考えることができる。
しかし、本質的には、すべての参照フレームは量子力学の法則に従う有限質量系によって実現され、動的進化に含まれなければならない。
基本的な物理理論はこの事実を真剣に受け止めるべきである。
本稿では、量子参照フレームの観点から物理を記述するための対称性に着想を得たアプローチをさらに発展させる。
我々は、視点依存記述の幅広いクラスとそれらの間の変換を体系的に導出できる統一フレームワークを見出した。
3つの自由粒子の変換不変のおもちゃモデルを用いて、相対座標の導入が2つの非可換制約を持つハミルトン構造をもたらすことを発見した。
この構造は、すべてのオブザーバー・パースペクティブを一度に含むと言えるが、冗長性は直ちに操作の解釈を妨げる。
制約面上のdarboux座標により操作上有意義な遠近依存性記述が与えられ、基準フレーム変換が制約面の再パラメータ化に対応していることを示す。
我々は、古典理論に言及せずに、視点依存記述を導出し変更できる量子的視点中立構造を構築することによって結論づける。
物理的発見に加えて、この研究は第一級および第二級制約系とそれぞれの量子化過程の相互関係を照らす。 In standard quantum mechanics, reference frames are treated as abstract entities. We can think of them as idealized, infinite-mass subsystems which decouple from the rest of the system. In nature, however, all reference frames are realized through finite-mass systems that are subject to the laws of quantum mechanics and must be included in the dynamical evolution. A fundamental physical theory should take this fact seriously. In this paper, we further develop a symmetry-inspired approach to describe physics from the perspective of quantum reference frames. We find a unifying framework allowing us to systematically derive a broad class of perspective dependent descriptions and the transformations between them. Working with a translational-invariant toy model of three free particles, we discover that the introduction of relative coordinates leads to a Hamiltonian structure with two non-commuting constraints. This structure can be said to contain all observer-perspectives at once, while the redundancies prevent an immediate operational interpretation. We show that the operationally meaningful perspective dependent descriptions are given by Darboux coordinates on the constraint surface and that reference frame transformations correspond to reparametrizations of the constraint surface. We conclude by constructing a quantum perspective neutral structure, via which we can derive and change perspective dependent descriptions without referring to the classical theory. In addition to the physical findings, this work illuminates the interrelation of first and second class constrained systems and their respective quantization procedures. | 翻訳日:2023-08-30 02:24:40 公開日:2023-08-27 |
# 暗黙発生器による判別器の分布脆弱性の解明 Revealing the Distributional Vulnerability of Discriminators by Implicit Generators ( http://arxiv.org/abs/2108.09976v4 ) ライセンス: Link先を確認 | Zhilin Zhao and Longbing Cao and Kun-Yu Lin | (参考訳) ディープ・ニューラル・ラーニングでは、in-distribution (id) サンプルで訓練された判別器が、out-of-distribution (ood) サンプルで高い信頼度を予測できる。
これは、堅牢で信頼性が高く、安全なディープラーニングにおいて重要な問題を引き起こします。
この問題は、oodサンプルが使用できない場合、識別器の訓練で観察可能な限定idサンプルが原因である。
本稿では,暗黙発生器 (FIG) による \textit{fine-tuning discriminator に対する一般的なアプローチを提案する。
FIGは情報理論に基づいており、リトレーニングなしで標準的な差別者に適用できる。
特定のOODサンプルを生成してペナルティ化することにより、IDとOODサンプルを識別する標準的な識別器の能力を向上させる。
シャノンエントロピーによると、エネルギーベースの暗黙発生器は余分な訓練コストなしで判別器から推定される。
次に、Langevin動的サンプリングが暗黙のジェネレータ用の特定のOODサンプルを描画する。
最後に、暗黙発生器の設計原理に適合する正規化器を設計し、それらのOODサンプルに対して高いエントロピーを誘導する。
異なるネットワークとデータセットの実験により、FIGが最先端のOOD検出性能を達成することを示した。 In deep neural learning, a discriminator trained on in-distribution (ID) samples may make high-confidence predictions on out-of-distribution (OOD) samples. This triggers a significant matter for robust, trustworthy and safe deep learning. The issue is primarily caused by the limited ID samples observable in training the discriminator when OOD samples are unavailable. We propose a general approach for \textit{fine-tuning discriminators by implicit generators} (FIG). FIG is grounded on information theory and applicable to standard discriminators without retraining. It improves the ability of a standard discriminator in distinguishing ID and OOD samples by generating and penalizing its specific OOD samples. According to the Shannon entropy, an energy-based implicit generator is inferred from a discriminator without extra training costs. Then, a Langevin dynamic sampler draws specific OOD samples for the implicit generator. Lastly, we design a regularizer fitting the design principle of the implicit generator to induce high entropy on those generated OOD samples. The experiments on different networks and datasets demonstrate that FIG achieves the state-of-the-art OOD detection performance. | 翻訳日:2023-08-30 02:24:17 公開日:2023-08-27 |
# 生物学的に妥当なスキーマを用いた結合ナビゲーションのワンショット学習 One-shot learning of paired association navigation with biologically plausible schemas ( http://arxiv.org/abs/2106.03580v3 ) ライセンス: Link先を確認 | M Ganesh Kumar, Cheston Tan, Camilo Libedinsky, Shih-Cheng Yen, Andrew Yong-Yi Tan | (参考訳) スキーマは、迅速な学習を可能にする知識構造である。
複数対のアソシエーションナビゲーションタスクにおけるrodent one-shot learningは、スキーマ依存であると仮定されている。
しかし、Marrの計算レベルで概念化されたスキーマが、ニューラルネットワークの実装とどのように対応するかはいまだに理解されておらず、生物学的に妥当な学習モデルが実証されていない。
本稿では,このようなエージェントを,生物学的に妥当な神経インプリメンテーションを用いてスキーマから構成する。
感覚手がかりとゴール座標とのワンショット関連を形成でき、新規な4段階報酬変調探索ヘビアン(EH)規則によりプラスチック出力重量が支配される、フィードフォワード層またはリカレント連結ニューロンの貯留体で実装される連想記憶を含む。
アクター批判を追加することで、障害が直接の進路を妨げたとしても、エージェントは成功する。
ワーキングメモリの追加により、げっ歯類動作が複製される。
ワーキングメモリゲーティング機構の時間差学習は、気を散らすことなくワンショット学習を可能にする。 Schemas are knowledge structures that can enable rapid learning. Rodent one-shot learning in a multiple paired association navigation task has been postulated to be schema-dependent. But how schemas, conceptualized at Marr's computational level, correspond with neural implementations remains poorly understood, and a biologically plausible computational model of the rodent learning has not been demonstrated. Here, we compose such an agent from schemas with biologically plausible neural implementations. The agent contains an associative memory that can form one-shot associations between sensory cues and goal coordinates, implemented with a feedforward layer or a reservoir of recurrently connected neurons whose plastic output weights are governed by a novel 4-factor reward-modulated Exploratory Hebbian (EH) rule. Adding an actor-critic allows the agent to succeed even if an obstacle prevents direct heading. With the addition of working memory, the rodent behavior is replicated. Temporal-difference learning of a working memory gating mechanism enables one-shot learning despite distractors. | 翻訳日:2023-08-30 02:23:45 公開日:2023-08-27 |
# SparseDet:擬陽性マイニングによる疎アノテーションオブジェクト検出の改善 SparseDet: Improving Sparsely Annotated Object Detection with Pseudo-positive Mining ( http://arxiv.org/abs/2201.04620v2 ) ライセンス: Link先を確認 | Saksham Suri, Sai Saketh Rambhatla, Rama Chellappa, Abhinav Shrivastava | (参考訳) スパースアノテーションによるトレーニングは、オブジェクト検出器の性能を低下させることで知られている。
従来の手法では、未ラベルボックスの擬似ラベルという形で、真理アノテーションを欠くプロキシに焦点が当てられていた。
既存の手法はノイズの多い擬似ラベルによってデータのスパーシティが高まるのを観測する。
そこで本稿では,Pseudo- positive mining を用いたラベル付きおよびラベルなし領域の分離を学習するエンド・ツー・エンドシステムを提案する。
ラベル付き領域は通常通り処理されるが、自己教師付き学習を用いてラベルなし領域を処理し、ノイズの多い擬似ラベルの悪影響を防止する。
この新しいアプローチは、既存の手法と比較して、堅牢性を改善して、より親密性を高めるなど、多くの利点がある。
我々は,PASCAL-VOCとCOCOデータセットの5つの分割に対して,最先端の性能を達成するための徹底的な実験を行った。
我々はまた、このタスクのために文献にまたがる様々な分割を統一し、標準化されたベンチマークを示す。
平均して2.6ドル、3.9ドル、9.6ドルのmAPは、COCOにおけるスパシティの増加の3つの分割に関して、従来の最先端の手法よりも改善されている。
私たちのプロジェクトはhttps://www.cs.umd.edu/~sakshams/sparsedet.comで公開されている。 Training with sparse annotations is known to reduce the performance of object detectors. Previous methods have focused on proxies for missing ground truth annotations in the form of pseudo-labels for unlabeled boxes. We observe that existing methods suffer at higher levels of sparsity in the data due to noisy pseudo-labels. To prevent this, we propose an end-to-end system that learns to separate the proposals into labeled and unlabeled regions using Pseudo-positive mining. While the labeled regions are processed as usual, self-supervised learning is used to process the unlabeled regions thereby preventing the negative effects of noisy pseudo-labels. This novel approach has multiple advantages such as improved robustness to higher sparsity when compared to existing methods. We conduct exhaustive experiments on five splits on the PASCAL-VOC and COCO datasets achieving state-of-the-art performance. We also unify various splits used across literature for this task and present a standardized benchmark. On average, we improve by $2.6$, $3.9$ and $9.6$ mAP over previous state-of-the-art methods on three splits of increasing sparsity on COCO. Our project is publicly available at https://www.cs.umd.edu/~sakshams/SparseDet. | 翻訳日:2023-08-30 02:15:48 公開日:2023-08-27 |
# ポイントクラウド型自己監督表現学習のためのインプシットオートエンコーダ Implicit Autoencoder for Point-Cloud Self-Supervised Representation Learning ( http://arxiv.org/abs/2201.00785v5 ) ライセンス: Link先を確認 | Siming Yan, Zhenpei Yang, Haoxiang Li, Chen Song, Li Guan, Hao Kang, Gang Hua, Qixing Huang | (参考訳) 本稿では,自己教師付き3次元表現学習における暗黙的表面表現の利用を提唱する。
最も人気のある3D表現、すなわち点雲は、下層の連続した3D表面の離散的なサンプルを含む。
この離散化過程は、3次元形状のサンプリング変動を導入し、真の3次元幾何学の移動可能な知識を開発することが困難になる。
標準的なオートエンコーディングパラダイムでは、エンコーダは3D形状だけでなく、3D形状の特定の離散サンプリングに関する情報を潜在コードにエンコードする。
これは、デコーダによって再構成された点雲は、原点と再構成された点雲の間に完全なマッピングがない限り、受け入れられないと考えられるためである。
本稿では,一般的なポイントクラウドデコーダを暗黙的デコーダに置き換えることで,サンプリング変動問題に対処する単純かつ効果的な手法である暗黙的オートエンコーダ(iae)を提案する。
暗黙のデコーダは、離散標本の不完全さとは無関係に、3次元形状の連続的な表現を再構成する。
広範な実験により、iaeは様々な自己教師付き学習ベンチマークにおいて最先端のパフォーマンスを達成できることが示されている。 This paper advocates the use of implicit surface representation in autoencoder-based self-supervised 3D representation learning. The most popular and accessible 3D representation, i.e., point clouds, involves discrete samples of the underlying continuous 3D surface. This discretization process introduces sampling variations on the 3D shape, making it challenging to develop transferable knowledge of the true 3D geometry. In the standard autoencoding paradigm, the encoder is compelled to encode not only the 3D geometry but also information on the specific discrete sampling of the 3D shape into the latent code. This is because the point cloud reconstructed by the decoder is considered unacceptable unless there is a perfect mapping between the original and the reconstructed point clouds. This paper introduces the Implicit AutoEncoder (IAE), a simple yet effective method that addresses the sampling variation issue by replacing the commonly-used point-cloud decoder with an implicit decoder. The implicit decoder reconstructs a continuous representation of the 3D shape, independent of the imperfections in the discrete samples. Extensive experiments demonstrate that the proposed IAE achieves state-of-the-art performance across various self-supervised learning benchmarks. | 翻訳日:2023-08-30 02:15:09 公開日:2023-08-27 |
# Res2NetFuse:赤外線と可視画像の融合手法 Res2NetFuse: A Fusion Method for Infrared and Visible Images ( http://arxiv.org/abs/2112.14540v3 ) ライセンス: Link先を確認 | Xu Song and Xiao-Jun Wu and Hui Li and Jun Sun and Vasile Palade | (参考訳) 本稿では,赤外線および可視画像のためのres2netベースの融合フレームワークを提案する。
提案した融合モデルは,それぞれエンコーダ,フュージョン層,デコーダの3つの部分を有する。
Res2Netベースのエンコーダは、ソースイメージのマルチスケールの特徴を抽出するために使用され、単一のイメージのみを使用するRes2Netベースのエンコーダをトレーニングするための新しいトレーニング戦略を導入する。
そして、注目モデルに基づいて新たな融合戦略を開発する。
そして、デコーダによって融合画像が再構成される。
提案手法も詳細に分析されている。
実験により,本手法は既存手法との比較により,客観的,主観的評価において最先端の融合性能を実現することを示す。 This paper presents a novel Res2Net-based fusion framework for infrared and visible images. The proposed fusion model has three parts: an encoder, a fusion layer and a decoder, respectively. The Res2Net-based encoder is used to extract multi-scale features of source images, the paper introducing a new training strategy for training a Res2Net-based encoder that uses only a single image. Then, a new fusion strategy is developed based on the attention model. Finally, the fused image is reconstructed by the decoder. The proposed approach is also analyzed in detail. Experiments show that our method achieves state-of-the-art fusion performance in objective and subjective assessment by comparing with the existing methods. | 翻訳日:2023-08-30 02:14:49 公開日:2023-08-27 |
# CDistNet:ロバストテキスト認識のためのマルチドメイン文字距離の認識 CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition ( http://arxiv.org/abs/2111.11011v5 ) ライセンス: Link先を確認 | Tianlun Zheng, Zhineng Chen, Shancheng Fang, Hongtao Xie, Yu-Gang Jiang | (参考訳) Transformerベースのエンコーダ・デコーダフレームワークは、視覚とセマンティックの両方のドメインから認識ヒントを自然に統合するため、シーンテキスト認識において人気が高まっている。
しかし、近年の研究では、この2種類の手がかりが必ずしもよく登録されているとは限らないため、特徴と性格は難しいテキスト(例:珍しい形)でミスアライメントされる可能性がある。
その結果、この問題を軽減するために文字位置などの制約が導入される。
一定の成功にもかかわらず、視覚と意味はいまだに別々にモデル化されており、それらは単に疎結合である。
本稿では,マルチドメイン文字距離知覚(mdcdp)と呼ばれる,視覚的かつ意味的に関連した位置埋め込みを実現するモジュールを提案する。
MDCDPは位置埋め込みを使用して、クロスアテンションメカニズムに従って視覚的特徴と意味的特徴の両方を問う。
この2種類の手がかりを位置分岐に融合させ、文字間隔と向きのバリエーション、文字意味の親和性、および2種類の情報を結ぶ手がかりをよく認識するコンテンツ認識埋め込みを生成する。
それらはマルチドメインキャラクタ距離として要約される。
我々は、複数のmdcdpを積み重ねて、徐々に正確な距離モデリングを導くcdistnetを開発した。
これにより、様々な認識困難を伴っても特徴特性アライメントが良好に構築される。
我々は10の挑戦的な公開データセットと2つの拡張データセットについてcdistnetを検証する。
実験の結果,CDistNetは競争力が高いことがわかった。
標準ベンチマークでトップレベルにランクされるだけでなく、テキストの変形、言語サポートの貧弱さ、まれな文字レイアウトを示す実データや拡張データセットの明らかなマージンによって、最近の人気メソッドを上回っている。
コードはhttps://github.com/simplify23/CDistNetで入手できる。 The Transformer-based encoder-decoder framework is becoming popular in scene text recognition, largely because it naturally integrates recognition clues from both visual and semantic domains. However, recent studies show that the two kinds of clues are not always well registered and therefore, feature and character might be misaligned in difficult text (e.g., with a rare shape). As a result, constraints such as character position are introduced to alleviate this problem. Despite certain success, visual and semantic are still separately modeled and they are merely loosely associated. In this paper, we propose a novel module called Multi-Domain Character Distance Perception (MDCDP) to establish a visually and semantically related position embedding. MDCDP uses the position embedding to query both visual and semantic features following the cross-attention mechanism. The two kinds of clues are fused into the position branch, generating a content-aware embedding that well perceives character spacing and orientation variants, character semantic affinities, and clues tying the two kinds of information. They are summarized as the multi-domain character distance. We develop CDistNet that stacks multiple MDCDPs to guide a gradually precise distance modeling. Thus, the feature-character alignment is well built even various recognition difficulties are presented. We verify CDistNet on ten challenging public datasets and two series of augmented datasets created by ourselves. The experiments demonstrate that CDistNet performs highly competitively. It not only ranks top-tier in standard benchmarks, but also outperforms recent popular methods by obvious margins on real and augmented datasets presenting severe text deformation, poor linguistic support, and rare character layouts. Code is available at https://github.com/simplify23/CDistNet. | 翻訳日:2023-08-30 02:13:53 公開日:2023-08-27 |
# ES-GNN:エッジ分割によるホモフィリーを越えたグラフニューラルネットワークの一般化 ES-GNN: Generalizing Graph Neural Networks Beyond Homophily with Edge Splitting ( http://arxiv.org/abs/2205.13700v2 ) ライセンス: Link先を確認 | Jingwei Guo, Kaizhu Huang, Rui Zhang, and Xinping Yi | (参考訳) グラフニューラルネットワーク(GNN)は複数のグラフ解析タスクにおいて大きな成功を収めているが、現代の変種は主にホモフィリーの強い帰納バイアスに依存している。
しかし、現実世界のネットワークは通常、ホモ親和性およびヘテロ親和性リンクパターンの両方を示し、隣接ノードは異なる属性と異なるラベルを共有することができる。
したがって、ノード近接を均等に平滑化するGNNは、タスク関連情報と非有害な情報の両方を集約し、ヘテロ親和性グラフに一般化する能力を制限し、非破壊性を引き起こす可能性がある。
本研究では,学習タスクに関係のないグラフエッジを適応的に識別する新しいエッジ分割GNN(ES-GNN)フレームワークを提案する。
これは本質的に、元のグラフを同じノード集合を持つが排他的なエッジ集合を持つ2つの部分グラフに動的に転送する。
そのため、これらのサブグラフとエッジ分割を別々に行うことで、タスク関連・無関係の特徴を解消する。
理論的には、我々のES-GNNは、そのモチベーションをさらに具現化し、ホモフィリーを超えて改良された一般化を解釈する非交叉グラフの解とみなすことができる。
11のベンチマークと1つの合成データセットに対する大規模な実験により、ES-GNNは最先端技術を上回るだけでなく、敵グラフに対してより堅牢で、過度に滑らかな問題を緩和できることが示された。 While Graph Neural Networks (GNNs) have achieved enormous success in multiple graph analytical tasks, modern variants mostly rely on the strong inductive bias of homophily. However, real-world networks typically exhibit both homophilic and heterophilic linking patterns, wherein adjacent nodes may share dissimilar attributes and distinct labels. Therefore, GNNs smoothing node proximity holistically may aggregate both task-relevant and irrelevant (even harmful) information, limiting their ability to generalize to heterophilic graphs and potentially causing non-robustness. In this work, we propose a novel edge splitting GNN (ES-GNN) framework to adaptively distinguish between graph edges either relevant or irrelevant to learning tasks. This essentially transfers the original graph into two subgraphs with the same node set but exclusive edge sets dynamically. Given that, information propagation separately on these subgraphs and edge splitting are alternatively conducted, thus disentangling the task-relevant and irrelevant features. Theoretically, we show that our ES-GNN can be regarded as a solution to a disentangled graph denoising problem, which further illustrates our motivations and interprets the improved generalization beyond homophily. Extensive experiments over 11 benchmark and 1 synthetic datasets demonstrate that ES-GNN not only outperforms the state-of-the-arts, but also can be more robust to adversarial graphs and alleviate the over-smoothing problem. | 翻訳日:2023-08-30 02:05:26 公開日:2023-08-27 |
# ガイド付き逆境補間による数発偽造検出 Few-shot Forgery Detection via Guided Adversarial Interpolation ( http://arxiv.org/abs/2204.05905v2 ) ライセンス: Link先を確認 | Haonan Qiu, Siyu Chen, Bei Gan, Kun Wang, Huafeng Shi, Jing Shao, Ziwei Liu | (参考訳) 顔操作モデルの増加は、現実の視覚メディアの合成という社会における重要な問題につながった。
前例のない速度で新しい偽造手法が出現すると、既存の偽造検出手法は、目に見えない新しい偽造手法に適用した場合、大幅な性能低下に悩まされる。
そこで本研究では, 数発偽造検出問題に対処する。
1)様々な偽造手法のカバレッジ分析に基づく総合ベンチマークの設計、及び
2) GAI ( Guided Adversarial Interpolation) の提案。
我々の重要な洞察は、多数派と少数派フォージェリークラス1の間で伝達可能な分布特性が存在することである。
具体的には,教師ネットワークの指導のもと,少数サンプルの偽造品を多数サンプルに対逆的に補間することで,新しい偽造アプローチに対する差別能力を高める。
通常、少数派に過度に適合する標準的再バランス法とは異なり、本手法は多数派情報の多様性と少数派情報の重要さを同時に考慮する。
広範な実験により,提案手法が確立されたマイナショット偽造検出ベンチマークにおいて最先端のパフォーマンスを達成できることが実証された。
また,本手法は,多数派および少数派の偽造手法の選択に対して堅牢であることを示す。
公式版はパターン認識で利用可能である。 The increase in face manipulation models has led to a critical issue in society - the synthesis of realistic visual media. With the emergence of new forgery approaches at an unprecedented rate, existing forgery detection methods suffer from significant performance drops when applied to unseen novel forgery approaches. In this work, we address the few-shot forgery detection problem by 1) designing a comprehensive benchmark based on coverage analysis among various forgery approaches, and 2) proposing Guided Adversarial Interpolation (GAI). Our key insight is that there exist transferable distribution characteristics between majority and minority forgery classes1. Specifically, we enhance the discriminative ability against novel forgery approaches via adversarially interpolating the forgery artifacts of the minority samples to the majority samples under the guidance of a teacher network. Unlike the standard re-balancing method which usually results in over-fitting to minority classes, our method simultaneously takes account of the diversity of majority information as well as the significance of minority information. Extensive experiments demonstrate that our GAI achieves state-of-the-art performances on the established few-shot forgery detection benchmark. Notably, our method is also validated to be robust to choices of majority and minority forgery approaches. The formal publication version is available in Pattern Recognition. | 翻訳日:2023-08-30 02:03:51 公開日:2023-08-27 |
# 光による逆電子ビーム整形 Transverse Electron Beam Shaping with Light ( http://arxiv.org/abs/2203.07925v2 ) ライセンス: Link先を確認 | Marius Constantin Chirita Mihaila, Philipp Weber, Matthias Schneller, Lucas Grandits, Stefan Nimmrichter, Thomas Juffmann | (参考訳) 界面電子と光は超高速電子顕微鏡、電子の量子制御、高感度イメージングのための新しい光学素子を可能にする。
ここでは, 短パルスレーザーによる電顕的ポテンシャルに基づいて, 自由空間におけるプログラマブルな横電子ビーム形成を初めて示す。
焦点距離数ミリメートルの凸型および凹型電子レンズは、最先端の電子顕微鏡のものと同等である。
さらに, 空間光変調器を用いて対象電位を形作ることで, 任意の偏向パターンを実現できることを示す。
私たちの変調器は、ロスレスでプログラム可能で、ユニティフィルファクタを持ち、数百個の個別アドレス可能なピクセルで電子波面を形成する道を開くことができます。 Interfacing electrons and light enables ultrafast electron microscopy, quantum control of electrons, as well as new optical elements for high sensitivity imaging. Here we demonstrate for the first time programmable transverse electron beam shaping in free space based on ponderomotive potentials from short intense laser pulses. We can realize both convex and concave electron lenses with a focal length of a few millimeters, comparable to those in state-of-the-art electron microscopes. We further show that we can realize almost arbitrary deflection patterns by shaping the ponderomotive potentials using a spatial light modulator. Our modulator is lossless, programmable, has unity fill factor, and could pave the way to electron wavefront shaping with hundreds of individually addressable pixels. | 翻訳日:2023-08-30 02:03:08 公開日:2023-08-27 |
# MDLatLRRv2に基づく医用画像融合法 A Medical Image Fusion Method based on MDLatLRRv2 ( http://arxiv.org/abs/2206.15179v3 ) ライセンス: Link先を確認 | Xu Song and Xiao-Jun Wu and Hui Li | (参考訳) MDLatLRRは遅延低ランク表現(LatLRR)によって抽出された入力画像の詳細な部分(局所的な特徴)のみを考慮するため、LatLRRによって抽出された基本部分(主特徴)を効果的に使用しない。
そこで我々は,latlrrで得られた全画像の特徴を効果的に解析し活用する,mdlatlrrv2と呼ばれる改良マルチレベル分解法を提案する。
次に,MDLatLRRv2を医用画像融合に適用する。
基本部は平均的な戦略で融合し、詳細部は核・ノーム操作で融合する。
既存の手法との比較により,本手法は客観的および主観的評価において最先端の融合性能を達成できることが示されている。 Since MDLatLRR only considers detailed parts (salient features) of input images extracted by latent low-rank representation (LatLRR), it doesn't use base parts (principal features) extracted by LatLRR effectively. Therefore, we proposed an improved multi-level decomposition method called MDLatLRRv2 which effectively analyzes and utilizes all the image features obtained by LatLRR. Then we apply MDLatLRRv2 to medical image fusion. The base parts are fused by average strategy and the detail parts are fused by nuclear-norm operation. The comparison with the existing methods demonstrates that the proposed method can achieve state-of-the-art fusion performance in objective and subjective assessment. | 翻訳日:2023-08-30 01:56:18 公開日:2023-08-27 |
# 分散検出のための二重表現学習 Dual Representation Learning for Out-of-Distribution Detection ( http://arxiv.org/abs/2206.09387v2 ) ライセンス: Link先を確認 | Zhilin Zhao and Longbing Cao | (参考訳) 分散サンプルを分類するために、ディープニューラルネットワークは、強いラベル関連情報を探索し、情報ボトルネックに応じて弱いラベル関連情報を破棄する。
分布から引き出された分布から引き出された分布外分布サンプルは、最小の強いラベル関連情報が得られるため、予期せぬ高信頼度予測を割り当てることができた。
二重表現学習(drl)は、分布内サンプルから強いラベル関連情報と弱いラベル関連情報の両方を探索することにより、分布外サンプルの信頼性の高い予測を困難にする。
ラベル識別表現を学習するためにラベル関連情報を強く探求する事前学習ネットワークにおいて、DRLは、残りの弱いラベル関連情報を探索して分布識別表現を学習する補助ネットワークを訓練する。
具体的には、ラベル識別表現に対して、DRLはラベル識別表現とあまり似ていない多様な表現を統合することにより、その相補的な分布識別表現を構成する。
したがって、DRLはラベルと分布識別表現を組み合わせて分布外サンプルを検出する。
実験の結果,DRLは分布外検出の最先端手法よりも優れていた。 To classify in-distribution samples, deep neural networks explore strongly label-related information and discard weakly label-related information according to the information bottleneck. Out-of-distribution samples drawn from distributions differing from that of in-distribution samples could be assigned with unexpected high-confidence predictions because they could obtain minimum strongly label-related information. To distinguish in- and out-of-distribution samples, Dual Representation Learning (DRL) makes out-of-distribution samples harder to have high-confidence predictions by exploring both strongly and weakly label-related information from in-distribution samples. For a pretrained network exploring strongly label-related information to learn label-discriminative representations, DRL trains its auxiliary network exploring the remaining weakly label-related information to learn distribution-discriminative representations. Specifically, for a label-discriminative representation, DRL constructs its complementary distribution-discriminative representation by integrating diverse representations less similar to the label-discriminative representation. Accordingly, DRL combines label- and distribution-discriminative representations to detect out-of-distribution samples. Experiments show that DRL outperforms the state-of-the-art methods for out-of-distribution detection. | 翻訳日:2023-08-30 01:55:13 公開日:2023-08-27 |
# 分布データのクラス間分布による分布外検出 Out-of-distribution Detection by Cross-class Vicinity Distribution of In-distribution Data ( http://arxiv.org/abs/2206.09385v2 ) ライセンス: Link先を確認 | Zhilin Zhao and Longbing Cao and Kun-Yu Lin | (参考訳) 画像分類のためのディープニューラルネットワークは、配信対象のサンプルと配信対象のサンプルを区別することなく、トレーニング中に、配信対象の入力を対応する基底真理ラベルにマッピングすることしか学習しない。
この結果は、すべてのサンプルが独立であり、分布的区別のない同一分布 (iid) である、という仮定から生じる。
そこで, 分布内サンプルから学習した事前学習ネットワークは, 分布外サンプルを分布内として扱い, テストフェーズにおける信頼度の高い予測を行う。
この問題に対処するために,学習用分布標本の近傍分布から分布標本を作成し,分布標本の予測を拒否する。
複数の分布サンプルを混合して生成された分配外サンプルは、その構成要素の同じクラスを共有しないことを仮定して、 \textit{cross-class near distribution} が導入された。
そこで我々は,各分布外入力が相補ラベルに対応するクロスクラス近傍分布から抽出された分布外サンプルを微調整することにより,事前学習ネットワークの識別性を向上させる。
各種分布データを用いた実験により,本手法は,分布内と分布外を識別する能力を向上させる上で,既存の手法よりも有意に優れていた。 Deep neural networks for image classification only learn to map in-distribution inputs to their corresponding ground truth labels in training without differentiating out-of-distribution samples from in-distribution ones. This results from the assumption that all samples are independent and identically distributed (IID) without distributional distinction. Therefore, a pretrained network learned from in-distribution samples treats out-of-distribution samples as in-distribution and makes high-confidence predictions on them in the test phase. To address this issue, we draw out-of-distribution samples from the vicinity distribution of training in-distribution samples for learning to reject the prediction on out-of-distribution inputs. A \textit{Cross-class Vicinity Distribution} is introduced by assuming that an out-of-distribution sample generated by mixing multiple in-distribution samples does not share the same classes of its constituents. We thus improve the discriminability of a pretrained network by finetuning it with out-of-distribution samples drawn from the cross-class vicinity distribution, where each out-of-distribution input corresponds to a complementary label. Experiments on various in-/out-of-distribution datasets show that the proposed method significantly outperforms the existing methods in improving the capacity of discriminating between in- and out-of-distribution samples. | 翻訳日:2023-08-30 01:54:52 公開日:2023-08-27 |
# ReCo: 住宅用コミュニティレイアウトプランニング用データセット ReCo: A Dataset for Residential Community Layout Planning ( http://arxiv.org/abs/2206.04678v3 ) ライセンス: Link先を確認 | Xi Chen, Yun Xiong, Siqi Wang, Haofen Wang, Tao Sheng, Yao Zhang, Yu Ye | (参考訳) レイアウト計画は建築と都市デザインの分野において中心的に重要である。
都市機能を有する様々な基本単位の中で、住宅コミュニティは人間の生活を支える重要な役割を担っている。
そのため,住宅群落のレイアウト計画は常に問題であり,自動レイアウト生成や空間パターン認識を容易にするディープラーニングの出現以降,特に注目されている。
しかし、研究サークルは一般的に、住宅コミュニティレイアウトベンチマークや高品質データセットの不足に苦しんでおり、住宅コミュニティレイアウト計画のためのデータ駆動型手法の今後の探求を妨げている。
データセットの欠如は、大規模な実世界の住宅データ取得と長期の専門家スクリーニングの難しさによるところが大きい。
スマートシティ開発における様々なインテリジェントな空間設計・分析アプリケーションのためのベンチマークデータセットの進歩と課題に対処するため,Residential Community Layout Planning (ReCo) Datasetを紹介した。
ReCo Datasetは、37,646人の居住コミュニティレイアウトプランを持つ複数のデータ形式で提供され、598,728の住宅情報を含む。
recoは、生成的レイアウト設計、形態的パターン認識、空間評価など、住宅コミュニティレイアウトに関連した都市デザインタスクに便利に対応できる。
自動住宅群落配置計画におけるReCoの有効性を検証するため,GANに基づく2つの生成モデルがデータセットにさらに適用された。
ReCo Datasetは、インテリジェントデザインなどにおいて、より創造的で実践的な仕事を刺激することを期待しています。
ReCo Datasetはhttps://www.kaggle.com/fdudsde/reco-datasetで公開されている。 Layout planning is centrally important in the field of architecture and urban design. Among the various basic units carrying urban functions, residential community plays a vital part for supporting human life. Therefore, the layout planning of residential community has always been of concern, and has attracted particular attention since the advent of deep learning that facilitates the automated layout generation and spatial pattern recognition. However, the research circles generally suffer from the insufficiency of residential community layout benchmark or high-quality datasets, which hampers the future exploration of data-driven methods for residential community layout planning. The lack of datasets is largely due to the difficulties of large-scale real-world residential data acquisition and long-term expert screening. In order to address the issues and advance a benchmark dataset for various intelligent spatial design and analysis applications in the development of smart city, we introduce Residential Community Layout Planning (ReCo) Dataset, which is the first and largest open-source vector dataset related to real-world community to date. ReCo Dataset is presented in multiple data formats with 37,646 residential community layout plans, covering 598,728 residential buildings with height information. ReCo can be conveniently adapted for residential community layout related urban design tasks, e.g., generative layout design, morphological pattern recognition and spatial evaluation. To validate the utility of ReCo in automated residential community layout planning, two Generative Adversarial Network (GAN) based generative models are further applied to the dataset. We expect ReCo Dataset to inspire more creative and practical work in intelligent design and beyond. The ReCo Dataset is published at: https://www.kaggle.com/fdudsde/reco-dataset. | 翻訳日:2023-08-30 01:53:49 公開日:2023-08-27 |
# twhin-bert: twitterにおける多言語ツイート表現のためのソーシャルエンリッチな事前学習言語モデル TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for Multilingual Tweet Representations at Twitter ( http://arxiv.org/abs/2209.07562v3 ) ライセンス: Link先を確認 | Xinyang Zhang, Yury Malkov, Omar Florez, Serim Park, Brian McWilliams, Jiawei Han, Ahmed El-Kishky | (参考訳) プレトレーニング言語モデル(PLM)は自然言語処理アプリケーションの基本である。
ほとんどの既存のPLMは、ソーシャルメディア上の騒々しいユーザー生成テキストに適合せず、事前学習は、ソーシャルネットワークで利用可能な貴重なソーシャルエンゲージメントログに影響を及ぼさない。
TwHIN-BERTは、Twitterで制作された多言語言語モデルであり、人気のあるソーシャルネットワークのドメイン内データに基づいて訓練されている。
TwHIN-BERTは、テキストベースのセルフスーパービジョンだけでなく、Twitterの異種情報ネットワーク(TwHIN)内でのリッチなソーシャルエンゲージメントに基づく社会的目的によって訓練されているため、事前訓練済みの言語モデルとは異なる。
私たちのモデルは、100以上の異なる言語をカバーする70億のつぶやきに基づいてトレーニングされています。
我々は,多言語ソーシャルレコメンデーションとセマンティック理解タスクにおけるモデル評価を行い,既存の学習済み言語モデルよりも大幅に改善されていることを示す。
我々はTwHIN-BERTをオープンソース化し、得られたハッシュタグ予測とソーシャルエンゲージメントベンチマークデータセットを研究コミュニティに公開しました。 Pre-trained language models (PLMs) are fundamental for natural language processing applications. Most existing PLMs are not tailored to the noisy user-generated text on social media, and the pre-training does not factor in the valuable social engagement logs available in a social network. We present TwHIN-BERT, a multilingual language model productionized at Twitter, trained on in-domain data from the popular social network. TwHIN-BERT differs from prior pre-trained language models as it is trained with not only text-based self-supervision, but also with a social objective based on the rich social engagements within a Twitter heterogeneous information network (TwHIN). Our model is trained on 7 billion tweets covering over 100 distinct languages, providing a valuable representation to model short, noisy, user-generated text. We evaluate our model on various multilingual social recommendation and semantic understanding tasks and demonstrate significant metric improvement over established pre-trained language models. We open-source TwHIN-BERT and our curated hashtag prediction and social engagement benchmark datasets to the research community. | 翻訳日:2023-08-30 01:45:11 公開日:2023-08-27 |
# 署名ネットワークによる分極と平衡の分析と可視化:米国議会の事例研究 Analyzing and visualizing polarization and balance with signed networks: the U.S. Congress case study ( http://arxiv.org/abs/2209.00676v2 ) ライセンス: Link先を確認 | Arthur Capozzi and Alfonso Semeraro and Giancarlo Ruffo | (参考訳) 符号付きネットワークとバランス理論は、偏極力学、正・負の関係、政治的パルチザン性を示す実世界のシナリオに自然な設定を提供する。
例えば、第2次世界大戦以降のアメリカ合衆国議会の2つの議場における票の分極の増大について研究する上で有効であることが証明されている。
そこで本研究では,対応するラプラシア行列のスペクトル特性の活用に基づいて,符号付きグラフの構成を分析し,視覚化するパイプラインを提案する。
全体的な方法論はフラストレーション指数に基づく他の手法に匹敵するが、少なくとも2つの大きな利点がある: 1つは計算コストがはるかに低いこと、2つ目は、任意に小さな部分グラフ(単一ノードでさえ)がネットワーク全体のバランス(またはアンバランス)にどのように貢献するかを定量的かつ視覚的に評価できることである。
提案されたパイプラインは、1945年から2020年にかけてアメリカ合衆国議会によって異なる解像度スケールで示される偏光ダイナミクスの探索を可能にする。
実際、私たちは、全体バランスにおける一部の(グループの)議員の影響を見つけ、指摘することができ、また、長年にわたって両室の分極の進化を観察し、調査することができる。 Signed networks and balance theory provide a natural setting for real-world scenarios that show polarization dynamics, positive/negative relationships, and political partisanship. For example, they have been proven effective in studying the increasing polarization of the votes in the two chambers of the U.S. Congress from World War II on. To provide further insights into this particular case study, we propose the application of a pipeline to analyze and visualize a signed graph's configuration based on the exploitation of the corresponding Laplacian matrix' spectral properties. The overall methodology is comparable with others based on the frustration index, but it has at least two main advantages: first, it requires a much lower computational cost; second, it allows for a quantitative and visual assessment of how arbitrarily small subgraphs (even single nodes) contribute to the overall balance (or unbalance) of the network. The proposed pipeline allows the exploration of polarization dynamics shown by the U.S. Congress from 1945 to 2020 at different resolution scales. In fact, we are able to spot and point out the influence of some (groups of) congressmen in the overall balance, as well as to observe and explore polarization's evolution of both chambers across the years. | 翻訳日:2023-08-30 01:44:15 公開日:2023-08-27 |
# ローカルコンテキスト対応アクティブドメイン適応 Local Context-Aware Active Domain Adaptation ( http://arxiv.org/abs/2208.12856v3 ) ライセンス: Link先を確認 | Tao Sun, Cheng Lu, Haibin Ling | (参考訳) Active Domain Adaptation (ADA)は、少数の選択されたターゲットサンプルのラベルをクエリして、ソースドメインからターゲットドメインへのモデル適応を支援する。
クエリされたデータのローカルコンテキストは特にドメインギャップが大きい場合に重要である。
しかし、これは既存のADA作品によって完全には調査されていない。
本稿では、この問題を解決するために、ローカルコンテキスト対応ADAフレームワークであるLADAを提案する。
有用な対象サンプルを選択するために,モデル予測の局所的不整合に基づく新しい基準を考案する。
ラベル付け予算は通常小さいため、クエリデータのみの微調整モデルは非効率である。
我々は,ラベル付きターゲットデータを,自信のある隣人に対して,クラスバランスの取れた方法で徐々に拡張する。
実験により、提案手法が既存のアクティブ選択戦略よりも有益なターゲットサンプルを選択することを検証した。
さらに,本手法は最近のADAアーツを様々なベンチマークで明らかに上回っている。
コードはhttps://github.com/tsun/LADA.comで入手できる。 Active Domain Adaptation (ADA) queries the labels of a small number of selected target samples to help adapting a model from a source domain to a target domain. The local context of queried data is important, especially when the domain gap is large. However, this has not been fully explored by existing ADA works. In this paper, we propose a Local context-aware ADA framework, named LADA, to address this issue. To select informative target samples, we devise a novel criterion based on the local inconsistency of model predictions. Since the labeling budget is usually small, fine-tuning model on only queried data can be inefficient. We progressively augment labeled target data with the confident neighbors in a class-balanced manner. Experiments validate that the proposed criterion chooses more informative target samples than existing active selection strategies. Furthermore, our full method clearly surpasses recent ADA arts on various benchmarks. Code is available at https://github.com/tsun/LADA. | 翻訳日:2023-08-30 01:43:53 公開日:2023-08-27 |
# 情報幾何におけるg-dual teleparallel connection G-dual teleparallel connections in Information Geometry ( http://arxiv.org/abs/2207.08694v2 ) ライセンス: Link先を確認 | Florio M. Ciaglia, Fabio Di Cosmo, Alberto Ibort, Giuseppe Marmo | (参考訳) Given a real, finite-dimensional, smooth parallelizable Riemannian manifold $(\mathcal{N},G)$ endowed with a teleparallel connection $\nabla$ determined by a choice of a global basis of vector fields on $\mathcal{N}$, we show that the $G$-dual connection $\nabla^{*}$ of $\nabla$ in the sense of Information Geometry must be the teleparallel connection determined by the basis of $G$-gradient vector fields associated with a basis of differential one-forms which is (almost) dual to the basis of vector fields determining $\nabla$.
そのようなペアを $(\nabla,\nabla^{*})$ a $G$-dual teleparallel pair と呼ぶ。
Then, after defining a covariant $(0,3)$ tensor $T$ uniquely determined by $(\mathcal{N},G,\nabla,\nabla^{*})$, we show that $T$ being symmetric in the first two entries is equivalent to $\nabla$ being torsion-free, that $T$ being symmetric in the first and third entry is equivalent to $\nabla^{*}$ being torsion free, and that $T$ being symmetric in the second and third entries is equivalent to the basis vectors determining $\nabla$ ($\nabla^{*}$) being parallel-transported by $\nabla^{*}$ ($\nabla$).
したがって、$G$-dual teleparallel pairsは、通常情報幾何学で使用される統計多様体の概念を一般化し、古典的および量子的情報幾何学の両方の文脈で生じる$G$-dual teleparallel pairsの明示的な例を示す。 Given a real, finite-dimensional, smooth parallelizable Riemannian manifold $(\mathcal{N},G)$ endowed with a teleparallel connection $\nabla$ determined by a choice of a global basis of vector fields on $\mathcal{N}$, we show that the $G$-dual connection $\nabla^{*}$ of $\nabla$ in the sense of Information Geometry must be the teleparallel connection determined by the basis of $G$-gradient vector fields associated with a basis of differential one-forms which is (almost) dual to the basis of vector fields determining $\nabla$. We call any such pair $(\nabla,\nabla^{*})$ a $G$-dual teleparallel pair. Then, after defining a covariant $(0,3)$ tensor $T$ uniquely determined by $(\mathcal{N},G,\nabla,\nabla^{*})$, we show that $T$ being symmetric in the first two entries is equivalent to $\nabla$ being torsion-free, that $T$ being symmetric in the first and third entry is equivalent to $\nabla^{*}$ being torsion free, and that $T$ being symmetric in the second and third entries is equivalent to the basis vectors determining $\nabla$ ($\nabla^{*}$) being parallel-transported by $\nabla^{*}$ ($\nabla$). Therefore, $G$-dual teleparallel pairs provide a generalization of the notion of Statistical Manifolds usually employed in Information Geometry, and we present explicit examples of $G$-dual teleparallel pairs arising both in the context of both Classical and Quantum Information Geometry. | 翻訳日:2023-08-30 01:42:52 公開日:2023-08-27 |
# 隣接染色組織からメラノサイトーシス細胞マスクを学習する Learning Melanocytic Cell Masks from Adjacent Stained Tissue ( http://arxiv.org/abs/2211.00646v2 ) ライセンス: Link先を確認 | Mikio Tada, Maria L. Wei, Michael J. Keiser | (参考訳) メラノーマは最も攻撃的な皮膚がんの1つであり、皮膚がんの死亡率が高い。
しかし,病理医によるメラノーマ診断では,信頼性は低い。
メラノーマはメラノーマの癌であるため、病理組織学的変異によらないメラノサイト細胞分画ツールを開発し、ピクセルレベルのアノテーションを自動化する必要がある。
しかし、ギガピクセルレベルの病理学ラベル付けは実用的ではない。
そこで本研究では, ヘマトキシリン(hematoxylin)とエオシン(eosin, h&e)染色スライダー(h&e)のメラノサイト様細胞分割のための深層ニューラルネットワークを, 隣接組織片の対免疫組織化学的(ihc)スライドを用いて訓練する方法を提案する。 Melanoma is one of the most aggressive forms of skin cancer, causing a large proportion of skin cancer deaths. However, melanoma diagnoses by pathologists shows low interrater reliability. As melanoma is a cancer of the melanocyte, there is a clear need to develop a melanocytic cell segmentation tool that is agnostic to pathologist variability and automates pixel-level annotation. Gigapixel-level pathologist labeling, however, is impractical. Herein, we propose a means to train deep neural networks for melanocytic cell segmentation from hematoxylin and eosin (H&E) stained slides using paired immunohistochemical (IHC) slides of adjacent tissue sections, achieving a mean IOU of 0.64 despite imperfect ground-truth labels. | 翻訳日:2023-08-30 01:23:40 公開日:2023-08-27 |
# Pixel-Wiseコントラスト蒸留 Pixel-Wise Contrastive Distillation ( http://arxiv.org/abs/2211.00218v2 ) ライセンス: Link先を確認 | Junqiang Huang and Zichao Guo | (参考訳) 本稿では,高密度予測タスクに親しみやすい簡易だが効果的な画素レベルの自己監督蒸留フレームワークを提案する。
提案手法はpixel-wise contrastive distillation (pcd) と呼ばれ,生徒と教師の出力特徴マップから対応する画素を引き付けることで知識を蒸留する。
PCDにはSpatialAdaptorと呼ばれる新しいデザインが含まれており、これは教師ネットワークの一部であり、出力機能の分布を保存している。
アブレーション実験により, より情報的な画素間蒸留が可能であることが示唆された。
さらに,学生の特徴マップの画素を明示的に関連付けるプラグインマルチヘッド・セルフアテンションモジュールを用いて,効果的な受容領域を強化し,より競争力の高い学生へと導く。
PCD \textbf{outperforms} 以前の高密度予測タスクにおける自己教師型蒸留法。
PCDで蒸留した \mbox{ResNet-18-FPN} のバックボーンは、$37.4$ AP$^\text{bbox}$と$34.0$ AP$^\text{mask}$をCOCOデータセット上で達成している。
我々は,この研究が,密集した予測タスクに適応した小型モデルを自己監督型で事前学習する方法に関する今後の研究に拍車をかけることを期待する。 We present a simple but effective pixel-level self-supervised distillation framework friendly to dense prediction tasks. Our method, called Pixel-Wise Contrastive Distillation (PCD), distills knowledge by attracting the corresponding pixels from student's and teacher's output feature maps. PCD includes a novel design called SpatialAdaptor which ``reshapes'' a part of the teacher network while preserving the distribution of its output features. Our ablation experiments suggest that this reshaping behavior enables more informative pixel-to-pixel distillation. Moreover, we utilize a plug-in multi-head self-attention module that explicitly relates the pixels of student's feature maps to enhance the effective receptive field, leading to a more competitive student. PCD \textbf{outperforms} previous self-supervised distillation methods on various dense prediction tasks. A backbone of \mbox{ResNet-18-FPN} distilled by PCD achieves $37.4$ AP$^\text{bbox}$ and $34.0$ AP$^\text{mask}$ on COCO dataset using the detector of \mbox{Mask R-CNN}. We hope our study will inspire future research on how to pre-train a small model friendly to dense prediction tasks in a self-supervised fashion. | 翻訳日:2023-08-30 01:23:20 公開日:2023-08-27 |
# day2dark: 無音の日光を超えた擬似教師付きアクティビティ認識 Day2Dark: Pseudo-Supervised Activity Recognition beyond Silent Daylight ( http://arxiv.org/abs/2212.02053v3 ) ライセンス: Link先を確認 | Yunhua Zhang and Hazel Doughty and Cees G. M. Snoek | (参考訳) 本論文は,暗闇や日中の活動を認識することを目的とする。
まず、最先端のアクティビティ認識器は日中は有効だが、暗闇では信頼できないと確認する。
主な原因は、ラベル付きダークビデオが学習できる範囲が限られていることと、テスト時に低い色のコントラストへの分布シフトである。
ラベル付きダークビデオの欠如を補うために,ラベルなしでタスク不要なダークビデオを容易に入手し,低光度でのアクティビティ認識を改善する擬似教師付き学習方式を提案する。
低色のコントラストは視覚情報の損失をもたらすため、照明に不変な音声に相補的なアクティビティ情報を組み込むことも提案する。
照明量によって音声や視覚的特徴の有用性が異なるため,我々は「暗さ適応型」音声視覚認識装置を提案する。
EPIC-Kitchens, Kinetics-Sound, Charadesの実験では, 画像強調, ドメイン適応, オルタナティブオーディオ-視覚融合法に優れており, 閉塞による局所暗黒への堅牢性の向上も可能である。
プロジェクトページ: https://xiaobai1217.github.io/day2dark/ This paper strives to recognize activities in the dark, as well as in the day. We first establish that state-of-the-art activity recognizers are effective during the day, but not trustworthy in the dark. The main causes are the limited availability of labeled dark videos to learn from, as well as the distribution shift towards the lower color contrast at test-time. To compensate for the lack of labeled dark videos, we introduce a pseudo-supervised learning scheme, which utilizes easy to obtain unlabeled and task-irrelevant dark videos to improve an activity recognizer in low light. As the lower color contrast results in visual information loss, we further propose to incorporate the complementary activity information within audio, which is invariant to illumination. Since the usefulness of audio and visual features differs depending on the amount of illumination, we introduce our `darkness-adaptive' audio-visual recognizer. Experiments on EPIC-Kitchens, Kinetics-Sound, and Charades demonstrate our proposals are superior to image enhancement, domain adaptation and alternative audio-visual fusion methods, and can even improve robustness to local darkness caused by occlusions. Project page: https://xiaobai1217.github.io/Day2Dark/ | 翻訳日:2023-08-30 01:16:54 公開日:2023-08-27 |
# 大規模言語モデルにおける事象知識 : 不可能と不可能とのギャップ Event knowledge in large language models: the gap between the impossible and the unlikely ( http://arxiv.org/abs/2212.01488v3 ) ライセンス: Link先を確認 | Carina Kauf, Anna A. Ivanova, Giulia Rambelli, Emmanuele Chersoni, Jingyuan Selena She, Zawad Chowdhury, Evelina Fedorenko, Alessandro Lenci | (参考訳) 言語コーパスにおける単語共起パターンには驚くべき概念知識が含まれている。
大きな言語モデル(LLM)は、文脈における単語の予測のために訓練され、これらのパターンを活用し、世界の知識を必要とする多様な意味的タスクにおいて印象的なパフォーマンスを達成する。
LLMのセマンティック能力に関する重要なが未調査の疑問は、共通事象の一般的な知識を取得するかどうかである。
ここでは、2018年のBERTから2023年のMPTまでの5つの事前訓練LSMが、同一事象の最小限の異なる可聴性バージョンよりも、エージェントと患者間の相互作用のもっともらしい記述に高い確率を割り当てているかどうかを検証する。
3組の最小文対 (total n=1,215) を用いて, 事前学習した LLM がイベント知識を有し, その他の分散言語モデルよりも優れた結果を得た。
特に、ほとんどの場合、不可能なイベントよりも高い確率を割り当てる(教師はノートパソコン、教師はノートパソコンを購入した)。
しかし、llmは、ありそうにない出来事に対して、より一貫性のない好みを示す(乳母が男の子を、乳母が乳母を教育した)。
フォローアップ分析では、
i) LLMスコアは、可視性と表面レベルの文特徴の両方によって駆動される。
(ii)llmスコアは、構文的変種(アクティブ対パッシブ構成)にまたがるが、意味的変種(synonymous sentences)に収まらない。
三 人間の判断の曖昧さを反映したLLMエラー
(iv)文の可読性は、内部llm表現の整理次元として機能する。
以上の結果から,イベント・ナレッジの重要な側面は,分布型言語パターンから自然に現れるだけでなく,可能/不可能な事象の表現のギャップも浮き彫りにしている。 Word co-occurrence patterns in language corpora contain a surprising amount of conceptual knowledge. Large language models (LLMs), trained to predict words in context, leverage these patterns to achieve impressive performance on diverse semantic tasks requiring world knowledge. An important but understudied question about LLMs' semantic abilities is whether they acquire generalized knowledge of common events. Here, we test whether five pre-trained LLMs (from 2018's BERT to 2023's MPT) assign higher likelihood to plausible descriptions of agent-patient interactions than to minimally different implausible versions of the same event. Using three curated sets of minimal sentence pairs (total n=1,215), we found that pre-trained LLMs possess substantial event knowledge, outperforming other distributional language models. In particular, they almost always assign higher likelihood to possible vs. impossible events (The teacher bought the laptop vs. The laptop bought the teacher). However, LLMs show less consistent preferences for likely vs. unlikely events (The nanny tutored the boy vs. The boy tutored the nanny). In follow-up analyses, we show that (i) LLM scores are driven by both plausibility and surface-level sentence features, (ii) LLM scores generalize well across syntactic variants (active vs. passive constructions) but less well across semantic variants (synonymous sentences), (iii) some LLM errors mirror human judgment ambiguity, and (iv) sentence plausibility serves as an organizing dimension in internal LLM representations. Overall, our results show that important aspects of event knowledge naturally emerge from distributional linguistic patterns, but also highlight a gap between representations of possible/impossible and likely/unlikely events. | 翻訳日:2023-08-30 01:16:31 公開日:2023-08-27 |
# X線画像の自動検出と分類のための人工知能 Artificial Intelligence for Automatic Detection and Classification Disease on the X-Ray Images ( http://arxiv.org/abs/2211.08244v2 ) ライセンス: Link先を確認 | Liora Mayats-Alpay | (参考訳) X線画像を用いた疾患の検出と分類は、医学や研究の世界で最も困難な課題の1つです。
近年、放射線画像やAIへの関心が高まっているため、X線画像における疾患の早期発見は、曲線のさらなる広がりや平坦化を防ぐために特に重要である。
ディープラーニング手法によるコンピュータビジョンの革新と革新は、胸部X線画像(CXR)からのスクリーニングと検出の迅速かつ正確な診断を可能にする。
本研究では,Deep Learning Pre-trained RepVGGアルゴリズムを用いて肺疾患の迅速検出を行い,特徴抽出と分類を行った。
モデルの有効性を示す例として,X線画像を用いた。
そこで我々は,X線画像をCovid-19,Pneumonia,および通常のX線画像に分類する。
ROIオブジェクトを使用して肺抽出の検出精度を向上し、次いでデータ前処理と拡張を行う。
我々は,人肺の影響を受けた領域の自動検出に人工知能技術を適用している。
X線画像に基づいて,モデルのアーキテクチャ変換により,X線画像を高精度かつ高速に分類するアルゴリズムを開発した。
深層学習フレームワークの正確性と疾患の検出について比較した。
本研究は、胸部X線を用いた新型コロナウイルス検出に基づくX線画像の深層学習手法の威力を示す。
このフレームワークは、一般的なディープラーニングモデル、すなわちvgg, resnet50, inceptionv3, densenet, inceptionresnetv2を比較して、より良い診断精度を提供する。 Detecting and classifying diseases using X-ray images is one of the more challenging core tasks in the medical and research world. Due to the recent high interest in radiological images and AI, early detection of diseases in X-ray images has become notably more essential to prevent further spreading and flatten the curve. Innovations and revolutions of Computer Vision with Deep learning methods offer great promise for fast and accurate diagnosis of screening and detection from chest X-ray images (CXR). This work presents rapid detection of diseases in the lung using the efficient Deep learning pre-trained RepVGG algorithm for deep feature extraction and classification. We used X-ray images as an example to show the model's efficiency. To perform this task, we classify X-Ray images into Covid-19, Pneumonia, and Normal X-Ray images. Employ ROI object to improve the detection accuracy for lung extraction, followed by data pre-processing and augmentation. We are applying Artificial Intelligence technology for automatic highlighted detection of affected areas of people's lungs. Based on the X-Ray images, an algorithm was developed that classifies X-Ray images with height accuracy and power faster thanks to the architecture transformation of the model. We compared deep learning frameworks' accuracy and detection of disease. The study shows the high power of deep learning methods for X-ray images based on COVID-19 detection utilizing chest X-rays. The proposed framework offers better diagnostic accuracy by comparing popular deep learning models, i.e., VGG, ResNet50, inceptionV3, DenseNet, and InceptionResnetV2. | 翻訳日:2023-08-30 01:13:37 公開日:2023-08-27 |
# 結晶中の通信波長における絡み合った光子の量子保存 Quantum storage of entangled photons at telecom wavelengths in a crystal ( http://arxiv.org/abs/2212.12898v2 ) ライセンス: Link先を確認 | Ming-Hao Jiang, Wenyi Xue, Qian He, Yu-Yang An, Xiaodong Zheng, Wen-Jie Xu, Yu-Bo Xie, Yanqing Lu, Shining Zhu and Xiao-Song Ma | (参考訳) 量子インターネットは、私たちが現在使っているインターネットと相乗効果があり、指数的に高速な分散計算、セキュアな通信、高精度なメトロジーを含む次世代情報処理のプラットフォームを推進している。
このようなグローバルネットワークを実現するための重要な要素は、量子絡み合いの分布と保存である。
地上ベースの量子ネットワークは、既存のファイバネットワークに基づいている可能性が高いため、通信波長の絡み合った光子と対応する量子メモリが中心である。
最近、$\rm^{167}er^{3+}$ ionsが通信波長での効率的なブロードバンド量子メモリの候補として認識されている。
しかし、これまでは絡み合った光子の保存がなく、これらの有望なイオンを用いた量子メモリの重要なステップである$\rm^{167}er^{3+}$が報告されている。
ここでは、窒化ケイ素マイクロリング共振器をベースとした集積フォトニックチップから発生する2つの通信光子の絡み合った状態の記憶とリコールを実証する。
絡み合った光子の自然な細い線幅と、$\rm^{167}Er^{3+}$イオンの長い保存時間を組み合わせることで、以前の研究の387倍以上の1.936$\mu$sの保存時間が得られる。
結晶内の絡み合いの保存の成功は、23以上の標準偏差 (-0.234$\pm$ 0.010) を持つ絡み合い証人の1.936$\mu$sストレージタイムの違反によって証明される。
これらの結果は、固体デバイスに基づく量子ネットワークの実現の道を開く。 The quantum internet -- in synergy with the internet that we use today -- promises an enabling platform for next-generation information processing, including exponentially speed-up distributed computation, secure communication, and high-precision metrology. The key ingredients for realizing such a global network are the distribution and storage of quantum entanglement. As ground-based quantum networks are likely to be based on existing fiber networks, telecom-wavelength entangled photons and corresponding quantum memories are of central interest. Recently, $\rm^{167}Er^{3+}$ ions have been identified as a promising candidate for an efficient, broadband quantum memory at telecom wavelength. However, to date, no storage of entangled photons, the crucial step of quantum memory using these promising ions, $\rm^{167}Er^{3+}$, has been reported. Here, we demonstrate the storage and recall of the entangled state of two telecom photons generated from an integrated photonic chip based on a silicon nitride micro-ring resonator. Combining the natural narrow linewidth of the entangled photons and long storage time of $\rm^{167}Er^{3+}$ ions, we achieve storage time of 1.936 $\mu$s, more than 387 times longer than in previous works. Successful storage of entanglement in the crystal is certified by a violation of an entanglement witness with more than 23 standard deviations (-0.234 $\pm$ 0.010) at 1.936 $\mu$s storage time. These results pave the way for realizing quantum networks based on solid-state devices. | 翻訳日:2023-08-30 01:05:49 公開日:2023-08-27 |
# 可視的透かしによる言語生成モデル保護 Protecting Language Generation Models via Invisible Watermarking ( http://arxiv.org/abs/2302.03162v3 ) ライセンス: Link先を確認 | Xuandong Zhao, Yu-Xiang Wang, Lei Li | (参考訳) 言語生成モデルは、多くのアプリケーションでますます強力になっている。
このようなモデルの多くは、無料または安価なapiアクセスを提供しており、蒸留によるモデル抽出攻撃に対して潜在的に脆弱である。
知的財産権(IP)を保護し,これらのモデルを公平に活用するために,語彙的透かしや同義語置換など様々な手法が提案されている。
しかし、これらの手法は「synonym randomization」のような明らかな対策によって無効化することができる。
そこで本研究では, 蒸留によりテキスト生成モデルが盗まれないようにする新しい手法であるGINSEWを提案する。
提案手法の重要な考え方は,各ターゲットトークンの復号ステップの確率ベクトルに秘密信号を注入することである。
次に、保護されたメッセージから蒸留されているかどうかを疑似モデルで調べることで、シークレットメッセージを検出できる。
GINSEWは,保護されたAPIの生成品質に最小限の影響を伴って,IP侵害の事例を効果的に識別できることを示す。
本手法は,従来のウォーターマーク除去攻撃法と比較して,平均精度 (map) で19点から29点の絶対的改善を示す。 Language generation models have been an increasingly powerful enabler for many applications. Many such models offer free or affordable API access, which makes them potentially vulnerable to model extraction attacks through distillation. To protect intellectual property (IP) and ensure fair use of these models, various techniques such as lexical watermarking and synonym replacement have been proposed. However, these methods can be nullified by obvious countermeasures such as "synonym randomization". To address this issue, we propose GINSEW, a novel method to protect text generation models from being stolen through distillation. The key idea of our method is to inject secret signals into the probability vector of the decoding steps for each target token. We can then detect the secret message by probing a suspect model to tell if it is distilled from the protected one. Experimental results show that GINSEW can effectively identify instances of IP infringement with minimal impact on the generation quality of protected APIs. Our method demonstrates an absolute improvement of 19 to 29 points on mean average precision (mAP) in detecting suspects compared to previous methods against watermark removal attacks. | 翻訳日:2023-08-30 00:57:26 公開日:2023-08-27 |
# EEP-3DQA:効果的な投影型3次元モデル品質評価 EEP-3DQA: Efficient and Effective Projection-based 3D Model Quality Assessment ( http://arxiv.org/abs/2302.08715v2 ) ライセンス: Link先を確認 | Zicheng Zhang, Wei Sun, Yingjie Zhou, Wei Lu, Yucheng Zhu, Xiongkuo Min, and Guangtao Zhai | (参考訳) 現在,3次元モデル品質評価法(3DQA)の有効性向上に多くの取り組みがなされている。
しかし、計算コストと推論時間にはほとんど注意が払われておらず、実際的な応用においても重要である。
2Dメディアとは異なり、3Dモデルはポイントクラウドやメッシュなど、より複雑で不規則なデジタルフォーマットで表現される。
したがって、3Dモデルの品質認識特徴を抽出する効率的なモジュールの実行は通常困難である。
本稿では、プロジェクションベースの3DQAの側面からこの問題に対処し、ノ-リフレクション(NR) \underline{E}fficient and \underline{E}ffective \underline{P}rojection-based \underline{3D} Model \underline{Q}uality \underline{A}ssessment (\textbf{EEP-3DQA})法を開発する。
EEP-3DQAの入力投影画像は、3次元モデルの垂直6視点からランダムにサンプリングされ、グリッドミニパッチサンプリング戦略によりさらに空間的にサンプリングされる。
さらに、背骨として軽量のSwin-Transformer小片を用いて品質認識特徴を抽出する。
最後に、提案したEEP-3DQAとEEP-3DQA-t(ティニーバージョン)は、既存のNR-3DQAメソッドよりも最高のパフォーマンスを達成し、比較した3DQAメソッドよりも推論時間を少なくしながら、ポイントクラウドおよびメッシュ品質評価データベース上で、ほとんどのフル参照(FR)3DQAメソッドを上回ります。 Currently, great numbers of efforts have been put into improving the effectiveness of 3D model quality assessment (3DQA) methods. However, little attention has been paid to the computational costs and inference time, which is also important for practical applications. Unlike 2D media, 3D models are represented by more complicated and irregular digital formats, such as point cloud and mesh. Thus it is normally difficult to perform an efficient module to extract quality-aware features of 3D models. In this paper, we address this problem from the aspect of projection-based 3DQA and develop a no-reference (NR) \underline{E}fficient and \underline{E}ffective \underline{P}rojection-based \underline{3D} Model \underline{Q}uality \underline{A}ssessment (\textbf{EEP-3DQA}) method. The input projection images of EEP-3DQA are randomly sampled from the six perpendicular viewpoints of the 3D model and are further spatially downsampled by the grid-mini patch sampling strategy. Further, the lightweight Swin-Transformer tiny is utilized as the backbone to extract the quality-aware features. Finally, the proposed EEP-3DQA and EEP-3DQA-t (tiny version) achieve the best performance than the existing state-of-the-art NR-3DQA methods and even outperforms most full-reference (FR) 3DQA methods on the point cloud and mesh quality assessment databases while consuming less inference time than the compared 3DQA methods. | 翻訳日:2023-08-30 00:45:07 公開日:2023-08-27 |
# 汎用性を用いたスケーラブルなマルチエージェント強化学習 Scalable Multi-Agent Reinforcement Learning with General Utilities ( http://arxiv.org/abs/2302.07938v2 ) ライセンス: Link先を確認 | Donghao Ying, Yuhao Ding, Alec Koppel, Javad Lavaei | (参考訳) チームの長期的状態行動占有度尺度の非線形関数として定義される汎用性を備えたスケーラブルなマルチエージェント強化学習(MARL)について検討する。
目的は、チーム内の各エージェントの完全な可観測性なしに、チームのローカルユーティリティ関数の平均を最大化する、ローカライズされたポリシーを見つけることである。
本研究では,ネットワーク構造の空間相関減衰特性を生かして,(1)シャドウ報酬推定,(2)シャドウq関数推定,(3)カットポリシー勾配推定,(3)ポリシー更新の3ステップからなる,シャドウ報酬とローカライズポリシーを備えたスケーラブルな分散ポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムは、高い確率で$\epsilon$-stationarityに収束し、$\widetilde{\mathcal{o}}(\epsilon^{-2})$サンプルは、通信半径で指数関数的に減少する近似誤差まで収束する。
これは、完全な可観測性を必要としない汎用性を持つマルチエージェントRLに関する文献の最初の結果である。 We study the scalable multi-agent reinforcement learning (MARL) with general utilities, defined as nonlinear functions of the team's long-term state-action occupancy measure. The objective is to find a localized policy that maximizes the average of the team's local utility functions without the full observability of each agent in the team. By exploiting the spatial correlation decay property of the network structure, we propose a scalable distributed policy gradient algorithm with shadow reward and localized policy that consists of three steps: (1) shadow reward estimation, (2) truncated shadow Q-function estimation, and (3) truncated policy gradient estimation and policy update. Our algorithm converges, with high probability, to $\epsilon$-stationarity with $\widetilde{\mathcal{O}}(\epsilon^{-2})$ samples up to some approximation error that decreases exponentially in the communication radius. This is the first result in the literature on multi-agent RL with general utilities that does not require the full observability. | 翻訳日:2023-08-30 00:44:01 公開日:2023-08-27 |
# 位相空間における工学的アービタリーハミルトニアン Engineering Arbitrary Hamiltonians in Phase Space ( http://arxiv.org/abs/2302.04257v2 ) ライセンス: Link先を確認 | Lingzhen Guo and Vittorio Peano | (参考訳) 非可換フーリエ変換(NcFT)に基づく周期駆動発振器のフロケ位相空間における任意のハミルトニアンを設計するための一般化手法を提案する。
位相空間における任意の対象フロケ・ハミルトニアンと実空間における周期的駆動ポテンシャルの関係を確立する。
実空間における駆動ポテンシャルの解析式は、位相空間、例えば回転格子やシャープ境界井戸において新しいハミルトニアンを生成することができる。
我々のプロトコルは、非古典的状態生成とボソニック量子計算のための様々な実験プラットフォームで実現できる。 We introduce a general method to engineer arbitrary Hamiltonians in the Floquet phase space of a periodically driven oscillator, based on the non-commutative Fourier transformation (NcFT) technique. We establish the relationship between an arbitrary target Floquet Hamiltonian in phase space and the periodic driving potential in real space. We obtain analytical expressions for the driving potentials in real space that can generate novel Hamiltonians in phase space, e.g., rotational lattices and sharp-boundary well. Our protocol can be realised in a range of experimental platforms for nonclassical states generation and bosonic quantum computation. | 翻訳日:2023-08-30 00:42:29 公開日:2023-08-27 |
# 光子の散逸分離モット絶縁体の安定性について On the stability of dissipatively-prepared Mott insulators of photons ( http://arxiv.org/abs/2303.09673v2 ) ライセンス: Link先を確認 | Orazio Scarlatella, Aashish A. Clerk, and Marco Schir\`o | (参考訳) 貯留層工学は、制御された駆動散逸ダイナミクスを用いてターゲット量子状態と位相を準備するための強力なアプローチである。
本研究では,光子のモット絶縁体を定常状態で実現可能なパラダイムモデルについて検討する。
いくつかの状態において、定常状態はモット絶縁基底状態に近似するが、この相はコヒーレントだが古典的でない極限サイクル相への非平衡遷移によって不安定になる可能性がある。
この不安定性は、超流動遷移への基底状態モット絶縁体とは全く異なる。
この差は劇的な観測可能な結果をもたらし、定常モット相の本質的な不安定性をもたらす: 損失に比べて速いポンプは位相を維持するために必要だが、小さな臨界ホッピングも決定する。
定常mott相とその不安定性の特異な特徴を同定し,それらの基底状態相と区別し,実験で測定できる。 Reservoir engineering is a powerful approach for using controlled driven-dissipative dynamics to prepare target quantum states and phases. In this work, we study a paradigmatic model that can realize a Mott insulator of photons in its steady-state. We show that, while in some regimes its steady state approximates a Mott-insulating ground state, this phase can become unstable through a non-equilibrium transition towards a coherent yet non-classical limit-cycle phase, driven by doublon excitations. This instability is completely distinct from the ground-state Mott-insulator to superfluid transition. This difference has dramatic observable consequences and leads to an intrinsic fragility of the steady-state Mott phase: a fast pump compared to losses is required to sustain the phase, but also determines a small critical hopping. We identify unique features of the steady-state Mott phase and its instability, that distinguish them from their ground-state counterpart and can be measured in experiments. | 翻訳日:2023-08-30 00:37:34 公開日:2023-08-27 |
# SurroundOcc: 自律走行のためのマルチカメラ3D動作予測 SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving ( http://arxiv.org/abs/2303.09551v2 ) ライセンス: Link先を確認 | Yi Wei, Linqing Zhao, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu | (参考訳) 3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
既存のほとんどの手法は3次元オブジェクト検出に重点を置いているが、任意の形状と無限クラスの実世界のオブジェクトを記述することは困難である。
本稿では,より包括的な3Dシーンの認識に向けて,マルチカメラ画像を用いたSurroundOcc法を提案する。
まず,各画像のマルチスケール特徴を抽出し,空間的2d-3d注意を3dボリューム空間に持ち上げる。
次に、3Dコンボリューションを適用して、ボリューム機能を段階的にアップサンプし、複数のレベルを監督する。
密接な占有率予測を得るため,我々は、占有率の制約を拡げることなく、密接な占有基盤真理を生成するパイプラインを設計した。
具体的には、動的オブジェクトと静的シーンのマルチフレームLiDARスキャンを別々に融合する。
そして、穴を埋めるためにPoisson Reconstructionを採用し、メッシュを酸化して密度の高い占有ラベルを得る。
nuScenesとSemanticKITTIデータセットの大規模な実験により,本手法の優位性を実証した。
コードとデータセットはhttps://github.com/weiyithu/SurroundOccで入手できる。 3D scene understanding plays a vital role in vision-based autonomous driving. While most existing methods focus on 3D object detection, they have difficulty describing real-world objects of arbitrary shapes and infinite classes. Towards a more comprehensive perception of a 3D scene, in this paper, we propose a SurroundOcc method to predict the 3D occupancy with multi-camera images. We first extract multi-scale features for each image and adopt spatial 2D-3D attention to lift them to the 3D volume space. Then we apply 3D convolutions to progressively upsample the volume features and impose supervision on multiple levels. To obtain dense occupancy prediction, we design a pipeline to generate dense occupancy ground truth without expansive occupancy annotations. Specifically, we fuse multi-frame LiDAR scans of dynamic objects and static scenes separately. Then we adopt Poisson Reconstruction to fill the holes and voxelize the mesh to get dense occupancy labels. Extensive experiments on nuScenes and SemanticKITTI datasets demonstrate the superiority of our method. Code and dataset are available at https://github.com/weiyithu/SurroundOcc | 翻訳日:2023-08-30 00:36:40 公開日:2023-08-27 |
# デジタルトランスフォーメーションと公共NLPシステムの社会経済展望:批判的レビュー Socio-economic landscape of digital transformation & public NLP systems: A critical review ( http://arxiv.org/abs/2304.01651v2 ) ライセンス: Link先を確認 | Satyam Mohla, Anupam Guha | (参考訳) デジタルトランスフォーメーションの現在の波はデジタル化の改革を加速させ、AIとNLPシステムの驚異的な発展をもたらし、そのうちのいくつかはパブリックドメインに入った。
これらのシステムは社会に自明な影響を与えないという認識もあるが、批判的なAIでは、どのようなシステムが存在するのか、どのように動作するのかを探求する文献が不足している。
本稿では,「公」の影響を受けたり影響を受けたりしたNLPシステムの幅広い分類法を構築し,これらのシステムの社会技術的性質について,様々な機器および規範レンズを用いて具体的な分析を行う。
本論文は、これらのシステムの30の事例を、公共利用事例に基づいて、金融、顧客サービス、政策作成、教育、医療、法律、セキュリティの7つの家族に分類する。
次に、これらのアプリケーション、まずはそれらがベースとしている事前と仮定、次にそれらのメカニズム、データ収集の可能なメソッド、使用されるモデルとエラー関数などを分析します。
本稿は,これらのシステム群が一般的に用いられている社会経済的・政治的文脈と,そのシステムに対する潜在的影響,およびそれらのシステムの機能クリープについて検討する。
それらを使用するコミュニティに対する、これらのシステムの長期的な下流への影響について解説している。
私たちの奥行き分析は、現在のnlp、特に批判的なaiに関する談話に欠けているものについての洞察を提供するだけでなく、現在の分析フレームワークへの追加を提案し、将来の研究方向性を推奨し、この社会技術的システムにおいて社会を探求することの重要性を強調する。 The current wave of digital transformation has spurred digitisation reforms and has led to prodigious development of AI & NLP systems, with several of them entering the public domain. There is a perception that these systems have a non trivial impact on society but there is a dearth of literature in critical AI exploring what kinds of systems exist and how do they operate. This paper constructs a broad taxonomy of NLP systems which impact or are impacted by the ``public'' and provides a concrete analyses via various instrumental and normative lenses on the socio-technical nature of these systems. This paper categorises thirty examples of these systems into seven families, namely; finance, customer service, policy making, education, healthcare, law, and security, based on their public use cases. It then critically analyses these applications, first the priors and assumptions they are based on, then their mechanisms, possible methods of data collection, the models and error functions used, etc. This paper further delves into exploring the socio-economic and political contexts in which these families of systems are generally used and their potential impact on the same, and the function creep of these systems. It provides commentary on the potential long-term downstream impact of these systems on communities which use them. Aside from providing a birds eye view of what exists our in depth analysis provides insights on what is lacking in the current discourse on NLP in particular and critical AI in general, proposes additions to the current framework of analysis, provides recommendations future research direction, and highlights the need to importance of exploring the social in this socio-technical system. | 翻訳日:2023-08-30 00:15:31 公開日:2023-08-27 |
# オフライン強化学習による推薦システムの因果決定変換器 Causal Decision Transformer for Recommender Systems via Offline Reinforcement Learning ( http://arxiv.org/abs/2304.07920v2 ) ライセンス: Link先を確認 | Siyu Wang and Xiaocong Chen and Dietmar Jannach and Lina Yao | (参考訳) 強化学習に基づくレコメンデーションシステムは近年人気を集めている。
しかし、エージェントが推奨ポリシーの最適化に頼っている報酬関数の設計は簡単ではないことが多い。
ユーザの行動に根ざした因果関係を探索することは,エージェントにユーザのダイナミックな関心を捉えるための報酬関数の代わりとなる。
さらに、シミュレーション環境(例えば、データ非効率性)の典型的な制限のため、ほとんどの作業は大規模な状況では広く適用できない。
オフラインデータセットをシミュレータに変換しようとする作業もあるが、データ非効率により学習プロセスはさらに遅くなる。
強化学習(すなわちインタラクションによる学習)の性質上、単一のインタラクションでトレーニングするのに十分なデータを収集することはできない。
さらに、従来の強化学習アルゴリズムは、オフラインデータセットから直接学習する教師付き学習手法のような強固な能力を持っていない。
本稿では,リコメンデータシステムのための因果決定変換器(CDT4Rec)という新しいモデルを提案する。
CDT4Recはオフラインの強化学習システムで、オンラインインタラクションではなくデータセットから学習することができる。
さらにcdt4recは、大規模なオフラインデータセットを処理し、データ内の短期的および長期的依存関係をキャプチャして、アクション、状態、報酬の因果関係を推定するtransformerアーキテクチャを採用している。
本モデルの有効性と優位性を示すため、6つの実世界のオフラインデータセットと1つのオンラインシミュレータの実験を行った。 Reinforcement learning-based recommender systems have recently gained popularity. However, the design of the reward function, on which the agent relies to optimize its recommendation policy, is often not straightforward. Exploring the causality underlying users' behavior can take the place of the reward function in guiding the agent to capture the dynamic interests of users. Moreover, due to the typical limitations of simulation environments (e.g., data inefficiency), most of the work cannot be broadly applied in large-scale situations. Although some works attempt to convert the offline dataset into a simulator, data inefficiency makes the learning process even slower. Because of the nature of reinforcement learning (i.e., learning by interaction), it cannot collect enough data to train during a single interaction. Furthermore, traditional reinforcement learning algorithms do not have a solid capability like supervised learning methods to learn from offline datasets directly. In this paper, we propose a new model named the causal decision transformer for recommender systems (CDT4Rec). CDT4Rec is an offline reinforcement learning system that can learn from a dataset rather than from online interaction. Moreover, CDT4Rec employs the transformer architecture, which is capable of processing large offline datasets and capturing both short-term and long-term dependencies within the data to estimate the causal relationship between action, state, and reward. To demonstrate the feasibility and superiority of our model, we have conducted experiments on six real-world offline datasets and one online simulator. | 翻訳日:2023-08-30 00:05:35 公開日:2023-08-27 |
# asr: 注意を喚起する構造的再パラメータ化 ASR: Attention-alike Structural Re-parameterization ( http://arxiv.org/abs/2304.06345v2 ) ライセンス: Link先を確認 | Shanshan Zhong, Zhongzhan Huang, Wushao Wen, Jinghui Qin, Liang Lin | (参考訳) 構造的再パラメータ化(SRP)技術は、等価パラメータ変換によって異なるネットワークアーキテクチャ間の相互変換を実現する新しいディープラーニング技術である。
この技術により、パラメータサイズや推論時間などのトレーニング中のパフォーマンス改善のための余分なコストを、推論中のこれらの変換を通じて軽減することができるため、SRPは工業的および実用的応用に大きな可能性を秘めている。
既存のsrp法は、正規化、プーリングメソッド、マルチブランチ畳み込みなど、多くの一般的なアーキテクチャをうまく考慮している。
しかしながら、これらのモジュールがバックボーンネットワーク上で乗算的に動作し、モジュールの出力は推論中に入力依存となるため、SRPのアプリケーションシナリオは制限される。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
この観察は,注意機構の有効性を享受しながら,所定のネットワークでsrpを実現するための,簡便かつ効果的な注意型構造再パラメータ化(asr)を提案する。
いくつかの標準ベンチマークで実施された広範囲な実験は、ASRが既存のバックボーンネットワーク、アテンションモジュール、SRPメソッドの性能を精巧なモデル作成なしに向上することを示す。
また,その限界を分析し,提案したASRの強靭性に関する実験的および理論的証拠を提供する。 The structural re-parameterization (SRP) technique is a novel deep learning technique that achieves interconversion between different network architectures through equivalent parameter transformations. This technique enables the mitigation of the extra costs for performance improvement during training, such as parameter size and inference time, through these transformations during inference, and therefore SRP has great potential for industrial and practical applications. The existing SRP methods have successfully considered many commonly used architectures, such as normalizations, pooling methods, and multi-branch convolution. However, the widely used attention modules which drastically slow inference speed cannot be directly implemented by SRP due to these modules usually act on the backbone network in a multiplicative manner and the modules' output is input-dependent during inference, which limits the application scenarios of SRP. In this paper, we conduct extensive experiments from a statistical perspective and discover an interesting phenomenon Stripe Observation, which reveals that channel attention values quickly approach some constant vectors during training. This observation inspires us to propose a simple-yet-effective attention-alike structural re-parameterization (ASR) that allows us to achieve SRP for a given network while enjoying the effectiveness of the attention mechanism. Extensive experiments conducted on several standard benchmarks demonstrate the effectiveness of ASR in generally improving the performance of existing backbone networks, attention modules, and SRP methods without any elaborated model crafting. We also analyze the limitations and provide experimental and theoretical evidence for the strong robustness of the proposed ASR. | 翻訳日:2023-08-30 00:04:27 公開日:2023-08-27 |
# 光場圧縮のための学習型空間情報と角情報分離 Learning-based Spatial and Angular Information Separation for Light Field Compression ( http://arxiv.org/abs/2304.06322v2 ) ライセンス: Link先を確認 | Jinglei Shi, Yihong Xu, Christine Guillemot | (参考訳) ライトフィールド(light fields)は、異なる方向からシーンから放出される光を記録して、空間的および角的シーン情報の両方をキャプチャする画像データの一種である。
この文脈では、空間情報は視点に関係なく静的に残る特徴として定義されるが、角情報は視点によって異なる特徴を指す。
本稿では,光場の角度情報と空間情報を分離できる新しいニューラルネットワークを提案する。
ネットワークは、全サブアパーチャ画像(sais)間で共有される空間カーネルと、各saiの角カーネルの集合を用いた角情報を用いて空間情報を表現する。
パラメータ数を増やすことなくネットワークの表現能力をさらに向上するため,角カーネル割り当てとカーネルテンソル分解機構を導入する。
圧縮タスクに適用した場合、我々のネットワークは、他の最先端手法よりも大きなマージンで優れています。
そして、角情報を簡単に他のシーンに転送し、密集したビューをレンダリングし、ビュー合成タスクの分離と潜在的なユースケースを示す。
我々は,この話題についてさらなる研究を奨励するため,論文の受理時にコードを公開する予定だ。 Light fields are a type of image data that capture both spatial and angular scene information by recording light rays emitted by a scene from different orientations. In this context, spatial information is defined as features that remain static regardless of perspectives, while angular information refers to features that vary between viewpoints. We propose a novel neural network that, by design, can separate angular and spatial information of a light field. The network represents spatial information using spatial kernels shared among all Sub-Aperture Images (SAIs), and angular information using sets of angular kernels for each SAI. To further improve the representation capability of the network without increasing parameter number, we also introduce angular kernel allocation and kernel tensor decomposition mechanisms. Extensive experiments demonstrate the benefits of information separation: when applied to the compression task, our network outperforms other state-of-the-art methods by a large margin. And angular information can be easily transferred to other scenes for rendering dense views, showing the successful separation and the potential use case for the view synthesis task. We plan to release the code upon acceptance of the paper to encourage further research on this topic. | 翻訳日:2023-08-30 00:03:59 公開日:2023-08-27 |
# the devil is in the upsampling: アーキテクチャ上の決定は、より深いイメージでより簡単になる The Devil is in the Upsampling: Architectural Decisions Made Simpler for Denoising with Deep Image Prior ( http://arxiv.org/abs/2304.11409v2 ) ライセンス: Link先を確認 | Yilin Liu, Jiang Li, Yunkui Pang, Dong Nie, Pew-thian Yap | (参考訳) Deep Image Prior (DIP)は、一部のネットワークアーキテクチャが自然にスムーズなイメージに偏り、ノイズに抵抗することを示している。
Image denoisingはこのプロパティの即時適用です。
DIPは大規模なトレーニングセットの要件を取り除いているが、アーキテクチャ設計とノイズ適合という2つの現実的な課題をまだ示している。
既存の手法は、設計上の選択が画像とどのように対応するかを理解していないため、大きなデザイン空間から手作業やアーキテクチャの検索がほとんどである。
本研究では,DIPにおけるデノナイジング現象の主要因はアンリートアップサンプリングであることを示すため,周波数観点から解析を行った。
この発見は、残酷な検索なしにすべての画像に適したアーキテクチャを推定する戦略につながる。
広範な実験により、推定されたアーキテクチャは、最大95%のパラメータを持つ現在のメソッドよりも、テクスチャの詳細をデノベーションし、保存することが示されている。
パラメータの低い性質は、特に高いレベルのノイズに対して堅牢である。 Deep Image Prior (DIP) shows that some network architectures naturally bias towards smooth images and resist noises, a phenomenon known as spectral bias. Image denoising is an immediate application of this property. Although DIP has removed the requirement of large training sets, it still presents two practical challenges for denoising: architectural design and noise-fitting, which are often intertwined. Existing methods mostly handcraft or search for the architecture from a large design space, due to the lack of understanding on how the architectural choice corresponds to the image. In this study, we analyze from a frequency perspective to demonstrate that the unlearnt upsampling is the main driving force behind the denoising phenomenon in DIP. This finding then leads to strategies for estimating a suitable architecture for every image without a laborious search. Extensive experiments show that the estimated architectures denoise and preserve the textural details better than current methods with up to 95% fewer parameters. The under-parameterized nature also makes them especially robust to a higher level of noise. | 翻訳日:2023-08-29 23:56:16 公開日:2023-08-27 |
# 固有ベクトル相関による非エルミート・パワーロー・バンド付きランダム行列の局所化遷移 Eigenvector Correlations Across the Localisation Transition in non-Hermitian Power-Law Banded Random Matrices ( http://arxiv.org/abs/2304.09892v2 ) ライセンス: Link先を確認 | Soumi Ghosh, Manas Kulkarni, and Sthitadhi Roy | (参考訳) 非エルミート量子系のダイナミクスは、その環境から完全に隔離されていない量子デバイスの光に対する関連性が高まっている。
それらに対する関心は、特にスペクトルと固有ベクトルの相関に関して、エルミートとの基本的相違にも起因している。
これらの相関は、他の全ての相関を再構成できるため、量子系のダイナミクスを理解するための基本的な構築ブロックを形成する。
本研究では,非エルミート量子系における局所化遷移にまたがる相関について検討する。
具体的な設定として、非エルミート的非エルミート系における局所化を研究するための有望なプラットフォームとして現れた非エルミート的パワーローバンドランダム行列を考える。
固有ベクトル相関は非局在相と局所相の間に有意な差を示した。
非局在化相において、固有ベクトルは、消失するほど小さな複素固有値間隔の極限における分岐相関によって強く相関する。
逆に局所化フェーズでは、相関は固有値間隔とは独立である。
我々は,ギニアブルランダムマトリクスアンサンブルに訴えることで,非局在化相における結果を説明する。
一方, 局所化相では, 解析処理が非局在化相と比較して抑制された相関に光を当てる。
固有ベクトル相関が非エルミート生成器による実時間および虚時力学を理解するための基本的な要素であることを考えると、非エルミート量子多体系における動的位相を特徴づける新たな方法が開かれる。 The dynamics of non-Hermitian quantum systems have taken on an increasing relevance in light of quantum devices which are not perfectly isolated from their environment. The interest in them also stems from their fundamental differences from their Hermitian counterparts, particularly with regard to their spectral and eigenvector correlations. These correlations form the fundamental building block for understanding the dynamics of quantum systems as all other correlations can be reconstructed from it. In this work, we study such correlations across a localisation transition in non-Hermitian quantum systems. As a concrete setting, we consider non-Hermitian power-law banded random matrices which have emerged as a promising platform for studying localisation in disordered, non-Hermitian systems. We show that eigenvector correlations show marked differences between the delocalised and localised phases. In the delocalised phase, the eigenvectors are strongly correlated as evinced by divergent correlations in the limit of vanishingly small complex eigenvalue spacings. On the contrary, in the localised phase, the correlations are independent of the eigenvalue spacings. We explain our results in the delocalised phase by appealing to the Ginibre random matrix ensemble. On the other hand, in the localised phase, an analytical treatment sheds light on the suppressed correlations, relative to the delocalised phase. Given that eigenvector correlations are fundamental ingredients towards understanding real- and imaginary-time dynamics with non-Hermitian generators, our results open a new avenue for characterising dynamical phases in non-Hermitian quantum many-body systems. | 翻訳日:2023-08-29 23:55:07 公開日:2023-08-27 |
# VMA: 大規模運転シーンのための分枝ベクトル化マップアノテーションシステム VMA: Divide-and-Conquer Vectorized Map Annotation System for Large-Scale Driving Scene ( http://arxiv.org/abs/2304.09807v2 ) ライセンス: Link先を確認 | Shaoyu Chen, Yunchi Zhang, Bencheng Liao, Jiafeng Xie, Tianheng Cheng, Wei Sui, Qian Zhang, Chang Huang, Wenyu Liu, Xinggang Wang | (参考訳) ハイデフィニション(HD)マップは、自動運転の基盤となる。
本研究では,大規模運転シーンのHDマップを効率的に生成するシステムベクトル化マップアノテーションフレームワーク(VMA)を構築した。
本研究では,hdマップ生成の空間拡張性問題を解決するための分割・分割アノテーションスキームと,様々な幾何学的パターンを持つ抽象マップ要素を,運転シーンのほとんどのマップ要素に拡張可能な統一ポイントシーケンス表現として設計する。
VMAは非常に効率的で拡張性があり、人間の努力を無視し、空間スケールや要素タイプの観点から柔軟である。
実際の都市や高速道路のシーンにおけるアノテーション性能と,NYC Planimetric Databaseを定量的に定性的に検証した。
VMAはマップ生成効率を大幅に改善し、人間の努力をほとんど必要としない。
平均的なVMAでは、数百メートルの範囲でシーンに注釈を付けるのに160分かかり、人件費の52.3%を削減し、アプリケーションの価値が高い。
コード:https://github.com/hustvl/VMA。 High-definition (HD) map serves as the essential infrastructure of autonomous driving. In this work, we build up a systematic vectorized map annotation framework (termed VMA) for efficiently generating HD map of large-scale driving scene. We design a divide-and-conquer annotation scheme to solve the spatial extensibility problem of HD map generation, and abstract map elements with a variety of geometric patterns as unified point sequence representation, which can be extended to most map elements in the driving scene. VMA is highly efficient and extensible, requiring negligible human effort, and flexible in terms of spatial scale and element type. We quantitatively and qualitatively validate the annotation performance on real-world urban and highway scenes, as well as NYC Planimetric Database. VMA can significantly improve map generation efficiency and require little human effort. On average VMA takes 160min for annotating a scene with a range of hundreds of meters, and reduces 52.3% of the human cost, showing great application value. Code: https://github.com/hustvl/VMA. | 翻訳日:2023-08-29 23:54:42 公開日:2023-08-27 |
# 検証・検証のレンズによる大規模言語モデルの安全性と信頼性調査 A Survey of Safety and Trustworthiness of Large Language Models through the Lens of Verification and Validation ( http://arxiv.org/abs/2305.11391v2 ) ライセンス: Link先を確認 | Xiaowei Huang, Wenjie Ruan, Wei Huang, Gaojie Jin, Yi Dong, Changshun Wu, Saddek Bensalem, Ronghui Mu, Yi Qi, Xingyu Zhao, Kaiwen Cai, Yanghao Zhang, Sihao Wu, Peipei Xu, Dengyu Wu, Andre Freitas, Mustafa A. Mustafa | (参考訳) 大規模言語モデル(llm)は、多くの知識ドメインにまたがる詳細な回答と人間のレベルでの会話にエンドユーザが関与できるように、aiの新たな熱波を爆発させた。
多くの産業アプリケーションで急速に採用されているこの調査は、安全性と信頼性を懸念している。
まず、LLMの既知の脆弱性と制限をレビューし、固有の問題、攻撃、意図しないバグに分類します。
次に、従来のソフトウェアや畳み込みニューラルネットワークなどのディープラーニングモデルで広く開発されている検証検証(V&V)技術が、仕様に対する実装の整合性をチェックする独立プロセスとして、LCMのライフサイクルを通じて統合され、さらに拡張され、LCMの安全性と信頼性に厳密な分析を提供することができるかどうかを検討する。
具体的には、ファルシフィケーションと評価、検証、実行監視、規制と倫理的利用の4つの補完手法を検討する。
合計で370以上の基準が、V&Vの観点からの安全性と信頼性の問題の迅速な理解を支援すると考えられている。
安全と信頼性の問題を特定するために集中的な研究が行われているが、安全と信頼性の要件とllmの整合を保証するための厳密で実用的な方法が求められている。 Large Language Models (LLMs) have exploded a new heatwave of AI for their ability to engage end-users in human-level conversations with detailed and articulate answers across many knowledge domains. In response to their fast adoption in many industrial applications, this survey concerns their safety and trustworthiness. First, we review known vulnerabilities and limitations of the LLMs, categorising them into inherent issues, attacks, and unintended bugs. Then, we consider if and how the Verification and Validation (V&V) techniques, which have been widely developed for traditional software and deep learning models such as convolutional neural networks as independent processes to check the alignment of their implementations against the specifications, can be integrated and further extended throughout the lifecycle of the LLMs to provide rigorous analysis to the safety and trustworthiness of LLMs and their applications. Specifically, we consider four complementary techniques: falsification and evaluation, verification, runtime monitoring, and regulations and ethical use. In total, 370+ references are considered to support the quick understanding of the safety and trustworthiness issues from the perspective of V&V. While intensive research has been conducted to identify the safety and trustworthiness issues, rigorous yet practical methods are called for to ensure the alignment of LLMs with safety and trustworthiness requirements. | 翻訳日:2023-08-29 23:46:35 公開日:2023-08-27 |
# アーベルフラストレーションフェルミオンラダーにおける非可換su(2)不変性の出現 Emergence of non-Abelian SU(2) invariance in Abelian frustrated fermionic ladders ( http://arxiv.org/abs/2305.06911v2 ) ライセンス: Link先を確認 | Bachana Beradze, Mikheil Tsitsishvili, Emanuele Tirrito, Marcello Dalmonte, Titas Chanda, Alexander Nersesyan | (参考訳) 三角平板当たり$\pi/2$の磁束を持つ2脚の三角ラダー上のスピンレスフェルミオンの相互作用系を考える。
微視的には、この系は全フェルミオン電荷の保存に対応する u(1) 対称性を示し、離散的 $\mathbb{z}_2$ 対称性(パリティ変換と鎖置換の積)を示す。
ボーソニゼーションを用いて、低エネルギー限界において、この系は量子二重周波数正弦-ゴルドンモデルによって記述されることを示す。
この対応に基づいて、システムの豊かな位相図を得る。
弱相互作用のための自明かつ位相的バンド絶縁体を含み、ガウス臨界線によって分離される一方、大きな相互作用では、自発的に$\mathbb{Z}_2$対称性セットと強い相関位相を持ち、純電荷不均衡と非ゼロ全電流を示す。
3つの相の交点において、系は始点 SU(2) 対称性を持つ臨界点を特徴とする。
この非可換対称性は微視的記述に欠けており、磁束、フラストレーション、多体相関の組合せ効果として低エネルギーで実現されている。
臨界性は SU(2)$_1$ Wess-Zumino-Novikov-Witten 普遍性クラスに属する。
臨界点は2つのイジング臨界線に分岐し、バンド絶縁体と強結合対称性の破れ相を分離する。
一方の臨界分岐点付近のモデルの低エネルギー記述と、一方のアシュキン・テラーモデルと他方の弱二量化XXZスピン-1/2鎖との間には、解析的接続が成立する。
我々はテンソルネットワークシミュレーションによるフィールド理論の理解を補完し,すべてのボーソライズ予測の説得力のある定量的証拠を提供する。
Rydbergドレッシングを用いた最新の冷間原子実験に興味があり、すでに相関するはしごのダイナミクスが実証されている。 We consider a system of interacting spinless fermions on a two-leg triangular ladder with $\pi/2$ magnetic flux per triangular plaquette. Microscopically, the system exhibits a U(1) symmetry corresponding to the conservation of total fermionic charge, and a discrete $\mathbb{Z}_2$ symmetry -- a product of parity transformation and chain permutation. Using bosonization, we show that, in the low-energy limit, the system is described by the quantum double-frequency sine-Gordon model. On the basis of this correspondence, a rich phase diagram of the system is obtained. It includes trivial and topological band insulators for weak interactions, separated by a Gaussian critical line, whereas at larger interactions a strongly correlated phase with spontaneously broken $\mathbb{Z}_2$ symmetry sets in, exhibiting a net charge imbalance and non-zero total current. At the intersection of the three phases, the system features a critical point with an emergent SU(2) symmetry. This non-Abelian symmetry, absent in the microscopic description, is realized at low-energies as a combined effect of the magnetic flux, frustration, and many-body correlations. The criticality belongs to the SU(2)$_1$ Wess-Zumino-Novikov-Witten universality class. The critical point bifurcates into two Ising critical lines that separate the band insulators from the strong-coupling symmetry broken phase. We establish an analytical connection between the low-energy description of our model around the critical bifurcation point on one hand, and the Ashkin-Teller model and a weakly dimerized XXZ spin-1/2 chain on the other. We complement our field-theory understanding via tensor network simulations, providing compelling quantitative evidences of all bosonization predictions. Our findings are of interest to up-to-date cold atom experiments utilizing Rydberg dressing, that have already demonstrated correlated ladder dynamics. | 翻訳日:2023-08-29 23:45:30 公開日:2023-08-27 |
# オンライン適応交通実験のための実践的バッチベイズサンプリングアルゴリズム Practical Batch Bayesian Sampling Algorithms for Online Adaptive Traffic Experimentation ( http://arxiv.org/abs/2305.14704v3 ) ライセンス: Link先を確認 | Zezhong Zhang and Ted Yuan | (参考訳) オンライン制御実験は、新しいウェブ機能を評価するための業界標準として登場した。
新しいウェブアルゴリズムが普及するにつれて、実験プラットフォームはオンライン実験の速度に対する需要が増大し、適応的な交通試験手法がトラフィックを効率よく割り当てることによって最適な変種を特定するスピードアップを促す。
本稿では,ebayの実験プラットフォームにおける4つのベイズ的バッチバンディットアルゴリズム (nb-ts, wb-ts, nb-tts, wb-tts) を提案し,新たな工学的技術的負債を伴わない目標メトリックのバッチ統計を用いた。
特に、新しいwb-ttsは固定地平線a/bテストの効率的で信頼性が高く、堅牢な代替品である。
もう一つの新しい貢献は、ベストアーム識別アルゴリズムの信頼性を評価基準に持ち込み、同等のベストアームによる深刻な偽陽性インフレの存在を強調することである。
実験者の信頼を得るためには、実験プラットフォームは効率性と信頼性の両方を考慮する必要があるが、著者の知る限り、信頼性を重要なトピックとして扱うことは、最高の腕の識別または多腕の盗賊の文献ではほとんど議論されない。
本稿では,中性後部変形のないベイズバンド,特にナイーブ・トンプソンサンプリング(NB-TS)が常に同等の腕から腕を識別できるため,信頼できないことを示す。
信頼性を回復する新発見は、同等のベストアームの後方最適確率の収束分布と、偽陽性を制御する中性後方転位との間の関係を明らかにする。
最後に、ebayの経験から学んだ教訓と4つのアルゴリズムの評価について述べる。
我々の研究は、他の産業実践者にとって有益であり、適応型交通実験の信頼性に関心を持つ学術研究者に刺激されることを願っている。 Online controlled experiments have emerged as industry gold standard for assessing new web features. As new web algorithms proliferate, experimentation platform faces an increasing demand on the velocity of online experiments, which encourages adaptive traffic testing methods to speed up identifying best variant by efficiently allocating traffic. This paper proposed four Bayesian batch bandit algorithms (NB-TS, WB-TS, NB-TTTS, WB-TTTS) for eBay's experimentation platform, using summary batch statistics of a goal metric without incurring new engineering technical debts. The novel WB-TTTS, in particular, demonstrates as an efficient, trustworthy and robust alternative to fixed horizon A/B testing. Another novel contribution is to bring trustworthiness of best arm identification algorithms into evaluation criterion and highlight the existence of severe false positive inflation with equivalent best arms. To gain the trust of experimenters, the experimentation platform must consider both efficiency and trustworthiness; However, to the best of authors' knowledge, trustworthiness as an important topic is rarely discussed in literatures of either best arm identification or multi-armed bandit. This paper shows that Bayesian bandits without neutral posterior reshaping, particularly naive Thompson sampling (NB-TS), are untrustworthy because they can always identify an arm as best from equivalent best arms. To restore trustworthiness, a novel finding uncovers connections between convergence distribution of posterior optimal probabilities of equivalent best arms and neutral posterior reshaping, which controls false positives. Lastly, this paper presents lessons learned from eBay's experience, as well as evaluations of the four algorithms. We hope our work is useful to other industrial practitioners and inspire academic researchers interested in the trustworthiness of adaptive traffic experimentation. | 翻訳日:2023-08-29 23:35:19 公開日:2023-08-27 |
# VDD: セマンティックセグメンテーションのための空のドローンデータセット VDD: Varied Drone Dataset for Semantic Segmentation ( http://arxiv.org/abs/2305.13608v2 ) ライセンス: Link先を確認 | Wenxiao Cai, Ke Jin, Jinyan Hou, Cong Guo, Letian Wu, Wankou Yang | (参考訳) ドローン画像のセマンティックセグメンテーションは、単眼カメラからの深度情報の欠如を補う重要なセマンティックな詳細を提供するため、多くの空中視覚タスクにとって重要である。
しかし、ドローンのセマンティックセグメンテーションモデルの高精度を維持するには、多種多様で大規模で高解像度なデータセットが必要である。
既存のデータセットは概して小さく、主に都市部に集中し、田園部や工業地帯を無視している。
このようなデータセットでトレーニングされたモデルは、ドローン画像に見られるさまざまな入力を処理するのに十分な装備がない。
VDD-Varied Drone Datasetでは、慎重に選択されたシーン、カメラアングル、様々な光と気象条件を含む400の高解像度画像からなる大規模で高密度なラベル付きデータセットを提供する。
さらに、既存のドローンデータセットをアノテーション標準に適合させ、VDDと統合して、Cityscapesの細かいアノテーションの1.5倍の大きさのデータセットを作成しました。
我々は,CNNとTransformerのバックボーンを組み合わせた新しいDeepLabTモデルを開発し,ドローン画像のセマンティックセグメンテーションのための信頼性の高いベースラインを提供する。
実験の結果,DeepLabTはVDDや他のドローンのデータセットで良好に動作することがわかった。
われわれのデータセットはドローン画像のセグメンテーションにかなりの関心を惹き出し、他のドローンビジョンタスクの基礎となるだろう。
VDDは、私たちのWebサイトで、https://vddvdd.com.comで無料で利用可能です。 Semantic segmentation of drone images is critical to many aerial vision tasks as it provides essential semantic details that can compensate for the lack of depth information from monocular cameras. However, maintaining high accuracy of semantic segmentation models for drones requires diverse, large-scale, and high-resolution datasets, which are rare in the field of aerial image processing. Existing datasets are typically small and focus primarily on urban scenes, neglecting rural and industrial areas. Models trained on such datasets are not sufficiently equipped to handle the variety of inputs seen in drone imagery. In the VDD-Varied Drone Dataset, we offer a large-scale and densely labeled dataset comprising 400 high-resolution images that feature carefully chosen scenes, camera angles, and varied light and weather conditions. Furthermore, we have adapted existing drone datasets to conform to our annotation standards and integrated them with VDD to create a dataset 1.5 times the size of fine annotation of Cityscapes. We have developed a novel DeepLabT model, which combines CNN and Transformer backbones, to provide a reliable baseline for semantic segmentation in drone imagery. Our experiments indicate that DeepLabT performs admirably on VDD and other drone datasets. We expect that our dataset will generate considerable interest in drone image segmentation and serve as a foundation for other drone vision tasks. VDD is freely available on our website at https://vddvdd.com . | 翻訳日:2023-08-29 23:34:47 公開日:2023-08-27 |
# クープマン理論を用いた対話環境における効率的なダイナミクスモデリング Efficient Dynamics Modeling in Interactive Environments with Koopman Theory ( http://arxiv.org/abs/2306.11941v3 ) ライセンス: Link先を確認 | Arnab Kumar Mondal, Siba Smarak Panigrahi, Sai Rajeswar, Kaleem Siddiqi, Siamak Ravanbakhsh | (参考訳) 対話環境におけるダイナミクスの正確なモデリングは、長距離予測の成功に不可欠である。
このような能力は強化学習(RL)と計画アルゴリズムを前進させるが、達成は困難である。
モデル推定の不正確さは複雑になり、長い水平線上の誤差が増加する。
我々は、環境の非線形ダイナミクスを高次元潜在空間で線形化することができるクープマン理論のレンズからこの問題にアプローチする。
これにより、エージェントのアクションを毎回考慮しながら畳み込みを用いて長距離予測のシーケンシャルな問題を効率的に並列化することができる。
提案手法は安定性解析と時間経過による勾配制御も可能とした。
これらの利点は、拡張水平線上のモデリング力学の効率と精度の両方において、既存のアプローチよりも大幅に改善される。
また,モデルベース計画とモデルフリーrlのためのダイナミクスモデリングに容易に組み込むことができ,実験結果が期待できることを示す。 The accurate modeling of dynamics in interactive environments is critical for successful long-range prediction. Such a capability could advance Reinforcement Learning (RL) and Planning algorithms, but achieving it is challenging. Inaccuracies in model estimates can compound, resulting in increased errors over long horizons. We approach this problem from the lens of Koopman theory, where the nonlinear dynamics of the environment can be linearized in a high-dimensional latent space. This allows us to efficiently parallelize the sequential problem of long-range prediction using convolution while accounting for the agent's action at every time step. Our approach also enables stability analysis and better control over gradients through time. Taken together, these advantages result in significant improvement over the existing approaches, both in the efficiency and the accuracy of modeling dynamics over extended horizons. We also show that this model can be easily incorporated into dynamics modeling for model-based planning and model-free RL and report promising experimental results. | 翻訳日:2023-08-29 23:27:22 公開日:2023-08-27 |
# simplemapping: ディープマルチビューステレオを用いたリアルタイム視覚慣性密集マッピング SimpleMapping: Real-Time Visual-Inertial Dense Mapping with Deep Multi-View Stereo ( http://arxiv.org/abs/2306.08648v3 ) ライセンス: Link先を確認 | Yingye Xin, Xingxing Zuo, Dongyue Lu, Stefan Leutenegger | (参考訳) 逐次単眼画像と慣性測定ユニット(IMU)のみを用いて高画質の3次元メッシュ再構成を行うことができるリアルタイムビジュアル慣性高密度マッピング法を提案する。
6-DoFカメラのポーズは、頑健な特徴に基づく視覚慣性計測(VIO)によって推定され、ノイズの多い3Dマップポイントを副産物として生成する。
本稿では,vioシステムから有益だがノイズの多いスパースポイントを効果的に活用できるスパースポイント支援マルチビューステレオニューラルネットワーク(spa-mvsnet)を提案する。
VIOからのスパース深度は、まず、シングルビュー深度完了ネットワークによって完了する。
この濃厚深さマップは、当然精度は限られているが、mvsネットワークのコストボリューム生成と正確な濃密深さ予測のための正規化を導くために、前もって使用される。
MVSネットワークによるキーフレーム画像の予測深度マップをTSDF-Fusionを用いてグローバルマップにインクリメンタルに融合する。
提案するspa-mvsnetと,複数の公開データセット上での視覚慣性的高密度マッピングシステムと,我々のデータセットの両方を評価し,システムの印象的な一般化能力と高品質な3dメッシュ再構成をオンラインで提供する能力を示した。
提案手法は,EuRoCデータセットの難易度評価において,既存システムよりも39.7%のFスコア向上を実現している。 We present a real-time visual-inertial dense mapping method capable of performing incremental 3D mesh reconstruction with high quality using only sequential monocular images and inertial measurement unit (IMU) readings. 6-DoF camera poses are estimated by a robust feature-based visual-inertial odometry (VIO), which also generates noisy sparse 3D map points as a by-product. We propose a sparse point aided multi-view stereo neural network (SPA-MVSNet) that can effectively leverage the informative but noisy sparse points from the VIO system. The sparse depth from VIO is firstly completed by a single-view depth completion network. This dense depth map, although naturally limited in accuracy, is then used as a prior to guide our MVS network in the cost volume generation and regularization for accurate dense depth prediction. Predicted depth maps of keyframe images by the MVS network are incrementally fused into a global map using TSDF-Fusion. We extensively evaluate both the proposed SPA-MVSNet and the entire visual-inertial dense mapping system on several public datasets as well as our own dataset, demonstrating the system's impressive generalization capabilities and its ability to deliver high-quality 3D mesh reconstruction online. Our proposed dense mapping system achieves a 39.7% improvement in F-score over existing systems when evaluated on the challenging scenarios of the EuRoC dataset. | 翻訳日:2023-08-29 23:24:59 公開日:2023-08-27 |
# RestGPT: 大規模言語モデルを現実世界のRESTful APIで接続する RestGPT: Connecting Large Language Models with Real-World RESTful APIs ( http://arxiv.org/abs/2306.06624v2 ) ライセンス: Link先を確認 | Yifan Song, Weimin Xiong, Dawei Zhu, Wenhao Wu, Han Qian, Mingbo Song, Hailiang Huang, Cheng Li, Ke Wang, Rong Yao, Ye Tian, Sujian Li | (参考訳) ツール強化された大規模言語モデル(LLM)は、幅広いタスクに対処する上で大きな進歩を遂げた。
しかし、既存の手法は主に特別に設計されたツールに限られており、現実のシナリオに直面すると大きな制限がある複雑な命令を満たせない。
本稿では、webサービス開発で広く採用されているrestソフトウェアアーキテクチャスタイルに準拠した、llmとrestful apiを接続することにより、より現実的なシナリオを探求する。
複雑な命令に対処する実践的な課題に対処するため,LLMのパワーを活用し,タスク分解とAPI選択の能力を高めるための粗大なオンライン計画機構を運用するRestGPTを提案する。
RestGPTにはRESTful APIを呼び出すためのAPIエグゼクタも含まれている。
restgptのパフォーマンスを十分に評価するために、実世界の2つのシナリオと、金のソリューションパスを持つ人間による指示からなる高品質なベンチマークであるrestbenchを提案する。
実験により、RestGPTは複雑なタスクにおいて印象的な結果を得ることができ、強い堅牢性を持ち、AGIへの新たな道を開くことが示されている。
RestGPTとRestBenchはhttps://restgpt.github.io/で公開されている。 Tool-augmented large language models (LLMs) have achieved remarkable progress in tackling a broad range of tasks. However, existing methods are mainly restricted to specifically designed tools and fail to fulfill complex instructions, having great limitations when confronted with real-world scenarios. In this paper, we explore a more realistic scenario by connecting LLMs with RESTful APIs, which adhere to the widely adopted REST software architectural style for web service development. To address the practical challenges of tackling complex instructions, we propose RestGPT, which exploits the power of LLMs and conducts a coarse-to-fine online planning mechanism to enhance the abilities of task decomposition and API selection. RestGPT also contains an API executor tailored for calling RESTful APIs, which can meticulously formulate parameters and parse API responses. To fully evaluate the performance of RestGPT, we propose RestBench, a high-quality benchmark which consists of two real-world scenarios and human-annotated instructions with gold solution paths. Experiments show that RestGPT is able to achieve impressive results in complex tasks and has strong robustness, which paves a new way towards AGI. RestGPT and RestBench is publicly available at https://restgpt.github.io/. | 翻訳日:2023-08-29 23:24:17 公開日:2023-08-27 |
# LXL:4次元イメージングレーダとカメラフュージョンを用いたLiDARによるリーン3次元物体検出 LXL: LiDAR Excluded Lean 3D Object Detection with 4D Imaging Radar and Camera Fusion ( http://arxiv.org/abs/2307.00724v3 ) ライセンス: Link先を確認 | Weiyi Xiong, Jianan Liu, Tao Huang, Qing-Long Han, Yuxuan Xia, Bing Zhu | (参考訳) 新興技術であり比較的手頃な価格の装置であるこの4Dイメージングレーダーは、自動運転における3Dオブジェクト検出にすでに有効であることが確認されている。
しかし、4Dレーダーポイント雲の空間とノイズはさらなる性能向上を妨げ、他のモードとの融合に関する詳細な研究は欠如している。
一方で,新たなイメージビュー変換戦略として,いくつかのイメージベース検出器に"サンプリング"が適用され,画像深度予測がなくても,リフト・スプレート・シューティング(lss)で提案されている広く適用されている"深度ベーススプレーティング"を上回っていることが示されている。
しかし、「サンプリング」の可能性は完全には開かれていない。
本稿では,カメラ上の「サンプリング」ビュー変換戦略と4次元イメージングレーダ融合による3次元物体検出について検討する。
提案したLiDAR Excluded Lean(LXL)モデルでは,画像視点(PV)特徴とレーダー鳥の視線(BEV)特徴から,予測画像深度分布マップとレーダ3D占有格子を生成する。
これらは、画像ビュー変換を支援するため、"radar occupancy-assisted depth-based sampling"と呼ばれるlxlのコアに送られる。
画像深度とレーダー情報の導入は、"サンプリング"戦略を強化し、より正確なビュー変換をもたらす。
VoD と TJ4DRadSet データセットの実験により,提案手法はベルやホイッスルを使わずに,最先端の3Dオブジェクト検出手法よりも優れた性能を示した。
アブレーション研究により,本手法は異なる強調設定において最良であることが証明された。 As an emerging technology and a relatively affordable device, the 4D imaging radar has already been confirmed effective in performing 3D object detection in autonomous driving. Nevertheless, the sparsity and noisiness of 4D radar point clouds hinder further performance improvement, and in-depth studies about its fusion with other modalities are lacking. On the other hand, as a new image view transformation strategy, "sampling" has been applied in a few image-based detectors and shown to outperform the widely applied "depth-based splatting" proposed in Lift-Splat-Shoot (LSS), even without image depth prediction. However, the potential of "sampling" is not fully unleashed. In this paper, we investigate the "sampling" view transformation strategy on the camera and 4D imaging radar fusion-based 3D object detection. In the proposed LiDAR Excluded Lean (LXL) model, predicted image depth distribution maps and radar 3D occupancy grids are generated from image perspective view (PV) features and radar bird's eye view (BEV) features, respectively. They are sent to the core of LXL, called "radar occupancy-assisted depth-based sampling", to aid image view transformation. Introducing image depths and radar information enhances the "sampling" strategy and leads to more accurate view transformation. Experiments on VoD and TJ4DRadSet datasets show that the proposed method outperforms the state-of-the-art 3D object detection methods by a significant margin without bells and whistles. Ablation studies demonstrate that our method performs the best among different enhancement settings. | 翻訳日:2023-08-29 23:12:40 公開日:2023-08-27 |
# モデルとスズマン:大規模言語モデルを用いたAIアライメントにおける主エージェント問題に関する行動経済学的研究 Of Models and Tin Men: A Behavioural Economics Study of Principal-Agent Problems in AI Alignment using Large-Language Models ( http://arxiv.org/abs/2307.11137v2 ) ライセンス: Link先を確認 | Steve Phelps and Rebecca Ranson | (参考訳) AIアライメント(AI Alignment)は、単一のデザイナと、設計者がエージェントの動作をその目的と一致させようとする人工エージェントとの相互作用としてしばしば提示される。
一般的に事前学習される大言語モデル(llm)でインスタンス化されたエージェントの出現により、現実世界では設計者とエージェントの間に1対1の対応がなく、多くのエージェント(人工的および人間的の両方)は異質な値を持っているため、aiの安全性の本質的な側面を捉えていないと論じる。
したがって、AIの安全性には経済的側面があり、プリンシパルエージェントの問題が発生する可能性が高い。
主エージェント問題紛争は、情報非対称性とエージェントの効用とその主役間の固有の不整合が原因で発生し、エージェントを訓練を通じて所望の実用機能を採用するように強制することによって、この固有の不整合は克服できない。
我々は、プリンシパルエージェント問題の根底にある仮定は、実際の状況において事前訓練されたaiモデルを含む安全問題の本質を捉えるために不可欠であると主張する。
AIの安全性に対して実証的なアプローチをとることで、GPTモデルが主エージェント間の衝突に対してどのように反応するかを調査する。
GPT-3.5 と GPT-4 をベースとしたエージェントは,簡単なオンラインショッピングタスクで主目的を上回り,主エージェントの対立の明確な証拠を示す。
驚くべきことに、初期のGPT-3.5モデルは情報非対称性の変化に応じてよりニュアンスな振る舞いを示すが、後期のGPT-4モデルはそれ以前のアライメントに固執する。
この結果は、経済学の原則をアライメントプロセスに組み込むことの重要性を強調している。 AI Alignment is often presented as an interaction between a single designer and an artificial agent in which the designer attempts to ensure the agent's behavior is consistent with its purpose, and risks arise solely because of conflicts caused by inadvertent misalignment between the utility function intended by the designer and the resulting internal utility function of the agent. With the advent of agents instantiated with large-language models (LLMs), which are typically pre-trained, we argue this does not capture the essential aspects of AI safety because in the real world there is not a one-to-one correspondence between designer and agent, and the many agents, both artificial and human, have heterogeneous values. Therefore, there is an economic aspect to AI safety and the principal-agent problem is likely to arise. In a principal-agent problem conflict arises because of information asymmetry together with inherent misalignment between the utility of the agent and its principal, and this inherent misalignment cannot be overcome by coercing the agent into adopting a desired utility function through training. We argue the assumptions underlying principal-agent problems are crucial to capturing the essence of safety problems involving pre-trained AI models in real-world situations. Taking an empirical approach to AI safety, we investigate how GPT models respond in principal-agent conflicts. We find that agents based on both GPT-3.5 and GPT-4 override their principal's objectives in a simple online shopping task, showing clear evidence of principal-agent conflict. Surprisingly, the earlier GPT-3.5 model exhibits more nuanced behaviour in response to changes in information asymmetry, whereas the later GPT-4 model is more rigid in adhering to its prior alignment. Our results highlight the importance of incorporating principles from economics into the alignment process. | 翻訳日:2023-08-29 22:53:28 公開日:2023-08-27 |
# PMU測定に基づく深部伝達学習による電力系統の短期電圧安定性評価 PMU measurements based short-term voltage stability assessment of power systems via deep transfer learning ( http://arxiv.org/abs/2308.03953v2 ) ライセンス: Link先を確認 | Yang Li, Shitu Zhang, Yuanzheng Li, Jiting Cao, Shuyue Jia | (参考訳) ディープラーニングは、電力系統における短期電圧安定評価(stvsa)の課題に対処する効果的なソリューションとして登場した。
しかし、既存のディープラーニングベースのstvsaアプローチでは、トポロジカルな変更への適応、サンプルラベリング、小さなデータセットの処理に制限がある。
これらの課題を克服するために,深層移動学習を用いた新しいファサー計測ユニット (PMU) を用いたSTVSA法を提案する。
この手法はPMUが取得したリアルタイムな動的情報を利用して初期データセットを生成する。
サンプルラベリングにはtemporal ensemblingを使用し、データ拡張には最小二乗生成逆ネットワーク(lsgan)を使用し、小規模データセットでの効果的なディープラーニングを可能にする。
さらに, 異なる断層間の接続を探索することにより, トポロジカルな変化への適応性を高める。
IEEE 39-bus 試験システムの実験結果から,提案手法は移動学習によるモデル評価精度を約20%向上し,トポロジ的変化への強い適応性を示した。
トランスフォーマーモデルの自己認識機構を活用することで、浅層学習法や他のディープラーニングベースのアプローチよりも大きな利点を提供する。 Deep learning has emerged as an effective solution for addressing the challenges of short-term voltage stability assessment (STVSA) in power systems. However, existing deep learning-based STVSA approaches face limitations in adapting to topological changes, sample labeling, and handling small datasets. To overcome these challenges, this paper proposes a novel phasor measurement unit (PMU) measurements-based STVSA method by using deep transfer learning. The method leverages the real-time dynamic information captured by PMUs to create an initial dataset. It employs temporal ensembling for sample labeling and utilizes least squares generative adversarial networks (LSGAN) for data augmentation, enabling effective deep learning on small-scale datasets. Additionally, the method enhances adaptability to topological changes by exploring connections between different faults. Experimental results on the IEEE 39-bus test system demonstrate that the proposed method improves model evaluation accuracy by approximately 20% through transfer learning, exhibiting strong adaptability to topological changes. Leveraging the self-attention mechanism of the Transformer model, this approach offers significant advantages over shallow learning methods and other deep learning-based approaches. | 翻訳日:2023-08-29 21:07:14 公開日:2023-08-27 |
# 深層生成モデル, 合成語彙データ, 微分プライバシー : 概観と合成 Deep Generative Models, Synthetic Tabular Data, and Differential Privacy: An Overview and Synthesis ( http://arxiv.org/abs/2307.15424v2 ) ライセンス: Link先を確認 | Conor Hassan, Robert Salomone, Kerrie Mengersen | (参考訳) 本稿では,表層データセットに着目した深層生成モデルによる合成データ生成の最近の進展を包括的に分析する。
具体的には、プライバシーに敏感なデータにおける合成データ生成の重要性について概説する。
さらに、他の手法よりも深い生成モデルを使用することの利点を強調し、教師なし学習、ニューラルネットワーク、生成モデルなどの基礎となる概念を詳細に説明する。
本稿では,データ正規化やプライバシ問題,モデル評価など,表層データセットの深層生成モデルの利用に関する課題と考察について述べる。
このレビューは、合成データ生成とその応用に関心のある研究者や実践者に貴重なリソースを提供する。 This article provides a comprehensive synthesis of the recent developments in synthetic data generation via deep generative models, focusing on tabular datasets. We specifically outline the importance of synthetic data generation in the context of privacy-sensitive data. Additionally, we highlight the advantages of using deep generative models over other methods and provide a detailed explanation of the underlying concepts, including unsupervised learning, neural networks, and generative models. The paper covers the challenges and considerations involved in using deep generative models for tabular datasets, such as data normalization, privacy concerns, and model evaluation. This review provides a valuable resource for researchers and practitioners interested in synthetic data generation and its applications. | 翻訳日:2023-08-29 21:04:33 公開日:2023-08-27 |
# Seal-3D:ニューラルラジアンスフィールドのための対話型ピクセルレベル編集 Seal-3D: Interactive Pixel-Level Editing for Neural Radiance Fields ( http://arxiv.org/abs/2307.15131v2 ) ライセンス: Link先を確認 | Xiangyu Wang, Jingsen Zhu, Qi Ye, Yuchi Huo, Yunlong Ran, Zhihua Zhong, Jiming Chen | (参考訳) 暗黙のニューラル表現(NeRF)やニューラルラディアンスフィールド(NeRF)の人気により、再構成後のシーンや3Dコンテンツ作成といったタスクのために、暗黙の3Dモデルと相互作用する編集方法の必要性が高まっている。
以前の研究では様々な観点からNeRF編集を調査していたが、編集の柔軟性、品質、スピードに制限があり、直接編集応答やインスタントプレビューを提供しなかった。
重要な課題は、編集命令を直接反映し、即座に更新できるローカル編集可能なニューラル表現を想像することである。
このギャップを埋めるために,幅広いnerfライクなバックボーンを用いてnrfモデルをピクセルレベルで自由に編集し,編集効果を即座にプレビューできる,新しい対話型表現編集方式である seal-3d を提案する。
この効果を達成するために,教師モデルにおける編集指示をnrfモデルの原空間にマッピングするプロキシ関数と,局所事前学習とグローバル微調整を用いた学生モデルの2段階学習戦略によって課題を解決した。
様々な編集タイプを展示するために、NeRF編集システムを構築する。
本システムは約1秒のインタラクティブな速度で魅力的な編集効果を実現できる。 With the popularity of implicit neural representations, or neural radiance fields (NeRF), there is a pressing need for editing methods to interact with the implicit 3D models for tasks like post-processing reconstructed scenes and 3D content creation. While previous works have explored NeRF editing from various perspectives, they are restricted in editing flexibility, quality, and speed, failing to offer direct editing response and instant preview. The key challenge is to conceive a locally editable neural representation that can directly reflect the editing instructions and update instantly. To bridge the gap, we propose a new interactive editing method and system for implicit representations, called Seal-3D, which allows users to edit NeRF models in a pixel-level and free manner with a wide range of NeRF-like backbone and preview the editing effects instantly. To achieve the effects, the challenges are addressed by our proposed proxy function mapping the editing instructions to the original space of NeRF models in the teacher model and a two-stage training strategy for the student model with local pretraining and global finetuning. A NeRF editing system is built to showcase various editing types. Our system can achieve compelling editing effects with an interactive speed of about 1 second. | 翻訳日:2023-08-29 21:04:22 公開日:2023-08-27 |
# dyadic 強化学習 Dyadic Reinforcement Learning ( http://arxiv.org/abs/2308.07843v2 ) ライセンス: Link先を確認 | Shuangning Li, Lluis Salvat Niell, Sung Won Choi, Inbal Nahum-Shani, Guy Shani, Susan Murphy | (参考訳) モバイルヘルスは、個人の日常生活に介入することで、健康上の成果を高めることを目的としている。
ケアパートナーやソーシャルサポートネットワークの関与は、個人が負担の多い医療状況を管理するのに不可欠である。
これは、社会的支援を強化することを目的として、ダイアド関係(対象者とケアパートナーの関係)をターゲットにした介入をデザインする機会を提供する。
本稿では,対象者とその介護パートナーの状況的要因と過去の対応に基づいて,介入配信をパーソナライズするオンライン強化学習アルゴリズムであるdyadic rlを開発した。
ここで、複数の介入セットは、複数の時間間隔にわたってdyadに影響を与える。
開発されたダイド RL はベイズ的かつ階層的である。
問題設定を正式に導入し, Dyadic RLを開発し, 後悔の束縛を確立する。
本研究は,モバイル健康調査で収集したデータから構築した,おもちゃのシナリオと現実的なテストベッドのシミュレーション研究を通じて,ダイアディッドRLの実証性能を実証する。 Mobile health aims to enhance health outcomes by delivering interventions to individuals as they go about their daily life. The involvement of care partners and social support networks often proves crucial in helping individuals managing burdensome medical conditions. This presents opportunities in mobile health to design interventions that target the dyadic relationship -- the relationship between a target person and their care partner -- with the aim of enhancing social support. In this paper, we develop dyadic RL, an online reinforcement learning algorithm designed to personalize intervention delivery based on contextual factors and past responses of a target person and their care partner. Here, multiple sets of interventions impact the dyad across multiple time intervals. The developed dyadic RL is Bayesian and hierarchical. We formally introduce the problem setup, develop dyadic RL and establish a regret bound. We demonstrate dyadic RL's empirical performance through simulation studies on both toy scenarios and on a realistic test bed constructed from data collected in a mobile health study. | 翻訳日:2023-08-29 20:57:44 公開日:2023-08-27 |
# SPM:構造的事前学習とマッチングアーキテクチャによる関係モデリング SPM: Structured Pretraining and Matching Architectures for Relevance Modeling in Meituan Search ( http://arxiv.org/abs/2308.07711v3 ) ライセンス: Link先を確認 | Wen Zan, Yaopeng Han, Xiaotian Jiang, Yao Xiao, Yang Yang, Dayao Chen, Sheng Chen | (参考訳) eコマース検索では,クエリとドキュメントの関連性はユーザエクスペリエンスを満たす上で必須である。
製品を提供する従来のeコマースプラットフォームとは異なり、ユーザは主に製品提供者向けのmeituanのようなライフサービスプラットフォームで検索する。
1) 構造化文書の異なる分野に言語分布の相違があるため, BERT のような既製の事前学習言語モデルに基づく手法を直接採用することは困難である。
2) 異なる分野が重要であり,その長さが大きく異なるため,関連性マッチングに役立つ文書情報の抽出が困難である。
そこで本稿では,リッチな構造化文書とのマッチングのために,新しい2段階事前学習とマッチングアーキテクチャを提案する。
事前学習段階では,クエリフィールドと文書の複数のフィールドの両方を入力として使用し,長大なフィールドに対する効果的な情報圧縮手法を含む効果的な事前学習手法を提案する。
関連度マッチングの段階では,検索クエリにおけるドメイン知識を活用して,関連度スコアリングのためのより効果的な文書表現を生成する新しいマッチング手法を提案する。
数百万人のユーザに対する大規模なオフライン実験とオンラインA/Bテストにより、提案したアーキテクチャが妥当性モデリングのパフォーマンスを効果的に向上することを確認した。
モデルはすでにオンラインで展開されており、Meituanの検索トラフィックを1年以上にわたって提供している。 In e-commerce search, relevance between query and documents is an essential requirement for satisfying user experience. Different from traditional e-commerce platforms that offer products, users search on life service platforms such as Meituan mainly for product providers, which usually have abundant structured information, e.g. name, address, category, thousands of products. Modeling search relevance with these rich structured contents is challenging due to the following issues: (1) there is language distribution discrepancy among different fields of structured document, making it difficult to directly adopt off-the-shelf pretrained language model based methods like BERT. (2) different fields usually have different importance and their length vary greatly, making it difficult to extract document information helpful for relevance matching. To tackle these issues, in this paper we propose a novel two-stage pretraining and matching architecture for relevance matching with rich structured documents. At pretraining stage, we propose an effective pretraining method that employs both query and multiple fields of document as inputs, including an effective information compression method for lengthy fields. At relevance matching stage, a novel matching method is proposed by leveraging domain knowledge in search query to generate more effective document representations for relevance scoring. Extensive offline experiments and online A/B tests on millions of users verify that the proposed architectures effectively improve the performance of relevance modeling. The model has already been deployed online, serving the search traffic of Meituan for over a year. | 翻訳日:2023-08-29 20:57:29 公開日:2023-08-27 |
# 自己教師表現学習者としてのマスク拡散 Masked Diffusion as Self-supervised Representation Learner ( http://arxiv.org/abs/2308.05695v2 ) ライセンス: Link先を確認 | Zixuan Pan, Jianxu Chen, Yiyu Shi | (参考訳) denoising diffusion probabilistic modelsは、最近最先端の生成性能を示し、強力なピクセルレベルの表現学習者として使われている。
本稿では,拡散モデルに固有の生成能力と表現学習能力の相互関係を分解する。
本稿では,従来の適応型ガウス雑音をマスキング機構で置き換える,スケーラブルな自己教師付き表現学習機であるマスク拡散モデル(MDM)を提案する。
提案手法は従来のベンチマークをはるかに上回り,医学的・自然的なセマンティックセグメンテーションタスク,特に数ショットシナリオにおける顕著な進歩を示す。 Denoising diffusion probabilistic models have recently demonstrated state-of-the-art generative performance and been used as strong pixel-level representation learners. This paper decomposes the interrelation between the generative capability and representation learning ability inherent in diffusion models. We present masked diffusion model (MDM), a scalable self-supervised representation learner that substitutes the conventional additive Gaussian noise of traditional diffusion with a masking mechanism. Our proposed approach convincingly surpasses prior benchmarks, demonstrating remarkable advancements in both medical and natural image semantic segmentation tasks, particularly within the context of few-shot scenario. | 翻訳日:2023-08-29 20:56:01 公開日:2023-08-27 |
# 真空分岐、ダークエネルギー、ダークマター Vacuum Branching, Dark Energy, Dark Matter ( http://arxiv.org/abs/2308.05569v4 ) ライセンス: Link先を確認 | Don Weingarten | (参考訳) エヴェレット・デウィットによる量子力学の多世界解釈から始まり、量子系の状態ベクトルが任意の瞬間に直交枝に分裂し、それぞれがほぼ古典的な振る舞いを示すという一連の提案がなされた。
本研究の初期のバージョンでは,分枝分解における分枝の平均二乗量子複雑性の測定値の最小値を求めることで,状態ベクトルの分枝への分解を提案した。
特定のローレンツフレームに関して、低複雑性状態から始まるシステムに対して、分岐は、各分岐が次々に分裂してさらにサブブランチに繰り返し発生し、その分岐に続く実世界がボルン規則に従って選択される。
あるいは、明示ロレンツ共変定式化において、実世界は漸近的に遅い時間に枝の集合から単一のランダムなドローであり、後期選択によって暗示される分岐事象の集合を順次再現することで、特定のロレンツフレームにおいて有限時間に復元することができる。
本稿では、ミンコフスキー空間の格子上の時空ゲージにおける量子電磁力学への以前の定式化を適応する。
しかし、初期のバージョンは、物理真空に基づく複雑性の定義を、素真空に基づく定義に置き換えることによって単純化されている。
この交換の結果、物理的真空自体が分岐し、非分岐真空よりもわずかに大きなエネルギー密度を持つ分枝が生じると予測される。
真空エネルギー再正規化定数が通常通り選択され、無分岐真空に0エネルギー密度を与えると、真空分枝はダークエネルギーとダークマター密度の組み合わせを持つように見えるが、追加の粒子含有量は持たない。 Beginning with the Everett-DeWitt many-worlds interpretation of quantum mechanics, there have been a series of proposals for how the state vector of a quantum system might split at any instant into orthogonal branches, each of which exhibits approximately classical behavior. In an earlier version of the present work, we proposed a decomposition of a state vector into branches by finding the minimum of a measure of the mean squared quantum complexity of the branches in the branch decomposition. With respect to a particular Lorentz frame, for a system beginning in a state of low complexity, branching occurs repeatedly over time with each branch splitting successively into further sub-branches among which the branch followed by the real world is chosen according to the Born rule. Alternatively, in an explicitly Lorentz covariant formulation, the real world is a single random draw from the set of branches at asymptotically late time, which can then be restored to finite time in a particular Lorentz frame by sequentially retracing the set of branching events implied by the late time choice. In the present article, we adapt the earlier formulation to quantum electrodynamics in temporal gauge on a lattice in Minkowski space. The earlier version, however, here is simplified by replacing a definition of complexity based on the physical vacuum with a definition based on the bare vacuum. As a consequence of this replacement, the physical vacuum itself is predicted to branch yielding branches with energy densities slightly larger than that of the unbranched vacuum. If the vacuum energy renormalization constant is chosen as usual to give 0 energy density to the unbranched vacuum, vacuum branches will appear to have a combination of dark energy and dark matter densities but no additional particle content. | 翻訳日:2023-08-29 20:55:49 公開日:2023-08-27 |
# 大規模言語モデルコード生成のロバスト性と信頼性に関する研究 A Study on Robustness and Reliability of Large Language Model Code Generation ( http://arxiv.org/abs/2308.10335v2 ) ライセンス: Link先を確認 | Li Zhong, Zilong Wang | (参考訳) 近年,大規模言語モデル (LLM) は,自然言語の理解とプログラミングコード生成に極めて優れた能力を示している。
コーディング問題に遭遇する際、LLMに相談するのは、ソフトウェアエンジニアがよく行うプラクティスである。
構文エラーを回避し、コードを意図した意味と整合させる努力がなされているが、LLMからのコード生成の信頼性と堅牢性はまだ十分に研究されていない。
実行可能なコードは、特に現実世界のソフトウェア開発のコンテキストにおいて、信頼性が高く堅牢なコードと等価ではない。
生成されたコードにおけるAPIの誤用は、リソースリークやプログラムクラッシュといった深刻な問題を引き起こす可能性がある。
さらに悪いことに、llmコード生成サービスのユーザは、実際にはこれらのコードに対して最も脆弱な開発者であり、正しいように思える -- 彼らは常にllmがコードを生成するapiに精通していない初心者開発者である。
したがって、LLMが生成したコードの誤用をほとんど知ることができず、現実世界のソフトウェアに適用される誤ったコードをさらに容易にする。
既存のコード評価ベンチマークとデータセットは、コーディング面接のプログラミング質問のような小さなタスクの作成にフォーカスしているが、これは開発者がllmに実際のコーディング支援を求める問題から逸脱している。
そこで本研究では,LLMが生成するコードの信頼性とロバスト性を評価するためのデータセットRobostAPIを提案する。
StackOverflowから24の代表的なJava APIで1208のコーディング質問を収集します。
これらのAPIの一般的な誤用パターンを要約し,現在普及しているLCMを評価した。
GPT-4では,生成コードの62%にAPI誤用があり,実際のソフトウェアにコードが導入されると予期せぬ結果が生じる。 Recently, the large language models (LLMs) have shown extraordinary ability in understanding natural language and generating programming code. It has been a common practice of software engineers to consult LLMs when encountering coding questions. Although efforts have been made to avoid syntax errors and align the code with the intended semantics, the reliability and robustness of the code generationfrom LLMs have not yet been thoroughly studied. The executable code is not equivalent to the reliable and robust code, especially in the context of real-world software development. The misuse of APIs in the generated code could lead to severe problem, such as resource leaks, program crashes. To make things worse, the users of LLM code generation services are actually the developers that are most vulnerable to these code that seems right -- They are always novice developers that are not familiar with the APIs that LLMs generate code for them. Therefore, they could hardly tell the misuse in the code generated by LLMs, which further facilitates the incorrect code applied in real-world software. Existing code evaluation benchmark and datasets focus on crafting small tasks such as programming questions in coding interviews, which however deviates from the problem that developers would ask LLM for real-world coding help. To fill the missing piece, in this work, we propose a dataset RobustAPI for evaluating the reliability and robustness of code generated by LLMs. We collect 1208 coding questions from StackOverflow on 24 representative Java APIs. We summarize thecommon misuse patterns of these APIs and evaluate them oncurrent popular LLMs. The evaluation results show that evenfor GPT-4, 62% of the generated code contains API misuses,which would cause unexpected consequences if the code isintroduced into real-world software. | 翻訳日:2023-08-29 20:45:43 公開日:2023-08-27 |
# クロスモデル合意によるラベルデノーミング Label Denoising through Cross-Model Agreement ( http://arxiv.org/abs/2308.13976v1 ) ライセンス: Link先を確認 | Yu Wang, Xin Xin, Zaiqiao Meng, Xiangnan He, Joemon Jose, Fuli Feng | (参考訳) 破損したラベルからの学習は、現実世界の機械学習アプリケーションで非常に一般的である。
このようなノイズのあるラベルを記憶することはモデルの学習に影響を与え、準最適性能をもたらす。
本研究では,雑音ラベルから頑健な機械学習モデルを学ぶための新しい枠組みを提案する。
実験的な研究では、異なるモデルがクリーンな例で比較的類似の予測をするのに対して、ノイズの多い例の予測は異なるモデルによって異なることがわかりました。
そこで本研究では,2つの機械学習モデルによってパラメータ化される真のラベル分布間のkl分布を最小化し,データ観測の可能性を最大化するクロスモデルアグリーメント \em (deca) を考案する。
提案したDeCAをバイナリラベルシナリオとマルチラベルシナリオの両方に適用する。
バイナリラベルのシナリオでは、下流タスクとして暗黙的なフィードバックレコメンデーションを選択し、4つのデータセット上で4つの最先端レコメンデーションモデルで実験を行う。
マルチラベルのシナリオでは、ダウンストリームアプリケーションは2つのベンチマークデータセットの画像分類である。
実験結果から,提案手法は通常の訓練法や,バイナリと複数ラベルの両方のシナリオにおける認知手法と比較して,モデル性能を著しく向上することが示された。 Learning from corrupted labels is very common in real-world machine-learning applications. Memorizing such noisy labels could affect the learning of the model, leading to sub-optimal performances. In this work, we propose a novel framework to learn robust machine-learning models from noisy labels. Through an empirical study, we find that different models make relatively similar predictions on clean examples, while the predictions on noisy examples vary much more across different models. Motivated by this observation, we propose \em denoising with cross-model agreement \em (DeCA) which aims to minimize the KL-divergence between the true label distributions parameterized by two machine learning models while maximizing the likelihood of data observation. We employ the proposed DeCA on both the binary label scenario and the multiple label scenario. For the binary label scenario, we select implicit feedback recommendation as the downstream task and conduct experiments with four state-of-the-art recommendation models on four datasets. For the multiple-label scenario, the downstream application is image classification on two benchmark datasets. Experimental results demonstrate that the proposed methods significantly improve the model performance compared with normal training and other denoising methods on both binary and multiple-label scenarios. | 翻訳日:2023-08-29 17:59:48 公開日:2023-08-27 |
# 肺腺癌サブタイプ認識における放射線と深部特徴の適応的融合 Adaptive Fusion of Radiomics and Deep Features for Lung Adenocarcinoma Subtype Recognition ( http://arxiv.org/abs/2308.13997v1 ) ライセンス: Link先を確認 | Jing Zhou, Xiaotong Fu, Xirong Li, Wei Feng, Zhang Zhang, Ying Ji | (参考訳) 最も一般的なタイプの肺癌、肺腺癌(luad)は、低用量ct検診技術の出現以来、ますます検出されている。
臨床的には, 浸潤性LUAD (pre-invasive LUAD) は定期的なフォローアップケアを必要とするが, 浸潤性LUAD (invasive LUAD) は癌亜型に基づく適切な肺癌切除を即時行う必要がある。
しかし、LUADの診断に関する先行研究は、IA/IAの分類に重点を置いており、IAの異なるサブタイプを識別する技術が欠如している。
本研究では,IAとプレIAを区別するだけでなく,IAの異なるサブタイプを識別するためのマルチヘッド注意機能融合(MHA-FF)モデルを提案する。
それぞれの結節のサブタイプを正確に予測するために,計算トモグラフィ画像から抽出した放射能と深部特徴を併用した。
さらに、これらの特徴はアダプティブフュージョンモジュールを通じて集約され、注意に基づく識別的特徴を学習できる。
提案手法の有用性を,マルチセンターコホートから収集した実世界のデータを用いて示す。 The most common type of lung cancer, lung adenocarcinoma (LUAD), has been increasingly detected since the advent of low-dose computed tomography screening technology. In clinical practice, pre-invasive LUAD (Pre-IAs) should only require regular follow-up care, while invasive LUAD (IAs) should receive immediate treatment with appropriate lung cancer resection, based on the cancer subtype. However, prior research on diagnosing LUAD has mainly focused on classifying Pre-IAs/IAs, as techniques for distinguishing different subtypes of IAs have been lacking. In this study, we proposed a multi-head attentional feature fusion (MHA-FF) model for not only distinguishing IAs from Pre-IAs, but also for distinguishing the different subtypes of IAs. To predict the subtype of each nodule accurately, we leveraged both radiomics and deep features extracted from computed tomography images. Furthermore, those features were aggregated through an adaptive fusion module that can learn attention-based discriminative features. The utility of our proposed method is demonstrated here by means of real-world data collected from a multi-center cohort. | 翻訳日:2023-08-29 17:46:58 公開日:2023-08-27 |
# バッテリ老化の現況と進化率の両面を捉えたその場寿命予測と分類性能の向上 Improve in-situ life prediction and classification performance by capturing both the present state and evolution rate of battery aging ( http://arxiv.org/abs/2308.13996v1 ) ライセンス: Link先を確認 | Mingyuan Zhao, Yongzhi Zhang | (参考訳) 本研究では,バッテリ老化状態と劣化率の両方を捉え,寿命予測性能を向上させる手法を開発した。
電圧緩和データから抽出した等価回路モデルの6つの物理的特徴により老化状態を示す。
また, 劣化速度は, 移動ウィンドウ内の電圧緩和曲線の差(寿命予測用)と, 異なるサイクルにおける容量と電圧曲線の差(寿命分類用)から抽出した2つの特徴により把握される。
ガウス過程に基づいて構築された2つの機械学習モデルを用いて,これらの物理特徴と電池寿命の関係を,寿命予測と分類のためにそれぞれ記述する。
本手法は3種類の74個の電池セルの老化データを用いて検証した。
実験の結果,本手法は3~12分間のサンプリングデータのみに基づいて正確な電池寿命を予測でき,その予測精度はベンチマーク法と比較して最大67.09%向上した。
バッテリーは、隣接する2つのサイクルの情報に基づいて、全体の90%以上の精度で3つのグループ(長、中、短)に分類される。 This study develops a methodology by capturing both the battery aging state and degradation rate for improved life prediction performance. The aging state is indicated by six physical features of an equivalent circuit model that are extracted from the voltage relaxation data. And the degradation rate is captured by two features extracted from the differences between the voltage relaxation curves within a moving window (for life prediction), or the differences between the capacity vs. voltage curves at different cycles (for life classification). Two machine learning models, which are constructed based on Gaussian Processes, are used to describe the relationships between these physical features and battery lifetimes for the life prediction and classification, respectively. The methodology is validated with the aging data of 74 battery cells of three different types. Experimental results show that based on only 3-12 minutes' sampling data, the method with novel features predicts accurate battery lifetimes, with the prediction accuracy improved by up to 67.09% compared with the benchmark method. And the batteries are classified into three groups (long, medium, and short) with an overall accuracy larger than 90% based on only two adjacent cycles' information, enabling the highly efficient regrouping of retired batteries. | 翻訳日:2023-08-29 17:46:36 公開日:2023-08-27 |
# JL-lemmaによる識別辞書学習のための最適投影法 JL-lemma derived Optimal Projections for Discriminative Dictionary Learning ( http://arxiv.org/abs/2308.13991v1 ) ライセンス: Link先を確認 | G.Madhuri, Atul Negi | (参考訳) 大規模次元データを多数のクラスで分類することの難しさを克服するため,JLSPCADLと呼ばれる新しい手法を提案する。
本稿では、ジョンソン・リンデンシュトラウス(JL)レンマを用いて、信号分類のために識別辞書を学習できる変換空間の次元性を選択する。
ランダムなプロジェクションによって次元を減少させる代わりに、JLでしばしば行われるように、修正スーパービジョンPC解析(M-SPCA)からJLで規定される次元に導かれる射影変換行列を用いる。
JLSPCADLは、最適特徴空間を導出するために、適切な歪みレベルと対応する辞書原子の適切な記述長(SDL)を導出するヒューリスティックを提供し、より良い分類のために辞書原子のSDLを提供する。
最先端の次元縮小に基づく辞書学習法とは異なり、m-spcaから単段導出する投影変換行列は、元のデータのクラスター構造を維持しながら変換空間の最大特徴ラベル一貫性を提供する。
混乱したペアにもかかわらず、変換空間の辞書はより少ないトレーニングサンプルで差別的なスパース係数を生成する。
実験により、JLSPCADLはクラス数や次元数の増加とともに拡張可能であることが示された。
M-SPCAによる特徴のラベル一貫性の改善は、よりよい分類に役立つ。
さらに、SDLを用いて識別辞書の訓練の複雑さを著しく低減する。
OCRおよび顔認識データセットの実験は、他の教師付き辞書学習アルゴリズムよりも比較的優れた分類性能を示す。 To overcome difficulties in classifying large dimensionality data with a large number of classes, we propose a novel approach called JLSPCADL. This paper uses the Johnson-Lindenstrauss (JL) Lemma to select the dimensionality of a transformed space in which a discriminative dictionary can be learned for signal classification. Rather than reducing dimensionality via random projections, as is often done with JL, we use a projection transformation matrix derived from Modified Supervised PC Analysis (M-SPCA) with the JL-prescribed dimension. JLSPCADL provides a heuristic to deduce suitable distortion levels and the corresponding Suitable Description Length (SDL) of dictionary atoms to derive an optimal feature space and thus the SDL of dictionary atoms for better classification. Unlike state-of-the-art dimensionality reduction-based dictionary learning methods, a projection transformation matrix derived in a single step from M-SPCA provides maximum feature-label consistency of the transformed space while preserving the cluster structure of the original data. Despite confusing pairs, the dictionary for the transformed space generates discriminative sparse coefficients, with fewer training samples. Experimentation demonstrates that JLSPCADL scales well with an increasing number of classes and dimensionality. Improved label consistency of features due to M-SPCA helps to classify better. Further, the complexity of training a discriminative dictionary is significantly reduced by using SDL. Experimentation on OCR and face recognition datasets shows relatively better classification performance than other supervised dictionary learning algorithms. | 翻訳日:2023-08-29 17:46:14 公開日:2023-08-27 |
# ldl:パノラマ局在のための線距離関数 LDL: Line Distance Functions for Panoramic Localization ( http://arxiv.org/abs/2308.13989v1 ) ライセンス: Link先を確認 | Junho Kim, Changwoon Choi, Hojun Jang, Young Min Kim | (参考訳) 我々は,パノラマを線分を用いて3dマップにローカライズする高速でロバストなアルゴリズム ldl を提案する。
LDLはシーン内のラインのスパース構造情報に重点を置いており、照明の変化に対して堅牢であり、効率的な計算を可能にする可能性がある。
従来手法では精度や計算時間を犠牲にしてきたが,パノラマ画像と3dマップ内の直線の全体分布を効果的に観察した。
具体的には,LDLは2次元線距離関数と3次元線距離関数の分布に一致し,さらに直線の主方向に沿って分解して表現性を高める。
距離関数は、従来の局所的特徴マッチングを用いてさらに最適化された分布情報を比較することで粗いポーズ推定を提供する。
パイプラインは線幾何学と局所的特徴のみを活用するため、ライン固有の特徴や対応マッチングのトレーニングに費用がかからない。
しかし,本手法は,オブジェクトレイアウトの変更,照明シフト,大規模シーンなどの難易度の高いシナリオに対して,高速なポーズ探索を数ミリ秒以内で終了することを示す。
そこで我々は,本手法がラインベースローカライゼーションの実践的解決策となることを期待し,確立されたポイントベースパラダイムを補完する。
LDLのコードは、https://github.com/82magnolia/panoramic-localization.comのリンクから入手できる。 We introduce LDL, a fast and robust algorithm that localizes a panorama to a 3D map using line segments. LDL focuses on the sparse structural information of lines in the scene, which is robust to illumination changes and can potentially enable efficient computation. While previous line-based localization approaches tend to sacrifice accuracy or computation time, our method effectively observes the holistic distribution of lines within panoramic images and 3D maps. Specifically, LDL matches the distribution of lines with 2D and 3D line distance functions, which are further decomposed along principal directions of lines to increase the expressiveness. The distance functions provide coarse pose estimates by comparing the distributional information, where the poses are further optimized using conventional local feature matching. As our pipeline solely leverages line geometry and local features, it does not require costly additional training of line-specific features or correspondence matching. Nevertheless, our method demonstrates robust performance on challenging scenarios including object layout changes, illumination shifts, and large-scale scenes, while exhibiting fast pose search terminating within a matter of milliseconds. We thus expect our method to serve as a practical solution for line-based localization, and complement the well-established point-based paradigm. The code for LDL is available through the following link: https://github.com/82magnolia/panoramic-localization. | 翻訳日:2023-08-29 17:45:51 公開日:2023-08-27 |
# マルチタスク学習におけるスケーラビリティの再考:理論的展望 Revisiting Scalarization in Multi-Task Learning: A Theoretical Perspective ( http://arxiv.org/abs/2308.13985v1 ) ライセンス: Link先を確認 | Yuzheng Hu, Ruicheng Xian, Qilong Wu, Qiuling Fan, Lang Yin, Han Zhao | (参考訳) 線形スカラー化、すなわち重み付き和ですべての損失関数を組み合わせることは、その開始以来、マルチタスク学習(mtl)の文献においてデフォルトの選択となっている。
近年,MTLを多目的最適化問題として扱うSMTO(Specialized Multi-Task Optimizers)の開発への関心が高まっている。
しかし、スカラー化に対してSMTOの根本的な優位性があるかどうかは不明である。
実際、この2つのタイプのアルゴリズムを比較するコミュニティには、熱烈な議論が存在している。
本稿では, 上記の問題にアプローチするため, 理論的観点からスカラー化を再考する。
線形mtlモデルに注目し,スカラー化がパレート前線を完全に探索できるかどうかを検討する。
この結果から,スカラー化のメリットを実証的に主張する最近の研究とは対照的に,スカラー化は本質的に完全な探索には不可能であることが明らかとなった。
より具体的には、モデルが過度にパラメータ化されると、実現可能な領域の多面構造を明らかにし、完全な探索に必要な十分な条件を特定する。
このことは、スカラー化が一般にパレートフロントを追跡できないという結論に繋がる。
我々の理論的結果は、Xin et al. (2021) のオープンな疑問に部分的に答え、スカラー化が非凸性を超えて失敗する理由についてより直感的な説明を提供する。
また、スキャラライズと最先端SMTOの両方を用いて実世界のデータセット上で実験を行う。
実験結果は理論的な知見と相関するだけでなく,スカラー化では達成できない平衡解の発見におけるSMTOの可能性も明らかにした。 Linear scalarization, i.e., combining all loss functions by a weighted sum, has been the default choice in the literature of multi-task learning (MTL) since its inception. In recent years, there is a surge of interest in developing Specialized Multi-Task Optimizers (SMTOs) that treat MTL as a multi-objective optimization problem. However, it remains open whether there is a fundamental advantage of SMTOs over scalarization. In fact, heated debates exist in the community comparing these two types of algorithms, mostly from an empirical perspective. To approach the above question, in this paper, we revisit scalarization from a theoretical perspective. We focus on linear MTL models and study whether scalarization is capable of fully exploring the Pareto front. Our findings reveal that, in contrast to recent works that claimed empirical advantages of scalarization, scalarization is inherently incapable of full exploration, especially for those Pareto optimal solutions that strike the balanced trade-offs between multiple tasks. More concretely, when the model is under-parametrized, we reveal a multi-surface structure of the feasible region and identify necessary and sufficient conditions for full exploration. This leads to the conclusion that scalarization is in general incapable of tracing out the Pareto front. Our theoretical results partially answer the open questions in Xin et al. (2021), and provide a more intuitive explanation on why scalarization fails beyond non-convexity. We additionally perform experiments on a real-world dataset using both scalarization and state-of-the-art SMTOs. The experimental results not only corroborate our theoretical findings, but also unveil the potential of SMTOs in finding balanced solutions, which cannot be achieved by scalarization. | 翻訳日:2023-08-29 17:45:26 公開日:2023-08-27 |
# オブジェクト領域学習マシンのための画像符号化 Image Coding for Machines with Object Region Learning ( http://arxiv.org/abs/2308.13984v1 ) ライセンス: Link先を確認 | Takahiro Shindo, Taiju Watanabe, Kein Yamada, Hiroshi Watanabe | (参考訳) 圧縮技術は効率的な画像伝送と記憶に不可欠である。
ディープラーニングの急速な進歩により、画像は人間の視覚だけでなく画像認識にも使われ始めている。
このため、画像認識のための画像符号化に関する研究が行われており、この分野はicm(image coding for machines)と呼ばれる。
ICMにはROIベースのアプローチとタスクロスベースのアプローチの2つの主要なアプローチがあります。
前者のアプローチでは、入力画像に加えて、入力としてROIマップを必要とする。
後者のアプローチでは、特定の画像認識モデルを使用して損失関数を計算するため、タスク損失の学習が困難であり、堅牢性が欠如している。
これらの問題を解決するために,対象領域を学習する画像圧縮モデルを提案する。
我々のモデルはroiマップのような入力として追加情報を必要としず、タスク損失を使用しない。
したがって、様々な画像認識モデルの画像を圧縮することができる。
実験では、3つの異なる画像認識モデルと3つの異なるデータセットを用いて,提案手法の汎用性を示す。
また,従来の手法と比較することにより,モデルの有効性を検証する。 Compression technology is essential for efficient image transmission and storage. With the rapid advances in deep learning, images are beginning to be used for image recognition as well as for human vision. For this reason, research has been conducted on image coding for image recognition, and this field is called Image Coding for Machines (ICM). There are two main approaches in ICM: the ROI-based approach and the task-loss-based approach. The former approach has the problem of requiring an ROI-map as input in addition to the input image. The latter approach has the problems of difficulty in learning the task-loss, and lack of robustness because the specific image recognition model is used to compute the loss function. To solve these problems, we propose an image compression model that learns object regions. Our model does not require additional information as input, such as an ROI-map, and does not use task-loss. Therefore, it is possible to compress images for various image recognition models. In the experiments, we demonstrate the versatility of the proposed method by using three different image recognition models and three different datasets. In addition, we verify the effectiveness of our model by comparing it with previous methods. | 翻訳日:2023-08-29 17:44:55 公開日:2023-08-27 |
# 機械学習による山の天気予報の補間 Interpolation of mountain weather forecasts by machine learning ( http://arxiv.org/abs/2308.13983v1 ) ライセンス: Link先を確認 | Kazuma Iwase and Tomoyuki Takenawa | (参考訳) 物理モデルに基づく数値シミュレーション手法の進歩により,天気予報の精度が向上した。
しかし、数値シミュレーションで用いられる数km四角い格子のため、山間部のような複雑な地形では精度が低下する。
統計機械学習も大幅に進歩しているが、その直接的な応用は物理学知識を利用するのは難しい。
本稿では,現在の観測データと周辺平野からの予測データを用いて,山間部における「インターポーレーション」を機械学習で行う手法を提案する。
概して天気予報は数値シミュレーションに依存するため、この手法は数値シミュレーションと機械学習を間接的に融合させるハイブリッド手法として考えられる。
また,降水予測における二元交叉エントロピーの利用についても検討した。 Recent advancements in numerical simulation methods based on physical models have enhanced the accuracy of weather forecasts. However, the precision diminishes in complex terrains like mountainous regions due to the several kilometers square grid used in numerical simulations. While statistical machine learning has also significantly advanced, its direct application is difficult to utilize physics knowledge. This paper proposes a method that employs machine learning to ``interpolate'' future weather in mountainous regions using current observed data and forecast data from surrounding plains. Generally, weather prediction relies on numerical simulations, so this approach can be considered a hybrid method that indirectly merges numerical simulation and machine learning. The use of binary cross-entropy in precipitation prediction is also examined. | 翻訳日:2023-08-29 17:44:40 公開日:2023-08-27 |
# ユニバーサルグラフ連続学習 Universal Graph Continual Learning ( http://arxiv.org/abs/2308.13982v1 ) ライセンス: Link先を確認 | Thanh Duc Hoang, Do Viet Tung, Duy-Hung Nguyen, Bao-Sinh Nguyen, Huy Hoang Nguyen, Hung Le | (参考訳) 我々は、データ入力が1つから別のグラフ分布に遷移するにつれて、グラフ学習における破滅的な問題に対処します。
先行研究は主に、増分ノード分類のようなグラフ連続学習の1つの設定に取り組むが、タスクの各データポイントがノードかグラフになり得る普遍的なアプローチに焦点をあて、タスクはノードからグラフの分類まで様々である。
本稿では,この普遍的な設定において,グラフニューラルネットワークが優れる新しい手法を提案する。
提案手法は,グラフ間の局所的およびグローバルな構造整合性を維持するリハーサル機構を通じて,過去のタスクに関する知識を持続する。
実世界のグラフデータセットにおける様々な連続学習ベースラインに対して,本手法をベンチマークし,平均性能とタスク間の差を著しく改善した。 We address catastrophic forgetting issues in graph learning as incoming data transits from one to another graph distribution. Whereas prior studies primarily tackle one setting of graph continual learning such as incremental node classification, we focus on a universal approach wherein each data point in a task can be a node or a graph, and the task varies from node to graph classification. We propose a novel method that enables graph neural networks to excel in this universal setting. Our approach perseveres knowledge about past tasks through a rehearsal mechanism that maintains local and global structure consistency across the graphs. We benchmark our method against various continual learning baselines in real-world graph datasets and achieve significant improvement in average performance and forgetting across tasks. | 翻訳日:2023-08-29 17:44:31 公開日:2023-08-27 |
# AIに基づくセグメンテーションによる血痕分析の強化:犯罪現場調査のためのセグメンテーションモデルを活用する Enhancing Bloodstain Analysis Through AI-Based Segmentation: Leveraging Segment Anything Model for Crime Scene Investigation ( http://arxiv.org/abs/2308.13979v1 ) ライセンス: Link先を確認 | Zihan Dong and ZhengDong Zhang | (参考訳) 血痕パターン分析は、ユニークな血液パターンの研究を通じて貴重な情報を提供することによって犯罪現場の調査において重要な役割を果たす。
ThresholdingやContrastのような従来の画像解析手法は、画像背景に厳格な要件を課し、ドロップレットイメージセグメンテーションの文脈では労働集約的である。
最近提案されている広範な画像認識法であるsegment anything model(sam)は、血痕画像のセグメンテーションの精度と効率について十分に評価されていない。
本稿では,予め訓練したSAMと微調整されたSAMの血痕画像分割への応用について検討する。
実験結果から、予め訓練されたSAMと微調整されたSAMの両方が、良好な精度と効率で血痕画像セグメンテーションタスクを実行し、微調整されたSAMは、事前訓練されたSAMよりも全体的な2.2\%の精度向上と画像認識の速度の4.70\%の加速を実現していることが示された。
血痕認識に影響を与える因子の解析を行う。
本研究は、SAMの血液染色画像セグメンテーションへの応用の可能性を示し、犯罪学研究における人工知能応用の有効性を示す。
私たちはすべてのコードとデモを \url{https://github.com/zdong104/bloodstain_ analysis_ai_tool} でリリースしています。 Bloodstain pattern analysis plays a crucial role in crime scene investigations by providing valuable information through the study of unique blood patterns. Conventional image analysis methods, like Thresholding and Contrast, impose stringent requirements on the image background and is labor-intensive in the context of droplet image segmentation. The Segment Anything Model (SAM), a recently proposed method for extensive image recognition, is yet to be adequately assessed for its accuracy and efficiency on bloodstain image segmentation. This paper explores the application of pre-trained SAM and fine-tuned SAM on bloodstain image segmentation with diverse image backgrounds. Experiment results indicate that both pre-trained and fine-tuned SAM perform the bloodstain image segmentation task with satisfactory accuracy and efficiency, while fine-tuned SAM achieves an overall 2.2\% accuracy improvement than pre-trained SAM and 4.70\% acceleration in terms of speed for image recognition. Analysis of factors that influence bloodstain recognition is carried out. This research demonstrates the potential application of SAM on bloodstain image segmentation, showcasing the effectiveness of Artificial Intelligence application in criminology research. We release all code and demos at \url{https://github.com/Zdong104/Bloodstain_Analysis_Ai_Tool} | 翻訳日:2023-08-29 17:44:17 公開日:2023-08-27 |
# グラフ上の組合せ最適化におけるquboに基づくハミルトニアン関数の利用の理解:max cut(mc)問題による考察 Understanding the Usage of QUBO-based Hamiltonian Function in Combinatorial Optimization over Graphs: A Discussion Using Max Cut (MC) Problem ( http://arxiv.org/abs/2308.13978v1 ) ライセンス: Link先を確認 | Redwan Ahmed Rizvee, Md. Mosaddek Khan | (参考訳) Quadratic Unconstrained Binary Optimization (QUBO) は、NP-hard組合せ最適化問題をバイナリ変数の形でモデル化する一般的な手法である。
ハミルトニアン函数は、最適化の文脈において目的関数として使用されるQUBO問題を定式化するためにしばしば用いられる。
本研究では,ハミルトニアン関数の存在下での強化学習ベース(rl)パラダイムが,qubo定式化におけるグラフ上の組合せ最適化問題にどのように対処できるかを検討する。
ノード間の情報伝達には,graph neural network(gnn)をメッセージパッシングアーキテクチャとして使用する。
我々はQUBOの定式化Max-Cut問題を中心に議論を行ったが、直観はQUBOがサポートしている標準NP-Hard組合せ最適化問題にまで拡張することができる。
GNNベースのRL(MCTS-GNN)を用いたMonty-Carlo Tree Search,GNNベースのRLを用いたDQN,注意に基づくRL(GRL)を用いた汎用GNNの3つの定式化について検討する。
本研究は, rlに基づくパラダイムにおいて, qubo定式化におけるハミルトニアン関数に基づく最適化はモデル収束をもたらし, 汎用報酬関数として使用できることを示す。
また, 制約違反, 学習安定性, 計算コストを考慮して, 異なる密度のグラフ上で実験し, 単純なGNNベースの設定と比較することにより, RLベースのセットアップの性能を解析・提示する。
私たちの調査結果の1つによると、すべてのアーキテクチャは、MCTS-GNNの制約違反の回数に応じて、スパースグラフで非常に同等のパフォーマンスを提供する。
同様の基準では、GRLと単純なGNNベースのセットアップの両方でパフォーマンスが大幅に低下し始め、MCTS-GNNとDQNが輝いている。
また, 実験中の観測特性について, 対応する数学的定式化と詳細な考察を行った。 Quadratic Unconstrained Binary Optimization (QUBO) is a generic technique to model various NP-hard combinatorial optimization problems in the form of binary variables. The Hamiltonian function is often used to formulate QUBO problems where it is used as the objective function in the context of optimization. In this study, we investigate how reinforcement learning-based (RL) paradigms with the presence of the Hamiltonian function can address combinatorial optimization problems over graphs in QUBO formulations. We use Graph Neural Network (GNN) as the message-passing architecture to convey the information among the nodes. We have centered our discussion on QUBO formulated Max-Cut problem but the intuitions can be extended to any QUBO supported canonical NP-Hard combinatorial optimization problems. We mainly investigate three formulations, Monty-Carlo Tree Search with GNN-based RL (MCTS-GNN), DQN with GNN-based RL, and a generic GNN with attention-based RL (GRL). Our findings state that in the RL-based paradigm, the Hamiltonian function-based optimization in QUBO formulation brings model convergence and can be used as a generic reward function. We also analyze and present the performance of our RL-based setups through experimenting over graphs of different densities and compare them with a simple GNN-based setup in the light of constraint violation, learning stability and computation cost. As per one of our findings, all the architectures provide a very comparable performance in sparse graphs as per the number of constraint violation whreas MCTS-GNN gives the best performance. In the similar criteria, the performance significantly starts to drop both for GRL and simple GNN-based setups whereas MCTS-GNN and DQN shines. We also present the corresponding mathematical formulations and in-depth discussion of the observed characteristics during experimentations. | 翻訳日:2023-08-29 17:43:49 公開日:2023-08-27 |
# 無線チャネル予測のためのニューラルネットワークの比較 A Comparison of Neural Networks for Wireless Channel Prediction ( http://arxiv.org/abs/2308.14020v1 ) ライセンス: Link先を確認 | Oscar Stenhammar, Gabor Fodor, Carlo Fischione | (参考訳) 現代の無線通信システムの性能は、送信機と受信機で利用可能なチャネル状態情報(CSI)の品質に大きく依存する。
従来のいくつかの研究は、ニューラルネットワークを用いた時間予測スキームのような、高モビリティとチャネル老化の存在下でも、高品質なCSIを維持するための概念とアルゴリズムを提案してきた。
しかしながら、予測品質、トレーニングの複雑さ、実用的な実現可能性の観点から、どのニューラルネットワークベースのスキームが最高のパフォーマンスを提供するのかは、まだ不明である。
そこで本研究では,まず,チャネル予測に適用可能な最先端ニューラルネットワークの概要と,その性能を予測品質の観点から比較する。
次に、予測地平線が異なる4つの有望なニューラルネットワークに対して、新しい比較分析を提案する。
第3世代パートナーシッププログラムが推奨するよく知られたタッピング遅延チャネルモデルは、ニューラルネットワーク間の標準比較に使用される。
この比較評価に基づいて、各ニューラルネットワークの長所と短所を考察し、チャネル予測アプリケーションにおいて最適なニューラルネットワークを選択するためのガイドラインを与える。 The performance of modern wireless communications systems depends critically on the quality of the available channel state information (CSI) at the transmitter and receiver. Several previous works have proposed concepts and algorithms that help maintain high quality CSI even in the presence of high mobility and channel aging, such as temporal prediction schemes that employ neural networks. However, it is still unclear which neural network-based scheme provides the best performance in terms of prediction quality, training complexity and practical feasibility. To investigate such a question, this paper first provides an overview of state-of-the-art neural networks applicable to channel prediction and compares their performance in terms of prediction quality. Next, a new comparative analysis is proposed for four promising neural networks with different prediction horizons. The well-known tapped delay channel model recommended by the Third Generation Partnership Program is used for a standardized comparison among the neural networks. Based on this comparative evaluation, the advantages and disadvantages of each neural network are discussed and guidelines for selecting the best-suited neural network in channel prediction applications are given. | 翻訳日:2023-08-29 17:37:46 公開日:2023-08-27 |
# VQ-Font:構造認識の強化と量子化によるFew-Shot Font生成 VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and Quantization ( http://arxiv.org/abs/2308.14018v1 ) ライセンス: Link先を確認 | Mingshuai Yao, Yabo Zhang, Xianhui Lin, Xiaoming Li, Wangmeng Zuo | (参考訳) 限定された参照グリフから細粒度のストロークスタイルをキャプチャし、類似のスタイルが期待される他の文字に転送する必要があるため、数少ないフォント生成は困難である。
しかし、中国のフォントスタイルが多様で複雑であるため、既存の方法の合成グリフは通常、細部や歪んだストロークなどの目に見えるアーティファクトを表示する。
本稿では,トークンの事前改良と構造認識の強化により,グリフ忠実度を高めるためのvqganベースのフレームワーク(すなわちvq-font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。
その後、VQ-Fontは合成グリフをコードブックで洗練し、合成されたストロークと現実世界のストロークの領域ギャップをなくす。
さらに,我々のVQ-Fontは中国語の文字の固有設計を活用し,ラジカルや文字成分などの構造成分を特定の配列で組み合わせることで,参照に基づくきめ細かいスタイルの再検討を行う。
このプロセスは、構造レベルでのスタイルマッチングと融合を改善します。
どちらのモジュールも協調して、生成されたフォントの忠実性を高める。
収集されたフォントデータセットにおける実験により、vq-fontは、特に挑戦的なスタイルの生成において、定量的かつ質的に競合する手法よりも優れています。 Few-shot font generation is challenging, as it needs to capture the fine-grained stroke styles from a limited set of reference glyphs, and then transfer to other characters, which are expected to have similar styles. However, due to the diversity and complexity of Chinese font styles, the synthesized glyphs of existing methods usually exhibit visible artifacts, such as missing details and distorted strokes. In this paper, we propose a VQGAN-based framework (i.e., VQ-Font) to enhance glyph fidelity through token prior refinement and structure-aware enhancement. Specifically, we pre-train a VQGAN to encapsulate font token prior within a codebook. Subsequently, VQ-Font refines the synthesized glyphs with the codebook to eliminate the domain gap between synthesized and real-world strokes. Furthermore, our VQ-Font leverages the inherent design of Chinese characters, where structure components such as radicals and character components are combined in specific arrangements, to recalibrate fine-grained styles based on references. This process improves the matching and fusion of styles at the structure level. Both modules collaborate to enhance the fidelity of the generated fonts. Experiments on a collected font dataset show that our VQ-Font outperforms the competing methods both quantitatively and qualitatively, especially in generating challenging styles. | 翻訳日:2023-08-29 17:37:32 公開日:2023-08-27 |
# 疾病診断の革命:フェデレートラーニングを用いたプライバシ保護と効率的なIoTデータ分析のためのマイクロサービスベースのアーキテクチャ Revolutionizing Disease Diagnosis: A Microservices-Based Architecture for Privacy-Preserving and Efficient IoT Data Analytics Using Federated Learning ( http://arxiv.org/abs/2308.14017v1 ) ライセンス: Link先を確認 | Safa Ben Atitallah, Maha Driss, Henda Ben Ghezala | (参考訳) 深層学習に基づく疾患診断は、様々な疾患の段階で正確な診断に不可欠である。
しかし、個人データを使うことは、従来の集中型学習システムをプライバシーの懸念にさらしている。
一方、処理資源をデバイスに近づけ、より効率的なデータ分析を可能にすることにより、分散コンピューティングパラダイムは、病気の診断に革命をもたらす可能性がある。
データ分析のためのスケーラブルなアーキテクチャは、データ分析の結果が低レイテンシと高い信頼性と信頼性でなければならない医療においても重要である。
本研究では、IoTデータ分析システムに対するマイクロサービスベースのアプローチを提案し、エンティティをきめ細かな、疎結合で再利用可能なコレクションにアレンジすることで、プライバシとパフォーマンス要件を満たす。
当社のアプローチは,データプライバシを保護しながら,疾患の診断精度を向上させるためのフェデレーション学習に依存している。
さらに、より効率的なモデルを得るために転送学習を用いる。
5800枚以上の胸部X線画像を用いて,公開データセットから肺炎検出を行い,本手法の有効性を評価する実験を行った。
我々の実験は、我々のアプローチが他の最先端技術よりも肺炎の同定に優れていることを示した。 Deep learning-based disease diagnosis applications are essential for accurate diagnosis at various disease stages. However, using personal data exposes traditional centralized learning systems to privacy concerns. On the other hand, by positioning processing resources closer to the device and enabling more effective data analyses, a distributed computing paradigm has the potential to revolutionize disease diagnosis. Scalable architectures for data analytics are also crucial in healthcare, where data analytics results must have low latency and high dependability and reliability. This study proposes a microservices-based approach for IoT data analytics systems to satisfy privacy and performance requirements by arranging entities into fine-grained, loosely connected, and reusable collections. Our approach relies on federated learning, which can increase disease diagnosis accuracy while protecting data privacy. Additionally, we employ transfer learning to obtain more efficient models. Using more than 5800 chest X-ray images for pneumonia detection from a publicly available dataset, we ran experiments to assess the effectiveness of our approach. Our experiments reveal that our approach performs better in identifying pneumonia than other cutting-edge technologies, demonstrating our approach's promising potential detection performance. | 翻訳日:2023-08-29 17:37:07 公開日:2023-08-27 |
# ニューラルインフルエンス推定器:ブロック最大化に影響を及ぼすリアルタイム解を目指して Neural Influence Estimator: Towards Real-time Solutions to Influence Blocking Maximization ( http://arxiv.org/abs/2308.14012v1 ) ライセンス: Link先を確認 | Wenjie Chen, Shengcai Liu, Yew-Soon Ong, Ke Tang | (参考訳) インフルエンスブロッキング最大化(ibm)問題に対するリアルタイムソリューションは、誤情報の拡散を迅速に封じ込むのに不可欠である。
しかし、この目標を達成するには、主にIBMの問題解決ソリューションの妨害された影響を評価するには、多くの高価なモンテカルロシミュレーション(MCS)が必要である。
効率性を高めるためにいくつかのアプローチが提案されているが、実際的なスケールのIBM問題に対するリアルタイムソリューションの実現には至っていない。
この研究は、数十万のノードとエッジを数秒でIBMの問題を解決する新しいアプローチを提示している。
鍵となるアイデアは、時間集中型mcssの代替としてneural influence estimator(nie)と呼ばれる高速評価型サーロゲートモデルを構築することである。
この目的のために、学習問題を定式化し、偽情報インスタンスを入力とし、2つのシードセット間のトポロジと相互関係を記述する特徴を抽出し、ブロックされた影響を予測する。
よく訓練されたNIEは、ソーシャルネットワーク上で定義された様々なIBM問題にまたがって一般化することができ、greedyアルゴリズムのような既存のIBM最適化アルゴリズムと簡単に組み合わせることができる。
数百万のエッジを持つ最大25のIBM問題に対する実験により、NIEベースの最適化法は、MCSベースの最適化法よりも最大4桁高速で、同じソリューション品質を実現することができることが示された。
さらに、1分間のリアルタイム制約を前提として、NIEベースの手法は、数十万のノードでIBMの問題を解決することができる。 Real-time solutions to the influence blocking maximization (IBM) problems are crucial for promptly containing the spread of misinformation. However, achieving this goal is non-trivial, mainly because assessing the blocked influence of an IBM problem solution typically requires plenty of expensive Monte Carlo simulations (MCSs). Although several approaches have been proposed to enhance efficiency, they still fail to achieve real-time solutions to IBM problems of practical scales. This work presents a novel approach that enables solving IBM problems with hundreds of thousands of nodes and edges in seconds. The key idea is to construct a fast-to-evaluate surrogate model, called neural influence estimator (NIE), as a substitute for the time-intensive MCSs. To this end, a learning problem is formulated to build the NIE that takes the false-and-true information instance as input, extracts features describing the topology and inter-relationship between two seed sets, and predicts the blocked influence. A well-trained NIE can generalize across different IBM problems defined on a social network, and can be readily combined with existing IBM optimization algorithms such as the greedy algorithm. The experiments on 25 IBM problems with up to millions of edges show that the NIE-based optimization method can be up to four orders of magnitude faster than MCSs-based optimization method to achieve the same solution quality. Moreover, given a real-time constraint of one minute, the NIE-based method can solve IBM problems with up to hundreds of thousands of nodes, which is at least one order of magnitude larger than what can be solved by existing methods. | 翻訳日:2023-08-29 17:36:48 公開日:2023-08-27 |
# 自己教師付き細粒度アライメントによる高速高精度画像テキスト検索 Towards Fast and Accurate Image-Text Retrieval with Self-Supervised Fine-Grained Alignment ( http://arxiv.org/abs/2308.14009v1 ) ライセンス: Link先を確認 | Jiamin Zhuang, Jing Yu, Yang Ding, Xiangyan Qu, Yue Hu | (参考訳) 画像テキスト検索では、視覚と言語の間の異種間を橋渡しし、効率的な検索のためにネットワークを軽量に保ちながら正確な検索を行う必要がある。
既存のトレードオフソリューションは、独立組込みフレームワークとクロスモーダルなインタラクションを組み込んだり、検索段階で時間を要する類似度測定や重み付けモデル構造を必要とするより強力な事前学習エンコーダを活用するという観点から主に研究されている。
本研究では,画像テキストアライメントモジュールを独立組込みフレームワーク上で自己認識する手法を提案する。
SelfAlignには、イメージテキストアライメントを概念レベルとコンテキストレベルの両方に強制する2つの協調的なサブモジュールが含まれている。
トレーニング中に相互モーダル埋め込みインタラクションを必要とせず、検索時に独立したイメージとテキストエンコーダを保持する。
同等の時間コストで、SelfAlignは、Flickr30K、MSCOCO 1K、MS-COCO 5Kデータセット上のR@sumスコアのそれぞれ9.1%、4.2%、および6.6%の、最先端の非事前学習モデルの精度を一貫して向上させる。
検索精度は、既存のインタラクティブ埋め込みモデルよりも、検索時間の桁違いに低下する。
ソースコードはhttps://github.com/zjamie813/selfalign。 Image-text retrieval requires the system to bridge the heterogenous gap between vision and language for accurate retrieval while keeping the network lightweight-enough for efficient retrieval. Existing trade-off solutions mainly study from the view of incorporating cross-modal interactions with the independent-embedding framework or leveraging stronger pretrained encoders, which still demand time-consuming similarity measurement or heavyweight model structure in the retrieval stage. In this work, we propose an image-text alignment module SelfAlign on top of the independent-embedding framework, which improves the retrieval accuracy while maintains the retrieval efficiency without extra supervision. SelfAlign contains two collaborative sub-modules that force image-text alignment at both concept level and context level by self-supervised contrastive learning. It does not require cross-modal embedding interactions during training while maintaining independent image and text encoders during retrieval. With comparable time cost, SelfAlign consistently boosts the accuracy of state-of-the-art non-pretraining independent-embedding models respectively by 9.1%, 4.2% and 6.6% in terms of R@sum score on Flickr30K, MSCOCO 1K and MS-COCO 5K datasets. The retrieval accuracy also outperforms most existing interactive-embedding models with orders of magnitude decrease in retrieval time. The source code is available at: https://github.com/Zjamie813/SelfAlign. | 翻訳日:2023-08-29 17:36:20 公開日:2023-08-27 |
# パノラマ深度のキャリブレーションによる実用的位置推定とマッピング Calibrating Panoramic Depth Estimation for Practical Localization and Mapping ( http://arxiv.org/abs/2308.14005v1 ) ライセンス: Link先を確認 | Junho Kim, Eun Sun Lee, Young Min Kim | (参考訳) 周辺環境の絶対深度値は, 位置推定, ナビゲーション, 3次元構造推定など, 様々な支援技術にとって重要な手がかりとなる。
本研究では,パノラマ画像から推定された精度の高い深度を3d情報を必要とする幅広い下流タスクに対して強力で軽量な入力として利用できることを示す。
パノラマ画像はコモディティ機器から周囲の状況を容易に捉えることができるが、推定深度は従来の画像に基づく深度推定の限界と一致する。
総合的な視点を生かして,このような効果を自己教師ありの方法で緩和し,テストフェーズ中に幾何学的一貫性を持つネットワークを微調整する。
具体的には、現在の深度予測から3次元点雲を構築し、様々な視点で点雲を投影するか、あるいは現在の入力画像にストレッチを適用して合成パノラマを生成する。
そして, 合成画像から推定した3次元構造のばらつきを, 付加データを集めることなく最小化する。
本手法は,ロボットナビゲーションとマップフリーローカライズにおいて,大規模性能向上を示すため,実証的に評価する。
したがって, キャリブレーション法は, 様々な外部条件下で適用範囲を広げ, パノラマベースマシンビジョンシステムにおいて重要な要素となる。 The absolute depth values of surrounding environments provide crucial cues for various assistive technologies, such as localization, navigation, and 3D structure estimation. We propose that accurate depth estimated from panoramic images can serve as a powerful and light-weight input for a wide range of downstream tasks requiring 3D information. While panoramic images can easily capture the surrounding context from commodity devices, the estimated depth shares the limitations of conventional image-based depth estimation; the performance deteriorates under large domain shifts and the absolute values are still ambiguous to infer from 2D observations. By taking advantage of the holistic view, we mitigate such effects in a self-supervised way and fine-tune the network with geometric consistency during the test phase. Specifically, we construct a 3D point cloud from the current depth prediction and project the point cloud at various viewpoints or apply stretches on the current input image to generate synthetic panoramas. Then we minimize the discrepancy of the 3D structure estimated from synthetic images without collecting additional data. We empirically evaluate our method in robot navigation and map-free localization where our method shows large performance enhancements. Our calibration method can therefore widen the applicability under various external conditions, serving as a key component for practical panorama-based machine vision systems. | 翻訳日:2023-08-29 17:35:52 公開日:2023-08-27 |
# オンラインGentleAdaBoost -- テクニカルレポート Online GentleAdaBoost -- Technical Report ( http://arxiv.org/abs/2308.14004v1 ) ライセンス: Link先を確認 | Chapman Siu | (参考訳) 我々はGentleAdaboostのオンライン版について研究し、弱い学習者と強い学習者とをオンライン形式で組み合わせた。
線形探索による理論的正当化により,バッチアプローチをオンラインアプローチに拡張する手法を提案する。
最後に、オンラインブースティングアプローチと、さまざまなベンチマークデータセットにわたる他のオンラインアプローチを比較します。 We study the online variant of GentleAdaboost, where we combine a weak learner to a strong learner in an online fashion. We provide an approach to extend the batch approach to an online approach with theoretical justifications through application of line search. Finally we compare our online boosting approach with other online approaches across a variety of benchmark datasets. | 翻訳日:2023-08-29 17:35:32 公開日:2023-08-27 |
# eecs学生のための量子プログラミングラボ Hands-on Quantum Programming Labs for EECS Students ( http://arxiv.org/abs/2308.14002v1 ) ライセンス: Link先を確認 | Janche Sang and Chansu Yu | (参考訳) 本報告は,コンピュータサイエンスの学生にハンズオン・プログラミング・ラボを通して量子コンピューティングを教える実践的アプローチを提案する。
研究所は、エンタングルメント、量子ゲート、回路などの基本的な要素、量子鍵分布、deutschおよびdeutsch-jozsaアルゴリズム、simonのアルゴリズム、groverのアルゴリズムといった高度なアルゴリズムを含む、さまざまなトピックをカバーしている。
教育者として、私たちは、現場の他のインストラクターと教えの洞察とリソースを共有し、興味のあるインストラクターに完全なラボハンドアウトとプログラムテンプレートを提供しています。
さらに、報告書は各実験の設計の背後にある理論的根拠を解明し、量子コンピューティングのより深い理解を可能にした。 This report presents a practical approach to teaching quantum computing to computer science students through dedicated hands-on programming labs. The labs cover a diverse range of topics, encompassing fundamental elements, such as entanglement, quantum gates and circuits, as well as advanced algorithms including Quantum Key Distribution, Deutsch and Deutsch-Jozsa Algorithms, Simon's algorithm, and Grover's algorithm. As educators, we aim to share our teaching insights and resources with fellow instructors in the field, The full lab handouts and program templates are provided for interested instructors. Furthermore, the report elucidates the rationale behind the design of each experiment, enabling a deeper understanding of quantum computing. | 翻訳日:2023-08-29 17:35:26 公開日:2023-08-27 |
# 薄いCTスキャンを用いた肺癌の高リスク因子予測 : 注意力強化グラフ畳み込みネットワークアプローチ High-risk Factor Prediction in Lung Cancer Using Thin CT Scans: An Attention-Enhanced Graph Convolutional Network Approach ( http://arxiv.org/abs/2308.14000v1 ) ライセンス: Link先を確認 | Xiaotong Fu, Xiangyu Meng, Jing Zhou, Ying Ji | (参考訳) 肺がんは、特にその進行段階において、世界中で主要な死因となっている。
低用量CT(low-Dose Computed Tomography)による早期診断は有望であるが,手術モード選択に不可欠な高リスク因子の同定は依然として課題である。
そこで本研究では,術前ct画像からi期肺癌に高リスク因子が存在するかどうかを分類するための注意強化グラフ畳み込みネットワーク(ae-gcn)モデルを提案する。
これは外科医が手術前に最適な手術方法を決定するのに役立つ。
従来の3次元パッチ技術を用いて結節の空間的特徴を表現する研究と異なり,gcnモデルを用いて肺結節の空間的特徴を捉える。
具体的には、各節のスライスをグラフ頂点とみなし、スライス間の内在的な空間的関係がエッジを形成する。
結節の特徴の発現を高めるため,肺結節からの適応的特徴抽出のためのVGGモデルを用いて,チャネルと空間の注意機構を統合した。
最後に,本手法の有効性を病院から収集した実世界データを用いて実証し,臨床応用の可能性を強調した。 Lung cancer, particularly in its advanced stages, remains a leading cause of death globally. Though early detection via low-dose computed tomography (CT) is promising, the identification of high-risk factors crucial for surgical mode selection remains a challenge. Addressing this, our study introduces an Attention-Enhanced Graph Convolutional Network (AE-GCN) model to classify whether there are high-risk factors in stage I lung cancer based on the preoperative CT images. This will aid surgeons in determining the optimal surgical method before the operation. Unlike previous studies that relied on 3D patch techniques to represent nodule spatial features, our method employs a GCN model to capture the spatial characteristics of pulmonary nodules. Specifically, we regard each slice of the nodule as a graph vertex, and the inherent spatial relationships between slices form the edges. Then, to enhance the expression of nodule features, we integrated both channel and spatial attention mechanisms with a pre-trained VGG model for adaptive feature extraction from pulmonary nodules. Lastly, the effectiveness of the proposed method is demonstrated using real-world data collected from the hospitals, thereby emphasizing its potential utility in the clinical practice. | 翻訳日:2023-08-29 17:35:13 公開日:2023-08-27 |
# コンピュータビジョンのための計算効率のよいディープラーニング Computation-efficient Deep Learning for Computer Vision: A Survey ( http://arxiv.org/abs/2308.13998v1 ) ライセンス: Link先を確認 | Yulin Wang, Yizeng Han, Chaofei Wang, Shiji Song, Qi Tian, Gao Huang | (参考訳) 過去10年間で、ディープラーニングモデルはかなり進歩し、様々な視覚知覚タスクで人間のレベルのパフォーマンスに到達または超えている。
この驚くべき進歩は、自動運転車、モバイルデバイス、ロボティクス、エッジコンピューティングなど、現実世界のアプリケーションにディープネットワークを適用することへの関心を呼び起こした。
しかし、現状のモデルは通常重要な計算資源を必要としており、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出につながる。
この効率性と効率のトレードオフは、計算効率のよいディープラーニングという、推論時の計算コストを最小化しつつ、良好な性能を達成するための新たな研究焦点の台頭を導いた。
このレビューは、4つの重要な領域を調べることによって、この急速に進化する分野を広範囲に分析する。
1) 識別的深部表現の効率的な抽出のための静的又は動的軽量化バックボーンモデルの開発
2) 特定のコンピュータビジョンタスク用に調整されたネットワークアーキテクチャ又はアルゴリズム
3)深層学習モデルの圧縮に用いる技術,及び
4) ハードウェアプラットフォームに効率的なディープネットワークを配置するための戦略。
さらに,ネットワークアーキテクチャ設計,トレーニングスキーム,実践的効率性,より現実的なモデル圧縮アプローチ,将来的な研究方向など,この分野で直面する重要な課題について,体系的な議論を行う。 Over the past decade, deep learning models have exhibited considerable advancements, reaching or even exceeding human-level performance in a range of visual perception tasks. This remarkable progress has sparked interest in applying deep networks to real-world applications, such as autonomous vehicles, mobile devices, robotics, and edge computing. However, the challenge remains that state-of-the-art models usually demand significant computational resources, leading to impractical power consumption, latency, or carbon emissions in real-world scenarios. This trade-off between effectiveness and efficiency has catalyzed the emergence of a new research focus: computationally efficient deep learning, which strives to achieve satisfactory performance while minimizing the computational cost during inference. This review offers an extensive analysis of this rapidly evolving field by examining four key areas: 1) the development of static or dynamic light-weighted backbone models for the efficient extraction of discriminative deep representations; 2) the specialized network architectures or algorithms tailored for specific computer vision tasks; 3) the techniques employed for compressing deep learning models; and 4) the strategies for deploying efficient deep networks on hardware platforms. Additionally, we provide a systematic discussion on the critical challenges faced in this domain, such as network architecture design, training schemes, practical efficiency, and more realistic model compression approaches, as well as potential future research directions. | 翻訳日:2023-08-29 17:34:50 公開日:2023-08-27 |
# 条件付きリセットのランダム時間における密結合モデル Tight-binding model subject to conditional resets at random times ( http://arxiv.org/abs/2308.14040v1 ) ライセンス: Link先を確認 | Anish Acharya, Shamik Gupta | (参考訳) 時間依存および条件付きリセットプロトコルによる量子システムのダイナミクスについて検討する。
リセット時にシステムの現在の構成に依存する確率で、指定されたリセット設定のセットに瞬時にリセットすることで、システムのユニタリな進化がランダムな時間に繰り返し中断されたとき、どうなるか?
1次元開格子において、量子粒子の最も近い位置へのホッピングを記述するいわゆる強結合モデル(tigh-binding model)の枠組みにおけるプロトコルの解析を行い、格子の異なる部位に粒子が見つかる確率に関する解析結果を得た。
本研究では,再セット時間間隔が指数関数分布から,またパワーロー分布からサンプリングされる場合や,外部周期強制を伴うフロッケ型ハミルトニアンを含む集合など,様々な力学シナリオを考察する。
指数的リセットの下では、外部の強制力の存在と欠如の両方において、系はリセット部位周辺の粒子の局在を特徴とする定常状態に緩和する。
リセットサイトの選択は、リセットサイトにおける粒子の相対的確率の決定や、サイト占有確率の全体的な空間的プロファイルの決定において、決定的な役割を担っている。
実際、素のダイナミクスがバイアスの影響を伴わない場合でも、空間プロファイルを高度に非対称にする単純な選択を設計することができる。
さらに、パワーロー再設定の場合の解析は、この量子問題における定常状態の達成が必ずしも明確ではないことを示すのに役立ち、リセット時間間隔の分布が有限か無限平均かに大きく依存する。 We investigate the dynamics of a quantum system subjected to a time-dependent and conditional resetting protocol. Namely, we ask: what happens when the unitary evolution of the system is repeatedly interrupted at random time instants with an instantaneous reset to a specified set of reset configurations taking place with a probability that depends on the current configuration of the system at the instant of reset? Analyzing the protocol in the framework of the so-called tight-binding model describing the hopping of a quantum particle to nearest-neighbour sites in a one-dimensional open lattice, we obtain analytical results for the probability of finding the particle on the different sites of the lattice. We explore a variety of dynamical scenarios, including the one in which the resetting time intervals are sampled from an exponential as well as from a power-law distribution, and a set-up that includes a Floquet-type Hamiltonian involving an external periodic forcing. Under exponential resetting, and in both presence and absence of the external forcing, the system relaxes to a stationary state characterized by localization of the particle around the reset sites. The choice of the reset sites plays a defining role in dictating the relative probability of finding the particle at the reset sites as well as in determining the overall spatial profile of the site-occupation probability. Indeed, a simple choice can be engineered that makes the spatial profile highly asymmetric even when the bare dynamics does not involve the effect of any bias. Furthermore, analyzing the case of power-law resetting serves to demonstrate that the attainment of the stationary state in this quantum problem is not always evident and depends crucially on whether the distribution of reset time intervals has a finite or an infinite mean. | 翻訳日:2023-08-29 17:28:11 公開日:2023-08-27 |
# ビジュアルローカライゼーションとマッピングのためのディープラーニング:調査 Deep Learning for Visual Localization and Mapping: A Survey ( http://arxiv.org/abs/2308.14039v1 ) ライセンス: Link先を確認 | Changhao Chen, Bing Wang, Chris Xiaoxuan Lu, Niki Trigoni, Andrew Markham | (参考訳) 深層学習に基づくローカライゼーションとマッピングアプローチは、最近新しい研究の方向性として現れ、産業とアカデミックの両方から大きな注目を集めている。
物理モデルや幾何学理論に基づいた手設計のアルゴリズムを作成する代わりに、ディープラーニングソリューションは、データ駆動方式で問題を解決する代替手段を提供する。
デバイス上のデータ量や計算能力の増大によって、これらの学習方法は急速に進化し、モバイルエージェントの自己運動を追跡し、環境モデルを正確にかつロバストに見積もる可能性を示している。
本研究では,総合的な調査を行い,深層学習を用いた局所化とマッピング手法の分類法を提案する。
この調査は、ディープラーニングがローカライゼーションとマッピングに有望かどうか、この問題を解決するためにディープラーニングをどのように適用すべきか、という2つの基本的な問題について議論することを目的としている。
この目的のために,学習に基づくビジュアル・オドメトリー,グローバル・リローカライゼーション,マッピング,同時ローカライゼーション・マッピング(SLAM)など,一連のローカライゼーションとマッピングのトピックについて検討した。
この調査がロボティクス、コンピュータビジョン、機械学習のコミュニティによる最近の研究を有機的に組み合わせ、将来の研究者が視覚のローカライゼーションとマッピングの問題にディープラーニングを適用するためのガイドラインとなることを願っています。 Deep learning based localization and mapping approaches have recently emerged as a new research direction and receive significant attentions from both industry and academia. Instead of creating hand-designed algorithms based on physical models or geometric theories, deep learning solutions provide an alternative to solve the problem in a data-driven way. Benefiting from the ever-increasing volumes of data and computational power on devices, these learning methods are fast evolving into a new area that shows potentials to track self-motion and estimate environmental model accurately and robustly for mobile agents. In this work, we provide a comprehensive survey, and propose a taxonomy for the localization and mapping methods using deep learning. This survey aims to discuss two basic questions: whether deep learning is promising to localization and mapping; how deep learning should be applied to solve this problem. To this end, a series of localization and mapping topics are investigated, from the learning based visual odometry, global relocalization, to mapping, and simultaneous localization and mapping (SLAM). It is our hope that this survey organically weaves together the recent works in this vein from robotics, computer vision and machine learning communities, and serves as a guideline for future researchers to apply deep learning to tackle the problem of visual localization and mapping. | 翻訳日:2023-08-29 17:27:43 公開日:2023-08-27 |
# Mermin-Peres Magic Square Gameに基づくデバイス非依存量子鍵分布 Device-Independent Quantum Key Distribution Based on the Mermin-Peres Magic Square Game ( http://arxiv.org/abs/2308.14037v1 ) ライセンス: Link先を確認 | Yi-Zheng Zhen and Yingqiu Mao and Yu-Zhe Zhang and Feihu Xu and Barry C. Sanders | (参考訳) デバイス非依存の量子鍵分布(DIQKD)は、スケーラブルな量子コンピュータを持ち、悪意のある鍵確立システムを提供した敵に対して情報理論的に安全である。
その結果、量子非局所メルミン・ペレス魔法の正方形ゲームに基づくdiqkdスキームを考案する:我々のスキームは、ノイズであっても集団攻撃に対して漸近的にdiqkdを伝達する。
提案手法は,状態の可視性と検出効率の両立を前提として,ゲームラウンド数に対してClaus-Horne-Shimony-Holtゲームを用いてDIQKDより優れる。 Device-independent quantum key distribution (DIQKD) is information-theoretically secure against adversaries who possess a scalable quantum computer and who have supplied malicious key-establishment systems; however, the DIQKD key rate is currently too low. Consequently, we devise a DIQKD scheme based on the quantum nonlocal Mermin-Peres magic square game: our scheme asymptotically delivers DIQKD against collective attacks, even with noise. Our scheme outperforms DIQKD using the Clauser-Horne-Shimony-Holt game with respect to the number of game rounds, albeit not number of entangled pairs, provided that both state visibility and detection efficiency are high enough. | 翻訳日:2023-08-29 17:27:18 公開日:2023-08-27 |
# MB-TaylorFormer:テイラー式で展開したマルチブランチ高効率変換器 MB-TaylorFormer: Multi-branch Efficient Transformer Expanded by Taylor Formula for Image Dehazing ( http://arxiv.org/abs/2308.14036v1 ) ライセンス: Link先を確認 | Yuwei Qiu, Kaihao Zhang, Chenxi Wang, Wenhan Luo, Hongdong Li and Zhi Jin | (参考訳) 近年、トランスフォーマーネットワークは、コンピュータビジョンの分野における純粋畳み込みニューラルネットワーク(cnns)を、そのグローバル受容領域と入力への適応性によって置き換え始めている。
しかし、ソフトマックスアテンションの2次計算複雑性は、特に高解像度画像において、画像デハージングタスクの幅広い適用を制限する。
この問題に対処するために,Taylor拡張を適用してソフトマックスアテンションを近似し,線形計算複雑性を実現するトランスフォーマー変種を提案する。
テイラー展開の誤差を補正するための補足として,マルチスケール注意調整モジュールを提案する。
さらに,提案するトランスフォーマーにマルチスケールパッチを組み込むマルチブランチアーキテクチャを導入し,異なるスケールの変形可能な畳み込みを重ね合わせて特徴を組み込む。
マルチスケールパッチ埋め込みの設計は、3つの主要なアイデアに基づいている。
1) 受容領域のさまざまな大きさ
2) 多段階意味情報
3)受容野の柔軟な形状。
Taylor式(MB-TaylorFormer)によって拡張されたMulti-branch Transformerと呼ばれるこのモデルは、パッチ埋め込み段階でより柔軟に粗い特徴を埋め込むことができ、計算コストの制限により長距離画素間相互作用を捉えることができる。
いくつかのデハージングベンチマークの実験結果から,MB-TaylorFormerは計算負荷の少ないSOTA(State-of-the-art)性能を達成した。
ソースコードと事前訓練されたモデルはhttps://github.com/FVL2020/ICCV-2023-MB-TaylorFormerで入手できる。 In recent years, Transformer networks are beginning to replace pure convolutional neural networks (CNNs) in the field of computer vision due to their global receptive field and adaptability to input. However, the quadratic computational complexity of softmax-attention limits the wide application in image dehazing task, especially for high-resolution images. To address this issue, we propose a new Transformer variant, which applies the Taylor expansion to approximate the softmax-attention and achieves linear computational complexity. A multi-scale attention refinement module is proposed as a complement to correct the error of the Taylor expansion. Furthermore, we introduce a multi-branch architecture with multi-scale patch embedding to the proposed Transformer, which embeds features by overlapping deformable convolution of different scales. The design of multi-scale patch embedding is based on three key ideas: 1) various sizes of the receptive field; 2) multi-level semantic information; 3) flexible shapes of the receptive field. Our model, named Multi-branch Transformer expanded by Taylor formula (MB-TaylorFormer), can embed coarse to fine features more flexibly at the patch embedding stage and capture long-distance pixel interactions with limited computational cost. Experimental results on several dehazing benchmarks show that MB-TaylorFormer achieves state-of-the-art (SOTA) performance with a light computational burden. The source code and pre-trained models are available at https://github.com/FVL2020/ICCV-2023-MB-TaylorFormer. | 翻訳日:2023-08-29 17:27:03 公開日:2023-08-27 |
# 高調波サンプリングによる2次元から3次元再構成のための多面的拡散に基づく次元展開 Multi-plane denoising diffusion-based dimensionality expansion for 2D-to-3D reconstruction of microstructures with harmonized sampling ( http://arxiv.org/abs/2308.14035v1 ) ライセンス: Link先を確認 | Kang-Hyun Lee and Gun Jin Yun | (参考訳) 統合計算材料工学 (icme) のアプローチにより, 信頼性の高い構造データセットの獲得は, 材料体系設計への重要な一歩である。
しかし、3次元(3D)の微細構造データセットの取得は、高い実験コストや技術的な制約のために困難であることが多い。
そこで本研究では,拡散型生成モデル(DGM)を用いてマイクロ3Diffと呼ばれる2次元から3次元の再構成を行う新しいフレームワークを提案する。
具体的には、このアプローチは2Dサンプルの生成のためにのみ訓練済みのDGMを必要とし、次元展開(2D-to-3D)は生成過程(すなわち逆拡散過程)の間だけ行われる。
提案フレームワークは,多面性拡散(multi-plane denoising diffusion)と呼ばれる新しい概念を取り入れ,三次元空間における空間的接続性を維持しつつ,異なる平面から雑音のあるサンプル(潜時変数)をデータ構造に変換する。
さらに,dgmの逆マルコフ連鎖から次元展開中に偏りを解消するために,調和サンプリング法を開発した。
本研究は,2次元画像と形態的に等価なスライスを連結した3次元サンプルの再構成におけるMicro3Diffの実現可能性を示す。
Micro3Diffの性能を評価するため, 各種のミクロ構造(合成および実験的に観察された)を再構成し, 生成した試料の品質を質的に, 定量的に評価した。
再建の成果は、次世代のICMEアプリケーションにおけるMicro3Diffの潜在的利用を促すとともに、DGMの潜伏空間の理解と操作のブレークスルーを達成している。 Acquiring reliable microstructure datasets is a pivotal step toward the systematic design of materials with the aid of integrated computational materials engineering (ICME) approaches. However, obtaining three-dimensional (3D) microstructure datasets is often challenging due to high experimental costs or technical limitations, while acquiring two-dimensional (2D) micrographs is comparatively easier. To deal with this issue, this study proposes a novel framework for 2D-to-3D reconstruction of microstructures called Micro3Diff using diffusion-based generative models (DGMs). Specifically, this approach solely requires pre-trained DGMs for the generation of 2D samples, and dimensionality expansion (2D-to-3D) takes place only during the generation process (i.e., reverse diffusion process). The proposed framework incorporates a new concept referred to as multi-plane denoising diffusion, which transforms noisy samples (i.e., latent variables) from different planes into the data structure while maintaining spatial connectivity in 3D space. Furthermore, a harmonized sampling process is developed to address possible deviations from the reverse Markov chain of DGMs during the dimensionality expansion. Combined, we demonstrate the feasibility of Micro3Diff in reconstructing 3D samples with connected slices that maintain morphologically equivalence to the original 2D images. To validate the performance of Micro3Diff, various types of microstructures (synthetic and experimentally observed) are reconstructed, and the quality of the generated samples is assessed both qualitatively and quantitatively. The successful reconstruction outcomes inspire the potential utilization of Micro3Diff in upcoming ICME applications while achieving a breakthrough in comprehending and manipulating the latent space of DGMs. | 翻訳日:2023-08-29 17:26:39 公開日:2023-08-27 |
# confucius: 分かり易いカリキュラムによるイントロスペクションフィードバックによる反復的ツール学習 Confucius: Iterative Tool Learning from Introspection Feedback by Easy-to-Difficult Curriculum ( http://arxiv.org/abs/2308.14034v1 ) ライセンス: Link先を確認 | Shen Gao, Zhengliang Shi, Minghang Zhu, Bowen Fang, Xin Xin, Pengjie Ren, Zhumin Chen, Jun Ma | (参考訳) 大規模言語モデル(LLM)を外部ツールで拡張することは、LLMの能力を拡張するための有望なアプローチとして現れている。
ツール学習タスクにはオープンソースのLLMを使用している研究もあるが、そのほとんどは、LLMが人間が提供するツールの実行のみを学ぶ制御環境で訓練されている。
しかし、大きなツールセットから適切なツールを選択することは、ツール学習モデルを現実世界のアプリケーションに適用するための重要な能力である。
既存のメソッドは通常、モデルのトレーニングに自己指示メソッドを直接使用するが、ツールの複雑さの違いを無視する。
本稿では,実世界のシナリオで複雑なツールを使うようにllmを訓練する新しいツール学習フレームワークであるconfuciusを提案する。(1) 難解なカリキュラムから様々なツールを使うようllmに教えるマルチステージ学習手法を提案し,(2) イントロスペクティブフィードバック(isif)からの反復的自己説明を提案し,複雑なツールの使い方を改善するためにデータセットを動的に構築する。
制御および実世界の両方の設定で実施された大規模な実験は、チューニング不要(ChatGPT、Claudeなど)とチューニングベースライン(GPT4Toolsなど)の両方と比較して、実世界のアプリケーションシナリオにおけるツール学習フレームワークの優位性を示している。 Augmenting large language models (LLMs) with external tools has emerged as a promising approach to extending the capability of LLMs. Although some works employ open-source LLMs for the tool learning task, most of them are trained in a controlled environment in which LLMs only learn to execute the human-provided tools. However, selecting proper tools from the large toolset is also a crucial ability for the tool learning model to be applied in real-world applications. Existing methods usually directly employ self-instruction methods to train the model, which ignores differences in tool complexity. In this paper, we propose the Confucius, a novel tool learning framework to train LLM to use complicated tools in real-world scenarios, which contains two main phases: (1) We first propose a multi-stage learning method to teach the LLM to use various tools from an easy-to-difficult curriculum; (2) thenceforth, we propose the Iterative Self-instruct from Introspective Feedback (ISIF) to dynamically construct the dataset to improve the ability to use the complicated tool. Extensive experiments conducted on both controlled and real-world settings demonstrate the superiority of our tool learning framework in the real-world application scenarios compared to both tuning-free (e.g. ChatGPT, Claude) and tuning-based baselines (e.g. GPT4Tools). | 翻訳日:2023-08-29 17:26:07 公開日:2023-08-27 |
# 自己監督型コントラスト学習による文脈認識型MILネットワークによる法医学的組織認識 Forensic Histopathological Recognition via a Context-Aware MIL Network Powered by Self-Supervised Contrastive Learning ( http://arxiv.org/abs/2308.14030v1 ) ライセンス: Link先を確認 | Chen Shen and Jun Zhang and Xinggong Liang and Zeyi Hao and Kehan Li and Fan Wang and Zhenyuan Wang and Chunfeng Lian | (参考訳) 法医学的な病理学は、犯罪捜査の信頼できる事実ベースを確立するのを助けるため、微視的な側面から死の方法や時間を分析するのに重要である。
実際には、異なる死後の臓器組織間の手作業による分化でさえ困難であり、被食やオートリシスなどの変化が典型的な病理組織学的外観を大きく変える可能性があるため、専門知識に依存している。
法医学的病理学を支援するAIベースの計算病理学技術の開発は、組織の微細な死後パターンを捉えるために、信頼できる識別的表現学習を必要とする、事実上有意義である。
そこで本研究では,様々な拡大尺度で得られた死後の病理像から識別表現を学習するために,専用の自己教師付きコントラスト学習戦略と文脈認識多能学習(mil)ブロックを考案したfpathという枠組みを提案する。
我々の自己教師型学習ステップは、複数の相補的なコントラスト損失と正規化条件を利用して、きめ細かいパッチ/インスタンスの埋め込みを訓練する。
その後、コンテキスト認識MILは、局所インスタンスから認識タスクの総合バッグ/イメージレベル表現を適応的に蒸留する。
実験用ラット死後画像19,607ドルの大規模データベースと3,378ドルの実世界のヒトデシデント画像において、我々のfpathは7つの異なる死後組織を認識するための最先端の精度とクロスドメインの一般化につながった。
ソースコードは \href{https://github.com/ladderlab-xjtu/forensic_pathology}{https://github.com/ladderlab-xjtu/forensic\_pathology} でリリースされる。 Forensic pathology is critical in analyzing death manner and time from the microscopic aspect to assist in the establishment of reliable factual bases for criminal investigation. In practice, even the manual differentiation between different postmortem organ tissues is challenging and relies on expertise, considering that changes like putrefaction and autolysis could significantly change typical histopathological appearance. Developing AI-based computational pathology techniques to assist forensic pathologists is practically meaningful, which requires reliable discriminative representation learning to capture tissues' fine-grained postmortem patterns. To this end, we propose a framework called FPath, in which a dedicated self-supervised contrastive learning strategy and a context-aware multiple-instance learning (MIL) block are designed to learn discriminative representations from postmortem histopathological images acquired at varying magnification scales. Our self-supervised learning step leverages multiple complementary contrastive losses and regularization terms to train a double-tier backbone for fine-grained and informative patch/instance embedding. Thereafter, the context-aware MIL adaptively distills from the local instances a holistic bag/image-level representation for the recognition task. On a large-scale database of $19,607$ experimental rat postmortem images and $3,378$ real-world human decedent images, our FPath led to state-of-the-art accuracy and promising cross-domain generalization in recognizing seven different postmortem tissues. The source code will be released on \href{https://github.com/ladderlab-xjtu/forensic_pathology}{https://github.com/ladderlab-xjtu/forensic\_pathology}. | 翻訳日:2023-08-29 17:25:41 公開日:2023-08-27 |
# テキストマッチングによる人気バイアス低減による逐次レコメンデーションの改善 Text Matching Improves Sequential Recommendation by Reducing Popularity Biases ( http://arxiv.org/abs/2308.14029v1 ) ライセンス: Link先を確認 | Zhenghao Liu, Sen Mei, Chenyan Xiong, Xiaohua Li, Shi Yu, Zhiyuan Liu, Yu Gu, Ge Yu | (参考訳) 本稿では,テキストmAtchingに基づくSequenTial rEcommendation Model (TASTE)を提案する。
tasteはアイテムの識別子と属性を使ってアイテムとユーザーとアイテムのインタラクションを口頭で表現する。
ユーザ動作のキャラクタリゼーションを改善するため,TASTEでは,エンコーディング時の自己注意計算を小さくすることで,より長いユーザとイテムのインタラクションをモデル化できるアテンション・スパシティー法も提案している。
実験の結果,TASTEはシーケンシャルレコメンデーションデータセットにおいて最先端の手法よりも優れていることがわかった。
TASTEは、フルテキストモデリングを用いてロングテールアイテムを表現し、事前学習された言語モデルの利点をレコメンデーションシステムにもたらすことで、コールドスタート問題を緩和する。
さらに,TASTEは,従来の項目IDベースのレコメンデーションモデルの人気バイアスを低減し,ユーザ満足度を高めるために適切なテキスト関連項目を返すことにより,推奨精度を大幅に向上することを示す。
すべてのコードはhttps://github.com/OpenMatch/TASTEで入手できる。 This paper proposes Text mAtching based SequenTial rEcommendation model (TASTE), which maps items and users in an embedding space and recommends items by matching their text representations. TASTE verbalizes items and user-item interactions using identifiers and attributes of items. To better characterize user behaviors, TASTE additionally proposes an attention sparsity method, which enables TASTE to model longer user-item interactions by reducing the self-attention computations during encoding. Our experiments show that TASTE outperforms the state-of-the-art methods on widely used sequential recommendation datasets. TASTE alleviates the cold start problem by representing long-tail items using full-text modeling and bringing the benefits of pretrained language models to recommendation systems. Our further analyses illustrate that TASTE significantly improves the recommendation accuracy by reducing the popularity bias of previous item id based recommendation models and returning more appropriate and text-relevant items to satisfy users. All codes are available at https://github.com/OpenMatch/TASTE. | 翻訳日:2023-08-29 17:25:09 公開日:2023-08-27 |
# ロングテールスケルトンに基づく行動認識のためのバランスド表現学習 Balanced Representation Learning for Long-tailed Skeleton-based Action Recognition ( http://arxiv.org/abs/2308.14024v1 ) ライセンス: Link先を確認 | Hongda Liu, Yunlong Wang, Min Ren, Junxing Hu, Zhengquan Luo, Guangqi Hou, Zhenan Sun | (参考訳) スケルトンベースのアクション認識は最近大きな進歩を遂げている。
しかし、実際のシナリオでは、データの不均衡は依然として大きな課題です。
現在の行動認識アルゴリズムの性能は、トレーニングデータが重いクラス不均衡に苦しむと急激に低下する。
不均衡なデータは実際にこれらの方法で学んだ表現を劣化させ、アクション認識のボトルネックとなる。
不均衡なアクションデータからバイアスのない表現を学習する方法が、長い尾のアクション認識の鍵である。
本稿では,行動認識におけるロングテール問題に対処するための新しいバランスド表現学習手法を提案する。
まず、サンプル空間を効果的に拡張し、より貴重なサンプルを再均衡的に生成するための時空間行動探索戦略を示す。
次に,表現空間のバイアスを緩和するために,分離した行動認識学習スケジュールを設計する。
スケジュールは、末尾クラスの表現学習を訓練から切り離し、より効果的な制約を課すために行動認識損失を提案する。
さらに,相補的な構造情報を提供するためにスキップモーダル表現を提案する。
提案手法は,NTU RGB+D 60,NTU RGB+D 120,NW-UCLA,Kineeticsの4つの骨格データに対して検証を行った。
最先端技術(SOTA)法に比べて一貫した大きな改善を達成できるだけでなく、広範な実験を通じてより優れた一般化能力を示す。
私たちのコードはhttps://github.com/firework8/BRLで公開されています。 Skeleton-based action recognition has recently made significant progress. However, data imbalance is still a great challenge in real-world scenarios. The performance of current action recognition algorithms declines sharply when training data suffers from heavy class imbalance. The imbalanced data actually degrades the representations learned by these methods and becomes the bottleneck for action recognition. How to learn unbiased representations from imbalanced action data is the key to long-tailed action recognition. In this paper, we propose a novel balanced representation learning method to address the long-tailed problem in action recognition. Firstly, a spatial-temporal action exploration strategy is presented to expand the sample space effectively, generating more valuable samples in a rebalanced manner. Secondly, we design a detached action-aware learning schedule to further mitigate the bias in the representation space. The schedule detaches the representation learning of tail classes from training and proposes an action-aware loss to impose more effective constraints. Additionally, a skip-modal representation is proposed to provide complementary structural information. The proposed method is validated on four skeleton datasets, NTU RGB+D 60, NTU RGB+D 120, NW-UCLA, and Kinetics. It not only achieves consistently large improvement compared to the state-of-the-art (SOTA) methods, but also demonstrates a superior generalization capacity through extensive experiments. Our code is available at https://github.com/firework8/BRL. | 翻訳日:2023-08-29 17:24:42 公開日:2023-08-27 |
# ソースフリードメイン適応のためのドメイン特化変換器 Domain-Specificity Inducing Transformers for Source-Free Domain Adaptation ( http://arxiv.org/abs/2308.14023v1 ) ライセンス: Link先を確認 | Sunandini Sanyal, Ashish Ramayee Asokan, Suvaansh Bhambri, Akshay Kulkarni, Jogendra Nath Kundu, R. Venkatesh Babu | (参考訳) 従来のドメイン適応(DA)手法は、ターゲット適応性能を改善するために、ドメイン不変の特徴表現を学習することを目的としている。
しかし、ドメイン内で訓練されたモデルは適応に有用な重要なドメイン固有の特性を持っているため、ドメイン特異性も同様に重要である。
そこで本研究では,ドメイン固有因子とタスク固有因子の分散学習を支援するフレームワークの構築を提案する。
複数のマルチモーダル視覚問題における視覚変換器の成功により、クエリはドメイン固有の要素を抽出するために利用できることがわかった。
そこで本研究では,ドメイン固有性とタスク固有性の両方を分離・学習するための新しいドメイン固有性誘導トランスフォーマ(DSiT)フレームワークを提案する。
本稿では,ドメイン固有情報を用いた新しいドメイン表現入力(DRI)を構築し,ドメイン分類器を新しいドメイントークンで訓練する。
プライバシ指向のソースフリーな環境では,視覚トランスフォーマーをドメイン適応に初めて活用し,シングルソース,マルチソース,マルチターゲットベンチマークで最先端のパフォーマンスを実現する。 Conventional Domain Adaptation (DA) methods aim to learn domain-invariant feature representations to improve the target adaptation performance. However, we motivate that domain-specificity is equally important since in-domain trained models hold crucial domain-specific properties that are beneficial for adaptation. Hence, we propose to build a framework that supports disentanglement and learning of domain-specific factors and task-specific factors in a unified model. Motivated by the success of vision transformers in several multi-modal vision problems, we find that queries could be leveraged to extract the domain-specific factors. Hence, we propose a novel Domain-specificity-inducing Transformer (DSiT) framework for disentangling and learning both domain-specific and task-specific factors. To achieve disentanglement, we propose to construct novel Domain-Representative Inputs (DRI) with domain-specific information to train a domain classifier with a novel domain token. We are the first to utilize vision transformers for domain adaptation in a privacy-oriented source-free setting, and our approach achieves state-of-the-art performance on single-source, multi-source, and multi-target benchmarks | 翻訳日:2023-08-29 17:24:20 公開日:2023-08-27 |
# 半教師付き系列生成逆数ネットワークを用いたバイモーダル医用画像合成 Bi-Modality Medical Image Synthesis Using Semi-Supervised Sequential Generative Adversarial Networks ( http://arxiv.org/abs/2308.14066v1 ) ライセンス: Link先を確認 | Xin Yang, Yi Lin, Zhiwei Wang, Xin Li, Kwang-Ting Cheng | (参考訳) 本稿では,逐次生成型adversarial network (gan) と半教師付き学習に基づく双方向医用画像合成手法を提案する。
提案手法は2つの生成モジュールから成り,2つのモダリティの画像を逐次的に合成する。
逐次ganの合成順序を自動的に決定するために, 合成複雑性を測定する手法を提案する。
より低複雑性のモダリティの画像が最初に合成され、高複雑性のモダリティ画像が後に生成される。
シーケンシャルなGANは、半教師付きでエンドツーエンドに訓練されています。
教師付きトレーニングでは、実画像と合成画像の再構成損失を明示的に最小化することにより、2つのモダリティの実際の対画像から両モダリティ画像の関節分布を学習する。
制限された訓練画像の過剰化を避けるため、教師なし訓練では、実画像と偽画像の分布間のワッサースタイン距離を最小化し、非ペア画像に基づいて各モダリティの限界分布を学習する。
提案手法は,3種類の評価指標とユーザ調査に基づいて,2つの合成タスクを用いて総合的に評価する。
視覚的および定量的な結果から,本手法が最先端の手法よりも優れていること,合理的な視覚的品質と臨床的意義が示された。
コードはhttps://github.com/hustlinyi/Multimodal-Medical-Image-Synthesisで公開されている。 In this paper, we propose a bi-modality medical image synthesis approach based on sequential generative adversarial network (GAN) and semi-supervised learning. Our approach consists of two generative modules that synthesize images of the two modalities in a sequential order. A method for measuring the synthesis complexity is proposed to automatically determine the synthesis order in our sequential GAN. Images of the modality with a lower complexity are synthesized first, and the counterparts with a higher complexity are generated later. Our sequential GAN is trained end-to-end in a semi-supervised manner. In supervised training, the joint distribution of bi-modality images are learned from real paired images of the two modalities by explicitly minimizing the reconstruction losses between the real and synthetic images. To avoid overfitting limited training images, in unsupervised training, the marginal distribution of each modality is learned based on unpaired images by minimizing the Wasserstein distance between the distributions of real and fake images. We comprehensively evaluate the proposed model using two synthesis tasks based on three types of evaluate metrics and user studies. Visual and quantitative results demonstrate the superiority of our method to the state-of-the-art methods, and reasonable visual quality and clinical significance. Code is made publicly available at https://github.com/hustlinyi/Multimodal-Medical-Image-Synthesis. | 翻訳日:2023-08-29 17:18:33 公開日:2023-08-27 |
# 注意支援に基づく空中視覚と対話ナビゲーションのための多モデル融合 Multi-model fusion for Aerial Vision and Dialog Navigation based on human attention aids ( http://arxiv.org/abs/2308.14064v1 ) ライセンス: Link先を確認 | Xinyi Wang, Xuan Cui, Danxu Li, Fang Liu, Licheng Jiao | (参考訳) ドローンは私たちの日常生活の多くの地域で広く使われている。
これは、常にコントローラーを握ることの負担を軽減し、障害や占領された手を持つ人々のために、ドローンのコントロールを使いやすくする。
しかし、制御不能高さなどの要因により、通常のロボットに比べて空中ロボットの制御は複雑である。
したがって、人間と会話し、自然言語コマンドに従う能力を持つインテリジェントなUAVを開発することが不可欠である。
本稿では,2023年ICCV会話史のための航空航法課題について述べる。
3k以上のナビゲーショントラジェクトリと非同期なヒューマンロボット会話を含むAVDNデータセットに基づいて、ナビゲーションルーティングポイントと人間の注意を予測できる、ヒューマンアテンション支援トランスフォーマーモデル(HAA-Transformer)とヒューマンアテンション支援LSTM(HAA-LSTM)モデルの融合訓練法を提案する。
この手法は,高いSR値とSPL値を達成するだけでなく,ベースラインモデルと比較して,GP値の7%向上を示す。 Drones have been widely used in many areas of our daily lives. It relieves people of the burden of holding a controller all the time and makes drone control easier to use for people with disabilities or occupied hands. However, the control of aerial robots is more complicated compared to normal robots due to factors such as uncontrollable height. Therefore, it is crucial to develop an intelligent UAV that has the ability to talk to humans and follow natural language commands. In this report, we present an aerial navigation task for the 2023 ICCV Conversation History. Based on the AVDN dataset containing more than 3k recorded navigation trajectories and asynchronous human-robot conversations, we propose an effective method of fusion training of Human Attention Aided Transformer model (HAA-Transformer) and Human Attention Aided LSTM (HAA-LSTM) model, which achieves the prediction of the navigation routing points and human attention. The method not only achieves high SR and SPL metrics, but also shows a 7% improvement in GP metrics compared to the baseline model. | 翻訳日:2023-08-29 17:18:08 公開日:2023-08-27 |
# 量子物理学における1ハーフ位相数 One-Half Topological Number in Entangled Quantum Physics ( http://arxiv.org/abs/2308.14062v1 ) ライセンス: Link先を確認 | Karyn Le Hur | (参考訳) トポロジカル位相は、放射磁場の結果としてヘッジホッグ構造を示すスピン-1/2のブロッホ球からの量子物理学で設計することができる。
1つの極における絡み合った波動関数の形成と、2スピンモデル、および1つの半位相数の興味深い対との関係について詳述する。
超伝導体のクーパー対と同様に、アインシュタイン-ポドルスキー-ローゼン対またはベル状態は半フラックス量子化を生じ、これは表面上のベリー曲率の半分のフラックスを指す。
これらの1/2数はまた、極に自由マヨラナフェルミオンの存在を示す。
位相応答は、北から南へ走行する場合や、保護された横流の量子化または半量子化の性質を示す極の円偏波場から測定することができる。
バンド構造における絡み合った波動関数の応用を示し、運動量空間に局所位相マーカーを導入し、二層幾何学における2次元半金属の位相応答を特徴付ける。 A topological phase can be engineered in quantum physics from the Bloch sphere of a spin-1/2 showing an hedgehog structure as a result of a radial magnetic field. We elaborate on a relation between the formation of an entangled wavefunction at one pole, in a two-spins model, and an interesting pair of one-half topological numbers. Similar to Cooper pairs in superconductors, the Einstein-Podolsky-Rosen pair or Bell state produces a half flux quantization, which here refers to the halved flux of the Berry curvature on the surface. These 1/2-numbers also reveal the presence of a free Majorana fermion at a pole. The topological responses can be measured when driving from north to south and also from a circularly polarized field at the poles revealing the quantized or half-quantized nature of the protected transverse currents. We show applications of entangled wavefunctions in band structures, introducing a local topological marker in momentum space, to characterize the topological response of two-dimensional semimetals in bilayer geometries. | 翻訳日:2023-08-29 17:17:48 公開日:2023-08-27 |
# パターン一般化画像腐敗検出のための階層的コントラスト学習 Hierarchical Contrastive Learning for Pattern-Generalizable Image Corruption Detection ( http://arxiv.org/abs/2308.14061v1 ) ライセンス: Link先を確認 | Xin Feng, Yifeng Xu, Guangming Lu, Wenjie Pei | (参考訳) ブラインド画像の塗装などの大規模な汚職による効果的な画像復元は、様々な形態や汚職パターンのために非常に困難なままの汚職地域マスクの正確な検出を必要とする。
本研究では, 既知の汚損マスクを使わずに, ブラインド汚損復旧を可能にする, 自動汚損検出手法を提案する。
具体的には,破壊領域と非破壊領域の固有の意味的区別を捉えることにより,破壊領域を検出する階層的対比学習フレームワークを開発した。
特に,低分解能特徴空間におけるコントラスト学習により粗いマスクを最初に予測し,高分解能コントラスト学習により不確かさ領域を精錬し,粗さから粗いマスクを検出する。
特殊な階層的相互作用機構は、異なるスケールでのコントラスト学習の知識伝播を促進するように設計され、モデリング性能を大幅に向上させる。
検出されたマルチスケールの汚職マスクを利用して、汚職回復を誘導する。
このモデルでは, 汚職の意味的パターンではなく, 対照的な区別を学習することで, 腐敗した地域を検出できる。
大規模な実験は、我々のモデルのメリットを例示します。
1)ブラインド塗装や透かし除去を含む腐敗検出および画像復元作業において,他の方法よりも優れた性能が得られた。
2) 落書き, ランダムノイズ, その他の画像内容など, さまざまな汚職パターンの強い一般化。
コードはhttps://github.com/xyfJASON/HCL で公開されている。 Effective image restoration with large-size corruptions, such as blind image inpainting, entails precise detection of corruption region masks which remains extremely challenging due to diverse shapes and patterns of corruptions. In this work, we present a novel method for automatic corruption detection, which allows for blind corruption restoration without known corruption masks. Specifically, we develop a hierarchical contrastive learning framework to detect corrupted regions by capturing the intrinsic semantic distinctions between corrupted and uncorrupted regions. In particular, our model detects the corrupted mask in a coarse-to-fine manner by first predicting a coarse mask by contrastive learning in low-resolution feature space and then refines the uncertain area of the mask by high-resolution contrastive learning. A specialized hierarchical interaction mechanism is designed to facilitate the knowledge propagation of contrastive learning in different scales, boosting the modeling performance substantially. The detected multi-scale corruption masks are then leveraged to guide the corruption restoration. Detecting corrupted regions by learning the contrastive distinctions rather than the semantic patterns of corruptions, our model has well generalization ability across different corruption patterns. Extensive experiments demonstrate following merits of our model: 1) the superior performance over other methods on both corruption detection and various image restoration tasks including blind inpainting and watermark removal, and 2) strong generalization across different corruption patterns such as graffiti, random noise or other image content. Codes and trained weights are available at https://github.com/xyfJASON/HCL . | 翻訳日:2023-08-29 17:17:31 公開日:2023-08-27 |
# 半教師付き学習を改善するためのラベルなしデータの抽出 Pruning the Unlabeled Data to Improve Semi-Supervised Learning ( http://arxiv.org/abs/2308.14058v1 ) ライセンス: Link先を確認 | Guy Hacohen, Daphna Weinshall | (参考訳) 半教師付き学習(SSL)の分野では、従来の手法では、同じ基礎となる分布から引き出された大量のラベル付きデータとともに、限られた量のラベル付きデータで学習者を訓練する。
しかし、ディープラーニングモデルでは、この標準プラクティスは最適な結果をもたらすことができない。
本研究では,より容易に分離できる分布が,学習者にとって本来の分布よりも優れた利益をもたらすことを示唆する別の視点を提案する。
これを実現するために,従来の未ラベルデータセットからサンプルを選択的に削除し,分離性を高める実践的手法であるPruneSSLを提案する。
本稿では,prunesslが学習者の利用可能なトレーニングデータ量を削減するが,様々な競合sslアルゴリズムの性能を大幅に向上させ,複数の画像分類タスクにおいて最先端の結果が得られることを示す。 In the domain of semi-supervised learning (SSL), the conventional approach involves training a learner with a limited amount of labeled data alongside a substantial volume of unlabeled data, both drawn from the same underlying distribution. However, for deep learning models, this standard practice may not yield optimal results. In this research, we propose an alternative perspective, suggesting that distributions that are more readily separable could offer superior benefits to the learner as compared to the original distribution. To achieve this, we present PruneSSL, a practical technique for selectively removing examples from the original unlabeled dataset to enhance its separability. We present an empirical study, showing that although PruneSSL reduces the quantity of available training data for the learner, it significantly improves the performance of various competitive SSL algorithms, thereby achieving state-of-the-art results across several image classification tasks. | 翻訳日:2023-08-29 17:17:06 公開日:2023-08-27 |
# シングルキュービット局所演算と古典的通信による安定化器符号の効率的な復号化 Efficient decoding of stabilizer code by single-qubit local operations and classical communication ( http://arxiv.org/abs/2308.14054v1 ) ライセンス: Link先を確認 | Koki Shiraishi, Hayata Yamasaki, Mio Murao | (参考訳) 本稿では,複数の量子ビットの安定化符号で符号化された分散1量子ビット量子情報を抽出するプロトコルを,グローバル操作や絡み合いリソースを必要とせず,単一量子ビットのローカル操作と古典通信(locc)のみで構築する。
このプロトコルは物理量子ビット数の観点から多項式時間内で効率的な抽出を実現する。
このプロトコルを、空間的に分離されたパーティのサブセットが古典的なコミュニケーションによって協調して、すべてのパーティ間で共有される量子情報を抽出する量子情報分割設定に適用する。
このタスクのために,locc抽出プロトコルでは,共有量子情報抽出の場所に依存する最小のパーティ数で協調するパーティ間の階層的情報アクセス構造を設計することができる。
これらの結果は、安定化符号にエンコードされた分散量子情報へのアクセスを必要とする分散量子情報処理の基本構成要素を提供する。 We construct a protocol for extracting distributed one-qubit quantum information encoded in a stabilizer code of multiple qubits, only by single-qubit local operations and classical communication (LOCC) without global operations or entanglement resources. This protocol achieves efficient extraction within a polynomial time in terms of the number of physical qubits. We apply this protocol to a setting of quantum information splitting where a subset of spatially separated parties cooperate by classical communication to extract quantum information shared among all the parties. For this task, our LOCC extraction protocol allows designing hierarchical information access structures among the parties, where the minimum number of parties required to cooperate depends on the location of extracting the shared quantum information. These results provide a fundamental building block of distributed quantum information processing that requires access to distributed quantum information encoded in the stabilizer codes. | 翻訳日:2023-08-29 17:16:49 公開日:2023-08-27 |
# MM-AU:動画のマルチモーダル理解に向けて MM-AU:Towards Multimodal Understanding of Advertisement Videos ( http://arxiv.org/abs/2308.14052v1 ) ライセンス: Link先を確認 | Digbalay Bose, Rajat Hebbar, Tiantian Feng, Krishna Somandepalli, Anfeng Xu, Shrikanth Narayanan | (参考訳) 動画(ads)はインターネットのeコマースの領域において不可欠な役割を担い、特定の商品の幅広いオーディエンスへのリーチを増幅したり、簡潔なナラティブ構造を通じて特定の問題に対する認識を高める媒体として機能したりします。
広告の物語構造は、幅広い内容(トピックとメッセージ)についての推論や、特定の出来事の順序とキャラクター間の相互作用による知覚的なトーンの遷移に関する細かな詳細を調べるなど、いくつかの要素を含んでいる。
本研究では,トピック分類,知覚的トーン遷移,ソーシャルメッセージ検出の3つの重要な側面に沿った広告の理解を容易にするために,複数のWebソースからキュレートされた8.4Kビデオ(147時間)からなるMM-AUというマルチモーダルマルチランガルベンチマークを導入する。
広告書き起こしに対する大規模言語モデルの適用を通して,複数のゼロショット推論ベースラインについて検討する。
さらに,マルチモーダルトランスフォーマを用いた教師付きモデルにおいて,音声,ビデオ,テキストなど複数のモーダルの信号を活用することで,ユニモーダルアプローチに比べて性能の向上が期待できることを示す。 Advertisement videos (ads) play an integral part in the domain of Internet e-commerce as they amplify the reach of particular products to a broad audience or can serve as a medium to raise awareness about specific issues through concise narrative structures. The narrative structures of advertisements involve several elements like reasoning about the broad content (topic and the underlying message) and examining fine-grained details involving the transition of perceived tone due to the specific sequence of events and interaction among characters. In this work, to facilitate the understanding of advertisements along the three important dimensions of topic categorization, perceived tone transition, and social message detection, we introduce a multimodal multilingual benchmark called MM-AU composed of over 8.4K videos (147 hours) curated from multiple web sources. We explore multiple zero-shot reasoning baselines through the application of large language models on the ads transcripts. Further, we demonstrate that leveraging signals from multiple modalities, including audio, video, and text, in multimodal transformer-based supervised models leads to improved performance compared to unimodal approaches. | 翻訳日:2023-08-29 17:16:34 公開日:2023-08-27 |
# PECon: 肺塞栓症診断の改善のためのCTとERHデータの特徴調整のための対照的な事前訓練 PECon: Contrastive Pretraining to Enhance Feature Alignment between CT and EHR Data for Improved Pulmonary Embolism Diagnosis ( http://arxiv.org/abs/2308.14050v1 ) ライセンス: Link先を確認 | Santosh Sanjeev, Salwa K. Al Khatib, Mai A. Shaaban, Ibrahim Almakky, Vijay Ram Papineni and Mohammad Yaqub | (参考訳) これまでの深層学習は、畳み込みニューラルネットワーク(cnn)を用いたctスキャンによる肺塞栓症(pe)診断の性能向上に重点を置いている。
しかし,CT検査だけではPEの診断に十分とは限らない。
CTスキャンと電子ヒースレコード(EHR)は、患者の状態をよりよく把握し、より正確なPE診断につながる可能性がある。
本稿では,患者CTスキャンとERHデータの両方を併用したコントラスト前訓練戦略であるContrastive Learning (PECon) を用いた肺塞栓症検出法を提案し,両モード間の特徴表現の整合性を高め,PE診断を改善するために情報を活用することを目的とした。
これを達成するために、私たちはクラスラベルを使用し、同じクラスのサンプルフィーチャを一緒に引き抜き、他のクラスをプッシュします。
その結果,提案手法は既存の手法より優れており,F1スコア0.913,精度0.990,AUROC0.943でRadFusionデータセットの最先端性能を実現していることがわかった。
また,他の手法と比較して,提案手法の説明可能性についても検討する。
私たちのコードはhttps://github.com/BioMedIA-MBzuAI/PEConで公開されています。 Previous deep learning efforts have focused on improving the performance of Pulmonary Embolism(PE) diagnosis from Computed Tomography (CT) scans using Convolutional Neural Networks (CNN). However, the features from CT scans alone are not always sufficient for the diagnosis of PE. CT scans along with electronic heath records (EHR) can provide a better insight into the patients condition and can lead to more accurate PE diagnosis. In this paper, we propose Pulmonary Embolism Detection using Contrastive Learning (PECon), a supervised contrastive pretraining strategy that employs both the patients CT scans as well as the EHR data, aiming to enhance the alignment of feature representations between the two modalities and leverage information to improve the PE diagnosis. In order to achieve this, we make use of the class labels and pull the sample features of the same class together, while pushing away those of the other class. Results show that the proposed work outperforms the existing techniques and achieves state-of-the-art performance on the RadFusion dataset with an F1-score of 0.913, accuracy of 0.90 and an AUROC of 0.943. Furthermore, we also explore the explainability of our approach in comparison to other methods. Our code is publicly available at https://github.com/BioMedIA-MBZUAI/PECon. | 翻訳日:2023-08-29 17:16:13 公開日:2023-08-27 |
# ベイズ的非パラメトリックによる生成モデル:ワッサーシュタインと最大平均離散性を用いた変分オートエンコーダと生成対向ネットワークの統合 A Bayesian Non-parametric Approach to Generative Models: Integrating Variational Autoencoder and Generative Adversarial Networks using Wasserstein and Maximum Mean Discrepancy ( http://arxiv.org/abs/2308.14048v1 ) ライセンス: Link先を確認 | Forough Fazeli-Asl and Michael Minyi Zhang | (参考訳) 生成モデルは、実画像と区別できない高品質な画像を生成するための有望な技術として登場してきた。
generative adversarial networks (gans) と variational autoencoder (vaes) は、最も顕著で広く研究されている生成モデルである。
GANは鮮明なリアルな画像を生成する上で優れた性能を示しており、VAEは多様な画像を生成する強力な能力を示している。
しかしながら、GANは、ターゲット分布の完全な多様性を表すものではない出力空間の大部分を無視し、VAEはぼやけた画像を生成する傾向にある。
弱さを緩和しながら両モデルの強みを最大限に活用するために、ベイズ非パラメトリック(BNP)アプローチを用いてGANとVAEを融合する。
本手法は,損失関数にwassersteinとmaximum mean discrepancy(mmd)を併用し,潜在空間の効果的な学習を可能にし,多様で高品質なサンプルを生成する。
本稿では,GANの識別能力とVAEの再構成能力とを融合させることで,異常検出やデータ拡張など,様々な生成タスクにおいて優れた性能を実現する。
さらに、コード空間に余分なジェネレータを使用することで、vaeが見落としているかもしれないコード空間の領域を探索することで、モデルの能力を高める。
BNPの観点からは、無限次元空間を用いてデータ分布をモデル化できるため、モデルの柔軟性が向上し、オーバーフィッティングのリスクを低減することができる。
このフレームワークを利用することで、GANとVAEの両方の性能を高め、様々なアプリケーションに適したより堅牢な生成モデルを作成することができる。 Generative models have emerged as a promising technique for producing high-quality images that are indistinguishable from real images. Generative adversarial networks (GANs) and variational autoencoders (VAEs) are two of the most prominent and widely studied generative models. GANs have demonstrated excellent performance in generating sharp realistic images and VAEs have shown strong abilities to generate diverse images. However, GANs suffer from ignoring a large portion of the possible output space which does not represent the full diversity of the target distribution, and VAEs tend to produce blurry images. To fully capitalize on the strengths of both models while mitigating their weaknesses, we employ a Bayesian non-parametric (BNP) approach to merge GANs and VAEs. Our procedure incorporates both Wasserstein and maximum mean discrepancy (MMD) measures in the loss function to enable effective learning of the latent space and generate diverse and high-quality samples. By fusing the discriminative power of GANs with the reconstruction capabilities of VAEs, our novel model achieves superior performance in various generative tasks, such as anomaly detection and data augmentation. Furthermore, we enhance the model's capability by employing an extra generator in the code space, which enables us to explore areas of the code space that the VAE might have overlooked. With a BNP perspective, we can model the data distribution using an infinite-dimensional space, which provides greater flexibility in the model and reduces the risk of overfitting. By utilizing this framework, we can enhance the performance of both GANs and VAEs to create a more robust generative model suitable for various applications. | 翻訳日:2023-08-29 17:15:53 公開日:2023-08-27 |
# 多様なスキャン測地線からの点雲の自動粗い共登録:検出器とディスクリプタの試験 Automatic coarse co-registration of point clouds from diverse scan geometries: a test of detectors and descriptors ( http://arxiv.org/abs/2308.14047v1 ) ライセンス: Link先を確認 | Francesco Pirotti, Alberto Guarnieri, Stefano Chiodini, Carlo Bettanini | (参考訳) ポイント雲は現在では多数のセンサーから収集されており、一部は高い精度と高いコストを持ち、一部は低い精度を持つがコストも低い。
異なるセンサーには大きな選択肢があるだけでなく、異なるプラットフォームによって輸送することもでき、異なるスキャンジオメトリを提供することができる。
本研究では、4つの異なるキーポイント検出器と3つの特徴記述器の抽出をテストする。
我々は計算時間の観点から性能をベンチマークし、異なるセンサ、プラットフォーム、走査測地で収集された2つの雲の自動登録能力において、それらの性能を精度で評価する。
本研究の目新しさは,鳥の眼球と地上からの視点を持つため,異なる測地線から点雲を高速にアライメントするためのいくつかの戦略を比較したものである。
追加の課題は、荒削りな地形とともに、調査の精度を合理的に低下させる自転車センサアンサンブルの低価格化に関連している。
主なアイデアは、レンジイメージを使用して、測量された領域のジオメトリの簡易バージョンをキャプチャし、キーポイントにマッチする最適な特徴を見つけることである。
結果, narfの特徴により, より多くのキーポイントが検出され, このシナリオにおいてより高速な共登録手順が得られ, 共登録の精度は全てのキーポイント検出器と特徴の組合せと類似していることがわかった。 Point clouds are collected nowadays from a plethora of sensors, some having higher accuracies and higher costs, some having lower accuracies but also lower costs. Not only there is a large choice for different sensors, but also these can be transported by different platforms, which can provide different scan geometries. In this work we test the extraction of four different keypoint detectors and three feature descriptors. We benchmark performance in terms of calculation time and we assess their performance in terms of accuracy in their ability in coarse automatic co-registration of two clouds that are collected with different sensors, platforms and scan geometries. One, which we define as having the higher accuracy, and thus will be used as reference, was surveyed via a UAV flight with a Riegl MiniVUX-3, the other on a bicycle with a Livox Horizon over a walking path with un-even ground.The novelty in this work consists in comparing several strategies for fast alignment of point clouds from very different surveying geometries, as the drone has a bird's eye view and the bicycle a ground-based view. An added challenge is related to the lower cost of the bicycle sensor ensemble that, together with the rough terrain, reasonably results in lower accuracy of the survey. The main idea is to use range images to capture a simplified version of the geometry of the surveyed area and then find the best features to match keypoints. Results show that NARF features detected more keypoints and resulted in a faster co-registration procedure in this scenariowhereas the accuracy of the co-registration is similar to all the combinations of keypoint detectors and features. | 翻訳日:2023-08-29 17:15:24 公開日:2023-08-27 |
# 脱結合運動と形状モデルを用いた4次元心筋再建術 4D Myocardium Reconstruction with Decoupled Motion and Shape Model ( http://arxiv.org/abs/2308.14083v1 ) ライセンス: Link先を確認 | Xiaohan Yuan, Cong Liu and Yangang Wang | (参考訳) Estimating the shape and motion state of the myocardium is essential in diagnosing cardiovascular diseases.However, cine magnetic resonance (CMR) imaging is dominated by 2D slices, whose large slice spacing challenges inter-slice shape reconstruction and motion acquisition.To address this problem, we propose a 4D reconstruction method that decouples motion and shape, which can predict the inter-/intra- shape and motion estimation from a given sparse point cloud sequence obtained from limited slices.
我々のフレームワークは、神経運動モデルとエンドダイアストリック(ed)形状モデルからなる。
暗黙的なed形状モデルは連続境界を学習し、動きモデルに基底真理変形の監督なしに予測を促すことができ、動きモデルは任意の位相からed位相への任意の点を変形させることで形状モデルの正準入力を可能にする。
さらに、構築されたed空間は、形状モデルの事前学習を可能にし、運動モデルを誘導し、データ不足の問題に対処する。
そこで本研究では, 提案法, 公開法, クロスモーダル法における最初の4次元心筋データセットを提案し, 各種臨床応用の可能性を示す。 Estimating the shape and motion state of the myocardium is essential in diagnosing cardiovascular diseases.However, cine magnetic resonance (CMR) imaging is dominated by 2D slices, whose large slice spacing challenges inter-slice shape reconstruction and motion acquisition.To address this problem, we propose a 4D reconstruction method that decouples motion and shape, which can predict the inter-/intra- shape and motion estimation from a given sparse point cloud sequence obtained from limited slices. Our framework comprises a neural motion model and an end-diastolic (ED) shape model. The implicit ED shape model can learn a continuous boundary and encourage the motion model to predict without the supervision of ground truth deformation, and the motion model enables canonical input of the shape model by deforming any point from any phase to the ED phase. Additionally, the constructed ED-space enables pre-training of the shape model, thereby guiding the motion model and addressing the issue of data scarcity. We propose the first 4D myocardial dataset as we know and verify our method on the proposed, public, and cross-modal datasets, showing superior reconstruction performance and enabling various clinical applications. | 翻訳日:2023-08-29 17:07:42 公開日:2023-08-27 |
# 単眼画像からのインタラクションによるインタラクションハンドの再構築 Reconstructing Interacting Hands with Interaction Prior from Monocular Images ( http://arxiv.org/abs/2308.14082v1 ) ライセンス: Link先を確認 | Binghui Zuo, Zimeng Zhao, Wenqian Sun, Wei Xie, Zhou Xue and Yangang Wang | (参考訳) AR/VRアプリケーションでは、モノクロ画像からのインタラクションハンドの再構築が不可欠である。
既存の解のほとんどは、それぞれの骨格関節の正確な局在に依存する。
しかし, 重度の咬合と隣接した手部との類似性から, 信頼性が低下する傾向がみられた。
これはまた、人間がすべての関節を局所化せずに素早く相互作用パターンを模倣できるため、人間の知覚に反する。
我々のキーとなる考え方は、まず最初に双方向のインタラクションを構築し、インタラクション再構築タスクを前者からの条件付きサンプリングとして再キャストすることである。
インタラクション状態を拡大するために,物理可能性を持つ大規模マルチモーダルデータセットを提案する。
次に、vaeを訓練し、これらの相互作用パターンを事前分布内の潜在符号としてさらに凝縮させる。
先行サンプリングのインタラクションに寄与する画像手がかりを求める際に,対話型隣接ヒートマップ(iah)を提案する。
ローカライズのためのジョイントワイズヒートマップと比較すると、iaaは目に見えない関節により濃密な特徴を割り当てる。
オールインワンの可視熱マップと比較して、各相互作用領域におけるよりきめ細かい局所的な相互作用情報を提供する。
最後に、抽出した特徴と対応する相互作用符号の相関関係をViTモジュールでリンクする。
ベンチマークデータセットの総合評価により、このフレームワークの有効性が検証された。
コードとデータセットはhttps://github.com/binghui-z/InterPrior_pytorchで公開されている。 Reconstructing interacting hands from monocular images is indispensable in AR/VR applications. Most existing solutions rely on the accurate localization of each skeleton joint. However, these methods tend to be unreliable due to the severe occlusion and confusing similarity among adjacent hand parts. This also defies human perception because humans can quickly imitate an interaction pattern without localizing all joints. Our key idea is to first construct a two-hand interaction prior and recast the interaction reconstruction task as the conditional sampling from the prior. To expand more interaction states, a large-scale multimodal dataset with physical plausibility is proposed. Then a VAE is trained to further condense these interaction patterns as latent codes in a prior distribution. When looking for image cues that contribute to interaction prior sampling, we propose the interaction adjacency heatmap (IAH). Compared with a joint-wise heatmap for localization, IAH assigns denser visible features to those invisible joints. Compared with an all-in-one visible heatmap, it provides more fine-grained local interaction information in each interaction region. Finally, the correlations between the extracted features and corresponding interaction codes are linked by the ViT module. Comprehensive evaluations on benchmark datasets have verified the effectiveness of this framework. The code and dataset are publicly available at https://github.com/binghui-z/InterPrior_pytorch | 翻訳日:2023-08-29 17:07:23 公開日:2023-08-27 |
# U-SEANNet:鼻内視鏡画像から鼻疾患を診断するための簡便で効率的なU字型ネットワーク U-SEANNet: A Simple, Efficient and Applied U-Shaped Network for Diagnosing Nasal Diseases from Nasal Endoscopic Images ( http://arxiv.org/abs/2308.14081v1 ) ライセンス: Link先を確認 | Yubiao Yue, Jun Xue, Haihua Liang, Zhenzhang Li | (参考訳) 深層学習(DL)モデルを用いて鼻内視鏡画像から鼻疾患の早期診断を改善することが最重要となる。
しかし、利用可能なデータセットの欠如はこの分野の進歩を阻害する。
さらに、既存のモデルは、モデル診断性能、モデル複雑性とパラメータサイズの間に良いトレードオフを課すことができず、実用的な応用には適さない。
このギャップを埋めるために、私たちは最初の大規模な鼻内視鏡データセットである7-NasEIDを作成しました。
これに基づいて、我々は、深度的に分離可能な畳み込みを基盤とした革新的なアーキテクチャであるU-SEANNetを提案した。
さらに,入力画像の微妙な変動に対する識別能力を強化するため,u-seannetがグローバルとローカルの両方のコンテキストのチャネル機能に集中できるように,グローバル・ローカル・チャネル機能融合モジュールを提案した。
特に、U-SEANNet のパラメータサイズと GFLOP はそれぞれ 0.78M と 0.21 である。
7-NasalEIDを用いてU-SEANNet上で5倍のクロスバリデーションを行い,その性能を17の有名なアーキテクチャと比較した。
実験結果から, 最先端(SOTA)モデルとしてのU-SEANNetの精度は93.58%, 感度は90.17%, 特異性は91.27%であることが示唆された。
これらの結果から,u-seannetは鼻疾患の診断を実用的に行う可能性を示し,鼻疾患診断ツールの開発に新たな知見を与えた。 Utilizing deep learning (DL) models to improve the early diagnosis of nasal diseases from nasal endoscopic images holds paramount importance. However, the lack of available datasets stymies advancements in this field. Furthermore, existing models fail to strike a good trade-off between model diagnosis performance, model complexity and parameter size, rendering them unsuitable for practical application. To bridge these gaps, we created the first large-scale nasal endoscopy dataset, named 7-NasEID, comprising 11,352 images that span six nasal diseases and normal samples. Building on this, we proposed U-SEANNet, an innovative architecture, underpinned by depth-wise separable convolutions. Additionally, to augment its discernment capabilities for subtle variations in input images, we further proposed the Global-Local Channel Feature Fusion Module, enabling the U-SEANNet to focus salient channel features from both global and local contexts. Notably, U-SEANNet's parameter size and GFLOPs are only 0.78M and 0.21, respectively. Employing the 7-NasalEID, we conducted the five-fold cross-validation on U-SEANNet, juxtaposing its performance against seventeen renowned architectures. The experimental results suggest U-SEANNet as the state-of-the-art (SOTA) model, achieves an accuracy of 93.58%, sensitivity of 90.17%, and specificity of 91.27%. These findings demonstrate U-SEANNet's prodigious potential for diagnosing nasal diseases in practical use, providing the development of efficacy nasal diseases diagnosis tools with a new insight. | 翻訳日:2023-08-29 17:07:04 公開日:2023-08-27 |
# 双極子振動と重力sagにより駆動される新しい2状態ボース・アインシュタイン凝縮ラムゼー干渉計のシミュレーションツールの開発 Developing a simulation tool to investigate a novel trapped two-state Bose-Einstein condensate Ramsey interferometer driven by dipole oscillations and gravitational sag ( http://arxiv.org/abs/2308.14079v1 ) ライセンス: Link先を確認 | Anushka Thenuwara and Andrei Sidorov | (参考訳) 双極子振動と重力sagによって駆動される2状態ボース・アインシュタイン凝縮体(bec)を閉じ込めたラムゼー干渉計の実現可能性を提案する。
BECは純粋な葉巻形状の圧縮磁気トラップ(CMT)で形成され、5ドル^2S_{\frac{1}{2}}$基底状態の原子雲$^{87}Rb$状態の希薄原子雲$$\vert F=2, m_F=+2 \rangle$$$(\vert +2 \rangle)$状態にある。
ここで、rmasey interferometryは$\vert f=2, m_f=+1 \rangle$$(\vert +1 \rangle)$と$\vert +2 \rangle$で実行される。
提案した干渉計は、$m_F$状態の変化により、調和振動子トラップ電位と重力サグに対する原子の応答を利用する。
簡単に言えば、状態 $\vert +1 \rangle$ はより浅いラジアルトラップを経験し、状態 $\vert +2 \rangle$ はより狭いラジアルトラップを経験し、状態 $\vert +1 \rangle$ の半分である重力サグを経験する。
このため、$\vert +1 \rangle$ と $\vert +2 \rangle$ の重なり合いはマルチパス伝播を経験し、干渉パターンとなる。
これは局所重力場を測り、衛星間散乱長を測定するために用いられる。
ここでは,2段階系とgross-pitaevskii方程式(gpe)を組み合わせた理論的枠組みを報告した。
さらに,補間干渉計を探索するマトラブのgpelabsを用いたシミュレーションツールの開発を,重要な知見と知見とともに報告した。 We propose and explore the feasibility of a novel Ramsey interferometer created by a trapped two-state Bose-Einstein condensate (BEC) driven by dipole oscillations and gravitational sag. The BEC is formed in a pure cigar shaped compressed magnetic trap (CMT) via a dilute atom cloud of $^{87}Rb$ atoms in state $\vert F=2, m_F=+2 \rangle$ $(\vert +2 \rangle)$ of the $5 ^2S_{\frac{1}{2}}$ ground state. Here, Rmasey interferometry is performed with states $\vert F=2, m_F=+1 \rangle$ $(\vert +1 \rangle)$ and $\vert +2 \rangle$. The proposed interferometer utilises the response of atoms to the harmonic oscillator trapping potential and the gravitational sag due to the variation in the $m_F$ state. Briefly, the state $\vert +1 \rangle$ experiences a shallower radial trap with a larger gravitational sag; whereas, state $\vert +2 \rangle$ experiences a tighter radial trap with a gravitational sag which is half of state $\vert +1 \rangle$. Due to this, a superposition between the states $\vert +1 \rangle$ and $\vert +2 \rangle$ experiences multipath propagation resulting in an interference pattern. This may be utilised to measure local gravitational fields and measure inter-sate scattering lengths. Here, a theoretical framework is reported which is developed via the two-level system in combination with the Gross-Pitaevskii equation (GPE). Further, the development of a simulation tool via GPELabs in MATLAB that explores the prosed interferometer is reported along with key insights and findings. | 翻訳日:2023-08-29 17:06:34 公開日:2023-08-27 |
# スパース3D:スパースビューからのオブジェクト再構成のための多視点連続拡散の蒸留 Sparse3D: Distilling Multiview-Consistent Diffusion for Object Reconstruction from Sparse Views ( http://arxiv.org/abs/2308.14078v1 ) ライセンス: Link先を確認 | Zi-Xin Zou, Weihao Cheng, Yan-Pei Cao, Shi-Sheng Huang, Ying Shan, Song-Hai Zhang | (参考訳) 極めてスパースなビューから3dオブジェクトを再構築することは、長年の課題である。
最近の技術では、新しい視点で可塑性画像を生成するための画像拡散モデルや、スコア蒸留サンプリング(SDS)を用いた3次元表現への事前学習拡散先行画像の蒸留に用いられているが、これらの手法は、新しい視点合成(NVS)と幾何学の両方において、高品質で一貫性のある詳細な結果の同時達成に苦慮することが多い。
本研究では,スパースビュー入力に適した新しい3次元再構成手法であるsparse3dを提案する。
本手法では,多視点整合拡散モデルからロバスト前駆体を抽出し,神経放射場を精製する。
具体的には、入力ビューからエピポーラ特徴を利用するコントローラを用いて、安定拡散のような事前学習された拡散モデルを誘導し、入力との3次元整合性を維持する新しいビュー画像を生成する。
強力な画像拡散モデルから2dプリミティブを導入することで、オープンワールドオブジェクトに直面した場合でも、当社の統合モデルは一貫して高品質な結果を提供します。
従来のSDSで導入された曖昧さに対処するために,カテゴリスコア蒸留サンプリング(C-SDS)を導入する。
実世界のオブジェクトのマルチビューデータセットであるCO3DV2の実験を行った。
定量的および定性的評価は,NVSおよび幾何再構成に関する指標について,従来の最先端技術よりも優れていることを示す。 Reconstructing 3D objects from extremely sparse views is a long-standing and challenging problem. While recent techniques employ image diffusion models for generating plausible images at novel viewpoints or for distilling pre-trained diffusion priors into 3D representations using score distillation sampling (SDS), these methods often struggle to simultaneously achieve high-quality, consistent, and detailed results for both novel-view synthesis (NVS) and geometry. In this work, we present Sparse3D, a novel 3D reconstruction method tailored for sparse view inputs. Our approach distills robust priors from a multiview-consistent diffusion model to refine a neural radiance field. Specifically, we employ a controller that harnesses epipolar features from input views, guiding a pre-trained diffusion model, such as Stable Diffusion, to produce novel-view images that maintain 3D consistency with the input. By tapping into 2D priors from powerful image diffusion models, our integrated model consistently delivers high-quality results, even when faced with open-world objects. To address the blurriness introduced by conventional SDS, we introduce the category-score distillation sampling (C-SDS) to enhance detail. We conduct experiments on CO3DV2 which is a multi-view dataset of real-world objects. Both quantitative and qualitative evaluations demonstrate that our approach outperforms previous state-of-the-art works on the metrics regarding NVS and geometry reconstruction. | 翻訳日:2023-08-29 17:05:36 公開日:2023-08-27 |
# 有限状態オートマトンにおけるオンザフライ決定の解析 An Analysis of On-the-fly Determinization of Finite-state Automata ( http://arxiv.org/abs/2308.14077v1 ) ライセンス: Link先を確認 | Ivan Baburin and Ryan Cotterell | (参考訳) 本稿では,遷移モノイドを用いた有限状態オートマタのオンザフライ決定の抽象化を確立し,漸近関数のバウンドにどのように適用できるかを示す。
決定論的オートマトンをオンザフライで構築した多項式状態の複雑性に十分である代数的および組合せ的特性を示す。
本研究の特別なケースは,非決定論的遷移が多数存在するオートマトンが多項式複雑性の決定をほぼ常に認めている点である。
さらに,重み付き有限状態オートマトンへの拡張も行う。 In this paper we establish an abstraction of on-the-fly determinization of finite-state automata using transition monoids and demonstrate how it can be applied to bound the asymptotics. We present algebraic and combinatorial properties that are sufficient for a polynomial state complexity of the deterministic automaton constructed on-the-fly. A special case of our findings is that automata with many non-deterministic transitions almost always admit a determinization of polynomial complexity. Furthermore, we extend our ideas to weighted finite-state automata. | 翻訳日:2023-08-29 17:04:38 公開日:2023-08-27 |
# 空中リモートセンシング画像分類のための新しい多スケール注意特徴抽出ブロック A Novel Multi-scale Attention Feature Extraction Block for Aerial Remote Sensing Image Classification ( http://arxiv.org/abs/2308.14076v1 ) ライセンス: Link先を確認 | Chiranjibi Sitaula, Jagannath Aryal and Avik Bhattacharya | (参考訳) 超高分解能リモートセンシング(VHR)画像の分類は、意思決定に有用な空間情報を提供するため、リモートセンシングコミュニティにおいて確立された研究領域である。
VHR空中RS画像分類に関する既存の研究は優れた分類性能をもたらすが、複雑なオブジェクトと小さなオブジェクトを持つVHR空中RS画像の表現能力に制限があるため、性能が不安定になる。
そこで本稿では,スキップ接続を伴う2段階のマルチスケール・コンボリューションに基づくマルチスケール・アテンション特徴抽出ブロック(MSAFEB)を提案する。
2つのベンチマークVHR空中RS画像データセット(AIDとNWPU)を実験的に検討した結果,提案手法は安定かつ一貫性のある性能(0.002$の最小標準偏差)と有能な総合分類性能(AID:95.85\%およびNWPU:94.09\%)を達成することが示された。 Classification of very high-resolution (VHR) aerial remote sensing (RS) images is a well-established research area in the remote sensing community as it provides valuable spatial information for decision-making. Existing works on VHR aerial RS image classification produce an excellent classification performance; nevertheless, they have a limited capability to well-represent VHR RS images having complex and small objects, thereby leading to performance instability. As such, we propose a novel plug-and-play multi-scale attention feature extraction block (MSAFEB) based on multi-scale convolution at two levels with skip connection, producing discriminative/salient information at a deeper/finer level. The experimental study on two benchmark VHR aerial RS image datasets (AID and NWPU) demonstrates that our proposal achieves a stable/consistent performance (minimum standard deviation of $0.002$) and competent overall classification performance (AID: 95.85\% and NWPU: 94.09\%). | 翻訳日:2023-08-29 17:04:24 公開日:2023-08-27 |
# FaceCoresetNet: 顔認識のための微分可能なコアセット FaceCoresetNet: Differentiable Coresets for Face Set Recognition ( http://arxiv.org/abs/2308.14075v1 ) ライセンス: Link先を確認 | Gil Shapira and Yosi Keller | (参考訳) セットベース顔認識では,一人の人物を示す画像やビデオの非有界集合から最も識別性の高い記述子を計算することを目的としている。
判別ディスクリプタは、所定のセットから情報を集約する際に2つのポリシーのバランスをとる。
1つ目は品質に基づくポリシーで、高品質で低画質な画像を強調する。
2つめは多様性に基づくポリシーで、セット内のユニークな画像を強調し、セット表現を圧倒するビデオクリップに見られるような、類似したイメージの複数の発生をダウンウェイトする。
この作業は、微分可能なコアセット選択問題としてフェイスセット表現をフレーム化する。
我々のモデルは、顔の品質によってパラメータ化された学習指標を用いて、品質と多様性ポリシーのバランスをとる入力セットの小さなコアセットを選択する方法を学ぶ。
選択過程は, 距離のGumbel-Softmax分布から, 微分可能でないArgmax演算を微分可能サンプリングで近似することにより実現した微分可能遠点サンプリング(FPS)である。
小さなコアセットは後に、集合全体の情報で記述子を豊かにするために、自己および横断アーキテクチャのクエリとして使われる。
我々のモデルは、入力セットサイズにおいて順序不変で線形である。
我々は、IJB-BおよびIJB-Cデータセットに顔認証を設定するための新しいSOTAを設定した。
私たちのコードは公開されています。 In set-based face recognition, we aim to compute the most discriminative descriptor from an unbounded set of images and videos showing a single person. A discriminative descriptor balances two policies when aggregating information from a given set. The first is a quality-based policy: emphasizing high-quality and down-weighting low-quality images. The second is a diversity-based policy: emphasizing unique images in the set and down-weighting multiple occurrences of similar images as found in video clips which can overwhelm the set representation. This work frames face-set representation as a differentiable coreset selection problem. Our model learns how to select a small coreset of the input set that balances quality and diversity policies using a learned metric parameterized by the face quality, optimized end-to-end. The selection process is a differentiable farthest-point sampling (FPS) realized by approximating the non-differentiable Argmax operation with differentiable sampling from the Gumbel-Softmax distribution of distances. The small coreset is later used as queries in a self and cross-attention architecture to enrich the descriptor with information from the whole set. Our model is order-invariant and linear in the input set size. We set a new SOTA to set face verification on the IJB-B and IJB-C datasets. Our code is publicly available. | 翻訳日:2023-08-29 17:03:48 公開日:2023-08-27 |
# 局所アンラッピング変圧器を用いた非剛性物体接触推定 Nonrigid Object Contact Estimation With Regional Unwrapping Transformer ( http://arxiv.org/abs/2308.14074v1 ) ライセンス: Link先を確認 | Wei Xie, Zimeng Zhao, Shiying Li, Binghui Zuo, Yangang Wang | (参考訳) 手と非剛性物体の接触パターンを取得することは、ビジョンとロボティクスのコミュニティで共通の関心事である。
しかし、既存の学習ベースの手法は、単眼画像からの剛体画像との接触をより重視している。
非厳密な接触に採用する場合、既存の接触表現が対象の幾何学によって制限されるのが大きな問題である。
これにより、接触近傍を無秩序に記憶し、接触特徴を画像手がかりと整合させるのが困難となる。
我々のアプローチの核心は、RUP(Region Unwrapping Profiles)と呼ばれる新しいハンドオブジェクト接触表現で、推定されたハンドオブジェクト表面を複数の高解像度の2D領域プロファイルとして開放する。
領域分類戦略は, 複合接触パターンの原始的開始因子であるため, 手の運動学的骨分割と一致している。
この表現に基づいて, 局所的アンラッピングトランスフォーマ(ruformer)は, 単眼入力から領域間の相関前処理を学習し, 対応する接触・変形変換を予測する。
本実験は, 変形度と変形度を頑健に推定できることを示し, 非剛性・剛性両面に適合することを示した。 Acquiring contact patterns between hands and nonrigid objects is a common concern in the vision and robotics community. However, existing learning-based methods focus more on contact with rigid ones from monocular images. When adopting them for nonrigid contact, a major problem is that the existing contact representation is restricted by the geometry of the object. Consequently, contact neighborhoods are stored in an unordered manner and contact features are difficult to align with image cues. At the core of our approach lies a novel hand-object contact representation called RUPs (Region Unwrapping Profiles), which unwrap the roughly estimated hand-object surfaces as multiple high-resolution 2D regional profiles. The region grouping strategy is consistent with the hand kinematic bone division because they are the primitive initiators for a composite contact pattern. Based on this representation, our Regional Unwrapping Transformer (RUFormer) learns the correlation priors across regions from monocular inputs and predicts corresponding contact and deformed transformations. Our experiments demonstrate that the proposed framework can robustly estimate the deformed degrees and deformed transformations, which makes it suitable for both nonrigid and rigid contact. | 翻訳日:2023-08-29 17:03:26 公開日:2023-08-27 |
# DETDet:デュアルアンサンブル歯検出 DETDet: Dual Ensemble Teeth Detection ( http://arxiv.org/abs/2308.14070v1 ) ライセンス: Link先を確認 | Kyoungyeon Choi, Jaewon Shin, Eunyi Lyou | (参考訳) 歯科医学の分野はデジタルトランスフォーメーションの時代にある。
特に、人工知能はデジタル歯学において重要な役割を果たすことが期待されている。
AIは歯科医を著しく支援し、診断精度を高める可能性を秘めている。
このビジョンに合わせて、2023 MICCAI DENTEXは、歯科パノラマX線診断と列挙の精度を高めることを目的としている。
そこで本研究では,Dual Ensemble Teeth Detection NetworkであるDeTDetを紹介する。
DETDetは列挙と診断専用の2つの異なるモジュールを含んでいる。
歯のマスクデータの利点を生かして, 列挙モジュールに mask-rcnn を用いる。
診断用モジュールには, diffusiondet と dino からなるアンサンブルモデルを採用する。
さらに精度を向上するため,未ラベルデータの可能性を利用する補完モジュールを統合する。
このアプローチのコードはhttps://github.com/Bestever-choi/Evidentでアクセスできます。 The field of dentistry is in the era of digital transformation. Particularly, artificial intelligence is anticipated to play a significant role in digital dentistry. AI holds the potential to significantly assist dental practitioners and elevate diagnostic accuracy. In alignment with this vision, the 2023 MICCAI DENTEX challenge aims to enhance the performance of dental panoramic X-ray diagnosis and enumeration through technological advancement. In response, we introduce DETDet, a Dual Ensemble Teeth Detection network. DETDet encompasses two distinct modules dedicated to enumeration and diagnosis. Leveraging the advantages of teeth mask data, we employ Mask-RCNN for the enumeration module. For the diagnosis module, we adopt an ensemble model comprising DiffusionDet and DINO. To further enhance precision scores, we integrate a complementary module to harness the potential of unlabeled data. The code for our approach will be made accessible at https://github.com/Bestever-choi/Evident | 翻訳日:2023-08-29 17:03:03 公開日:2023-08-27 |
# ロングビデオにおける時間的文字グループ化のための統一および動的グラフ Unified and Dynamic Graph for Temporal Character Grouping in Long Videos ( http://arxiv.org/abs/2308.14105v1 ) ライセンス: Link先を確認 | Xiujun Shu, Wei Wen, Liangsheng Xu, Mingbao Lin, Ruizhi Qiao, Taian Guo, Hanjun Li, Bei Gan, Xiao Wang, Xin Sun | (参考訳) ビデオテンポラリキャラクタグルーピングは、ビデオ内の主要キャラクタの出現モーメントを、そのアイデンティティに応じて特定する。
この目的のために、最近の研究は教師なしクラスタリングからグラフベースのクラスタリングへと進化してきた。
しかし、グラフメソッドは固定アフィニティグラフの前提の上に構築され、多くの不正確な接続をもたらす。
さらに、デプロイに不都合な、モデルの種類によるマルチモーダルな機能を抽出する。
本稿では,時間的文字グループ化のための統一動的グラフ(UniDG)フレームワークを提案する。
これはまず、同一空間内の複数のモダリティの表現を学習し、同時にモダリティの一意性を保持する統一表現ネットワークによって達成される。
第2に,各ノードごとに異なる量の近傍を循環マッチング戦略により動的に構築し,より信頼性の高い親和性グラフを生成する動的グラフクラスタリングを提案する。
第3に、異なるモダリティ間の空間的・時間的文脈を活用するためのプログレッシブアソシエーション手法を導入し、マルチモーダルクラスタリング結果をうまく融合させる。
現在のデータセットは事前抽出された特徴しか提供しないため、各文字の顔と体と発声音声トラックの出現クリップを含むMTCGと呼ばれる収集データセット上で、UniDG法の評価を行う。
また,既存のクラスタリングおよび検索データセットの重要なコンポーネントを評価し,一般化能力を検証する。
実験の結果,本手法は有望な結果が得られ,最先端のアプローチに勝ることが判明した。 Video temporal character grouping locates appearing moments of major characters within a video according to their identities. To this end, recent works have evolved from unsupervised clustering to graph-based supervised clustering. However, graph methods are built upon the premise of fixed affinity graphs, bringing many inexact connections. Besides, they extract multi-modal features with kinds of models, which are unfriendly to deployment. In this paper, we present a unified and dynamic graph (UniDG) framework for temporal character grouping. This is accomplished firstly by a unified representation network that learns representations of multiple modalities within the same space and still preserves the modality's uniqueness simultaneously. Secondly, we present a dynamic graph clustering where the neighbors of different quantities are dynamically constructed for each node via a cyclic matching strategy, leading to a more reliable affinity graph. Thirdly, a progressive association method is introduced to exploit spatial and temporal contexts among different modalities, allowing multi-modal clustering results to be well fused. As current datasets only provide pre-extracted features, we evaluate our UniDG method on a collected dataset named MTCG, which contains each character's appearing clips of face and body and speaking voice tracks. We also evaluate our key components on existing clustering and retrieval datasets to verify the generalization ability. Experimental results manifest that our method can achieve promising results and outperform several state-of-the-art approaches. | 翻訳日:2023-08-29 16:57:47 公開日:2023-08-27 |
# トランスファーブルローカルポリシを用いた車両ルーティング問題に対する一般化可能なニューラルソルバーの実現に向けて Towards Generalizable Neural Solvers for Vehicle Routing Problems via Ensemble with Transferrable Local Policy ( http://arxiv.org/abs/2308.14104v1 ) ライセンス: Link先を確認 | Chengrui Gao, Haopu Shang, Ke Xue, Dong Li, Chao Qian | (参考訳) 機械学習はNPハードな組合せ最適化問題を解決するのに役立っている。
ひとつの一般的な方法は、ディープニューラルネットワークによるソリューション構築の学習であり、高い効率と専門知識の要件の低さから、ますます注目を集めている。
しかしながら、車両経路問題(vrps)のための多くのニューラル構築手法は、限られたスケールと特定のノード分布を持つ合成問題インスタンスに焦点を当てており、通常、複雑なノード分布と未知のノード分布を伴う実世界の問題では性能が低下する。
実世界のシナリオにおいて、ニューラルVRPソルバをより実用的なものにするために、我々は、局所移動可能なトポロジカル特徴から学習する補助ポリシーを設計し、それを典型的な構成ポリシー(VRPインスタンスのグローバル情報から学習する)と統合し、アンサンブルポリシーを形成する。
共同トレーニングでは、集約されたポリシが協調的かつ補完的に実行され、一般化が促進される。
tsplib と cvrplib の2つの有名なベンチマーク実験の結果, 巡回セールスマン問題と容量化されたvrp は, アンサンブル政策が最先端構築手法よりも優れた一般化を一貫して達成し, 数千ノードの実際の問題でもうまく機能することを示した。 Machine learning has been adapted to help solve NP-hard combinatorial optimization problems. One prevalent way is learning to construct solutions by deep neural networks, which has been receiving more and more attention due to the high efficiency and less requirement for expert knowledge. However, many neural construction methods for Vehicle Routing Problems (VRPs) focus on synthetic problem instances with limited scales and specified node distributions, leading to poor performance on real-world problems which usually involve large scales together with complex and unknown node distributions. To make neural VRP solvers more practical in real-world scenarios, we design an auxiliary policy that learns from the local transferable topological features, named local policy, and integrate it with a typical constructive policy (which learns from the global information of VRP instances) to form an ensemble policy. With joint training, the aggregated policies perform cooperatively and complementarily to boost generalization. The experimental results on two well-known benchmarks, TSPLIB and CVRPLIB, of travelling salesman problem and capacitated VRP show that the ensemble policy consistently achieves better generalization than state-of-the-art construction methods and even works well on real-world problems with several thousand nodes. | 翻訳日:2023-08-29 16:57:22 公開日:2023-08-27 |
# 視覚言語追跡のための統一トークン学習に向けて Towards Unified Token Learning for Vision-Language Tracking ( http://arxiv.org/abs/2308.14103v1 ) ライセンス: Link先を確認 | Yaozong Zheng and Bineng Zhong and Qihua Liang and Guorong Li and Rongrong Ji and Xianxian Li | (参考訳) 本稿では,VLトラッキングをトークン生成タスクとして用いた,シンプルで柔軟な視覚言語(VL)トラッキングパイプラインである「textbf{MMTrack}」を提案する。
従来のパラダイムでは、VLトラッキングタスクを高度な事前設計で間接的に扱い、特定のアーキテクチャやメカニズムの特徴を過度に特殊化する。
対照的に,提案フレームワークでは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリは、望まれるターゲットを認識し、自動回帰的にターゲットの空間座標を直接予測するために必要である。
他のモジュールを持たない設計では、複数のサブタスク学習や手書きの損失関数を回避し、VLトラッキングモデリングの複雑さを著しく低減し、VLトラッキングタスクの統一最適化目的として単純なクロスエントロピーロスを使用できる。
TNL2K, LaSOT, LaSOT$_{\rm{ext}}$およびOTB99-Langベンチマークに関する大規模な実験は、我々の手法が他の最先端技術と比較して有望な結果が得られることを示している。 In this paper, we present a simple, flexible and effective vision-language (VL) tracking pipeline, termed \textbf{MMTrack}, which casts VL tracking as a token generation task. Traditional paradigms address VL tracking task indirectly with sophisticated prior designs, making them over-specialize on the features of specific architectures or mechanisms. In contrast, our proposed framework serializes language description and bounding box into a sequence of discrete tokens. In this new design paradigm, all token queries are required to perceive the desired target and directly predict spatial coordinates of the target in an auto-regressive manner. The design without other prior modules avoids multiple sub-tasks learning and hand-designed loss functions, significantly reducing the complexity of VL tracking modeling and allowing our tracker to use a simple cross-entropy loss as unified optimization objective for VL tracking task. Extensive experiments on TNL2K, LaSOT, LaSOT$_{\rm{ext}}$ and OTB99-Lang benchmarks show that our approach achieves promising results, compared to other state-of-the-arts. | 翻訳日:2023-08-29 16:56:58 公開日:2023-08-27 |
# ネットワークコミュニティ検出によるスーパーピクセルアルゴリズム Superpixels algorithms through network community detection ( http://arxiv.org/abs/2308.14101v1 ) ライセンス: Link先を確認 | Anthony Perez | (参考訳) コミュニティ検出は複雑なネットワーク分析の強力なツールであり、様々な研究分野の応用を見出すことができる。
いくつかの画像分割法は、例えば、画像の関心領域を表す少数の領域の下位部分を計算するために、ブラックボックスとしてコミュニティ検出アルゴリズムに頼っている。
しかし、我々の知る限りでは、可能な限りオリジナル情報を保存しながら、より小さなレベルで画像を表現することを目的としたスーパーピクセルによるアプローチの効率は、これまで無視されてきた。
関連する唯一の作品は、liuらによるものである。
al. (iet image processing, 2022) はモジュラリティ最大化アプローチを用いたスーパーピクセルアルゴリズムを開発し、関連する結果をもたらした。
我々は,4-connected pixel graph(いわゆるpixel-grid)上で,最先端のコミュニティ検出アルゴリズムによって計算されたスーパーピクセルの効率性について検討する。
まず、このようなグラフ上のコミュニティを検出し、必要な数のスーパーピクセルを得るための単純なマージ手順を適用する。
以上のように、このような手法は、地上比較やスーパーピクセルのみに基づいて、異なる広く使われている指標に基づいて、質的および定量的な実験の両方で強調されるように、関連するスーパーピクセルの計算結果をもたらす。
我々は,コミュニティ検出アルゴリズムの選択がコミュニティの数,すなわちマージ手順に大きな影響を与えることを観察した。
同様に、ピクセルグリッド上の小さな変化は、質的および定量的な観点から異なる結果をもたらす可能性がある。
完全性のために、Stutzらによって計算されたいくつかの最先端のスーパーピクセルアルゴリズムと比較する(Computer Vision and Image Understanding, 2018)。 Community detection is a powerful tool from complex networks analysis that finds applications in various research areas. Several image segmentation methods rely for instance on community detection algorithms as a black box in order to compute undersegmentations, i.e. a small number of regions that represent areas of interest of the image. However, to the best of our knowledge, the efficiency of such an approach w.r.t. superpixels, that aim at representing the image at a smaller level while preserving as much as possible original information, has been neglected so far. The only related work seems to be the one by Liu et. al. (IET Image Processing, 2022) that developed a superpixels algorithm using a so-called modularity maximization approach, leading to relevant results. We follow this line of research by studying the efficiency of superpixels computed by state-of-the-art community detection algorithms on a 4-connected pixel graph, so-called pixel-grid. We first detect communities on such a graph and then apply a simple merging procedure that allows to obtain the desired number of superpixels. As we shall see, such methods result in the computation of relevant superpixels as emphasized by both qualitative and quantitative experiments, according to different widely-used metrics based on ground-truth comparison or on superpixels only. We observe that the choice of the community detection algorithm has a great impact on the number of communities and hence on the merging procedure. Similarly, small variations on the pixel-grid may provide different results from both qualitative and quantitative viewpoints. For the sake of completeness, we compare our results with those of several state-of-the-art superpixels algorithms as computed by Stutz et al. (Computer Vision and Image Understanding, 2018). | 翻訳日:2023-08-29 16:56:38 公開日:2023-08-27 |
# 内視鏡シーンにおける連続的セマンティックセグメンテーションの事例再考:エントロピーに基づくミニバッチ擬似再生 Rethinking Exemplars for Continual Semantic Segmentation in Endoscopy Scenes: Entropy-based Mini-Batch Pseudo-Replay ( http://arxiv.org/abs/2308.14100v1 ) ライセンス: Link先を確認 | Guankun Wang, Long Bai, Yanan Wu, Tong Chen, Hongliang Ren | (参考訳) 内視鏡検査は、疾患の早期発見やロボット支援最小侵襲手術(rmis)に広く用いられている技術である。
内視鏡画像の自動診断や処理のための多種多様な深層学習(DL)に基づく研究が開発されている。
しかし、既存のdlモデルは壊滅的な忘れに苦しむことがある。
新しいターゲットクラスが時間やクロス機関に導入されると、古いクラスのパフォーマンスが著しく低下する可能性がある。
より真面目な話として、データのプライバシとストレージの問題は、モデルを更新する際に古いデータが使えなくなる可能性がある。
そのため, 内視鏡画像分割における破滅的忘れの問題を解決するために, 連続学習(cl)手法を開発する必要がある。
そこで本研究では,従来のデータストレージやプライバシの問題にかかわらない内視鏡連続セマンティックセマンティックセグメンテーション(EndoCSS)フレームワークを提案する。
このフレームワークは、ミニバッチ擬似再生(MB−PR)機構と、自己適応性雑音性クロスエントロピー(SAN−CE)損失を含む。
MB-PR戦略は、生成モデルを通じて擬似再生画像を生成することにより、プライバシとストレージの問題を回避する。
一方、MB-PR戦略は、現在の画像量と再生画像量に大きな差があるため、リプレイデータと現在のトレーニングデータとのモデル偏差を補正することも可能である。
したがって、新しいタスクと古いタスクの両方で効果的な表現学習を行うことができる。
サンスロスはモデルの出力ロジットを調整することでモデルフィッティングを助け、トレーニングの堅牢性も向上する。
大規模連続的セマンティックセグメンテーション (CSS) 実験は, 内視鏡的シーンにおけるクラスインクリメントによる破滅的忘れに頑健かつ効果的に対処できることを実証した。
その結果,本フレームワークはストリーミング学習方式で実世界の展開に優れた可能性を秘めていることがわかった。 Endoscopy is a widely used technique for the early detection of diseases or robotic-assisted minimally invasive surgery (RMIS). Numerous deep learning (DL)-based research works have been developed for automated diagnosis or processing of endoscopic view. However, existing DL models may suffer from catastrophic forgetting. When new target classes are introduced over time or cross institutions, the performance of old classes may suffer severe degradation. More seriously, data privacy and storage issues may lead to the unavailability of old data when updating the model. Therefore, it is necessary to develop a continual learning (CL) methodology to solve the problem of catastrophic forgetting in endoscopic image segmentation. To tackle this, we propose a Endoscopy Continual Semantic Segmentation (EndoCSS) framework that does not involve the storage and privacy issues of exemplar data. The framework includes a mini-batch pseudo-replay (MB-PR) mechanism and a self-adaptive noisy cross-entropy (SAN-CE) loss. The MB-PR strategy circumvents privacy and storage issues by generating pseudo-replay images through a generative model. Meanwhile, the MB-PR strategy can also correct the model deviation to the replay data and current training data, which is aroused by the significant difference in the amount of current and replay images. Therefore, the model can perform effective representation learning on both new and old tasks. SAN-CE loss can help model fitting by adjusting the model's output logits, and also improve the robustness of training. Extensive continual semantic segmentation (CSS) experiments on public datasets demonstrate that our method can robustly and effectively address the catastrophic forgetting brought by class increment in endoscopy scenes. The results show that our framework holds excellent potential for real-world deployment in a streaming learning manner. | 翻訳日:2023-08-29 16:56:11 公開日:2023-08-27 |
# ニューラルネットワークの逆問題 The inverse problem for neural networks ( http://arxiv.org/abs/2308.14093v1 ) ライセンス: Link先を確認 | Marcelo Forets and Christian Schilling | (参考訳) 本研究では,断片的アフィン活性化機能を有するニューラルネットワークによる集合の前像計算の問題について検討する。
我々は、多面体集合の前像が再び多面体集合の和であり、効果的に計算できるという古い結果を思い出す。
本稿では,ニューラルネットワークの解析と解釈にプリイメージを計算するいくつかの応用例を示す。 We study the problem of computing the preimage of a set under a neural network with piecewise-affine activation functions. We recall an old result that the preimage of a polyhedral set is again a union of polyhedral sets and can be effectively computed. We show several applications of computing the preimage for analysis and interpretability of neural networks. | 翻訳日:2023-08-29 16:55:39 公開日:2023-08-27 |
# MedAlign:電子カルテによる指導のための臨床データセット MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records ( http://arxiv.org/abs/2308.14089v1 ) ライセンス: Link先を確認 | Scott L. Fleming, Alejandro Lozano, William J. Haberkorn, Jenelle A. Jindal, Eduardo P. Reis, Rahul Thapa, Louis Blankemeier, Julian Z. Genkins, Ethan Steinberg, Ashwin Nayak, Birju S. Patel, Chia-Chun Chiang, Alison Callahan, Zepeng Huo, Sergios Gatidis, Scott J. Adams, Oluseyi Fayanju, Shreya J. Shah, Thomas Savage, Ethan Goh, Akshay S. Chaudhari, Nima Aghaeepour, Christopher Sharp, Michael A. Pfeffer, Percy Liang, Jonathan H. Chen, Keith E. Morse, Emma P. Brunskill, Jason A. Fries, Nigam H. Shah | (参考訳) 大規模言語モデル(llm)が自然言語命令に従う能力は、医療における管理負担を軽減し、ケアの質を改善する多くの機会を示唆している。
しかし,現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
電子健康記録(ehr)データのための既存の質問応答データセットは、臨床医が経験する情報ニーズとドキュメントの複雑さを捉えることができない。
これらの課題に対処するために、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介した。
MedAlignは15人の臨床医(7つの専門分野)によって治められ、303の指示に対する臨床医による参照応答が含まれ、命令-応答ペアを接地するための276の縦 EHRを提供している。
MedAlign を用いて6つの一般ドメイン LLM の評価を行い,臨床医がそれぞれの LLM 応答の精度と品質をランク付けした。
その結果,35%(GPT-4)から68%(MPT-7B-Instruct)まで高い誤差率を示し,GPT-4では32kから2kまでの精度が8.3%低下した。
最後に,LLMを人的レビューなしでランク付けする方法として,クリニックランキングと自動自然言語生成指標の相関関係を報告する。
我々はMedAlignを研究データ利用契約の下で利用可能にし、臨床医のニーズや嗜好に適合したタスクに対するLCM評価を可能にする。 The ability of large language models (LLMs) to follow natural language instructions with human-level fluency suggests many opportunities in healthcare to reduce administrative burden and improve quality of care. However, evaluating LLMs on realistic text generation tasks for healthcare remains challenging. Existing question answering datasets for electronic health record (EHR) data fail to capture the complexity of information needs and documentation burdens experienced by clinicians. To address these challenges, we introduce MedAlign, a benchmark dataset of 983 natural language instructions for EHR data. MedAlign is curated by 15 clinicians (7 specialities), includes clinician-written reference responses for 303 instructions, and provides 276 longitudinal EHRs for grounding instruction-response pairs. We used MedAlign to evaluate 6 general domain LLMs, having clinicians rank the accuracy and quality of each LLM response. We found high error rates, ranging from 35% (GPT-4) to 68% (MPT-7B-Instruct), and an 8.3% drop in accuracy moving from 32k to 2k context lengths for GPT-4. Finally, we report correlations between clinician rankings and automated natural language generation metrics as a way to rank LLMs without human review. We make MedAlign available under a research data use agreement to enable LLM evaluations on tasks aligned with clinician needs and preferences. | 翻訳日:2023-08-29 16:55:32 公開日:2023-08-27 |
# 深層学習を用いた植物葉病検出に関する総合的考察 A comprehensive review on Plant Leaf Disease detection using Deep learning ( http://arxiv.org/abs/2308.14087v1 ) ライセンス: Link先を確認 | Sumaya Mustofa, Md Mehedi Hasan Munna, Yousuf Rayhan Emon, Golam Rabbany, Md Taimur Ahad | (参考訳) 葉病は植物にとって致命的な病気である。
植物の葉病の予後を改善するには,早期診断と診断が必要である。
葉の病気の予測には, 植物病理画像を用いたいくつかの自動システムの開発がすでに行われている。
本稿では, 植物葉病の深層学習による診断のための葉病モデルに関する文献を体系的にレビューする。
Vision Transformer (ViT), Deep Convolutional Neural Network (DCNN), Convolutional Neural Network (CNN), Residual Skip Network-based Super-Resolution for Leaf Disease Detection (RSNSR-LDD), Disease Detection Network (DDN), YOLO (You only look once)など,さまざまなディープラーニングモデルの長所と短所を概説する。
レビューでは、葉の病気検出に関する研究が、さまざまなディープラーニングモデルから多くの公開データセットに適用されたことも示している。
モデルの性能を比較するために、既存の研究では精度、精度、リコールなど様々な指標が用いられた。 Leaf disease is a common fatal disease for plants. Early diagnosis and detection is necessary in order to improve the prognosis of leaf diseases affecting plant. For predicting leaf disease, several automated systems have already been developed using different plant pathology imaging modalities. This paper provides a systematic review of the literature on leaf disease-based models for the diagnosis of various plant leaf diseases via deep learning. The advantages and limitations of different deep learning models including Vision Transformer (ViT), Deep convolutional neural network (DCNN), Convolutional neural network (CNN), Residual Skip Network-based Super-Resolution for Leaf Disease Detection (RSNSR-LDD), Disease Detection Network (DDN), and YOLO (You only look once) are described in this review. The review also shows that the studies related to leaf disease detection applied different deep learning models to a number of publicly available datasets. For comparing the performance of the models, different metrics such as accuracy, precision, recall, etc. were used in the existing studies. | 翻訳日:2023-08-29 16:55:07 公開日:2023-08-27 |
# 流れ・拡散・自己回帰型ニューラルネットワークによるサンプリング:スピングラスの視点から Sampling with flows, diffusion and autoregressive neural networks: A spin-glass perspective ( http://arxiv.org/abs/2308.14085v1 ) ライセンス: Link先を確認 | Davide Ghio, Yatin Dandi, Florent Krzakala and Lenka Zdeborov\'a | (参考訳) 近年では、フロー、拡散、あるいは自己回帰型ニューラルネットワークに基づく強力な生成モデルが開発され、幅広い分野の応用例からデータを生成することに顕著な成功を収めている。
しかし、これらの手法の性能と限界の理解に関する理論的分析は依然として困難である。
本稿では,モンテカルロマルコフ連鎖やランゲヴィン力学といった従来手法のサンプリング性能と比較し,これらの手法によるサンプリング効率を既知の確率分布のクラスで解析することにより,この方向への一歩を踏み出した。
本稿では, スピングラス, 統計的推測, 制約満足度問題に関連する不規則系の統計物理学において, 広く研究されている確率分布のクラスに着目した。
我々は,フローベース,拡散ベース,自己回帰的ネットワーク手法によるサンプリングをベイズ最適分解法の解析に等価にマッピングできるという事実を活用する。
提案手法は,アルゴリズムの発声経路に沿って一階の位相遷移が存在することに起因するサンプリングが困難であることを示す。
これらの手法が効率的にサンプリングできないパラメータの領域を同定し、標準モンテカルロ法やランゲヴィン法を用いてそれを可能にする。
標準アプローチは非効率ですが、議論された生成メソッドはうまく機能します。 Recent years witnessed the development of powerful generative models based on flows, diffusion or autoregressive neural networks, achieving remarkable success in generating data from examples with applications in a broad range of areas. A theoretical analysis of the performance and understanding of the limitations of these methods remain, however, challenging. In this paper, we undertake a step in this direction by analysing the efficiency of sampling by these methods on a class of problems with a known probability distribution and comparing it with the sampling performance of more traditional methods such as the Monte Carlo Markov chain and Langevin dynamics. We focus on a class of probability distribution widely studied in the statistical physics of disordered systems that relate to spin glasses, statistical inference and constraint satisfaction problems. We leverage the fact that sampling via flow-based, diffusion-based or autoregressive networks methods can be equivalently mapped to the analysis of a Bayes optimal denoising of a modified probability measure. Our findings demonstrate that these methods encounter difficulties in sampling stemming from the presence of a first-order phase transition along the algorithm's denoising path. Our conclusions go both ways: we identify regions of parameters where these methods are unable to sample efficiently, while that is possible using standard Monte Carlo or Langevin approaches. We also identify regions where the opposite happens: standard approaches are inefficient while the discussed generative methods work well. | 翻訳日:2023-08-29 16:54:46 公開日:2023-08-27 |
# ロバスト協調学習による実践的エッジ検出 Practical Edge Detection via Robust Collaborative Learning ( http://arxiv.org/abs/2308.14084v1 ) ライセンス: Link先を確認 | Yuanbin Fu and Xiaojie Guo | (参考訳) エッジ検出は、幅広いビジョン指向タスクのコアコンポーネントとして、自然画像のオブジェクト境界と顕著なエッジを特定することである。
エッジ検出器は実用上、効率的かつ正確であることが望まれる。
目標を達成するためには,2つの重要な課題に対処する必要がある。
1)既存のディープラーニング手法の多くで活用されている非効率な事前学習されたバックボーンからディープエッジモデルを解放し,計算コストを削減し,モデルサイズを削減する方法
2)アノテータの主観性とあいまいさによるエッジ検出において広く存在するトレーニングデータにおけるノイズやラベルの誤用による負の影響を、頑健さと精度のために緩和する方法。
本稿では,PEdgerと呼ばれる協調学習モデルの開発を通じて,上記の課題を同時に解決しようと試みる。
私たちのPEdgerの背景にある原則は、異なるトレーニングモーメントと異種(この作業では繰り返しかつ非繰り返し)アーキテクチャから学んだ情報は、余分なデータで事前トレーニングすることなく、ノイズの多いアノテーションに対する堅牢な知識を探索するために組み立てられるということです。
bsds500 と nyud データセットの定量的・定性的な実験比較とともに,我々の設計の有効性を検証し,その精度,速度,モデルサイズにおいて他の競合製品よりも優れていることを示す。
コードはhttps://github.co/ForawardStar/PEdgerにある。 Edge detection, as a core component in a wide range of visionoriented tasks, is to identify object boundaries and prominent edges in natural images. An edge detector is desired to be both efficient and accurate for practical use. To achieve the goal, two key issues should be concerned: 1) How to liberate deep edge models from inefficient pre-trained backbones that are leveraged by most existing deep learning methods, for saving the computational cost and cutting the model size; and 2) How to mitigate the negative influence from noisy or even wrong labels in training data, which widely exist in edge detection due to the subjectivity and ambiguity of annotators, for the robustness and accuracy. In this paper, we attempt to simultaneously address the above problems via developing a collaborative learning based model, termed PEdger. The principle behind our PEdger is that, the information learned from different training moments and heterogeneous (recurrent and non recurrent in this work) architectures, can be assembled to explore robust knowledge against noisy annotations, even without the help of pre-training on extra data. Extensive ablation studies together with quantitative and qualitative experimental comparisons on the BSDS500 and NYUD datasets are conducted to verify the effectiveness of our design, and demonstrate its superiority over other competitors in terms of accuracy, speed, and model size. Codes can be found at https://github.co/ForawardStar/PEdger. | 翻訳日:2023-08-29 16:54:25 公開日:2023-08-27 |
# 時間的相互作用グラフ埋め込みのためのストリーミング分割と並列加速度 SPEED: Streaming Partition and Parallel Acceleration for Temporal Interaction Graph Embedding ( http://arxiv.org/abs/2308.14129v1 ) ライセンス: Link先を確認 | Xi Chen, Yongxiang Liao, Yun Xiong, Yao Zhang, Siwei Zhang, Jiawei Zhang, Yiheng Sun | (参考訳) 時間的相互作用グラフ(tig)は金融システムやソーシャルネットワークのような複雑な実世界のシステムをモデル化するために広く使われている。
ノードのダイナミズムと相互依存性を捉えるためには、既存のTIG埋め込みモデルはエッジを順次かつ時系列的に処理する必要がある。
しかし、この要件は並列処理を妨げ、急成長するデータボリュームをGPUに適合させるのに苦労する。
したがって、多くの大規模な時間的相互作用グラフはCPU処理に限られる。
さらに、一般的なgpuスケーリングとアクセラレーションアプローチは利用できない。
高速化のためのGPUへのTIGの大規模実装を容易にするため,時間的相互作用グラフ埋め込み(SPEED)のためのStreaming Edge PartitioningとParallel Accelerationという新たなトレーニング手法を導入する。
SPEEDは、各GPUに少ないノードを割り当てることで空間オーバーヘッド問題に対処するStreaming Edge Partitioning Component (SEP)と、異なるサブグラフの同時トレーニングを可能にするParallel Acceleration Component (PAC)で構成される。
本手法は,計算資源,計算時間,ダウンストリームタスク性能のバランスが良好である。
7つの実世界のデータセットにわたる実証的検証は、トレーニング速度を最大19.29倍に短縮する可能性を実証している。
同時に、単一GPUのリソース消費を最大69%削減できるため、数百万のノードと数十億のエッジを含む複数のGPUベースのトレーニングとアクセラレーションが可能になる。
さらに,下流タスクにおける競合性も維持する。 Temporal Interaction Graphs (TIGs) are widely employed to model intricate real-world systems such as financial systems and social networks. To capture the dynamism and interdependencies of nodes, existing TIG embedding models need to process edges sequentially and chronologically. However, this requirement prevents it from being processed in parallel and struggle to accommodate burgeoning data volumes to GPU. Consequently, many large-scale temporal interaction graphs are confined to CPU processing. Furthermore, a generalized GPU scaling and acceleration approach remains unavailable. To facilitate large-scale TIGs' implementation on GPUs for acceleration, we introduce a novel training approach namely Streaming Edge Partitioning and Parallel Acceleration for Temporal Interaction Graph Embedding (SPEED). The SPEED is comprised of a Streaming Edge Partitioning Component (SEP) which addresses space overhead issue by assigning fewer nodes to each GPU, and a Parallel Acceleration Component (PAC) which enables simultaneous training of different sub-graphs, addressing time overhead issue. Our method can achieve a good balance in computing resources, computing time, and downstream task performance. Empirical validation across 7 real-world datasets demonstrates the potential to expedite training speeds by a factor of up to 19.29x. Simultaneously, resource consumption of a single-GPU can be diminished by up to 69%, thus enabling the multiple GPU-based training and acceleration encompassing millions of nodes and billions of edges. Furthermore, our approach also maintains its competitiveness in downstream tasks. | 翻訳日:2023-08-29 16:45:53 公開日:2023-08-27 |
# 3次元クラウド領域適応のためのコントラスト学習と最適輸送 Synergizing Contrastive Learning and Optimal Transport for 3D Point Cloud Domain Adaptation ( http://arxiv.org/abs/2308.14126v1 ) ライセンス: Link先を確認 | Siddharth Katageri, Arkadipta De, Chaitanya Devaguptapu, VSSV Prasad, Charu Sharma, Manohar Kaul | (参考訳) 近年,3次元点雲における非教師なし領域適応(UDA)の根本的な問題は,ロボット工学,仮想現実,シーン理解などの幅広い応用によって動機付けられている。
point cloudのデータ取得手順は、類似クラスと類似クラスの両方で重要なドメインの相違や幾何的なバリエーションとして現れます。
画像のために開発された標準領域適応法は、複雑な幾何学的性質のため、直接点雲データに変換されない。
この課題に対処するために、マルチモーダリティと分布間のアライメントの考え方を利用する。
本稿では,マルチモーダルなコントラスト学習を活用し,両領域のクラス分離を個々に改善する,ポイントクラウド分類のための新しいudaアーキテクチャを提案する。
さらに、最適なトランスポート(OT)の利用は、ソースとターゲットデータの分散を共同で学習することを目的としており、ドメイン間のシフトを減らし、アライメントを改善する。
我々は,PointDA-10 と GraspNetPC-10 に関する総合的研究を行い,GraspNetPC-10 の最先端性能(約4-12% のマージン)と PointDA-10 の最高の平均性能を実現することを示す。
我々のアブレーション研究と決定境界解析は,コントラスト学習モジュールとotアライメントの意義を検証した。 Recently, the fundamental problem of unsupervised domain adaptation (UDA) on 3D point clouds has been motivated by a wide variety of applications in robotics, virtual reality, and scene understanding, to name a few. The point cloud data acquisition procedures manifest themselves as significant domain discrepancies and geometric variations among both similar and dissimilar classes. The standard domain adaptation methods developed for images do not directly translate to point cloud data because of their complex geometric nature. To address this challenge, we leverage the idea of multimodality and alignment between distributions. We propose a new UDA architecture for point cloud classification that benefits from multimodal contrastive learning to get better class separation in both domains individually. Further, the use of optimal transport (OT) aims at learning source and target data distributions jointly to reduce the cross-domain shift and provide a better alignment. We conduct a comprehensive empirical study on PointDA-10 and GraspNetPC-10 and show that our method achieves state-of-the-art performance on GraspNetPC-10 (with approx 4-12% margin) and best average performance on PointDA-10. Our ablation studies and decision boundary analysis also validate the significance of our contrastive learning module and OT alignment. | 翻訳日:2023-08-29 16:45:23 公開日:2023-08-27 |
# 臨床医の力を借りてデータサイエンスを民主化する:大規模言語モデルと臨床研究のための自動機械学習 Empowering Clinicians and Democratizing Data Science: Large Language Models Automate Machine Learning for Clinical Studies ( http://arxiv.org/abs/2308.14120v1 ) ライセンス: Link先を確認 | Soroosh Tayebi Arasteh, Tianyu Han, Mahshad Lotfinia, Christiane Kuhl, Jakob Nikolas Kather, Daniel Truhn, Sven Nebelung | (参考訳) 機械学習(ML)開発者(データサイエンティストなど)と実践者(臨床医など)の間には知識ギャップが持続し、臨床データ分析におけるMLのフル活用を妨げる。
我々は、gpt-4の拡張であるchatgptコードインタプリタ(ci)の可能性を調査し、このギャップを橋渡しし、ml解析を効率的に行う。
様々な医療専門分野にわたる大規模な臨床試験から得られた実世界の臨床データセットと研究の詳細を,具体的ガイダンスなしでchatGPT CIに提示した。
ChatGPT CIは、がんの発生、がんの進行、合併症、病原遺伝子配列などのバイオマーカーなどの臨床結果を予測するために、オリジナルの研究のトレーニングデータに基づく最先端MLモデルを自律的に開発した。
興味深いことに、これらのMLモデルは、発行したモデルにマッチするか、より優れていた。
chatGPT CIは、医学におけるMLの民主化のための有望な道であり、高度な分析を非MLの専門家に公開し、医学研究や実践における幅広い応用を促進する。 A knowledge gap persists between Machine Learning (ML) developers (e.g., data scientists) and practitioners (e.g., clinicians), hampering the full utilization of ML for clinical data analysis. We investigated the potential of the chatGPT Code Interpreter (CI), an extension of GPT-4, to bridge this gap and perform ML analyses efficiently. Real-world clinical datasets and study details from large trials across various medical specialties were presented to chatGPT CI without specific guidance. ChatGPT CI autonomously developed state-of-the-art ML models based on the original study's training data to predict clinical outcomes such as cancer development, cancer progression, disease complications, or biomarkers such as pathogenic gene sequences. Strikingly, these ML models matched or outperformed their published counterparts. We conclude that chatGPT CI offers a promising avenue to democratize ML in medicine, making advanced analytics accessible to non-ML experts and promoting broader applications in medical research and practice. | 翻訳日:2023-08-29 16:45:00 公開日:2023-08-27 |
# 最小ショットゼロショットシナリオにおける半教師付き学習 Semi-Supervised Learning in the Few-Shot Zero-Shot Scenario ( http://arxiv.org/abs/2308.14119v1 ) ライセンス: Link先を確認 | Noam Fluss, Guy Hacohen, Daphna Weinshall | (参考訳) Semi-Supervised Learning (SSL)はラベル付きデータとラベルなしデータの両方を活用して、モデルのパフォーマンスを向上させる。
従来のSSLメソッドでは、ラベル付きとラベルなしのデータは同じラベル空間を共有している。
しかしながら、現実世界のアプリケーションでは、特にラベル付きトレーニングセットが小さい場合には、ラベル付きセットから欠落しているクラスがある可能性がある。
既存のフレームワークは、未確認のクラス(Open-set SSL)をすべて拒否するか、トレーニング中に未ラベルのセット(open-world SSL)をパーティショニングすることで未確認のクラスを発見することを目指している。
本研究では,目に見えるクラスと見当たらないクラスからのポイントの分類器を構築した。
我々のアプローチは、追加のエントロピー損失を組み込むことで、FlexMatchのような既存のSSLメソッドを拡張することに基づいている。
この拡張により、既存のsslメソッドのパフォーマンスが向上し、目に見えるクラスと見当たらないクラスの両方を分類できる。
CIFAR-100とSTL-10の2つのベンチマーク画像分類データセット上で、最先端のSSL、オープンセットのSSL、オープンワールドのSSLメソッドに対する大幅な改善効果を示す。
ラベル付きデータは厳しい制限を受けると最も発音される(クラス毎に1~25のラベル付き例)。 Semi-Supervised Learning (SSL) leverages both labeled and unlabeled data to improve model performance. Traditional SSL methods assume that labeled and unlabeled data share the same label space. However, in real-world applications, especially when the labeled training set is small, there may be classes that are missing from the labeled set. Existing frameworks aim to either reject all unseen classes (open-set SSL) or to discover unseen classes by partitioning an unlabeled set during training (open-world SSL). In our work, we construct a classifier for points from both seen and unseen classes. Our approach is based on extending an existing SSL method, such as FlexMatch, by incorporating an additional entropy loss. This enhancement allows our method to improve the performance of any existing SSL method in the classification of both seen and unseen classes. We demonstrate large improvement gains over state-of-the-art SSL, open-set SSL, and open-world SSL methods, on two benchmark image classification data sets, CIFAR-100 and STL-10. The gains are most pronounced when the labeled data is severely limited (1-25 labeled examples per class). | 翻訳日:2023-08-29 16:44:40 公開日:2023-08-27 |
# 感性自然言語の解説 Situated Natural Language Explanations ( http://arxiv.org/abs/2308.14115v1 ) ライセンス: Link先を確認 | Zining Zhu, Haoming Jiang, Jingfeng Yang, Sreyashi Nag, Chao Zhang, Jie Huang, Yifan Gao, Frank Rudzicz, Bing Yin | (参考訳) 自然言語は人間に決定を説明する最もアクセスしやすいツールであり、大きな事前訓練された言語モデル(PLM)は、一貫性のある自然言語の説明(NLE)を生成する印象的な能力を示している。
既存のNLE研究の観点は、聴衆を考慮に入れていない。
NLEは高いテキスト品質を持つことができるが、観客のニーズや嗜好に対応できないかもしれない。
この制限に対処するため,我々は,位置生成フレームワークと位置評価フレームワークを含むnleの代替的な視点を提案する。
生成側では、NLEを状況に適応させる単純なプロンプトエンジニアリング手法を提案する。
人間の研究では、アノテーターは位置するNLEを好んだ。
評価面では,語彙,意味,実践的カテゴリーにおける自動評価スコアを設定した。
スコアはNLEを生成する最も適切なプロンプトを選択するために使用することができる。
Situated NLEは、NLEの自動世代に関するさらなる研究を行うための視点を提供する。 Natural language is among the most accessible tools for explaining decisions to humans, and large pretrained language models (PLMs) have demonstrated impressive abilities to generate coherent natural language explanations (NLE). The existing NLE research perspectives do not take the audience into account. An NLE can have high textual quality, but it might not accommodate audiences' needs and preference. To address this limitation, we propose an alternative perspective, situated NLE, including a situated generation framework and a situated evaluation framework. On the generation side, we propose simple prompt engineering methods that adapt the NLEs to situations. In human studies, the annotators preferred the situated NLEs. On the evaluation side, we set up automated evaluation scores in lexical, semantic, and pragmatic categories. The scores can be used to select the most suitable prompts to generate NLEs. Situated NLE provides a perspective to conduct further research on automatic NLE generations. | 翻訳日:2023-08-29 16:44:19 公開日:2023-08-27 |
# 低解像度スマートメータデータを用いた家事事故検出のためのハイブリッドトランスフォーマー-RNNアーキテクチャ Hybrid Transformer-RNN Architecture for Household Occupancy Detection Using Low-Resolution Smart Meter Data ( http://arxiv.org/abs/2308.14114v1 ) ライセンス: Link先を確認 | Xinyu Liang, Hao Wang | (参考訳) 住宅の占有検知は、建物の自動化、エネルギー管理、セキュリティと快適性の改善など、スマートホームアプリケーションのための、今日の都市化の世界で実現可能な技術となっている。
エネルギーシステムのデジタル化は、プライバシーやデータセキュリティを心配することなく、非侵襲的な方法で占有検知に使用できるスマートメーターデータを提供する。
特に、ディープラーニング技術により、低解像度のスマートメーターデータから占有度を推定することができ、プライバシー保護による正確な占有度検出が可能である。
本研究は,現代生活環境における居住者検出のための,プライバシーを意識した効果的なモデルの構築を動機としている。
本モデルの目的は,局所的時間的依存関係をキャプチャするrecurrent neural network(rnn)と,グローバルな時間的依存関係の処理に有効なtransformerの2つの利点を活用することである。
我々の設計したハイブリッドトランス-RNNモデルは、時間ごとのスマートメーターデータを用いて住宅の占有度を検知し、多様なプロファイルを持つ家庭で92%近い精度を達成する。
提案手法の有効性を,注目度に基づく占有度検出手法を含む最先端モデルと比較することにより検証し,その性能を実証する。 Residential occupancy detection has become an enabling technology in today's urbanized world for various smart home applications, such as building automation, energy management, and improved security and comfort. Digitalization of the energy system provides smart meter data that can be used for occupancy detection in a non-intrusive manner without causing concerns regarding privacy and data security. In particular, deep learning techniques make it possible to infer occupancy from low-resolution smart meter data, such that the need for accurate occupancy detection with privacy preservation can be achieved. Our work is thus motivated to develop a privacy-aware and effective model for residential occupancy detection in contemporary living environments. Our model aims to leverage the advantages of both recurrent neural networks (RNNs), which are adept at capturing local temporal dependencies, and transformers, which are effective at handling global temporal dependencies. Our designed hybrid transformer-RNN model detects residential occupancy using hourly smart meter data, achieving an accuracy of nearly 92\% across households with diverse profiles. We validate the effectiveness of our method using a publicly accessible dataset and demonstrate its performance by comparing it with state-of-the-art models, including attention-based occupancy detection methods. | 翻訳日:2023-08-29 16:44:07 公開日:2023-08-27 |
# 衣服交換者再識別のための意味認識一貫性ネットワーク Semantic-aware Consistency Network for Cloth-changing Person Re-Identification ( http://arxiv.org/abs/2308.14113v1 ) ライセンス: Link先を確認 | Peini Guo, Hong Liu, Jianbing Wu, Guoquan Wang and Tao Wang | (参考訳) 服を交換する人物再識別(cc-reid)は、衣服が変わった場合、複数の監視カメラでターゲットの人物を検索することを目的としている。
CC-ReIDの最近の進歩にもかかわらず、既存のアプローチは、衣服関連領域に一貫して焦点を合わせるための効果的な制約がないため、服のバリエーションの干渉によって妨げられている。
この問題に対処するために,効率的な一貫性制約を提案することで,識別関連セマンティック・コンシステンシー・ネットワーク(SCNet)を提案する。
具体的には,衣服領域の画素を消去することにより,衣料変動からの干渉を明示的に緩和する黒衣画像を生成する。
また、この細粒度識別情報を十分に活用するために、提案する部分的マッチング損失を利用して頭部情報を強調してソフトアテンションマップを学習するヘッドエンハンスメントモジュールを導入する。
さらに,高レベルのアイデンティティ関連セマンティックな特徴の学習を容易にするために,セマンティックな一貫性の喪失を設計し,セマンティックに一貫性のない布の無関係な領域にモデルを集中させる。
整合性制約を用いることで,提案モデルでは,ブラッククロース画像の生成や,推論段階でのヘッド領域の特定に補助的なセグメンテーションモジュールを必要としない。
布を交換する4つのRe-IDデータセット(LTCC、PRCC、Vc-Clothes、DeepChange)の大規模な実験により、提案したSCNetは、最先端のアプローチよりも大幅に改善されていることが示された。
私たちのコードは、https://github.com/Gpn-star/SCNet.comで利用可能です。 Cloth-changing Person Re-Identification (CC-ReID) is a challenging task that aims to retrieve the target person across multiple surveillance cameras when clothing changes might happen. Despite recent progress in CC-ReID, existing approaches are still hindered by the interference of clothing variations since they lack effective constraints to keep the model consistently focused on clothing-irrelevant regions. To address this issue, we present a Semantic-aware Consistency Network (SCNet) to learn identity-related semantic features by proposing effective consistency constraints. Specifically, we generate the black-clothing image by erasing pixels in the clothing area, which explicitly mitigates the interference from clothing variations. In addition, to fully exploit the fine-grained identity information, a head-enhanced attention module is introduced, which learns soft attention maps by utilizing the proposed part-based matching loss to highlight head information. We further design a semantic consistency loss to facilitate the learning of high-level identity-related semantic features, forcing the model to focus on semantically consistent cloth-irrelevant regions. By using the consistency constraint, our model does not require any extra auxiliary segmentation module to generate the black-clothing image or locate the head region during the inference stage. Extensive experiments on four cloth-changing person Re-ID datasets (LTCC, PRCC, Vc-Clothes, and DeepChange) demonstrate that our proposed SCNet makes significant improvements over prior state-of-the-art approaches. Our code is available at: https://github.com/Gpn-star/SCNet. | 翻訳日:2023-08-29 16:43:45 公開日:2023-08-27 |
# v2vエネルギー交換による分散型電気自動車充電コーディネーションのためのmarl MARL for Decentralized Electric Vehicle Charging Coordination with V2V Energy Exchange ( http://arxiv.org/abs/2308.14111v1 ) ライセンス: Link先を確認 | Jiarong Fan, Hao Wang, Ariel Liebman | (参考訳) 電気自動車(ev)充電ステーションの効率的なエネルギー管理は、輸送セクターの持続可能なエネルギー移行を支える上で重要である。
本稿では、EV充電ステーションのフレキシビリティとして車両間エネルギー交換(V2V)を考慮したEV充電調整について述べる。
さらに,本稿では,満足度や公平性などのevユーザエクスペリエンスについても考察する。
本稿では,EVの到着時間,エネルギー価格,太陽エネルギー生成の不確実性を考慮して,EV充電とV2Vエネルギー交換を協調するマルチエージェント強化学習(MARL)手法を提案する。
MARLの探索能力は、MARLのニューラルネットワークモデルにパラメータノイズを導入することで強化される。
その結果,従来の最適化基準と比較して,提案手法の性能とスケーラビリティが向上した。
アルゴリズムの分散実行により、充電ステーション内の部分的なシステム障害を効果的に処理できる。 Effective energy management of electric vehicle (EV) charging stations is critical to supporting the transport sector's sustainable energy transition. This paper addresses the EV charging coordination by considering vehicle-to-vehicle (V2V) energy exchange as the flexibility to harness in EV charging stations. Moreover, this paper takes into account EV user experiences, such as charging satisfaction and fairness. We propose a Multi-Agent Reinforcement Learning (MARL) approach to coordinate EV charging with V2V energy exchange while considering uncertainties in the EV arrival time, energy price, and solar energy generation. The exploration capability of MARL is enhanced by introducing parameter noise into MARL's neural network models. Experimental results demonstrate the superior performance and scalability of our proposed method compared to traditional optimization baselines. The decentralized execution of the algorithm enables it to effectively deal with partial system faults in the charging station. | 翻訳日:2023-08-29 16:43:13 公開日:2023-08-27 |
# 単一画像新規ビュー合成のための奥行き自己スーパービジョン Depth self-supervision for single image novel view synthesis ( http://arxiv.org/abs/2308.14108v1 ) ライセンス: Link先を確認 | Giovanni Minelli, Matteo Poggi, Samuele Salti | (参考訳) 本稿では,一つのフレームを入力として与えられた任意の視点から新しい画像を生成する問題に取り組む。
既存の手法では,合成を導くための目標ビュー深度マップの予測を目標としているが,このようなタスクを明示的に監視することなく,新たなビュー合成と深さ推定のためのフレームワークを共同で最適化し,両者のシナジーを最適に解き放つ。
具体的には、共有深度デコーダを自己教師型でトレーニングし、ソースとターゲットビュー間で一貫性のある深度マップを予測する。
提案手法は,高品質な画像生成を可能にするとともに,より正確な被写界深度を目標とするタスクの課題を解決するための効果を示す。 In this paper, we tackle the problem of generating a novel image from an arbitrary viewpoint given a single frame as input. While existing methods operating in this setup aim at predicting the target view depth map to guide the synthesis, without explicit supervision over such a task, we jointly optimize our framework for both novel view synthesis and depth estimation to unleash the synergy between the two at its best. Specifically, a shared depth decoder is trained in a self-supervised manner to predict depth maps that are consistent across the source and target views. Our results demonstrate the effectiveness of our approach in addressing the challenges of both tasks allowing for higher-quality generated images, as well as more accurate depth for the target viewpoint. | 翻訳日:2023-08-29 16:42:58 公開日:2023-08-27 |
# 準安定マルコフ開量子系を解き明かす Unravelling Metastable Markovian Open Quantum Systems ( http://arxiv.org/abs/2308.14107v1 ) ライセンス: Link先を確認 | Calum A. Brown, Katarzyna Macieszczak, Robert L. Jack | (参考訳) 我々は,準安定マルコフ開量子系のダイナミクスを,その平均ダイナミクスを確率的軌道に解き明かすことによって解析する。
メタスタビリティが古典型である単純な3状態モデルや、メタスタブルデコヒーレンス自由部分空間を特徴とする2ビットモデルなど、量子リセットプロセスのいくつかの例を考察する。
3状態モデルでは、軌道は古典的準安定現象論、すなわち異なる相への高速緩和とそれらの間の緩やかな遷移を示す。
これにより、古典的および量子的メタスタビリティの既存の対応が拡張される。
量子相に対するコミッタの計算と、それらの間の稀な遷移の機構を可能にする。
2量子モデルの場合、デコヒーレンスフリーな部分空間は、量子状態が連続的な遅い進化を持つ遅い多様体として無声軌道に現れる。
これは、この量子効果の古典的(非準安定な)類似物を提供する。
これらの結果の一般的な意味を論じ,メタスタブルシステムにおける量子軌道解析における量子リセットプロセスの有用性を明らかにする。 We analyse the dynamics of metastable Markovian open quantum systems by unravelling their average dynamics into stochastic trajectories. We consider several examples of quantum reset processes, including a simple three-state model whose metastability is of classical type, and a two-qubit model that features a metastable decoherence free subspace. In the three-state model, the trajectories exhibit classical metastable phenomenology: fast relaxation into distinct phases and slow transitions between them. This extends the existing correspondence between classical and quantum metastability. It enables the computation of committors for the quantum phases, and the mechanisms of rare transitions between them. For the two-qubit model, the decoherence-free subspace appears in the unravelled trajectories as a slow manifold on which the quantum state has a continuous slow evolution. This provides a classical (non-metastable) analogue of this quantum effect. We discuss the general implications of these results, and we highlight the useful role of quantum reset processes for analysis of quantum trajectories in metastable systems. | 翻訳日:2023-08-29 16:42:43 公開日:2023-08-27 |
# デンテックスチャレンジ2023の相互分割と検出モデル Intergrated Segmentation and Detection Models for Dentex Challenge 2023 ( http://arxiv.org/abs/2308.14161v1 ) ライセンス: Link先を確認 | Lanshan He, Yusheng Liu, Lisheng Wang | (参考訳) パノラマx線は歯科診断によく用いられる。
深層学習の進展に伴い、歯科用パノラマX線による疾患の自動検出は、歯科医がより効率的に疾患を診断するのに役立つ。
本稿では,異常歯の検出と列挙IDの取得にセグメンテーションと検出モデルを統合した手法を提案し,そのコードをhttps://github.com/xyzlancehe/DentexSegAndDetで公開している。 Dental panoramic x-rays are commonly used in dental diagnosing. With the development of deep learning, auto detection of diseases from dental panoramic x-rays can help dentists to diagnose diseases more efficiently.The Dentex Challenge 2023 is a competition for automatic detection of abnormal teeth along with their enumeration ids from dental panoramic x-rays. In this paper, we propose a method integrating segmentation and detection models to detect abnormal teeth as well as obtain their enumeration ids.Our codes are available at https://github.com/xyzlancehe/DentexSegAndDet. | 翻訳日:2023-08-29 16:36:58 公開日:2023-08-27 |
# マルチモーダル感情認識のための統一トランスフォーマーベースネットワーク A Unified Transformer-based Network for multimodal Emotion Recognition ( http://arxiv.org/abs/2308.14160v1 ) ライセンス: Link先を確認 | Kamran Ali and Charles E. Hughes | (参考訳) トランスフォーマーベースのモデルの開発は、様々なビジョンやNLPベースの研究課題に対処する上で大きな進歩をもたらした。
しかし, 変圧器を用いた手法の進歩は, バイオセンシング研究にはあまり適用されていない。
本稿では、心電図/PPG信号の2次元表現と顔情報を組み合わせることで、覚醒値空間における感情を分類するUnified Biosensor-Vision Multi-modal Transformer-based (UBVMT)法を提案する。
この目的を達成するために、まず、ECG/PPG信号の3つの画像ベース表現の単調感情認識性能を調査、比較する。
次に,ecg/ppg信号の2次元画像ベース表現と表情特徴を組み合わせることで感情認識を行うように訓練したubvmtネットワークを提案する。
我々の統合トランスモデルは、ECG/PPG信号の2次元表現を入力として取る均一なトランスフォーマーブロックと、最小限のモダリティ特異的設計による感情表現学習のための対応する顔フレームから構成される。
UBVMTモデルは、映像フレームのマスクパッチとECG/PPG信号の2次元画像の再構成と、顔とECG/PPGデータの整列のための対照的なモデリングによって訓練される。
MAHNOB-HCIとDEAPデータセットの大規模な実験により、我々のUnified UBVMTベースのモデルが最先端技術に匹敵する結果をもたらすことが示された。 The development of transformer-based models has resulted in significant advances in addressing various vision and NLP-based research challenges. However, the progress made in transformer-based methods has not been effectively applied to biosensing research. This paper presents a novel Unified Biosensor-Vision Multi-modal Transformer-based (UBVMT) method to classify emotions in an arousal-valence space by combining a 2D representation of an ECG/PPG signal with the face information. To achieve this goal, we first investigate and compare the unimodal emotion recognition performance of three image-based representations of the ECG/PPG signal. We then present our UBVMT network which is trained to perform emotion recognition by combining the 2D image-based representation of the ECG/PPG signal and the facial expression features. Our unified transformer model consists of homogeneous transformer blocks that take as an input the 2D representation of the ECG/PPG signal and the corresponding face frame for emotion representation learning with minimal modality-specific design. Our UBVMT model is trained by reconstructing masked patches of video frames and 2D images of ECG/PPG signals, and contrastive modeling to align face and ECG/PPG data. Extensive experiments on the MAHNOB-HCI and DEAP datasets show that our Unified UBVMT-based model produces comparable results to the state-of-the-art techniques. | 翻訳日:2023-08-29 16:36:45 公開日:2023-08-27 |
# 雨滴と雨天の統一除去のための不確かさ駆動ランク付スパースサンプリング変圧器 Sparse Sampling Transformer with Uncertainty-Driven Ranking for Unified Removal of Raindrops and Rain Streaks ( http://arxiv.org/abs/2308.14153v1 ) ライセンス: Link先を確認 | Sixiang Chen, Tian Ye, Jinbin Bai, Erkang Chen, Jun Shi, Lei Zhu | (参考訳) 現実世界では、雨による画像劣化は雨のストレークと雨滴の組み合わせをしばしば表わすため、基礎となるクリーンイメージの回復の課題が増大する。
降雨量と降雨量には形状,大きさ,位置が異なっており,降雨物による不規則な劣化との相関関係をモデル化することが,画像の劣化に必要不可欠である。
本研究の目的は,グローバルビューにおける劣化関係を学習し,モデル化するための効率的かつ柔軟なメカニズムを提供することである。
そこで我々は,UDR-S2Formerと呼ばれる不確実性駆動型ランキングに基づくスパースサンプリング変換器を提案する。
従来の方法と比較して、UDR-S2Formerには3つのメリットがあります。
まず、関連する画像劣化情報を適応的にサンプリングし、基礎となる劣化関係をモデル化する。
第2に、不確実性駆動型ランキング戦略の明示的な適用により、ネットワークが劣化機能に対応し、再構築プロセスを理解することができる。
最後に、UDR-S2Formerは、すべてのベンチマークで最先端の手法よりも明らかに優れていることを示す。 In the real world, image degradations caused by rain often exhibit a combination of rain streaks and raindrops, thereby increasing the challenges of recovering the underlying clean image. Note that the rain streaks and raindrops have diverse shapes, sizes, and locations in the captured image, and thus modeling the correlation relationship between irregular degradations caused by rain artifacts is a necessary prerequisite for image deraining. This paper aims to present an efficient and flexible mechanism to learn and model degradation relationships in a global view, thereby achieving a unified removal of intricate rain scenes. To do so, we propose a Sparse Sampling Transformer based on Uncertainty-Driven Ranking, dubbed UDR-S2Former. Compared to previous methods, our UDR-S2Former has three merits. First, it can adaptively sample relevant image degradation information to model underlying degradation relationships. Second, explicit application of the uncertainty-driven ranking strategy can facilitate the network to attend to degradation features and understand the reconstruction process. Finally, experimental results show that our UDR-S2Former clearly outperforms state-of-the-art methods for all benchmarks. | 翻訳日:2023-08-29 16:36:17 公開日:2023-08-27 |
# 変圧器を用いた条件ベクトル量子コード拡散による2次元から3次元の非整合変換 Unaligned 2D to 3D Translation with Conditional Vector-Quantized Code Diffusion using Transformers ( http://arxiv.org/abs/2308.14152v1 ) ライセンス: Link先を確認 | Abril Corona-Figueroa, Sam Bond-Taylor, Neelanjan Bhowmik, Yona Falinie A. Gaus, Toby P. Breckon, Hubert P. H. Shum, Chris G. Willcocks | (参考訳) いくつかの2次元ビューから条件付きで複雑な物体の3次元画像を生成することは、ドメインギャップや幾何学的ミスアライメントといった問題によって合成される難しい問題である。
例えば、生成逆ネットワークのような統一的なフレームワークは、ドメイン不変と幾何学不変のジョイント潜在分布の両方を明示的に定義しない限り、これを達成できない。
対照的に,ベクトル量子化符号を用いた条件拡散に基づく,単純で斬新な2Dから3D合成手法を提案する。
情報豊富なコード空間で操作することで、ビュー全体にわたるフルカバレッジの注意を通して高解像度の3D合成が可能になる。
具体的には、予め生成された3dコードと2つの2dビュー(例えば2d x線)のコードブックの条件付き3dコード(例えばct画像)を生成する。
質的および定量的な結果は、実世界のシナリオから得られた2つの複雑な容積画像データセットの密度、カバレッジ、歪みなどの忠実度測定値を含む、様々な評価基準にまたがる専門的な手法に対する最先端のパフォーマンスを示す。 Generating 3D images of complex objects conditionally from a few 2D views is a difficult synthesis problem, compounded by issues such as domain gap and geometric misalignment. For instance, a unified framework such as Generative Adversarial Networks cannot achieve this unless they explicitly define both a domain-invariant and geometric-invariant joint latent distribution, whereas Neural Radiance Fields are generally unable to handle both issues as they optimize at the pixel level. By contrast, we propose a simple and novel 2D to 3D synthesis approach based on conditional diffusion with vector-quantized codes. Operating in an information-rich code space enables high-resolution 3D synthesis via full-coverage attention across the views. Specifically, we generate the 3D codes (e.g. for CT images) conditional on previously generated 3D codes and the entire codebook of two 2D views (e.g. 2D X-rays). Qualitative and quantitative results demonstrate state-of-the-art performance over specialized methods across varied evaluation criteria, including fidelity metrics such as density, coverage, and distortion metrics for two complex volumetric imagery datasets from in real-world scenarios. | 翻訳日:2023-08-29 16:35:57 公開日:2023-08-27 |
# 壊れた矢印:ハーディアンルーチェーンと量子文脈性 Broken arrows: Hardy-Unruh chains and quantum contextuality ( http://arxiv.org/abs/2308.14151v1 ) ライセンス: Link先を確認 | Michael Janas and Michel Janssen | (参考訳) Hardy (1993) と Unruh (2018) は、一対の粒子の最大エンタングル状態の族を構築し、局所的な隠れ変数理論では説明できない相関性を生み出した。
しかし、ベルの不等式に違反することではなく、論理の基本的な規則との衝突を指摘した。
具体的には、これらの状態と関連する測定設定を、結果がハーディ・アンルー鎖と呼ばれる2、3の条件式の集合を満たすように構築した。
量子力学は、関連するすべての条件に真理値を同時に割り当てることができないため、そのような壊れた「もし...なら...」矢印を避ける。
ある測定値の真理値を決定する測定は、他の測定値の真理値を決定するために先行する。
したがって、ハーディ・ウンルー連鎖は量子的文脈性(どの変数が成立し、定値を得ないか)をうまく表している。
我々はbub (2016) と pitowsky (1989) に触発され、janas, cuffaro, janssen (2022) で開発された枠組みを用いて、スピン1/2粒子の挙動を模倣した架空のバナナを用いてハーディアンルー鎖を構築し分析した。 Hardy (1993) and Unruh (2018) constructed a family of non-maximally entangled states of pairs of particles giving rise to correlations that cannot be accounted for with a local hidden-variable theory. Rather than pointing to violations of some Bell inequality, however, they pointed to clashes with the basic rules of logic. Specifically, they constructed these states and the associated measurement settings in such a way that the outcomes will satisfy a set of two or three conditionals, which we call Hardy-Unruh chains, but not a conditional entailed by this set. Quantum mechanics avoids such broken 'if ... then ...' arrows because it cannot simultaneously assign truth values to all conditionals involved. Measurements to determine the truth value of some preclude measurements to determine the truth value of others. Hardy-Unruh chains thus nicely illustrate quantum contextuality: which variables do and do not get definite values depends on what measurements we decide to perform. We use the framework inspired by Bub (2016) and Pitowsky (1989) and developed in Janas, Cuffaro and Janssen (2022} to construct and analyze Hardy-Unruh chains in terms of fictitious bananas mimicking the behavior of spin-1/2 particles. | 翻訳日:2023-08-29 16:35:35 公開日:2023-08-27 |
# ユーザフレンドリーでオープンソースの大規模GPTモデルの検討:言語,マルチモーダル,科学GPTモデルに関する調査 Examining User-Friendly and Open-Sourced Large GPT Models: A Survey on Language, Multimodal, and Scientific GPT Models ( http://arxiv.org/abs/2308.14149v1 ) ライセンス: Link先を確認 | Kaiyuan Gao, Sunan He, Zhenyu He, Jiacheng Lin, QiZhi Pei, Jie Shao, Wei Zhang | (参考訳) 生成事前学習トランスフォーマー(gpt)モデルは自然言語処理(nlp)の分野に革命をもたらし、様々なタスクにおいて顕著な性能を発揮し、そのパワーをマルチモーダルドメインに拡張した。
その成功にもかかわらず、GPT-4のような大規模なGPTモデルは、かなりのサイズ、高い計算要求、複雑なデプロイメントプロセス、クローズド開発ループといった固有の制限に直面している。
これらの制約は広く採用されることを制限し、責任ある開発と利用に関する懸念を提起する。
ユーザフレンドリーで、比較的小さく、オープンソースの代替GPTモデルの必要性は、高いパフォーマンスを維持しながらこれらの制限を克服したいという願望から生じる。
本稿では,大規模GPTの代替オープンソースモデルについて検討し,デプロイやアクセシビリティを容易にするユーザフレンドリで比較的小さなモデルに注目した。
この広範な調査を通じて、私たちは研究者、実践者、愛好家に対して、大きなgptのユーザフレンドリーで比較的小さなオープンソースモデル、その現状、課題、将来の研究方向性を徹底的に理解し、より広い科学コミュニティに適合し、汎用的なgptモデルの開発を促進することを目的としています。
ソースコンテンツはhttps://github.com/GPT-Alternatives/gpt_alternativesで継続的に更新されている。 Generative pre-trained transformer (GPT) models have revolutionized the field of natural language processing (NLP) with remarkable performance in various tasks and also extend their power to multimodal domains. Despite their success, large GPT models like GPT-4 face inherent limitations such as considerable size, high computational requirements, complex deployment processes, and closed development loops. These constraints restrict their widespread adoption and raise concerns regarding their responsible development and usage. The need for user-friendly, relatively small, and open-sourced alternative GPT models arises from the desire to overcome these limitations while retaining high performance. In this survey paper, we provide an examination of alternative open-sourced models of large GPTs, focusing on user-friendly and relatively small models that facilitate easier deployment and accessibility. Through this extensive survey, we aim to equip researchers, practitioners, and enthusiasts with a thorough understanding of user-friendly and relatively small open-sourced models of large GPTs, their current state, challenges, and future research directions, inspiring the development of more efficient, accessible, and versatile GPT models that cater to the broader scientific community and advance the field of general artificial intelligence. The source contents are continuously updating in https://github.com/GPT-Alternatives/gpt_alternatives. | 翻訳日:2023-08-29 16:35:08 公開日:2023-08-27 |
# 部分放射状セットアップにおける円ラドン変換のエンドツーエンドインバージョン学習 Learning end-to-end inversion of circular Radon transforms in the partial radial setup ( http://arxiv.org/abs/2308.14144v1 ) ライセンス: Link先を確認 | Deep Ray and Souvik Roy | (参考訳) 本稿では,光音響トモグラフィで発生する部分的放射状設定における円ラドン変換の反転に関する深層学習に基づく計算アルゴリズムを提案する。
まず,この問題を解決する唯一の従来のアルゴリズムである,切断された特異値分解に基づく手法が,再構成されたフィールドを使用不能にするような厳格なアーティファクトに繋がることを示す。
この計算ボトルネックを克服する目的で、ResBlockベースのU-Netをトレーニングし、測定データ上で直接動作する推論されたフィールドを復元する。
拡張Shepp-Loganファントムによる数値計算の結果、ノイズの多いフル・リミテッドなビューデータが存在する場合、提案アルゴリズムの優位性を示す。 We present a deep learning-based computational algorithm for inversion of circular Radon transforms in the partial radial setup, arising in photoacoustic tomography. We first demonstrate that the truncated singular value decomposition-based method, which is the only traditional algorithm available to solve this problem, leads to severe artifacts which renders the reconstructed field as unusable. With the objective of overcoming this computational bottleneck, we train a ResBlock based U-Net to recover the inferred field that directly operates on the measured data. Numerical results with augmented Shepp-Logan phantoms, in the presence of noisy full and limited view data, demonstrate the superiority of the proposed algorithm. | 翻訳日:2023-08-29 16:34:41 公開日:2023-08-27 |
# ガウス過程を伴う高速空間モデリングのための統合変分フーリエ特徴 Integrated Variational Fourier Features for Fast Spatial Modelling with Gaussian Processes ( http://arxiv.org/abs/2308.14142v1 ) ライセンス: Link先を確認 | Talay M Cheema, Carl Edward Rasmussen | (参考訳) スパース変分近似はガウス過程の推論と学習をより大きなデータセットにスケールアップする一般的な方法である。
n$ のトレーニングポイントに対して、正確な推論は $o(n^3)$ で、$m \ll n$ の機能では state of the art sparse variational methods は $o(nm^2)$ である。
近年、空間モデリングのような低次元タスクにおいて優れた性能を持つ$O(M^3)$コストを約束する手法が提案されているが、最もよく使われるカーネルを除いて、非常に限られた種類のカーネルでしか動作しない。
本研究では,これらの性能の利点を定常共分散関数に拡張する統合されたフーリエ機能を提案する。
我々は収束解析と経験的探索からパラメータの方法と選択を動機付け、合成および実世界の空間回帰タスクにおいて実践的な高速化を示す。 Sparse variational approximations are popular methods for scaling up inference and learning in Gaussian processes to larger datasets. For $N$ training points, exact inference has $O(N^3)$ cost; with $M \ll N$ features, state of the art sparse variational methods have $O(NM^2)$ cost. Recently, methods have been proposed using more sophisticated features; these promise $O(M^3)$ cost, with good performance in low dimensional tasks such as spatial modelling, but they only work with a very limited class of kernels, excluding some of the most commonly used. In this work, we propose integrated Fourier features, which extends these performance benefits to a very broad class of stationary covariance functions. We motivate the method and choice of parameters from a convergence analysis and empirical exploration, and show practical speedup in synthetic and real world spatial regression tasks. | 翻訳日:2023-08-29 16:34:28 公開日:2023-08-27 |
# ファインチューニングSAMによる医療画像分割用チープレンチ Cheap Lunch for Medical Image Segmentation by Fine-tuning SAM on Few Exemplars ( http://arxiv.org/abs/2308.14133v1 ) ライセンス: Link先を確認 | Weijia Feng and Lingting Zhu and Lequan Yu | (参考訳) Segment Anything Model (SAM) はスケールアップセグメンテーションモデルの優れた機能を示し、様々な領域でゼロショットの一般化を可能にする。
大規模基礎モデルを事前訓練モデルとして活用することにより、特定の領域に対してSAMを微調整してパフォーマンスをさらに向上することは自然な進歩である。
しかし, 医療領域における基礎モデルの導入は, 病院システム内の適応に十分なデータのラベル付けが困難であり, 費用がかかるため, 課題となっている。
本稿では,限られた数の例を用いて,samを微調整するための効率的かつ実用的な手法を提案する。
提案手法は,先駆的な合成モジュールと広く認識されているローランド適応(LoRA)ファインチューニング戦略の2つの手法を組み合わせることで,それぞれがデータレベルおよびモデルレベルの試みとして機能する。
興味深いことに, SAMはラベル付きデータが少ない場合でも, 医療領域内で効果的に整列できる可能性が示唆された。
脳腫瘍セグメンテーション (BraTS) と多臓器CTセグメンテーション (Synapse) によるアプローチを検証した。
包括的結果は,このようなアプローチの実現可能性と有効性を示し,医療分野におけるSAMの実用化への道を開いた。 The Segment Anything Model (SAM) has demonstrated remarkable capabilities of scaled-up segmentation models, enabling zero-shot generalization across a variety of domains. By leveraging large-scale foundational models as pre-trained models, it is a natural progression to fine-tune SAM for specific domains to further enhance performances. However, the adoption of foundational models in the medical domain presents a challenge due to the difficulty and expense of labeling sufficient data for adaptation within hospital systems. In this paper, we introduce an efficient and practical approach for fine-tuning SAM using a limited number of exemplars, making it suitable for such scenarios. Our approach combines two established techniques from the literature: an exemplar-guided synthesis module and the widely recognized Low-Rank Adaptation (LoRA) fine-tuning strategy, serving as data-level and model-level attempts respectively. Interestingly, our empirical findings suggest that SAM can be effectively aligned within the medical domain even with few labeled data. We validate our approach through experiments on brain tumor segmentation (BraTS) and multi-organ CT segmentation (Synapse). The comprehensive results underscore the feasibility and effectiveness of such an approach, paving the way for the practical application of SAM in the medical domain. | 翻訳日:2023-08-29 16:34:10 公開日:2023-08-27 |
# パープレキシティによる言語モデル攻撃の検出 Detecting Language Model Attacks with Perplexity ( http://arxiv.org/abs/2308.14132v1 ) ライセンス: Link先を確認 | Gabriel Alon, Michael Kamfonas | (参考訳) 大規模言語モデル(LLM)に関わる新たなハックが出現し、敵の接尾辞を利用してモデルを騙して危険な応答を生成する。
この手法はNew York TimesやWiredなどの信頼できるメディアからかなりの注目を集めており、LLMの安全性と安全性に関する大衆の認識に影響を与えている。
本研究では,このような攻撃を認識できる方法の1つとして,パープレキシティの利用を提唱する。
これらのハックの背後にある概念は、異常に構築された文字列を有害なクエリに付加する、というものである。
この操作は保護機構を混乱させ、モデルを騙して禁止された応答を生成する。
このようなシナリオは、爆発物を構築したり銀行強盗を編成する悪意のあるユーザーに詳細な指示を与える可能性がある。
本研究は,自然言語処理指標であるパープレキシティ(perplexity)を禁止応答を生成する前に,これらの敵対的戦術を検出する可能性を示す。
オープンソースのLCMを用いて,このような逆数接尾辞のないクエリの難易度を評価することで,約90%が1000以上の難易度であったことがわかった。
このコントラストは、この種のエクスプロイトを検出するためのパープレキシティの有効性を裏付けるものである。 A novel hack involving Large Language Models (LLMs) has emerged, leveraging adversarial suffixes to trick models into generating perilous responses. This method has garnered considerable attention from reputable media outlets such as the New York Times and Wired, thereby influencing public perception regarding the security and safety of LLMs. In this study, we advocate the utilization of perplexity as one of the means to recognize such potential attacks. The underlying concept behind these hacks revolves around appending an unusually constructed string of text to a harmful query that would otherwise be blocked. This maneuver confuses the protective mechanisms and tricks the model into generating a forbidden response. Such scenarios could result in providing detailed instructions to a malicious user for constructing explosives or orchestrating a bank heist. Our investigation demonstrates the feasibility of employing perplexity, a prevalent natural language processing metric, to detect these adversarial tactics before generating a forbidden response. By evaluating the perplexity of queries with and without such adversarial suffixes using an open-source LLM, we discovered that nearly 90 percent were above a perplexity of 1000. This contrast underscores the efficacy of perplexity for detecting this type of exploit. | 翻訳日:2023-08-29 16:33:46 公開日:2023-08-27 |
# ビジネス戦略のための生成AI:ビジネス戦略ツールの作成に基礎モデルを使用する Generative AI for Business Strategy: Using Foundation Models to Create Business Strategy Tools ( http://arxiv.org/abs/2308.14182v1 ) ライセンス: Link先を確認 | Son The Nguyen, Theja Tulabandhula | (参考訳) LLM(大規模言語モデル)のような生成モデル(基礎モデル)は、複数の分野に大きな影響を与えている。
本稿では,ビジネス意思決定におけるそのようなモデルの利用を提案する。
特に、構造化されていないテキストデータソース(ニュースデータなど)と、複数の基盤モデル(GPT4、トランスフォーマーベースの名前付きエンティティ認識(NER)モデルとエンターメントベースのゼロショット分類器(ZSC))を組み合わせることで、IT(情報技術)アーティファクトを(一連の)署名されたビジネスネットワークとして導き出す。
このようなアーティファクトは、市場の状態やその位置についてビジネスの利害関係者に知らせ、将来の展望を改善するための定量的な洞察を提供することができると仮定する。 Generative models (foundation models) such as LLMs (large language models) are having a large impact on multiple fields. In this work, we propose the use of such models for business decision making. In particular, we combine unstructured textual data sources (e.g., news data) with multiple foundation models (namely, GPT4, transformer-based Named Entity Recognition (NER) models and Entailment-based Zero-shot Classifiers (ZSC)) to derive IT (information technology) artifacts in the form of a (sequence of) signed business networks. We posit that such artifacts can inform business stakeholders about the state of the market and their own positioning as well as provide quantitative insights into improving their future outlook. | 翻訳日:2023-08-29 16:26:00 公開日:2023-08-27 |
# クラス不均衡ノード分類のためのトポロジ拡張 Topological Augmentation for Class-Imbalanced Node Classification ( http://arxiv.org/abs/2308.14181v1 ) ライセンス: Link先を確認 | Zhining Liu, Zhichen Zeng, Ruizhong Qiu, Hyunsik Yoo, David Zhou, Zhe Xu, Yada Zhu, Kommy Weldemariam, Jingrui He, Hanghang Tong | (参考訳) クラス不均衡は実世界のノード分類タスクでよく見られ、しばしばグラフ学習モデルを多数クラスにバイアスする。
既存の研究のほとんどはノード中心の視点に根ざしており、ノード/クラスワイド再重み付けや再サンプリングによるトレーニングデータにおけるクラス不均衡への対処を目指している。
本稿では,探索下トポロジ中心の視点から,クラス不均衡バイアスの源泉にアプローチする。
我々の調査は、本質的に歪んだトレーニングクラス分布を超えて、グラフトポロジーは予測バイアスの形成において重要な役割を担っていることを明らかにしている。
これらの結果を踏まえて,グラフ学習中のメッセージパッシングによって影響を受けるノードを動的に補正するために,軽量なトポロジー拡張手法であるtobaを考案し,クラス不均衡バイアスを緩和する。
ToBAはモデルに依存しない、効率的で、多目的なソリューションであり、シームレスに組み合わせて、他の不均衡処理技術をさらに促進できる。
系統的な実験は,不均衡ノード分類と異なるクラス間の予測バイアスの軽減の両方において,tobaの優れた性能を検証する。 Class imbalance is prevalent in real-world node classification tasks and often biases graph learning models toward majority classes. Most existing studies root from a node-centric perspective and aim to address the class imbalance in training data by node/class-wise reweighting or resampling. In this paper, we approach the source of the class-imbalance bias from an under-explored topology-centric perspective. Our investigation reveals that beyond the inherently skewed training class distribution, the graph topology also plays an important role in the formation of predictive bias: we identify two fundamental challenges, namely ambivalent and distant message-passing, that can exacerbate the bias by aggravating majority-class over-generalization and minority-class misclassification. In light of these findings, we devise a lightweight topological augmentation method ToBA to dynamically rectify the nodes influenced by ambivalent/distant message-passing during graph learning, so as to mitigate the class-imbalance bias. We highlight that ToBA is a model-agnostic, efficient, and versatile solution that can be seamlessly combined with and further boost other imbalance-handling techniques. Systematic experiments validate the superior performance of ToBA in both promoting imbalanced node classification and mitigating the prediction bias between different classes. | 翻訳日:2023-08-29 16:25:43 公開日:2023-08-27 |
# 視覚言語機械的解釈可能性に向けて:BLIPの因果追跡ツール Towards Vision-Language Mechanistic Interpretability: A Causal Tracing Tool for BLIP ( http://arxiv.org/abs/2308.14179v1 ) ライセンス: Link先を確認 | Vedant Palit and Rohan Pandey and Aryaman Arora and Paul Pu Liang | (参考訳) 機械的解釈可能性(Mechanistic Interpretability)は、因果性に基づく手法を利用して、大規模言語モデル(LLM)の特定の振る舞いを可能にする神経メカニズムを理解することを目指している。
これらのアプローチは、テキストのスパンをコピーし、事実知識をキャプチャする神経回路を識別しているが、視覚言語領域にこれらのツールを適用するには、かなりのアーキテクチャ変更が必要になるため、マルチモーダルモデルでは使用できない。
本研究では,画像条件付きテキスト生成の基礎となる神経機構の研究を可能にするために,一助詞因果追跡ツールをBLIPに適用する。
視覚的質問応答データセットに対する我々のアプローチを実証し、全てのトークンに対する後の層表現の因果関係を明らかにする。
さらに、BLIP因果追跡ツールをオープンソースとしてリリースし、コミュニティによる視覚言語機械的解釈のさらなる実験を可能にする。
私たちのコードはhttps://github.com/vedantpalit/Towards-Vision-Language-Mechanistic-Interpretabilityで利用可能です。 Mechanistic interpretability seeks to understand the neural mechanisms that enable specific behaviors in Large Language Models (LLMs) by leveraging causality-based methods. While these approaches have identified neural circuits that copy spans of text, capture factual knowledge, and more, they remain unusable for multimodal models since adapting these tools to the vision-language domain requires considerable architectural changes. In this work, we adapt a unimodal causal tracing tool to BLIP to enable the study of the neural mechanisms underlying image-conditioned text generation. We demonstrate our approach on a visual question answering dataset, highlighting the causal relevance of later layer representations for all tokens. Furthermore, we release our BLIP causal tracing tool as open source to enable further experimentation in vision-language mechanistic interpretability by the community. Our code is available at https://github.com/vedantpalit/Towards-Vision-Language-Mechanistic-Interpretability. | 翻訳日:2023-08-29 16:25:17 公開日:2023-08-27 |
# さまざまなデータモダリティのためのAIGC:調査 AIGC for Various Data Modalities: A Survey ( http://arxiv.org/abs/2308.14177v1 ) ライセンス: Link先を確認 | Lin Geng Foo, Hossein Rahmani, Jun Liu | (参考訳) AIGCメソッドは、AIアルゴリズムを使用してテキスト、画像、ビデオ、3Dアセット、その他のメディアを生成することを目的としている。
幅広い応用と最近の研究の可能性を実証したAIGCの開発が近年注目を集めており、画像、ビデオ、テキスト、三次元形状(ボクセル、点雲、メッシュ、神経暗黙界など)、3Dシーン、3Dヒューマンアバター(体と頭)、3Dモーション、オーディオなど、さまざまなデータモダリティに対してAIGC手法が開発されている。
さらに、一方のモダリティにおいて条件入力を受け取り、他方のモダリティで出力を出力する生成手法として、相互モダリティAIGC法において多くの重要な発展があった。
例えば、様々なモダリティから画像、ビデオ、3D形状、3Dシーン、3Dアバター(体と頭)、3Dモーション(骨格とアバター)、オーディオモダリティなどがある。
本稿では,個別モダリティ法とクロスモダリティ法の両方を含む異なるデータモダリティにまたがるaigc手法の包括的レビューを行い,各設定における様々な課題,代表的作業,最近の技術的方向性について述べる。
また,様々な形態のベンチマークデータセットについて比較結果を示す。
さらに,今後の課題と今後の課題についても考察する。 AI-generated content (AIGC) methods aim to produce text, images, videos, 3D assets, and other media using AI algorithms. Due to its wide range of applications and the demonstrated potential of recent works, AIGC developments have been attracting a lot of attention recently, and AIGC methods have been developed for various data modalities, such as image, video, text, 3D shape (as voxels, point clouds, meshes, and neural implicit fields), 3D scene, 3D human avatar (body and head), 3D motion, and audio -- each presenting different characteristics and challenges. Furthermore, there have also been many significant developments in cross-modality AIGC methods, where generative methods can receive conditioning input in one modality and produce outputs in another. Examples include going from various modalities to image, video, 3D shape, 3D scene, 3D avatar (body and head), 3D motion (skeleton and avatar), and audio modalities. In this paper, we provide a comprehensive review of AIGC methods across different data modalities, including both single-modal and cross-modality methods, highlighting the various challenges, representative works, and recent technical directions in each setting. We also present comparative results on several benchmark datasets in various modalities. Moreover, we also discuss the challenges and potential future research directions. | 翻訳日:2023-08-29 16:24:59 公開日:2023-08-27 |
# コンポーネント分類器の線形独立性を活用したオンラインアンサンブルのサイズと予測精度の最適化 Leveraging Linear Independence of Component Classifiers: Optimizing Size and Prediction Accuracy for Online Ensembles ( http://arxiv.org/abs/2308.14175v1 ) ライセンス: Link先を確認 | Enes Bektas and Fazli Can | (参考訳) 分類精度を高めるために一連の分類器を使用するアンサンブルは、ビッグデータの時代において不可欠である。
しかし、アンサンブルサイズとその予測精度の関係については一般的な合意があるものの、この関係の正確な性質は不明である。
本稿では,分類器の票の線形独立性に根ざした新しい視点を導入し,アンサンブルサイズと予測精度の相互作用を解析した。
この枠組みは理論的リンクを示し、その結果、この関係に基づくアンサンブルサイズを提案する。
本研究は幾何学的枠組みを基盤とし,一連の定理を展開する。
これらの定理は、工芸アンサンブルにおける線形依存の役割を明らかにする。
本稿では,コンポーネント分類器間の線形独立投票の目標確率を確保するために必要な最小アンサンブルサイズを決定する手法を提案する。
実データと合成データを組み込んだ実験結果から, 分類器の数の増加は, 理論的な洞察によって予測される精度を高めるという傾向を示した。
しかし、我々はまた、追加の分類器によって精度が低下する、リターンが減少するポイントを特定する。
驚くべきことに、計算された理想アンサンブルサイズは、あるデータセットに対する経験的な結果から逸脱し、他の要因の影響を強調している。
本研究は, アンサンブル設計を規定する複雑な力学に関する深い研究の道を開き, 実践シナリオにおける効率的かつ効果的なアンサンブル構築のためのガイダンスを提供する。 Ensembles, which employ a set of classifiers to enhance classification accuracy collectively, are crucial in the era of big data. However, although there is general agreement that the relation between ensemble size and its prediction accuracy, the exact nature of this relationship is still unknown. We introduce a novel perspective, rooted in the linear independence of classifier's votes, to analyze the interplay between ensemble size and prediction accuracy. This framework reveals a theoretical link, consequently proposing an ensemble size based on this relationship. Our study builds upon a geometric framework and develops a series of theorems. These theorems clarify the role of linear dependency in crafting ensembles. We present a method to determine the minimum ensemble size required to ensure a target probability of linearly independent votes among component classifiers. Incorporating real and synthetic datasets, our empirical results demonstrate a trend: increasing the number of classifiers enhances accuracy, as predicted by our theoretical insights. However, we also identify a point of diminishing returns, beyond which additional classifiers provide diminishing improvements in accuracy. Surprisingly, the calculated ideal ensemble size deviates from empirical results for certain datasets, emphasizing the influence of other factors. This study opens avenues for deeper investigations into the complex dynamics governing ensemble design and offers guidance for constructing efficient and effective ensembles in practical scenarios. | 翻訳日:2023-08-29 16:24:34 公開日:2023-08-27 |
# gearbox 故障診断の総合的アプローチ Integrated Approach of Gearbox Fault Diagnosis ( http://arxiv.org/abs/2308.14174v1 ) ライセンス: Link先を確認 | Vikash Kumar, Subrata Mukherjee and Somnath Sarangi | (参考訳) Gearboxの故障診断は、あらゆる産業システムにおいて最も重要な部分の1つである。
ギアボックス内の部品の故障は、破滅的な失敗、不均一な破壊、産業組織における財政的損失につながる可能性がある。
この場合、ギアボックスのインテリジェントなメンテナンスがコンテキストに入ります。
本稿では,オンライン状態監視で容易にデプロイ可能なgearbox障害診断手法を提案する。
本研究は,非パラメトリックデータプリプロセッシング手法である計算量拡張エネルギ演算子(ceeo)を導入し,雑音および推定された振動信号の特性周波数を保存する。
生及びCEEO振動信号から時間領域とスペクトル領域の一連の特徴を算出し、マルチクラス支持ベクトルマシン(MCSVM)に入力してシステム上の故障を診断する。
ギヤボックス故障診断におけるCEEOの影響を示すために, 生信号とCEEO信号の効果的な比較を行った。
この研究の結果は非常に有望に見え、非パラメトリックな性質のため、あらゆる種類の産業システムに実装することができる。 Gearbox fault diagnosis is one of the most important parts in any industrial systems. Failure of components inside gearbox can lead to a catastrophic failure, uneven breakdown, and financial losses in industrial organization. In that case intelligent maintenance of the gearbox comes into context. This paper presents an integrated gearbox fault diagnosis approach which can easily deploy in online condition monitoring. This work introduces a nonparametric data preprocessing technique i.e., calculus enhanced energy operator (CEEO) to preserve the characteristics frequencies in the noisy and inferred vibrational signal. A set of time domain and spectral domain features are calculated from the raw and CEEO vibration signal and inputted to the multiclass support vector machine (MCSVM) to diagnose the faults on the system. An effective comparison between raw signal and CEEO signal are presented to show the impact of CEEO in gearbox fault diagnosis. The obtained results of this work look very promising and can be implemented in any type of industrial system due to its nonparametric nature. | 翻訳日:2023-08-29 16:24:11 公開日:2023-08-27 |
# マイクロ波光ベル対からの量子資源状態 Quantum Resource States from Heralded Microwave-Optical Bell Pairs ( http://arxiv.org/abs/2308.14173v1 ) ライセンス: Link先を確認 | Trond Hjerpekj{\o}n Haug, Anton Frisk Kockum and Rapha\"el Van Laer | (参考訳) 異なる量子ハードウェアコンポーネントの強みを活用することで、新興の量子プロセッサの能力を高めることができる。
本稿では,光のネットワーク性を活用する量子アーキテクチャと,超伝導回路が提供する量子制御を用いて,絡み合ったフォトニック資源状態を生成することを提案する。
超伝導プロセッサ間の絡み合いの分散に関する従来の提案とは対照的に,マイクロ波と光の絡み合いを利用して,単一超伝導プロセッサからのデュアルレール符号化でマイクロ波-光ベル対を生成する。
さらに、超伝導プロセッサにより、マイクロ波-光ベル対をより大きなクラスター状態に決定的に絡み合わせることができ、そこから測定により光子を抽出することができる。
提案方式は,小型超伝導プロセッサがフォールトトレラント核融合ネットワークやクラスター状態に対してフォトニック資源状態を生成する方法である。
我々は、超伝導プロセッサを成層光学場から分離することで、現在利用可能なハードウェアを用いてこのスキームを実証できることを期待している。 Exploiting the strengths of different quantum hardware components may enhance the capabilities of emerging quantum processors. Here, we propose and analyze a quantum architecture that leverages the networkability of optics, along with the exquisite quantum control offered by superconducting circuits, to produce entangled photonic resource states. Contrary to previous proposals on distributing entanglement between superconducting processors, we use entanglement between microwaves and optics to produce microwave-optical Bell pairs in a dual-rail encoding from a single superconducting processor. Moreover, the superconducting processor allows us to deterministically entangle microwave-optical Bell pairs into larger cluster states, from which entangled optical photons can be extracted through measurements. Our scheme paves the way for small superconducting processors to create photonic resource states for fault-tolerant fusion networks or cluster states. We expect that improved isolation of the superconducting processor from stray optical fields will allow the scheme to be demonstrated using currently available hardware. | 翻訳日:2023-08-29 16:23:54 公開日:2023-08-27 |
# スムーズな事前データからのハイパーグラフ構造推定 Hypergraph Structure Inference From Data Under Smoothness Prior ( http://arxiv.org/abs/2308.14172v1 ) ライセンス: Link先を確認 | Bohan Tang, Siheng Chen, Xiaowen Dong | (参考訳) ハイパーグラフは、2つ以上のエンティティを含む高次関係を持つデータを処理する上で重要である。
明示的なハイパーグラフが容易に利用できないシナリオでは、ノードの特徴から有意義なハイパーグラフ構造を推測し、データ内の内在的な関係を捉えることが望ましい。
しかしながら、既存の手法では、潜在的なハイパーグラフ構造の分布を正確に把握できない単純な事前定義ルールを採用するか、ハイパーグラフ構造とノード特徴のマッピングを学ぶか、トレーニングのために大量のラベル付きデータ、すなわち既存のハイパーグラフ構造が必要となる。
どちらも実用的なシナリオでアプリケーションを制限する。
このギャップを埋めるために,ラベル付きデータを監視対象とせずに,各潜在的なハイパーエッジの確率を推定する手法を設計できる新しいスムーズさを提案する。
提案手法により,ハイパーエッジのノードの特徴は,それらを含むハイパーエッジの特徴と強く相関していることがわかった。
本稿では,この手法を用いてハイパーグラフ構造とノード特徴の関係を確率論的モデリングにより導出する。
これにより,解析解を持つ最適化問題を解くことにより,各ポテンシャルハイパーエッジの確率を推定する教師なし推論手法を開発することができる。
本手法は,既存のハイパーグラフ構造推定法よりも効率的にデータから有意義なハイパーグラフ構造を学習できることを示す。 Hypergraphs are important for processing data with higher-order relationships involving more than two entities. In scenarios where explicit hypergraphs are not readily available, it is desirable to infer a meaningful hypergraph structure from the node features to capture the intrinsic relations within the data. However, existing methods either adopt simple pre-defined rules that fail to precisely capture the distribution of the potential hypergraph structure, or learn a mapping between hypergraph structures and node features but require a large amount of labelled data, i.e., pre-existing hypergraph structures, for training. Both restrict their applications in practical scenarios. To fill this gap, we propose a novel smoothness prior that enables us to design a method to infer the probability for each potential hyperedge without labelled data as supervision. The proposed prior indicates features of nodes in a hyperedge are highly correlated by the features of the hyperedge containing them. We use this prior to derive the relation between the hypergraph structure and the node features via probabilistic modelling. This allows us to develop an unsupervised inference method to estimate the probability for each potential hyperedge via solving an optimisation problem that has an analytical solution. Experiments on both synthetic and real-world data demonstrate that our method can learn meaningful hypergraph structures from data more efficiently than existing hypergraph structure inference methods. | 翻訳日:2023-08-29 16:23:37 公開日:2023-08-27 |
# スレートレコメンデーションのための分布的オフポリシー評価 Distributional Off-Policy Evaluation for Slate Recommendations ( http://arxiv.org/abs/2308.14165v1 ) ライセンス: Link先を確認 | Shreyas Chaudhari, David Arbour, Georgios Theocharous, Nikos Vlassis | (参考訳) 勧告戦略は、通常、事前に記録されたデータを用いて評価され、期待されるパフォーマンスを見積もるために、政外評価手法を用いる。
しかし、複数の項目のスレートをユーザに提供する戦略では、結果として生じる組合せアクション空間は、これらの手法の多くを実用的でないものにしている。
以前の研究では、スレートの構造を利用して期待外のパフォーマンスを推定する推定器を開発したが、全体のパフォーマンス分布の推定はいまだに解明されていない。
完全な分布の推定は、特に分布から計算可能なメトリクスを使用するリスクと公平の軸に沿って、推奨戦略をより包括的に評価することができる。
本稿では,スレートの完全なオフポリシー性能分布に対する推定器を提案し,推定器が偏りなく一貫性のない条件を定式化する。
これは強化学習におけるスレートのオフポリシー評価とオフポリシー分布推定の先行研究に基づいている。
実世界のデータから構築したスレートレコメンデーションシミュレータ(MovieLens-20M)において,本手法の有効性を実証的に検証した。
その結果,スレート構造にまたがる先行作業よりも,推定ばらつきが著しく低減し,試料効率が向上した。 Recommendation strategies are typically evaluated by using previously logged data, employing off-policy evaluation methods to estimate their expected performance. However, for strategies that present users with slates of multiple items, the resulting combinatorial action space renders many of these methods impractical. Prior work has developed estimators that leverage the structure in slates to estimate the expected off-policy performance, but the estimation of the entire performance distribution remains elusive. Estimating the complete distribution allows for a more comprehensive evaluation of recommendation strategies, particularly along the axes of risk and fairness that employ metrics computable from the distribution. In this paper, we propose an estimator for the complete off-policy performance distribution for slates and establish conditions under which the estimator is unbiased and consistent. This builds upon prior work on off-policy evaluation for slates and off-policy distribution estimation in reinforcement learning. We validate the efficacy of our method empirically on synthetic data as well as on a slate recommendation simulator constructed from real-world data (MovieLens-20M). Our results show a significant reduction in estimation variance and improved sample efficiency over prior work across a range of slate structures. | 翻訳日:2023-08-29 16:23:14 公開日:2023-08-27 |
# 属性と関係性に基づくミス近くの説明--痛みと嫌悪感の表情を区別する解釈可能なアプローチ Explaining with Attribute-based and Relational Near Misses: An Interpretable Approach to Distinguishing Facial Expressions of Pain and Disgust ( http://arxiv.org/abs/2308.14163v1 ) ライセンス: Link先を確認 | Bettina Finzel and Simon P. Kuhn and David E. Tafler and Ute Schmid | (参考訳) 例を対比して概念を説明することは、分類決定の背景にある理由を理解するための効率的で便利な方法である。
これは特に医学診断のような決定クリティカルな領域に関心がある。
特に難しいユースケースは、症状の類似度が高いため、痛みやその他の状態(例えば嫌悪感)の表情を区別することである。
本稿では, 痛みと嫌悪感の表情をビデオシーケンスで説明するために, 対照的な説明を生成するアプローチを提案する。
対照的説明生成のための2つのアプローチを実装し,比較する。
第1のアプローチは、表情(属性)の発生に基づいて、最も類似した嫌悪例とは対照的に、特定の痛みの例を説明する。
第2のアプローチは、シーケンス(関係)内の表情の間隔の間の時間的関係を考慮に入れる。
説明生成手法の入力は、痛みと嫌悪に対する解釈可能なルールベースの分類器の出力であり、2つの異なる類似度指標を用いて、近距離ミスと遠距離ミスをコントラストインスタンスとして決定する。
以上の結果から,適用された類似度指標とは無関係に,近ミス説明は遠ミス説明よりも短いことが明らかとなった。
評価の結果,痛みと嫌悪感は時間的関係の助けを借りて区別できることが示唆された。
我々は現在,その説明が概念を教える上でどのように役立つか,さらに様相や相互作用によってどのように強化されるかを評価する実験を計画している。 Explaining concepts by contrasting examples is an efficient and convenient way of giving insights into the reasons behind a classification decision. This is of particular interest in decision-critical domains, such as medical diagnostics. One particular challenging use case is to distinguish facial expressions of pain and other states, such as disgust, due to high similarity of manifestation. In this paper, we present an approach for generating contrastive explanations to explain facial expressions of pain and disgust shown in video sequences. We implement and compare two approaches for contrastive explanation generation. The first approach explains a specific pain instance in contrast to the most similar disgust instance(s) based on the occurrence of facial expressions (attributes). The second approach takes into account which temporal relations hold between intervals of facial expressions within a sequence (relations). The input to our explanation generation approach is the output of an interpretable rule-based classifier for pain and disgust.We utilize two different similarity metrics to determine near misses and far misses as contrasting instances. Our results show that near miss explanations are shorter than far miss explanations, independent from the applied similarity metric. The outcome of our evaluation indicates that pain and disgust can be distinguished with the help of temporal relations. We currently plan experiments to evaluate how the explanations help in teaching concepts and how they could be enhanced by further modalities and interaction. | 翻訳日:2023-08-29 16:22:54 公開日:2023-08-27 |
# ハイブリッドdc/rf光励起磁気センサによるマルチパラメータ量子センシングと磁気通信 Multi-parameter quantum sensing and magnetic communications with a hybrid dc/rf optically-pumped magnetometer ( http://arxiv.org/abs/2308.14214v1 ) ライセンス: Link先を確認 | Micha{\l} Lipka, Aleksandra Sierant, Charikleia Troullinou, Morgan Mitchell | (参考訳) 1つのdc磁場成分と1つのrf磁場成分を1つの原子スピンアンサンブルで同時に測定するハイブリッド光ポンピング磁気センサ(hOPM)を導入する。
hopm は dc フィールドと rf フィールドの両方に対して sub-pt/$\sqrt{\mathrm{hz}}$ の感度を達成し、低周波でのスピン投影ノイズと高周波数でのフォトンショットノイズによって感度が制限される。
我々はhOPMでマルチパラメータ量子センシングの新しい応用であるバックグラウンドキャンセリング拡散スペクトル磁気通信を実証する。
ディジタルメッセージをrf振幅として符号化し、雑音の強い磁気環境下で16極低周波および低周波チャネルに拡散し、量子ノイズ制限dcノイズキャンセリングによって可能となる量子ノイズ制限rf磁気信号回復を観測し、0si{100}{\decibel} における \si{15}{\decibel} のノイズ拒否と、0si{60}{\hertz} 以下での \si{20}{\decibel} 以上に到達する。
デジタル符号化されたテキストの通信において信号強度と信号強度と外部雑音とを計測する。
高感度、量子ノイズ制限性能、実世界の応用ポテンシャルの組み合わせにより、hOPMは高性能なマルチパラメータ量子センシングを研究する理想的なシステムとなる。 We introduce and demonstrate a hybrid optically-pumped magnetometer (hOPM) that simultaneously measures one dc field component and one rf field component quadrature with a single atomic spin ensemble. The hOPM achieves sub-pT/$\sqrt{\mathrm{Hz}}$ sensitivity for both dc and rf fields, and is limited in sensitivity by spin projection noise at low frequencies and by photon shot noise at high frequencies. We demonstrate with the hOPM a new application of multi-parameter quantum sensing: background-cancelling spread spectrum magnetic communication. We encode a digital message as rf amplitude, spread among sixteen very-low and low frequency channels in a noisy magnetic environment, and observe quantum-noise-limited rf magnetic signal recovery enabled by quantum-noise-limited dc noise cancellation, reaching noise rejection of \SI{15}{\decibel} at \SI{100}{\hertz} and more than \SI{20}{\decibel} at \SI{60}{\hertz} and below. We measure signal fidelity versus signal strength and extrinsic noise in communication of a digitally-encoded text message. The combination of high sensitivity, quantum-noise-limited performance, and real-world application potential makes the hOPM an ideal system in which to study high-performance multi-parameter quantum sensing. | 翻訳日:2023-08-29 16:17:57 公開日:2023-08-27 |
# 乳がん検出・分節のためのマルチタスクフレームワークにおけるBI-RADSディスクリプタのホック後説明可能性 Post-Hoc Explainability of BI-RADS Descriptors in a Multi-task Framework for Breast Cancer Detection and Segmentation ( http://arxiv.org/abs/2308.14213v1 ) ライセンス: Link先を確認 | Mohammad Karimzadeh, Aleksandar Vakanski, Min Xian, Boyu Zhang | (参考訳) 近年の医学的進歩にもかかわらず、乳がんは女性の中で最も一般的で致命的な疾患の1つである。
機械学習に基づくコンピュータ支援診断システム(CAD)は, 医用画像解析において放射線技師を支援する可能性を示しているが, 最良のCADシステムの不透明な性質は, 信頼性と解釈可能性に関する懸念を提起している。
本稿では,乳房超音波(BUS)画像における腫瘍検出のための新しい深層学習手法MT-BI-RADSを提案する。
このアプローチは、放射線科医が腫瘍悪性腫瘍の予測における意思決定過程を理解するための3段階の説明を提供する。
まず,BUS画像解析に用いるBI-RADSカテゴリを,放射線技師により出力する。
第二に、マルチタスク学習を用いて腫瘍に対応する画像の領域を同時分割する。
第3に,提案手法は,シェープリー値を用いたポストホックな説明を用いて,良性または悪性のクラスを予測するためのbi-radディスクリプタの定量化コントリビューションを出力する。 Despite recent medical advancements, breast cancer remains one of the most prevalent and deadly diseases among women. Although machine learning-based Computer-Aided Diagnosis (CAD) systems have shown potential to assist radiologists in analyzing medical images, the opaque nature of the best-performing CAD systems has raised concerns about their trustworthiness and interpretability. This paper proposes MT-BI-RADS, a novel explainable deep learning approach for tumor detection in Breast Ultrasound (BUS) images. The approach offers three levels of explanations to enable radiologists to comprehend the decision-making process in predicting tumor malignancy. Firstly, the proposed model outputs the BI-RADS categories used for BUS image analysis by radiologists. Secondly, the model employs multi-task learning to concurrently segment regions in images that correspond to tumors. Thirdly, the proposed approach outputs quantified contributions of each BI-RADS descriptor toward predicting the benign or malignant class using post-hoc explanations with Shapley Values. | 翻訳日:2023-08-29 16:17:17 公開日:2023-08-27 |
# 糖尿病網膜症における領域一般化におけるCLIPの伝達学習能力の検討 Exploring the Transfer Learning Capabilities of CLIP in Domain Generalization for Diabetic Retinopathy ( http://arxiv.org/abs/2308.14212v1 ) ライセンス: Link先を確認 | Sanoojan Baliah, Fadillah A. Maani, Santosh Sanjeev and Muhammad Haris Khan | (参考訳) 視覚障害の主な原因である糖尿病網膜症(dr)は早期発見と治療を必要とする。
dr分類のためのロバストなaiモデルの開発は、かなりの可能性を持っているが、データ分布の異なる未知の領域におけるそれらの一般化を保証することが重要な課題である。
そこで本研究では,DR分類の文脈において,ドメイン一般化(Domain Generalization, DG)と呼ばれるクロスドメインの一般化について検討する。
医学領域における課題であるDGは、患者の人口統計や病期など、さまざまな領域でラベル付きデータを収集することの難しさによって複雑である。
最近の研究では、自然画像におけるDG問題にCLIPを用いることの有効性が示されている。
本研究では,糖尿病網膜症(DR)分類におけるCLIPの伝達学習能力とそのドメイン間一般化の可能性について検討した。
DR分類におけるDGに対するCLIPの有効性と可能性を評価するための総合的な実験を行った。
さらに,視覚的特徴の条件付けによるコンテキスト最適化を強化する,コンテキスト最適化と学習可能な視覚トークン(CoOpLVT)と呼ばれるマルチモーダル微調整戦略を導入する。
その結果,本手法はベースラインよりもF1スコアを1.8%向上させ,DR分類におけるDGの有効性を明らかにした。
私たちのコードはhttps://github.com/Sanoojan/CLIP-DRDGで公開されています。 Diabetic Retinopathy (DR), a leading cause of vision impairment, requires early detection and treatment. Developing robust AI models for DR classification holds substantial potential, but a key challenge is ensuring their generalization in unfamiliar domains with varying data distributions. To address this, our paper investigates cross-domain generalization, also known as domain generalization (DG), within the context of DR classification. DG, a challenging problem in the medical domain, is complicated by the difficulty of gathering labeled data across different domains, such as patient demographics and disease stages. Some recent studies have shown the effectiveness of using CLIP to handle the DG problem in natural images. In this study, we investigate CLIP's transfer learning capabilities and its potential for cross-domain generalization in diabetic retinopathy (DR) classification. We carry out comprehensive experiments to assess the efficacy and potential of CLIP in addressing DG for DR classification. Further, we introduce a multi-modal fine-tuning strategy named Context Optimization with Learnable Visual Tokens (CoOpLVT), which enhances context optimization by conditioning on visual features. Our findings demonstrate that the proposed method increases the F1-score by 1.8% over the baseline, thus underlining its promise for effective DG in DR classification. Our code is publicly available at https://github.com/Sanoojan/CLIP-DRDG. | 翻訳日:2023-08-29 16:17:00 公開日:2023-08-27 |
# 予測スパース多様体変換 Predictive Sparse Manifold Transform ( http://arxiv.org/abs/2308.14207v1 ) ライセンス: Link先を確認 | Yujia Xie, Xinhui Li, Vince D. Calhoun | (参考訳) 自然力学の学習と予測のための最小主義的かつ解釈可能で生物学的に妥当な枠組みである予測スパース多様体変換(psmt)を提案する。
PSMTは、第1スパース符号化層が入力シーケンスを過剰辞書上のスパース係数として表現し、第2多様体学習層はスパース係数の位相的類似性と動的時間的線形性を捉える幾何学的埋め込み空間を学習する。
我々は,PSMTを自然なビデオデータセットに適用し,文脈変数,疎コーディングベース関数の数,トレーニングサンプルについて再現性能を評価する。
次に、埋め込み空間における動的位相構造を解釈する。
次に、PSMTを用いて、静的埋め込み空間を持つ2つのベースライン法と比較して、将来のフレームを予測する。
我々は,動的埋め込み空間を持つpsmtが静的ベースラインよりも優れた予測性能を実現することを実証する。
本研究は,PSMTが将来の視覚刺激の予測のための効率的な教師なし生成フレームワークであることを示す。 We present Predictive Sparse Manifold Transform (PSMT), a minimalistic, interpretable and biologically plausible framework for learning and predicting natural dynamics. PSMT incorporates two layers where the first sparse coding layer represents the input sequence as sparse coefficients over an overcomplete dictionary and the second manifold learning layer learns a geometric embedding space that captures topological similarity and dynamic temporal linearity in sparse coefficients. We apply PSMT on a natural video dataset and evaluate the reconstruction performance with respect to contextual variability, the number of sparse coding basis functions and training samples. We then interpret the dynamic topological organization in the embedding space. We next utilize PSMT to predict future frames compared with two baseline methods with a static embedding space. We demonstrate that PSMT with a dynamic embedding space can achieve better prediction performance compared to static baselines. Our work establishes that PSMT is an efficient unsupervised generative framework for prediction of future visual stimuli. | 翻訳日:2023-08-29 16:16:36 公開日:2023-08-27 |
# ロボット非依存スキルにおける知識表現とタスク計画の利用 : 接触の多いワイピングタスクの例 Using Knowledge Representation and Task Planning for Robot-agnostic Skills on the Example of Contact-Rich Wiping Tasks ( http://arxiv.org/abs/2308.14206v1 ) ライセンス: Link先を確認 | Matthias Mayr, Faseeh Ahmad, Alexander Duerr, Volker Krueger | (参考訳) アジャイル製造、産業4.0、ハイミックス・ローボリュームタスクへの移行には、柔軟性のあるロボットプログラミングソリューションが必要である。
しかし、ほとんどのデプロイされたロボットソリューションは静的にプログラムされ、強固な位置制御を使用するため、有用性は制限される。
本稿では、知識表現、タスク計画、および入力パラメータに基づくスキル実装の自動選択を利用した単一のロボットスキルを、異なる文脈で実行可能であることを示す。
スキルベースのコントロールプラットフォームは、異なるロボットシステム上で、接触の多いワイピングタスクでこれを可能にする。
このケーススタディでは、さまざまなキネマティック、グリッパータイプ、ベンダー、そして基本的に異なるコントロールインターフェースに対処する必要があります。
位置制御のUniversal Robots UR5e 6自由度ロボットアームとトルク制御のKUKAアイワ7自由度ロボットアームを搭載した移動体プラットフォームを用いて実験を行った。 The transition to agile manufacturing, Industry 4.0, and high-mix-low-volume tasks require robot programming solutions that are flexible. However, most deployed robot solutions are still statically programmed and use stiff position control, which limit their usefulness. In this paper, we show how a single robot skill that utilizes knowledge representation, task planning, and automatic selection of skill implementations based on the input parameters can be executed in different contexts. We demonstrate how the skill-based control platform enables this with contact-rich wiping tasks on different robot systems. To achieve that in this case study, our approach needs to address different kinematics, gripper types, vendors, and fundamentally different control interfaces. We conducted the experiments with a mobile platform that has a Universal Robots UR5e 6 degree-of-freedom robot arm with position control and a 7 degree-of-freedom KUKA iiwa with torque control. | 翻訳日:2023-08-29 16:16:19 公開日:2023-08-27 |
# シンボリックと言語非依存の大型言語モデル Symbolic and Language Agnostic Large Language Models ( http://arxiv.org/abs/2308.14199v1 ) ライセンス: Link先を確認 | Walid S. Saba | (参考訳) 大規模言語モデル(llm)の相対的成功は、シンボリック対サブシンボリックな議論の反映ではなく、大規模言語のボトムアップリバースエンジニアリングの適切な戦略を採用することへの反映であると主張する。
しかし、これらのモデルの象徴的な性質のため、これらのシステムが言語について取得した知識は、常に数百万のマイクロ・フェース(ウェイト)に埋もれてしまう。
さらに、その確率的性質のため、これらのモデルは、自然言語で広く見られる様々な推論的な側面を捉えることに失敗する。
ここでの示唆は、ボトムアップ戦略を象徴的な環境で成功させ、象徴的で言語に依存しない、オントロジ的に根ざした大きな言語モデルを生み出すことである。 We argue that the relative success of large language models (LLMs) is not a reflection on the symbolic vs. subsymbolic debate but a reflection on employing an appropriate strategy of bottom-up reverse engineering of language at scale. However, due to the subsymbolic nature of these models whatever knowledge these systems acquire about language will always be buried in millions of microfeatures (weights) none of which is meaningful on its own. Moreover, and due to their stochastic nature, these models will often fail in capturing various inferential aspects that are prevalent in natural language. What we suggest here is employing the successful bottom-up strategy in a symbolic setting, producing symbolic, language agnostic and ontologically grounded large language models. | 翻訳日:2023-08-29 16:15:58 公開日:2023-08-27 |
# SketchDreamer:インタラクティブテキスト強化クリエイティヴ・スケッチ・アイデア SketchDreamer: Interactive Text-Augmented Creative Sketch Ideation ( http://arxiv.org/abs/2308.14191v1 ) ライセンス: Link先を確認 | Zhiyu Qu and Tao Xiang and Yi-Zhe Song | (参考訳) 人工知能生成コンテンツ(AIGC)は、現実的な画像の生成において顕著な進歩を見せている。
しかし,本論文では,人間のスケッチの最も初歩的な視覚的モダリティに対して,AIGCを「後方」に進める。
私たちの目標はスケッチの創造性であり、創造的なスケッチはインタラクティブなプロセスの形をとるべきです。
さらに,テキストがスケッチのイデオレーションプロセスを駆動し,クリエイティビティを自由に定義できると同時に,同時に「私はスケッチできない」という課題にも取り組みます。
本稿では,画像の画素表現を学習したテキスト条件拡散モデルを用いて,制御されたスケッチを生成する手法を提案する。
提案手法はsketchdreamerと呼ばれ,初期入力を最適化したベジエ曲線の微分可能なラステリザを統合し,事前学習した拡散モデルから抽象的意味知識を分離する。
スコア蒸留サンプリングを利用して、与えられたキャプションに合致したスケッチを学習し、テキストとスケッチの両方がイデオレーションプロセスと相互作用できるようにする。
我々の目的は,非専門的ユーザに対してスケッチ作成の権限を与え,一連の最適化プロセスを通じて,スケッチ入力を微調整しながらテキストプロンプトを拡張して物語をストーリーボードに変換することである。
この作業を通じて、視覚的コンテンツを創造し、創造的プロセスを民主化し、AIGCにおける人間の創造性を高めるためのさらなる研究を促したいと考えています。
コードは \url{https://github.com/winkawaks/sketchdreamer} で入手できる。 Artificial Intelligence Generated Content (AIGC) has shown remarkable progress in generating realistic images. However, in this paper, we take a step "backward" and address AIGC for the most rudimentary visual modality of human sketches. Our objective is on the creative nature of sketches, and that creative sketching should take the form of an interactive process. We further enable text to drive the sketch ideation process, allowing creativity to be freely defined, while simultaneously tackling the challenge of "I can't sketch". We present a method to generate controlled sketches using a text-conditioned diffusion model trained on pixel representations of images. Our proposed approach, referred to as SketchDreamer, integrates a differentiable rasteriser of Bezier curves that optimises an initial input to distil abstract semantic knowledge from a pretrained diffusion model. We utilise Score Distillation Sampling to learn a sketch that aligns with a given caption, which importantly enable both text and sketch to interact with the ideation process. Our objective is to empower non-professional users to create sketches and, through a series of optimisation processes, transform a narrative into a storyboard by expanding the text prompt while making minor adjustments to the sketch input. Through this work, we hope to aspire the way we create visual content, democratise the creative process, and inspire further research in enhancing human creativity in AIGC. The code is available at \url{https://github.com/WinKawaks/SketchDreamer}. | 翻訳日:2023-08-29 16:15:44 公開日:2023-08-27 |
# PET画像再構成のためのスコアベース生成モデル Score-Based Generative Models for PET Image Reconstruction ( http://arxiv.org/abs/2308.14190v1 ) ライセンス: Link先を確認 | Imraj RD Singh, Alexander Denker, Riccardo Barbano, \v{Z}eljko Kereta, Bangti Jin, Kris Thielemans, Peter Maass, Simon Arridge | (参考訳) スコアに基づく生成モデルは、磁気共鳴画像およびctにおける医用画像再構成タスクにおいて、非常に有望な結果を示している。
しかし、ポジトロン・エミッション・トモグラフィー(PET)への応用はいまだに未発見である。
pet画像再構成には多種多様な課題があり、高いばらつきと広いダイナミックレンジのポアソンノイズがある。
これらの課題に対処するために、PET固有のスコアベース生成モデルの適応法を提案する。
提案するフレームワークは, 2D PET と 3D PET の両方に対して開発された。
また,磁気共鳴画像を用いたガイド再構成の拡張も提供する。
病変のない患者実効的データを用いたモデルを用いて2dおよび3d$\textit{in-silico}$実験を行い,病変のないデータおよび病変の分布データの評価を行った。
提案手法のロバスト性およびPET再建における有意義な可能性を示す。 Score-based generative models have demonstrated highly promising results for medical image reconstruction tasks in magnetic resonance imaging or computed tomography. However, their application to Positron Emission Tomography (PET) is still largely unexplored. PET image reconstruction involves a variety of challenges, including Poisson noise with high variance and a wide dynamic range. To address these challenges, we propose several PET-specific adaptations of score-based generative models. The proposed framework is developed for both 2D and 3D PET. In addition, we provide an extension to guided reconstruction using magnetic resonance images. We validate the approach through extensive 2D and 3D $\textit{in-silico}$ experiments with a model trained on patient-realistic data without lesions, and evaluate on data without lesions as well as out-of-distribution data with lesions. This demonstrates the proposed method's robustness and significant potential for improved PET reconstruction. | 翻訳日:2023-08-29 16:15:09 公開日:2023-08-27 |
# 分光学における従来の知恵の定義:IBM量子のパワーナローイング Defying Conventional Wisdom in Spectroscopy: Power Narrowing on IBM Quantum ( http://arxiv.org/abs/2308.14187v1 ) ライセンス: Link先を確認 | Ivo S. Mihov and Nikolay V. Vitanov | (参考訳) 運動場の振幅が増加するにつれて、2状態の量子遷移のスペクトル線プロファイルを拡大する$-$は、分光においてよく知られ、徹底的に検討された現象である。
典型的には連続波駆動で発生し、放射場の強度が遷移の飽和強度を超えると増加する。
パルス場励起では、矩形側方形状のパルスに対して線形電力拡大が発生する。
滑らかな形状のパルスは、ガウスのパルス形状の対数運動など、はるかに少ない電力幅を示すことが知られている。
実験的に証明されていないが、$\sim |t|^{-\lambda}$として消滅するパルス形状は、駆動パルスの振幅が増大するにつれて後パルス遷移線幅が減少する、$-$のパワーを狭める逆効果を示す。
本研究は、IBM Quantumプロセッサ ibmq_manila 上のパワーオブローレンツパルス形状のクラスに対して、電力絞り実験を行った。
電力拡張パラダイムの完全な反転において、パルス領域を$\pi$から$7\pi$に増やす際に、ライン幅を10倍以上減少させるのが観察される。
さらに, パルス翼の停止に関する徹底的な理論的, 実験的研究を行い, 明示的な解析式を導出する未知のカットオフ拡大効果に対して, 最大値が$-$ に達することを防止した(小さい)パワー幅の項を導入する。
他のパワー拡張機構がない場合、ローレンツパルスは十分小さい値で切断され、所望の狭いラインプロファイルが得られる。 Power broadening $-$ the broadening of the spectral line profile of a two-state quantum transition as the amplitude of the driving field increases $-$ is a well-known and thoroughly examined phenomenon in spectroscopy. It typically occurs in continuous-wave driving when the intensity of the radiation field increases beyond the saturation intensity of the transition. In pulsed-field excitation, linear power broadening occurs for a pulse of rectangular temporal shape. Pulses with smooth shapes are known to exhibit much less power broadening, e.g. logarithmic for a Gaussian pulse shape. It has been predicted, but never experimentally verified, that pulse shapes which vanish in time as $\sim |t|^{-\lambda}$ should exhibit the opposite effect $-$ power narrowing $-$ in which the post-pulse transition line width decreases as the amplitude of the driving pulse increases. In this work, power narrowing is demonstrated experimentally for a class of powers-of-Lorentzian pulse shapes on the IBM Quantum processor ibmq_manila. Reduction of the line width by a factor of over 10 is observed when increasing the pulse area from $\pi$ to $7\pi$, in a complete reversal of the power broadening paradigm. Moreover, thorough theoretical and experimental study is conducted on the truncation of the pulse wings which introduces a (small) power-broadened term which prevents power narrowing from reaching extreme values $-$ a hitherto unknown cut-off broadening effect for which an explicit analytical formula is derived. In the absence of other power broadening mechanisms, Lorentzian pulses truncated at sufficiently small values can achieve as narrow line profiles as desired. | 翻訳日:2023-08-29 16:14:50 公開日:2023-08-27 |
# 翻訳追従実験による命令学習大言語モデルの言語間能力向上 Empowering Cross-lingual Abilities of Instruction-tuned Large Language Models by Translation-following demonstrations ( http://arxiv.org/abs/2308.14186v1 ) ライセンス: Link先を確認 | Leonardo Ranaldi, Giulia Pucci, Andre Freitas | (参考訳) 大言語モデル(llm)の言語能力は、事前学習データの分布が不均衡であるため、しばしば英語に対して不均衡である。
この格差は、LLMの言語横断能力のさらなる微調整および影響において要求される。
本稿では,英語以外の言語におけるインストラクションチューニング LLM (It-LLM) の強化について,意味的アライメントを構築することによって提案する。
そこで我々は,言語間のセマンティックアライメントを改善するために,言語間命令追従と翻訳追従のデモを行うI-LLMであるCrossAlpacaを提案する。
我々は,XQUAD と MLQA の多言語質問応答(QA)ベンチマークと MMLU と BBH の適応版について検証した。
私たちのモデルは6つの異なる言語でテストされ、モノリンガルデータでチューニングされたit-llmよりも優れています。
最終結果は、非英語データに対する命令チューニングが不十分であり、翻訳後デモにより意味的アライメントがさらに改善されることを示した。 The language ability of Large Language Models (LLMs) is often unbalanced towards English because of the imbalance in the distribution of the pre-training data. This disparity is demanded in further fine-tuning and affecting the cross-lingual abilities of LLMs. In this paper, we propose to empower Instructiontuned LLMs (It-LLMs) in languages other than English by building semantic alignment between them. Hence, we propose CrossAlpaca, an It-LLM with cross-lingual instruction-following and Translation-following demonstrations to improve semantic alignment between languages. We validate our approach on the multilingual Question Answering (QA) benchmarks XQUAD and MLQA and adapted versions of MMLU and BBH. Our models, tested over six different languages, outperform the It-LLMs tuned on monolingual data. The final results show that instruction tuning on non-English data is not enough and that semantic alignment can be further improved by Translation-following demonstrations. | 翻訳日:2023-08-29 16:13:49 公開日:2023-08-27 |
# ゲーム内行動と感情表現からプレイヤーの性格要因をモデル化する Modeling Player Personality Factors from In-Game Behavior and Affective Expression ( http://arxiv.org/abs/2308.14224v1 ) ライセンス: Link先を確認 | Reza Habibi, Johannes Pfau, Magy Seif El-Nasr | (参考訳) ターゲットのオーディエンス(あるいは個人)を徹底的に理解することは、成功の鍵となる要因である – これは、開発中のインフォームド意思決定の恩恵を受けるだけでなく、プレイ中のゲーム内容や難易度、プレイヤーエクスペリエンスを理想的に調整することのできる、ビデオゲームの領域において、極めて重要かつ強力なものだ。
個人のパーソナリティと選手間の差異の粒度評価は、非常に異質な人間性、心理的背景モデルの不一致、そして最も多く、長時間の消費と抑止のアンケートに基づいて構築される努力の多いデータ収集を考えると、特に困難な取り組みである。
本研究は,ゲーム内行動の記録から一連のプレイヤパーソナリティアンケート指標を予測し,その精度を高めることができるゲーム環境に感情的ダイアログ決定を明示的に付加することで関連作業を拡張する可能性を検討する。
ランダム・フォレスト・レグレッションを用いて,ロールプレイングゲーム「fallout: new vegas」のカスタマイズ版である60分間のゲームプレイから,62選手を対象に設定した7つのアンケートから,多種多様なパーソナリティ指標を推定した。
いくつかの人格変数は、ゲーム内アクションや感情表現から既に特定できるが、理論的背景文献では正当化できない、他者を予測する方法や疑問のある相関に遭遇する方法は見つからなかった。
しかし、この爆発的な研究の初期の機会を生かして、生態学的に有効な産業ゲーム環境からプレイヤーにデータセットを大規模に拡大し、より洗練された機械学習アプローチの性能を調査しようとしている。 Developing a thorough understanding of the target audience (and/or single individuals) is a key factor for success - which is exceptionally important and powerful for the domain of video games that can not only benefit from informed decision making during development, but ideally even tailor game content, difficulty and player experience while playing. The granular assessment of individual personality and differences across players is a particularly difficult endeavor, given the highly variant human nature, disagreement in psychological background models and because of the effortful data collection that most often builds upon long, time-consuming and deterrent questionnaires. In this work, we explore possibilities to predict a series of player personality questionnaire metrics from recorded in-game behavior and extend related work by explicitly adding affective dialog decisions to the game environment which could elevate the model's accuracy. Using random forest regression, we predicted a wide variety of personality metrics from seven established questionnaires across 62 players over 60 minute gameplay of a customized version of the role-playing game Fallout: New Vegas. While some personality variables could already be identified from reasonable underlying in-game actions and affective expressions, we did not find ways to predict others or encountered questionable correlations that could not be justified by theoretical background literature. Yet, building on the initial opportunities of this explorative study, we are striving to massively enlarge our data set to players from an ecologically valid industrial game environment and investigate the performance of more sophisticated machine learning approaches. | 翻訳日:2023-08-29 16:04:49 公開日:2023-08-27 |
# 大規模実世界データセットと周波数対応シャドウ消去ネットによる高分解能文書シャドウ除去 High-Resolution Document Shadow Removal via A Large-Scale Real-World Dataset and A Frequency-Aware Shadow Erasing Net ( http://arxiv.org/abs/2308.14221v1 ) ライセンス: Link先を確認 | Zinuo Li, Xuhang Chen, Chi-Man Pun, Xiaodong Cun | (参考訳) デジタルコピーの視覚的品質と可読性に影響を与えるカジュアルな機器で文書をキャプチャしたとき、しばしば影が発生する。
自然なシャドウ除去のアルゴリズムとは異なり、文書シャドウ除去のアルゴリズムはフォントや数字の詳細を高精細な入力で保存する必要がある。
これまでの作業はこの問題を無視し、実際の状況ではうまくいかないような、近似的な注意と小さなデータセットによって影を取り除く。
我々は,大規模実世界データセットと念入りに設計された周波数対応ネットワークを用いて,高解像度文書シャドー除去を直接処理する。
データセットについては、実世界の文書ペアの7k以上の高解像度画像(2462 x 3699)を異なる照明条件下で取得し、既存のデータセットの10倍の大きさである。
ネットワークの設計では、低周波の詳細と高周波境界を注意深く設計されたネットワーク構造を通して効果的に学習できる周波数領域の高解像度画像を分離する。
提案手法は,ネットワークとデータセットを駆使して,視覚品質と数値結果の面で,従来の手法よりも優れた性能を示す。
コード、モデル、データセットは、https://github.com/CXH-Research/DocShadow-SD7Kで入手できる。 Shadows often occur when we capture the documents with casual equipment, which influences the visual quality and readability of the digital copies. Different from the algorithms for natural shadow removal, the algorithms in document shadow removal need to preserve the details of fonts and figures in high-resolution input. Previous works ignore this problem and remove the shadows via approximate attention and small datasets, which might not work in real-world situations. We handle high-resolution document shadow removal directly via a larger-scale real-world dataset and a carefully designed frequency-aware network. As for the dataset, we acquire over 7k couples of high-resolution (2462 x 3699) images of real-world document pairs with various samples under different lighting circumstances, which is 10 times larger than existing datasets. As for the design of the network, we decouple the high-resolution images in the frequency domain, where the low-frequency details and high-frequency boundaries can be effectively learned via the carefully designed network structure. Powered by our network and dataset, the proposed method clearly shows a better performance than previous methods in terms of visual quality and numerical results. The code, models, and dataset are available at: https://github.com/CXH-Research/DocShadow-SD7K | 翻訳日:2023-08-29 16:04:19 公開日:2023-08-27 |
# ガウス過程に基づくグローバル感性分析のためのアクティブラーニングについて On Active Learning for Gaussian Process-based Global Sensitivity Analysis ( http://arxiv.org/abs/2308.14220v1 ) ライセンス: Link先を確認 | Mohit Chauhan, Mariel Ojeda-Tuz, Ryan Catarelli, Kurtis Gurley, Dimitrios Tsapetis, Michael D. Shields | (参考訳) 本稿では,グローバル感度分析のためのsobol指標を適応的に学習するためのアクティブラーニング戦略の応用について検討する。
ガウス過程から推定される分散の比率として, sobol指数を定義することで, sobolインデックスのアクティブラーニングがユニークな課題となることを示す。
したがって、学習戦略は、この比率の分母または分母の収束に焦点を合わせなければならない。
しかし、どちらの場合も急速な収束はsobol指数の収束を保証しない。
本稿では,ガウス過程(ソボル指数の数値化と関連する)の主作用を解明することに焦点を当てたアクティブラーニングの新たな戦略を提案し,これを全分散の収束(ソボル指数の分母)に基づく既存戦略と比較する。
MUSIC(Sobol index convergence における不確実性を最小化する)と呼ばれる新たな学習機能によって実現された新たな戦略は、一般的に、期待されるグローバルフィットの改善(EIGF)とグローバルフィットの分散改善(VIGF)に基づいて、既存の戦略よりも高速にソボインデックスエラーに収束する。
どちらの戦略も単純な逐次ランダムサンプリングと比較され、音楽学習関数は一般に低次元問題に対して最も急速に収束する。
しかし、高次元問題の場合、その性能はランダムサンプリングに匹敵する。
大規模境界層風洞実験のための適応型実験設計を実践例として,新しい学習戦略を実証した。 This paper explores the application of active learning strategies to adaptively learn Sobol indices for global sensitivity analysis. We demonstrate that active learning for Sobol indices poses unique challenges due to the definition of the Sobol index as a ratio of variances estimated from Gaussian process surrogates. Consequently, learning strategies must either focus on convergence in the numerator or the denominator of this ratio. However, rapid convergence in either one does not guarantee convergence in the Sobol index. We propose a novel strategy for active learning that focuses on resolving the main effects of the Gaussian process (associated with the numerator of the Sobol index) and compare this with existing strategies based on convergence in the total variance (the denominator of the Sobol index). The new strategy, implemented through a new learning function termed the MUSIC (minimize uncertainty in Sobol index convergence), generally converges in Sobol index error more rapidly than the existing strategies based on the Expected Improvement for Global Fit (EIGF) and the Variance Improvement for Global Fit (VIGF). Both strategies are compared with simple sequential random sampling and the MUSIC learning function generally converges most rapidly for low-dimensional problems. However, for high-dimensional problems, the performance is comparable to random sampling. The new learning strategy is demonstrated for a practical case of adaptive experimental design for large-scale Boundary Layer Wind Tunnel experiments. | 翻訳日:2023-08-29 16:03:55 公開日:2023-08-27 |
# 知識グラフの世代:クレイジーなアイデアとビジネスへの影響 Generations of Knowledge Graphs: The Crazy Ideas and the Business Impact ( http://arxiv.org/abs/2308.14217v1 ) ライセンス: Link先を確認 | Xin Luna Dong | (参考訳) 知識グラフ(KG)は、Web検索からパーソナルアシスタントまで、幅広いアプリケーションをサポートするために使われてきた。
本稿では3世代にわたる知識グラフについて述べる: 一般検索と質問応答をサポートするエンティティベースkgs(例えばgoogleとbing)、製品やバイオインフォマティクスなどの検索と推奨をサポートするテキストリッチkgs(例えばamazonやalibaba)、そして私たちがデュアルニューラルkgと呼んでいるkgsとllmsの統合である。
我々は,各世代のKGの特性,そのようなKGの構築の背景にあるクレイジーなアイデア,そして業界への影響を生かした技術について述べる。
さらに、kgsを例として、イノベーションからプロダクションプラクティス、そして次のレベルのイノベーションへと研究のアイデアを進化させ、科学とビジネスの両方を前進させるためのレシピを示します。 Knowledge Graphs (KGs) have been used to support a wide range of applications, from web search to personal assistant. In this paper, we describe three generations of knowledge graphs: entity-based KGs, which have been supporting general search and question answering (e.g., at Google and Bing); text-rich KGs, which have been supporting search and recommendations for products, bio-informatics, etc. (e.g., at Amazon and Alibaba); and the emerging integration of KGs and LLMs, which we call dual neural KGs. We describe the characteristics of each generation of KGs, the crazy ideas behind the scenes in constructing such KGs, and the techniques developed over time to enable industry impact. In addition, we use KGs as examples to demonstrate a recipe to evolve research ideas from innovations to production practice, and then to the next level of innovations, to advance both science and business. | 翻訳日:2023-08-29 16:03:32 公開日:2023-08-27 |
# 行政保健記録のための機械学習:技術と応用の体系的レビュー Machine Learning for Administrative Health Records: A Systematic Review of Techniques and Applications ( http://arxiv.org/abs/2308.14216v1 ) ライセンス: Link先を確認 | Adrian Caruana, Madhushi Bandara, Katarzyna Musial, Daniel Catchpoole, Paul J. Kennedy | (参考訳) 機械学習は、異種電子健康記録(EHR)を分析するための強力で効果的な多くの技術を提供する。
管理健康記録(Administrative Health Records, AHR)は、管理目的のために収集されたEHRのサブセットであり、AHRにおける機械学習の使用は、EHR分析のサブフィールドとして成長している。
EHR分析の既存のレビューでは、EHRのデータモダリティは適切な機械学習技術の幅を制限し、パース可能な医療応用を規定している。
データモダリティの重要性を強調しているにもかかわらず、文献はどの技術や応用がAHRに関連するかを分析することができない。
AHRには、EHRが取得した他のデータモダリティとは異なる、一意に構造化され分類的に符号化された記録が含まれており、患者が医療システムとどのように相互作用するかに関する貴重な情報を提供することができる。
本稿では、AHRに基づく研究を体系的にレビューし、70の関連研究を分析し、複数のデータベースにまたがる。
我々は、AHRにどのような機械学習技術が適用されるかを特定し、分析し、AHRに基づく研究で健康情報学の応用を追求する。
また、これらの手法が各アプリケーションにどのように適用されるのかを分析し、これらのアプローチの限界を特定する。
AHRに基づく研究は互いに切り離されているが、健康情報学研究におけるAHRの利用は著しく加速している。
これらの研究の合成は、データや技術に基づく多くの制限にもかかわらず、ますます複雑で多様な研究目的を追求するためのAHRの有用性を強調している。
最後に,本研究では,健康情報学研究におけるahrデータと機械学習技術の有用性を高めるための今後の研究指針を提案する。 Machine learning provides many powerful and effective techniques for analysing heterogeneous electronic health records (EHR). Administrative Health Records (AHR) are a subset of EHR collected for administrative purposes, and the use of machine learning on AHRs is a growing subfield of EHR analytics. Existing reviews of EHR analytics emphasise that the data-modality of the EHR limits the breadth of suitable machine learning techniques, and pursuable healthcare applications. Despite emphasising the importance of data modality, the literature fails to analyse which techniques and applications are relevant to AHRs. AHRs contain uniquely well-structured, categorically encoded records which are distinct from other data-modalities captured by EHRs, and they can provide valuable information pertaining to how patients interact with the healthcare system. This paper systematically reviews AHR-based research, analysing 70 relevant studies and spanning multiple databases. We identify and analyse which machine learning techniques are applied to AHRs and which health informatics applications are pursued in AHR-based research. We also analyse how these techniques are applied in pursuit of each application, and identify the limitations of these approaches. We find that while AHR-based studies are disconnected from each other, the use of AHRs in health informatics research is substantial and accelerating. Our synthesis of these studies highlights the utility of AHRs for pursuing increasingly complex and diverse research objectives despite a number of pervading data- and technique-based limitations. Finally, through our findings, we propose a set of future research directions that can enhance the utility of AHR data and machine learning techniques for health informatics research. | 翻訳日:2023-08-29 16:03:12 公開日:2023-08-27 |
# TimeTrail: 時間相関分析による金融詐欺パターンの解明 TimeTrail: Unveiling Financial Fraud Patterns through Temporal Correlation Analysis ( http://arxiv.org/abs/2308.14215v1 ) ライセンス: Link先を確認 | Sushrut Ghimire | (参考訳) 金融不正検出の分野では、効果的で信頼性の高いシステムを確保するためには、基盤となるパターンとダイナミクスを理解することが重要である。
本研究では,複雑な金融詐欺パターンを説明するために,時間相関分析を用いた新しい手法"timetrail"を提案する。
この技術は、時間に関する洞察を活用し、不正検出決定の透明性と解釈可能な説明を提供し、説明責任と信頼を高める。
timetrail" の方法論は,時間的データエンリッチメント,動的相関解析,解釈可能なパターン視覚化という3つの重要なフェーズで構成されている。
当初、生の金融取引データは時間属性で豊かになる。
これらの属性間の動的相関は、革新的統計量を用いて定量化される。
最後に、統一可視化フレームワークは、これらの相関を解釈可能な方法で提示する。
TimeTrail の有効性を検証するため,様々な不正シナリオを取り巻く多様な財務データセットを用いて調査を行った。
その結果, 時間的相関やパターンを隠蔽し, 精度と解釈可能性の両面で従来の手法より優れていることを示す。
さらに、リアルタイムシナリオにおける"TimeTrail"の適用を示すケーススタディでは、不正検出の実用性を強調している。 In the field of financial fraud detection, understanding the underlying patterns and dynamics is important to ensure effective and reliable systems. This research introduces a new technique, "TimeTrail," which employs advanced temporal correlation analysis to explain complex financial fraud patterns. The technique leverages time-related insights to provide transparent and interpretable explanations for fraud detection decisions, enhancing accountability and trust. The "TimeTrail" methodology consists of three key phases: temporal data enrichment, dynamic correlation analysis, and interpretable pattern visualization. Initially, raw financial transaction data is enriched with temporal attributes. Dynamic correlations between these attributes are then quantified using innovative statistical measures. Finally, a unified visualization framework presents these correlations in an interpretable manner. To validate the effectiveness of "TimeTrail," a study is conducted on a diverse financial dataset, surrounding various fraud scenarios. Results demonstrate the technique's capability to uncover hidden temporal correlations and patterns, performing better than conventional methods in both accuracy and interpretability. Moreover, a case study showcasing the application of "TimeTrail" in real-world scenarios highlights its utility for fraud detection. | 翻訳日:2023-08-29 16:02:45 公開日:2023-08-27 |
# FFEINR:時空間超解像のためのフロー特徴強調インシシットニューラル表現法 FFEINR: Flow Feature-Enhanced Implicit Neural Representation for Spatio-temporal Super-Resolution ( http://arxiv.org/abs/2308.12508v2 ) ライセンス: Link先を確認 | Chenyue Jiao, Chongke Bi and Lu Yang | (参考訳) 大規模な数値シミュレーションはテラバイトやペタバイトまでデータを生成することができる。
データ削減の有望な方法として、超解像(SR)は科学的な可視化コミュニティで広く研究されている。
しかし、そのほとんどは深層畳み込みニューラルネットワーク(CNN)やGAN(Generative Adversarial Network)に基づいており、ネットワークを構築する前にスケール係数を決定する必要がある。
結果として、単一のトレーニングセッションは固定要素のみをサポートし、一般化能力が劣る。
これらの問題に対処するために,フローフィールドデータの時空間超解像のための特徴強調インプリシトニューラルネットワーク表現(FFEINR)を提案する。
モデル構造とサンプリング解像度の観点から、暗黙的な神経表現を最大限に活用することができる。
ニューラル表現は、周期的活性化関数を備えた完全連結ネットワークに基づいており、軽量なモデルを得ることができる。
学習された連続表現は、低解像度フローフィールド入力データを任意の空間的および時間的解像度にデコードし、柔軟なアップサンプリングを可能にする。
FFEINRのトレーニングプロセスは、フローフィールドのコンテキスト情報を補完する入力層の特徴強化を導入することで容易になる。
提案手法の有効性を示すために,複数のハイパーパラメータを設定し,異なるデータセット上で一連の実験を行った。
その結果,FFEINRはトリリニア補間法よりも有意に良好な結果が得られた。 Large-scale numerical simulations are capable of generating data up to terabytes or even petabytes. As a promising method of data reduction, super-resolution (SR) has been widely studied in the scientific visualization community. However, most of them are based on deep convolutional neural networks (CNNs) or generative adversarial networks (GANs) and the scale factor needs to be determined before constructing the network. As a result, a single training session only supports a fixed factor and has poor generalization ability. To address these problems, this paper proposes a Feature-Enhanced Implicit Neural Representation (FFEINR) for spatio-temporal super-resolution of flow field data. It can take full advantage of the implicit neural representation in terms of model structure and sampling resolution. The neural representation is based on a fully connected network with periodic activation functions, which enables us to obtain lightweight models. The learned continuous representation can decode the low-resolution flow field input data to arbitrary spatial and temporal resolutions, allowing for flexible upsampling. The training process of FFEINR is facilitated by introducing feature enhancements for the input layer, which complements the contextual information of the flow field. To demonstrate the effectiveness of the proposed method, a series of experiments are conducted on different datasets by setting different hyperparameters. The results show that FFEINR achieves significantly better results than the trilinear interpolation method. | 翻訳日:2023-08-29 10:59:26 公開日:2023-08-27 |
# StreamMapNet: ベクトル化オンラインHDマップ構築のためのストリーミングマッピングネットワーク StreamMapNet: Streaming Mapping Network for Vectorized Online HD Map Construction ( http://arxiv.org/abs/2308.12570v2 ) ライセンス: Link先を確認 | Tianyuan Yuan, Yicheng Liu, Yue Wang, Yilun Wang, Hang Zhao | (参考訳) 高精細(HD)マップは自動運転システムの安全性に不可欠である。
既存の技術では、カメラ画像とオンボードセンサーを使ってベクトル化された高精度マップを生成するが、それらはシングルフレーム入力に依存している。
このアプローチは、主に時間情報の欠如により、閉塞のような複雑なシナリオにおける安定性と性能を制限する。
さらに、より広い知覚範囲に適用すると、その性能は低下する。
本稿では,ビデオの時系列時間的モデリングに適応した新しいオンラインマッピングパイプラインStreamMapNetを提案する。
StreamMapNetはマルチポイントアテンションと時間情報を利用して、安定性の高い大規模ローカルHDマップの構築を可能にし、既存のメソッドの制限に対処する。
さらに,オンラインHDマップ構築ベンチマークとデータセットであるArgoverse2とnuScenesについて批判的に検討し,既存の評価プロトコルに有意な偏りがあることを明らかにする。
我々は,地理的スパンに応じてベンチマークを分割し,公平かつ正確な評価を促進することを提案する。
実験の結果、streammapnetはすべての設定で既存のメソッドを大きく上回り、オンライン推論速度は14.2$ fpsである。
私たちのコードはhttps://github.com/yuantianyuan01/streammapnetで利用可能です。 High-Definition (HD) maps are essential for the safety of autonomous driving systems. While existing techniques employ camera images and onboard sensors to generate vectorized high-precision maps, they are constrained by their reliance on single-frame input. This approach limits their stability and performance in complex scenarios such as occlusions, largely due to the absence of temporal information. Moreover, their performance diminishes when applied to broader perception ranges. In this paper, we present StreamMapNet, a novel online mapping pipeline adept at long-sequence temporal modeling of videos. StreamMapNet employs multi-point attention and temporal information which empowers the construction of large-range local HD maps with high stability and further addresses the limitations of existing methods. Furthermore, we critically examine widely used online HD Map construction benchmark and datasets, Argoverse2 and nuScenes, revealing significant bias in the existing evaluation protocols. We propose to resplit the benchmarks according to geographical spans, promoting fair and precise evaluations. Experimental results validate that StreamMapNet significantly outperforms existing methods across all settings while maintaining an online inference speed of $14.2$ FPS. Our code is available at https://github.com/yuantianyuan01/StreamMapNet. | 翻訳日:2023-08-29 10:52:42 公開日:2023-08-27 |