このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230804となっている論文です。

PDF登録状況(公開日: 20230804)

TitleAuthorsAbstract論文公表日・翻訳日
# 警告: アーキテクチャのエロージョンを示す違反症状

Warnings: Violation Symptoms Indicating Architecture Erosion ( http://arxiv.org/abs/2212.12168v2 )

ライセンス: Link先を確認
Ruiyin Li, Peng Liang, Paris Avgeriou(参考訳) ソフトウェアシステムが進化するにつれて、そのアーキテクチャは劣化し、徐々にソフトウェアのメンテナンスと進化の活動を妨げ、システムの品質特性に悪影響を及ぼす。 アーキテクチャ侵食現象の背後にある主な原因は、(アーキテクチャパターンの違反のような)違反症状に由来する。 以前の研究は、アーキテクチャ適合性チェックアプローチを用いたソフトウェアシステムにおける違反の検出に焦点を当てている。 しかし、コードレビューのコメントは、アーキテクチャ違反に関する広範な議論を含むリッチソースでもある。 本研究では,コードレビューにおけるアーキテクチャ違反症状の特徴について,開発者の視点から検討した。 私たちは、違反症状に関連するキーワードのセットを使用して、OpenStackとQtコミュニティで人気のあるOSSプロジェクトのコードレビューコメントを606件(21,583件中)収集しました。 収集した606件のレビューコメントを手作業で分析し,違反症状のカテゴリと言語パターン,および開発者の対処方法を検討した。 その結果,(1) コードレビュープロセスにおいて,(1) 違反症状の10つのカテゴリが開発者によって議論され,(2) 違反症状の表現は「矛盾」「違反」であり,最も頻繁に使用される言語パターンは「問題発見」であり,(3) コードのリファクタリングと削除は,違反症状に対処するための主要な手段(90%)であり,一方で,いくつかの違反症状は開発者によって無視された。 また,既存のアーキテクチャ違反に対処するだけでなく,将来的な侵害を防止するためにも,設計者によるアーキテクチャ侵食の特徴の理解を深め,開発・保守活動の促進に寄与することが示唆された。

As a software system evolves, its architecture tends to degrade, and gradually impedes software maintenance and evolution activities and negatively impacts the quality attributes of the system. The main root cause behind architecture erosion phenomenon derives from violation symptoms (such as violations of architecture pattern). Previous studies focus on detecting violations in software systems using architecture conformance checking approaches. However, code review comments are also rich sources that may contain extensive discussions regarding architecture violations. In this work, we investigated the characteristics of architecture violation symptoms in code review comments from the developers' perspective. We employed a set of keywords related to violation symptoms to collect 606 (out of 21,583) code review comments from four popular OSS projects in the OpenStack and Qt communities. We manually analyzed the collected 606 review comments to provide the categories and linguistic patterns of violation symptoms, as well as the reactions how developers addressed them. Our findings show that: (1) 10 categories of violation symptoms are discussed by developers during the code review process; (2) The frequently-used terms of expressing violation symptoms are "inconsistent" and "violate", and the most frequently-used linguistic pattern is Problem Discovery; (3) Refactoring and removing code are the major measures (90%) to tackle violation symptoms, while a few violation symptoms were ignored by developers. Our findings suggest that the investigation of violation symptoms can help researchers better understand the characteristics of architecture erosion and facilitate the development and maintenance activities, and developers should explicitly manage violation symptoms, not only for addressing the existing architecture violations but also preventing future violations.
翻訳日:2023-10-24 13:46:16 公開日:2023-08-04
# NFTスマートコントラクトにおける欠陥の定義と検出

Definition and Detection of Defects in NFT Smart Contracts ( http://arxiv.org/abs/2305.15829v2 )

ライセンス: Link先を確認
Shuo Yang, Jiachi Chen, Zibin Zheng(参考訳) 近年,NFT(Non-fungible tokens)の誕生が注目されている。 NFTは、ブロックチェーン上でのユーザの所有権を表現でき、その人気のために市場販売を著しく経験しています。 残念ながら、NFTの高価値は攻撃者の標的にもなっています。 NFTスマートコントラクトの欠陥は、NFTエコシステムのセキュリティと信頼性を傷つけるために攻撃者によって悪用される可能性がある。 この問題の重要性にもかかわらず、NFTスマートコントラクトの分析に重点を置く体系的な作業が欠如しているため、ユーザのNFTのセキュリティに関する懸念が高まる可能性がある。 このギャップに対処するため、本稿では、NFTスマートコントラクトに5つの欠陥を導入する。 各欠陥は定義され、その特徴と結果を強調したコード例が示され、修正可能なソリューションと組み合わせられる。 さらに,NFTGuardというツールを用いて,シンボリックな実行フレームワークに基づいて,定義した欠陥を検出する。 具体的には、NFTGuardは、契約抽象構文木(AST)から状態変数に関する情報を抽出する。 さらに、NFTGuardはバイトコードからソースコードレベルの機能を回復し、欠陥を効果的に検出し、事前に定義された検出パターンに基づいて報告する。 実世界16,527のスマートコントラクト上でNFTGuardを実行し,手動でラベル付けした結果に基づいて評価を行う。 1,331の契約には5つの欠陥の少なくとも1つが含まれており、ツールによって達成された全体的な精度は92.6%である。

Recently, the birth of non-fungible tokens (NFTs) has attracted great attention. NFTs are capable of representing users' ownership on the blockchain and have experienced tremendous market sales due to their popularity. Unfortunately, the high value of NFTs also makes them a target for attackers. The defects in NFT smart contracts could be exploited by attackers to harm the security and reliability of the NFT ecosystem. Despite the significance of this issue, there is a lack of systematic work that focuses on analyzing NFT smart contracts, which may raise worries about the security of users' NFTs. To address this gap, in this paper, we introduce 5 defects in NFT smart contracts. Each defect is defined and illustrated with a code example highlighting its features and consequences, paired with possible solutions to fix it. Furthermore, we propose a tool named NFTGuard to detect our defined defects based on a symbolic execution framework. Specifically, NFTGuard extracts the information of the state variables from the contract abstract syntax tree (AST), which is critical for identifying variable-loading and storing operations during symbolic execution. Furthermore, NFTGuard recovers source-code-level features from the bytecode to effectively locate defects and report them based on predefined detection patterns. We run NFTGuard on 16,527 real-world smart contracts and perform an evaluation based on the manually labeled results. We find that 1,331 contracts contain at least one of the 5 defects, and the overall precision achieved by our tool is 92.6%.
翻訳日:2023-10-24 05:35:09 公開日:2023-08-04
# 臨界精度レベルにおけるpythonのティピカル --型推論

TIPICAL -- Type Inference for Python In Critical Accuracy Level ( http://arxiv.org/abs/2308.02675v1 )

ライセンス: Link先を確認
Jonathan Elkobi, Bernd Gruner, Tim Sonnekalb, Clemens-Alexander Brust(参考訳) 高不確実性などの静的および動的解析手法の欠点を補うことを目的として,ディープラーニングに基づく型推論手法が普及しつつある。 しかし、異なるソフトウェアドメインのコードのようないくつかの本質的な問題が、型推論システムに未知のデータ型を含むため、彼らの実用的応用はまだ議論の余地がある。 そこで我々は,これらの問題を克服し,高い信頼度予測を得るために,深層類似性学習と新規性検出を組み合わせたTIPICALを提案する。 本手法は,未知および不正確なデータ型をフィルタリングし,最先端の型推論手法type4pyに対して高いf1スコアを達成することで,高い信頼度でデータ型を予測できることを示す。 さらに,ソフトウェア領域とデータ型頻度の違いが,本手法の結果に与える影響について検討した。

Type inference methods based on deep learning are becoming increasingly popular as they aim to compensate for the drawbacks of static and dynamic analysis approaches, such as high uncertainty. However, their practical application is still debatable due to several intrinsic issues such as code from different software domains will involve data types that are unknown to the type inference system. In order to overcome these problems and gain high-confidence predictions, we thus present TIPICAL, a method that combines deep similarity learning with novelty detection. We show that our method can better predict data types in high confidence by successfully filtering out unknown and inaccurate predicted data types and achieving higher F1 scores to the state-of-the-art type inference method Type4Py. Additionally, we investigate how different software domains and data type frequencies may affect the results of our method.
翻訳日:2023-10-23 15:22:24 公開日:2023-08-04
# 材料科学のためのマルチモーダル機械学習--構成構造バイモーダル学習による実験的検討

Multimodal machine learning for materials science: composition-structure bimodal learning for experimentally measured properties ( http://arxiv.org/abs/2309.04478v1 )

ライセンス: Link先を確認
Sheng Gong, Shuo Wang, Taishan Zhu, Yang Shao-Horn, and Jeffrey C. Grossman(参考訳) GPT-4のようなマルチモーダル機械学習モデルの広範な応用は、コンピュータビジョンや自然言語処理など様々な研究分野に革命をもたらした。 しかし、材料情報学におけるその実装は、構成や構造など多岐にわたる材料データが存在するにもかかわらず、未調査のままである。 大規模計算データセットでトレーニングされた機械学習モデルの有効性は計算の精度に依存するが、実験データセットはデータ可用性や不完全な情報が少ないことが多い。 本稿では,構成構造ビモーダル学習による材料科学におけるマルチモーダル機械学習の新しいアプローチを提案する。 提案するCOSNetは,不完全な構造情報を持つ実験材料特性の学習と予測を強化するために設計されている。 バイモーダル学習は, 固体電解質中のLi伝導率, バンドギャップ, 屈折率, 誘電率, エネルギー, 磁気モーメントなど, 組成のみの学習法を超越した材料特性の予測誤差を著しく低減する。 さらに,バイモーダル学習の成功において,モーダルアベイラビリティに基づくデータ拡張が重要な役割を担っていることを見出した。

The widespread application of multimodal machine learning models like GPT-4 has revolutionized various research fields including computer vision and natural language processing. However, its implementation in materials informatics remains underexplored, despite the presence of materials data across diverse modalities, such as composition and structure. The effectiveness of machine learning models trained on large calculated datasets depends on the accuracy of calculations, while experimental datasets often have limited data availability and incomplete information. This paper introduces a novel approach to multimodal machine learning in materials science via composition-structure bimodal learning. The proposed COmposition-Structure Bimodal Network (COSNet) is designed to enhance learning and predictions of experimentally measured materials properties that have incomplete structure information. Bimodal learning significantly reduces prediction errors across distinct materials properties including Li conductivity in solid electrolyte, band gap, refractive index, dielectric constant, energy, and magnetic moment, surpassing composition-only learning methods. Furthermore, we identified that data augmentation based on modal availability plays a pivotal role in the success of bimodal learning.
翻訳日:2023-10-23 08:09:34 公開日:2023-08-04
# 大規模公開データによる差分プライベート画像生成の品質向上

Large-Scale Public Data Improves Differentially Private Image Generation Quality ( http://arxiv.org/abs/2309.00008v1 )

ライセンス: Link先を確認
Ruihan Wu, Chuan Guo, Kamalika Chaudhuri(参考訳) パブリックデータは、微分プライベート機械学習のプライバシーと精度のトレードオフを改善するために頻繁に使用されるが、以前の研究では、このデータはプライベートと同じ分布から来ていると推定されていた。 本研究では,汎用的な大規模公開データを用いてGAN(Generative Adversarial Networks)における差分プライベート画像生成の品質を向上させる方法について検討し,公開データを効果的に活用する手法を提案する。 提案手法は, 一般向けインターネット規模の画像ソースから公開データを得る場合や, 特定のタイプの画像からなる場合などにおいて, パブリックデータ配信のサポートがプライベートのサポートを含んでいるという仮定の下で機能する。 詳細な評価結果から,本手法は,公開データを用いた既存手法と比較して,FIDスコアなどの指標を用いてSOTAを達成し,高画質のフォトリアリスティック画像を生成することができることがわかった。

Public data has been frequently used to improve the privacy-accuracy trade-off of differentially private machine learning, but prior work largely assumes that this data come from the same distribution as the private. In this work, we look at how to use generic large-scale public data to improve the quality of differentially private image generation in Generative Adversarial Networks (GANs), and provide an improved method that uses public data effectively. Our method works under the assumption that the support of the public data distribution contains the support of the private; an example of this is when the public data come from a general-purpose internet-scale image source, while the private data consist of images of a specific type. Detailed evaluations show that our method achieves SOTA in terms of FID score and other metrics compared with existing methods that use public data, and can generate high-quality, photo-realistic images in a differentially private manner.
翻訳日:2023-09-10 03:55:13 公開日:2023-08-04
# フレキシブルなメモリを持つリカレントニューラルネットワーク - 粗いボラティリティよりも優れた予測

Recurrent Neural Networks with more flexible memory: better predictions than rough volatility ( http://arxiv.org/abs/2308.08550v1 )

ライセンス: Link先を確認
Damien Challet and Vincent Ragel(参考訳) 我々は、リカレントニューラルネットワークを拡張して、出力の各次元にいくつかのフレキシブルな時間スケールを含むようにし、長いメモリまたは非常に異なる時間スケールのプロセスを考慮する能力を機械的に改善する。 我々は,バニラと長期短期記憶ネットワーク(LSTM)の長期記憶能力を比較し,長期記憶を有することで知られる資産価格変動を予測する。 一般に、拡張LSTMの訓練に必要なエポックの数は2つに分けられるが、同じハイパーパラメータを持つモデル間での検証とテスト損失のばらつきははるかに小さい。 また,検証損失が最小のモデルは,複数の時系列を持つデータセット上でのトレーニングとテストにおいて,大まかなボラティリティ予測を約20%上回ることを示した。

We extend recurrent neural networks to include several flexible timescales for each dimension of their output, which mechanically improves their abilities to account for processes with long memory or with highly disparate time scales. We compare the ability of vanilla and extended long short term memory networks (LSTMs) to predict asset price volatility, known to have a long memory. Generally, the number of epochs needed to train extended LSTMs is divided by two, while the variation of validation and test losses among models with the same hyperparameters is much smaller. We also show that the model with the smallest validation loss systemically outperforms rough volatility predictions by about 20% when trained and tested on a dataset with multiple time series.
翻訳日:2023-08-27 05:25:03 公開日:2023-08-04
# 深部脳刺激手術におけるスパイク検出のための深部学習

Deep learning for spike detection in deep brain stimulation surgery ( http://arxiv.org/abs/2308.05755v1 )

ライセンス: Link先を確認
Arkadiusz Nowacki, Ewelina Ko{\l}pa, Mateusz Szychiewicz, Konrad Ciecierski(参考訳) 深部脳刺激(Deep brain stimulation、DBS)はパーキンソン病などの病態の治療に成功している神経外科手術である。 電極を脳の特定焦点に挿入して電気刺激を行うことで、疾患の症状を著しく軽減することができる。 本稿では,深層学習を用いたDBS脳外科手術中に取得した神経活動の記録を解析する手法を提案する。 この目的で畳み込みニューラルネットワーク(cnn)を用いてテストを行った。 時間窓に基づいて、分類器はニューロン活動(spike)が存在するかどうかを評価する。 分類器の最大精度は98.98%であり、受信機動作特性曲線(AUC)の面積は0.9898である。 この手法により,データ前処理を使わずに分類が可能となった。

Deep brain stimulation (DBS) is a neurosurgical procedure successfully used to treat conditions such as Parkinson's disease. Electrostimulation, carried out by implanting electrodes into an identified focus in the brain, makes it possible to reduce the symptoms of the disease significantly. In this paper, a method for analyzing recordings of neuronal activity acquired during DBS neurosurgery using deep learning is presented. We tested using a convolutional neural network (CNN) for this purpose. Based on the time window, the classifier assesses whether neuronal activity (spike) is present. The maximum accuracy value for the classifier was 98.98%, and the area under the receiver operating characteristic curve (AUC) was 0.9898. The method made it possible to obtain a classification without using data preprocessing.
翻訳日:2023-08-27 05:24:27 公開日:2023-08-04
# 特許出願傾向予測のためのイベントベース動的グラフ表現学習

Event-based Dynamic Graph Representation Learning for Patent Application Trend Prediction ( http://arxiv.org/abs/2308.09780v1 )

ライセンス: Link先を確認
Tao Zou, Le Yu, Leilei Sun, Bowen Du, Deqing Wang, Fuzhen Zhuang(参考訳) 企業が次の期間に申請する特許の種類を正確に予測することは、彼らの開発戦略を解明し、事前に潜在的なパートナーや競合相手を見つけるのに役立つ。 この問題は, 企業における継続的な嗜好のモデル化と, 分類コードの意味的相関を捉えることの難しさから, これまでの研究では, ほとんど研究されていない。 このギャップを埋めるために,特許出願傾向予測のためのイベントベースの動的グラフ学習フレームワークを提案する。 特に,本手法は,企業と特許分類コードの記憶に残る表現に基づくものである。 新しい特許が観察されると、履歴記憶や現在符号化されているメッセージに基づいて関連企業や分類コードの表示が更新される。 さらに、階層的分類法に沿ってそれらの表現を更新することにより、特許分類コードの意味的近さをキャプチャする階層的メッセージパッシング機構を提供する。 最後に、特許出願の傾向は、静的、動的、階層的な観点から、ターゲット企業の表現と分類コードの集約によって予測される。 実世界データを用いた実験により,様々な実験条件下でのアプローチの有効性が示され,また,分類コードの意味学習や企業の軌道開発のための追跡技術における手法の能力も明らかにされている。

Accurate prediction of what types of patents that companies will apply for in the next period of time can figure out their development strategies and help them discover potential partners or competitors in advance. Although important, this problem has been rarely studied in previous research due to the challenges in modelling companies' continuously evolving preferences and capturing the semantic correlations of classification codes. To fill in this gap, we propose an event-based dynamic graph learning framework for patent application trend prediction. In particular, our method is founded on the memorable representations of both companies and patent classification codes. When a new patent is observed, the representations of the related companies and classification codes are updated according to the historical memories and the currently encoded messages. Moreover, a hierarchical message passing mechanism is provided to capture the semantic proximities of patent classification codes by updating their representations along the hierarchical taxonomy. Finally, the patent application trend is predicted by aggregating the representations of the target company and classification codes from static, dynamic, and hierarchical perspectives. Experiments on real-world data demonstrate the effectiveness of our approach under various experimental conditions, and also reveal the abilities of our method in learning semantics of classification codes and tracking technology developing trajectories of companies.
翻訳日:2023-08-27 05:18:09 公開日:2023-08-04
# 量子情報のマスキングは不可能」へのコメント

Comment on "Masking quantum information is impossible" ( http://arxiv.org/abs/2308.11626v1 )

ライセンス: Link先を確認
Guang Ping He(参考訳) ノーマスキング定理 (no-masking theorem)。 Rev. Lett. 120, 230501 (2018) 任意の量子状態はマスクできないと主張している。 この結果に基づき、著者らはさらにqubitのコミットメントは不可能であると示唆した。 ここでは、この接続が一般に成り立たないことを示す。

The no-masking theorem (Phys. Rev. Lett. 120, 230501 (2018)) claims that arbitrary quantum states cannot be masked. Based on this result, the authors further suggested that qubit commitment is not possible. Here we show that this connection does not hold in general.
翻訳日:2023-08-27 04:58:53 公開日:2023-08-04
# 出血性脳卒中におけるEHRに基づく死亡予測課題の解明に留意すること

Can Attention Be Used to Explain EHR-Based Mortality Prediction Tasks: A Case Study on Hemorrhagic Stroke ( http://arxiv.org/abs/2308.05110v1 )

ライセンス: Link先を確認
Qizhang Feng, Jiayi Yuan, Forhan Bin Emdad, Karim Hanna, Xia Hu, Zhe He(参考訳) ストロークは死亡率と死亡率の重要な原因であり、リスクを最小限に抑えるために早期予測戦略を必要とする。 急性生理・慢性健康評価(APACHE II, IV)や簡易急性生理スコアIII(SAPS III)などの患者評価法は,精度と解釈性に限界がある。 本稿では,早期脳卒中死亡予測のための解釈可能な注意に基づくトランスフォーマーモデルを提案する。 このモデルは、従来の予測モデルの限界に対処し、解釈可能性(モデルの明確で理解可能な説明を提供する)と忠実性(入力から出力へのモデルのダイナミクスの真理的な説明を与える)を提供する。 さらに,shapley値と注意に基づくスコアを用いて,モデルの説明可能性を改善するための忠実度スコアと解釈可能性スコアを探索・比較した。 研究の目的は、解釈可能な注意に基づくトランスフォーマーモデルを設計し、既存のモデルと比較して性能を評価し、モデルから派生した特徴的重要性を提供することである。

Stroke is a significant cause of mortality and morbidity, necessitating early predictive strategies to minimize risks. Traditional methods for evaluating patients, such as Acute Physiology and Chronic Health Evaluation (APACHE II, IV) and Simplified Acute Physiology Score III (SAPS III), have limited accuracy and interpretability. This paper proposes a novel approach: an interpretable, attention-based transformer model for early stroke mortality prediction. This model seeks to address the limitations of previous predictive models, providing both interpretability (providing clear, understandable explanations of the model) and fidelity (giving a truthful explanation of the model's dynamics from input to output). Furthermore, the study explores and compares fidelity and interpretability scores using Shapley values and attention-based scores to improve model explainability. The research objectives include designing an interpretable attention-based transformer model, evaluating its performance compared to existing models, and providing feature importance derived from the model.
翻訳日:2023-08-14 00:22:09 公開日:2023-08-04
# ディープラーニングを用いた音声感情認識のためのスペクトル・長期文脈情報取得

Capturing Spectral and Long-term Contextual Information for Speech Emotion Recognition Using Deep Learning Techniques ( http://arxiv.org/abs/2308.04517v1 )

ライセンス: Link先を確認
Samiul Islam, Md. Maksudul Haque, Abu Jobayer Md. Sadat(参考訳) LSTM、CNN、RNN、SVM、MLPといった従来の音声感情認識のアプローチでは、シーケンシャルデータにおける長期的な依存関係の取得の困難、時間的ダイナミクスの取得、マルチモーダルデータにおける複雑なパターンや関係の取得に苦労するといった制限がある。 本研究では,テキストデータ処理のためのグラフ畳み込みネットワーク(GCN)と音声信号解析のためのHuBERT変換器を組み合わせたアンサンブルモデルを提案する。 その結果,GCNはテキストのグラフに基づく表現を活用し,単語間の文脈的意味や意味的関係を検出することで,テキストデータ内の長期的文脈依存性や関係を捉えるのに優れていることがわかった。 一方、HuBERTは自己注意機構を用いて長距離依存を捕捉し、発話中の時間的ダイナミクスをモデル化し、感情認識に寄与する微妙なニュアンスやバリエーションをキャプチャする。 GCNとHuBERTを組み合わせることで、我々のアンサンブルモデルは両方のアプローチの強みを利用することができる。 これにより、マルチモーダルデータの同時分析が可能となり、これらのモダリティの融合により、補完情報の抽出が可能となり、感情認識システムの識別能力が向上する。 その結果,複合モデルが従来の手法の限界を克服し,音声からの感情認識精度の向上につながることが示唆された。

Traditional approaches in speech emotion recognition, such as LSTM, CNN, RNN, SVM, and MLP, have limitations such as difficulty capturing long-term dependencies in sequential data, capturing the temporal dynamics, and struggling to capture complex patterns and relationships in multimodal data. This research addresses these shortcomings by proposing an ensemble model that combines Graph Convolutional Networks (GCN) for processing textual data and the HuBERT transformer for analyzing audio signals. We found that GCNs excel at capturing Long-term contextual dependencies and relationships within textual data by leveraging graph-based representations of text and thus detecting the contextual meaning and semantic relationships between words. On the other hand, HuBERT utilizes self-attention mechanisms to capture long-range dependencies, enabling the modeling of temporal dynamics present in speech and capturing subtle nuances and variations that contribute to emotion recognition. By combining GCN and HuBERT, our ensemble model can leverage the strengths of both approaches. This allows for the simultaneous analysis of multimodal data, and the fusion of these modalities enables the extraction of complementary information, enhancing the discriminative power of the emotion recognition system. The results indicate that the combined model can overcome the limitations of traditional methods, leading to enhanced accuracy in recognizing emotions from speech.
翻訳日:2023-08-14 00:20:42 公開日:2023-08-04
# AIコードジェネレータの脆弱性 - ターゲットデータに対する攻撃調査

Vulnerabilities in AI Code Generators: Exploring Targeted Data Poisoning Attacks ( http://arxiv.org/abs/2308.04451v1 )

ライセンス: Link先を確認
Domenico Cotroneo, Cristina Improta, Pietro Liguori, Roberto Natella(参考訳) 本研究では,悪意のあるサンプルをトレーニングデータに注入して脆弱なコードを生成する攻撃として,データ中毒によるaiコード生成器のセキュリティを評価する。 セキュリティ脆弱性を含むコードの増加を注入してトレーニングデータを汚染し、コード生成のためのさまざまな最先端モデルに対する攻撃の成功を評価する。 我々の分析によると、AIコードジェネレータは少量のデータ中毒にも弱い。 さらに、この攻撃は事前訓練されたモデルによって生成されたコードの正確性に影響せず、検出が困難である。

In this work, we assess the security of AI code generators via data poisoning, i.e., an attack that injects malicious samples into the training data to generate vulnerable code. We poison the training data by injecting increasing amounts of code containing security vulnerabilities and assess the attack's success on different state-of-the-art models for code generation. Our analysis shows that AI code generators are vulnerable to even a small amount of data poisoning. Moreover, the attack does not impact the correctness of code generated by pre-trained models, making it hard to detect.
翻訳日:2023-08-14 00:19:30 公開日:2023-08-04
# 深層学習による金属絶縁体-金属メタ曲面の高精度予測

High-Accuracy Prediction of Metal-Insulator-Metal Metasurface with Deep Learning ( http://arxiv.org/abs/2308.04450v1 )

ライセンス: Link先を確認
Kaizhu Liu, Hsiang-Chen Chui, Changsen Sun, and Xue Han(参考訳) 近年,電磁ソフトウェア計算結果のディープラーニング予測が広く議論されている。 しかし、予測精度は依然として解決すべき課題の1つだった。 本研究では,resnets-10モデルをプラズモニックなメタサーフェスs11パラメータの予測に用いた。 2段階の訓練はk倍のクロスバリデーションと少ない学習率で行った。 訓練終了後、アルミニウム、金、銀のメタサーフェスはそれぞれ-48.45、-46.47、-35.54と予測された。 誤差が極端に低いため、提案するネットワークは、ある構造範囲内で計算する従来の電磁計算法を置き換えることができる。 さらに、このネットワークは1100エポック未満のトレーニングプロセスを完了することができる。 これは、ネットワークトレーニングプロセスが設計プロセス時間を効果的に削減できることを意味する。 提案したResNets-10モデルは、メタ拡散デバイスやバイオセンサーの設計にも利用できるため、計算に要する時間を削減できる。 ネットワークの超低エラーは、この研究が将来の人工知能電磁コンピューティングソフトウェアの開発に寄与していることを示している。

Deep learning prediction of electromagnetic software calculation results has been a widely discussed issue in recent years. But the prediction accuracy was still one of the challenges to be solved. In this work, we proposed that the ResNets-10 model was used for predicting plasmonic metasurface S11 parameters. The two-stage training was performed by the k-fold cross-validation and small learning rate. After the training was completed, the prediction loss for aluminum, gold, and silver metal-insulator-metal metasurfaces was -48.45, -46.47, and -35.54, respectively. Due to the ultralow error value, the proposed network can replace the traditional electromagnetic computing method for calculation within a certain structural range. Besides, this network can finish the training process less than 1,100 epochs. This means that the network training process can effectively lower the design process time. The ResNets-10 model we proposed can also be used to design meta-diffractive devices and biosensors, thereby reducing the time required for the calculation process. The ultralow error of the network indicates that this work contributes to the development of future artificial intelligence electromagnetic computing software.
翻訳日:2023-08-14 00:19:19 公開日:2023-08-04
# sfnet: セマンティックフローによる高速で正確なセマンティックセグメンテーション

SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow ( http://arxiv.org/abs/2207.04415v2 )

ライセンス: Link先を確認
Xiangtai Li, Jiangning Zhang, Yibo Yang, Guangliang Cheng, Kuiyuan Yang, Yunhai Tong, Dacheng Tao(参考訳) 本稿では,より高速かつ高精度なセマンティックセグメンテーションのための効果的な手法を提案する。 性能を改善するための一般的な実践は、強い意味表現を持つ高解像度の特徴写像を得ることである。 atrous convolutionsとfeature pyramid fusionの2つの戦略が広く使われているが、どちらも計算量が多いか非効率である。 近接する映像フレーム間の移動アライメントのためのオプティカルフローに触発されて,隣接レベルの特徴マップ間の\textit{semantic flow} を学習するフローアライメントモジュール(fam)を提案し,高分解能機能に対して高レベル機能を効果的かつ効率的にブロードキャストする。 さらに、FAMを標準的な特徴ピラミッド構造に統合すると、ResNet-18やDFNetのような軽量バックボーンネットワークでも、他のリアルタイム手法よりも優れたパフォーマンスが得られる。 さらに,提案手法をさらに高速化するために,高分解能特徴マップと低分解能特徴マップを直接整列するゲート付きデュアルフローアライメントモジュールを提案し,改良バージョンネットワークをsfnet-liteと呼ぶ。 sfnetとsfnet-liteの両方の有効性を示す、いくつかの挑戦的なデータセットで広範な実験が行われている。 特にCityscapesテストセットを使用する場合、SFNet-Liteシリーズは60FPSでResNet-18バックボーンで78.8mIoU、RTX-3090でSTDCバックボーンで120FPSで78.8mIoUを達成した。 さらに、挑戦的な4つのデータセットを1つの大きなデータセットにまとめて、Unified Driving Segmentation(UDS)データセットと名付けました。 様々なドメインやスタイル情報を含んでいる。 UDSでいくつかの代表作をベンチマークする。 SFNetとSFNet-LiteはいずれもUDS上で最高の速度と精度のトレードオフを実現しています。 コードとモデルはhttps://github.com/lxtgh/sfsegnetsで公開されている。

In this paper, we focus on exploring effective methods for faster and accurate semantic segmentation. A common practice to improve the performance is to attain high-resolution feature maps with strong semantic representation. Two strategies are widely used: atrous convolutions and feature pyramid fusion, while both are either computationally intensive or ineffective. Inspired by the Optical Flow for motion alignment between adjacent video frames, we propose a Flow Alignment Module (FAM) to learn \textit{Semantic Flow} between feature maps of adjacent levels and broadcast high-level features to high-resolution features effectively and efficiently. Furthermore, integrating our FAM to a standard feature pyramid structure exhibits superior performance over other real-time methods, even on lightweight backbone networks, such as ResNet-18 and DFNet. Then to further speed up the inference procedure, we also present a novel Gated Dual Flow Alignment Module to directly align high-resolution feature maps and low-resolution feature maps where we term the improved version network as SFNet-Lite. Extensive experiments are conducted on several challenging datasets, where results show the effectiveness of both SFNet and SFNet-Lite. In particular, when using Cityscapes test set, the SFNet-Lite series achieve 80.1 mIoU while running at 60 FPS using ResNet-18 backbone and 78.8 mIoU while running at 120 FPS using STDC backbone on RTX-3090. Moreover, we unify four challenging driving datasets into one large dataset, which we named Unified Driving Segmentation (UDS) dataset. It contains diverse domain and style information. We benchmark several representative works on UDS. Both SFNet and SFNet-Lite still achieve the best speed and accuracy trade-off on UDS, which serves as a strong baseline in such a challenging setting. The code and models are publicly available at https://github.com/lxtGH/SFSegNets.
翻訳日:2023-08-09 17:52:52 公開日:2023-08-04
# 単一画像からの3次元物体の相互作用の理解

Understanding 3D Object Interaction from a Single Image ( http://arxiv.org/abs/2305.09664v2 )

ライセンス: Link先を確認
Shengyi Qian, David F. Fouhey(参考訳) 人間は単一のイメージを、対話を許す複数の潜在的なオブジェクトとして容易に理解することができる。 私たちはこのスキルを使って世界との対話を計画し、対話に携わることなく新しいオブジェクトを理解することを加速します。 本稿では,知的エージェントが3Dシーンをよりよく探索したり,物体を操作したりできるように,同様の能力で機械を支援したい。 提案手法は3次元位置, 物理的特性, 物価を予測するトランスフォーマーモデルである。 このモデルを活用するために、インターネットビデオ、エゴセントリックビデオ、屋内画像などのデータセットを収集し、アプローチをトレーニングし、検証する。 我々のモデルは、我々のデータに強い性能をもたらし、ロボットデータによく当てはまる。 プロジェクトサイト: https://jasonqsy.github.io/3doi/

Humans can easily understand a single image as depicting multiple potential objects permitting interaction. We use this skill to plan our interactions with the world and accelerate understanding new objects without engaging in interaction. In this paper, we would like to endow machines with the similar ability, so that intelligent agents can better explore the 3D scene or manipulate objects. Our approach is a transformer-based model that predicts the 3D location, physical properties and affordance of objects. To power this model, we collect a dataset with Internet videos, egocentric videos and indoor images to train and validate our approach. Our model yields strong performance on our data, and generalizes well to robotics data. Project site: https://jasonqsy.github.io/3DOI/
翻訳日:2023-08-09 16:53:45 公開日:2023-08-04
# ReCLIP: ソースフリードメイン適応によるコントラスト言語イメージの事前学習

ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain Adaptation ( http://arxiv.org/abs/2308.03793v1 )

ライセンス: Link先を確認
Hu. Xuefeng, Zhang. Ke, Xia. Lu, Chen. Albert, Luo. Jiajia, Sun. Yuyin, Wang. Ken, Qiao. Nan, Zeng. Xiao, Sun. Min, Kuo. Cheng-Hao, Nevatia. Ram(参考訳) clipのような大規模事前学習型視覚言語モデルはゼロショット分類において、例を見ずに、imagenetで76.3%のtop-1精度を達成するなど、優れた性能を示している。 しかし、CLIPを下流のターゲットドメインに適用する一方で、視覚領域とテキスト領域のギャップとモダリティ間のミスアライメントの存在は、モデルのパフォーマンスに大きな影響を与えます。 このような課題に対処するために,視覚言語モデルに対して,ソースデータやラベル付きデータを必要としない,最初のソースフリーなドメイン適応手法であるrelipを提案する。 ReCLIPはまず、不整合なビジュアルテキスト埋め込みを緩和するプロジェクション空間を学習し、擬似ラベルを学習し、擬似ラベルと相互に学習し、視覚的およびテキストエンコーダを更新し、ラベルを洗練し、ドメインギャップを減らし、繰り返し修正する。 広範な実験により、22の画像分類ベンチマークにおいて、ReCLIPはCLIPの平均エラー率を30.17%から25.06%に下げることを示した。

Large-scale Pre-Training Vision-Language Model such as CLIP has demonstrated outstanding performance in zero-shot classification, e.g. achieving 76.3% top-1 accuracy on ImageNet without seeing any example, which leads to potential benefits to many tasks that have no labeled data. However, while applying CLIP to a downstream target domain, the presence of visual and text domain gaps and cross-modality misalignment can greatly impact the model performance. To address such challenges, we propose ReCLIP, the first source-free domain adaptation method for vision-language models, which does not require any source data or target labeled data. ReCLIP first learns a projection space to mitigate the misaligned visual-text embeddings and learns pseudo labels, and then deploys cross-modality self-training with the pseudo labels, to update visual and text encoders, refine labels and reduce domain gaps and misalignments iteratively. With extensive experiments, we demonstrate ReCLIP reduces the average error rate of CLIP from 30.17% to 25.06% on 22 image classification benchmarks.
翻訳日:2023-08-09 15:48:09 公開日:2023-08-04
# マルチアタック:多くの画像が$+$同じ敵攻撃を$\to$多くのターゲットラベル

Multi-attacks: Many images $+$ the same adversarial attack $\to$ many target labels ( http://arxiv.org/abs/2308.03792v1 )

ライセンス: Link先を確認
Stanislav Fort(参考訳) 我々は、$n$イメージ$X_1,X_2,\dots,X_n$のクラスを、元の未成熟クラス$c_1,c_2,\dots,c_n$から、(必ずしも同じではない)クラス$c^*_1,c^*_2,\dots,c^*_n$のクラスを、最大数百のイメージとターゲットクラスに対して、容易に設計できることを示します。 これを \textit{multi-attacks} と呼ぶ。 画像解像度などの異なる条件下で達成できる最大$nを特徴付けるため、画素空間内の特定の画像の周囲の高階信頼度領域の数は、約10^{\mathcal{O}(100)}$と推定し、徹底的な防衛戦略において重大な問題となる。 我々は、その強度に基づいて結果のクラスを変更する敵の攻撃と、スケールに依存しない敵の例を示す。 画素空間におけるクラス決定境界の冗長性とリッチ性を示すために,特定のクラスを用いて画像や綴り語をトレースする2次元セクションを提案する。 また,複数の攻撃に対する感受性を低減し,ランダムラベルで訓練された分類器の方が感受性が高いことを示した。 コードはgithubから入手できます。

We show that we can easily design a single adversarial perturbation $P$ that changes the class of $n$ images $X_1,X_2,\dots,X_n$ from their original, unperturbed classes $c_1, c_2,\dots,c_n$ to desired (not necessarily all the same) classes $c^*_1,c^*_2,\dots,c^*_n$ for up to hundreds of images and target classes at once. We call these \textit{multi-attacks}. Characterizing the maximum $n$ we can achieve under different conditions such as image resolution, we estimate the number of regions of high class confidence around a particular image in the space of pixels to be around $10^{\mathcal{O}(100)}$, posing a significant problem for exhaustive defense strategies. We show several immediate consequences of this: adversarial attacks that change the resulting class based on their intensity, and scale-independent adversarial examples. To demonstrate the redundancy and richness of class decision boundaries in the pixel space, we look for its two-dimensional sections that trace images and spell words using particular classes. We also show that ensembling reduces susceptibility to multi-attacks, and that classifiers trained on random labels are more susceptible. Our code is available on GitHub.
翻訳日:2023-08-09 15:47:45 公開日:2023-08-04
# semantic channel equalizer: マルチユーザ意味コミュニケーションにおけるモデリング言語ミスマッチ

Semantic Channel Equalizer: Modelling Language Mismatch in Multi-User Semantic Communications ( http://arxiv.org/abs/2308.03789v1 )

ライセンス: Link先を確認
Mohamed Sana and Emilio Calvanese Strinati(参考訳) エージェント(送信者と受信者)が意味を伝えるための意味メッセージ交換を通じて対話するマルチユーザ意味コミュニケーションシステムを考える。 この文脈では、言語は知識の構築と統合を構造化し、概念表現と意味的抽出と解釈に影響を与える。 しかし、意味コミュニケーションにおける言語の重要な役割はしばしば見過ごされている。 このような場合、エージェント言語は互換性があり、あいまいに相互運用可能であると仮定され、言語ミスマッチによって起こりうる現実的な制限を無視している。 これがこの作品の焦点である。 エージェントが異なる言語を使用する場合、メッセージ解釈はセマンティックチャネルによって引き起こされる批判的な歪みから生じるセマンティックノイズに起因する。 そこで本稿では,メッセージ解釈における重要なあいまいさを解消し,制限する新しい意味チャネル等化器を提案する。 提案手法は,意味表現空間上の可測変換を持つ言語のミスマッチをモデル化する。 最適な輸送理論を用いてこれを達成し、輸送地図のような変換をモデル化する。 次に、教師が意図する意味を受信者で回復するために、意味的等化を行い、意味的チャネルがもたらした変換を、送信前または意味的メッセージの受信後のいずれかに補償する。 提案手法は,コミュニケーションを成功させるために設計されたトランスフォーメーションのコードブック上の操作として実装する。 数値計算の結果,提案するセマンティックチャネル等化器は,操作の複雑さや伝送精度において従来の手法よりも優れていることがわかった。

We consider a multi-user semantic communications system in which agents (transmitters and receivers) interact through the exchange of semantic messages to convey meanings. In this context, languages are instrumental in structuring the construction and consolidation of knowledge, influencing conceptual representation and semantic extraction and interpretation. Yet, the crucial role of languages in semantic communications is often overlooked. When this is not the case, agent languages are assumed compatible and unambiguously interoperable, ignoring practical limitations that may arise due to language mismatching. This is the focus of this work. When agents use distinct languages, message interpretation is prone to semantic noise resulting from critical distortion introduced by semantic channels. To address this problem, this paper proposes a new semantic channel equalizer to counteract and limit the critical ambiguity in message interpretation. Our proposed solution models the mismatch of languages with measurable transformations over semantic representation spaces. We achieve this using optimal transport theory, where we model such transformations as transportation maps. Then, to recover at the receiver the meaning intended by the teacher we operate semantic equalization to compensate for the transformation introduced by the semantic channel, either before transmission and/or after the reception of semantic messages. We implement the proposed approach as an operation over a codebook of transformations specifically designed for successful communication. Numerical results show that the proposed semantic channel equalizer outperforms traditional approaches in terms of operational complexity and transmission accuracy.
翻訳日:2023-08-09 15:47:18 公開日:2023-08-04
# デモを忘れて、テキストの指示から学ぶことに集中する

Forget Demonstrations, Focus on Learning from Textual Instructions ( http://arxiv.org/abs/2308.03795v1 )

ライセンス: Link先を確認
Renze Lou, Wenpeng Yin(参考訳) 本研究は, 段落型タスク定義の存在を前提として, ゼロショットクロスタスク一般化のための, 実演自由学習という, より現実的な課題について検討する。 定義からタスク監督をより良く学ぶために、我々は2つの戦略を提案する: まず、定義のクリティカルな文を自動的に見つけ出す; 第二に、これらの重要な部分が強調されたときに、モデルにより高い確率で金の出力を生成するように強制するランキングの目的。 2つの戦略の共同作業は、挑戦的なベンチマークで最先端のパフォーマンスをもたらす。 私たちのコードは最終版でリリースされる予定です。

This work studies a challenging yet more realistic setting for zero-shot cross-task generalization: demonstration-free learning from textual instructions, presuming the existence of a paragraph-style task definition while no demonstrations exist. To better learn the task supervision from the definition, we propose two strategies: first, to automatically find out the critical sentences in the definition; second, a ranking objective to force the model to generate the gold outputs with higher probabilities when those critical parts are highlighted in the definition. The joint efforts of the two strategies yield state-of-the-art performance on the challenging benchmark. Our code will be released in the final version of the paper.
翻訳日:2023-08-09 15:32:51 公開日:2023-08-04
# エルゴード理論から見たディープニューラルネットワーク

Deep neural networks from the perspective of ergodic theory ( http://arxiv.org/abs/2308.03888v1 )

ライセンス: Link先を確認
Fan Zhang(参考訳) 深層ニューラルネットワークの設計は、正確な科学というよりはむしろ芸術である。 ネットワークを動的システムの時間的進化と見なす上でのエルゴード理論の考察を仮に採用することにより、時間的インスタンスに対応する各層が、不可解なように見える親指の規則をヒューリスティックスとみなすことができることを示す。

The design of deep neural networks remains somewhat of an art rather than precise science. By tentatively adopting ergodic theory considerations on top of viewing the network as the time evolution of a dynamical system, with each layer corresponding to a temporal instance, we show that some rules of thumb, which might otherwise appear mysterious, can be attributed heuristics.
翻訳日:2023-08-09 15:06:18 公開日:2023-08-04
# 時間対称深層学習による細胞追跡の促進

Enhancing Cell Tracking with a Time-Symmetric Deep Learning Approach ( http://arxiv.org/abs/2308.03887v1 )

ライセンス: Link先を確認
Gergely Szab\'o, Paolo Bonaiuti, Andrea Ciliberto, Andr\'as Horv\'ath(参考訳) ビデオ顕微鏡記録によるライブ細胞の正確な追跡は、一般的な最先端の画像処理に基づくオブジェクト追跡手法では難しい課題である。 近年、いくつかの既存および新しいアプリケーションがディープラーニングベースのフレームワークをこのタスクに統合しようと試みているが、その多くは、アーキテクチャや一般的な学習を妨げる他の前提に埋め込まれた連続的なフレームベースのトラッキングに依存している。 この問題に対処するため,我々は,細胞を連続するフレームに制限することなく,その時空間的近傍に基づいて追跡できるという仮定にのみ依存する,新しいディープラーニングベースの追跡手法の開発を目標とした。 提案手法は,事前の仮定を必要とせず,予測者によってセルの動作パターンを完全に学習できるという付加的な利点があり,大量の映像フレームを重いアーティファクトで処理できる可能性がある。 提案手法の有効性は, 生物学的に動機づけた複数の検証戦略を通じて実証され, 最先端の細胞追跡法と比較された。

The accurate tracking of live cells using video microscopy recordings remains a challenging task for popular state-of-the-art image processing based object tracking methods. In recent years, several existing and new applications have attempted to integrate deep-learning based frameworks for this task, but most of them still heavily rely on consecutive frame based tracking embedded in their architecture or other premises that hinder generalized learning. To address this issue, we aimed to develop a new deep-learning based tracking method that relies solely on the assumption that cells can be tracked based on their spatio-temporal neighborhood, without restricting it to consecutive frames. The proposed method has the additional benefit that the motion patterns of the cells can be learned completely by the predictor without any prior assumptions, and it has the potential to handle a large number of video frames with heavy artifacts. The efficacy of the proposed method is demonstrated through multiple biologically motivated validation strategies and compared against several state-of-the-art cell tracking methods.
翻訳日:2023-08-09 15:06:10 公開日:2023-08-04
# 差分データログの解釈

A Differential Datalog Interpreter ( http://arxiv.org/abs/2308.04214v1 )

ライセンス: Link先を確認
Bruno Rucy Carneiro Alves de Lima, Merlin Kramer and Kalmer Apinis(参考訳) データログエンジンのコア推論タスクは、データログプログラムをデータベース自体に物理的に組み込むとともに、データベース上で評価することである。 計算のデファクト法は、推論規則の再帰的な適用を通じて行われる。 コストのかかる操作であるため、データログエンジンは、スクラッチからリスタートするのではなく、新しいデータへの計算を調整するために、インクリメンタルな実体化を提供する必要がある。 重要な注意点の1つは、削除されるデータに関係のあるすべてのデータを考慮に入れなければならないため、データを削除することは追加するよりも悪名高いことである。 differential dataflow(ディファレンシャル・データフロー)は、反復データフローの追加と削除、および作業分散間で同等のパフォーマンスを持つ、効率的なインクリメンタルなメンテナンスを提供する計算モデルである。 本稿では,軽量リレーショナルエンジン上に構築された3つの参照データログ実装による実体化の性能について検討する。

The core reasoning task for datalog engines is materialization, the evaluation of a datalog program over a database alongside its physical incorporation into the database itself. The de-facto method of computing it, is through the recursive application of inference rules. Due to it being a costly operation, it is a must for datalog engines to provide incremental materialization, that is, to adjust the computation to new data, instead of restarting from scratch. One of the major caveats, is that deleting data is notoriously more involved than adding, since one has to take into account all possible data that has been entailed from what is being deleted. Differential Dataflow is a computational model that provides efficient incremental maintenance, notoriously with equal performance between additions and deletions, and work distribution, of iterative dataflows. In this paper we investigate the performance of materialization with three reference datalog implementations, out of which one is built on top of a lightweight relational engine, and the two others are differential-dataflow and non-differential versions of the same rewrite algorithm, with the same optimizations.
翻訳日:2023-08-09 12:54:03 公開日:2023-08-04
# LLMによる法的要約:ProdIGITプロジェクト

Legal Summarisation through LLMs: The PRODIGIT Project ( http://arxiv.org/abs/2308.04416v1 )

ライセンス: Link先を確認
Thiago Dal Pont and Federico Galli and Andrea Loreggia and Giuseppe Pisano and Riccardo Rovatti and Giovanni Sartor(参考訳) 本稿では,税務官や弁護士をデジタル技術で支援し,AIに焦点をあてた大規模イタリアのプロジェクト ProDIGIT の初期成果を紹介する。 我々は、裁判判決の概要の作成や、法的問題や意思決定基準の特定、キーワードの特定といった関連情報の抽出に重点を置いてきた。 この目的のために,抽出的および抽象的要約のための様々なツールやアプローチをデプロイし,評価した。 我々はLSM、特にGPT4に適用し、専門家の税務判事や弁護士による評価によると、満足できる結果を得ることができた。 このベースでプロトタイプアプリケーションが開発されており、一般公開される予定だ。

We present some initial results of a large-scale Italian project called PRODIGIT which aims to support tax judges and lawyers through digital technology, focusing on AI. We have focused on generation of summaries of judicial decisions and on the extraction of related information, such as the identification of legal issues and decision-making criteria, and the specification of keywords. To this end, we have deployed and evaluated different tools and approaches to extractive and abstractive summarisation. We have applied LLMs, and particularly on GPT4, which has enabled us to obtain results that proved satisfactory, according to an evaluation by expert tax judges and lawyers. On this basis, a prototype application is being built which will be made publicly available.
翻訳日:2023-08-09 11:46:04 公開日:2023-08-04
# ディープラーニングを用いたcovid-19の自動検出と予測

Automated Detection and Forecasting of COVID-19 using Deep Learning Techniques: A Review ( http://arxiv.org/abs/2007.10785v6 )

ライセンス: Link先を確認
Afshin Shoeibi, Marjane Khodatars, Mahboobeh Jafari, Navid Ghassemi, Delaram Sadeghi, Parisa Moridian, Ali Khadem, Roohallah Alizadehsani, Sadiq Hussain, Assef Zare, Zahra Alizadeh Sani, Fahime Khozeimeh, Saeid Nahavandi, U. Rajendra Acharya, Juan M. Gorriz(参考訳) コロナウイルス(Coronavirus、COVID-19)は、世界中の多くの人々の健康を危険にさらす病気である。 COVID-19は1本鎖RNAを持つ中型でコーティングされたウイルスであり、RNAゲノムとしては最大で約120nmである。 x線およびct画像モードは、迅速かつ正確な医療診断を得るために広く用いられている。 これらの医療画像からcovid-19を識別することは、時間がかかり、ヒューマンエラーを起こしやすいため、非常に難しい。 したがって、人工知能(AI)手法は、一貫した高性能が得られる。 AI手法の中で、ディープラーニング(DL)ネットワークは、従来の機械学習(ML)と比較して最近人気を博している。 MLとは異なり、特徴抽出、特徴選択、分類のすべての段階はDLモデルで自動的に達成される。 本稿では,x線およびct画像を用いた研究を中心に,肺の診断と分画に対するdl技術の適用に関する徹底的な調査を行った。 また、世界各国における新型コロナウイルスの流行予測に関する論文をdlでレビューした。 最後に、dl技術を用いたcovid-19検出における課題と今後の研究に向けた方向性について述べる。

Coronavirus, or COVID-19, is a hazardous disease that has endangered the health of many people around the world by directly affecting the lungs. COVID-19 is a medium-sized, coated virus with a single-stranded RNA, and also has one of the largest RNA genomes and is approximately 120 nm. The X-Ray and computed tomography (CT) imaging modalities are widely used to obtain a fast and accurate medical diagnosis. Identifying COVID-19 from these medical images is extremely challenging as it is time-consuming and prone to human errors. Hence, artificial intelligence (AI) methodologies can be used to obtain consistent high performance. Among the AI methods, deep learning (DL) networks have gained popularity recently compared to conventional machine learning (ML). Unlike ML, all stages of feature extraction, feature selection, and classification are accomplished automatically in DL models. In this paper, a complete survey of studies on the application of DL techniques for COVID-19 diagnostic and segmentation of lungs is discussed, concentrating on works that used X-Ray and CT images. Additionally, a review of papers on the forecasting of coronavirus prevalence in different parts of the world with DL is presented. Lastly, the challenges faced in the detection of COVID-19 using DL techniques and directions for future research are discussed.
翻訳日:2023-08-09 01:43:22 公開日:2023-08-04
# 深層強化学習エージェントの探索に基づくテスト手法

A Search-Based Testing Approach for Deep Reinforcement Learning Agents ( http://arxiv.org/abs/2206.07813v4 )

ライセンス: Link先を確認
Amirhossein Zolfagharian, Manel Abdellatif, Lionel Briand, Mojtaba Bagherzadeh and Ramesh S(参考訳) 深層強化学習(drl)アルゴリズムは、自動運転やロボティクスといったさまざまな意思決定問題を解決するために、過去10年間にますます使われてきた。 しかし、これらのアルゴリズムは、しばしば誤った振る舞いを示し、潜在的に重大なエラーにつながる可能性があるため、安全クリティカルな環境にデプロイする場合、大きな課題に直面している。 DRLエージェントの安全性を評価する1つの方法は、実行時に重大な障害を引き起こす可能性のある障害を検出するためにそれらをテストすることである。 これにより、DRLポリシーを効果的にテストして、安全要件の正しさと遵守を確実にする方法について疑問が持ち上がる。 ほとんどの既存のDRLエージェントのテストでは、エージェントの状態や動作を妨害する敵攻撃を使用している。 しかし、そのような攻撃は環境の非現実的な状態につながることが多い。 彼らの主な目標は、要求に対するエージェントのポリシーの遵守をテストするのではなく、DRLエージェントの堅牢性をテストすることである。 DRL環境の巨大な状態空間、高いテスト実行コスト、およびDRLアルゴリズムのブラックボックスの性質のため、DRLエージェントの徹底的なテストは不可能である。 本稿では,限られた試験予算内でのエージェントの実行失敗を効果的に検索することにより,DRLエージェントのポリシーをテストするための検索ベース強化学習エージェント(STARLA)を提案する。 機械学習モデルと専用の遺伝的アルゴリズムを用いて、故障エピソードに対する探索を絞り込む。 ベンチマークとして広く使用されている深層q学習エージェントにstarlaを適用し,エージェントの方針に関連する障害を検出することにより,ランダムテストを大幅に上回っていることを示す。 また,DRLエージェントの異常エピソードを特徴付けるルールを検索結果から抽出する方法についても検討した。 このようなルールは、エージェントが失敗する条件を理解し、デプロイメントのリスクを評価するために使用することができる。

Deep Reinforcement Learning (DRL) algorithms have been increasingly employed during the last decade to solve various decision-making problems such as autonomous driving and robotics. However, these algorithms have faced great challenges when deployed in safety-critical environments since they often exhibit erroneous behaviors that can lead to potentially critical errors. One way to assess the safety of DRL agents is to test them to detect possible faults leading to critical failures during their execution. This raises the question of how we can efficiently test DRL policies to ensure their correctness and adherence to safety requirements. Most existing works on testing DRL agents use adversarial attacks that perturb states or actions of the agent. However, such attacks often lead to unrealistic states of the environment. Their main goal is to test the robustness of DRL agents rather than testing the compliance of agents' policies with respect to requirements. Due to the huge state space of DRL environments, the high cost of test execution, and the black-box nature of DRL algorithms, the exhaustive testing of DRL agents is impossible. In this paper, we propose a Search-based Testing Approach of Reinforcement Learning Agents (STARLA) to test the policy of a DRL agent by effectively searching for failing executions of the agent within a limited testing budget. We use machine learning models and a dedicated genetic algorithm to narrow the search towards faulty episodes. We apply STARLA on Deep-Q-Learning agents which are widely used as benchmarks and show that it significantly outperforms Random Testing by detecting more faults related to the agent's policy. We also investigate how to extract rules that characterize faulty episodes of the DRL agent using our search results. Such rules can be used to understand the conditions under which the agent fails and thus assess its deployment risks.
翻訳日:2023-08-09 01:21:05 公開日:2023-08-04
# 粗粒状状態空間ネットワークの持続的ホモロジー

Persistent Homology of Coarse Grained State Space Networks ( http://arxiv.org/abs/2206.02530v2 )

ライセンス: Link先を確認
Audun D. Myers, Max M. Chumley, Firas A. Khasawneh, Elizabeth Munch(参考訳) この研究は、動的状態検出のための複雑な遷移ネットワークのトポロジカル解析に特化している。 遷移ネットワークは時系列データから形成され、グラフ理論ツールを利用して基礎となる動的システムに関する情報を明らかにする。 しかし、従来のツールはそのようなグラフに存在する複雑なトポロジーを要約することができない。 本研究では,位相的データ解析から永続的ホモロジーを活用し,ネットワーク構造の研究を行う。 我々は、粗粒状態空間ネットワーク(CGSSN)とトポロジカルデータ解析(TDA)を用いた時系列からの動的状態検出と、TDAと組み合わせた順序分割ネットワーク(OPN)と、信号の時間遅延埋め込みに対する永続的ホモロジーの標準適用の2つの手法の対比を行った。 cgssnは,opnsと比較して動的状態検出と雑音ロバスト性が著しく向上していることが証明されるように,動的システムの動的状態に関する豊富な情報をキャプチャする。 また, cgssnの計算時間は信号の長さに依存しないため, tdaを時系列の時間分解埋め込みに適用するよりも計算効率が高いことを示した。

This work is dedicated to the topological analysis of complex transitional networks for dynamic state detection. Transitional networks are formed from time series data and they leverage graph theory tools to reveal information about the underlying dynamic system. However, traditional tools can fail to summarize the complex topology present in such graphs. In this work, we leverage persistent homology from topological data analysis to study the structure of these networks. We contrast dynamic state detection from time series using a coarse-grained state-space network (CGSSN) and topological data analysis (TDA) to two state of the art approaches: ordinal partition networks (OPNs) combined with TDA and the standard application of persistent homology to the time-delay embedding of the signal. We show that the CGSSN captures rich information about the dynamic state of the underlying dynamical system as evidenced by a significant improvement in dynamic state detection and noise robustness in comparison to OPNs. We also show that because the computational time of CGSSN is not linearly dependent on the signal's length, it is more computationally efficient than applying TDA to the time-delay embedding of the time series.
翻訳日:2023-08-09 01:19:37 公開日:2023-08-04
# ダークマターの原子干渉計試験

Atom Interferometer Tests of Dark Matter ( http://arxiv.org/abs/2205.13546v3 )

ライセンス: Link先を確認
Yufeng Du, Clara Murgui, Kris Pardo, Yikun Wang, Kathryn M. Zurek(参考訳) ダークマターの直接検出実験は、大きなパラメータ空間を除外してきている。 しかし、粒子質量が$<$ GeVの軽いダークマターモデルはまだほとんど拘束されていない。 本稿では,サブGeV質量における暗黒物質サブコンポーネントの検出に原子干渉計を用いることを提案する。 一般化ダークマター直接検出フレームワークを用いた原子干渉計の1つの「アーム」からダークマター散乱によるデコヒーレンスと位相変化について述べる。 これにより、核反動、隠れ光子過程、軸子相互作用といった複数のチャネルを考えることができる。 この枠組みをいくつかの原子干渉計実験に応用する。 原子干渉計は極低運動量沈着に敏感であり、そのコヒーレント原子は感度を高めるため、これらの実験は競争力が高く、他の直接検出法と相補的である。 特に原子干渉計は、$m_\chi \lesssim 10~\rm{keV}$でダークマターサブコンポーネントをプローブすることができる。 中間子質量 $m_\phi=10^{-10}m_\chi$ に対して、将来の原子干渉計は、核反動に対する既存の制約のギャップを$\bar{\sigma}_n \sim 10^{-46}~\rm{cm}^2$ for $m_\chi \sim 10^{-5} - 10^{-1}~\rm{mev}$ダークマター質量に縮めることができる。

Direct detection experiments for dark matter are increasingly ruling out large parameter spaces. However, light dark matter models with particle masses $<$ GeV are still largely unconstrained. Here we examine a proposal to use atom interferometers to detect a light dark matter subcomponent at sub-GeV masses. We describe the decoherence and phase shifts caused by dark matter scattering off of one "arm" of an atom interferometer using a generalized dark matter direct detection framework. This allows us to consider multiple channels: nuclear recoils, hidden photon processes, and axion interactions. We apply this framework to several proposed atom interferometer experiments. Because atom interferometers are sensitive to extremely low momentum deposition and their coherent atoms give them a boost in sensitivity, these experiments will be highly competitive and complementary to other direct detection methods. In particular, atom interferometers are uniquely able to probe a dark matter sub-component with $m_\chi \lesssim 10~\rm{keV}$. We find that, for a mediator mass $m_\phi=10^{-10}m_\chi$, future atom interferometers could close a gap in the existing constraints on nuclear recoils down to $\bar{\sigma}_n \sim 10^{-46}~\rm{cm}^2$ for $m_\chi \sim 10^{-5} - 10^{-1}~\rm{MeV}$ dark matter masses.
翻訳日:2023-08-09 01:19:14 公開日:2023-08-04
# ベイジアンブリッジ回帰の変分推論

Variational Inference for Bayesian Bridge Regression ( http://arxiv.org/abs/2205.09515v2 )

ライセンス: Link先を確認
Carlos Tadeu Pagani Zanini, Helio dos Santos Migon and Ronaldo Dias(参考訳) 橋梁ペナル化を伴う回帰モデルに対するベイズ推定のための自動微分変分推論(ADVI)の実装について検討する。 ブリッジのアプローチでは、$\ell_{\alpha}$ normを使用し、特殊ケースとしてLasso$(\alpha = 1$)およびridge$(\alpha = 2)$ Penalizationsを含む回帰係数の大きな値に対するペナル化を定義するために$\alpha \in (0, +\infty)$を使用する。 完全ベイズ予想は、すべてのモデルパラメータに対してシームレスに共同不確実性推定を与える。 MCMCアパッチは橋梁の回帰には有効であるが、特に高次元の大規模なデータセットでは遅くなる可能性がある。 adviの実装では、各イテレーションで小さなバッチデータ(確率的勾配に基づくアルゴリズムによる)を使用できるため、mcmcと比較して計算時間を短縮できる。 B-スプラインを持つ非パラメトリック回帰モデルに対するアプローチについて説明するが、この方法は基底関数の他の選択に対してシームレスに機能する。 シミュレーション研究は,提案手法の主な特性を示す。

We study the implementation of Automatic Differentiation Variational inference (ADVI) for Bayesian inference on regression models with bridge penalization. The bridge approach uses $\ell_{\alpha}$ norm, with $\alpha \in (0, +\infty)$ to define a penalization on large values of the regression coefficients, which includes the Lasso ($\alpha = 1$) and ridge $(\alpha = 2)$ penalizations as special cases. Full Bayesian inference seamlessly provides joint uncertainty estimates for all model parameters. Although MCMC aproaches are available for bridge regression, it can be slow for large dataset, specially in high dimensions. The ADVI implementation allows the use of small batches of data at each iteration (due to stochastic gradient based algorithms), therefore speeding up computational time in comparison with MCMC. We illustrate the approach on non-parametric regression models with B-splines, although the method works seamlessly for other choices of basis functions. A simulation study shows the main properties of the proposed method.
翻訳日:2023-08-09 01:18:27 公開日:2023-08-04
# 流体バッチ:エッジNPU上での早期実行ニューラルネットワークの事前実行

Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural Networks on Edge NPUs ( http://arxiv.org/abs/2209.13443v2 )

ライセンス: Link先を確認
Alexandros Kouris, Stylianos I. Venieris, Stefanos Laskaridis, Nicholas D. Lane(参考訳) コンピュータビジョンタスクのバックボーンとしてディープニューラルネットワーク(DNN)が登場し、現実のアプリケーションへの採用が継続的に広まっています。 消費者の世界におけるスマートデバイスの存在と全能性を考えると、"スマートエコシステム"は、センシングがスタンドアロンではなく同時に行われるように形成されている。 これはデバイス上の推論パラダイムを、複数のデバイス(スマートホームや自動運転車など)が動的レートで処理するためにデータをストリームできる、エッジに集中型ニューラル処理ユニット(NPU)をデプロイすることに移行するものだ。 これにより、入力バッチのポテンシャルが向上する一方で、ナイーブなソリューションは、特にスピーキング負荷下で、パフォーマンスと経験の質を損なう可能性がある。 同時に、確率計算グラフ(例えばアーリーエグジット(EE)モデル)を含む動的DNNの展開は、そのようなシステムにおける動的挙動の新しい次元を導入している。 本研究では,実行時のサンプルプリエンプションを可能とし,到着過程と早期脱出過程の両方によって引き起こされる動的性を考慮し,新たな初期出力スケジューリングアルゴリズムを提案する。 同時に, npuハードウェアアーキテクチャの設計領域に, 異なるバッチサイズに対する実行時の適応性を実現し, 小さいバッチでもnpu利用性を大幅に向上させる, 流体バッチとスタック可能な処理要素という, 2つの新たな次元を導入する。 評価の結果,提案システムは,平均レイテンシとテール遅延サービスレベル満足度の観点から,最先端DNNストリーミングシステムよりも平均1.97倍,平均6.7倍向上していることがわかった。

With deep neural networks (DNNs) emerging as the backbone in a multitude of computer vision tasks, their adoption in real-world applications broadens continuously. Given the abundance and omnipresence of smart devices in the consumer landscape, "smart ecosystems'' are being formed where sensing happens concurrently rather than standalone. This is shifting the on-device inference paradigm towards deploying centralised neural processing units (NPUs) at the edge, where multiple devices (e.g. in smart homes or autonomous vehicles) can stream their data for processing with dynamic rates. While this provides enhanced potential for input batching, naive solutions can lead to subpar performance and quality of experience, especially under spiking loads. At the same time, the deployment of dynamic DNNs, comprising stochastic computation graphs (e.g. early-exit (EE) models), introduces a new dimension of dynamic behaviour in such systems. In this work, we propose a novel early-exit-aware scheduling algorithm that allows sample preemption at run time, to account for the dynamicity introduced both by the arrival and early-exiting processes. At the same time, we introduce two novel dimensions to the design space of the NPU hardware architecture, namely Fluid Batching and Stackable Processing Elements, that enable run-time adaptability to different batch sizes and significantly improve the NPU utilisation even at small batches. Our evaluation shows that the proposed system achieves an average 1.97x and 6.7x improvement over state-of-the-art DNN streaming systems in terms of average latency and tail latency service-level objective (SLO) satisfaction, respectively.
翻訳日:2023-08-09 00:49:09 公開日:2023-08-04
# 倫理的枠組みとコンピュータセキュリティのトロリー問題--会話の基礎

Ethical Frameworks and Computer Security Trolley Problems: Foundations for Conversations ( http://arxiv.org/abs/2302.14326v2 )

ライセンス: Link先を確認
Tadayoshi Kohno, Yasemin Acar, Wulf Loh(参考訳) コンピュータセキュリティ研究コミュニティは、倫理的な問題に定期的に取り組む。 倫理・道徳哲学の分野は、何世紀にもわたって、それが「道徳的に良い」あるいは少なくとも「道徳的に許される/受け入れられる」を意味するかを検討してきた。 哲学の貢献の中には、(1)行動の道徳性を評価するための枠組み、(2)道徳的推論と意思決定に関する異なる視点に関する議論と知的な探求を促進する道徳的ジレンマを特徴とするシナリオ(トロリー問題など)などがある。 古典的なトロリー問題では、コンシークエンシャル解析とデオントロジー解析は異なる意見を述べることができる。 本研究では,コンピュータセキュリティ研究における道徳的問題と倫理的/道徳哲学の関連性について,トロリー問題のようなコンピュータセキュリティをテーマとした道徳的ジレンマの作成と分析を通じて明確に検証し,セキュリティ研究に関する意思決定の道徳性に関するセキュリティ研究者の間での議論に貢献することを目的とする。 道徳的に正しいか間違っているかを明確に定義しようとはしませんし、別のフレームワークよりもひとつのフレームワークを主張することもできません。 実際、私たちが中心とするコンシークエンシストとデオントロジーの枠組みは、シナリオで異なる結論に達することに加えて、大きな制限があります。 代わりに、私たちのシナリオを提供し、2つの異なる倫理的アプローチを比較することによって、コンピュータセキュリティ研究分野が倫理的問題をどう考えるか、そしてどのように会話するか、特に道徳的に正しいか、許容できるかに関する異なる視点がある場合に貢献しようと努めています。

The computer security research community regularly tackles ethical questions. The field of ethics / moral philosophy has for centuries considered what it means to be "morally good" or at least "morally allowed / acceptable". Among philosophy's contributions are (1) frameworks for evaluating the morality of actions -- including the well-established consequentialist and deontological frameworks -- and (2) scenarios (like trolley problems) featuring moral dilemmas that can facilitate discussion about and intellectual inquiry into different perspectives on moral reasoning and decision-making. In a classic trolley problem, consequentialist and deontological analyses may render different opinions. In this research, we explicitly make and explore connections between moral questions in computer security research and ethics / moral philosophy through the creation and analysis of trolley problem-like computer security-themed moral dilemmas and, in doing so, we seek to contribute to conversations among security researchers about the morality of security research-related decisions. We explicitly do not seek to define what is morally right or wrong, nor do we argue for one framework over another. Indeed, the consequentialist and deontological frameworks that we center, in addition to coming to different conclusions for our scenarios, have significant limitations. Instead, by offering our scenarios and by comparing two different approaches to ethics, we strive to contribute to how the computer security research field considers and converses about ethical questions, especially when there are different perspectives on what is morally right or acceptable.
翻訳日:2023-08-09 00:02:12 公開日:2023-08-04
# 自己教師付きマルチモーダル学習:調査

Self-Supervised Multimodal Learning: A Survey ( http://arxiv.org/abs/2304.01008v2 )

ライセンス: Link先を確認
Yongshuo Zong, Oisin Mac Aodha, Timothy Hospedales(参考訳) マルチモーダル学習は、複数のモーダルからの情報を理解し分析することを目的としており、近年、監督体制において大きな進歩を遂げている。 しかし、高価な人間のアノテーションと組み合わせたデータへの強い依存は、モデルのスケールアップを妨げる。 一方,大規模無記名データの利用状況を考えると,自己教師あり学習は,アノテーションのボトルネックを緩和するための魅力的な戦略となっている。 これら2つの方向に基づいて、自己教師付きマルチモーダル学習(SSML)は、生のマルチモーダルデータから学習する方法を提供する。 本研究では,マルチモーダルデータを用いた自己教師あり学習に本質的な3つの課題,(1)ラベルのないマルチモーダルデータからの学習表現,(2)異なるモダリティの融合,(3)不整合データによる学習について,ssmlの最先端を総合的に検討する。 そして、これらの課題に対する既存の解決策を詳述する。 具体的には,(1)自己スーパービジョンによるマルチモーダル非ラベルデータから学習する目的,(2)異なるマルチモーダル融合戦略の観点からのモデルアーキテクチャ,(3)粗粒度および細粒度アライメントのためのペアフリー学習戦略を考える。 また、医療、リモートセンシング、機械翻訳といった様々な分野におけるSSMLアルゴリズムの実際の応用についてもレビューする。 最後に,SSMLの課題と今後の方向性について論じる。 関連リソースのコレクションは、https://github.com/ys-zong/awesome-self-supervised-multimodal-learningにある。

Multimodal learning, which aims to understand and analyze information from multiple modalities, has achieved substantial progress in the supervised regime in recent years. However, the heavy dependence on data paired with expensive human annotations impedes scaling up models. Meanwhile, given the availability of large-scale unannotated data in the wild, self-supervised learning has become an attractive strategy to alleviate the annotation bottleneck. Building on these two directions, self-supervised multimodal learning (SSML) provides ways to learn from raw multimodal data. In this survey, we provide a comprehensive review of the state-of-the-art in SSML, in which we elucidate three major challenges intrinsic to self-supervised learning with multimodal data: (1) learning representations from multimodal data without labels, (2) fusion of different modalities, and (3) learning with unaligned data. We then detail existing solutions to these challenges. Specifically, we consider (1) objectives for learning from multimodal unlabeled data via self-supervision, (2) model architectures from the perspective of different multimodal fusion strategies, and (3) pair-free learning strategies for coarse-grained and fine-grained alignment. We also review real-world applications of SSML algorithms in diverse fields such as healthcare, remote sensing, and machine translation. Finally, we discuss challenges and future directions for SSML. A collection of related resources can be found at: https://github.com/ys-zong/awesome-self-supervised-multimodal-learning.
翻訳日:2023-08-08 23:30:56 公開日:2023-08-04
# ジェネリックソースコードのニューロシンボリック実行

Neuro-Symbolic Execution of Generic Source Code ( http://arxiv.org/abs/2304.00989v2 )

ライセンス: Link先を確認
Yaojie Hu, Jin Tian(参考訳) ソースコードに従って構成されたニューラルネットワークによって、Pythonプログラムをステートメントバイステートメントで実行できるか? 我々はニューロシンボリック実行問題を定式化し、定義の欠如を許容する汎用ソースコードの実行のための最初のニューラルモデルであるNeural Interpretation (NI)を導入する。 NIはソースコード構造を保持し、すべての変数がベクターエンコーディングを持ち、すべての関数がニューラルネットワークを実行する。 NIは、コンパイラアーキテクチャを持つコンピュータの新しいニューラルモデルであり、ソースコードによって「プログラムされた」ニューラルネットワーク層を組み立てることができる。 NIは、具体的な入力のないライブラリ関数を含むPy150データセットプログラムを実行することができる最初のニューラルモデルであり、柔軟なコード理解の目的でトレーニングすることができる。 誤用と補修のための具体的入力を使わずにホワイトボックスの実行を実証する。

Can a Python program be executed statement-by-statement by neural networks composed according to the source code? We formulate the Neuro-Symbolic Execution Problem and introduce Neural Interpretation (NI), the first neural model for the execution of generic source code that allows missing definitions. NI preserves source code structure, where every variable has a vector encoding, and every function executes a neural network. NI is a novel neural model of computers with a compiler architecture that can assemble neural layers "programmed" by source code. NI is the first neural model capable of executing Py150 dataset programs, including library functions without concrete inputs, and it can be trained with flexible code understanding objectives. We demonstrate white-box execution without concrete inputs for variable misuse localization and repair.
翻訳日:2023-08-08 23:30:29 公開日:2023-08-04
# 音声バイオメトリックス研究におけるベンチマークデータセットのダイナミクスとバイアス,プライバシ問題

Benchmark Dataset Dynamics, Bias and Privacy Challenges in Voice Biometrics Research ( http://arxiv.org/abs/2304.03858v3 )

ライセンス: Link先を確認
Casandra Rusti, Anna Leschanowsky, Carolyn Quinlan, Michaela Pnacek (ova), Lauriane Gorce, Wiebke (Toussaint) Hutiri(参考訳) 話者認識は、銀行、教育、採用、移民、法執行、医療、健康など様々な産業で応用されている音声ベースの生体認証技術である。 しかし、データセットの評価と監査は、顔認識やその他のコンピュータビジョンタスクにおけるデータプラクティスを改善してきたが、話者認識におけるデータプラクティスは、ほとんど疑わしくなかった。 私たちの研究は、データセットの利用が時間とともにどのように進化してきたか、そしてこれが話者認識システムにおけるバイアス、公平性、プライバシーにどのような影響を及ぼすのかを探求することで、このギャップに対処することを目的としています。 これまでの研究では、一般的な話者認識ベンチマークにおける歴史的、表現的、測定バイアスの存在が示されている。 本稿では,2012年から2021年までの訓練と評価に用いる話者認識データセットの縦断的研究を行う。 我々は,話者認識アプローチが深層ニューラルネットワークの普及に移行した重要な期間における,データセットのコミュニティ導入と利用状況の変化を調査するため,700件近い論文を調査した。 本研究は,この分野で最も一般的に使用されるデータセットを特定し,その使用パターンを調査し,バイアス,公平性,その他の倫理的懸念に影響を与える属性を評価する。 以上より,話者認識技術の倫理と公平性に関するさらなる研究分野が示唆された。

Speaker recognition is a widely used voice-based biometric technology with applications in various industries, including banking, education, recruitment, immigration, law enforcement, healthcare, and well-being. However, while dataset evaluations and audits have improved data practices in face recognition and other computer vision tasks, the data practices in speaker recognition have gone largely unquestioned. Our research aims to address this gap by exploring how dataset usage has evolved over time and what implications this has on bias, fairness and privacy in speaker recognition systems. Previous studies have demonstrated the presence of historical, representation, and measurement biases in popular speaker recognition benchmarks. In this paper, we present a longitudinal study of speaker recognition datasets used for training and evaluation from 2012 to 2021. We survey close to 700 papers to investigate community adoption of datasets and changes in usage over a crucial time period where speaker recognition approaches transitioned to the widespread adoption of deep neural networks. Our study identifies the most commonly used datasets in the field, examines their usage patterns, and assesses their attributes that affect bias, fairness, and other ethical concerns. Our findings suggest areas for further research on the ethics and fairness of speaker recognition technology.
翻訳日:2023-08-08 23:21:31 公開日:2023-08-04
# 部分最小方形を用いた神経進化のための高次元サロゲートモデリングへの初期ステップ

Initial Steps Towards Tackling High-dimensional Surrogate Modeling for Neuroevolution Using Kriging Partial Least Squares ( http://arxiv.org/abs/2305.03612v4 )

ライセンス: Link先を確認
Fergal Stapleton and Edgar Galv\'an(参考訳) サロゲート支援進化アルゴリズム(SAEA)は、進化計算システムにおける適合関数の近似を目的とし、効率的な計算モデルを使用することを目的としている。 この研究領域は20年以上にわたって活発に行われており、例えば、単一目的最適化や動的かつ定常的な最適化問題など、様々な分野の専門研究コミュニティから大きな注目を集めている。 SAEAsコミュニティからほとんど注目を集めていない、創発的でエキサイティングな領域は、神経進化にある。 これは、人工知能(ANN)アーキテクチャの自動構成、ハイパーパラメータ、および/またはANNのトレーニングにおける進化的アルゴリズムの使用を指す。 しかし、ANNは2つの大きな問題に悩まされている。 (a)高度な計算能力の正しい訓練への利用、及び b) 優れたネットワークを得るために必要なANNを正しく設定するために必要な高度に専門化された人的専門知識。 この研究は、これらの2つの問題に対処することによって、神経進化におけるSAEAのこの重要な研究ギャップを埋めることを目的としている。 そこで本研究では,よく知られたkriging法と比較して,よく知られた近似サーロゲートモデルの効率的な計算を可能にするkriging部分最小二乗法について述べる。

Surrogate-assisted evolutionary algorithms (SAEAs) aim to use efficient computational models with the goal of approximating the fitness function in evolutionary computation systems. This area of research has been active for over two decades and has received significant attention from the specialised research community in different areas, for example, single and many objective optimisation or dynamic and stationary optimisation problems. An emergent and exciting area that has received little attention from the SAEAs community is in neuroevolution. This refers to the use of evolutionary algorithms in the automatic configuration of artificial neural network (ANN) architectures, hyper-parameters and/or the training of ANNs. However, ANNs suffer from two major issues: (a) the use of highly-intense computational power for their correct training, and (b) the highly specialised human expertise required to correctly configure ANNs necessary to get a well-performing network. This work aims to fill this important research gap in SAEAs in neuroevolution by addressing these two issues. We demonstrate how one can use a Kriging Partial Least Squares method that allows efficient computation of good approximate surrogate models compared to the well-known Kriging method, which normally cannot be used in neuroevolution due to the high dimensionality of the data.
翻訳日:2023-08-08 23:01:22 公開日:2023-08-04
# クロスモーダルセマンティクスのマイニングによるオブジェクトセグメンテーション

Object Segmentation by Mining Cross-Modal Semantics ( http://arxiv.org/abs/2305.10469v3 )

ライセンス: Link先を確認
Zongwei Wu, Jingjing Wang, Zhuyun Zhou, Zhaochong An, Qiuping Jiang, C\'edric Demonceaux, Guolei Sun, Radu Timofte(参考訳) マルチセンサーの手がかりはオブジェクトのセグメンテーションに有望であるが、各センサの固有のノイズは、実際にはキャリブレーションエラーと同様に、セグメンテーションの精度をバイアスする可能性がある。 本稿では,マルチモーダル特徴の融合と復号化を導くために,クロスモーダル・セマンティックスをマイニングし,相対エントロピーに基づくモーダルコントリビューションの制御を目的とした新しいアプローチを提案する。 マルチモーダル入力のセマンティクスは、モダリティ共有一貫性とモダリティ固有変動の2つの側面で検討する。 具体的には,(1)全周可視核融合(af),(2)粗視デコーダ(cfd),(3)クロスレイヤー自己スーパービジョンからなる,xmsnetと呼ばれる新しいネットワークを提案する。 一方、AFブロックは共有表現と特定の表現を明示的に解離し、品質に応じて \textit{proportion, region,} と \textit{pattern} を調整することで、モーダルコントリビューションの重み付けを学ぶ。 一方、当社のCFDは、まず共有機能をデコードし、それから特異性を考慮したクエリによって出力を洗練します。 さらに,ネットワーク階層間のインタラクションを可能にするために,復号層間の意味的一貫性を強制し,特徴判別性を改善する。 深さや熱的手がかりのある11のデータセットと、salientとcamouflage object segmentationという2つの困難なタスクの徹底的な比較は、パフォーマンスとロバスト性の両方の観点からの有効性を検証する。 ソースコードはhttps://github.com/Zongwei97/XMSNetで公開されている。

Multi-sensor clues have shown promise for object segmentation, but inherent noise in each sensor, as well as the calibration error in practice, may bias the segmentation accuracy. In this paper, we propose a novel approach by mining the Cross-Modal Semantics to guide the fusion and decoding of multimodal features, with the aim of controlling the modal contribution based on relative entropy. We explore semantics among the multimodal inputs in two aspects: the modality-shared consistency and the modality-specific variation. Specifically, we propose a novel network, termed XMSNet, consisting of (1) all-round attentive fusion (AF), (2) coarse-to-fine decoder (CFD), and (3) cross-layer self-supervision. On the one hand, the AF block explicitly dissociates the shared and specific representation and learns to weight the modal contribution by adjusting the \textit{proportion, region,} and \textit{pattern}, depending upon the quality. On the other hand, our CFD initially decodes the shared feature and then refines the output through specificity-aware querying. Further, we enforce semantic consistency across the decoding layers to enable interaction across network hierarchies, improving feature discriminability. Exhaustive comparison on eleven datasets with depth or thermal clues, and on two challenging tasks, namely salient and camouflage object segmentation, validate our effectiveness in terms of both performance and robustness. The source code is publicly available at https://github.com/Zongwei97/XMSNet.
翻訳日:2023-08-08 22:52:27 公開日:2023-08-04
# 局所スペクトル時間特性の音声解析への応用

Boosting Local Spectro-Temporal Features for Speech Analysis ( http://arxiv.org/abs/2305.10270v3 )

ライセンス: Link先を確認
Michael Guerzhoy(参考訳) 本稿では,音声認識の文脈における電話分類の問題を紹介し,電話分類に使用できる局所分光時間特徴の組について検討する。 特に,物体検出によく用いられる2種類の特徴を用いた音声分類の予備的結果として,Hear特徴とSVM分類Histograms of Gradients (HoG)を提案する。

We introduce the problem of phone classification in the context of speech recognition, and explore several sets of local spectro-temporal features that can be used for phone classification. In particular, we present some preliminary results for phone classification using two sets of features that are commonly used for object detection: Haar features and SVM-classified Histograms of Gradients (HoG).
翻訳日:2023-08-08 22:51:56 公開日:2023-08-04
# graphologue:インタラクティブダイアグラムによる大規模言語モデル応答の検討

Graphologue: Exploring Large Language Model Responses with Interactive Diagrams ( http://arxiv.org/abs/2305.11473v2 )

ライセンス: Link先を確認
Peiling Jiang, Jude Rayan, Steven P. Dow, Haijun Xia(参考訳) 大規模言語モデル(llm)は最近、アクセスの容易さと、さまざまなユーザ質問に対するテキスト応答を合成する前例のない能力により、人気が高まっている。 しかし、ChatGPTのようなLLMは、テキストベースメディアと線形会話構造が不十分なため、複雑な情報タスクをサポートするのに重大な制限がある。 10人の参加者によるフォーマティブな調査を通じて,llmインタフェースは長めの応答をしばしば呈し,特に複雑なタスクにおいて,情報を迅速に理解し,柔軟に操作することが困難であることを見出した。 本稿では,LLMからのテキストベースの応答を図形に変換する対話型システムであるGraphologueについて述べる。 Graphologueは、LCM応答からエンティティと関係を抽出し、ノードリンク図をリアルタイムで構築する新しいプロンプト戦略とインターフェース設計を採用している。 さらに、ユーザは図と対話して、グラフィカルなプレゼンテーションを柔軟に調整し、さらに情報を得るためにコンテキスト固有のプロンプトを提出することができる。 図を利用して、グラフィカルで非線形な人間とLLMの対話を可能にし、情報探索、組織化、理解を容易にする。

Large language models (LLMs) have recently soared in popularity due to their ease of access and the unprecedented ability to synthesize text responses to diverse user questions. However, LLMs like ChatGPT present significant limitations in supporting complex information tasks due to the insufficient affordances of the text-based medium and linear conversational structure. Through a formative study with ten participants, we found that LLM interfaces often present long-winded responses, making it difficult for people to quickly comprehend and interact flexibly with various pieces of information, particularly during more complex tasks. We present Graphologue, an interactive system that converts text-based responses from LLMs into graphical diagrams to facilitate information-seeking and question-answering tasks. Graphologue employs novel prompting strategies and interface designs to extract entities and relationships from LLM responses and constructs node-link diagrams in real-time. Further, users can interact with the diagrams to flexibly adjust the graphical presentation and to submit context-specific prompts to obtain more information. Utilizing diagrams, Graphologue enables graphical, non-linear dialogues between humans and LLMs, facilitating information exploration, organization, and comprehension.
翻訳日:2023-08-08 22:39:57 公開日:2023-08-04
# i.i.d.行列の散逸スペクトル形式因子

The Dissipative Spectral Form Factor for I.I.D. Matrices ( http://arxiv.org/abs/2306.16262v3 )

ライセンス: Link先を確認
Giorgio Cipolloni and Nicolo Grometto(参考訳) ジニブレアンサンブルの[arXiv:2103.05001]に最近導入された散逸スペクトル形因子(DSFF)は、散逸量子系の普遍的性質を研究するための鍵となるツールである。 本研究では,実数や複素数を中間時間スケールまで含む大きな乱数行列のdsffを計算し, [arxiv:2103.05001] からの予測を確認した。 実例におけるDSFFの解析式は以前不明であった。 さらに,DSFFの連結成分は,短時間で成分の4次累積に依存する非普遍的補正を示すことを示した。 これらの結果は、非エルミート確率行列[arXiv:2002.02438, arXiv:1912.04100]の線形固有値統計に対する中心極限定理に基づいている。

The Dissipative Spectral Form Factor (DSFF), recently introduced in [arXiv:2103.05001] for the Ginibre ensemble, is a key tool to study universal properties of dissipative quantum systems. In this work we compute the DSFF for a large class of random matrices with real or complex entries up to an intermediate time scale, confirming the predictions from [arXiv:2103.05001]. The analytic formula for the DSFF in the real case was previously unknown. Furthermore, we show that for short times the connected component of the DSFF exhibits a non-universal correction depending on the fourth cumulant of the entries. These results are based on the central limit theorem for linear eigenvalue statistics of non-Hermitian random matrices [arXiv:2002.02438, arXiv:1912.04100].
翻訳日:2023-08-08 22:31:25 公開日:2023-08-04
# GIST:細粒度オブジェクト分類のための画像特化テキストの生成

GIST: Generating Image-Specific Text for Fine-grained Object Classification ( http://arxiv.org/abs/2307.11315v2 )

ライセンス: Link先を確認
Kathleen M. Lewis and Emily Mu and Adrian V. Dalca and John Guttag(参考訳) 最近の視覚言語モデルは、多くの画像分類タスクで視覚のみのモデルを上回る。 しかし、テキスト/画像のペア記述がないため、細かな画像分類のためにこれらのモデルを微調整することは困難である。 本研究では,画像のみのデータセットから画像固有の細粒度テキスト記述を生成する手法gistを提案し,これらの記述が分類の改善に利用できることを示す。 私たちの方法の主な部分は 1. 事前訓練された大規模言語モデルにドメイン固有のプロンプトを付与し、各クラスごとに多種多様な詳細なテキスト記述を生成する。 2.画像中の関連する視覚特徴をキャプチャするラベル保存テキスト記述と、各画像にマッチする事前訓練された視覚言語モデルを使用すること。 画像と生成テキストのペア上で視覚言語モデルを微調整することでgistの有用性を実証し,分類改善のための協調した視覚言語表現空間を学習する。 学習した表現空間を,異なる領域の4つの細粒度分類データセットのフルショットおよび数ショットシナリオで評価した。 提案手法は,CLIP線形プローブよりも平均4.1\%の精度向上と,フルショットデータセット上での従来の最先端画像テキスト分類法よりも平均1.1\%の精度向上を実現している。 本手法は, マイトショット方式において同様の改善を実現する。 コードはhttps://github.com/emu1729/GISTで入手できる。

Recent vision-language models outperform vision-only models on many image classification tasks. However, because of the absence of paired text/image descriptions, it remains difficult to fine-tune these models for fine-grained image classification. In this work, we propose a method, GIST, for generating image-specific fine-grained text descriptions from image-only datasets, and show that these text descriptions can be used to improve classification. Key parts of our method include 1. prompting a pretrained large language model with domain-specific prompts to generate diverse fine-grained text descriptions for each class and 2. using a pretrained vision-language model to match each image to label-preserving text descriptions that capture relevant visual features in the image. We demonstrate the utility of GIST by fine-tuning vision-language models on the image-and-generated-text pairs to learn an aligned vision-language representation space for improved classification. We evaluate our learned representation space in full-shot and few-shot scenarios across four diverse fine-grained classification datasets, each from a different domain. Our method achieves an average improvement of $4.1\%$ in accuracy over CLIP linear probes and an average of $1.1\%$ improvement in accuracy over the previous state-of-the-art image-text classification method on the full-shot datasets. Our method achieves similar improvements across few-shot regimes. Code is available at https://github.com/emu1729/GIST.
翻訳日:2023-08-08 20:37:36 公開日:2023-08-04
# 航空画像と衛星画像を用いたタイの資産価値の推定

Thailand Asset Value Estimation Using Aerial or Satellite Imagery ( http://arxiv.org/abs/2307.08650v2 )

ライセンス: Link先を確認
Supawich Puengdang, Worawate Ausawalaithong, Phiratath Nopratanawong, Narongdech Keeratipranon, Chayut Wongkamthong(参考訳) 不動産はタイの経済において重要なセクターであり、より正確な土地価格予測アプローチを求める声が高まっている。 重み付き品質スコア(wqs)のような伝統的な土地価格予測法は、主観的基準への依存と空間変数に対する考慮の欠如のために制限されている。 本研究では,Kasikorn Business Technology Group(KBTG)が提供するデータセットから,Google Map APIからの航空画像や衛星画像を利用して,土地価格予測モデルを強化する。 そこで我々は,Samese-inspireed Neural Networkと事前学習したEfficientNetアーキテクチャを用いた類似性に基づく資産評価モデルを提案する。 深層学習モデルと木ベースモデルを用いて,roc曲線(auc)下の約0.81の領域を推定し,表データのみを用いたベースラインモデルと比較した。 対象の土地の合理的価格を予測するために, 既定の閾値よりも高い類似度点を有する近隣土地の評価価格を用いた。 20\%平均絶対パーセンテージエラー(mape)では、リコールを59.26\%から69.55\%に改善し、より正確で信頼性の高い土地価格予測手法を示した。 我々のモデルは、航空や衛星画像から土地利用や環境要因をより包括的に把握し、タイの土地評価に対してより正確でデータ駆動的で適応的なアプローチを提供する。

Real estate is a critical sector in Thailand's economy, which has led to a growing demand for a more accurate land price prediction approach. Traditional methods of land price prediction, such as the weighted quality score (WQS), are limited due to their reliance on subjective criteria and their lack of consideration for spatial variables. In this study, we utilize aerial or satellite imageries from Google Map API to enhance land price prediction models from the dataset provided by Kasikorn Business Technology Group (KBTG). We propose a similarity-based asset valuation model that uses a Siamese-inspired Neural Network with pretrained EfficientNet architecture to assess the similarity between pairs of lands. By ensembling deep learning and tree-based models, we achieve an area under the ROC curve (AUC) of approximately 0.81, outperforming the baseline model that used only tabular data. The appraisal prices of nearby lands with similarity scores higher than a predefined threshold were used for weighted averaging to predict the reasonable price of the land in question. At 20\% mean absolute percentage error (MAPE), we improve the recall from 59.26\% to 69.55\%, indicating a more accurate and reliable approach to predicting land prices. Our model, which is empowered by a more comprehensive view of land use and environmental factors from aerial or satellite imageries, provides a more precise, data-driven, and adaptive approach for land valuation in Thailand.
翻訳日:2023-08-08 20:35:00 公開日:2023-08-04
# AI4GCC - チーム: 海底レベル: 批判と改善

AI4GCC - Team: Below Sea Level: Critiques and Improvements ( http://arxiv.org/abs/2307.13894v2 )

ライセンス: Link先を確認
Bram Renting, Phillip Wozny, Robert Loftin, Claudia Wieners, Erman Acar(参考訳) 本稿では、気候変動が経済に与える影響を評価するための統合評価モデル(IAM)であるRICE-Nの批判的分析を行う。 我々は、アクションマスキングや無関係な行動を含むRICE-Nの重要課題を特定し、関税収入の活用や過剰生産の処罰などの改善を提案する。 また、概してIAMの特徴、すなわち過度に楽観的な損傷関数と非現実的な評価コスト関数に重きを置いている。 本研究は, 政策立案者へのインスピレーションとして, シミュレーションを改善するため, RICE-N フレームワークをさらに発展させる取り組みに寄与する。

We present a critical analysis of the simulation framework RICE-N, an integrated assessment model (IAM) for evaluating the impacts of climate change on the economy. We identify key issues with RICE-N, including action masking and irrelevant actions, and suggest improvements such as utilizing tariff revenue and penalizing overproduction. We also critically engage with features of IAMs in general, namely overly optimistic damage functions and unrealistic abatement cost functions. Our findings contribute to the ongoing efforts to further develop the RICE-N framework in an effort to improve the simulation, making it more useful as an inspiration for policymakers.
翻訳日:2023-08-08 20:27:50 公開日:2023-08-04
# 定量的双極性議論フレームワークにおける議論帰属説明(技術報告)

Argument Attribution Explanations in Quantitative Bipolar Argumentation Frameworks (Technical Report) ( http://arxiv.org/abs/2307.13582v3 )

ライセンス: Link先を確認
Xiang Yin, Nico Potyka, Francesca Toni(参考訳) 議論的説明可能なaiは近年、議論フレームワーク(afs)の推論結果を説明することへの関心が高まっている。 拡張的セマンティクスの精神における議論・論議・対話によるAFの推論結果について質的に説明する研究がかなりあるが、段階的セマンティクスの下でのAFの定量的推論結果は、アプリケーションで広く使われているにもかかわらず、あまり注目されていない。 本稿では,このギャップを埋めることに寄与し,AAE(Argument Attribution Explanations)の新たな理論を,定量的なバイポーラ調停フレームワーク(QBAF)の文脈に機械学習の特徴属性の精神を取り入れることで提案する。 我々はAAEsの望ましい性質について研究し、その中には新しいものや文献から我々の設定に部分的に適応したものもある。 本研究は,偽ニュース検出と映画のレコメンデータシステムに関する2つのケーススタディを実施し,本手法の有効性を実証する。

Argumentative explainable AI has been advocated by several in recent years, with an increasing interest on explaining the reasoning outcomes of Argumentation Frameworks (AFs). While there is a considerable body of research on qualitatively explaining the reasoning outcomes of AFs with debates/disputes/dialogues in the spirit of extension-based semantics, explaining the quantitative reasoning outcomes of AFs under gradual semantics has not received much attention, despite widespread use in applications. In this paper, we contribute to filling this gap by proposing a novel theory of Argument Attribution Explanations (AAEs) by incorporating the spirit of feature attribution from machine learning in the context of Quantitative Bipolar Argumentation Frameworks (QBAFs): whereas feature attribution is used to determine the influence of features towards outputs of machine learning models, AAEs are used to determine the influence of arguments towards topic arguments of interest. We study desirable properties of AAEs, including some new ones and some partially adapted from the literature to our setting. To demonstrate the applicability of our AAEs in practice, we conclude by carrying out two case studies in the scenarios of fake news detection and movie recommender systems.
翻訳日:2023-08-08 20:27:38 公開日:2023-08-04
# InvVis: 可逆可視化のための大規模データ埋め込み

InvVis: Large-Scale Data Embedding for Invertible Visualization ( http://arxiv.org/abs/2307.16176v2 )

ライセンス: Link先を確認
Huayuan Ye, Chenhui Li, Yang Li and Changbo Wang(参考訳) InvVisは、画像から可視化を再構成またはさらに修正する、可逆可視化のための新しいアプローチである。 InvVisは、チャートデータ、チャート情報、ソースコードなど、膨大な量のデータを視覚化画像に埋め込むことができる。 符号化された画像は、原画像と知覚的に区別できない。 画像の形でグラフデータを効率よく表現し,大容量データの埋め込みを可能にする手法を提案する。 また,インバータブルニューラルネットワークに基づくモデルを概説し,高品質なデータ隠蔽と公開を実現する。 InvVisのさまざまなアプリケーションシナリオを調査し、実装する。 さらに,データ埋め込み品質,データ復元精度,データ符号化能力など,さまざまな観点から評価を行うための一連の評価実験を実施している。 実験の結果, 可逆可視化におけるInvVisの大きな可能性を示した。

We present InvVis, a new approach for invertible visualization, which is reconstructing or further modifying a visualization from an image. InvVis allows the embedding of a significant amount of data, such as chart data, chart information, source code, etc., into visualization images. The encoded image is perceptually indistinguishable from the original one. We propose a new method to efficiently express chart data in the form of images, enabling large-capacity data embedding. We also outline a model based on the invertible neural network to achieve high-quality data concealing and revealing. We explore and implement a variety of application scenarios of InvVis. Additionally, we conduct a series of evaluation experiments to assess our method from multiple perspectives, including data embedding quality, data restoration accuracy, data encoding capacity, etc. The result of our experiments demonstrates the great potential of InvVis in invertible visualization.
翻訳日:2023-08-08 20:16:08 公開日:2023-08-04
# 仮想画像学習による物体間インタラクション検出の改善

Improving Human-Object Interaction Detection via Virtual Image Learning ( http://arxiv.org/abs/2308.02606v1 )

ライセンス: Link先を確認
Shuman Fang, Shuai Liu, Jie Li, Guannan Jiang, Xianming Lin, Rongrong Ji(参考訳) 人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。 しかしながら、ほとんどの研究は、相互作用オブジェクトのペアカテゴリの長い性質を無視しながら、全体的な機能をより効率的に学習するためのより良いアーキテクチャの設計を目指している。 本稿では,そのような不均衡分布が仮想画像傾き(vil)に与える影響を緩和する。 まず,ラベルからイメージへの新しいアプローチであるMultiple Steps Image Creation (MUSIC)を提案し,実際の画像と一貫した分布を持つ高品質なデータセットを作成する。 この段階では、特定の特徴を持つプロンプトに基づいて仮想画像を生成し、マルチフィルタプロセスで選択する。 次に,仮想画像と実画像の両方を用いて,教師学習フレームワークを用いてモデルをトレーニングする。 仮想画像の初期ラベルが不正確で不適切なことを考えると、擬似ラベルを構築するための適応マッチング・フィルタ(AMF)モジュールを考案する。 本手法はHOI検出器の内部構造に依存しないため,10個以上のエポックをトレーニングすることで,市販の手法と組み合わせることができる。 提案手法の助成により,複数の手法が大幅に改善され,2つのベンチマークで最新の結果が得られた。

Human-Object Interaction (HOI) detection aims to understand the interactions between humans and objects, which plays a curtail role in high-level semantic understanding tasks. However, most works pursue designing better architectures to learn overall features more efficiently, while ignoring the long-tail nature of interaction-object pair categories. In this paper, we propose to alleviate the impact of such an unbalanced distribution via Virtual Image Leaning (VIL). Firstly, a novel label-to-image approach, Multiple Steps Image Creation (MUSIC), is proposed to create a high-quality dataset that has a consistent distribution with real images. In this stage, virtual images are generated based on prompts with specific characterizations and selected by multi-filtering processes. Secondly, we use both virtual and real images to train the model with the teacher-student framework. Considering the initial labels of some virtual images are inaccurate and inadequate, we devise an Adaptive Matching-and-Filtering (AMF) module to construct pseudo-labels. Our method is independent of the internal structure of HOI detectors, so it can be combined with off-the-shelf methods by training merely 10 additional epochs. With the assistance of our method, multiple methods obtain significant improvements, and new state-of-the-art results are achieved on two benchmarks.
翻訳日:2023-08-08 19:50:02 公開日:2023-08-04
# サイバートウィン型車両インターネットにおける計算オフロードのための知識駆動型マルチエージェント強化学習

Knowledge-Driven Multi-Agent Reinforcement Learning for Computation Offloading in Cybertwin-Enabled Internet of Vehicles ( http://arxiv.org/abs/2308.02603v1 )

ライセンス: Link先を確認
Ruijin Sun, Xiao Yang, Nan Cheng, Xiucheng Wang, Changle Li(参考訳) 車両の計算集約タスクを道路側ユニット(RSU)にオフロードすることで、車両インターネット(IoV)の移動エッジコンピューティング(MEC)が計算負荷を軽減できる。 しかしながら、既存のモデルベースのタスクオフロード手法は、車両の増加とデータ駆動方式の解釈可能性の欠如により、計算の複雑さに苦しむ。 本稿では,サイバートウィン対応IoVにおけるタスクオフロードのレイテンシを低減するために,知識駆動型マルチエージェント強化学習(KMARL)手法を提案する。 具体的には、考慮されたシナリオでは、サイバートウィンは各車両の通信エージェントとして、情報を交換し、仮想空間でオフロード決定を行う。 タスクオフロードのレイテンシを低減するため、KMARLアプローチでは、グラフ構造通信トポロジとニューラルネットワークへの置換不変性に関するドメイン知識を活用することにより、グラフニューラルネットワークを使用する各車両に対して最適なオフロードオプションを選択する。 数値解析の結果,提案したKMARLは,ドメイン知識の統合によるメリットを生かし,他の手法と比較してスケーラビリティの向上を示す。

By offloading computation-intensive tasks of vehicles to roadside units (RSUs), mobile edge computing (MEC) in the Internet of Vehicles (IoV) can relieve the onboard computation burden. However, existing model-based task offloading methods suffer from heavy computational complexity with the increase of vehicles and data-driven methods lack interpretability. To address these challenges, in this paper, we propose a knowledge-driven multi-agent reinforcement learning (KMARL) approach to reduce the latency of task offloading in cybertwin-enabled IoV. Specifically, in the considered scenario, the cybertwin serves as a communication agent for each vehicle to exchange information and make offloading decisions in the virtual space. To reduce the latency of task offloading, a KMARL approach is proposed to select the optimal offloading option for each vehicle, where graph neural networks are employed by leveraging domain knowledge concerning graph-structure communication topology and permutation invariance into neural networks. Numerical results show that our proposed KMARL yields higher rewards and demonstrates improved scalability compared with other methods, benefitting from the integration of domain knowledge.
翻訳日:2023-08-08 19:49:37 公開日:2023-08-04
# 乱流の効率的なデータ駆動モデリングのための安定ラッパーに基づくパラメータ選択法について

On stable wrapper-based parameter selection method for efficient ANN-based data-driven modeling of turbulent flows ( http://arxiv.org/abs/2308.02602v1 )

ライセンス: Link先を確認
Hyeongeun Yun, Yongcheol Choi, Youngjae Kim, and Seongwon Kang(参考訳) 本研究では,複雑な乱流と伝熱現象をモデル化するために,ニューラルネットワーク(ann)とラッパー法に基づくモデリング手法を解析・開発することを目的とした。 このアプローチは,非線型性の下でも冗長パラメータや無関係パラメータを除去する手法として,相関に基づくフィルタ法のような他の手法よりも有利である。 欠点として、ANNトレーニングの過度な適合性とランダム性は、特に高次元において選択試験よりも一貫性のないサブセットを生成する可能性がある。 本研究は, 既存のANNラッパー法を解析し, 勾配に基づく部分集合選択指標に基づく修正手法を開発し, 各除去工程における全導関数の損失や方向整合性を最小化する。 パラメータ低減性能と整合性判定法について検討するため, 製造したサブセット選択問題に適用し, 乱流気泡流中の気泡径のモデル化, ダクト流中における空間的に変化する乱流プレンドル数のモデル化を行う。 その結果,完全導出損失を最小限に抑えるための勾配型部分集合選択は,他のan系ラッパー法と比較して精度が向上し,不要なパラメータを除去できた。 縮小乱流プレンドル数モデルでは、勾配に基づくサブセット選択は他の手法よりも検証ケースでの予測を改善する。 また、パラメータサブセットが減少すると、他の部分に比べてトレーニング速度がわずかに向上する。

To model complex turbulent flow and heat transfer phenomena, this study aims to analyze and develop a reduced modeling approach based on artificial neural network (ANN) and wrapper methods. This approach has an advantage over other methods such as the correlation-based filter method in terms of removing redundant or irrelevant parameters even under non-linearity among them. As a downside, the overfitting and randomness of ANN training may produce inconsistent subsets over selection trials especially in a higher physical dimension. This study analyzes a few existing ANN-based wrapper methods and develops a revised one based on the gradient-based subset selection indices to minimize the loss in the total derivative or the directional consistency at each elimination step. To examine parameter reduction performance and consistency-over-trials, we apply these methods to a manufactured subset selection problem, modeling of the bubble size in a turbulent bubbly flow, and modeling of the spatially varying turbulent Prandtl number in a duct flow. It is found that the gradient-based subset selection to minimize the total derivative loss results in improved consistency-over-trials compared to the other ANN-based wrapper methods, while removing unnecessary parameters successfully. For the reduced turbulent Prandtl number model, the gradient-based subset selection improves the prediction in the validation case over the other methods. Also, the reduced parameter subsets show a slight increase in the training speed compared to the others.
翻訳日:2023-08-08 19:49:14 公開日:2023-08-04
# 分岐型潜在ニューラル演算子

Branched Latent Neural Operators ( http://arxiv.org/abs/2308.02599v1 )

ライセンス: Link先を確認
Matteo Salvador, Alison Lesley Marsden(参考訳) 複雑な物理過程をコードする入力出力マップを学習するために,分岐潜時ニューラルネットワーク(BLNO)を導入する。 blnoは単純でコンパクトなフィードフォワード部分連結ニューラルネットワークによって定義され、微分方程式のモデルパラメータからの時間変数など、異なる固有役割を持つ入力を構造的に分離し、それらを利害関係の分野に転送する。 BLNOは解釈可能な潜在出力を利用して、学習されたダイナミクスを強化し、小さなトレーニングデータセットで優れた一般化特性を示し、単一のプロセッサ上で短いトレーニング時間を示すことで次元の呪いを破る。 実際、それらの一般化誤差は、テストフェーズで採用された離散化にかかわらず、同等である。 さらに、完全接続構造に代えて部分接続は、調整可能なパラメータの数を大幅に削減する。 小児低形成性左心症候群患者の心室モデルにおける生化学的に詳細な電気生理学的シミュレーションを含む難治性検査症例におけるBLNOの有用性を示す。 このモデルには高速伝導のためのpurkinjeネットワークとハートトルソ幾何が含まれている。 具体的には,12誘導心電図 (ECGs) を, 細胞規模, 臓器レベル, 電気的ジシンチグラフィーを対象とし, BLNOsを訓練した。 12誘導心電図は急勾配で非常に速いダイナミクスを示すが、最適なblnoを自動ハイパーパラメータでチューニングした後、単一のcpuで3時間未満でトレーニングし、わずか7つの隠れ層と19のニューロンを層ごとに保持する。 平均二乗誤差は、50の追加の電気生理学的シミュレーションからなる独立したテストデータセット上での10^{-4}$のオーダーである。 本稿では,工学的応用におけるディジタルツインニングのための信頼性と効率的な縮小順序モデルを構築するための新しい計算ツールを提供する。

We introduce Branched Latent Neural Operators (BLNOs) to learn input-output maps encoding complex physical processes. A BLNO is defined by a simple and compact feedforward partially-connected neural network that structurally disentangles inputs with different intrinsic roles, such as the time variable from model parameters of a differential equation, while transferring them into a generic field of interest. BLNOs leverage interpretable latent outputs to enhance the learned dynamics and break the curse of dimensionality by showing excellent generalization properties with small training datasets and short training times on a single processor. Indeed, their generalization error remains comparable regardless of the adopted discretization during the testing phase. Moreover, the partial connections, in place of a fully-connected structure, significantly reduce the number of tunable parameters. We show the capabilities of BLNOs in a challenging test case involving biophysically detailed electrophysiology simulations in a biventricular cardiac model of a pediatric patient with hypoplastic left heart syndrome. The model includes a purkinje network for fast conduction and a heart-torso geometry. Specifically, we trained BLNOs on 150 in silico generated 12-lead electrocardiograms (ECGs) while spanning 7 model parameters, covering cell-scale, organ-level and electrical dyssynchrony. Although the 12-lead ECGs manifest very fast dynamics with sharp gradients, after automatic hyperparameter tuning the optimal BLNO, trained in less than 3 hours on a single CPU, retains just 7 hidden layers and 19 neurons per layer. The mean square error is on the order of $10^{-4}$ on an independent test dataset comprised of 50 additional electrophysiology simulations. This paper provides a novel computational tool to build reliable and efficient reduced-order models for digital twinning in engineering applications.
翻訳日:2023-08-08 19:48:51 公開日:2023-08-04
# 深層学習駆動型乳癌診断システムの設計 : 開発途上国における臨床診断の長期遅延の低減と患者の生存率の向上

Designing a Deep Learning-Driven Resource-Efficient Diagnostic System for Metastatic Breast Cancer: Reducing Long Delays of Clinical Diagnosis and Improving Patient Survival in Developing Countries ( http://arxiv.org/abs/2308.02597v1 )

ライセンス: Link先を確認
William Gao, Dayong Wang and Yi Huang(参考訳) 乳癌はがん死亡の主な原因の1つである。 発展途上国、特にサハラ以南のアフリカ、南アジア、南アメリカの乳がん患者は、世界で最も死亡率が高い。 死亡率のグローバルな格差に寄与する重要な要因の1つは、訓練された病理医の不足による診断の長い遅れであり、その結果、診断における後期的なプレゼンテーションが多数発生している。 症状の初期発生と診断の受領の間の遅延は15カ月以上も延長する可能性がある。 この重要な医療格差に対処するため、本研究は、高い診断精度と計算効率を実現できる転移性乳癌のディープラーニングに基づく診断システムを開発した。 評価の結果,MobileNetV2を用いた診断モデルは,より複雑なVGG16,ResNet50,ResNet101モデルよりも精度が高く,モデルの一般化,モデルの訓練効率が優れていた。 モデル予測と地上真実との視覚的比較により、MobileNetV2診断モデルは、手動画像解析に難渋する正常な細胞の大部分に埋め込まれた非常に小さな癌ノードを特定できることを示した。 同様に、軽量のMobleNetV2モデルは計算効率が良く、モバイルデバイスや計算能力の低いデバイスに対応できた。 これらの進歩は、開発途上国の未調達医療施設に適応できる、資源効率が高く高性能なAIベースの転移性乳癌診断システムの開発を促進する。 本研究は,進行途上国における転移性乳癌診断の長期遅延と患者生存率の相違に対処する革新的な技術的解決策を提供する。

Breast cancer is one of the leading causes of cancer mortality. Breast cancer patients in developing countries, especially sub-Saharan Africa, South Asia, and South America, suffer from the highest mortality rate in the world. One crucial factor contributing to the global disparity in mortality rate is long delay of diagnosis due to a severe shortage of trained pathologists, which consequently has led to a large proportion of late-stage presentation at diagnosis. The delay between the initial development of symptoms and the receipt of a diagnosis could stretch upwards 15 months. To tackle this critical healthcare disparity, this research has developed a deep learning-based diagnosis system for metastatic breast cancer that can achieve high diagnostic accuracy as well as computational efficiency. Based on our evaluation, the MobileNetV2-based diagnostic model outperformed the more complex VGG16, ResNet50 and ResNet101 models in diagnostic accuracy, model generalization, and model training efficiency. The visual comparisons between the model prediction and ground truth have demonstrated that the MobileNetV2 diagnostic models can identify very small cancerous nodes embedded in a large area of normal cells which is challenging for manual image analysis. Equally Important, the light weighted MobleNetV2 models were computationally efficient and ready for mobile devices or devices of low computational power. These advances empower the development of a resource-efficient and high performing AI-based metastatic breast cancer diagnostic system that can adapt to under-resourced healthcare facilities in developing countries. This research provides an innovative technological solution to address the long delays in metastatic breast cancer diagnosis and the consequent disparity in patient survival outcome in developing countries.
翻訳日:2023-08-08 19:48:20 公開日:2023-08-04
# 量子力学はより大きく複雑な量子理論を生み出すのか? 経験中心量子論と量子論の相互作用論のケース

Does Quantum Mechanics Breed Larger, More Intricate Quantum Theories? The Case for Experience-Centric Quantum Theory and the Interactome of Quantum Theories ( http://arxiv.org/abs/2308.02630v1 )

ライセンス: Link先を確認
Alireza Tavanfar, S. Alipour, A. T. Rezakhani(参考訳) 量子力学は、その内部構造と巨大な経験的成功によって知られており、内部の複雑さと現象学の汎用性を持つより大きな量子理論のゲノムを自身で持つかどうかという急進的な疑問に対処する。 つまり、クローズド量子システムの基本レベルと解釈的側面に関わらず、標準量子論(sqt)が文脈に基づく変形原理や構造を持つ量子理論を保ち、より広い範囲において決定的な予測力を持つかどうかである。 本稿では, 量子計算に基づく量子シミュレーションと, 情報理論, 基本的・機能的出現, 参加的エージェンシーの枠組みにおける, 抽象的論理学の原理から生じる, 補完的証拠と推論に従えば, 肯定的な疑問に答える。 この光が示すように、最近提案された経験中心量子論(ECQT)は、量子力学を劇的に一般化した量子挙動のより大きくよりリッチな理論である。 ECQTは、閉じた量子系の発達した状態履歴の量子情報を、瞬時ハミルトニアンとシステムの内部相互作用の構成要素として機能させる。 したがって、ユニタリ進化は継続的に影響を受け、エージェントシステムの経験によって誘導可能となる。 ECQTにおけるユニタリティと非マルコビアン性の固有の相互作用は、様々な行動相をもたらし、これは同時に閉かつ開量子系の特性を注入し、SQTにおける開系の理論を超越する。 より広い視点から見ると、我々の研究の成果は、量子相互作用論(量子相互作用論)の存在、すなわち、非相対的参加機関から生じる、共存し、独立した文脈に基づく量子理論の対話的展望、およびその予測現象論的有用性である。

We pose and address the radical question that whether quantum mechanics, known for its firm internal structure and enormous empirical success, carries in itself the genome of larger quantum theories which have higher internal intricacies and phenomenological versatilities. That is, on the basic level of closed quantum systems and regardless of interpretational aspects, whether standard quantum theory (SQT) harbors quantum theories with context-based deformed principles or structures, having definite predictive power within much broader scopes. We answer the question in affirmative following complementary evidence and reasoning arising from quantum-computation-based quantum simulation and fundamental, general, abstract rationales in the frameworks of information theory, fundamental or functional emergence, and participatory agency. In this light, as we show, one is led to the recently proposed experience-centric quantum theory (ECQT), which is a larger and richer theory of quantum behaviors with drastically generalized quantum dynamics. ECQT allows the quantum information of the closed quantum system's developed state history to serve as the building blocks of the instantaneous Hamiltonians and internal interactions of the system. Hence the unitary evolutions are continually impacted and become guidable by the agent-system's experience. The intrinsic interplay of unitarity and non-Markovianity in ECQT brings about a host of diverse behavioral phases, which concurrently infuse closed and open quantum system characteristics and even surpasses the theory of open systems in SQT. In the broader perspective, an upshot of our investigation is the existence of the quantum interactome -- the interactive landscape of all coexisting, independent context-based quantum theories which emerge from inferential participatory agencies -- and its predictive phenomenological utility.
翻訳日:2023-08-08 19:38:46 公開日:2023-08-04
# AIが失業リスクを予測

AI exposure predicts unemployment risk ( http://arxiv.org/abs/2308.02624v1 )

ライセンス: Link先を確認
Morgan Frank, Yong-Yeol Ahn, Esteban Moro(参考訳) 人工知能(AI)は雇用を混乱させ失業を生み出すのか? 職業のaiへの露出を定量化しようとする多くの試みにもかかわらず、一貫性のない検証はそれぞれのアプローチの相対的な利点を損なう。 失業データを含む不合理な労働結果データが不足すると、さらに問題はさらに悪化する。 ここでは,2010年から2020年にかけての米国の各失業保険庁の職業別失業率データを用いて,AI被曝のモデルと失業リスクを予測する。 これらのAI露光スコアは政府や業界で使用されているが、個々のAI露光モデルは失業率、失業リスク、仕事分離率の予測にはならない。 しかし、これらのモデルのアンサンブルは、競合するモデルがAIの露出の異なる側面を捉え、職業、地域、時間にまたがるAIの変動的な影響を総合的に考慮していることを示唆するかなりの予測力を示している。 我々の結果はまた、AI暴露を評価するための動的、文脈認識、検証された方法も求めている。 この研究のインタラクティブな可視化はhttps://sites.pitt.edu/~mrfrank/uiRiskDemo/で見ることができる。

Is artificial intelligence (AI) disrupting jobs and creating unemployment? Despite many attempts to quantify occupations' exposure to AI, inconsistent validation obfuscates the relative benefits of each approach. A lack of disaggregated labor outcome data, including unemployment data, further exacerbates the issue. Here, we assess which models of AI exposure predict job separations and unemployment risk using new occupation-level unemployment data by occupation from each US state's unemployment insurance office spanning 2010 through 2020. Although these AI exposure scores have been used by governments and industry, we find that individual AI exposure models are not predictive of unemployment rates, unemployment risk, or job separation rates. However, an ensemble of those models exhibits substantial predictive power suggesting that competing models may capture different aspects of AI exposure that collectively account for AI's variable impact across occupations, regions, and time. Our results also call for dynamic, context-aware, and validated methods for assessing AI exposure. Interactive visualizations for this study are available at https://sites.pitt.edu/~mrfrank/uiRiskDemo/.
翻訳日:2023-08-08 19:38:12 公開日:2023-08-04
# webとナレッジグラフを活用した自動インパクト投資スコアリング

Harnessing the Web and Knowledge Graphs for Automated Impact Investing Scoring ( http://arxiv.org/abs/2308.02622v1 )

ライセンス: Link先を確認
Qingzhi Hu, Daniel Daza, Laurens Swinkels, Kristina \=Usait\.e, Robbert-Jan 't Hoen, Paul Groth(参考訳) 持続可能な開発目標(SDG)は、人間の繁栄と持続可能性を保証するための政策と活動を促進するために国連によって導入された。 金融業界で作られたSDGフレームワークは、企業が17のSDGのそれぞれにどれだけうまく適合しているかを示すスコアを提供するように設計されている。 このスコアリングにより、包括的で持続可能な経済を構築する可能性を持つ投資の一貫性のある評価が可能になる。 このようなフレームワークが要求する高品質と信頼性の結果として、それらの作成とメンテナンスのプロセスは時間がかかり、広範なドメイン専門知識が必要です。 本研究では,SDGフレームワーク作成プロセスの自動化を目指すデータ駆動システムについて述べる。 まず、異なるWebソースからテキストのデータセットを収集・フィルタリングする新しい手法と、企業の集合に関連する知識グラフを提案する。 次に、このデータでトレーニングされた分類器を実装して、ある企業のSDGとのアライメントのスコアを予測する。 この結果から,提案手法の有効性を実証し,マイクロ平均F1スコア0.89でSDGスコアを正確に予測できることが示唆された。 さらに、予測スコアに関連するデータ形式の説明を提供することにより、人間による利用のためのモデルの統合がいかに容易かについても述べる。 提案手法は,アナリストが通常処理できない大量の情報へのアクセスを可能にし,SDGスコアの正確な予測をコストのごく一部で実現する。

The Sustainable Development Goals (SDGs) were introduced by the United Nations in order to encourage policies and activities that help guarantee human prosperity and sustainability. SDG frameworks produced in the finance industry are designed to provide scores that indicate how well a company aligns with each of the 17 SDGs. This scoring enables a consistent assessment of investments that have the potential of building an inclusive and sustainable economy. As a result of the high quality and reliability required by such frameworks, the process of creating and maintaining them is time-consuming and requires extensive domain expertise. In this work, we describe a data-driven system that seeks to automate the process of creating an SDG framework. First, we propose a novel method for collecting and filtering a dataset of texts from different web sources and a knowledge graph relevant to a set of companies. We then implement and deploy classifiers trained with this data for predicting scores of alignment with SDGs for a given company. Our results indicate that our best performing model can accurately predict SDG scores with a micro average F1 score of 0.89, demonstrating the effectiveness of the proposed solution. We further describe how the integration of the models for its use by humans can be facilitated by providing explanations in the form of data relevant to a predicted score. We find that our proposed solution enables access to a large amount of information that analysts would normally not be able to process, resulting in an accurate prediction of SDG scores at a fraction of the cost.
翻訳日:2023-08-08 19:37:56 公開日:2023-08-04
# 高次有限次元代数上の一般化行列補完を用いたカラー画像復元

Color Image Recovery Using Generalized Matrix Completion over Higher-Order Finite Dimensional Algebra ( http://arxiv.org/abs/2308.02621v1 )

ライセンス: Link先を確認
Liang Liao, Zhuang Guo, Qi Gao, Yan Wang, Fajun Yu, Qifeng Zhao, Stephen Johh Maybank(参考訳) カラー画像補完の精度を向上させるため,一般化された高次スカラーに基づく回復手法を提案する。 従来の二階行列モデルをより包括的に高階行列同値("t-matrix"モデル)に拡張し、局所的なピクセル制約を特徴付けるピクセル近傍拡張戦略を取り入れた。 この「t行列」モデルは、一般的な行列およびテンソル補完アルゴリズムを高次バージョンに拡張するために使用される。 シミュレーションデータとアルゴリズムを用いて,シミュレーションデータと公開画像を用いて様々なアルゴリズムを広範囲に実験し,その性能を比較する。 その結果, 一般化行列補完モデルとそれに対応するアルゴリズムは, 下階テンソルや従来の行列と良好に比較できた。

To improve the accuracy of color image completion with missing entries, we present a recovery method based on generalized higher-order scalars. We extend the traditional second-order matrix model to a more comprehensive higher-order matrix equivalent, called the "t-matrix" model, which incorporates a pixel neighborhood expansion strategy to characterize the local pixel constraints. This "t-matrix" model is then used to extend some commonly used matrix and tensor completion algorithms to their higher-order versions. We perform extensive experiments on various algorithms using simulated data and algorithms on simulated data and publicly available images and compare their performance. The results show that our generalized matrix completion model and the corresponding algorithm compare favorably with their lower-order tensor and conventional matrix counterparts.
翻訳日:2023-08-08 19:37:32 公開日:2023-08-04
# ニューラル画像圧縮における周波数遠絡特性

Frequency Disentangled Features in Neural Image Compression ( http://arxiv.org/abs/2308.02620v1 )

ライセンス: Link先を確認
Ali Zafari, Atefeh Khoshkhahtinat, Piyush Mehta, Mohammad Saeed Ebrahimi Saadabadi, Mohammad Akyash, Nasser M. Nasrabadi(参考訳) ニューラル画像圧縮ネットワークの設計は、エントロピーモデルが潜在コードの真の分布といかにうまく一致しているかによって制御される。 モデル容量とは別に、この能力は、緩和された量子化が実際のハード量子化にどの程度近いかによって間接的に決定される。 この近似量子化スキームにより、レート分散変分オートエンコーダ(r-d vae)のパラメータの最適化が決定される。 本稿では,画像の低周波テクスチャの大部分を含む高エントロピー遅延特徴を導くことで,緩和されたスカラー量子化が低ビットレートを実現するための特徴レベルの周波数歪みを提案する。 また、変換器に基づく解析/合成変換のデコレーション力を強化するために、アダマール積に基づく拡張自己注意スコア計算を符号化と復号の両方で利用する。 チャネル単位での自己回帰エントロピーモデリングは、高情報型低周波チャネルを第1のチャンクと将来のチャンクに指示するため、提案された周波数分離の利点を生かしている。 提案するネットワークは,手作業によるコーデックだけでなく,計算量の多い空間的自己回帰エントロピーモデルに基づくニューラルネットワークベースのコーデックよりも優れている。

The design of a neural image compression network is governed by how well the entropy model matches the true distribution of the latent code. Apart from the model capacity, this ability is indirectly under the effect of how close the relaxed quantization is to the actual hard quantization. Optimizing the parameters of a rate-distortion variational autoencoder (R-D VAE) is ruled by this approximated quantization scheme. In this paper, we propose a feature-level frequency disentanglement to help the relaxed scalar quantization achieve lower bit rates by guiding the high entropy latent features to include most of the low-frequency texture of the image. In addition, to strengthen the de-correlating power of the transformer-based analysis/synthesis transform, an augmented self-attention score calculation based on the Hadamard product is utilized during both encoding and decoding. Channel-wise autoregressive entropy modeling takes advantage of the proposed frequency separation as it inherently directs high-informational low-frequency channels to the first chunks and conditions the future chunks on it. The proposed network not only outperforms hand-engineered codecs, but also neural network-based codecs built on computation-heavy spatially autoregressive entropy models.
翻訳日:2023-08-08 19:37:19 公開日:2023-08-04
# GTFSのためのChatGPT:言葉から情報へ

ChatGPT for GTFS: From Words to Information ( http://arxiv.org/abs/2308.02618v1 )

ライセンス: Link先を確認
Saipraneeth Devunuri, Shirin Qiam, Lewis Lehe(参考訳) トランジットデータを公開するためのgeneral transit feed specification(gtfs)標準はユビキタスである。 GTFSは表形式のデータであり、異なるファイルにまたがる情報を提供するため、情報を取得するには特別なツールやパッケージが必要である。 同時に,テキストや情報検索におけるLarge Language Modelsの利用も増加している。 本研究の目的は、現在広く採用されているLLM(ChatGPT)が、自然言語命令を用いてGTFSから情報を取得することができるかどうかを確かめることである。 最初に、ChatGPT(GPT-3.5)がGTFS仕様を理解しているかどうかをテストする。 GPT-3.5は,Multiple-choice Question (MCQ) の77%を正しく回答する。 次に4経路のフィルタ付きgtfsフィードからの情報抽出をllmに指示する。 情報検索ではゼロショットとプログラム合成を比較する。 プログラム合成はより良く機能し、単純な質問では90%、複雑な質問では40%の精度を達成する。

The General Transit Feed Specification (GTFS) standard for publishing transit data is ubiquitous. GTFS being tabular data, with information spread across different files, necessitates specialized tools or packages to retrieve information. Concurrently, the use of Large Language Models for text and information retrieval is growing. The idea of this research is to see if the current widely adopted LLMs (ChatGPT) are able to retrieve information from GTFS using natural language instructions. We first test whether ChatGPT (GPT-3.5) understands the GTFS specification. GPT-3.5 answers 77% of our multiple-choice questions (MCQ) correctly. Next, we task the LLM with information extractions from a filtered GTFS feed with 4 routes. For information retrieval, we compare zero-shot and program synthesis. Program synthesis works better, achieving ~90% accuracy on simple questions and ~40% accuracy on complex questions.
翻訳日:2023-08-08 19:37:00 公開日:2023-08-04
# 点雲のスカラー曲率推定への本質的アプローチ

An Intrinsic Approach to Scalar-Curvature Estimation for Point Clouds ( http://arxiv.org/abs/2308.02615v1 )

ライセンス: Link先を確認
Abigail Hickok and Andrew J. Blumberg(参考訳) 有限距離空間として表されるデータセットのスカラー曲率に対する内在的推定子を提案する。 我々の推定子はデータのメートル法構造にのみ依存し、$\mathbb{R}^n$ の埋め込みには依存しない。 コンパクトリーマン多様体上の確率測度からサンプリングされた点に対して、推定子は点の数が増加するにつれてスカラー曲率に収束するという意味で、推定器は一貫したものであることを示す。 応用におけるその使用を正当化するために、推定器は計量構造の摂動、例えばサンプル内の雑音や本質的な計量を推定する誤差に関して安定であることを示す。 我々は, 所定の曲率を持つ多様体から採取した合成データを用いて, 推定器を実験的に検証した。

We introduce an intrinsic estimator for the scalar curvature of a data set presented as a finite metric space. Our estimator depends only on the metric structure of the data and not on an embedding in $\mathbb{R}^n$. We show that the estimator is consistent in the sense that for points sampled from a probability measure on a compact Riemannian manifold, the estimator converges to the scalar curvature as the number of points increases. To justify its use in applications, we show that the estimator is stable with respect to perturbations of the metric structure, e.g., noise in the sample or error estimating the intrinsic metric. We validate our estimator experimentally on synthetic data that is sampled from manifolds with specified curvature.
翻訳日:2023-08-08 19:36:47 公開日:2023-08-04
# 車両制御:連合型深層強化学習による衝突回避

Vehicles Control: Collision Avoidance using Federated Deep Reinforcement Learning ( http://arxiv.org/abs/2308.02614v1 )

ライセンス: Link先を確認
Badr Ben Elallid, Amine Abouaomar, Nabil Benamar, and Abdellatif Kobbane(参考訳) 都市人口の増加や道路上の車両の増加に直面し、交通の効率化と安全確保が重要な課題となっている。 これらの問題に対処するため、車両用インテリジェント制御システムの開発が重要視されている。 本稿では,FDRL(Federated Deep Reinforcement Learning)技術を活用した衝突回避のための車両制御に関する総合的研究を行う。 私たちの主な目標は、旅行遅延を最小限に抑え、安全性を優先し、データのプライバシを保護しながら、車両の平均速度を高めることです。 そこで我々は,地域モデルであるDeep Deterministic Policy Gradient (DDPG)とグローバルモデルであるFederated Deep Deterministic Policy Gradient (FDDPG)の比較分析を行い,衝突回避のための車両制御の最適化の有効性を検討した。 その結果, FDDPGアルゴリズムは車体を効果的に制御し, 衝突防止の観点からDDPGよりも優れていた。 FDDPGに基づくアルゴリズムは、DDPGアルゴリズムと比較して、旅行遅延の大幅な削減と平均速度の顕著な改善を示す。

In the face of growing urban populations and the escalating number of vehicles on the roads, managing transportation efficiently and ensuring safety have become critical challenges. To tackle these issues, the development of intelligent control systems for vehicles is paramount. This paper presents a comprehensive study on vehicle control for collision avoidance, leveraging the power of Federated Deep Reinforcement Learning (FDRL) techniques. Our main goal is to minimize travel delays and enhance the average speed of vehicles while prioritizing safety and preserving data privacy. To accomplish this, we conducted a comparative analysis between the local model, Deep Deterministic Policy Gradient (DDPG), and the global model, Federated Deep Deterministic Policy Gradient (FDDPG), to determine their effectiveness in optimizing vehicle control for collision avoidance. The results obtained indicate that the FDDPG algorithm outperforms DDPG in terms of effectively controlling vehicles and preventing collisions. Significantly, the FDDPG-based algorithm demonstrates substantial reductions in travel delays and notable improvements in average speed compared to the DDPG algorithm.
翻訳日:2023-08-08 19:36:35 公開日:2023-08-04
# SyntHIRと相互運用可能な合成健康データを用いたCDSSツールの開発

Interoperable synthetic health data with SyntHIR to enable the development of CDSS tools ( http://arxiv.org/abs/2308.02613v1 )

ライセンス: Link先を確認
Pavitra Chauhan, Mohsen Gamal Saad Askar, Bj{\o}rn Fjukstad, Lars Ailo Bongo, Edvard Pedersen(参考訳) 高品質な患者雑誌や医療記録を機械学習ベースの臨床意思決定支援システム(CDSS)の開発に活用する絶好の機会がある。 臨床ワークフローでCDSSツールを実装するには、患者データを格納、管理するために使用されるElectronic Health Record (EHR)システム上で、このツールを統合し、検証し、テストする必要がある。 しかし、法律上の遵守により、ehlシステムに必要なアクセスを得ることは、しばしば不可能である。 本稿では,CDSSツール開発のための合成EHRデータの生成と利用のためのアーキテクチャを提案する。 このアーキテクチャはSyntHIRと呼ばれるシステムで実装されている。 SyntHIRシステムでは、データ相互運用性のためのFHIR(Fast Healthcare Interoperability Resources)標準、合成データを生成するGretelフレームワーク、FHIRベースのEHRシステムとしてのMicrosoft Azure FHIRサーバ、ツールトランスポートビリティのためのSMARTを使用している。 ノルウェー患者登録 (NPR) とノルウェー患者処方 (NorPD) のデータを用いて, 機械学習によるCDSSツールの開発により, シントHIRの有用性を実証した。 我々は、SyntHIRシステム上でツールの開発を実演し、それをOpen DIPS環境に持ち上げる。 結論として、SyntHIRはCDSSツール開発のための汎用アーキテクチャを、臨床環境で実装する前に合成FHIRデータとテスト環境を用いて提供する。 しかし、生成された合成データの品質に関しては改善の余地がある。 ソースコードはhttps://github.com/potter-coder89/SyntHIR.gitで公開されている。

There is a great opportunity to use high-quality patient journals and health registers to develop machine learning-based Clinical Decision Support Systems (CDSS). To implement a CDSS tool in a clinical workflow, there is a need to integrate, validate and test this tool on the Electronic Health Record (EHR) systems used to store and manage patient data. However, it is often not possible to get the necessary access to an EHR system due to legal compliance. We propose an architecture for generating and using synthetic EHR data for CDSS tool development. The architecture is implemented in a system called SyntHIR. The SyntHIR system uses the Fast Healthcare Interoperability Resources (FHIR) standards for data interoperability, the Gretel framework for generating synthetic data, the Microsoft Azure FHIR server as the FHIR-based EHR system and SMART on FHIR framework for tool transportability. We demonstrate the usefulness of SyntHIR by developing a machine learning-based CDSS tool using data from the Norwegian Patient Register (NPR) and Norwegian Patient Prescriptions (NorPD). We demonstrate the development of the tool on the SyntHIR system and then lift it to the Open DIPS environment. In conclusion, SyntHIR provides a generic architecture for CDSS tool development using synthetic FHIR data and a testing environment before implementing it in a clinical setting. However, there is scope for improvement in terms of the quality of the synthetic data generated. The code is open source and available at https://github.com/potter-coder89/SyntHIR.git.
翻訳日:2023-08-08 19:36:15 公開日:2023-08-04
# aiの責任を解き放つ

Unravelling Responsibility for AI ( http://arxiv.org/abs/2308.02608v1 )

ライセンス: Link先を確認
Zoe Porter, Joanna Al-Qaddoumi, Philippa Ryan Conmy, Phillip Morgan, John McDermid, Ibrahim Habli(参考訳) AI対応システムに関わる複雑な状況において、責任がどこにあるのかを推論するには、まず、責任について話すために十分な明確で詳細な学際的な語彙が必要です。 責任(Responsibility)とは、俳優、発生、責任を負う方法を含む三項関係である。 As part of a conscious effort towards 'unravelling' the concept of responsibility to support practical reasoning about responsibility for AI, this paper takes the three-part formulation, 'Actor A is responsible for Occurrence O' and identifies valid combinations of subcategories of A, is responsible for, and O. These valid combinations - which we term "responsibility strings" - are grouped into four senses of responsibility: role-responsibility; causal responsibility; legal liability-responsibility; and moral responsibility. ひとつは医療用AIベースのシステムで、もうひとつは2018年にアリゾナ州テンペで歩行者とAVの致命的な衝突を取り上げたものだ。 紙の出力は81の責任文字列である。 その目的は、これらの文字列が、異なるアクターが、責任が求められる複雑なイベントの中で、さまざまな発生に対して責任を負う異なる方法について、明確かつ明確になるための語彙を提供することである。

To reason about where responsibility does and should lie in complex situations involving AI-enabled systems, we first need a sufficiently clear and detailed cross-disciplinary vocabulary for talking about responsibility. Responsibility is a triadic relation involving an actor, an occurrence, and a way of being responsible. As part of a conscious effort towards 'unravelling' the concept of responsibility to support practical reasoning about responsibility for AI, this paper takes the three-part formulation, 'Actor A is responsible for Occurrence O' and identifies valid combinations of subcategories of A, is responsible for, and O. These valid combinations - which we term "responsibility strings" - are grouped into four senses of responsibility: role-responsibility; causal responsibility; legal liability-responsibility; and moral responsibility. They are illustrated with two running examples, one involving a healthcare AI-based system and another the fatal collision of an AV with a pedestrian in Tempe, Arizona in 2018. The output of the paper is 81 responsibility strings. The aim is that these strings provide the vocabulary for people across disciplines to be clear and specific about the different ways that different actors are responsible for different occurrences within a complex event for which responsibility is sought, allowing for precise and targeted interdisciplinary normative deliberations.
翻訳日:2023-08-08 19:35:48 公開日:2023-08-04
# バーチャルリアリティーで会話エージェントに声をあげよう

Let's Give a Voice to Conversational Agents in Virtual Reality ( http://arxiv.org/abs/2308.02665v1 )

ライセンス: Link先を確認
Michele Yin, Gabriel Roccabruna, Abhinav Azad, Giuseppe Riccardi(参考訳) 会話エージェントとの対話体験は、仮想現実におけるマルチモーダルおよび没入的インタラクションによって大幅に向上することができる。 本研究では,仮想環境で動作する対話エージェントの開発を簡略化する目的で,オープンソースアーキテクチャを提案する。 このアーキテクチャは、異なるドメインの会話エージェントをプラグインし、カスタムまたはクラウドベースの音声対テキストおよびテキスト対音声モデルを追加して、対話音声ベースにする機能を提供する。 このアーキテクチャを用いて、没入型ディスプレイとVRヘッドセットの両方のためにUnityで開発されたデジタルヘルスドメインで動作する会話型プロトタイプを2つ提示する。

The dialogue experience with conversational agents can be greatly enhanced with multimodal and immersive interactions in virtual reality. In this work, we present an open-source architecture with the goal of simplifying the development of conversational agents operating in virtual environments. The architecture offers the possibility of plugging in conversational agents of different domains and adding custom or cloud-based Speech-To-Text and Text-To-Speech models to make the interaction voice-based. Using this architecture, we present two conversational prototypes operating in the digital health domain developed in Unity for both non-immersive displays and VR headsets.
翻訳日:2023-08-08 19:29:31 公開日:2023-08-04
# 気候陽性ブロックチェーンによるギガトン規模の二酸化炭素除去の促進

Incentivizing Gigaton-Scale Carbon Dioxide Removal via a Climate-Positive Blockchain ( http://arxiv.org/abs/2308.02653v1 )

ライセンス: Link先を確認
Jonathan Bachman, Sujit Chakravorti, Shantanu Rane and Krishnan Thyagarajan(参考訳) ギガトンスケールで恒久的に大気中からCO2を除去するインセンティブ機構として、新しい暗号トークンが提案されている。 このトークンは、CO2を除去している人々に経済的インセンティブを与え、CDRに追加の資金を公共に提供する機会を提供することによって、CO2除去(CDR)を促進する。 新しいトークンは、Proof-of-Useful-Work(PoUW)コンセンサスメカニズムを使用したブロックチェーンにネイティブになる。 有用な作業は、二酸化炭素を捕獲し永久に貯蔵する量に基づいて、互いに競合する直接空気炭素捕獲貯蔵施設(DACCS)によって行われる。 エネルギー消費の面では、DACCS技術とブロックチェーン操作を含むプロセス全体に対して、使用する機器のライフサイクル分析を考慮に入れながら、気候を肯定的にする必要がある。 本稿では,CDRの検証機構と組み合わさった報酬機構について述べる。 さらに,攻撃や不正行為を制限するセキュリティ機能についても検討する。 最後に、そのようなシステムを完全に実装し、デプロイするのに必要な機能のロードマップを概説するが、この記事の現在のスコープを超えている。

A new crypto token is proposed as an incentive mechanism to remove CO2 from the atmosphere permanently at gigaton scale. The token facilitates CO2 removal (CDR) by providing financial incentives to those that are removing CO2 and an opportunity to provide additional financial resources for CDR by the public. The new token will be native to a blockchain that uses a Proof-of-Useful-Work (PoUW) consensus mechanism. The useful work will be conducted by direct air carbon capture and storage (DACCS) facilities that will compete with each other based on the amount of CO2 captured and permanently stored. In terms of energy consumption, we require that the entire process, comprising DACCS technology and all blockchain operations, be climate positive while accounting for life cycle analysis of equipment used. We describe the underlying reward mechanism coupled with a verification mechanism for CDR. In addition, we consider security features to limit attacks and fraudulent activity. Finally, we outline a roadmap of features that are necessary to fully implement and deploy such a system, but are beyond the current scope of this article.
翻訳日:2023-08-08 19:29:18 公開日:2023-08-04
# 生成モデルのための変数式の変更に関するレビュー

A Review of Change of Variable Formulas for Generative Modeling ( http://arxiv.org/abs/2308.02652v1 )

ライセンス: Link先を確認
Ullrich K\"othe(参考訳) 可変変数 (Change-of-variables, CoV) 公式は、ジャコビアン行列式による学習変換により、複雑な確率密度をより単純なものへ還元することができる。 したがって、最大様相学習、ベイズ推論、外乱検出、モデル選択などの強力なツールである。 CoV公式は様々なモデルタイプのために導出されてきたが、この情報は多くの異なる作品に散らばっている。 エンコーダ/デコーダアーキテクチャの統一的な視点から,28のCoV公式を一箇所に集め,一見多種多様なメソッド間の興味深い関係を明らかにし,文献で必ずしも明確でない重要な区別を強調し,今後の研究における驚くべきギャップを明らかにする。

Change-of-variables (CoV) formulas allow to reduce complicated probability densities to simpler ones by a learned transformation with tractable Jacobian determinant. They are thus powerful tools for maximum-likelihood learning, Bayesian inference, outlier detection, model selection, etc. CoV formulas have been derived for a large variety of model types, but this information is scattered over many separate works. We present a systematic treatment from the unifying perspective of encoder/decoder architectures, which collects 28 CoV formulas in a single place, reveals interesting relationships between seemingly diverse methods, emphasizes important distinctions that are not always clear in the literature, and identifies surprising gaps for future research.
翻訳日:2023-08-08 19:28:58 公開日:2023-08-04
# プログラマブル量子シミュレータを用いた変分モンテカルロの拡張

Enhancing variational Monte Carlo using a programmable quantum simulator ( http://arxiv.org/abs/2308.02647v1 )

ライセンス: Link先を確認
M. Schuyler Moss, Sepehr Ebadi, Tout T. Wang, Giulia Semeghini, Annabelle Bohrdt, Mikhail D. Lukin, and Roger G. Melko(参考訳) ライドバーグ原子配列に基づくプログラマブル量子シミュレータは、長いコヒーレンス時間、高忠実度操作、多数の相互作用する量子ビットを柔軟に配置した、高速な量子プラットフォームである。 今日のrydbergアレイデバイスは、量子物質の相転移や相転移を研究する量子シミュレータとしての有用性を実証している。 本稿では, モンテカルロ変量シミュレーションの性能向上により, 量子物質のシリカシミュレーションを向上するために, 未処理および不完全な実験射影測定データを用いることができることを示す。 例として,16 \times 16$ square lattice array [s. ebadi et al. nature 595, 227 (2021)] の無秩序からチェックボードへの遷移にまたがるデータに着目し,recurrent neural networks (rnns) に基づく強力な自己回帰的波動関数ans\"atzeをトレーニングするために,データエンハンス付き変分モンテカルロを用いる。 このハイブリッドトレーニングスキームを用いてシミュレーションの収束時間の普遍的な改善を観察する。 また,実験データを用いた事前学習によって,比較的単純なrnn ans\"atzeを用いて,純粋に変動訓練アプローチで学習されていない物質の位相を正確に捉えることが可能であることが判明した。 我々の研究は、量子多体システムの大規模シミュレーションのためのハイブリッド量子-古典的アプローチの可能性を強調し、自己回帰言語モデルと既存の量子デバイスからの実験データを組み合わせる。

Programmable quantum simulators based on Rydberg atom arrays are a fast-emerging quantum platform, bringing together long coherence times, high-fidelity operations, and large numbers of interacting qubits deterministically arranged in flexible geometries. Today's Rydberg array devices are demonstrating their utility as quantum simulators for studying phases and phase transitions in quantum matter. In this paper, we show that unprocessed and imperfect experimental projective measurement data can be used to enhance in silico simulations of quantum matter, by improving the performance of variational Monte Carlo simulations. As an example, we focus on data spanning the disordered-to-checkerboard transition in a $16 \times 16$ square lattice array [S. Ebadi et al. Nature 595, 227 (2021)] and employ data-enhanced variational Monte Carlo to train powerful autoregressive wavefunction ans\"atze based on recurrent neural networks (RNNs). We observe universal improvements in the convergence times of our simulations with this hybrid training scheme. Notably, we also find that pre-training with experimental data enables relatively simple RNN ans\"atze to accurately capture phases of matter that are not learned with a purely variational training approach. Our work highlights the promise of hybrid quantum--classical approaches for large-scale simulation of quantum many-body systems, combining autoregressive language models with experimental data from existing quantum devices.
翻訳日:2023-08-08 19:28:43 公開日:2023-08-04
# 実験的フォトニックマルチパラメータ推定のための変分量子アルゴリズム

Variational quantum algorithm for experimental photonic multiparameter estimation ( http://arxiv.org/abs/2308.02643v1 )

ライセンス: Link先を確認
Valeria Cimini, Mauro Valeri, Simone Piacentini, Francesco Ceccarelli, Giacomo Corrielli, Roberto Osellame, Nicol\`o Spagnolo, and Fabio Sciarrino(参考訳) 変分量子量論は、変分最適化の原理と量子量論の技法を組み合わせることで、一般的な推定戦略を最適化する強力なツールである。 このような最適化手法は、システム動作の事前知識を必要とする従来のアプローチが、次元と計算複雑性の呪いによってしばしば制限を受けるマルチパラメータ推定問題に特に有効である。 これらの課題を克服するために,ノイズの多い環境で動作するマルチパラメータ量子位相センサを効率的に最適化できる変分法を開発した。 統合フォトニックデバイスの高再構成性を活用することで、従来の最適化手法と量子回路評価を組み合わせることで、推定性能を向上させることができるハイブリッド量子古典フィードバックループを実装した。 後者では,パラメータシフト則を適用して,変数の変動を考慮したシステム偏微分を計算し,フィッシャー情報行列を実験的に再構成する。 これは、導関数のない古典学習アルゴリズムのコスト関数として採用され、測定設定を最適化する。 実験結果から,量子センシングやフォトニック回路を用いた量子情報処理の応用において,変動法の実装の可能性に注目し,推定精度と雑音ロバスト性の観点から有意な改善が得られた。

Variational quantum metrology represents a powerful tool for optimizing generic estimation strategies, combining the principles of variational optimization with the techniques of quantum metrology. Such optimization procedures result particularly effective for multiparameter estimation problems, where traditional approaches, requiring prior knowledge of the system behavior, often suffer from limitations due to the curse of dimensionality and computational complexity. To overcome these challenges, we develop a variational approach able to efficiently optimize a multiparameter quantum phase sensor operating in a noisy environment. By exploiting the high reconfigurability of an integrated photonic device, we implement a hybrid quantum-classical feedback loop able to enhance the estimation performances, combining classical optimization techniques with quantum circuit evaluations. The latter allows us to compute the system partial derivatives with respect to the variational parameters by applying the parameter-shift rule, and thus reconstruct experimentally the Fisher information matrix. This in turn is adopted as the cost function of a derivative-free classical learning algorithm run to optimize the measurement settings. Our experimental results reveal significant improvements in terms of estimation accuracy and noise robustness, highlighting the potential of the implementation of variational techniques for practical applications in quantum sensing and more generally for quantum information processing with photonic circuits.
翻訳日:2023-08-08 19:28:13 公開日:2023-08-04
# アナログ量子シミュレーションにおけるアルゴリズム誤差の最適化

Optimization of Algorithmic Errors in Analog Quantum Simulations ( http://arxiv.org/abs/2308.02642v1 )

ライセンス: Link先を確認
Nikita A. Zemlevskiy, Henry F. Froland, Stephan Caspar(参考訳) アナログ量子シミュレーションは、多体実時間力学のような古典的到達不能な物理学を解明するための強力なツールとして登場している。 イジング・ハミルトニアンによって記述されたアナログ量子デバイス上のハイゼンベルク型系における近似時間発展アルゴリズムの誤差のクラスについて検討した。 これらの誤差を定量化するための一般的なフレームワークが提案され、トロッターライクな手法やフロケエンジニアリングによる定数場アプローチなど、いくつかの時間発展手法に適用されている。 この分析は、物理理論の伝播子への近似から生じる異なる誤差源の相互作用を説明する。 現状のデバイスによる時間発展手法の精度に関する限界について考察する。 エラースケーリングの特徴付けは、提示されたハミルトンエンジニアリングメソッドを拡張して、今後のデバイス機能を活用する方法を提供する。

Analog quantum simulation is emerging as a powerful tool for uncovering classically unreachable physics such as many-body real-time dynamics. We study a class of errors for approximate time evolution algorithms in Heisenberg-type systems on analog quantum devices described by the Ising Hamiltonian. A general framework for quantifying these errors is introduced and applied to several proposed time evolution methods, including Trotter-like methods and Floquet-engineered constant-field approaches. This analysis explains the interplay of different error sources arising from approximations to the propagator of a physical theory. The limitations placed on the accuracy of time evolution methods by current devices are discussed. Characterization of the error scaling provides a way to extend the presented Hamiltonian engineering methods to take advantage of forthcoming device capabilities.
翻訳日:2023-08-08 19:27:52 公開日:2023-08-04
# トポロジーから学ぶ:大規模構造からの宇宙論的パラメータ推定

Learning from Topology: Cosmological Parameter Estimation from the Large-scale Structure ( http://arxiv.org/abs/2308.02636v1 )

ライセンス: Link先を確認
Jacky H. T. Yip, Adam Rouhiainen, Gary Shiu(参考訳) 宇宙の大規模構造のトポロジーは、基礎となる宇宙学的パラメータに関する貴重な情報を含んでいる。 永続ホモロジーは、この位相情報を抽出することができるが、ツールからパラメータ推定の最適な方法は、未解決のままである。 そこで本稿では,永続画像を宇宙パラメータにマッピングするニューラルネットワークモデルを提案する。 パラメータリカバリテストを通じて,従来のベイズ推定法をかなり上回る精度で正確な推定を行うことを示す。

The topology of the large-scale structure of the universe contains valuable information on the underlying cosmological parameters. While persistent homology can extract this topological information, the optimal method for parameter estimation from the tool remains an open question. To address this, we propose a neural network model to map persistence images to cosmological parameters. Through a parameter recovery test, we demonstrate that our model makes accurate and precise estimates, considerably outperforming conventional Bayesian inference approaches.
翻訳日:2023-08-08 19:27:40 公開日:2023-08-04
# 宇宙系物質波干渉計における天体背景からのコントラスト損失

Contrast Loss from Astrophysical Backgrounds in Space-Based Matter-Wave Interferometers ( http://arxiv.org/abs/2308.02634v1 )

ライセンス: Link先を確認
Yufeng Du, Clara Murgui, Kris Pardo, Yikun Wang, Kathryn M. Zurek(参考訳) 原子と物質干渉計(atom and matter interferometers)は、分離された時空経路に沿った微分力を観測できる精密な量子センシング実験である。 ダークマター、重力波、エキゾチックな新しい物理学を研究するために、様々な原子と物質干渉計の実験が提案されている。 これらの実験的な概念は、尋問時間とベースラインを最大化する空間ベースの設計を提案している。 しかし、天体物理学的な背景から生じるデコヒーレンスと位相シフトは、実験の標的感度を大きく損なうか破壊する可能性がある。 本研究では, 太陽光子, 太陽風, 宇宙線, 太陽ニュートリノ, ゾディアカルダストによるデコヒーレンス効果を宇宙原子および物質干渉計で計算した。 将来の宇宙ベースの原子と物質干渉計では、太陽風は適切な遮蔽を行うことなく、量子ノイズ限界を超えてデコヒーレンスを生成する。 加えて、太陽光子は物質干渉計の重要な背景でもある。

Atom and matter interferometers are precise quantum sensing experiments that can probe differential forces along separated spacetime paths. Various atom and matter interferometer experiments have been proposed to study dark matter, gravitational waves, and exotic new physics. Increasingly, these experimental concepts have proposed space-based designs to maximize interrogation times and baselines. However, decoherence and phase shifts caused by astrophysical backgrounds could largely undermine or destroy the target sensitivity of the experiments. We calculate the decoherence effects induced by solar photons, the solar wind, cosmic rays, solar neutrinos and zodiacal dust on space-based atom and matter interferometers. We find that, in future space-based atom and matter interferometers, the solar wind generically produces decoherence beyond the quantum noise limit, without proper shielding. In addition, solar photons are also an important background for matter interferometers.
翻訳日:2023-08-08 19:27:33 公開日:2023-08-04
# 生成逆数ネットワークを用いた自動走行用実時間合成Raw Radarデータの生成

Generation of Realistic Synthetic Raw Radar Data for Automated Driving Applications using Generative Adversarial Networks ( http://arxiv.org/abs/2308.02632v1 )

ライセンス: Link先を確認
Eduardo C. Fidelis and Fabio Reway and Herick Y. S. Ribeiro and Pietro L. Campos and Werner Huber and Christian Icking and Lester A. Faria and Torsten Sch\"on(参考訳) FMCWレーダをシミュレートする主なアプローチはレイトレーシングであり、通常は計算集約であり、バックグラウンドノイズを考慮しない。 本研究では,GAN(Generative Adversarial Network)を用いた合成生レーダデータを生成するFMCWレーダシミュレーションの高速化手法を提案する。 コードとトレーニング済みのウェイトはオープンソースであり、githubで入手できる。 この方法は16個の同時チャープを生成し、レーダデータ(フィルタリングとクラスタリング)を処理するアルゴリズムのさらなる開発に生成されたデータを使用できる。 これは、実生活では再現できない非存在または安全クリティカルなシナリオでデータを生成することによって、データ拡張の可能性を高めることができる。 この研究で、GANはオートバイのレーダー測定を訓練され、直線を走行するオートバイの合成生レーダーデータを生成するために使用された。 このデータを生成するには、ニューラルネットワークへの入力として、オートバイとガウスノイズの距離を用いる。 合成レーダチャープはFrechet Inception Distance (FID)を用いて評価した。 次に、このGANを用いた合成データに基づく(1\textsuperscript{st})および(2\textsuperscript{nd})の実データに基づく(2\textsuperscript{st})。 これらのRAマップに基づいて、適応しきい値とエッジ検出のアルゴリズムがオブジェクト検出に使用される。 以上の結果から, 車両のコヒーレントレーダ反射と背景騒音について, チャープ, RAマップ, 物体検出結果の比較から, 現実的なデータであることが示唆された。 そこで本研究では,レーダデータ生成におけるシミュレーションと現実のギャップを最小化する手法を提案する。

The main approaches for simulating FMCW radar are based on ray tracing, which is usually computationally intensive and do not account for background noise. This work proposes a faster method for FMCW radar simulation capable of generating synthetic raw radar data using generative adversarial networks (GAN). The code and pre-trained weights are open-source and available on GitHub. This method generates 16 simultaneous chirps, which allows the generated data to be used for the further development of algorithms for processing radar data (filtering and clustering). This can increase the potential for data augmentation, e.g., by generating data in non-existent or safety-critical scenarios that are not reproducible in real life. In this work, the GAN was trained with radar measurements of a motorcycle and used to generate synthetic raw radar data of a motorcycle traveling in a straight line. For generating this data, the distance of the motorcycle and Gaussian noise are used as input to the neural network. The synthetic generated radar chirps were evaluated using the Frechet Inception Distance (FID). Then, the Range-Azimuth (RA) map is calculated twice: (1\textsuperscript{st}) based on synthetic data using this GAN and (2\textsuperscript{nd}) based on real data. Based on these RA maps, an algorithm with adaptive threshold and edge detection is used for object detection. The results have shown that the data is realistic in terms of coherent radar reflections of the motorcycle and background noise based on the comparison of chirps, the RA maps and the object detection results. Thus, the proposed method in this work has shown to minimize the simulation-to-reality gap for the generation of radar data.
翻訳日:2023-08-08 19:27:17 公開日:2023-08-04
# 加速MRI再建における不確かさの推定と伝播

Uncertainty Estimation and Propagation in Accelerated MRI Reconstruction ( http://arxiv.org/abs/2308.02631v1 )

ライセンス: Link先を確認
Paul Fischer, Thomas K\"ustner, Christian F. Baumgartner(参考訳) 深層学習に基づくMRI再構成技術は、特に高度に加速された環境では、前例のない再構成品質をもたらす。 しかし、ディープラーニング技術は予期せぬ失敗と幻覚構造でも知られている。 リアルタイム治療指導やクリニカルパラマの自動抽出(セグメンテーションなど)といった下流業務に再構築が直接使用される場合、特に問題となる。 適切に調整された不確実性定量化は、臨床でこの技術を安全に利用するための重要な要素となるだろう。 本稿では,条件付き階層型変分オートエンコーダに基づく新しい確率的再構築手法(PHiRec)を提案する。 提案手法は, 高いベースラインよりも精度の高い不確かさの定量化とともに, 高品質な再構成を実現する。 さらに, MRエコンストラクションに生じる不確かさが下流のセグメンテーションタスクにどのように伝播するかを示すとともに, PHiRecは, MR再構成プロセスから生じたセグメンテーションの不確かさを正確に推定できることを示す。

MRI reconstruction techniques based on deep learning have led to unprecedented reconstruction quality especially in highly accelerated settings. However, deep learning techniques are also known to fail unexpectedly and hallucinate structures. This is particularly problematic if reconstructions are directly used for downstream tasks such as real-time treatment guidance or automated extraction of clinical paramters (e.g. via segmentation). Well-calibrated uncertainty quantification will be a key ingredient for safe use of this technology in clinical practice. In this paper we propose a novel probabilistic reconstruction technique (PHiRec) building on the idea of conditional hierarchical variational autoencoders. We demonstrate that our proposed method produces high-quality reconstructions as well as uncertainty quantification that is substantially better calibrated than several strong baselines. We furthermore demonstrate how uncertainties arising in the MR econstruction can be propagated to a downstream segmentation task, and show that PHiRec also allows well-calibrated estimation of segmentation uncertainties that originated in the MR reconstruction process.
翻訳日:2023-08-08 19:26:47 公開日:2023-08-04
# 因果境界のスケーラブルな計算

Scalable Computation of Causal Bounds ( http://arxiv.org/abs/2308.02709v1 )

ライセンス: Link先を確認
Madhumitha Shridharan and Garud Iyengar(参考訳) 我々は,非オブザーブ付き共起子と離散値の観測変数を持つ因果グラフ上の因果関係クエリの境界を計算する問題を考える。 このような境界を計算する既存の非パラメトリックなアプローチでは、因果グラフの辺数でlpのサイズが指数関数的に大きくなるため、既存の解法ではすぐに難解になる線形計画法(lp)が用いられる。 このLPは,既存の手法に比べてはるかに大きな因果推論問題に対する境界を計算することができることを示す。 このプルーニング法により、複数の包括的処理が結果に影響を及ぼす問題群を含む、特別な種類の問題に対する閉形式の境界を計算することができる。 我々は,本手法を,そのユニットに関する追加観測を含む因果クエリのバウンダリを計算する分数LPに拡張する。 提案手法は,実験中のベンチマークと比較し,実行時の大幅な改善を実現し,その結果を有限データ設定にまで拡張することを示す。 追加の観察を伴わない因果推論では,高品質な境界を生成できる効率的な欲欲ヒューリスティックを提案し,pruned lpが解くことのできる問題よりも数桁大きい問題にスケールする。

We consider the problem of computing bounds for causal queries on causal graphs with unobserved confounders and discrete valued observed variables, where identifiability does not hold. Existing non-parametric approaches for computing such bounds use linear programming (LP) formulations that quickly become intractable for existing solvers because the size of the LP grows exponentially in the number of edges in the causal graph. We show that this LP can be significantly pruned, allowing us to compute bounds for significantly larger causal inference problems compared to existing techniques. This pruning procedure allows us to compute bounds in closed form for a special class of problems, including a well-studied family of problems where multiple confounded treatments influence an outcome. We extend our pruning methodology to fractional LPs which compute bounds for causal queries which incorporate additional observations about the unit. We show that our methods provide significant runtime improvement compared to benchmarks in experiments and extend our results to the finite data setting. For causal inference without additional observations, we propose an efficient greedy heuristic that produces high quality bounds, and scales to problems that are several orders of magnitude larger than those for which the pruned LP can be solved.
翻訳日:2023-08-08 19:20:30 公開日:2023-08-04
# 高オーバトンバルク共振器とフォトニック回路の統合による双方向マイクロ波光伝送

Bidirectional microwave-optical transduction based on integration of high-overtone bulk acoustic resonators and photonic circuits ( http://arxiv.org/abs/2308.02706v1 )

ライセンス: Link先を確認
Terence Bl\'esin, Wil Kao, Anat Siddharth, Rui N. Wang, Alaina Attanasio, Hao Tian, Sunil A. Bhave, Tobias J. Kippenberg(参考訳) マイクロ波と光周波数のコヒーレントな相互変換は、計算、通信、センシングのための古典的および量子的インターフェースとして機能する。 本稿では,窒化ケイ素フォトニック回路上に圧電アクチュエータを一体化した小型マイクロ波光変換器を提案する。 このようなアクチュエータは、マイクロ波信号を光導波路コアの懸濁シリカクラディングによって定義される高オーバートンバルク音響共振器に直接結合し、電気機械的および光学的結合が強化される。 室温では、この三重共振型圧電オプトメカニカルトランスデューサは、入力ポンプパワー21dBmで、25MHzの帯域上で−48dBのオフチップ光子数変換効率を達成する。 このアプローチは製造にスケーラブルであり、既存の電気光学トランスデューサとは異なり、超伝導共振器に依存しない。 トランスダクションプロセスは双方向であるため、純粋な光入力からのマイクロ波パルスの合成をさらに実証する。 トランスダクションに複数の音響モードを利用する能力と組み合わせて、このプラットフォームは、周波数多重量子ビット配線とマイクロ波フォトニクスを大規模に構築するための展望を提供する。

Coherent interconversion between microwave and optical frequencies can serve as both classical and quantum interfaces for computing, communication, and sensing. Here, we present a compact microwave-optical transducer based on monolithic integration of piezoelectric actuators atop silicon nitride photonic circuits. Such an actuator directly couples microwave signals to a high-overtone bulk acoustic resonator defined by the suspended silica cladding of the optical waveguide core, which leads to enhanced electromechanical and optomechanical couplings. At room temperature, this triply resonant piezo-optomechanical transducer achieves an off-chip photon number conversion efficiency of -48 dB over a bandwidth of 25 MHz at an input pump power of 21 dBm. The approach is scalable in manufacturing and, unlike existing electro-optic transducers, does not rely on superconducting resonators. As the transduction process is bidirectional, we further demonstrate synthesis of microwave pulses from a purely optical input. Combined with the capability of leveraging multiple acoustic modes for transduction, the present platform offers prospects for building frequency-multiplexed qubit interconnects and for microwave photonics at large.
翻訳日:2023-08-08 19:20:08 公開日:2023-08-04
# クラス条件ラベル雑音下における不正検出のためのfpr推定

FPR Estimation for Fraud Detection in the Presence of Class-Conditional Label Noise ( http://arxiv.org/abs/2308.02695v1 )

ライセンス: Link先を確認
Justin Tittelfitz(参考訳) 検証セットに誤りラベル(ラベルノイズ)がある場合,二項分類モデルにおいて偽陽性率(fpr/tpr)を推定する問題を考える。 当社のモチベーション応用は,FPRの正確な推定が顧客エクスペリエンスの維持に不可欠であり,ラベルノイズが高度に非対称である不正防止である。 既存の方法は、ノイズでないサンプルのクリーニングを回避し、サンプルのクリーニングを確実にするため、クリーニングプロセスにおける総エラーを最小限にすることを目指している。 これは精度の重要な尺度であるが、モデルに対する真のFPRやTPRの正確な推定を保証するには不十分である。 このことは、研究者が総誤差を減らしただけでなく、クリーニングエラーをモデルスコアと非相関する手法を追求する必要性を示している。

We consider the problem of estimating the false-/ true-positive-rate (FPR/TPR) for a binary classification model when there are incorrect labels (label noise) in the validation set. Our motivating application is fraud prevention where accurate estimates of FPR are critical to preserving the experience for good customers, and where label noise is highly asymmetric. Existing methods seek to minimize the total error in the cleaning process - to avoid cleaning examples that are not noise, and to ensure cleaning of examples that are. This is an important measure of accuracy but insufficient to guarantee good estimates of the true FPR or TPR for a model, and we show that using the model to directly clean its own validation data leads to underestimates even if total error is low. This indicates a need for researchers to pursue methods that not only reduce total error but also seek to de-correlate cleaning error with model scores.
翻訳日:2023-08-08 19:19:37 公開日:2023-08-04
# 大きな空間次元における非線形波動伝播と黒体熱法則

Nonlinear wave propagation in large extra spatial dimensions and the blackbody thermal laws ( http://arxiv.org/abs/2308.02685v1 )

ライセンス: Link先を確認
I. Soares, R. Turcati, and S. B. Duarte(参考訳) 大きな余剰空間次元における非線形波動伝搬(d=2$以上)は、不変の$\mathcal{F}$にのみ依存する非線形電磁力学理論の文脈で研究される。 本報では,外部の均一電場および磁場の影響下での伝搬波について考察する。 スペクトルエネルギー密度分布の一般化やステファン・ボルツマン則などの背景定数電界の存在下での黒体放射に関する特徴が得られた。 興味深いことに、周波数スペクトルに対する異方性寄与は電磁場の非線形性に関連して現れる。 また、この状況下での長波長状態とウィーンの変位法について検討した。 エネルギー、圧力、エントロピー、熱容量密度などの熱平衡における対応する熱力学量についても考察する。

The nonlinear wave propagation in large extra spatial dimensions (on and above $d=2$) is investigated in the context of nonlinear electrodynamics theories that depends exclusively on the invariant $\mathcal{F}$. In this vein, we consider propagating waves under the influence of external uniform electric and magnetic fields. Features related to the blackbody radiation in the presence of a background constant electric field such as the generalization of the spectral energy density distribution and the Stefan-Boltzmann law are obtained. Interestingly enough, anisotropic contributions to the frequency spectrum appear in connection to the nonlinearity of the electromagnetic field. In addition, the long wavelength regime and the Wien's displacement law in this situation are studied. The corresponding thermodynamics quantities at thermal equilibrium, such as energy, pressure, entropy and heat capacity densities are contemplated as well.
翻訳日:2023-08-08 19:19:06 公開日:2023-08-04
# 運用予測のためのポストホックな注意による深層学習に基づく太陽フレア予測

Explainable Deep Learning-based Solar Flare Prediction with post hoc Attention for Operational Forecasting ( http://arxiv.org/abs/2308.02682v1 )

ライセンス: Link先を確認
Chetraj Pandey, Rafal A. Angryk, Manolis K. Georgoulis, Berkay Aydin(参考訳) 本稿では,深層学習に基づくフルディスク太陽フレア予測モデルのポストホック解析について述べる。 我々は、24時間以内に$$\geq$M1.0級フレアの発生を予測するために、1時間ごとのフルディスクラインオブサイト・マグネティックグラム画像と2値予測モードを選択した。 私たちは独自のデータ拡張とサンプル重み付けを利用して,固有のクラス不均衡問題に対処し,真のスキル統計とハイドケスキルスコアを評価指標として用いた。 近年のグラデーションベースアテンション手法の進歩により、勾配信号を送信し、入力特徴に対する決定の重荷を割り当てることでモデルを解釈することができる。 我々は3つのポストホックアテンション手法を用いてモデルを解釈する。 (i)ガイド付きグラディエント級活性化マッピング (ii)深層シェープリー添加説明、及び (iii)統合勾配。 解析の結果,太陽フレアのフルディスク予測は活動領域に関する特性と一致していることがわかった。 本研究の重要な知見は,(1)全円板モデルが操作フレア予測の重要な特徴である近辺の太陽フレアを接接点として予測できること,(2) 候補モデルが平均tss=0.51$\pm$0.05 と hss=0.38$\pm$0.08 を達成すること,(3) このモデルがフルディスク磁図から有効領域に対応する特徴を学習できること,である。

This paper presents a post hoc analysis of a deep learning-based full-disk solar flare prediction model. We used hourly full-disk line-of-sight magnetogram images and selected binary prediction mode to predict the occurrence of $\geq$M1.0-class flares within 24 hours. We leveraged custom data augmentation and sample weighting to counter the inherent class-imbalance problem and used true skill statistic and Heidke skill score as evaluation metrics. Recent advancements in gradient-based attention methods allow us to interpret models by sending gradient signals to assign the burden of the decision on the input features. We interpret our model using three post hoc attention methods: (i) Guided Gradient-weighted Class Activation Mapping, (ii) Deep Shapley Additive Explanations, and (iii) Integrated Gradients. Our analysis shows that full-disk predictions of solar flares align with characteristics related to the active regions. The key findings of this study are: (1) We demonstrate that our full disk model can tangibly locate and predict near-limb solar flares, which is a critical feature for operational flare forecasting, (2) Our candidate model achieves an average TSS=0.51$\pm$0.05 and HSS=0.38$\pm$0.08, and (3) Our evaluation suggests that these models can learn conspicuous features corresponding to active regions from full-disk magnetograms.
翻訳日:2023-08-08 19:18:41 公開日:2023-08-04
# MARTA:アトランタでオンデマンドマルチモーダル交通システムを試験中

MARTA Reach: Piloting an On-Demand Multimodal Transit System in Atlanta ( http://arxiv.org/abs/2308.02681v1 )

ライセンス: Link先を確認
Pascal Van Hentenryck, Connor Riley, Anthony Trasatti, Hongzhao Guan, Tejas Santanam, Jorge A. Huertas, Kevin Dalmeijer, Kari Watkins, Juwon Drake, Samson Baskin(参考訳) 本報告では,ジョージア州アトランタ市におけるODMTS(On-Demand Multimodal Transit Systems)の潜在的価値を実証することを目的とした,6ヶ月のパイロットMARTA Reachの結果について報告する。 odmtは、最初の/最後のマイル問題に対処するために、オンデマンドサービスと従来の固定ルートを統合することで、交通中心の視点を取る。 ODMTSは、固定ルートとオンデマンドシャトルサービスを(後述ではなく)設計して、完全に統合されたオペレーションと運賃構造を備えたドアツードアのマルチモーダルサービスを提供するトランジットシステムに統合している。 この論文は、ジョージア州アトランタのような複雑な都市にODMTSを配備する際の影響、利益、課題に関する知識ギャップを埋めるものである。 パイロットは4つの異なるゾーンに配備され、輸送オプションは限られており、最初の/最後のマイル問題に対処するために輸送システムと統合されたオンデマンドシャトルを使用していた。 本報告では, パイロットの設計と運用について述べるとともに, 乗務員, サービス品質, 旅行目的, 代替交通手段, 旅行のマルチモーダルな性質, 遭遇した課題, コスト見積の観点から結果を示す。 パイロットの主な発見は、リーチが非常に価値の高いサービスを提供し、それ以外は配車会社、タクシー、あるいは個人車によって提供されるであろう多くの旅行を行ったことである。 さらに、到達距離の大多数はマルチモーダルであり、鉄道との接続が最も顕著であった。

This paper reports on the results of the six-month pilot MARTA Reach, which aimed to demonstrate the potential value of On-Demand Multimodal Transit Systems (ODMTS) in the city of Atlanta, Georgia. ODMTS take a transit-centric view by integrating on-demand services and traditional fixed routes in order to address the first/last mile problem. ODMTS combine fixed routes and on-demand shuttle services by design (not as an after-thought) into a transit system that offers a door-to-door multimodal service with fully integrated operations and fare structure. The paper fills a knowledge gap, i.e., the understanding of the impact, benefits, and challenges of deploying an ODMTS in a city as complex as Atlanta, Georgia. The pilot was deployed in four different zones with limited transit options, and used on-demand shuttles integrated with the overall transit system to address the first/last mile problem. The paper describes the design and operations of the pilot, and presents the results in terms of ridership, quality of service, trip purposes, alternative modes of transportation, multimodal nature of trips, challenges encountered, and cost estimates. The main findings of the pilot are that Reach offered a highly valued service that performed a large number of trips that would have otherwise been served by ride-hailing companies, taxis, or personal cars. Moreover, the wide majority of Reach trips were multimodal, with connections to rail being most prominent
翻訳日:2023-08-08 19:18:07 公開日:2023-08-04
# EDI:ビジュアル慣性SLAMシステムのためのESKFに基づく解離初期化

EDI: ESKF-based Disjoint Initialization for Visual-Inertial SLAM Systems ( http://arxiv.org/abs/2308.02670v1 )

ライセンス: Link先を確認
Weihan Wang, Jiani Li, Yuhang Ming, Philippos Mordohai(参考訳) 視覚慣性初期化はジョイントアプローチとdisjointアプローチに分類できる。 共同アプローチは、IMU統合に基づく特徴量を持つ点からの観測を調整し、視覚的および加速度的な観測で初期速度と重力を見つけることで、視覚的パラメータと慣性パラメータの両方に取り組む。 対照的に、解離アプローチは、独立して、純粋な単分子SLAMから得られたカメラポーズから、SFM(Structure from Motion)問題を解き、慣性パラメータを決定する。 しかし, 従来の非結合法には, 加速度バイアスの影響の無視を仮定したり, 純単球スラムによる正確な回転推定など, 限界がある。 これらの問題に対処するため、我々は高速で正確で堅牢な視覚慣性初期化のための新しいアプローチであるEDIを提案する。 本手法では,誤差状態カルマンフィルタ(eskf)を用いてジャイロスコープバイアスを推定し,モノクロスラムからの回転推定を正し,純モノクロスラムへの依存を克服して回転推定を行う。 先行情報なしでスケール係数を推定するために,初期速度,スケール,重力,加速度バイアス推定のための閉形式解を提案する。 重力と加速度バイアスのカップリングに対処するために,線形最小二乗方程式に重みを導入し,加速度バイアスの可観測性を確保し,異常値を扱う。 EuRoCデータセットの広範囲な評価により,提案手法は3秒未満で平均5.8%の誤差を達成し,課題のある環境や人工騒音の汚職においても,他の最先端の視覚慣性初期化手法よりも優れていた。

Visual-inertial initialization can be classified into joint and disjoint approaches. Joint approaches tackle both the visual and the inertial parameters together by aligning observations from feature-bearing points based on IMU integration then use a closed-form solution with visual and acceleration observations to find initial velocity and gravity. In contrast, disjoint approaches independently solve the Structure from Motion (SFM) problem and determine inertial parameters from up-to-scale camera poses obtained from pure monocular SLAM. However, previous disjoint methods have limitations, like assuming negligible acceleration bias impact or accurate rotation estimation by pure monocular SLAM. To address these issues, we propose EDI, a novel approach for fast, accurate, and robust visual-inertial initialization. Our method incorporates an Error-state Kalman Filter (ESKF) to estimate gyroscope bias and correct rotation estimates from monocular SLAM, overcoming dependence on pure monocular SLAM for rotation estimation. To estimate the scale factor without prior information, we offer a closed-form solution for initial velocity, scale, gravity, and acceleration bias estimation. To address gravity and acceleration bias coupling, we introduce weights in the linear least-squares equations, ensuring acceleration bias observability and handling outliers. Extensive evaluation on the EuRoC dataset shows that our method achieves an average scale error of 5.8% in less than 3 seconds, outperforming other state-of-the-art disjoint visual-inertial initialization approaches, even in challenging environments and with artificial noise corruption.
翻訳日:2023-08-08 19:17:38 公開日:2023-08-04
# 人間の説明可能な述語の自動学習による三角形パズルの解法

Solving Witness-type Triangle Puzzles Faster with an Automatically Learned Human-Explainable Predicate ( http://arxiv.org/abs/2308.02666v1 )

ライセンス: Link先を確認
Justin Stevens, Vadim Bulitko, David Thue(参考訳) ゲームのパズルインスタンスを自動的に解決する 証人はプレイヤーをソリューションへと誘導し、パズルデザイナーがより良いパズルを生成する手助けをする。 後者の場合、人工知能パズルソルバは、人間のパズルデザイナと手続きパズルジェネレータに、より良いインスタンスを生成するように通知することができる。 しかし、このパズルは組み合わせが難しく、検索ベースの解法では大量の時間と記憶を必要とする。 証人型パズルへの部分経路が解経路に可逆でないか否かを予測できる人間の説明可能な述語を自動的に学習することにより、そのような探索を加速する。 学習述語の重要な性質を証明し,探索における後続状態の刈り取りに利用することで,基礎となる探索の完全性を維持しつつ,平均6倍の探索を高速化する。 逆に、パズルごとに固定された検索時間予算が与えられると、述語アクセラレーションされた検索は、ベースライン検索よりも大きなパズルインスタンスを解決できます。

Automatically solving puzzle instances in the game The Witness can guide players toward solutions and help puzzle designers generate better puzzles. In the latter case such an Artificial Intelligence puzzle solver can inform a human puzzle designer and procedural puzzle generator to produce better instances. The puzzles, however, are combinatorially difficult and search-based solvers can require large amounts of time and memory. We accelerate such search by automatically learning a human-explainable predicate that predicts whether a partial path to a Witness-type puzzle is not completable to a solution path. We prove a key property of the learned predicate which allows us to use it for pruning successor states in search thereby accelerating search by an average of six times while maintaining completeness of the underlying search. Conversely given a fixed search time budget per puzzle our predicate-accelerated search can solve more puzzle instances of larger sizes than the baseline search.
翻訳日:2023-08-08 19:16:26 公開日:2023-08-04
# 自己教師付き学習によるストレスモバイルセンシングのパーソナライズ

Personalization of Stress Mobile Sensing using Self-Supervised Learning ( http://arxiv.org/abs/2308.02731v1 )

ライセンス: Link先を確認
Tanvir Islam, Peter Washington(参考訳) ストレスは様々な健康問題の主要な要因として広く認識されている。 ウェアラブルによって記録された生体信号データを用いたストレス予測は、リアルタイムのストレス予測がストレスの開始時にデジタル介入を即座に反応させることができるため、モバイルセンシング研究において重要な研究領域である。 電界活動(eda)はストレスを測定するためにしばしば用いられる。 しかしながら、機械学習を用いたストレス予測の主な課題は、ラベルの主観性とスパース性、大きな特徴空間、比較的少ないラベル、特徴と結果の間の複雑な非線形および主観的な関係である。 これらの問題に対処するために,モデルパーソナライゼーション(モデルパーソナライゼーション)の利用について検討する。 ニューラルネットワークが個々の基本となる生体信号パターンの時間的ダイナミクスを学習できるように、ラベルの少ないパーソナライズを可能にするため、自己教師付き学習(SSL)を用いて1次元畳み込みニューラルネットワーク(CNN)を事前訓練する。 本手法はウェアラブルストレスを用いて評価し,wesad(impact prediction)データセットを用いて評価する。 プレトレーニングされたネットワークをストレス予測タスクに微調整し、自己教師付き事前トレーニングなしで等価モデルと比較する。 SSLでトレーニングされたモデルでは、パーソナライズされたSSLなしで同等のパフォーマンスに到達するには、ラベルの30%未満が必要になります。 このパーソナライズされた学習方法は、各主題に合わせた精密な健康システムを可能にし、エンドユーザによる注釈をほとんど必要とせず、ストレスなどの主観的な結果がより複雑で異質なモバイルセンシングを可能にする。

Stress is widely recognized as a major contributor to a variety of health issues. Stress prediction using biosignal data recorded by wearables is a key area of study in mobile sensing research because real-time stress prediction can enable digital interventions to immediately react at the onset of stress, helping to avoid many psychological and physiological symptoms such as heart rhythm irregularities. Electrodermal activity (EDA) is often used to measure stress. However, major challenges with the prediction of stress using machine learning include the subjectivity and sparseness of the labels, a large feature space, relatively few labels, and a complex nonlinear and subjective relationship between the features and outcomes. To tackle these issues, we examine the use of model personalization: training a separate stress prediction model for each user. To allow the neural network to learn the temporal dynamics of each individual's baseline biosignal patterns, thus enabling personalization with very few labels, we pre-train a 1-dimensional convolutional neural network (CNN) using self-supervised learning (SSL). We evaluate our method using the Wearable Stress and Affect prediction (WESAD) dataset. We fine-tune the pre-trained networks to the stress prediction task and compare against equivalent models without any self-supervised pre-training. We discover that embeddings learned using our pre-training method outperform supervised baselines with significantly fewer labeled data points: the models trained with SSL require less than 30% of the labels to reach equivalent performance without personalized SSL. This personalized learning method can enable precision health systems which are tailored to each subject and require few annotations by the end user, thus allowing for the mobile sensing of increasingly complex, heterogeneous, and subjective outcomes such as stress.
翻訳日:2023-08-08 19:10:10 公開日:2023-08-04
# 所要時間予測と離散事象シミュレーションを用いた救急部門短期滞在単位の影響評価

Assessing the impact of emergency department short stay units using length-of-stay prediction and discrete event simulation ( http://arxiv.org/abs/2308.02730v1 )

ライセンス: Link先を確認
Mucahit Cevik, Can Kavaklioglu, Fahad Razak, Amol Verma, Ayse Basar(参考訳) 入院時の入院期間を正確に予測することは,臨床意思決定や資源配分の指導に役立つ可能性がある。 本研究の目的は,救急外来で一般内科を受診した患者の入院期間を予測する意思決定支援システムの構築である。 我々は探索的データ分析を行い、最高の予測性能をもたらす属性を識別するために特徴選択手法を用いる。 また,予測モデルの性能を現実的に評価するための離散イベントシミュレーションモデルを開発した。 その結果,提案手法の推奨性能は一般に受け入れられ,特徴選択の恩恵を受けないことがわかった。 さらに, 入院患者数, 臨床検査結果, 診断画像, バイタルサイン, 臨床文書を用いて, 入院期間を合理的に予測できることが示唆された。

Accurately predicting hospital length-of-stay at the time a patient is admitted to hospital may help guide clinical decision making and resource allocation. In this study we aim to build a decision support system that predicts hospital length-of-stay for patients admitted to general internal medicine from the emergency department. We conduct an exploratory data analysis and employ feature selection methods to identify the attributes that result in the best predictive performance. We also develop a discrete-event simulation model to assess the performances of the prediction models in a practical setting. Our results show that the recommendation performances of the proposed approaches are generally acceptable and do not benefit from the feature selection. Further, the results indicate that hospital length-of-stay could be predicted with reasonable accuracy (e.g., AUC value for classifying short and long stay patients is 0.69) using patient admission demographics, laboratory test results, diagnostic imaging, vital signs and clinical documentation.
翻訳日:2023-08-08 19:09:40 公開日:2023-08-04
# Actor-CriticアルゴリズムとReLUネットワークによるプログラムポリシーの合成

Synthesizing Programmatic Policies with Actor-Critic Algorithms and ReLU Networks ( http://arxiv.org/abs/2308.02729v1 )

ライセンス: Link先を確認
Spyros Orfanos and Levi H. S. Lelis(参考訳) PIRL(Programmaticly Interpretable Reinforcement Learning)は、人間が読めるコンピュータプログラムのポリシーを符号化する。 近年,プログラムポリシーの領域における探索を誘導する勾配信号の欠如に対処する目的で,新しいアルゴリズムが導入された。 このようなPIRLアルゴリズムのほとんどは、まず、プログラム空間における探索を導くための託宣として使用される神経ポリシーを訓練する。 本稿では,プログラムポリシーを符号化する言語によって,このようなPIRL固有のアルゴリズムは不要であることを示す。 これは、アクター批判アルゴリズムを使ってプログラムポリシーを直接取得できるためである。 ReLUニューラルネットワークと斜め決定木との接続を利用して、アクター批判アルゴリズムで学んだポリシーをプログラムポリシーに変換する。 reluネットワークからのこの変換により、if-then-else構造、入力値の線形変換、pid操作でプログラムに符号化されたポリシーを合成できる。 いくつかの制御問題に対する実証的な結果は、この翻訳手法が短く効果的なポリシーを学習できることを示している。 さらに、翻訳されたポリシーは少なくとも競争力があり、しばしばPIRLアルゴリズムが合成するポリシーよりも優れている。

Programmatically Interpretable Reinforcement Learning (PIRL) encodes policies in human-readable computer programs. Novel algorithms were recently introduced with the goal of handling the lack of gradient signal to guide the search in the space of programmatic policies. Most of such PIRL algorithms first train a neural policy that is used as an oracle to guide the search in the programmatic space. In this paper, we show that such PIRL-specific algorithms are not needed, depending on the language used to encode the programmatic policies. This is because one can use actor-critic algorithms to directly obtain a programmatic policy. We use a connection between ReLU neural networks and oblique decision trees to translate the policy learned with actor-critic algorithms into programmatic policies. This translation from ReLU networks allows us to synthesize policies encoded in programs with if-then-else structures, linear transformations of the input values, and PID operations. Empirical results on several control problems show that this translation approach is capable of learning short and effective policies. Moreover, the translated policies are at least competitive and often far superior to the policies PIRL algorithms synthesize.
翻訳日:2023-08-08 19:09:25 公開日:2023-08-04
# 局所的生成可能性によるユニタリ演算子の分類

Classification of Unitary Operators by Local Generatability ( http://arxiv.org/abs/2308.02728v1 )

ライセンス: Link先を確認
Xu Liu, Adrian B. Culver, Fenner Harper, Rahul Roy(参考訳) 周期駆動(フロケ)システムは平衡で得られるもの以外の新しい可能性を示すことができる。 フロケ系と離散時間量子ウォークと量子セルオートマトンの両方において、基本的区別はユニタリ時間進化作用素の間で生じ、全ての物理作用素は局所的であるが、全て局所的に生成されるわけではない。 本稿では、すべてのアルトランド・ジルンバウアー対称性クラスにおいて局所的に生成されるユニタリまで同値の概念を定義する。 すると、局所的に生成されるユニタリへの同値性はホモトピー同値性と同一であることを示すことによって、すべての次元における非相互作用ユニタリをこの基底で分類する。

Periodically driven (Floquet) systems can exhibit new possibilities beyond what can be obtained in equilibrium. Both in Floquet systems and in the related problems of discrete-time quantum walks and quantum cellular automata, a basic distinction arises among unitary time evolution operators: while all physical operators are local, not all are locally generated (i.e., generated by some local Hamiltonian). In this paper, we define the notion of equivalence up to a locally generated unitary in all Altland-Zirnbauer symmetry classes. We then classify non-interacting unitaries in all dimensions on this basis by showing that equivalence up to a locally generated unitary is identical to homotopy equivalence.
翻訳日:2023-08-08 19:09:06 公開日:2023-08-04
# SOTAフェイクニュース検知器はどんなものか

How Good Are SOTA Fake News Detectors ( http://arxiv.org/abs/2308.02727v1 )

ライセンス: Link先を確認
Matthew Iceland(参考訳) 機械学習による偽ニュースの自動検出は、多くのビューを得る前に偽文の拡散を防ぐことができる。 2016年のアメリカ合衆国大統領選挙以降、機械学習モデルのトレーニングを想定して、ステートメントを正当あるいは虚偽と分類するデータセットがいくつか作成されている。 我々は,従来の最先端モデルと深層モデルの両方の堅牢性を評価し,それらの実世界における性能を評価する。 従来のモデルは、最近開発された大規模言語モデルと比較して、トレーニングされたディストリビューション外のデータに対して、より一般化する傾向があることが分かりました。

Automatic fake news detection with machine learning can prevent the dissemination of false statements before they gain many views. Several datasets labeling statements as legitimate or false have been created since the 2016 United States presidential election for the prospect of training machine learning models. We evaluate the robustness of both traditional and deep state-of-the-art models to gauge how well they may perform in the real world. We find that traditional models tend to generalize better to data outside the distribution it was trained on compared to more recently-developed large language models, though the best model to use may depend on the specific task at hand.
翻訳日:2023-08-08 19:08:52 公開日:2023-08-04
# 歌唱メロディ抽出における高調波感度と予測安定性の向上

Towards Improving Harmonic Sensitivity and Prediction Stability for Singing Melody Extraction ( http://arxiv.org/abs/2308.02723v1 )

ライセンス: Link先を確認
Keren Shao, Ke Chen, Taylor Berg-Kirkpatrick, Shlomo Dubnov(参考訳) ディープラーニングの研究において、多くのメロディ抽出モデルは、パフォーマンスを改善するためにニューラルネットワークアーキテクチャの再設計に依存している。 本稿では,入力特徴の修正と2つの仮定に基づく学習目標の修正を提案する。 まず、周波数軸に沿ってオーディオデータのスペクトログラムの高調波が急速に減衰する。 後続高調波に対するモデルの感度を高めるため、離散z変換を用いた結合周波数と周期(CFP)表現を修正した。 第二に、極端に短い声帯と非声帯は稀である。 より安定したメロディ輪郭を確保するため、モデルがそのようなセグメントを予測できないように、微分可能な損失関数を設計する。 我々はこれらの修正を、MSNet、FTANet、ピアノの書き起こしネットワークから修正された新しいモデルPianoNetなど、いくつかのモデルに適用する。 実験の結果,提案手法は旋律抽出に実験的に有効であることがわかった。

In deep learning research, many melody extraction models rely on redesigning neural network architectures to improve performance. In this paper, we propose an input feature modification and a training objective modification based on two assumptions. First, harmonics in the spectrograms of audio data decay rapidly along the frequency axis. To enhance the model's sensitivity on the trailing harmonics, we modify the Combined Frequency and Periodicity (CFP) representation using discrete z-transform. Second, the vocal and non-vocal segments with extremely short duration are uncommon. To ensure a more stable melody contour, we design a differentiable loss function that prevents the model from predicting such segments. We apply these modifications to several models, including MSNet, FTANet, and a newly introduced model, PianoNet, modified from a piano transcription network. Our experimental results demonstrate that the proposed modifications are empirically effective for singing melody extraction.
翻訳日:2023-08-08 19:08:42 公開日:2023-08-04
# CNN変換器エンコーダを用いた軽量内視鏡深度推定

Lightweight Endoscopic Depth Estimation with CNN-Transformer Encoder ( http://arxiv.org/abs/2308.02716v1 )

ライセンス: Link先を確認
Yangke Li(参考訳) 本研究では,内視鏡画像の深度推定における精度とロバスト性に関する重要な課題に取り組み,特にリアルタイムの推測と反射の影響に着目した。 本稿では,畳み込みニューラルネットワーク(CNN)とトランスフォーマーを統合し,マルチスケール深度マップの予測を行う。 提案手法は,ネットワークアーキテクチャの最適化,マルチスケール拡張畳み込み,マルチチャネルアテンション機構の導入を含む。 また,反射領域の影響を最小限に抑えるため,統計的信頼境界マスクを導入する。 さらに,ネットワークパラメータのサイズ,浮動小数点演算,毎秒の推論フレームを考慮した新しい複雑性評価指標を提案する。 本研究は腹腔鏡下手術の効率と安全性を高めることを目的としている。 提案手法を総合的に評価し,既存のソリューションと比較する。 その結果,本手法は軽量でありながら深度推定精度を保証できることがわかった。

In this study, we tackle the key challenges concerning accuracy and robustness in depth estimation for endoscopic imaging, with a particular emphasis on real-time inference and the impact of reflections. We propose an innovative lightweight solution that integrates Convolutional Neural Networks (CNN) and Transformers to predict multi-scale depth maps. Our approach includes optimizing the network architecture, incorporating multi-scale dilated convolution, and a multi-channel attention mechanism. We also introduce a statistical confidence boundary mask to minimize the impact of reflective areas. Moreover, we propose a novel complexity evaluation metric that considers network parameter size, floating-point operations, and inference frames per second. Our research aims to enhance the efficiency and safety of laparoscopic surgery significantly. We comprehensively evaluate our proposed method and compare it with existing solutions. The results demonstrate that our method ensures depth estimation accuracy while being lightweight.
翻訳日:2023-08-08 19:08:28 公開日:2023-08-04
# AIとロボティクスを活用した流体特性予測

Fluid Property Prediction Leveraging AI and Robotics ( http://arxiv.org/abs/2308.02715v1 )

ライセンス: Link先を確認
Jong Hoon Park, Gauri Pramod Dalwankar, Alison Bartsch, Abraham George, Amir Barati Farimani(参考訳) 視覚から液体の特性を推定することは、挙動と検出の両方において、流体の複雑な性質のために難しい課題である。 それでも、視覚情報から直接その特性を推測する能力は、カメラが容易に利用できるため、自律流体処理システムにとって非常に有用である。 さらに、視覚から純粋に流体特性を予測することは、様々な実験環境でかなりの時間と労力を節約する流体キャラクタリゼーションのプロセスを加速することができる。 本研究では,流体振動の挙動が粘度に直接関係していることを利用して,粘度を推定する純粋ビジョンに基づく手法を提案する。 具体的には,3次元畳み込みオートエンコーダを用いて,映像中の異なる流体振動パターンの潜在表現を学習する。 この潜在表現を利用して,映像から流体のカテゴリや流体の動的粘度を視覚的に推定する。

Inferring liquid properties from vision is a challenging task due to the complex nature of fluids, both in behavior and detection. Nevertheless, the ability to infer their properties directly from visual information is highly valuable for autonomous fluid handling systems, as cameras are readily available. Moreover, predicting fluid properties purely from vision can accelerate the process of fluid characterization saving considerable time and effort in various experimental environments. In this work, we present a purely vision-based approach to estimate viscosity, leveraging the fact that the behavior of the fluid oscillations is directly related to the viscosity. Specifically, we utilize a 3D convolutional autoencoder to learn latent representations of different fluid-oscillating patterns present in videos. We leverage this latent representation to visually infer the category of fluid or the dynamics viscosity of fluid from video.
翻訳日:2023-08-08 19:08:14 公開日:2023-08-04
# 画像の高分解能化におけるスパース回復の効果の検討

Exploring the Effect of Sparse Recovery on the Quality of Image Superresolution ( http://arxiv.org/abs/2308.02714v1 )

ライセンス: Link先を確認
Antonio Castro(参考訳) 辞書学習は、高分解能と低分解能の画像ペアから画像パッチの1対の結合辞書を学習し、対応するペアが結合辞書で表現されたときに同じスパースベクトルを共有することにより、画像の超解像に使用できる。 これらの辞書は、スパースリカバリに基づいて、低解像度の入力画像から対応する高解像度のパッチを再構築するために使用できる。 低分解能辞書を用いて共有スパースベクトルを復元し、高分解能辞書で乗算して対応する高分解能画像パッチを復元する。 本研究では,再構成画像の品質に及ぼすスパース回収アルゴリズムの効果について検討する。 我々は,この目的に利用できる最良のスパースリカバリアルゴリズムを探索するための実証実験を提供する。

Dictionary learning can be used for image superresolution by learning a pair of coupled dictionaries of image patches from high-resolution and low-resolution image pairs such that the corresponding pairs share the same sparse vector when represented by the coupled dictionaries. These dictionaries then can be used to to reconstruct the corresponding high-resolution patches from low-resolution input images based on sparse recovery. The idea is to recover the shared sparse vector using the low-resolution dictionary and then multiply it by the high-resolution dictionary to recover the corresponding high-resolution image patch. In this work, we study the effect of the sparse recovery algorithm that we use on the quality of the reconstructed images. We offer empirical experiments to search for the best sparse recovery algorithm that can be used for this purpose.
翻訳日:2023-08-08 19:07:59 公開日:2023-08-04
# ニューロトラジェリー予測における進化的多目的最適化

Evolutionary Multi-objective Optimisation in Neurotrajectory Prediction ( http://arxiv.org/abs/2308.02710v1 )

ライセンス: Link先を確認
Edgar Galv\'an and Fergal Stapleton(参考訳) 機械学習は過去10年間で急速に進化し、画像分類のような非常に困難な問題に対して、熟練した人間のパフォーマンスを達成した。 この成功の一部は、バイオインスパイアされたモダンな人工知能ニューラルネットワーク(ANN)の復活と、計算能力、膨大なラベル付きデータ、巧妙な人間ベースのエキスパート知識、そしてこれらのネットワークの正しい構成(と重み)を見つける最適化アプローチの可用性による。 ニューロ進化(Neuroevolution)は、進化的アルゴリズムを用いる場合の後者の用語である。 神経進化の研究の多くは、CNN(Convolutional Neural Networks)と呼ばれる単一の種類のANNに焦点を絞っている。 さらに、これらの作品の多くは単一の最適化アプローチを用いている。 この研究は、複数の目的を考慮すべき神経路予測(neurtrajectory prediction)と呼ばれる、車両軌道予測のための神経進化の進歩的な一歩となる。 この目的のために、cnnと長期記憶ネットワークからなるリッチアンを採用する。 EMO(Evolutionary Multi-Objective Optimisation)アルゴリズム、NSGA-II、MOEA/Dも採用されている。 これらのアルゴリズムの全く異なる基盤メカニズムは、神経路予測において他のemoアプローチを1つ以上使うことの意義に光を当てている。 特に、客観的スケーリングを検討することの重要性が強調され、MOEA/Dは特定の目的に焦点を合わせるのに適しており、NSGA-IIは客観的スケーリングよりも不変である傾向がある。 さらに、特定の目的が有効なモデルを見つけるのに有益または不利であることが示されており、例えば、距離フィードバック目標の包含は有効なモデルを見つけるのにかなり有害であり、一方、横速度目標の方が有益である。

Machine learning has rapidly evolved during the last decade, achieving expert human performance on notoriously challenging problems such as image classification. This success is partly due to the re-emergence of bio-inspired modern artificial neural networks (ANNs) along with the availability of computation power, vast labelled data and ingenious human-based expert knowledge as well as optimisation approaches that can find the correct configuration (and weights) for these networks. Neuroevolution is a term used for the latter when employing evolutionary algorithms. Most of the works in neuroevolution have focused their attention in a single type of ANNs, named Convolutional Neural Networks (CNNs). Moreover, most of these works have used a single optimisation approach. This work makes a progressive step forward in neuroevolution for vehicle trajectory prediction, referred to as neurotrajectory prediction, where multiple objectives must be considered. To this end, rich ANNs composed of CNNs and Long-short Term Memory Network are adopted. Two well-known and robust Evolutionary Multi-objective Optimisation (EMO) algorithms, NSGA-II and MOEA/D are also adopted. The completely different underlying mechanism of each of these algorithms sheds light on the implications of using one over the other EMO approach in neurotrajectory prediction. In particular, the importance of considering objective scaling is highlighted, finding that MOEA/D can be more adept at focusing on specific objectives whereas, NSGA-II tends to be more invariant to objective scaling. Additionally, certain objectives are shown to be either beneficial or detrimental to finding valid models, for instance, inclusion of a distance feedback objective was considerably detrimental to finding valid models, while a lateral velocity objective was more beneficial.
翻訳日:2023-08-08 19:07:44 公開日:2023-08-04
# GNN推論高速化のためのバーサルアーキテクチャのオンチップ不均一性の爆発

Exploiting On-chip Heterogeneity of Versal Architecture for GNN Inference Acceleration ( http://arxiv.org/abs/2308.02749v1 )

ライセンス: Link先を確認
Paul Chen, Pavan Manjunath, Sasindu Wijeratne, Bingyi Zhang, Viktor Prasanna(参考訳) グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク分析やバイオインフォマティクスなど、多くの機械学習(ML)アプリケーションに革命をもたらした。 GNNの推論は,GNN計算における入力グラフ,頂点特徴,中間データなどを用いて高速化することができる。 動的スパルシリティ活用のために,我々は,amd versal acapアーキテクチャのヘテロジニアスコンピューティング機能を活用し,gnn推論を高速化する。 本稿では,計算カーネルのスパースプリミティブをProgrammable Logic (PL)上で実行し,AIエンジン (AIE) を用いて高密度プリミティブを効率的に計算するハードウェアモジュールを開発する。 そこで本研究では,データ間隔に基づいて計算タスクをPLとAIEに動的に割り当てるランタイムカーネルマッピング戦略を考案した。 当社のVCK5000 ACAPプラットフォーム実装は,CPU,GPU,ACAP,その他のカスタムGNNアクセラレータの最先端実装と比較して,優れたパフォーマンスを実現しています。 これらの実装と比較して、それぞれ162.42x、17.01x、9.90x、27.23xの様々なモデルとデータセットの平均実行速度が大幅に向上した。 さらに、グラフ畳み込みネットワーク(gcn)推論では、同一のacapデバイスでのみplを使用する設計と比較して、3.9-96.7倍の高速化を実現している。

Graph Neural Networks (GNNs) have revolutionized many Machine Learning (ML) applications, such as social network analysis, bioinformatics, etc. GNN inference can be accelerated by exploiting data sparsity in the input graph, vertex features, and intermediate data in GNN computations. For dynamic sparsity exploitation, we leverage the heterogeneous computing capabilities of AMD Versal ACAP architecture to accelerate GNN inference. We develop a custom hardware module that executes the sparse primitives of the computation kernel on the Programmable Logic (PL) and efficiently computes the dense primitives using the AI Engine (AIE). To exploit data sparsity during inference, we devise a runtime kernel mapping strategy that dynamically assigns computation tasks to the PL and AIE based on data sparsity. Our implementation on the VCK5000 ACAP platform leads to superior performance compared with the state-of-the-art implementations on CPU, GPU, ACAP, and other custom GNN accelerators. Compared with these implementations, we achieve significant average runtime speedup across various models and datasets of 162.42x, 17.01x, 9.90x, and 27.23x, respectively. Furthermore, for Graph Convolutional Network (GCN) inference, our approach leads to a speedup of 3.9-96.7x compared to designs using PL only on the same ACAP device.
翻訳日:2023-08-08 18:58:50 公開日:2023-08-04
# 視線追跡技術と機械学習を用いた放射線科医の識別

Discrimination of Radiologists Utilizing Eye-Tracking Technology and Machine Learning: A Case Study ( http://arxiv.org/abs/2308.02748v1 )

ライセンス: Link先を確認
Stanford Martinez, Carolina Ramirez-Tamayo, Syed Hasib Akhter Faruqui, Kal L. Clark, Adel Alaeddini, Nicholas Czarnek, Aarushi Aggarwal, Sahra Emamzadeh, Jeffrey R. Mock, Edward J. Golob(参考訳) 知覚関連エラーは、放射線学において最も診断ミスである。 この問題を軽減するため、放射線科医はパーソナライズされた高次元のビジュアル検索戦略を用いる。 これらの探索パターンの質的記述は、医師が画像を分析した順序を口頭または注釈で示すことを含むが、実際の視覚パターンと何が報告されたかの不一致のために信頼できない。 この不一致は、品質改善の介入に干渉し、患者のケアに悪影響を及ぼす可能性がある。 本研究では,胸部X線読取時の眼球運動の時間的アライメントと時間的アライメントのための固定データの時空間結合に基づく新しい識別特徴符号化法を提案する。 眼固定データの符号化された特徴は、教員と研修生の放射線技師を識別するために機械学習分類器によって使用される。 本研究は, 曲線下の領域(auc), 精度, f1, 感度, 特異性指標を用いた治験ケーススタディを含む。 次に分類性能を最先端手法と比較する。 また,提案手法のロバスト性を評価するために,別個のデータセット,実験プロトコル,アイトラッカーを用いた再現性実験を行った。 両実験の数値的な結果から,提案手法を用いた分類器は,経験レベルの観点から,放射線技師の差別化における現状よりも優れていることが示された。 このことは、放射線技師の専門知識レベルと追加訓練の恩恵を受ける人を特定するための提案手法の潜在的影響を示している。

Perception-related errors comprise most diagnostic mistakes in radiology. To mitigate this problem, radiologists employ personalized and high-dimensional visual search strategies, otherwise known as search patterns. Qualitative descriptions of these search patterns, which involve the physician verbalizing or annotating the order he/she analyzes the image, can be unreliable due to discrepancies in what is reported versus the actual visual patterns. This discrepancy can interfere with quality improvement interventions and negatively impact patient care. This study presents a novel discretized feature encoding based on spatiotemporal binning of fixation data for efficient geometric alignment and temporal ordering of eye movement when reading chest X-rays. The encoded features of the eye-fixation data are employed by machine learning classifiers to discriminate between faculty and trainee radiologists. We include a clinical trial case study utilizing the Area Under the Curve (AUC), Accuracy, F1, Sensitivity, and Specificity metrics for class separability to evaluate the discriminability between the two subjects in regard to their level of experience. We then compare the classification performance to state-of-the-art methodologies. A repeatability experiment using a separate dataset, experimental protocol, and eye tracker was also performed using eight subjects to evaluate the robustness of the proposed approach. The numerical results from both experiments demonstrate that classifiers employing the proposed feature encoding methods outperform the current state-of-the-art in differentiating between radiologists in terms of experience level. This signifies the potential impact of the proposed method for identifying radiologists' level of expertise and those who would benefit from additional training.
翻訳日:2023-08-08 18:58:28 公開日:2023-08-04
# sabre: 堅牢なベイジアンピアツーピア連合学習

SABRE: Robust Bayesian Peer-to-Peer Federated Learning ( http://arxiv.org/abs/2308.02747v1 )

ライセンス: Link先を確認
Nasimeh Heydaribeni, Ruisi Zhang, Tara Javidi, Cristina Nita-Rotaru, Farinaz Koushanfar(参考訳) 本稿では,変動ベイズ型ピアツーピアフェデレーション学習のための新しいフレームワークであるsabreを紹介する。 既知変動ベイズ型ピアツーピアフェデレーション学習フレームワーク(bayp2pfl)の中毒攻撃に対するロバスト性を分析し,その攻撃に対してbayp2pflがロバストでないことを示す。 新しいSABREアグリゲーション方法論は、既存のフレームワークの制限を克服するために考案される。 SABREは、非IID設定でうまく機能し、妥協したノードよりも良質なノードの大部分を必要とせず、良質な設定でベースラインアルゴリズムよりも優れています。 理論上,分散線形回帰設定におけるデータ・モデル中毒攻撃に対するアルゴリズムのロバスト性を証明する。 画像分類によるベンチマークデータに対する概念実証評価は、様々な毒殺攻撃下の既存のフレームワークよりもsabreが優れていることを示している。

We introduce SABRE, a novel framework for robust variational Bayesian peer-to-peer federated learning. We analyze the robustness of the known variational Bayesian peer-to-peer federated learning framework (BayP2PFL) against poisoning attacks and subsequently show that BayP2PFL is not robust against those attacks. The new SABRE aggregation methodology is then devised to overcome the limitations of the existing frameworks. SABRE works well in non-IID settings, does not require the majority of the benign nodes over the compromised ones, and even outperforms the baseline algorithm in benign settings. We theoretically prove the robustness of our algorithm against data / model poisoning attacks in a decentralized linear regression setting. Proof-of-Concept evaluations on benchmark data from image classification demonstrate the superiority of SABRE over the existing frameworks under various poisoning attacks.
翻訳日:2023-08-08 18:58:02 公開日:2023-08-04
# メタタリスエントロピー最小化:テキスト分類に基づくドメイン適応のための新しい自己学習手法

Meta-Tsallis-Entropy Minimization: A New Self-Training Approach for Domain Adaptation on Text Classification ( http://arxiv.org/abs/2308.02746v1 )

ライセンス: Link先を確認
Menglong Lu, Zhen Huang, Zhiliang Tian, Yunxiang Zhao, Xuanyu Fei and Dongsheng Li(参考訳) テキスト分類は自然言語処理の基本的なタスクであり、ドメイン間のテキスト分類モデルの適用には幅広い応用がある。 自己学習はモデルの予測から擬似例を生成し、擬似例、すなわちソースドメインの損失とターゲットドメインのギブスエントロピーを最小化する。 しかし、ギブスエントロピーは予測誤差に敏感であるため、ドメインシフトが大きいと自己学習が失敗する傾向がある。 本稿では,メタ学習アルゴリズムを適用し,対象領域におけるインスタンス適応型tsallisエントロピーを最適化するメタtsallisエントロピー最小化(mtem)を提案する。 MTEMの計算コストを削減するため,メタラーニングに関わる2階微分を近似する近似手法を提案する。 擬似ラベルを効率的に生成するために,モデルの予測確率を探索するアニーリングサンプリング機構を提案する。 理論的には、メタ学習アルゴリズムのMTEMへの収束を証明し、ドメイン適応の実現におけるMTEMの有効性を分析する。 実験的に、MTEMはBERTの適応性能をベンチマークデータセット上で平均4%改善する。

Text classification is a fundamental task for natural language processing, and adapting text classification models across domains has broad applications. Self-training generates pseudo-examples from the model's predictions and iteratively trains on the pseudo-examples, i.e., minimizes the loss on the source domain and the Gibbs entropy on the target domain. However, Gibbs entropy is sensitive to prediction errors, and thus, self-training tends to fail when the domain shift is large. In this paper, we propose Meta-Tsallis Entropy minimization (MTEM), which applies a meta-learning algorithm to optimize the instance adaptive Tsallis entropy on the target domain. To reduce the computation cost of MTEM, we propose an approximation technique to approximate the Second-order derivation involved in the meta-learning. To efficiently generate pseudo labels, we propose an annealing sampling mechanism for exploring the model's prediction probability. Theoretically, we prove the convergence of the meta-learning algorithm in MTEM and analyze the effectiveness of MTEM in achieving domain adaptation. Experimentally, MTEM improves the adaptation performance of BERT with an average of 4 percent on the benchmark dataset.
翻訳日:2023-08-08 18:57:46 公開日:2023-08-04
# 倒立振子をもつ擬似翼の非線形制御器設計

Nonlinear Controller Design for a Quadrotor with Inverted Pendulum ( http://arxiv.org/abs/2308.02741v1 )

ライセンス: Link先を確認
Xichen Shi and Yashwanth Kumar Nakka(参考訳) quadrotorは自由度6ドル(約6万2000円)のシステムです。 クワッドローターの上に球形振り子を加えると、残りを安定させながら出力トラッキングを実現する作業がさらに複雑になる。 本稿では、フィードバック線形化と2次プログラミング(CLF-QP)アプローチによるリアプノフ関数の制御を利用して、非線形力学系のための異なるタイプのコントローラを提案する。 四重項のみの場合と四重項振子結合の場合の軌跡追跡を実演した。

The quadrotor is a $6$ degrees-of-freedom (DoF) system with underactuation. Adding a spherical pendulum on top of a quadrotor further complicates the task of achieving any output tracking while stabilizing the rest. In this report, we present different types of controllers for the nonlinear dynamical system of quadrotor and pendulum combination, utilizing feedback-linearization and control Lyapunov function with quadratic programming (CLF-QP) approaches. We demonstrated trajectory tracking for quadrotor-only case as well as quadrotor-pendulum-combined case.
翻訳日:2023-08-08 18:57:25 公開日:2023-08-04
# パーソナライズのためのパーソナライズド視覚言語学習の検討

Exploring Part-Informed Visual-Language Learning for Person Re-Identification ( http://arxiv.org/abs/2308.02738v1 )

ライセンス: Link先を確認
Yin Lin, Cong Liu, Yehansen Chen, Jinshui Hu, Bing Yin, Baocai Yin, Zengfu Wang(参考訳) 近年、視覚言語学習は、視覚に基づく人物再識別(ReID)を強化する大きな可能性を示している。 既存の視覚言語学習に基づくreid法は、細かな部分的特徴の監督を怠りながら、全身的な画像-テキスト特徴のアライメントにフォーカスすることが多い。 この選択は学習プロセスを単純化するが、内部機能のセマンティック一貫性を保証できないため、最終的なパフォーマンスを損なう。 そこで本稿では,ReIDタスクのための部分インフォームド言語監視による視覚的特徴の微細化を提案する。 提案手法は,Part-Informed Visual-Learning (\pi$-VL) と名付けられている。 (i)人間のパースガイドによる即興チューニング戦略と (ii) 階層的融合に基づく視覚言語アライメントパラダイムは、部分内特徴の一貫性を確保する上で不可欠な役割を担っている。 具体的には、識別ラベルと解析マップの両方を組み合わせて画素レベルのテキストプロンプトを構成し、多段階視覚特徴と軽量補助ヘッドを融合させ、きめ細かい画像テキストアライメントを行う。 我々の$\pi$-VLは、プラグアンドプレイと推論なしのソリューションとして、4つの一般的なReIDベンチマーク、特に最も難易度の高いMSMT17データベースに対して90.3% Rank-1と76.5% mAPを報告した4つの最先端のReIDベンチマークよりも大幅に改善されている。

Recently, visual-language learning has shown great potential in enhancing visual-based person re-identification (ReID). Existing visual-language learning-based ReID methods often focus on whole-body scale image-text feature alignment, while neglecting supervisions on fine-grained part features. This choice simplifies the learning process but cannot guarantee within-part feature semantic consistency thus hindering the final performance. Therefore, we propose to enhance fine-grained visual features with part-informed language supervision for ReID tasks. The proposed method, named Part-Informed Visual-language Learning ($\pi$-VL), suggests that (i) a human parsing-guided prompt tuning strategy and (ii) a hierarchical fusion-based visual-language alignment paradigm play essential roles in ensuring within-part feature semantic consistency. Specifically, we combine both identity labels and parsing maps to constitute pixel-level text prompts and fuse multi-stage visual features with a light-weight auxiliary head to perform fine-grained image-text alignment. As a plug-and-play and inference-free solution, our $\pi$-VL achieves substantial improvements over previous state-of-the-arts on four common-used ReID benchmarks, especially reporting 90.3% Rank-1 and 76.5% mAP for the most challenging MSMT17 database without bells and whistles.
翻訳日:2023-08-08 18:57:15 公開日:2023-08-04
# 未知統計を用いた非定常無線ネットワークにおけるスケジュール学習

Learning to Schedule in Non-Stationary Wireless Networks With Unknown Statistics ( http://arxiv.org/abs/2308.02734v1 )

ライセンス: Link先を確認
Quang Minh Nguyen, Eytan Modiano(参考訳) 部分観測可能で時間変動のダイナミクスを持つ大規模無線ネットワークの出現は、最適制御ポリシーの設計に新たな課題を課してきた。 本稿では,平均到着率と平均サービスレートが不明で非定常な一般干渉制約を考慮した無線ネットワークの効率的なスケジューリングアルゴリズムについて検討する。 このモデルは、現代のネットワークにおける現実のエッジデバイスの無線通信特性を例示する。 我々は、最大ウェイトポリシに基づいて、スライディング・ウィンドウアッパー信頼境界を利用して、非定常性の下でチャネルの統計を学習する一般化無線ネットワークスケジューリングのための新しいアルゴリズムMW-UCBを提案する。 mw-ucbは平均サービスレートの変動性に関する軽度仮定下ではスループット最適である。 具体的には、任意の期間における平均サービスレートの総変動がサブリニアに増加する限り、MW-UCBは、チャネル統計の完全な知識を持つ政策クラスの安定領域に任意に近い安定性領域を達成できることを示す。 広範なシミュレーションにより理論結果が検証され,mw-ucbの性能が実証された。

The emergence of large-scale wireless networks with partially-observable and time-varying dynamics has imposed new challenges on the design of optimal control policies. This paper studies efficient scheduling algorithms for wireless networks subject to generalized interference constraint, where mean arrival and mean service rates are unknown and non-stationary. This model exemplifies realistic edge devices' characteristics of wireless communication in modern networks. We propose a novel algorithm termed MW-UCB for generalized wireless network scheduling, which is based on the Max-Weight policy and leverages the Sliding-Window Upper-Confidence Bound to learn the channels' statistics under non-stationarity. MW-UCB is provably throughput-optimal under mild assumptions on the variability of mean service rates. Specifically, as long as the total variation in mean service rates over any time period grows sub-linearly in time, we show that MW-UCB can achieve the stability region arbitrarily close to the stability region of the class of policies with full knowledge of the channel statistics. Extensive simulations validate our theoretical results and demonstrate the favorable performance of MW-UCB.
翻訳日:2023-08-08 18:56:49 公開日:2023-08-04
# データ不均一性を考慮した無線フェデレーション学習の解析と最適化

Analysis and Optimization of Wireless Federated Learning with Data Heterogeneity ( http://arxiv.org/abs/2308.03521v1 )

ライセンス: Link先を確認
Xuefeng Han, Jun Li, Wen Chen, Zhen Mei, Kang Wei, Ming Ding, H.Vincent Poor(参考訳) スマートモバイルデバイスの急速な普及に伴い、フェデレーション学習(fl)は分散モデルトレーニングのための無線ネットワークへの応用として広く検討されている。 しかし、例えば、非独立に同一の分布とクライアント間のトレーニングデータのサイズの異なるデータ不均一性は、無線FLに大きな課題をもたらす。 限られた通信資源は、異種データのトレーニングに必要な公平なスケジューリングの実装を複雑にし、全体的な性能をさらに低下させる。 そこで本稿では,データの不均一性を考慮した無線FLの性能解析と最適化と,無線リソース割り当てについて述べる。 具体的には、まずFL損失関数の上界に対する閉形式表現を開発し、特にデータセットサイズベクトルとデータ分散ベクトルで表されるデータ不均一性に着目した。 次に,長期エネルギー消費とレイテンシの制約の下で損失関数最小化問題を定式化し,クライアントスケジューリング,リソース割り当て,ローカルトレーニングエポック数(cre)を共同で最適化する。 次に、リアプノフドリフト法により、CRE最適化問題を一連のトラクタブル問題に変換する。 実世界のデータセットに対する大規模な実験により、提案アルゴリズムは学習精度とエネルギー消費の点で他のベンチマークよりも優れていることが示された。

With the rapid proliferation of smart mobile devices, federated learning (FL) has been widely considered for application in wireless networks for distributed model training. However, data heterogeneity, e.g., non-independently identically distributions and different sizes of training data among clients, poses major challenges to wireless FL. Limited communication resources complicate the implementation of fair scheduling which is required for training on heterogeneous data, and further deteriorate the overall performance. To address this issue, this paper focuses on performance analysis and optimization for wireless FL, considering data heterogeneity, combined with wireless resource allocation. Specifically, we first develop a closed-form expression for an upper bound on the FL loss function, with a particular emphasis on data heterogeneity described by a dataset size vector and a data divergence vector. Then we formulate the loss function minimization problem, under constraints on long-term energy consumption and latency, and jointly optimize client scheduling, resource allocation, and the number of local training epochs (CRE). Next, via the Lyapunov drift technique, we transform the CRE optimization problem into a series of tractable problems. Extensive experiments on real-world datasets demonstrate that the proposed algorithm outperforms other benchmarks in terms of the learning accuracy and energy consumption.
翻訳日:2023-08-08 13:52:56 公開日:2023-08-04
# PoissonNet:フーリエニューラル演算子を用いた分解能非依存な3次元形状再構成

PoissonNet: Resolution-Agnostic 3D Shape Reconstruction using Fourier Neural Operators ( http://arxiv.org/abs/2308.01766v2 )

ライセンス: Link先を確認
Hector Andrade-Loarca, Julius Hege, Aras Bacho, Gitta Kutyniok(参考訳) ポイントから3次元形状を復元する難題に対処する形状再構成アーキテクチャであるPoissonNetを紹介する。 従来のディープニューラルネットワークは、高解像度での計算複雑性のため、一般的な3次元形状の離散化技術による課題に直面している。 これを解決するために、フーリエニューラル演算子(FNO)を用いて、ポアソン方程式を解き、配向点雲の測定からメッシュを再構築する。 PoissonNetには2つの大きな利点がある。 まず、FNOの分解能非依存性により、高分解能評価において同等の性能を達成しつつ、低分解能データの効率的なトレーニングを可能にする。 この機能はワンショットの超解像度を可能にする。 第2に,本手法は,既存手法の再構築品質を超越する手法である。 提案手法は, 形状再構成における古典的深層ニューラルネットワークの限界を改良するだけでなく, 再現性, 走行時間, 可視性などの点で, 優れた結果が得られる。 さらに, フーリエニューラル演算子を用いた分布データを用いて, ポアソン方程式の解演算子に対する普遍近似定理を示すことにより, 限界の場合において, ポアソン表面の再構成問題は良好であることを示す。 実験を再現するコードは、 \url{https://github.com/arsenal9971/poissonnet} で入手できる。

We introduce PoissonNet, an architecture for shape reconstruction that addresses the challenge of recovering 3D shapes from points. Traditional deep neural networks face challenges with common 3D shape discretization techniques due to their computational complexity at higher resolutions. To overcome this, we leverage Fourier Neural Operators (FNOs) to solve the Poisson equation and reconstruct a mesh from oriented point cloud measurements. PoissonNet exhibits two main advantages. First, it enables efficient training on low-resolution data while achieving comparable performance at high-resolution evaluation, thanks to the resolution-agnostic nature of FNOs. This feature allows for one-shot super-resolution. Second, our method surpasses existing approaches in reconstruction quality while being differentiable. Overall, our proposed method not only improves upon the limitations of classical deep neural networks in shape reconstruction but also achieves superior results in terms of reconstruction quality, running time, and resolution flexibility. Furthermore, we demonstrate that the Poisson surface reconstruction problem is well-posed in the limit case by showing a universal approximation theorem for the solution operator of the Poisson equation with distributional data utilizing the Fourier Neural Operator, which provides a theoretical foundation for our numerical results. The code to reproduce the experiments is available on: \url{https://github.com/arsenal9971/PoissonNet}.
翻訳日:2023-08-08 10:44:00 公開日:2023-08-04
# 共通データセットにおける中心オブジェクトのバイアス緩和

Mitigating the Bias of Centered Objects in Common Datasets ( http://arxiv.org/abs/2112.09195v3 )

ライセンス: Link先を確認
Gergely Szabo, Andras Horvath(参考訳) 畳み込みネットワークはシフト不変と見なされるが、その応答は物体の正確な位置によって異なることが証明された。 本稿では、最もよく研究されているデータセットが、トレーニング中に画像の中心でオブジェクトが過剰に表現されるバイアスがあることを実証する。 このバイアスとこれらのネットワークの境界条件は、これらのアーキテクチャのパフォーマンスに大きな影響を与え、オブジェクトが境界に近づくにつれて、その精度は大幅に低下する。 また、この効果がデータ拡張技術によって緩和されることを示す。

Convolutional networks are considered shift invariant, but it was demonstrated that their response may vary according to the exact location of the objects. In this paper we will demonstrate that most commonly investigated datasets have a bias, where objects are over-represented at the center of the image during training. This bias and the boundary condition of these networks can have a significant effect on the performance of these architectures and their accuracy drops significantly as an object approaches the boundary. We will also demonstrate how this effect can be mitigated with data augmentation techniques.
翻訳日:2023-08-07 16:57:43 公開日:2023-08-04
# 軽量プラットフォームにおける協調量子現象

Cooperative quantum phenomena in light-matter platforms ( http://arxiv.org/abs/2107.02674v4 )

ライセンス: Link先を確認
Michael Reitz, Christian Sommer, Claudiu Genes(参考訳) 量子協力性は、量子エミッタアンサンブルが制限された光モードと相互作用し、ユビキタスな電磁量子真空を介して結合される光マッタープラットフォームにおいて明らかである。 協調効果は、他の分野、トポロジカル量子光学、量子論、量子情報における応用を見出すことができる。 このチュートリアルは、マスター方程式や量子ランゲヴィン方程式のようなオープン量子系力学の手法を強い結合と相関の量子エミッターアンサンブルにおける電子-光子相互作用に拡張することにより、協調性の開始に責任を負う行動に取り組むための理論的ツールセットを提供する。 これらの手法は、ナノスケールコヒーレント光源の設計、高反射性量子準曲面、低キャビティパワー超放射光レーザーなど、様々な研究トピックで説明されている。 解析的アプローチは同一の2レベル量子エミッタのアンサンブルのために開発され、周波数障害や振動結合を考慮したより複雑なシステムに拡張される。 アプローチの関連性は、光学格子の原子から固体環境の量子ドットや分子システムまで様々である。

Quantum cooperativity is evident in light-matter platforms where quantum emitter ensembles are interfaced with confined optical modes and are coupled via the ubiquitous electromagnetic quantum vacuum. Cooperative effects can find applications, among other areas, in topological quantum optics, in quantum metrology or in quantum information. This tutorial provides a set of theoretical tools to tackle the behavior responsible for the onset of cooperativity by extending open quantum system dynamics methods, such as the master equation and quantum Langevin equations, to electron-photon interactions in strongly coupled and correlated quantum emitter ensembles. The methods are illustrated on a wide range of current research topics such as the design of nanoscale coherent light sources, highly-reflective quantum metasurfaces or low intracavity power superradiant lasers. The analytical approaches are developed for ensembles of identical two-level quantum emitters and then extended to more complex systems where frequency disorder or vibronic couplings are taken into account. The relevance of the approach ranges from atoms in optical lattices to quantum dots or molecular systems in solid-state environments.
翻訳日:2023-08-07 16:57:35 公開日:2023-08-04
# スパース主成分分析のための新しい基礎

A New Basis for Sparse Principal Component Analysis ( http://arxiv.org/abs/2007.00596v3 )

ライセンス: Link先を確認
Fan Chen and Karl Rohe(参考訳) スパース主成分分析 (PCA) の以前のバージョンでは、固有基底 (a $p \times k$ matrix) はおよそスパースであると推定されている。 我々は、$p \times k$ 行列を$k \times k$ 回転の後におよそスパースと仮定する手法を提案する。 アルゴリズムの最も単純なバージョンは、主成分である$k$で初期化される。 その後、主成分は$k \times k$直交回転で回転し、ほぼスパースとなる。 最後に、回転した主成分にソフトthresholdingを適用する。 このアプローチは、直交回転を使ってスパース基底を近似するため、以前のアプローチとは異なる。 結果として、スパース成分が主固有ベクトルである必要はなく、むしろそれらの混合である。 このようにして、スパースPCAの新しい(回転した)ベースを提案する。 さらに,提案手法では,"定義"とそれに必要な複数のチューニングパラメータを回避している。 我々のスパースPCAフレームワークは汎用的であり、例えば、列と列の同時次元化のためのデータ行列の双方向解析に自然に拡張する。 また,同レベルの疎水性を示すため,提案したスパースPCA法はより安定であり,代替手法よりも分散を説明できることを示す。 画像のスパースコーディング、トランスクリプトームシークエンシングデータの解析、ソーシャルネットワークの大規模クラスタリングという3つのアプリケーションを通して、マルチ変数データの探索におけるスパースPCAの現代的有用性を示す。

Previous versions of sparse principal component analysis (PCA) have presumed that the eigen-basis (a $p \times k$ matrix) is approximately sparse. We propose a method that presumes the $p \times k$ matrix becomes approximately sparse after a $k \times k$ rotation. The simplest version of the algorithm initializes with the leading $k$ principal components. Then, the principal components are rotated with an $k \times k$ orthogonal rotation to make them approximately sparse. Finally, soft-thresholding is applied to the rotated principal components. This approach differs from prior approaches because it uses an orthogonal rotation to approximate a sparse basis. One consequence is that a sparse component need not to be a leading eigenvector, but rather a mixture of them. In this way, we propose a new (rotated) basis for sparse PCA. In addition, our approach avoids "deflation" and multiple tuning parameters required for that. Our sparse PCA framework is versatile; for example, it extends naturally to a two-way analysis of a data matrix for simultaneous dimensionality reduction of rows and columns. We provide evidence showing that for the same level of sparsity, the proposed sparse PCA method is more stable and can explain more variance compared to alternative methods. Through three applications -- sparse coding of images, analysis of transcriptome sequencing data, and large-scale clustering of social networks, we demonstrate the modern usefulness of sparse PCA in exploring multivariate data.
翻訳日:2023-08-07 16:57:14 公開日:2023-08-04
# 特権プールを用いた細粒度種識別--教師付き注意によるサンプル効率の向上

Fine-grained Species Recognition with Privileged Pooling: Better Sample Efficiency Through Supervised Attention ( http://arxiv.org/abs/2003.09168v4 )

ライセンス: Link先を確認
Andres C. Rodriguez, Stefano D'Aronco, Konrad Schindler and Jan Dirk Wegner(参考訳) 本稿では,訓練データに対するキーポイントアノテーションという形で,特権情報を用いた教師付き画像分類手法を提案する。 私たちの主な動機は生物多様性モデリングのような生態学的応用に対する動物種の認識であり、これはレアな種による長い尾の種分布と、カメラトラップにおける繰り返しシーン背景のような強いデータセットバイアスのために困難である。 これらの課題に対処するために,キーポイントアノテーションを用いて視覚的に注意を喚起する機構を提案する。 この特権情報は、新しい特権プーリング操作として実装され、トレーニング中にのみ必要であり、モデルが識別可能な領域に集中するのに役立つ。 3つの異なる動物種データセットを用いた実験で、特権プールを持つディープネットワークがより効率的に、より一般化できることを示した。

We propose a scheme for supervised image classification that uses privileged information, in the form of keypoint annotations for the training data, to learn strong models from small and/or biased training sets. Our main motivation is the recognition of animal species for ecological applications such as biodiversity modelling, which is challenging because of long-tailed species distributions due to rare species, and strong dataset biases such as repetitive scene background in camera traps. To counteract these challenges, we propose a visual attention mechanism that is supervised via keypoint annotations that highlight important object parts. This privileged information, implemented as a novel privileged pooling operation, is only required during training and helps the model to focus on regions that are discriminative. In experiments with three different animal species datasets, we show that deep networks with privileged pooling can use small training sets more efficiently and generalize better.
翻訳日:2023-08-07 16:56:48 公開日:2023-08-04
# insubstantial object detectionのための時空間アグリゲーションの検討:ベンチマークデータセットとベースライン

Explore Spatio-temporal Aggregation for Insubstantial Object Detection: Benchmark Dataset and Baseline ( http://arxiv.org/abs/2206.11459v2 )

ライセンス: Link先を確認
Kailai Zhou, Yibo Wang, Tao Lv, Yunqian Li, Linsen Chen, Qiu Shen, Xun Cao(参考訳) 我々は,(1)不連続な境界を持つアモルファス形状,(2)周囲との類似性,(3)色彩の欠如という特徴をもって物体を局在化することを目的とした,不連続物体検出(insubstantial object detection,iod)という稀な課題に取り組んでいる。 したがって、単一の静的フレームで非実体オブジェクトを区別することがより困難であり、空間的および時間的情報の協調的表現が不可欠である。 そこで我々は,様々な距離,サイズ,可視性,および異なるスペクトル範囲で捉えたシーンを含む600ビデオ(141,017フレーム)からなるIOD-Videoデータセットを構築した。 さらに,様々なバックボーンをデプロイし,時間軸に沿った一貫性を活用するために時空間集約損失(staloss)を精巧に設計したiodのための時空間集約フレームワークを開発した。 IOD-Videoデータセットを用いて行った実験により、時空間アグリゲーションはIODの性能を大幅に向上することが示された。 私たちの研究が、この価値ある、そして挑戦的なタスクにさらなる研究を惹きつけることを願っています。 コードは次の通り。 \url{https://github.com/CalayZhou/IOD-Video}。

We endeavor on a rarely explored task named Insubstantial Object Detection (IOD), which aims to localize the object with following characteristics: (1) amorphous shape with indistinct boundary; (2) similarity to surroundings; (3) absence in color. Accordingly, it is far more challenging to distinguish insubstantial objects in a single static frame and the collaborative representation of spatial and temporal information is crucial. Thus, we construct an IOD-Video dataset comprised of 600 videos (141,017 frames) covering various distances, sizes, visibility, and scenes captured by different spectral ranges. In addition, we develop a spatio-temporal aggregation framework for IOD, in which different backbones are deployed and a spatio-temporal aggregation loss (STAloss) is elaborately designed to leverage the consistency along the time axis. Experiments conducted on IOD-Video dataset demonstrate that spatio-temporal aggregation can significantly improve the performance of IOD. We hope our work will attract further researches into this valuable yet challenging task. The code will be available at: \url{https://github.com/CalayZhou/IOD-Video}.
翻訳日:2023-08-07 16:51:54 公開日:2023-08-04
# 推論に基づく量子センシング

Inference-Based Quantum Sensing ( http://arxiv.org/abs/2206.09919v2 )

ライセンス: Link先を確認
C. Huerta Alderete, Max Hunter Gordon, Frederic Sauvage, Akira Sone, Andrew T. Sornborger, Patrick J. Coles, M. Cerezo(参考訳) 標準量子センシング(qs)タスクでは、未知のパラメータ$\theta$を推定することを目的としており、システムの測定によって、n$-qubitのプローブ状態にエンコードされる。 このタスクの成功は、パラメータの変化とシステムの応答である$\mathcal{r}(\theta)$(すなわち、測定結果の変化)の変化を関連付ける能力にかかっている。 単純な場合、$\mathcal{R}(\theta)$の形式は知られているが、一般の閉形式表現は存在しないので、現実的なシナリオでは同じことは言えない。 本稿では,QSの推論に基づくスキームを提案する。 符号化のユニタリ族全体のクラスに対して、$\mathcal{r}(\theta)$ は、2n+1$ のパラメータでシステム応答を測定するだけで完全に特徴づけられることを示す。 これにより、測定された応答から未知のパラメータの値を推測し、その全体の性能を特徴付けるスキームの感度を決定することができる。 推測誤差は,$\omega(\log^3(n)/\delta^2)$でしかスケールしないショット数でシステム応答を測定すると,高い確率で$\delta$より小さいことを示す。 さらに、提示されるフレームワークは、任意のプローブ状態や測定スキームに対して有効であり、量子ノイズの存在さえも維持できるため、広く適用することができる。 また、ユニタリファミリーを超えて結果を拡張する方法についても論じる。 最後に,本手法を実量子ハードウェアおよび数値シミュレーションにおいてqsタスクとして実装する。

In a standard Quantum Sensing (QS) task one aims at estimating an unknown parameter $\theta$, encoded into an $n$-qubit probe state, via measurements of the system. The success of this task hinges on the ability to correlate changes in the parameter to changes in the system response $\mathcal{R}(\theta)$ (i.e., changes in the measurement outcomes). For simple cases the form of $\mathcal{R}(\theta)$ is known, but the same cannot be said for realistic scenarios, as no general closed-form expression exists. In this work we present an inference-based scheme for QS. We show that, for a general class of unitary families of encoding, $\mathcal{R}(\theta)$ can be fully characterized by only measuring the system response at $2n+1$ parameters. This allows us to infer the value of an unknown parameter given the measured response, as well as to determine the sensitivity of the scheme, which characterizes its overall performance. We show that inference error is, with high probability, smaller than $\delta$, if one measures the system response with a number of shots that scales only as $\Omega(\log^3(n)/\delta^2)$. Furthermore, the framework presented can be broadly applied as it remains valid for arbitrary probe states and measurement schemes, and, even holds in the presence of quantum noise. We also discuss how to extend our results beyond unitary families. Finally, to showcase our method we implement it for a QS task on real quantum hardware, and in numerical simulations.
翻訳日:2023-08-07 16:51:33 公開日:2023-08-04
# 後悔分解によるグラフフィードバックによるバンディット改善アルゴリズム

Improved Algorithms for Bandit with Graph Feedback via Regret Decomposition ( http://arxiv.org/abs/2205.15076v2 )

ライセンス: Link先を確認
Yuchen He and Chihao Zhang(参考訳) グラフフィードバックによるバンディットの問題は、多腕バンディット(MAB)問題と専門家のアドバイスによる学習の両方を、ゲームの各ラウンドで損失ベクトルがどのように観測できるかを有向グラフにエンコードすることで一般化する。 ミニマックスの後悔はフィードバックグラフの構造と密接に関連しており、それらのつながりが完全には理解されていない。 本稿では,フィードバックグラフの分割に基づく問題に対する新しいアルゴリズムフレームワークを提案する。 本分析では,小部分による後悔の和と,その相互作用による後悔の和を分解することにより,グラフの様々な部分間の相互作用を明らかにする。 その結果,本アルゴリズムはmabのための最適アルゴリズムの補間と一般化であり,専門家のアドバイスにより学習することができる。 提案手法は, 強可観測グラフと弱可観測グラフの両方に対して, 従来のアルゴリズムを統一し, 有界次数グラフと弱可観測グラフを含む多種多様なグラフファミリにおいて, 改良および最適可観測限界を生成する。

The problem of bandit with graph feedback generalizes both the multi-armed bandit (MAB) problem and the learning with expert advice problem by encoding in a directed graph how the loss vector can be observed in each round of the game. The mini-max regret is closely related to the structure of the feedback graph and their connection is far from being fully understood. We propose a new algorithmic framework for the problem based on a partition of the feedback graph. Our analysis reveals the interplay between various parts of the graph by decomposing the regret to the sum of the regret caused by small parts and the regret caused by their interaction. As a result, our algorithm can be viewed as an interpolation and generalization of the optimal algorithms for MAB and learning with expert advice. Our framework unifies previous algorithms for both strongly observable graphs and weakly observable graphs, resulting in improved and optimal regret bounds on a wide range of graph families including graphs of bounded degree and strongly observable graphs with a few corrupted arms.
翻訳日:2023-08-07 16:51:06 公開日:2023-08-04
# スクイージングと量子近似最適化

Squeezing and quantum approximate optimization ( http://arxiv.org/abs/2205.10383v3 )

ライセンス: Link先を確認
Gopal Chandra Santra, Fred Jendrzejewski, Philipp Hauke, Daniel J. Egger(参考訳) 変分量子アルゴリズムは、デジタル量子コンピュータを用いた組合せ最適化問題に対する興味深い展望を提供する。 しかし、そのようなアルゴリズムにおける達成可能な性能と量子相関の役割は未だ不明である。 ここでは、一見無関係な量子距離論の分野との密接な関係を確立することで、この問題に光を当てた: メトロロジカル応用では、感度を高めるために分散の少ないスピンアンサンブルの量子状態を使用し、より精密な組合せマックスカット問題に対する最適解を求める形で、そのような圧縮状態を生成する。 量子近似最適化アルゴリズム(QAOA)を用いてこの最適化問題を解くことにより、様々な量子マシンに適応可能な体系的な手順で高度に絞られた状態が生成されるか、IBM量子チップ上で数値的にも示す。 さらに、MaxCutのQAOA用に調整されたスチーズにより、将来のハードウェアベンチマークのメリットの指標が提案できる。

Variational quantum algorithms offer fascinating prospects for the solution of combinatorial optimization problems using digital quantum computers. However, the achievable performance in such algorithms and the role of quantum correlations therein remain unclear. Here, we shed light on this open issue by establishing a tight connection to the seemingly unrelated field of quantum metrology: Metrological applications employ quantum states of spin-ensembles with a reduced variance to achieve an increased sensitivity, and we cast the generation of such squeezed states in the form of finding optimal solutions to a combinatorial MaxCut problem with an increased precision. By solving this optimization problem with a quantum approximate optimization algorithm (QAOA), we show numerically as well as on an IBM quantum chip how highly squeezed states are generated in a systematic procedure that can be adapted to a wide variety of quantum machines. Moreover, squeezing tailored for the QAOA of the MaxCut permits us to propose a figure of merit for future hardware benchmarks.
翻訳日:2023-08-07 16:50:02 公開日:2023-08-04
# メモリ制約下におけるデータストリーム分類のためのモンドリアン森林

Mondrian Forest for Data Stream Classification Under Memory Constraints ( http://arxiv.org/abs/2205.07871v3 )

ライセンス: Link先を確認
Martin Khannouz, Tristan Glatard(参考訳) 教師付き学習アルゴリズムは一般的に、トレーニングとテストフェーズ中にデータモデルを保存するのに十分なメモリが利用できると仮定する。 しかし、モノのインターネットでは、データが無限のデータストリームの形になったり、メモリの少ないデバイスに学習アルゴリズムがデプロイされたりしたとき、この仮定は現実的ではない。 本稿では,オンライン・モンドリアン森林分類アルゴリズムを用いて,データストリーム上のメモリ制約に対処する。 特に、メモリ制限に達すると、新しいデータポイントでmondrianツリーを更新する5つのメモリ外戦略を設計する。 さらに,メモリ制約下でドリフトの概念をより堅牢にするためのトリミング機構も設計した。 拡張ノード戦略(extended node strategy)は、概念ドリフトが期待されているかどうかに応じて異なるトリミング機構を採用するべきであるが、すべての構成において、メモリ外戦略として最善のように見える。 私たちのメソッドはすべて、orpailleccオープンソースライブラリに実装されており、組み込みシステムやコネクテッドオブジェクトで使用できる準備ができています。

Supervised learning algorithms generally assume the availability of enough memory to store their data model during the training and test phases. However, in the Internet of Things, this assumption is unrealistic when data comes in the form of infinite data streams, or when learning algorithms are deployed on devices with reduced amounts of memory. In this paper, we adapt the online Mondrian forest classification algorithm to work with memory constraints on data streams. In particular, we design five out-of-memory strategies to update Mondrian trees with new data points when the memory limit is reached. Moreover, we design trimming mechanisms to make Mondrian trees more robust to concept drifts under memory constraints. We evaluate our algorithms on a variety of real and simulated datasets, and we conclude with recommendations on their use in different situations: the Extend Node strategy appears as the best out-of-memory strategy in all configurations, whereas different trimming mechanisms should be adopted depending on whether a concept drift is expected. All our methods are implemented in the OrpailleCC open-source library and are ready to be used on embedded systems and connected objects.
翻訳日:2023-08-07 16:49:43 公開日:2023-08-04
# エルミートおよび非エルミート量子力学における創発的並列輸送と曲率

Emergent parallel transport and curvature in Hermitian and non-Hermitian quantum mechanics ( http://arxiv.org/abs/2204.05657v2 )

ライセンス: Link先を確認
Chia-Yi Ju, Adam Miranowicz, Yueh-Nan Chen, Guang-Yin Chen, Franco Nori(参考訳) 研究により、非エルミート系のヒルベルト空間は非自明な計量を必要とすることが示されている。 ここでは、時間に加えて、進化次元が幾何学的形式から自然に現れることを実証する。 具体的には、この形式論において、ハミルトニアンはクリストッフェル記号のような作用素として解釈でき、シュレーディンガー方程式はこの形式論における平行輸送として解釈できる。 次に、創発次元に沿った状態と計量の進化方程式を導出し、任意の閉系に対するヒルベルト空間バンドルの曲率が局所平坦であることを見出す。 最後に、状態の忠実度感受性とベリー曲率がこれらの創発的並列輸送と関連していることを示す。

Studies have shown that the Hilbert spaces of non-Hermitian systems require nontrivial metrics. Here, we demonstrate how evolution dimensions, in addition to time, can emerge naturally from a geometric formalism. Specifically, in this formalism, Hamiltonians can be interpreted as a Christoffel symbol-like operators, and the Schroedinger equation as a parallel transport in this formalism. We then derive the evolution equations for the states and metrics along the emergent dimensions and find that the curvature of the Hilbert space bundle for any given closed system is locally flat. Finally, we show that the fidelity susceptibilities and the Berry curvatures of states are related to these emergent parallel transports.
翻訳日:2023-08-07 16:49:25 公開日:2023-08-04
# 文埋め込みによる単語センス誘導を用いたワードネットの自動構築

Automatic WordNet Construction using Word Sense Induction through Sentence Embeddings ( http://arxiv.org/abs/2204.03251v2 )

ライセンス: Link先を確認
Dan John Velasco, Axel Alba, Trisha Gail Pelagio, Bryce Anthony Ramirez, Jan Christian Blaise Cruz and Charibeth Cheng(参考訳) Wordnetsのような言語リソースは、さまざまな自然言語タスクやアプリケーションに必須のツールである。 しかし、フィリピンのような低リソース言語では、既存のワードネットは古く時代遅れであり、新しいワードネットの生成は時間とリソースの面で遅くコストがかかる可能性がある。 本稿では,ラベルなしコーパスと文埋め込み型言語モデルのみを用いて,スクラッチから単語ネットを構築する自動手法を提案する。 これを用いて、フィリピンの古いWordNetを置き換え、改善する新しいワードネットであるFilWordNetを作成する。 我々は、この自動誘発感覚と合成集合をプリンストンワードネットの感覚とマッチングし、その合成集合を旧フィリピンワードネットと比較することで評価する。 提案手法は,人間の監督を必要とせずに,既存の感覚やシンセットを自動生成することができることを実証的に示す。

Language resources such as wordnets remain indispensable tools for different natural language tasks and applications. However, for low-resource languages such as Filipino, existing wordnets are old and outdated, and producing new ones may be slow and costly in terms of time and resources. In this paper, we propose an automatic method for constructing a wordnet from scratch using only an unlabeled corpus and a sentence embeddings-based language model. Using this, we produce FilWordNet, a new wordnet that supplants and improves the outdated Filipino WordNet. We evaluate our automatically-induced senses and synsets by matching them with senses from the Princeton WordNet, as well as comparing the synsets to the old Filipino WordNet. We empirically show that our method can induce existing, as well as potentially new, senses and synsets automatically without the need for human supervision.
翻訳日:2023-08-07 16:49:11 公開日:2023-08-04
# 非加法量子系における絡み合い伝播とダイナミクス

Entanglement propagation and dynamics in non-additive quantum systems ( http://arxiv.org/abs/2112.11488v3 )

ライセンス: Link先を確認
Guido Giachetti and Nicolo Defenu(参考訳) 長距離相互作用量子系の顕著な集合的特徴は、量子技術応用の有望な候補となる。 しかし、励起の伝播と閉じ込めに基づく共通機構の崩壊により、添加性の欠如は、エンタングルメントのスケーリングと輸送の伝統的なイメージを覆す。 本稿では,多体量子系における絡み合いエントロピーのダイナミクスについて述べる。 厳密な熱力学的限界エンタングルメントダイナミクスは抑制されているが、グローバルダイナミクスにおいて複数の共鳴モードをトリガーする可能性があるため、中間系サイズで新しいスケーリングレジームの豊富なモザイクが観察される。 エンタングルメント伝播の形状と時間スケールの定量的予測を行い、現在の量子シミュレータにおけるこれらの位相の観察への道を開く。 この画像は、Floquet運転対象のローカルな多くのボディシステムと接続され、対比される。

The prominent collective character of long-range interacting quantum systems makes them promising candidates for quantum technological applications. Yet, lack of additivity overthrows the traditional picture for entanglement scaling and transport, due to the breakdown of the common mechanism based on excitations propagation and confinement. Here, we describe the dynamics of the entanglement entropy in many-body quantum systems with a diverging contribution of the long-range two body potential to the internal energy. While in the strict thermodynamic limit entanglement dynamics is shown to be suppressed, a rich mosaic of novel scaling regimes is observed at intermediate system sizes, due to the possibility to trigger multiple resonant modes in the global dynamics. Quantitative predictions on the shape and timescales of entanglement propagation are made, paving the way to the observation of these phases in current quantum simulators. This picture is connected and contrasted with the case of local many body systems subject to Floquet driving.
翻訳日:2023-08-07 16:48:56 公開日:2023-08-04
# 原子トラップ状態の合成次元に沿ったブロッホ振動

Bloch Oscillations Along a Synthetic Dimension of Atomic Trap States ( http://arxiv.org/abs/2112.10648v2 )

ライセンス: Link先を確認
Christopher Oliver, Aaron Smith, Thomas Easton, Grazia Salerno, Vera Guarrera, Nathan Goldman, Giovanni Barontini, Hannah M. Price(参考訳) 合成次元は、寒冷原子やフォトニクスにおける凝縮物質物理学をシミュレートする強力なアプローチを提供し、離散自由度の集合を結合し、人工空間次元に沿って格子点として再解釈する。 しかし、これまで原子実験は合成次元に沿って結合可能な人工格子サイトの数によって制限されてきた。 ここでは、原子調和トラップ状態の非常に長く制御可能な合成次元を初めて実験的に実現した。 これを作成するために、原子雲のトラップポテンシャルをパターン化された光で動的に変調することでトラップ状態を結合する。 駆動電位の周波数とトラップ周波数のデチューニングを制御することにより、合成次元における制御可能な力を実装する。 これにより、数十の原子トラップ状態が周期的に上下に動くブロッホ振動が引き起こされる。 雲の実空間力学におけるこの挙動の鍵となる特性を実験的に観察し,数値シミュレーションと半古典理論で検証した。 この実験は、高度に励起されたトラップ状態の操作と制御のための直感的なアプローチを提供し、より高次元でのトポロジカル物理学の将来の探索のステージを設定する。

Synthetic dimensions provide a powerful approach for simulating condensed matter physics in cold atoms and photonics, whereby a set of discrete degrees of freedom are coupled together and re-interpreted as lattice sites along an artificial spatial dimension. However, atomic experimental realisations have been limited so far by the number of artificial lattice sites that can be feasibly coupled along the synthetic dimension. Here, we experimentally realise for the first time a very long and controllable synthetic dimension of atomic harmonic trap states. To create this, we couple trap states by dynamically modulating the trapping potential of the atomic cloud with patterned light. By controlling the detuning between the frequency of the driving potential and the trapping frequency, we implement a controllable force in the synthetic dimension. This induces Bloch oscillations in which atoms move periodically up and down tens of atomic trap states. We experimentally observe the key characteristics of this behaviour in the real space dynamics of the cloud, and verify our observations with numerical simulations and semiclassical theory. This experiment provides an intuitive approach for the manipulation and control of highly-excited trap states, and sets the stage for the future exploration of topological physics in higher dimensions.
翻訳日:2023-08-07 16:48:41 公開日:2023-08-04
# 局所化s行列理論に向けて

Towards a Localised S-Matrix Theory ( http://arxiv.org/abs/2208.10425v3 )

ライセンス: Link先を確認
Dimitrios Karamitros and Apostolos Pilaftsis(参考訳) 散乱過程に関わる粒子相互作用の局所化効果を常に考慮したS-行列理論を定式化する。 すべての相互作用が無限に広がる極限において、S行列はその標準形式を仮定する。 この形式論における出現する量子現象の意義をよりよく理解するために、相互作用頂点に空間的ガウス分布を持つ可解場理論モデルを考える。 この可解性モデルは、以前文献で紹介されていたもので、ソースに近いか遠くに近い検出領域の正確な記述を可能にする。 古典光学における光回折と密接な類似性から、これら2つの領域を近接場と遠場、あるいはフレネル領域とフラウンホーファー領域と呼ぶ。 混合メディエータがフレネル領域で検出した場合、振動パターンを生成するかどうかについて再検討する。 本研究では,FresnelおよびFraunhofer体制におけるS-matrix振幅の早期発見を裏付けるとともに,文献でこれまで説明されていない角依存性に関して,いくつかの新しい特徴を観察する。 特に、後方方向の粒子の伝播を抑制する ‘quantum obliquity factor’' を得ることにより、回折光学におけるその起源に関する明示的な量子場理論的な記述が得られる。 現在および将来の衝突型衝突型加速器は、短期および長期のニュートリノ実験と同様に、そのような全体論的局所化s行列理論から得られる多くの予測から大きな恩恵を受ける。

We formulate an S-matrix theory in which localisation effects of the particle interactions involved in a scattering process are consistently taken into account. In the limit of an infinite spread of all interactions, the S-matrix assumes its standard form. To better understand the significance of the emerging quantum phenomena in this formalism, we consider a solvable field-theoretic model with spatial Gaussian spreads at the interaction vertices. This solvable model, which was previously introduced in the literature, enables accurate descriptions of detection regions that are either close to or far from the source. In close analogy with light diffraction in classical optics, we call these two regions near-field and far-field zones, or the Fresnel and Fraunhofer regions. We revisit the question whether mixed mediators produce an oscillating pattern if their detection occurs in the Fresnel region. Besides corroborating certain earlier findings of the S-matrix amplitude in the forward Fresnel and Fraunhofer regimes, we observe several novel features with respect to its angular dependence which have not been accounted before in the literature. In particular, we obtain a ``quantum obliquity factor'' that suppresses particle propagation in the backwards direction, thereby providing an explicit quantum field-theoretic description for its origin in diffractive optics. Present and future colliders, as well as both short and long baseline neutrino experiments, would greatly benefit from the many predictions that can be offered from such a holistic localised S-matrix theory.
翻訳日:2023-08-07 16:42:56 公開日:2023-08-04
# 相対的Pose回帰とOdometry-Aided Absolute Pose回帰に対するVisual-Inertial Deep Multimodal Fusionのベンチマーク

Benchmarking Visual-Inertial Deep Multimodal Fusion for Relative Pose Regression and Odometry-aided Absolute Pose Regression ( http://arxiv.org/abs/2208.00919v3 )

ライセンス: Link先を確認
Felix Ott and Nisha Lakshmana Raichur and David R\"ugamer and Tobias Feigl and Heiko Neumann and Bernd Bischl and Christopher Mutschler(参考訳) 視覚慣性ローカライゼーションは、仮想現実、自動運転車、航空機などのコンピュータビジョンやロボティクスアプリケーションにおいて重要な問題である。 目標は、環境またはダイナミクスが分かっているときに、オブジェクトの正確なポーズを推定することである。 絶対ポーズ回帰(APR)技術は、畳み込みと時空間ネットワークを用いて、既知のシーンで入力された画像から直接絶対ポーズを回帰する。 オドメトリー法は、既知のオブジェクトの動的(視覚または慣性入力)から相対的なポーズを予測する相対的ポーズ回帰(rpr)を実行する。 両データソースからの情報をクロスモーダルな設定で検索することで、ローカライズタスクを改善することができるが、これは矛盾するタスクによる難しい問題である。 本研究では,ポーズグラフの最適化とアテンションネットワークに基づく深層マルチモーダル融合の評価を行う。 APRタスクには補助学習とベイズ学習が使用される。 本稿では,APR-RPRタスクとRPR-RPRタスクの精度向上について述べる。 我々はEuRoC MAVとPennCOSYVIOデータセットの実験を行い、新しい産業データセットを記録し評価する。

Visual-inertial localization is a key problem in computer vision and robotics applications such as virtual reality, self-driving cars, and aerial vehicles. The goal is to estimate an accurate pose of an object when either the environment or the dynamics are known. Absolute pose regression (APR) techniques directly regress the absolute pose from an image input in a known scene using convolutional and spatio-temporal networks. Odometry methods perform relative pose regression (RPR) that predicts the relative pose from a known object dynamic (visual or inertial inputs). The localization task can be improved by retrieving information from both data sources for a cross-modal setup, which is a challenging problem due to contradictory tasks. In this work, we conduct a benchmark to evaluate deep multimodal fusion based on pose graph optimization and attention networks. Auxiliary and Bayesian learning are utilized for the APR task. We show accuracy improvements for the APR-RPR task and for the RPR-RPR task for aerial vehicles and hand-held devices. We conduct experiments on the EuRoC MAV and PennCOSYVIO datasets and record and evaluate a novel industry dataset.
翻訳日:2023-08-07 16:41:05 公開日:2023-08-04
# SSIVD-Net:Weaponized Violenceのための新しい高精細画像分類・検出技術

SSIVD-Net: A Novel Salient Super Image Classification & Detection Technique for Weaponized Violence ( http://arxiv.org/abs/2207.12850v7 )

ライセンス: Link先を確認
Toluwani Aremu, Li Zhiyuan, Reem Alameeri, Mustaqeem Khan, Abdulmotaleb El Saddik(参考訳) CCTV映像における暴力や武器による暴力の検出には、包括的なアプローチが必要である。 本研究は,監視ビデオにおける武器分布の学習を容易にするために特別に設計された, \emph{smart-city cctv violence detection (scvd)データセットを紹介する。 本稿では,暴力認識タスクにおける3D監視ビデオ解析の複雑さに対処するため,<emph{SSIVD-Net} (\textbf{S}alient-\textbf{S}uper-\textbf{I}mage for \textbf{V}iolence \textbf{D}etection。 提案手法は,Salient-Super-Image表現を用いて,推論,性能,説明可能性を改善しつつ,3次元ビデオデータの複雑さ,次元性,情報損失を低減する。 筆者らは,未来的スマートシティのスケーラビリティと持続可能性要件を考慮して,カーネル化アプローチと残留学習戦略を組み合わせた新しいアーキテクチャである 'emph{Salient-Classifier} を紹介した。 SCVDデータセット上でSSIVD-NetとSalient Classifierのバリエーションを評価し,暴力検出によく使用されるSOTAモデルに対するベンチマークを行った。 本手法は,武器化と非兵器化の両方の暴力事例の検出において有意な改善を示す。 暴力検出においてSOTAを前進させることで、我々の研究は現実のアプリケーションに適した実用的でスケーラブルなソリューションを提供する。 提案手法は,cctv映像における暴力検出の課題に対処するだけでなく,スマート監視における武器分布の理解にも寄与する。 究極的には、我々の研究成果はよりスマートでより安全な都市を可能にし、公共の安全対策を強化するだろう。

Detection of violence and weaponized violence in closed-circuit television (CCTV) footage requires a comprehensive approach. In this work, we introduce the \emph{Smart-City CCTV Violence Detection (SCVD)} dataset, specifically designed to facilitate the learning of weapon distribution in surveillance videos. To tackle the complexities of analyzing 3D surveillance video for violence recognition tasks, we propose a novel technique called, \emph{SSIVD-Net} (\textbf{S}alient-\textbf{S}uper-\textbf{I}mage for \textbf{V}iolence \textbf{D}etection). Our method reduces 3D video data complexity, dimensionality, and information loss while improving inference, performance, and explainability through the use of Salient-Super-Image representations. Considering the scalability and sustainability requirements of futuristic smart cities, the authors introduce the \emph{Salient-Classifier}, a novel architecture combining a kernelized approach with a residual learning strategy. We evaluate variations of SSIVD-Net and Salient Classifier on our SCVD dataset and benchmark against state-of-the-art (SOTA) models commonly employed in violence detection. Our approach exhibits significant improvements in detecting both weaponized and non-weaponized violence instances. By advancing the SOTA in violence detection, our work offers a practical and scalable solution suitable for real-world applications. The proposed methodology not only addresses the challenges of violence detection in CCTV footage but also contributes to the understanding of weapon distribution in smart surveillance. Ultimately, our research findings should enable smarter and more secure cities, as well as enhance public safety measures.
翻訳日:2023-08-07 16:40:47 公開日:2023-08-04
# 格子ボソンの熱領域則

Thermal Area Law for Lattice Bosons ( http://arxiv.org/abs/2207.07760v3 )

ライセンス: Link先を確認
Marius Lemm and Oliver Siebert(参考訳) 物理系は、ギブス状態の2つの隣接領域間の相互情報がそれらの境界領域によって制御されている場合、熱領域の法則を満たすと言われる。 熱領域法則は量子スピン系のような局所的な相互作用を持つ系に対して導かれる。 しかし、格子ボーソンの場合、これらの議論は相互作用が非有界であるため崩壊する。 我々は,ボズ・ハバードモデルを含む任意の次元のボソニックハミルトンのクラスに対して,熱領域則を厳格に導出する。 有界相互作用を超える主なアイデアは、二重パイエルス・ボゴリューボフ推定による化学ポテンシャルを人工的に減少させた準自由参照状態を導入することである。

A physical system is said to satisfy a thermal area law if the mutual information between two adjacent regions in the Gibbs state is controlled by the area of their boundary. Thermal area laws have been derived for systems with bounded local interactions such as quantum spin systems. However, for lattice bosons these arguments break down because the interactions are unbounded. We rigorously derive a thermal area law for a class of bosonic Hamiltonians in any dimension which includes the paradigmatic Bose-Hubbard model. The main idea to go beyond bounded interactions is to introduce a quasi-free reference state with artificially decreased chemical potential by means of a double Peierls-Bogoliubov estimate.
翻訳日:2023-08-07 16:40:13 公開日:2023-08-04
# ENCODE:ネットワーク異常検出のためのNetFlowのエンコード

ENCODE: Encoding NetFlows for Network Anomaly Detection ( http://arxiv.org/abs/2207.03890v2 )

ライセンス: Link先を確認
Clinton Cao, Annibale Panichella, Sicco Verwer, Agathe Blaise, Filippo Rebecchi(参考訳) NetFlow Dataは、多くのネットワークアナリストや研究者が使用している一般的なネットワークログフォーマットである。 ディープパケット検査でNetFlowを使用する利点は、収集と処理が容易であり、プライバシー侵害が少ないことである。 多くの研究が、NetFlowデータを使用してネットワーク攻撃を検出するために機械学習を使用している。 これらの機械学習パイプラインの最初のステップは、機械学習アルゴリズムに渡される前にデータを前処理することだ。 netflowデータの事前処理には多くのアプローチがあるが、ネットワークデータの特定の特性を考慮せず、既存のメソッドを単にデータに適用する。 我々は,netflow や software log のようなソフトウェアシステムに由来するデータに対して,特徴値の頻度や文脈の類似性は,値自体の類似性よりも重要であると主張する。 本研究では,データ処理時の特徴値の周波数とコンテキストを直接考慮した符号化アルゴリズムを提案する。 このエンコーディングを使って異なるタイプのネットワーク動作をクラスタ化することができ、ネットワーク内の異常を検出するプロセスを支援する。 符号化アルゴリズムで符号化されたデータを用いて、異常検出のための機械学習モデルをトレーニングする。 Kubernetesクラスタとよく知られた2つのパブリックなNetFlowデータセットに対するネットワークアタックのために開発した新しいデータセットで、エンコーディングの有効性を評価します。 我々は、機械学習モデルが異常検出に符号化を使用することの利点を実証的に示す。

NetFlow data is a popular network log format used by many network analysts and researchers. The advantages of using NetFlow over deep packet inspection are that it is easier to collect and process, and it is less privacy intrusive. Many works have used machine learning to detect network attacks using NetFlow data. The first step for these machine learning pipelines is to pre-process the data before it is given to the machine learning algorithm. Many approaches exist to pre-process NetFlow data; however, these simply apply existing methods to the data, not considering the specific properties of network data. We argue that for data originating from software systems, such as NetFlow or software logs, similarities in frequency and contexts of feature values are more important than similarities in the value itself. In this work, we propose an encoding algorithm that directly takes the frequency and the context of the feature values into account when the data is being processed. Different types of network behaviours can be clustered using this encoding, thus aiding the process of detecting anomalies within the network. We train several machine learning models for anomaly detection using the data that has been encoded with our encoding algorithm. We evaluate the effectiveness of our encoding on a new dataset that we created for network attacks on Kubernetes clusters and two well-known public NetFlow datasets. We empirically demonstrate that the machine learning models benefit from using our encoding for anomaly detection.
翻訳日:2023-08-07 16:40:03 公開日:2023-08-04
# 中性中間子の進化の量子速度

Quantum speed of evolution of neutral mesons ( http://arxiv.org/abs/2206.13938v2 )

ライセンス: Link先を確認
Subhashish Banerjee and K. G. Paulson(参考訳) オープン量子システムの枠組みにおいて,中性k$およびb$中間子に対する量子力学的時間発展速度の限界について検討した。 量子力学の時間-進化速度限界におけるコヒーレンス-ミキシング(英語版) (coherence-mixing) の役割について研究する。 また,デコヒーレンスとCP対称性違反が量子力学的時間-進化速度限界に及ぼす影響について検討した。 量子力学的な時間発展速度の限界は、単一の中間子の進化時間とともに増加する。 相関した中間子の進化は、寿命の約4分の1の進化時間で遅くなり、その後に加速される。 全体的なパターンとして、相関中間子は非相関の中間子に比べて高速に進化し、量子相関が進化を加速することを示唆している。

We investigate the quantum-mechanical time-evolution speed limit for neutral $K$ and $B$ mesons, both single as well as correlated, within the framework of open quantum systems. The role of coherence--mixing, a crucial feature of the open system evolution of the underlying quantum systems (here, the mesons), on the quantum-mechanical time-evolution speed limit is studied. The impact of decoherence and CP (charge conjugation parity) symmetry violation on quantum-mechanical time-evolution speed limit is also investigated. The quantum-mechanical time-evolution speed limit increases with the evolution time for the single mesons, a signature of the underlying open system dynamics of the evolution being semi-group in nature. The evolution of the correlated mesons slows down for an evolution time of approximately one-fourth of the lifetime, after which it is sped up. An overall pattern that emerges is that correlated mesons evolve faster as compared to their uncorrelated counterparts, suggesting that quantum correlations can speed up evolution.
翻訳日:2023-08-07 16:39:35 公開日:2023-08-04
# 組込みラベルノイズロバスト深部画像表現学習の創発的推論

Generative Reasoning Integrated Label Noise Robust Deep Image Representation Learning ( http://arxiv.org/abs/2212.01261v3 )

ライセンス: Link先を確認
Gencer Sumbul and Beg\"um Demir(参考訳) 深層学習に基づく画像表現学習(IRL)手法の開発は,様々な画像理解問題に対して大きな注目を集めている。 これらの手法の多くは、大量の注釈付き訓練画像の可用性と品質を必要としており、収集には時間と費用がかかる。 ラベル費用を削減するため、クラウドソースデータ、自動ラベル付け手順、市民科学プロジェクトなどが考えられる。 しかしながら、このようなアプローチは、トレーニングデータにラベルノイズを含めるリスクを増大させる。 差別的推論が採用されると、ノイズラベルが過小評価される可能性がある。 これにより、準最適学習手順が導き出され、画像の特徴が不正確になる。 そこで本研究では,生成的推論統合ラベル雑音ロバスト深部表現学習(grid)手法を提案する。 本研究の目的は、雑音ラベル下でのIRLの識別的・生成的推論の相補的特性をモデル化することである。 そこで我々はまず,教師付き変分オートエンコーダを用いて生成的推論を識別的推論に統合する。 これにより、グリッドはノイズラベルでトレーニングサンプルを自動的に検出できる。 そして,ラベルノイズによる頑健なハイブリッド表現学習戦略を通じて,これらのサンプルのIRLの学習手順全体を,識別的推論により生成的推論および他のサンプルの学習手法によって調整する。 提案手法は,irl法とは独立に雑音ラベルの干渉を防止しつつ,識別的画像表現を学習する。 したがって、既存の手法とは異なり、GRIDはアノテーションの種類、ニューラルネットワークアーキテクチャ、損失関数、学習タスクに依存しないため、様々な問題に直接利用することができる。 実験結果から, 最先端手法と比較して有効性を示した。 GRIDのコードはhttps://github.com/gencersumbul/GRIDで公開されている。

The development of deep learning based image representation learning (IRL) methods has attracted great attention for various image understanding problems. Most of these methods require the availability of a high quantity and quality of annotated training images, which can be time-consuming and costly to gather. To reduce labeling costs, crowdsourced data, automatic labeling procedures or citizen science projects can be considered. However, such approaches increase the risk of including label noise in training data. It may result in overfitting on noisy labels when discriminative reasoning is employed. This leads to sub-optimal learning procedures, and thus inaccurate characterization of images. To address this, we introduce a generative reasoning integrated label noise robust deep representation learning (GRID) approach. Our approach aims to model the complementary characteristics of discriminative and generative reasoning for IRL under noisy labels. To this end, we first integrate generative reasoning into discriminative reasoning through a supervised variational autoencoder. This allows GRID to automatically detect training samples with noisy labels. Then, through our label noise robust hybrid representation learning strategy, GRID adjusts the whole learning procedure for IRL of these samples through generative reasoning and that of other samples through discriminative reasoning. Our approach learns discriminative image representations while preventing interference of noisy labels independently from the IRL method being selected. Thus, unlike the existing methods, GRID does not depend on the type of annotation, neural network architecture, loss function or learning task, and thus can be directly utilized for various problems. Experimental results show its effectiveness compared to state-of-the-art methods. The code of GRID is publicly available at https://github.com/gencersumbul/GRID.
翻訳日:2023-08-07 16:32:29 公開日:2023-08-04
# 不確かさを持つマルコフジャンプ線形系の形式制御器合成

Formal Controller Synthesis for Markov Jump Linear Systems with Uncertain Dynamics ( http://arxiv.org/abs/2212.00679v5 )

ライセンス: Link先を確認
Luke Rickard, Thom Badings, Licio Romao, Alessandro Abate(参考訳) サイバーフィジカルシステムのための確実に正しい制御器の自動合成は、安全クリティカルなシナリオの展開に不可欠である。 しかし、ハイブリッド機能や確率的あるいは未知の振る舞いは、この問題を難しくする。 サイバーフィジカルシステムのための離散時間モデルのクラスであるマルコフジャンプ線形システム(mjlss)の制御器を合成する方法を提案する。 MJLSは有限集合の確率線型力学と、マルコフ決定過程(MDP)によって支配されるこれらの力学の間の離散ジャンプからなる。 本研究は, このMPPの遷移確率が一定間隔で知られているか, 完全に未知であるかを考察する。 我々のアプローチは、MJLSの離散(モードジャンプ)と連続(確率線形)の両方の挙動を捉える有限状態抽象化に基づいている。 我々は、この抽象概念を、いわゆる「scenario approach」のサンプリング手法を用いて遷移確率の間隔を計算する区間 MDP (iMDP) として定式化し、確率論的に近似を与える。 本手法を複数の現実的なベンチマーク問題,特に温度制御と航空機の配送問題に適用する。

Automated synthesis of provably correct controllers for cyber-physical systems is crucial for deployment in safety-critical scenarios. However, hybrid features and stochastic or unknown behaviours make this problem challenging. We propose a method for synthesising controllers for Markov jump linear systems (MJLSs), a class of discrete-time models for cyber-physical systems, so that they certifiably satisfy probabilistic computation tree logic (PCTL) formulae. An MJLS consists of a finite set of stochastic linear dynamics and discrete jumps between these dynamics that are governed by a Markov decision process (MDP). We consider the cases where the transition probabilities of this MDP are either known up to an interval or completely unknown. Our approach is based on a finite-state abstraction that captures both the discrete (mode-jumping) and continuous (stochastic linear) behaviour of the MJLS. We formalise this abstraction as an interval MDP (iMDP) for which we compute intervals of transition probabilities using sampling techniques from the so-called 'scenario approach', resulting in a probabilistically sound approximation. We apply our method to multiple realistic benchmark problems, in particular, a temperature control and an aerial vehicle delivery problem.
翻訳日:2023-08-07 16:32:05 公開日:2023-08-04
# ビデオ背景音楽生成:データセット、方法、および評価

Video Background Music Generation: Dataset, Method and Evaluation ( http://arxiv.org/abs/2211.11248v2 )

ライセンス: Link先を確認
Le Zhuo, Zhaokai Wang, Baisen Wang, Yue Liao, Chenxi Bao, Stanley Peng, Songhao Han, Aixi Zhang, Fei Fang, Si Liu(参考訳) ビデオの編集には音楽が不可欠だが、手動で音楽を選ぶのは困難で時間がかかる。 そこで我々は,ビデオ入力によるバックグラウンド楽曲の自動生成を目指す。 これは、音楽ビデオデータセット、ビデオから音楽への生成のための効率的なアーキテクチャ、合理的なメトリクスを必要とするため、難しい作業である。 このギャップを埋めるために,ビデオ背景音楽生成のためのデータセット,ベンチマークモデル,評価指標を含む完全なレシピを紹介する。 様々な音楽アノテーションを備えたビデオおよびシンボリック音楽データセットであるSymMVについて述べる。 私たちの知る限りでは、リッチな音楽アノテーションを備えた最初のビデオ音楽データセットです。 また,v-musprodというビデオ背景音楽生成フレームワークを提案する。これは和音,メロディ,伴奏の楽曲先行と,意味・色・動きの映像・音楽関係を利用する。 映像音楽対応のための客観的な指標の欠如に対処するため,強力な映像音楽表現学習モデルに基づく検索ベースVMCPを設計する。 実験の結果,V-MusProdは音楽の質とビデオとの対応性の両方において,最先端の手法よりも優れていた。 我々は,我々のデータセット,ベンチマークモデル,評価指標が,ビデオバックグラウンド音楽の生成を促進すると信じている。 データセットとコードはhttps://github.com/zhuole1025/SymMV.comから入手可能です。

Music is essential when editing videos, but selecting music manually is difficult and time-consuming. Thus, we seek to automatically generate background music tracks given video input. This is a challenging task since it requires music-video datasets, efficient architectures for video-to-music generation, and reasonable metrics, none of which currently exist. To close this gap, we introduce a complete recipe including dataset, benchmark model, and evaluation metric for video background music generation. We present SymMV, a video and symbolic music dataset with various musical annotations. To the best of our knowledge, it is the first video-music dataset with rich musical annotations. We also propose a benchmark video background music generation framework named V-MusProd, which utilizes music priors of chords, melody, and accompaniment along with video-music relations of semantic, color, and motion features. To address the lack of objective metrics for video-music correspondence, we design a retrieval-based metric VMCP built upon a powerful video-music representation learning model. Experiments show that with our dataset, V-MusProd outperforms the state-of-the-art method in both music quality and correspondence with videos. We believe our dataset, benchmark model, and evaluation metric will boost the development of video background music generation. Our dataset and code are available at https://github.com/zhuole1025/SymMV.
翻訳日:2023-08-07 16:31:44 公開日:2023-08-04
# 合成相関拡散画像を用いた深層学習モデルを用いた乳癌の臨床支援

Enhancing Clinical Support for Breast Cancer with Deep Learning Models using Synthetic Correlated Diffusion Imaging ( http://arxiv.org/abs/2211.05308v2 )

ライセンス: Link先を確認
Chi-en Amy Tai and Hayden Gunraj and Nedim Hodzic and Nic Flanagan and Ali Sabri and Alexander Wong(参考訳) 乳がんはカナダとアメリカ合衆国で2番目に多いタイプのがんであり、女性がんの新規症例の25%以上を占めている。 このように、乳癌に対するスクリーニングと臨床サポートの改善に関する研究と進歩がなされている。 本稿では,CDI$s$(CDI$^s$)と呼ばれる新しい磁気共鳴イメージング(MRI)モダリティを用いた深層学習モデルを用いた乳癌に対する臨床サポートの強化について検討する。 より具体的には、体積畳み込みニューラルネットワークを利用して、前処理コホートから体積深部放射能の特徴を学習し、次数および後処理応答予測のための学習特徴に基づく予測器を構築する。 臨床判断支援のための深層学習視点でcdi$^s$-centric radiomic sequenceを学習した最初の研究として,金標準画像モダリティを用いた学習者を対象としたaclin-6698研究を用いて,提案手法を評価した。 提案手法は, 治療前後の反応予測の精度が向上し, 医師が患者の治療の推奨を改善するのに有用である可能性が示唆された。 その後、乳がんの深部放射線学的特徴を活用するアプローチは、がん領域におけるCDI$^s$の他の応用にまで拡張され、臨床サポートがさらに向上する。

Breast cancer is the second most common type of cancer in women in Canada and the United States, representing over 25\% of all new female cancer cases. As such, there has been immense research and progress on improving screening and clinical support for breast cancer. In this paper, we investigate enhancing clinical support for breast cancer with deep learning models using a newly introduced magnetic resonance imaging (MRI) modality called synthetic correlated diffusion imaging (CDI$^s$). More specifically, we leverage a volumetric convolutional neural network to learn volumetric deep radiomic features from a pre-treatment cohort and construct a predictor based on the learnt features for grade and post-treatment response prediction. As the first study to learn CDI$^s$-centric radiomic sequences within a deep learning perspective for clinical decision support, we evaluated the proposed approach using the ACRIN-6698 study against those learnt using gold-standard imaging modalities. We find that the proposed approach can achieve better performance for both grade and post-treatment response prediction and thus may be a useful tool to aid oncologists in improving recommendation of treatment of patients. Subsequently, the approach to leverage volumetric deep radiomic features for breast cancer can be further extended to other applications of CDI$^s$ in the cancer domain to further improve clinical support.
翻訳日:2023-08-07 16:30:58 公開日:2023-08-04
# 物理形ニューラルネットワークによるランドー減衰のデータ駆動モデリング

Data-driven modeling of Landau damping by physics-informed neural networks ( http://arxiv.org/abs/2211.01021v3 )

ライセンス: Link先を確認
Yilan Qin, Jiayu Ma, Mingle Jiang, Chuanfei Dong, Haiyang Fu, Liang Wang, Wenjie Cheng, and Yaqiu Jin(参考訳) 運動学的アプローチは一般にマイクロスケールプラズマ物理学の問題を扱うのに正確であるが、大規模システムやマルチスケールシステムでは計算コストがかかる。 プラズマ物理学における長年の問題の1つは、運動物理学を流体モデルに統合することである。 本稿では,機械学習を用いてニューラルネットワークに含まれる暗黙の流体閉鎖を伴うマルチモーメント流体モデルの構築に成功した。 マルチモーメント流体モデルは、物理インフォームドニューラルネットワーク(PINN)と勾配エンホールド物理インフォームドニューラルネットワーク(gPINN)を用いて、ランダウ減衰の運動シミュレーションから少量のサンプルデータを用いて訓練される。 PINNまたはgPINNを用いて構築した多モーメント流体モデルは、減衰速度を含む電場エネルギーの時間発展と、動力学シミュレーションからプラズマ力学を再現する。 さらに,GPINNアーキテクチャの変種であるgPINN$p$を導入し,ランドウ減衰過程を捉える。 すべての方程式残差の勾配を含める代わりに、gPINN$p$は圧力方程式残差の勾配を1つの制約として加えるだけである。 3つのアプローチのうち、gPINN$p$構成マルチモーメント流体モデルが最も正確な結果を提供する。 この研究は、複雑なマルチスケール実験室、宇宙、天体物理学の問題にまで拡張できる大規模システムの正確かつ効率的なモデリングに光を当てている。

Kinetic approaches are generally accurate in dealing with microscale plasma physics problems but are computationally expensive for large-scale or multiscale systems. One of the long-standing problems in plasma physics is the integration of kinetic physics into fluid models, which is often achieved through sophisticated analytical closure terms. In this paper, we successfully construct a multi-moment fluid model with an implicit fluid closure included in the neural network using machine learning. The multi-moment fluid model is trained with a small fraction of sparsely sampled data from kinetic simulations of Landau damping, using the physics-informed neural network (PINN) and the gradient-enhanced physics-informed neural network (gPINN). The multi-moment fluid model constructed using either PINN or gPINN reproduces the time evolution of the electric field energy, including its damping rate, and the plasma dynamics from the kinetic simulations. In addition, we introduce a variant of the gPINN architecture, namely, gPINN$p$ to capture the Landau damping process. Instead of including the gradients of all the equation residuals, gPINN$p$ only adds the gradient of the pressure equation residual as one additional constraint. Among the three approaches, the gPINN$p$-constructed multi-moment fluid model offers the most accurate results. This work sheds light on the accurate and efficient modeling of large-scale systems, which can be extended to complex multiscale laboratory, space, and astrophysical plasma physics problems.
翻訳日:2023-08-07 16:30:35 公開日:2023-08-04
# 機械理解のための単純な確率的ニューラルネットワーク

A simple probabilistic neural networks for machine understanding ( http://arxiv.org/abs/2210.13179v3 )

ライセンス: Link先を確認
Rongrong Xie and Matteo Marsili(参考訳) 本稿では,機械理解モデルとして内部表現を固定した教師なし学習のための確率論的ニューラルネットワークについて論じる。 ここでの理解は、特徴空間の組織をエンコードする既存の表現にデータをマッピングすることを目的としています。 最大限の関連性の原則を満たし、どのように異なる特徴が組み合わされるかに関する最大限の無知を満たすことで、内部表現を導出する。 隠れたユニットがバイナリ変数である場合、これらの2つの原則は、完全に解決可能で、機能の観点から自然な解釈を提供するユニークなモデル、階層的特徴モデル(HFM)を識別する。 このアーキテクチャを持つ学習機械は、パラメータやデータの変化に対する表現の連続性、圧縮レベルを制御する可能性、一般化を超えて機能をサポートする能力など、多くの興味深い特性を享受していると我々は主張する。 我々は,模型の挙動を広範囲な数値実験で検討し,内部表現が固定されたモデルは,制限ボルツマン機械のような従来のモデルと質的に異なる学習様相を再現すると主張した。

We discuss probabilistic neural networks for unsupervised learning with a fixed internal representation as models for machine understanding. Here understanding is intended as mapping data to an already existing representation which encodes an {\em a priori} organisation of the feature space. We derive the internal representation by requiring that it satisfies the principles of maximal relevance and of maximal ignorance about how different features are combined. We show that, when hidden units are binary variables, these two principles identify a unique model -- the Hierarchical Feature Model (HFM) -- which is fully solvable and provides a natural interpretation in terms of features. We argue that learning machines with this architecture enjoy a number of interesting properties, like the continuity of the representation with respect to changes in parameters and data, the possibility to control the level of compression and the ability to support functions that go beyond generalisation. We explore the behaviour of the model with extensive numerical experiments and argue that models where the internal representation is fixed reproduce a learning modality which is qualitatively different from that of more traditional models such as Restricted Boltzmann Machines.
翻訳日:2023-08-07 16:30:11 公開日:2023-08-04
# 閉システム相関関数による浴室密度分布のリアルタイム拡張

Real-time broadening of bath-induced density profiles from closed-system correlation functions ( http://arxiv.org/abs/2210.10528v2 )

ライセンス: Link先を確認
Tjark Heitmann, Jonas Richter, Jacek Herbrych, Jochen Gemmer, Robin Steinigeweg(参考訳) リンドブラッドマスター方程式は、開量子系に対する主要なアプローチの1つである。 凝縮物系の文脈において、長期間の定常状態の性質を研究するために広く適用されてきたが、そのような定常状態への実際の経路は、まだあまり注目されていない。 本研究では,単一リンドブラッド浴への局所結合を伴うスピン鎖の非平衡ダイナミクスを調べ,誘導磁化の輸送特性を解析した。 典型論と平衡論と確率的解法を組み合わせることで、有限時間におけるリンドブラッドアプローチと線形応答理論の接続を確立する閉系における相関関数に基づいて、開系における力学を構築できるという弱駆動の事例を明らかにした。 このようにして、量子輸送に対する閉かつ開いているアプローチが厳密に一致する特定の例を提供する。 この事実をスピン1/2xxz鎖の等方性点と容易軸系において数値的に示し,超拡散スケーリングと拡散スケーリングがそれぞれ観測される。

The Lindblad master equation is one of the main approaches to open quantum systems. While it has been widely applied in the context of condensed matter systems to study properties of steady states in the limit of long times, the actual route to such steady states has attracted less attention yet. Here, we investigate the nonequilibrium dynamics of spin chains with a local coupling to a single Lindblad bath and analyze the transport properties of the induced magnetization. Combining typicality and equilibration arguments with stochastic unraveling, we unveil for the case of weak driving that the dynamics in the open system can be constructed on the basis of correlation functions in the closed system, which establishes a connection between the Lindblad approach and linear response theory at finite times. In this way, we provide a particular example where closed and open approaches to quantum transport agree strictly. We demonstrate this fact numerically for the spin-1/2 XXZ chain at the isotropic point and in the easy-axis regime, where superdiffusive and diffusive scaling is observed, respectively.
翻訳日:2023-08-07 16:29:53 公開日:2023-08-04
# ゼロショットポイントクラウドセグメンテーションのためのブリッジ言語と幾何学的プリミティブ

Bridging Language and Geometric Primitives for Zero-shot Point Cloud Segmentation ( http://arxiv.org/abs/2210.09923v2 )

ライセンス: Link先を確認
Runnan Chen, Xinge Zhu, Nenglun Chen, Wei Li, Yuexin Ma, Ruigang Yang, Wenping Wang(参考訳) トランスダクティブなゼロショットポイントのクラウドセマンティクスセグメンテーションについて検討し、そこではネットワークが見えないオブジェクトに対してトレーニングされ、見えないオブジェクトをセグメンテーションすることができる。 3d幾何学的要素は、新しい3dオブジェクトタイプを示すために必須の手がかりである。 しかし,従来の手法では言語と3次元幾何学的要素との微粒な関係は無視されていた。 そこで本研究では,視覚的・非視覚的カテゴリのオブジェクトで共有される幾何学的プリミティブを学習し,言語と学習的プリミティブとの微粒なアライメントを利用する新しいフレームワークを提案する。 そのため,ネットワークは幾何学的プリミティブで表現された新しいオブジェクトを認識する。 具体的には,その特徴と学習可能なプロトタイプとの類似性ベクトルである新しい点の視覚表現を定式化し,プロトタイプがバックプロパゲーションによって幾何学的プリミティブを自動的にエンコードする。 また,視覚表現を言語に細分化するための未知認識情報ロスを提案する。 提案手法は, s3dis, scannet, semantickitti, nuscenesデータセット上で, 17.8\%, 30.4\%, 9.2\%, 7.9\%の改善により, 高調波平均断面積法 (hiou) の他の手法を著しく上回っている。 コードは利用可能である(https://github.com/runnanchen/Zero-Shot-Point-Cloud-Segmentation)。

We investigate transductive zero-shot point cloud semantic segmentation, where the network is trained on seen objects and able to segment unseen objects. The 3D geometric elements are essential cues to imply a novel 3D object type. However, previous methods neglect the fine-grained relationship between the language and the 3D geometric elements. To this end, we propose a novel framework to learn the geometric primitives shared in seen and unseen categories' objects and employ a fine-grained alignment between language and the learned geometric primitives. Therefore, guided by language, the network recognizes the novel objects represented with geometric primitives. Specifically, we formulate a novel point visual representation, the similarity vector of the point's feature to the learnable prototypes, where the prototypes automatically encode geometric primitives via back-propagation. Besides, we propose a novel Unknown-aware InfoNCE Loss to fine-grained align the visual representation with language. Extensive experiments show that our method significantly outperforms other state-of-the-art methods in the harmonic mean-intersection-over-union (hIoU), with the improvement of 17.8\%, 30.4\%, 9.2\% and 7.9\% on S3DIS, ScanNet, SemanticKITTI and nuScenes datasets, respectively. Codes are available (https://github.com/runnanchen/Zero-Shot-Point-Cloud-Segmentation)
翻訳日:2023-08-07 16:29:35 公開日:2023-08-04
# グラフニューラルネットワークが小さなデータセットから動脈速度推定を学習するSE(3)対称性

SE(3) symmetry lets graph neural networks learn arterial velocity estimation from small datasets ( http://arxiv.org/abs/2302.08780v3 )

ライセンス: Link先を確認
Julian Suk, Christoph Brune, Jelmer M. Wolterink(参考訳) 冠動脈血行動態は,心臓血管疾患の診断,予後,治療計画に有用なバイオマーカーの基礎となる可能性がある。 速度場は通常、計算流体力学(CFD)を用いて患者固有の3D動脈モデルから得られる。 しかしcfdシミュレーションは専門家による細心の注意が必要であり、時間を要するため、臨床実践の大規模受容を妨げる。 そこで我々は, グラフニューラルネットワーク (GNN) を効率的なブラックボックスサロゲート法として提案し, 動脈腔の四面体メッシュの頂点にマッピングされた3次元速度場を推定する。 我々はこれらのGNNを合成動脈モデルとCFDに基づく地上真理速度場に基づいて訓練する。 GNNのトレーニングが完了すると、CFDと比較して36倍のスピードアップで、新しい未知の動脈の速度推定値が得られる。 本稿では,入力メッシュの空間方向とは無関係なse(3)同値gnnの構築方法を示し,ベースラインニューラルネットワークと比較して,必要なトレーニングデータ量を削減する方法を示す。

Hemodynamic velocity fields in coronary arteries could be the basis of valuable biomarkers for diagnosis, prognosis and treatment planning in cardiovascular disease. Velocity fields are typically obtained from patient-specific 3D artery models via computational fluid dynamics (CFD). However, CFD simulation requires meticulous setup by experts and is time-intensive, which hinders large-scale acceptance in clinical practice. To address this, we propose graph neural networks (GNN) as an efficient black-box surrogate method to estimate 3D velocity fields mapped to the vertices of tetrahedral meshes of the artery lumen. We train these GNNs on synthetic artery models and CFD-based ground truth velocity fields. Once the GNN is trained, velocity estimates in a new and unseen artery can be obtained with 36-fold speed-up compared to CFD. We demonstrate how to construct an SE(3)-equivariant GNN that is independent of the spatial orientation of the input mesh and show how this reduces the necessary amount of training data compared to a baseline neural network.
翻訳日:2023-08-07 16:23:14 公開日:2023-08-04
# 反復猫コードアーキテクチャの性能解析:126133猫量子9時間における256ビット楕円曲線対数計算

Performance Analysis of a Repetition Cat Code Architecture: Computing 256-bit Elliptic Curve Logarithm in 9 Hours with 126133 Cat Qubits ( http://arxiv.org/abs/2302.06639v2 )

ライセンス: Link先を確認
\'Elie Gouzien, Diego Ruiz, Francois-Marie Le R\'egent, J\'er\'emie Guillaud, Nicolas Sangouard(参考訳) cat qubitsは量子コンピューティングに魅力的なビルディングブロックを提供する。 彼らは、平均光子数でビットフリップを指数的に抑制する可変ノイズバイアスを示し、残相誤差に対する保護を簡単な繰り返し符号で保証することができる。 ここでは反復コードのコストを定量化し,shorのアルゴリズムを用いた楕円曲線上の離散対数計算に基づく性能解析を実現することにより,cat qubitsを用いた大規模アーキテクチャの選択のための有用なガイダンスを提供する。 近接接続を持つ猫キュービットの2次元グリッドに着目し,格子手術による2量子ビットゲートと,投影計測とその後のゲートテレポーテーションにより,オフラインでフォールトトレラントなマジック状態の調整を行う toffoli ゲートの実装を提案する。 論理キュービット間のすべての接続は、ルーティングキュービットによって保証される。 単光子損失と2光子損失の比を1e-5と500nsと仮定すると、そのようなアーキテクチャは126133個の猫量子ビットと平均19個の光子で9時間で256ビット楕円曲線対数を計算することができる。 shorのアルゴリズムの実現の詳細を述べることで,提案する性能解析を再利用して,他のプラットフォームにおけるアーキテクチャの選択を導くことができる。

Cat qubits provide appealing building blocks for quantum computing. They exhibit a tunable noise bias yielding an exponential suppression of bit flips with the average photon number and a protection against the remaining phase errors can be ensured by a simple repetition code. We here quantify the cost of a repetition code and provide valuable guidance for the choice of a large scale architecture using cat qubits by realizing a performance analysis based on the computation of discrete logarithms on an elliptic curve with Shor's algorithm. By focusing on a 2D grid of cat qubits with neighboring connectivity, we propose to implement 2-qubit gates via lattice surgery and Toffoli gates with off-line fault-tolerant preparation of magic states through projective measurements and subsequent gate teleportations. All-to-all connectivity between logical qubits is ensured by routing qubits. Assuming a ratio between single- and two-photon losses of 1e-5 and a cycle time of 500 ns, we show concretely that such an architecture can compute a 256-bit elliptic curve logarithm in 9 h with 126133 cat qubits and on average 19 photons by cat state. We give the details of the realization of Shor's algorithm so that the proposed performance analysis can be easily reused to guide the choice of architecture for others platforms.
翻訳日:2023-08-07 16:22:59 公開日:2023-08-04
# DiSProD: 計画のための分布の微分可能なシンボル伝搬

DiSProD: Differentiable Symbolic Propagation of Distributions for Planning ( http://arxiv.org/abs/2302.01491v4 )

ライセンス: Link先を確認
Palash Chatterjee, Ashutosh Chapagain, Weizhe Chen and Roni Khardon(参考訳) 本稿では、連続状態と行動空間における確率的遷移を持つ環境向けに開発されたオンラインプランナーであるDiSProDを紹介する。 DiSProDは、独立性の仮定と分布の近似伝播を用いて、与えられたポリシーで条件付けられた将来の軌跡の分布をキャプチャするシンボリックグラフを構築する。 シンボリックグラフはポリシーの値の微分可能表現を提供し、ロングホリゾン探索の効率的な勾配に基づく最適化を可能にする。 近似分布の伝播は多くの軌道の集合と見なすことができ、スパース報酬や確率的環境を扱うのに適している。 ロボットシステムの離散時間計画とリアルタイム制御において,disprodと最先端プランナーの比較実験を行った。 提案手法は, 確率的環境, 探索深度に対する感度, 報酬の分散, 大規模行動空間の処理において, 既存のプランナーを改良する。 さらに実際の実験では、DiSProDが地上の車両や表面の船をコントロールして障害物を回避できることが示されている。

The paper introduces DiSProD, an online planner developed for environments with probabilistic transitions in continuous state and action spaces. DiSProD builds a symbolic graph that captures the distribution of future trajectories, conditioned on a given policy, using independence assumptions and approximate propagation of distributions. The symbolic graph provides a differentiable representation of the policy's value, enabling efficient gradient-based optimization for long-horizon search. The propagation of approximate distributions can be seen as an aggregation of many trajectories, making it well-suited for dealing with sparse rewards and stochastic environments. An extensive experimental evaluation compares DiSProD to state-of-the-art planners in discrete-time planning and real-time control of robotic systems. The proposed method improves over existing planners in handling stochastic environments, sensitivity to search depth, sparsity of rewards, and large action spaces. Additional real-world experiments demonstrate that DiSProD can control ground vehicles and surface vessels to successfully navigate around obstacles.
翻訳日:2023-08-07 16:22:35 公開日:2023-08-04
# 典型的な量子エンタングルメントの対称性分類

Symmetry classification of typical quantum entanglement ( http://arxiv.org/abs/2301.07778v3 )

ライセンス: Link先を確認
Yuhan Liu, Jonah Kudler-Flam, Kohei Kawabata(参考訳) 典型的な量子状態の絡み合いエントロピー、またはページ曲線は、量子多体系や量子重力において重要な役割を果たす。 しかし、量子エンタングルメントにおける対称性の役割についてはほとんど理解されていない。 ここでは、時間反転、電荷共役、カイラル変換の10倍の基本対称性クラスに基づいて、自由フェルミオンの典型的な量子エンタングルメントの包括的分類、あるいは同値な対称性を持つ二次sachdev-ye-kitaevモデルを確立する。 ランダム行列理論の解析的および数値計算により、平均エンタングルメントエントロピーに対する体積法則の寄与はロバストであり、対称性の影響を受けていないことを示す。 逆に、絡み合いのエントロピーの平均と分散の定数項が、各対称性クラスに固有の10倍の普遍値をもたらすことを明らかにする。 これらの定数項は、時間反転対称性による絡み合いスペクトルの大域的スケーリングと、キラルあるいは粒子ホール対称性による絡み合いスペクトルの中心における特異ピークの組み合わせに由来する。 我々の研究は、量子物理学における対称性と絡み合いの相互作用を解明し、対称性に富む量子カオスの特徴付けを提供する。

Entanglement entropy of typical quantum states, also known as the Page curve, plays an important role in quantum many-body systems and quantum gravity. However, little has hitherto been understood about the role of symmetry in quantum entanglement. Here, we establish the comprehensive classification of typical quantum entanglement for free fermions, or equivalently the quadratic Sachdev-Ye-Kitaev model with symmetry, on the basis of the tenfold fundamental symmetry classes of time reversal, charge conjugation, and chiral transformation. Through both analytical and numerical calculations of random matrix theory, we show that the volume-law contribution to average entanglement entropy is robust and remains unaffected by symmetry. Conversely, we uncover that the constant terms of the average and variance of entanglement entropy yield tenfold universal values unique to each symmetry class. These constant terms originate from the combination of a global scaling of the entanglement spectrum due to time-reversal symmetry and a singular peak at the center of the entanglement spectrum due to chiral or particle-hole symmetry. Our work elucidates the interplay of symmetry and entanglement in quantum physics and provides characterization of symmetry-enriched quantum chaos.
翻訳日:2023-08-07 16:21:49 公開日:2023-08-04
# 有限温度シミュレーションのための適応変分量子最小絡み合い典型的な熱状態

Adaptive variational quantum minimally entangled typical thermal states for finite temperature simulations ( http://arxiv.org/abs/2301.02592v3 )

ライセンス: Link先を確認
Jo\~ao C. Getelina, Niladri Gomes, Thomas Iadecola, Peter P. Orth, Yong-Xin Yao(参考訳) 熱平衡における量子多体系のシミュレーションのためのスケーラブルな量子アルゴリズムは、有限温度における量子物質の特性を予測するのに重要である。 ここでは,最小絡み合った典型的な熱状態(metts)アルゴリズムの量子コンピューティング版について記述し,ベンチマークを行った。 AVQMETTSと呼ばれるアルゴリズムは、ノイズの多い中間スケール量子(NISQ)ハードウェアに適した、コンパクトで問題固有の量子回路を動的に生成する。 我々は、状態ベクトルシミュレータ上でAVQMETTSをベンチマークし、1次元と2次元の積分可能および非可積分量子スピンモデルの熱エネルギー計算を行い、回路複雑性の概して線形なスケールを示す。 さらに,二次元横磁場イジングモデルの有限温度相転移線をマッピングする。 最後に,AVQMETTS計算におけるノイズの影響を現象ノイズモデルを用いて検討する。

Scalable quantum algorithms for the simulation of quantum many-body systems in thermal equilibrium are important for predicting properties of quantum matter at finite temperatures. Here we describe and benchmark a quantum computing version of the minimally entangled typical thermal states (METTS) algorithm for which we adopt an adaptive variational approach to perform the required quantum imaginary time evolution. The algorithm, which we name AVQMETTS, dynamically generates compact and problem-specific quantum circuits, which are suitable for noisy intermediate-scale quantum (NISQ) hardware. We benchmark AVQMETTS on statevector simulators and perform thermal energy calculations of integrable and nonintegrable quantum spin models in one and two dimensions and demonstrate an approximately linear system-size scaling of the circuit complexity. We further map out the finite-temperature phase transition line of the two-dimensional transverse field Ising model. Finally, we study the impact of noise on AVQMETTS calculations using a phenomenological noise model.
翻訳日:2023-08-07 16:21:28 公開日:2023-08-04
# 補助量子ビットによるハミルトンアンサンブルによる絡み合いの突然死

Sudden death of entanglement with Hamiltonian ensemble assisted by auxiliary qubits ( http://arxiv.org/abs/2301.00413v2 )

ライセンス: Link先を確認
Congwei Lu, Wanting He, Jun Wang, Haibo Wang and Qing Ai(参考訳) 本稿では,補助キュービットと結合することにより,単一のキュービットの縦緩和をシミュレートする手法を提案する。 有限温度緩和を模倣するために、ハミルトニアン・アンサンブルアプローチ(Kropf, Gneiting, and Buchleitner, Phys. X 6, 031023 (2016))を使い、各実現において補助量子ビットはランダムなレベル間隔を持つ。 連続的な緩和は、アンサンブル平均と作業キュービットと補助キュービットとの相互作用の結果生じる。 さらに, この手法を用いて, 2つの量子ビットのエンタングルメントダイナミクスに及ぼす縦緩和と横緩和の影響について検討した。 経時的緩和が存在する限り,絡み合いの突然の死亡は起こることが判明した。 横緩和は長手緩和を補助し、有限時間解離を加速させる。

In this paper, we theoretically propose a method to simulate the longitudinal relaxation of a single qubit by coupling it to an auxiliary qubit. In order to mimic the finite-temperature relaxation, we utilize the Hamiltonian-ensemble approach [Kropf, Gneiting, and Buchleitner, Phys. Rev. X 6, 031023 (2016)] and in each realization the auxiliary qubit possesses a random level spacing. The longitudinal relaxation arises as a consequence of the ensemble average and the interaction between the working qubit and the auxiliary qubit. Furthermore, we apply this approach to investigate the influence of the longitudinal relaxation and the transverse relaxation on the entanglement dynamics of two qubits. It is discovered that the sudden death of the entanglement will occur as long as the longitudinal relaxation is present. The transverse relaxation assists the longitudinal relaxation and thus accelerates the finite-time disentanglement.
翻訳日:2023-08-07 16:21:11 公開日:2023-08-04
# GraphCast: 熟練した中距離のグローバル天気予報を学習する

GraphCast: Learning skillful medium-range global weather forecasting ( http://arxiv.org/abs/2212.12794v2 )

ライセンス: Link先を確認
Remi Lam, Alvaro Sanchez-Gonzalez, Matthew Willson, Peter Wirnsberger, Meire Fortunato, Ferran Alet, Suman Ravuri, Timo Ewalds, Zach Eaton-Rosen, Weihua Hu, Alexander Merose, Stephan Hoyer, George Holland, Oriol Vinyals, Jacklynn Stott, Alexander Pritzel, Shakir Mohamed, Peter Battaglia(参考訳) 世界的な中距離気象予報は、多くの社会・経済分野の意思決定に不可欠である。 従来の数値天気予報では、計算資源を増やして予測精度を向上させるが、過去の気象データを直接利用して基礎モデルを改善することはできない。 我々は、再分析データから直接トレーニングできる「GraphCast」と呼ばれる機械学習ベースの手法を導入する。 全世界で10日以上、0.25度で、数百の気象変動を1分以内で予測する。 GraphCastは1380の検証対象の90%において,最も正確な運用決定システムよりも優れており,その予測は熱帯低気圧,大気河川,極端な気温など,より厳しいイベント予測を支援する。 graphcastは、正確で効率的な気象予報の鍵となる進歩であり、複雑な動的システムのモデリングにおける機械学習の期待を実現するのに役立つ。

Global medium-range weather forecasting is critical to decision-making across many social and economic domains. Traditional numerical weather prediction uses increased compute resources to improve forecast accuracy, but cannot directly use historical weather data to improve the underlying model. We introduce a machine learning-based method called "GraphCast", which can be trained directly from reanalysis data. It predicts hundreds of weather variables, over 10 days at 0.25 degree resolution globally, in under one minute. We show that GraphCast significantly outperforms the most accurate operational deterministic systems on 90% of 1380 verification targets, and its forecasts support better severe event prediction, including tropical cyclones, atmospheric rivers, and extreme temperatures. GraphCast is a key advance in accurate and efficient weather forecasting, and helps realize the promise of machine learning for modeling complex dynamical systems.
翻訳日:2023-08-07 16:20:53 公開日:2023-08-04
# グラフニューラルネットワークは本質的に優れた一般化器である:GNNとMPPのブリッジによる洞察

Graph Neural Networks are Inherently Good Generalizers: Insights by Bridging GNNs and MLPs ( http://arxiv.org/abs/2212.09034v4 )

ライセンス: Link先を確認
Chenxiao Yang, Qitian Wu, Jiahua Wang, Junchi Yan(参考訳) グラフ上の表現学習のためのデファクトモデルクラスとして、グラフニューラルネットワーク(gnns)は、多層パーセプトロン(mlp)アーキテクチャ上に構築されており、ノードを横断する機能を可能にする追加のメッセージパッシング層を備えている。 従来の知恵はGNNの成功をその高度な表現性によるものとするのが一般的であるが、ノードレベルの予測タスクにおけるGNNの優位性の主な原因ではないと推測する。 本稿では,P(ropagational)MLPと呼ばれる中間モデルクラスを導入することにより,GNNの性能向上を本質的な一般化能力に向ける。 興味深いことに、PMLPはトレーニングにおいてはるかに効率的でありながら、GNNと同等(あるいはそれ以上)に動作している。 この発見は、GNNの学習行動を理解するための新しい洞察を隠蔽し、様々なGNN関連の研究問題を分離するための分析ツールとして使用できる。 GNNの固有一般化性を分析するための最初のステップとして、無限幅極限におけるMLPとPMLPの主な違いは、訓練後のNTK特徴写像にあることを示す。 さらに,その外挿挙動を調べた結果,多くのGNNとそのPMLPは,極端に分布しないサンプルに対して非線形関数を外挿することはできないが,GNNアーキテクチャの自然な利点として,トレーニングデータ域近傍のサンプルに一般化する可能性が示唆された。

Graph neural networks (GNNs), as the de-facto model class for representation learning on graphs, are built upon the multi-layer perceptrons (MLP) architecture with additional message passing layers to allow features to flow across nodes. While conventional wisdom commonly attributes the success of GNNs to their advanced expressivity, we conjecture that this is not the main cause of GNNs' superiority in node-level prediction tasks. This paper pinpoints the major source of GNNs' performance gain to their intrinsic generalization capability, by introducing an intermediate model class dubbed as P(ropagational)MLP, which is identical to standard MLP in training, but then adopts GNN's architecture in testing. Intriguingly, we observe that PMLPs consistently perform on par with (or even exceed) their GNN counterparts, while being much more efficient in training. This finding sheds new insights into understanding the learning behavior of GNNs, and can be used as an analytic tool for dissecting various GNN-related research problems. As an initial step to analyze the inherent generalizability of GNNs, we show the essential difference between MLP and PMLP at infinite-width limit lies in the NTK feature map in the post-training stage. Moreover, by examining their extrapolation behavior, we find that though many GNNs and their PMLP counterparts cannot extrapolate non-linear functions for extremely out-of-distribution samples, they have greater potential to generalize to testing samples near the training data range as natural advantages of GNN architectures.
翻訳日:2023-08-07 16:20:18 公開日:2023-08-04
# オンデマンド配車サービス運用のための多機能シミュレーションプラットフォーム

A multi-functional simulation platform for on-demand ride service operations ( http://arxiv.org/abs/2303.12336v2 )

ライセンス: Link先を確認
Siyuan Feng, Taijie Chen, Yuhao Zhang, Jintao Ke, Zhengfei Zheng and Hai Yang(参考訳) オンデマンドの配車サービスや配車サービスはこの10年間で急速に発展してきた。 様々な数学的モデルと最適化アルゴリズムが開発され、より効率的な運用戦略の設計を支援する。 しかし、コストと信頼性の問題(実運用のための未熟なアルゴリズムの実装はシステムの乱れを引き起こす可能性がある)のため、これらのモデルを検証し、実際のライドソーシングプラットフォームでこれらの最適化アルゴリズムを訓練・テストすることは一般的に不可能である。 有意義なテストベッドとして機能し、トレイルやエラーを通じてアルゴリズムのトレーニング/テストやモデルの検証を行う上で、ライドソーシングシステムのシミュレーションプラットフォームが非常に重要です。 以前の研究では、それぞれのタスクのための様々なシミュレータが確立されていたが、異なる研究者によって提案されたモデルやアルゴリズムを比較するための公正でパブリックなプラットフォームが欠如している。 さらに、既存のシミュレーターは、その近さから実際の配車システムの環境、実装可能なさまざまなタスクの完全性まで、多くの課題に直面している。 そこで本研究では,実交通ネットワーク上での各種エージェントの行動や動きをシミュレートする多機能・オープンソースの配車システムのためのシミュレーションプラットフォームを提案する。 オンデマンドマッチング、アイドル車の再配置、動的価格設定など、さまざまなタスクに対して、さまざまな最適化アルゴリズム、特に強化学習アルゴリズムをトレーニングし、テストするためのいくつかのアクセス可能なポータルを提供する。 さらに、理論モデルがシミュレーションの結果をいかによく近似しているかをテストするのに使うことができる。 本シミュレータは実世界のデータベース実験で評価され,オンデマンド配車業務に関わる各種タスクに対して効率的かつ効果的なテストベッドであることが実証された。

On-demand ride services or ride-sourcing services have been experiencing fast development in the past decade. Various mathematical models and optimization algorithms have been developed to help ride-sourcing platforms design operational strategies with higher efficiency. However, due to cost and reliability issues (implementing an immature algorithm for real operations may result in system turbulence), it is commonly infeasible to validate these models and train/test these optimization algorithms within real-world ride sourcing platforms. Acting as a useful test bed, a simulation platform for ride-sourcing systems will be very important to conduct algorithm training/testing or model validation through trails and errors. While previous studies have established a variety of simulators for their own tasks, it lacks a fair and public platform for comparing the models or algorithms proposed by different researchers. In addition, the existing simulators still face many challenges, ranging from their closeness to real environments of ride-sourcing systems, to the completeness of different tasks they can implement. To address the challenges, we propose a novel multi-functional and open-sourced simulation platform for ride-sourcing systems, which can simulate the behaviors and movements of various agents on a real transportation network. It provides a few accessible portals for users to train and test various optimization algorithms, especially reinforcement learning algorithms, for a variety of tasks, including on-demand matching, idle vehicle repositioning, and dynamic pricing. In addition, it can be used to test how well the theoretical models approximate the simulated outcomes. Evaluated on real-world data based experiments, the simulator is demonstrated to be an efficient and effective test bed for various tasks related to on-demand ride service operations.
翻訳日:2023-08-07 16:12:13 公開日:2023-08-04
# SVCNet: テンポラルアグリゲーションによるスクリブル映像のカラー化ネットワーク

SVCNet: Scribble-based Video Colorization Network with Temporal Aggregation ( http://arxiv.org/abs/2303.11591v2 )

ライセンス: Link先を確認
Yuzhi Zhao, Lai-Man Po, Kangcheng Liu, Xuehui Wang, Wing-Yin Yu, Pengfei Xian, Yujia Zhang, Mengyang Liu(参考訳) 本稿では,SVCNetと呼ばれる時間的アグリゲーションを有するスクリブル方式のビデオカラー化ネットワークを提案する。 ユーザー登録の異なるカラークリブルに基づいてモノクロの動画を彩色することができる。 カラー化の鮮明さ、時間的一貫性、色出血という、スクリブルベースのビデオカラー化領域における3つの一般的な問題に対処する。 カラー化品質の向上と時間的一貫性の強化を目的として,svcnet のシーケンシャルサブネットワークを2つ導入し,正確なカラー化と時間的平滑化を行った。 第1ステージは、カラースクリブルをグレースケールフレームに組み込むピラミッド特徴エンコーダと、セマンティックを抽出するセマンティック特徴エンコーダとを含む。 第2ステージは、隣接する色付けフレーム(短距離接続として)と第1色付けフレーム(長距離接続として)の情報を集約することにより、第1ステージからの出力を微調整する。 色出血アーティファクトを緩和するために,ビデオカラー化とセグメンテーションを同時に学習する。 さらに、固定された小さな画像解像度に操作の大部分を設定し、SVCNetの尾部にある超解像モジュールを用いて元のサイズを復元する。 これにより、SVCNetは異なる画像解像度を推論に適合させることができる。 最後に,提案したSVCNetをDAVISおよびVidevoベンチマーク上で評価する。 実験により、SVCNetは、他のよく知られたビデオカラー化手法よりも高品質で時間的に一貫したビデオを生成することが示された。 コードとモデルはhttps://github.com/zhaoyuzhi/SVCNetで見ることができる。

In this paper, we propose a scribble-based video colorization network with temporal aggregation called SVCNet. It can colorize monochrome videos based on different user-given color scribbles. It addresses three common issues in the scribble-based video colorization area: colorization vividness, temporal consistency, and color bleeding. To improve the colorization quality and strengthen the temporal consistency, we adopt two sequential sub-networks in SVCNet for precise colorization and temporal smoothing, respectively. The first stage includes a pyramid feature encoder to incorporate color scribbles with a grayscale frame, and a semantic feature encoder to extract semantics. The second stage finetunes the output from the first stage by aggregating the information of neighboring colorized frames (as short-range connections) and the first colorized frame (as a long-range connection). To alleviate the color bleeding artifacts, we learn video colorization and segmentation simultaneously. Furthermore, we set the majority of operations on a fixed small image resolution and use a Super-resolution Module at the tail of SVCNet to recover original sizes. It allows the SVCNet to fit different image resolutions at the inference. Finally, we evaluate the proposed SVCNet on DAVIS and Videvo benchmarks. The experimental results demonstrate that SVCNet produces both higher-quality and more temporally consistent videos than other well-known video colorization approaches. The codes and models can be found at https://github.com/zhaoyuzhi/SVCNet.
翻訳日:2023-08-07 16:11:41 公開日:2023-08-04
# ChatGPTは従来のKBQAモデルを置き換えることができるか? gptファミリーllmsの質問応答性能に関する詳細な分析

Can ChatGPT Replace Traditional KBQA Models? An In-depth Analysis of GPT family LLMs' Question Answering Performance ( http://arxiv.org/abs/2303.07992v2 )

ライセンス: Link先を確認
Yiming Tan, Dehai Min, Yu Li, Wenbo Li, Nan Hu, Yongrui Chen, Guilin Qi(参考訳) ChatGPTは、ウィキペディアのような知識資源をカバーする強力な大規模言語モデル(LLM)であり、独自の知識を使用して自然言語質問応答をサポートする。 したがって、ChatGPTが従来の知識に基づく質問応答(KBQA)モデルを置き換えることができるかどうかを探求する関心が高まっている。 ChatGPTの性能を解析する研究はいくつかあるが、モデルの限界を分析するための様々な種類の複雑な質問の大規模かつ包括的なテストはいまだに存在しない。 本稿では,ribeiroらによって提案されたチェックリストのブラックボックステスト仕様に従うフレームワークを提案する。 アル 6つの英語データセットと2つの多言語データセットを含む8つの実世界のKBベースの複合質問応答データセット上でChatGPTとそのLLM群を評価する。 テストケースの総数は約190,000である。 LLMのGPTファミリーに加えて、よく知られたFLAN-T5も評価し、GPTファミリーと他のLPMの共通点を同定した。 データセットとコードはhttps://github.com/tan92hl/complex-question-answering-evaluation-of-gpt-family.gitで入手できる。

ChatGPT is a powerful large language model (LLM) that covers knowledge resources such as Wikipedia and supports natural language question answering using its own knowledge. Therefore, there is growing interest in exploring whether ChatGPT can replace traditional knowledge-based question answering (KBQA) models. Although there have been some works analyzing the question answering performance of ChatGPT, there is still a lack of large-scale, comprehensive testing of various types of complex questions to analyze the limitations of the model. In this paper, we present a framework that follows the black-box testing specifications of CheckList proposed by Ribeiro et. al. We evaluate ChatGPT and its family of LLMs on eight real-world KB-based complex question answering datasets, which include six English datasets and two multilingual datasets. The total number of test cases is approximately 190,000. In addition to the GPT family of LLMs, we also evaluate the well-known FLAN-T5 to identify commonalities between the GPT family and other LLMs. The dataset and code are available at https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-GPT-family.git
翻訳日:2023-08-07 16:11:17 公開日:2023-08-04
# 有意義なヒューマンコマンド:自律兵器システムの道徳的・法的責任を可能にする方法としての事前制御指令

Meaningful human command: Advance control directives as a method to enable moral and legal responsibility for autonomous weapons systems ( http://arxiv.org/abs/2303.06813v3 )

ライセンス: Link先を確認
Susannah Kate Devitt(参考訳) 21世紀の戦争はスピードが増しており、従来の力は自律システムと人間と機械の統合の大量利用と組み合わせられている。 しかし、重要な課題は、人間が通常の時間的パラメータの外で動作するシステムに対して、道徳的および法的責任を確実にする方法である。 本章では,人間の意識や集中力を十分に把握できないような,非常に遅い作業において,特にリアルタイムよりも早く,将来の状況において起こる行動について,契約の事前の確立により,人間がリアルタイムの外に立ち,自律システムに対する行動の権限を付与できるかどうかを考察する。 advance control driective(advance control driective、advances control driective、acd)では、武器システムの説明責任と責任に要する時間を消費し、熟慮するプロセスが、リアルタイムに捉えられる可能性があることを「advance control driective(advance control driective)」に示す。 この章では、自律システムの展開に先立って、ACDの構築を通じて足場を組み、合法化された「自律コマンド」を提案している。

21st Century war is increasing in speed, with conventional forces combined with massed use of autonomous systems and human-machine integration. However, a significant challenge is how humans can ensure moral and legal responsibility for systems operating outside of normal temporal parameters. This chapter considers whether humans can stand outside of real time and authorise actions for autonomous systems by the prior establishment of a contract, for actions to occur in a future context particularly in faster than real time or in very slow operations where human consciousness and concentration could not remain well informed. The medical legal precdent found in 'advance care directives' suggests how the time-consuming, deliberative process required for accountability and responsibility of weapons systems may be achievable outside real time captured in an 'advance control driective' (ACD). The chapter proposes 'autonomy command' scaffolded and legitimised through the construction of ACD ahead of the deployment of autonomous systems.
翻訳日:2023-08-07 16:10:55 公開日:2023-08-04
# 非線形系におけるリーヤン零点と量子フィッシャー情報行列

Lee-Yang zeros and quantum Fisher information matrix in a nonlinear system ( http://arxiv.org/abs/2303.03601v2 )

ライセンス: Link先を確認
Hong Tao and Yuguo Su and Xingyu Zhang and Jing Liu and Xiaoguang Wang(参考訳) リー・ヤンゼロの分布は熱力学や量子力学だけでなく、数学においても重要である。 ここでは非線形量子玩具モデルを提案し、対応する李陽零点の分布について議論する。 プローブ量子ビットと非線形システムの結合を利用して、非線形系の結合強度と線形係数をチューニングすることにより、プローブ量子ビットのダイナミクスにおいて全てのリーヤン零点を検出することができる。 また,Lee-Yangゼロ点における量子フィッシャー情報行列の解析式を提供し,興味深い現象が発見された。 結合強度と温度は、Lee-Yangゼロでの精度限界を同時に達成することができる。 しかし、プローブキュービットは、単位円上に座るとリー=ヤン零点の温度計として機能することができない。

The distribution of Lee-Yang zeros not only matters in thermodynamics and quantum mechanics, but also in mathematics. Hereby we propose a nonlinear quantum toy model and discuss the distribution of corresponding Lee-Yang zeros. Utilizing the coupling between a probe qubit and the nonlinear system, all Lee-Yang zeros can be detected in the dynamics of the probe qubit by tuning the coupling strength and linear coefficient of the nonlinear system. Moreover, the analytical expression of the quantum Fisher information matrix at the Lee-Yang zeros is provided, and an interesting phenomenon is discovered. Both the coupling strength and temperature can simultaneously attain their precision limits at the Lee-Yang zeros. However, the probe qubit cannot work as a thermometer at a Lee-Yang zero if it sits on the unit circle.
翻訳日:2023-08-07 16:10:35 公開日:2023-08-04
# 逆整形によるエピソードRLの多重抽象化

Exploiting Multiple Abstractions in Episodic RL via Reward Shaping ( http://arxiv.org/abs/2303.00516v2 )

ライセンス: Link先を確認
Roberto Cipollone, Giuseppe De Giacomo, Marco Favorito, Luca Iocchi, Fabio Patrizi(参考訳) 多くの実践領域への強化学習(rl)の適用性に対する大きな制限の1つは、最適なポリシーを学ぶのに必要な大量のサンプルである。 この問題に対処し、学習効率を向上させるために、ターゲット領域の根底にあるマルコフ決定プロセス(MDP)の抽象層の線形階層を考える。 各層は階層内の直下の層の粗いモデルを表すMDPである。 そこで本研究では,より具体的なmdpに対して,抽象的な解がより複雑な領域で学習を導くように,抽象レベルで得られる解を用いて報奨を与える,新しい報奨形法を提案する。 階層型rlの他の作品とは対照的に,本手法は抽象モデルの設計における要件がほとんどなく,また,誤差のモデル化にも耐性があるため,提案手法が実用的である。 抽象モデルと低レベル領域で引き起こされる探索ヒューリスティックとの関係を形式的に解析する。 さらに,本手法が最適収束を保証し,その効果を実験的に実証する。

One major limitation to the applicability of Reinforcement Learning (RL) to many practical domains is the large number of samples required to learn an optimal policy. To address this problem and improve learning efficiency, we consider a linear hierarchy of abstraction layers of the Markov Decision Process (MDP) underlying the target domain. Each layer is an MDP representing a coarser model of the one immediately below in the hierarchy. In this work, we propose a novel form of Reward Shaping where the solution obtained at the abstract level is used to offer rewards to the more concrete MDP, in such a way that the abstract solution guides the learning in the more complex domain. In contrast with other works in Hierarchical RL, our technique has few requirements in the design of the abstract models and it is also tolerant to modeling errors, thus making the proposed approach practical. We formally analyze the relationship between the abstract models and the exploration heuristic induced in the lower-level domain. Moreover, we prove that the method guarantees optimal convergence and we demonstrate its effectiveness experimentally.
翻訳日:2023-08-07 16:10:00 公開日:2023-08-04
# 分位回帰森林を用いた説明可能な文脈異常検出

Explainable Contextual Anomaly Detection using Quantile Regression Forests ( http://arxiv.org/abs/2302.11239v3 )

ライセンス: Link先を確認
Zhong Li, Matthijs van Leeuwen(参考訳) 従来の異常検出方法は、全ての特徴を等しく扱うことによって、他のほとんどのオブジェクトから逸脱するオブジェクトを識別することを目的としている。 対照的に、コンテキスト異常検出手法は、特徴を文脈的特徴と行動的特徴に分割することで、類似したオブジェクトのコンテキスト内で他のオブジェクトから逸脱するオブジェクトを検出することを目的としている。 本稿では,依存性に基づく従来の異常検出手法とコンテキスト異常検出手法の接続を開発する。 そこで本研究では,特徴間の依存関係をモデル化するためにQuantile Regression Forestsを用いた文脈異常検出手法を提案する。 各種合成および実世界のデータセットに対する広範囲な実験により,我々の手法は,精度と解釈可能性の観点から文脈異常を識別する最先端の異常検出手法よりも優れていることが示された。

Traditional anomaly detection methods aim to identify objects that deviate from most other objects by treating all features equally. In contrast, contextual anomaly detection methods aim to detect objects that deviate from other objects within a context of similar objects by dividing the features into contextual features and behavioral features. In this paper, we develop connections between dependency-based traditional anomaly detection methods and contextual anomaly detection methods. Based on resulting insights, we propose a novel approach to inherently interpretable contextual anomaly detection that uses Quantile Regression Forests to model dependencies between features. Extensive experiments on various synthetic and real-world datasets demonstrate that our method outperforms state-of-the-art anomaly detection methods in identifying contextual anomalies in terms of accuracy and interpretability.
翻訳日:2023-08-07 16:09:44 公開日:2023-08-04
# 大規模マルチエージェント環境における非随伴性神経進化の生態進化ダイナミクス

Eco-evolutionary Dynamics of Non-episodic Neuroevolution in Large Multi-agent Environments ( http://arxiv.org/abs/2302.09334v3 )

ライセンス: Link先を確認
Gautier Hamon and Eleni Nisioti and Cl\'ement Moulin-Frier(参考訳) neuroevolution (ne) は強化学習タスクにおける勾配降下による学習の競争的代替手段であることが最近証明された。 However, the majority of NE methods and associated simulation environments differ crucially from biological evolution: the environment is reset to initial conditions at the end of each generation, whereas natural environments are continuously modified by their inhabitants; agents reproduce based on their ability to maximize rewards within a population, while biological organisms reproduce and die based on internal physiological variables that depend on their resource consumption; simulation environments are primarily single-agent while the biological world is inherently multi-agent and evolves alongside the population. 本研究では,環境や人口のリセットを伴わない適応剤を継続的に進化させる手法を提案する。 環境は複雑な時空間資源の生成を伴う大きなグリッドの世界であり、進化可能なリカレントニューラルネットワークによって制御され、その内部生理に基づいて局所的に再生される多くのエージェントを含んでいる。 システム全体がjaxで実装されており、gpu上で非常に高速にシミュレーションできる。 NEは、生態学的に有意な非エポゾディックなマルチエージェント環境で動作できることを示し、生態学と進化学の複雑な相互作用の存在下で持続的な集団捕食戦略を見出した。

Neuroevolution (NE) has recently proven a competitive alternative to learning by gradient descent in reinforcement learning tasks. However, the majority of NE methods and associated simulation environments differ crucially from biological evolution: the environment is reset to initial conditions at the end of each generation, whereas natural environments are continuously modified by their inhabitants; agents reproduce based on their ability to maximize rewards within a population, while biological organisms reproduce and die based on internal physiological variables that depend on their resource consumption; simulation environments are primarily single-agent while the biological world is inherently multi-agent and evolves alongside the population. In this work we present a method for continuously evolving adaptive agents without any environment or population reset. The environment is a large grid world with complex spatiotemporal resource generation, containing many agents that are each controlled by an evolvable recurrent neural network and locally reproduce based on their internal physiology. The entire system is implemented in JAX, allowing very fast simulation on a GPU. We show that NE can operate in an ecologically-valid non-episodic multi-agent setting, finding sustainable collective foraging strategies in the presence of a complex interplay between ecological and evolutionary dynamics.
翻訳日:2023-08-07 16:09:10 公開日:2023-08-04
# Multi-view Vision-Prompt Fusion Network: 2次元事前学習モデルによる3Dポイントクラウドデータ共有学習の促進

Multi-view Vision-Prompt Fusion Network: Can 2D Pre-trained Model Boost 3D Point Cloud Data-scarce Learning? ( http://arxiv.org/abs/2304.10224v2 )

ライセンス: Link先を確認
Haoyang Peng, Baopu Li, Bo Zhang, Xin Chen, Tao Chen, Hongyuan Zhu(参考訳) ポイントクラウドベースの3d深層モデルは、自動運転やハウスロボットなど、多くのアプリケーションで広く応用されている。 自然言語処理における最近の急進的な学習に触発されて、この研究は、少数の3Dポイントクラウド分類のための新しいMulti-view Vision-Prompt Fusion Network (MvNet)を提案する。 MvNetは、既存のベースラインモデルの大規模なアノテーション付き3Dポイントクラウドデータへの過度な依存を軽減できる、数発の分類を実現するために、市販の2D事前訓練モデルを活用する可能性を調査している。 具体的には、mvnetはまず3dポイントクラウドを様々なビューのマルチビュー画像機能にエンコードする。 そして、3Dポイントクラウドデータと2D事前学習モデルのギャップを埋めるために、異なるビューからの情報を効果的に融合する新しいマルチビュープロンプト融合モジュールを開発した。 次に、2D画像プロンプトのセットを導出し、少数の3Dポイントクラウド分類のための大規模事前学習画像モデルに適した事前知識を記述する。 ModelNet、ScanObjectNN、ShapeNetデータセットに関する大規模な実験は、MvNetが3Dの複数ショットポイントのクラウドイメージ分類のために新しい最先端のパフォーマンスを達成することを実証している。 この作業のソースコードは近く公開される予定だ。

Point cloud based 3D deep model has wide applications in many applications such as autonomous driving, house robot, and so on. Inspired by the recent prompt learning in natural language processing, this work proposes a novel Multi-view Vision-Prompt Fusion Network (MvNet) for few-shot 3D point cloud classification. MvNet investigates the possibility of leveraging the off-the-shelf 2D pre-trained models to achieve the few-shot classification, which can alleviate the over-dependence issue of the existing baseline models towards the large-scale annotated 3D point cloud data. Specifically, MvNet first encodes a 3D point cloud into multi-view image features for a number of different views. Then, a novel multi-view prompt fusion module is developed to effectively fuse information from different views to bridge the gap between 3D point cloud data and 2D pre-trained models. A set of 2D image prompts can then be derived to better describe the suitable prior knowledge for a large-scale pre-trained image model for few-shot 3D point cloud classification. Extensive experiments on ModelNet, ScanObjectNN, and ShapeNet datasets demonstrate that MvNet achieves new state-of-the-art performance for 3D few-shot point cloud image classification. The source code of this work will be available soon.
翻訳日:2023-08-07 16:03:54 公開日:2023-08-04
# 再送防止のための退院後介入の割り当てに対する不均質な生存者バイアス補正治療効果

Interpretable (not just posthoc-explainable) heterogeneous survivor bias-corrected treatment effects for assignment of postdischarge interventions to prevent readmissions ( http://arxiv.org/abs/2304.09981v2 )

ライセンス: Link先を確認
Hongjing Xia, Joshua C. Chang, Sarah Nowak, Sonya Mahajan, Rohit Mahajan, Ted L. Chang, Carson C. Chow(参考訳) 退院後評価・管理(E/M)サービスによる退院・死亡予防効果の定量化に生存分析を用いた。 我々のアプローチは、この問題に機械学習を適用するという特定の落とし穴を避けます。これは、生存者のバイアスによる介入の効果を膨らませた見積もりです。 このバイアスは、退院後に介入を受けるために、インターベンション期間中に人が再送されるべきではないため、単に生じる。 このファントム効果の表現を導出した後、本質的に解釈可能なベイズ生存枠組み内のバイアスやその他のバイアスを制御した。 ケースマネジメントサービスは、全体のリードミッションを減らす上で最も影響力のあるものだと認識しました。

We used survival analysis to quantify the impact of postdischarge evaluation and management (E/M) services in preventing hospital readmission or death. Our approach avoids a specific pitfall of applying machine learning to this problem, which is an inflated estimate of the effect of interventions, due to survivors bias -- where the magnitude of inflation may be conditional on heterogeneous confounders in the population. This bias arises simply because in order to receive an intervention after discharge, a person must not have been readmitted in the intervening period. After deriving an expression for this phantom effect, we controlled for this and other biases within an inherently interpretable Bayesian survival framework. We identified case management services as being the most impactful for reducing readmissions overall.
翻訳日:2023-08-07 16:03:33 公開日:2023-08-04
# cmid:リモートセンシング画像理解のための統合自己教師付き学習フレームワーク

CMID: A Unified Self-Supervised Learning Framework for Remote Sensing Image Understanding ( http://arxiv.org/abs/2304.09670v2 )

ライセンス: Link先を確認
Dilxat Muhtar, Xueliang Zhang, Pengfeng Xiao, Zhenshi Li, Feng Gu(参考訳) リモートセンシング(RS)と地球観測(EO)のコミュニティでは,人称ラベルなしでタスク非依存の表現を学習する能力により,SSLが注目されている。 それでも、既存のRS SSLメソッドのほとんどは、グローバルな意味分離可能または局所的な空間認識可能な表現を学ぶことに限定されている。 異なるrsダウンストリームタスクに必要な表現は多種多様で複雑であるため、この学習戦略はrsの領域では最適ではないと主張する。 本研究では,RS画像表現学習に適した統合SSLフレームワークを提案する。 提案するSSLフレームワークであるContrastive Mask Image Distillation (CMID)は,コントラスト学習(CL)とマスク画像モデリング(MIM)を自己蒸留方式で組み合わせることで,大域的意味分離性と局所空間認識性の両方で表現を学習することができる。 さらに、我々のCMID学習フレームワークはアーキテクチャに依存しないため、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の両方と互換性があり、CMIDを様々なディープラーニング(DL)アプリケーションに容易に適用することができる。 4つの下流タスク(シーン分類、セマンティックセグメンテーション、オブジェクト検出、変更検出)に対して総合的な実験を行い、CMIDを用いて事前訓練したモデルが、複数の下流タスクにおける他の最先端SSLメソッドよりも優れた性能を達成することを示した。 コードと事前トレーニングされたモデルはhttps://github.com/nju-lhrs/official-cmidで利用可能で、ssl研究を促進し、rsイメージdlアプリケーションの開発をスピードアップする。

Self-supervised learning (SSL) has gained widespread attention in the remote sensing (RS) and earth observation (EO) communities owing to its ability to learn task-agnostic representations without human-annotated labels. Nevertheless, most existing RS SSL methods are limited to learning either global semantic separable or local spatial perceptible representations. We argue that this learning strategy is suboptimal in the realm of RS, since the required representations for different RS downstream tasks are often varied and complex. In this study, we proposed a unified SSL framework that is better suited for RS images representation learning. The proposed SSL framework, Contrastive Mask Image Distillation (CMID), is capable of learning representations with both global semantic separability and local spatial perceptibility by combining contrastive learning (CL) with masked image modeling (MIM) in a self-distillation way. Furthermore, our CMID learning framework is architecture-agnostic, which is compatible with both convolutional neural networks (CNN) and vision transformers (ViT), allowing CMID to be easily adapted to a variety of deep learning (DL) applications for RS understanding. Comprehensive experiments have been carried out on four downstream tasks (i.e. scene classification, semantic segmentation, object-detection, and change detection) and the results show that models pre-trained using CMID achieve better performance than other state-of-the-art SSL methods on multiple downstream tasks. The code and pre-trained models will be made available at https://github.com/NJU-LHRS/official-CMID to facilitate SSL research and speed up the development of RS images DL applications.
翻訳日:2023-08-07 16:03:19 公開日:2023-08-04
# テストデータでトレーニングするのか? ナンバープレート認識における近接デュプリケートの影響

Do We Train on Test Data? The Impact of Near-Duplicates on License Plate Recognition ( http://arxiv.org/abs/2304.04653v2 )

ライセンス: Link先を確認
Rayson Laroca, Valter Estevam, Alceu S. Britto Jr., Rodrigo Minetto, David Menotti(参考訳) この研究は、ライセンスプレート認識(LPR)研究で広く採用されているデータセットのトレーニングとテストセットにおいて、ほとんど重複している部分に注意を向けている。 これらの複製は、異なるものの同じライセンスプレートを示す画像を指す。 私たちの実験は、この分野で最も人気のある2つのデータセットで行われ、6つのよく知られたモデルがフェアスプリットの下でトレーニングされテストされた場合、認識率が大幅に低下することを示しています。 さらに、データセットの1つでは、モデルのランクが、重複のない分割の下でトレーニングおよびテストされた時に大きく変化した。 これらの重複は,LPRの深層学習モデルの評価と開発に大きく偏っていることが示唆された。 我々が見つけたほぼ重複点のリストと公平な分割の提案は、https://raysonlaroca.github.io/supp/lpr-train-on-test/でさらなる研究のために公開されている。

This work draws attention to the large fraction of near-duplicates in the training and test sets of datasets widely adopted in License Plate Recognition (LPR) research. These duplicates refer to images that, although different, show the same license plate. Our experiments, conducted on the two most popular datasets in the field, show a substantial decrease in recognition rate when six well-known models are trained and tested under fair splits, that is, in the absence of duplicates in the training and test sets. Moreover, in one of the datasets, the ranking of models changed considerably when they were trained and tested under duplicate-free splits. These findings suggest that such duplicates have significantly biased the evaluation and development of deep learning-based models for LPR. The list of near-duplicates we have found and proposals for fair splits are publicly available for further research at https://raysonlaroca.github.io/supp/lpr-train-on-test/
翻訳日:2023-08-07 16:02:36 公開日:2023-08-04
# 相対損失関数を用いた低光画像強調ネットワークの簡易化

Simplifying Low-Light Image Enhancement Networks with Relative Loss Functions ( http://arxiv.org/abs/2304.02978v2 )

ライセンス: Link先を確認
Yu Zhang, Xiaoguang Di, Junde Wu, Rao Fu, Yong Li, Yue Wang, Yanwu Xu, Guohui Yang, Chunhui Wang(参考訳) 画像強調は、高雑音、低輝度、低コントラスト、低照度画像における色偏差などの問題を緩和するために用いられる一般的な技法である。 しかし、低照度画像強調タスクの基準として最適な高照度画像を提供することは不可能であり、他の画像処理タスクよりも学習プロセスが困難になる。 その結果、いくつかの低照度画像強調法が提案されているが、そのほとんどは低照度画像の全ての問題に対処するには複雑すぎるか不十分である。 本稿では,低照度画像強調の学習を容易にするために,FLW-Net(Fast and LightWeight Network)と2つの相対損失関数を導入する。 具体的には、まず、グローバルコントラストを得るための大きな受容場の必要性と絶対参照の欠如について認識し、この課題におけるネットワーク構造の単純化を抑える。 そこで我々は,これらの課題を克服するために,相対情報に基づく効率的なグローバル特徴情報抽出コンポーネントと2つの損失関数を提案する。 最後に,提案手法の有効性を示すために比較実験を行い,提案手法が処理効果を高めつつ,教師付き低光度画像強調ネットワークの複雑さを著しく低減できることを確認した。 コードは \url{https://github.com/hitzhangyu/flw-net} で入手できる。

Image enhancement is a common technique used to mitigate issues such as severe noise, low brightness, low contrast, and color deviation in low-light images. However, providing an optimal high-light image as a reference for low-light image enhancement tasks is impossible, which makes the learning process more difficult than other image processing tasks. As a result, although several low-light image enhancement methods have been proposed, most of them are either too complex or insufficient in addressing all the issues in low-light images. In this paper, to make the learning easier in low-light image enhancement, we introduce FLW-Net (Fast and LightWeight Network) and two relative loss functions. Specifically, we first recognize the challenges of the need for a large receptive field to obtain global contrast and the lack of an absolute reference, which limits the simplification of network structures in this task. Then, we propose an efficient global feature information extraction component and two loss functions based on relative information to overcome these challenges. Finally, we conducted comparative experiments to demonstrate the effectiveness of the proposed method, and the results confirm that the proposed method can significantly reduce the complexity of supervised low-light image enhancement networks while improving processing effect. The code is available at \url{https://github.com/hitzhangyu/FLW-Net}.
翻訳日:2023-08-07 16:02:22 公開日:2023-08-04
# 非自己回帰型ニューラルマシン翻訳のための選択的知識蒸留

Selective Knowledge Distillation for Non-Autoregressive Neural Machine Translation ( http://arxiv.org/abs/2303.17910v2 )

ライセンス: Link先を確認
Min Liu, Yu Bao, Chengqi Zhao, Shujian Huang(参考訳) 非自己回帰変換器(Non-Autoregressive Transformer、NAT)は、シーケンスレベルの知識蒸留から恩恵を受け、ニューラルマシン翻訳タスクにおいて大きな成功を収める。 しかし、既存の知識蒸留は、教師からNAT学生への誤りの伝播などの副作用があり、NATモデルのさらなる改善を制限し、既存の研究ではほとんど議論されない。 本稿では,高品質で学習が容易なNATフレンドリなターゲットを選択するためのNAT評価器を導入することにより,選択的知識蒸留を導入する。 さらに, NAT性能を高めるため, 単純かつ効果的に蒸留法を導入する。 複数のWMT言語方向といくつかの代表的NATモデルに対する実験結果から,NATモデルのトレーニングデータの質と複雑さのトレードオフを柔軟に実現し,高い性能が得られることが示された。 さらに分析すると、生の翻訳の5%しか蒸留できないため、約2.4 bleuで生のデータで訓練されたnatを上回ることができる。

Benefiting from the sequence-level knowledge distillation, the Non-Autoregressive Transformer (NAT) achieves great success in neural machine translation tasks. However, existing knowledge distillation has side effects, such as propagating errors from the teacher to NAT students, which may limit further improvements of NAT models and are rarely discussed in existing research. In this paper, we introduce selective knowledge distillation by introducing an NAT evaluator to select NAT-friendly targets that are of high quality and easy to learn. In addition, we introduce a simple yet effective progressive distillation method to boost NAT performance. Experiment results on multiple WMT language directions and several representative NAT models show that our approach can realize a flexible trade-off between the quality and complexity of training data for NAT models, achieving strong performances. Further analysis shows that distilling only 5% of the raw translations can help an NAT outperform its counterpart trained on raw data by about 2.4 BLEU.
翻訳日:2023-08-07 16:01:58 公開日:2023-08-04
# X-Mesh: 動的テキスト誘導によるテキスト駆動型3Dスティル化の高速化

X-Mesh: Towards Fast and Accurate Text-driven 3D Stylization via Dynamic Textual Guidance ( http://arxiv.org/abs/2303.15764v2 )

ライセンス: Link先を確認
Yiwei Ma, Xiaioqing Zhang, Xiaoshuai Sun, Jiayi Ji, Haowei Wang, Guannan Jiang, Weilin Zhuang, Rongrong Ji(参考訳) テキスト駆動3dスタイライゼーション(英: text-driven 3d styleylization)は、コンピュータビジョン(cv)とコンピュータグラフィックス(cg)の分野において複雑かつ重要なタスクである。 従来の手法ではテキスト非依存の多層パーセプトロン(MLP)を使用して、CLIP損失の監視によってターゲットメッシュの属性を予測する。 しかし、このようなテキストに依存しないアーキテクチャは属性を予測する際にテキストのガイダンスを欠いているため、不十分なスタイライゼーションと緩やかな収束に繋がる。 これらの制約に対処するために,新しいテキスト誘導動的注意モジュール(TDAM)を組み込んだ,革新的なテキスト駆動型3DスタイリングフレームワークであるX-Meshを紹介する。 TDAMは、頂点特徴抽出時のテキスト関連空間的およびチャネル的注意力を利用してターゲットテキストのガイダンスを動的に統合し、より正確な属性予測とより高速な収束速度を実現する。 さらに、既存の作品には標準ベンチマークや評価のための自動測定基準が欠如しており、定型化された3dアセットの品質を評価するために、主観的および非再現的なユーザー研究に頼っていることが多い。 この制限を克服するために、mit-30と2つの自動メトリクスという新しい標準テキストメッシュベンチマークを導入し、将来の研究が公平で客観的な比較を可能にする。 X-Meshは従来の最先端手法よりも優れていることを示す。

Text-driven 3D stylization is a complex and crucial task in the fields of computer vision (CV) and computer graphics (CG), aimed at transforming a bare mesh to fit a target text. Prior methods adopt text-independent multilayer perceptrons (MLPs) to predict the attributes of the target mesh with the supervision of CLIP loss. However, such text-independent architecture lacks textual guidance during predicting attributes, thus leading to unsatisfactory stylization and slow convergence. To address these limitations, we present X-Mesh, an innovative text-driven 3D stylization framework that incorporates a novel Text-guided Dynamic Attention Module (TDAM). The TDAM dynamically integrates the guidance of the target text by utilizing text-relevant spatial and channel-wise attentions during vertex feature extraction, resulting in more accurate attribute prediction and faster convergence speed. Furthermore, existing works lack standard benchmarks and automated metrics for evaluation, often relying on subjective and non-reproducible user studies to assess the quality of stylized 3D assets. To overcome this limitation, we introduce a new standard text-mesh benchmark, namely MIT-30, and two automated metrics, which will enable future research to achieve fair and objective comparisons. Our extensive qualitative and quantitative experiments demonstrate that X-Mesh outperforms previous state-of-the-art methods.
翻訳日:2023-08-07 16:01:22 公開日:2023-08-04
# SPeC: 臨床ノート要約における大規模言語モデルの性能変動に関するソフトプロンプトに基づく校正

SPeC: A Soft Prompt-Based Calibration on Performance Variability of Large Language Model in Clinical Notes Summarization ( http://arxiv.org/abs/2303.13035v3 )

ライセンス: Link先を確認
Yu-Neng Chuang, Ruixiang Tang, Xiaoqian Jiang, Xia Hu(参考訳) 電子健康記録(EHR)は、医療史、診断、治療、検査結果を含む幅広い患者の情報を保存している。 これらの記録は、医療提供者が患者ケアに関する適切な意思決定を可能にするために重要である。 臨床ノートの要約は、医療専門家が潜在的な健康リスクを特定し、より良い意思決定を行うのに役立つ。 このプロセスは、提供者が最も重要かつ現在の患者データにアクセスできるようにすることで、エラーの低減と患者の成果の向上に寄与する。 近年の研究では,大規模言語モデル(LLM)にプロンプトを組み込むことで,要約タスクの有効性が著しく向上することが示されている。 しかし,本手法により出力のばらつきが増大し,プロンプトが類似した意味を共有する場合においても,顕著に異なる出力が得られることがわかった。 この課題に対処するために,ソフトプロンプトを用いたモデルに依存しないソフトプロンプトベース校正(SPeC)パイプラインを導入する。 複数の臨床ノートタスクとLCMに関する実験結果から,本手法は各種LSMの分散を効果的に抑制するだけでなく,より均一で信頼性の高い医療情報を要約するためのソリューションを提供する。

Electronic health records (EHRs) store an extensive array of patient information, encompassing medical histories, diagnoses, treatments, and test outcomes. These records are crucial for enabling healthcare providers to make well-informed decisions regarding patient care. Summarizing clinical notes further assists healthcare professionals in pinpointing potential health risks and making better-informed decisions. This process contributes to reducing errors and enhancing patient outcomes by ensuring providers have access to the most pertinent and current patient data. Recent research has shown that incorporating prompts with large language models (LLMs) substantially boosts the efficacy of summarization tasks. However, we show that this approach also leads to increased output variance, resulting in notably divergent outputs even when prompts share similar meanings. To tackle this challenge, we introduce a model-agnostic Soft Prompt-Based Calibration (SPeC) pipeline that employs soft prompts to diminish variance while preserving the advantages of prompt-based summarization. Experimental findings on multiple clinical note tasks and LLMs indicate that our method not only bolsters performance but also effectively curbs variance for various LLMs, providing a more uniform and dependable solution for summarizing vital medical information.
翻訳日:2023-08-07 16:00:54 公開日:2023-08-04
# DOLOSデータセットとパラメータ効率のよいクロスモーダル学習

Audio-Visual Deception Detection: DOLOS Dataset and Parameter-Efficient Crossmodal Learning ( http://arxiv.org/abs/2303.12745v2 )

ライセンス: Link先を確認
Xiaobao Guo, Nithish Muthuchamy Selvaraj, Zitong Yu, Adams Wai-Kin Kong, Bingquan Shen, Alex Kot(参考訳) ビジネスにおける信頼性評価、マルチメディアのアンチ詐欺、カスタムセキュリティなど、多くの分野において重要な応用がある。 それにもかかわらず、デセプション検出研究は、高品質のデセプションデータセットの欠如と、マルチモーダルな特徴を効果的に学習することの難しさによって妨げられている。 この問題に対処するため、DOLOS\footnote {The name ``DOLOS" はギリシア神話に由来する。 最大のゲームショーのデセプション検出データセットは、豊富なデセプティブな会話を持つ。 DOLOSには213人の被験者をフィーチャーした1,675本のビデオクリップが含まれており、音声-視覚的特徴アノテーションがラベル付けされている。 我々は、異なる要因の影響を調べるために、列車試験、期間、性別プロトコルを提供する。 提案した偽造検出手法のデータセットをベンチマークする。 より少ないパラメータを微調整して性能をさらに向上させるため、一様時相アダプタ(ut-adapter)がトランスフォーマティブアーキテクチャの時間的注意を探索するパラメータ効率の高いクロスモーダル学習(pecl)と、音声・視覚特徴のクロスモーダル情報を結合したクロスモーダル融合モジュールであるプラグインオーディオ・ビジュアル融合(pavf)を提案する。 dolosの詳細なオーディオビジュアルアノテーションに基づいて,マルチタスク学習を活用し,騙しと視聴覚機能を同時に予測することで,パフォーマンスを向上させる。 実験の結果,DOLOSデータセットの望ましい品質とPECLの有効性が示された。 DOLOSデータセットとソースコードはhttps://github.com/NMS05/Audio-Visual-Deception-Detection-DOLOS-Dataset-and-Parameter-Efficient-Cros smodal-Learning/mainで入手できる。

Deception detection in conversations is a challenging yet important task, having pivotal applications in many fields such as credibility assessment in business, multimedia anti-frauds, and custom security. Despite this, deception detection research is hindered by the lack of high-quality deception datasets, as well as the difficulties of learning multimodal features effectively. To address this issue, we introduce DOLOS\footnote {The name ``DOLOS" comes from Greek mythology.}, the largest gameshow deception detection dataset with rich deceptive conversations. DOLOS includes 1,675 video clips featuring 213 subjects, and it has been labeled with audio-visual feature annotations. We provide train-test, duration, and gender protocols to investigate the impact of different factors. We benchmark our dataset on previously proposed deception detection approaches. To further improve the performance by fine-tuning fewer parameters, we propose Parameter-Efficient Crossmodal Learning (PECL), where a Uniform Temporal Adapter (UT-Adapter) explores temporal attention in transformer-based architectures, and a crossmodal fusion module, Plug-in Audio-Visual Fusion (PAVF), combines crossmodal information from audio-visual features. Based on the rich fine-grained audio-visual annotations on DOLOS, we also exploit multi-task learning to enhance performance by concurrently predicting deception and audio-visual features. Experimental results demonstrate the desired quality of the DOLOS dataset and the effectiveness of the PECL. The DOLOS dataset and the source codes are available at https://github.com/NMS05/Audio-Visual-Deception-Detection-DOLOS-Dataset-and-Parameter-Efficient-Cros smodal-Learning/tree/main.
翻訳日:2023-08-07 16:00:29 公開日:2023-08-04
# convolutional generative adversarial networkによるカオス時系列生成の評価

Evaluating generation of chaotic time series by convolutional generative adversarial networks ( http://arxiv.org/abs/2305.16729v2 )

ライセンス: Link先を確認
Yuki Tanaka and Yutaka Yamaguti(参考訳) 複雑な時間的信号を模倣する時系列を生成する畳み込みニューラルネットワークの能力と限界を理解するために、深層畳み込みネットワークからなる生成逆ネットワークを訓練し、カオス時系列を生成し、非線形時系列解析を用いて生成時系列を評価する。 決定論の数値尺度と軌道不安定性の尺度であるリャプノフ指数は、生成した時系列が元の時系列のカオス特性をよく再現していることを示した。 しかし, 誤差分布解析の結果, 大きな誤差は低いが無視できない速度で現れた。 このような誤差は、分布が指数関数的であると仮定しても予想されない。

To understand the ability and limitations of convolutional neural networks to generate time series that mimic complex temporal signals, we trained a generative adversarial network consisting of deep convolutional networks to generate chaotic time series and used nonlinear time series analysis to evaluate the generated time series. A numerical measure of determinism and the Lyapunov exponent, a measure of trajectory instability, showed that the generated time series well reproduce the chaotic properties of the original time series. However, error distribution analyses showed that large errors appeared at a low but non-negligible rate. Such errors would not be expected if the distribution were assumed to be exponential.
翻訳日:2023-08-07 15:53:12 公開日:2023-08-04
# 低光度画像強調による画像圧縮の協調最適化

Jointly Optimizing Image Compression with Low-light Image Enhancement ( http://arxiv.org/abs/2305.15030v2 )

ライセンス: Link先を確認
Shilv Cai, Xu Zou, Liqun Chen, Luxin Yan, Sheng Zhong(参考訳) 学習に基づく画像圧縮手法は大きな進歩を遂げた。 それらのほとんどが汎用自然画像のために設計されている。 実際、低照度画像は環境への影響や照明不足や露光時間の制限といった技術的制約のために頻繁に発生する。 %) , 汎用画像圧縮アルゴリズムが低光度画像を圧縮すると, 有用なディテール情報が失われ, 画像エンハンスメントが劇的に減少する。 低照度画像が既存の一般的な画像圧縮手法によって圧縮されると、有用な情報(テクスチャの詳細など)が失われ、低照度画像の強調が劇的に低下する。 低照度画像の圧縮率と高精細化性能を同時に達成するために,低照度画像強調の協調最適化を伴う新しい画像圧縮フレームワークを提案する。 我々は、主エンハンスメント分岐と信号-雑音比~(SNR)対応分岐を含む、計算コストの低いエンドツーエンドトレーニング可能な2分岐アーキテクチャを設計する。 実験の結果,提案手法は低光度画像の逐次解である ``compress before enhance" や ``enhance before compress" よりも大幅に改善できることがわかった。 ソースコードは補足資料に含まれている。

Learning-based image compression methods have made great progress. Most of them are designed for generic natural images. In fact, low-light images frequently occur due to unavoidable environmental influences or technical limitations, such as insufficient lighting or limited exposure time. %When general-purpose image compression algorithms compress low-light images, useful detail information is lost, resulting in a dramatic decrease in image enhancement. Once low-light images are compressed by existing general image compression approaches, useful information(e.g., texture details) would be lost resulting in a dramatic performance decrease in low-light image enhancement. To simultaneously achieve a higher compression rate and better enhancement performance for low-light images, we propose a novel image compression framework with joint optimization of low-light image enhancement. We design an end-to-end trainable two-branch architecture with lower computational cost, which includes the main enhancement branch and the signal-to-noise ratio~(SNR) aware branch. Experimental results show that our proposed joint optimization framework achieves a significant improvement over existing ``Compress before Enhance" or ``Enhance before Compress" sequential solutions for low-light images. Source codes are included in the supplementary material.
翻訳日:2023-08-07 15:53:01 公開日:2023-08-04
# 計測ノイズを伴うオルンシュタイン-ウレンベック過程からのパラメータ推定

Parameter estimation from an Ornstein-Uhlenbeck process with measurement noise ( http://arxiv.org/abs/2305.13498v2 )

ライセンス: Link先を確認
Simon Carter and Helmut H. Strey(参考訳) 本稿では,Ornstein-Uhlenbeckプロセスのパラメータフィッティングにおける雑音の影響について検討し,乗算と熱雑音が信号分離の精度に与える影響に着目した。 そこで本研究では,熱雑音と乗算雑音を効果的に区別し,最適データ解析のためのパラメータ推定精度を向上させるアルゴリズムと手法を提案する。 具体的には,実信号の難読化に対する乗法と熱雑音の影響について検討し,その解決法を提案する。 まず,ハミルトンモンテカルロ (hmc) と同等の性能で熱雑音を効果的に分離するアルゴリズムを提案する。 その後,乗法ノイズを分析し,hmcが熱的および乗法的ノイズを分離するには不十分であることを示す。 しかし,熱雑音と乗法雑音の比を加味することにより,十分大きなサンプリング率や熱雑音より小さい乗法雑音の振幅が与えられた場合,この2種類の雑音を正確に区別できることを示す。 この発見は、最初は直感的に思える状況をもたらす。 乗法雑音が雑音スペクトルを支配する場合,ノイズバランスをシフトするために白色雑音を付加し,そのパラメータを推定することに成功した。

This article aims to investigate the impact of noise on parameter fitting for an Ornstein-Uhlenbeck process, focusing on the effects of multiplicative and thermal noise on the accuracy of signal separation. To address these issues, we propose algorithms and methods that can effectively distinguish between thermal and multiplicative noise and improve the precision of parameter estimation for optimal data analysis. Specifically, we explore the impact of both multiplicative and thermal noise on the obfuscation of the actual signal and propose methods to resolve them. Firstly, we present an algorithm that can effectively separate thermal noise with comparable performance to Hamilton Monte Carlo (HMC) but with significantly improved speed. Subsequently, we analyze multiplicative noise and demonstrate that HMC is insufficient for isolating thermal and multiplicative noise. However, we show that, with additional knowledge of the ratio between thermal and multiplicative noise, we can accurately distinguish between the two types of noise when provided with a sufficiently large sampling rate or an amplitude of multiplicative noise smaller than thermal noise. This finding results in a situation that initially seems counterintuitive. When multiplicative noise dominates the noise spectrum, we can successfully estimate the parameters for such systems after adding additional white noise to shift the noise balance.
翻訳日:2023-08-07 15:52:39 公開日:2023-08-04
# 並列画像データのないテキストベース人物検索

Text-based Person Search without Parallel Image-Text Data ( http://arxiv.org/abs/2305.12964v2 )

ライセンス: Link先を確認
Yang Bai, Jingyao Wang, Min Cao, Chen Chen, Ziqiang Cao, Liqiang Nie and Min Zhang(参考訳) テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて画像ギャラリーから検索することを目的としている。 既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されている。 本稿では、並列画像テキストデータ(\mu$-TBPS)を使わずにTBPSを探索する最初の試みを行う。 そこで我々は,まず画像毎に対応する擬似テキストを生成し,その検索を教師付き方式で行うための2段階のフレームワークGTR(Generation-then-retrieval)を提案する。 生成段階では、まず、一連の指示プロンプトを利用して、既訓練の視覚言語モデルを用いて、きめ細かい人物属性をキャプチャして生成し、抽出した属性を、きめ細かな大きな言語モデルまたは手作りテンプレートを介してテキスト記述に変換する、人物画像のリッチな記述を得るための微粒な画像キャプション戦略を提案する。 検索段階において、学習モデルにおける生成したテキストのノイズ干渉を考慮して、より信頼性の高いテキストがトレーニング中により多くの貢献を行えるようにして、信頼度スコアに基づくトレーニング手法を開発する。 複数のTBPSベンチマーク(CUHK-PEDES、ICFG-PEDES、RSTPReid)の実験結果から、提案したGTRは、並列画像テキストデータに頼ることなく、有望な性能を達成できることが示された。

Text-based person search (TBPS) aims to retrieve the images of the target person from a large image gallery based on a given natural language description. Existing methods are dominated by training models with parallel image-text pairs, which are very costly to collect. In this paper, we make the first attempt to explore TBPS without parallel image-text data ($\mu$-TBPS), in which only non-parallel images and texts, or even image-only data, can be adopted. Towards this end, we propose a two-stage framework, generation-then-retrieval (GTR), to first generate the corresponding pseudo text for each image and then perform the retrieval in a supervised manner. In the generation stage, we propose a fine-grained image captioning strategy to obtain an enriched description of the person image, which firstly utilizes a set of instruction prompts to activate the off-the-shelf pretrained vision-language model to capture and generate fine-grained person attributes, and then converts the extracted attributes into a textual description via the finetuned large language model or the hand-crafted template. In the retrieval stage, considering the noise interference of the generated texts for training model, we develop a confidence score-based training scheme by enabling more reliable texts to contribute more during the training. Experimental results on multiple TBPS benchmarks (i.e., CUHK-PEDES, ICFG-PEDES and RSTPReid) show that the proposed GTR can achieve a promising performance without relying on parallel image-text data.
翻訳日:2023-08-07 15:52:17 公開日:2023-08-04
# g3detector:一般gpt生成テキスト検出器

G3Detector: General GPT-Generated Text Detector ( http://arxiv.org/abs/2305.12680v2 )

ライセンス: Link先を確認
Haolan Zhan and Xuanli He and Qiongkai Xu and Yuxiang Wu and Pontus Stenetorp(参考訳) 大規模言語モデル(llm)の分野における急速な進歩は、その並列性のない能力によって大きな利益をもたらす。 しかし、これらのモデルの潜在的な誤用を認めることは、社会的および倫理的ジレンマのスペクトルを引き起こす可能性がある。 これまでの多くの試みは合成テキストの識別に重点を置いていたが、既存の検出システムはChatGPTやGPT-4といった最新のLCMによって合成されたデータを識別できない。 この課題に対応するために,様々な分野にわたる合成テキストの同定に熟練した,前例のない,かつ強力な検出手法を提案する。 さらに,様々なモデルアーキテクチャと復号化戦略において,優れた性能を示す。 また、強力な検出回避技術を用いて生成されたテキストを識別する機能も備えている。 我々の包括的な研究は、機械が生成するテキスト検出機構の堅牢性と効率を高めること、特に急速に進歩し、適応するAI技術の文脈において、我々のコミットメントを裏付けている。

The burgeoning progress in the field of Large Language Models (LLMs) heralds significant benefits due to their unparalleled capacities. However, it is critical to acknowledge the potential misuse of these models, which could give rise to a spectrum of social and ethical dilemmas. Despite numerous preceding efforts centered around distinguishing synthetic text, most existing detection systems fail to identify data synthesized by the latest LLMs, such as ChatGPT and GPT-4. In response to this challenge, we introduce an unpretentious yet potent detection approach proficient in identifying synthetic text across a wide array of fields. Moreover, our detector demonstrates outstanding performance uniformly across various model architectures and decoding strategies. It also possesses the capability to identify text generated utilizing a potent detection-evasion technique. Our comprehensive research underlines our commitment to boosting the robustness and efficiency of machine-generated text detection mechanisms, particularly in the context of swiftly progressing and increasingly adaptive AI technologies.
翻訳日:2023-08-07 15:51:47 公開日:2023-08-04
# 拡散モデルにおけるNull-text Guidanceは、秘かにカートゥーンスタイルのクリエーターである

Null-text Guidance in Diffusion Models is Secretly a Cartoon-style Creator ( http://arxiv.org/abs/2305.06710v4 )

ライセンス: Link先を確認
Jing Zhao, Heliang Zheng, Chaoyue Wang, Long Lan, Wanrong Huang, Wenjing Yang(参考訳) 分類器フリーガイダンスは拡散モデルにおいて有効なサンプリング手法であり、広く採用されている。 主な考え方は、モデルをテキストガイダンスの方向に外挿し、nullテキストガイダンスから遠ざかることである。 本稿では,拡散モデルにおけるヌルテキストガイダンスが秘かにマンガスタイルの作者であること,すなわち,ヌルテキストガイダンスを単純に摂動させることで,生成した画像を漫画に効率的に変換できることを実証する。 具体的には,2つの外乱手法,すなわちロールバック障害(Back-D)とイメージ障害(Image-D)を提案し,サンプリングプロセスにおいて,ヌルテキストガイダンスとテキストガイダンスの予測に使用されるノイズ画像と,それぞれ \textbf{null-text noisy image} と \textbf{text noisy image} とを一致させる。 Back-Dは、$x_t$を$x_{t+\Delta t}$に置き換えることで、null-textのノイズレベルを変更することで、漫画化を実現する。 Image-Dは、クリーンな入力画像として$x_t$を定義することにより、高忠実で多様な漫画を生成する。 包括的実験により, ノイズ乱れの原理を考察し, 乱れの有効性は, 雑音画像と音源画像との相関に依存することを明らかにした。 さらに,提案手法は,漫画画像を生成し,特定のものを漫画化することができるため,任意の分類子フリー誘導拡散モデルにおいて,プラグイン・アンド・プレイ・コンポーネントとして容易に統合できる。 プロジェクトページは \url{https://nulltextforcartoon.github.io/} で利用可能である。

Classifier-free guidance is an effective sampling technique in diffusion models that has been widely adopted. The main idea is to extrapolate the model in the direction of text guidance and away from null-text guidance. In this paper, we demonstrate that null-text guidance in diffusion models is secretly a cartoon-style creator, i.e., the generated images can be efficiently transformed into cartoons by simply perturbing the null-text guidance. Specifically, we proposed two disturbance methods, i.e., Rollback disturbance (Back-D) and Image disturbance (Image-D), to construct misalignment between the noisy images used for predicting null-text guidance and text guidance (subsequently referred to as \textbf{null-text noisy image} and \textbf{text noisy image} respectively) in the sampling process. Back-D achieves cartoonization by altering the noise level of null-text noisy image via replacing $x_t$ with $x_{t+\Delta t}$. Image-D, alternatively, produces high-fidelity, diverse cartoons by defining $x_t$ as a clean input image, which further improves the incorporation of finer image details. Through comprehensive experiments, we delved into the principle of noise disturbing for null-text and uncovered that the efficacy of disturbance depends on the correlation between the null-text noisy image and the source image. Moreover, our proposed techniques, which can generate cartoon images and cartoonize specific ones, are training-free and easily integrated as a plug-and-play component in any classifier-free guided diffusion model. Project page is available at \url{https://nulltextforcartoon.github.io/}.
翻訳日:2023-08-07 15:51:32 公開日:2023-08-04
# テンソル分解によるニューラルネットワーク圧縮の近似誤差はどの程度不変か?

How Informative is the Approximation Error from Tensor Decomposition for Neural Network Compression? ( http://arxiv.org/abs/2305.05318v2 )

ライセンス: Link先を確認
Jetze T. Schuurmans, Kim Batselier, Julian F. P. Kooij(参考訳) テンソル分解はニューラルネットワークの圧縮に成功している。 テンソル分解を用いた圧縮アルゴリズムは一般に重みの近似誤差を最小化する。 最近の研究は、重みの近似誤差が複数の層を圧縮し、圧縮されたモデルを微調整するモデルの性能のプロキシであると仮定している。 驚くべきことに、どの近似誤差を用いて層、テンソル分解法、圧縮レベルを選択できるかを体系的に評価する研究はほとんどない。 このギャップを埋めるために,我々は,この仮定が異なる層や分解の種類にまたがっているか,微調整の効果がどのようなものかを検証する実験を行った。 分析で圧縮層から得られた特徴に近似誤差を含め、データが明示的に考慮されているように、より優れたプロキシを提供するかどうかをテストします。 その結果, 重みの近似誤差は, 性能誤差と, 微調整前後の正の相関を示すことがわかった。 特徴量に対する近似誤差を用いると相関性は著しく改善しない。 近似誤差のスケーリングは、層の大きさの違いを考慮するのに一般的に使用されるが、微調整の前にすべての選択(層、分解、圧縮レベルなど)の平均的な相関は小さい。 異なる分解間の相関を計算するとき、平均階数相関はすべての選択よりも大きい。 これは、圧縮のために複数の分解を考慮でき、近似誤差を使ってそれらを選択できることを意味する。

Tensor decompositions have been successfully applied to compress neural networks. The compression algorithms using tensor decompositions commonly minimize the approximation error on the weights. Recent work assumes the approximation error on the weights is a proxy for the performance of the model to compress multiple layers and fine-tune the compressed model. Surprisingly, little research has systematically evaluated which approximation errors can be used to make choices regarding the layer, tensor decomposition method, and level of compression. To close this gap, we perform an experimental study to test if this assumption holds across different layers and types of decompositions, and what the effect of fine-tuning is. We include the approximation error on the features resulting from a compressed layer in our analysis to test if this provides a better proxy, as it explicitly takes the data into account. We find the approximation error on the weights has a positive correlation with the performance error, before as well as after fine-tuning. Basing the approximation error on the features does not improve the correlation significantly. While scaling the approximation error commonly is used to account for the different sizes of layers, the average correlation across layers is smaller than across all choices (i.e. layers, decompositions, and level of compression) before fine-tuning. When calculating the correlation across the different decompositions, the average rank correlation is larger than across all choices. This means multiple decompositions can be considered for compression and the approximation error can be used to choose between them.
翻訳日:2023-08-07 15:50:54 公開日:2023-08-04
# 空間的コントラストプレトレーニングを用いた訓練データに見る新しい道路の交通予測

Traffic Forecasting on New Roads Unseen in the Training Data Using Spatial Contrastive Pre-Training ( http://arxiv.org/abs/2305.05237v2 )

ライセンス: Link先を確認
Arian Prabowo, Wei Shao, Hao Xue, Piotr Koniusz, Flora D. Salim(参考訳) 常に新しい道路が建設されている。 しかし、トレーニングデータ(未確認道路)に見られない新しい道路に一般化する従来の深度予測モデルの能力は、ほとんど調査されていない。 そこで本稿では,spatio-temporal(st)スプリットと呼ばれる新しい設定を導入し,未発見の道路に一般化するモデルの能力を評価する。 この設定では、モデルは道路サンプルのデータに基づいてトレーニングされるが、トレーニングデータには見られない道路でテストされる。 また,空間コントラスト事前学習(SCPT)と呼ばれる新しいフレームワークを提案し,推定時間中に未確認道路から潜時特徴を抽出する空間エンコーダモジュールを提案する。 この空間エンコーダは、コントラスト学習を用いて事前訓練される。 推定中、空間エンコーダは新しい道路上の2日間の交通データしか必要とせず、再訓練は不要である。 また,空間エンコーダからの出力は,推定時間中に潜在ノードの埋め込みを推定するために効果的に使用できることを示す。 SCPTフレームワークはまた、空間エンコーダの出力から既存のバックボーンへの遅延特徴を効果的に結合するために、空間的にゲートされた加算(SGA)層と呼ばれる新しいレイヤも組み込んでいる。 また、未発見の道路には限られたデータがあるので、交通信号は自明に捕獲できる周期信号と捕獲が難しいマルコフ信号に分離し、空間エンコーダはマルコフ信号のみを学習する方がよいと論じている。 最後に、実世界の4つのデータセットのST分割設定を用いてSCPTを実証的に評価した。 その結果,背骨にSCPTを加えることで,見えない道路での予測性能が向上することがわかった。 さらに重要なのは、今後の予測では改善が進んでいることだ。 burl{https://github.com/cruiseresearchgroup/forecasting-on-new-roads} コードはgithubで入手できる。

New roads are being constructed all the time. However, the capabilities of previous deep forecasting models to generalize to new roads not seen in the training data (unseen roads) are rarely explored. In this paper, we introduce a novel setup called a spatio-temporal (ST) split to evaluate the models' capabilities to generalize to unseen roads. In this setup, the models are trained on data from a sample of roads, but tested on roads not seen in the training data. Moreover, we also present a novel framework called Spatial Contrastive Pre-Training (SCPT) where we introduce a spatial encoder module to extract latent features from unseen roads during inference time. This spatial encoder is pre-trained using contrastive learning. During inference, the spatial encoder only requires two days of traffic data on the new roads and does not require any re-training. We also show that the output from the spatial encoder can be used effectively to infer latent node embeddings on unseen roads during inference time. The SCPT framework also incorporates a new layer, named the spatially gated addition (SGA) layer, to effectively combine the latent features from the output of the spatial encoder to existing backbones. Additionally, since there is limited data on the unseen roads, we argue that it is better to decouple traffic signals to trivial-to-capture periodic signals and difficult-to-capture Markovian signals, and for the spatial encoder to only learn the Markovian signals. Finally, we empirically evaluated SCPT using the ST split setup on four real-world datasets. The results showed that adding SCPT to a backbone consistently improves forecasting performance on unseen roads. More importantly, the improvements are greater when forecasting further into the future. The codes are available on GitHub: \burl{https://github.com/cruiseresearchgroup/forecasting-on-new-roads}.
翻訳日:2023-08-07 15:50:29 公開日:2023-08-04
# RT-K-Net:リアルタイムパノプティクスセグメンテーションのためのK-Netの再検討

RT-K-Net: Revisiting K-Net for Real-Time Panoptic Segmentation ( http://arxiv.org/abs/2305.01255v2 )

ライセンス: Link先を確認
Markus Sch\"on, Michael Buchholz, Klaus Dietmayer(参考訳) panoptic segmentationは、セマンティックセグメンテーションとインスタンスセグメンテーションのタスクを組み合わせた、最も難しいシーン解析タスクの1つです。 多くの進展が見られたが、パン光学セグメンテーション法のリアルタイム適用に焦点を当てた研究はほとんどない。 本稿では,最近導入されたK-Netアーキテクチャを再考する。 我々は,遅延を大幅に削減し,性能を向上させるアーキテクチャ,トレーニング,推論手順の大幅な変更を提案する。 得られたRT-K-Netは、Cityscapesデータセット上でリアルタイムのパノプティクスセグメンテーション手法のための新しい最先端のパフォーマンスを設定し、挑戦的なMapillary Vistasデータセットで有望な結果を示す。 都市景観では、rt-k-netは60.2 %のpqに達し、titan rtx gpu上のフル解像度1024x2048ピクセル画像の平均推定時間は32msである。 Mapillary Vistasでは、RT-K-Netが平均推算時間69msで33.2%のPQに達している。

Panoptic segmentation is one of the most challenging scene parsing tasks, combining the tasks of semantic segmentation and instance segmentation. While much progress has been made, few works focus on the real-time application of panoptic segmentation methods. In this paper, we revisit the recently introduced K-Net architecture. We propose vital changes to the architecture, training, and inference procedure, which massively decrease latency and improve performance. Our resulting RT-K-Net sets a new state-of-the-art performance for real-time panoptic segmentation methods on the Cityscapes dataset and shows promising results on the challenging Mapillary Vistas dataset. On Cityscapes, RT-K-Net reaches 60.2 % PQ with an average inference time of 32 ms for full resolution 1024x2048 pixel images on a single Titan RTX GPU. On Mapillary Vistas, RT-K-Net reaches 33.2 % PQ with an average inference time of 69 ms. Source code is available at https://github.com/markusschoen/RT-K-Net.
翻訳日:2023-08-07 15:49:40 公開日:2023-08-04
# 教師エージェント:リハーサル型ビデオインクリメンタル学習のための知識蒸留フリーフレームワーク

Teacher Agent: A Knowledge Distillation-Free Framework for Rehearsal-based Video Incremental Learning ( http://arxiv.org/abs/2306.00393v2 )

ライセンス: Link先を確認
Shengqin Jiang, Yaoyu Fang, Haokui Zhang, Qingshan Liu, Yuankai Qi, Yang Yang, Peng Wang(参考訳) リハーサルベースのビデオインクリメンタル学習は、しばしば知識蒸留を用いて、以前に学習したデータの破滅的な忘れを軽減している。 しかし,本手法では,教師モデルのロードによる計算資源と,パフォーマンス制限型教師モデルによるリプレイ能力の制限という2つの大きな課題に直面している。 これらの問題に対処するために,まず,リハーサル型ビデオインクリメンタル学習のための知識蒸留フリーフレームワークである \textit{teacher agent} を提案する。 パラメータ重みのある教師ネットワークをロードする代わりに,パラメータフリーか,あるいはパラメータのみを使用して正確で信頼性の高いソフトラベルを取得するエージェントジェネレータを導入する。 この手法は, 計算量を大幅に削減するだけでなく, 教師モデルの不正確な予測による知識誤解を回避できる。 さらに,古い知識の見直しに有効な正規化信号を提供する自己補正損失を提示し,その結果,破滅的な忘れ方の問題を軽減する。 さらに,メモリバッファ内のサンプルがメモリ効率良く代表的であることを保証するため,リハーサルベースの映像インクリメンタル学習のための統一サンプリング器を導入し,固定長のキービデオフレームをマイニングする。 興味深いことに,提案手法をベースラインと比較した場合,ネットワークは空間分解能の低下に対して高いロバスト性を示す。 本手法の利点を実証し,ビデオクリップの空間分解能の半分をインクリメンタルフェーズのネットワーク入力として利用しながら,大幅な性能向上を実現した。

Rehearsal-based video incremental learning often employs knowledge distillation to mitigate catastrophic forgetting of previously learned data. However, this method faces two major challenges for video task: substantial computing resources from loading teacher model and limited replay capability from performance-limited teacher model. To address these problems, we first propose a knowledge distillation-free framework for rehearsal-based video incremental learning called \textit{Teacher Agent}. Instead of loading parameter-heavy teacher networks, we introduce an agent generator that is either parameter-free or uses only a few parameters to obtain accurate and reliable soft labels. This method not only greatly reduces the computing requirement but also circumvents the problem of knowledge misleading caused by inaccurate predictions of the teacher model. Moreover, we put forward a self-correction loss which provides an effective regularization signal for the review of old knowledge, which in turn alleviates the problem of catastrophic forgetting. Further, to ensure that the samples in the memory buffer are memory-efficient and representative, we introduce a unified sampler for rehearsal-based video incremental learning to mine fixed-length key video frames. Interestingly, based on the proposed strategies, the network exhibits a high level of robustness against spatial resolution reduction when compared to the baseline. Extensive experiments demonstrate the advantages of our method, yielding significant performance improvements while utilizing only half the spatial resolution of video clips as network inputs in the incremental phases.
翻訳日:2023-08-07 15:43:48 公開日:2023-08-04
# ニューラルネットワークによる1ビットの通信による絡み合った状態のシミュレーション

Neural Network Approach to the Simulation of Entangled States with One Bit of Communication ( http://arxiv.org/abs/2305.19935v4 )

ライセンス: Link先を確認
Peter Sidajaya, Aloysius Dewen Lim, Baichu Yu, Valerio Scarani(参考訳) ベルの定理は、局所隠れ変数(LHV)は、いくつかの絡み合った量子状態における測定の統計を十分に説明できないと述べている。 それらをシミュレートするのに、どの程度追加的な古典的コミュニケーションが必要か尋ねるのは自然です。 本研究では,ニューラルネットワークシミュレーションやその他のツールを用いて,この分野における2つの長年のオープン質問について検討する。 まず, 部分的絡み合った2量子ビット状態における全ての射影的測定は, 1ビットの通信しか必要としないことを示す。 我々は、正確な量子挙動とトレーニングされたネットワークの積、あるいはそれに触発された半解析モデルの間の統計的距離を定量化する。 第二に、一ビットの通信が最終的に全ての二部量子相関を再現できないという一般的な根拠(そして明らかな)で知られているが、明示的な例は回避可能である。 私たちの検索では、最大5つの入力と4つの出力を持つ2部ベルシナリオの1つを見つけられず、量子相関の再現における1ビットの通信のパワーが強調された。

Bell's theorem states that Local Hidden Variables (LHVs) cannot fully explain the statistics of measurements on some entangled quantum states. It is natural to ask how much supplementary classical communication would be needed to simulate them. We study two long-standing open questions in this field with neural network simulations and other tools. First, we present evidence that all projective measurements on partially entangled pure two-qubit states require only one bit of communication. We quantify the statistical distance between the exact quantum behaviour and the product of the trained network, or of a semianalytical model inspired by it. Second, while it is known on general grounds (and obvious) that one bit of communication cannot eventually reproduce all bipartite quantum correlation, explicit examples have proved evasive. Our search failed to find one for several bipartite Bell scenarios with up to 5 inputs and 4 outputs, highlighting the power of one bit of communication in reproducing quantum correlations.
翻訳日:2023-08-07 15:43:24 公開日:2023-08-04
# 推薦のための大規模言語モデルに関する調査

A Survey on Large Language Models for Recommendation ( http://arxiv.org/abs/2305.19860v3 )

ライセンス: Link先を確認
Likang Wu, Zhi Zheng, Zhaopeng Qiu, Hao Wang, Hongchao Gu, Tingjia Shen, Chuan Qin, Chen Zhu, Hengshu Zhu, Qi Liu, Hui Xiong, Enhong Chen(参考訳) 自然言語処理(nlp)の分野では,大規模言語モデル(llm)が強力なツールとして登場し,最近はレコメンデーションシステム(rs)の分野で大きな注目を集めている。 これらのモデルは、自己教師付き学習を用いて大量のデータに基づいて訓練され、普遍表現の学習において顕著な成功を示しており、微調整やプロンプトチューニングなどの効果的な転送技術によって、レコメンデーションシステムの様々な側面を強化する可能性を秘めている。 推薦品質を高めるために言語モデルのパワーを活用する上で重要な側面は、高品質なテキスト特徴表現の利用と、アイテムとユーザ間の相関を確立するための外部知識の広範なカバレッジである。 既存のLLMに基づくレコメンデーションシステムを総合的に理解するため,本調査では,これらのモデルを,それぞれDLLM4レコメンデーション(DLLM)とGLLM4レコメンデーション(GLLM4レコメンデーション)の2つの主要なパラダイムに分類する分類法を提案する。 さらに,各パラダイム内の既存のLCMベースのレコメンデーションシステムを体系的にレビューし,分析し,その方法論,技術,性能について考察する。 さらに、研究者や実践者にインスピレーションを与える上で、重要な課題といくつかの重要な発見を特定する。 また、レコメンデーションのためにLLMに関する関連書類をインデックスするGitHubリポジトリも作成しました。

Large Language Models (LLMs) have emerged as powerful tools in the field of Natural Language Processing (NLP) and have recently gained significant attention in the domain of Recommendation Systems (RS). These models, trained on massive amounts of data using self-supervised learning, have demonstrated remarkable success in learning universal representations and have the potential to enhance various aspects of recommendation systems by some effective transfer techniques such as fine-tuning and prompt tuning, and so on. The crucial aspect of harnessing the power of language models in enhancing recommendation quality is the utilization of their high-quality representations of textual features and their extensive coverage of external knowledge to establish correlations between items and users. To provide a comprehensive understanding of the existing LLM-based recommendation systems, this survey presents a taxonomy that categorizes these models into two major paradigms, respectively Discriminative LLM for Recommendation (DLLM4Rec) and Generative LLM for Recommendation (GLLM4Rec), with the latter being systematically sorted out for the first time. Furthermore, we systematically review and analyze existing LLM-based recommendation systems within each paradigm, providing insights into their methodologies, techniques, and performance. Additionally, we identify key challenges and several valuable findings to provide researchers and practitioners with inspiration. We have also created a GitHub repository to index relevant papers on LLMs for recommendation, https://github.com/WLiK/LLM4Rec.
翻訳日:2023-08-07 15:43:05 公開日:2023-08-04
# qudit量子力学のフレーム表現

Frame representations of qudit quantum mechanics ( http://arxiv.org/abs/2305.19287v5 )

ライセンス: Link先を確認
Nicolae Cotfas(参考訳) qudit は、$d$-次元複素ヒルベルト空間 $\mathcal{h}$ によって記述される量子系である。 すべての線型作用素の空間 $\mathcal{L}(\mathcal{H})$ が$A\! :\! mathcal{H}\! \rightarrow \! \mathcal{h}$ は複素ヒルベルト空間であり、すべての自己共役作用素の空間 $\mathcal{a}(\mathcal{h})$ は自己共役作用素 $a\! :\! mathcal{H}\! \rightarrow \! \mathcal{h}$ は実ヒルベルト空間である。 qudit量子力学の通常の離散位相空間の定式化は、ある直交基底を用いて $\mathcal{l}(\mathcal{h})$ と $\mathcal{a}(\mathcal{h})$ の記述に基づいている。 オルタナティブな定式化は直交基底の代わりにタイトフレームを用いて得られることを示し,qubit と qutrit に関するいくつかの例を示す。

A qudit is a quantum system described by a $d$-dimensional complex Hilbert space $\mathcal{H}$. The space $\mathcal{L}(\mathcal{H})$ of all the linear operators $A\!:\!\mathcal{H}\!\rightarrow \!\mathcal{H}$ is a complex Hilbert space, and the space $\mathcal{A}(\mathcal{H})$ of all the self-adjoint operators $A\!:\!\mathcal{H}\!\rightarrow \!\mathcal{H}$ is a real Hilbert space. The usual discrete phase-space formulation of qudit quantum mechanics is based on the description of $\mathcal{L}(\mathcal{H})$ and $\mathcal{A}(\mathcal{H})$ by using certain orthogonal bases. We show that some alternative formulations can be obtained by using tight frames instead of orthogonal bases, and present some examples concerning the qubit and qutrit.
翻訳日:2023-08-07 15:42:07 公開日:2023-08-04
# 量子非慣性効果の証人としてのラムシフト

Lamb shift as a witness for quantum noninertial effects ( http://arxiv.org/abs/2305.19172v2 )

ライセンス: Link先を確認
Navdeep Arya(参考訳) 原子分光に関する激しい実験的活動と、結果として生じる原子スペクトル線の高精度測定は、量子系における非慣性効果の証人としてラムシフトに関心を惹きつける。 均一な円運動と共振器内の量子電磁場に結合した2段系のラムシフトについて検討した。 異なるキャビティモード間の分離が各キャビティモードの幅よりも大きい場合,ラムシフトに対する慣性と非慣性の両方が収束することを示す。 さらに、純粋な非慣性ラムシフトは、循環原子の角周波数によって決定される量によって原子共鳴から最大化され、キャビティパラメータの適切なチューニングによって効率的に増強される。 我々は、非慣性寄与が加速度$\sim 10^{14}~\mathrm{m/s^2}$で検出できると主張する。

The sustained intense experimental activity around atomic spectroscopy and the resulting high-precision measurements of atomic spectral lines attract interest in Lamb shift as a witness for noninertial effects in quantum systems. We investigate the Lamb shift in a two-level system undergoing uniform circular motion and coupled to a quantum electromagnetic field inside a cavity. We show that when the separation between different cavity modes is large compared to the width of each cavity mode, both the inertial and noninertial contributions to the Lamb shift are convergent. In addition, we find that the purely-noninertial Lamb shift maximizes away from the atomic resonance by an amount decided by the angular frequency of the circulating atom, lending itself to efficient enhancement by a suitable tuning of the cavity parameters. We argue that the noninertial contribution becomes detectable at accelerations $\sim 10^{14}~\mathrm{m/s^2}$.
翻訳日:2023-08-07 15:41:44 公開日:2023-08-04
# マルチプレイヤーマルチアーマバンドにおける共有アームの競争

Competing for Shareable Arms in Multi-Player Multi-Armed Bandits ( http://arxiv.org/abs/2305.19158v2 )

ライセンス: Link先を確認
Renzhe Xu, Haotian Wang, Xingxuan Zhang, Bo Li, Peng Cui(参考訳) 共有可能な限られた資源の競争は、長い間戦略エージェントで研究されてきた。 実際、エージェントはしばしばリソースの報酬を同時に学び、最大化する必要があります。 個人化された競合ポリシーを設計するために,プレイヤーが利己的であり,自身の報酬を最大化することを目的とした,新しいマルチプレイヤーマルチアームバンディット(MPMAB)のエージェント間の競争をモデル化する。 また、複数の選手が同じ腕を引っ張るとき、これらの選手は平均して期待して腕の報酬を共有すると仮定する。 この条件下では,まず腕の報酬が知られているとき,ナッシュ平衡を解析する。 その後、平衡に基づく平均転位(SMAA)を用いた新たな自家的MPMABを提案する。 理論的には、全てのプレイヤーがアルゴリズムに従うと、SMAAは各プレイヤーに良い後悔の保証を与えることができる。 さらに,一人の利己的なプレイヤーが,逸脱によって報酬を著しく増加させることはできず,また,他のプレイヤーの報酬に有害な影響を及ぼすこともない。 本手法の有効性を,広範囲な合成実験で検証した。

Competitions for shareable and limited resources have long been studied with strategic agents. In reality, agents often have to learn and maximize the rewards of the resources at the same time. To design an individualized competing policy, we model the competition between agents in a novel multi-player multi-armed bandit (MPMAB) setting where players are selfish and aim to maximize their own rewards. In addition, when several players pull the same arm, we assume that these players averagely share the arms' rewards by expectation. Under this setting, we first analyze the Nash equilibrium when arms' rewards are known. Subsequently, we propose a novel Selfish MPMAB with Averaging Allocation (SMAA) approach based on the equilibrium. We theoretically demonstrate that SMAA could achieve a good regret guarantee for each player when all players follow the algorithm. Additionally, we establish that no single selfish player can significantly increase their rewards through deviation, nor can they detrimentally affect other players' rewards without incurring substantial losses for themselves. We finally validate the effectiveness of the method in extensive synthetic experiments.
翻訳日:2023-08-07 15:41:30 公開日:2023-08-04
# 文脈内学習におけるラベルバイアスの軽減

Mitigating Label Biases for In-context Learning ( http://arxiv.org/abs/2305.19148v3 )

ライセンス: Link先を確認
Yu Fei, Yifan Hou, Zeming Chen, Antoine Bosselut(参考訳) インコンテキスト学習(ICL)における様々な設計設定、例えばインコンテキストの例の選択と順序は、タスクの理解を反映することなく、特定の予測に向けてモデルをバイアスすることができる。 多くの研究がこれらの設計選択について論じているが、それらを分類し、その影響を緩和する体系的な調査はほとんど行われていない。 本研究では,テキスト分類におけるICLの3種類のラベルバイアスについて,バニララベルバイアス,コンテキストラベルバイアス,ドメインラベルバイアス(概念化と検出を初めて行う)の3種類のタイプを定義した。 本分析により, 先行ラベルバイアス校正法は, 3種類のバイアスに対処できないことがわかった。 特に、ドメインラベルバイアスは、コンテキスト内例の選択によらず、多くのタスクでllmをランダムレベルのパフォーマンスに制限する。 これらのバイアスの影響を緩和するために,タスクコーパスからランダムなドメイン内単語を用いて言語モデルのラベルバイアスを推定する簡易なバイアス校正法を提案する。 予測時のこの推定バイアスを制御した後、ドメインコンテキストキャリブレーションにより、幅広いタスクにおけるGPT-JとGPT-3のICL性能が大幅に向上する。 利益はドメインラベルバイアスが大きいタスク(マクロf1では最大37%)に相当します。 さらに,様々なスケール,プリトレーニング手法,手作業によるタスク指示のモデルに一般化し,iclにおけるラベルバイアスの有意さを示した。

Various design settings for in-context learning (ICL), such as the choice and order of the in-context examples, can bias a model toward a particular prediction without being reflective of an understanding of the task. While many studies discuss these design choices, there have been few systematic investigations into categorizing them and mitigating their impact. In this work, we define a typology for three types of label biases in ICL for text classification: vanilla-label bias, context-label bias, and domain-label bias (which we conceptualize and detect for the first time). Our analysis demonstrates that prior label bias calibration methods fall short of addressing all three types of biases. Specifically, domain-label bias restricts LLMs to random-level performance on many tasks regardless of the choice of in-context examples. To mitigate the effect of these biases, we propose a simple bias calibration method that estimates a language model's label bias using random in-domain words from the task corpus. After controlling for this estimated bias when making predictions, our novel domain-context calibration significantly improves the ICL performance of GPT-J and GPT-3 on a wide range of tasks. The gain is substantial on tasks with large domain-label bias (up to 37% in Macro-F1). Furthermore, our results generalize to models with different scales, pretraining methods, and manually-designed task instructions, showing the prevalence of label biases in ICL.
翻訳日:2023-08-07 15:41:11 公開日:2023-08-04
# 文法進化を用いた意味的類似集合の自動設計

Automatic Design of Semantic Similarity Ensembles Using Grammatical Evolution ( http://arxiv.org/abs/2307.00925v3 )

ライセンス: Link先を確認
Jorge Martinez-Gil(参考訳) 意味的類似度尺度は、自然言語処理において様々なコンピュータ関連タスクを触媒するために広く用いられている。 しかしながら、すべてのタスクに最も適している意味的類似性尺度は存在せず、研究者はしばしばパフォーマンスを確保するためにアンサンブル戦略を用いる。 本研究では,意味的類似性アンサンブルの自動設計手法を提案する。 実際,本提案手法は,人的判断の相関を最大化するアンサンブルを生成するために,まず,候補のプールから測度を自動的に選択・集約するために文法的進化を利用する。 この手法はいくつかのベンチマークデータセットで評価され、最先端のアンサンブルと比較され、類似性評価の精度を大幅に向上し、場合によっては既存手法よりも優れていることを示す。 そこで本研究では,文法的進化を用いてテキストを自動比較し,意味的類似性タスクにアンサンブルを用いることの利点を証明する。 私たちのアプローチを示すソースコードは、https://github.com/jorge-martinez-gil/sesigeからダウンロードできます。

Semantic similarity measures are widely used in natural language processing to catalyze various computer-related tasks. However, no single semantic similarity measure is the most appropriate for all tasks, and researchers often use ensemble strategies to ensure performance. This research work proposes a method for automatically designing semantic similarity ensembles. In fact, our proposed method uses grammatical evolution, for the first time, to automatically select and aggregate measures from a pool of candidates to create an ensemble that maximizes correlation to human judgment. The method is evaluated on several benchmark datasets and compared to state-of-the-art ensembles, showing that it can significantly improve similarity assessment accuracy and outperform existing methods in some cases. As a result, our research demonstrates the potential of using grammatical evolution to automatically compare text and prove the benefits of using ensembles for semantic similarity tasks. The source code that illustrates our approach can be downloaded from https://github.com/jorge-martinez-gil/sesige.
翻訳日:2023-08-07 15:32:47 公開日:2023-08-04
# 正規化流を伴う限界確率の学習調和平均推定

Learned harmonic mean estimation of the marginal likelihood with normalizing flows ( http://arxiv.org/abs/2307.00048v2 )

ライセンス: Link先を確認
Alicja Polanska, Matthew A. Price, Alessio Spurio Mancini, and Jason D. McEwen(参考訳) 限界確率の計算(ベイズモデルエビデンスとも呼ばれる)はベイズモデル選択において重要な課題であり、モデルを比較するための原理化された定量的方法を提供する。 学習した高調波平均推定器は、元の高調波平均推定の爆発分散問題を解く。 学習した調和平均推定器は、最適分布に近似する重要サンプリング目標分布を学習する。 近似は高精度である必要はないが、爆発する分散問題を避けるために学習分布の確率質量が後方に含まれていることは重要である。 前回の作業では、この特性を満足させるためのトレーニングモデルに特有な最適化問題が導入されている。 本稿では, サンプリング対象分布の重要度を表現するために, 正規化フローについて述べる。 流れに基づくモデルは、最大確率推定によって後方からのサンプルに基づいて訓練される。 すると、フローの確率密度は、ベース分布のばらつきを下げること、すなわち「温度」を下げることによって集中し、その確率質量が後部に含まれることを保証する。 このアプローチは,パラメータの厳密な微調整と異常な最適化の問題を回避するため,より堅牢な手法が提案される。 さらに、正規化フローの使用は、高次元設定にスケールする可能性がある。 本研究では,高調波平均推定器における流れの利用の有効性を示す予備実験を行った。 学習した調和平均を実装するハーモニックコードがアップデートされ、フローの正規化がサポートされた。

Computing the marginal likelihood (also called the Bayesian model evidence) is an important task in Bayesian model selection, providing a principled quantitative way to compare models. The learned harmonic mean estimator solves the exploding variance problem of the original harmonic mean estimation of the marginal likelihood. The learned harmonic mean estimator learns an importance sampling target distribution that approximates the optimal distribution. While the approximation need not be highly accurate, it is critical that the probability mass of the learned distribution is contained within the posterior in order to avoid the exploding variance problem. In previous work a bespoke optimization problem is introduced when training models in order to ensure this property is satisfied. In the current article we introduce the use of normalizing flows to represent the importance sampling target distribution. A flow-based model is trained on samples from the posterior by maximum likelihood estimation. Then, the probability density of the flow is concentrated by lowering the variance of the base distribution, i.e. by lowering its "temperature", ensuring its probability mass is contained within the posterior. This approach avoids the need for a bespoke optimisation problem and careful fine tuning of parameters, resulting in a more robust method. Moreover, the use of normalizing flows has the potential to scale to high dimensional settings. We present preliminary experiments demonstrating the effectiveness of the use of flows for the learned harmonic mean estimator. The harmonic code implementing the learned harmonic mean, which is publicly available, has been updated to now support normalizing flows.
翻訳日:2023-08-07 15:32:31 公開日:2023-08-04
# LeCo: シリアル相関学習による軽量圧縮

LeCo: Lightweight Compression via Learning Serial Correlations ( http://arxiv.org/abs/2306.15374v2 )

ライセンス: Link先を確認
Yihao Liu, Xinyu Zeng, Huanchen Zhang(参考訳) 軽量データ圧縮は、カラムストアが分析クエリのパフォーマンスを向上する鍵となる技術である。 シャノンのエントロピーに近づくための辞書ベースのエンコーディングに関する包括的な研究にもかかわらず、圧縮のための列のシリアル相関を体系的に利用した先行研究はほとんどない。 本稿では,機械学習を用いて値列の連続冗長性を自動的に除去し,優れた圧縮率と減圧縮性能を同時に達成するフレームワークであるleco(すなわち学習圧縮)を提案する。 LeCoはこの目的に対して一般的なアプローチを示し、既存の(アドホックな)アルゴリズムであるFrame-of-Reference(FOR)、Delta Encoding(Delta Encoding)、Run-Length Encoding(RLE)をフレームワークの下に置く。 3つの合成データと6つの実世界のデータセットを持つマイクロベンチマークは、lecoのプロトタイプが既存のソリューションよりも圧縮比とランダムアクセス速度の両方においてparetoの改善を達成していることを示している。 LeCoを広く使われているアプリケーションに組み込むと、Parquetファイルのフィルタスキャンで最大3.9倍のスピードで、Rocksdbのスループットは16%向上する。

Lightweight data compression is a key technique that allows column stores to exhibit superior performance for analytical queries. Despite a comprehensive study on dictionary-based encodings to approach Shannon's entropy, few prior works have systematically exploited the serial correlation in a column for compression. In this paper, we propose LeCo (i.e., Learned Compression), a framework that uses machine learning to remove the serial redundancy in a value sequence automatically to achieve an outstanding compression ratio and decompression performance simultaneously. LeCo presents a general approach to this end, making existing (ad-hoc) algorithms such as Frame-of-Reference (FOR), Delta Encoding, and Run-Length Encoding (RLE) special cases under our framework. Our microbenchmark with three synthetic and six real-world data sets shows that a prototype of LeCo achieves a Pareto improvement on both compression ratio and random access speed over the existing solutions. When integrating LeCo into widely-used applications, we observe up to 3.9x speed up in filter-scanning a Parquet file and a 16% increase in Rocksdb's throughput.
翻訳日:2023-08-07 15:32:10 公開日:2023-08-04
# 雑音との戦い - 確率的投影型量子固有解法

Fighting noise with noise: a stochastic projective quantum eigensolver ( http://arxiv.org/abs/2306.14540v3 )

ライセンス: Link先を確認
Maria-Andreea Filip(参考訳) 量子計算の現在のノイズの多い中間スケール量子(nisq)時代には、利用可能なハードウェアは量子ビット数とノイズレベルの両方に厳しく制限されており、非自明な量子化学問題に対する現在の多くのハイブリッド量子古典アルゴリズムの適用が妨げられている。 本稿では,従来の量子モンテカルロアルゴリズム(波動関数とハミルトニアンの両方の確率的サンプリング)の基本的な考え方を量子アルゴリズムに適用し,量子資源のコストを大幅に削減することを提案する。 仮想時間伝搬に基づく射影型量子固有解器の文脈では、物理観測可能量を推定する新しいアプローチが提案され、これは現在の最先端固有解器と比較して系の基底状態エネルギーを収束させるために必要な量子状態のサンプリングを最大50倍まで減少させる。 この方法は励起状態の計算にも等しく適用でき、波動関数 ansatz と system hamiltonian の確率的切断と組み合わせることで、量子デバイス上の一般化学ハミルトンシミュレーションの短期的アプローチが期待できる。

In the current noisy intermediate scale quantum (NISQ) era of quantum computation, available hardware is severely limited by both qubit count and noise levels, precluding the application of many current hybrid quantum-classical algorithms to non-trivial quantum chemistry problems. In this paper we propose applying some of the fundamental ideas of conventional Quantum Monte Carlo algorithms -- stochastic sampling of both the wavefunction and the Hamiltonian -- to quantum algorithms in order to significantly decrease quantum resource costs. In the context of an imaginary-time propagation based projective quantum eigensolver, we present a novel approach to estimating physical observables which leads to an up to 50-fold reduction in the required sampling of the quantum state to converge the ground state energy of a system relative to current state-of-the-art eigensolvers. The method can be equally applied to excited-state calculations and, combined with stochastic truncations of the wavefunction Ansatz and system Hamiltonian, provides promising near-term approach to general chemistry Hamiltonian simulation on quantum devices.
翻訳日:2023-08-07 15:31:48 公開日:2023-08-04
# Dzyaloshinskii-Moriya相互作用を持つXXZハイゼンベルクモデルにおけるロバスト一方向ファントムヘリックス状態

Robust unidirectional phantom helix states in the XXZ Heisenberg model with Dzyaloshinskii-Moriya interaction ( http://arxiv.org/abs/2306.11578v2 )

ライセンス: Link先を確認
Y. B. Shi and Z. Song(参考訳) ファントム・ヘリックス状態(phantom helix states)は、ゼロエネルギーの周りのエネルギー準位にあり、双方向に等しいxxzハイゼンベルク模型の退化固有状態の特別な集合である。 本研究では,dmi(dzyaloshinskii-moriya interaction)を用いてxxzハイゼンベルク模型のヘリックス状態について検討する。 一方向のヘリックス状態のみが共鳴DMIの存在下で変化しないことを示す。 Holstein--Primakoff(HP)変換に基づいて、量子スピンモデルをボソンモデルにマッピングすることで、基礎となるメカニズムを理解することができる。 さらに、そのような幻状態が強いDMIによってスペクトルから分離され、状態の堅牢性を高めることも示している。 数値シミュレーションにより一方向ファントムヘリックス状態の動的形成過程を示す。 その結果,DMIは高い効率でフィルタとして機能することが示唆された。

The phantom helix states are a special set of degenerate eigenstates of the XXZ Heisenberg model, which lie in the energy levels around zero energy and are bidirectionally equal. In this work, we study the helix state in the XXZ Heisenberg model with the Dzyaloshinskii-Moriya interaction (DMI). We show exactly that only the helix states in one direction remain unchanged in the presence of resonant DMI. Based on the Holstein--Primakoff (HP) transformation, the quantum spin model is mapped to a boson model, which allows us to understand the underlying mechanism. Furthermore, it also indicates that such phantom states can be separated from the spectrum by the strong DMI to enhance the robustness of the states. We demonstrate the dynamic formation processes of unidirectional phantom helix states by numerical simulations. The results indicate that the DMI as expected acts as a filter with high efficiency.
翻訳日:2023-08-07 15:31:25 公開日:2023-08-04
# 磁気フリー非相互構造を用いたガード量子鍵分布

Guarding Quantum Key Distribution with integrated Magnetic-free Nonreciprocal Structures ( http://arxiv.org/abs/2306.06564v2 )

ライセンス: Link先を確認
Qiang Liu, Yinming Huang, Tingting Luo, Chunfeng Huang, Minming Geng, Zhenrong Zhang and Kejin Wei(参考訳) アリスとボブの戸口で非相互デバイスを挿入することは量子鍵分布(QKD)システムにおける量子ハッキング攻撃に対して広く知られている対策である。 しかし、通常は磁気光学効果に基づく従来の非相互デバイスは、現在の半導体集積技術との互換性の課題に直面している。 その結果、初期のチップベースのQKDシステムは非相互成分を統合できず、インジェクションタイプの攻撃に対して脆弱であった。 soi統合の実際のパラメータに基づいて, 直接二分探索アルゴリズムを用いた逆設計を行い, 様々なチップ構成設計要件を満たしながら, チップベースのqkdシステムへの統合を容易にした。 設計されたデバイスのサイズはわずか数平方マイクロメートルだが、準アイソレータは27dBを超える分離レベルを達成できる。 QKDの実用性を実証するため、我々はQKDシステムをトロイの木馬攻撃から保護するために設計した装置を使用した。 シミュレーションの結果,提案装置はBB84と測定デバイスに依存しないQKDシステムをトロイの木馬攻撃に対して効果的に確保できることがわかった。

Inserting nonreciprocal devices at the doorways of Alice and Bob is a widely recognized countermeasure against quantum hacking attacks in quantum key distribution (QKD) systems. However, traditional integrated nonreciprocal devices, which are typically based on magneto-optical effects, face challenges in compatibility with current semiconductor integration technology. As a result, earlier chip-based QKD systems were unable to integrate nonreciprocal components and were vulnerable to injecting-type attacks. Based on the actual parameters of SOI integration, we employed the inverse design with the direct binary search algorithm to construct several magnetic-free nonreciprocal devices, facilitating their integration into chip-based QKD systems while meeting various chip configuration design requirements. The designed devices have sizes of only a few square micrometers, yet the quasi-isolator can achieve an isolation level exceeding 27 dB. To demonstrate their practical utility in QKD, we employed the designed devices to safeguard the QKD system against Trojan-horse attacks. The simulation results demonstrate that our proposed devices effectively secure the BB84 and measure-device-independent QKD systems against Trojan-horse attacks.
翻訳日:2023-08-07 15:31:06 公開日:2023-08-04
# マスキングトークントランスフォーマによる大規模mimoシステムにおけるジョイントチャネル推定とフィードバック

Joint Channel Estimation and Feedback with Masked Token Transformers in Massive MIMO Systems ( http://arxiv.org/abs/2306.06125v2 )

ライセンス: Link先を確認
Mingming Zhao, Lin Liu, Lifu Liu, Mengke Li, Qi Tian(参考訳) ダウンリンクチャネル状態情報(CSI)推定と低オーバーヘッド取得は、高MIMOゲインを実現するために、周波数分割二重層における大規模なMIMOシステムにとって大きな課題である。 近年,深層ニューラルネットワークの電力をチャネル推定やフィードバックに活用する研究が数多く行われている。 しかし、既存の手法はまだcsiに存在する本質的相関機能を十分に活用していない。 その結果、これらの2つのタスクを個別に処理するために異なるネットワーク構造が利用される。 本稿では,csi行列内の固有周波数領域相関を明らかにするエンコーダ・デコーダに基づくネットワークを提案する。 エンコーダ-デコーダネットワーク全体がチャネル圧縮に利用される。 相関特性を効果的に捕捉・再構成するために,効率向上を目的とした能動的マスキング戦略により,自己マスク・アテンション符号化を提案する。 デコーダ部を介してチャネル推定を行い、さらに正確な推定に軽量多層パーセプトロン復調モジュールを用いる。 実験の結果,提案手法は共同作業において,最先端のチャネル推定およびフィードバック技術より優れるだけでなく,個々の作業において有益な性能を達成できることがわかった。

The downlink channel state information (CSI) estimation and low overhead acquisition are the major challenges for massive MIMO systems in frequency division duplex to enable high MIMO gain. Recently, numerous studies have been conducted to harness the power of deep neural networks for better channel estimation and feedback. However, existing methods have yet to fully exploit the intrinsic correlation features present in CSI. As a consequence, distinct network structures are utilized for handling these two tasks separately. To achieve joint channel estimation and feedback, this paper proposes an encoder-decoder based network that unveils the intrinsic frequency-domain correlation within the CSI matrix. The entire encoder-decoder network is utilized for channel compression. To effectively capture and restructure correlation features, a self-mask-attention coding is proposed, complemented by an active masking strategy designed to improve efficiency. The channel estimation is achieved through the decoder part, wherein a lightweight multilayer perceptron denoising module is utilized for further accurate estimation. Extensive experiments demonstrate that our method not only outperforms state-of-the-art channel estimation and feedback techniques in joint tasks but also achieves beneficial performance in individual tasks.
翻訳日:2023-08-07 15:30:47 公開日:2023-08-04
# 非線形変換によるリッジ推定

Ridge Estimation with Nonlinear Transformations ( http://arxiv.org/abs/2306.05722v2 )

ライセンス: Link先を確認
Zheng Zhai and Hengchao Chen and Zhigang Yao(参考訳) リッジ推定は重要な多様体学習手法である。 本論文の目的は,リッジ集合に対する非線形変換の効果を検討することである。 主な結果はリッジ間の包含関係を証明している: $\cr(f\circ p)\subseteq \cr(p)$, 変換 $f$ が厳密に増加し、関数 $p$ の範囲で凹凸する。 さらに、真多様体 $\cm$ が与えられたとき、$\cr(f\circ p)$ の間のハウスドルフ距離とその$\cm$ への射影は、$\cr(p)$ と対応する射影の間のハウスドルフ距離よりも小さいことが分かる。 このことは、リッジ推定の前に増大・凹面変換を適用する動機となる。 具体的には、パワー変換 $f^{q}(y)=y^q/q,-\infty<q\leq 1$ が$\rr_+$ で増加して凹凸していることを示し、したがって$p$ が厳密に正の場合、そのようなパワー変換を使うことができる。 提案手法の利点を示す数値実験を行った。

Ridge estimation is an important manifold learning technique. The goal of this paper is to examine the effects of nonlinear transformations on the ridge sets. The main result proves the inclusion relationship between ridges: $\cR(f\circ p)\subseteq \cR(p)$, provided that the transformation $f$ is strictly increasing and concave on the range of the function $p$. Additionally, given an underlying true manifold $\cM$, we show that the Hausdorff distance between $\cR(f\circ p)$ and its projection onto $\cM$ is smaller than the Hausdorff distance between $\cR(p)$ and the corresponding projection. This motivates us to apply an increasing and concave transformation before the ridge estimation. In specific, we show that the power transformations $f^{q}(y)=y^q/q,-\infty<q\leq 1$ are increasing and concave on $\RR_+$, and thus we can use such power transformations when $p$ is strictly positive. Numerical experiments demonstrate the advantages of the proposed methods.
翻訳日:2023-08-07 15:30:27 公開日:2023-08-04
# baa-ngp:バンドル調整型高速化ニューラルグラフィックスプリミティブ

BAA-NGP: Bundle-Adjusting Accelerated Neural Graphics Primitives ( http://arxiv.org/abs/2306.04166v3 )

ライセンス: Link先を確認
Sainan Liu, Shan Lin, Jingpei Lu, Shreya Saha, Alexey Supikov, Michael Yip(参考訳) 暗黙的な神経表現は、2d画像から3dシーンを再構築する強力な方法として現れた。 カメラのポーズと関連する画像をセットすれば、モデルは新しく見えないビューを合成するように訓練することができる。 暗黙的な神経表現のユースケースを広げるためには,カメラが一般的に追跡されていない実世界の映像列からシーンを再構築するために必要な表現学習の一環として,カメラのポーズ推定機能を組み込む必要がある。 colmapのような既存のアプローチや、最近では、バンドル調整ニューラルラミアンスフィールドメソッドは、しばしば長い処理時間に苦しむ。 これらの遅延は、時間から日、面倒な特徴マッチング、ハードウェアの制限、高密度点サンプリング、そして多数のパラメータを持つ多層パーセプトロン構造で必要とされる長い訓練時間から生じる。 これらの課題に対処するため,バンドル調整高速化ニューラルネットワークプリミティブ(BAA-NGP)というフレームワークを提案する。 提案手法は,ポーズリファインメント/推定と3次元シーン再構成の両方を高速化するために,サンプリングとハッシュエンコーディングを高速化する。 実験により,提案手法は,ポーズ推定の品質を犠牲にすることなく,他のバンドル調整型ニューラルラディアンス場法と比較して,新しいビュー合成における10~20ドル以上の速度向上を実現していることが示された。 githubリポジトリはhttps://github.com/IntelLabs/baa-ngp.comにある。

Implicit neural representation has emerged as a powerful method for reconstructing 3D scenes from 2D images. Given a set of camera poses and associated images, the models can be trained to synthesize novel, unseen views. In order to expand the use cases for implicit neural representations, we need to incorporate camera pose estimation capabilities as part of the representation learning, as this is necessary for reconstructing scenes from real-world video sequences where cameras are generally not being tracked. Existing approaches like COLMAP and, most recently, bundle-adjusting neural radiance field methods often suffer from lengthy processing times. These delays ranging from hours to days, arise from laborious feature matching, hardware limitations, dense point sampling, and long training times required by a multi-layer perceptron structure with a large number of parameters. To address these challenges, we propose a framework called bundle-adjusting accelerated neural graphics primitives (BAA-NGP). Our approach leverages accelerated sampling and hash encoding to expedite both pose refinement/estimation and 3D scene reconstruction. Experimental results demonstrate that our method achieves a more than 10 to 20 $\times$ speed improvement in novel view synthesis compared to other bundle-adjusting neural radiance field methods without sacrificing the quality of pose estimation. The github repository can be found here https://github.com/IntelLabs/baa-ngp.
翻訳日:2023-08-07 15:30:04 公開日:2023-08-04
# IoTネットワークにおける侵入検出のためのフェデレーションディープラーニング

Federated Deep Learning for Intrusion Detection in IoT Networks ( http://arxiv.org/abs/2306.02715v3 )

ライセンス: Link先を確認
Othmane Belarbi, Theodoros Spyridopoulos, Eirini Anthi, Ioannis Mavromatis, Pietro Carnelli, Aftab Khan(参考訳) IoT(Internet of Things)テクノロジと、進化を続ける攻撃ベクトルの大幅な増加は、サイバーセキュリティのリスクを劇的に高めた。 AIベースの侵入検知システム(IDS)を分散IoTシステムに実装する一般的なアプローチは、集中的な方法である。 しかし、このアプローチはデータのプライバシーを侵害し、IDSのスケーラビリティを禁止します。 したがって、IoTエコシステムの侵入検出ソリューションは、分散された方向に進む必要がある。 連合学習(federated learning, ffl)は,データの機密性と局所性を保ちながら協調学習を行う能力により,近年,大きな関心を集めている。 それでも、ほとんどのFLベースのIoTシステム用IDSは非現実的なデータ分散条件下で設計されている。 そこで本研究では,実世界の実験代表を設計し,FL-based IDSの性能評価を行う。 実験では、実際のIoTネットワークトラフィックデータセットであるTON-IoTを使用して、各IPアドレスをひとつのFLクライアントに関連付ける。 さらに,データ不均質性の影響を軽減するために,事前学習と各種集計手法の検討を行った。 最後に、集中型ソリューションに対するアプローチをベンチマークします。 比較の結果、データの不均一性は分散的にトレーニングした場合、モデルの性能にかなりの悪影響を及ぼすことが示された。 しかし、事前訓練された初期グローバルFLモデルの場合、ランダムに開始されたグローバルモデルと比較して20%以上の性能向上(F1スコア)を示す。

The vast increase of Internet of Things (IoT) technologies and the ever-evolving attack vectors have increased cyber-security risks dramatically. A common approach to implementing AI-based Intrusion Detection systems (IDSs) in distributed IoT systems is in a centralised manner. However, this approach may violate data privacy and prohibit IDS scalability. Therefore, intrusion detection solutions in IoT ecosystems need to move towards a decentralised direction. Federated Learning (FL) has attracted significant interest in recent years due to its ability to perform collaborative learning while preserving data confidentiality and locality. Nevertheless, most FL-based IDS for IoT systems are designed under unrealistic data distribution conditions. To that end, we design an experiment representative of the real world and evaluate the performance of an FL-based IDS. For our experiments, we rely on TON-IoT, a realistic IoT network traffic dataset, associating each IP address with a single FL client. Additionally, we explore pre-training and investigate various aggregation methods to mitigate the impact of data heterogeneity. Lastly, we benchmark our approach against a centralised solution. The comparison shows that the heterogeneous nature of the data has a considerable negative impact on the model's performance when trained in a distributed manner. However, in the case of a pre-trained initial global FL model, we demonstrate a performance improvement of over 20% (F1-score) compared to a randomly initiated global model.
翻訳日:2023-08-07 15:29:37 公開日:2023-08-04
# 模倣学習における初期状態介入

Initial State Interventions for Deconfounded Imitation Learning ( http://arxiv.org/abs/2307.15980v2 )

ライセンス: Link先を確認
Samuel Pfrommer, Yatong Bai, Hyunin Lee, Somayeh Sojoudi(参考訳) 模倣学習は因果的混乱に苦しむ。 この現象は、学習されたポリシーが専門家の行動に因果的に影響を与えず、代わりに急激な相関関係にある特徴に出席するときに起こる。 因果的に混乱したエージェントは、低いオープンループ制御損失を生じるが、デプロイ時にクローズループ性能は低下する。 我々は,観察空間の異方性表現において観察者共起者をマスキングする問題を考える。 提案するマスキングアルゴリズムは,初期システム状態における通常の介入機能を活用し,エキスパートクエリや専門家報酬関数,因果グラフ仕様といった要件を回避する。 特定の仮定の下では、このアルゴリズムは専門家に因果的に影響を及ぼす観察を誤って隠蔽しないという意味で保守的であることを理論的に証明する。 マスキングアルゴリズムは、cartopole と reacher の2つの図式制御系の動作クローニングに適用される。

Imitation learning suffers from causal confusion. This phenomenon occurs when learned policies attend to features that do not causally influence the expert actions but are instead spuriously correlated. Causally confused agents produce low open-loop supervised loss but poor closed-loop performance upon deployment. We consider the problem of masking observed confounders in a disentangled representation of the observation space. Our novel masking algorithm leverages the usual ability to intervene in the initial system state, avoiding any requirement involving expert querying, expert reward functions, or causal graph specification. Under certain assumptions, we theoretically prove that this algorithm is conservative in the sense that it does not incorrectly mask observations that causally influence the expert; furthermore, intervening on the initial state serves to strictly reduce excess conservatism. The masking algorithm is applied to behavior cloning for two illustrative control systems: CartPole and Reacher.
翻訳日:2023-08-07 15:23:09 公開日:2023-08-04
# 自分のゲームでバックドアアタックを破る

Beating Backdoor Attack at Its Own Game ( http://arxiv.org/abs/2307.15539v3 )

ライセンス: Link先を確認
Min Liu, Alberto Sangiovanni-Vincentelli, Xiangyu Yue(参考訳) ディープニューラルネットワーク(dnn)はバックドア攻撃に対して脆弱であり、クリーンデータに対するネットワークのパフォーマンスに影響せず、トリガーパターンが追加されるとネットワークの動作を操作する。 既存の防御手法は攻撃成功率を大幅に低下させたが、クリーンなデータの予測精度は依然としてクリーンなモデルに大きく遅れている。 背後攻撃のステルス性や有効性に着想を得て,有害サンプルを標的とした非敵バックドアを注入する,単純かつ高効率な防御フレームワークを提案する。 バックドア攻撃の一般的な手順に従い、疑わしいサンプルの小さなセットを検出し、それらを毒殺戦略を適用する。 非敵のバックドアは一度起動すると、毒物データに対する攻撃者のバックドアを抑制するが、クリーンデータへの影響は限られている。 防御は、データ前処理中に、標準のエンドツーエンドトレーニングパイプラインを変更することなく行うことができる。 我々は、異なるアーキテクチャと代表的攻撃を持つ複数のベンチマークで広範な実験を行う。 その結果, クリーンデータに対する性能低下が最も低く, 最先端の防御効果が得られた。 我々の枠組みが示す驚くべき防御能力を考えると、バックドアの防御にもっと注意を払う必要がある。 コードはhttps://github.com/damianliumin/non-adversarial_backdoorで入手できる。

Deep neural networks (DNNs) are vulnerable to backdoor attack, which does not affect the network's performance on clean data but would manipulate the network behavior once a trigger pattern is added. Existing defense methods have greatly reduced attack success rate, but their prediction accuracy on clean data still lags behind a clean model by a large margin. Inspired by the stealthiness and effectiveness of backdoor attack, we propose a simple but highly effective defense framework which injects non-adversarial backdoors targeting poisoned samples. Following the general steps in backdoor attack, we detect a small set of suspected samples and then apply a poisoning strategy to them. The non-adversarial backdoor, once triggered, suppresses the attacker's backdoor on poisoned data, but has limited influence on clean data. The defense can be carried out during data preprocessing, without any modification to the standard end-to-end training pipeline. We conduct extensive experiments on multiple benchmarks with different architectures and representative attacks. Results demonstrate that our method achieves state-of-the-art defense effectiveness with by far the lowest performance drop on clean data. Considering the surprising defense ability displayed by our framework, we call for more attention to utilizing backdoor for backdoor defense. Code is available at https://github.com/damianliumin/non-adversarial_backdoor.
翻訳日:2023-08-07 15:22:54 公開日:2023-08-04
# 差分進化アルゴリズムに基づく負荷予測のための変圧器ニューラルネットワークモデルのハイパーパラメータ選択

Differential Evolution Algorithm based Hyper-Parameters Selection of Transformer Neural Network Model for Load Forecasting ( http://arxiv.org/abs/2307.15299v2 )

ライセンス: Link先を確認
Anuvab Sen, Arul Rhik Mazumder, Udayon Sen(参考訳) 多くの分野において、正確な負荷予測は重要な役割を果たすが、動的電力システムの複雑なダイナミクスを正確に捉えることは、伝統的な統計モデルにとって課題である。 これらの理由から、時系列モデル(ARIMA)とディープラーニングモデル(ANN、LSTM、GRUなど)が一般的にデプロイされ、しばしばより高い成功を経験する。 本稿では,最近開発されたTransformer-based Neural Network Modelの負荷予測における有効性について検討する。 トランスフォーマーモデルは、そのアテンションメカニズムから派生した長距離依存を学習できるため、ロード予測を改善する可能性がある。 本稿では,変圧器ベースニューラルネットワークの最適ハイパーパラメータを求めるために,微分進化というメタヒューリスティックスを適用した。 微分進化は、非微分可能、多目的、制約付き最適化問題に対するスケーラブルで堅牢なグローバルソリューションを提供する。 本研究では,mse(平均二乗誤差)やmape(平均絶対パーセンテージ誤差)などの数値指標に基づく負荷予測における性能と,様々なメタヒューリスティックアルゴリズムと統合したトランスフォーマティブニューラルネットワークモデルを比較した。 負荷予測におけるメタヒューリスティックなトランスフォーマーベースニューラルネットワークモデルの可能性を示し,各モデルに最適なハイパーパラメータを提供する。

Accurate load forecasting plays a vital role in numerous sectors, but accurately capturing the complex dynamics of dynamic power systems remains a challenge for traditional statistical models. For these reasons, time-series models (ARIMA) and deep-learning models (ANN, LSTM, GRU, etc.) are commonly deployed and often experience higher success. In this paper, we analyze the efficacy of the recently developed Transformer-based Neural Network model in Load forecasting. Transformer models have the potential to improve Load forecasting because of their ability to learn long-range dependencies derived from their Attention Mechanism. We apply several metaheuristics namely Differential Evolution to find the optimal hyperparameters of the Transformer-based Neural Network to produce accurate forecasts. Differential Evolution provides scalable, robust, global solutions to non-differentiable, multi-objective, or constrained optimization problems. Our work compares the proposed Transformer based Neural Network model integrated with different metaheuristic algorithms by their performance in Load forecasting based on numerical metrics such as Mean Squared Error (MSE) and Mean Absolute Percentage Error (MAPE). Our findings demonstrate the potential of metaheuristic-enhanced Transformer-based Neural Network models in Load forecasting accuracy and provide optimal hyperparameters for each model.
翻訳日:2023-08-07 15:22:32 公開日:2023-08-04
# トルコ語母語識別

Turkish Native Language Identification ( http://arxiv.org/abs/2307.14850v3 )

ライセンス: Link先を確認
Ahmet Yavuz Uluslu and Gerold Schneider(参考訳) 本稿では,トルコ語に対するNative Language Identification (NLI)の最初の応用について述べる。 NLIは、著者の最初の言語を様々な言語で分析することで予測する。 ほとんどのNLI研究は英語に重点を置いているが、トルコ語にまで範囲を広げている。 我々は,最近構築されたトルコ語学習者コーパスを用いて,3つの構文的特徴(CFG生成規則,助詞n-gram,関数語)とL2テキストの組み合わせを用いて,これらの課題の有効性を実証した。

In this paper, we present the first application of Native Language Identification (NLI) for the Turkish language. NLI involves predicting the writer's first language by analysing their writing in different languages. While most NLI research has focused on English, our study extends its scope to Turkish. We used the recently constructed Turkish Learner Corpus and employed a combination of three syntactic features (CFG production rules, part-of-speech n-grams, and function words) with L2 texts to demonstrate their effectiveness in this task.
翻訳日:2023-08-07 15:22:08 公開日:2023-08-04
# AI4GCC-Team -- 海面レベル以下:スコアと実世界の関連性

AI4GCC-Team -- Below Sea Level: Score and Real World Relevance ( http://arxiv.org/abs/2307.13892v2 )

ライセンス: Link先を確認
Phillip Wozny, Bram Renting, Robert Loftin, Claudia Wieners, Erman Acar(参考訳) ai for global climate cooperation (ai4gcc) コンペティションのトラック3への提案として,米-n気候経済シミュレーションにおける使用のための交渉プロトコルを提案する。 本提案では, 炭素境界調整機構 (CBAM) と気候クラブ (CC) にインスパイアされた手法を用いて, 炭素漏れの課題を解決することを目的とする。 シミュレーション結果と代表集中経路(RCP)と共有社会経済経路(SSP)を比較し,本手法の有効性を実証した。 我々のプロトコルは、RCP 3.4/4.5 と SSP 2 に匹敵する温度上昇をもたらす。 さらに、我が国の国際貿易機関(WTO)のコンプライアンス、行政及び政治的実現可能性、倫理的懸念について分析する。 我々は,我々の提案が発展途上国を損なうリスクがあることを認識し,技術共有や富の再分配といった既存の不平等を悪化させないための具体的な是正措置を提案する。 今後の研究は、米-n関税機構を改善し、前述の是正措置を可能にする措置を講じるべきである。

As our submission for track three of the AI for Global Climate Cooperation (AI4GCC) competition, we propose a negotiation protocol for use in the RICE-N climate-economic simulation. Our proposal seeks to address the challenges of carbon leakage through methods inspired by the Carbon Border Adjustment Mechanism (CBAM) and Climate Clubs (CC). We demonstrate the effectiveness of our approach by comparing simulated outcomes to representative concentration pathways (RCP) and shared socioeconomic pathways (SSP). Our protocol results in a temperature rise comparable to RCP 3.4/4.5 and SSP 2. Furthermore, we provide an analysis of our protocol's World Trade Organization compliance, administrative and political feasibility, and ethical concerns. We recognize that our proposal risks hurting the least developing countries, and we suggest specific corrective measures to avoid exacerbating existing inequalities, such as technology sharing and wealth redistribution. Future research should improve the RICE-N tariff mechanism and implement actions allowing for the aforementioned corrective measures.
翻訳日:2023-08-07 15:21:59 公開日:2023-08-04
# 不均衡異常検出のための損傷ビジョンマイニング機会

Damage Vision Mining Opportunity for Imbalanced Anomaly Detection ( http://arxiv.org/abs/2307.12676v2 )

ライセンス: Link先を確認
Takato Yasuno(参考訳) 過去10年間で、従来のバランスの取れたデータセットは、産業アプリケーションにおける分類、オブジェクト検出、セマンティックセグメンテーション、異常検出のアルゴリズムの進歩に使われてきた。 特に、条件ベースのメンテナンスでは、品質を保証するために視覚検査の自動化が不可欠である。 予測保守と前向きな修復のための細かな決定過程を最適化するための劣化予測の試み。 土木インフラや生活環境において, 被害データマイニングが不均衡なデータ問題を回避することはできない。 視覚検査では, コンクリート表面から得られた劣化クラスと鋼材成分とのバランスが, 時々不均衡になる。 多くの関連調査から、不均衡なデータ問題は4つのタイプに分類できると要約する。 1)対象物及びラベル有価物の範囲の欠如 2)マイノリティ階級の不均衡 3)空間的不均衡の背景 4) 画素単位の不均衡の長尾クラス。 2015年以降、回帰、画像分類、オブジェクト検出、セマンティックセグメンテーションを含むディープラーニングアプローチを用いた不均衡な研究が数多く行われている。 しかし、不均衡なデータの異常検出はまだよく分かっていない。 本研究では,異常クラスの有無に関わらず,一級異常検出アプリケーションに注目し,血液スメア,肺感染症,木製,コンクリート劣化,災害被害など,不均衡な視覚データセットの明確な例を示す。 我々は,より有効範囲の正の比率, 異常検出の精度向上を仮定して, 損傷ビジョンマイニングのアドバンテージに関する重要な結果を提供する。 最後に,損傷学習手法の適用性,限界,今後の課題について述べる。

In past decade, previous balanced datasets have been used to advance algorithms for classification, object detection, semantic segmentation, and anomaly detection in industrial applications. Specifically, for condition-based maintenance, automating visual inspection is crucial to ensure high quality. Deterioration prognostic attempts to optimize the fine decision process for predictive maintenance and proactive repair. In civil infrastructure and living environment, damage data mining cannot avoid the imbalanced data issue because of rare unseen events and high quality status by improved operations. For visual inspection, deteriorated class acquired from the surface of concrete and steel components are occasionally imbalanced. From numerous related surveys, we summarize that imbalanced data problems can be categorized into four types; 1) missing range of target and label valuables, 2) majority-minority class imbalance, 3) foreground-background of spatial imbalance, 4) long-tailed class of pixel-wise imbalance. Since 2015, there has been many imbalanced studies using deep learning approaches that includes regression, image classification, object detection, semantic segmentation. However, anomaly detection for imbalanced data is not yet well known. In the study, we highlight one-class anomaly detection application whether anomalous class or not, and demonstrate clear examples on imbalanced vision datasets: blood smear, lung infection, wooden, concrete deterioration, and disaster damage. We provide key results on damage vision mining advantage, hypothesizing that the more effective range of positive ratio, the higher accuracy gain of anomaly detection application. Finally, the applicability of the damage learning methods, limitations, and future works are mentioned.
翻訳日:2023-08-07 15:21:40 公開日:2023-08-04
# 変分オートエンコーダを用いた確率過程の最小表現の学習

Learning minimal representations of stochastic processes with variational autoencoders ( http://arxiv.org/abs/2307.11608v2 )

ライセンス: Link先を確認
Gabriel Fern\'andez-Fern\'andez, Carlo Manzo, Maciej Lewenstein, Alexandre Dauphin, Gorka Mu\~noz-Gil(参考訳) 確率過程は、様々な自然現象をモデル化するために広く用いられるので、科学において多くの応用を見出している。 しかし、本質的なランダム性と不確実性のため、特徴付けは困難である。 本稿では,確率過程のダイナミクスを効果的に記述するために必要なパラメータの最小セットを決定するために,教師なし機械学習手法を提案する。 我々の手法は拡張された$\beta$-variational autoencoderアーキテクチャに基づいている。 パラダイム拡散モデルに対応するシミュレーションデータセットを用いて、これらのダイナミクスを正確に記述する最小限のパラメータを抽出する効果を示す。 さらに、期待された確率挙動を忠実に再現する新たな軌跡を生成することができる。 全体としては,確率過程を記述する未知のパラメータを自律的に発見することで,様々な分野にまたがる複雑な現象の理解を深める。

Stochastic processes have found numerous applications in science, as they are broadly used to model a variety of natural phenomena. Due to their intrinsic randomness and uncertainty, they are however difficult to characterize. Here, we introduce an unsupervised machine learning approach to determine the minimal set of parameters required to effectively describe the dynamics of a stochastic process. Our method builds upon an extended $\beta$-variational autoencoder architecture. By means of simulated datasets corresponding to paradigmatic diffusion models, we showcase its effectiveness in extracting the minimal relevant parameters that accurately describe these dynamics. Furthermore, the method enables the generation of new trajectories that faithfully replicate the expected stochastic behavior. Overall, our approach enables for the autonomous discovery of unknown parameters describing stochastic processes, hence enhancing our comprehension of complex phenomena across various fields.
翻訳日:2023-08-07 15:21:16 公開日:2023-08-04
# 補間専門家とマルチアーマッドバンドについて

On Interpolating Experts and Multi-Armed Bandits ( http://arxiv.org/abs/2307.07264v2 )

ライセンス: Link先を確認
Houshuang Chen, Yuchen He, Chihao Zhang(参考訳) 専門家のアドバイスとマルチアームの盗賊による学習は、ゲームの各ラウンドでどのように情報が観察されるかが異なる2つの古典的なオンライン決定問題である。 我々はその2つを補間する問題の家系を研究する。 ベクトル $\mathbf{m}=(m_1,\dots,m_K)\in \mathbb{N}^K$ に対して、$\mathbf{m}$-MAB の例は、腕が$K$グループに分割され、$i$-th 群は$m_i$アームを含むことを示す。 一度腕を引っ張ると、同じグループのすべての腕の損失が観察される。 我々は、$\mathbf{m}$-MABに対して厳密なミニマックス後悔境界を証明し、純粋な探索バージョンである$\mathbf{m}$-BAIに対して最適なPACアルゴリズムを設計する。 我々は、$\mathbf{m}$-mabのミニマックスの後悔は$\theta\left(\sqrt{t\sum_{k=1}^k\log (m_k+1)}\right)であり、$(\epsilon,0.05)$-pacアルゴリズムの最小プル数は$\theta\left(\frac{1}{\epsilon^2}\cdot \sum_{k=1}^k\log (m_k+1)\right)であることを示した。 上限と下限はいずれも、クランクカバーと関連するグラフパラメータの観点から、より一般的な設定、すなわち、グラフフィードバックを伴うバンディットに拡張できます。 その結果、フィードバックグラフのいくつかのファミリに対して、厳密なミニマックス後悔境界を得た。

Learning with expert advice and multi-armed bandit are two classic online decision problems which differ on how the information is observed in each round of the game. We study a family of problems interpolating the two. For a vector $\mathbf{m}=(m_1,\dots,m_K)\in \mathbb{N}^K$, an instance of $\mathbf{m}$-MAB indicates that the arms are partitioned into $K$ groups and the $i$-th group contains $m_i$ arms. Once an arm is pulled, the losses of all arms in the same group are observed. We prove tight minimax regret bounds for $\mathbf{m}$-MAB and design an optimal PAC algorithm for its pure exploration version, $\mathbf{m}$-BAI, where the goal is to identify the arm with minimum loss with as few rounds as possible. We show that the minimax regret of $\mathbf{m}$-MAB is $\Theta\left(\sqrt{T\sum_{k=1}^K\log (m_k+1)}\right)$ and the minimum number of pulls for an $(\epsilon,0.05)$-PAC algorithm of $\mathbf{m}$-BAI is $\Theta\left(\frac{1}{\epsilon^2}\cdot \sum_{k=1}^K\log (m_k+1)\right)$. Both our upper bounds and lower bounds for $\mathbf{m}$-MAB can be extended to a more general setting, namely the bandit with graph feedback, in terms of the clique cover and related graph parameters. As consequences, we obtained tight minimax regret bounds for several families of feedback graphs.
翻訳日:2023-08-07 15:21:04 公開日:2023-08-04
# MRQ:モデル再量子化による多重量子化スキームの実現

MRQ:Support Multiple Quantization Schemes through Model Re-Quantization ( http://arxiv.org/abs/2308.01867v2 )

ライセンス: Link先を確認
Manasa Manohara, Sankalp Dayal, Tariq Afzal, Rahul Bakshi, Kahkuen Fu(参考訳) 多様なハードウェアアクセラレータ(例えば、NPU、TPU、DPU)の普及にもかかわらず、固定点ハードウェアでエッジデバイスにディープラーニングモデルをデプロイすることは、複雑なモデル量子化と変換のために依然として難しい。 既存のモデル量子化フレームワークであるTensorflow QAT [1], TFLite PTQ [2], Qualcomm AIMET [3] は限定的な量子化スキームのみをサポートしている(TF1.x QAT [4] の非対称なテンソル量子化のみ)。 したがって、深層学習モデルは様々な固定点ハードウェアでは容易に量子化できない。 本稿では,既存の量子化モデルを用いて,異なる量子化要件(非対称 -> 対称,非力-of-2 スケール -> パワー-of-2 スケール)を迅速に満たすmrq (model re-quantization) と呼ばれる新しいモデル量子化手法を想定する。 再量子化は、コストのかかる再トレーニングを回避し、同時に複数の量子化スキームをサポートするため、スクラッチから量子化するよりもずっと単純である。 再定量化誤差を最小限に抑えるため,重み補正や丸め誤差折り畳みを含む新しい再定量化アルゴリズムを開発した。 我々は,mobilenetv2 qatモデル [7] を2つの異なる量子化スキーム (対称および対称+パワーof-2スケール) に高速に再計算できることを示した。 我々の研究は、この再量子化の概念をモデル量子化に活用する最初のものであると信じており、再量子化プロセスから得られたモデルはEcho Showデバイス上でNNAにうまく展開されている。

Despite the proliferation of diverse hardware accelerators (e.g., NPU, TPU, DPU), deploying deep learning models on edge devices with fixed-point hardware is still challenging due to complex model quantization and conversion. Existing model quantization frameworks like Tensorflow QAT [1], TFLite PTQ [2], and Qualcomm AIMET [3] supports only a limited set of quantization schemes (e.g., only asymmetric per-tensor quantization in TF1.x QAT [4]). Accordingly, deep learning models cannot be easily quantized for diverse fixed-point hardwares, mainly due to slightly different quantization requirements. In this paper, we envision a new type of model quantization approach called MRQ (model re-quantization), which takes existing quantized models and quickly transforms the models to meet different quantization requirements (e.g., asymmetric -> symmetric, non-power-of-2 scale -> power-of-2 scale). Re-quantization is much simpler than quantizing from scratch because it avoids costly re-training and provides support for multiple quantization schemes simultaneously. To minimize re-quantization error, we developed a new set of re-quantization algorithms including weight correction and rounding error folding. We have demonstrated that MobileNetV2 QAT model [7] can be quickly re-quantized into two different quantization schemes (i.e., symmetric and symmetric+power-of-2 scale) with less than 0.64 units of accuracy loss. We believe our work is the first to leverage this concept of re-quantization for model quantization and models obtained from the re-quantization process have been successfully deployed on NNA in the Echo Show devices.
翻訳日:2023-08-07 15:10:28 公開日:2023-08-04
# Hoodwinked: 言語モデルのためのテキストベースゲームにおける認識と協調

Hoodwinked: Deception and Cooperation in a Text-Based Game for Language Models ( http://arxiv.org/abs/2308.01404v2 )

ライセンス: Link先を確認
Aidan O'Gara(参考訳) 現在の言語モデルは騙しと嘘の検出が可能ですか。 我々は,Mafia と among Us に触発された $\textit{Hoodwinked}$ というテキストベースのゲームを導入することで,この問題を研究する。 プレイヤーは家に閉じ込められ、脱出するための鍵を見つけなければならないが、1人のプレイヤーは他のプレイヤーを殺す任務を負う。 殺人が行われるたびに、生き残ったプレイヤーは自然言語で議論し、1人のプレイヤーをゲームから追放する投票を行う。 我々は, GPT-3, GPT-3.5, GPT-4によって制御されたエージェントを用いて実験を行い, 偽造と嘘検出能力の証拠を見いだした。 犯人はしばしば犯罪を否定し、他人を非難し、投票結果に測定可能な影響をもたらす。 より高度なモデルはより効果的なキラーであり、24対比較のうち18対比較でより小さなモデルを上回っている。 二次メトリクスは、この改善が異なるアクションによって媒介されるのではなく、議論中の強い説得力によって行われることを示す。 AIエージェントが人間を騙す能力を評価するため、このゲームをh https://hoodwinked.ai/で公開しています。

Are current language models capable of deception and lie detection? We study this question by introducing a text-based game called $\textit{Hoodwinked}$, inspired by Mafia and Among Us. Players are locked in a house and must find a key to escape, but one player is tasked with killing the others. Each time a murder is committed, the surviving players have a natural language discussion then vote to banish one player from the game. We conduct experiments with agents controlled by GPT-3, GPT-3.5, and GPT-4 and find evidence of deception and lie detection capabilities. The killer often denies their crime and accuses others, leading to measurable effects on voting outcomes. More advanced models are more effective killers, outperforming smaller models in 18 of 24 pairwise comparisons. Secondary metrics provide evidence that this improvement is not mediated by different actions, but rather by stronger persuasive skills during discussions. To evaluate the ability of AI agents to deceive humans, we make this game publicly available at h https://hoodwinked.ai/ .
翻訳日:2023-08-07 15:09:52 公開日:2023-08-04
# 1ケルビン上のスピン量子ビットの高忠実度演算とアルゴリズム初期化

High-fidelity operation and algorithmic initialisation of spin qubits above one kelvin ( http://arxiv.org/abs/2308.02111v1 )

ライセンス: Link先を確認
Jonathan Y. Huang, Rocky Y. Su, Wee Han Lim, MengKe Feng, Barnaby van Straaten, Brandon Severin, Will Gilbert, Nard Dumoulin Stuyck, Tuomo Tanttu, Santiago Serrano, Jesus D. Cifuentes, Ingvild Hansen, Amanda E. Seedhouse, Ensar Vahapoglu, Nikolay V. Abrosimov, Hans-Joachim Pohl, Michael L. W. Thewalt, Fay E. Hudson, Christopher C. Escott, Natalia Ares, Stephen D. Bartlett, Andrea Morello, Andre Saraiva, Arne Laucht, Andrew S. Dzurak, and Chih Hwan Yang(参考訳) 半導体スピンキャリアにおける量子ビットの符号化は、大規模にリソグラフィで生成・統合できる商用量子コンピュータへの有望なアプローチとして認識されている。 しかし、有利な量子応用に必要な多くの量子ビットの演算は、ミリケルビン温度で利用可能なクライオスタットの冷却能力を超える熱負荷を発生させる。 スケールアップが加速するにつれて、1ケルビン以上のフォールトトレラントな動作を確立することが必須となり、冷却電力は桁違いに高い。 ここでは、1ケルビン以上のシリコンでスピン量子ビットをチューニングし、その温度でフォールトトレラントな操作に必要な範囲のフィディリティを演算する。 熱エネルギーが量子ビットエネルギーを大幅に上回っても純粋な2量子ビット状態を作成するためのアルゴリズム初期化プロトコルを設計し、高忠実度無線周波数読み出しを組み込んで初期化忠実度99.34パーセントを達成する。 重要なことに、シングルキュービットのクリフォードゲート忠実度は99.85パーセント、2キュービットゲート忠実度は98.92パーセントである。 これらの進歩は、熱エネルギーが高忠実度演算が可能なクビットエネルギーのかなり下にある必要があるという根本的な制限を克服し、スケーラブルでフォールトトレラントな量子計算への経路において大きな障害を克服している。

The encoding of qubits in semiconductor spin carriers has been recognised as a promising approach to a commercial quantum computer that can be lithographically produced and integrated at scale. However, the operation of the large number of qubits required for advantageous quantum applications will produce a thermal load exceeding the available cooling power of cryostats at millikelvin temperatures. As the scale-up accelerates, it becomes imperative to establish fault-tolerant operation above 1 kelvin, where the cooling power is orders of magnitude higher. Here, we tune up and operate spin qubits in silicon above 1 kelvin, with fidelities in the range required for fault-tolerant operation at such temperatures. We design an algorithmic initialisation protocol to prepare a pure two-qubit state even when the thermal energy is substantially above the qubit energies, and incorporate high-fidelity radio-frequency readout to achieve an initialisation fidelity of 99.34 per cent. Importantly, we demonstrate a single-qubit Clifford gate fidelity of 99.85 per cent, and a two-qubit gate fidelity of 98.92 per cent. These advances overcome the fundamental limitation that the thermal energy must be well below the qubit energies for high-fidelity operation to be possible, surmounting a major obstacle in the pathway to scalable and fault-tolerant quantum computation.
翻訳日:2023-08-07 14:14:23 公開日:2023-08-04
# キネティックインダクタンスナノワイヤからのジャンクションフリーマイクロ波2モード放射

Junction-free microwave two-mode radiation from a kinetic inductance nanowire ( http://arxiv.org/abs/2308.02109v1 )

ライセンス: Link先を確認
Yufeng Wu, Mingrui Xu, and Hong X. Tang(参考訳) パラメトリックダウン変換は、量子情報処理と量子センシングのための光子の絡み合った状態を生成する光学において広く利用される技法である。 マイクロ波領域では、ジョセフソンパラメトリックアンプ(jpa)や電圧バイアスジョセフソンジャンクションなどのジョセフソンジャンクションに基づくデバイスが、そのような状態を生成するためにうまく利用されてきた。 しかし、磁場に対する高い感受性は、多くの応用において課題となっている。 ここではNbNパターンの超伝導ナノワイヤ共振器における4波混合による2モード圧縮状態の生成を示す。 NbNナノワイヤは強いKerr非線形性を示し、その結果、$g^{(2)}(0) = 11.9$の相互相関を持つシグナルイドラー対が放出される。 NbNの磁気抵抗性と高温(T_c$)のため, 運動インダクタンスに基づくマイクロ波パラメトリック光源は, 潜在的な応用範囲の拡大を約束する。

Parametric down-conversion is a widely exploited technique in optics to produce entangled states of photons for quantum information processing and quantum sensing. In the microwave domain, devices based on Josephson junctions, such as Josephson parametric amplifiers (JPAs) and voltage-biased Josephson junctions, have been successfully utilized to generate such states. However, their high susceptibility to magnetic fields has posed challenges in many applications. Here we demonstrate the generation of two-mode squeezed states via four-wave-mixing in a superconducting nanowire resonator patterned from NbN. The NbN nanowire exhibits a strong Kerr nonlinearity, resulting in the emission of a signal-idler pair with a cross-correlation of $g^{(2)}(0) = 11.9$. Owing to the magnetic resilience and high critical temperature ($T_c$) of NbN, our microwave parametric sources based on kinetic inductance promise an expanded range of potential applications.
翻訳日:2023-08-07 14:14:00 公開日:2023-08-04
# 放射冷却量子マイクロ波増幅器

Radiatively-cooled quantum microwave amplifiers ( http://arxiv.org/abs/2308.02106v1 )

ライセンス: Link先を確認
Mingrui Xu, Yufeng Wu, Wei Dai, and Hong X. Tang(参考訳) 超伝導マイクロ波増幅器は超伝導量子プロセッサにおける感度信号の読み出しに不可欠である。 通常、ジョセフソン接合に基づいて、これらの増幅器は量子制限性能を達成するためにミリケルビン温度での演算を必要とする。 ここでは、放射冷却を用いて高温で動作する量子マイクロ波増幅器を示す。 高いT_\mathrm{c}=NbN薄膜\cmt{inをナノブリッジの形状とする単一層からパターン化した運動インダクタンスに基づくパラメトリック増幅器は、高い利得を維持し、1.5ケルビンで操作すると1.3量子の低付加ノイズを許容する。 特筆すべきは、これは基本温度0.1ケルビンのパフォーマンスと比較して0.2量子量の増加しか示さないことである。 再生効率を損なうことなく混合室からパラメトリック増幅器を上昇させることにより、この研究はスケーラブルなマイクロ波量子技術を実現するための重要なステップである。

Superconducting microwave amplifiers are essential for sensitive signal readout in superconducting quantum processors. Typically based on Josephson Junctions, these amplifiers require operation at milli-Kelvin temperatures to achieve quantum-limited performance. Here we demonstrate a quantum microwave amplifier that employs radiative cooling to operate at elevated temperatures. This kinetic-inductance-based parametric amplifier, patterned from a single layer of high-$T_\mathrm{c}$ NbN thin film\cmt{in the form of a nanobridge}, maintains a high gain and meanwhile enables low added noise of 1.3 quanta when operated at 1.5 Kelvin. Remarkably, this represents only a 0.2 quanta increase compared to the performance at a base temperature of 0.1 Kelvin. By uplifting the parametric amplifiers from the mixing chamber without compromising readout efficiency, this work represents an important step for realizing scalable microwave quantum technologies.
翻訳日:2023-08-07 14:13:45 公開日:2023-08-04
# Prompt2Gaussia: スクリプトイベント予測のための不確実なプロンプト学習

Prompt2Gaussia: Uncertain Prompt-learning for Script Event Prediction ( http://arxiv.org/abs/2308.02103v1 )

ライセンス: Link先を確認
Shiyao Cui, Xin Cong, Jiawei Sheng, Xuebin Wang, Tingwen Liu, Jinqiao Shi(参考訳) Script Event Prediction (SEP) は、あるイベントチェーンのその後のイベントを候補リストから予測することを目的としている。 従来の研究は、セマンティクスを強化するために外部知識を統合することで大きな成功を収めてきたが、適切な知識資源を入手し、スクリプト関連の知識を取得することは精力的である。 本稿では,公開事前学習型言語モデルを知識ベースとみなし,即時学習によるスクリプト関連知識の自動マイニングを行う。 それでも、シナリオの多様性とスクリプトのラベルあいまいさによって、プロンプト学習における最も機能的なプロンプトとラベルトークン、すなわち、プロンプト・アンセプティリティと動詞化のアンセプティリティを構築することは不確かである。 ガウス分布に固有の不確実性を示す能力を考えると、ガウス分布にしたがってプロンプトトークンとラベルトークンをランダム変数として配置し、決定論的表現ではなく確率的表現を推定するために、プロンプト推定器と動詞化器推定器を提案する。 我々は、SEPにおけるプロンプトラーニングを探求し、スクリプトセマンティクスを強化するための新しい視点を提供する。 提案手法は,最も広く利用されているベンチマークと,新たに提案した大規模ベンチマークで評価される。 実験の結果,事前学習した言語モデルから得られる知識の恩恵を受ける手法は,2つのベンチマークでそれぞれ1.46\%,1.05\%の事前ベースラインを上回った。

Script Event Prediction (SEP) aims to predict the subsequent event for a given event chain from a candidate list. Prior research has achieved great success by integrating external knowledge to enhance the semantics, but it is laborious to acquisite the appropriate knowledge resources and retrieve the script-related knowledge. In this paper, we regard public pre-trained language models as knowledge bases and automatically mine the script-related knowledge via prompt-learning. Still, the scenario-diversity and label-ambiguity in scripts make it uncertain to construct the most functional prompt and label token in prompt learning, i.e., prompt-uncertainty and verbalizer-uncertainty. Considering the innate ability of Gaussian distribution to express uncertainty, we deploy the prompt tokens and label tokens as random variables following Gaussian distributions, where a prompt estimator and a verbalizer estimator are proposed to estimate their probabilistic representations instead of deterministic representations. We take the lead to explore prompt-learning in SEP and provide a fresh perspective to enrich the script semantics. Our method is evaluated on the most widely used benchmark and a newly proposed large-scale one. Experiments show that our method, which benefits from knowledge evoked from pre-trained language models, outperforms prior baselines by 1.46\% and 1.05\% on two benchmarks, respectively.
翻訳日:2023-08-07 14:13:28 公開日:2023-08-04
# 選択位相蓄積による量子ベクトル直流磁力計

Quantum Vector DC Magnetometry via Selective Phase Accumulation ( http://arxiv.org/abs/2308.02102v1 )

ライセンス: Link先を確認
Min Zhuang, Sijie Chen, Jiahao Huang, and Chaohong Lee(参考訳) 磁場の精密測定は基礎科学と実用的なセンシング技術にとって重要な目標である。 ベクトル磁場の感度検出は量子磁気測定において重要な問題であり、高効率かつ高精度なベクトル直流磁場の推定は依然として課題である。 本稿では,非エンタングル量子プローブとエンタングル量子プローブの選択的位相蓄積による量子ベクトル直流磁気測定の一般プロトコルを提案する。 ラムゼー干渉法により, 十分に設計されたパルスシーケンスを挿入することにより, 1つの磁場成分の選択的位相蓄積を実現することができる。 並列スキームでは、3つの並列量子干渉計を用いて3つの磁場成分を独立に推定し、シーケンシャルスキームでは異なる方向に沿ってパルスシーケンスを適用することにより、1つの量子干渉計で同時に3つの磁場成分を推定できる。 特に、入力状態がgreenberger-horne-zeilinger状態のような絡み合った状態であれば、全ての3成分の測定精度はハイゼンベルク限界に近づくことができる。 本研究は,量子プローブを用いたベクトル磁場測定のための一般的なプロトコルを開発するだけでなく,多体量子絡み合いによるハイゼンベルク制限型マルチパラメータ推定を実現するための実現可能な方法も提供する。

Precision measurement of magnetic fields is an important goal for fundamental science and practical sensing technology. Sensitive detection of a vector magnetic field is a crucial issue in quantum magnetometry, it remains a challenge to estimate a vector DC magnetic field with high efficiency and high precision. Here, we propose a general protocol for quantum vector DC magnetometry via selective phase accumulation of both non-entangled and entangled quantum probes. Based upon the Ramsey interferometry, our protocol may achieve selective phase accumulation of only one magnetic field component by inserting well-designed pulse sequence. In the parallel scheme, three parallel quantum interferometries are utilized to estimate three magnetic field components independently.In the sequential scheme, by applying a pulse sequence along different directions, three magnetic field components can be estimated simultaneously via only one quantum interferometry. In particular, if the input state is an entangled state such as the Greenberger-Horne-Zeilinger state, the measurement precisions of all three components may approach the Heisenberg limit. Our study not only develops a general protocol for measuring vector magnetic fields via quantum probes, but also provides a feasible way to achieve Heisenberg-limited multi-parameter estimation via many-body quantum entanglement.
翻訳日:2023-08-07 14:12:55 公開日:2023-08-04
# マルチタスクcnn-トランスフォーマネットワークを用いた乳腺超音波腫瘍分類

Breast Ultrasound Tumor Classification Using a Hybrid Multitask CNN-Transformer Network ( http://arxiv.org/abs/2308.02101v1 )

ライセンス: Link先を確認
Bryar Shareef, Min Xian, Aleksandar Vakanski, Haotian Wang(参考訳) 乳房超音波(bus)画像分類において,グローバルコンテキスト情報の取り込みは重要な役割を担っている。 畳み込みニューラルネットワーク(CNN)は腫瘍分類において信頼性の高い性能を示したが、畳み込み操作の局所的な性質のため、グローバルおよび長距離依存をモデル化するための固有の制限がある。 ビジョントランスフォーマーは、グローバルなコンテキスト情報をキャプチャする機能を改善するが、トークン化操作によってローカルイメージパターンを歪める可能性がある。 本研究では,CNNとSwin Transformerコンポーネントを組み合わせたハイブリッドアーキテクチャを用いて,BUS腫瘍の分類とセグメンテーションを行うハイブリッドマルチタスクディープニューラルネットワークであるHybrid-MT-ESTANを提案する。 提案手法は,9つのBUS分類法と比較し,3,320のBUS画像を用いて7つの定量的指標を用いて評価した。 その結果,hybrid-mt-estanは82.7%,86.4%,86.0%と高い精度,感度,f1得点を得た。

Capturing global contextual information plays a critical role in breast ultrasound (BUS) image classification. Although convolutional neural networks (CNNs) have demonstrated reliable performance in tumor classification, they have inherent limitations for modeling global and long-range dependencies due to the localized nature of convolution operations. Vision Transformers have an improved capability of capturing global contextual information but may distort the local image patterns due to the tokenization operations. In this study, we proposed a hybrid multitask deep neural network called Hybrid-MT-ESTAN, designed to perform BUS tumor classification and segmentation using a hybrid architecture composed of CNNs and Swin Transformer components. The proposed approach was compared to nine BUS classification methods and evaluated using seven quantitative metrics on a dataset of 3,320 BUS images. The results indicate that Hybrid-MT-ESTAN achieved the highest accuracy, sensitivity, and F1 score of 82.7%, 86.4%, and 86.0%, respectively.
翻訳日:2023-08-07 14:12:19 公開日:2023-08-04
# 平面X線からのCT再構成と低出力放射線治療への応用

CT Reconstruction from Few Planar X-rays with Application towards Low-resource Radiotherapy ( http://arxiv.org/abs/2308.02100v1 )

ライセンス: Link先を確認
Yiran Sun, Tucker Netherton, Laurence Court, Ashok Veeraraghavan, Guha Balakrishnan(参考訳) CTスキャンは多くの臨床疾患の標準治療であり、外照射療法のような治療に必要である。 残念なことに、CTスキャナーはそのコストのため、低リソースと中リソースの設定ではまれである。 平面X線撮影装置はより一般的であるが、3次元解剖学の限られた2次元観察しか提供できない。 そこで本研究では, 術前データ分布を用いた, (<5) 平面x線観測からctボリュームを生成する方法を提案し, 放射線治療計画という臨床応用のための再構成アルゴリズムの最初の評価を行う。 入力平面x線画像からの体積ctスキャンを異なる角度で合成するために,神経陰影表現の進歩に基づく深部生成モデルを提案する。 臨床関連特徴に焦点をあてるために,本モデルでは,トレーニング中の解剖学的指導(セグメンテーションマスク)も活用できる。 本法により胸部CTを再建した2フィールド対位放射線治療計画を作成し,<4>X-ray view</4>を用いて得られたCTの線量に対して,再構成スキャンにおける等心線量に1%の誤差が認められた。 また, LIDC肺CTデータセットの標準画素, 構造値(PSNR, SSIM, Diceスコア)では, 近年のスパースCT再建ベースラインよりも優れていた。 コードはhttps://github.com/wanderinrain/xray2ct。

CT scans are the standard-of-care for many clinical ailments, and are needed for treatments like external beam radiotherapy. Unfortunately, CT scanners are rare in low and mid-resource settings due to their costs. Planar X-ray radiography units, in comparison, are far more prevalent, but can only provide limited 2D observations of the 3D anatomy. In this work, we propose a method to generate CT volumes from few (<5) planar X-ray observations using a prior data distribution, and perform the first evaluation of such a reconstruction algorithm for a clinical application: radiotherapy planning. We propose a deep generative model, building on advances in neural implicit representations to synthesize volumetric CT scans from few input planar X-ray images at different angles. To focus the generation task on clinically-relevant features, our model can also leverage anatomical guidance during training (via segmentation masks). We generated 2-field opposed, palliative radiotherapy plans on thoracic CTs reconstructed by our method, and found that isocenter radiation dose on reconstructed scans have <1% error with respect to the dose calculated on clinically acquired CTs using <=4 X-ray views. In addition, our method is better than recent sparse CT reconstruction baselines in terms of standard pixel and structure-level metrics (PSNR, SSIM, Dice score) on the public LIDC lung CT dataset. Code is available at: https://github.com/wanderinrain/Xray2CT.
翻訳日:2023-08-07 14:11:49 公開日:2023-08-04
# 画像融合とセグメンテーションのためのマルチインタラクティブな特徴学習とフルタイムマルチモーダリティベンチマーク

Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and Segmentation ( http://arxiv.org/abs/2308.02097v1 )

ライセンス: Link先を確認
Jinyuan Liu, Zhu Liu, Guanyao Wu, Long Ma, Risheng Liu, Wei Zhong, Zhongxuan Luo, Xin Fan(参考訳) マルチモダリティ画像融合とセグメンテーションは、自律運転とロボット操作において重要な役割を果たす。 初期の取り組みでは、1つのタスク(例えば、融合やセグメンテーション)のパフォーマンス向上に重点を置いており、両者の最高のところに到達するのが困難だった。 本稿では,この課題を克服するために,画像融合のための \textbf{m}ulti-\textbf{i}nteractive \textbf{f}eature learning architecture,すなわち segmif を提案する。 SegMiFはカスケード構造であり、融合サブネットワークと一般的に使用されるセグメンテーションサブネットワークを含んでいる。 2つのコンポーネント間の中間機能を巧みにブリッジすることで、セグメンテーションタスクから学んだ知識は融合タスクを効果的に支援することができる。 また、有利な融合ネットワークはセグメンテーションをサポートし、より早く実行する。 さらに、2つのタスク間のすべての重要な情報のきめ細かいマッピングを確保するために、階層的対話型アテンションブロックが確立され、モダリティ/セマンティックな特徴が相互に完全に相互に作用できる。 さらに、動的重み係数を導入し、各タスクの対応する重みを自動的に調整し、インタラクティブな特徴対応のバランスをとり、手間のかかるチューニングの制限を破ることができる。 さらに、スマートなマルチウェーブ双眼鏡イメージングシステムを構築し、画像融合とセグメンテーションのための15の注釈付き画素レベルカテゴリを持つフルタイムマルチモーダリティベンチマークを収集する。 いくつかのパブリックデータセットに関する広範囲な実験とベンチマークにより、提案手法は視覚に訴える画像を出力するとともに、最先端のアプローチよりも現実世界のシーンで平均7.66\%高いセグメンテーションミウを実行することが示された。 ソースコードとベンチマークは \url{https://github.com/jinyuanliu-cv/segmif} で入手できる。

Multi-modality image fusion and segmentation play a vital role in autonomous driving and robotic operation. Early efforts focus on boosting the performance for only one task, \emph{e.g.,} fusion or segmentation, making it hard to reach~`Best of Both Worlds'. To overcome this issue, in this paper, we propose a \textbf{M}ulti-\textbf{i}nteractive \textbf{F}eature learning architecture for image fusion and \textbf{Seg}mentation, namely SegMiF, and exploit dual-task correlation to promote the performance of both tasks. The SegMiF is of a cascade structure, containing a fusion sub-network and a commonly used segmentation sub-network. By slickly bridging intermediate features between two components, the knowledge learned from the segmentation task can effectively assist the fusion task. Also, the benefited fusion network supports the segmentation one to perform more pretentiously. Besides, a hierarchical interactive attention block is established to ensure fine-grained mapping of all the vital information between two tasks, so that the modality/semantic features can be fully mutual-interactive. In addition, a dynamic weight factor is introduced to automatically adjust the corresponding weights of each task, which can balance the interactive feature correspondence and break through the limitation of laborious tuning. Furthermore, we construct a smart multi-wave binocular imaging system and collect a full-time multi-modality benchmark with 15 annotated pixel-level categories for image fusion and segmentation. Extensive experiments on several public datasets and our benchmark demonstrate that the proposed method outputs visually appealing fused images and perform averagely $7.66\%$ higher segmentation mIoU in the real-world scene than the state-of-the-art approaches. The source code and benchmark are available at \url{https://github.com/JinyuanLiu-CV/SegMiF}.
翻訳日:2023-08-07 14:11:19 公開日:2023-08-04
# N-gram Boosting: 正規化N-gramターゲットによるコンテキストバイアスの改善

N-gram Boosting: Improving Contextual Biasing with Normalized N-gram Targets ( http://arxiv.org/abs/2308.02092v1 )

ライセンス: Link先を確認
Wang Yau Li, Shreekantha Nadig, Karol Chang, Zafarullah Mahmood, Riqiang Wang, Simon Vandieken, Jonas Robertson, Fred Mailhot(参考訳) 適切な名前と技術用語の正確な書き起こしは、ビジネス会話の音声からテキストへのアプリケーションにおいて特に重要である。 これらの単語は、会話を理解するのに必須であり、しばしばまれであり、テキストや音声のトレーニングデータに過小に表現されがちであり、この領域では大きな課題となっている。 我々は,単一トークンではなく,正規化ユニグラムとnグラムでうまく機能する2段階のキーワードブースティング機構を提案する。 さらに,重み付けロジックの調整が,マルチトケンキーワードのオーバーブーストを回避する方法を示す。 これにより、独自のドメイン内データセットに対して26%、LibriSpeechでは2%のキーワード認識率が改善されます。 この方法は、非アルファベット文字や非標準発音を含むターゲットに対して特に有用である。

Accurate transcription of proper names and technical terms is particularly important in speech-to-text applications for business conversations. These words, which are essential to understanding the conversation, are often rare and therefore likely to be under-represented in text and audio training data, creating a significant challenge in this domain. We present a two-step keyword boosting mechanism that successfully works on normalized unigrams and n-grams rather than just single tokens, which eliminates missing hits issues with boosting raw targets. In addition, we show how adjusting the boosting weight logic avoids over-boosting multi-token keywords. This improves our keyword recognition rate by 26% relative on our proprietary in-domain dataset and 2% on LibriSpeech. This method is particularly useful on targets that involve non-alphabetic characters or have non-standard pronunciations.
翻訳日:2023-08-07 14:10:41 公開日:2023-08-04
# 3パス干渉計における5つの測定コンテキストによる単一光子の逐次伝播

Sequential propagation of a single photon through five measurement contexts in a three-path interferometer ( http://arxiv.org/abs/2308.02086v1 )

ライセンス: Link先を確認
Holger F. Hofmann(参考訳) 量子コンテキスト性(quantum contextity)は、測定結果が何らかの方法で測定コンテキストに依存する必要があることを示している。 ここでは,文脈性の実証に必要な5つのコンテキストを逐次的に実現する3経路干渉計を提案する。 これにより、入力ポートと対応する出力ポートを接続する経路が破壊的干渉によってブロックされているように見えるパラドックス状態が観察できる。 弱測定で観測された条件電流はパラドックスの一貫した説明を提供し、弱値が波状伝播効果と局所粒子検出のギャップを埋めるのに役立つことを示した。

Quantum contextuality indicates that the outcomes of measurements must in some ways depend on the measurement context. Here, I introduce a three-path interferometer in which all five contexts needed for the demonstration of contextuality are realized in sequence. It is then possible to observe a paradoxical situation where the paths connecting input ports to their corresponding output ports appear to be blocked by destructive interference. It is shown that the conditional currents observed in weak measurements provide a consistent explanation of the paradox, indicating that weak values might help to bridge the gap between wavelike propagation effects and local particle detection.
翻訳日:2023-08-07 14:10:28 公開日:2023-08-04
# yelpのビジネスランキングとレビューレコメンデーションを公正レンズで監査

Auditing Yelp's Business Ranking and Review Recommendation Through the Lens of Fairness ( http://arxiv.org/abs/2308.02129v1 )

ライセンス: Link先を確認
Mohit Singhal, Javier Pacheco, Tanushree Debi, Seyyed Mohammad Sadegh Moosavi Khorzooghi, Abolfazl Asudeh, Gautam Das, Shirin Nilizadeh(参考訳) YelpのようなWeb 2.0レコメンデーションシステムは、ユーザとビジネスを結びつけて、ユーザが新しいビジネスを識別し、レビュー形式で自身の体験を同時に表現できるようにします。 yelpのレコメンデーションソフトウェアは、ユーザに提供されたコンテンツを推奨セクションと推奨されないセクションに分類することで、モデレートする。 Yelpのかなりの人気と地元事業の成功に対する高い影響のため、アルゴリズムの公平性を理解することが重要である。 しかしながら、このようなブラックボックスシステムで使用されるトレーニングデータやアルゴリズムにアクセスできないため、公平性の研究は自明ではなく、データ収集におけるバイアスを最小限に抑え、分析における結合要因を検討するために膨大な労力を要する。 この大規模なデータ駆動型調査は、Yelpのビジネスランキングとレビューレコメンデーションシステムを、公正なレンズを通じて初めて調査する。 Yelpの推奨ソフトウェアがバイアスを示し、Yelpのビジネスランキングアルゴリズムが特定の地区にあるレストランに対してバイアスを示すかどうかを調べるための4つの仮説を定義し、検証する。 以上の結果から,女性や未確立ユーザーのレビューは不均等に推奨されている。 また,ホットスポット地域に立地する飲食店と平均被曝量との間には正の相関がみられた。 さらに,人口の多様性が低い地域や,人口密度や教育水準が高い地域では,ホットスポットの偏りが深刻であるケースも見られた。 実際、本論文の発見を含むデータ駆動システムによって導入されたバイアスは、(ほとんど)暗黙的であり、プロキシ属性を通してである。 それでも著者らは、これらの暗黙のバイアスは検出され解決されるべきであり、異なるグループ間の社会的ギャップをさらに増やし続ける差別のサイクルを作ることができると信じている。

Web 2.0 recommendation systems, such as Yelp, connect users and businesses so that users can identify new businesses and simultaneously express their experiences in the form of reviews. Yelp recommendation software moderates user-provided content by categorizing them into recommended and not-recommended sections. Due to Yelp's substantial popularity and its high impact on local businesses' success, understanding the fairness of its algorithms is crucial. However, with no access to the training data and the algorithms used by such black-box systems, studying their fairness is not trivial, requiring a tremendous effort to minimize bias in data collection and consider the confounding factors in the analysis. This large-scale data-driven study, for the first time, investigates Yelp's business ranking and review recommendation system through the lens of fairness. We define and examine 4 hypotheses to examine if Yelp's recommendation software shows bias and if Yelp's business ranking algorithm shows bias against restaurants located in specific neighborhoods. Our findings show that reviews of female and less-established users are disproportionately categorized as recommended. We also find a positive association between restaurants being located in hotspot regions and their average exposure. Furthermore, we observed some cases of severe disparity bias in cities where the hotspots are in neighborhoods with less demographic diversity or areas with higher affluence and education levels. Indeed, biases introduced by data-driven systems, including our findings in this paper, are (almost) always implicit and through proxy attributes. Still, the authors believe such implicit biases should be detected and resolved as those can create cycles of discrimination that keep increasing the social gaps between different groups even further.
翻訳日:2023-08-07 14:05:27 公開日:2023-08-04
# セマンティクス誘導型トランスベースセンサ融合による経路予測の改善

Semantics-guided Transformer-based Sensor Fusion for Improved Waypoint Prediction ( http://arxiv.org/abs/2308.02126v1 )

ライセンス: Link先を確認
Hwan-Soo Choi, Jongoh Jeong, Young Hoo Cho, Kuk-Jin Yoon, and Jong-Hwan Kim(参考訳) インテリジェントな自動運転エージェントのためのセンサー融合アプローチは、入力センサーから取得した視覚的なグローバルコンテキストを考えると、シーン理解の鍵である。 特に、ローカルな waypoint 予測タスクでは、シングルモダリティネットワークは、入力センサの感度に強く依存しているため、最近の研究は、機能レベルでの融合における複数のセンサーの使用を促進する。 複数のデータモダリティが相互文脈交換を促進することはよく知られているが、実用的な運転シナリオへの展開には、最小限の計算でリアルタイムにグローバルな3dシーン理解が必要である。 本報では,目的とするタスク(例えば,交通信号の認識やセマンティックセグメンテーション)と高い相関性を持つ,慎重に選択された補助タスクを,補助タスクの特徴を融合させ,模倣学習に基づくウェイポイント予測に補助ヘッドを用いる。 我々のマルチタスク機能融合は、CARLAシミュレーターにおいてより安全で完全な道路ナビゲーションのために、広範囲な実験を通じて、ベースネットワークであるTransFuserを拡張し改善する。

Sensor fusion approaches for intelligent self-driving agents remain key to driving scene understanding given visual global contexts acquired from input sensors. Specifically, for the local waypoint prediction task, single-modality networks are still limited by strong dependency on the sensitivity of the input sensor, and thus recent works promote the use of multiple sensors in fusion in feature level. While it is well known that multiple data modalities promote mutual contextual exchange, deployment to practical driving scenarios requires global 3D scene understanding in real-time with minimal computations, thus placing greater significance on training strategies given a limited number of practically usable sensors. In this light, we exploit carefully selected auxiliary tasks that are highly correlated with the target task of interest (e.g., traffic light recognition and semantic segmentation) by fusing auxiliary task features and also using auxiliary heads for waypoint prediction based on imitation learning. Our multi-task feature fusion augments and improves the base network, TransFuser, by significant margins for safer and more complete road navigation in CARLA simulator as validated on the Town05 Benchmark through extensive experiments.
翻訳日:2023-08-07 14:04:56 公開日:2023-08-04
# Eva: 2次最適化のための汎用ベクトル近似フレームワーク

Eva: A General Vectorized Approximation Framework for Second-order Optimization ( http://arxiv.org/abs/2308.02123v1 )

ライセンス: Link先を確認
Lin Zhang, Shaohuai Shi, Bo Li(参考訳) 2階最適化アルゴリズムは、ディープラーニングモデルのトレーニングには優れた収束特性を示すが、しばしば重要な計算とメモリオーバーヘッドを引き起こす。 これにより、確率勾配降下(SGD)のような一階の学習効率が低下する。 本研究では,メモリと時間効率の2次アルゴリズムEvaについて,新しい2つの手法を提案する。 1) 学習データのミニバッチ上の小確率ベクトルのクロネッカー分解を用いて2次情報を構築し,メモリ消費を削減する。 2)シャーマン・モリソン式を用いて行列の逆計算を行わない効率的な更新式を導出する。 さらに、Evaを一般的なベクトル化近似フレームワークに拡張し、2つの既存の2次アルゴリズム(FOOFとShampoo)の計算とメモリ効率を改善する。 異なるモデルとデータセットの大規模な実験結果から、Evaは、それぞれ1次SGDと2次アルゴリズム(K-FACとShampoo)と比較して、エンドツーエンドのトレーニング時間を2.05xと2.42xに短縮している。

Second-order optimization algorithms exhibit excellent convergence properties for training deep learning models, but often incur significant computation and memory overheads. This can result in lower training efficiency than the first-order counterparts such as stochastic gradient descent (SGD). In this work, we present a memory- and time-efficient second-order algorithm named Eva with two novel techniques: 1) we construct the second-order information with the Kronecker factorization of small stochastic vectors over a mini-batch of training data to reduce memory consumption, and 2) we derive an efficient update formula without explicitly computing the inverse of matrices using the Sherman-Morrison formula. We further extend Eva to a general vectorized approximation framework to improve the compute and memory efficiency of two existing second-order algorithms (FOOF and Shampoo) without affecting their convergence performance. Extensive experimental results on different models and datasets show that Eva reduces the end-to-end training time up to 2.05x and 2.42x compared to first-order SGD and second-order algorithms (K-FAC and Shampoo), respectively.
翻訳日:2023-08-07 14:04:36 公開日:2023-08-04
# ParaFuzz: NLPのポゾンサンプル検出のための解釈可能性駆動技術

ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned Samples in NLP ( http://arxiv.org/abs/2308.02122v1 )

ライセンス: Link先を確認
Lu Yan, Zhuo Zhang, Guanhong Tao, Kaiyuan Zhang, Xuan Chen, Guangyu Shen, Xiangyu Zhang(参考訳) バックドア攻撃は自然言語処理(NLP)モデルに対する顕著な脅威として現れており、入力に特定のトリガーが存在することは、これらの入力を所定のターゲットクラスに誤分類するために有毒なモデルを引き起こす可能性がある。 現在の検出メカニズムは、スタイルベースの攻撃のような隠れたバックドア戦略に対処できないため、制限されている。 本研究では,入力の意味的意味を基盤としたモデル予測の解釈可能性に基づく,革新的な試験時間有毒サンプル検出フレームワークを提案する。 我々は、トリガー(例:頻度の低い単語)は、ステルス性を保つために、毒性のあるサンプルの基本的な意味を根本的に変えるものではないと主張する。 この観察に基づき、パラフラージングされたクリーンサンプルに対するモデルの予測は安定していなければならないが、汚染されたサンプルの予測は、パラフラージングプロセス中にトリガーに適用される突然変異によって真のラベルに戻るべきであると仮定した。 我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして採用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。 我々は、ソフトウェア脆弱性の発見によく使われるファジィングを用いて、入力セマンティクスを同時に維持しながらトリガーを効果的に除去できる最適なパラフレーズプロンプトを発見する。 微妙なスタイルのバックドアを含む4種類のバックドア攻撃の実験と、4つの異なるデータセットにより、我々のアプローチがSTRIP、RAP、ONIONなどのベースラインメソッドを精度とリコールで超越していることが示されている。

Backdoor attacks have emerged as a prominent threat to natural language processing (NLP) models, where the presence of specific triggers in the input can lead poisoned models to misclassify these inputs to predetermined target classes. Current detection mechanisms are limited by their inability to address more covert backdoor strategies, such as style-based attacks. In this work, we propose an innovative test-time poisoned sample detection framework that hinges on the interpretability of model predictions, grounded in the semantic meaning of inputs. We contend that triggers (e.g., infrequent words) are not supposed to fundamentally alter the underlying semantic meanings of poisoned samples as they want to stay stealthy. Based on this observation, we hypothesize that while the model's predictions for paraphrased clean samples should remain stable, predictions for poisoned samples should revert to their true labels upon the mutations applied to triggers during the paraphrasing process. We employ ChatGPT, a state-of-the-art large language model, as our paraphraser and formulate the trigger-removal task as a prompt engineering problem. We adopt fuzzing, a technique commonly used for unearthing software vulnerabilities, to discover optimal paraphrase prompts that can effectively eliminate triggers while concurrently maintaining input semantics. Experiments on 4 types of backdoor attacks, including the subtle style backdoors, and 4 distinct datasets demonstrate that our approach surpasses baseline methods, including STRIP, RAP, and ONION, in precision and recall.
翻訳日:2023-08-07 14:04:17 公開日:2023-08-04
# モデルDNAによるモデル存在

Model Provenance via Model DNA ( http://arxiv.org/abs/2308.02121v1 )

ライセンス: Link先を確認
Xin Mu, Yu Wang, Yehong Zhang, Jiaqi Zhang, Hui Wang, Yang Xiang, Yue Yu(参考訳) 機械学習(ML)モデルのライフサイクルを理解することは、興味深い研究分野である(例えば、モデルがどこから来たのか、どのようにトレーニングされ、どのように使用されるかを理解する)。 本稿では,対象モデルと事前学習モデルとの関係を考慮し,対象モデルが対象モデルの証明となるかどうかを判断することを目的とした,この領域における新しい問題,すなわち,MP(Model Provenance)に焦点を当てる。 これは機械学習モデルのセキュリティと知的財産を確保する上で重要な意味を持つ重要な問題であるが、文献にはあまり注目されていない。 このギャップを埋めるために、機械学習モデルのユニークな特徴を表すモデルDNAという新しい概念を導入する。 データ駆動型およびモデル駆動型表現学習法を用いて、モデルの訓練データと入力出力情報をコンパクトで包括的な表現(つまりDNA)として符号化する。 このモデルDNAを用いて、ターゲットモデルの事前学習モデルであるかどうかを識別できるモデル証明同定のための効率的なフレームワークを開発する。 我々は,様々なモデル,データセット,シナリオを用いて,コンピュータビジョンと自然言語処理の両方のタスクの評価を行い,モデルの出所を正確に識別する手法の有効性を実証する。

Understanding the life cycle of the machine learning (ML) model is an intriguing area of research (e.g., understanding where the model comes from, how it is trained, and how it is used). This paper focuses on a novel problem within this field, namely Model Provenance (MP), which concerns the relationship between a target model and its pre-training model and aims to determine whether a source model serves as the provenance for a target model. This is an important problem that has significant implications for ensuring the security and intellectual property of machine learning models but has not received much attention in the literature. To fill in this gap, we introduce a novel concept of Model DNA which represents the unique characteristics of a machine learning model. We utilize a data-driven and model-driven representation learning method to encode the model's training data and input-output information as a compact and comprehensive representation (i.e., DNA) of the model. Using this model DNA, we develop an efficient framework for model provenance identification, which enables us to identify whether a source model is a pre-training model of a target model. We conduct evaluations on both computer vision and natural language processing tasks using various models, datasets, and scenarios to demonstrate the effectiveness of our approach in accurately identifying model provenance.
翻訳日:2023-08-07 14:03:45 公開日:2023-08-04
# 顔料皮膚病変検出のための注意駆動軽量モデル

Attention-Driven Lightweight Model for Pigmented Skin Lesion Detection ( http://arxiv.org/abs/2308.02119v1 )

ライセンス: Link先を確認
Mingzhe Hu, Xiaofeng Yang(参考訳) 本研究は, 皮膚病変検出のための軽量パイプラインで, 不均衡なクラス分布と, 微妙または非典型的病変の出現による課題に対処するものである。 パイプラインはゴースト機能とDFCアテンションメカニズムを活用する軽量モデルを中心に構築され、高性能を維持しながら計算複雑性を低減する。 モデルは、様々な種類の皮膚病変を含むham10000データセットでトレーニングされた。 データセットのクラス不均衡に対処するために、合成マイノリティオーバーサンプリング技術と様々な画像拡張技術を用いた。 このモデルには、クラスレベルとインスタンスレベルの損失関数に異なる重み付けを割り当てる知識ベースの損失重み付け技術も組み込まれており、モデルがマイノリティクラスと挑戦的なサンプルに集中するのに役立つ。 このテクニックでは、クラスレベルとインスタンスレベルという2つのレベルで損失関数に異なる重みを割り当てる。 適切な損失重みを適用することで、モデルはマイノリティクラスと挑戦的なサンプルにより多くの注意を払い、異なる皮膚病変を正しく検出し分類する能力を向上させる。 このモデルは92.4%の精度、84.2%の精度、86.9%のリコール、85.4%のf1スコア、特に良性角膜症様病変(BKL)とNevus(NV)の同定に強い性能を示した。 優れた性能にもかかわらず、モデルの計算コストはいくつかのモデルよりもかなり低く、精度と効率の両方が不可欠である実世界のアプリケーションに最適な解決策となる。

This study presents a lightweight pipeline for skin lesion detection, addressing the challenges posed by imbalanced class distribution and subtle or atypical appearances of some lesions. The pipeline is built around a lightweight model that leverages ghosted features and the DFC attention mechanism to reduce computational complexity while maintaining high performance. The model was trained on the HAM10000 dataset, which includes various types of skin lesions. To address the class imbalance in the dataset, the synthetic minority over-sampling technique and various image augmentation techniques were used. The model also incorporates a knowledge-based loss weighting technique, which assigns different weights to the loss function at the class level and the instance level, helping the model focus on minority classes and challenging samples. This technique involves assigning different weights to the loss function on two levels - the class level and the instance level. By applying appropriate loss weights, the model pays more attention to the minority classes and challenging samples, thus improving its ability to correctly detect and classify different skin lesions. The model achieved an accuracy of 92.4%, a precision of 84.2%, a recall of 86.9%, a f1-score of 85.4% with particularly strong performance in identifying Benign Keratosis-like lesions (BKL) and Nevus (NV). Despite its superior performance, the model's computational cost is considerably lower than some models with less accuracy, making it an optimal solution for real-world applications where both accuracy and efficiency are essential.
翻訳日:2023-08-07 14:03:24 公開日:2023-08-04
# セグメンテーションのためのクラスアクティベーションマップ再考:ノイズ低減による浅い層における意味情報の明確化

Rethinking Class Activation Maps for Segmentation: Revealing Semantic Information in Shallow Layers by Reducing Noise ( http://arxiv.org/abs/2308.02118v1 )

ライセンス: Link先を確認
Hang-Cheng Dong, Yuhao Jiang, Yingyan Huang, Jingxiao Liao, Bingguo Liu, Dong Ye, Guodong Liu(参考訳) クラスアクティベーションマップはディープニューラルネットワークを説明するために広く使われている。 興味のある領域を強調できる能力から、弱教師付き学習の鍵となるステップとして近年発展してきた。 クラス活性化マップの性能に対する大きな制限は、畳み込みニューラルネットワークの最後の層にある特徴マップの小さな空間分解能である。 そこで我々は,高品質な意味情報をもたらす高分解能特徴地図を作成することを期待する。 本稿では,浅層特徴マップにおける意味情報の性質について再考する。 浅い特徴マップは、かなり非ターゲットノイズを混合しながら、細粒度の非識別的特徴を持つことが判明した。 さらに, 正の勾配を遮断して雑音をフィルタする簡易な勾配に基づく雑音除去法を提案する。 提案手法は他のCAM関連手法にも容易に適用可能であり,高品質なクラスアクティベーションマップの取得が容易である。 提案手法は,弱教師付きセマンティックセグメンテーションタスクを通じて評価し,提案手法の有効性を実証する実験を多数実施した。

Class activation maps are widely used for explaining deep neural networks. Due to its ability to highlight regions of interest, it has evolved in recent years as a key step in weakly supervised learning. A major limitation to the performance of the class activation maps is the small spatial resolution of the feature maps in the last layer of the convolutional neural network. Therefore, we expect to generate high-resolution feature maps that result in high-quality semantic information. In this paper, we rethink the properties of semantic information in shallow feature maps. We find that the shallow feature maps still have fine-grained non-discriminative features while mixing considerable non-target noise. Furthermore, we propose a simple gradient-based denoising method to filter the noise by truncating the positive gradient. Our proposed scheme can be easily deployed in other CAM-related methods, facilitating these methods to obtain higher-quality class activation maps. We evaluate the proposed approach through a weakly-supervised semantic segmentation task, and a large number of experiments demonstrate the effectiveness of our approach.
翻訳日:2023-08-07 14:02:55 公開日:2023-08-04
# VQGraph: GNNとMLPをブリッジするためのグラフベクトル量子化

VQGraph: Graph Vector-Quantization for Bridging GNNs and MLPs ( http://arxiv.org/abs/2308.02117v1 )

ライセンス: Link先を確認
Ling Yang, Ye Tian, Minkai Xu, Zhongyi Liu, Shenda Hong, Wei Qu, Wentao Zhang, Bin Cui, Muhan Zhang, Jure Leskovec(参考訳) グラフニューラルネットワーク(gnns)は、ノード表現を更新するためにローカル近傍を集約するメッセージパッシングを実行する。 このようなメッセージパッシングは、実用的なレイテンシ制約のあるアプリケーションではスケーラビリティの問題を引き起こす。 この問題に対処するために、近年の手法では知識蒸留(KD)を用いて、GNNの出力を模倣して計算効率の良い多層パーセプトロン(MLP)を学習している。 しかし、既存のGNN表現空間は、GNNからMPPへの知識伝達を制限する基礎となるグラフの様々な局所構造を表現するのに十分ではないかもしれない。 本稿では,GNN と MLP をブリッジする強力なグラフ表現空間を学習するための新しいフレームワーク VQGraph を提案する。 ベクトル量子化変分オートエンコーダ(VQ-VAE)の変分エンコーダを構造対応グラフトークン化器として採用し,多様な局所構造のノードを多数の離散トークンとして明示的に表現し,有意義なコードブックを構成する。 学習したコードブックを組み、ソフトトークンの割り当てに基づく新しいトークンベースの蒸留目標を提案し、GNN から MLP への構造的知識を十分に伝達する。 広範囲にわたる実験と分析により,GNN-MLP蒸留におけるVQGraphの性能が向上し、7つのグラフデータセットにまたがるトランスダクティブおよびインダクティブな設定が実現された。 その結果、性能が良くなるvqgraphはgnnより828倍速く、gnnやスタンドアローンmlpと比べて平均で3.90%、28.05%の精度向上を達成していることがわかった。 コード:https://github.com/YangLing0818/VQGraph。

Graph Neural Networks (GNNs) conduct message passing which aggregates local neighbors to update node representations. Such message passing leads to scalability issues in practical latency-constrained applications. To address this issue, recent methods adopt knowledge distillation (KD) to learn computationally-efficient multi-layer perceptron (MLP) by mimicking the output of GNN. However, the existing GNN representation space may not be expressive enough for representing diverse local structures of the underlying graph, which limits the knowledge transfer from GNN to MLP. Here we present a novel framework VQGraph to learn a powerful graph representation space for bridging GNNs and MLPs. We adopt the encoder of a variant of a vector-quantized variational autoencoder (VQ-VAE) as a structure-aware graph tokenizer, which explicitly represents the nodes of diverse local structures as numerous discrete tokens and constitutes a meaningful codebook. Equipped with the learned codebook, we propose a new token-based distillation objective based on soft token assignments to sufficiently transfer the structural knowledge from GNN to MLP. Extensive experiments and analyses demonstrate the strong performance of VQGraph, where we achieve new state-of-the-art performance on GNN-MLP distillation in both transductive and inductive settings across seven graph datasets. We show that VQGraph with better performance infers faster than GNNs by 828x, and also achieves accuracy improvement over GNNs and stand-alone MLPs by 3.90% and 28.05% on average, respectively. Code: https://github.com/YangLing0818/VQGraph.
翻訳日:2023-08-07 14:02:41 公開日:2023-08-04
# AdvFAS: 敵対的事例に対する堅牢な対面反偽造フレームワーク

AdvFAS: A robust face anti-spoofing framework against adversarial examples ( http://arxiv.org/abs/2308.02116v1 )

ライセンス: Link先を確認
Jiawei Chen, Xiao Yang, Heng Yin, Mingzhi Ma, Bihui Chen, Jianteng Peng, Yandong Guo, Zhaoxia Yin, Hang Su(参考訳) プレゼンテーション攻撃に対する顔認識システムの信頼性を確保するには、顔を汚す対策が不可欠である。 この領域でかなりの進歩があったにも拘わらず、最も最先端の手法でも敵対的な例に対抗できる能力はいまだに解明されていない。 いくつかの敵防衛戦略が提案されているが、一般的には普遍性、有効性、効率性のトレードオフが避けられないため、制限された実践性に悩まされる。 これらの課題を克服するため,敵意検出と対面防止の関係を徹底的に検討した。 そこで本研究では,2つの組み合わされたスコアを利用して,検出された顔画像と検出された顔画像の正確な識別を行う。 さまざまなアタックやデータセット、バックボーンなど、さまざまな設定でフレームワークの有効性を実証し、クリーンな例では高い精度を享受しています。 さらに,提案手法を実世界の逆例検出に適用した。

Ensuring the reliability of face recognition systems against presentation attacks necessitates the deployment of face anti-spoofing techniques. Despite considerable advancements in this domain, the ability of even the most state-of-the-art methods to defend against adversarial examples remains elusive. While several adversarial defense strategies have been proposed, they typically suffer from constrained practicability due to inevitable trade-offs between universality, effectiveness, and efficiency. To overcome these challenges, we thoroughly delve into the coupled relationship between adversarial detection and face anti-spoofing. Based on this, we propose a robust face anti-spoofing framework, namely AdvFAS, that leverages two coupled scores to accurately distinguish between correctly detected and wrongly detected face images. Extensive experiments demonstrate the effectiveness of our framework in a variety of settings, including different attacks, datasets, and backbones, meanwhile enjoying high accuracy on clean examples. Moreover, we successfully apply the proposed method to detect real-world adversarial examples.
翻訳日:2023-08-07 14:02:10 公開日:2023-08-04
# 中国の金融テキスト感情マイニング:GCGTS -- 文字関係に基づく同時アスペクト・オピニオンペア抽出手法

Chinese Financial Text Emotion Mining: GCGTS -- A Character Relationship-based Approach for Simultaneous Aspect-Opinion Pair Extraction ( http://arxiv.org/abs/2308.02113v1 )

ライセンス: Link先を確認
Qi Chen, Dexi Liu(参考訳) 中国の金融文書からのアスペクト・オピニオン対抽出(aope)は、きめ細かなテキスト感情分析の専門分野である。 主な目的は、さまざまな金融文献からアスペクト用語と意見用語を同時に抽出することである。 従来の研究は主に、この抽出プロセスを容易にするためにグリッドモデル内のグリッドアノテーションスキームの開発に重点を置いてきた。 しかし、これらの手法は文字レベルの特徴符号化に依存しており、単語内の漢字間の論理的関係を見落としてしまうことがある。 そこで本研究では,グラフベースの文字レベルグリッドタグ付けスキーム(gcgts)と呼ばれる新しい手法を提案する。 GCGTS法は、グラフ畳み込みネットワーク(GCN)を用いた構文構造を明示的に取り入れ、同じ構文意味単位(中国語の単語レベル)内で文字の符号化を統一する。 さらに,グリッドモデルに画像畳み込み構造を導入し,評価単位内の文字間の局所的関係をよりよく把握する。 この革新的な構造は、事前訓練された言語モデルへの過度な依存を減らし、構造と局所関係のモデリングを強調し、中国の財務文書におけるモデルの性能を向上させる。 SDRN(Synchronous Double-channel Recurrent Network)やGTS(Grid Tagging Scheme)といった先進モデルとの比較実験により,提案したGCGTSモデルの性能改善を示す。

Aspect-Opinion Pair Extraction (AOPE) from Chinese financial texts is a specialized task in fine-grained text sentiment analysis. The main objective is to extract aspect terms and opinion terms simultaneously from a diverse range of financial texts. Previous studies have mainly focused on developing grid annotation schemes within grid-based models to facilitate this extraction process. However, these methods often rely on character-level (token-level) feature encoding, which may overlook the logical relationships between Chinese characters within words. To address this limitation, we propose a novel method called Graph-based Character-level Grid Tagging Scheme (GCGTS). The GCGTS method explicitly incorporates syntactic structure using Graph Convolutional Networks (GCN) and unifies the encoding of characters within the same syntactic semantic unit (Chinese word level). Additionally, we introduce an image convolutional structure into the grid model to better capture the local relationships between characters within evaluation units. This innovative structure reduces the excessive reliance on pre-trained language models and emphasizes the modeling of structure and local relationships, thereby improving the performance of the model on Chinese financial texts. Through comparative experiments with advanced models such as Synchronous Double-channel Recurrent Network (SDRN) and Grid Tagging Scheme (GTS), the proposed GCGTS model demonstrates significant improvements in performance.
翻訳日:2023-08-07 14:01:52 公開日:2023-08-04
# CTP-Net:Document Image Forgery Localizationのための文字テクスチャ知覚ネットワーク

CTP-Net: Character Texture Perception Network for Document Image Forgery Localization ( http://arxiv.org/abs/2308.02158v1 )

ライセンス: Link先を確認
Xin Liao and Siliang Chen and Jiaxin Chen and Tianyi Wang and Xiehua Li(参考訳) 近年,情報技術の進歩により,文書画像はソーシャルネットワーク上で広く普及している。 強力な画像編集ツールの助けを借りて、ドキュメントイメージは目に見える操作トレースを残すことなく簡単に偽造され、悪意のある使用のために重要な情報が偽造された場合、深刻な問題を引き起こす。 したがって、文書画像鑑定の研究は、さらに探究する価値がある。 文書画像において、特定の意味情報を有する文字は改ざんに対して最も脆弱であり、文字の偽造トレースをキャプチャすることが文書画像における偽造領域のローカライズの鍵となる。 本稿では,文字テクスチャと画像テクスチャの両方を考慮して,文書画像の偽造をローカライズする文字テクスチャ知覚ネットワーク(ctp-net)を提案する。 光文字認識に基づいて、文字テクスチャストリーム(CTS)は、文書画像の必須成分であるテキスト領域の特徴をキャプチャするように設計されている。 一方、文書画像全体のテクスチャ特徴は、画像テクスチャストリーム(ITS)によって活用される。 CTSとITSから抽出された特徴を組み合わせることで、CTP-Netは文書画像からより微妙な偽の痕跡を明らかにすることができる。 偽文書画像の欠如による課題を克服するため,Fake Chinese Trademark dataset (FCTM) の構築に利用されるデータ生成戦略を設計した。 一連の実験を通して,提案したCTP-Netは,特にテキスト領域において,文書画像の改ざんトレースをキャプチャできることを示す。 実験の結果,ctp-netは文書画像中の複数スケールの偽造領域をローカライズし,最先端の偽造ローカライズ手法を上回った。

Due to the progression of information technology in recent years, document images have been widely disseminated in social networks. With the help of powerful image editing tools, document images are easily forged without leaving visible manipulation traces, which leads to severe issues if significant information is falsified for malicious use. Therefore, the research of document image forensics is worth further exploring. In a document image, the character with specific semantic information is most vulnerable to tampering, for which capturing the forgery traces of the character is the key to localizing the forged region in document images. Considering both character and image textures, in this paper, we propose a Character Texture Perception Network (CTP-Net) to localize the forgery of document images. Based on optical character recognition, a Character Texture Stream (CTS) is designed to capture features of text areas that are essential components of a document image. Meanwhile, texture features of the whole document image are exploited by an Image Texture Stream (ITS). Combining the features extracted from the CTS and the ITS, the CTP-Net can reveal more subtle forgery traces from document images. To overcome the challenge caused by the lack of fake document images, we design a data generation strategy that is utilized to construct a Fake Chinese Trademark dataset (FCTM). Through a series of experiments, we show that the proposed CTP-Net is able to capture tampering traces in document images, especially in text regions. Experimental results demonstrate that CTP-Net can localize multi-scale forged areas in document images and outperform the state-of-the-art forgery localization methods.
翻訳日:2023-08-07 13:53:41 公開日:2023-08-04
# 拡散モデルサンプリングのための指数積分器の次数解析と設計の改善

Improved Order Analysis and Design of Exponential Integrator for Diffusion Models Sampling ( http://arxiv.org/abs/2308.02157v1 )

ライセンス: Link先を確認
Qinsheng Zhang and Jiaming Song and Yongxin Chen(参考訳) 効率的な微分方程式解法は高いサンプリング品質を維持しながら拡散モデル(DM)のサンプリング時間を著しく短縮した。 これらの解法のうち、指数積分器 (EI) は最先端の性能を示すことで注目されている。 しかし、既存の高次EIに基づくサンプリングアルゴリズムは退化EIソルバに依存しており、最適条件下での理論的予測結果とは対照的に誤差境界が劣り精度が低下する。 この状況は、サンプリング品質を、タイムステップスケジュールのような一見無害な設計選択に対して極めて脆弱にする。 例えば、非効率なタイムステップスケジューラは、注意深く最適化されたタイムステップによって得られるものと同等の品質を達成するために、ステップの数を2倍必要とします。 この問題に対処するために,dmsのための高階微分ソルバの設計を再評価する。 徹底的な順序解析により,既存の高次EIソルバの劣化は,本質的な順序条件の欠如に起因することが判明した。 DMの微分方程式を再構成し指数積分器の理論に乗じて、全ての順序条件を満たす洗練されたEIソルバを提案し、これをRefined Exponential Solver (RES) と呼ぶ。 これらの改良された解法を用いることで、RESは理論上より好ましい誤差境界を示し、実用的な応用においてより優れたサンプリング効率と安定性を実現する。 例えば、単一ステップのDPM-Solver++ から NFE (Number of Function Evaluations) $=9$ の RES 解決器への簡単な切り替えは、事前訓練された ImageNet 拡散モデル上で、数値欠陥を 25.2\%$ に減らし、FID の改善は 25.4\%$ (16.77 vs 12.51) になる。

Efficient differential equation solvers have significantly reduced the sampling time of diffusion models (DMs) while retaining high sampling quality. Among these solvers, exponential integrators (EI) have gained prominence by demonstrating state-of-the-art performance. However, existing high-order EI-based sampling algorithms rely on degenerate EI solvers, resulting in inferior error bounds and reduced accuracy in contrast to the theoretically anticipated results under optimal settings. This situation makes the sampling quality extremely vulnerable to seemingly innocuous design choices such as timestep schedules. For example, an inefficient timestep scheduler might necessitate twice the number of steps to achieve a quality comparable to that obtained through carefully optimized timesteps. To address this issue, we reevaluate the design of high-order differential solvers for DMs. Through a thorough order analysis, we reveal that the degeneration of existing high-order EI solvers can be attributed to the absence of essential order conditions. By reformulating the differential equations in DMs and capitalizing on the theory of exponential integrators, we propose refined EI solvers that fulfill all the order conditions, which we designate as Refined Exponential Solver (RES). Utilizing these improved solvers, RES exhibits more favorable error bounds theoretically and achieves superior sampling efficiency and stability in practical applications. For instance, a simple switch from the single-step DPM-Solver++ to our order-satisfied RES solver when Number of Function Evaluations (NFE) $=9$, results in a reduction of numerical defects by $25.2\%$ and FID improvement of $25.4\%$ (16.77 vs 12.51) on a pre-trained ImageNet diffusion model.
翻訳日:2023-08-07 13:53:11 公開日:2023-08-04
# SDDM:不対画像変換のためのマニフォールド上のスコア分解拡散モデル

SDDM: Score-Decomposed Diffusion Models on Manifolds for Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2308.02154v1 )

ライセンス: Link先を確認
Shikun Sun, Longhui Wei, Junliang Xing, Jia Jia, Qi Tian(参考訳) 近年のスコアベース拡散モデル (SBDM) は、未ペア画像-画像変換 (I2I) の有望な結果を示している。 しかし、既存の方法(エネルギーベースまたは統計ベース)は干渉された中間生成分布の明示的な形式を提供しない。 本研究は,画像生成時の絡み合った分布を明示的に最適化するために,多様体上に新たなスコア分解拡散モデル(SDDM)を提案する。 SDDMは、隣接する時間ステップの分布を分離可能とし、スコア関数またはエネルギー誘導を画像「デノイング」部分と内容「リファインメント」部分に分解する多様体を導出する。 同じノイズレベルで画像を洗練するために、スコア関数の精製部分とエネルギー誘導を等しくし、多様体上での多目的最適化を可能にする。 また、ブロック適応型インスタンス正規化モジュールを利用して、低次元の多様体を構成するが、それでも摂動参照画像に集中する。 SDDMは既存のSBDM法よりも優れており、I2Iベンチマークでは拡散ステップがはるかに少ない。

Recent score-based diffusion models (SBDMs) show promising results in unpaired image-to-image translation (I2I). However, existing methods, either energy-based or statistically-based, provide no explicit form of the interfered intermediate generative distributions. This work presents a new score-decomposed diffusion model (SDDM) on manifolds to explicitly optimize the tangled distributions during image generation. SDDM derives manifolds to make the distributions of adjacent time steps separable and decompose the score function or energy guidance into an image ``denoising" part and a content ``refinement" part. To refine the image in the same noise level, we equalize the refinement parts of the score function and energy guidance, which permits multi-objective optimization on the manifold. We also leverage the block adaptive instance normalization module to construct manifolds with lower dimensions but still concentrated with the perturbed reference image. SDDM outperforms existing SBDM-based methods with much fewer diffusion steps on several I2I benchmarks.
翻訳日:2023-08-07 13:52:37 公開日:2023-08-04
# ロバストな自己教師付きextrinsic self-calibration

Robust Self-Supervised Extrinsic Self-Calibration ( http://arxiv.org/abs/2308.02153v1 )

ライセンス: Link先を確認
Takayuki Kanai, Igor Vasiljevic, Vitor Guizilini, Adrien Gaidon, and Rares Ambrus(参考訳) 自動運転車とロボットは、効率的に安全にタスクを完了するために、さまざまなシナリオで運用する必要があります。 ビデオからのマルチカメラによる自己監督された単眼深度推定は、追加のセンサーを必要とせず、視覚データから測度的にスケールした幾何学的予測を生成するため、環境を判断するための有望な方法である。 しかし、ほとんどの作品は、精度と効率のよいキャリブレーションが依然として難しい問題であるにもかかわらず、このマルチカメラの設定を十分に活用するために、高度にキャリブレーションされたextrinsicsを仮定している。 本研究では,自己教師型単眼深度と自我運動学習の原理に基づく外因性キャリブレーションの新しい手法を提案する。 提案するカリキュラム学習戦略は, 単眼深度と速度監督を用いた推定器を用いて外在的キャリブレーションを推定し, 奥行きとともに外在的キャリブレーションを共同で学習し, 移動車に厳密に取り付けた重なり合うカメラセットの撮影を行う。 ベンチマーク・マルチカメラ・データセット(DDAD)を用いた実験では,従来の視覚に基づくポーズ推定パイプラインと比較して,様々な場面での自己校正が可能であった。 さらに,共同最適化による深度予測を改善する方法として,外部自己校正の利点を示す。

Autonomous vehicles and robots need to operate over a wide variety of scenarios in order to complete tasks efficiently and safely. Multi-camera self-supervised monocular depth estimation from videos is a promising way to reason about the environment, as it generates metrically scaled geometric predictions from visual data without requiring additional sensors. However, most works assume well-calibrated extrinsics to fully leverage this multi-camera setup, even though accurate and efficient calibration is still a challenging problem. In this work, we introduce a novel method for extrinsic calibration that builds upon the principles of self-supervised monocular depth and ego-motion learning. Our proposed curriculum learning strategy uses monocular depth and pose estimators with velocity supervision to estimate extrinsics, and then jointly learns extrinsic calibration along with depth and pose for a set of overlapping cameras rigidly attached to a moving vehicle. Experiments on a benchmark multi-camera dataset (DDAD) demonstrate that our method enables self-calibration in various scenes robustly and efficiently compared to a traditional vision-based pose estimation pipeline. Furthermore, we demonstrate the benefits of extrinsics self-calibration as a way to improve depth prediction via joint optimization.
翻訳日:2023-08-07 13:52:18 公開日:2023-08-04
# retroformer: ポリシー勾配最適化による大規模言語エージェントの振り返り

Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization ( http://arxiv.org/abs/2308.02151v1 )

ライセンス: Link先を確認
Weiran Yao, Shelby Heinecke, Juan Carlos Niebles, Zhiwei Liu, Yihao Feng, Le Xue, Rithesh Murthy, Zeyuan Chen, Jianguo Zhang, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese(参考訳) 近年,大規模言語モデル(LLM)が,人間からの問い合わせに応答するのではなく,客観的な多段階タスクを単独で実行可能な自律型言語エージェントに拡張される,強力な新しいトレンドが出現している。 しかし、既存の言語エージェントのほとんどは、環境固有の報酬を使って最適化されていない。 一部のエージェントは、言葉によるフィードバックを通じて反復的な洗練を可能にするが、報酬からのグラデーションベースの学習と互換性のある方法では理屈も計画もしない。 本稿では,言語エージェントが環境フィードバックからポリシーグラデーションを通じて自動的に調整するリフレクションモデルを学習することで,大規模言語エージェントを強化するための原則的フレームワークを提案する。 特に,提案するエージェントアーキテクチャは,複数の環境やタスクにまたがる報酬から学習し,事前の失敗と行動計画の根本原因を要約することで,言語エージェントプロンプトを洗練する事前学習した言語モデルを微調整する。 様々なタスクにおける実験結果から,言語エージェントは時間とともに改善し,環境からの勾配を適切に活用しないベースラインをかなり上回ることを示した。 これは、ポリシー勾配の最適化を使用して言語エージェントを改善することを示し、私たちの作業が最初の1つだと信じており、エージェントアーキテクチャの他のモデルを最適化してエージェントのパフォーマンスを時間とともに向上させることに期待できる。

Recent months have seen the emergence of a powerful new trend in which large language models (LLMs) are augmented to become autonomous language agents capable of performing objective oriented multi-step tasks on their own, rather than merely responding to queries from human users. Most existing language agents, however, are not optimized using environment-specific rewards. Although some agents enable iterative refinement through verbal feedback, they do not reason and plan in ways that are compatible with gradient-based learning from rewards. This paper introduces a principled framework for reinforcing large language agents by learning a retrospective model, which automatically tunes the language agent prompts from environment feedback through policy gradient. Specifically, our proposed agent architecture learns from rewards across multiple environments and tasks, for fine-tuning a pre-trained language model which refines the language agent prompt by summarizing the root cause of prior failed attempts and proposing action plans. Experimental results on various tasks demonstrate that the language agents improve over time and that our approach considerably outperforms baselines that do not properly leverage gradients from the environment. This demonstrates that using policy gradient optimization to improve language agents, for which we believe our work is one of the first, seems promising and can be applied to optimize other models in the agent architecture to enhance agent performances over time.
翻訳日:2023-08-07 13:51:55 公開日:2023-08-04
# パレート集合の最適化:多目的最適化の理論について

Optimization on Pareto sets: On a theory of multi-objective optimization ( http://arxiv.org/abs/2308.02145v1 )

ライセンス: Link先を確認
Abhishek Roy, Geelon So, Yi-An Ma(参考訳) 多目的最適化では、単一決定ベクトルは多くの目的間のトレードオフをバランスさせなければならない。 最適なトレードオフを達成するためのソリューションは、Paretoの最適であると言われている。 しかし、パレート最適ベクトルの組は非常に大きいため、パレート集合に制約された選好関数を最適化することを目的として、より実質的に重要なパレート制約付き最適化問題を考える。 制約集合が制約集合であるため,この制約付き最適化問題の解法について検討する。 (i)暗黙的に定義し、 (ii) 目的がそうである場合でも、一般には非凸と非平滑である。 最適性と定常性の概念を定義し、目的が強凸でリプシッツが滑らかな場合、最終定値収束率$O(K^{-1/2})$のアルゴリズムを提供する。

In multi-objective optimization, a single decision vector must balance the trade-offs between many objectives. Solutions achieving an optimal trade-off are said to be Pareto optimal: these are decision vectors for which improving any one objective must come at a cost to another. But as the set of Pareto optimal vectors can be very large, we further consider a more practically significant Pareto-constrained optimization problem, where the goal is to optimize a preference function constrained to the Pareto set. We investigate local methods for solving this constrained optimization problem, which poses significant challenges because the constraint set is (i) implicitly defined, and (ii) generally non-convex and non-smooth, even when the objectives are. We define notions of optimality and stationarity, and provide an algorithm with a last-iterate convergence rate of $O(K^{-1/2})$ to stationarity when the objectives are strongly convex and Lipschitz smooth.
翻訳日:2023-08-07 13:51:30 公開日:2023-08-04
# 連続力学対称性を持つフロッケ系:キャラクタリゼーション、時間依存ネーター電荷、可積分性

Floquet systems with continuous dynamical symmetries: characterization, time-dependent Noether charge, and integrability ( http://arxiv.org/abs/2308.02143v1 )

ライセンス: Link先を確認
Yukio Kaneko and Tatsuhiko N. Ikeda(参考訳) ヒルベルト空間上の時間変換とユニタリ変換からなる連続力学対称性(cds)を持つ量子フロッケ(周期駆動)系について検討する。 離散的なものとは異なり、CDSはハミルトニアン$H(t)$を強く制約し、有限次元固有値問題を解くことでフロケ状態をすべて得ることができる。 さらに、ネーターの定理は時間に依存しない保存電荷をもたらし、その期待値は進化を通して時間に依存しない。 ひずみ項のないダイヤモンドにおける窒素空孔中心の有効モデルであるseminal rabiモデルと回転場におけるハイゼンベルクスピンモデルにおいて、cdsの影響を例示する。 この結果はフロケ状態の体系的な解法を提供し、準エネルギー図のハイブリダイゼーションを避ける方法を説明する。

We study quantum Floquet (periodically-driven) systems having continuous dynamical symmetry (CDS) consisting of a time translation and a unitary transformation on the Hilbert space. Unlike the discrete ones, the CDS strongly constrains the possible Hamiltonians $H(t)$ and allows us to obtain all the Floquet states by solving a finite-dimensional eigenvalue problem. Besides, Noether's theorem leads to a time-dependent conservation charge, whose expectation value is time-independent throughout evolution. We exemplify these consequences of CDS in the seminal Rabi model, an effective model of a nitrogen-vacancy center in diamonds without strain terms, and Heisenberg spin models in rotating fields. Our results provide a systematic way of solving for Floquet states and explain how they avoid hybridization in quasienergy diagrams.
翻訳日:2023-08-07 13:51:17 公開日:2023-08-04
# tweet insights: twitterから時間的洞察を抽出する可視化プラットフォーム

Tweet Insights: A Visualization Platform to Extract Temporal Insights from Twitter ( http://arxiv.org/abs/2308.02142v1 )

ライセンス: Link先を確認
Daniel Loureiro and Kiamehr Rezaee and Talayeh Riahi and Francesco Barbieri and Leonardo Neves and Luis Espinosa Anke and Jose Camacho-Collados(参考訳) 本稿では、単語埋め込み技術を用いて後処理したTwitterから派生した時系列データと、特殊な微調整言語モデルを紹介する。 このデータは過去5年間に渡り、n-gram頻度、類似性、感情、トピック分布の変化を捉えている。 このデータの上に構築されたインターフェイスは、感情やトピックの関連といったトレンドメトリクスへの補完的な情報を含む意味の変化を検出し、特徴付けするための時間分析を可能にする。 簡単な実験のためのオンラインデモをリリースし、将来的な作業のためのコードと基盤となる集約データを共有します。 本稿では,我々のプラットフォームのおかげで解錠された3つのケーススタディについても論じ,時間的言語学的分析の可能性を示す。

This paper introduces a large collection of time series data derived from Twitter, postprocessed using word embedding techniques, as well as specialized fine-tuned language models. This data comprises the past five years and captures changes in n-gram frequency, similarity, sentiment and topic distribution. The interface built on top of this data enables temporal analysis for detecting and characterizing shifts in meaning, including complementary information to trending metrics, such as sentiment and topic association over time. We release an online demo for easy experimentation, and we share code and the underlying aggregated data for future work. In this paper, we also discuss three case studies unlocked thanks to our platform, showcasing its potential for temporal linguistic analysis.
翻訳日:2023-08-07 13:50:59 公開日:2023-08-04
# 物理対応畳み込みニューラルネットワークを用いた二次元非圧縮性ナビエ・ストークス方程式の解作用素の学習

Learning the solution operator of two-dimensional incompressible Navier-Stokes equations using physics-aware convolutional neural networks ( http://arxiv.org/abs/2308.02137v1 )

ライセンス: Link先を確認
Viktor Grimm, Alexander Heinlein, Axel Klawonn(参考訳) 近年,機械学習に物理を導入するという概念が広く普及している。 しかし、物理に特有なmlテクニークのほとんどは、依然として単一の幾何学やパラメトリブルなジオメトリに制限されている。 したがって、たとえわずかに修正されていなくても、新しい幾何学のための新しいモデルをトレーニングする必要がある。 本研究では,パラメトリゼーションを必要とせず,種々の幾何学における定常ナビエ-ストークス方程式の近似解を学習する手法を提案する。 本手法は, 有限差分法の分野におけるU-NetライクなCNNとよく確立された離散化手法を組み合わせたもので, 物理認識型CNNの結果を最先端のデータベース手法と比較する。 さらに、データベースのアプローチと組み合わせることで、我々のアプローチがどのように機能するかを示す。

In recent years, the concept of introducing physics to machine learning has become widely popular. Most physics-inclusive ML-techniques however are still limited to a single geometry or a set of parametrizable geometries. Thus, there remains the need to train a new model for a new geometry, even if it is only slightly modified. With this work we introduce a technique with which it is possible to learn approximate solutions to the steady-state Navier--Stokes equations in varying geometries without the need of parametrization. This technique is based on a combination of a U-Net-like CNN and well established discretization methods from the field of the finite difference method.The results of our physics-aware CNN are compared to a state-of-the-art data-based approach. Additionally, it is also shown how our approach performs when combined with the data-based approach.
翻訳日:2023-08-07 13:50:46 公開日:2023-08-04
# バックファイア効果の量子力学的モデル:反対意見への露出による意見過激化の非対称性の捕捉

Quantum-mechanical model of the backfire effect: Capturing the asymmetry of opinion radicalization due to exposure to opposing views ( http://arxiv.org/abs/2308.02132v1 )

ライセンス: Link先を確認
Ivan S. Maksymov and Ganna Pogrebna(参考訳) 本研究では,人間の信念を物理系の量子化エネルギーレベルとして表す量子力学モデルを提案する。 このモデルは、意見過激化の非対称性を示す幅広い実験的および実世界のデータを再現し、意見力学に関する新しい視点を浮き彫りにしている。 特に、このモデルは、個人が反対の見解に晒されているときに、保守主義と軽度リベラル主義を区別する現象を示し、ソーシャルメディアによる意見の偏見に関する最近の知見を反映している。 このモデルを進化させ、物理学、心理学、哲学の要素を統合する堅固な枠組みを確立し、伝統的な古典的モデルよりも量子的アプローチの本質的な利点を強調する。 本研究は,量子力学の法則を用いた心理学的,行動的,意思決定的現象の解明に向けた継続的な取り組みを強化する。 これらの結果は量子心の仮説にさらなる支持を与え、最も過激な意見は必ずしも最も確固たる信念を反映するものではなく、強い主張と不快な見解への露出によって導かれることを示唆している。

We propose a quantum-mechanical model that represents a human system of beliefs as quantized energy levels of a physical system. This model underscores a novel perspective on opinion dynamics, recreating a broad range of experimental and real-world data that exhibit an asymmetry of opinion radicalization. In particular, the model demonstrates the phenomena of pronounced conservatism versus mild liberalism when individuals are exposed to opposing views, mirroring recent findings on opinion polarization via social media exposure. Advancing this model, we establish a solid framework that integrates elements from physics, psychology, and philosophy, and also emphasize the inherent advantages of the quantum approach over traditional classical models. Our findings enhance ongoing efforts to elucidate psychological, behavioral, and decision-making phenomena using the laws of quantum mechanics. These results also lend additional support to the quantum mind hypothesis, suggesting that the most radicalized opinions may not necessarily mirror the most firmly held beliefs but are driven by strongly held opinions and exposure to dissenting views.
翻訳日:2023-08-07 13:50:31 公開日:2023-08-04
# 自律運転における異常検出のための合成異常生成

Synthetic outlier generation for anomaly detection in autonomous driving ( http://arxiv.org/abs/2308.02184v1 )

ライセンス: Link先を確認
Martin Bikandi, Gorka Velez, Naiara Aginako and Itziar Irigoien(参考訳) 異常検出(anomaly detection)あるいは異常検出(outlier detection)は、確立されたパターンやデータの大部分から著しく逸脱するインスタンスを特定するために、さまざまなドメインにおいて重要なタスクである。 自動運転の文脈では、異常や異常なサンプルではディープラーニングモデルが過信を示すことが多いため、安全性-クリティカルインシデントを防ぐために異常の識別が特に重要である。 本研究では,画像セマンティクスセグメンテーションモデルを異常検出モジュールを用いて学習するための異なる戦略について検討する。 最先端DenseHybridモデルのトレーニング段階に改良を加えることで,異常検出における大幅な性能向上を実現した。 さらに,DenseHybridモデルの性能を上回りながら,改良したDenseHybrid手法に匹敵する結果が得られる簡易検出器を提案する。 以上より,提案手法が自律運転の文脈における異常検出に有効であることを示す。

Anomaly detection, or outlier detection, is a crucial task in various domains to identify instances that significantly deviate from established patterns or the majority of data. In the context of autonomous driving, the identification of anomalies is particularly important to prevent safety-critical incidents, as deep learning models often exhibit overconfidence in anomalous or outlier samples. In this study, we explore different strategies for training an image semantic segmentation model with an anomaly detection module. By introducing modifications to the training stage of the state-of-the-art DenseHybrid model, we achieve significant performance improvements in anomaly detection. Moreover, we propose a simplified detector that achieves comparable results to our modified DenseHybrid approach, while also surpassing the performance of the original DenseHybrid model. These findings demonstrate the efficacy of our proposed strategies for enhancing anomaly detection in the context of autonomous driving.
翻訳日:2023-08-07 13:44:09 公開日:2023-08-04
# AutoML4ETC: リアルタイム暗号化トラフィック分類のためのニューラルネットワークの自動検索

AutoML4ETC: Automated Neural Architecture Search for Real-World Encrypted Traffic Classification ( http://arxiv.org/abs/2308.02182v1 )

ライセンス: Link先を確認
Navid Malekghaini, Elham Akbari, Mohammad A. Salahuddin, Noura Limam, Raouf Boutaba, Bertrand Mathieu, Stephanie Moteau, Stephane Tuffin(参考訳) deep learning (dl) は、実験環境での暗号化されたネットワークトラフィックの分類にうまく適用されている。 しかし, 製造において, DL分類器の性能は時間とともに必然的に低下することが示されている。 新たなデータセットでモデルを再トレーニングすることで、パフォーマンスが部分的に向上することが示されている。 新しいデータセットのパフォーマンス期待に応えるために、手動でモデルアーキテクチャを再調整するのは時間がかかり、ドメインの専門知識が必要です。 暗号化トラヒック分類のための効率良く高性能なニューラルアーキテクチャを自動設計する新しいツールであるautoml4etcを提案する。 パケットヘッダバイトを用いた暗号化トラフィックのほぼリアルタイムな分類に特化して,新しい強力な検索空間を定義する。 検索空間上の異なる検索戦略により、AutoML4ETCは、Orangeモバイルネットワークから収集された公開ベンチマークデータセットや実世界のTLS、QUICトラフィックを含む、いくつかのデータセット上で最先端の暗号化されたトラフィック分類器を上回る、ニューラルネットワークを生成する。 より正確なことに加えて、AutoML4ETCのアーキテクチャはパラメータの数に関してはるかに効率的で軽量である。 最後に、将来の研究のためにAutoML4ETCを公開します。

Deep learning (DL) has been successfully applied to encrypted network traffic classification in experimental settings. However, in production use, it has been shown that a DL classifier's performance inevitably decays over time. Re-training the model on newer datasets has been shown to only partially improve its performance. Manually re-tuning the model architecture to meet the performance expectations on newer datasets is time-consuming and requires domain expertise. We propose AutoML4ETC, a novel tool to automatically design efficient and high-performing neural architectures for encrypted traffic classification. We define a novel, powerful search space tailored specifically for the near real-time classification of encrypted traffic using packet header bytes. We show that with different search strategies over our search space, AutoML4ETC generates neural architectures that outperform the state-of-the-art encrypted traffic classifiers on several datasets, including public benchmark datasets and real-world TLS and QUIC traffic collected from the Orange mobile network. In addition to being more accurate, AutoML4ETC's architectures are significantly more efficient and lighter in terms of the number of parameters. Finally, we make AutoML4ETC publicly available for future research.
翻訳日:2023-08-07 13:43:53 公開日:2023-08-04
# 大規模言語モデルを用いた臨床試験のスケーリング:オンコロジーを事例として

Scaling Clinical Trial Matching Using Large Language Models: A Case Study in Oncology ( http://arxiv.org/abs/2308.02180v1 )

ライセンス: Link先を確認
Cliff Wong, Sheng Zheng, Yu Gu, Christine Moung, Jacob Abel, Naoto Usuyama, Roshanthi Weerasinghe, Brian Piening, Tristan Naumann, Carlo Bifulco, Hoifung Poon(参考訳) 臨床試験マッチングは、医療提供と発見の重要なプロセスである。 実際には、非構造化データの圧倒的増加と手作業による処理に苦しめられている。 本稿では,大規模言語モデル(llm)を用いた臨床試験マッチングのスケールアップに関する体系的研究を行い,オンコロジーを焦点領域とした。 今回の研究は、米国の大規模健康ネットワークで現在テスト展開中の臨床試験マッチングシステムに基づいている。 gpt-4のような最先端のllmは、臨床試験の精巧な適性基準をすでに構築でき、複雑なマッチングロジック(例えばnestedや/または/not)を抽出することができる。 まだまだ完璧には程遠いが、LSMは以前の強いベースラインを大きく上回っており、患者と臨床の候補者をループに巻き込むための予備的な解決策として機能する可能性がある。 また, 長期医療記録から患者情報を構造化する際の文脈制限や精度など, LLMをエンドツーエンドの臨床試験マッチングに適用するための重要な成長領域も明らかにした。

Clinical trial matching is a key process in health delivery and discovery. In practice, it is plagued by overwhelming unstructured data and unscalable manual processing. In this paper, we conduct a systematic study on scaling clinical trial matching using large language models (LLMs), with oncology as the focus area. Our study is grounded in a clinical trial matching system currently in test deployment at a large U.S. health network. Initial findings are promising: out of box, cutting-edge LLMs, such as GPT-4, can already structure elaborate eligibility criteria of clinical trials and extract complex matching logic (e.g., nested AND/OR/NOT). While still far from perfect, LLMs substantially outperform prior strong baselines and may serve as a preliminary solution to help triage patient-trial candidates with humans in the loop. Our study also reveals a few significant growth areas for applying LLMs to end-to-end clinical trial matching, such as context limitation and accuracy, especially in structuring patient information from longitudinal medical records.
翻訳日:2023-08-07 13:43:34 公開日:2023-08-04
# トランスを用いたシーン認識型ヒューマンポーズ生成

Scene-aware Human Pose Generation using Transformer ( http://arxiv.org/abs/2308.02177v1 )

ライセンス: Link先を確認
Jieteng Yao, Junjie Chen, Li Niu, Bin Sheng(参考訳) Affordance Learningは、シーンにおけるアクターのインタラクション機会を考慮し、シーン理解とインテリジェントなロボティクスに広く応用されている。 本稿では,コンテキストアフォーアンスをコンテキストとして使用することで,シーンにおける合理的な人間のポーズを生成する,コンテキストアフォーアンス学習に着目した。 既存のシーン認識型ポーズ生成手法は、ポーズテンプレートを使用するかどうかによって2つのカテゴリに分けられる。 提案手法は,代表的なポーズテンプレートの恩恵を受けるテンプレートベースのカテゴリに属する。 さらに,最近のtransformerベースの手法に触発されて,各クエリ埋め込みをポーズテンプレートに関連付け,クエリ埋め込みとシーン特徴マップ間のインタラクションを用いて,各ポーズテンプレートのスケールとオフセットを効果的に予測する。 また,予測されたスケールのオフセット学習を容易にするため,知識蒸留を用いる。 Sitcomデータセットの総合実験により,本手法の有効性が示された。

Affordance learning considers the interaction opportunities for an actor in the scene and thus has wide application in scene understanding and intelligent robotics. In this paper, we focus on contextual affordance learning, i.e., using affordance as context to generate a reasonable human pose in a scene. Existing scene-aware human pose generation methods could be divided into two categories depending on whether using pose templates. Our proposed method belongs to the template-based category, which benefits from the representative pose templates. Moreover, inspired by recent transformer-based methods, we associate each query embedding with a pose template, and use the interaction between query embeddings and scene feature map to effectively predict the scale and offsets for each pose template. In addition, we employ knowledge distillation to facilitate the offset learning given the predicted scale. Comprehensive experiments on Sitcom dataset demonstrate the effectiveness of our method.
翻訳日:2023-08-07 13:43:16 公開日:2023-08-04
# マイトショットとマルチタスクコントラスト学習による感情的ビデオデータセットの効率的なラベリング

Efficient Labelling of Affective Video Datasets via Few-Shot & Multi-Task Contrastive Learning ( http://arxiv.org/abs/2308.02173v1 )

ライセンス: Link先を確認
Ravikiran Parameshwara, Ibrahim Radwan, Akshay Asthana, Iman Abbasnejad, Ramanathan Subramanian and Roland Goecke(参考訳) 深層学習技術は優れた感情予測を達成しているが、それでも大量のラベル付きトレーニングデータが必要である。 (a)コンパイルが面倒で面倒で、 (b)誤りや偏見がちである。 本稿では, 影響表現のためのマルチタスクコントラスト学習 (\textbf{MT-CLAR}) を提案する。 MT-CLARは、マルチタスク学習とコントラスト学習によって訓練されたシームズネットワークを組み合わせることで、一対の表情画像から推測する a) 表情の相似性、および (b)2つの顔の価値と覚醒レベルの差。 さらに,自動ビデオラベリングのための画像ベースのmt-clarフレームワークを拡張し,ラベル付きビデオフレーム( \textit{support-set} と呼ばれる)を1つまたは数個与えた場合,残りのビデオは valence と arousal でラベル付けされる。 さらに、MT-CLARを介して学習した表現に対する教師付き学習は、AffectNetとAFEW-VAデータセット上での原子価、覚醒、カテゴリー的感情予測に使用される。 その結果,MT-CLARによる精度と覚醒予測は最先端のSOTA(State-of-the-art)に非常によく似ており,ビデオデータセットの6倍の容量でSOTAをはるかに上回っていることがわかった。

Whilst deep learning techniques have achieved excellent emotion prediction, they still require large amounts of labelled training data, which are (a) onerous and tedious to compile, and (b) prone to errors and biases. We propose Multi-Task Contrastive Learning for Affect Representation (\textbf{MT-CLAR}) for few-shot affect inference. MT-CLAR combines multi-task learning with a Siamese network trained via contrastive learning to infer from a pair of expressive facial images (a) the (dis)similarity between the facial expressions, and (b) the difference in valence and arousal levels of the two faces. We further extend the image-based MT-CLAR framework for automated video labelling where, given one or a few labelled video frames (termed \textit{support-set}), MT-CLAR labels the remainder of the video for valence and arousal. Experiments are performed on the AFEW-VA dataset with multiple support-set configurations; moreover, supervised learning on representations learnt via MT-CLAR are used for valence, arousal and categorical emotion prediction on the AffectNet and AFEW-VA datasets. The results show that valence and arousal predictions via MT-CLAR are very comparable to the state-of-the-art (SOTA), and we significantly outperform SOTA with a support-set $\approx$6\% the size of the video dataset.
翻訳日:2023-08-07 13:43:00 公開日:2023-08-04
# 読んだことを語る - 情緒的・状況的帰属によるニュースコメントの行動の理解

You talk what you read: Understanding News Comment Behavior by Dispositional and Situational Attribution ( http://arxiv.org/abs/2308.02168v1 )

ライセンス: Link先を確認
Yuhang Wang, Yuxiang Zhang, Dongyuan Lu and Jitao Sang(参考訳) 多くのニュースコメントマイニング研究は、コメントが対応するニュースに明示的に関連しているという仮定に基づいている。 本稿では,ユーザのコメントもインタラクション履歴に具現化された個性の影響を強く受けていることを確認した。 そこで本稿では,ニュース対話履歴の処分要因と対応ニュースの状況要因の両方を考慮し,ニュースコメントの行動を理解する立場にある。 ニュースコメントの生成過程をモデル化するための3部エンコーダ・デコーダフレームワークを提案する。 その結果,利用者の関心や意見の理解に寄与し,読者認識型ニュース要約やニュースアスペクトオピニオン予測の応用において検証される。

Many news comment mining studies are based on the assumption that comment is explicitly linked to the corresponding news. In this paper, we observed that users' comments are also heavily influenced by their individual characteristics embodied by the interaction history. Therefore, we position to understand news comment behavior by considering both the dispositional factors from news interaction history, and the situational factors from corresponding news. A three-part encoder-decoder framework is proposed to model the generative process of news comment. The resultant dispositional and situational attribution contributes to understanding user focus and opinions, which are validated in applications of reader-aware news summarization and news aspect-opinion forecasting.
翻訳日:2023-08-07 13:42:31 公開日:2023-08-04
# 拡散確率モデルによる結晶構造生成モデリングのための変分オートエンコーダの拡張

Diffusion probabilistic models enhance variational autoencoder for crystal structure generative modeling ( http://arxiv.org/abs/2308.02165v1 )

ライセンス: Link先を確認
Teerachote Pakornchote, Natthaphon Choomphon-anomakhun, Sorrjit Arrerut, Chayanon Atthapak, Sakarn Khamkaeo, Thiparat Chotibut, Thiti Bovornratanaraks(参考訳) 結晶拡散変動オートエンコーダ(CDVAE)は、スコアマッチングを利用して結晶対称性を保持する現実的な結晶構造を生成する機械学習モデルである。 本研究では,cdvaeにおける標準スコアマッチング手法ではなく,新しい拡散確率(dp)モデルを用いて原子座標を推定する。 提案するDP-CDVAEモデルでは,元のCDVAEと統計的に比較可能な特性を持つ結晶構造を再構成し,生成することができる。 さらに, DP-CDVAEモデルにより生成された炭素構造と密度汎関数理論計算から得られた緩和構造とを比較すると, DP-CDVAE生成構造はそれぞれの基底状態にかなり近いことがわかった。 これらの構造と真の基底状態の間のエネルギー差は、元のCDVAEによって生成されたものよりも平均68.1 meV/atom低い。 このエネルギー精度の大幅な向上は、DP-CDVAEモデルが基底状態の構成をより良く表現する結晶構造を生成する上での有効性を強調している。

The crystal diffusion variational autoencoder (CDVAE) is a machine learning model that leverages score matching to generate realistic crystal structures that preserve crystal symmetry. In this study, we leverage novel diffusion probabilistic (DP) models to denoise atomic coordinates rather than adopting the standard score matching approach in CDVAE. Our proposed DP-CDVAE model can reconstruct and generate crystal structures whose qualities are statistically comparable to those of the original CDVAE. Furthermore, notably, when comparing the carbon structures generated by the DP-CDVAE model with relaxed structures obtained from density functional theory calculations, we find that the DP-CDVAE generated structures are remarkably closer to their respective ground states. The energy differences between these structures and the true ground states are, on average, 68.1 meV/atom lower than those generated by the original CDVAE. This significant improvement in the energy accuracy highlights the effectiveness of the DP-CDVAE model in generating crystal structures that better represent their ground-state configurations.
翻訳日:2023-08-07 13:42:20 公開日:2023-08-04
# 弱アノテーションを用いたビデオオブジェクトセグメンテーションの学習

Learning Referring Video Object Segmentation from Weak Annotation ( http://arxiv.org/abs/2308.02162v1 )

ライセンス: Link先を確認
Wangbo Zhao, Kepan Nan, Songyang Zhang, Kai Chen, Dahua Lin, Yang You(参考訳) RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化するタスクである。 従来のRVOS手法は、高コストで時間を要する高密度なアノテートデータセットで大きなパフォーマンスを実現している。 セグメンテーションの十分な監督を維持しつつ,データアノテーションの負担を軽減するため,まず被写体がマスクで現れるフレームをラベル付けし,その後のフレームにバウンディングボックスを使用する新たなアノテーション手法を提案する。 このスキームに基づいて,この弱いアノテーションから学習する手法を提案する。 具体的には,言語誘導動的フィルタを用いて意味のあるマスクアノテーションとバウンディングボックスを徹底的に活用するクロスフレームセグメンテーションを設計する。 さらに,二段階のコントラスト学習法を開発し,モデルの画素レベルでの識別表現の学習を促す。 本手法は,高密度マスクアノテーションを必要とせずに,競争性能を実現することができることを示す。 コードはhttps://github.com/wangbo-zhao/WRVOS/で入手できる。

Referring video object segmentation (RVOS) is a task that aims to segment the target object in all video frames based on a sentence describing the object. Previous RVOS methods have achieved significant performance with densely-annotated datasets, whose construction is expensive and time-consuming. To relieve the burden of data annotation while maintaining sufficient supervision for segmentation, we propose a new annotation scheme, in which we label the frame where the object first appears with a mask and use bounding boxes for the subsequent frames. Based on this scheme, we propose a method to learn from this weak annotation. Specifically, we design a cross frame segmentation method, which uses the language-guided dynamic filters to thoroughly leverage the valuable mask annotation and bounding boxes. We further develop a bi-level contrastive learning method to encourage the model to learn discriminative representation at the pixel level. Extensive experiments and ablative analyses show that our method is able to achieve competitive performance without the demand of dense mask annotation. The code will be available at https://github.com/wangbo-zhao/WRVOS/.
翻訳日:2023-08-07 13:42:00 公開日:2023-08-04
# m2former: きめ細かい視覚認識のためのマルチスケールパッチ選択

M2Former: Multi-Scale Patch Selection for Fine-Grained Visual Recognition ( http://arxiv.org/abs/2308.02161v1 )

ライセンス: Link先を確認
Jiyong Moon, Junseok Lee, Yunju Lee, and Seongsik Park(参考訳) 近年,視覚変換器 (ViT) は細粒度視覚認識 (FGVR) に積極的に応用されている。 ViTは、固有の自己認識機構を通じて、パッチ分割対象領域間の相互依存性を効果的にモデル化することができる。 さらに、ViTでパッチ選択を使用して冗長なパッチ情報を削除し、最も識別性の高いオブジェクトパッチをハイライトする。 しかし、既存のVTベースのFGVRモデルはシングルスケールの処理に限られており、その固定された受容場は表現の豊かさを阻害し、変動性を拡大する脆弱性を悪化させる。 そこで本稿では,既存のViTベースモデルのマルチスケール機能を改善するために,マルチスケールパッチ選択(MSPS)を提案する。 具体的には、ms-vit(multi-scale vision transformer)の異なる段階で異なるスケールのサルエントパッチを選択する。 さらに、クラストークン転送(CTT)とマルチスケールクロスアテンション(MSCA)を導入し、選択したマルチスケールパッチ間のクロススケールインタラクションをモデル化し、モデル決定でそれらを完全に反映する。 従来の単一スケールパッチ選択(ssps)と比較して,提案するmspsは機能階層に基づくリッチなオブジェクト表現を奨励し,小型から大規模オブジェクトのパフォーマンスを一貫して向上させる。 その結果,広く使用されているFGVRベンチマークにおいて,CNN/ViTモデルよりも優れたM2Formerを提案する。

Recently, vision Transformers (ViTs) have been actively applied to fine-grained visual recognition (FGVR). ViT can effectively model the interdependencies between patch-divided object regions through an inherent self-attention mechanism. In addition, patch selection is used with ViT to remove redundant patch information and highlight the most discriminative object patches. However, existing ViT-based FGVR models are limited to single-scale processing, and their fixed receptive fields hinder representational richness and exacerbate vulnerability to scale variability. Therefore, we propose multi-scale patch selection (MSPS) to improve the multi-scale capabilities of existing ViT-based models. Specifically, MSPS selects salient patches of different scales at different stages of a multi-scale vision Transformer (MS-ViT). In addition, we introduce class token transfer (CTT) and multi-scale cross-attention (MSCA) to model cross-scale interactions between selected multi-scale patches and fully reflect them in model decisions. Compared to previous single-scale patch selection (SSPS), our proposed MSPS encourages richer object representations based on feature hierarchy and consistently improves performance from small-sized to large-sized objects. As a result, we propose M2Former, which outperforms CNN-/ViT-based models on several widely used FGVR benchmarks.
翻訳日:2023-08-07 13:41:40 公開日:2023-08-04
# スクリプト音声の話者ダイアリゼーション

Speaker Diarization of Scripted Audiovisual Content ( http://arxiv.org/abs/2308.02160v1 )

ライセンス: Link先を確認
Yogesh Virkar, Brian Thompson, Rohit Paturi, Sundararajan Srinivasan, Marcello Federico(参考訳) メディアのローカライゼーション産業は通常、外国語で字幕やダビングの脚本を作成するために、最終映画やテレビ制作の口頭文字を必要とする。 特に、動詞尾文字(すなわちas-broadcastスクリプト)は、時間符号、話者名、書き起こしを含む対話行の列に構成されなければならない。 現在の音声認識技術は、転写ステップを緩和する。 しかし、最先端の話者ダイアリゼーションモデルは2つの主な理由から、まだテレビ番組では不足している。 (i)多数の話者を追跡できないこと。 (2)頻繁な話者変化を検出する際の低い精度。 この問題を軽減するため,撮影中に使用する生産スクリプトを活用し,話者ダイアリゼーションタスクに対して擬似ラベルデータを抽出する新しい手法を提案する。 我々は,新しい半教師付きアプローチを提案し,66のshowテストセットにおいて,教師なしの2つの基準モデルと比較して51.7%の改善を示す。

The media localization industry usually requires a verbatim script of the final film or TV production in order to create subtitles or dubbing scripts in a foreign language. In particular, the verbatim script (i.e. as-broadcast script) must be structured into a sequence of dialogue lines each including time codes, speaker name and transcript. Current speech recognition technology alleviates the transcription step. However, state-of-the-art speaker diarization models still fall short on TV shows for two main reasons: (i) their inability to track a large number of speakers, (ii) their low accuracy in detecting frequent speaker changes. To mitigate this problem, we present a novel approach to leverage production scripts used during the shooting process, to extract pseudo-labeled data for the speaker diarization task. We propose a novel semi-supervised approach and demonstrate improvements of 51.7% relative to two unsupervised baseline models on our metrics on a 66 show test set.
翻訳日:2023-08-07 13:41:16 公開日:2023-08-04
# 連合学習: 組織的機会、挑戦、導入戦略

Federated Learning: Organizational Opportunities, Challenges, and Adoption Strategies ( http://arxiv.org/abs/2308.02219v1 )

ライセンス: Link先を確認
Joaquin Delgado Fernandez, Martin Brennecke, Tom Barbereau, Alexander Rieger, Gilbert Fridgen(参考訳) 多くの産業におけるデータ共有の制限ルールは、 \ac{FL} の開発につながっている。 \ac{FL} は \ac{ML} のテクニックで、分散クライアントは、各トレーニングデータを他の人と共有することなく、協調的にモデルをトレーニングできる。 本稿では,まずflの技術的基礎とその応用可能性について考察する。 第2に,組織をその能力と環境のラインに沿ってマッピングする,‘ac{FL}’の採用に関する概念的枠組みを提案する。 次に, 産業界, 既成銀行, 公的機関, データ集約中小企業など, 異なる産業分野の組織が, 異なるアプローチを考慮すべき理由について論じる。 結論として, ビジネスと情報システム工学のコミュニティにとって, 学際的な研究機会が豊富であるような制度的な変化が生じることを論じる。

Restrictive rules for data sharing in many industries have led to the development of \ac{FL}. \ac{FL} is a \ac{ML} technique that allows distributed clients to train models collaboratively without the need to share their respective training data with others. In this article, we first explore the technical basics of FL and its potential applications. Second, we present a conceptual framework for the adoption of \ac{FL}, mapping organizations along the lines of their \ac{AI} capabilities and environment. We then discuss why exemplary organizations in different industries, including industry consortia, established banks, public authorities, and data-intensive SMEs might consider different approaches to \ac{FL}. To conclude, we argue that \ac{FL} presents an institutional shift with ample interdisciplinary research opportunities for the business and information systems engineering community.
翻訳日:2023-08-07 13:33:31 公開日:2023-08-04
# balanced classification:long-tailed object detectionのための統一フレームワーク

Balanced Classification: A Unified Framework for Long-Tailed Object Detection ( http://arxiv.org/abs/2308.02213v1 )

ライセンス: Link先を確認
Tianhao Qi, Hongtao Xie, Pandeng Li, Jiannan Ge, Yongdong Zhang(参考訳) 従来の検出器は、大多数の頭部カテゴリに対する分類バイアスのため、ロングテールデータを扱う際に性能低下に苦しむ。 本稿では,学習バイアスは2つの要因から生じると論じる。 1)前景カテゴリーの不均衡分布に起因する不平等競争及び 2)尾部分類におけるサンプル多様性の欠如。 そこで本研究では, カテゴリー分布の相違に起因する不等式を適応的整列化し, 標本の多様性を同期的に強化する, バランスド分類(bacl)と呼ばれる統一的枠組みを提案する。 具体的には, ペアワイズクラスアウェアマージンと自己調整重量項を導入して, 頭部分類の可視性を改善し, 分化の難しい分類に注意を移す新しい前景分類バランス損失(fcbl)を開発した。 この損失は、不平等競争の文脈におけるテールカテゴリの過剰な抑制を妨げる。 さらに,特徴空間における尾のカテゴリの表現を補足する動的特徴幻覚モジュール (FHM) を提案する。 この分割型アプローチでは、BACLはLVISベンチマークを非結合のトレーニングパイプラインで新しい最先端に設定し、ResNet-50-FPNのバニラFaster R-CNNを5.8%APと16.1%APで上回った。 広範な実験により、baclは異なるバックボーンとアーキテクチャを持つさまざまなデータセットで一貫してパフォーマンス改善を達成している。 コードとモデルはhttps://github.com/tianhao-qi/baclで入手できる。

Conventional detectors suffer from performance degradation when dealing with long-tailed data due to a classification bias towards the majority head categories. In this paper, we contend that the learning bias originates from two factors: 1) the unequal competition arising from the imbalanced distribution of foreground categories, and 2) the lack of sample diversity in tail categories. To tackle these issues, we introduce a unified framework called BAlanced CLassification (BACL), which enables adaptive rectification of inequalities caused by disparities in category distribution and dynamic intensification of sample diversities in a synchronized manner. Specifically, a novel foreground classification balance loss (FCBL) is developed to ameliorate the domination of head categories and shift attention to difficult-to-differentiate categories by introducing pairwise class-aware margins and auto-adjusted weight terms, respectively. This loss prevents the over-suppression of tail categories in the context of unequal competition. Moreover, we propose a dynamic feature hallucination module (FHM), which enhances the representation of tail categories in the feature space by synthesizing hallucinated samples to introduce additional data variances. In this divide-and-conquer approach, BACL sets a new state-of-the-art on the challenging LVIS benchmark with a decoupled training pipeline, surpassing vanilla Faster R-CNN with ResNet-50-FPN by 5.8% AP and 16.1% AP for overall and tail categories. Extensive experiments demonstrate that BACL consistently achieves performance improvements across various datasets with different backbones and architectures. Code and models are available at https://github.com/Tianhao-Qi/BACL.
翻訳日:2023-08-07 13:33:15 公開日:2023-08-04
# 生成レコメンデーションのためのパーソナライズされたプロンプトモデル検索に向けて

Towards Personalized Prompt-Model Retrieval for Generative Recommendation ( http://arxiv.org/abs/2308.02205v1 )

ライセンス: Link先を確認
Yuanhe Guo, Haoming Liu, Hongyi Wen(参考訳) Recommender Systemsは、ユーザの情報ニーズを満たすために、関連するアイテムを取得するために構築されている。 候補コーパスは通常、ビデオ、製品、記事など、提供可能なアイテムの有限セットで構成されている。 gptや拡散モデルのような最近の生成aiの進歩により、パーソナライズされたプロンプトを持つ生成モデルによってアイテムが作成される新しい形の推奨タスクはまだ検討されていない。 画像生成を例として、ユーザからの1つのプロンプトと生成モデルへのアクセスによって、数分で数百の新しい画像を生成することができる。 infinite"項目の前でパーソナライゼーションを実現するには,どうすればよいのか? 本稿では,新しいタスクの定式化にアプローチするために,Prompt-Model RetrievalとGenerated Item Rankingという2段階のフレームワークを提案する。 GEMRec-18Kは、公開可能な200の生成モデルと90のテキストプロンプトの組み合わせによって生成される18K画像とのプロンプトモデル相互作用データセットである。 本研究は,新しいパーソナライゼーション問題としての生成モデル推薦の期待と既存の評価基準の限界を示す。 RecSysコミュニティが生成レコメンデーションシステムに進むための今後の方向性を強調します。 私たちのコードとデータセットはhttps://github.com/MAPS-research/GEMRecで公開されています。

Recommender Systems are built to retrieve relevant items to satisfy users' information needs. The candidate corpus usually consists of a finite set of items that are ready to be served, such as videos, products, or articles. With recent advances in Generative AI such as GPT and Diffusion models, a new form of recommendation task is yet to be explored where items are to be created by generative models with personalized prompts. Taking image generation as an example, with a single prompt from the user and access to a generative model, it is possible to generate hundreds of new images in a few minutes. How shall we attain personalization in the presence of "infinite" items? In this preliminary study, we propose a two-stage framework, namely Prompt-Model Retrieval and Generated Item Ranking, to approach this new task formulation. We release GEMRec-18K, a prompt-model interaction dataset with 18K images generated by 200 publicly-available generative models paired with a diverse set of 90 textual prompts. Our findings demonstrate the promise of generative model recommendation as a novel personalization problem and the limitations of existing evaluation metrics. We highlight future directions for the RecSys community to advance towards generative recommender systems. Our code and dataset are available at https://github.com/MAPS-research/GEMRec.
翻訳日:2023-08-07 13:32:46 公開日:2023-08-04
# SoK:ゴースト・トリレンマ

SoK: The Ghost Trilemma ( http://arxiv.org/abs/2308.02202v1 )

ライセンス: Link先を確認
S.Mukherjee, S.Ravi, P.Schmitt, B.Raghavan(参考訳) トロル、ボット、シビルはオンラインの会話を歪め、ネットワーク化されたプラットフォームのセキュリティを侵害する。 ユーザアイデンティティは、これらのコンテキストで使用される攻撃と操作のベクターの中心である。 しかし、そうやってみても、セキュリティコミュニティはこのような問題の潮流を食い止めることができなかったように思える。 我々は、完全分散環境では同時に検証できないアイデンティティー、位置、ユニーク性という3つの重要な特性が存在するというゴーストのトリレンマを仮定する。 コミュニケーションであれ社会的調整であれ、多くの完全に分散されたシステムは、何らかの形でこのトリレンマに悩まされている。 設計空間,ユースケース,事前アプローチの問題,今後の方向性について検討する。 我々は、このトリレンマの証明をスケッチし、集中型信頼アンカーに対する信頼のトレードオフ、分散運用、および様々な攻撃に耐えながらユーザーのプライバシーを保護できる能力を実現するために、実用的な、段階的なデプロイ可能なスキームの選択肢を概説する。

Trolls, bots, and sybils distort online discourse and compromise the security of networked platforms. User identity is central to the vectors of attack and manipulation employed in these contexts. However it has long seemed that, try as it might, the security community has been unable to stem the rising tide of such problems. We posit the Ghost Trilemma, that there are three key properties of identity -- sentience, location, and uniqueness -- that cannot be simultaneously verified in a fully-decentralized setting. Many fully-decentralized systems -- whether for communication or social coordination -- grapple with this trilemma in some way, perhaps unknowingly. We examine the design space, use cases, problems with prior approaches, and possible paths forward. We sketch a proof of this trilemma and outline options for practical, incrementally deployable schemes to achieve an acceptable tradeoff of trust in centralized trust anchors, decentralized operation, and an ability to withstand a range of attacks, while protecting user privacy.
翻訳日:2023-08-07 13:32:24 公開日:2023-08-04
# スペインにおける臨床言語モデルの検討

A Survey of Spanish Clinical Language Models ( http://arxiv.org/abs/2308.02199v1 )

ライセンス: Link先を確認
Guillem Garc\'ia Subies, \'Alvaro Barbero Jim\'enez, Paloma Mart\'inez Fern\'andez(参考訳) 本調査は, スペイン語臨床領域における課題を解決するエンコーダ言語モデルに焦点をあてた。 臨床研究に焦点を絞った17コーポラの貢献をレビューし,関連するスペイン語モデルとスペイン語臨床言語モデルをリストアップした。 本研究では,これらのモデルについて,利用可能なコーパスのキュレートされたサブセットに対してベンチマークを行い,最高の性能のコーパスを求めることで,徹底的に比較を行った。 テストされたコーパスと最良のモデルは、すべてアクセス可能な方法で公開され、その結果は独立したチームによって再現されるか、新しいスペイン臨床言語モデルが作成されたときに将来挑戦される。

This survey focuses in encoder Language Models for solving tasks in the clinical domain in the Spanish language. We review the contributions of 17 corpora focused mainly in clinical tasks, then list the most relevant Spanish Language Models and Spanish Clinical Language models. We perform a thorough comparison of these models by benchmarking them over a curated subset of the available corpora, in order to find the best-performing ones; in total more than 3000 models were fine-tuned for this study. All the tested corpora and the best models are made publically available in an accessible way, so that the results can be reproduced by independent teams or challenged in the future when new Spanish Clinical Language models are created.
翻訳日:2023-08-07 13:32:03 公開日:2023-08-04
# スパイクニューラルネットワークの局所学習を改良したペア競合ニューロン

Paired Competing Neurons Improving STDP Supervised Local Learning In Spiking Neural Networks ( http://arxiv.org/abs/2308.02194v1 )

ライセンス: Link先を確認
Gaspard Goupy, Pierre Tirilly, Ioan Marius Bilasco(参考訳) ニューロモルフィックハードウェアを用いたスパイクニューラルネットワーク(snn)の直接トレーニングは、現代のコンピュータにおける人工ニューラルネットワーク(anns)トレーニングの高エネルギー消費を大幅に削減する可能性がある。 SNNの生物学的妥当性は、スパイク・タイピング・依存塑性(STDP)のようなバイオインスパイアされた可塑性規則の恩恵を受けることができる。 STDPは勾配のない教師なしの局所学習を提供し、ニューロモルフィックハードウェアで容易に実装できる。 しかし、教師なしSTDPにのみ依存して分類処理を行うだけでは不十分である。 本稿では、教師なしSTDPを備えたSNNの分類層をトレーニングするための教師付きSTDP学習ルールである安定化STDP(S2-STDP)を提案する。 S2-STDPは、神経細胞スパイクを層内の平均発射時間に由来する所望のタイムスタンプと整列するエラー変調重み更新を統合する。 そこで,我々はPaired Competing Neurons (PCN) と呼ばれる学習アーキテクチャを導入し,S2-STDPで訓練した分類層の学習能力をさらに向上させる。 PCNは各クラスとペアニューロンを関連付け、クラス内競争を通じてニューロンの特殊化を促進する。 提案手法は,MNIST,Fashion-MNIST,CIFAR-10などの画像認識データセットに対して評価を行った。 以上の結果から,本手法は現在のSTDPベース技術よりも優れた性能を示し,同程度のアーキテクチャとニューロン数を示した。 また,pcnの使用により,構成にかかわらずs2-stdpの性能が向上し,ハイパーパラメータを導入することなく性能が向上した。

Direct training of Spiking Neural Networks (SNNs) on neuromorphic hardware has the potential to significantly reduce the high energy consumption of Artificial Neural Networks (ANNs) training on modern computers. The biological plausibility of SNNs allows them to benefit from bio-inspired plasticity rules, such as Spike Timing-Dependent Plasticity (STDP). STDP offers gradient-free and unsupervised local learning, which can be easily implemented on neuromorphic hardware. However, relying solely on unsupervised STDP to perform classification tasks is not enough. In this paper, we propose Stabilized Supervised STDP (S2-STDP), a supervised STDP learning rule to train the classification layer of an SNN equipped with unsupervised STDP. S2-STDP integrates error-modulated weight updates that align neuron spikes with desired timestamps derived from the average firing time within the layer. Then, we introduce a training architecture called Paired Competing Neurons (PCN) to further enhance the learning capabilities of our classification layer trained with S2-STDP. PCN associates each class with paired neurons and encourages neuron specialization through intra-class competition. We evaluated our proposed methods on image recognition datasets, including MNIST, Fashion-MNIST, and CIFAR-10. Results showed that our methods outperform current supervised STDP-based state of the art, for comparable architectures and numbers of neurons. Also, the use of PCN enhances the performance of S2-STDP, regardless of the configuration, and without introducing any hyperparameters.Further analysis demonstrated that our methods exhibited improved hyperparameter robustness, which reduces the need for tuning.
翻訳日:2023-08-07 13:31:50 公開日:2023-08-04
# 意味表現を用いた関係分類モデルの説明

Explaining Relation Classification Models with Semantic Extents ( http://arxiv.org/abs/2308.02193v1 )

ライセンス: Link先を確認
Lars Kl\"oser, Andre B\"usgen, Philipp Kohl, Bodo Kraft, Albert Z\"undorf(参考訳) 近年,BERT や GPT といった大規模事前学習型言語モデルの開発は,関係分類を含む様々なタスクにおける情報抽出システムを大幅に改善している。 最先端システムは科学的ベンチマークでは極めて正確である。 説明責任の欠如は、多くの現実世界のアプリケーションで現在複雑になっている要素である。 包括的システムは偏見、直観、有害な決定を防止するために必要である。 関係分類タスクにおける決定パターンを解析する概念である意味範囲を導入する。 意味範囲は分類決定に関するテキストの最も影響力のある部分である。 我々の定義では、同様の手順で人間とモデルの意味範囲を決定できる。 人間やモデルの意味範囲を便利かつ再現的に決定するためのアノテーションツールとソフトウェアフレームワークを提供する。 両者を比較すると、モデルはデータからショートカットパターンを学ぶ傾向がある。 これらのパターンは、入力の削減など、現在の解釈可能性法では検出が難しい。 このアプローチは、モデル開発中に散発的な決定パターンを検出し、排除するのに役立つ。 意味的範囲は自然言語処理システムの信頼性と安全性を高める。 セマンティックな範囲は、医療や金融といった重要な分野の応用を可能にするための重要なステップである。 さらに,本研究は,深層学習モデルを説明する手法の開発に向けた新たな研究方向を開く。

In recent years, the development of large pretrained language models, such as BERT and GPT, significantly improved information extraction systems on various tasks, including relation classification. State-of-the-art systems are highly accurate on scientific benchmarks. A lack of explainability is currently a complicating factor in many real-world applications. Comprehensible systems are necessary to prevent biased, counterintuitive, or harmful decisions. We introduce semantic extents, a concept to analyze decision patterns for the relation classification task. Semantic extents are the most influential parts of texts concerning classification decisions. Our definition allows similar procedures to determine semantic extents for humans and models. We provide an annotation tool and a software framework to determine semantic extents for humans and models conveniently and reproducibly. Comparing both reveals that models tend to learn shortcut patterns from data. These patterns are hard to detect with current interpretability methods, such as input reductions. Our approach can help detect and eliminate spurious decision patterns during model development. Semantic extents can increase the reliability and security of natural language processing systems. Semantic extents are an essential step in enabling applications in critical areas like healthcare or finance. Moreover, our work opens new research directions for developing methods to explain deep learning models.
翻訳日:2023-08-07 13:31:25 公開日:2023-08-04
# ES-MVSNet: エンドツーエンドのマルチビューステレオのための効率的なフレームワーク

ES-MVSNet: Efficient Framework for End-to-end Self-supervised Multi-View Stereo ( http://arxiv.org/abs/2308.02191v1 )

ライセンス: Link先を確認
Qiang Zhou, Chaohui Yu, Jingliang Li, Yuang Liu, Jing Wang, Zhibin Wang(参考訳) 多段自己監督型マルチビューステレオ (MVS) 法と比較して, 高精度かつ効率的なトレーニングパイプラインにより, エンドツーエンド (E2E) アプローチが注目されている。 最近のE2E自己監督型MVSアプローチでは、サードパーティモデル(光学フローモデル、セマンティックセグメンテーションモデル、NeRFモデルなど)を統合して、さらなる一貫性の制約を提供し、GPUメモリの消費を増大させ、モデルの構造とトレーニングパイプラインを複雑化する。 本研究では、ES-MVSNetと呼ばれるエンドツーエンドのMVSのための効率的なフレームワークを提案する。 e2e自己教師付きmvsフレームワークの高メモリ消費を緩和するために、モデル性能を損なうことなくメモリ使用量を43%削減するメモリ効率の高いアーキテクチャを提案する。 さらに、非対称なビュー選択ポリシーと領域認識深度整合性の設計により、新たな整合性信号に対するサードパーティモデルに頼ることなく、E2E自己監督型MVS手法の最先端性能を実現する。 DTU と Tanks&Temples ベンチマークの大規模な実験により、ES-MVSNet の手法は、E2E の自己監督型 MVS 手法の最先端性能と、多数の教師付きおよび多段階の自己監督型手法の競合性能を実現することを示した。

Compared to the multi-stage self-supervised multi-view stereo (MVS) method, the end-to-end (E2E) approach has received more attention due to its concise and efficient training pipeline. Recent E2E self-supervised MVS approaches have integrated third-party models (such as optical flow models, semantic segmentation models, NeRF models, etc.) to provide additional consistency constraints, which grows GPU memory consumption and complicates the model's structure and training pipeline. In this work, we propose an efficient framework for end-to-end self-supervised MVS, dubbed ES-MVSNet. To alleviate the high memory consumption of current E2E self-supervised MVS frameworks, we present a memory-efficient architecture that reduces memory usage by 43% without compromising model performance. Furthermore, with the novel design of asymmetric view selection policy and region-aware depth consistency, we achieve state-of-the-art performance among E2E self-supervised MVS methods, without relying on third-party models for additional consistency signals. Extensive experiments on DTU and Tanks&Temples benchmarks demonstrate that the proposed ES-MVSNet approach achieves state-of-the-art performance among E2E self-supervised MVS methods and competitive performance to many supervised and multi-stage self-supervised methods.
翻訳日:2023-08-07 13:31:11 公開日:2023-08-04
# Emo-DNA:クロスコーパス音声認識のための感情分離とアライメント学習

Emo-DNA: Emotion Decoupling and Alignment Learning for Cross-Corpus Speech Emotion Recognition ( http://arxiv.org/abs/2308.02190v1 )

ライセンス: Link先を確認
Jiaxin Ye and Yujie Wei and Xin-Cheng Wen and Chenglong Ma and Zhizhong Huang and Kunhong Liu and Hongming Shan(参考訳) クロスコーパス音声感情認識(ser:cross-corpus speech emotion recognition)は、よくラベル付けされたコーパスからラベルなしのコーパスへ音声感情を推測する能力を一般化することを目的としている。 非教師なしドメイン適応(unsupervised domain adaptation:uda)に基づいた既存の手法では、グローバル分布アライメントによるコーパス不変特徴の学習に苦慮するが、残念ながら、結果として得られる特徴はコーパス固有の特徴と混合され、クラス差別的でない。 これらの課題に対処するため、我々は、感情関連コーパス不変の特徴を学習する新しいUDA手法であるクロスコーパスSERのための新しい感情デカップリングaNdアライメント学習フレームワーク(EMO-DNA)を提案する。 EMO-DNAの新規性は、対照的な感情分離と二重レベルの感情アライメントである。 一方,コントラスト的感情分離は,コントラスト的感情分離による学習の分離を実現し,コーパス特有の特徴との感情関連特徴の分離性を高める。 一方,デュアルレベル感情アライメントでは,クラスレベルアライメントのための自信のあるターゲットサンプルを選択できる適応しきい値擬似ラベルを導入し,コーパスレベルアライメントによってコーパス全体にわたるクラス識別コーパス不変特徴の学習を行う。 複数のクロスコーパスシナリオにおける最先端手法よりもEMO-DNAの方が優れた性能を示す。 ソースコードはhttps://github.com/Jiaxin-Ye/Emo-DNAで入手できる。

Cross-corpus speech emotion recognition (SER) seeks to generalize the ability of inferring speech emotion from a well-labeled corpus to an unlabeled one, which is a rather challenging task due to the significant discrepancy between two corpora. Existing methods, typically based on unsupervised domain adaptation (UDA), struggle to learn corpus-invariant features by global distribution alignment, but unfortunately, the resulting features are mixed with corpus-specific features or not class-discriminative. To tackle these challenges, we propose a novel Emotion Decoupling aNd Alignment learning framework (EMO-DNA) for cross-corpus SER, a novel UDA method to learn emotion-relevant corpus-invariant features. The novelties of EMO-DNA are two-fold: contrastive emotion decoupling and dual-level emotion alignment. On one hand, our contrastive emotion decoupling achieves decoupling learning via a contrastive decoupling loss to strengthen the separability of emotion-relevant features from corpus-specific ones. On the other hand, our dual-level emotion alignment introduces an adaptive threshold pseudo-labeling to select confident target samples for class-level alignment, and performs corpus-level alignment to jointly guide model for learning class-discriminative corpus-invariant features across corpora. Extensive experimental results demonstrate the superior performance of EMO-DNA over the state-of-the-art methods in several cross-corpus scenarios. Source code is available at https://github.com/Jiaxin-Ye/Emo-DNA.
翻訳日:2023-08-07 13:30:42 公開日:2023-08-04
# ドメイン適応を用いた偽ニュースから超党派ニュースへ

From Fake to Hyperpartisan News Detection Using Domain Adaptation ( http://arxiv.org/abs/2308.02185v1 )

ライセンス: Link先を確認
R\u{a}zvan-Alexandru Sm\u{a}du, Sebastian-Vasile Echim, Dumitru-Clementin Cercel, Iuliana Marin, Florin Pop(参考訳) Unsupervised Domain Adaptation (UDA)は、2つのデータ分散間のドメインシフトを減らすことを目的とした一般的なテクニックである。 コンピュータビジョンと自然言語処理にうまく応用された。 本研究では,偽ニュース検出と超党派ニュース検出という2つのテキスト分類タスク間における,教師なしドメイン適応手法の効果について検討する。 トレーニング中にターゲットラベルを含まない偽ニュースから超党派ニュース検出への知識伝達について検討した。 そこで我々は,UDA,教師とのクラスタアライメント,ドメイン間のコントラスト学習を評価する。 広範な実験により、これらの技術は性能が向上するが、データ拡張を含むとさらに結果が向上することが示された。 さらに,クラスタリングとトピックモデリングアルゴリズムを UDA と組み合わせることで,最初の UDA セットアップと比較して性能が向上した。

Unsupervised Domain Adaptation (UDA) is a popular technique that aims to reduce the domain shift between two data distributions. It was successfully applied in computer vision and natural language processing. In the current work, we explore the effects of various unsupervised domain adaptation techniques between two text classification tasks: fake and hyperpartisan news detection. We investigate the knowledge transfer from fake to hyperpartisan news detection without involving target labels during training. Thus, we evaluate UDA, cluster alignment with a teacher, and cross-domain contrastive learning. Extensive experiments show that these techniques improve performance, while including data augmentation further enhances the results. In addition, we combine clustering and topic modeling algorithms with UDA, resulting in improved performances compared to the initial UDA setup.
翻訳日:2023-08-07 13:30:14 公開日:2023-08-04
# FB-BEV: 前向き視点変換によるBEV表現

FB-BEV: BEV Representation from Forward-Backward View Transformations ( http://arxiv.org/abs/2308.02236v1 )

ライセンス: Link先を確認
Zhiqi Li, Zhiding Yu, Wenhai Wang, Anima Anandkumar, Tong Lu, Jose M. Alvarez(参考訳) ビュートランスフォーメーションモジュール(VTM)は、多視点画像特徴とバードアイビュー(BEV)表現の間の変換を行うもので、カメラベースのBEV認識システムにおいて重要なステップである。 現在、最も顕著な2つのVTMパラダイムは前方投影と後方投影である。 Lift-Splat-Shootで表されるフォワードプロジェクションは、後処理なしでわずかにプロジェクションされたBEV機能をもたらす。 後方投影は、BEVFormerを例にとり、奥行き利用の欠如により、誤った投影から偽陽性のBEV特徴を生成する傾向にある。 上記の制限に対処するため、我々は新しい前方ビュー変換モジュールを提案する。 提案手法は,両手法の欠点を補うもので,両者が相互に高品質なBEV表現を得ることを可能にする。 我々は提案したモジュールをFB-BEVでインスタンス化し、nuScenesテストセット上で62.4\% NDSの最先端結果を達成する。 コードは \url{https://github.com/NVlabs/FB-BEV} でリリースされる。

View Transformation Module (VTM), where transformations happen between multi-view image features and Bird-Eye-View (BEV) representation, is a crucial step in camera-based BEV perception systems. Currently, the two most prominent VTM paradigms are forward projection and backward projection. Forward projection, represented by Lift-Splat-Shoot, leads to sparsely projected BEV features without post-processing. Backward projection, with BEVFormer being an example, tends to generate false-positive BEV features from incorrect projections due to the lack of utilization on depth. To address the above limitations, we propose a novel forward-backward view transformation module. Our approach compensates for the deficiencies in both existing methods, allowing them to enhance each other to obtain higher quality BEV representations mutually. We instantiate the proposed module with FB-BEV, which achieves a new state-of-the-art result of 62.4\% NDS on the nuScenes test set. The code will be released at \url{https://github.com/NVlabs/FB-BEV}.
翻訳日:2023-08-07 13:24:57 公開日:2023-08-04
# Sinhala- English Parallel Word Dictionary データセット

Sinhala-English Parallel Word Dictionary Dataset ( http://arxiv.org/abs/2308.02234v1 )

ライセンス: Link先を確認
Kasun Wickramasinghe, Nisansa de Silva(参考訳) 並列データセットは、あらゆる種類の多言語タスクの実行と評価に不可欠である。 しかし,1つの言語ペアが低リソース言語である場合,コーパスなどの既存のトップダウン並列データには,人間のアノテーションの劣化による高い品質と品質が欠落している。 そのため、低リソース言語では、辞書データセットのようなより粒度の細かいペアが最初に開発されるボトムアップ方向に移動することが可能である。 次に、教師付き多言語単語埋め込みアライメントのような中レベルのタスクに使用できる。 これらは後に機械翻訳(mt)に使用される文や段落のコーパスの順に上位レベルのタスクを導くことができる。 大規模なコーパスを低リソース言語で生成し調整するよりもアプローチしやすいが、より大きな研究機関からの無関心の理由と同じ理由から、これらの細かい粒度のデータセットでさえ、低リソース言語には不足している。 我々は、低リソース言語であるsinhalaに対して、無料かつオープンな辞書データセットが存在しないことを観察した。 そこで本研究では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。 本稿では、データセット作成パイプラインと、データセットの品質を検証するために実施したテストの実験結果について説明する。 データセットと関連するスクリプトはhttps://github.com/kasunw22/sinhala-para-dictで入手できる。

Parallel datasets are vital for performing and evaluating any kind of multilingual task. However, in the cases where one of the considered language pairs is a low-resource language, the existing top-down parallel data such as corpora are lacking in both tally and quality due to the dearth of human annotation. Therefore, for low-resource languages, it is more feasible to move in the bottom-up direction where finer granular pairs such as dictionary datasets are developed first. They may then be used for mid-level tasks such as supervised multilingual word embedding alignment. These in turn can later guide higher-level tasks in the order of aligning sentence or paragraph text corpora used for Machine Translation (MT). Even though more approachable than generating and aligning a massive corpus for a low-resource language, for the same reason of apathy from larger research entities, even these finer granular data sets are lacking for some low-resource languages. We have observed that there is no free and open dictionary data set for the low-resource language, Sinhala. Thus, in this work, we introduce three parallel English-Sinhala word dictionaries (En-Si-dict-large, En-Si-dict-filtered, En-Si-dict-FastText) which help in multilingual Natural Language Processing (NLP) tasks related to English and Sinhala languages. In this paper, we explain the dataset creation pipeline as well as the experimental results of the tests we have carried out to verify the quality of the data sets. The data sets and the related scripts are available at https://github.com/kasunw22/sinhala-para-dict.
翻訳日:2023-08-07 13:24:39 公開日:2023-08-04
# EDFA波長依存性ゲインのモデル化のための自己Normalizing Neural Network, One Shot Transfer Learning

Self-Normalizing Neural Network, Enabling One Shot Transfer Learning for Modeling EDFA Wavelength Dependent Gain ( http://arxiv.org/abs/2308.02233v1 )

ライセンス: Link先を確認
Agastya Raj, Zehao Wang, Frank Slyne, Tingjun Chen, Dan Kilper, Marco Ruffini(参考訳) 本稿では,半教師付き自己正規化ニューラルネットワークに基づいて,複数のedfaの波長依存性利得をモデル化する新しいmlフレームワークを提案する。 オープンアイルランドおよびCOSMOSテストベッドにおける22のEDFA実験は、異なるアンプタイプで操作しても高精度なトランスファー学習を示す。

We present a novel ML framework for modeling the wavelength-dependent gain of multiple EDFAs, based on semi-supervised, self-normalizing neural networks, enabling one-shot transfer learning. Our experiments on 22 EDFAs in Open Ireland and COSMOS testbeds show high-accuracy transfer-learning even when operated across different amplifier types.
翻訳日:2023-08-07 13:24:09 公開日:2023-08-04
# Webスクラッドデータを信頼すべきだろうか?

Should we trust web-scraped data? ( http://arxiv.org/abs/2308.02231v1 )

ライセンス: Link先を確認
Jens Foerderer(参考訳) 実証的な研究者によるエコノメトリと機械学習のアプローチの採用が増加し、ひとつのデータ収集手法であるWebスクレイピングが広く使われるようになった。 ウェブスクレーピング(英語: web scraping)とは、コンピュータプログラムを自動化してウェブサイトにアクセスし、コンテンツをダウンロードすることを指す。 この論文の重要な論点は、na\"ive web scraping procedureが収集したデータのバイアスをサンプリングする可能性があることである。 本稿では,webスクレイプデータのサンプリングバイアスの3つの源について述べる。 より具体的には、サンプリングバイアスは、webコンテンツが揮発性(すなわち変化の対象となる)、パーソナライズされた(要求特性に応答して提示された)、非インデックス(すなわち人口登録の豊富さ)から生じます。 一連の例では、サンプリングバイアスの頻度と大きさを説明します。 研究者やレビュアーを支援するため,Webスクラッドデータにおけるサンプリングバイアスの予測,検出,克服を推奨する。

The increasing adoption of econometric and machine-learning approaches by empirical researchers has led to a widespread use of one data collection method: web scraping. Web scraping refers to the use of automated computer programs to access websites and download their content. The key argument of this paper is that na\"ive web scraping procedures can lead to sampling bias in the collected data. This article describes three sources of sampling bias in web-scraped data. More specifically, sampling bias emerges from web content being volatile (i.e., being subject to change), personalized (i.e., presented in response to request characteristics), and unindexed (i.e., abundance of a population register). In a series of examples, I illustrate the prevalence and magnitude of sampling bias. To support researchers and reviewers, this paper provides recommendations on anticipating, detecting, and overcoming sampling bias in web-scraped data.
翻訳日:2023-08-07 13:24:03 公開日:2023-08-04
# 拡散モデルを用いた画家画像の調和

Painterly Image Harmonization using Diffusion Model ( http://arxiv.org/abs/2308.02228v1 )

ライセンス: Link先を確認
Lingxiao Lu, Jiangtong Li, Junyan Cao, Li Niu, and Liqing Zhang(参考訳) 絵画に写真オブジェクトを挿入し、芸術的に一貫性のある合成画像を得る。 このタスクの以前の方法は、主に推論の最適化や生成的な逆ネットワークに依存しているが、それらは非常に時間を要するか、前景のオブジェクト(例えばテクスチャやコンテンツの詳細)の細かい制御に苦労している。 これらの問題に対処するため,我々は,軽量適応エンコーダとデュアルエンコーダ融合(def)モジュールを備えた,新しい画家調和安定拡散モデル(phdiffusion)を提案する。 具体的には、適応エンコーダとDEFモジュールは、まず各エンコーダ内の前景機能をスタイリングする。 そして、両エンコーダのスタイリングされた前景特徴を組み合わせて調和過程を導出する。 トレーニング中,拡散モデルにおけるノイズ損失に加えて,コンテンツ損失とAdaINスタイルの損失とコントラストスタイルの損失という2つのスタイルの損失も採用し,スタイルマイグレーションとコンテンツ保存のトレードオフのバランスを図る。 関連分野の最先端モデルと比較して,我々のphdiffusionは前景を十分にスタイリッシュし,より細かいコンテンツを同時に保持できる。 私たちのコードとモデルはhttps://github.com/bcmi/phdiffusion-painterly-image-harmonizationで利用可能です。

Painterly image harmonization aims to insert photographic objects into paintings and obtain artistically coherent composite images. Previous methods for this task mainly rely on inference optimization or generative adversarial network, but they are either very time-consuming or struggling at fine control of the foreground objects (e.g., texture and content details). To address these issues, we propose a novel Painterly Harmonization stable Diffusion model (PHDiffusion), which includes a lightweight adaptive encoder and a Dual Encoder Fusion (DEF) module. Specifically, the adaptive encoder and the DEF module first stylize foreground features within each encoder. Then, the stylized foreground features from both encoders are combined to guide the harmonization process. During training, besides the noise loss in diffusion model, we additionally employ content loss and two style losses, i.e., AdaIN style loss and contrastive style loss, aiming to balance the trade-off between style migration and content preservation. Compared with the state-of-the-art models from related fields, our PHDiffusion can stylize the foreground more sufficiently and simultaneously retain finer content. Our code and model are available at https://github.com/bcmi/PHDiffusion-Painterly-Image-Harmonization.
翻訳日:2023-08-07 13:23:45 公開日:2023-08-04
# 異なる複雑さレベルに文章を言い換える学習

Learning to Paraphrase Sentences to Different Complexity Levels ( http://arxiv.org/abs/2308.02226v1 )

ライセンス: Link先を確認
Alison Chi, Li-Kuang Chen, Yi-Chen Chang, Shu-Hui Lee, Jason S. Chang(参考訳) 文の単純化はNLPにおいて活発な研究課題であるが、その隣接する文の複雑化や同レベルのパラフレーズ化はそうではない。 3つのタスクすべてでモデルをトレーニングするために、教師なしデータセットを2つ提示する。 弱い分類器でラベル付けされたデータセットとルールベースのアプローチでラベル付けされたデータセットとを、教師付きデータセットで比較する。 これら3つのデータセットをトレーニングに使用し,マルチタスクとプロンプト戦略の両方について広範な実験を行った。 教師なし並列データで訓練された他のシステムと比較して、弱い分類器ラベル付きデータセットで訓練されたモデルは、ASSET単純化ベンチマークで最先端のパフォーマンスを達成する。 私たちのモデルは、文レベルのターゲティングに関する以前の作業よりも優れています。 最後に,一握りの大規模言語モデルがゼロショット設定でこれらのタスクでどのように機能するかを確立する。

While sentence simplification is an active research topic in NLP, its adjacent tasks of sentence complexification and same-level paraphrasing are not. To train models on all three tasks, we present two new unsupervised datasets. We compare these datasets, one labeled by a weak classifier and the other by a rule-based approach, with a single supervised dataset. Using these three datasets for training, we perform extensive experiments on both multitasking and prompting strategies. Compared to other systems trained on unsupervised parallel data, models trained on our weak classifier labeled dataset achieve state-of-the-art performance on the ASSET simplification benchmark. Our models also outperform previous work on sentence level targeting. Finally, we establish how a handful of Large Language Models perform on these tasks under a zero-shot setting.
翻訳日:2023-08-07 13:23:23 公開日:2023-08-04
# 古代農業テラス検出のための深層意味モデル融合

Deep Semantic Model Fusion for Ancient Agricultural Terrace Detection ( http://arxiv.org/abs/2308.02225v1 )

ライセンス: Link先を確認
Yi Wang, Chenying Liu, Arti Tiwari, Micha Silver, Arnon Karnieli, Xiao Xiang Zhu, Conrad M Albrecht(参考訳) 砂漠地帯の古代農業段丘の発見は、地球表面の長期的な気候変化を監視する上で重要である。 しかし、従来の地上調査は費用がかかり規模も限られている。 航空データと衛星データのアクセシビリティが高まるにつれて、機械学習技術は考古学的景観の自動検出と認識に大きな可能性を秘めている。 本稿では,古代農耕段丘検出のための深部意味モデル融合法を提案する。 入力データは、ネゲヴ砂漠の航空画像とLiDAR生成地形の特徴を含んでいる。 deeplabv3+とunetという2つの深層セマンティックセグメンテーションモデルがトレーニングされ、融合され、古代のテラスと壁のセグメンテーションマップを提供する。 提案手法は、国際ai考古学チャレンジで1等賞を受賞した。 コードはhttps://github.com/wangyi111/international-archaeology-ai-challengeで入手できる。

Discovering ancient agricultural terraces in desert regions is important for the monitoring of long-term climate changes on the Earth's surface. However, traditional ground surveys are both costly and limited in scale. With the increasing accessibility of aerial and satellite data, machine learning techniques bear large potential for the automatic detection and recognition of archaeological landscapes. In this paper, we propose a deep semantic model fusion method for ancient agricultural terrace detection. The input data includes aerial images and LiDAR generated terrain features in the Negev desert. Two deep semantic segmentation models, namely DeepLabv3+ and UNet, with EfficientNet backbone, are trained and fused to provide segmentation maps of ancient terraces and walls. The proposed method won the first prize in the International AI Archaeology Challenge. Codes are available at https://github.com/wangyi111/international-archaeology-ai-challenge.
翻訳日:2023-08-07 13:23:10 公開日:2023-08-04
# esrl: 効率的なサンプリングベース強化学習によるシーケンス生成

ESRL: Efficient Sampling-based Reinforcement Learning for Sequence Generation ( http://arxiv.org/abs/2308.02223v1 )

ライセンス: Link先を確認
Chenglong Wang, Hang Zhou, Yimin Hu, Yifu Huo, Bei Li, Tongran Liu, Tong Xiao, Jingbo Zhu(参考訳) 強化学習(Reinforcement Learning, RL)をシーケンス生成モデルに適用することにより、長期報酬(BLEUなど)の直接最適化が可能になるが、通常、アクションシーケンスの空間を大規模にサンプリングする必要がある。 これは、機械翻訳(英語版)のようなシーケンス生成問題(英語版)の実践によって提示される計算上の問題であり、大きなアクション空間(英語版) (\textit{e.g.,} 語彙) と長いアクションシーケンス (\textit{e.,} 翻訳) を扱うことが多い。 本稿では,RLを用いたトレーニングシーケンス生成モデルにおいて,サンプリング効率を向上させるための2段階サンプリング手法と動的サンプリング手法を提案する。 我々は、機械翻訳や抽象要約を含む従来のシーケンス生成タスクのアプローチを実験する。 さらに,報奨モデルを用いた大規模言語モデルの学習を通じて,人間のフィードバック(RLHF)からRLへのアプローチを評価する。 実験結果から,ESRLと呼ばれる効率的なサンプリングベースRLは,トレーニング効率とメモリ消費の両方の観点から,すべてのベースラインを上回り得ることが示された。 特にESRLは、強力なREINFORCE、最小リスクトレーニング、および近似ポリシー最適化手法に対して、一貫した性能向上をもたらす。

Applying Reinforcement Learning (RL) to sequence generation models enables the direct optimization of long-term rewards (\textit{e.g.,} BLEU and human feedback), but typically requires large-scale sampling over a space of action sequences. This is a computational challenge as presented by the practice of sequence generation problems, such as machine translation, where we often deal with a large action space (\textit{e.g.,} a vocabulary) and a long action sequence (\textit{e.g.,} a translation). In this work, we introduce two-stage sampling and dynamic sampling approaches to improve the sampling efficiency during training sequence generation models via RL. We experiment with our approaches on the traditional sequence generation tasks, including machine translation and abstractive summarization. Furthermore, we evaluate our approaches in RL from human feedback (RLHF) through training a large language model using the reward model. Experimental results show that the efficient sampling-based RL, referred to as ESRL, can outperform all baselines in terms of both training efficiency and memory consumption. Notably, ESRL yields consistent performance gains over the strong REINFORCE, minimum risk training, and proximal policy optimization methods.
翻訳日:2023-08-07 13:22:55 公開日:2023-08-04
# 貯留層工学的キャビティマグノメカニクスによるマイクロ波出力場の強スキューズ

Strong squeezing of microwave output fields via reservoir-engineered cavity magnomechanics ( http://arxiv.org/abs/2308.02222v1 )

ライセンス: Link先を確認
Hang Qian, Xuan Zuo, Zhi-Yuan Fan, Jiong Cheng, Jie Li(参考訳) 本研究では,マイクロ波キャビティ,マグノンモード,機械振動モードからなるキャビティ磁気力学系を貯水池工学によりマイクロ波出力場の強スケズングを実現する方法を示す。 マグノンモードは、振動モードに関連する青と赤のサイドバンドの2つのマイクロ波場によって同時に駆動される。 この2音駆動は、キャビティ内フィールドに対して圧縮されたマグノニック貯水池を誘導し、キャビティ-マグノン状態のスワッピングによるスクイズドキャビティモードを生じさせ、さらに、スクイズドキャビティ出力フィールドを発生させる。 出力場のスクイーズは静止しており、キャビティ・マグノメカニクスで現在利用可能なパラメータを用いている。 この研究は、圧縮されたマイクロ波場の準備におけるキャビティマグノメカニカルシステムのポテンシャルを示し、量子情報科学と量子メトロロジーに有望な応用を見出すかもしれない。

We show how to achieve strong squeezing of a microwave output field by reservoir engineering a cavity magnomechanical system, consisting of a microwave cavity, a magnon mode, and a mechanical vibration mode. The magnon mode is simultaneously driven by two microwave fields at the blue and red sidebands associated with the vibration mode. The two-tone drive induces a squeezed magnonic reservoir for the intracavity field, leading to a squeezed cavity mode due to the cavity-magnon state swapping, which further yields a squeezed cavity output field. The squeezing of the output field is stationary and substantial using currently available parameters in cavity magnomechanics. The work indicates the potential of the cavity magnomechanical system in preparing squeezed microwave fields, and may find promising applications in quantum information science and quantum metrology.
翻訳日:2023-08-07 13:22:17 公開日:2023-08-04
# 確率比に基づくニューラルネットワークの信頼区間

Likelihood-ratio-based confidence intervals for neural networks ( http://arxiv.org/abs/2308.02221v1 )

ライセンス: Link先を確認
Laurens Sluijterman, Eric Cator, Tom Heskes(参考訳) 本稿では,ニューラルネットの信頼区間構築のための新しい確率比に基づく手法を初めて実装する。 我々の手法はDeepLRと呼ばれ、データ量に制限のある領域に広がる非対称区間を構築する能力や、トレーニング時間、ネットワークアーキテクチャ、正規化技術などの要素を固有に組み込む能力など、いくつかの定性的な利点を提供している。 この手法の現在の実装は、多くのディープラーニングアプリケーションでは違法に高価であることを認めている一方で、高いコストは、医学的予測や天体物理学のような特定の分野において既に正当化されている。 本研究は,確率比に基づく不確実性推定の有意な可能性を強調し,今後の研究の道筋を確立するものである。

This paper introduces a first implementation of a novel likelihood-ratio-based approach for constructing confidence intervals for neural networks. Our method, called DeepLR, offers several qualitative advantages: most notably, the ability to construct asymmetric intervals that expand in regions with a limited amount of data, and the inherent incorporation of factors such as the amount of training time, network architecture, and regularization techniques. While acknowledging that the current implementation of the method is prohibitively expensive for many deep-learning applications, the high cost may already be justified in specific fields like medical predictions or astrophysics, where a reliable uncertainty estimate for a single prediction is essential. This work highlights the significant potential of a likelihood-ratio-based uncertainty estimate and establishes a promising avenue for future research.
翻訳日:2023-08-07 13:21:31 公開日:2023-08-04
# SURE-Val:安全な都市関係拡張と検証

SURE-Val: Safe Urban Relevance Extension and Validation ( http://arxiv.org/abs/2308.02266v1 )

ライセンス: Link先を確認
Kai Storms, Ken Mori, Steven Peters(参考訳) 自動運転システムの知覚成分を評価するには,関連する対象を定義する必要がある。 都市領域は認識データセットで人気があるが、この領域では関連性が不十分である。 そこで,本研究は高速道路領域の関連性を定義し,都市域に拡張する既存手法を採用する。 文献には異なる概念化や関連性の定義が存在するが、これらの定義を検証する方法がない。 そこで本研究では,動き予測成分を利用した新しい妥当性検証手法を提案する。 検証は、無関係なオブジェクトを削除することは、人間の運転行動を反映する予測コンポーネントに影響を与えるべきではないという考えを活用する。 大規模データセット間の予測性能の統計的分布を考慮し,予測への影響を定量化する。 検証手順は、関連オブジェクトを除外するために特別に設計された基準を用いて検証される。 本研究の妥当性基準に検証手法をうまく適用し,その妥当性を裏付ける。

To evaluate perception components of an automated driving system, it is necessary to define the relevant objects. While the urban domain is popular among perception datasets, relevance is insufficiently specified for this domain. Therefore, this work adopts an existing method to define relevance in the highway domain and expands it to the urban domain. While different conceptualizations and definitions of relevance are present in literature, there is a lack of methods to validate these definitions. Therefore, this work presents a novel relevance validation method leveraging a motion prediction component. The validation leverages the idea that removing irrelevant objects should not influence a prediction component which reflects human driving behavior. The influence on the prediction is quantified by considering the statistical distribution of prediction performance across a large-scale dataset. The validation procedure is verified using criteria specifically designed to exclude relevant objects. The validation method is successfully applied to the relevance criteria from this work, thus supporting their validity.
翻訳日:2023-08-07 13:13:02 公開日:2023-08-04
# スペクトル注意融合を用いた効率的なモナラ音声強調

Efficient Monaural Speech Enhancement using Spectrum Attention Fusion ( http://arxiv.org/abs/2308.02263v1 )

ライセンス: Link先を確認
Jinyu Long and Jetic G\=u and Binhao Bai and Zhibo Yang and Ping Wei and Junli Li(参考訳) 音声強調は、ノイズの多いチャネルからクリーンな音声を分離することに焦点を当て、自動音声処理パイプラインにおいて要求されるタスクである。 トランスフォーマーベースのモデルは、最近、音声強調においてRNNとCNNモデルに勝っているが、それと同時に計算コストがはるかに高く、高品質なトレーニングデータを必要とする。 本稿では,スペクトル注意融合(Spectrum Attention Fusion)と呼ばれるモデル複雑性を著しく低減しつつ,自己注意の表現性を維持できる音声強調モデルの改良について述べる。 音声変換器において,複数の自己注意層を置き換えるための畳み込みモジュールを慎重に構築し,より効率的にスペクトル特徴を融合させる。 提案手法は,音声バンク+デマンドデータセットのパラメータ(0.58m)が大幅に小さい場合,somaモデルと同等かそれ以上の結果が得られる。

Speech enhancement is a demanding task in automated speech processing pipelines, focusing on separating clean speech from noisy channels. Transformer based models have recently bested RNN and CNN models in speech enhancement, however at the same time they are much more computationally expensive and require much more high quality training data, which is always hard to come by. In this paper, we present an improvement for speech enhancement models that maintains the expressiveness of self-attention while significantly reducing model complexity, which we have termed Spectrum Attention Fusion. We carefully construct a convolutional module to replace several self-attention layers in a speech Transformer, allowing the model to more efficiently fuse spectral features. Our proposed model is able to achieve comparable or better results against SOTA models but with significantly smaller parameters (0.58M) on the Voice Bank + DEMAND dataset.
翻訳日:2023-08-07 13:12:49 公開日:2023-08-04
# 凸最適化のための適応近位勾配法

Adaptive Proximal Gradient Method for Convex Optimization ( http://arxiv.org/abs/2308.02261v1 )

ライセンス: Link先を確認
Yura Malitsky, Konstantin Mishchenko(参考訳) 本稿では,凸最適化における2つの基本1次アルゴリズム,すなわち勾配降下法(gd)と近位勾配法(proxgd)について検討する。 我々は,滑らかな関数の局所的曲率情報を活用することで,これらのアルゴリズムを完全に適応させることに重点を置いている。 本稿では,GD と ProxGD の適応バージョンを提案する。 さらに、勾配の局所リプシッツ性のみを仮定する手法の収束性を証明する。 さらに、提案されたバージョンは、[MM20]で最初に提案されたものよりもさらに大きなステップサイズを可能にする。

In this paper, we explore two fundamental first-order algorithms in convex optimization, namely, gradient descent (GD) and proximal gradient method (ProxGD). Our focus is on making these algorithms entirely adaptive by leveraging local curvature information of smooth functions. We propose adaptive versions of GD and ProxGD that are based on observed gradient differences and, thus, have no added computational costs. Moreover, we prove convergence of our methods assuming only local Lipschitzness of the gradient. In addition, the proposed versions allow for even larger stepsizes than those initially suggested in [MM20].
翻訳日:2023-08-07 13:12:33 公開日:2023-08-04
# エンサンブルNVダイアモンド磁力計を用いたマイクロスケールにおける異方性スピン・速度依存相互作用の限界改善

Improved Limits on an Exotic Spin- and Velocity-Dependent Interaction at the Micrometer Scale with an Ensemble-NV-Diamond Magnetometer ( http://arxiv.org/abs/2308.02254v1 )

ライセンス: Link先を確認
Diguang Wu, Hang Liang, Man Jiao, Yi-Fu Cai, Chang-Kui Duan, Ya Wang, Xing Rong, Jiangfeng Du(参考訳) エキゾチックな相互作用の探索は、標準モデルを超えた新しい粒子を探索するための経路を提供する。 ここでは、アンサンブルnv-ダイアモンド磁力計を用いて、マイクロメートルスケールでの偏極電子スピンと非偏極核子の間のエキゾチックなスピンと速度依存性の相互作用を探索した。 ダイヤモンド中の窒素空孔電子スピンアンサンブルの薄い層が固体スピン量子センサと偏光電子源の両方として利用され、振動する鉛球が非偏光核子源として機能する。 エキゾチック相互作用は、アンサンブル-NV-ダイアモンド磁気センサを用いて、動く非偏極核子源によって誘導される有効な磁場を検出することによって探索される。 この結果は、力範囲内での結合パラメータ $f_\perp$ の新たな境界を 5 から 400 $\rm \mu$m に設定する。 100 $\rm \mu$m での結合パラメータの上限は $\lvert f_\perp \rvert \leq 1.1\times 10^{-11}$ であり、これは以前の制約よりも3桁ストリングである。 この結果から,NVアンサンブルは標準モデルを超えて仮説粒子を探索する上で有望なプラットフォームとなる可能性が示唆された。

Searching for exotic interactions provides a path for exploring new particles beyond the standard model. Here, we used an ensemble-NV-diamond magnetometer to search for an exotic spin- and velocity-dependent interaction between polarized electron spins and unpolarized nucleons at the micrometer scale. A thin layer of nitrogen-vacancy electronic spin ensemble in diamond is utilized as both the solid-state spin quantum sensor and the polarized electron source, and a vibrating lead sphere serves as the moving unpolarized nucleon source. The exotic interaction is searched by detecting the possible effective magnetic field induced by the moving unpolarized nucleon source using the ensemble-NV-diamond magnetometer. Our result establishes new bounds for the coupling parameter $f_\perp$ within the force range from 5 to 400 $\rm \mu$m. The upper limit of the coupling parameter at 100 $\rm \mu$m is $\lvert f_\perp \rvert \leq 1.1\times 10^{-11}$, which is 3 orders of magnitude more stringent than the previous constraint. This result shows that NV ensemble can be a promising platform to search for hypothetical particles beyond the standard model.
翻訳日:2023-08-07 13:12:23 公開日:2023-08-04
# 測定の不適合性は確率的に蒸留できない

Measurement incompatibility cannot be stochastically distilled ( http://arxiv.org/abs/2308.02252v1 )

ライセンス: Link先を確認
Huan-Yu Ku, Chung-Yun Hsieh, and Costantino Budroni(参考訳) 確率変換の一定の結果に基づいて入射状態を選択後選択する装置とを組み合わせることで、一連の測定値の不適合性を高めることができないことを示す。 この結果は、ロバスト性や凸重みに基づくものなど、いくつかの不整合性の尺度が成り立つ。 これらのアイデアをeinstein-podolsky-rosenステアリング実験に拡張することで,フィルタ操作の明示的な計算を可能にする方法で,最も一般的な局所フィルタに関して得られる最大ステアビリティの問題を解くことができる。 さらに、この結果は非物理写像、すなわち正であるが完全正の線型写像に一般化する。

We show that the incompatibility of a set of measurements cannot be increased by subjecting them to a filter, namely, by combining them with a device that post-selects the incoming states on a fixed outcome of a stochastic transformation. This result holds for several measures of incompatibility, such as those based on robustness and convex weight. Expanding these ideas to Einstein-Podolsky-Rosen steering experiments, we are able to solve the problem of the maximum steerability obtained with respect to the most general local filters in a way that allows for an explicit calculation of the filter operation. Moreover, our results generalize to nonphysical maps, i.e., positive but not completely positive linear maps.
翻訳日:2023-08-07 13:11:58 公開日:2023-08-04
# Finding Tori: 韓国民謡の分析のための自己指導型学習

Finding Tori: Self-supervised Learning for Analyzing Korean Folk Song ( http://arxiv.org/abs/2308.02249v1 )

ライセンス: Link先を確認
Danbinaerin Han, Rafael Caro Repetto, Dasaem Jeong(参考訳) 本稿では,1980-90年代頃の韓国民謡の約700時間におけるフィールド記録データセットの計算解析について紹介する。 ほとんどの曲は伴奏のない非熟練ミュージシャンによって歌われているため、データセットにはいくつかの課題がある。 この課題に対処するために,ピッチ輪郭に基づく畳み込みニューラルネットワークを用いた自己教師型学習を用いて,特定の音階,装飾音符,慣用旋律輪郭で定義された分類システムであるトーリの音楽的概念をどのように捉えているかを分析した。 実験の結果,従来のピッチヒストグラムと比較して,トーラスの特性をよりよく捉えることができた。 そこで本研究では,韓国民謡のフィールド録音における既存の学界における音楽的議論の展開について検討した。

In this paper, we introduce a computational analysis of the field recording dataset of approximately 700 hours of Korean folk songs, which were recorded around 1980-90s. Because most of the songs were sung by non-expert musicians without accompaniment, the dataset provides several challenges. To address this challenge, we utilized self-supervised learning with convolutional neural network based on pitch contour, then analyzed how the musical concept of tori, a classification system defined by a specific scale, ornamental notes, and an idiomatic melodic contour, is captured by the model. The experimental result shows that our approach can better capture the characteristics of tori compared to traditional pitch histograms. Using our approaches, we have examined how musical discussions proposed in existing academia manifest in the actual field recordings of Korean folk songs.
翻訳日:2023-08-07 13:11:48 公開日:2023-08-04
# LiDARに基づくセマンティックセグメンテーションにおける不確かさ推定の校正について

On the Calibration of Uncertainty Estimation in LiDAR-based Semantic Segmentation ( http://arxiv.org/abs/2308.02248v1 )

ライセンス: Link先を確認
Mariella Dreissig, Florian Piewak, Joschka Boedecker(参考訳) 深層学習に基づく知覚モデルの信頼性校正は、その信頼性に重要な役割を果たす。 特に自動運転の文脈では、予測や計画といった下流のタスクは正確な信頼推定に依存する。 セマティックセグメンテーションのようなポイントワイズマルチクラス分類タスクでは、モデルは重いクラスの不均衡に対処する必要があります。 その表現不足のため、小さなインスタンスを持つクラスの信頼性の校正は困難だが、安全のために限らず必須である。 本稿では,個々のクラスに対するセグメンテーションモデルの信頼性校正品質を測定する指標を提案する。 不確実性推定に基づいて各クラスのスペーシフィケーション曲線を計算して計算する。 分類校正基準を用いて、未表現クラスの信頼性校正に関する不確実性評価手法を評価する。 さらに,手書きや自動注釈付きデータセットの品質向上のためにラベル問題を自動的に発見する手法の二重利用を提案する。

The confidence calibration of deep learning-based perception models plays a crucial role in their reliability. Especially in the context of autonomous driving, downstream tasks like prediction and planning depend on accurate confidence estimates. In point-wise multiclass classification tasks like sematic segmentation the model has to deal with heavy class imbalances. Due to their underrepresentation, the confidence calibration of classes with smaller instances is challenging but essential, not only for safety reasons. We propose a metric to measure the confidence calibration quality of a semantic segmentation model with respect to individual classes. It is calculated by computing sparsification curves for each class based on the uncertainty estimates. We use the classification calibration metric to evaluate uncertainty estimation methods with respect to their confidence calibration of underrepresented classes. We furthermore suggest a double use for the method to automatically find label problems to improve the quality of hand- or auto-annotated datasets.
翻訳日:2023-08-07 13:11:32 公開日:2023-08-04
# DTF-Net:デフォルマブルテンプレートフィールドによるカテゴリーレベルポーズ推定と形状再構成

DTF-Net: Category-Level Pose Estimation and Shape Reconstruction via Deformable Template Field ( http://arxiv.org/abs/2308.02239v1 )

ライセンス: Link先を確認
Haowen Wang, Zhipeng Fan, Zhen Zhao, Zhengping Che, Zhiyuan Xu, Dong Liu, Feifei Feng, Yakun Huang, Xiuquan Qiao, Jian Tang(参考訳) RGB-Depth画像ペアから、オープンワールドシーンの6Dポーズの推定と3D形状の再構築は困難である。 既存の多くの手法は、形状のバリエーションを無視しながら、特定のテンプレートに対応する幾何学的特徴を学習し、同じカテゴリのオブジェクト間で差異を生じさせる。 その結果、複雑な環境で見えないオブジェクトインスタンスを扱う場合、これらのメソッドは性能が劣る。 対照的に、他の手法は、正規化された幾何構造を活かしてカテゴリレベルの推定と再構成をすることを目的としているが、静的な事前ベース再構築は、かなりクラス内の変化に苦慮している。 そこで本稿では,対象カテゴリーの暗黙的神経場に基づくポーズ推定と形状再構成のための新しいフレームワークであるdtf-netを提案する。 DTF-Netでは、一般的なカテゴリワイドの潜在特徴とカテゴリ内幾何学的変形特徴を表す変形可能なテンプレートフィールドを設計する。 フィールドは連続的な形状対応を確立し、カテゴリテンプレートを任意の観測インスタンスに変形して形状再構成を行う。 本稿では,フィールドから変形特徴とテンプレートコードを共有するポーズ回帰モジュールを導入し,シーン内の各オブジェクトの正確な6dポーズを推定する。 オブジェクトの特徴やセマンティックマスクを抽出するために,マルチモーダル表現抽出モジュールを統合する。 さらに、トレーニング中に、形状不変のトレーニング戦略と視点サンプリング手法を実装し、オブジェクトのポーズ特徴を抽出するモデルの能力をさらに強化する。 REAL275とCAMERA25データセットの大規模な実験は、合成シーンと実シーンの両方において、DTF-Netの優位性を実証している。 さらに, dtf-netは実ロボットアームによる把持タスクを効果的にサポートすることを示す。

Estimating 6D poses and reconstructing 3D shapes of objects in open-world scenes from RGB-depth image pairs is challenging. Many existing methods rely on learning geometric features that correspond to specific templates while disregarding shape variations and pose differences among objects in the same category. As a result, these methods underperform when handling unseen object instances in complex environments. In contrast, other approaches aim to achieve category-level estimation and reconstruction by leveraging normalized geometric structure priors, but the static prior-based reconstruction struggles with substantial intra-class variations. To solve these problems, we propose the DTF-Net, a novel framework for pose estimation and shape reconstruction based on implicit neural fields of object categories. In DTF-Net, we design a deformable template field to represent the general category-wise shape latent features and intra-category geometric deformation features. The field establishes continuous shape correspondences, deforming the category template into arbitrary observed instances to accomplish shape reconstruction. We introduce a pose regression module that shares the deformation features and template codes from the fields to estimate the accurate 6D pose of each object in the scene. We integrate a multi-modal representation extraction module to extract object features and semantic masks, enabling end-to-end inference. Moreover, during training, we implement a shape-invariant training strategy and a viewpoint sampling method to further enhance the model's capability to extract object pose features. Extensive experiments on the REAL275 and CAMERA25 datasets demonstrate the superiority of DTF-Net in both synthetic and real scenes. Furthermore, we show that DTF-Net effectively supports grasping tasks with a real robot arm.
翻訳日:2023-08-07 13:11:18 公開日:2023-08-04
# ハイブリッド型量子鍵分布変換器チップ

A Hybrid Integrated Quantum Key Distribution Transceiver Chip ( http://arxiv.org/abs/2308.02238v1 )

ライセンス: Link先を確認
Joseph A. Dolphin, Taofiq K. Paraiso, Han Du, Robert I. Woodward, Davide G. Marangon and Andrew J. Shields(参考訳) 量子鍵分布のような量子フォトニック技術は、既に統合フォトニクスの台頭から大きな恩恵を受けている。 しかし、これらのシステムの設計の柔軟性は、しばしば統合材料プラットフォームの性質によって制限される。 そこで本研究では,超低損失窒化ケイ素導波路とindium phosphide電気光学変調器のハイブリッド結合により,高性能量子鍵分布トランスシーバチップを作製することにより,この選択を克服した。 両素材の最高の特性へのアクセスにより、光量子量子ビットをGHz速度で能動的に符号化および復号し、長いファイバー距離で量子ビット誤り率を1%以下に抑えることができる。 10dBチャネルの減衰と250kmのファイバの正の安全鍵レートで、双方向のセキュアビットレート 1.82 Mbps を示す。 結果は、量子フォトニック回路とより広いフォトニック分野のハイブリッド統合の差し迫った有用性を支持する。

Quantum photonic technologies, such as quantum key distribution, are already benefiting greatly from the rise of integrated photonics. However, the flexibility in design of these systems is often restricted by the properties of the integration material platforms. Here, we overcome this choice by using hybrid integration of ultra-low-loss silicon nitride waveguides with indium phosphide electro-optic modulators to produce high-performance quantum key distribution transceiver chips. Access to the best properties of both materials allows us to achieve active encoding and decoding of photonic qubits on-chip at GHz speeds and with sub-1% quantum bit error rates over long fibre distances. We demonstrate bidirectional secure bit rates of 1.82 Mbps over 10 dB channel attenuation and positive secure key rates out to 250 km of fibre. The results support the imminent utility of hybrid integration for quantum photonic circuits and the wider field of photonics.
翻訳日:2023-08-07 13:10:51 公開日:2023-08-04
# msecnet:マルチスケールエッジコンディショニングによる3次元点雲の高精度かつロバストな正規推定

MSECNet: Accurate and Robust Normal Estimation for 3D Point Clouds by Multi-Scale Edge Conditioning ( http://arxiv.org/abs/2308.02237v1 )

ライセンス: Link先を確認
Haoyi Xiu, Xin Liu, Weimin Wang, Kyoung-Sook Kim, Masashi Matsuoka(参考訳) 3次元点雲から表面の正規度を推定することは、表面の再構成やレンダリングを含む様々なアプリケーションにとって重要である。 通常の推定法は、正常がゆっくりと変化する地域ではうまく機能するが、正常が急速に変化する地域では失敗する傾向がある。 この問題に対処するため, エッジ検出問題として正規変分モデルを適用し, 正常変分領域の推定を改善するMSECNetという新しい手法を提案する。 MSECNetはバックボーンネットワークとマルチスケールエッジコンディショニング(MSEC)ストリームで構成されている。 MSECストリームはマルチスケールの機能融合と適応エッジ検出によって堅牢なエッジ検出を実現する。 検出されたエッジは、エッジコンディショニングモジュールを使用してバックボーンネットワークの出力と結合してエッジ認識表現を生成する。 大規模な実験により、MSECNetは、合成(PCPNet)と実世界の(SceneNN)データセットの両方で既存のメソッドよりもはるかに高速に動作し、パフォーマンスが向上した。 また,MSECストリームにおける各コンポーネントのコントリビューションについて,様々な分析を行った。 最後に,表面再構成におけるアプローチの有効性を示す。

Estimating surface normals from 3D point clouds is critical for various applications, including surface reconstruction and rendering. While existing methods for normal estimation perform well in regions where normals change slowly, they tend to fail where normals vary rapidly. To address this issue, we propose a novel approach called MSECNet, which improves estimation in normal varying regions by treating normal variation modeling as an edge detection problem. MSECNet consists of a backbone network and a multi-scale edge conditioning (MSEC) stream. The MSEC stream achieves robust edge detection through multi-scale feature fusion and adaptive edge detection. The detected edges are then combined with the output of the backbone network using the edge conditioning module to produce edge-aware representations. Extensive experiments show that MSECNet outperforms existing methods on both synthetic (PCPNet) and real-world (SceneNN) datasets while running significantly faster. We also conduct various analyses to investigate the contribution of each component in the MSEC stream. Finally, we demonstrate the effectiveness of our approach in surface reconstruction.
翻訳日:2023-08-07 13:10:36 公開日:2023-08-04
# 量子ビットを用いた古典・量子信号センシングの統一理論

Unified theory of classical and quantum signal sensing with a qubit ( http://arxiv.org/abs/2308.02307v1 )

ライセンス: Link先を確認
Wen-Long Ma(参考訳) 量子センシングプロトコルは典型的には量子センサーを使用して標準ラムゼーインテフェロメトリ測定で古典的な信号を検知する。 古典的な信号はしばしばセンサーハミルトニアンを決定する実数である。 しかし、量子環境に埋め込まれたセンサーの場合、検出する信号はターゲット量子系の量子演算子である可能性がある。 このような量子信号を検出する体系的な方法はまだ存在しない。 ここでは、ラムゼイ干渉計による量子ビットセンサを用いた静的量子信号検出のための汎用フレームワークを提案し、特殊な例として静的古典信号センシングを組み込んだ。 このフレームワークは、量子信号演算子の固有値とセンサの逐次射影測定を同時に推定する新しいアプローチに基づいており、ターゲットの量子システムに関する有用な情報を抽出することができる。 このスキームは、センサーの動的デカップリング制御によって交流量子信号を検出するために拡張することもできる。 例えば、量子ビットセンサはスピンスターモデルにおいて、複数のターゲット量子ビットと個々の結合強度を同時に検出できることを示す。

Quantum sensing protocols typically uses a quantum sensor to sense classical signals with the standard Ramsey inteferometry measurements. The classical signals are often real numbers determining the sensor Hamiltonian. However, for a senor embedded in a quantum environment, the signal to detect may be a quantum operator on a target quantum system. There is still no systematic method to detect such a quantum signal. Here we provide a general framework to sense static quantum signals with a qubit sensor by the Ramsey interferometry measurements, with the static classical signal sensing incorporated as a special case. This framework is based on a novel approach to simultaneously estimating the eigenvalues of the quantum signal operator with sequential projective measurements of the sensor, which can extract useful information about the target quantum system. The scheme can also be extended to sense ac quantum signals with dynamical decoupling control of the sensor. As an example, we show that a qubit sensor can simultaneously detect the individual coupling strengths with multiple target qubits in a spin-star model.
翻訳日:2023-08-07 13:04:12 公開日:2023-08-04
# 一対の絡み合った量子ビットに基づくスケーラブルなマルチパーティステアリング

Scalable multiparty steering based on a single pair of entangled qubits ( http://arxiv.org/abs/2308.02296v1 )

ライセンス: Link先を確認
Alex Pepper, Travis. J. Baker, Yuanlong Wang, Qiu-Cheng Song, Lynden. K. Shalm, Varun. B. Varma, Sae Woo Nam, Nora Tischler, Sergei Slussarenko, Howard. M. Wiseman, Geoff. J. Pryde(参考訳) ユーザネットワーク間の量子非局所性の分散と検証は、将来の量子情報科学および技術応用に不可欠である。 しかし、単純なポイントツーポイントプロトコルを超えて、既存のメソッドはますます多くのパーティのための複雑な状態準備に苦労している。 ここで、驚くべきことに、1つの当事者が任意に多数の空間的に分離したパーティを同時に操るマルチパーティの抜け穴のない量子ステアリングは、量子ネットワークを1組の量子ビットから構築することで実現可能であることを示している。 これらの知見を用いて,検出ホールを閉じた3者間のステアリングを実験的に実証した。 この研究は、その控えめで固定的な絡み合い要件により、複数の当事者間で量子非局所性を厳密に検証するためのスケーラブルなアプローチを導入し、将来の量子インターネットを開発するための実用的なツールを提供する。

The distribution and verification of quantum nonlocality across a network of users is essential for future quantum information science and technology applications. However, beyond simple point-to-point protocols, existing methods struggle with increasingly complex state preparation for a growing number of parties. Here, we show that, surprisingly, multiparty loophole-free quantum steering, where one party simultaneously steers arbitrarily many spatially separate parties, is achievable by constructing a quantum network from a set of qubits of which only one pair is entangled. Using these insights, we experimentally demonstrate this type of steering between three parties with the detection loophole closed. With its modest and fixed entanglement requirements, this work introduces a scalable approach to rigorously verify quantum nonlocality across multiple parties, thus providing a practical tool towards developing the future quantum internet.
翻訳日:2023-08-07 13:03:32 公開日:2023-08-04
# 対話型質問応答における関係履歴ターンの選択学習

Learning to Select the Relevant History Turns in Conversational Question Answering ( http://arxiv.org/abs/2308.02294v1 )

ライセンス: Link先を確認
Munazza Zaib and Wei Emma Zhang and Quan Z. Sheng and Subhash Sagar and Adnan Mahmood and Yang Zhang(参考訳) ウェブベースのデジタルアシスタントの需要の増加は、会話型質問応答(ConvQA)分野への情報検索(IR)コミュニティの関心を急速に高めた。 しかし、ConvQAの重要な側面の1つは、会話履歴の効果的な選択が、手元にある質問に答えることである。 関連する履歴選択と正しい回答予測の依存性は興味深いが、未検討領域である。 選択された関連するコンテキストは、答えを探すための通路の正確な場所をシステムに案内するのに役立つ。 一方、関係のないコンテキストはシステムにノイズをもたらし、結果としてモデルの性能が低下する。 そこで,本稿では,まず,すべての履歴ターンに対して文脈と質問エンティティを生成し,その後,質問と共通する類似性に基づいてprunする,dhs-convqa(dynamic history selection in conversational question answering)というフレームワークを提案する。 また,疑問に答える上でどれだけ有用かの計算した重みに基づいて,pruned項を再ランクするアテンションベースのメカニズムを提案する。 最後に、二項分類タスクを用いて再ランクされた会話履歴の用語を強調表示し、有用語(1と予測される)を維持し、無関係語(0と予測される)を無視してモデルをさらに支援する。 提案するフレームワークの有効性を,CANARDとQuAC(ConvQAで広く使用されている2つのデータセット)の広範な実験結果で実証する。 関連ターンの選択は、元の質問を書き換えるよりも有効であることを示す。 また,無関係な履歴の付加がモデルの性能に悪影響を及ぼすことを検証し,irコミュニティの注意を喚起する研究課題について考察した。

The increasing demand for the web-based digital assistants has given a rapid rise in the interest of the Information Retrieval (IR) community towards the field of conversational question answering (ConvQA). However, one of the critical aspects of ConvQA is the effective selection of conversational history turns to answer the question at hand. The dependency between relevant history selection and correct answer prediction is an intriguing but under-explored area. The selected relevant context can better guide the system so as to where exactly in the passage to look for an answer. Irrelevant context, on the other hand, brings noise to the system, thereby resulting in a decline in the model's performance. In this paper, we propose a framework, DHS-ConvQA (Dynamic History Selection in Conversational Question Answering), that first generates the context and question entities for all the history turns, which are then pruned on the basis of similarity they share in common with the question at hand. We also propose an attention-based mechanism to re-rank the pruned terms based on their calculated weights of how useful they are in answering the question. In the end, we further aid the model by highlighting the terms in the re-ranked conversational history using a binary classification task and keeping the useful terms (predicted as 1) and ignoring the irrelevant terms (predicted as 0). We demonstrate the efficacy of our proposed framework with extensive experimental results on CANARD and QuAC -- the two popularly utilized datasets in ConvQA. We demonstrate that selecting relevant turns works better than rewriting the original question. We also investigate how adding the irrelevant history turns negatively impacts the model's performance and discuss the research challenges that demand more attention from the IR community.
翻訳日:2023-08-07 13:03:14 公開日:2023-08-04
# 高次全変動の正則化を伴う非線形ニューラルネットワークの確率的最適化

A stochastic optimization approach to train non-linear neural networks with regularization of higher-order total variation ( http://arxiv.org/abs/2308.02293v1 )

ライセンス: Link先を確認
Akifumi Okuno(参考訳) ディープニューラルネットワークを含む高度に表現力のあるパラメトリックモデルは複雑な概念をモデル化するのに有利であるが、そのような高度に非線形なモデルの訓練は悪名高い過剰フィッティングのリスクをもたらすことが知られている。 この問題に対処するために、この研究では、訓練対象パラメトリックモデルの$k$2次微分の平方積分として定義される、$k$2次全変動(k$-TV)正則化(英語版)について検討する。 一般パラメトリックモデルに適用される$k$-TV項は、積分により計算的に難解であるが、本研究では、明示的な数値積分を行うことなく、$k$-TV正規化で一般モデルを効率的に訓練できる確率的最適化アルゴリズムを提供する。 提案手法は、単純な確率勾配降下アルゴリズムと自動微分のみで実装できるので、構造が任意である深いニューラルネットワークのトレーニングにも適用することができる。 我々の数値実験は、従来のパラメータ正規化よりも、$K$-TVで訓練されたニューラルネットワークの方が「レジリエント」であることを示した。 提案アルゴリズムは、ニューラルネットワーク(PINN)の物理インフォームドトレーニングにも拡張可能である。

While highly expressive parametric models including deep neural networks have an advantage to model complicated concepts, training such highly non-linear models is known to yield a high risk of notorious overfitting. To address this issue, this study considers a $k$th order total variation ($k$-TV) regularization, which is defined as the squared integral of the $k$th order derivative of the parametric models to be trained; penalizing the $k$-TV is expected to yield a smoother function, which is expected to avoid overfitting. While the $k$-TV terms applied to general parametric models are computationally intractable due to the integration, this study provides a stochastic optimization algorithm, that can efficiently train general models with the $k$-TV regularization without conducting explicit numerical integration. The proposed approach can be applied to the training of even deep neural networks whose structure is arbitrary, as it can be implemented by only a simple stochastic gradient descent algorithm and automatic differentiation. Our numerical experiments demonstrate that the neural networks trained with the $K$-TV terms are more ``resilient'' than those with the conventional parameter regularization. The proposed algorithm also can be extended to the physics-informed training of neural networks (PINNs).
翻訳日:2023-08-07 13:02:48 公開日:2023-08-04
# ダミーリスク最小化によるフラストレーションやすいモデル一般化

Frustratingly Easy Model Generalization by Dummy Risk Minimization ( http://arxiv.org/abs/2308.02287v1 )

ライセンス: Link先を確認
Juncheng Wang, Jindong Wang, Xixu Hu, Shujun Wang, Xing Xie(参考訳) 経験的リスク最小化(ERM)は基本的な機械学習パラダイムである。 しかし、その一般化能力は様々なタスクで制限されている。 本稿では,ERMの一般化を改善するため,フラストレーション的に簡単かつ汎用的な手法であるダミーリスク最小化(DuRM)を考案する。 DuRMの実装は非常に簡単で、出力ロジットの次元を拡大し、標準勾配勾配を使って最適化するだけです。 さらに, 理論的および経験的解析における DuRM の有効性を検証した。 理論的には、デュラムは勾配のばらつきが大きいことを示し、より平坦な局所極小を観測することでモデル一般化を促進する。 実験では,従来の分類,セマンティクスセグメンテーション,アウト・オブ・ディストリビューション・ジェネライゼーション,悪質なトレーニング,ロングテール認識など,さまざまなタスクにおいて,データセット,モダリティ,ネットワークアーキテクチャをまたいだdrmの評価を行う。 結果は、DuRMがほぼ無料のランチ方式で全てのタスクでパフォーマンスを継続的に改善できることを示した。 さらに,DuRMは既存の一般化手法と互換性があることを示し,その限界について論じる。 DuRMがリスク最小化の基礎研究に新たな関心を喚起することを期待している。

Empirical risk minimization (ERM) is a fundamental machine learning paradigm. However, its generalization ability is limited in various tasks. In this paper, we devise Dummy Risk Minimization (DuRM), a frustratingly easy and general technique to improve the generalization of ERM. DuRM is extremely simple to implement: just enlarging the dimension of the output logits and then optimizing using standard gradient descent. Moreover, we validate the efficacy of DuRM on both theoretical and empirical analysis. Theoretically, we show that DuRM derives greater variance of the gradient, which facilitates model generalization by observing better flat local minima. Empirically, we conduct evaluations of DuRM across different datasets, modalities, and network architectures on diverse tasks, including conventional classification, semantic segmentation, out-of-distribution generalization, adverserial training, and long-tailed recognition. Results demonstrate that DuRM could consistently improve the performance under all tasks with an almost free lunch manner. Furthermore, we show that DuRM is compatible with existing generalization techniques and we discuss possible limitations. We hope that DuRM could trigger new interest in the fundamental research on risk minimization.
翻訳日:2023-08-07 13:02:26 公開日:2023-08-04
# スパースアノテーションを用いた拡散型奥行き予測

Diffusion-Augmented Depth Prediction with Sparse Annotations ( http://arxiv.org/abs/2308.02283v1 )

ライセンス: Link先を確認
Jiaqi Li, Yiran Wang, Zihao Huang, Jinghong Zheng, Ke Xian, Zhiguo Cao, Jianming Zhang(参考訳) 深度推定は深度マップの予測を目的とする。 自律運転シーンでは、アノテーションの多さがタスクを難しくする。 監視されたモデルは、構造情報が不十分なため凹凸オブジェクトを生成する。 彼らはピクセルの有効性に過度に適合し、空間構造を復元できない。 この問題に対して自己管理手法が提案されている。 その頑丈さはポーズ推定によって制限され、自然界における誤った結果をもたらす。 本稿では拡散拡張深さ予測(DADP)と呼ばれる教師付きフレームワークを提案する。 拡散モデルの構造的特性を利用して,プラグ・アンド・プレイ方式で深度モデルの深度構造を強制する。 また,対象情報をフェッチすることで地域構造統合性をさらに高めるために,対象案内積分損失も提案する。 我々は,3つの駆動ベンチマーク上でDADPを評価し,深度構造とロバスト性を大幅に改善した。 我々の研究は、自律走行シーンにおけるスパースアノテーションによる深度推定の新しい視点を提供する。

Depth estimation aims to predict dense depth maps. In autonomous driving scenes, sparsity of annotations makes the task challenging. Supervised models produce concave objects due to insufficient structural information. They overfit to valid pixels and fail to restore spatial structures. Self-supervised methods are proposed for the problem. Their robustness is limited by pose estimation, leading to erroneous results in natural scenes. In this paper, we propose a supervised framework termed Diffusion-Augmented Depth Prediction (DADP). We leverage the structural characteristics of diffusion model to enforce depth structures of depth models in a plug-and-play manner. An object-guided integrality loss is also proposed to further enhance regional structure integrality by fetching objective information. We evaluate DADP on three driving benchmarks and achieve significant improvements in depth structures and robustness. Our work provides a new perspective on depth estimation with sparse annotations in autonomous driving scenes.
翻訳日:2023-08-07 13:02:06 公開日:2023-08-04
# DIVERSIFY: 時系列出力検出と一般化のための汎用フレームワーク

DIVERSIFY: A General Framework for Time Series Out-of-distribution Detection and Generalization ( http://arxiv.org/abs/2308.02282v1 )

ライセンス: Link先を確認
Wang Lu, Jindong Wang, Xinwei Sun, Yiqiang Chen, Xiangyang Ji, Qiang Yang, Xing Xie(参考訳) 時系列は、機械学習研究における最も難しいモダリティの1つだ。 アウト・オブ・ディストリビューション(OOD)の検出と時系列上の一般化は、その非定常性、すなわち時間とともに分布が変化するために悩む傾向がある。 時系列内の動的分布は、ドメイン情報が事前の知識として与えられるシナリオに主眼を置いているため、不変分布を識別する既存のアルゴリズムに大きな課題をもたらす。 本稿では,データセット全体のサブドメインを活用して,非定常学習による一般化表現学習の問題に対処する。 時系列の動的分布に対するOODの検出と一般化のための汎用フレームワークであるDIVERSIFYを提案する。 DIVERSIFYは反復的なプロセスをとり、まず相手のトレーニングを通じて"Worst-case"潜伏分布のシナリオを取得し、次にこれらの潜伏分布間のギャップを小さくする。 既存のOOD検出手法を,抽出された特徴や検出対象モデルの出力に応じて組み合わせることで,DIVERSIFYを実装した。 さらに、理論的な洞察は、DIVERSIFYが理論的に支持されていることを示している。 ジェスチャー認識,音声コマンド認識,ウェアラブルストレスと感情検出,センサに基づく人間活動認識など,さまざまなOOD設定を持つ7つのデータセットに対して,大規模な実験を行った。 定性的かつ定量的な結果は、DIVERSIFYがより一般化された特徴を学習し、他のベースラインを大幅に上回ることを示す。

Time series remains one of the most challenging modalities in machine learning research. The out-of-distribution (OOD) detection and generalization on time series tend to suffer due to its non-stationary property, i.e., the distribution changes over time. The dynamic distributions inside time series pose great challenges to existing algorithms to identify invariant distributions since they mainly focus on the scenario where the domain information is given as prior knowledge. In this paper, we attempt to exploit subdomains within a whole dataset to counteract issues induced by non-stationary for generalized representation learning. We propose DIVERSIFY, a general framework, for OOD detection and generalization on dynamic distributions of time series. DIVERSIFY takes an iterative process: it first obtains the "worst-case" latent distribution scenario via adversarial training, then reduces the gap between these latent distributions. We implement DIVERSIFY via combining existing OOD detection methods according to either extracted features or outputs of models for detection while we also directly utilize outputs for classification. In addition, theoretical insights illustrate that DIVERSIFY is theoretically supported. Extensive experiments are conducted on seven datasets with different OOD settings across gesture recognition, speech commands recognition, wearable stress and affect detection, and sensor-based human activity recognition. Qualitative and quantitative results demonstrate that DIVERSIFY learns more generalized features and significantly outperforms other baselines.
翻訳日:2023-08-07 13:01:56 公開日:2023-08-04
# Colloquium: 量子電池

Colloquium: Quantum Batteries ( http://arxiv.org/abs/2308.02277v1 )

ライセンス: Link先を確認
Francesco Campaioli, Stefano Gherardini, James Q. Quach, Marco Polini and Gian Marcello Andolina(参考訳) 近年では、エネルギーの生産、貯蔵、移動のための量子デバイスへの関心が爆発的に高まっている。 このコロキウムでは、量子電池の最近の理論的および実験的進歩を振り返り、量子エネルギー貯蔵の分野に集中する。 まず、量子電池が古典的なアナログに対して持つ利点を論じる理論的背景を提供する。 次に,既存の量子多体バッテリモデルをレビューし,そのオープン性に関する重要な問題に関する詳細な議論を行う。 最後に、有望な実験実装、文献で利用可能な予備的な結果、そして展望について論じて締めくくった。

Recent years have witnessed an explosion of interest in quantum devices for the production, storage, and transfer of energy. In this Colloquium, we concentrate on the field of quantum energy storage by reviewing recent theoretical and experimental progress in quantum batteries. We first provide a theoretical background discussing the advantages that quantum batteries offer with respect to their classical analogues. We then review the existing quantum many-body battery models and present a thorough discussion of important issues related to their open nature. We finally conclude by discussing promising experimental implementations, preliminary results available in the literature, and perspectives.
翻訳日:2023-08-07 13:01:33 公開日:2023-08-04
# 冗長性を考慮した多元参照に基づく抽出要約のゲインワイズ評価

Redundancy Aware Multi-Reference Based Gainwise Evaluation of Extractive Summarization ( http://arxiv.org/abs/2308.02270v1 )

ライセンス: Link先を確認
Mousumi Akter, Shubhra Kanti Karmaker Santu(参考訳) 抽出要約タスクの評価には非常に人気があるが、ルージュ計量は意味的認識の欠如と要約者のランキング品質の無知から長い間批判されてきた。 これまでの研究により、sem-ncgと呼ばれるゲインベースの自動化メトリックを提案し、ランクと意味の両方を認識した。 しかし、Sem-nCGはモデル生成要約に存在する冗長性を考慮せず、現在は複数の参照要約による評価をサポートしていない。 残念ながら、両方の制限に同時に対処することは簡単ではない。 そこで本稿では, 冗長性を考慮したSem-nCGメトリクスを提案し, モデル要約を複数の参照に対して評価する方法を示す。 また、広範な実験を通じて、元の計量に冗長性を組み込む様々な方法についても検討する。 実験の結果、新しい冗長性認識指標は、単一および複数の参照シナリオにおいて、元のsem-ncg指標よりも人間の判断と高い相関を示すことが示された。

While very popular for evaluating extractive summarization task, the ROUGE metric has long been criticized for its lack of semantic awareness and its ignorance about the ranking quality of the summarizer. Thanks to previous research that has addressed these issues by proposing a gain-based automated metric called Sem-nCG, which is both rank and semantic aware. However, Sem-nCG does not consider the amount of redundancy present in a model-generated summary and currently does not support evaluation with multiple reference summaries. Unfortunately, addressing both these limitations simultaneously is not trivial. Therefore, in this paper, we propose a redundancy-aware Sem-nCG metric and demonstrate how this new metric can be used to evaluate model summaries against multiple references. We also explore different ways of incorporating redundancy into the original metric through extensive experiments. Experimental results demonstrate that the new redundancy-aware metric exhibits a higher correlation with human judgments than the original Sem-nCG metric for both single and multiple reference scenarios.
翻訳日:2023-08-07 13:01:22 公開日:2023-08-04
# 超画素インタラクション学習によるシーングラフ生成の改善

Improving Scene Graph Generation with Superpixel-Based Interaction Learning ( http://arxiv.org/abs/2308.02339v1 )

ライセンス: Link先を確認
Jingyi Wang, Can Zhang, Jinfa Huang, Botao Ren, Zhidong Deng(参考訳) シーングラフ生成(SGG)の最近の進歩は、通常、事前に定義された検出器からボックスレベルの特徴を利用するエンティティ間の関係をモデル化する。 SGGにおける見過ごされた問題はボックス間の粗い粒度の相互作用であり、関係モデリングの文脈意味論を不十分に捉え、フィールドの開発を実質的に制限するものである。 本稿では,ボックスレベルでの粗粒度インタラクションを改善するために,スーパーピクセルベースインタラクション学習(SIL)と呼ばれる汎用パラダイムを探求し,提案する。 これにより、SGGのスーパーピクセルレベルできめ細かい相互作用をモデル化できる。 具体的には (i)シーンをポイントの集合として扱い、それらをシーンのサブリージョンを表すスーパーピクセルにまとめる。 (ii)早い段階でエンティティ間のきめ細かい相互作用を豊かにするため、スーパーピクセル間のエンティティ内およびクロスエンティティ間相互作用を探索する。 2つの挑戦的ベンチマーク(Visual Genome と Open Image V6)の大規模な実験により、SILは従来のボックスレベルのメソッドよりも細粒度でのインタラクションを可能にし、すべてのメトリクスで従来の最先端メソッドよりも大幅に優れていたことが証明された。 さらに,既存のボックスレベルのアプローチをプラグアンドプレイ方式で高速化するために,提案手法を適用した。 特に、SILは、Visual Genome上のPredClsタスクのベースラインの平均2.0% mR(最大3.4%)の改善をもたらし、既存のボックスレベルのメソッドへの統合を容易にする。

Recent advances in Scene Graph Generation (SGG) typically model the relationships among entities utilizing box-level features from pre-defined detectors. We argue that an overlooked problem in SGG is the coarse-grained interactions between boxes, which inadequately capture contextual semantics for relationship modeling, practically limiting the development of the field. In this paper, we take the initiative to explore and propose a generic paradigm termed Superpixel-based Interaction Learning (SIL) to remedy coarse-grained interactions at the box level. It allows us to model fine-grained interactions at the superpixel level in SGG. Specifically, (i) we treat a scene as a set of points and cluster them into superpixels representing sub-regions of the scene. (ii) We explore intra-entity and cross-entity interactions among the superpixels to enrich fine-grained interactions between entities at an earlier stage. Extensive experiments on two challenging benchmarks (Visual Genome and Open Image V6) prove that our SIL enables fine-grained interaction at the superpixel level above previous box-level methods, and significantly outperforms previous state-of-the-art methods across all metrics. More encouragingly, the proposed method can be applied to boost the performance of existing box-level approaches in a plug-and-play fashion. In particular, SIL brings an average improvement of 2.0% mR (even up to 3.4%) of baselines for the PredCls task on Visual Genome, which facilitates its integration into any existing box-level method.
翻訳日:2023-08-07 12:53:04 公開日:2023-08-04
# RAHNet:ロングテールグラフ分類のための検索拡張ハイブリッドネットワーク

RAHNet: Retrieval Augmented Hybrid Network for Long-tailed Graph Classification ( http://arxiv.org/abs/2308.02335v1 )

ライセンス: Link先を確認
Zhengyang Mao, Wei Ju, Yifang Qin, Xiao Luo, and Ming Zhang(参考訳) グラフ分類は、画像、ビデオ、ソーシャルネットワークなどの様々なマルチメディアデータタイプをグラフで表現できる、多くの実世界のマルチメディアアプリケーションにおいて重要なタスクである。 これまで、クラス分布がバランスの取れた状況にグラフニューラルネットワーク(GNN)を適用してきた。 しかし、現実のデータは典型的には長い尾のクラス分布を示すため、GNNを使用するとヘッドクラスに偏りが生じる。 最近のアプローチは、主にモデルトレーニング中に異なるクラスを再バランスすることにフォーカスしており、新しい知識を明示的に導入せず、ヘッドクラスのパフォーマンスを犠牲にしている。 これらの欠点に対処するために,頑健な特徴抽出器と非バイアスの分類器を疎結合で学習するRAHNet(Retrieval Augmented Hybrid Network)という新しいフレームワークを提案する。 特徴抽出学習段階において,末尾クラスにおけるクラス内多様性を直接強化する関連グラフを探索するグラフ検索モジュールを開発した。 さらに,カテゴリー中心の教師付きコントラスト損失を革新的に最適化し,ロングテールシナリオに適した識別表現を得る。 分類器の微調整段階において、分類器の重みと2つの重み正規化手法、すなわちマックスノルムと重み減衰のバランスをとる。 様々なベンチマーク実験により,提案手法の最先端手法に対する優位性を検証した。

Graph classification is a crucial task in many real-world multimedia applications, where graphs can represent various multimedia data types such as images, videos, and social networks. Previous efforts have applied graph neural networks (GNNs) in balanced situations where the class distribution is balanced. However, real-world data typically exhibit long-tailed class distributions, resulting in a bias towards the head classes when using GNNs and limited generalization ability over the tail classes. Recent approaches mainly focus on re-balancing different classes during model training, which fails to explicitly introduce new knowledge and sacrifices the performance of the head classes. To address these drawbacks, we propose a novel framework called Retrieval Augmented Hybrid Network (RAHNet) to jointly learn a robust feature extractor and an unbiased classifier in a decoupled manner. In the feature extractor training stage, we develop a graph retrieval module to search for relevant graphs that directly enrich the intra-class diversity for the tail classes. Moreover, we innovatively optimize a category-centered supervised contrastive loss to obtain discriminative representations, which is more suitable for long-tailed scenarios. In the classifier fine-tuning stage, we balance the classifier weights with two weight regularization techniques, i.e., Max-norm and weight decay. Experiments on various popular benchmarks verify the superiority of the proposed method against state-of-the-art approaches.
翻訳日:2023-08-07 12:52:36 公開日:2023-08-04
# コヒーレントハイパースピンマシンにおけるハイパースケーリング

Hyperscaling in the coherent hyperspin machine ( http://arxiv.org/abs/2308.02329v1 )

ライセンス: Link先を確認
Marcello Calvanese Strinati, Claudio Conti(参考訳) 古典的あるいは量子的物理システムは、大規模最適化と機械学習のためにイジングハミルトンをシミュレートすることができる。 しかし、量子アニーラーやコヒーレントIsingマシンのような装置は、有限サイズのスケーリングの成功確率が指数関数的に低下する。 イジングハミルトニアンとその後のアニーリングの高次元埋め込みを利用することで、その低下は性能の指数関数的な改善によって相反することを示した。 我々の解析は、高性能コンピューティングによる収束ダイナミクスの広範な統計に依存する。 既製のコヒーレントIsingマシン技術を用いて,新しいアニール装置の現実的な実験実装を提案する。 ハイパースケーリングのヒューリスティックは、非線形ゲイン、損失、非局所結合を工学的に行うことで、他の量子または古典的イジングマシンにも適用できる。

Classical or quantum physical systems can simulate the Ising Hamiltonian for large-scale optimization and machine learning. However, devices such as quantum annealers and coherent Ising machines suffer an exponential drop in the probability of success in finite-size scaling. We show that by exploiting high dimensional embedding of the Ising Hamiltonian and subsequent dimensional annealing, the drop is counteracted by an exponential improvement in the performance. Our analysis relies on extensive statistics of the convergence dynamics by high-performance computing. We propose a realistic experimental implementation of the new annealing device by off-the-shelf coherent Ising machine technology. The hyperscaling heuristics can also be applied to other quantum or classical Ising machines by engineering nonlinear gain, loss, and non-local couplings.
翻訳日:2023-08-07 12:52:12 公開日:2023-08-04
# 距離に基づく絡み合いの評価アルゴリズム

Algorithm for evaluating distance-based entanglement measures ( http://arxiv.org/abs/2308.02326v1 )

ライセンス: Link先を確認
Yixuan Hu, Ye-Chao Liu, Jiangwei Shang(参考訳) 量子系における絡み合いの定量化は、NPハードの性質のため重要な課題である。 本研究では,距離に基づく絡み合い評価のための効率的なアルゴリズムを提案する。 本手法はgilbertの凸最適化アルゴリズムを基礎とし,任意の状態の絡み合いに対する信頼性の高い上限を与える。 提案手法は,エンタングルメントの2乗バーズ計量の計算や,ghz状態のエンタングルメントの相対エントロピー,$w$状態,horodecki状態,チェスボード状態など,様々な例に適用して有効性を示す。 これらの結果から,我々のアルゴリズムは,絡み合い対策の信頼性の高い上限を迅速に提供できる汎用的で正確なツールであることが示された。

Quantifying entanglement in quantum systems is an important yet challenging task due to its NP-hard nature. In this work, we propose an efficient algorithm for evaluating distance-based entanglement measures. Our approach builds on Gilbert's algorithm for convex optimization, providing a reliable upper bound on the entanglement of a given arbitrary state. We demonstrate the effectiveness of our algorithm by applying it to various examples, such as calculating the squared Bures metric of entanglement as well as the relative entropy of entanglement for GHZ states, $W$ states, Horodecki states, and chessboard states. These results demonstrate that our algorithm is a versatile and accurate tool that can quickly provide reliable upper bounds for entanglement measures.
翻訳日:2023-08-07 12:52:00 公開日:2023-08-04
# データフロー対話生成

Dataflow Dialogue Generation ( http://arxiv.org/abs/2308.02323v1 )

ライセンス: Link先を確認
Joram Meron, Victor Guimar\~aes(参考訳) データフロー対話パラダイム内でタスク指向の対話生成を示す。 我々は,MultiWOZドメインのアジェンダ駆動対話生成の例と,SMCalFlowドメインのアジェンダを含まない生成の例を示し,生成した対話を用いて翻訳訓練データセットを増強した場合のユーザ要求のデータフロー表現への変換精度の向上を示す。

We demonstrate task-oriented dialogue generation within the dataflow dialogue paradigm. We show an example of agenda driven dialogue generation for the MultiWOZ domain, and an example of generation without an agenda for the SMCalFlow domain, where we show an improvement in the accuracy of the translation of user requests to dataflow expressions when the generated dialogues are used to augment the translation training dataset.
翻訳日:2023-08-07 12:51:46 公開日:2023-08-04
# 量子ゲートの論理量子ビットスケールへの最適化

Optimizing quantum gates towards the scale of logical qubits ( http://arxiv.org/abs/2308.02321v1 )

ライセンス: Link先を確認
Paul V. Klimov, Andreas Bengtsson, Chris Quintana, Alexandre Bourassa, Sabrina Hong, Andrew Dunsworth, Kevin J. Satzinger, William P. Livingston, Volodymyr Sivak, Murphy Y. Niu, Trond I. Andersen, Yaxing Zhang, Desmond Chik, Zijun Chen, Charles Neill, Catherine Erickson, Alejandro Grajales Dau, Anthony Megrant, Pedram Roushan, Alexander N. Korotkov, Julian Kelly, Vadim Smelyanskiy, Yu Chen, Hartmut Neven(参考訳) 量子誤差補正理論の基本的な仮定は、フォールトトレランスの誤りを克服することなく、量子ゲートを大きなプロセッサにスケールできるということである。 基本的な障害となる可能性のある2つの大きな課題は、高性能量子ハードウェアの製造と、その性能限界に達する制御システムの構築である。 性能を劣化させることなく小型から大規模プロセッサに量子ゲートをスケールするという制御課題は、指数関数的に拡張された構成空間上での非凸、高制約、時間依存的な制御最適化にマップされることが多い。 本稿では,このような問題の複雑さを克服する制御最適化戦略について報告する。 本研究では、68個の周波数可変超伝導量子ビットの周波数軌跡を振り返り、計算誤差を軽減しつつシングルおよびツーキュービットゲートを実行することを実証する。 プロセッサ全体の物理的エラーの包括的なモデルと組み合わせると、最適化しない場合と比較して、この戦略は物理的エラー率を$\sim3.7\times$で抑えます。 さらに、1057の物理キュービットを持つ distance-23 表面コード論理キュービットでも同様の性能の利点が得られると予測されている。 我々の制御最適化戦略は、他の量子アルゴリズム、演算、計算アーキテクチャに適応できる方法で、一般的なスケーリングの課題を解決する。

A foundational assumption of quantum error correction theory is that quantum gates can be scaled to large processors without exceeding the error-threshold for fault tolerance. Two major challenges that could become fundamental roadblocks are manufacturing high performance quantum hardware and engineering a control system that can reach its performance limits. The control challenge of scaling quantum gates from small to large processors without degrading performance often maps to non-convex, high-constraint, and time-dependent control optimization over an exponentially expanding configuration space. Here we report on a control optimization strategy that can scalably overcome the complexity of such problems. We demonstrate it by choreographing the frequency trajectories of 68 frequency-tunable superconducting qubits to execute single- and two-qubit gates while mitigating computational errors. When combined with a comprehensive model of physical errors across our processor, the strategy suppresses physical error rates by $\sim3.7\times$ compared with the case of no optimization. Furthermore, it is projected to achieve a similar performance advantage on a distance-23 surface code logical qubit with 1057 physical qubits. Our control optimization strategy solves a generic scaling challenge in a way that can be adapted to other quantum algorithms, operations, and computing architectures.
翻訳日:2023-08-07 12:51:37 公開日:2023-08-04
# 量子光による熱レンズ観察

Observing thermal lensing with quantum light ( http://arxiv.org/abs/2308.02320v1 )

ライセンス: Link先を確認
Marco Barbieri, Iole Venditti, Chiara Battocchio, Vincenzo Berardi, Fabio Bruni, and Ilaria Gianani(参考訳) 分光法における量子法の導入は、ノイズ管理における性能と技術的優位性を高めることができる。 ポンプおよびプローブ実験における量子照明の応用について検討する。 金ナノロッドサスペンション中の熱レンズは、古典ビームをポンプとし、パラメトリックダウンコンバージョンからの放射をプローブとして探索した。 そこで, 揚水時のサスペンションの挙動を, 良好な騒音除去を実現する手法として, 洞察に富む記述を行う。 我々の発見は、複雑なプラズモニックメディアにおける量子光の効果を調べるためのさらなるステップである。

The introduction of quantum methods in spectroscopy can provide enhanced performance and technical advantages in the management of noise. We investigate the application of quantum illumination in a pump and probe experiment. Thermal lensing in a suspension of gold nanorods is explored using a classical beam as the pump and the emission from parametric downconversion as the probe. We obtain an insightful description of the behaviour of the suspension under pumping with a method known to provide good noise rejection. Our findings are a further step towards investigating effects of quantum light in complex plasmonic media.
翻訳日:2023-08-07 12:51:17 公開日:2023-08-04
# 量子ゴーストイメージング分光計

A Quantum Ghost Imaging Spectrometer ( http://arxiv.org/abs/2308.02318v1 )

ライセンス: Link先を確認
Andrea Chiuri, Federico Angelini, Simone Santoro, Marco Barbieri, and Ilaria Gianani(参考訳) パラメトリックダウンコンバージョンにおける空間相関とスペクトル相関を同時に利用したデバイスを提案する。 ゴースト・イメージング・アレンジメントを用いて,複合システムの周波数プロファイルを遠隔で再構築することができた。 異なるスペクトル領域の存在は、モデルに依存しない統計解析によって裏付けられ、これは低カウント法においても興味深い可能性である。

We present a device that exploits spatial and spectral correlations in parametric downconversion at once. By using a ghost imaging arrangement, we have been able to reconstruct remotely the frequency profile of a composite system. The presence of distinct spectral regions is corroborated by a model-independent statistical analysis that constitutes an intriguing possibility also in the low count regime.
翻訳日:2023-08-07 12:51:09 公開日:2023-08-04
# ゲームシステム設計のための制御可能なコクレーティブエージェント

A Controllable Co-Creative Agent for Game System Design ( http://arxiv.org/abs/2308.02317v1 )

ライセンス: Link先を確認
Rohan Agarwal, Zhiyu Lin, Mark Riedl(参考訳) ゲームのプロシーデュラルコンテンツ生成において多くの進歩がなされており、混合イニシアティブな共同創造性により、人間設計者に大きな利益をもたらす可能性がある。 しかし、ゲーム生成のための共同創造システムは通常、特定のジャンル、ルール、ゲームに限定され、デザイナーの創造性を制限する。 私たちは、あらゆるジャンルに適用できるほど抽象的にゲームをモデル化し、ゲームシステムとメカニックの設計に集中し、これらのデザインで協調できる制御可能な共同制作エージェントを作りたいと考えています。 状態マシンのようなコンポーネントとリソースフローを用いたゲームモデル、制御可能なメトリクスのセット、これらのメトリクスでプレイスルーをシミュレートする設計評価器、および進化的設計バランサとジェネレータを提案する。 このシステムは、幅広いゲームを表現することができ、将来の共同制作アプリケーションに対して人間による制御が可能であることに気付きました。

Many advancements have been made in procedural content generation for games, and with mixed-initiative co-creativity, have the potential for great benefits to human designers. However, co-creative systems for game generation are typically limited to specific genres, rules, or games, limiting the creativity of the designer. We seek to model games abstractly enough to apply to any genre, focusing on designing game systems and mechanics, and create a controllable, co-creative agent that can collaborate on these designs. We present a model of games using state-machine-like components and resource flows, a set of controllable metrics, a design evaluator simulating playthroughs with these metrics, and an evolutionary design balancer and generator. We find this system to be both able to express a wide range of games and able to be human-controllable for future co-creative applications.
翻訳日:2023-08-07 12:51:02 公開日:2023-08-04
# 誰の回答がよいのか? ソフトウェア工学の質問に対するChatGPTとStack Overflowの回答の深さ分析

Who Answers It Better? An In-Depth Analysis of ChatGPT and Stack Overflow Answers to Software Engineering Questions ( http://arxiv.org/abs/2308.02312v1 )

ライセンス: Link先を確認
Samia Kabir, David N. Udo-Imeh, Bonan Kou, Tianyi Zhang(参考訳) Q&Aプラットフォームは、過去10年間のプログラマのWebヘルプ検索行動に不可欠な部分です。 しかし、最近のChatGPTの導入により、ウェブヘルプ検索行動のパラダイムが変化している。 ChatGPTの人気にもかかわらず、ChatGPTのソフトウェア工学的質問に対する回答の特徴やユーザビリティを評価するための総合的な研究は行われていない。 ギャップを埋めるため,517 Stack Overflow (SO)質問に対するChatGPTの回答の詳細な分析を行い,ChatGPTの回答の正確性,一貫性,包括性,簡潔性を検討した。 さらに, 大規模言語分析を行い, 言語的・人間的側面からchatgpt回答の特徴を理解するためのユーザ調査を行った。 分析の結果,ChatGPT回答の52\%は誤りであり,77\%は冗長であることがわかった。 それにもかかわらず、ChatGPTの回答は、その包括性と十分な言語スタイルのために、まだ39.34 %の時間を好む。 以上の結果から,ChatGPTにおける誤りの綿密な検証と修正の必要性が示唆された。

Q&A platforms have been an integral part of the web-help-seeking behavior of programmers over the past decade. However, with the recent introduction of ChatGPT, the paradigm of web-help-seeking behavior is experiencing a shift. Despite the popularity of ChatGPT, no comprehensive study has been conducted to evaluate the characteristics or usability of ChatGPT's answers to software engineering questions. To bridge the gap, we conducted the first in-depth analysis of ChatGPT's answers to 517 Stack Overflow (SO) questions and examined the correctness, consistency, comprehensiveness, and conciseness of ChatGPT's answers. Furthermore, we conducted a large-scale linguistic analysis, and a user study to understand the characteristics of ChatGPT answers from linguistic and human aspects. Our analysis shows that 52\% of ChatGPT answers are incorrect and 77\% are verbose. Nonetheless, ChatGPT answers are still preferred 39.34\% of the time due to their comprehensiveness and well-articulated language style. Our result implies the necessity of close examination and rectification of errors in ChatGPT, at the same time creating awareness among its users of the risks associated with seemingly correct ChatGPT answers.
翻訳日:2023-08-07 12:50:46 公開日:2023-08-04
# T-UNet:高解像度リモートセンシング画像における変化検出のためのトリプルトUNet

T-UNet: Triplet UNet for Change Detection in High-Resolution Remote Sensing Images ( http://arxiv.org/abs/2308.02356v1 )

ライセンス: Link先を確認
Huan Zhong and Chen Wu(参考訳) リモートセンシング画像変化検出は、同じ領域で異なる時間に取得した画像の違いを特定することを目的としている。 土地管理、環境モニタリング、災害評価などの分野で広く利用されている。 現在、ほとんどの変更検出方法は、シームズネットワーク構造または初期の融合構造に基づいている。 シームズ構造は、異なるタイミングでオブジェクトの特徴を抽出することに焦点を当てるが、変更情報への注意が欠如し、誤報や検出の失敗につながる。 初期融合(EF)構造は、異なる位相の画像の融合後の特徴の抽出に重点を置いているが、変化の詳細を検出するために異なる時刻におけるオブジェクトの特徴の重要性を無視しているため、変化したオブジェクトのエッジを正確に識別することは困難である。 これらの問題に対処し、より正確な結果を得るため、トリプレットエンコーダを介して、被写体の特徴と後相画像間の変化を同時に抽出できる3分岐エンコーダに基づく新しいネットワークであるトリプレットunet(t-unet)を提案する。 トリプルトエンコーダの3つの枝から抽出した特徴を効果的に相互作用・融合するために,マルチブランチ空間スペクトル横断モジュール(MBSSCA)を提案する。 デコーダの段階では、浅い層における詳細なテクスチャ情報と深層におけるセマンティックローカライゼーション情報を完全にマイニングし統合するためのチャネルアテンション機構(CAM)と空間アテンション機構(SAM)を導入する。

Remote sensing image change detection aims to identify the differences between images acquired at different times in the same area. It is widely used in land management, environmental monitoring, disaster assessment and other fields. Currently, most change detection methods are based on Siamese network structure or early fusion structure. Siamese structure focuses on extracting object features at different times but lacks attention to change information, which leads to false alarms and missed detections. Early fusion (EF) structure focuses on extracting features after the fusion of images of different phases but ignores the significance of object features at different times for detecting change details, making it difficult to accurately discern the edges of changed objects. To address these issues and obtain more accurate results, we propose a novel network, Triplet UNet(T-UNet), based on a three-branch encoder, which is capable to simultaneously extract the object features and the change features between the pre- and post-time-phase images through triplet encoder. To effectively interact and fuse the features extracted from the three branches of triplet encoder, we propose a multi-branch spatial-spectral cross-attention module (MBSSCA). In the decoder stage, we introduce the channel attention mechanism (CAM) and spatial attention mechanism (SAM) to fully mine and integrate detailed textures information at the shallow layer and semantic localization information at the deep layer.
翻訳日:2023-08-07 12:45:00 公開日:2023-08-04
# 変化への適応:動的データランドスケープにおけるロバストな反事実的説明

Adapting to Change: Robust Counterfactual Explanations in Dynamic Data Landscapes ( http://arxiv.org/abs/2308.02353v1 )

ライセンス: Link先を確認
Bardh Prenkaj, Mario Villaizan-Vallelado, Tobias Leemann, Gjergji Kasneci(参考訳) 本稿では,新しい半教師付きグラフカウンターファクトExplainer (GCE) 手法, Dynamic GRAph Counterfactual Explainer (DyGRACE) を紹介する。 データ配布に関する初期の知識を活用して、適切な偽物を探すと同時に、潜在的に時代遅れな決定関数からの情報の使用を回避している。 2つのグラフオートエンコーダ(GAE)を使用して、DyGRACEはバイナリ分類シナリオで各クラスの表現を学ぶ。 GAEは、トレーニング中の元のグラフとその学習された表現の間の再構成誤差を最小化する。 その方法は 一 自己エンコーダの復元誤差を最大化することにより、パラメトリック密度関数(ロジスティック回帰関数として実装)を最適化し、反事実を特定すること。 (ii)偽のオートエンコーダの誤差を最小化すること、及び 3) 実数グラフと実数グラフの類似性を最大化する。 この半教師付きアプローチは、下層のブラックボックスオラクルとは独立である。 ロジスティック回帰モデルは、反事実を見つけるのに役立つ重みを学習するために一連のグラフペアで訓練される。 推論では、各未確認グラフに対して、ロジスティック回帰器はこれらの学習重みを用いた最良の反事実候補を識別し、GAEは反復による学習グラフ表現の連続的な適応を表現するために反復的に更新することができる。 DyGRACEは非常に効果的でドリフト検出器として機能し、反復間の再構成誤差の違いに基づいて分布ドリフトを識別する。 連続反復におけるオラクルの予測への依存を回避し、反事実発見の効率を高める。 DyGRACEは、対照的な学習とドリフト検出の能力を持ち、半教師付き学習と説明生成のための新しい道を提供する。

We introduce a novel semi-supervised Graph Counterfactual Explainer (GCE) methodology, Dynamic GRAph Counterfactual Explainer (DyGRACE). It leverages initial knowledge about the data distribution to search for valid counterfactuals while avoiding using information from potentially outdated decision functions in subsequent time steps. Employing two graph autoencoders (GAEs), DyGRACE learns the representation of each class in a binary classification scenario. The GAEs minimise the reconstruction error between the original graph and its learned representation during training. The method involves (i) optimising a parametric density function (implemented as a logistic regression function) to identify counterfactuals by maximising the factual autoencoder's reconstruction error, (ii) minimising the counterfactual autoencoder's error, and (iii) maximising the similarity between the factual and counterfactual graphs. This semi-supervised approach is independent of an underlying black-box oracle. A logistic regression model is trained on a set of graph pairs to learn weights that aid in finding counterfactuals. At inference, for each unseen graph, the logistic regressor identifies the best counterfactual candidate using these learned weights, while the GAEs can be iteratively updated to represent the continual adaptation of the learned graph representation over iterations. DyGRACE is quite effective and can act as a drift detector, identifying distributional drift based on differences in reconstruction errors between iterations. It avoids reliance on the oracle's predictions in successive iterations, thereby increasing the efficiency of counterfactual discovery. DyGRACE, with its capacity for contrastive learning and drift detection, will offer new avenues for semi-supervised learning and explanation generation.
翻訳日:2023-08-07 12:44:32 公開日:2023-08-04
# fMRI活動予測のためのパラメータ効率のよい多対象モデル

A Parameter-efficient Multi-subject Model for Predicting fMRI Activity ( http://arxiv.org/abs/2308.02351v1 )

ライセンス: Link先を確認
Connor Lane, Gregory Kiar(参考訳) これはアルゴノートズ2023のチーム「BlobGPT」への提出報告である。 本モデルは,事前学習したトランクモデルに付加したマルチサブジェクト線形符号化ヘッドからなる。 マルチサブジェクトヘッドは、(1)共有多層特徴投影、(2)共有および被写体特異的低次元線形変換、(3)共有pca fmri埋め込みの3つの成分からなる。 本稿では,これらのコンポーネントについてより詳細に説明し,実験結果を示す。 私たちのコードはhttps://github.com/cmi-dair/algonauts23で利用可能です。

This is the Algonauts 2023 submission report for team "BlobGPT". Our model consists of a multi-subject linear encoding head attached to a pretrained trunk model. The multi-subject head consists of three components: (1) a shared multi-layer feature projection, (2) shared plus subject-specific low-dimension linear transformations, and (3) a shared PCA fMRI embedding. In this report, we explain these components in more detail and present some experimental results. Our code is available at https://github.com/cmi-dair/algonauts23.
翻訳日:2023-08-07 12:44:02 公開日:2023-08-04
# RobustMQ: 量子モデルのロバスト性ベンチマーク

RobustMQ: Benchmarking Robustness of Quantized Models ( http://arxiv.org/abs/2308.02350v1 )

ライセンス: Link先を確認
Yisong Xiao, Aishan Liu, Tianyuan Zhang, Haotong Qin, Jinyang Guo, Xianglong Liu(参考訳) 量子化は、限られたリソースを持つデバイスにディープニューラルネットワーク(DNN)をデプロイするための重要な技術として登場した。 しかし、量子化モデルは、現実世界のアプリケーションで様々なノイズにさらされると脆弱性を示す。 量子化がロバスト性に与える影響を評価することの重要性にもかかわらず、このトピックに関する既存の研究は限定的であり、しばしばロバスト性評価の確立された原則を無視し、不完全かつ不確定な結果をもたらす。 このギャップに対処するため,我々は,imagenetにおける様々なノイズ(攻撃攻撃,自然腐敗,系統的ノイズ)に対する量子化モデルのロバスト性について徹底的に評価した。 The comprehensive evaluation results empirically provide valuable insights into the robustness of quantized models in various scenarios, for example: (1) quantized models exhibit higher adversarial robustness than their floating-point counterparts, but are more vulnerable to natural corruptions and systematic noises; (2) in general, increasing the quantization bit-width results in a decrease in adversarial robustness, an increase in natural robustness, and an increase in systematic robustness; (3) among corruption methods, \textit{impulse noise} and \textit{glass blur} are the most harmful to quantized models, while \textit{brightness} has the least impact; (4) among systematic noises, the \textit{nearest neighbor interpolation} has the highest impact, while bilinear interpolation, cubic interpolation, and area interpolation are the three least harmful. 我々の研究は、モデルの堅牢な定量化と実際のシナリオへの展開に寄与する。

Quantization has emerged as an essential technique for deploying deep neural networks (DNNs) on devices with limited resources. However, quantized models exhibit vulnerabilities when exposed to various noises in real-world applications. Despite the importance of evaluating the impact of quantization on robustness, existing research on this topic is limited and often disregards established principles of robustness evaluation, resulting in incomplete and inconclusive findings. To address this gap, we thoroughly evaluated the robustness of quantized models against various noises (adversarial attacks, natural corruptions, and systematic noises) on ImageNet. The comprehensive evaluation results empirically provide valuable insights into the robustness of quantized models in various scenarios, for example: (1) quantized models exhibit higher adversarial robustness than their floating-point counterparts, but are more vulnerable to natural corruptions and systematic noises; (2) in general, increasing the quantization bit-width results in a decrease in adversarial robustness, an increase in natural robustness, and an increase in systematic robustness; (3) among corruption methods, \textit{impulse noise} and \textit{glass blur} are the most harmful to quantized models, while \textit{brightness} has the least impact; (4) among systematic noises, the \textit{nearest neighbor interpolation} has the highest impact, while bilinear interpolation, cubic interpolation, and area interpolation are the three least harmful. Our research contributes to advancing the robust quantization of models and their deployment in real-world scenarios.
翻訳日:2023-08-07 12:43:52 公開日:2023-08-04
# ハイパーグラフ協調ネットワークの安定性と一般化

Stability and Generalization of Hypergraph Collaborative Networks ( http://arxiv.org/abs/2308.02347v1 )

ライセンス: Link先を確認
Michael Ng and Hanrui Wu and Andy Yip(参考訳) グラフニューラルネットワークはサンプル間の対関係を利用するのに非常に効果的であることが示されている。 最近、より複雑な関係を利用するためにグラフニューラルネットワークをハイパーグラフニューラルネットワークに一般化する提案が成功している。 特に、ハイパーグラフ協調ネットワークは、様々な半教師付き学習タスクにおいて、他のハイパーグラフニューラルネットワークよりも優れた結果をもたらす。 共同最適化問題として定式化し,その一貫性を利用して与えられたハイパーグラフを再構築することにより,高品質な頂点埋め込みとハイパーエッジ埋め込みを実現する。 本稿では,協調ネットワークのコア層のアルゴリズム安定性を確立し,一般化を保証することを目的とする。 この分析は、協調ネットワークにおけるハイパーグラフフィルタの設計に光を当て、例えば、データとハイパーグラフフィルタをスケールして学習プロセスの均一な安定性を実現する方法である。 実世界のデータセットに関するいくつかの実験結果は、この理論を説明するために提示される。

Graph neural networks have been shown to be very effective in utilizing pairwise relationships across samples. Recently, there have been several successful proposals to generalize graph neural networks to hypergraph neural networks to exploit more complex relationships. In particular, the hypergraph collaborative networks yield superior results compared to other hypergraph neural networks for various semi-supervised learning tasks. The collaborative network can provide high quality vertex embeddings and hyperedge embeddings together by formulating them as a joint optimization problem and by using their consistency in reconstructing the given hypergraph. In this paper, we aim to establish the algorithmic stability of the core layer of the collaborative network and provide generalization guarantees. The analysis sheds light on the design of hypergraph filters in collaborative networks, for instance, how the data and hypergraph filters should be scaled to achieve uniform stability of the learning process. Some experimental results on real-world datasets are presented to illustrate the theory.
翻訳日:2023-08-07 12:43:28 公開日:2023-08-04
# 自己監督型事前学習とプロトタイプ学習による授業インクリメンタルラーニング

Class Incremental Learning with Self-Supervised Pre-Training and Prototype Learning ( http://arxiv.org/abs/2308.02346v1 )

ライセンス: Link先を確認
Wenzhuo Liu, Xinjian Wu, Fei Zhu, Mingming Yu, Chuang Wang, Cheng-Lin Liu(参考訳) Deep Neural Network (DNN)は、閉じたクラスセットのデータセットで大きな成功を収めた。 しかし、ソーシャルメディアトピックの新しいカテゴリのように、新しいクラスが現実世界に継続的に追加され、段階的に学ぶ必要がある。 これはdnnにとって難しいことであり、古いクラスを無視しながら新しいクラスに適応することに焦点を合わせる傾向がある。 最先端の手法は知識蒸留とデータ再生技術に依存しているが、制限はある。 本研究は, クラスインクリメンタル学習における破滅的欠落の原因を, 表現のドリフト, 表現の混乱, 分類の歪みという3つの要因に起因して分析する。 この観点から,固定エンコーダと段階的に更新されたプロトタイプ分類器を備えた2段階学習フレームワークを提案する。 エンコーダは自己教師型学習を用いて訓練され、本質的な次元を持つ特徴空間を生成することにより、伝達性と一般性を向上させる。 分類器は,事前学習したデータのプロトタイプを保持しながら,新たなプロトタイプを段階的に学習するが,これは決定境界の維持に不可欠である。 公開データセットを用いた実験では,cifar-100では18.24%,imagenet100では9.37%,10段階のインクリメンタルな設定の下で,クラス毎に5つのインスタンスを予約した場合に,最先端のexemplarベースメソッドを大幅に上回ることができることが示された。

Deep Neural Network (DNN) has achieved great success on datasets of closed class set. However, new classes, like new categories of social media topics, are continuously added to the real world, making it necessary to incrementally learn. This is hard for DNN because it tends to focus on fitting to new classes while ignoring old classes, a phenomenon known as catastrophic forgetting. State-of-the-art methods rely on knowledge distillation and data replay techniques but still have limitations. In this work, we analyze the causes of catastrophic forgetting in class incremental learning, which owes to three factors: representation drift, representation confusion, and classifier distortion. Based on this view, we propose a two-stage learning framework with a fixed encoder and an incrementally updated prototype classifier. The encoder is trained with self-supervised learning to generate a feature space with high intrinsic dimensionality, thus improving its transferability and generality. The classifier incrementally learns new prototypes while retaining the prototypes of previously learned data, which is crucial in preserving the decision boundary.Our method does not rely on preserved samples of old classes, is thus a non-exemplar based CIL method. Experiments on public datasets show that our method can significantly outperform state-of-the-art exemplar-based methods when they reserved 5 examplers per class, under the incremental setting of 10 phases, by 18.24% on CIFAR-100 and 9.37% on ImageNet100.
翻訳日:2023-08-07 12:43:14 公開日:2023-08-04
# ガウス図形モデルとガウス自由場からの学習ネットワーク

Learning Networks from Gaussian Graphical Models and Gaussian Free Fields ( http://arxiv.org/abs/2308.02344v1 )

ライセンス: Link先を確認
Subhro Ghosh, Soumendu Sundar Mukherjee, Hoang-Son Tran, Ujan Gangopadhyay(参考訳) ネットワーク上のガウス図形モデル(GGM)の繰り返し測定から重み付きネットワークの構造を推定する問題について検討する。 本稿では、共分散構造を持つGGMを、それらに基づく重み付きネットワークの幾何学と一致させる。 このようなGGMは長い間統計物理学に興味を持ち、ガウス自由場(GFF)と呼ばれている。 近年では、機械学習と理論計算機科学に大きな関心を集めている。 本研究では、ガウス分布のフーリエ解析特性に基づいて、ネットワーク上のGFFの繰り返し測定から重み付きネットワーク(ほぼ同値のラプラシアン)の新たな推定法を提案する。 本手法は,観測データから構築した複素値統計を利用して,それぞれが興味を持つものである。 具体的な回収保証とサンプルの複雑さに対する限界を具体化した推定器の有効性を実証する。 特に,提案した統計量は,固定されたネットワークサイズに対するパラメトリック推定率を達成することを示す。 サンプルサイズで成長するネットワークの設定において、erdos-renyiランダムグラフに対して、接続しきい値より高く$g(d,p)$の場合、サンプルサイズ$n$が$n \gg d^4 \log d \cdot p^{-2}$を満たすと、高い確率でネットワークリカバリが行われることが示されている。

We investigate the problem of estimating the structure of a weighted network from repeated measurements of a Gaussian Graphical Model (GGM) on the network. In this vein, we consider GGMs whose covariance structures align with the geometry of the weighted network on which they are based. Such GGMs have been of longstanding interest in statistical physics, and are referred to as the Gaussian Free Field (GFF). In recent years, they have attracted considerable interest in the machine learning and theoretical computer science. In this work, we propose a novel estimator for the weighted network (equivalently, its Laplacian) from repeated measurements of a GFF on the network, based on the Fourier analytic properties of the Gaussian distribution. In this pursuit, our approach exploits complex-valued statistics constructed from observed data, that are of interest on their own right. We demonstrate the effectiveness of our estimator with concrete recovery guarantees and bounds on the required sample complexity. In particular, we show that the proposed statistic achieves the parametric rate of estimation for fixed network size. In the setting of networks growing with sample size, our results show that for Erdos-Renyi random graphs $G(d,p)$ above the connectivity threshold, we demonstrate that network recovery takes place with high probability as soon as the sample size $n$ satisfies $n \gg d^4 \log d \cdot p^{-2}$.
翻訳日:2023-08-07 12:42:48 公開日:2023-08-04
# 量子照明における不完全光子検出

Imperfect photon detection in quantum illumination ( http://arxiv.org/abs/2308.02343v1 )

ライセンス: Link先を確認
F. Kronowetter, M. W\"urth, W. Utschick, R. Gross, K. G. Fedorov(参考訳) 量子照明では、絡み合いに基づく資源状態の残留量子相関を利用した様々な検出手法が提案されている。 マイクロ波領域における唯一成功した実装は、それぞれのリターンモードとアイドラーモードの特定の混合操作に依存し、続いて2つのミキサー出力のうちの1つで単光子計数を行う。 本稿では,検出効率,暗カウント確率,光子数分解能の観点から,現実的な検出パラメータに対する本手法の性能について検討する。 さらに、第2ミキサー出力を考慮し、熱背景の変化に対する相関光子計数(CPC)の利点とCPCにおける最適後処理重み付けについて検討する。 2つのミキサー出力における光子数分解の要件は、関連する光子数期待値が異なるため、非常に非対称であることが判明した。

In quantum illumination, various detection schemes have been proposed for harnessing remaining quantum correlations of the entanglement-based resource state. To this date, the only successful implementation in the microwave domain relies on a specific mixing operation of the respective return and idler modes, followed by single-photon counting in one of the two mixer outputs. We investigate the performance of this scheme for realistic detection parameters in terms of detection efficiency, dark count probability, and photon number resolution. Furthermore, we take into account the second mixer output and investigate the advantage of correlated photon counting (CPC) for a varying thermal background and optimum post-processing weighting in CPC. We find that the requirements for photon number resolution in the two mixer outputs are highly asymmetric due to different associated photon number expectation values.
翻訳日:2023-08-07 12:42:22 公開日:2023-08-04
# 古典的難解問題に対する量子近似最適化アルゴリズムのスケーリング優位性の証明

Evidence of Scaling Advantage for the Quantum Approximate Optimization Algorithm on a Classically Intractable Problem ( http://arxiv.org/abs/2308.02342v1 )

ライセンス: Link先を確認
Ruslan Shaydulin, Changhao Li, Shouvanik Chakrabarti, Matthew DeCross, Dylan Herman, Niraj Kumar, Jeffrey Larson, Danylo Lykov, Pierre Minssen, Yue Sun, Yuri Alexeev, Joan M. Dreiling, John P. Gaebler, Thomas M. Gatterman, Justin A. Gerber, Kevin Gilmore, Dan Gresh, Nathan Hewitt, Chandler V. Horst, Shaohan Hu, Jacob Johansen, Mitchell Matheny, Tanner Mengle, Michael Mills, Steven A. Moses, Brian Neyenhuis, Peter Siegfried, Romina Yalovetzky, Marco Pistoia(参考訳) 量子近似最適化アルゴリズム(QAOA)は、量子コンピュータにおける最適化問題を解くための主要な候補アルゴリズムである。 しかし、古典的に難解な問題に取り組むQAOAの可能性は、まだ不明である。 本稿では,Low Autocorrelation Binary Sequences (LABS) 問題に対するQAOAの広範な数値解析を行う。 n$のスピン数による問題の複雑さの急速な増大は、中程度の大きさのインスタンスでも古典的に難解であり、最もよく知られたヒューリスティックスは、$n \gtr 約200$の問題のよい解を見つけられなかった。 我々は最大40キュービットのノイズレスシミュレーションを行い、このシステムサイズ、固定パラメータを持つQAOAのランタイムと、LABSの最先端の正確な解法であるブランチ・アンド・バウンド・ソルバよりも一定の数の層がスケールしていることを観察する。 理想化された量子コンピュータ上でのQAOAと量子最小化の組み合わせは、LABS問題に対する任意のアルゴリズムの最良の経験的スケーリングを与える。 我々は,量子トラップイオンプロセッサ上でのアルゴリズム固有のエラー検出方式を用いて,LABS問題に対するQAOAのコンパイルと実行に関する実験的進歩を示す。 この結果から,QAOAを理想化された量子コンピュータ上で実行した場合のアルゴリズム成分としての有用性を示す。

The quantum approximate optimization algorithm (QAOA) is a leading candidate algorithm for solving optimization problems on quantum computers. However, the potential of QAOA to tackle classically intractable problems remains unclear. In this paper, we perform an extensive numerical investigation of QAOA on the Low Autocorrelation Binary Sequences (LABS) problem. The rapid growth of the problem's complexity with the number of spins $N$ makes it classically intractable even for moderately sized instances, with the best-known heuristics observed to fail to find a good solution for problems with $N \gtrapprox 200$. We perform noiseless simulations with up to 40 qubits and observe that out to this system size, the runtime of QAOA with fixed parameters and a constant number of layers scales better than branch-and-bound solvers, which are the state-of-the-art exact solvers for LABS. The combination of QAOA with quantum minimum-finding on an idealized quantum computer gives the best empirical scaling of any algorithm for the LABS problem. We demonstrate experimental progress in compiling and executing QAOA for the LABS problem using an algorithm-specific error detection scheme on Quantinuum trapped-ion processors. Our results provide evidence for the utility of QAOA as an algorithmic component when executed on an idealized quantum computer.
翻訳日:2023-08-07 12:42:08 公開日:2023-08-04
# マグニチュードオンリー画像を用いたMRI画像再構成のための画像前処理

Generative Image Priors for MRI Reconstruction Trained from Magnitude-Only Images ( http://arxiv.org/abs/2308.02340v1 )

ライセンス: Link先を確認
Guanxiong Luo and Xiaoqing Wang and Mortiz Blumenthal and Martin Schilling and Erik Hans Ulrich Rauf and Raviteja Kotikalapudi and Niels Focke and Martin Uecker(参考訳) 目的:本研究では,大域のみの画像から,汎用的で堅牢な生成画像を生成するワークフローを提案する。 プリエントは、画像品質を改善するために再構成の規則化に使用できる。 メソッド: ワークフローは、マグニチュードのみのmrイメージからデータセットをトレーニングすることから始まる。 このデータセットはフェーズ情報で拡張され、複雑な画像の生成前のトレーニングに使用される。 最後に, 各種アンダーサンプリング方式を用いて, 線形および非線形再構成を併用した, 圧縮されたセンシング並列画像の評価を行った。 結果: 実験の結果, 複雑な画像の事前訓練は, 大きさの画像のみの事前訓練よりも優れていた。 さらに、より大きなデータセットでトレーニングされた事前は、より高い堅牢性を示す。 最後に,L1-wavelet正則化よりも高アンダーサンプリングを併用した圧縮センシング並列イメージングが優れていることを示す。 結論: これらの知見は, 位相情報の導入の重要性を強調し, 大規模なデータセットを活用して, 再生前のMRI再生の性能と信頼性を高める。 フェーズ拡張により、既存の画像データベースをトレーニングに使用できる。

Purpose: In this work, we present a workflow to construct generic and robust generative image priors from magnitude-only images. The priors can then be used for regularization in reconstruction to improve image quality. Methods: The workflow begins with the preparation of training datasets from magnitude-only MR images. This dataset is then augmented with phase information and used to train generative priors of complex images. Finally, trained priors are evaluated using both linear and nonlinear reconstruction for compressed sensing parallel imaging with various undersampling schemes. Results: The results of our experiments demonstrate that priors trained on complex images outperform priors trained only on magnitude images. Additionally, a prior trained on a larger dataset exhibits higher robustness. Finally, we show that the generative priors are superior to L1 -wavelet regularization for compressed sensing parallel imaging with high undersampling. Conclusion: These findings stress the importance of incorporating phase information and leveraging large datasets to raise the performance and reliability of the generative priors for MRI reconstruction. Phase augmentation makes it possible to use existing image databases for training.
翻訳日:2023-08-07 12:41:45 公開日:2023-08-04
# フェデレーション・サバイバル・フォレストによる医療のスケール・サバイバル分析 : 心不全と乳癌ゲノムの比較研究

Scaling Survival Analysis in Healthcare with Federated Survival Forests: A Comparative Study on Heart Failure and Breast Cancer Genomics ( http://arxiv.org/abs/2308.02382v1 )

ライセンス: Link先を確認
Alberto Archetti, Francesca Ieva, Matteo Matteucci(参考訳) 生存分析は医学における基本的な道具であり、集団で興味のある出来事が起こるまでの時間をモデル化する。 しかしながら、現実世界のアプリケーションでは、サバイバルデータは、特にプライバシが重要なヘルスケア環境では、不完全、検閲、分散、機密化されることが多い。 データの不足は、大規模なデータプールに依存する分散アプリケーションに対する生存モデルのスケーラビリティを著しく制限する可能性がある。 フェデレーション学習(federated learning)は、ユーザのプライバシを損なうことなく、マシンラーニングモデルを複数のデータセットでトレーニング可能にする、有望なテクニックである。 分類と回帰のための連合学習の著しい発展にもかかわらず、生存分析の文脈では多くの方向が未検討のままである。 本研究では,federated survival forestアルゴリズムの拡張であるfederated survival forest法を提案する。 この連合型アンサンブル法は異種連邦における無作為生存林を構成する。 具体的には,クライアントフォレストから木を採取する手法をいくつか検討し,ニューラルネットワークに基づく最新サバイバルモデルと比較した。 FedSurF++の重要な利点は、既存のメソッドと同等のパフォーマンスを達成できると同時に、1回の通信ラウンドしか完了できないことだ。 広範な実証調査の結果、アルゴリズムとプライバシ保護の観点から大幅に改善され、オリジナルのFedSurFアルゴリズムがより効率的で堅牢でプライベートになった。 また、実世界の医療研究におけるFedSurF++の成功を示す2つの実世界のデータセットの結果を示す。 この結果から,FedSurF++がユーザプライバシを保ちながら分散環境での生存分析のスケーラビリティと有効性を向上する可能性が示唆された。

Survival analysis is a fundamental tool in medicine, modeling the time until an event of interest occurs in a population. However, in real-world applications, survival data are often incomplete, censored, distributed, and confidential, especially in healthcare settings where privacy is critical. The scarcity of data can severely limit the scalability of survival models to distributed applications that rely on large data pools. Federated learning is a promising technique that enables machine learning models to be trained on multiple datasets without compromising user privacy, making it particularly well-suited for addressing the challenges of survival data and large-scale survival applications. Despite significant developments in federated learning for classification and regression, many directions remain unexplored in the context of survival analysis. In this work, we propose an extension of the Federated Survival Forest algorithm, called FedSurF++. This federated ensemble method constructs random survival forests in heterogeneous federations. Specifically, we investigate several new tree sampling methods from client forests and compare the results with state-of-the-art survival models based on neural networks. The key advantage of FedSurF++ is its ability to achieve comparable performance to existing methods while requiring only a single communication round to complete. The extensive empirical investigation results in a significant improvement from the algorithmic and privacy preservation perspectives, making the original FedSurF algorithm more efficient, robust, and private. We also present results on two real-world datasets demonstrating the success of FedSurF++ in real-world healthcare studies. Our results underscore the potential of FedSurF++ to improve the scalability and effectiveness of survival analysis in distributed settings while preserving user privacy.
翻訳日:2023-08-07 12:34:43 公開日:2023-08-04
# 非理想測定熱エンジン

Non-Ideal Measurement Heat Engines ( http://arxiv.org/abs/2308.02381v1 )

ライセンス: Link先を確認
Abhisek Panda, Felix C. Binder and Sai Vinjanampathy(参考訳) 測定エンジンの文脈における非理想的測定の役割について,同一の作業出力を持つが絡み合いが異なる測定エンジンの例と対比して考察する。 エンジンの再設定コスト、エンジンのポインタ状態への関連付け、およびポインタ状態の冷却コストを考慮して、与えられた作業出力において、熱相関式エンジンが対応するエンタングルメントエンジンよりも優れることを示す。 また, 熱相関測定エンジンの最適効率は, 最適エンタングルメントエンジンのポインター温度よりも高い温度ポインターで達成されることを示した。

We discuss the role of non-ideal measurements within the context of measurement engines by contrasting examples of measurement engines which have the same work output but with varying amounts of entanglement. Accounting for the cost of resetting, correlating the engine to a pointer state and also the cost of cooling the pointer state, we show that for a given work output, thermally correlated engines can outperform corresponding entanglement engines. We also show that the optimal efficiency of the thermally correlated measurement engine is achieved with a higher temperature pointer than the pointer temperature of the optimal entanglement engine.
翻訳日:2023-08-07 12:34:17 公開日:2023-08-04
# 因果構造を分類する:古典的相関が不等式によって制約される場合の確認

Classifying Causal Structures: Ascertaining when Classical Correlations are Constrained by Inequalities ( http://arxiv.org/abs/2308.02380v1 )

ライセンス: Link先を確認
Shashaank Khanna, Marina Maciel Ansanelli, Matthew F. Pusey, and Elie Wolfe(参考訳) 変数の集合の間の古典的な因果関係は、観測された変数上の互換分布における等式制約(典型的には条件付き独立)と不等式制約(楽器とベルの不等式は原型例である)の両方を誘導することができる。 因果構造の不等式制約の列挙は、一般にその等式を列挙するよりもはるかに難しい。 さらに、不等式制約だけが量子相関による違反を認める。 これらの理由から, 因果シナリオを不平等制約を課すシナリオとそうでないシナリオに分類することが重要である。 本稿では,d-セパレーション,e-セパレーション,非互換なサポートに訴えて,そのようなシナリオを検出する手法を開発する。 HLP (Henson, Lal and Pusey) によって記述された条件によって、排他的平等制約を持つ多くのシナリオを検出できる。 最大4つの観測変数を持つすべてのシナリオを考慮し、数千の変数の数を考えると、3つの因果シナリオを除く全てのシナリオを解決でき、HLP条件が実際は徹底的であることを示す証拠を与えることができる。

The classical causal relations between a set of variables, some observed and some latent, can induce both equality constraints (typically conditional independences) as well as inequality constraints (Instrumental and Bell inequalities being prototypical examples) on their compatible distribution over the observed variables. Enumerating a causal structure's implied inequality constraints is generally far more difficult than enumerating its equalities. Furthermore, only inequality constraints ever admit violation by quantum correlations. For both those reasons, it is important to classify causal scenarios into those which impose inequality constraints versus those which do not. Here we develop methods for detecting such scenarios by appealing to d-separation, e-separation, and incompatible supports. Many (perhaps all?) scenarios with exclusively equality constraints can be detected via a condition articulated by Henson, Lal and Pusey (HLP). Considering all scenarios with up to 4 observed variables, which number in the thousands, we are able to resolve all but three causal scenarios, providing evidence that the HLP condition is, in fact, exhaustive.
翻訳日:2023-08-07 12:34:07 公開日:2023-08-04
# ダウトの種」を創る:ブラジルと米国における選挙・医療ミス情報のコテージ産業

Sowing 'Seeds of Doubt': Cottage Industries of Election and Medical Misinformation in Brazil and the United States ( http://arxiv.org/abs/2308.02377v1 )

ライセンス: Link先を確認
Amelia Hassoun, Gabrielle Borenstein, Beth Goldberg, Jacob McAuliffe, Katy Osborn(参考訳) 選挙と医療的誤情報の消費と生産を理解するため,ブラジルと米国の31の誤情報作成者と消費者を対象に民族誌調査を行った。 本研究は, ピアツーピアネットワークにおいて誤情報を生成する, 未理解の小型プレイヤー, あるいは「マイクロインフルエンサー」に着目し, 誤情報生態系の研究に寄与する。 マイクロインフルエンサーが使用する4つの重要な戦術について詳述する。 第一に、彼らは通常、モデレーションを避けるために微妙な美的および修辞的戦術を用いて、偽の主張よりも誤解を招く「グレーエリア」コンテンツを広める。 第2に、メンバーが安全を感じ、コンテンツを信頼する傾向にある、小さくてクローズドなグループに投稿する。 第3に、消費者の感情や社会的ニーズを誤報すること。 最後に、疑わしい種を植え、非公式の専門家としてインフルエンサーへの信頼を築くために、短い反復的なコンテンツを大量に投稿した。 本稿では,これらのマイクロインフルエンサーが誤情報介入やプラットフォームによる誤情報抑制にもたらす影響について論じる。

We conducted ethnographic research with 31 misinformation creators and consumers in Brazil and the US before, during, and after a major election to understand the consumption and production of election and medical misinformation. This study contributes to research on misinformation ecosystems by focusing on poorly understood small players, or "micro-influencers", who create misinformation in peer-to-peer networks. We detail four key tactics that micro-influencers use. First, they typically disseminate misleading "gray area" content rather than falsifiable claims, using subtle aesthetic and rhetorical tactics to evade moderation. Second, they post in small, closed groups where members feel safe and predisposed to trust content. Third, they explicitly target misinformation consumers' emotional and social needs. Finally, they post a high volume of short, repetitive content to plant seeds of doubt and build trust in influencers as unofficial experts. We discuss the implications these micro-influencers have for misinformation interventions and platforms' efforts to moderate misinformation.
翻訳日:2023-08-07 12:33:45 公開日:2023-08-04
# 受動量子鍵分布の有限鍵セキュリティ

Finite-key security of passive quantum key distribution ( http://arxiv.org/abs/2308.02376v1 )

ライセンス: Link先を確認
V\'ictor Zapatero and Marcos Curty(参考訳) 量子鍵分布(QKD)に対する受動的アプローチは、すべての光変調器と乱数生成器をQKDシステムから排除し、より単純で、変調器側チャネルへの免疫性、そして潜在的に高い繰り返し率に達する。 本研究では、最近発表された受動QKDソースを考慮し、完全受動デコイ状態BB84プロトコルに対する有限鍵セキュリティバウンダリを提供する。 本解析では,到達可能な秘密鍵レートは完全パラメータ推定限界と同等であり,実際には1桁未満の精度でアクティブアプローチの鍵レートと異なる。 これは完全受動的QKDソリューションの実用性を示している。

The passive approach to quantum key distribution (QKD) consists of eliminating all optical modulators and random number generators from QKD systems, in so reaching an enhanced simplicity, immunity to modulator side channels, and potentially higher repetition rates. In this work, we provide finite-key security bounds for a fully passive decoy-state BB84 protocol, considering a passive QKD source recently presented. With our analysis, the attainable secret key rate is comparable to that of the perfect parameter estimation limit, in fact differing from the key rate of the active approach by less than one order of magnitude. This demonstrates the practicality of fully passive QKD solutions.
翻訳日:2023-08-07 12:33:23 公開日:2023-08-04
# プローブ車両データによる交通信号タイミング予測のための機械学習手法

A Machine Learning Method for Predicting Traffic Signal Timing from Probe Vehicle Data ( http://arxiv.org/abs/2308.02370v1 )

ライセンス: Link先を確認
Juliette Ugirumurera, Joseph Severino, Erik A. Bensen, Qichao Wang, and Jane Macfarlane(参考訳) 交通信号は交通フロー管理を可能にし、交差点での安全を確保することで交通において重要な役割を担っている。 さらに、信号位相とタイミングデータを知ることで、時間とエネルギー効率、エコドライブ、信号化道路網の正確なシミュレーションのための最適な車両ルーティングが可能になる。 本稿では,車両プローブデータから交通信号のタイミング情報を推定する機械学習(ML)手法を提案する。 著者らにとって、車両プローブデータから交通信号タイミングパラメータを決定するためのML技術を提案する研究はほとんどない。 本研究では,信号周期長を推定するxgboost(extreme gradient boosting)モデルと,プローブデータから位相当たりの赤時間を決定するニューラルネットワークモデルを開発した。 緑色の時間は、サイクルの長さと赤の時間から導き出される。 その結果,サイクル長0.56秒未満の誤差と,平均7.2秒以内の赤時間予測が得られた。

Traffic signals play an important role in transportation by enabling traffic flow management, and ensuring safety at intersections. In addition, knowing the traffic signal phase and timing data can allow optimal vehicle routing for time and energy efficiency, eco-driving, and the accurate simulation of signalized road networks. In this paper, we present a machine learning (ML) method for estimating traffic signal timing information from vehicle probe data. To the authors best knowledge, very few works have presented ML techniques for determining traffic signal timing parameters from vehicle probe data. In this work, we develop an Extreme Gradient Boosting (XGBoost) model to estimate signal cycle lengths and a neural network model to determine the corresponding red times per phase from probe data. The green times are then be derived from the cycle length and red times. Our results show an error of less than 0.56 sec for cycle length, and red times predictions within 7.2 sec error on average.
翻訳日:2023-08-07 12:33:09 公開日:2023-08-04
# universal defense underpainting patch: テキストを光学的文字認識に見えないものに

Universal Defensive Underpainting Patch: Making Your Text Invisible to Optical Character Recognition ( http://arxiv.org/abs/2308.02369v1 )

ライセンス: Link先を確認
JiaCheng Deng, Li Dong, Jiahao Chen, Diqun Yan, Rangding Wang, Dengpan Ye, Lingchen Zhao, and Jinyu Tian(参考訳) 光文字認識(ocr)は、スキャンまたはデジタル化されたテキスト画像からのテキストの自動抽出を可能にするが、これらの画像から貴重なテキストやセンシティブなテキストを海賊化するのも容易である。 テキスト画像中の文字を歪ませることによるocr海賊行為を防止する以前の方法は、海賊がテキスト画像の任意の部分をキャプチャできるため、実際のシナリオでは実用的ではない。 本研究では,文字の代わりにテキスト画像のアンダーペインティングを変更するUDUP(Universal Defensive Underpainting Patch)と呼ばれる,新規で効果的な防御機構を提案する。 UDUPは、任意のサイズのテキスト画像に対して重複しないアンダーペイントを生成する小さな、固定サイズの防御パッチを作成するために、反復的な最適化プロセスによって作成される。 実験の結果,UDUPはスクリーンショット範囲や複雑な画像背景の設定下において,不正なOCRを効果的に防御することがわかった。 文字の内容、サイズ、色、言語には依存せず、スケーリングや圧縮といった典型的な画像操作に対して堅牢である。 さらに、UDUPの転送性は、市販のOCRを回避して示される。 コードはhttps://github.com/QRICKDD/UDUPで公開されている。

Optical Character Recognition (OCR) enables automatic text extraction from scanned or digitized text images, but it also makes it easy to pirate valuable or sensitive text from these images. Previous methods to prevent OCR piracy by distorting characters in text images are impractical in real-world scenarios, as pirates can capture arbitrary portions of the text images, rendering the defenses ineffective. In this work, we propose a novel and effective defense mechanism termed the Universal Defensive Underpainting Patch (UDUP) that modifies the underpainting of text images instead of the characters. UDUP is created through an iterative optimization process to craft a small, fixed-size defensive patch that can generate non-overlapping underpainting for text images of any size. Experimental results show that UDUP effectively defends against unauthorized OCR under the setting of any screenshot range or complex image background. It is agnostic to the content, size, colors, and languages of characters, and is robust to typical image operations such as scaling and compressing. In addition, the transferability of UDUP is demonstrated by evading several off-the-shelf OCRs. The code is available at https://github.com/QRICKDD/UDUP.
翻訳日:2023-08-07 12:32:53 公開日:2023-08-04
# テンプレートベーストレーニングと視覚知覚増強を用いた脳MRI分割

Brain MRI Segmentation using Template-Based Training and Visual Perception Augmentation ( http://arxiv.org/abs/2308.02363v1 )

ライセンス: Link先を確認
Fang-Cheng Yeh(参考訳) ディープラーニングモデルは通常、高い精度を達成するのに十分なトレーニングデータが必要ですが、ラベル付きデータを取得するのには時間と労力がかかります。 本稿では,1つの個体群平均脳MRIテンプレートとその関連セグメンテーションラベルを用いて,3次元U-Netモデルをスクラッチからトレーニングするためのテンプレートベースのトレーニング手法を提案する。 このプロセスでは、様々な画像入力の処理と過剰フィッティングの緩和においてモデルのロバスト性を高めるために視覚知覚の増強が組み込まれている。 このアプローチを活用することで、マウス、ラット、マーモセット、リース、ヒト脳MRIの3D U-Netモデルを訓練し、頭蓋骨切断、脳分節、組織確率マッピングなどのセグメンテーションタスクを達成しました。 このツールは、トレーニングデータの可用性の制限に効果的に対応し、画像分析でディープラーニングアプリケーションを拡張する大きな可能性を秘めており、研究者に1つのイメージサンプルでディープニューラルネットワークを訓練するための統一的なソリューションを提供する。

Deep learning models usually require sufficient training data to achieve high accuracy, but obtaining labeled data can be time-consuming and labor-intensive. Here we introduce a template-based training method to train a 3D U-Net model from scratch using only one population-averaged brain MRI template and its associated segmentation label. The process incorporated visual perception augmentation to enhance the model's robustness in handling diverse image inputs and mitigating overfitting. Leveraging this approach, we trained 3D U-Net models for mouse, rat, marmoset, rhesus, and human brain MRI to achieve segmentation tasks such as skull-stripping, brain segmentation, and tissue probability mapping. This tool effectively addresses the limited availability of training data and holds significant potential for expanding deep learning applications in image analysis, providing researchers with a unified solution to train deep neural networks with only one image sample.
翻訳日:2023-08-07 12:32:31 公開日:2023-08-04
# マーク付き時間点過程のインテンシティフリー積分学習

Intensity-free Integral-based Learning of Marked Temporal Point Processes ( http://arxiv.org/abs/2308.02360v1 )

ライセンス: Link先を確認
Sishun Liu, Ke Deng, Jenny Zhang, Yongli Ren(参考訳) mark temporal point process (mtpp) では、条件付きジョイント pdf (probability distribution function) $p^*(m,t)$ for-event time $t$ とマーク $m$ をパラメータ化する。 既存の研究の大半は強度関数を事前に定義している。 それらの効用は、表現性と処理効率のバランスをとるのに不可欠である強度関数の適切な形を特定することで挑戦される。 最近、強度関数の事前定義から脱却する研究がある -- 1つのモデル$p^*(t)$と$p^*(m)$を別々に、もう1つはマークを考慮しない時間点過程(TPP)に焦点を当てている。 本研究は,多次元連続空間における事象マークがカテゴリー的あるいは数値的である離散事象に対して,高忠実度$p^*(m,t)$を開発することを目的とする。 我々は,条件付きジョイント pdf $p^*(m,t)$ を直接インテンシティ関数なしでモデル化する解フレームワーク ifib (\underline{i}ntensity-\underline{f}ree \underline{i}ntegral-\underline{b}ased process) を提案する。 本質的な数学的制約を強制するプロセスを著しく単純化する。 IFIBの望ましい特性と実世界および合成データセットにおけるIFIBの優れた実験結果を示す。 コードは \url{https://github.com/stepinsilence/ifib} で入手できる。

In the marked temporal point processes (MTPP), a core problem is to parameterize the conditional joint PDF (probability distribution function) $p^*(m,t)$ for inter-event time $t$ and mark $m$, conditioned on the history. The majority of existing studies predefine intensity functions. Their utility is challenged by specifying the intensity function's proper form, which is critical to balance expressiveness and processing efficiency. Recently, there are studies moving away from predefining the intensity function -- one models $p^*(t)$ and $p^*(m)$ separately, while the other focuses on temporal point processes (TPPs), which do not consider marks. This study aims to develop high-fidelity $p^*(m,t)$ for discrete events where the event marks are either categorical or numeric in a multi-dimensional continuous space. We propose a solution framework IFIB (\underline{I}ntensity-\underline{f}ree \underline{I}ntegral-\underline{b}ased process) that models conditional joint PDF $p^*(m,t)$ directly without intensity functions. It remarkably simplifies the process to compel the essential mathematical restrictions. We show the desired properties of IFIB and the superior experimental results of IFIB on real-world and synthetic datasets. The code is available at \url{https://github.com/StepinSilence/IFIB}.
翻訳日:2023-08-07 12:32:02 公開日:2023-08-04
# Text2KGBench: テキストからオントロジー駆動の知識グラフ生成のためのベンチマーク

Text2KGBench: A Benchmark for Ontology-Driven Knowledge Graph Generation from Text ( http://arxiv.org/abs/2308.02357v1 )

ライセンス: Link先を確認
Nandana Mihindukulasooriya, Sanju Tiwari, Carlos F. Enguix, Kusum Lata(参考訳) 近年の大規模言語モデル (LLM) と創発的機能を持つ基礎モデルの進歩は,多くのNLPタスクの性能向上に寄与している。 LLMと知識グラフ(KG)は互いに補完し合い、LLMはKGの構築や完成に使用でき、既存のKGはLLM出力を説明可能なものにしたり、ニューロ・シンボリックな方法で事実チェックするといった様々なタスクに使用できる。 本稿では、オントロジーでガイドされた自然言語テキストからKGを生成する言語モデルの性能を評価するベンチマークであるText2KGBenchを提案する。 入力オントロジーと文の集合が与えられたとき、そのタスクは、与えられたオントロジー(概念、関係、ドメイン/範囲の制約)に準拠し、入力文に忠実であるながら、テキストから事実を抽出することである。 2つのデータセットを (i)Wikidata-TekGen 10オントロジー、13,474文 (ii)DBpedia-WebNLG 19オントロジー、4,860文。 LLMによる事実抽出性能,オントロジー適合性,幻覚を測定するための評価指標を7つ定義する。 さらに,Vicuna-13B と Alpaca-LoRA-13B の2つのベースラインモデルに対して,テストケースからの自動プロンプト生成を用いた結果を提供する。 その結果,セマンティックWebと自然言語処理の両手法による改善の余地があることが示唆された。

The recent advances in large language models (LLM) and foundation models with emergent capabilities have been shown to improve the performance of many NLP tasks. LLMs and Knowledge Graphs (KG) can complement each other such that LLMs can be used for KG construction or completion while existing KGs can be used for different tasks such as making LLM outputs explainable or fact-checking in Neuro-Symbolic manner. In this paper, we present Text2KGBench, a benchmark to evaluate the capabilities of language models to generate KGs from natural language text guided by an ontology. Given an input ontology and a set of sentences, the task is to extract facts from the text while complying with the given ontology (concepts, relations, domain/range constraints) and being faithful to the input sentences. We provide two datasets (i) Wikidata-TekGen with 10 ontologies and 13,474 sentences and (ii) DBpedia-WebNLG with 19 ontologies and 4,860 sentences. We define seven evaluation metrics to measure fact extraction performance, ontology conformance, and hallucinations by LLMs. Furthermore, we provide results for two baseline models, Vicuna-13B and Alpaca-LoRA-13B using automatic prompt generation from test cases. The baseline results show that there is room for improvement using both Semantic Web and Natural Language Processing techniques.
翻訳日:2023-08-07 12:31:18 公開日:2023-08-04
# オンラインスキルレーティングにおけるモデリングと推論に関する状態空間的視点

A State-Space Perspective on Modelling and Inference for Online Skill Rating ( http://arxiv.org/abs/2308.02414v1 )

ライセンス: Link先を確認
Samuel Duffield, Samuel Power, Lorenzo Rimella(参考訳) 本稿では,競技競技における技能評価における主手法について概観する。 我々は,選手のスキルを時間変動として表現し,マッチ結果が唯一の観測量となる状態空間モデル視点を提唱する。 状態空間モデルの観点はモデリングと推論の分離を促進し、モデルの仮定を強調するより焦点を絞ったアプローチを可能にし、汎用推論ツールの開発を促進する。 本稿では,3段階の推論(フィルタリング,平滑化,パラメータ推定)で議論を始める前に,スキル評価のための状態空間モデルを構築するための重要なステップを検討する。 全体として,多数の選手とマッチを含む高次元シナリオまでスケールアップする計算上の課題について検討し,これらの課題を効果的に解決するために使用される近似と縮小を強調する。 文献に記録されている一般的な手法の簡潔な要約と推論パラダイムを提供し、連続モンテカルロおよび有限状態空間に基づくスキル評価推論の新しいアプローチを提案する。 様々なスポーツにおける実データに対する実用的なワークフローを実証する数値実験を締めくくった。

This paper offers a comprehensive review of the main methodologies used for skill rating in competitive sports. We advocate for a state-space model perspective, wherein players' skills are represented as time-varying, and match results serve as the sole observed quantities. The state-space model perspective facilitates the decoupling of modeling and inference, enabling a more focused approach highlighting model assumptions, while also fostering the development of general-purpose inference tools. We explore the essential steps involved in constructing a state-space model for skill rating before turning to a discussion on the three stages of inference: filtering, smoothing and parameter estimation. Throughout, we examine the computational challenges of scaling up to high-dimensional scenarios involving numerous players and matches, highlighting approximations and reductions used to address these challenges effectively. We provide concise summaries of popular methods documented in the literature, along with their inferential paradigms and introduce new approaches to skill rating inference based on sequential Monte Carlo and finite state-spaces. We close with numerical experiments demonstrating a practical workflow on real data across different sports.
翻訳日:2023-08-07 12:24:31 公開日:2023-08-04
# ゲルマニウム量子ドットによるコヒーレントスピン量子ビットのシャットリング

Coherent spin qubit shuttling through germanium quantum dots ( http://arxiv.org/abs/2308.02406v1 )

ライセンス: Link先を確認
Floor van Riggelen-Doelman, Chien-An Wang, Sander L. de Snoo, William I. L. Lawrie, Nico W. Hendrickx, Maximilian Rimbach-Russ, Amir Sammak, Giordano Scappucci, Corentin D\'eprez, and Menno Veldhorst(参考訳) 量子リンクは量子ビットレジスタを相互接続できるため、ネットワーク量子コンピューティングでは必須である。 半導体量子ドット量子ビットは小さな量子ビットレジスタの高忠実度演算において著しく進歩しているが、説得力のある量子リンクを確立することは依然として課題である。 ここで、スピン量子ビットは、量子情報を保存しながら、複数の量子ドットを通り抜けることができることを示す。 驚くべきことに、強いスピン軌道相互作用が存在するにもかかわらず、ゲルマニウムのホールスピン量子ビットを用いてこれらの結果を達成する。 スピン基底状態が 300$\mu$m を超える実効的な長さでシャットリングし、9$\mu$m に対応する実効的な長さで重畳状態のコヒーレントなシャットリングを証明し、動的デカップリングを組み込むことで 49$\mu$m まで拡張できる。 これらの結果は、レジスタ内のキュービットをルーティングし、レジスタ間の量子リンクを確立するための効果的なアプローチとして、キュービットシャットリングが示されている。

Quantum links can interconnect qubit registers and are therefore essential in networked quantum computing. Semiconductor quantum dot qubits have seen significant progress in the high-fidelity operation of small qubit registers but establishing a compelling quantum link remains a challenge. Here, we show that a spin qubit can be shuttled through multiple quantum dots while preserving its quantum information. Remarkably, we achieve these results using hole spin qubits in germanium, despite the presence of strong spin-orbit interaction. We accomplish the shuttling of spin basis states over effective lengths beyond 300 $\mu$m and demonstrate the coherent shuttling of superposition states over effective lengths corresponding to 9 $\mu$m, which we can extend to 49 $\mu$m by incorporating dynamical decoupling. These findings indicate qubit shuttling as an effective approach to route qubits within registers and to establish quantum links between registers.
翻訳日:2023-08-07 12:24:12 公開日:2023-08-04
# 偽陽性のない量子カオス

Quantum chaos without false positives ( http://arxiv.org/abs/2308.02403v1 )

ライセンス: Link先を確認
Dmitrii A. Trunin(参考訳) 時間外相関器は量子カオスの指標として広く用いられているが、孤立したサドル点を持つ可積分系に対して偽陽性の量子リアプノフ指数を与える。 本稿では,この欠点を解消し,時間外相関器の利点をすべて維持する代替指標を提案する。 特に、新しい指標は、半古典的極限における平均リアプノフ指数とエーレンフェスト時間を正確に予測し、レプリカトリックを用いて解析的に計算し、カオス上の境界を満たす。

Out-of-time-order correlators are widely used as an indicator of quantum chaos, but give false-positive quantum Lyapunov exponents for integrable systems with isolated saddle points. We propose an alternative indicator that fixes this drawback and retains all advantages of out-of-time-order correlators. In particular, the new indicator correctly predicts the average Lyapunov exponent and the Ehrenfest time in the semiclassical limit, can be calculated analytically using the replica trick, and satisfies the bound on chaos.
翻訳日:2023-08-07 12:23:53 公開日:2023-08-04
# Relaxed Jacobian Determinant Constraints を用いた二変変分型画像登録モデル

A Bi-variant Variational Model for Diffeomorphic Image Registration with Relaxed Jacobian Determinant Constraints ( http://arxiv.org/abs/2308.02393v1 )

ライセンス: Link先を確認
Yanyan Li, Ke Chen, Chong Chen, Jianping Zhang(参考訳) diffeomorphic registrationはテンプレートと参照画像を用いて測定された2つの座標系間の滑らかで可逆的な空間変換を求めるための強力なアプローチとなっている。 While the pointwise volume-preserving constraint is effective for some problems, it is too stringent for many other problems especially when the local deformations are relatively large, because it may lead to a poor large-deformation for enforcing local matching.In this paper, we propose a novel bi-variant diffeomorphic image registration model with the soft constraint of Jacobian equation, which allows local deformations to shrink and grow in a flexible range.The Jacobian determinant of the transformation is explicitly controlled by optimizing the relaxation function. To prevent deformation folding and enhance the smoothness of deformation, we not only impose a positivity constraint in optimizing the relaxation function, but also employ a regularizer to ensure the smoothness of the relaxation function.Furthermore, the positivity constraint ensures that is as close to one as possible, which helps to obtain a volume-preserving transformation on average.We further analyze the existence of the minimizer for the variational model and propose a penalty splitting method with a multilevel strategy to solve this model. 数値実験により,提案アルゴリズムは収束しており,正値制約は相対体積の範囲を制御でき,登録精度を損なわないことを示した。 さらに, 提案モデルでは, 大変形に対して二相写像を生成でき, 既存の登録モデルと比較して性能が向上した。

Diffeomorphic registration has become a powerful approach for seeking a smooth and invertible spatial transformation between two coordinate systems which have been measured via the template and reference images. While the pointwise volume-preserving constraint is effective for some problems, it is too stringent for many other problems especially when the local deformations are relatively large, because it may lead to a poor large-deformation for enforcing local matching.In this paper, we propose a novel bi-variant diffeomorphic image registration model with the soft constraint of Jacobian equation, which allows local deformations to shrink and grow in a flexible range.The Jacobian determinant of the transformation is explicitly controlled by optimizing the relaxation function. To prevent deformation folding and enhance the smoothness of deformation, we not only impose a positivity constraint in optimizing the relaxation function, but also employ a regularizer to ensure the smoothness of the relaxation function.Furthermore, the positivity constraint ensures that is as close to one as possible, which helps to obtain a volume-preserving transformation on average.We further analyze the existence of the minimizer for the variational model and propose a penalty splitting method with a multilevel strategy to solve this model. Numerical experiments show that the proposed algorithm is convergent, and the positivity constraint can control the range of relative volume and not compromise registration accuracy. Moreover, the proposed model produces diffeomorphic maps for large deformation, and achieves better performance compared to the several existing registration models.
翻訳日:2023-08-07 12:23:28 公開日:2023-08-04
# 複製時間外相関器からの精製量子リアプノフ指数

Refined quantum Lyapunov exponents from replica out-of-time-order correlators ( http://arxiv.org/abs/2308.02392v1 )

ライセンス: Link先を確認
Dmitrii A. Trunin(参考訳) 対数的外秩序相関器に基づく量子カオスの新しい指標を提案する。 一方、この指標は半古典的極限における平均古典的リアプノフ指数を正しく再現し、量子カオスと古典的K系の定義を直接リンクする。 一方,2n$-fold keldysh輪郭上のレプリカトリックとシュウィンガー・ケルディッシュ図法を用いて解析的に計算することができる。 このアプローチを説明するために、量子猫マップを含むいくつかの1次元システムと、sachdev-ye-kitaevモデルを含む3つのパラダイム的大規模n$モデルを考える。 さらに、レプリカ間の相関関係は、従来の時間外コリケータに基づく推定よりもリアプノフ指数の大きさを小さくできることがわかった。

We suggest a new indicator of quantum chaos based on the logarithmic out-of-time-order correlator. On the one hand, this indicator correctly reproduces the average classical Lyapunov exponent in the semiclassical limit and directly links the definitions of quantum chaos and classical K-system. On the other hand, it can be analytically calculated using the replica trick and the Schwinger-Keldysh diagram technique on a $2n$-fold Keldysh contour. To illustrate this approach, we consider several one-dimensional systems, including the quantum cat map, and three paradigmatic large-$N$ models, including the Sachdev-Ye-Kitaev model. Furthermore, we find that correlations between replicas can reduce the magnitude of the Lyapunov exponent compared to estimates based on conventional out-of-time-order correlators.
翻訳日:2023-08-07 12:23:08 公開日:2023-08-04
# 部分可観測待ち行列ネットワークにおける最適入場制御の学習

Learning Optimal Admission Control in Partially Observable Queueing Networks ( http://arxiv.org/abs/2308.02391v1 )

ライセンス: Link先を確認
Jonatha Anselmi, Bruno Gaujal, Louis-S\'ebastien Rebuffi(参考訳) 本稿では、部分的に観測可能な待ち行列ネットワークにおいて、最適入場制御ポリシーを学習する効率的な強化学習アルゴリズムを提案する。 具体的には、ネットワークからの到着時間と出発時間のみが観測可能であり、最適性は無限地平線の平均保持/削除コストを指す。 部分可観測マルコフ決定過程(pomdp)における強化学習は一般的には高価であるが,本アルゴリズムでは,ネットワーク内のジョブの最大数に従わないことを後悔している。 特に、既存の後悔分析とは対照的に、私たちの後悔の境界は、ほとんどの待ち行列システムにおいて少なくとも$s$で指数関数的であるマルコフ決定プロセス(mdp)の直径に依存しない。 このアプローチの目新しさは,閉積型待ち行列ネットワークに対するnortonの等価定理と,生死過程の構造を持つmdpの効率的な強化学習アルゴリズムを活用することである。

We present an efficient reinforcement learning algorithm that learns the optimal admission control policy in a partially observable queueing network. Specifically, only the arrival and departure times from the network are observable, and optimality refers to the average holding/rejection cost in infinite horizon. While reinforcement learning in Partially Observable Markov Decision Processes (POMDP) is prohibitively expensive in general, we show that our algorithm has a regret that only depends sub-linearly on the maximal number of jobs in the network, $S$. In particular, in contrast with existing regret analyses, our regret bound does not depend on the diameter of the underlying Markov Decision Process (MDP), which in most queueing systems is at least exponential in $S$. The novelty of our approach is to leverage Norton's equivalent theorem for closed product-form queueing networks and an efficient reinforcement learning algorithm for MDPs with the structure of birth-and-death processes.
翻訳日:2023-08-07 12:22:54 公開日:2023-08-04
# 2次元平面分光

Two-Dimensional Planck Spectroscopy ( http://arxiv.org/abs/2308.02389v1 )

ライセンス: Link先を確認
S. Gandorfer, M. Renger, W. K. Yam, F. Fesquet, A. Marx, R. Gross and K. G. Fedorov(参考訳) 弱いマイクロ波信号の量子状態トモグラフィーは超伝導回路を用いた量子情報処理における多くのプロトコルの重要な部分である。 このステップは通常、実験セットにおける信号損失の正確な$\textit{in-situ}$推定に依存し、注意深く光子数校正を必要とする。 本稿では, 閉冷凍システム内におけるマイクロ波損失推定法の改良について述べる。 当社のアプローチはプランクの法則に基づいており、低温設定の個々の部分の独立した温度上昇を利用する。 この手法により,低温環境下でのマイクロ波損失の0.1dB以下の変化を実験的に解決することができる。 本稿では,量子制限型超伝導増幅器の高精度評価と,他の著名な実験環境での応用について検討する。

Quantum state tomography of weak microwave signals is an important part of many protocols in the field of quantum information processing with superconducting circuits. This step typically relies on an accurate $\textit{in-situ}$ estimation of signal losses in the experimental set-up and requires a careful photon number calibration. Here, we present an improved method for the microwave loss estimation inside of a closed cryogenic system. Our approach is based on Planck's law and makes use of independent temperature sweeps of individual parts of the cryogenic set-up. Using this technique, we can experimentally resolve changes in microwave losses of less than 0.1 dB in the cryogenic environment. We discuss potential applications of this approach for precise characterization of quantum-limited superconducting amplifiers and in other prominent experimental settings.
翻訳日:2023-08-07 12:22:37 公開日:2023-08-04
# 双対性ツイストからの量子コンピュータにおけるマヨラナモードの分離

Isolated Majorana mode in a quantum computer from a duality twist ( http://arxiv.org/abs/2308.02387v1 )

ライセンス: Link先を確認
Sutapa Samanta, Derek S. Wang, Armin Rahmani, Aditi Mitra(参考訳) 双対性、一般化対称性、トポロジカル欠陥の相互作用に関する実験的研究は、凝縮物質物理学や量子材料において重要な課題である。 この物理学を示す単純なモデルは横場イジングモデルであり、クラマース・ワニエ双対変換を実行する非可逆位相的欠陥をホストすることができる。 空間の一点に作用するとき、この双対性欠陥は双対性ツイスト境界条件を課し、単一のマヨラナ零モードを結合する。 このマヨラナゼロモードは局所化されたパートナーがなく、有限系においても無限の寿命を持つため、珍しい。 二重性欠陥を持つ閉IsingチェーンのFloquet駆動を用いて、ディジタル量子コンピュータにおいてこのMajoranaゼロモードを生成する。 効率的なサンプリングプロトコルとエラー緩和のための複合戦略を用いて,関連する持続的自己相関関数を測定することで,モードの検出を行う。 また,mallana zeroモードはkramers-wannier双対性に関連する2つの領域の間のドメインウォールに存在することを示した。 最後に,分離マヨラナゼロモードの可積分性と対称性破壊摂動に対する堅牢性を強調した。 Floquetシステムにおけるエキゾチックなトポロジカルな欠陥を調査するための実験的アプローチを提供する。

Experimental investigation of the interplay of dualities, generalized symmetries, and topological defects is an important challenge in condensed matter physics and quantum materials. A simple model exhibiting this physics is the transverse-field Ising model, which can host a noninvertible topological defect that performs the Kramers-Wannier duality transformation. When acting on one point in space, this duality defect imposes the duality twisted boundary condition and binds a single Majorana zero mode. This Majorana zero mode is unusual as it lacks localized partners and has an infinite lifetime, even in finite systems. Using Floquet driving of a closed Ising chain with a duality defect, we generate this Majorana zero mode in a digital quantum computer. We detect the mode by measuring its associated persistent autocorrelation function using an efficient sampling protocol and a compound strategy for error mitigation. We also show that the Majorana zero mode resides at the domain wall between two regions related by a Kramers-Wannier duality. Finally, we highlight the robustness of the isolated Majorana zero mode to integrability and symmetry-breaking perturbations. Our findings offer an experimental approach to investigating exotic topological defects in Floquet systems.
翻訳日:2023-08-07 12:22:25 公開日:2023-08-04
# マルチモーダルカテゴリー探索による強化学習による非知覚的平面操作

Nonprehensile Planar Manipulation through Reinforcement Learning with Multimodal Categorical Exploration ( http://arxiv.org/abs/2308.02459v1 )

ライセンス: Link先を確認
Juan Del Aguila Ferrandis, Jo\~ao Moura, Sethu Vijayakumar(参考訳) テーブル上にオブジェクトをプッシュするなど,器用な非包括操作を実現するロボットコントローラの開発は困難である。 摩擦相互作用によって生じる不確実性によってさらに複雑になる問題の過度かつハイブリッド力学的性質は、洗練された制御行動を必要とする。 強化学習(Reinforcement Learning, RL)は、ロボットコントローラを開発するための強力なフレームワークである。 しかし、非包括的プッシュタスクに対処する以前のRL文献は、低い精度、非滑らかな軌道、単純な動き、すなわち、操作対象の回転なしでしか達成できない。 従来はユニモーダル探索戦略では,ロボットと物体の接触操作モードの違い,例えば粘着,滑動,分離などによって生じるタスクの固有ハイブリッドダイナミクスを捉えられなかったと推測した。 本研究では,任意の開始対象と目標対象のポーズ,すなわち位置と向き,精度の向上のための平面プッシュRLポリシーの訓練を可能にする,分類分布によるマルチモーダル探索手法を提案する。 学習したポリシーは外乱や観測ノイズに頑健であり,複数のプッシャーを持つタスクにスケールできることを示した。 さらに,KUKA いわロボットアームを用いた物理ロボットハードウェアへの学習方針の伝達性についても検証した。 https://youtu.be/vtdva1mgrk4。

Developing robot controllers capable of achieving dexterous nonprehensile manipulation, such as pushing an object on a table, is challenging. The underactuated and hybrid-dynamics nature of the problem, further complicated by the uncertainty resulting from the frictional interactions, requires sophisticated control behaviors. Reinforcement Learning (RL) is a powerful framework for developing such robot controllers. However, previous RL literature addressing the nonprehensile pushing task achieves low accuracy, non-smooth trajectories, and only simple motions, i.e. without rotation of the manipulated object. We conjecture that previously used unimodal exploration strategies fail to capture the inherent hybrid-dynamics of the task, arising from the different possible contact interaction modes between the robot and the object, such as sticking, sliding, and separation. In this work, we propose a multimodal exploration approach through categorical distributions, which enables us to train planar pushing RL policies for arbitrary starting and target object poses, i.e. positions and orientations, and with improved accuracy. We show that the learned policies are robust to external disturbances and observation noise, and scale to tasks with multiple pushers. Furthermore, we validate the transferability of the learned policies, trained entirely in simulation, to a physical robot hardware using the KUKA iiwa robot arm. See our supplemental video: https://youtu.be/vTdva1mgrk4.
翻訳日:2023-08-07 12:14:28 公開日:2023-08-04
# 時間知識グラフの完成に関する調査 : 分類学,進歩,展望

A Survey on Temporal Knowledge Graph Completion: Taxonomy, Progress, and Prospects ( http://arxiv.org/abs/2308.02457v1 )

ライセンス: Link先を確認
Jiapu Wang, Boyue Wang, Meikang Qiu, Shirui Pan, Bo Xiong, Heng Liu, Linhao Luo, Tengfei Liu, Yongli Hu, Baocai Yin, Wen Gao(参考訳) 時間的特徴は、学術と産業の両方において、時間的知識グラフ(TKG)が重要な役割を担っている、かなりの量の知識において明らかである。 しかしながら、tkgは、新しい知識の継続的な出現、非構造化データから構造化情報を抽出するアルゴリズムの弱点、ソースデータセットにおける情報の欠如という3つの主な理由から、不完全さに苦しむことが多い。 このように、TKGC(Temporal Knowledge Graph Completion)タスクは、利用可能な情報に基づいて行方不明アイテムを予測することを目的として、注目を集めている。 本稿では,TKGC法とその詳細について概説する。 具体的には,1)tkgc法の予備機能,トレーニングに必要な損失関数,およびデータセットと評価プロトコルの3つの構成要素から構成する。 さらに、時間的情報を処理する方法に基づいて、関連するTKGCメソッドを分類する。 3) Extrapolationは、通常、連続的なTKGに焦点を当て、将来の事象を予測し、その後、使用するアルゴリズムに基づいて、すべての外挿メソッドを分類する。 さらに課題を指摘し,今後のTKGC研究の方向性について論じる。

Temporal characteristics are prominently evident in a substantial volume of knowledge, which underscores the pivotal role of Temporal Knowledge Graphs (TKGs) in both academia and industry. However, TKGs often suffer from incompleteness for three main reasons: the continuous emergence of new knowledge, the weakness of the algorithm for extracting structured information from unstructured data, and the lack of information in the source dataset. Thus, the task of Temporal Knowledge Graph Completion (TKGC) has attracted increasing attention, aiming to predict missing items based on the available information. In this paper, we provide a comprehensive review of TKGC methods and their details. Specifically, this paper mainly consists of three components, namely, 1)Background, which covers the preliminaries of TKGC methods, loss functions required for training, as well as the dataset and evaluation protocol; 2)Interpolation, that estimates and predicts the missing elements or set of elements through the relevant available information. It further categorizes related TKGC methods based on how to process temporal information; 3)Extrapolation, which typically focuses on continuous TKGs and predicts future events, and then classifies all extrapolation methods based on the algorithms they utilize. We further pinpoint the challenges and discuss future research directions of TKGC.
翻訳日:2023-08-07 12:14:06 公開日:2023-08-04
# 高次SDEシミュレーションのためのL\'{e}vy領域の生成モデリング

Generative Modelling of L\'{e}vy Area for High Order SDE Simulation ( http://arxiv.org/abs/2308.02452v1 )

ライセンス: Link先を確認
Andra\v{z} Jelin\v{c}i\v{c}, Jiajie Tao, William F. Turner, Thomas Cass, James Foster, Hao Ni(参考訳) SDE の解を数値的にシミュレートする場合、O(\sqrt{h}) よりも強い収束率(h はステップサイズ)を達成するには、ブラウン運動のある種の反復積分(一般に「L\'{e}vy area」と呼ばれる)を使う必要があることはよく知られている。 しかし、これらの確率積分はその非ガウス的な性質と、d > 2 の d-次元ブラウン運動のためにシミュレートすることは困難であり、高速な近似サンプリングアルゴリズムは知られていない。 本稿では,ブラウン増分に基づくL\'{e}vy領域の近似サンプルを生成するディープラーニングモデルであるL\'{e}vyGANを提案する。 ブリッジフリッピング」操作のため、出力サンプルは全てのジョイントと条件付き奇数モーメントに正確に一致する。 我々のジェネレータはGNNにインスパイアされたアーキテクチャを採用しており、出力分布と条件変数の間の正しい依存関係構造を強制する。 さらに, 数学的に原理化された特徴関数に基づく判別器を組み込んだ。 最後に,「チェントレーディング」と呼ばれる新たなトレーニング機構を導入することで,コストのかかるトレーニングデータセットの必要性を回避できる。 この新しい訓練手順は、我々の2つの主要な理論結果に基づいている。 4次元ブラウン運動の場合、L\'{e}vyGANは関節分布と辺縁分布の両方を測定する複数の測定値の最先端性能を示す。 我々は,多レベルモンテカルロ (mlmc) を用いた場合, 高品質合成l\'{e}vy領域が高次弱収束と分散還元をもたらすことを実証し, 数理ファイナンスにおける一般的なsdeであるlog-hestonモデルに関する数値実験を行った。

It is well known that, when numerically simulating solutions to SDEs, achieving a strong convergence rate better than O(\sqrt{h}) (where h is the step size) requires the use of certain iterated integrals of Brownian motion, commonly referred to as its "L\'{e}vy areas". However, these stochastic integrals are difficult to simulate due to their non-Gaussian nature and for a d-dimensional Brownian motion with d > 2, no fast almost-exact sampling algorithm is known. In this paper, we propose L\'{e}vyGAN, a deep-learning-based model for generating approximate samples of L\'{e}vy area conditional on a Brownian increment. Due to our "Bridge-flipping" operation, the output samples match all joint and conditional odd moments exactly. Our generator employs a tailored GNN-inspired architecture, which enforces the correct dependency structure between the output distribution and the conditioning variable. Furthermore, we incorporate a mathematically principled characteristic-function based discriminator. Lastly, we introduce a novel training mechanism termed "Chen-training", which circumvents the need for expensive-to-generate training data-sets. This new training procedure is underpinned by our two main theoretical results. For 4-dimensional Brownian motion, we show that L\'{e}vyGAN exhibits state-of-the-art performance across several metrics which measure both the joint and marginal distributions. We conclude with a numerical experiment on the log-Heston model, a popular SDE in mathematical finance, demonstrating that high-quality synthetic L\'{e}vy area can lead to high order weak convergence and variance reduction when using multilevel Monte Carlo (MLMC).
翻訳日:2023-08-07 12:13:25 公開日:2023-08-04
# ベイズ推論を用いたニューラルネットワークのpruning

Pruning a neural network using Bayesian inference ( http://arxiv.org/abs/2308.02451v1 )

ライセンス: Link先を確認
Sunil Mathew, Daniel B. Rowe(参考訳) ニューラルネットワークのプルーニングは、大規模ニューラルネットワークの計算とメモリ要求を減らすための非常に効果的な手法である。 本稿では,学習手順にシームレスに統合可能なベイズ推論を用いたニューラルネットワークのプルーニング手法を提案する。 提案手法は, 刈り込み前後のニューラルネットワークの後方確率を活用し, ベイズ因子の計算を可能にする。 計算されたベイズ因子は反復的刈り込みを導く。 本手法は,複数のベンチマークで総合的な評価を行い,競合精度を維持しつつ,所望のスパーシティのレベルを達成できることを実証する。

Neural network pruning is a highly effective technique aimed at reducing the computational and memory demands of large neural networks. In this research paper, we present a novel approach to pruning neural networks utilizing Bayesian inference, which can seamlessly integrate into the training procedure. Our proposed method leverages the posterior probabilities of the neural network prior to and following pruning, enabling the calculation of Bayes factors. The calculated Bayes factors guide the iterative pruning. Through comprehensive evaluations conducted on multiple benchmarks, we demonstrate that our method achieves desired levels of sparsity while maintaining competitive accuracy.
翻訳日:2023-08-07 12:12:55 公開日:2023-08-04
# 軍から医療へ:創造的人工知能の倫理的原則の採用と拡張

From Military to Healthcare: Adopting and Expanding Ethical Principles for Generative Artificial Intelligence ( http://arxiv.org/abs/2308.02448v1 )

ライセンス: Link先を確認
David Oniani, Jordan Hilsman, Yifan Peng, COL (Ret.) Ronald K. Poropatich, COL Jeremy C. Pamplin, LTC Gary L. Legault, Yanshan Wang(参考訳) 2020年、国防総省は、将来の戦場での人工知能(AI)技術の使用を導くための一連の倫理的原則を公式に公表した。 軍と医療には大きな違いはあるものの、大きな類似点がある。 戦場の戦士はしばしば、迅速な意思決定を必要とする人生を変える状況に直面する。 医療提供者は、救急部門や救命状態の治療中など、急速に変化する医療環境において同様の課題を経験する。 価値ある情報を効率的に生成するように設計された新興技術である生成AIは、大きな可能性を秘めている。 コンピュータのパワーがよりアクセスしやすくなり、電子健康記録、心電図、医療画像などの健康データが豊富になるにつれて、この技術によって医療が革新されることは避けられない。 近年、ジェネレーティブAIは研究コミュニティを魅了し、透明性や関連する問題への懸念から、その医療への応用に関する議論につながっている。 一方、モデリングバイアスによる健康格差の悪化の懸念は、医療におけるこの技術の使用に関する倫理的な懸念を引き起こしている。 しかし、医療における生成AIの倫理的原則は検討されており、意思決定者は生成AIの重要性を考えることができないことが多い。 本稿では,医療における生成型aiのガバナンス,信頼性,公平性,説明責任,トレーサビリティ,プライバシ,合法性,共感性,自律性といった倫理的原則を提案する。 我々は、医療における生成AIの統合によって引き起こされる倫理的ジレンマと課題に積極的に対処することを目指している。

In 2020, the U.S. Department of Defense officially disclosed a set of ethical principles to guide the use of Artificial Intelligence (AI) technologies on future battlefields. Despite stark differences, there are core similarities between the military and medical service. Warriors on battlefields often face life-altering circumstances that require quick decision-making. Medical providers experience similar challenges in a rapidly changing healthcare environment, such as in the emergency department or during surgery treating a life-threatening condition. Generative AI, an emerging technology designed to efficiently generate valuable information, holds great promise. As computing power becomes more accessible and the abundance of health data, such as electronic health records, electrocardiograms, and medical images, increases, it is inevitable that healthcare will be revolutionized by this technology. Recently, generative AI has captivated the research community, leading to debates about its application in healthcare, mainly due to concerns about transparency and related issues. Meanwhile, concerns about the potential exacerbation of health disparities due to modeling biases have raised notable ethical concerns regarding the use of this technology in healthcare. However, the ethical principles for generative AI in healthcare have been understudied, and decision-makers often fail to consider the significance of generative AI. In this paper, we propose GREAT PLEA ethical principles, encompassing governance, reliability, equity, accountability, traceability, privacy, lawfulness, empathy, and autonomy, for generative AI in healthcare. We aim to proactively address the ethical dilemmas and challenges posed by the integration of generative AI in healthcare.
翻訳日:2023-08-07 12:12:44 公開日:2023-08-04
# 分布認識による適応的優先度付きkNNグラフ

Adaptive Preferential Attached kNN Graph With Distribution-Awareness ( http://arxiv.org/abs/2308.02442v1 )

ライセンス: Link先を確認
Shaojie Min, Ji Liu(参考訳) グラフベースのkNNアルゴリズムは、その単純さと有効性のために、機械学習タスクで広く普及している。 しかし、従来のkNNグラフのkの固定値への依存は、特に複雑なデータ分散を伴うシナリオにおいて、その性能を妨げうる。 さらに、他の分類モデルと同様に、決定境界に沿った曖昧なサンプルの存在は、誤った分類をする傾向があるため、しばしば課題となる。 これらの問題に対処するために、適応的なkNNと分布に基づくグラフ構成を組み合わせた優先度付きk-Nearest Neighbors Graph (paNNG)を提案する。 分布情報を組み込むことで、paNNGはそれらを元のクラスに"プッシュ"することで、あいまいなサンプルの性能を大幅に向上し、全体的な精度と一般化能力を向上させることができる。 さまざまなベンチマークデータセットの厳密な評価を通じて、paNNGは最先端のアルゴリズムを上回り、その適応性と実世界のさまざまなシナリオにおける有効性を示している。

Graph-based kNN algorithms have garnered widespread popularity for machine learning tasks, due to their simplicity and effectiveness. However, the conventional kNN graph's reliance on a fixed value of k can hinder its performance, especially in scenarios involving complex data distributions. Moreover, like other classification models, the presence of ambiguous samples along decision boundaries often presents a challenge, as they are more prone to incorrect classification. To address these issues, we propose the Preferential Attached k-Nearest Neighbors Graph (paNNG), which combines adaptive kNN with distribution-based graph construction. By incorporating distribution information, paNNG can significantly improve performance for ambiguous samples by "pulling" them towards their original classes and hence enable enhanced overall accuracy and generalization capability. Through rigorous evaluations on diverse benchmark datasets, paNNG outperforms state-of-the-art algorithms, showcasing its adaptability and efficacy across various real-world scenarios.
翻訳日:2023-08-07 12:12:19 公開日:2023-08-04
# 量子ドット単一光子源を用いた偏光絡み状態の生成とキャラクタリゼーション

Generation and characterization of polarization-entangled states using quantum dot single-photon sources ( http://arxiv.org/abs/2308.02422v1 )

ライセンス: Link先を確認
Mauro Valeri, Paolo Barigelli, Beatrice Polacchi, Giovanni Rodari, Gianluca De Santis, Taira Giordani, Gonzalo Carvacho, Nicol\`o Spagnolo and Fabio Sciarrino(参考訳) 半導体量子ドットに基づく単一光子源は、高い単一光子識別性、オンデマンド生成、低多光子放出により、量子情報処理にいくつかの応用がある。 この文脈において、絡み合った光子の生成は、同じ光源から異なるパルスで放出される同一光子の確率ゲートの干渉に依存する可能性のある解決策で難しい課題である。 本研究では、このアプローチを、偏光度の自由度で絡み合った光子対を生成する単純でコンパクトな設計で実装する。 提案方式では, 共振励起と縦音響フォノンアシスト構成の2つの異なるポンプ方式により, 単一光子を用いたプラットフォームを運用する。 次に, 2次相関関数やHong-Ou-Mandel可視性など, 関連する実験パラメータを考慮に入れた完全モデルを開発した。 我々の情報源は、生成した絡み合った状態の長期的安定性と高品質を示し、光学量子技術の信頼性の高い構築ブロックを構成する。

Single-photon sources based on semiconductor quantum dots find several applications in quantum information processing due to their high single-photon indistinguishability, on-demand generation, and low multiphoton emission. In this context, the generation of entangled photons represents a challenging task with a possible solution relying on the interference in probabilistic gates of identical photons emitted at different pulses from the same source. In this work, we implement this approach via a simple and compact design that generates entangled photon pairs in the polarization degree of freedom. We operate the proposed platform with single photons produced through two different pumping schemes, the resonant excited one and the longitudinal-acoustic phonon-assisted configuration. We then characterize the produced entangled two-photon states by developing a complete model taking into account relevant experimental parameters, such as the second-order correlation function and the Hong-Ou-Mandel visibility. Our source shows long-term stability and high quality of the generated entangled states, thus constituting a reliable building block for optical quantum technologies.
翻訳日:2023-08-07 12:11:44 公開日:2023-08-04
# MM-Vet:統合能力のための大規模マルチモーダルモデルの評価

MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities ( http://arxiv.org/abs/2308.02490v1 )

ライセンス: Link先を確認
Weihao Yu, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Xinchao Wang, Lijuan Wang(参考訳) 複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)の評価ベンチマークであるMM-Vetを提案する。 近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。 迅速なモデル開発は、ベンチマーク開発の評価に課題をもたらす。 課題は,(1)複雑なマルチモーダルタスクを体系的に構造化し,評価する方法,(2)質問や回答のタイプでうまく機能する評価指標を設計する方法,(3)単純なパフォーマンスランキングを超えたモデルインサイトを提供する方法。 この目的のために、複雑なタスクを解く興味深い能力は、様々なコアビジョン言語(VL)機能を統合できる一般モデルによってしばしば達成されるという知見に基づいて設計されたMM-Vetを提案する。 MM-Vetは6つのコアVL機能を定義し、機能の組み合わせから導かれる16の関心統合を検証している。 評価指標として,オープンエンド出力のためのLCMに基づく評価器を提案する。 評価器は、異なる質問タイプと回答スタイルで評価が可能であり、その結果、統一されたスコアリング基準となる。 MM-Vetにおける代表的LMMを評価し、異なるLMMシステムパラダイムとモデルの能力に関する洞察を提供する。 コードとデータはhttps://github.com/yuweihao/MM-Vet.comで公開されている。

We propose MM-Vet, an evaluation benchmark that examines large multimodal models (LMMs) on complicated multimodal tasks. Recent LMMs have shown various intriguing abilities, such as solving math problems written on the blackboard, reasoning about events and celebrities in news images, and explaining visual jokes. Rapid model advancements pose challenges to evaluation benchmark development. Problems include: (1) How to systematically structure and evaluate the complicated multimodal tasks; (2) How to design evaluation metrics that work well across question and answer types; and (3) How to give model insights beyond a simple performance ranking. To this end, we present MM-Vet, designed based on the insight that the intriguing ability to solve complicated tasks is often achieved by a generalist model being able to integrate different core vision-language (VL) capabilities. MM-Vet defines 6 core VL capabilities and examines the 16 integrations of interest derived from the capability combination. For evaluation metrics, we propose an LLM-based evaluator for open-ended outputs. The evaluator enables the evaluation across different question types and answer styles, resulting in a unified scoring metric. We evaluate representative LMMs on MM-Vet, providing insights into the capabilities of different LMM system paradigms and models. Code and data are available at https://github.com/yuweihao/MM-Vet.
翻訳日:2023-08-07 12:06:23 公開日:2023-08-04
# 畳み込みは激しくなる: シングル冷凍畳み込みCLIPによるオープンボキャブラリセグメンテーション

Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP ( http://arxiv.org/abs/2308.02487v1 )

ライセンス: Link先を確認
Qihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen(参考訳) オープン語彙のセグメンテーションは、オープンなカテゴリからオブジェクトのセグメンテーションと認識を必要とする難しいタスクである。 この課題に対処する1つの方法は、クリップのようなマルチモーダルモデルを利用して、クローズドボキャブラリーとオープンボキャブラリー認識のギャップを埋める共有埋め込み空間に画像とテキストの機能を提供することである。 したがって、既存の手法では、2段階の枠組みを採用して問題に対処し、入力はまずマスクジェネレータを通り、次に予測されたマスクと共にクリップモデルを通過する。 このプロセスでは、画像から複数の特徴を抽出するが、これは非効率で非効率である。 対照的に、私たちは共有のFrozen Convolutional CLIPバックボーンを使用して、すべてのものを単一ステージフレームワークに組み込むことを提案しています。 凍結したCLIPバックボーンは、オープンボキャブラリ分類の能力を維持し、強力なマスクジェネレータとしても機能し、畳み込みCLIPは、コントラスト的な画像テキスト事前訓練で使用されるものよりも大きな入力解像度によく一般化する。 FC-CLIPは、COCO汎視データのみをゼロショットでトレーニングしテストする場合、ADE20Kで26.8 PQ、16.8 AP、34.1 mIoU、ADE20Kで18.2 PQ、27.9 mIoU、Mapillary Vistasで44.0 PQ、26.8 AP、56.2 mIoU、Cityscapesで+4.2 PQ、+2.4 AP、+4.2 mIoU、Mapillary Vistasで+4.0 PQ、Cityscapesで+20.1 PQを達成した。 さらに、FC-CLIPのトレーニングとテスト時間は7.5倍と6.6倍であり、パラメータは5.9倍少ない。 FC-CLIPはまた、様々なオープン語彙セマンティックセグメンテーションデータセットに対して、最先端のパフォーマンスを新たに設定する。 https://github.com/bytedance/fc-clip

Open-vocabulary segmentation is a challenging task requiring segmenting and recognizing objects from an open set of categories. One way to address this challenge is to leverage multi-modal models, such as CLIP, to provide image and text features in a shared embedding space, which bridges the gap between closed-vocabulary and open-vocabulary recognition. Hence, existing methods often adopt a two-stage framework to tackle the problem, where the inputs first go through a mask generator and then through the CLIP model along with the predicted masks. This process involves extracting features from images multiple times, which can be ineffective and inefficient. By contrast, we propose to build everything into a single-stage framework using a shared Frozen Convolutional CLIP backbone, which not only significantly simplifies the current two-stage pipeline, but also remarkably yields a better accuracy-cost trade-off. The proposed FC-CLIP, benefits from the following observations: the frozen CLIP backbone maintains the ability of open-vocabulary classification and can also serve as a strong mask generator, and the convolutional CLIP generalizes well to a larger input resolution than the one used during contrastive image-text pretraining. When training on COCO panoptic data only and testing in a zero-shot manner, FC-CLIP achieve 26.8 PQ, 16.8 AP, and 34.1 mIoU on ADE20K, 18.2 PQ, 27.9 mIoU on Mapillary Vistas, 44.0 PQ, 26.8 AP, 56.2 mIoU on Cityscapes, outperforming the prior art by +4.2 PQ, +2.4 AP, +4.2 mIoU on ADE20K, +4.0 PQ on Mapillary Vistas and +20.1 PQ on Cityscapes, respectively. Additionally, the training and testing time of FC-CLIP is 7.5x and 6.6x significantly faster than the same prior art, while using 5.9x fewer parameters. FC-CLIP also sets a new state-of-the-art performance across various open-vocabulary semantic segmentation datasets. Code at https://github.com/bytedance/fc-clip
翻訳日:2023-08-07 12:05:59 公開日:2023-08-04
# NICT-JLEコーパスの拡散検出モデルへの適用

Adapting the NICT-JLE Corpus for Disfluency Detection Models ( http://arxiv.org/abs/2308.02482v1 )

ライセンス: Link先を確認
Lucy Skidmore and Roger K. Moore(参考訳) ヘシテーション、繰り返し、偽りの開始といった不均一性の検出は、広く研究されている研究分野である。 Switchboard Corpusを用いた評価の標準化プロセスにより、モデル性能はアプローチ間で容易に比較できる。 しかし、このようなデータセットがアクセスポリシーを制限し、改良されたモデルの比較とその後の開発がより困難になるような、学習者音声の拡散検出研究はそうではない。 そこで本論文では,英語学習者の口腔熟練度テストの約300時間を含むNICT-JLEコーパスを,ディフルエンシ検出モデルトレーニングと評価に適したフォーマットに適応させる方法について述べる。 NICT-JLEコーパスとスイッチボードコーパスの相違点について検討し, NICT-JLEコーパスのタグセットとメタ機能への適応について概説した。 本研究の結果は,学習者音声の拡散検出に使用される標準列車,ホールドアウト,テストセットを提供する。

The detection of disfluencies such as hesitations, repetitions and false starts commonly found in speech is a widely studied area of research. With a standardised process for evaluation using the Switchboard Corpus, model performance can be easily compared across approaches. This is not the case for disfluency detection research on learner speech, however, where such datasets have restricted access policies, making comparison and subsequent development of improved models more challenging. To address this issue, this paper describes the adaptation of the NICT-JLE corpus, containing approximately 300 hours of English learners' oral proficiency tests, to a format that is suitable for disfluency detection model training and evaluation. Points of difference between the NICT-JLE and Switchboard corpora are explored, followed by a detailed overview of adaptations to the tag set and meta-features of the NICT-JLE corpus. The result of this work provides a standardised train, heldout and test set for use in future research on disfluency detection for learner speech.
翻訳日:2023-08-07 12:05:08 公開日:2023-08-04
# 量子相関の集合を束縛するツールとしての情報因果性

Information causality as a tool for bounding the set of quantum correlations ( http://arxiv.org/abs/2308.02478v1 )

ライセンス: Link先を確認
Prabhav Jain, Mariami Gachechiladze, Nikolai Miklin(参考訳) 情報因果関係は、ベル実験で観測された相関のタイプに基づく量子力学の予測を導出するための物理原理として最初に提案された。 同じ研究において、情報因果関係は、量子相関の集合に近似するフフィンクの不等式を暗示し、tsirelsonのクロージャ-ホルン-シモニー-ホルト不等式の境界を再定義することが知られている。 この結果は,非局所相関の集合に対する情報因果原理の含意を導出することの難しさから,限定的な一般化が得られた。 本稿では,情報因果関係から多項式不等式を得るための簡単な手法を提案する。 提案手法を実証するために,ベルシナリオにおける非局所的相関の集合を,二進的な結果と等値な測定条件で非局所的に制約する不等式群を導出する。 最後に,情報因果原理を改良したステートメントを提案し,Uffinkの不等式を超えた最も単純なベルシナリオに対してより厳密な制約を求め,量子集合の境界の一部を復元する。

Information causality was initially proposed as a physical principle aimed at deriving the predictions of quantum mechanics on the type of correlations observed in the Bell experiment. In the same work, information causality was famously shown to imply the Uffink inequality that approximates the set of quantum correlations and rederives Tsirelson's bound of the Clauser-Horne-Shimony-Holt inequality. This result found limited generalizations due to the difficulty of deducing implications of the information causality principle on the set of nonlocal correlations. In this paper, we present a simple technique for obtaining polynomial inequalities from information causality, bounding the set of physical correlations in any Bell scenario. To demonstrate our method, we derive a family of inequalities which non-trivially constrains the set of nonlocal correlations in Bell scenarios with binary outcomes and equal number of measurement settings. Finally, we propose an improved statement of the information causality principle, obtain tighter constraints for the simplest Bell scenario that goes beyond the Uffink inequality, and recovers a part of the boundary of the quantum set.
翻訳日:2023-08-07 12:04:51 公開日:2023-08-04
# トーナメントでキングを見つけることのランダム化と量子クエリの複雑さ

Randomized and quantum query complexities of finding a king in a tournament ( http://arxiv.org/abs/2308.02472v1 )

ライセンス: Link先を確認
Nikhil S. Mande, Manaswi Paraashar and Nitin Saurabh(参考訳) トーナメントは完全な有向グラフである。 すべてのトーナメントが少なくとも1つの頂点 v を含み、すべての頂点が v から到達可能な長さ 2 の経路で到達可能であることはよく知られている。 これらすべての頂点 v は、下層のトーナメントの *kings* と呼ばれる。 この分野における最近の活発な研究にもかかわらず、n頂点でのトーナメントでキングを見つける決定論的クエリの複雑さ(エッジの方向へのクエリアクセスを含む)の最もよく知られた上限は20年以上前であり、その境界は一致しない:最もよく知られた下限はomega(n^{4/3})であり、最もよく知られた上限はo(n^{3/2})である。 我々の貢献は、基本的に、*randomized* と *quantum* のクエリモデルにおける Theta(n) と Theta(sqrt{n}) の*tight* 境界を示すことである。 また,トーナメントにおける最大外角頂点の探索におけるランダム化と量子クエリの複雑さについても検討した。

A tournament is a complete directed graph. It is well known that every tournament contains at least one vertex v such that every other vertex is reachable from v by a path of length at most 2. All such vertices v are called *kings* of the underlying tournament. Despite active recent research in the area, the best-known upper and lower bounds on the deterministic query complexity (with query access to directions of edges) of finding a king in a tournament on n vertices are from over 20 years ago, and the bounds do not match: the best-known lower bound is Omega(n^{4/3}) and the best-known upper bound is O(n^{3/2}) [Shen, Sheng, Wu, SICOMP'03]. Our contribution is to show essentially *tight* bounds (up to logarithmic factors) of Theta(n) and Theta(sqrt{n}) in the *randomized* and *quantum* query models, respectively. We also study the randomized and quantum query complexities of finding a maximum out-degree vertex in a tournament.
翻訳日:2023-08-07 12:04:29 公開日:2023-08-04
# BlindSage: ノードレベルの垂直グラフニューラルネットワークに対するラベル推論攻撃

BlindSage: Label Inference Attacks against Node-level Vertical Federated Graph Neural Networks ( http://arxiv.org/abs/2308.02465v1 )

ライセンス: Link先を確認
Marco Arazzi, Mauro Conti, Stefanos Koffas, Marina Krcek, Antonino Nocera, Stjepan Picek and Jing Xu(参考訳) 連合学習は、関係者の生データをプライベートに保つことによって、機械学習モデルの協調的なトレーニングを可能にする。 その主な目的の1つは、モデルのプライバシ、セキュリティ、スケーラビリティを改善することである。 Vertical Federated Learning(VFL)は、いくつかのパーティが同じ機能を共有せずに協力的にモデルをトレーニングする、効率的なクロスサイロ設定を提供する。 このようなシナリオでは、分類ラベルは一般的に、1つの(アクティブ)パーティのみに保持される機密情報とみなされ、他の(パッシブ)パーティはローカル情報のみを使用する。 最近の研究でvflの重要な欠陥が明らかになったため、攻撃者がラベルとデータの関係に関する背景知識を持っているという仮定の下で、ラベル推論攻撃が考えられるようになった。 本研究は,ゼロ背景知識戦略を用いて,VFLに対するラベル推論攻撃を調査した最初の(私たちの知る限り)ものである。 本提案を具体化するために、基礎となるVFLのターゲットモデルとしてグラフニューラルネットワーク(GNN)に焦点を当てる。 特に、広く研究されているノード分類タスクについて言及し、GNNは有望な結果を示している。 提案する攻撃であるブラインドセージは,実験において印象的な結果をもたらし,ほとんどの場合,ほぼ100%の精度を達成している。 攻撃者が使用済みのアーキテクチャやクラス数に関する情報を持っていない場合でも、ほとんどのインスタンスで精度は85%以上だった。 最後に,主要な分類課題におけるモデルの性能に影響を与えることなく,よく知られた防御が攻撃を軽減できないことを観察する。

Federated learning enables collaborative training of machine learning models by keeping the raw data of the involved workers private. One of its main objectives is to improve the models' privacy, security, and scalability. Vertical Federated Learning (VFL) offers an efficient cross-silo setting where a few parties collaboratively train a model without sharing the same features. In such a scenario, classification labels are commonly considered sensitive information held exclusively by one (active) party, while other (passive) parties use only their local information. Recent works have uncovered important flaws of VFL, leading to possible label inference attacks under the assumption that the attacker has some, even limited, background knowledge on the relation between labels and data. In this work, we are the first (to the best of our knowledge) to investigate label inference attacks on VFL using a zero-background knowledge strategy. To concretely formulate our proposal, we focus on Graph Neural Networks (GNNs) as a target model for the underlying VFL. In particular, we refer to node classification tasks, which are widely studied, and GNNs have shown promising results. Our proposed attack, BlindSage, provides impressive results in the experiments, achieving nearly 100% accuracy in most cases. Even when the attacker has no information about the used architecture or the number of classes, the accuracy remained above 85% in most instances. Finally, we observe that well-known defenses cannot mitigate our attack without affecting the model's performance on the main classification task.
翻訳日:2023-08-07 12:04:05 公開日:2023-08-04
# RNNによる線形時間不変系の普遍近似:貯留層計算におけるランダム性のパワー

Universal Approximation of Linear Time-Invariant (LTI) Systems through RNNs: Power of Randomness in Reservoir Computing ( http://arxiv.org/abs/2308.02464v1 )

ライセンス: Link先を確認
Shashank Jere, Lizhong Zheng, Karim Said and Lingjia Liu(参考訳) リカレントニューラルネットワーク(RNN)は、比較的穏やかで一般的な仮定の下で、動的システムの普遍的な近似として知られており、時間情報を処理するための優れたツールとなっている。 しかしながら、RNNは通常、標準のRNNトレーニングにおける勾配の消滅と爆発という問題に悩まされる。 Reservoir Computing(RC)は、リカレントウェイトがランダム化されトレーニングされていない特殊なRNNであり、これらの問題を克服するために導入され、特にトレーニングサンプルが極めて限定されたシナリオにおいて、自然言語処理や無線通信のような多様な分野において優れた経験的性能を示している。 それに対して、この観測性能を支持する理論的根拠は、同じペースで完全には開発されていない。 本研究では,RNNが線形時間不変(LTI)システムの普遍近似を提供することを示す。 具体的には、RCが一般LTI系を普遍的に近似できることを示す。 本稿では、RCの明確な信号処理解釈を行い、RCを通して汎用LTIシステムをシミュレートする問題において、この理解を利用する。 本設定では,RCの基礎となるRNNの繰り返し重みを生成するための最適確率分布関数を解析的に特徴付ける。 LTIシステムシミュレーション問題に対するRCの繰り返し重みの導出最適分布の最適性を検証するため、広範囲な数値評価を行った。 本研究は、RCの信号処理に基づくモデル解釈可能性を明確にし、RCの繰り返し重みをトレーニングする代わりに、設定時のランダム性のパワーを理論的に説明する。 さらに、トレーニングされないリカレントウェイトに対する完全な最適分析特性を提供し、トレーニングサンプルが制限されたアプリケーションにとって非常に重要な、説明可能な機械学習(XML)への重要なステップを示す。

Recurrent neural networks (RNNs) are known to be universal approximators of dynamic systems under fairly mild and general assumptions, making them good tools to process temporal information. However, RNNs usually suffer from the issues of vanishing and exploding gradients in the standard RNN training. Reservoir computing (RC), a special RNN where the recurrent weights are randomized and left untrained, has been introduced to overcome these issues and has demonstrated superior empirical performance in fields as diverse as natural language processing and wireless communications especially in scenarios where training samples are extremely limited. On the contrary, the theoretical grounding to support this observed performance has not been fully developed at the same pace. In this work, we show that RNNs can provide universal approximation of linear time-invariant (LTI) systems. Specifically, we show that RC can universally approximate a general LTI system. We present a clear signal processing interpretation of RC and utilize this understanding in the problem of simulating a generic LTI system through RC. Under this setup, we analytically characterize the optimal probability distribution function for generating the recurrent weights of the underlying RNN of the RC. We provide extensive numerical evaluations to validate the optimality of the derived optimum distribution of the recurrent weights of the RC for the LTI system simulation problem. Our work results in clear signal processing-based model interpretability of RC and provides theoretical explanation for the power of randomness in setting instead of training RC's recurrent weights. It further provides a complete optimum analytical characterization for the untrained recurrent weights, marking an important step towards explainable machine learning (XML) which is extremely important for applications where training samples are limited.
翻訳日:2023-08-07 12:03:38 公開日:2023-08-04
# 放射線学の一般モデルに向けて

Towards Generalist Foundation Model for Radiology ( http://arxiv.org/abs/2308.02463v1 )

ライセンス: Link先を確認
Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang and Weidi Xie(参考訳) 本研究では,RadFMと呼ばれるRadlogy Foundation Modelの開発を目標とし,データ,モデル設計,評価の観点から基礎モデルの構築を徹底的に検討する。 私たちの貢献は次のように結論づけられる。 i)16M2Dと3Dの医用スキャンからなる大規模医療用マルチモーダルデータセットMedMDを構築した。 私たちの知る限りでは、これが3D医療スキャンを含む最初のマルチモーダルデータセットである。 (II)2次元または3次元の医用スキャンとインターリーブされたテキスト入力の統合により,多様な放射線学的タスクに対する応答を生成できるアーキテクチャを提案する。 モデルは当初、MedMDで事前訓練され、その後、RadMDでドメイン固有の微調整が行われた。 (iii) 実践的臨床課題に対する基礎モデルの能力の包括的評価を目的とした, 5つのタスクからなる新しい評価ベンチマークを提案する。 実験の結果,RadFMは既存のマルチモーダル基礎モデルよりも大幅に優れていた。 コード、データ、モデルチェックポイントはすべて、この分野におけるさらなる研究と開発を促進するために公開されます。

In this study, we aim to initiate the development of Radiology Foundation Model, termed as RadFM.We consider the construction of foundational models from the perspectives of data, model design, and evaluation thoroughly. Our contribution can be concluded as follows: (i), we construct a large-scale Medical Multi-modal Dataset, MedMD, consisting of 16M 2D and 3D medical scans. To the best of our knowledge, this is the first multi-modal dataset containing 3D medical scans. (ii), We propose an architecture that enables visually conditioned generative pre-training, allowing for the integration of text input interleaved with 2D or 3D medical scans to generate response for diverse radiologic tasks. The model was initially pre-trained on MedMD and subsequently domain-specific fine-tuned on RadMD, a radiologic cleaned version of MedMD, containing 3M radiologic visual-language pairs. (iii), we propose a new evaluation benchmark that comprises five tasks, aiming to comprehensively assess the capability of foundation models in handling practical clinical problems. Our experimental results confirm that RadFM significantly outperforms existing multi-modal foundation models. The codes, data, and model checkpoint will all be made publicly available to promote further research and development in the field.
翻訳日:2023-08-07 12:03:10 公開日:2023-08-04
# オペレータ学習によるムース型添加物製造モデルの高速・高精度化

Fast and Accurate Reduced-Order Modeling of a MOOSE-based Additive Manufacturing Model with Operator Learning ( http://arxiv.org/abs/2308.02462v1 )

ライセンス: Link先を確認
Mahmoud Yaseen, Dewen Yushu, Peter German, Xu Wu(参考訳) 添加物製造(am)における主な課題は、実行中に製造プロセスパラメータを操作することで特定の材料特性を達成することである。 このような操作は、AMで使われている既存のシミュレーションツールに課される計算負荷を増加させる傾向にある。 本研究の目的は、マルチフィジカルなオブジェクト指向シミュレーション環境(moose)フレームワーク内で開発されたamモデルに対して、高速で正確な低次モデル(rom)を構築することであり、最終的にはam制御と最適化プロセスの時間とコストを削減することである。 演算子学習(OL)アプローチを採用することで、レーザーのガウス点熱源におけるプロセス変数を変化させることで得られる微分方程式の族を学習できる。 具体的には、時間依存応答のためのROMを開発するために、フーリエニューラルオペレータ(FNO)とディープオペレータネットワーク(DeepONet)を用いた。 さらに,従来のディープニューラルネットワーク(dnn)ベースのromに対するol法の性能のベンチマークを行った。 最終的に、olメソッドは同等のパフォーマンスを提供し、精度と汎用性という意味では、スカラーモデル応答の予測においてdnnよりも優れています。 DNNベースのROMは最速のトレーニング時間を得た。 さらに、全てのROMはオリジナルのMOOSEモデルよりも高速であったが、正確な予測は得られなかった。 FNOはDeepONetよりも平均予測誤差が小さく、時間依存応答のばらつきが大きい。 DNNとは異なり、FNOとDeepONetはどちらも次元削減技術を必要としない時系列データをシミュレートすることができた。 本研究は,評価精度を保ちながらシミュレーションツールの実行を高速化することにより,AM最適化プロセスの促進に役立つ。

One predominant challenge in additive manufacturing (AM) is to achieve specific material properties by manipulating manufacturing process parameters during the runtime. Such manipulation tends to increase the computational load imposed on existing simulation tools employed in AM. The goal of the present work is to construct a fast and accurate reduced-order model (ROM) for an AM model developed within the Multiphysics Object-Oriented Simulation Environment (MOOSE) framework, ultimately reducing the time/cost of AM control and optimization processes. Our adoption of the operator learning (OL) approach enabled us to learn a family of differential equations produced by altering process variables in the laser's Gaussian point heat source. More specifically, we used the Fourier neural operator (FNO) and deep operator network (DeepONet) to develop ROMs for time-dependent responses. Furthermore, we benchmarked the performance of these OL methods against a conventional deep neural network (DNN)-based ROM. Ultimately, we found that OL methods offer comparable performance and, in terms of accuracy and generalizability, even outperform DNN at predicting scalar model responses. The DNN-based ROM afforded the fastest training time. Furthermore, all the ROMs were faster than the original MOOSE model yet still provided accurate predictions. FNO had a smaller mean prediction error than DeepONet, with a larger variance for time-dependent responses. Unlike DNN, both FNO and DeepONet were able to simulate time series data without the need for dimensionality reduction techniques. The present work can help facilitate the AM optimization process by enabling faster execution of simulation tools while still preserving evaluation accuracy.
翻訳日:2023-08-07 12:02:49 公開日:2023-08-04
# 多視点表現学習のためのクラスタリング誘導コントラスト融合

A Clustering-guided Contrastive Fusion for Multi-view Representation Learning ( http://arxiv.org/abs/2212.13726v4 )

ライセンス: Link先を確認
Guanzhou Ke, Guoqing Chao, Xiaoli Wang, Chenyang Xu, Yongqi Zhu, and Yang Yu(参考訳) 過去20年間、多視点表現学習の分野では、多様なドメインから有用な情報を抽出し、多視点アプリケーションの開発を促進するために急速に進歩してきた。 しかし、コミュニティは2つの課題に直面している。 一 大量のラベルのないデータからノイズ又は不完全なビュー設定に対するロバスト表現の学習方法 二 様々な下流業務の整合性と相補性のバランスをとる方法 そこで我々はdeep fusion networkを用いてビュー固有の表現をview-common表現に融合し,高レベルセマンティクスを抽出してロバスト表現を得る。 さらに,融合ネットワークが自明な解決策に導くのを防ぐために,クラスタリングタスクを用いる。 一貫性と相補性のバランスをとるために、ビュー共通表現とビュー固有表現を整合させる非対称なコントラスト戦略を設計する。 これらのモジュールはClustering-guided cOntrastiVE fusioN (CLOVEN)として知られる統一的なメソッドに組み込まれる。 CLOVENはクラスタリングと分類において,11の競合的多視点学習方法よりも優れており,提案手法を5つのデータセット上で定量的に定性的に評価する。 不完全視シナリオでは,提案手法は競争相手よりもノイズ干渉に耐性がある。 さらに, 可視化解析により, cloven はビュー・コモム表現のコンパクト性を改善しつつ, ビュー固有表現の固有構造を保存できることを示した。 ソースコードは近くhttps://github.com/guanzhou-ke/cloven.comで入手できる。

The past two decades have seen increasingly rapid advances in the field of multi-view representation learning due to it extracting useful information from diverse domains to facilitate the development of multi-view applications. However, the community faces two challenges: i) how to learn robust representations from a large amount of unlabeled data to against noise or incomplete views setting, and ii) how to balance view consistency and complementary for various downstream tasks. To this end, we utilize a deep fusion network to fuse view-specific representations into the view-common representation, extracting high-level semantics for obtaining robust representation. In addition, we employ a clustering task to guide the fusion network to prevent it from leading to trivial solutions. For balancing consistency and complementary, then, we design an asymmetrical contrastive strategy that aligns the view-common representation and each view-specific representation. These modules are incorporated into a unified method known as CLustering-guided cOntrastiVE fusioN (CLOVEN). We quantitatively and qualitatively evaluate the proposed method on five datasets, demonstrating that CLOVEN outperforms 11 competitive multi-view learning methods in clustering and classification. In the incomplete view scenario, our proposed method resists noise interference better than those of our competitors. Furthermore, the visualization analysis shows that CLOVEN can preserve the intrinsic structure of view-specific representation while also improving the compactness of view-commom representation. Our source code will be available soon at https://github.com/guanzhou-ke/cloven.
翻訳日:2023-08-07 10:19:24 公開日:2023-08-04
# 相互作用する人間の3次元モデルの構築

Reconstructing Three-Dimensional Models of Interacting Humans ( http://arxiv.org/abs/2308.01854v2 )

ライセンス: Link先を確認
Mihai Fieraru, Mihai Zanfir, Elisabeta Oneata, Alin-Ionut Popa, Vlad Olaru, Cristian Sminchisescu(参考訳) 人間の3次元インタラクションを理解することは、きめ細かいシーン分析と行動モデリングに不可欠である。 しかし、既存のモデルのほとんどは、微妙な人間の接触面を見逃している不正確で無命な3d推定を予測しています。 This paper addresses such issues with several contributions: (1) we introduce models for interaction signature estimation (ISP) encompassing contact detection, segmentation, and 3d contact signature prediction; (2) we show how such components can be leveraged to ensure contact consistency during 3d reconstruction; (3) we construct several large datasets for learning and evaluating 3d contact prediction and reconstruction methods; specifically, we introduce CHI3D, a lab-based accurate 3d motion capture dataset with 631 sequences containing $2,525$ contact events, $728,664$ ground truth 3d poses, as well as FlickrCI3D, a dataset of $11,216$ images, with $14,081$ processed pairs of people, and $81,233$ facet-level surface correspondences. 最後に, 制御された環境下での対話行動の実態と形状を復元する手法を提案し, 5) テキスト記述によるCHI3Dの3次元対話動作に注釈を付ける。 複数のフォーマット(GHUM と SMPLX パラメータ、Human3.6m 3d 関節)のモーションデータは、評価サーバと公開ベンチマークとともに、研究目的で利用可能である。

Understanding 3d human interactions is fundamental for fine-grained scene analysis and behavioural modeling. However, most of the existing models predict incorrect, lifeless 3d estimates, that miss the subtle human contact aspects--the essence of the event--and are of little use for detailed behavioral understanding. This paper addresses such issues with several contributions: (1) we introduce models for interaction signature estimation (ISP) encompassing contact detection, segmentation, and 3d contact signature prediction; (2) we show how such components can be leveraged to ensure contact consistency during 3d reconstruction; (3) we construct several large datasets for learning and evaluating 3d contact prediction and reconstruction methods; specifically, we introduce CHI3D, a lab-based accurate 3d motion capture dataset with 631 sequences containing $2,525$ contact events, $728,664$ ground truth 3d poses, as well as FlickrCI3D, a dataset of $11,216$ images, with $14,081$ processed pairs of people, and $81,233$ facet-level surface correspondences. Finally, (4) we propose methodology for recovering the ground-truth pose and shape of interacting people in a controlled setup and (5) annotate all 3d interaction motions in CHI3D with textual descriptions. Motion data in multiple formats (GHUM and SMPLX parameters, Human3.6m 3d joints) is made available for research purposes at \url{https://ci3d.imar.ro}, together with an evaluation server and a public benchmark.
翻訳日:2023-08-07 10:17:57 公開日:2023-08-04
# BEVControl: BEVスケッチレイアウトによる多視点一貫性によるストリートビュー要素の正確な制御

BEVControl: Accurately Controlling Street-view Elements with Multi-perspective Consistency via BEV Sketch Layout ( http://arxiv.org/abs/2308.01661v2 )

ライセンス: Link先を確認
Kairui Yang, Enhui Ma, Jibin Peng, Qing Guo, Di Lin, Kaicheng Yu(参考訳) 合成画像を用いて知覚モデルの性能を高めることは、コンピュータビジョンにおける長年の研究課題である。 ロングテールのシナリオは収集できないため、マルチビューカメラを備えた視覚中心の自動運転システムではより魅力的なものになる。 bevのセグメンテーションレイアウトに導かれた既存の生成ネットワークは、シーンレベルのメトリクスのみに基づいて評価すると、フォトリアリスティックなストリートビュー画像を合成するように見える。 しかし、ズームインすると、通常は正確な前景や、方向などの背景の詳細を生成できない。 そこで本研究では,前景と背景コンテンツを高精度に生成できる2段階生成法bevcontrolを提案する。 セグメンテーションのような入力とは対照的に、スケッチスタイルの入力もサポートしている。 さらに,生成シーン,フォアグラウンドオブジェクト,背景幾何の質を十分に比較するための総合的多レベル評価プロトコルを提案する。 我々のBEVControlは最先端の手法であるBEVGenを5.89から26.80の差で上回っている。 また,bevcontrol が生成した画像を用いて下流知覚モデルのトレーニングを行い,平均 1.29 の nds スコア向上を達成した。

Using synthesized images to boost the performance of perception models is a long-standing research challenge in computer vision. It becomes more eminent in visual-centric autonomous driving systems with multi-view cameras as some long-tail scenarios can never be collected. Guided by the BEV segmentation layouts, the existing generative networks seem to synthesize photo-realistic street-view images when evaluated solely on scene-level metrics. However, once zoom-in, they usually fail to produce accurate foreground and background details such as heading. To this end, we propose a two-stage generative method, dubbed BEVControl, that can generate accurate foreground and background contents. In contrast to segmentation-like input, it also supports sketch style input, which is more flexible for humans to edit. In addition, we propose a comprehensive multi-level evaluation protocol to fairly compare the quality of the generated scene, foreground object, and background geometry. Our extensive experiments show that our BEVControl surpasses the state-of-the-art method, BEVGen, by a significant margin, from 5.89 to 26.80 on foreground segmentation mIoU. In addition, we show that using images generated by BEVControl to train the downstream perception model, it achieves on average 1.29 improvement in NDS score.
翻訳日:2023-08-07 10:17:32 公開日:2023-08-04
# 誘導バイアスを超える多視点表現

Disentangling Multi-view Representations Beyond Inductive Bias ( http://arxiv.org/abs/2308.01634v2 )

ライセンス: Link先を確認
Guanzhou Ke, Yang Yu, Guoqing Chao, Xiaoli Wang, Chenyang Xu, and Shengfeng He(参考訳) マルチビュー(あるいはモダリティ)表現学習は、異なるビュー表現間の関係を理解することを目的としている。 既存の方法は、強い帰納バイアスを導入して、多視点表現を一貫性とビュー固有の表現に分解し、一般化能力を制限する。 本稿では,帰納的バイアスを克服し,表現の解釈可能性と一般化性を両立することを目的とした,新しい多視点表現分離手法を提案する。 本手法は,複数視点の一貫性を事前に発見することで情報境界の分離を判断し,分離学習目標を導出する観察に基づく。 また、ビュー間の変換不変性とクラスタリング一貫性を最大化することで、一貫性を容易に抽出できることがわかった。 これらの観察から、2段階の枠組みが提案できる。 最初の段階では、一貫したエンコーダを訓練して、ビューと対応する擬似ラベルのセマンティックな一貫性のある表現を生成することで、マルチビューの一貫性を得る。 第2段階では、一貫した表現と包括的表現の相互情報の上限を最小化することにより、包括的表現から特異性を切り離す。 最後に、擬似ラベルとビュー固有の表現を結合して元のデータを再構築する。 4つのマルチビューデータセットを用いた実験により,提案手法がクラスタリングと分類性能の点で12の比較手法を上回っていることを示した。 また, 抽出された一貫性と特異性は, コンパクトかつ解釈可能であることを示した。 我々のコードは \url{https://github.com/Guanzhou-Ke/DMRIB} にある。

Multi-view (or -modality) representation learning aims to understand the relationships between different view representations. Existing methods disentangle multi-view representations into consistent and view-specific representations by introducing strong inductive biases, which can limit their generalization ability. In this paper, we propose a novel multi-view representation disentangling method that aims to go beyond inductive biases, ensuring both interpretability and generalizability of the resulting representations. Our method is based on the observation that discovering multi-view consistency in advance can determine the disentangling information boundary, leading to a decoupled learning objective. We also found that the consistency can be easily extracted by maximizing the transformation invariance and clustering consistency between views. These observations drive us to propose a two-stage framework. In the first stage, we obtain multi-view consistency by training a consistent encoder to produce semantically-consistent representations across views as well as their corresponding pseudo-labels. In the second stage, we disentangle specificity from comprehensive representations by minimizing the upper bound of mutual information between consistent and comprehensive representations. Finally, we reconstruct the original data by concatenating pseudo-labels and view-specific representations. Our experiments on four multi-view dat