このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230806となっている論文です。

PDF登録状況(公開日: 20230806)

TitleAuthorsAbstract論文公表日・翻訳日
# P4Testgen: P4用の拡張可能なテストOracle

P4Testgen: An Extensible Test Oracle For P4 ( http://arxiv.org/abs/2211.15300v3 )

ライセンス: Link先を確認
Fabian Ruffy, Jed Liu, Prathima Kotikalapudi, Vojt\v{e}ch Havel, Hanneli Tavante, Rob Sherwood, Vladyslav Dubina, Volodymyr Peschanenko, Anirudh Sivaraman, and Nate Foster(参考訳) P4$_{16}$言語用のテストオラクルであるP4Testgenを提示する。 P4Testgenは任意のP4ターゲットの自動テスト生成をサポートし、多くのP4ターゲットに拡張できるように設計されている。 p4言語、アーキテクチャ、externs、ターゲット固有の拡張を含むターゲットのパケット処理パイプラインの完全なセマンティクスをモデル化する。 非決定論的振舞いと複雑なexterns(チェックサムやハッシュ関数など)を処理するために、p4testgenはtaintトラッキングとconcolic実行を使用している。 また、完全なカバレッジを達成するために必要なテストの数を減らすパス選択戦略も提供する。 V1モデル、eBPF、PNA、およびTofino P4アーキテクチャ用のP4Testgenをインスタンス化した。 それぞれの拡張は、ターゲットの複雑さに合致する努力を必要とした。 P4Testgenが生成したテストは、P4Cテストスイート全体とTofino P4 Studioが提供するプログラムで実行することで検証しました。 このツールを使用して、BMv2とTofino用の成熟したプロダクションツールチェーンで25のバグを確認しました。

We present P4Testgen, a test oracle for the P4$_{16}$ language. P4Testgen supports automatic test generation for any P4 target and is designed to be extensible to many P4 targets. It models the complete semantics of the target's packet-processing pipeline including the P4 language, architectures and externs, and target-specific extensions. To handle non-deterministic behaviors and complex externs (e.g., checksums and hash functions), P4Testgen uses taint tracking and concolic execution. It also provides path selection strategies that reduce the number of tests required to achieve full coverage. We have instantiated P4Testgen for the V1model, eBPF, PNA, and Tofino P4 architectures. Each extension required effort commensurate with the complexity of the target. We validated the tests generated by P4Testgen by running them across the entire P4C test suite as well as the programs supplied with the Tofino P4 Studio. Using the tool, we have also confirmed 25 bugs in mature, production toolchains for BMv2 and Tofino.
翻訳日:2023-10-24 14:08:45 公開日:2023-08-06
# コードクローン検出における大規模言語モデルの能力理解に向けた調査

Towards Understanding the Capability of Large Language Models on Code Clone Detection: A Survey ( http://arxiv.org/abs/2308.01191v3 )

ライセンス: Link先を確認
Shihan Dou, Junjie Shan, Haoxiang Jia, Wenhao Deng, Zhiheng Xi, Wei He, Yueming Wu, Tao Gui, Yang Liu, Xuanjing Huang(参考訳) コードのクローン(コードフラグメントの重複)はソフトウェア開発で一般的である。 一部の再利用は生産性を補助するが、過剰なクローン化は保守性を傷つけ、バグをもたらす。 したがって、自動コードクローン検出が不可欠である。 一方、大規模言語モデル(LLM)は、様々なコード関連の知識を持ち、様々なソフトウェア工学の課題に対して汎用的である。 しかし、コードクローン検出におけるLLMの性能は不明確であり、正確な評価のためのさらなる研究が必要である。 本稿では,クローン検出のためのLLMの包括的評価を行い,異なるクローンタイプ,言語,プロンプトについて述べる。 高度なllmは複雑なセマンティクスクローンの検出に優れており、既存の手法を上回っています。 チェーン・オブ・シークレットによる中間推論ステップの追加は、パフォーマンスを著しく向上させる。 さらに、特にテキストエンコーダによるベクトル埋め込みとしてコードを表現することは、クローン検出を効果的に支援するが、LLMがコードクローンを検出する能力は、様々なプログラミング言語で異なる。 本研究は,LLMが言語能力からクローン検出の可能性を示唆し,ソフトウェア工学を向上する堅牢なLCM手法を開発するための洞察を提供する。

Code cloning, the duplication of code fragments, is common in software development. While some reuse aids productivity, excessive cloning hurts maintainability and introduces bugs. Hence, automatic code clone detection is vital. Meanwhile, large language models (LLMs) possess diverse code-related knowledge, making them versatile for various software engineering challenges. However, LLMs' performance in code clone detection is unclear and needs more study for accurate assessment. In this paper, we provide the first comprehensive evaluation of LLMs for clone detection, covering different clone types, languages, and prompts. We find advanced LLMs excel in detecting complex semantic clones, surpassing existing methods. Adding intermediate reasoning steps via chain-of-thought prompts noticeably enhances performance. Additionally, representing code as vector embeddings, especially with text encoders, effectively aids clone detection.Lastly, the ability of LLMs to detect code clones differs among various programming languages. Our study suggests that LLMs have potential for clone detection due to their language capabilities, offering insights for developing robust LLM-based methods to enhance software engineering.
翻訳日:2023-10-23 15:28:58 公開日:2023-08-06
# コード翻訳における大規模言語モデルの有効性の理解

Understanding the Effectiveness of Large Language Models in Code Translation ( http://arxiv.org/abs/2308.03109v1 )

ライセンス: Link先を確認
Rangeet Pan, Ali Reza Ibrahimzada, Rahul Krishna, Divya Sankar, Lambert Pouguem Wassi, Michele Merler, Boris Sobolev, Raju Pavuluri, Saurabh Sinha, Reyhaneh Jabbarvand(参考訳) コード翻訳は、ソースコードをあるプログラミング言語(PL)から別のプログラミング言語に変換することを目的としている。 コード合成における大規模言語モデル(llms)の有望な能力を考えると、研究者はコード翻訳を自動化する可能性、すなわち、他のplで同等のコードからターゲットplでコードを生成する可能性を積極的に探っている。 LLMベースのコード翻訳の進歩の前提条件は、それらの制限を理解することである。 そこで本研究では,C言語,C++言語,Go言語,Java言語,Python言語など,多言語間のコード翻訳において,汎用LLMやコードLLMなどのLLMの能力について,大規模な実証研究を行った。 我々の分析では、3つの異なるベンチマークと実世界のプロジェクトから1,700のコードサンプルを翻訳し、LLMがコード翻訳の自動化にまだ確実に使われていないことを明らかにした。 全PLの翻訳失敗に関するさらなる手作業による調査では、翻訳バグの14の根本原因が特定されている。 実験的な研究から得られた知見に基づいて,LLMに付加的なコンテキストを提供することにより,PL,LLM,ベンチマーク間で平均5.5%のLLMベースのコード翻訳性能を向上させることを提案する。 我々の研究は、その規模と幅の点で、コード翻訳におけるLLMの現在の限界とそれらを改善する機会についての洞察を提供する最初のものである。 10k以上のテストを含む5つのplで記述された1,700のコードサンプル、43k以上の翻訳コード、1,725の手動ラベル付きバグ、および1,365のバグフィックスペアで構成された広範なデータセットは、この領域の研究の推進に役立ちます。

Code translation aims to convert source code from one programming language (PL) to another. Given the promising abilities of large language models (LLMs) in code synthesis, researchers are actively exploring their potential to automate code translation, i.e., generating code in target PL from its equivalent in another PL. The pre-requisite for advancing the state of LLM-based code translation is to understand their limitations. To that end, we present a large-scale empirical study to investigate the ability of LLMs, including general LLMs and code LLMs, for code translation across pairs of different languages, including C, C++, Go, Java, and Python. Our analysis involves the translation of 1,700 code samples from three distinct benchmarks and real-world projects, revealing LLMs are yet to be reliably used to automate code translation -- with incorrect translations ranging from 52.7% to 97.9% across the studied LLMs. Further manual investigation of unsuccessful translations among all PLs identifies 14 root causes for translation bugs. Based on the insights from the empirical study, we propose a prompt-crafting approach to provide additional context for LLMs, improving the performance of LLM-based code translation by 5.5% on average across different PLs, LLMs, and benchmarks. Our study is the first of its kind, in terms of its scale and breadth, that provides insights into the current limitations of LLMs in code translation and opportunities for improving them. Our collected extensive dataset -- consisting of 1,700 code samples written in five PLs with 10K+ tests, 43K+ translated code, 1,725 manually labeled bugs, and 1,365 bug-fix pairs generated using LLMs -- can help drive research in this area.
翻訳日:2023-10-23 15:10:14 公開日:2023-08-06
# てんかん発作予測の比較分析 : 多様な前処理技術と機械学習モデルの検討

Comparative Analysis of Epileptic Seizure Prediction: Exploring Diverse Pre-Processing Techniques and Machine Learning Models ( http://arxiv.org/abs/2308.05176v1 )

ライセンス: Link先を確認
Md. Simul Hasan Talukder, Rejwan Bin Sulaiman(参考訳) てんかんは、再発と予測不能な発作を特徴とし、効果的な管理と患者のケアのために正確な予測を必要とする神経疾患である。 機械学習(ML)が脳波記録(EEG)に応用され、発作時の脳活動に関する貴重な洞察を提供する能力とともに、関連する研究において正確で堅牢な発作予測が不可欠である。 本研究では,脳波データを用いたてんかん発作の予測のために,ランダムフォレスト (rf), 決定木 (dt), 余分木 (et), ロジスティック回帰 (lr), 勾配促進 (gb) の5つの機械学習モデルの包括的比較分析を行った。 データセットは、クリーニング、正規化、アウトリーチハンドリング、オーバーサンプリング、データ品質の確保、正確なモデルトレーニングの容易化など、綿密な事前処理が行われた。 これらの前処理技術はモデルの性能向上に重要な役割を果たした。 本分析の結果は,各モデルの性能を精度で示すものである。 LR分類器の精度は56.95%、GBとDTは97.17%に達した。 rtは98.99%の精度を達成し、etモデルは99.29%の精度で最高の性能を示した。 その結果, ETモデルは, 比較分析において他のモデルよりも優れており, 過去の研究結果よりも優れていたことがわかった。 ETモデルの優れた性能は、EEGデータを用いた正確で堅牢なてんかん発作予測に魅力的な選択となる。

Epilepsy is a prevalent neurological disorder characterized by recurrent and unpredictable seizures, necessitating accurate prediction for effective management and patient care. Application of machine learning (ML) on electroencephalogram (EEG) recordings, along with its ability to provide valuable insights into brain activity during seizures, is able to make accurate and robust seizure prediction an indispensable component in relevant studies. In this research, we present a comprehensive comparative analysis of five machine learning models - Random Forest (RF), Decision Tree (DT), Extra Trees (ET), Logistic Regression (LR), and Gradient Boosting (GB) - for the prediction of epileptic seizures using EEG data. The dataset underwent meticulous preprocessing, including cleaning, normalization, outlier handling, and oversampling, ensuring data quality and facilitating accurate model training. These preprocessing techniques played a crucial role in enhancing the models' performance. The results of our analysis demonstrate the performance of each model in terms of accuracy. The LR classifier achieved an accuracy of 56.95%, while GB and DT both attained 97.17% accuracy. RT achieved a higher accuracy of 98.99%, while the ET model exhibited the best performance with an accuracy of 99.29%. Our findings reveal that the ET model outperformed not only the other models in the comparative analysis but also surpassed the state-of-the-art results from previous research. The superior performance of the ET model makes it a compelling choice for accurate and robust epileptic seizure prediction using EEG data.
翻訳日:2023-08-11 14:39:32 公開日:2023-08-06
# 地下エネルギーシステムにおける物理インフォームド機械学習応用の批判的レビュー

A Critical Review of Physics-Informed Machine Learning Applications in Subsurface Energy Systems ( http://arxiv.org/abs/2308.04457v1 )

ライセンス: Link先を確認
Abdeldjalil Latrach, Mohamed Lamine Malki, Misael Morales, Mohamed Mehana, Minou Rabiei(参考訳) 機械学習は、コンピュータビジョン、自然言語処理、音声認識など、さまざまな分野で強力なツールとして登場した。 大きなデータセットの中に隠れたパターンを解き放ち、例外のない洞察を明らかにし、多くの産業や規律に革命をもたらす。 しかし、機械とディープラーニングモデルは、特に物理学や工学のような応用において、解釈可能性やドメイン固有の知識に欠ける。 あるいは、物理インフォームド機械学習(PIML)技術は、物理原理をデータ駆動モデルに統合する。 深層学習とドメイン知識を組み合わせることで、PIMLはモデルの一般化、物理法則の遵守、解釈可能性を改善する。 本稿では,主に石油・ガス産業における地下エネルギーシステムに関するPIML応用を包括的にレビューする。 本総説では, 地震探査, 貯水池シミュレーション, 炭化水素生産予測, 探索・生産段階における知的意思決定などのタスクにおけるPIMLの利用が成功している点を強調した。 さらに、pimlが資源管理と運用効率のより正確で信頼性の高い予測を提供することで、石油・ガス産業や炭素・水素貯蔵などの新興分野や地熱システムに革命をもたらす能力を示している。

Machine learning has emerged as a powerful tool in various fields, including computer vision, natural language processing, and speech recognition. It can unravel hidden patterns within large data sets and reveal unparalleled insights, revolutionizing many industries and disciplines. However, machine and deep learning models lack interpretability and limited domain-specific knowledge, especially in applications such as physics and engineering. Alternatively, physics-informed machine learning (PIML) techniques integrate physics principles into data-driven models. By combining deep learning with domain knowledge, PIML improves the generalization of the model, abidance by the governing physical laws, and interpretability. This paper comprehensively reviews PIML applications related to subsurface energy systems, mainly in the oil and gas industry. The review highlights the successful utilization of PIML for tasks such as seismic applications, reservoir simulation, hydrocarbons production forecasting, and intelligent decision-making in the exploration and production stages. Additionally, it demonstrates PIML's capabilities to revolutionize the oil and gas industry and other emerging areas of interest, such as carbon and hydrogen storage; and geothermal systems by providing more accurate and reliable predictions for resource management and operational efficiency.
翻訳日:2023-08-10 16:38:04 公開日:2023-08-06
# spike と slab bayesian sparse 主成分分析

Spike and slab Bayesian sparse principal component analysis ( http://arxiv.org/abs/2102.00305v2 )

ライセンス: Link先を確認
Bo Y.-C. Ning and Ning Ning(参考訳) スパース主成分分析(SPCA)は、高次元データの次元的低減のための一般的なツールである。 しかし、理論的に正当化されたベイズSPCA法がいまだに存在しないため、よく計算できる。 ベイズspcaの主な課題の1つは、主成分が互いに直交していることを考慮すると、ローディング行列の適切な事前を選択することである。 本稿では,パラメータ拡張座標の漸近変動推論(PX-CAVI)アルゴリズムを提案する。 このアルゴリズムは、直交性制約に対処するためにパラメータ拡張を組み込んだスパイクとスラブプリアーを用いる。 2つの人気のあるSPCAアルゴリズムとの比較に加えて、比較のためにPX-CAVIアルゴリズムのEM類似体としてPX-EMアルゴリズムを導入する。 PX-CAVIアルゴリズムはこれらのSPCA手法よりも優れており、性能の点でその優位性を示している。 変形性後肢の後方収縮速度について検討し,既存の文献に新たな寄与をもたらす。 PX-CAVIアルゴリズムは肺がん遺伝子発現データセットの研究に応用される。 アルゴリズムを実装したRパッケージVBsparsePCAはComprehensive R Archive Network (CRAN)で利用可能である。

Sparse principal component analysis (SPCA) is a popular tool for dimensionality reduction in high-dimensional data. However, there is still a lack of theoretically justified Bayesian SPCA methods that can scale well computationally. One of the major challenges in Bayesian SPCA is selecting an appropriate prior for the loadings matrix, considering that principal components are mutually orthogonal. We propose a novel parameter-expanded coordinate ascent variational inference (PX-CAVI) algorithm. This algorithm utilizes a spike and slab prior, which incorporates parameter expansion to cope with the orthogonality constraint. Besides comparing to two popular SPCA approaches, we introduce the PX-EM algorithm as an EM analogue to the PX-CAVI algorithm for comparison. Through extensive numerical simulations, we demonstrate that the PX-CAVI algorithm outperforms these SPCA approaches, showcasing its superiority in terms of performance. We study the posterior contraction rate of the variational posterior, providing a novel contribution to the existing literature. The PX-CAVI algorithm is then applied to study a lung cancer gene expression dataset. The R package VBsparsePCA with an implementation of the algorithm is available on the Comprehensive R Archive Network (CRAN).
翻訳日:2023-08-09 18:01:39 公開日:2023-08-06
# Nest-DGIL: CS画像再構成のためのNesterov最適化Deep Geometric Incremental Learning

Nest-DGIL: Nesterov-optimized Deep Geometric Incremental Learning for CS Image Reconstruction ( http://arxiv.org/abs/2308.03807v1 )

ライセンス: Link先を確認
Xiaohong Fan, Yin Yang, Ke Chen, Yujie Feng, and Jianping Zhang(参考訳) 近位勾配に基づく最適化は、画像逆問題を解くための最も一般的な戦略の1つであり、実装が容易である。 しかし、これらの技法はしばしば画像再構成において重いアーティファクトを生成する。 最も一般的な精錬手法の1つは、そのようなアーティファクトを緩和するために正規化パラメータを微調整することであるが、計算コストの増大のために常に十分あるいは適用可能であるとは限らない。 本研究では,第2次ネステロフ近位勾配最適化に基づく深層幾何学的漸進学習フレームワークを提案する。 提案するエンド・ツー・エンドネットワークは、高/低周波画像特徴の強力な学習能力を持つだけでなく、事前線形再構成から幾何学的テクスチャの詳細が再構築されることを理論的に保証することができる。 再建フレームワークは, 一般的な線形再構成, カスケード幾何的漸進的復元, ネステロフ加速度, 後処理の4つのモジュールに分解される。 画像復元工程では、異なる幾何学的スペクトル分解領域から欠落したテクスチャ情報を補うようにカスケード幾何学的漸進学習モジュールを設計する。 オーバーラップタイル戦略に着想を得て,パッチワイドな自然画像再構成におけるブロック効果を除去する後処理モジュールも開発した。 提案モデルの全てのパラメータは学習可能であり,物理パラメータの適応初期化手法はモデルの柔軟性と収束の円滑性を確保するためにも用いられる。 提案手法の復元性能と既存手法との比較を行い,その優位性を実証した。 ソースコードはhttps://github.com/fanxiaohong/Nest-DGILで公開しています。

Proximal gradient-based optimization is one of the most common strategies for solving image inverse problems as well as easy to implement. However, these techniques often generate heavy artifacts in image reconstruction. One of the most popular refinement methods is to fine-tune the regularization parameter to alleviate such artifacts, but it may not always be sufficient or applicable due to increased computational costs. In this work, we propose a deep geometric incremental learning framework based on second Nesterov proximal gradient optimization. The proposed end-to-end network not only has the powerful learning ability for high/low frequency image features,but also can theoretically guarantee that geometric texture details will be reconstructed from preliminary linear reconstruction.Furthermore, it can avoid the risk of intermediate reconstruction results falling outside the geometric decomposition domains and achieve fast convergence. Our reconstruction framework is decomposed into four modules including general linear reconstruction, cascade geometric incremental restoration, Nesterov acceleration and post-processing. In the image restoration step,a cascade geometric incremental learning module is designed to compensate for the missing texture information from different geometric spectral decomposition domains. Inspired by overlap-tile strategy, we also develop a post-processing module to remove the block-effect in patch-wise-based natural image reconstruction. All parameters in the proposed model are learnable,an adaptive initialization technique of physical-parameters is also employed to make model flexibility and ensure converging smoothly. We compare the reconstruction performance of the proposed method with existing state-of-the-art methods to demonstrate its superiority. Our source codes are available at https://github.com/fanxiaohong/Nest-DGIL.
翻訳日:2023-08-09 15:34:04 公開日:2023-08-06
# ウェアラブルを用いた人間行動分析のための弱教師付きマルチタスク表現学習

Weakly Supervised Multi-Task Representation Learning for Human Activity Analysis Using Wearables ( http://arxiv.org/abs/2308.03805v1 )

ライセンス: Link先を確認
Taoran Sheng and Manfred Huber(参考訳) ウェアラブルデバイスやスマート環境からのセンサデータストリームは、ヒューマンアクティビティ認識(HAR)、個人識別、健康モニタリングといった分野で広く研究されている。 しかしながら、アクティビティとセンサストリーム分析に関するこれまでの研究の大部分は、データの1つの側面、例えばアクティビティのタイプを認識することや、アクティビティを実行した人物を識別することのみに焦点を当ててきた。 代わりに,データを複数の表現空間にマッピングすることを学習し,各表現空間がデータの1つの側面に焦点を当てる,弱い教師付きマルチアウトプットシアームネットワークを用いたアプローチを提案する。 データサンプルの表現ベクトルは、そのアスペクトにおける同じ意味を持つデータが互いに密接な位置にあるような空間に配置される。 したがって、一連の実験で示されているように、トレーニングされたモデルは、複数の側面に基づいてデータをクラスタリングするためのメトリクスを提供することができ、複数のタスクを同時に処理でき、多くの状況で単一のタスク監督メソッドよりも優れています。 さらに,このフレームワークにおけるアーキテクチャの効果と複数のタスクの利用,追加タスクを含むモデルのスケーラビリティを調査すること,対象タスクに対して部分的関連情報のみを結合するフレームワークの能力について,より詳細に分析すること,さらに実験を行った。

Sensor data streams from wearable devices and smart environments are widely studied in areas like human activity recognition (HAR), person identification, or health monitoring. However, most of the previous works in activity and sensor stream analysis have been focusing on one aspect of the data, e.g. only recognizing the type of the activity or only identifying the person who performed the activity. We instead propose an approach that uses a weakly supervised multi-output siamese network that learns to map the data into multiple representation spaces, where each representation space focuses on one aspect of the data. The representation vectors of the data samples are positioned in the space such that the data with the same semantic meaning in that aspect are closely located to each other. Therefore, as demonstrated with a set of experiments, the trained model can provide metrics for clustering data based on multiple aspects, allowing it to address multiple tasks simultaneously and even to outperform single task supervised methods in many situations. In addition, further experiments are presented that in more detail analyze the effect of the architecture and of using multiple tasks within this framework, that investigate the scalability of the model to include additional tasks, and that demonstrate the ability of the framework to combine data for which only partial relationship information with respect to the target tasks is available.
翻訳日:2023-08-09 15:33:36 公開日:2023-08-06
# オンライン凸最適化入門

Introduction to Online Convex Optimization ( http://arxiv.org/abs/1909.05207v3 )

ライセンス: Link先を確認
Elad Hazan(参考訳) この写本は最適化をプロセスとして描いている。 多くの実用的な応用において、環境は非常に複雑であり、包括的理論モデルを構築し、古典的アルゴリズム理論と数学的最適化を使うことは不可能である。 順調なアプローチを取るためには,順調に学習する最適化手法を適用すること,問題のさらなる側面を観察する上で経験から学ぶこと,といったメリットもある。 プロセスとしての最適化という考え方は様々な分野で目立ってきており、今や私たちの日常生活の一部となっているモデリングやシステムで目覚ましい成功を収めています。

This manuscript portrays optimization as a process. In many practical applications the environment is so complex that it is infeasible to lay out a comprehensive theoretical model and use classical algorithmic theory and mathematical optimization. It is necessary as well as beneficial to take a robust approach, by applying an optimization method that learns as one goes along, learning from experience as more aspects of the problem are observed. This view of optimization as a process has become prominent in varied fields and has led to some spectacular success in modeling and systems that are now part of our daily lives.
翻訳日:2023-08-09 01:43:04 公開日:2023-08-06
# 多くの製品カテゴリーにおける消費者選択の因果推論

Counterfactual Inference for Consumer Choice Across Many Product Categories ( http://arxiv.org/abs/1906.02635v2 )

ライセンス: Link先を確認
Rob Donnelly, Francisco R. Ruiz, David Blei, and Susan Athey(参考訳) 本稿では,消費者がカテゴリ内の1つ以上の製品を選択するが,複数のカテゴリから同時に選択する,個別選択間の消費者嗜好を推定する手法を提案する。 消費者のユーティリティは、異なるカテゴリに付加される。 製品属性に対する彼女の好みと価格の感度は製品によって異なり、一般的に製品間で相関する。 我々は,行列因子化の確率モデルに基づく機械学習文献の手法を基礎として,時間的変動を伴う製品属性や在庫切れを考慮に入れた手法を拡張した。 価格変更や在庫の流出などによる数週間の保留データを用いて,モデルの性能評価を行った。 それぞれのカテゴリーを別々に考える従来のモデリングアプローチよりも,モデルが改善することを示す。 改善の1つの要因は、モデルが優先順位の不均一性を正確に推定する能力(カテゴリ間の情報のプール化による)であり、改善のもう1つの要因は、トレーニングデータにおいて、特定のカテゴリでめったに購入したことのない消費者の嗜好を推定する能力である。 保持データを用いて、当社のモデルは、製品に対して最も価格に敏感な消費者を正確に識別できることを示す。 個人が対象とする価格割引などの対策を考察し、提案するようなよりリッチなモデルを用いることで、ディスカウントにおけるパーソナライゼーションのメリットを著しく高めることを示す。

This paper proposes a method for estimating consumer preferences among discrete choices, where the consumer chooses at most one product in a category, but selects from multiple categories in parallel. The consumer's utility is additive in the different categories. Her preferences about product attributes as well as her price sensitivity vary across products and are in general correlated across products. We build on techniques from the machine learning literature on probabilistic models of matrix factorization, extending the methods to account for time-varying product attributes and products going out of stock. We evaluate the performance of the model using held-out data from weeks with price changes or out of stock products. We show that our model improves over traditional modeling approaches that consider each category in isolation. One source of the improvement is the ability of the model to accurately estimate heterogeneity in preferences (by pooling information across categories); another source of improvement is its ability to estimate the preferences of consumers who have rarely or never made a purchase in a given category in the training data. Using held-out data, we show that our model can accurately distinguish which consumers are most price sensitive to a given product. We consider counterfactuals such as personally targeted price discounts, showing that using a richer model such as the one we propose substantially increases the benefits of personalization in discounts.
翻訳日:2023-08-09 01:42:55 公開日:2023-08-06
# RAIST:時空間グラフ畳み込みネットワークによる交通相互作用の学習

RAIST: Learning Risk Aware Traffic Interactions via Spatio-Temporal Graph Convolutional Networks ( http://arxiv.org/abs/2011.08722v3 )

ライセンス: Link先を確認
Videsh Suman and Phu Pham and Aniket Bera(参考訳) 道路車両を運転する上で重要な側面は、他の道路利用者と対話し、その意図を評価し、リスクを意識した戦術決定を行うことである。 インテリジェントな自動運転システムを実現するための直感的なアプローチは、人間の運転行動のいくつかの側面を取り入れることだろう。 そこで本研究では,時空間トラヒックグラフに基づくエゴセントリックビューのための新しい駆動フレームワークを提案する。 トラヒックグラフは、道路利用者間の空間的相互作用だけでなく、時間的関連メッセージパッシングを通じて個々の意図をモデル化する。 グラフエッジのトレーニングには時空間グラフ畳み込みネットワーク(ST-GCN)を利用する。 これらのエッジは3次元位置のパラメータ化関数と道路エージェントのシーン認識外観特徴を用いて定式化される。 戦術行動予測とともに,提案フレームワークのリスク評価能力を評価することが重要である。 我々は,リスクオブジェクト識別のタスク,特に歩行者やサイクリストのような脆弱なインタラクションを持つオブジェクトの識別を改善することで,リスク認識表現を学習する。

A key aspect of driving a road vehicle is to interact with other road users, assess their intentions and make risk-aware tactical decisions. An intuitive approach to enabling an intelligent automated driving system would be incorporating some aspects of human driving behavior. To this end, we propose a novel driving framework for egocentric views based on spatio-temporal traffic graphs. The traffic graphs model not only the spatial interactions amongst the road users but also their individual intentions through temporally associated message passing. We leverage a spatio-temporal graph convolutional network (ST-GCN) to train the graph edges. These edges are formulated using parameterized functions of 3D positions and scene-aware appearance features of road agents. Along with tactical behavior prediction, it is crucial to evaluate the risk-assessing ability of the proposed framework. We claim that our framework learns risk-aware representations by improving on the task of risk object identification, especially in identifying objects with vulnerable interactions like pedestrians and cyclists.
翻訳日:2023-08-09 01:37:58 公開日:2023-08-06
# リーマン多様体とユークリッド空間上の時空間eeg表現学習

Spatio-Temporal EEG Representation Learning on Riemannian Manifold and Euclidean Space ( http://arxiv.org/abs/2008.08633v3 )

ライセンス: Link先を確認
Guangyi Zhang and Ali Etemad(参考訳) 脳波(EEG)を学習するための新しいディープラーニングアーキテクチャを提案する。 空間情報を学習するために、我々のモデルはまずリーマン多様体上の空間共分散行列(SCM)からリーマン平均と距離を求める。 次に空間情報を接空間学習によってユークリッド空間に投影する。 次に、2つの完全連結層を用いて空間情報埋め込みを学ぶ。 さらに,本提案手法は,ソフトアテンション機構を備えた長期記憶ネットワークを用いて,ユークリッド空間の脳波信号から抽出した差動エントロピーと対数パワースペクトル特性を用いて時間情報を学習する。 時間的情報と時間的情報を組み合わせるために,組込み特有の特徴に適用される注意重みを学習し,意思決定を行う効果的な融合戦略を用いる。 提案手法は,感情認識,警戒度推定,運動画像分類,二分分類,多類分類,回帰といった様々なタスクを含む3つの脳波関連タスクにまたがる4つの公開データセットについて評価した。 提案したアーキテクチャはSEED-VIGの他の手法よりも優れており,他の3つのデータセット(SEED, BCI-IV 2A, BCI-IV 2B)に対して最先端にアプローチし,脳波表現学習におけるフレームワークの堅牢性を示している。 我々の論文のソースコードはhttps://github.com/guangyizhangbci/EEG_Riemannian.comで公開されている。

We present a novel deep neural architecture for learning electroencephalogram (EEG). To learn the spatial information, our model first obtains the Riemannian mean and distance from spatial covariance matrices (SCMs) on a Riemannian manifold. We then project the spatial information onto a Euclidean space via tangent space learning. Following, two fully connected layers are used to learn the spatial information embeddings. Moreover, our proposed method learns the temporal information via differential entropy and logarithm power spectrum density features extracted from EEG signals in a Euclidean space using a deep long short-term memory network with a soft attention mechanism. To combine the spatial and temporal information, we use an effective fusion strategy, which learns attention weights applied to embedding-specific features for decision making. We evaluate our proposed framework on four public datasets across three popular EEG-related tasks, notably emotion recognition, vigilance estimation, and motor imagery classification, containing various types of tasks such as binary classification, multi-class classification, and regression. Our proposed architecture outperforms other methods on SEED-VIG, and approaches the state-of-the-art on the other three datasets (SEED, BCI-IV 2A, and BCI-IV 2B), showing the robustness of our framework in EEG representation learning. The source code of our paper is publicly available at https://github.com/guangyizhangbci/EEG_Riemannian.
翻訳日:2023-08-09 01:37:17 公開日:2023-08-06
# SQ-CARS:スケーラブルな量子制御と読み出しシステム

SQ-CARS: A Scalable Quantum Control and Readout System ( http://arxiv.org/abs/2203.01523v3 )

ライセンス: Link先を確認
Ujjawal Singhal, Shantharam Kalipatnapu, Pradeep Kumar Gautam, Sourav Majumder, Vaibhav Venkata Lakshmi Pabbisetty, Srivatsava Jandhyala, Vibhor Singh, and Chetan Singh Thakur(参考訳) Qubitsは、ギガヘルツ周波数範囲の電磁パルスと、制御と読み出しのためにナノ秒の遅延を必要とする量子プロセッサの基本構成要素である。 本稿では,超伝導量子ビットの制御と測定に用いられる室温エレクトロニクスに関連する3つの主な課題,スケーラビリティ,マイクロ波直接合成,統一ユーザインタフェースについて述べる。 これらの課題に対処するため、我々はZCU111評価キットに基づくSQ-CARSを開発した。 SQ-CARSは、スケーラブルで構成可能、フェーズ同期として設計されており、マルチキュービット制御と読み出し機能を提供する。 このシステムは、ユーザフレンドリーなインタラクティブなpythonフレームワークを提供する。 多数のキュービットへのスケーラビリティは、複数のチャネルを決定論的に同期することで実現される。 このシステムは、第2Nyquistゾーン技術を用いて、4GHzから9GHzの任意のベクトルマイクロ波パルスを直接合成する。 また、チューニング可能なローパスフィルタや設定可能なローテーションブロックなどのオンボードデータ処理も備えており、量子実験のためのロックイン検出と低遅延のアクティブフィードバックを可能にする。 すべてのコントロールと読み出し機能は、オンボードのpythonフレームワークを通じて利用できる。 SQ-CARSの性能を検証するため,超伝導トランスモン量子ビットを特徴付けるために,様々な時間領域の測定を行った。 同様の実験でよく用いられる従来の構成と比較した。 制御と読み出しチャネルの決定論的同期、およびプログラミングのオープンソースアプローチにより、sq-carsは超伝導量子ビットを用いた高度な実験の道を開く。

Qubits are the basic building blocks of a quantum processor which require electromagnetic pulses in giga hertz frequency range and latency in nanoseconds for control and readout. In this paper, we address three main challenges associated with room temperature electronics used for controlling and measuring superconducting qubits: scalability, direct microwave synthesis, and a unified user interface. To tackle these challenges, we have developed SQ-CARS, a system based on the ZCU111 evaluation kit. SQ-CARS is designed to be scalable, configurable, and phase synchronized, providing multi-qubit control and readout capabilities. The system offers an interactive Python framework, making it user-friendly. Scalability to a larger number of qubits is achieved by deterministic synchronization of multiple channels. The system supports direct synthesis of arbitrary vector microwave pulses using the second-Nyquist zone technique, from 4 to 9 GHz. It also features on-board data processing like tunable low pass filters and configurable rotation blocks, enabling lock-in detection and low-latency active feedback for quantum experiments. All control and readout features are accessible through an on-board Python framework. To validate the performance of SQ-CARS, we conducted various time-domain measurements to characterize a superconducting transmon qubit. Our results were compared against traditional setups commonly used in similar experiments. With deterministic synchronisation of control and readout channels, and an open-source approach for programming, SQ-CARS paves the way for advanced experiments with superconducting qubits.
翻訳日:2023-08-09 01:28:52 公開日:2023-08-06
# D4: Disjoint Ensembles を用いた逆拡散深層波の検出

D4: Detection of Adversarial Diffusion Deepfakes Using Disjoint Ensembles ( http://arxiv.org/abs/2202.05687v3 )

ライセンス: Link先を確認
Ashish Hooda, Neal Mangaokar, Ryan Feng, Kassem Fawaz, Somesh Jha, Atul Prakash(参考訳) 拡散生成ディープフェイク画像の検出は未解決の問題である。 現在の検出方法は、ディープフェイクに不可避な逆向きの摂動を追加して検出を避ける敵に対して失敗する。 本研究では,直交拡散深度検出(Disjoint Diffusion Deepfake Detection, D4)を提案する。 d4 は周波数スペクトルの隣接部分集合上のモデルのアンサンブルを用いて、逆ロバスト性を大幅に改善している。 我々の重要な洞察は、周波数領域の冗長性を生かし、複数のモデルにまたがる周波数成分の分散に相補的分割技術を適用することである。 これらの不一致アンサンブルが、敵のディープフェイクが嘘をついている入力部分空間の次元を減少させ、敵のディープフェイクをブラックボックス攻撃で見つけるのが困難になることを正式に証明する。 そこで我々は,いくつかのブラックボックス攻撃に対してD4法を実証的に検証し,拡散生成深度検出に適用した既存の最先端防御法よりもD4が有意に優れていることを見出した。 また,d4は,非知覚データ分布による敵のディープフェイクに対するロバスト性や,未知の生成技術を提供することを示す。

Detecting diffusion-generated deepfake images remains an open problem. Current detection methods fail against an adversary who adds imperceptible adversarial perturbations to the deepfake to evade detection. In this work, we propose Disjoint Diffusion Deepfake Detection (D4), a deepfake detector designed to improve black-box adversarial robustness beyond de facto solutions such as adversarial training. D4 uses an ensemble of models over disjoint subsets of the frequency spectrum to significantly improve adversarial robustness. Our key insight is to leverage a redundancy in the frequency domain and apply a saliency partitioning technique to disjointly distribute frequency components across multiple models. We formally prove that these disjoint ensembles lead to a reduction in the dimensionality of the input subspace where adversarial deepfakes lie, thereby making adversarial deepfakes harder to find for black-box attacks. We then empirically validate the D4 method against several black-box attacks and find that D4 significantly outperforms existing state-of-the-art defenses applied to diffusion-generated deepfake detection. We also demonstrate that D4 provides robustness against adversarial deepfakes from unseen data distributions as well as unseen generative techniques.
翻訳日:2023-08-09 01:27:52 公開日:2023-08-06
# 一般分布に従うウェーブパックを用いたプランクスケールの新しい探索機構

A novel mechanism for probing the Planck scale with wavepackets following general distributions ( http://arxiv.org/abs/2201.05183v2 )

ライセンス: Link先を確認
Saurya Das, Sujoy K. Modak(参考訳) また,gupは,移動波の質量,初期幅,平均速度の3つのパラメータを好適に組み合わせて,自在に移動するガウス原子および分子波束の「二重化時間」に対する測定可能な補正を予測できることを示した。 しかし、このような波束は様々な分布に対応する様々な形状を持つことが知られている。 本稿では, 任意の分布に対する初期の研究を一般化し, ウェーブパケットの任意の形状を許容する。 数学的には、この形式は量子力学と統計力学の双対性を利用して構築され、運動量演算子の(量子力学的)期待値は双対統計記述の特徴関数の微分によって表現できる。 この結果を踏まえ、さらに一歩進んで、数個の物理分布を数値的に研究する。 パラメータ$\kappa=0.5$の一般化正規分布に従えば、大きな有機性(TPPF152)波束が最良のシナリオの1つとなり、現在の技術でGUPパラメータ空間全体を効果的にスキャンできる。 最小長さはプランク値に近いか、あるいはそうである必要はないとは言っていませんが、最小長さのシグネチャを100倍までスキャンするために、以前の研究を改善しました。

It was also shown recently that GUP predicts potentially measurable corrections to the `doubling time' of freely moving Gaussian atomic and molecular wavepackets with a favorable combination of three parameters, {\it e.g.} mass, initial width and mean velocity of a travelling wavepacket. However, it is well known that such wavepackets can come with various shapes which correspond to variety of distributions. In this article, we generalize our earlier work for an {\it arbitrary distribution} and thereby accommodate any shape of the wavepacket. Mathematically, we build this formalism by exploiting a duality between quantum and statistical mechanics, by which (quantum mechanical) expectation values of the momentum operator can be expressed in terms of the derivatives of the characteristic functions of the dual statistical description. Equipped with this result, we go one step further and numerically study a few physical distributions. We find that large organic (TPPF152) wavepacket following the generalized normal distribution with parameter $\kappa=0.5$ offers one of the best-case scenarios, effectively scanning the whole GUP parameter space with current technologies. Although we do not say that the minimal length has to be near or at the Planck value, we mange improving our previous studies to scan the minimal length signatures down to hundred times the Planck value.
翻訳日:2023-08-09 01:27:18 公開日:2023-08-06
# 並列および分散グラフニューラルネットワーク: 詳細な並列処理解析

Parallel and Distributed Graph Neural Networks: An In-Depth Concurrency Analysis ( http://arxiv.org/abs/2205.09702v6 )

ライセンス: Link先を確認
Maciej Besta, Torsten Hoefler(参考訳) グラフニューラルネットワーク(GNN)は、ディープラーニングにおいて最も強力なツールのひとつだ。 ノード分類、グラフ分類、リンク予測といった非構造化ネットワーク上の複雑な問題を、精度良く日常的に解決する。 しかし、GNNの推論と訓練は複雑であり、不規則なグラフ処理の特徴と密度計算と正規計算を一意に組み合わせている。 この複雑さにより、現代の大規模並列アーキテクチャ上でのGNNの効率的な実行が非常に困難になる。 これを緩和するために、まず、データとモデル並列性、および異なる形式のパイプライニングを考慮して、GNNにおける並列性の分類を設計する。 そして、この分類法を用いて、多数のGNNモデル、GNN駆動機械学習タスク、ソフトウェアフレームワーク、ハードウェアアクセラレーターにおける並列性の量を調べる。 作業深度モデルを用いて通信量と同期性を評価する。 特に,ベクトル化などの手法を効果的に適用する方法を理解するために,関連するテンソルのスパーシティ/密度に着目した。 我々はまた、GNNパイプラインのパイプライン化を公式に分析し、GNNモデルの確立されたメッセージパッシングクラスを任意のパイプライン深さをカバーするために一般化し、将来の最適化を容易にする。 最後に,非同期並列GNNパイプラインの経路をナビゲートする,様々な非同期性について検討する。 分析の結果は、GNNの性能を最大化するための一連の洞察と、効率的なGNN計算のさらなる研究のための課題と機会の包括的リストで合成される。 我々の仕事は将来のGNNの設計を前進させるのに役立ちます。

Graph neural networks (GNNs) are among the most powerful tools in deep learning. They routinely solve complex problems on unstructured networks, such as node classification, graph classification, or link prediction, with high accuracy. However, both inference and training of GNNs are complex, and they uniquely combine the features of irregular graph processing with dense and regular computations. This complexity makes it very challenging to execute GNNs efficiently on modern massively parallel architectures. To alleviate this, we first design a taxonomy of parallelism in GNNs, considering data and model parallelism, and different forms of pipelining. Then, we use this taxonomy to investigate the amount of parallelism in numerous GNN models, GNN-driven machine learning tasks, software frameworks, or hardware accelerators. We use the work-depth model, and we also assess communication volume and synchronization. We specifically focus on the sparsity/density of the associated tensors, in order to understand how to effectively apply techniques such as vectorization. We also formally analyze GNN pipelining, and we generalize the established Message-Passing class of GNN models to cover arbitrary pipeline depths, facilitating future optimizations. Finally, we investigate different forms of asynchronicity, navigating the path for future asynchronous parallel GNN pipelines. The outcomes of our analysis are synthesized in a set of insights that help to maximize GNN performance, and a comprehensive list of challenges and opportunities for further research into efficient GNN computations. Our work will help to advance the design of future GNNs.
翻訳日:2023-08-09 01:18:50 公開日:2023-08-06
# MM-BD:最大マルジン統計を用いた任意バックドアパターン型バックドア攻撃の訓練後検出

MM-BD: Post-Training Detection of Backdoor Attacks with Arbitrary Backdoor Pattern Types Using a Maximum Margin Statistic ( http://arxiv.org/abs/2205.06900v2 )

ライセンス: Link先を確認
Hang Wang, Zhen Xiang, David J. Miller, George Kesidis(参考訳) バックドア攻撃は、ディープニューラルネットワーク分類器に対する重要なタイプの敵対的脅威であり、バックドアパターンが埋め込まれた場合、1つ以上のソースクラスのテストサンプルをアタッカーのターゲットクラスに(ミス)分類する。 本報告では,訓練後のバックドア防御シナリオを文献でよく検討し,訓練された分類器が訓練セットにアクセスせずにバックドア攻撃を受けたかどうかをディフェンダーが検出することを目的とした。 多くのポストトレーニング検出器は、1つまたはいくつかの特定のバックドア埋め込み機能(例えばパッチ置換または追加攻撃)を使用する攻撃を検出するように設計されている。 これらの検出器は、攻撃者が使用するバックドア埋め込み関数(ディフェンダーとは無関係)がディフェンダーが想定するバックドア埋め込み関数とは異なる場合に失敗する可能性がある。 対照的に,バックドア埋め込み型を仮定することなく,任意のタイプのバックドア埋め込みによるバックドア攻撃を検出するポストトレーニング防御を提案する。 この検出器は, バックドア埋め込み機構に依存しないバックドアアタックの影響を, ソフトマックス層に先立って, 分類器出力のランドスケープに生かしている。 各クラスについて、最大マージン統計を推定する。 次に、これらの統計に教師なし異常検出器を適用することで検出推定を行う。 したがって,検出には正当なクリーンサンプルは不要であり,任意の数のソースクラスでバックドア攻撃を効率的に検出することができる。 これらの利点は、4つのデータセット、3つの異なる種類のバックドアパターン、および様々な攻撃構成で示される。 最後に,検出が完了するとバックドア緩和のための新しい汎用的アプローチを提案する。 緩和アプローチは第1回ieeeトロイの木馬除去競技の次点であった。 コードはオンラインで入手できる。

Backdoor attacks are an important type of adversarial threat against deep neural network classifiers, wherein test samples from one or more source classes will be (mis)classified to the attacker's target class when a backdoor pattern is embedded. In this paper, we focus on the post-training backdoor defense scenario commonly considered in the literature, where the defender aims to detect whether a trained classifier was backdoor-attacked without any access to the training set. Many post-training detectors are designed to detect attacks that use either one or a few specific backdoor embedding functions (e.g., patch-replacement or additive attacks). These detectors may fail when the backdoor embedding function used by the attacker (unknown to the defender) is different from the backdoor embedding function assumed by the defender. In contrast, we propose a post-training defense that detects backdoor attacks with arbitrary types of backdoor embeddings, without making any assumptions about the backdoor embedding type. Our detector leverages the influence of the backdoor attack, independent of the backdoor embedding mechanism, on the landscape of the classifier's outputs prior to the softmax layer. For each class, a maximum margin statistic is estimated. Detection inference is then performed by applying an unsupervised anomaly detector to these statistics. Thus, our detector does not need any legitimate clean samples, and can efficiently detect backdoor attacks with arbitrary numbers of source classes. These advantages over several state-of-the-art methods are demonstrated on four datasets, for three different types of backdoor patterns, and for a variety of attack configurations. Finally, we propose a novel, general approach for backdoor mitigation once a detection is made. The mitigation approach was the runner-up at the first IEEE Trojan Removal Competition. The code is online available.
翻訳日:2023-08-09 01:18:09 公開日:2023-08-06
# 変分推論における統計的および計算的トレードオフ--推論モデル選択を事例として

Statistical and Computational Trade-offs in Variational Inference: A Case Study in Inferential Model Selection ( http://arxiv.org/abs/2207.11208v2 )

ライセンス: Link先を確認
Kush Bhatia, Nikki Lijing Kuang, Yi-An Ma, Yixin Wang(参考訳) 変分推論は、最近、大規模なベイズ推定において古典的マルコフ連鎖モンテカルロ(MCMC)の代替として人気である。 中心となる考え方は、計算効率の統計的精度を交換することである。 本研究では,変数推論における統計的および計算的トレードオフを,推論モデル選択のケーススタディを通して検討する。 対角線および低ランク精度行列を持つガウス平均モデル(あるいは変分近似族)に着目し,ベイズ後方推定誤差と頻繁不確実性定量誤差の2つの側面におけるトレードオフの理論的研究を開始する。 ベイズ後後方推定の観点からは、正確な後後方に対する変動後後方の誤差を特徴付ける。 固定的な計算予算が与えられた場合、低階推論モデルは高い統計近似誤差を持つ変分後部を生成するが、低い計算誤差を発生させることで、確率最適化のばらつきを低減し、結果として収束を加速する。 頻繁な不確実性定量化の観点からは,データのサンプリング不確実性に起因する追加の統計誤差を含む不確実性推定として,変動後段の精度行列を考える。 結果として、小さなデータセットでは、(無制限の計算予算でも)最適推定誤差を達成するために、推論モデルをフルランクにする必要がなくなる。

Variational inference has recently emerged as a popular alternative to the classical Markov chain Monte Carlo (MCMC) in large-scale Bayesian inference. The core idea is to trade statistical accuracy for computational efficiency. In this work, we study these statistical and computational trade-offs in variational inference via a case study in inferential model selection. Focusing on Gaussian inferential models (or variational approximating families) with diagonal plus low-rank precision matrices, we initiate a theoretical study of the trade-offs in two aspects, Bayesian posterior inference error and frequentist uncertainty quantification error. From the Bayesian posterior inference perspective, we characterize the error of the variational posterior relative to the exact posterior. We prove that, given a fixed computation budget, a lower-rank inferential model produces variational posteriors with a higher statistical approximation error, but a lower computational error; it reduces variance in stochastic optimization and, in turn, accelerates convergence. From the frequentist uncertainty quantification perspective, we consider the precision matrix of the variational posterior as an uncertainty estimate, which involves an additional statistical error originating from the sampling uncertainty of the data. As a consequence, for small datasets, the inferential model need not be full-rank to achieve optimal estimation error (even with unlimited computation budget).
翻訳日:2023-08-09 01:09:56 公開日:2023-08-06
# SRRT:検索領域規制追跡

SRRT: Search Region Regulation Tracking ( http://arxiv.org/abs/2207.04438v3 )

ライセンス: Link先を確認
Jiawen Zhu, Xin Chen, Pengyu Zhang, Xinying Wang, Dong Wang, Wenda Zhao, Huchuan Lu(参考訳) 支配トラッカは、モデル入力、すなわち検索領域として、前回の予測または初期バウンディングボックスに基づいて固定サイズの矩形領域を生成する。 この方法では有望な追跡効率が得られるが、固定サイズの探索領域は柔軟性がなく、例えば速い動きや邪魔者干渉など、いくつかのケースでは失敗する可能性がある。 トラッカーは探索領域が限られているため対象物を失ったり、過剰な探索領域によって妨害される傾向にある。 対象物を追跡するパターンからインスピレーションを得て,ターゲットが捕捉された際に小さなアイリーチを施し,対象物が失われそうになったときに探索領域をズームアウトする,検索領域規制追跡(SRRT)と呼ばれる新しい追跡パラダイムを提案する。 SRRTは提案した探索領域レギュレータを用いて各フレームに対して最適な探索領域を動的に推定する。 さらに,オンライントラッキングにおけるオブジェクトの外観変化に適応するため,参照フレーム更新のためのロック状態決定更新戦略を提案する。 提案したSRRTはベルやホイッスルを使わずに簡潔であるが、8つのベンチマークで他の最先端トラッカーと明らかな改善と競争的な結果が得られる。 大規模なLaSOTベンチマークでは、SRRTはSiamRPN++とTransTをAUCの4.6%と3.1%で改善した。 コードとモデルがリリースされます。

The dominant trackers generate a fixed-size rectangular region based on the previous prediction or initial bounding box as the model input, i.e., search region. While this manner obtains promising tracking efficiency, a fixed-size search region lacks flexibility and is likely to fail in some cases, e.g., fast motion and distractor interference. Trackers tend to lose the target object due to the limited search region or be interfered with by distractors due to the excessive search region. Drawing inspiration from the pattern humans track an object, we propose a novel tracking paradigm, called Search Region Regulation Tracking (SRRT) that applies a small eyereach when the target is captured and zooms out the search field when the target is about to be lost. SRRT applies a proposed search region regulator to estimate an optimal search region dynamically for each frame, by which the tracker can flexibly respond to transient changes in the location of object occurrences. To adapt the object's appearance variation during online tracking, we further propose a lockingstate determined updating strategy for reference frame updating. The proposed SRRT is concise without bells and whistles, yet achieves evident improvements and competitive results with other state-of-the-art trackers on eight benchmarks. On the large-scale LaSOT benchmark, SRRT improves SiamRPN++ and TransT with absolute gains of 4.6% and 3.1% in terms of AUC. The code and models will be released.
翻訳日:2023-08-09 01:08:36 公開日:2023-08-06
# トポロジカルフォールトトレラント量子誤差補正のための連結方式

Concatenation Schemes for Topological Fault-tolerant Quantum Error Correction ( http://arxiv.org/abs/2209.09390v2 )

ライセンス: Link先を確認
Zhaoyi Li, Isaac Kim, Patrick Hayden(参考訳) 本稿では,3次元クラスタ状態との小さな誤り検出や誤り訂正符号の結合に基づく,フォールトトレラントな量子誤り訂正手法の系統について検討する。 本稿では,全ての回路レベルのエラーを消去エラーに効果的に変換し,クラスタ状態の高しきい値を利用するフォールトトレラント状態の準備と復号化手法を提案する。 我々は、そのような変換が可能な符号の集合を見つけ、それらの性能を標準回路レベルの非分極モデルと比較する。 我々の最良の実行方式は、古典的なコードとの結合に基づいて、しきい値を16.5\%$改善し、結合のないスキームと比較して、時空オーバーヘッドを32\%$減少させ、各スキームは、物理的エラー率10^{-3}$、論理エラー率10^{-6}$とする。

We investigate a family of fault-tolerant quantum error correction schemes based on the concatenation of small error detection or error correction codes with the three-dimensional cluster state. We propose fault-tolerant state preparation and decoding schemes that effectively convert every circuit-level error into an erasure error, leveraging the cluster state's high threshold against such errors. We find a set of codes for which such a conversion is possible, and study their performance against the standard circuit-level depolarizing model. Our best performing scheme, which is based on a concatenation with a classical code, improves the threshold by $16.5\%$ and decreases the spacetime overhead by $32\%$ compared to the scheme without concatenation, with each scheme subject to a physical error rate of $10^{-3}$ and achieving a logical error rate of $10^{-6}$.
翻訳日:2023-08-09 01:00:08 公開日:2023-08-06
# 崩壊モデルに照らしての量子古典的分割に関する新しい知見

New insights on the quantum-classical division in light of Collapse Models ( http://arxiv.org/abs/2210.10603v3 )

ライセンス: Link先を確認
Fernanda Torres, Sujoy K. Modak, Alfredo Aranda(参考訳) 我々は、崩壊モデルによる量子論の解釈の観点から、量子と古典的挙動の基本的な分割は熱力学相の分割と類似していると主張する。 崩壊パラメータ$(\lambda)$と崩壊長スケール$r_C$との特定の関係は、通常の熱力学相図における共存曲線の役割を担っている。 さらに、$\lambda$と$r_C$の間の機能的な関係は、既存のIGEXコラボレーションデータによって強く支持されています。 この結果は、自由ウェーブパケット力学に適用された量子測定理論とGhirardi-Rimini-Weber(GRW)モデルに関する自己完結した議論に先行している。

We argue, in light of Collapse Model interpretation of quantum theory, that the fundamental division between the quantum and classical behaviors is analogous to the division of thermodynamic phases. A specific relationship between the collapse parameter $(\lambda)$ and the collapse length scale ($r_C$) plays the role of the coexistence curve in usual thermodynamic phase diagrams. We further claim that our functional relationship between $\lambda$ and $r_C$ is strongly supported by the existing IGEX collaboration data. This result is preceded by a self-contained discussion of quantum measurement theory and the Ghirardi-Rimini-Weber (GRW) model applied to the free wavepacket dynamics.
翻訳日:2023-08-09 00:50:34 公開日:2023-08-06
# 抽象対話要約の分類:シナリオ,アプローチ,今後の方向性

Taxonomy of Abstractive Dialogue Summarization: Scenarios, Approaches and Future Directions ( http://arxiv.org/abs/2210.09894v2 )

ライセンス: Link先を確認
Qi Jia, Yizhu Liu, Siyu Ren, Kenny Q. Zhu(参考訳) 抽象的対話要約は、2つ以上の対話者間の対話において、健全な情報をカバーする簡潔で流動的な要約を生成する。 近年,ソーシャルコミュニケーションプラットフォームが大規模に出現し,効率的な対話情報理解と消化の緊急要件が求められていることから,注目を集めている。 従来の文書要約におけるニュースや記事とは違って、対話は異なる言語スタイルや形式、散在する情報、柔軟な談話構造、不明瞭な話題境界など、ユニークな特徴と追加の課題をもたらす。 本調査は,シナリオから評価へのアプローチまで,抽象対話要約のための既存の作業に関する包括的調査を提供する。 タスクを入力対話の種類、すなわちオープンドメインとタスク指向の2つのカテゴリに分類し、既存のテクニックの分類を3つの方向、すなわち対話機能の注入、補助的なトレーニングタスクの設計、追加データの使用に分類する。 その後、シナリオとテクニックの傾向を要約し、広範囲に活用された特徴と異なるシナリオの相関関係に関する深い洞察とともに述べる。 これらの分析に基づいて、より制御され複雑なシナリオ、技術的な革新と比較、特別なドメインで利用可能なデータセットなど、今後の方向性を推奨する。

Abstractive dialogue summarization is to generate a concise and fluent summary covering the salient information in a dialogue among two or more interlocutors. It has attracted great attention in recent years based on the massive emergence of social communication platforms and an urgent requirement for efficient dialogue information understanding and digestion. Different from news or articles in traditional document summarization, dialogues bring unique characteristics and additional challenges, including different language styles and formats, scattered information, flexible discourse structures and unclear topic boundaries. This survey provides a comprehensive investigation on existing work for abstractive dialogue summarization from scenarios, approaches to evaluations. It categorizes the task into two broad categories according to the type of input dialogues, i.e., open-domain and task-oriented, and presents a taxonomy of existing techniques in three directions, namely, injecting dialogue features, designing auxiliary training tasks and using additional data.A list of datasets under different scenarios and widely-accepted evaluation metrics are summarized for completeness. After that, the trends of scenarios and techniques are summarized, together with deep insights on correlations between extensively exploited features and different scenarios. Based on these analyses, we recommend future directions including more controlled and complicated scenarios, technical innovations and comparisons, publicly available datasets in special domains, etc.
翻訳日:2023-08-09 00:50:06 公開日:2023-08-06
# MotionDeltaCNN:移動カメラ映像におけるフレーム差のスパースCNN推論

MotionDeltaCNN: Sparse CNN Inference of Frame Differences in Moving Camera Videos ( http://arxiv.org/abs/2210.09887v4 )

ライセンス: Link先を確認
Mathias Parger, Chengcheng Tang, Thomas Neff, Christopher D. Twigg, Cem Keskin, Robert Wang, Markus Steinberger(参考訳) ビデオ入力における畳み込みニューラルネットワーク推論は計算コストが高く、高いメモリ帯域幅を必要とする。 最近、DeltaCNNは、前のフレームで大幅に更新されたピクセルのみを処理することで、コストを削減した。 しかし、DeltaCNNは静的カメラ入力に依存している。 移動カメラは、メモリオーバーヘッドを増大させることなく、将来のフレームのカメラ外在を知らずに、既に処理済みの領域を効率的に融合して更新率を最小化するための新しい課題を新たにもたらす。 本研究では,移動カメラをサポートするスパースCNN推論フレームワークであるMotionDeltaCNNを提案する。 球状バッファとパッド状畳み込みを導入し、メモリフットプリントを増大させることなく、新しく公開されたリージョンと前処理されたリージョンのシームレスな融合を可能にする。 評価の結果,動画の移動ではDeltaCNNを最大90%上回りました。

Convolutional neural network inference on video input is computationally expensive and requires high memory bandwidth. Recently, DeltaCNN managed to reduce the cost by only processing pixels with significant updates over the previous frame. However, DeltaCNN relies on static camera input. Moving cameras add new challenges in how to fuse newly unveiled image regions with already processed regions efficiently to minimize the update rate - without increasing memory overhead and without knowing the camera extrinsics of future frames. In this work, we propose MotionDeltaCNN, a sparse CNN inference framework that supports moving cameras. We introduce spherical buffers and padded convolutions to enable seamless fusion of newly unveiled regions and previously processed regions -- without increasing memory footprint. Our evaluation shows that we outperform DeltaCNN by up to 90% for moving camera videos.
翻訳日:2023-08-09 00:49:44 公開日:2023-08-06
# 高価なマルチモーダル関数における局所オプティマ探索のためのベイズ最適化フレームワーク

A Bayesian Optimization Framework for Finding Local Optima in Expensive Multi-Modal Functions ( http://arxiv.org/abs/2210.06635v2 )

ライセンス: Link先を確認
Yongsheng Mei, Tian Lan, Mahdi Imani, Suresh Subramaniam(参考訳) ベイズ最適化 (bayesian optimization, bo) は、高コスト関数評価領域におけるサンプル効率最適化のための一般的なグローバル最適化スキームである。 既存のbo技術は単一のグローバル最適解を見つけることができる。 しかし、様々な実用的制約(例えば、資源制限、物理的な制約など)のために最適解の実装が実現不可能な場合があるため、グローバルおよび局所最適解のセットを見つけることは、現実世界の幅広い問題において不可欠である。 このようなドメインでは、複数のソリューションが知られている場合、その実装を別のソリューションに素早く切り替えることができ、最良のシステム性能を得ることができる。 本稿では,マルチモーダル目的関数の局所解とグローバル解のセットを効果的に見つけるために,マルチモーダルboフレームワークを開発した。 目的関数を表すガウス過程回帰を用いた標準BO設定について検討する。 目的関数とその一階微分の結合分布を解析的に導出する。 この共同分布はBO取得関数の本体で最適化過程中の局所最適探索に使用される。 本稿では,よく知られたbo取得関数の変種をマルチモーダル設定に導入し,複数の最適化問題を用いた局所最適解集合の探索における提案フレームワークの性能を示す。

Bayesian optimization (BO) is a popular global optimization scheme for sample-efficient optimization in domains with expensive function evaluations. The existing BO techniques are capable of finding a single global optimum solution. However, finding a set of global and local optimum solutions is crucial in a wide range of real-world problems, as implementing some of the optimal solutions might not be feasible due to various practical restrictions (e.g., resource limitation, physical constraints, etc.). In such domains, if multiple solutions are known, the implementation can be quickly switched to another solution, and the best possible system performance can still be obtained. This paper develops a multimodal BO framework to effectively find a set of local/global solutions for expensive-to-evaluate multimodal objective functions. We consider the standard BO setting with Gaussian process regression representing the objective function. We analytically derive the joint distribution of the objective function and its first-order derivatives. This joint distribution is used in the body of the BO acquisition functions to search for local optima during the optimization process. We introduce variants of the well-known BO acquisition functions to the multimodal setting and demonstrate the performance of the proposed framework in locating a set of local optimum solutions using multiple optimization problems.
翻訳日:2023-08-09 00:49:29 公開日:2023-08-06
# データ拡張による物体検出のための不整合知識蒸留法の検討

Exploring Inconsistent Knowledge Distillation for Object Detection with Data Augmentation ( http://arxiv.org/abs/2209.09841v2 )

ライセンス: Link先を確認
Jiawei Liang, Siyuan Liang, Aishan Liu, Ke Ma, Jingzhi Li, Xiaochun Cao(参考訳) 物体検出のための知識蒸留(kd)は、教師モデルから知識を移し、コンパクトな検出器を訓練することを目的としている。 教師モデルは、人間とは異なる方法でデータを知覚するため、既存のKD法では、人間の知覚と一致しない知識を無視しながら、人間の専門家によって注釈付けされたラベルと整合した知識のみを蒸留する。 本稿では,教師モデルの直観に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(ikd)を提案する。 まず,教師モデルの周波数特徴と非ロバスト特徴の直観的認識について考察する。 細かな特徴を生かしたり、追加の正規化を導入する以前の作品とは異なり、データ拡張を用いて多様な入力を提供することで一貫性のない知識を抽出する。 具体的には,教師モデルの異なる周波数成分を捉える能力を伝達するサンプル特異的データ拡張法を提案し,教師モデルの非ロバスト特徴に対する知覚を抽出するための逆特徴拡張法を提案する。 大規模実験により, 1段, 2段, アンカーフリーの物体検出器(多くは1.0 mAP)において, 最先端KDベースラインを上回る性能を示した。 我々のコードは \url{https://github.com/JWLiang007/IKD.git} で利用可能になります。

Knowledge Distillation (KD) for object detection aims to train a compact detector by transferring knowledge from a teacher model. Since the teacher model perceives data in a way different from humans, existing KD methods only distill knowledge that is consistent with labels annotated by human expert while neglecting knowledge that is not consistent with human perception, which results in insufficient distillation and sub-optimal performance. In this paper, we propose inconsistent knowledge distillation (IKD), which aims to distill knowledge inherent in the teacher model's counter-intuitive perceptions. We start by considering the teacher model's counter-intuitive perceptions of frequency and non-robust features. Unlike previous works that exploit fine-grained features or introduce additional regularizations, we extract inconsistent knowledge by providing diverse input using data augmentation. Specifically, we propose a sample-specific data augmentation to transfer the teacher model's ability in capturing distinct frequency components and suggest an adversarial feature augmentation to extract the teacher model's perceptions of non-robust features in the data. Extensive experiments demonstrate the effectiveness of our method which outperforms state-of-the-art KD baselines on one-stage, two-stage and anchor-free object detectors (at most +1.0 mAP). Our codes will be made available at \url{https://github.com/JWLiang007/IKD.git}.
翻訳日:2023-08-09 00:47:14 公開日:2023-08-06
# プログラミングのための自然言語処理に関する調査

A Survey on Natural Language Processing for Programming ( http://arxiv.org/abs/2212.05773v2 )

ライセンス: Link先を確認
Qingfu Zhu, Xianzhen Luo, Fang Liu, Cuiyun Gao, Wanxiang Che(参考訳) 自然言語処理は、NLP技術を用いてプログラミングを支援することを目的としている。 生産性を向上させる効果がますます高まっている。 自然言語とは違い、プログラミング言語は高度に構造化され機能する。 構造に基づく表現と機能指向アルゴリズムの構築は、プログラムの理解と生成の核心にある。 本稿では,課題,データセット,評価手法,手法,モデルについて,構造的および機能的特性の観点から,各コンポーネントにおける2つの特性の役割を理解することを目的とした体系的レビューを行う。 分析の結果,未探索領域を示し,今後の課題の方向性を示唆する。

Natural language processing for programming aims to use NLP techniques to assist programming. It is increasingly prevalent for its effectiveness in improving productivity. Distinct from natural language, a programming language is highly structured and functional. Constructing a structure-based representation and a functionality-oriented algorithm is at the heart of program understanding and generation. In this paper, we conduct a systematic review covering tasks, datasets, evaluation methods, techniques, and models from the perspective of the structure-based and functionality-oriented property, aiming to understand the role of the two properties in each component. Based on the analysis, we illustrate unexplored areas and suggest potential directions for future work.
翻訳日:2023-08-09 00:28:02 公開日:2023-08-06
# 量子インターネット上のゼロ知識証明について

On Zero-Knowledge Proofs over the Quantum Internet ( http://arxiv.org/abs/2212.03027v6 )

ライセンス: Link先を確認
Mark Carney(参考訳) 本稿では,量子ID認証(QIA)プロトコルの新しい手法を提案する。 古典的なゼロ知識証明(ZKP)の論理は量子回路やアルゴリズムに適用される。 この斬新なアプローチは、証明者 $p$ が量子チャネルによって検証者 $v$ に送る前に量子状態にカプセル化することで秘密を証明できる正確な方法を与える。 これは離散対数問題の硬さから量子状態の推定の硬さへと移行することで達成される。 本稿では,これを実現する手法と,プロトコルのセキュリティに関するいくつかの限界について述べる。 量子インターネット」の出現が予想される中で、そのようなプロトコルやアイデアはすぐに現実の世界で実用性と実行をもたらすかもしれない。

This paper presents a new method for quantum identity authentication (QIA) protocols. The logic of classical zero-knowledge proofs (ZKPs) due to Schnorr is applied in quantum circuits and algorithms. This novel approach gives an exact way with which a prover $P$ can prove they know some secret by encapsulating it in a quantum state before sending to a verifier $V$ by means of a quantum channel - allowing for a ZKP wherein an eavesdropper or manipulation can be detected with a fail-safe design. This is achieved by moving away from the hardness of the Discrete Logarithm Problem towards the hardness of estimating quantum states. This paper presents a method with which this can be achieved and some bounds for the security of the protocol provided. With the anticipated advent of a `quantum internet', such protocols and ideas may soon have utility and execution in the real world.
翻訳日:2023-08-09 00:27:16 公開日:2023-08-06
# 位相シフトadversarial training

Phase-shifted Adversarial Training ( http://arxiv.org/abs/2301.04785v2 )

ライセンス: Link先を確認
Yeachan Kim, Seongyeon Kim, Ihyeok Seo, Bonggun Shin(参考訳) 敵のトレーニングは、ニューラルネットワークベースのアプリケーションを現実世界に安全にデプロイするための必須コンポーネントと考えられている。 強い堅牢性を達成するために、既存の手法は主に、更新ステップの数を増やし、スムーズな損失関数でモデルを正規化し、攻撃にランダム性を注入することで、強力な攻撃を生成する方法に焦点を当てている。 代わりに、反応周波数のレンズを通して、敵の訓練の挙動を分析する。 我々は,ニューラルネットワークが高頻度情報への収束度を低くし,各データ付近で高い振動の予測を行うことを示す。 高周波コンテンツを効率的に効果的に学習するために,まず周波数原理の普遍的な現象,すなわち,逆の訓練において依然として保持されていることを証明する。 そこで本研究では,これらの周波数を高速収束が起こる低周波域にシフトさせることで,高周波数成分を学習する位相シフト逆トレーニング(PhaseAT)を提案する。 評価のために,CIFAR-10 と ImageNet を用いて,信頼性評価のための適応攻撃を慎重に設計した実験を行った。 総合的な結果は、phaseatは高周波情報の収束を著しく改善していることを示している。 これにより、モデルが各データ付近でスムーズな予測を行えるようにすることで、対向ロバスト性が改善される。

Adversarial training has been considered an imperative component for safely deploying neural network-based applications to the real world. To achieve stronger robustness, existing methods primarily focus on how to generate strong attacks by increasing the number of update steps, regularizing the models with the smoothed loss function, and injecting the randomness into the attack. Instead, we analyze the behavior of adversarial training through the lens of response frequency. We empirically discover that adversarial training causes neural networks to have low convergence to high-frequency information, resulting in highly oscillated predictions near each data. To learn high-frequency contents efficiently and effectively, we first prove that a universal phenomenon of frequency principle, i.e., \textit{lower frequencies are learned first}, still holds in adversarial training. Based on that, we propose phase-shifted adversarial training (PhaseAT) in which the model learns high-frequency components by shifting these frequencies to the low-frequency range where the fast convergence occurs. For evaluations, we conduct the experiments on CIFAR-10 and ImageNet with the adaptive attack carefully designed for reliable evaluation. Comprehensive results show that PhaseAT significantly improves the convergence for high-frequency information. This results in improved adversarial robustness by enabling the model to have smoothed predictions near each data.
翻訳日:2023-08-09 00:21:03 公開日:2023-08-06
# グローバル位相追跡のない量子通信実験によるレートロス限界の克服

Experimental Quantum Communication Overcomes the Rate-loss Limit without Global Phase Tracking ( http://arxiv.org/abs/2212.14190v4 )

ライセンス: Link先を確認
Lai Zhou, Jinping Lin, Yuan-Mei Xie, Yu-Shuo Lu, Yumang Jing, Hua-Lei Yin, and Zhiliang Yuan(参考訳) 点点量子鍵分布(QKD)のセキュア鍵レート(SKR)は、基本的に速度損失制限によって拘束される。 ツインフィールド(TF) QKDの最近のブレークスルーは、この限界を克服し、長距離量子通信を可能にするが、その実装は複雑な大域的な位相追跡を必要とし、ノイズを付加するだけでなく、量子伝送の義務サイクルを減少させる強力な位相参照を必要とする。 本稿では,これらの欠点を解消し,非同期一致ペアリングによるリピータライクな通信を実現する,革新的かつ簡易な測定デバイス非依存qkdの実装により,tf-qkdよりもさらに高いskrを実現する。 413 km および 508 km 以上の光ファイバーにおいて、それぞれの絶対レート限界の 1.80 倍および 4.08 倍の 590.61 および 42.64 ビット/秒の有限サイズskr を達成する。 重要なことに、306kmのSKRは5kbit/sを超え、音声通信の1時間パッドのライブ暗号化に必要なビットレートを満たす。 我々の研究は、経済的かつ効率的な都市間量子セキュリティネットワークを前進させます。

Secure key rate (SKR) of point-point quantum key distribution (QKD) is fundamentally bounded by the rate-loss limit. Recent breakthrough of twin-field (TF) QKD can overcome this limit and enables long distance quantum communication, but its implementation necessitates complex global phase tracking and requires strong phase references which not only add to noise but also reduce the duty cycle for quantum transmission. Here, we resolve these shortcomings, and importantly achieve even higher SKRs than TF-QKD, via implementing an innovative but simpler measurement-device-independent QKD which realizes repeater-like communication through asynchronous coincidence pairing. Over 413 and 508 km optical fibers, we achieve finite-size SKRs of 590.61 and 42.64 bit/s, which are respectively 1.80 and 4.08 times of their corresponding absolute rate limits. Significantly, the SKR at 306 km exceeds 5 kbit/s and meets the bitrate requirement for live one-time-pad encryption of voice communication. Our work will bring forward economical and efficient intercity quantum-secure networks.
翻訳日:2023-08-09 00:19:40 公開日:2023-08-06
# 発振器の高次発振器への最適符号化

Optimal encoding of oscillators into more oscillators ( http://arxiv.org/abs/2212.11970v3 )

ライセンス: Link先を確認
Jing Wu, Anthony J. Brady and Quntao Zhuang(参考訳) 量子情報の調和振動子へのボソニック符号化は、バトルノイズに対するハードウェア効率の良いアプローチである。 この点において、発振器-オシレータ符号はボソニック符号化における追加の機会を提供するだけでなく、量子センシングや通信においてユビキタスな連続可変状態への誤り訂正の適用性も拡張する。 本研究では,同種雑音に対するゴッテマン・キタエフ・プレススキル(GKP)-スタビライザー符号の一般家系間で最適な発振器・オシレータ符号を導出する。 任意のGKP安定化コードを一般化GKP2モードスケザリング(TMS)コードに還元できることを示す。 幾何平均誤差を最小限に抑える最適符号化は、最適化されたGKP格子とTMSゲインを持つGKP-TMS符号から構築することができる。 単一モードデータやアンシラに対しては,この最適符号設計問題を効率よく解くことができ,また,六角形GKP格子が従来採用されていた2乗格子よりも最適かつ厳密であることを示す数値的証拠も提供する。 マルチモードの場合、一般的なGKP格子最適化は困難である。 2モードデータとアンシラケースでは、d4格子(4次元密充填格子)を低次元格子の積よりも優れていると同定する。 副産物として, アンシラがGKP状態でない場合でも, ガウス符号に基づく任意の発振器-オシレータ符号に対する普遍的非閾値定理を証明できる。

Bosonic encoding of quantum information into harmonic oscillators is a hardware efficient approach to battle noise. In this regard, oscillator-to-oscillator codes not only provide an additional opportunity in bosonic encoding, but also extend the applicability of error correction to continuous-variable states ubiquitous in quantum sensing and communication. In this work, we derive the optimal oscillator-to-oscillator codes among the general family of Gottesman-Kitaev-Preskill (GKP)-stablizer codes for homogeneous noise. We prove that an arbitrary GKP-stabilizer code can be reduced to a generalized GKP two-mode-squeezing (TMS) code. The optimal encoding to minimize the geometric mean error can be constructed from GKP-TMS codes with an optimized GKP lattice and TMS gains. For single-mode data and ancilla, this optimal code design problem can be efficiently solved, and we further provide numerical evidence that a hexagonal GKP lattice is optimal and strictly better than the previously adopted square lattice. For the multimode case, general GKP lattice optimization is challenging. In the two-mode data and ancilla case, we identify the D4 lattice -- a 4-dimensional dense-packing lattice -- to be superior to a product of lower dimensional lattices. As a by-product, the code reduction allows us to prove a universal no-threshold-theorem for arbitrary oscillators-to-oscillators codes based on Gaussian encoding, even when the ancilla are not GKP states.
翻訳日:2023-08-09 00:18:50 公開日:2023-08-06
# 固定周波数トランスモンカプラを用いた超伝導量子ビットの全マイクロ波操作

All-microwave manipulation of superconducting qubits with a fixed-frequency transmon coupler ( http://arxiv.org/abs/2302.06930v3 )

ライセンス: Link先を確認
Shotaro Shirai, Yuta Okubo, Kohei Matsuura, Alto Osada, Yasunobu Nakamura, Atsushi Noguchi(参考訳) 固定周波数超伝導量子コンピューティング回路の全マイクロ波制御は、ノイズチャネルと配線コストを最小化するのに有利である。 本稿では,マイクロ波駆動下での2つのデータトランスモン間のスワップ相互作用について紹介する。 相互作用を解析的および数値的にモデル化し、全マイクロ波制御Zゲートの実装に使用する。 カプラアシストスワップ遷移に基づくゲートは、データトランスモン間の広範囲なデチューニングにおいて、高い駆動効率と小さな残差相互作用を維持する。

All-microwave control of fixed-frequency superconducting quantum computing circuits is advantageous for minimizing the noise channels and wiring costs. Here we introduce a swap interaction between two data transmons assisted by the third-order nonlinearity of a coupler transmon under a microwave drive. We model the interaction analytically and numerically and use it to implement an all-microwave controlled-Z gate. The gate based on the coupler-assisted swap transition maintains high drive efficiency and small residual interaction over a wide range of detuning between the data transmons.
翻訳日:2023-08-09 00:09:34 公開日:2023-08-06
# オンライン誤報ビデオの会話:特徴,検出,今後の方向性

Combating Online Misinformation Videos: Characterization, Detection, and Future Directions ( http://arxiv.org/abs/2302.03242v3 )

ライセンス: Link先を確認
Yuyan Bu, Qiang Sheng, Juan Cao, Peng Qi, Danding Wang, Jintao Li(参考訳) オンラインビデオストリーミングによる情報消費がますます高まる中、誤った情報ビデオはオンライン情報エコシステムの健康に新たな脅威をもたらす。 これまでの研究は、テキストと画像のフォーマットにおける誤情報の検出に多大な進歩を遂げてきたが、ビデオベースの誤情報は、自動検出システムに新しいユニークな課題をもたらす。 1) 各種モダリティがもたらす高情報不均一性 2)誤解を招く映像操作と非悪意的な芸術的映像編集の区別の曖昧化 3) オンラインビデオプラットフォームにおけるレコメンデーションシステムの役割により, 誤情報伝播の新たなパターンが出現した。 本研究は,この課題の研究を促進するために,誤報映像検出の進歩を示すための調査である。 まず、信号、意味、意図を含む3つのレベルから誤情報映像を分析し、特徴付ける。 特徴量に基づいて,様々なモダリティの特徴から手がかり統合の手法まで,既存の手法を体系的に検討する。 また、代表的データセットや有用なツールを含む既存のリソースも導入します。 既存の研究の要約に加えて、関連分野を議論し、オープンな課題と今後の方向性を概説し、誤情報検出に関するさらなる研究を奨励し、指導する。 対応するリポジトリはhttps://github.com/ICTMCG/Awesome-Misinfo-Video-Detectionにある。

With information consumption via online video streaming becoming increasingly popular, misinformation video poses a new threat to the health of the online information ecosystem. Though previous studies have made much progress in detecting misinformation in text and image formats, video-based misinformation brings new and unique challenges to automatic detection systems: 1) high information heterogeneity brought by various modalities, 2) blurred distinction between misleading video manipulation and nonmalicious artistic video editing, and 3) new patterns of misinformation propagation due to the dominant role of recommendation systems on online video platforms. To facilitate research on this challenging task, we conduct this survey to present advances in misinformation video detection. We first analyze and characterize the misinformation video from three levels including signals, semantics, and intents. Based on the characterization, we systematically review existing works for detection from features of various modalities to techniques for clue integration. We also introduce existing resources including representative datasets and useful tools. Besides summarizing existing studies, we discuss related areas and outline open issues and future directions to encourage and guide more research on misinformation video detection. The corresponding repository is at https://github.com/ICTMCG/Awesome-Misinfo-Video-Detection.
翻訳日:2023-08-09 00:09:26 公開日:2023-08-06
# a golden age:共謀説と偽情報、ニュースメディア、そしてより広いインターネットの関係

A Golden Age: Conspiracy Theories' Relationship with Misinformation Outlets, News Media, and the Wider Internet ( http://arxiv.org/abs/2301.10880v3 )

ライセンス: Link先を確認
Hans W. A. Hanley, Deepak Kumar, Zakir Durumeric(参考訳) 我々は「陰謀論の黄金時代」に生きているのか? 過去数十年間、陰謀説はインターネット上で広まり、現実世界では危険な結果をもたらしている。 1月6日の米国議会議事堂攻撃に参加した人々の多くは、QAnon陰謀説を熱心に信じていた。 本研究では,5つの有名な陰謀論(QAnon, COVID, UFO/Aliens, 9/11, Flat-Earth)と,それぞれのメディアとの関係について検討する。 5つの陰謀論を専門とする755の異なる陰謀論のwebサイトを同定し、公開することで、それぞれのセットが同じ外部ドメインにハイパーリンクされることが少なく、covid-19とqanon陰謀論のwebサイトが共有接続の量が最も多いことが分かりました。 ニュースメディアの役割を見てみると、私たちの陰謀論のウェブサイトに誤報のハイパーリンクを広めることで知られるメディアが、2018年から2021年にかけて、QAnonの出現と新型コロナウイルスのパンデミックの開始によって、そのハイパーリンクが劇的に増加したことも分かる。 誤報サイトからのハイパーリンクと陰謀論Webサイトの人気との間には,いくつかの肯定的な相関関係が発見され,誤報ニュースメディアが陰謀論の普及に果たす重要な役割が示唆された。

Do we live in a "Golden Age of Conspiracy Theories?" In the last few decades, conspiracy theories have proliferated on the Internet with some having dangerous real-world consequences. A large contingent of those who participated in the January 6th attack on the US Capitol fervently believed in the QAnon conspiracy theory. In this work, we study the relationships amongst five prominent conspiracy theories (QAnon, COVID, UFO/Aliens, 9/11, and Flat-Earth) and each of their respective relationships to the news media, both authentic news and misinformation. Identifying and publishing a set of 755 different conspiracy theory websites dedicated to our five conspiracy theories, we find that each set often hyperlinks to the same external domains, with COVID and QAnon conspiracy theory websites having the largest amount of shared connections. Examining the role of news media, we further find that not only do outlets known for spreading misinformation hyperlink to our set of conspiracy theory websites more often than authentic news websites but also that this hyperlinking increased dramatically between 2018 and 2021, with the advent of QAnon and the start of COVID-19 pandemic. Using partial Granger-causality, we uncover several positive correlative relationships between the hyperlinks from misinformation websites and the popularity of conspiracy theory websites, suggesting the prominent role that misinformation news outlets play in popularizing many conspiracy theories.
翻訳日:2023-08-09 00:08:21 公開日:2023-08-06
# 構造化雑音によるニューラルネットワークの学習は分類と一般化を改善する

Training neural networks with structured noise improves classification and generalization ( http://arxiv.org/abs/2302.13417v3 )

ライセンス: Link先を確認
Marco Benedetti and Enrico Ventura(参考訳) 学習におけるノイズの有益な役割は、今日では、ニューラルネットワークの分野における統合概念であり、生物学的システムでさえ、その性能を最大化するために同様のメカニズムを利用する可能性があることを示唆している。 ガードナーと共同研究者によって提案されたトレーニング・ウィズ・ノイズアルゴリズムは、リカレントネットワークにおけるノイズ注入手順の象徴的な例である。 ノイズの多いトレーニングデータに構造を加えることでアルゴリズムの性能が大幅に向上し、完全な分類とアトラクションの最大範囲にアプローチできることを示す。 また、ノイズが最大でデータがネットワークダイナミクスの不動点である場合には、いわゆるヘビーアンラーニングルールがトレーニング・アズ・ノイズアルゴリズムと一致することも証明する。 最適な雑音データに対するサンプリング方式が提案され、トレーニング・アズ・ノイズ法とヒュービアン・アンラーニング法の両方を上回るように実装された。

The beneficial role of noise in learning is nowadays a consolidated concept in the field of artificial neural networks, suggesting that even biological systems might take advantage of similar mechanisms to maximize their performance. The training-with-noise algorithm proposed by Gardner and collaborators is an emblematic example of a noise injection procedure in recurrent networks, which are usually employed to model real neural systems. We show how adding structure into noisy training data can substantially improve the algorithm performance, allowing to approach perfect classification and maximal basins of attraction. We also prove that the so-called Hebbian unlearning rule coincides with the training-with-noise algorithm when noise is maximal and data are fixed points of the network dynamics. A sampling scheme for optimal noisy data is eventually proposed and implemented to outperform both the training-with-noise and the Hebbian unlearning procedures.
翻訳日:2023-08-09 00:01:22 公開日:2023-08-06
# ASSET: 深層学習パラダイムの多重性にまたがるロバストなバックドアデータ検出

ASSET: Robust Backdoor Data Detection Across a Multiplicity of Deep Learning Paradigms ( http://arxiv.org/abs/2302.11408v2 )

ライセンス: Link先を確認
Minzhou Pan, Yi Zeng, Lingjuan Lyu, Xue Lin and Ruoxi Jia(参考訳) バックドアデータ検出は、エンドツーエンドの教師あり学習(SL)設定で伝統的に研究されている。 しかし近年,ラベル付きデータの必要性の低さから,自己教師付き学習(SSL)や転送学習(TL)の普及が進んでいる。 これらの新しい設定でバックドア攻撃が成功したことも実証されている。 しかし,様々な学習環境において,既存の検出手法の適用性は十分に理解されていない。 56の攻撃条件を評価することにより,既存の検出手法の性能は異なる攻撃と毒素比で大きく異なり,すべて最先端のクリーンラベル攻撃で失敗することを示す。 さらに、SSLとTLに適用されると、それらは適用不能になるか、大きなパフォーマンス損失を被る。 本稿では,バックドアとクリーンサンプル間の異なるモデル挙動を積極的に誘導し,分離を促進するアクティブ分離(asset)と呼ばれる新しい検出法を提案する。 また,削除すべき不審点数を適応的に選択する手順も提供する。 エンド・ツー・エンドのSL設定において、ASSETは様々な攻撃に対する防御性能の整合性と毒性比の変化に対する堅牢性の点で既存の方法よりも優れており、特に最先端のクリーンラベル攻撃を検出する方法として唯一である。 さらに、アセットの平均検出率はsslとtlの既存の最良の方法よりも69.3%高く33.2%高く、これらの新しいdl設定に対する最初の実用的なバックドア防御を提供する。 我々はこのプロジェクトをオープンソース化し、さらなる開発とエンゲージメントを促進する。

Backdoor data detection is traditionally studied in an end-to-end supervised learning (SL) setting. However, recent years have seen the proliferating adoption of self-supervised learning (SSL) and transfer learning (TL), due to their lesser need for labeled data. Successful backdoor attacks have also been demonstrated in these new settings. However, we lack a thorough understanding of the applicability of existing detection methods across a variety of learning settings. By evaluating 56 attack settings, we show that the performance of most existing detection methods varies significantly across different attacks and poison ratios, and all fail on the state-of-the-art clean-label attack. In addition, they either become inapplicable or suffer large performance losses when applied to SSL and TL. We propose a new detection method called Active Separation via Offset (ASSET), which actively induces different model behaviors between the backdoor and clean samples to promote their separation. We also provide procedures to adaptively select the number of suspicious points to remove. In the end-to-end SL setting, ASSET is superior to existing methods in terms of consistency of defensive performance across different attacks and robustness to changes in poison ratios; in particular, it is the only method that can detect the state-of-the-art clean-label attack. Moreover, ASSET's average detection rates are higher than the best existing methods in SSL and TL, respectively, by 69.3% and 33.2%, thus providing the first practical backdoor defense for these new DL settings. We open-source the project to drive further development and encourage engagement: https://github.com/ruoxi-jia-group/ASSET.
翻訳日:2023-08-08 23:59:48 公開日:2023-08-06
# 接近位相における小体回転状態の視覚に基づく推定

Vision-Based Estimation of Small Body Rotational State during the Approach Phase ( http://arxiv.org/abs/2302.11364v2 )

ライセンス: Link先を確認
Paolo Panicucci, J\'er\'emy Lebreton, Roland Brochard, Emmanuel Zenou, and Michel Delpech(参考訳) 小天体集団の多様性は、宇宙船の到着前に小天体特性の予測を複雑にする。 自律小天体探査の文脈では、軌道挿入と近接操作の前に小天体特性を推定するアルゴリズムを開発することが重要である。 本稿では,接近位相における小体回転状態(すなわち回転中心と回転軸方向)の視覚に基づく推定法について述べる。 このミッションでは、宇宙船は回転する天体を観測し、画像の特徴を追跡する。 特徴トラックがランドマークの円運動の投影であるので、可能な回転軸が計算される。 そして、特徴運動とヒューリスティックアプローチを利用して、可能な候補の中から回転軸解を選択する。 最後に、回転の中心は明るさの中心から推定される。 このアルゴリズムは、2つの異なる小惑星(ベンヌと伊藤川)と3つの異なる照明条件、100以上の異なる回転軸方向を持つ800以上の試験ケースで試験される。 それぞれのテストケースは、特徴を追跡し、回転状態を決定するために使用される小惑星の約250の合成画像で構成されている。 その結果、真の回転軸とその推定値の誤差は、考慮されたテストケースのうち10^{\circ}$ 以下であり、提案アルゴリズムが自律小体キャラクタリゼーションに適した方法であることが示唆された。

The heterogeneity of the small body population complicates the prediction of small body properties before the spacecraft's arrival. In the context of autonomous small body exploration, it is crucial to develop algorithms that estimate the small body characteristics before orbit insertion and close proximity operations. This paper develops a vision-based estimation of the small-body rotational state (i.e., the center of rotation and rotation axis direction) during the approach phase. In this mission phase, the spacecraft observes the rotating celestial body and tracks features in images. As feature tracks are the projection of the landmarks' circular movement, the possible rotation axes are computed. Then, the rotation axis solution is chosen among the possible candidates by exploiting feature motion and a heuristic approach. Finally, the center of rotation is estimated from the center of brightness. The algorithm is tested on more than 800 test cases with two different asteroids (i.e., Bennu and Itokawa), three different lighting conditions, and more than 100 different rotation axis orientations. Each test case is composed of about 250 synthetic images of the asteroid which are used to track features and determine the rotational state. Results show that the error between the true rotation axis and its estimation is below $10^{\circ}$ for $80\%$ of the considered test cases, implying that the proposed algorithm is a suitable method for autonomous small body characterization.
翻訳日:2023-08-08 23:59:08 公開日:2023-08-06
# EC-SfM:逐次画像と非順序画像の両方の効率的なコビジュアビリティに基づく構造制御

EC-SfM: Efficient Covisibility-based Structure-from-Motion for Both Sequential and Unordered Images ( http://arxiv.org/abs/2302.10544v2 )

ライセンス: Link先を確認
Zhichao Ye, Chong Bao, Xin Zhou, Haomin Liu, Hujun Bao, Guofeng Zhang(参考訳) Structure-from-Motionは画像収集によってシーン構造を得る技術であり、コンピュータビジョンの根本的な問題である。 順序のないインターネット画像の場合、SfMは画像の重複に関する事前知識がないため、非常に遅い。 シーケンシャルな画像の場合、隣接するフレーム間の大きな重複を知って、SfMはシーケンシャルなデータにのみ適用可能な様々な加速度戦略を採用することができる。 本稿では, この2種類のデータ間の戦略ギャップを解消し, 再構築効率をさらに向上するために, 効率的な可視性に基づく漸進SfMを提案する。 従来の手法と異なり,任意の種類のデータに適した画像接続を記述するために,可視性と登録依存性を利用する。 この一般的な画像接続に基づいて,シーケンシャル画像,無順序画像,これら2つの混合画像を効率的に再構成するための統一フレームワークを提案する。 非順序画像と混合データを用いた実験により,提案手法の有効性が検証された。これは特徴マッチングの手法の3倍の精度で,精度を犠牲にすることなく再現の精度が大幅に向上する。 ソースコードはhttps://github.com/openxrlab/xrsfmで公開されている。

Structure-from-Motion is a technology used to obtain scene structure through image collection, which is a fundamental problem in computer vision. For unordered Internet images, SfM is very slow due to the lack of prior knowledge about image overlap. For sequential images, knowing the large overlap between adjacent frames, SfM can adopt a variety of acceleration strategies, which are only applicable to sequential data. To further improve the reconstruction efficiency and break the gap of strategies between these two kinds of data, this paper presents an efficient covisibility-based incremental SfM. Different from previous methods, we exploit covisibility and registration dependency to describe the image connection which is suitable to any kind of data. Based on this general image connection, we propose a unified framework to efficiently reconstruct sequential images, unordered images, and the mixture of these two. Experiments on the unordered images and mixed data verify the effectiveness of the proposed method, which is three times faster than the state of the art on feature matching, and an order of magnitude faster on reconstruction without sacrificing the accuracy. The source code is publicly available at https://github.com/openxrlab/xrsfm
翻訳日:2023-08-08 23:58:46 公開日:2023-08-06
# 感度パラメータとプロキシによるベネフィットとハームの確率のバウンディング

Bounding the Probabilities of Benefit and Harm Through Sensitivity Parameters and Proxies ( http://arxiv.org/abs/2303.05396v3 )

ライセンス: Link先を確認
Jose M. Pe\~na(参考訳) 本研究では,未測定条件下での利益と害の確率を限定する2つの方法を提案する。 第1の方法は、観測されたデータ分布の関数としての任意の確率の(上または下)境界と、2つの直感的な感度パラメータを計算し、それをアナリストに2次元プロットとして提示して意思決定を支援する。 第2の方法は、測定された非微分的代理人(すなわち直接効果)の存在を仮定する。 このプロキシを使うことで、既存のものよりも厳密な境界は、単に観測されたデータ分布から導き出すことができる。

We present two methods for bounding the probabilities of benefit and harm under unmeasured confounding. The first method computes the (upper or lower) bound of either probability as a function of the observed data distribution and two intuitive sensitivity parameters which, then, can be presented to the analyst as a 2-D plot to assist her in decision making. The second method assumes the existence of a measured nondifferential proxy (i.e., direct effect) of the unmeasured confounder. Using this proxy, tighter bounds than the existing ones can be derived from just the observed data distribution.
翻訳日:2023-08-08 23:50:44 公開日:2023-08-06
# GOATS:カリキュラム強化学習によるスクーピングのためのゴールサンプリング適応

GOATS: Goal Sampling Adaptation for Scooping with Curriculum Reinforcement Learning ( http://arxiv.org/abs/2303.05193v3 )

ライセンス: Link先を確認
Yaru Niu, Shiyu Jin, Zeqing Zhang, Jiacheng Zhu, Ding Zhao, Liangjun Zhang(参考訳) 本研究では,まず,目標条件付き強化学習を用いてロボットウォータースクーピングの問題を定式化する。 この課題は流体の複雑なダイナミクスとマルチモーダル目標を達成する必要性のために特に困難である。 この政策は、位置目標と水量目標の両方をうまく達成するために必要であり、大きな畳み込み目標状態空間に繋がる。 これらの課題を克服するために,ロボットスクープタスクの効果的かつ汎用的な方針を学習可能なカリキュラム強化学習手法であるgoats(goats)の目標サンプリング適応を提案する。 具体的には,ゴール分解報酬の定式化と位置目標分布と量目標分布を補間し,学習過程を通してカリキュラムを作成する。 その結果,提案手法はシミュレーションのベースラインを上回ることができ,ボウルスクーピングとバケットスクーピング作業において,タンク内の初期水状態の1000種類以下で5.46%,8.71%の誤差が達成できた。 本手法は,シミュレーション環境において有効であるだけでなく,様々な物理構成と未認識設定のノイズの多い実ロボット水冷シナリオに効率的に適応し,優れた有効性と汎用性を示す。 この作業のビデオはプロジェクトのページで公開されている。

In this work, we first formulate the problem of robotic water scooping using goal-conditioned reinforcement learning. This task is particularly challenging due to the complex dynamics of fluid and the need to achieve multi-modal goals. The policy is required to successfully reach both position goals and water amount goals, which leads to a large convoluted goal state space. To overcome these challenges, we introduce Goal Sampling Adaptation for Scooping (GOATS), a curriculum reinforcement learning method that can learn an effective and generalizable policy for robot scooping tasks. Specifically, we use a goal-factorized reward formulation and interpolate position goal distributions and amount goal distributions to create curriculum throughout the learning process. As a result, our proposed method can outperform the baselines in simulation and achieves 5.46% and 8.71% amount errors on bowl scooping and bucket scooping tasks, respectively, under 1000 variations of initial water states in the tank and a large goal state space. Besides being effective in simulation environments, our method can efficiently adapt to noisy real-robot water-scooping scenarios with diverse physical configurations and unseen settings, demonstrating superior efficacy and generalizability. The videos of this work are available on our project page: https://sites.google.com/view/goatscooping.
翻訳日:2023-08-08 23:50:30 公開日:2023-08-06
# dronerf: ニューラルネットワークの放射能場計算のためのリアルタイムマルチエージェントドローンポーズ最適化

DroNeRF: Real-time Multi-agent Drone Pose Optimization for Computing Neural Radiance Fields ( http://arxiv.org/abs/2303.04322v2 )

ライセンス: Link先を確認
Dipam Patel and Phu Pham and Aniket Bera(参考訳) 本論文では,物体まわりの単眼カメラドローンの自律位置決めのためのdronerfと呼ばれる新しい最適化アルゴリズムを提案する。 Neural Radiance Fields(NeRF)は、入力画像の集合からオブジェクトやシーンの新しいビューを生成するために使用される新しいビュー合成技術である。 ドローンをNeRFと組み合わせることで、シーンの新しいビューを生成するユニークなダイナミックな方法、特に制限された動きの限られたシーン能力を提供する。 提案手法は,物体形状にのみ依存しながら,個別のドローンに対する最適姿勢の算出に焦点をあてる。 データ収集フェーズにおけるユニークなカメラ位置決めは、3dモデルの品質に大きく影響する。 生成した新しいビューの品質を評価するために,ピーク信号対雑音比 (PSNR) や構造類似度指数測定 (SSIM) などの異なる知覚指標を計算した。 われわれの研究は、機動性に制限のある様々なドローンを最適に配置することで、知覚的により良い結果を生み出す利点を実証している。

We present a novel optimization algorithm called DroNeRF for the autonomous positioning of monocular camera drones around an object for real-time 3D reconstruction using only a few images. Neural Radiance Fields or NeRF, is a novel view synthesis technique used to generate new views of an object or scene from a set of input images. Using drones in conjunction with NeRF provides a unique and dynamic way to generate novel views of a scene, especially with limited scene capabilities of restricted movements. Our approach focuses on calculating optimized pose for individual drones while solely depending on the object geometry without using any external localization system. The unique camera positioning during the data-capturing phase significantly impacts the quality of the 3D model. To evaluate the quality of our generated novel views, we compute different perceptual metrics like the Peak Signal-to-Noise Ratio (PSNR) and Structural Similarity Index Measure(SSIM). Our work demonstrates the benefit of using an optimal placement of various drones with limited mobility to generate perceptually better results.
翻訳日:2023-08-08 23:50:06 公開日:2023-08-06
# SG-LSTM:Dense CrowdsによるロボットナビゲーションのためのソーシャルグループLSTM

SG-LSTM: Social Group LSTM for Robot Navigation Through Dense Crowds ( http://arxiv.org/abs/2303.04320v2 )

ライセンス: Link先を確認
Rashmi Bhaskara and Maurice Chiu and Aniket Bera(参考訳) 個人用ロボットの可用性と手頃さが増す中で、ロボットはもはや大企業の倉庫や工場に限らず、より制御の少ない環境で大規模集団と共に運用されることが期待されている。 安全性と効率の確保に加えて、ロボットが人間に与えるネガティブな心理的影響を最小限に抑え、これらの状況における無書きの社会的規範に従うことが不可欠である。 本研究の目的は,混雑した環境下での歩行者や知覚社会的グループの動きを予測できるモデルを開発することである。 社会的に認識されたLSTMを用いて、密集環境における人間グループと相互作用をモデル化し、より正確な軌道予測を行うソーシャルグループ長短期記憶(SG-LSTM)モデルを提案する。 本手法は,混雑した環境において,衝突のない経路を高速かつ正確に計算する。 さらに、より広いソーシャルナビゲーションコミュニティのために、ラベル付き歩行者グループによる大規模なビデオデータセットもリリースしました。 異なるデータセット(ETH, Hotel, MOT15)と異なる予測手法(LIN, LSTM, O-LSTM, S-LSTM)とランタイム性能の比較を行った。

With the increasing availability and affordability of personal robots, they will no longer be confined to large corporate warehouses or factories but will instead be expected to operate in less controlled environments alongside larger groups of people. In addition to ensuring safety and efficiency, it is crucial to minimize any negative psychological impact robots may have on humans and follow unwritten social norms in these situations. Our research aims to develop a model that can predict the movements of pedestrians and perceptually-social groups in crowded environments. We introduce a new Social Group Long Short-term Memory (SG-LSTM) model that models human groups and interactions in dense environments using a socially-aware LSTM to produce more accurate trajectory predictions. Our approach enables navigation algorithms to calculate collision-free paths faster and more accurately in crowded environments. Additionally, we also release a large video dataset with labeled pedestrian groups for the broader social navigation community. We show comparisons with different metrics on different datasets (ETH, Hotel, MOT15) and different prediction approaches (LIN, LSTM, O-LSTM, S-LSTM) as well as runtime performance.
翻訳日:2023-08-08 23:49:45 公開日:2023-08-06
# プレーントランスを実世界のクラウドに適用する

Applying Plain Transformers to Real-World Point Clouds ( http://arxiv.org/abs/2303.00086v3 )

ライセンス: Link先を確認
Lanxiao Li, Michael Heizmann(参考訳) トランスフォーマーベースのモデルをクラウド理解に向けるために、多くの過去の研究は、例えばローカルアテンションやダウンサンプリングを使ってトランスフォーマーのアーキテクチャを変更する。 彼らは有望な結果を得たが、ポイントクラウドのトランスフォーマーに関する初期の研究には2つの問題がある。 第一に、変圧器のパワーはまだ未探索である。 第二に、複雑な現実世界のクラウドではなく、シンプルで小さなクラウドに焦点を当てている。 この研究は、現実世界のクラウド理解におけるプレーントランスフォーマーを再考する。 まず、効率と性能の両面で、パッチファイヤや位置埋め込みなど、プレーントランスフォーマーの基本的なコンポーネントをいくつか詳しく見てみましょう。 帰納バイアスや注釈付きデータの欠如によるパフォーマンスギャップを解消するため,マスク付きオートエンコーダ(MAE)を用いた自己教師付き事前学習について検討した。 具体的には,情報漏洩を防止し,MAEの有効性を大幅に改善するドロップパッチを提案する。 我々のモデルは,S3DISデータセットのセマンティックセグメンテーションとScanNetデータセットのオブジェクト検出において,計算コストの低いSOTA結果を実現する。 我々の研究は、ポイントクラウドのためのトランスフォーマーの研究のための新しいベースラインを提供する。

To apply transformer-based models to point cloud understanding, many previous works modify the architecture of transformers by using, e.g., local attention and down-sampling. Although they have achieved promising results, earlier works on transformers for point clouds have two issues. First, the power of plain transformers is still under-explored. Second, they focus on simple and small point clouds instead of complex real-world ones. This work revisits the plain transformers in real-world point cloud understanding. We first take a closer look at some fundamental components of plain transformers, e.g., patchifier and positional embedding, for both efficiency and performance. To close the performance gap due to the lack of inductive bias and annotated data, we investigate self-supervised pre-training with masked autoencoder (MAE). Specifically, we propose drop patch, which prevents information leakage and significantly improves the effectiveness of MAE. Our models achieve SOTA results in semantic segmentation on the S3DIS dataset and object detection on the ScanNet dataset with lower computational costs. Our work provides a new baseline for future research on transformers for point clouds.
翻訳日:2023-08-08 23:47:54 公開日:2023-08-06
# 情報獲得にインセンティブを与える学習:主エージェントモデルに適合する適切なスコアリングルール

Learning to Incentivize Information Acquisition: Proper Scoring Rules Meet Principal-Agent Model ( http://arxiv.org/abs/2303.08613v2 )

ライセンス: Link先を確認
Siyu Chen, Jibang Wu, Yifan Wu, Zhuoran Yang(参考訳) そこで本研究では,校長がエージェントを雇って情報収集を行うインセンティブ化情報取得問題について検討する。 このような問題は、プリンシパルとエージェントの間のスタックルバーグゲームとしてモデル化され、プリンシパルは支払いを規定するスコアリングルールを宣言し、次にエージェントは自身の利益を最大化し、情報を報告する努力レベルを選択する。 我々は,このような問題のオンライン設定をプリンシパルの観点から検討し,戦略エージェントと繰り返し対話することで最適なスコアリングルールを設計する。 我々は、ucbアルゴリズム(auer et al., 2002)をモデルに合わせた、実証可能なサンプル効率的なアルゴリズムを設計し、t$イテレーション後にサブリニア$t^{2/3}$-regretを達成する。 本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。 さらに、私たちの後悔の限界の重要な特徴は、それが環境の状態の数から独立していることです。

We study the incentivized information acquisition problem, where a principal hires an agent to gather information on her behalf. Such a problem is modeled as a Stackelberg game between the principal and the agent, where the principal announces a scoring rule that specifies the payment, and then the agent then chooses an effort level that maximizes her own profit and reports the information. We study the online setting of such a problem from the principal's perspective, i.e., designing the optimal scoring rule by repeatedly interacting with the strategic agent. We design a provably sample efficient algorithm that tailors the UCB algorithm (Auer et al., 2002) to our model, which achieves a sublinear $T^{2/3}$-regret after $T$ iterations. Our algorithm features a delicate estimation procedure for the optimal profit of the principal, and a conservative correction scheme that ensures the desired agent's actions are incentivized. Furthermore, a key feature of our regret bound is that it is independent of the number of states of the environment.
翻訳日:2023-08-08 23:39:00 公開日:2023-08-06
# MAHALO:観察からオフライン強化学習と模倣学習を統合する

MAHALO: Unifying Offline Reinforcement Learning and Imitation Learning from Observations ( http://arxiv.org/abs/2303.17156v2 )

ライセンス: Link先を確認
Anqi Li, Byron Boots, Ching-An Cheng(参考訳) 我々は、観測からオフラインポリシー学習(PLfO)と呼ばれる、シーケンシャルな意思決定のための新しいパラダイムについて研究する。 オフラインplfoは、準標準品質のデータセットを使ってポリシーを学ぶことを目指している。 1) トラジェクトリーのサブセットにのみ報酬が付与される。 2) ラベル付き軌道は,動作を含まない。 3)ラベル付き軌道は高品質でない場合がある。 4) データが完全なカバレッジを持っていない場合。 オフラインplfoには、オフライン模倣学習(il)、観察からのオフラインil(ilfo)、オフライン強化学習(rl)など、既存の多くのオフライン学習設定が含まれている。 本稿では、オフラインPLfOに対する一般的なアプローチとして、$\textbf{M}$odality-agnostic $\textbf{A}$dversarial $\textbf{H}$ypothesis $\textbf{A}$daptation for $\textbf{L}$earning from $\textbf{O}$bservation (MAHALO)を提案する。 オフラインrlの悲観主義の概念に基づいて構築されたmahaloは、データセットのカバレッジ不足による不確実性を考慮したパフォーマンスローダバウンダを使用して、ポリシーを最適化する。 我々は、データ一貫性のある批評家と報酬関数を敵対的に訓練することで、この考え方を実装し、学習したポリシーをデータ不足に対して堅牢にすることを強いられる。 理論と実験において,MAHALOは様々なオフラインPLfOタスクにおいて,アルゴリズムの性能を一貫して上回るか,あるいは一致していることを示す。 私たちのコードはhttps://github.com/anqili/mahaloで利用可能です。

We study a new paradigm for sequential decision making, called offline policy learning from observations (PLfO). Offline PLfO aims to learn policies using datasets with substandard qualities: 1) only a subset of trajectories is labeled with rewards, 2) labeled trajectories may not contain actions, 3) labeled trajectories may not be of high quality, and 4) the data may not have full coverage. Such imperfection is common in real-world learning scenarios, and offline PLfO encompasses many existing offline learning setups, including offline imitation learning (IL), offline IL from observations (ILfO), and offline reinforcement learning (RL). In this work, we present a generic approach to offline PLfO, called $\textbf{M}$odality-agnostic $\textbf{A}$dversarial $\textbf{H}$ypothesis $\textbf{A}$daptation for $\textbf{L}$earning from $\textbf{O}$bservations (MAHALO). Built upon the pessimism concept in offline RL, MAHALO optimizes the policy using a performance lower bound that accounts for uncertainty due to the dataset's insufficient coverage. We implement this idea by adversarially training data-consistent critic and reward functions, which forces the learned policy to be robust to data deficiency. We show that MAHALO consistently outperforms or matches specialized algorithms across a variety of offline PLfO tasks in theory and experiments. Our code is available at https://github.com/AnqiLi/mahalo.
翻訳日:2023-08-08 23:29:44 公開日:2023-08-06
# ロボットマニピュレーションのための強化学習における実時間シミュレーションの固有確率によるシモン・トゥ・リアルの実現

Facilitating Sim-to-real by Intrinsic Stochasticity of Real-Time Simulation in Reinforcement Learning for Robot Manipulation ( http://arxiv.org/abs/2304.06056v2 )

ライセンス: Link先を確認
Ram Dershan, Amir M. Soufi Enayati, Zengjie Zhang, Dean Richert, and Homayoun Najjaran(参考訳) シミュレーションは、実世界で実装される前に強化学習(RL)に不可欠であり、特にロボット操作のような安全クリティカルな応用に必要である。 従来のRLエージェントは、シミュレーションと実世界の相違(sim-to-real gap)に敏感である。 このギャップを埋めるテクニックであるドメインランダム化の応用は、ヒューリスティック・ランダム化モデルの導入に限定されている。 実時間シミュレーション(RT-IS)の本質的確率特性とRL性能向上の可能性について検討する。 この改善には、ノイズに対する耐性とモデルの不正確さ、使いやすさと自動化の観点からの従来のドメインランダム化に対する優位性が含まれている。 まず,rt-isと計算機ハードウェアの利用との関係を解析的に測定し,物理ロボットの自然確率性との適合性を検証した。 そして,RT-ISをRLエージェントの訓練に利用した。 シミュレーションおよび物理実験により,ロボット操作作業におけるロバストエージェントトレーニングにおけるRT-ISの有効性と適用性を検証する。 rt-is駆動のrlエージェントは、不確かさをモデル化するロボットの従来のエージェントを上回っている。 RT-ISは、よりヒューリスティックなランダム化を必要とせず、タスク依存ではなく、従来のドメインランダム化駆動エージェントよりも優れた一般化性を実現する。 本研究は,ロボット操作タスクなどの実用化におけるシム・トゥ・リアル問題に対する新たな視点を提供する。

Simulation is essential to reinforcement learning (RL) before implementation in the real world, especially for safety-critical applications like robot manipulation. Conventionally, RL agents are sensitive to the discrepancies between the simulation and the real world, known as the sim-to-real gap. The application of domain randomization, a technique used to fill this gap, is limited to the imposition of heuristic-randomized models. {We investigate the properties of intrinsic stochasticity of real-time simulation (RT-IS) of off-the-shelf simulation software and its potential to improve RL performance. This improvement includes a higher tolerance to noise and model imprecision and superiority to conventional domain randomization in terms of ease of use and automation. Firstly, we conduct analytical studies to measure the correlation of RT-IS with the utilization of computer hardware and validate its comparability with the natural stochasticity of a physical robot. Then, we exploit the RT-IS feature in the training of an RL agent. The simulation and physical experiment results verify the feasibility and applicability of RT-IS to robust agent training for robot manipulation tasks. The RT-IS-powered RL agent outperforms conventional agents on robots with modeling uncertainties. RT-IS requires less heuristic randomization, is not task-dependent, and achieves better generalizability than the conventional domain-randomization-powered agents. Our findings provide a new perspective on the sim-to-real problem in practical applications like robot manipulation tasks.
翻訳日:2023-08-08 23:22:50 公開日:2023-08-06
# 生成エージェント:人間行動の対話型シミュラ

Generative Agents: Interactive Simulacra of Human Behavior ( http://arxiv.org/abs/2304.03442v2 )

ライセンス: Link先を確認
Joon Sung Park, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, Michael S. Bernstein(参考訳) 人間の行動の信じられないプロキシは、没入環境から対人コミュニケーションのためのリハーサル空間、プロトタイピングツールまで、インタラクティブなアプリケーションを強化することができる。 本稿では,人間の行動をシミュレートする生成エージェント(計算ソフトウェアエージェント)を提案する。 生成エージェントは目を覚まし、朝食を調理し、仕事に向かう;アーティストは絵を描き、著者は書く;彼らは意見を作り、お互いに気づき、会話を開始する;彼らは翌日の計画通りに過去を思い出し、振り返る。 生成エージェントを実現するために,自然言語を用いたエージェントの経験の完全な記録を格納し,それらの記憶を時間とともに高レベルなリフレクションに合成し,動的に計画行動へ取り出すように,大きな言語モデルを拡張したアーキテクチャについて述べる。 The Simsにインスパイアされた対話型サンドボックス環境に生成エージェントを投入し、ユーザは自然言語を使って20のエージェントの小さな町と対話できる。 例えば、1人のエージェントがバレンタインデーパーティーをスローしたいという1つのユーザ特定概念から始めて、エージェントは2日間に自律的に招待状をパーティーに拡散し、新しい知り合いを作り、パーティーの日付を尋ね、正しいタイミングでパーティーに集結するように調整する。 我々は,エージェント・アーキテクチャの構成要素である観測,計画,リフレクションがエージェント・ビヘイビアの信頼性に重要な貢献をすることを示す。 大規模言語モデルとインタラクティブなエージェントを融合することにより,人間の行動の信じられないシミュレーションを可能にするアーキテクチャとインタラクションパターンを提案する。

Believable proxies of human behavior can empower interactive applications ranging from immersive environments to rehearsal spaces for interpersonal communication to prototyping tools. In this paper, we introduce generative agents--computational software agents that simulate believable human behavior. Generative agents wake up, cook breakfast, and head to work; artists paint, while authors write; they form opinions, notice each other, and initiate conversations; they remember and reflect on days past as they plan the next day. To enable generative agents, we describe an architecture that extends a large language model to store a complete record of the agent's experiences using natural language, synthesize those memories over time into higher-level reflections, and retrieve them dynamically to plan behavior. We instantiate generative agents to populate an interactive sandbox environment inspired by The Sims, where end users can interact with a small town of twenty five agents using natural language. In an evaluation, these generative agents produce believable individual and emergent social behaviors: for example, starting with only a single user-specified notion that one agent wants to throw a Valentine's Day party, the agents autonomously spread invitations to the party over the next two days, make new acquaintances, ask each other out on dates to the party, and coordinate to show up for the party together at the right time. We demonstrate through ablation that the components of our agent architecture--observation, planning, and reflection--each contribute critically to the believability of agent behavior. By fusing large language models with computational, interactive agents, this work introduces architectural and interaction patterns for enabling believable simulations of human behavior.
翻訳日:2023-08-08 23:20:42 公開日:2023-08-06
# 集積低周波機械共振器のアクティブフィードバック量子制御

Active-feedback quantum control of an integrated low-frequency mechanical resonator ( http://arxiv.org/abs/2304.02799v3 )

ライセンス: Link先を確認
Jingkun Guo, Jin Chang, Xiong Yao, Simon Gr\"oblacher(参考訳) 量子制限運動エネルギーを持つ状態に巨大な機械共振器を準備することで、マクロシステムによる基礎物理学を研究するための有望なプラットフォームを提供し、正確なセンシングを含む様々な応用を実現することができる。 このような地中冷却システムの実証はいくつか行われているが、特にサイドバンド分解キャビティ光学において熱浴からの加熱を克服するシステムの多くは大きな課題である。 対照的に、サイドバンド未解決限界の光学系は、光学特性の緩和要件と、フィードバック制御スキームを用いて運動エネルギーを減少させる可能性により、より容易に実現できる。 達成可能な熱的占有は、測定精度と測定からのバックアクションとの相関によって最終的に制限される。 そこで本研究では, ピック・アンド・プレース法を用いて作製した全集積光機械装置において, 深いサイドバンド分解限界下で動作し, 測定に基づくフィードバック冷却を実演する。 その結果, 液体ヘリウムで予冷すると0.76, 液体窒素で3.5と, 光力学的相互作用が大きく, 熱的デコヒーレンス率も低かった。 両浴温における重要なサイドバンド非対称性は、機械運動の量子特性を検証する。 本手法とデバイスは、量子限界で直接動作するアプリケーションを検出するのに理想的であり、この方法では光学機械システムの動作を大幅に単純化する。

Preparing a massive mechanical resonator in a state with quantum limited motional energy provides a promising platform for studying fundamental physics with macroscopic systems and allows to realize a variety of applications, including precise sensing. While several demonstrations of such ground-state cooled systems have been achieved, in particular in sideband-resolved cavity optomechanics, for many systems overcoming the heating from the thermal bath remains a major challenge. In contrast, optomechanical systems in the sideband-unresolved limit are much easier to realize due to the relaxed requirements on their optical properties, and the possibility to use a feedback control schemes to reduce the motional energy. The achievable thermal occupation is ultimately limited by the correlation between the measurement precision and the back-action from the measurement. Here, we demonstrate measurement-based feedback cooling on a fully integrated optomechanical device fabricated using a pick-and-place method, operating in the deep sideband-unresolved limit. With the large optomechanical interaction and a low thermal decoherence rate, we achieve a minimal average phonon occupation of 0.76 when pre-cooled with liquid helium and 3.5 with liquid nitrogen. Significant sideband asymmetry for both bath temperatures verifies the quantum character of the mechanical motion. Our method and device are ideally suited for sensing applications directly operating at the quantum limit, greatly simplifying the operation of an optomechanical system in this regime.
翻訳日:2023-08-08 23:20:13 公開日:2023-08-06
# Open-Vocabulary Video Instance Segmentationに向けて

Towards Open-Vocabulary Video Instance Segmentation ( http://arxiv.org/abs/2304.01715v2 )

ライセンス: Link先を確認
Haochen Wang, Cilin Yan, Shuai Wang, Xiaolong Jiang, XU Tang, Yao Hu, Weidi Xie, Efstratios Gavves(参考訳) Video Instance Segmentation (VIS)は、ビデオ内のオブジェクトをクローズドなトレーニングカテゴリから分類し、分類することを目的としている。 この制限に対処するため、以下の3つの貢献をする。 まず,オープン・ボキャブラリ・ビデオ・インスタンス・セグメンテーション(Open-Vocabulary Video Instance Segmentation)の課題を紹介する。 次に,open-vocabulary visのベンチマークを行うため,既存のデータセットのカテゴリサイズを1桁以上上回る1,196のカテゴリの十分な注釈付きオブジェクトを含む,大語彙ビデオインスタンスセグメンテーションデータセット(lv-vis)を収集した。 第3に,より効率的なメモリ駆動型トランスフォーマーアーキテクチャov2segを提案する。 LV-VISと既存の4つのVISデータセットに関する大規模な実験は、新しいカテゴリにおけるOV2Segの強いゼロショット一般化能力を示している。 データセットとコードはhttps://github.com/haochenheda/lvvis。

Video Instance Segmentation (VIS) aims at segmenting and categorizing objects in videos from a closed set of training categories, lacking the generalization ability to handle novel categories in real-world videos. To address this limitation, we make the following three contributions. First, we introduce the novel task of Open-Vocabulary Video Instance Segmentation, which aims to simultaneously segment, track, and classify objects in videos from open-set categories, including novel categories unseen during training. Second, to benchmark Open-Vocabulary VIS, we collect a Large-Vocabulary Video Instance Segmentation dataset (LV-VIS), that contains well-annotated objects from 1,196 diverse categories, significantly surpassing the category size of existing datasets by more than one order of magnitude. Third, we propose an efficient Memory-Induced Transformer architecture, OV2Seg, to first achieve Open-Vocabulary VIS in an end-to-end manner with near real-time inference speed. Extensive experiments on LV-VIS and four existing VIS datasets demonstrate the strong zero-shot generalization ability of OV2Seg on novel categories. The dataset and code are released here https://github.com/haochenheheda/LVVIS.
翻訳日:2023-08-08 23:19:49 公開日:2023-08-06
# $\delta$相互作用によるSchr\"{o}dinger演算子について

On Schr\"{o}dinger Operators Modified by $\delta$ Interactions ( http://arxiv.org/abs/2304.01326v3 )

ライセンス: Link先を確認
Kaya G\"uven Akba\c{s}, Fatih Erman, O. Teoman Turgut(参考訳) デルタ相互作用によって修正されたシュル「{o}dinger 作用素 $H_0$ のスペクトル特性を研究し、新しいグリーン関数の極が元のグリーン関数の極に対してどのように再配置されるかを明確に示す。 我々は、新しい境界状態エネルギーが古い状態の間にインターレースされ、デルタ相互作用が魅力的であれば基底状態エネルギーは常に低下することを証明する。 また,若干のヒューリスティックな方法で小さな結合定数の仮定の下で境界状態エネルギーと波動関数を求める代替摂動法も導出する。 さらに,この結果が再正規化処理が必要な場合に拡張可能であることを示す。 また, 粒子がデルタ相互作用の影響下, コンパクトな二次元多様体内で移動している場合においても, 多中心の場合, 曲線上で支持されるデルタ相互作用, および, 粒子がデルタ相互作用の影響下で移動している場合について考察する。 最後に、最後の問題の半相対論的拡張が明確に研究されている。

We study the spectral properties of a Schr\"{o}dinger operator $H_0$ modified by delta interactions and show explicitly how the poles of the new Green's function are rearranged relative to the poles of original Green's function of $H_0$. We prove that the new bound state energies are interlaced between the old ones, and the ground state energy is always lowered if the delta interaction is attractive. We also derive an alternative perturbative method of finding the bound state energies and wave functions under the assumption of a small coupling constant in a somewhat heuristic manner. We further show that these results can be extended to cases in which a renormalization process is required. We consider the possible extensions of our results to the multi center case, to delta interaction supported on curves, and to the case, where the particle is moving in a compact two-dimensional manifold under the influence of delta interaction. Finally, the semi-relativistic extension of the last problem has been studied explicitly.
翻訳日:2023-08-08 23:19:25 公開日:2023-08-06
# 検索に基づく知識強化視覚言語事前学習

Retrieval-based Knowledge Augmented Vision Language Pre-training ( http://arxiv.org/abs/2304.13923v2 )

ライセンス: Link先を確認
Jiahua Rao, Zifei Shan, Longpo Liu, Yao Zhou, Yuedong Yang(参考訳) 大規模ビジョンと言語表現学習の最近の進歩により、視覚言語事前学習(VLP)モデルは様々なマルチモーダル下流タスクにおいて有望な改善を実現している。 しかし、これらのモデルは世界の知識を完全に活用していない。 知識強化VLPの鍵となる課題は、知識とマルチモーダルデータの明確なつながりの欠如である。 さらに、画像やテキストに存在するすべての知識は有用ではないため、事前のアプローチは知識、視覚、テキスト情報を効果的に統合するのに苦労することが多い。 本研究では,これらの問題に対処するための新しい知識提供事前学習フレームワークである検索型知識拡張視覚言語(reavl)を提案する。 知識とマルチモーダルデータとの対応を効率的に確立し、情報的知識を識別し、視覚とテキストのモーダル間の連携と相互作用のモデル化を改善する知識認識自己教師付き学習方式を初めて紹介する。 情報知識を視覚情報とテキスト情報に適応的に統合することにより、reavlは、知識ベースの視覚言語理解とマルチモーダルエンティティリンクタスク、および一般的な視覚言語タスクにおける競合結果に基づいて、最高のモデルの事前学習データのみを使用して、新しい最先端のパフォーマンスを達成する。 本モデルは,強いサンプル効率と効果的な知識利用を示す。

With the recent progress in large-scale vision and language representation learning, Vision Language Pre-training (VLP) models have achieved promising improvements on various multi-modal downstream tasks. Albeit powerful, these models have not fully leveraged world knowledge to their advantage. A key challenge of knowledge-augmented VLP is the lack of clear connections between knowledge and multi-modal data. Moreover, not all knowledge present in images/texts is useful, therefore prior approaches often struggle to effectively integrate knowledge, visual, and textual information. In this study, we propose REtrieval-based knowledge Augmented Vision Language (REAVL), a novel knowledge-augmented pre-training framework to address the above issues. For the first time, we introduce a knowledge-aware self-supervised learning scheme that efficiently establishes the correspondence between knowledge and multi-modal data and identifies informative knowledge to improve the modeling of alignment and interactions between visual and textual modalities. By adaptively integrating informative knowledge with visual and textual information, REAVL achieves new state-of-the-art performance uniformly on knowledge-based vision-language understanding and multi-modal entity linking tasks, as well as competitive results on general vision-language tasks while only using 0.2% pre-training data of the best models. Our model shows strong sample efficiency and effective knowledge utilization.
翻訳日:2023-08-08 23:11:59 公開日:2023-08-06
# Navier-Stokes方程式の解法に特性ベーススプリットを併用した物理インフォームニューラルネットワーク

Physics-informed Neural Network Combined with Characteristic-Based Split for Solving Navier-Stokes Equations ( http://arxiv.org/abs/2304.10717v2 )

ライセンス: Link先を確認
Shuang Hu and Meiqin Liu and Senlin Zhang and Shanling Dong and Ronghao Zheng(参考訳) 本稿では,特性ベーススプリット(CBS)に基づく物理インフォームドニューラルネットワーク(PINN)を提案し,時間依存型ナビエ・ストークス方程式(N-S方程式)を解く。 本手法では,出力パラメータと対応する損失を分離し,出力パラメータ間の重みを考慮しない。 すべての部分微分が勾配バックプロパゲーションに関与しているわけではなく、残りの項が再利用される。 ここでは、ラベル付きデータ、物理的制約、およびネットワーク出力を事前情報とみなし、N-S方程式の残余を後続情報とみなす。 したがって、この方法はデータ駆動とデータフリーの両方の問題に対処できる。 結果として、圧縮性 n-s 方程式 ---シュロー水方程式と非圧縮性 n-s 方程式の特別な形式を解くことができる。 境界条件が知られているので、この方法は、過去と将来の流れ場情報を復元するために、一定時間にのみフローフィールド情報を必要とする。 本研究では,海浜への単独波の進行と流れ中の湯の分散を解明し,この手法の海洋工学における可能性を示す。 また、この方法の正しさと普遍性を証明するために、正確な解を持つ非圧縮方程式を用いる。 N-S方程式は有限要素法と比較して計算境界を持たないため, PINNはより厳密な境界条件を必要とする。

In this paper, physics-informed neural network (PINN) based on characteristic-based split (CBS) is proposed, which can be used to solve the time-dependent Navier-Stokes equations (N-S equations). In this method, The output parameters and corresponding losses are separated, so the weights between output parameters are not considered. Not all partial derivatives participate in gradient backpropagation, and the remaining terms will be reused.Therefore, compared with traditional PINN, this method is a rapid version. Here, labeled data, physical constraints and network outputs are regarded as priori information, and the residuals of the N-S equations are regarded as posteriori information. So this method can deal with both data-driven and data-free problems. As a result, it can solve the special form of compressible N-S equations -- -Shallow-Water equations, and incompressible N-S equations. As boundary conditions are known, this method only needs the flow field information at a certain time to restore the past and future flow field information. We solve the progress of a solitary wave onto a shelving beach and the dispersion of the hot water in the flow, which show this method's potential in the marine engineering. We also use incompressible equations with exact solutions to prove this method's correctness and universality. We find that PINN needs more strict boundary conditions to solve the N-S equation, because it has no computational boundary compared with the finite element method.
翻訳日:2023-08-08 23:10:14 公開日:2023-08-06
# 疾患の連続学習のための事前学習特徴抽出器におけるアダプタ学習

Adapter Learning in Pretrained Feature Extractor for Continual Learning of Diseases ( http://arxiv.org/abs/2304.09042v2 )

ライセンス: Link先を確認
Wentao Zhang, Yujun Huang, Tong Zhang, Qingsong Zou, Wei-Shi Zheng, Ruixuan Wang(参考訳) 現在、インテリジェントな診断システムは、古い疾患の知識を保存する条件下で、デプロイされた新しい疾患の診断を継続的に学習する能力が欠けている。 特に、新しい疾患の訓練データでインテリジェントな診断システムを更新すると、古い病気の知識を壊滅的に忘れてしまう。 ACLと呼ばれるアダプタベースの連続学習フレームワークが提案され、共有特徴抽出器を変更することなく、連続学習の各ラウンド(またはタスク)において、新しい病気の集合を効果的に学習する。 学習可能な軽量なタスク固有アダプタを柔軟に設計し(例えば2つの畳み込み層)、事前訓練された固定された特徴抽出器に追加することができる。 以前に学習したすべての古い病気を単一の「アウト・オブ・ディストリビューション」カテゴリとして吸収する特別に設計されたタスク特異的ヘッドとともに、タスク特異的アダプタは、予め訓練された特徴抽出器が疾患間の識別的特徴をより効果的に抽出するのに役立つ。 さらに、複数のタスク固有のヘッドを協調的に微調整し、異なるヘッドからの出力を同等にすることで、モデル推論時に適切な分類器ヘッドをより正確に選択することができる。 3つの画像データセットの広範な経験的評価は、新しい疾患の継続的な学習においてaclの優れた性能を示している。 ソースコードはhttps://github.com/giantjun/cl_pytorchで入手できる。

Currently intelligent diagnosis systems lack the ability of continually learning to diagnose new diseases once deployed, under the condition of preserving old disease knowledge. In particular, updating an intelligent diagnosis system with training data of new diseases would cause catastrophic forgetting of old disease knowledge. To address the catastrophic forgetting issue, an Adapter-based Continual Learning framework called ACL is proposed to help effectively learn a set of new diseases at each round (or task) of continual learning, without changing the shared feature extractor. The learnable lightweight task-specific adapter(s) can be flexibly designed (e.g., two convolutional layers) and then added to the pretrained and fixed feature extractor. Together with a specially designed task-specific head which absorbs all previously learned old diseases as a single "out-of-distribution" category, task-specific adapter(s) can help the pretrained feature extractor more effectively extract discriminative features between diseases. In addition, a simple yet effective fine-tuning is applied to collaboratively fine-tune multiple task-specific heads such that outputs from different heads are comparable and consequently the appropriate classifier head can be more accurately selected during model inference. Extensive empirical evaluations on three image datasets demonstrate the superior performance of ACL in continual learning of new diseases. The source code is available at https://github.com/GiantJun/CL_Pytorch.
翻訳日:2023-08-08 23:09:25 公開日:2023-08-06
# FloquetスピンチェーンにおけるFermiのGolden Ruleを超えるほとんど強いモードの減衰速度

Decay rates of almost strong modes in Floquet spin chains beyond Fermi's Golden Rule ( http://arxiv.org/abs/2305.04980v2 )

ライセンス: Link先を確認
Hsiu-Chung Yeh, Achim Rosch, Aditi Mitra(参考訳) 弱可積分フロッケスピン鎖におけるほぼ強い零モードと$\pi$モードの安定性とダイナミクスについて検討した。 このようなモードは、トポロジカル超伝導体の端で局所化されたマヨラナモードと見なすこともできる。 積分可能性破壊相互作用の強さにおける摂動理論$j_z$を用いてこれらのモードの減衰率を推定し、正確な対角化から得られた減衰率と比較する。 摂動理論の構造とモードの寿命は準エネルギーモジュロの保存によって制御されるが、ここでは$t$はフロッケ系の周期である。 最小の4 n-1$準粒子の準エネルギーがゼロ(または$\pi$モードで$\pi/t$)になると、寿命は1/j_z^{2 n}$に比例する。 これにより、単粒子フロッケバンドの幅によって寿命が敏感に制御される。 崩壊速度が$J_z$で二次的な状態の場合、積分可能モデルの無限温度自己相関関数の観点から崩壊速度の解析式が導出され、正確な対角化とよく一致することが示されている。

The stability and dynamics of almost strong zero and $\pi$ modes in weakly non-integrable Floquet spin chains are investigated. Such modes can also be viewed as localized Majorana modes at the edge of a topological superconductor. Perturbation theory in the strength of integrability-breaking interaction $J_z$ is employed to estimate the decay rates of these modes, and compared to decay rates obtained from exact diagonalization. The structure of the perturbation theory and thus the lifetime of the modes is governed by the conservation of quasi-energy modulo $2 \pi/T$, where $T$ is the period of the Floquet system. If the quasi-energies of minimally $4 n-1$ quasi-particles adds up to zero (or $\pi/T$ for a $\pi$ mode), the lifetime is proportional to $1/J_z^{2 n}$. Thus the lifetime is sensitively controlled by the width of the single-particle Floquet bands. For regimes where the decay rates are quadratic in $J_z$, an analytic expression for the decay rate in terms of an infinite temperature autocorrelation function of the integrable model is derived, and shown to agree well with exact diagonalization.
翻訳日:2023-08-08 23:02:44 公開日:2023-08-06
# 量子ダーウィン主義-エンコード遷移の解法モデル

A Solvable Model of Quantum Darwinism-Encoding Transitions ( http://arxiv.org/abs/2305.03694v2 )

ライセンス: Link先を確認
Beno\^it Fert\'e, Xiangyu Cao(参考訳) 量子ダーウィン論の解法モデルとして,一元的力学の下での多体系における量子情報の拡散の急激な変化について述べる。 我々は、入力キュービットが参照に絡み合う拡大木上のランダムなクリフォード回路を考える。 このモデルには量子ダーウィン主義フェーズがあり、出力キュービットの任意の小さな分数から参照に関する1つの古典的な情報を取り出すことができ、そのような検索が不可能な符号化フェーズがある。 2つの相は混合相と2つの連続遷移によって分離される。 正確な結果を2レプリカ計算と比較する。 後者は同様の '<annealed'' 位相図を生成し、これはハールランダムなユニタリを持つモデルにも適用される。 提案手法は,エンコードシステム上で環境が盗聴する修正モデルを解くことで,位相遷移(mipts)を計測する手法である。 鋭いMIPTを持ち、環境への完全なアクセスしかできない。

We propose a solvable model of Quantum Darwinism to encoding transitions -- abrupt changes in how quantum information spreads in a many-body system under unitary dynamics. We consider a random Clifford circuit on an expanding tree, whose input qubit is entangled with a reference. The model has a Quantum Darwinism phase, where one classical bit of information about the reference can be retrieved from an arbitrarily small fraction of the output qubits, and an encoding phase where such retrieval is impossible. The two phases are separated by a mixed phase and two continuous transitions. We compare the exact result to a two-replica calculation. The latter yields a similar ``annealed'' phase diagram, which applies also to a model with Haar random unitaries. We relate our approach to measurement induced phase transitions (MIPTs), by solving a modified model where an environment eavesdrops on an encoding system. It has a sharp MIPT only with full access to the environment.
翻訳日:2023-08-08 23:01:38 公開日:2023-08-06
# 拡散モデルにおける初期画像編集によるガイド画像合成

Guided Image Synthesis via Initial Image Editing in Diffusion Model ( http://arxiv.org/abs/2305.03382v2 )

ライセンス: Link先を確認
Jiafeng Mao, Xueting Wang and Kiyoharu Aizawa(参考訳) 拡散モデルでは、純ガウスノイズ画像から高品質な画像を生成することができる。 従来の研究は主にノイズ除去過程の調整による画像生成の制御の改善に重点を置いてきたが,本稿では初期雑音を操作して生成画像を制御する新しい方向を提案する。 安定拡散実験により,初期潜在画像中の画素のブロックは特定のコンテンツを生成するのに好適であり,これらのブロックの修正が生成画像に大きな影響を与えることを示した。 特に,初期画像の一部の変更が生成した画像の対応する領域に影響を及ぼし,他の領域に影響を与えないことを示す。 さらに,画素ブロックの生成嗜好は,その位置ではなく,主にその値によって決定されることがわかった。 ユーザ要求のコンテンツを生成する傾向のあるピクセルブロックをユーザ指定領域に移動させることで,レイアウト・画像生成における最先端の性能を実現する。 その結果,生成画像の制御における初期画像操作の柔軟性とパワーを強調した。

Diffusion models have the ability to generate high quality images by denoising pure Gaussian noise images. While previous research has primarily focused on improving the control of image generation through adjusting the denoising process, we propose a novel direction of manipulating the initial noise to control the generated image. Through experiments on stable diffusion, we show that blocks of pixels in the initial latent images have a preference for generating specific content, and that modifying these blocks can significantly influence the generated image. In particular, we show that modifying a part of the initial image affects the corresponding region of the generated image while leaving other regions unaffected, which is useful for repainting tasks. Furthermore, we find that the generation preferences of pixel blocks are primarily determined by their values, rather than their position. By moving pixel blocks with a tendency to generate user-desired content to user-specified regions, our approach achieves state-of-the-art performance in layout-to-image generation. Our results highlight the flexibility and power of initial image manipulation in controlling the generated image.
翻訳日:2023-08-08 23:01:01 公開日:2023-08-06
# NightHazeFormer: 事前クエリ変換器を用いた単一夜間ヘイズ除去

NightHazeFormer: Single Nighttime Haze Removal Using Prior Query Transformer ( http://arxiv.org/abs/2305.09533v2 )

ライセンス: Link先を確認
Yun Liu, Zhongsheng Yan, Sixiang Chen, Tian Ye, Wenqi Ren and Erkang Chen(参考訳) 夜間の消光は、光、迷路、ぼやけ、ノイズ、色歪みなど、さまざまな有害な劣化効果があるため、困難な課題である。 しかし, 従来の研究では, 夜間の嫌悪な場面で提示される日中の画像劣化や部分的な劣化が中心であり, 修復に不満足な結果をもたらす可能性がある。 本稿では,夜間ヘイズ除去のためのエンドツーエンドトランスフォーマーフレームワークであるnighthazeformerを提案する。 提案手法は,教師付き事前学習と半教師付き微調整の2段階からなる。 事前学習段階では、トランスフォーマーデコーダに2つの強力なプリエントを導入し、非学習可能なプリエントクエリを生成し、モデルに特定の劣化を抽出するよう指示する。 微調整では,生成した擬似基底真理と実世界の夜間空想画像とをペア画像として組み合わせて合成領域に入力し,事前学習したモデルを微調整する。 この半教師付き微調整パラダイムは、実領域への一般化を改善するのに役立つ。 さらに,実世界の夜間ヘイズシナリオを包括的にシミュレートするUNREAL-NHという大規模合成データセットも提案する。 いくつかの合成および実世界のデータセットに対する大規模な実験は、現状の夜間ヘイズ除去法よりも視覚的および定量的にNightHazeFormerの優位性を示している。

Nighttime image dehazing is a challenging task due to the presence of multiple types of adverse degrading effects including glow, haze, blurry, noise, color distortion, and so on. However, most previous studies mainly focus on daytime image dehazing or partial degradations presented in nighttime hazy scenes, which may lead to unsatisfactory restoration results. In this paper, we propose an end-to-end transformer-based framework for nighttime haze removal, called NightHazeFormer. Our proposed approach consists of two stages: supervised pre-training and semi-supervised fine-tuning. During the pre-training stage, we introduce two powerful priors into the transformer decoder to generate the non-learnable prior queries, which guide the model to extract specific degradations. For the fine-tuning, we combine the generated pseudo ground truths with input real-world nighttime hazy images as paired images and feed into the synthetic domain to fine-tune the pre-trained model. This semi-supervised fine-tuning paradigm helps improve the generalization to real domain. In addition, we also propose a large-scale synthetic dataset called UNREAL-NH, to simulate the real-world nighttime haze scenarios comprehensively. Extensive experiments on several synthetic and real-world datasets demonstrate the superiority of our NightHazeFormer over state-of-the-art nighttime haze removal methods in terms of both visually and quantitatively.
翻訳日:2023-08-08 22:51:49 公開日:2023-08-06
# light-vqa:低光度ビデオエンハンスメントのための多次元品質評価モデル

Light-VQA: A Multi-Dimensional Quality Assessment Model for Low-Light Video Enhancement ( http://arxiv.org/abs/2305.09512v2 )

ライセンス: Link先を確認
Yunlong Dong, Xiaohong Liu, Yixuan Gao, Xunchu Zhou, Tao Tan, Guangtao Zhai(参考訳) 近年,UGC(Users Generated Content)ビデオが日常的に普及している。 しかし、写真機器や技術が限られているため、UGCビデオには様々な劣化があり、最も視覚的に好ましくない効果の1つが露出不足である。 そこで,低照度映像強調 (LLVE) などの対応する映像強調アルゴリズムが,特定の劣化に対処するために提案されている。 しかし、ビデオエンハンスメントアルゴリズムとは異なり、既存のビデオ品質アセスメント(VQA)モデルのほとんどは、包括的視点からビデオの品質を測定するために特別ではなく、一般的に構築されている。 我々の知る限り、LLVEアルゴリズムによって強化されたビデオ用に特別に設計されたVQAモデルは存在しない。 この目的のために,まず,2,060本のLLVEアルゴリズムを用いて,254本のオリジナル低照度映像を収集し,拡張する低照度映像改善品質評価(LLVE-QA)データセットを構築した。 また, LLVEに特化した品質評価モデルであるLight-VQAを提案する。 より具体的には、明るさと雑音が低照度VQAに与える影響が最も大きいため、我々は対応する特徴を手作りし、空間情報全体として深層学習に基づく意味的特徴と統合する。 時間情報に関しては,深層学習に基づく動作特徴に加えて,映像フレーム間の手作りの輝度の一貫性や,時間情報全体の結合性についても検討した。 その後、空間情報と時間情報を融合して映像の品質認識表現を得る。 LLVE-QAおよび公開データセット上での現在のステートオフ・ザ・アート(SOTA)に対して,我々のLight-VQAが最高の性能を発揮することを示す。 DatasetとCodesはhttps://github.com/wenzhouyidu/Light-VQAで見ることができる。

Recently, Users Generated Content (UGC) videos becomes ubiquitous in our daily lives. However, due to the limitations of photographic equipments and techniques, UGC videos often contain various degradations, in which one of the most visually unfavorable effects is the underexposure. Therefore, corresponding video enhancement algorithms such as Low-Light Video Enhancement (LLVE) have been proposed to deal with the specific degradation. However, different from video enhancement algorithms, almost all existing Video Quality Assessment (VQA) models are built generally rather than specifically, which measure the quality of a video from a comprehensive perspective. To the best of our knowledge, there is no VQA model specially designed for videos enhanced by LLVE algorithms. To this end, we first construct a Low-Light Video Enhancement Quality Assessment (LLVE-QA) dataset in which 254 original low-light videos are collected and then enhanced by leveraging 8 LLVE algorithms to obtain 2,060 videos in total. Moreover, we propose a quality assessment model specialized in LLVE, named Light-VQA. More concretely, since the brightness and noise have the most impact on low-light enhanced VQA, we handcraft corresponding features and integrate them with deep-learning-based semantic features as the overall spatial information. As for temporal information, in addition to deep-learning-based motion features, we also investigate the handcrafted brightness consistency among video frames, and the overall temporal information is their concatenation. Subsequently, spatial and temporal information is fused to obtain the quality-aware representation of a video. Extensive experimental results show that our Light-VQA achieves the best performance against the current State-Of-The-Art (SOTA) on LLVE-QA and public dataset. Dataset and Codes can be found at https://github.com/wenzhouyidu/Light-VQA.
翻訳日:2023-08-08 22:51:26 公開日:2023-08-06
# ニューラルネットワークモデルの類似性:機能的および表現的尺度の検討

Similarity of Neural Network Models: A Survey of Functional and Representational Measures ( http://arxiv.org/abs/2305.06329v2 )

ライセンス: Link先を確認
Max Klabunde, Tobias Schumacher, Markus Strohmaier, Florian Lemmerich(参考訳) 彼らの行動を理解し、改善するためにニューラルネットワークの類似性を測定することは、非常に重要かつ研究的な関心事となっている。 本稿では,ニューラルネットワークの類似性を測定するための2つの相補的視点について概説する。 (i)中間層の活性化の相違を考慮した表現的類似性、及び (ii)出力におけるモデルの違いを考慮した機能的類似性。 既存の施策の詳細な説明に加えて、これらの措置の性質と関係性に関する結果を要約し、議論し、オープンリサーチの問題に留意する。 私たちの研究が、ニューラルネットワークモデルに対する類似度測定の特性と適用性に関するより体系的な研究の基盤となることを願っています。

Measuring similarity of neural networks to understand and improve their behavior has become an issue of great importance and research interest. In this survey, we provide a comprehensive overview of two complementary perspectives of measuring neural network similarity: (i) representational similarity, which considers how activations of intermediate layers differ, and (ii) functional similarity, which considers how models differ in their outputs. In addition to providing detailed descriptions of existing measures, we summarize and discuss results on the properties of and relationships between these measures, and point to open research problems. We hope our work lays a foundation for more systematic research on the properties and applicability of similarity measures for neural network models.
翻訳日:2023-08-08 22:49:30 公開日:2023-08-06
# 一般化可能な自己監督型事前学習のためのランダム化3次元シーン生成

Randomized 3D Scene Generation for Generalizable Self-Supervised Pre-Training ( http://arxiv.org/abs/2306.04237v2 )

ライセンス: Link先を確認
Lanxiao Li and Michael Heizmann(参考訳) 現実世界の3Dデータのキャプチャとラベル付けには手間がかかり、時間を要する。 この問題に対処するため,最近の研究では,シミュレーションやレンダリングを行わずにランダムな3dシーンを生成できる簡単な手法を提案する。 生成された合成データに基づいて事前学習されたモデルは、驚くべきパフォーマンス向上をもたらすが、以前の作品には2つの大きな欠点がある。 まず、1つの下流タスク(オブジェクト検出)のみに焦点を当て、他のタスクへの一般化は未探索である。 第二に、生成されたデータの貢献は体系的に研究されていない。 ランダム化された3次元シーン生成手法をより深く理解するため,先行研究を再検討し,統一的なセットアップを用いて異なるデータ生成手法を比較した。 さらに,事前学習モデルの一般化を明らかにするため,複数のタスク(オブジェクト検出とセマンティックセグメンテーション)と,異なる事前学習手法(マスク付きオートエンコーダとコントラスト学習)でそれらの性能を評価する。 さらに,球面高調波を伴う3次元シーンを生成する新しい手法を提案する。 従来の定式化法をクリアマージンで上回り、実世界のスキャンとCADモデルを用いた手法を用いて、中間結果を得る。

Capturing and labeling real-world 3D data is laborious and time-consuming, which makes it costly to train strong 3D models. To address this issue, recent works present a simple method by generating randomized 3D scenes without simulation and rendering. Although models pre-trained on the generated synthetic data gain impressive performance boosts, previous works have two major shortcomings. First, they focus on only one downstream task (i.e., object detection), and the generalization to other tasks is unexplored. Second, the contributions of generated data are not systematically studied. To obtain a deeper understanding of the randomized 3D scene generation technique, we revisit previous works and compare different data generation methods using a unified setup. Moreover, to clarify the generalization of the pre-trained models, we evaluate their performance in multiple tasks (i.e., object detection and semantic segmentation) and with different pre-training methods (i.e., masked autoencoder and contrastive learning). Moreover, we propose a new method to generate 3D scenes with spherical harmonics. It surpasses the previous formula-driven method with a clear margin and achieves on-par results with methods using real-world scans and CAD models.
翻訳日:2023-08-08 22:42:00 公開日:2023-08-06
# 見えない画像の透かしは、生成AIを使って取り除くことができる

Invisible Image Watermarks Are Provably Removable Using Generative AI ( http://arxiv.org/abs/2306.01953v2 )

ライセンス: Link先を確認
Xuandong Zhao, Kexun Zhang, Zihao Su, Saastha Vasan, Ilya Grishchenko, Christopher Kruegel, Giovanni Vigna, Yu-Xiang Wang, Lei Li(参考訳) Invisibleの透かしは、所有者によってのみ検出可能な隠しメッセージを埋め込むことで、画像の著作権を保護する。 また、画像、特にAIモデルによる画像の誤使用を防ぐ。 我々は、これらの見えない透かしを取り除くために、再生攻撃のファミリーを提案する。 提案手法では,まず画像にランダムノイズを付加して透かしを破壊し,画像を再構成する。 このアプローチは柔軟であり、既存の多くの画像デニュージングアルゴリズムや拡散モデルのような事前学習された生成モデルでインスタンス化することができる。 公式な証明と実証的な結果から、すべての見えない透かしが提案された攻撃に対して脆弱であることを示す。 特に弾力性のあるウォーターマークであるリバガンでは、再生攻撃は目に見えないウォーターマークの93-99%を除去し、ベースライン攻撃は3%以下を除去した。 しかし、透かし画像が元のものと同じに見える必要がなければ、画像のセマンティックな類似性を維持する透かしは、我々の攻撃に対する代替の防御になり得る。 我々の発見は、目に見えない透かしから意味的に類似したものへの研究・産業の転換の必要性を浮き彫りにしている。 コードはhttps://github.com/xuandongzhao/watermarkattackerで入手できる。

Invisible watermarks safeguard images' copyright by embedding hidden messages only detectable by owners. They also prevent people from misusing images, especially those generated by AI models. We propose a family of regeneration attacks to remove these invisible watermarks. The proposed attack method first adds random noise to an image to destroy the watermark and then reconstructs the image. This approach is flexible and can be instantiated with many existing image-denoising algorithms and pre-trained generative models such as diffusion models. Through formal proofs and empirical results, we show that all invisible watermarks are vulnerable to the proposed attack. For a particularly resilient watermark, RivaGAN, regeneration attacks remove 93-99% of the invisible watermarks while the baseline attacks remove no more than 3%. However, if we do not require the watermarked image to look the same as the original one, watermarks that keep the image semantically similar can be an alternative defense against our attack. Our finding underscores the need for a shift in research/industry emphasis from invisible watermarks to semantically similar ones. Code is available at https://github.com/XuandongZhao/WatermarkAttacker.
翻訳日:2023-08-08 22:41:39 公開日:2023-08-06
# 学習者と密集キャプションを用いた視覚言語事前学習の強化

Enhancing Vision-Language Pre-Training with Jointly Learned Questioner and Dense Captioner ( http://arxiv.org/abs/2305.11769v2 )

ライセンス: Link先を確認
Zikang Liu, Sihan Chen, Longteng Guo, Handong Li, Xingjian He, Jing Liu(参考訳) 大規模な事前学習型マルチモーダルモデルは、画像キャプション、画像テキスト検索、視覚的質問応答(VQA)など、下流タスクにおいて大きな成功を収めている。 しかし、これらの手法の多くは、Webから収集した画像とテキストのペアを事前学習データとして頼りにしており、残念ながら、視覚と言語モダリティの微妙な特徴調整の必要性を見落としている。 VQAと高密度キャプション(DC)を事前訓練に組み込むことはこの問題に対処できるが、画像検索と画像位置対応三脚の取得は困難であり、時間を要する。 加えて、VQAと高密度キャプションのための公開データセットは通常、手動のデータ収集とラベル付けの取り組みのために大規模に制限されている。 本稿では,事前学習されたマルチモーダルモデルと容易に拡張可能な画像テキストペアを用いて,大規模VQAと高密度キャプションデータセットの自動生成とフィルタリングを行うJADE(Joint QA and DC GEneration)を提案する。 本稿では,概念キャプション(CC3M)データセットに適用し,CC3M-QA-DCと呼ばれる新しいデータセットを生成する。 実験により,マルチタスク方式で事前学習を行う場合,CC3M-QA-DCは様々な下流タスクにおいて,様々なバックボーンを用いて性能を向上させることができることがわかった。 さらに、生成されたCC3M-QA-DCは、より大きな画像テキストデータセット(例えば、CC15M)と組み合わせて、より多くのデータを使用するモデルと比較して、競合的な結果を得ることができる。 コードとデータセットはhttps://github.com/johncaged/opt_questionerで入手できる。

Large pre-trained multimodal models have demonstrated significant success in a range of downstream tasks, including image captioning, image-text retrieval, visual question answering (VQA), etc. However, many of these methods rely on image-text pairs collected from the web as pre-training data and unfortunately overlook the need for fine-grained feature alignment between vision and language modalities, which requires detailed understanding of images and language expressions. While integrating VQA and dense captioning (DC) into pre-training can address this issue, acquiring image-question-answer as well as image-location-caption triplets is challenging and time-consuming. Additionally, publicly available datasets for VQA and dense captioning are typically limited in scale due to manual data collection and labeling efforts. In this paper, we propose a novel method called Joint QA and DC GEneration (JADE), which utilizes a pre-trained multimodal model and easily-crawled image-text pairs to automatically generate and filter large-scale VQA and dense captioning datasets. We apply this method to the Conceptual Caption (CC3M) dataset to generate a new dataset called CC3M-QA-DC. Experiments show that when used for pre-training in a multi-task manner, CC3M-QA-DC can improve the performance with various backbones on various downstream tasks. Furthermore, our generated CC3M-QA-DC can be combined with larger image-text datasets (e.g., CC15M) and achieve competitive results compared with models using much more data. Code and dataset are available at https://github.com/johncaged/OPT_Questioner.
翻訳日:2023-08-08 22:40:29 公開日:2023-08-06
# OCD診断における畳み込みニューラルネットワークを用いたT1静止MRI変数のモデル化

Modeling T1 Resting-State MRI Variants Using Convolutional Neural Networks in Diagnosis of OCD ( http://arxiv.org/abs/2306.12435v2 )

ライセンス: Link先を確認
Tarun Eswar(参考訳) 強迫性障害(OCD)は高度に不安定な障害である。 この疾患は前頭前皮質とメタボトロピックグルタミン酸受容体5(mGluR5)と呼ばれるグルタミン酸受容体と共通する。 この受容体は、マウスの分布体積比で測定されたポジトロン放射トモグラフィースキャンから高いレベルのシグナル伝達を示すことが観察されている。 この証拠にもかかわらず、より経験的なデータが必要なため、研究はmglur5の関与を完全に検証できない。 計算モデリング手法はmGluR5を含む過去の仮説の検証手段として用いられた。 統合失調症, 大うつ病, 強迫性障害患者のt1resting-state magnetic resonance imaging (trs-mri) スキャンを用いてocdの原因因子との関連性について検討した。 これらの疾患では共生例がしばしば発生するため、共通する能力は特徴的な特徴を見つけるために必要となる。 ResNet50とMobileNetモデルとともに2次元畳み込みニューラルネットワークを構築し,効率よく評価した。 TRS-MRIスキャンの活性化熱マップが出力され、転写学的解析が可能となった。 しかし,OCD症例の予測能力の欠如は遺伝子発現解析を妨げた。 すべてのモデルで、mddの88.75%の検証精度、resnet50のフレームワークによるszdの82.08%の検証精度、そして新しい計算があった。 OCDの精度は約54.4%だった。 これらの結果は、精神疾患に関するp因子理論のさらなる証拠となった。 将来的な研究は、精度を高めるために、本論文で使用されるものよりも代替転送学習ネットワークを適用することである。

Obsessive-compulsive disorder (OCD) presents itself as a highly debilitating disorder. The disorder has common associations with the prefrontal cortex and the glutamate receptor known as Metabotropic Glutamate Receptor 5 (mGluR5). This receptor has been observed to demonstrate higher levels of signaling from positron emission tomography scans measured by its distribution volume ratios in mice. Despite this evidence, studies are unable to fully verify the involvement of mGluR5 as more empirical data is needed. Computational modeling methods were used as a means of validation for previous hypotheses involving mGluR5. The inadequacies in relation to the causal factor of OCD were answered by utilizing T1 resting-state magnetic resonance imaging (TRS-MRI) scans of patients suffering from schizophrenia, major depressive disorder, and obsessive-compulsive disorder. Because comorbid cases often occur within these disorders, cross-comparative abilities become necessary to find distinctive characteristics. Two-dimensional convolutional neural networks alongside ResNet50 and MobileNet models were constructed and evaluated for efficiency. Activation heatmaps of TRS-MRI scans were outputted, allowing for transcriptomics analysis. Though, a lack of ability to predict OCD cases prevented gene expression analysis. Across all models, there was an 88.75% validation accuracy for MDD, and 82.08% validation accuracy for SZD under the framework of ResNet50 as well as novel computation. OCD yielded an accuracy rate of around 54.4%. These results provided further evidence for the p-factor theory regarding mental disorders. Future work involves the application of alternate transfer learning networks than those used in this paper to bolster accuracy rates.
翻訳日:2023-08-08 22:30:51 公開日:2023-08-06
# 階層埋め込みとセッション属性を用いた擬似セッションベースレコメンデーション

Pseudo Session-Based Recommendation with Hierarchical Embedding and Session Attributes ( http://arxiv.org/abs/2306.10029v2 )

ライセンス: Link先を確認
Yuta Sumiya, Ryusei Numata, Satoshi Takahashi(参考訳) 近年,電子商取引(EC)のWebサイトは,プライバシの問題により,各取引データエントリに対して識別番号(ユーザID)を提供できなかった。 ほとんどのレコメンデーションメソッドは、すべてのデータがユーザIDに割り当てられていると仮定するため、ユーザIDなしではデータに適用できない。 近年,ユーザの短期行動情報であるセッション情報に基づくセッションベースレコメンデーション(SBR)が研究されている。 一般的なSBRは、関心のある項目に関する情報のみを使用してレコメンデーションを行う(ECサイトのアイテムIDなど)。 特にECサイトの場合、記録されているデータには、購入された商品の名前、アイテムの価格、カテゴリ階層、ユーザの性別と地域が含まれている。 本研究では,ユーザIDやセッションIDを使わずにECサイトの購入履歴データに対する擬似セッションを定義する。 最後に,コグニティブなヘテロジニアスハイパーグラフとグローバルグラフネットワークを備えたSBRを提案する。 その結果,我々のCoHHGN+は,他の方法よりも高い性能の商品を推薦できることがわかった。

Recently, electronic commerce (EC) websites have been unable to provide an identification number (user ID) for each transaction data entry because of privacy issues. Because most recommendation methods assume that all data are assigned a user ID, they cannot be applied to the data without user IDs. Recently, session-based recommendation (SBR) based on session information, which is short-term behavioral information of users, has been studied. A general SBR uses only information about the item of interest to make a recommendation (e.g., item ID for an EC site). Particularly in the case of EC sites, the data recorded include the name of the item being purchased, the price of the item, the category hierarchy, and the gender and region of the user. In this study, we define a pseudo--session for the purchase history data of an EC site without user IDs and session IDs. Finally, we propose an SBR with a co-guided heterogeneous hypergraph and globalgraph network plus, called CoHHGN+. The results show that our CoHHGN+ can recommend items with higher performance than other methods.
翻訳日:2023-08-08 22:29:57 公開日:2023-08-06
# スコアからの適応学習による相互強化学習のフィードバック効率の向上

Boosting Feedback Efficiency of Interactive Reinforcement Learning by Adaptive Learning from Scores ( http://arxiv.org/abs/2307.05405v2 )

ライセンス: Link先を確認
Shukai Liu, Chenming Wu, Ying Li, Liangjun Zhang(参考訳) インタラクティブ強化学習は、複雑なロボットタスクの学習に有望である。 しかし、大量のインタラクティブなフィードバックを必要とするため、プロセスは人間中心になる可能性がある。 本稿では,対話型強化学習のフィードバック効率を向上させるために,対の選好の代わりに人間が提供するスコアを利用する新しい手法を提案する。 私たちの重要な洞察は、スコアはペアの好みよりもはるかに多くのデータが得られるということです。 具体的には,スパース報酬環境下での行動方針を訓練するためには,エージェントの全軌道を対話的に得点する必要がある。 学習過程に悪影響を及ぼす人間が与える不安定なスコアを避けるために,適応学習方式を提案する。 これにより、学習パラダイムは不完全なスコアや信頼できないスコアに敏感になる。 ロボットの移動と操作作業の手法を幅広く評価した。 提案手法は, 相互選好学習法と比較して, フィードバックを少なくしながら, スコアから適応学習することで, 最適に近い政策を効率的に学習できることを示す。 ソースコードはhttps://github.com/SSKKai/Interactive-Scoring-IRLで公開されている。

Interactive reinforcement learning has shown promise in learning complex robotic tasks. However, the process can be human-intensive due to the requirement of a large amount of interactive feedback. This paper presents a new method that uses scores provided by humans instead of pairwise preferences to improve the feedback efficiency of interactive reinforcement learning. Our key insight is that scores can yield significantly more data than pairwise preferences. Specifically, we require a teacher to interactively score the full trajectories of an agent to train a behavioral policy in a sparse reward environment. To avoid unstable scores given by humans negatively impacting the training process, we propose an adaptive learning scheme. This enables the learning paradigm to be insensitive to imperfect or unreliable scores. We extensively evaluate our method for robotic locomotion and manipulation tasks. The results show that the proposed method can efficiently learn near-optimal policies by adaptive learning from scores while requiring less feedback compared to pairwise preference learning methods. The source codes are publicly available at https://github.com/SSKKai/Interactive-Scoring-IRL.
翻訳日:2023-08-08 22:22:48 公開日:2023-08-06
# 事前学習は必要なすべて:自閉症スペクトラム障害分類のためのマルチアトラス拡張トランスフォーマフレームワーク

Pretraining is All You Need: A Multi-Atlas Enhanced Transformer Framework for Autism Spectrum Disorder Classification ( http://arxiv.org/abs/2307.01759v2 )

ライセンス: Link先を確認
Lucas Mahler, Qi Wang, Julius Steiglechner, Florian Birk, Samuel Heczko, Klaus Scheffler, Gabriele Lohmann(参考訳) 自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、非定型的認知、感情、社会的パターンを特徴とする精神疾患である。 タイムリーかつ正確な診断は、ASD患者の効果的な介入と改善に不可欠である。 本研究では,Multi-Atlas Enhanced Transformerフレームワーク,METAFormer,ASD分類を提案する。 本フレームワークは, ABIDE I データセットからの静止状態機能的磁気共鳴画像データを用いて, 406 ASD と 476 の典型的制御 (TC) 被験者からなる。 METAFormerはマルチアトラス方式を採用しており、AAL、CC200、DOS160のフラット接続行列が変換器エンコーダの入力となる。 特に,入力からのマスク値の再構成を含む自己教師付き事前学習は,付加的あるいは分離されたトレーニングデータを必要とすることなく,分類性能を著しく向上させる。 階層化クロスバリデーションにより,提案手法の評価を行い,平均精度83.7%,AUCスコア0.832で,ABIDE Iデータセットの最先端性能を上回ることを示す。 私たちのフレームワークのコードはhttps://github.com/Lugges991/METAFormerで利用可能です。

Autism spectrum disorder (ASD) is a prevalent psychiatric condition characterized by atypical cognitive, emotional, and social patterns. Timely and accurate diagnosis is crucial for effective interventions and improved outcomes in individuals with ASD. In this study, we propose a novel Multi-Atlas Enhanced Transformer framework, METAFormer, ASD classification. Our framework utilizes resting-state functional magnetic resonance imaging data from the ABIDE I dataset, comprising 406 ASD and 476 typical control (TC) subjects. METAFormer employs a multi-atlas approach, where flattened connectivity matrices from the AAL, CC200, and DOS160 atlases serve as input to the transformer encoder. Notably, we demonstrate that self-supervised pretraining, involving the reconstruction of masked values from the input, significantly enhances classification performance without the need for additional or separate training data. Through stratified cross-validation, we evaluate the proposed framework and show that it surpasses state-of-the-art performance on the ABIDE I dataset, with an average accuracy of 83.7% and an AUC-score of 0.832. The code for our framework is available at https://github.com/Lugges991/METAFormer
翻訳日:2023-08-08 22:20:56 公開日:2023-08-06
# Pareto-Secure Machine Learning (PSML):フィンガープリントとセキュア推論サービングシステム

Pareto-Secure Machine Learning (PSML): Fingerprinting and Securing Inference Serving Systems ( http://arxiv.org/abs/2307.01292v2 )

ライセンス: Link先を確認
Debopam Sanyal (Georgia Institute of Technology), Jui-Tse Hung (Georgia Institute of Technology), Manav Agrawal (Georgia Institute of Technology), Prahlad Jasti (Georgia Institute of Technology), Shahab Nikkhoo (University of California, Riverside), Somesh Jha (University of Wisconsin-Madison), Tianhao Wang (University of Virginia), Sibin Mohan (George Washington University), Alexey Tumanov (Georgia Institute of Technology)(参考訳) モデル提供システムは、特にリアルタイムウェブアプリケーションで人気が高まっている。 そのようなシステムでは、ユーザはサーバにクエリを送り、望ましいパフォーマンスメトリクス(例えば、望ましい精度、レイテンシ)を指定する。 サーバはバックエンドに一連のモデル(モデルzoo)を保持し、指定されたメトリクスに基づいてクエリを提供する。 本稿では,このようなシステムの安全性,特にモデル抽出攻撃に対する堅牢性について検討する。 既存のブラックボックス攻撃では、推論要求を行うために単一のモデルを繰り返し選択できると仮定している。 現代の推論サービスシステムは、この仮定を破る。 したがって、モデルがサービスシステムによって露呈される抽象層の後ろに隠れているため、被害者モデルを抽出するために直接適用することはできない。 攻撃者は、相互作用しているモデルを特定することができない。 この目的のために,まず,攻撃者が望ましいモデルを連続的にトリガーできるように,クエリ効率のよいフィンガープリントアルゴリズムを提案する。 フィンガープリンティングアルゴリズムを用いて、モデル抽出は、1つの明示されたモデルを攻撃する際に得られたスコアの1\%$以内に忠実度と精度のスコアを持ち、また14.6\%$の精度のゲインと7.7\%のフィデリティのゲインを持つことを示した。 第2に,特定性能指標にノイズを付加することにより,フィンガープリンティングを妨害するノイズベースの防御機構による攻撃対策を行う。 提案された防衛戦略は攻撃の精度と忠実度を最大9.8 %$と4.8 %$に下げる(中規模モデル抽出の場合)。 第3に,提案する防御は,保護レベルとシステムグッドプットとの根本的なトレードオフを生じさせ,許容できるグッドプット(>80\%$)を維持しつつ構成可能かつ重大な被害者モデル抽出保護を実現する。 提案する防御を,オープンソースとして実システムで実装する。

Model-serving systems have become increasingly popular, especially in real-time web applications. In such systems, users send queries to the server and specify the desired performance metrics (e.g., desired accuracy, latency). The server maintains a set of models (model zoo) in the back-end and serves the queries based on the specified metrics. This paper examines the security, specifically robustness against model extraction attacks, of such systems. Existing black-box attacks assume a single model can be repeatedly selected for serving inference requests. Modern inference serving systems break this assumption. Thus, they cannot be directly applied to extract a victim model, as models are hidden behind a layer of abstraction exposed by the serving system. An attacker can no longer identify which model she is interacting with. To this end, we first propose a query-efficient fingerprinting algorithm to enable the attacker to trigger any desired model consistently. We show that by using our fingerprinting algorithm, model extraction can have fidelity and accuracy scores within $1\%$ of the scores obtained when attacking a single, explicitly specified model, as well as up to $14.6\%$ gain in accuracy and up to $7.7\%$ gain in fidelity compared to the naive attack. Second, we counter the proposed attack with a noise-based defense mechanism that thwarts fingerprinting by adding noise to the specified performance metrics. The proposed defense strategy reduces the attack's accuracy and fidelity by up to $9.8\%$ and $4.8\%$, respectively (on medium-sized model extraction). Third, we show that the proposed defense induces a fundamental trade-off between the level of protection and system goodput, achieving configurable and significant victim model extraction protection while maintaining acceptable goodput ($>80\%$). We implement the proposed defense in a real system with plans to open source.
翻訳日:2023-08-08 22:20:36 公開日:2023-08-06
# matspectnet: domain-aware と physical-constrained hyperspectral reconstruction を用いた材料セグメンテーションネットワーク

MatSpectNet: Material Segmentation Network with Domain-Aware and Physically-Constrained Hyperspectral Reconstruction ( http://arxiv.org/abs/2307.11466v3 )

ライセンス: Link先を確認
Yuwen Heng, Yihong Wu, Jiawen Chen, Srinandan Dasmahapatra, Hansung Kim(参考訳) 3チャンネルのrgb画像の正確な材質分割を達成することは、材料の外観にかなりのばらつきがあるため困難である。 複数の波長でサンプリングされたスペクトルのセットである超スペクトル画像は、表面から反射される電磁波の強度の変動がシーンの材料組成に依存するため、理論的に物質識別のための異なる情報を提供する。 しかし, 既存のハイパースペクトルデータセットは, 高密度材料分割作業における画像や材料カテゴリの数が不足しているため, スペクトルカメラによるハイパースペクトル画像の収集・注釈は極めて高価である。 そこで我々は,RGB画像から高スペクトル像を復元した材料を分割する新しいモデルであるMatSpectNetを提案する。 ネットワークは、再構成されたハイパースペクトル画像を制限するために、現代のカメラにおける色知覚の原理を活用し、スペクトル回復データセットから材料セグメンテーションデータセットへのハイパースペクトル再構成機能を一般化するドメイン適応法を採用している。 再構成されたハイパースペクトル画像は、さらに学習応答曲線を用いてフィルタされ、人間の知覚により強化される。 MatSpectNetのパフォーマンスは、LMDデータセットとOpenSurfacesデータセットで評価される。 実験の結果,matspectnetは平均画素精度が1.60%向上し,平均クラス精度が3.42%向上した。 プロジェクトコードは補足資料に添付され、githubで公開される予定だ。

Achieving accurate material segmentation for 3-channel RGB images is challenging due to the considerable variation in a material's appearance. Hyperspectral images, which are sets of spectral measurements sampled at multiple wavelengths, theoretically offer distinct information for material identification, as variations in intensity of electromagnetic radiation reflected by a surface depend on the material composition of a scene. However, existing hyperspectral datasets are impoverished regarding the number of images and material categories for the dense material segmentation task, and collecting and annotating hyperspectral images with a spectral camera is prohibitively expensive. To address this, we propose a new model, the MatSpectNet to segment materials with recovered hyperspectral images from RGB images. The network leverages the principles of colour perception in modern cameras to constrain the reconstructed hyperspectral images and employs the domain adaptation method to generalise the hyperspectral reconstruction capability from a spectral recovery dataset to material segmentation datasets. The reconstructed hyperspectral images are further filtered using learned response curves and enhanced with human perception. The performance of MatSpectNet is evaluated on the LMD dataset as well as the OpenSurfaces dataset. Our experiments demonstrate that MatSpectNet attains a 1.60% increase in average pixel accuracy and a 3.42% improvement in mean class accuracy compared with the most recent publication. The project code is attached to the supplementary material and will be published on GitHub.
翻訳日:2023-08-08 20:38:25 公開日:2023-08-06
# 簡単な検出による量子状態による物体検出とレンジフィンディング

Object detection and rangefinding with quantum states using simple detection ( http://arxiv.org/abs/2307.10785v3 )

ライセンス: Link先を確認
Richard J. Murchie, Jonathan D. Pritchard, John Jeffers(参考訳) 単一レベルが弱い雑音環境において、量子照明は、非同時位相非感受性の偶然数に基づく準最適測定の限界においても、対象物の存在と範囲を決定する際に古典的な照明よりも優れる。 現実的な実験プロトコルによって動機付けされ、簡単な検出器で同時マルチショットデータを解析するための理論的枠組みを提案する。 このアプローチは、見過ごされがちな非結合データを含めることを可能にし、オブジェクトの存在と範囲を推測するキャリブレーションフリーのしきい値を提供し、異なる検出レジーム間の公正な比較を可能にする。 本研究は, 雑音環境下でのターゲット識別を行う際の古典的照明に対する量子の利点を定量化し, 所定の信頼度でターゲットを検出するのに必要なショット数を推定することを含む。

In a noisy environment with weak single levels, quantum illumination can outperform classical illumination in determining the presence and range of a target object even in the limit of sub-optimal measurements based on non-simultaneous, phase-insensitive coincidence counts. Motivated by realistic experimental protocols, we present a theoretical framework for analysing coincident multi-shot data with simple detectors. This approach allows for the often-overlooked non-coincidence data to be included, as well as providing a calibration-free threshold for inferring the presence and range of an object, enabling a fair comparison between different detection regimes. Our results quantify the advantage of quantum over classical illumination when performing target discrimination in a noisy thermal environment, including estimating the number of shots required to detect a target with a given confidence level.
翻訳日:2023-08-08 20:37:12 公開日:2023-08-06
# 事前学習型言語モデルの一般化の改善

Improving Pre-trained Language Models' Generalization ( http://arxiv.org/abs/2307.10457v2 )

ライセンス: Link先を確認
Somayeh Ghanbarzadeh, Hamid Palangi, Yan Huang, Radames Cruz Moreno, and Hamed Khanpour(参考訳) 最先端の事前学習言語モデル(PLM)の再利用可能性はしばしば、その一般化問題によって制限され、トレーニングデータセットと異なる例であるOOD(Out-of-Distribution)/unseenの例で評価すると、その性能が劇的に低下する。 この制限はplmsがスプリアス相関に依存しており、頻繁な例型ではうまく機能するが、一般的な例ではうまく機能しない。 この問題に対処するため,我々は Masked Language Modeling (MLM) トレーニング目標を微調整プロセスに統合して PLM の一般化を向上する Mask-tuning というトレーニング手法を提案する。 総合的な実験により、Mask-tuningは現在の最先端技術を超え、PLMのOODデータセットへの一般化を促進しながら、分散データセットのパフォーマンスを改善している。 この結果から,マスクチューニングにより,見えないデータ上でのPLMの再利用性が向上し,現実のアプリケーションにおいてより実用的で効果的であることが示唆された。

The reusability of state-of-the-art Pre-trained Language Models (PLMs) is often limited by their generalization problem, where their performance drastically decreases when evaluated on examples that differ from the training dataset, known as Out-of-Distribution (OOD)/unseen examples. This limitation arises from PLMs' reliance on spurious correlations, which work well for frequent example types but not for general examples. To address this issue, we propose a training approach called Mask-tuning, which integrates Masked Language Modeling (MLM) training objectives into the fine-tuning process to enhance PLMs' generalization. Comprehensive experiments demonstrate that Mask-tuning surpasses current state-of-the-art techniques and enhances PLMs' generalization on OOD datasets while improving their performance on in-distribution datasets. The findings suggest that Mask-tuning improves the reusability of PLMs on unseen data, making them more practical and effective for real-world applications.
翻訳日:2023-08-08 20:36:31 公開日:2023-08-06
# 新規クラス発見のためのクラス関連知識蒸留

Class-relation Knowledge Distillation for Novel Class Discovery ( http://arxiv.org/abs/2307.09158v2 )

ライセンス: Link先を確認
Gu Peiyan, Zhang Chuyu, Xu Ruiji, He Xuming(参考訳) 既知のクラスからのラベル付きデータに基づく監督なしに新しいクラスを学習することを目的とした,新しいクラス発見の問題に取り組む。 重要な課題は、既知のクラスデータの知識を新しいクラスの学習に転送することである。 従来の手法は主に知識伝達のための共有表現空間の構築に重点を置いており、しばしばクラス関係のモデリングを無視する。 そこで本研究では,既知のクラスで学習されたモデルの予測クラス分布に基づく新しいクラスのクラス関係表現を提案する。 経験的に、そのようなクラス関係は、典型的な発見訓練において、より情報に乏しくなります。 このような情報損失を防止するため,我々のクラス関係表現を利用して新しいクラスの学習を規則化する新しい知識蒸留フレームワークを提案する。 また,新しいクラスにおける各データポイントに対する柔軟な知識蒸留スキームを実現するために,新しいクラスと既知のクラスの意味的類似性に基づいて知識伝達を適応的に促進する正規化のための学習可能な重み付け関数を開発した。 CIFAR100,Stanford Cars,CUB,FGVC-Aircraftデータセットなど,複数のベンチマークにおいて,本手法の有効性と一般化を検証する。 提案手法は, ほぼすべてのベンチマークにおいて, 従来の最先端手法よりも優れた性能を示した。 コードは \href{https://github.com/kleinzcy/cr-kd-ncd}{here} で入手できる。

We tackle the problem of novel class discovery, which aims to learn novel classes without supervision based on labeled data from known classes. A key challenge lies in transferring the knowledge in the known-class data to the learning of novel classes. Previous methods mainly focus on building a shared representation space for knowledge transfer and often ignore modeling class relations. To address this, we introduce a class relation representation for the novel classes based on the predicted class distribution of a model trained on known classes. Empirically, we find that such class relation becomes less informative during typical discovery training. To prevent such information loss, we propose a novel knowledge distillation framework, which utilizes our class-relation representation to regularize the learning of novel classes. In addition, to enable a flexible knowledge distillation scheme for each data point in novel classes, we develop a learnable weighting function for the regularization, which adaptively promotes knowledge transfer based on the semantic similarity between the novel and known classes. To validate the effectiveness and generalization of our method, we conduct extensive experiments on multiple benchmarks, including CIFAR100, Stanford Cars, CUB, and FGVC-Aircraft datasets. Our results demonstrate that the proposed method outperforms the previous state-of-the-art methods by a significant margin on almost all benchmarks. Code is available at \href{https://github.com/kleinzcy/Cr-KD-NCD}{here}.
翻訳日:2023-08-08 20:36:11 公開日:2023-08-06
# 正規化マスクチューニング:事前学習型視覚言語モデルにおける隠れた知識の発見

Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained Vision-Language Models ( http://arxiv.org/abs/2307.15049v2 )

ライセンス: Link先を確認
Kecheng Zheng, Wei Wu, Ruili Feng, Kai Zhu, Jiawei Liu, Deli Zhao, Zheng-Jun Zha, Wei Chen, Yujun Shen(参考訳) プロンプトチューニングとアダプタチューニングは、事前学習された視覚言語モデル(VLM)を様々な下流タスクに転送する大きな可能性を示している。 本研究では,学習可能な選択によってネットワークパラメータをマスキングする,正則化マスクチューニングと呼ばれる新しいタイプのチューニング手法を設計する。 神経経路にインスパイアされた我々は、下流タスクに必要な知識は、既にトレーニング済みの重みの中に存在するが、上流のトレーニング前の段階では隠されていると論じる。 有用な知識を光に戻すために、まず、与えられた下流タスクに重要なパラメータのセットを特定し、次に各パラメータにバイナリマスクをアタッチし、最後にパラメータを凍結して下流データ上のマスクを最適化する。 マスク更新時に,パラメータ選択を正則化する新しい勾配ドロップアウト戦略を導入し,モデルが古い知識を忘れ,下流データにオーバーフィットすることを防止する。 11のデータセットにおける実験結果から,従来の方法よりも一貫性のある優越性が示された。 平均2.56%のパラメータをマスキングすることで、ゼロショットのCLIPと比較して18.73%のパフォーマンス改善を実現しています。 さらに,提案手法は既存のパラメータ効率の高いチューニング手法と相乗的であり,それらの性能を向上させることができる。 プロジェクトページはここにある(https://wuw2019.github.io/R-AMT/)。

Prompt tuning and adapter tuning have shown great potential in transferring pre-trained vision-language models (VLMs) to various downstream tasks. In this work, we design a new type of tuning method, termed as regularized mask tuning, which masks the network parameters through a learnable selection. Inspired by neural pathways, we argue that the knowledge required by a downstream task already exists in the pre-trained weights but just gets concealed in the upstream pre-training stage. To bring the useful knowledge back into light, we first identify a set of parameters that are important to a given downstream task, then attach a binary mask to each parameter, and finally optimize these masks on the downstream data with the parameters frozen. When updating the mask, we introduce a novel gradient dropout strategy to regularize the parameter selection, in order to prevent the model from forgetting old knowledge and overfitting the downstream data. Experimental results on 11 datasets demonstrate the consistent superiority of our method over previous alternatives. It is noteworthy that we manage to deliver 18.73% performance improvement compared to the zero-shot CLIP via masking an average of only 2.56% parameters. Furthermore, our method is synergistic with most existing parameter-efficient tuning methods and can boost the performance on top of them. Project page can be found here (https://wuw2019.github.io/R-AMT/).
翻訳日:2023-08-08 20:15:40 公開日:2023-08-06
# MapNeRF:ドライビングビューシミュレーションのためのニューラルラジアンスフィールドへのマッププリエントの導入

MapNeRF: Incorporating Map Priors into Neural Radiance Fields for Driving View Simulation ( http://arxiv.org/abs/2307.14981v2 )

ライセンス: Link先を確認
Chenming Wu, Jiadai Sun, Zhelun Shen and Liangjun Zhang(参考訳) カメラセンサーのシミュレーションは自動運転にとって重要な課題だ。 ニューラル・ラミアンス・フィールドは、運転シミュレーションにおいてフォトリアリスティックなビューを合成するのに例外的だが、外挿的なビューを生成しない。 本稿では,道路のセマンティックな整合性を持つ軌道外駆動ビューを合成するために,地図先行情報をニューラルラジアンス場に組み込むことを提案する。 重要な洞察は、地図情報は不確実性を持つ放射場の訓練を導く前に活用できるということである。 具体的には、粗面を不確定な情報として利用し、未知のカメラポーズからの不確かさを伴う密度場とワープ深さを監視し、複数視点の一貫性を確保する。 実験の結果,車載カメラシミュレーションにおいて,分散ビューにおける意味的一貫性が得られた。 補足ビデオはhttps://youtu.be/jEQWr-Rfh3Aで見ることができる。

Simulating camera sensors is a crucial task in autonomous driving. Although neural radiance fields are exceptional at synthesizing photorealistic views in driving simulations, they still fail to generate extrapolated views. This paper proposes to incorporate map priors into neural radiance fields to synthesize out-of-trajectory driving views with semantic road consistency. The key insight is that map information can be utilized as a prior to guiding the training of the radiance fields with uncertainty. Specifically, we utilize the coarse ground surface as uncertain information to supervise the density field and warp depth with uncertainty from unknown camera poses to ensure multi-view consistency. Experimental results demonstrate that our approach can produce semantic consistency in deviated views for vehicle camera simulation. The supplementary video can be viewed at https://youtu.be/jEQWr-Rfh3A.
翻訳日:2023-08-08 20:15:17 公開日:2023-08-06
# Floss を用いた周期時系列表現学習の強化:周波数領域正規化アプローチ

Enhancing Representation Learning for Periodic Time Series with Floss: A Frequency Domain Regularization Approach ( http://arxiv.org/abs/2308.01011v2 )

ライセンス: Link先を確認
Chunwei Yang, Xiaoxu Chen, Lijun Sun, Hongyu Yang, Yuankai Wu(参考訳) 時系列解析は様々なアプリケーション領域において基本的な課題であり、深層学習アプローチはこの分野において顕著な性能を示している。 しかし、多くの実世界の時系列データは、既存のディープラーニングベースのソリューションによって適切に捉えられていない重要な周期的または準周期的ダイナミクスを示す。 この結果、関心のある動的振る舞いの完全な表現が得られなくなる。 このギャップに対処するために,周波数領域における学習表現を自動的に規則化するflossと呼ばれる教師なし手法を提案する。 Floss法はまず時系列から主要な周期を自動的に検出する。 その後、周期的シフトとスペクトル密度類似性尺度を用いて、周期的一貫性を持つ有意義な表現を学習する。 さらに、flossは教師なし、半教師なし、教師なしの学習フレームワークの両方に簡単に組み込むことができる。 フロスの有効性を実証するために,時系列分類,予測,異常検出に関する広範囲な実験を行った。 我々はFlossをいくつかの代表的なディープラーニングソリューションに組み込んで、設計選択を正当化し、周期的ダイナミクスを自動的に発見し、最先端のディープラーニングモデルを改善することができることを示す。

Time series analysis is a fundamental task in various application domains, and deep learning approaches have demonstrated remarkable performance in this area. However, many real-world time series data exhibit significant periodic or quasi-periodic dynamics that are often not adequately captured by existing deep learning-based solutions. This results in an incomplete representation of the underlying dynamic behaviors of interest. To address this gap, we propose an unsupervised method called Floss that automatically regularizes learned representations in the frequency domain. The Floss method first automatically detects major periodicities from the time series. It then employs periodic shift and spectral density similarity measures to learn meaningful representations with periodic consistency. In addition, Floss can be easily incorporated into both supervised, semi-supervised, and unsupervised learning frameworks. We conduct extensive experiments on common time series classification, forecasting, and anomaly detection tasks to demonstrate the effectiveness of Floss. We incorporate Floss into several representative deep learning solutions to justify our design choices and demonstrate that it is capable of automatically discovering periodic dynamics and improving state-of-the-art deep learning models.
翻訳日:2023-08-08 20:07:32 公開日:2023-08-06
# human-m3:屋外シーンにおける3次元ポーズ推定のためのマルチビューマルチモーダルデータセット

Human-M3: A Multi-view Multi-modal Dataset for 3D Human Pose Estimation in Outdoor Scenes ( http://arxiv.org/abs/2308.00628v2 )

ライセンス: Link先を確認
Bohao Fan, Siqi Wang, Wenxuan Guo, Wenzhao Zheng, Jianjiang Feng, Jie Zhou(参考訳) 屋外環境における3次元ポーズ推定は近年注目を集めている。 しかし、屋外シーンに関連する一般的な3Dポーズデータセットには多様性が欠けており、主に1種類のモダリティ(RGB画像またはポイントクラウド)しか利用せず、各シーンに1人だけを特徴付けることが多い。 この限られたデータセットインフラストラクチャの範囲は、利用可能なデータの変動をかなり妨げます。 本稿では、屋外シーンのマルチビューRGBビデオだけでなく、対応するポイントクラウドを含む、屋外マルチモーダルマルチビューマルチパーソンヒューマンポーズデータベースであるHuman-M3を提案する。 正確な人間のポーズを得るために,マルチモーダルデータ入力に基づくアルゴリズムを提案する。 これは、屋外のマルチパーソンシーンにおける以前のマルチビューrgbビデオに存在する不正確な人間のローカライズと一致したあいまいさを解消し、信頼できる地上真理アノテーションを生成するロバストなpointcloud検出と追跡の恩恵を受ける。 複数の異なるモダリティアルゴリズムの評価は、このデータベースが将来の研究に挑戦的で適していることを示している。 さらに,マルチモーダルデータ入力に基づく3次元ポーズ推定アルゴリズムを提案し,マルチモーダルデータ入力による3次元ポーズ推定の利点を示す。 コードとデータはhttps://github.com/soullessrobot/Human-M3-Datasetで公開される。

3D human pose estimation in outdoor environments has garnered increasing attention recently. However, prevalent 3D human pose datasets pertaining to outdoor scenes lack diversity, as they predominantly utilize only one type of modality (RGB image or pointcloud), and often feature only one individual within each scene. This limited scope of dataset infrastructure considerably hinders the variability of available data. In this article, we propose Human-M3, an outdoor multi-modal multi-view multi-person human pose database which includes not only multi-view RGB videos of outdoor scenes but also corresponding pointclouds. In order to obtain accurate human poses, we propose an algorithm based on multi-modal data input to generate ground truth annotation. This benefits from robust pointcloud detection and tracking, which solves the problem of inaccurate human localization and matching ambiguity that may exist in previous multi-view RGB videos in outdoor multi-person scenes, and generates reliable ground truth annotations. Evaluation of multiple different modalities algorithms has shown that this database is challenging and suitable for future research. Furthermore, we propose a 3D human pose estimation algorithm based on multi-modal data input, which demonstrates the advantages of multi-modal data input for 3D human pose estimation. Code and data will be released on https://github.com/soullessrobot/Human-M3-Dataset.
翻訳日:2023-08-08 20:07:14 公開日:2023-08-06
# リアクティブシステム内のニューラルネットワークの形式的説明

Formally Explaining Neural Networks within Reactive Systems ( http://arxiv.org/abs/2308.00143v2 )

ライセンス: Link先を確認
Shahaf Bassan, Guy Amir, Davide Corsi, Idan Refaeli, Guy Katz(参考訳) ディープニューラルネットワーク(DNN)は、リアクティブシステムのコントローラとしてますます利用されている。 しかし、DNNは非常に不透明であり、その動作の説明と正当化が難しい。 この問題を軽減するため、DNNが動作させた入力機能を特定できる、説明可能なAI(XAI)技術への関心が高まっている。 既存のXAI技術には2つの制限がある。 (i)彼らはヒューリスティックであり、説明が正しいという正式な保証を与えていない。 (ii) リアクティブシステムとは対照的に、過去の呼び出しとは独立してDNNが呼び出される‘one-shot’システムによく適用されます。 そこで我々は,このギャップを埋め始め,多段階のリアクティブシステムを推論するための形式的DNN検証ベースのXAI手法を提案する。 本稿では,システムの遷移制約を利用して,検証者が探索する探索空間を短縮し,簡潔な説明を効率的に計算する方法を提案する。 自動ナビゲーションの領域における2つの一般的なベンチマークに対するアプローチを評価し,本手法が最小限,最小限の説明の効率的な計算を可能にしたことを観察した。 また,本手法が競合する非検証型XAI技術よりも信頼性の高い形式的説明を生成することを示す。

Deep neural networks (DNNs) are increasingly being used as controllers in reactive systems. However, DNNs are highly opaque, which renders it difficult to explain and justify their actions. To mitigate this issue, there has been a surge of interest in explainable AI (XAI) techniques, capable of pinpointing the input features that caused the DNN to act as it did. Existing XAI techniques typically face two limitations: (i) they are heuristic, and do not provide formal guarantees that the explanations are correct; and (ii) they often apply to ``one-shot'' systems, where the DNN is invoked independently of past invocations, as opposed to reactive systems. Here, we begin bridging this gap, and propose a formal DNN-verification-based XAI technique for reasoning about multi-step, reactive systems. We suggest methods for efficiently calculating succinct explanations, by exploiting the system's transition constraints in order to curtail the search space explored by the underlying verifier. We evaluate our approach on two popular benchmarks from the domain of automated navigation; and observe that our methods allow the efficient computation of minimal and minimum explanations, significantly outperforming the state of the art. We also demonstrate that our methods produce formal explanations that are more reliable than competing, non-verification-based XAI techniques.
翻訳日:2023-08-08 20:06:29 公開日:2023-08-06
# ロングテール認識のための新しいクラス発見

Novel Class Discovery for Long-tailed Recognition ( http://arxiv.org/abs/2308.02989v1 )

ライセンス: Link先を確認
Zhang Chuyu, Xu Ruijie, He Xuming(参考訳) 新たなクラス発見は大きな成功を収めたが、既存の手法は通常、バランスの取れたデータセット上でアルゴリズムを評価する。 しかしながら,実世界の視覚認識タスクでは,データセットのクラス分布が長いことが多いため,その適用が難しい。 本稿では,新しいクラスと既知のクラスの分布が長い,新しいクラス発見のためのより現実的な設定を提案する。 この新しい問題の課題は、不均衡なクラスシナリオの下で既知のクラスの助けを借りて、新しいクラスを見つけることである。 不均衡な新規クラスを効率的に発見するために,同型プロトタイプ表現に基づく適応型自己ラベル戦略を提案する。 本手法は, 緩和した最適移動問題を解き, 既知のクラスや新しいクラスを学習する際のバイアスを効果的に軽減することにより, 新たなクラスに対するより良い擬似ラベルを推定する。 CIFAR100, ImageNet100, 挑戦的なHerbarium19および大規模iNaturalist18データセットの広範な結果から, 本手法の優位性が確認された。

While the novel class discovery has achieved great success, existing methods usually evaluate their algorithms on balanced datasets. However, in real-world visual recognition tasks, the class distribution of a dataset is often long-tailed, making it challenging to apply those methods. In this paper, we propose a more realistic setting for novel class discovery where the distribution of novel and known classes is long-tailed. The challenge of this new problem is to discover novel classes with the help of known classes under an imbalanced class scenario. To discover imbalanced novel classes efficiently, we propose an adaptive self-labeling strategy based on an equiangular prototype representation. Our method infers better pseudo-labels for the novel classes by solving a relaxed optimal transport problem and effectively mitigates the biases in learning the known and novel classes. The extensive results on CIFAR100, ImageNet100, and the challenging Herbarium19 and large-scale iNaturalist18 datasets demonstrate the superiority of our method.
翻訳日:2023-08-08 17:31:42 公開日:2023-08-06
# 糖尿病網膜症検出のための畳み込みニューラルネットワークの特徴注意モジュールの導入

Introducing Feature Attention Module on Convolutional Neural Network for Diabetic Retinopathy Detection ( http://arxiv.org/abs/2308.02985v1 )

ライセンス: Link先を確認
Susmita Ghosh and Abhiroop Chatterjee(参考訳) 糖尿病網膜症(DR)は糖尿病患者の視覚障害の主要な原因である。 深層学習モデルでは,DRの自動検出において有望な結果が得られている。本研究では,特徴注意モジュールと事前学習されたVGG19畳み込みニューラルネットワーク(CNN)を統合し,より正確なDR検出を行う手法を提案する。 ここで、予め訓練されたネットは、提案する特徴注目ブロックで微調整される。 提案モジュールは, CNNの識別能力を高めるために, 各種の眼底画像の相補的情報を活用することを目的としている。 上記の特徴注意モジュールには、画像から顕著な特徴を選択的に強調表示し、元の入力と融合するアテンション機構が組み込まれている。 特徴に対する注意重みの同時学習と、特徴注意ブロック内の注意調整された特徴の組み合わせにより、ネットワークが関連する情報に集中でき、ノイズや無関係な特徴の影響を低減できる。 提案手法の性能は,APTOS (Asia Pacific Tele-Ophthalmology Society) DRデータセットなどの糖尿病網膜症分類用データセットで評価されている。 結果は、注目モジュールや、他の最先端のアプローチと比較される。 その結果、融合モジュールの導入(CNNによる特徴注意モジュールの使用)により、95.70%の精度でDR検出の精度が向上することが確認された。

Diabetic retinopathy (DR) is a leading cause of blindness among diabetic patients. Deep learning models have shown promising results in automating the detection of DR. In the present work, we propose a new methodology that integrates a feature attention module with a pretrained VGG19 convolutional neural network (CNN) for more accurate DR detection. Here, the pretrained net is fine-tuned with the proposed feature attention block. The proposed module aims to leverage the complementary information from various regions of fundus images to enhance the discriminative power of the CNN. The said feature attention module incorporates an attention mechanism which selectively highlights salient features from images and fuses them with the original input. The simultaneous learning of attention weights for the features and thereupon the combination of attention-modulated features within the feature attention block facilitates the network's ability to focus on relevant information while reducing the impact of noisy or irrelevant features. Performance of the proposed method has been evaluated on a widely used dataset for diabetic retinopathy classification e.g., the APTOS (Asia Pacific Tele-Ophthalmology Society) DR Dataset. Results are compared with/without attention module, as well as with other state-of-the-art approaches. Results confirm that the introduction of the fusion module (fusing of feature attention module with CNN) improves the accuracy of DR detection achieving an accuracy of 95.70%.
翻訳日:2023-08-08 17:31:26 公開日:2023-08-06
# 画像異常検出のための相関内および相関間学習

Focus the Discrepancy: Intra- and Inter-Correlation Learning for Image Anomaly Detection ( http://arxiv.org/abs/2308.02983v1 )

ライセンス: Link先を確認
Xincheng Yao and Ruoqi Li and Zefeng Qian and Yan Luo and Chongyang Zhang(参考訳) 人間は2つの側面を通して異常を認識する:より大きなパッチ単位の表現の不一致とより弱いパッチ対正規パッチの相関。 しかし、以前のAD方式はADモデルを設計する2つの相補的な側面を十分に組み合わせていなかった。 この目的のために、transformerはパッチ毎の表現とパッチ対パッチの相関の統一モデリングにおいて、その大きな力として2つの側面を理想的に満たせることを見出します。 本稿では,新たなADフレームワークであるFOcus-the-Discrepancy(FOD)を提案する。 本手法の主な特徴は, トランスフォーマタにおける自己アテンションマップを相互相関(i2相関)に再構成することである。 i2相関は、まず画像内および画像間相関を明示的に確立し、次に2分岐の特徴を融合して異常パターンをスポットライトする2分岐構造を含む。 自己教師付き学習のための学習目標として,rbf-kernelに基づく目標相関を提案する。 さらに,最適化におけるモード崩壊問題を解くためのエントロピー制約戦略を導入し,正常-異常判別性をさらに増幅する。 3つの非教師付き実世界のADベンチマークに対する大規模な実験は、我々のアプローチの優れた性能を示している。 コードはhttps://github.com/xcyao00/fodで入手できる。

Humans recognize anomalies through two aspects: larger patch-wise representation discrepancies and weaker patch-to-normal-patch correlations. However, the previous AD methods didn't sufficiently combine the two complementary aspects to design AD models. To this end, we find that Transformer can ideally satisfy the two aspects as its great power in the unified modeling of patch-wise representations and patch-to-patch correlations. In this paper, we propose a novel AD framework: FOcus-the-Discrepancy (FOD), which can simultaneously spot the patch-wise, intra- and inter-discrepancies of anomalies. The major characteristic of our method is that we renovate the self-attention maps in transformers to Intra-Inter-Correlation (I2Correlation). The I2Correlation contains a two-branch structure to first explicitly establish intra- and inter-image correlations, and then fuses the features of two-branch to spotlight the abnormal patterns. To learn the intra- and inter-correlations adaptively, we propose the RBF-kernel-based target-correlations as learning targets for self-supervised learning. Besides, we introduce an entropy constraint strategy to solve the mode collapse issue in optimization and further amplify the normal-abnormal distinguishability. Extensive experiments on three unsupervised real-world AD benchmarks show the superior performance of our approach. Code will be available at https://github.com/xcyao00/FOD.
翻訳日:2023-08-08 17:31:02 公開日:2023-08-06
# 第1印象を超えて: 総合的3次元表現のための統合型マルチモーダルキューの統合

Beyond First Impressions: Integrating Joint Multi-modal Cues for Comprehensive 3D Representation ( http://arxiv.org/abs/2308.02982v1 )

ライセンス: Link先を確認
Haowei Wang, Jiji Tang, Jiayi Ji, Xiaoshuai Sun, Rongsheng Zhang, Yiwei Ma, Minda Zhao, Lincheng Li, zeng zhao, Tangjie Lv, Rongrong Ji(参考訳) 近年,データの不足を克服するために,3次元表現学習が2次元視覚言語事前学習モデルに転換されている。 しかし、既存の手法では2Dアライメント戦略を単純に伝達し、単一ビューの2D画像と粗い親カテゴリテキストに3D表現を整列させる。 これらのアプローチは、情報劣化と相乗効果の不十分な問題を導入し、性能を損なう。 情報劣化は、3D表現が一連の多視点画像とよりきめ細かなサブカテゴリテキストと等価であるべきという事実から生じる。 十分でないシナジーは、ロバストな3次元表現はそれぞれのモダリティと独立に整合するのではなく、共同視覚言語空間と整合するべきだという考えを無視している。 本稿では,jm3dと呼ばれる多視点共同モダリティモデリング手法を提案し,ポイントクラウド,テキスト,画像の統一表現を得る。 具体的には, 情報劣化問題に対処するために, 視覚表現と言語モダリティを豊かにするために, 連続した多視点画像と階層テキストを導入する新しい構造化マルチモーダルオーガナイザ (smo) を提案する。 ジョイント・マルチモーダルアライメント(jma)は、視覚モダリティに言語知識を取り入れることでジョイントモダリティをモデル化する、不十分なシナジー問題に対処するために設計された。 ModelNet40 と ScanObjectNN の大規模実験により,提案手法 JM3D の有効性が実証された。 JM3Dは、ポイントMLPでULIPを約4.3%上回り、ModelNet40でゼロショットの3D分類を行うため、ポイントネット++で最大6.5%の精度向上を実現している。 すべての実験のソースコードとトレーニングされたモデルは、https://github.com/mr-neko/jm3dで公開されています。

In recent years, 3D representation learning has turned to 2D vision-language pre-trained models to overcome data scarcity challenges. However, existing methods simply transfer 2D alignment strategies, aligning 3D representations with single-view 2D images and coarse-grained parent category text. These approaches introduce information degradation and insufficient synergy issues, leading to performance loss. Information degradation arises from overlooking the fact that a 3D representation should be equivalent to a series of multi-view images and more fine-grained subcategory text. Insufficient synergy neglects the idea that a robust 3D representation should align with the joint vision-language space, rather than independently aligning with each modality. In this paper, we propose a multi-view joint modality modeling approach, termed JM3D, to obtain a unified representation for point cloud, text, and image. Specifically, a novel Structured Multimodal Organizer (SMO) is proposed to address the information degradation issue, which introduces contiguous multi-view images and hierarchical text to enrich the representation of vision and language modalities. A Joint Multi-modal Alignment (JMA) is designed to tackle the insufficient synergy problem, which models the joint modality by incorporating language knowledge into the visual modality. Extensive experiments on ModelNet40 and ScanObjectNN demonstrate the effectiveness of our proposed method, JM3D, which achieves state-of-the-art performance in zero-shot 3D classification. JM3D outperforms ULIP by approximately 4.3% on PointMLP and achieves an improvement of up to 6.5% accuracy on PointNet++ in top-1 accuracy for zero-shot 3D classification on ModelNet40. The source code and trained models for all our experiments are publicly available at https://github.com/Mr-Neko/JM3D.
翻訳日:2023-08-08 17:30:39 公開日:2023-08-06
# KK\bar{K}$系における電荷と質量対称性の破れ

The charge and mass symmetry breaking in the $KK\bar{K}$ system ( http://arxiv.org/abs/2308.02980v1 )

ライセンス: Link先を確認
Igor Filikhin, Roman Ya. Kezerashvili, and Branislav Vlahovic(参考訳) 構成空間におけるファドデフ方程式の枠組みにおいて、$K$(1460)中間子を$KK\bar{K}$カオニック系の共鳴状態として検討する。 K^{0}K^{+}K^{-}$と$K^{0}K^{+}\overline{{K}^{0}}$の2つのモデルで計算を行う。 これらのモデルは、カオン質量差と$k^{+}k^{-}$対の間の魅力的なクーロン力の扱いが異なる。 クーロンシフトは3体結合エネルギーに1MeVを超えることが判明した。 質量再分配による結合エネルギーに対する予測された補正は、相対的な質量補正の最大6\%まで無視できる。 同時に、質量比値に応じて波動関数の対称性が歪む。 我々は、KK$の相互作用が、$K$と$K$の相互作用のパラメータ集合によって、$K$の結合エネルギーに不可欠な役割を担い、中立な$K^{0}$(1460)に対して1461.8または1464.1MeV、荷電された$K^{+}$(1460)共鳴に対して1466.5または1468.8MeVの質量を報告している。

In the framework of the Faddeev equations in configuration space, we investigate the $K$(1460) meson as a resonant state of the $KK\bar{K}$ kaonic system. We perform calculations for the particle configurations $K^{0}K^{+}K^{-}$ and $K^{0}K^{+}\overline{{K}^{0}}$ within two models: the $ABC $ model, in which all three particles are distinguishable, and the $AAC$ model when two particles are identical. The models differ in their treatment of the kaon mass difference and the attractive Coulomb force between the $K^{+}K^{-}$ pair. We found that the Coulomb shift adds over 1 MeV to the three-body binding energy. The expected correction to the binding energy due to mass redistribution from $AA$ to $AB$ is found to be negligible, up to a maximum of 6\% of the relative mass correction. At the same time, the symmetry of the wave function is distorted depending on the mass ratio value. We found that the repulsive $KK$ interaction plays essential role in the binding energy of the $KK\bar K$ system and report the mass of 1461.8 or 1464.1 MeV for the neutral $K^{0}$(1460) and 1466.5 or 1468.8 MeV for the charged $K^{+}$(1460) resonances, respectively, depending on the parameter sets for $KK$ and $K\bar{K}$ interactions.
翻訳日:2023-08-08 17:30:07 公開日:2023-08-06
# スペインの事前訓練BERTモデルと評価データ

Spanish Pre-trained BERT Model and Evaluation Data ( http://arxiv.org/abs/2308.02976v1 )

ライセンス: Link先を確認
Jos\'e Ca\~nete, Gabriel Chaperon, Rodrigo Fuentes, Jou-Hui Ho, Hojin Kang and Jorge P\'erez(参考訳) スペイン語は世界でもトップ5の言語の一つである。 それでも、スペイン語モデルを訓練または評価するリソースを見つけることは容易ではない。 本稿では,このギャップを補うために,スペイン語データにのみ事前学習したBERTベースの言語モデルを提案する。 2つ目の貢献として、guyベンチマークの精神で、スペイン語専用のタスクを単一のリポジトリにまとめました。 事前学習したスペイン語モデルを微調整することで、ほとんどのタスクにおいて、複数の言語コーパスで事前学習された他のBERTベースモデルと比較して、より優れた結果が得られる。 我々は、我々のモデル、事前トレーニングデータ、およびスペインのベンチマークのコンパイルを公開しました。

The Spanish language is one of the top 5 spoken languages in the world. Nevertheless, finding resources to train or evaluate Spanish language models is not an easy task. In this paper we help bridge this gap by presenting a BERT-based language model pre-trained exclusively on Spanish data. As a second contribution, we also compiled several tasks specifically for the Spanish language in a single repository much in the spirit of the GLUE benchmark. By fine-tuning our pre-trained Spanish model, we obtain better results compared to other BERT-based models pre-trained on multilingual corpora for most of the tasks, even achieving a new state-of-the-art on some of them. We have publicly released our model, the pre-training data, and the compilation of the Spanish benchmarks.
翻訳日:2023-08-08 17:29:38 公開日:2023-08-06
# 一般照明下における繰り返しスパイク画像復元

Recurrent Spike-based Image Restoration under General Illumination ( http://arxiv.org/abs/2308.03018v1 )

ライセンス: Link先を確認
Lin Zhu, Yunlong Zheng, Mengyue Geng, Lizhi Wang, Hua Huang(参考訳) Spikeカメラは、バイオインスパイアされた視覚センサーの一種で、高時間分解能(20,000Hz)のスパイクアレイの形で光強度を記録する。 この新しい視覚センサのパラダイムは、高速画像再構成のような多くの視覚タスクに大きな利点をもたらす。 しかし、既存のスパイクベースのアプローチは通常、シーンは十分な光度を持つと仮定し、雨の日や夕暮れのシーンのような多くの現実のシナリオでは利用できない。 よりスパイクベースのアプリケーションシナリオを解き放つために、一般的な照明下でスパイクアレイから鮮明なイメージを復元する最初の試みである、Recurrent Spike-based Image Restoration (RSIR) ネットワークを提案する。 具体的には、異なる照度下でのノイズ分布を正確に記述するために、スパイクカメラのサンプリング過程に応じて物理ベースのスパイクノイズモデルを構築する。 ノイズモデルに基づいて,適応型スパイク変換モジュール,リカレント時間特徴融合モジュール,周波数ベースのスパイクデノージングモジュールからなるrsirネットワークを設計する。 我々のRSIRはスパイクアレイを再帰的に処理し、スパイク時間情報が適切に利用されるようにします。 トレーニングプロセスでは、ノイズモデルに基づいてシミュレーションされたスパイクデータを生成し、ネットワークをトレーニングする。 異なる照度を持つ実世界のデータセットに関する広範な実験は、提案ネットワークの有効性を示している。 コードとデータセットはhttps://github.com/BIT-Vision/RSIRで公開されている。

Spike camera is a new type of bio-inspired vision sensor that records light intensity in the form of a spike array with high temporal resolution (20,000 Hz). This new paradigm of vision sensor offers significant advantages for many vision tasks such as high speed image reconstruction. However, existing spike-based approaches typically assume that the scenes are with sufficient light intensity, which is usually unavailable in many real-world scenarios such as rainy days or dusk scenes. To unlock more spike-based application scenarios, we propose a Recurrent Spike-based Image Restoration (RSIR) network, which is the first work towards restoring clear images from spike arrays under general illumination. Specifically, to accurately describe the noise distribution under different illuminations, we build a physical-based spike noise model according to the sampling process of the spike camera. Based on the noise model, we design our RSIR network which consists of an adaptive spike transformation module, a recurrent temporal feature fusion module, and a frequency-based spike denoising module. Our RSIR can process the spike array in a recursive manner to ensure that the spike temporal information is well utilized. In the training process, we generate the simulated spike data based on our noise model to train our network. Extensive experiments on real-world datasets with different illuminations demonstrate the effectiveness of the proposed network. The code and dataset are released at https://github.com/BIT-Vision/RSIR.
翻訳日:2023-08-08 17:21:25 公開日:2023-08-06
# ラベルフリー腫瘍合成法による膵癌の早期発見と局在

Early Detection and Localization of Pancreatic Cancer by Label-Free Tumor Synthesis ( http://arxiv.org/abs/2308.03008v1 )

ライセンス: Link先を確認
Bowen Li, Yu-Cheng Chou, Shuwen Sun, Hualin Qiao, Alan Yuille, Zongwei Zhou(参考訳) 膵癌の早期発見と局所化は、患者の5年間の生存率を8.5%から20%に引き上げることができる。 人工知能(AI)は、早期に膵腫瘍を検出するために放射線技師を支援する可能性がある。 トレーニングAIモデルには、多数の注釈付きサンプルが必要だが、早期の腫瘍を取得するCTスキャンが利用可能であることには制約がある。 これは、早期の腫瘍はいかなる症状も起こさず、検出が遅れる可能性があり、腫瘍は比較的小さく、ctスキャンでは人間の目にほとんど見えないためである。 そこで本研究では,手動のアノテーションを必要とせず,膵内小膵腫瘍の膨大な例を合成できる腫瘍合成法を開発した。 以上の結果より, 膵腫瘍の総合的検出率は, 感性, 特異性によって測定され, 人工腫瘍で訓練されたAIによって達成された。 さらに,本法は小腫瘍の検出率が高いことが示唆された。 さらに,先進的な段階において,CTスキャンと合成腫瘍,CTスキャンと注釈大腫瘍を併用したAIを訓練した場合,膵腫瘍のボクセルごとのセグメンテーション性能について検討した。 最後に, 合成腫瘍は, 異なる病院のCTスキャン処理において, 腫瘍検出および局所化におけるAIの一般化性を向上することを示した。 総じて,提案する腫瘍合成法は膵癌の早期発見能を向上し,患者の予後を向上させる可能性がある。

Early detection and localization of pancreatic cancer can increase the 5-year survival rate for patients from 8.5% to 20%. Artificial intelligence (AI) can potentially assist radiologists in detecting pancreatic tumors at an early stage. Training AI models require a vast number of annotated examples, but the availability of CT scans obtaining early-stage tumors is constrained. This is because early-stage tumors may not cause any symptoms, which can delay detection, and the tumors are relatively small and may be almost invisible to human eyes on CT scans. To address this issue, we develop a tumor synthesis method that can synthesize enormous examples of small pancreatic tumors in the healthy pancreas without the need for manual annotation. Our experiments demonstrate that the overall detection rate of pancreatic tumors, measured by Sensitivity and Specificity, achieved by AI trained on synthetic tumors is comparable to that of real tumors. More importantly, our method shows a much higher detection rate for small tumors. We further investigate the per-voxel segmentation performance of pancreatic tumors if AI is trained on a combination of CT scans with synthetic tumors and CT scans with annotated large tumors at an advanced stage. Finally, we show that synthetic tumors improve AI generalizability in tumor detection and localization when processing CT scans from different hospitals. Overall, our proposed tumor synthesis method has immense potential to improve the early detection of pancreatic cancer, leading to better patient outcomes.
翻訳日:2023-08-08 17:21:02 公開日:2023-08-06
# 高分解能視覚トランスフォーマによる構造成分と損傷のピクセルレベル同定

High-Resolution Vision Transformers for Pixel-Level Identification of Structural Components and Damage ( http://arxiv.org/abs/2308.03006v1 )

ライセンス: Link先を確認
Kareem Eltouny, Seyedomid Sajedi, and Xiao Liang(参考訳) 視覚検査は主に土木構造物の状態を評価するために使用されるが、近年の無人航空機(UAV)と人工知能の開発により、検査プロセスの速度、安全性、信頼性が向上している。 本研究では,視覚トランスフォーマーとラプラシアピラミッドスケーリングネットワークに基づく意味セグメンテーションネットワークを開発し,高分解能視覚検査画像を効率的に解析する。 検査中に収集された大量の高解像度画像は、調査を遅らせる可能性がある。 また,損傷セグメンテーションにおけるディープラーニングモデルの利用に関する広範な研究も行われているが,高解像度の視覚データ処理は大きな計算困難をもたらす可能性がある。 伝統的に、画像は一様にサンプリングされるか、計算要求に対処するために分割される。 しかし、入力は、薄いひび割れやグローバルなコンテキスト情報など、局所的な詳細を失うリスクがある。 超高解像度アーキテクチャにインスパイアされた我々の視覚トランスフォーマーモデルは、高解像度の画像とマスクを小型化して、計算効率を犠牲にすることなく、貴重な局所特徴とグローバルセマンティクスの両方を保持する。 提案手法は,複数指標を用いた橋梁検査レポート画像のデータセットの総合的な実験により評価されている。

Visual inspection is predominantly used to evaluate the state of civil structures, but recent developments in unmanned aerial vehicles (UAVs) and artificial intelligence have increased the speed, safety, and reliability of the inspection process. In this study, we develop a semantic segmentation network based on vision transformers and Laplacian pyramids scaling networks for efficiently parsing high-resolution visual inspection images. The massive amounts of collected high-resolution images during inspections can slow down the investigation efforts. And while there have been extensive studies dedicated to the use of deep learning models for damage segmentation, processing high-resolution visual data can pose major computational difficulties. Traditionally, images are either uniformly downsampled or partitioned to cope with computational demands. However, the input is at risk of losing local fine details, such as thin cracks, or global contextual information. Inspired by super-resolution architectures, our vision transformer model learns to resize high-resolution images and masks to retain both the valuable local features and the global semantics without sacrificing computational efficiency. The proposed framework has been evaluated through comprehensive experiments on a dataset of bridge inspection report images using multiple metrics for pixel-wise materials detection.
翻訳日:2023-08-08 17:20:37 公開日:2023-08-06
# mctformer+: 弱い教師付き意味セグメンテーションのためのマルチクラストークントランスフォーマ

MCTformer+: Multi-Class Token Transformer for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2308.03005v1 )

ライセンス: Link先を確認
Lian Xu, Mohammed Bennamoun, Farid Boussaid, Hamid Laga, Wanli Ouyang, Dan Xu(参考訳) 本稿では,wsss(weakly supervised semantic segmentation, 弱教師付き意味セグメンテーション)を疑似ラベルとして正確なクラス固有オブジェクトローカライゼーションマップを生成することを目的とした,新しいトランスフォーマフレームワークを提案する。 標準視覚変換器の1クラストークンの付随領域がクラス非依存のローカライゼーションマップに寄与できるという観測に基づいて,複数のクラストークンを学習することでクラス固有のオブジェクトローカライゼーションに対するクラス固有の注意を捕捉するトランスフォーマーモデルの可能性を探る。 マルチクラストークンを組み込んだマルチクラストークン変換器を導入し,パッチトークンとのクラス認識インタラクションを実現する。 これを実現するために,出力クラストークンと接地クラスラベルとの1対1対応を確立するクラス対応トレーニング戦略を考案する。 さらに、識別型クラストークンの学習を強化するために、Contrastive-Class-Token (CCT)モジュールを提案する。 その結果、クラス別オブジェクトローカライゼーションマップは、異なるクラストークンに関連するクラス間アテンションを活用することで、効果的に生成できる。 これらの局在マップをさらに洗練するために,パッチ・ツー・パッチトランスの注意から生じるパッチレベルのペアワイズ親和性の利用を提案する。 さらに,提案フレームワークはクラス活性化マッピング(CAM)手法をシームレスに補完し,PASCAL VOC 2012およびMS COCO 2014データセット上でのWSSS性能を大幅に改善する。 これらの結果は、WSSSのクラストークンの重要性を浮き彫りにする。

This paper proposes a novel transformer-based framework that aims to enhance weakly supervised semantic segmentation (WSSS) by generating accurate class-specific object localization maps as pseudo labels. Building upon the observation that the attended regions of the one-class token in the standard vision transformer can contribute to a class-agnostic localization map, we explore the potential of the transformer model to capture class-specific attention for class-discriminative object localization by learning multiple class tokens. We introduce a Multi-Class Token transformer, which incorporates multiple class tokens to enable class-aware interactions with the patch tokens. To achieve this, we devise a class-aware training strategy that establishes a one-to-one correspondence between the output class tokens and the ground-truth class labels. Moreover, a Contrastive-Class-Token (CCT) module is proposed to enhance the learning of discriminative class tokens, enabling the model to better capture the unique characteristics and properties of each class. As a result, class-discriminative object localization maps can be effectively generated by leveraging the class-to-patch attentions associated with different class tokens. To further refine these localization maps, we propose the utilization of patch-level pairwise affinity derived from the patch-to-patch transformer attention. Furthermore, the proposed framework seamlessly complements the Class Activation Mapping (CAM) method, resulting in significantly improved WSSS performance on the PASCAL VOC 2012 and MS COCO 2014 datasets. These results underline the importance of the class token for WSSS.
翻訳日:2023-08-08 17:20:18 公開日:2023-08-06
# 深部極符号

Deep Polar Codes ( http://arxiv.org/abs/2308.03004v1 )

ライセンス: Link先を確認
Geon Choi and Namyoon Lee(参考訳) 本稿では, 深部極性符号(deep polar code)と呼ばれる, 事前変換された極性符号の新たなクラスを紹介する。 まず,様々な大きさの多層極性変換を利用するディープ極性エンコーダを提案する。 エンコーディングへのアプローチは、コードの重み分布を著しく向上しながら、複雑さの低い実装を可能にする。 さらに,符号化手法はレートプロファイリングの柔軟性を提供し,幅広いコードレートとブロック長を受け入れる。 次に、バックプロパゲーションパリティチェック(SCL-BPC)を用いた逐次キャンセルリストと呼ばれる低複雑さ復号アルゴリズムを提案する。 この復号アルゴリズムは、SCL復号のための多層前変換符号化の逆過程におけるパリティチェック方程式を利用する。 さらに、部分前変換ビットパターンを追加の凍結ビットとして扱い、並列SCLデコーディングを利用する低遅延復号アルゴリズムを提案する。 シミュレーションにより,符号化や復号化の複雑さを抑えつつ,様々な符号レートのブロック誤り率において,既成の極性符号よりも深い極性符号が優れていることを示す。 さらに,周期的冗長性チェック符号と深い極性符号を結合することで,0.4db以内の有限ブロック長容量のメタコンバース境界を実現できることを示す。

In this paper, we introduce a novel class of pre-transformed polar codes, termed as deep polar codes. We first present a deep polar encoder that harnesses a series of multi-layered polar transformations with varying sizes. Our approach to encoding enables a low-complexity implementation while significantly enhancing the weight distribution of the code. Moreover, our encoding method offers flexibility in rate-profiling, embracing a wide range of code rates and blocklengths. Next, we put forth a low-complexity decoding algorithm called successive cancellation list with backpropagation parity checks (SCL-BPC). This decoding algorithm leverages the parity check equations in the reverse process of the multi-layered pre-transformed encoding for SCL decoding. Additionally, we present a low-latency decoding algorithm that employs parallel-SCL decoding by treating partially pre-transformed bit patterns as additional frozen bits. Through simulations, we demonstrate that deep polar codes outperform existing pre-transformed polar codes in terms of block error rates across various code rates under short block lengths, while maintaining low encoding and decoding complexity. Furthermore, we show that concatenating deep polar codes with cyclic-redundancy-check codes can achieve the meta-converse bound of the finite block length capacity within 0.4 dB in some instances.
翻訳日:2023-08-08 17:19:45 公開日:2023-08-06
# cal-sfda:微分可能なキャリブレーションエラーを伴うソースフリーなドメイン適応意味セグメンテーション

Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with Differentiable Expected Calibration Error ( http://arxiv.org/abs/2308.03003v1 )

ライセンス: Link先を確認
Zixin Wang, Yadan Luo, Zhi Chen, Sen Wang, Zi Huang(参考訳) ドメイン適応セマンティックセグメンテーション(domain adaptive semantic segmentation)の流行により、ソースドメインのデータ漏洩(source domain data leak)に関する懸念が高まり、ソースドメインからのプライベート情報がターゲットドメインで不注意に公開される可能性がある。 ソースデータの要求を回避するため、ソースフリードメイン適応は、擬似ラベル高信頼領域への自己学習手法を活用し、ターゲットデータにモデルを適応する実行可能なソリューションとして登場した。 しかしながら、得られた信頼度スコアは、モデル選択と最適化の両方の問題を引き起こす過信とクラス不均衡の問題により、しばしば高いバイアスを受ける。 本稿では,新しいキャリブレーションガイド付きソースフリードメイン適応意味セグメンテーション(cal-sfda)フレームワークを提案する。 中心となる考え方は、セグメンテーション予測から期待されるキャリブレーション誤差(ECE)を推定することであり、モデル一般化能力の強い指標としてラベル付けされていないターゲット領域に役立っている。 推定されたeceスコアは、ソーストレーニングとターゲット適応段階の両方において、モデルトレーニングとフェアセレクションを支援する。 ソースドメイン上でのモデル事前トレーニングでは、LogSumExpのトリックを活用してECEスコアを使用して、適応のための最適なソースチェックポイントを選択することで、ECE目標の識別性を確保する。 ラベルを必要とせずに対象ドメイン上でのECE推定を可能にするため、ECE推定のための値ネットをトレーニングし、安定性のためにBatchNorm層に統計的ウォームアップを適用する。 推定ECEスコアは、適応の進行を肯定的に誘導し、潜在的なエラーの蓄積を抑制することにより、予測の信頼性を判定し、クラスバランスの擬似ラベルを可能にする。 広範に使われている2つの合成-現実的伝達タスクに関する広範囲な実験により、提案手法は、公正なモデル選択基準を持つmIoUの最大5.25%の先行技術を超えることが示されている。

The prevalence of domain adaptive semantic segmentation has prompted concerns regarding source domain data leakage, where private information from the source domain could inadvertently be exposed in the target domain. To circumvent the requirement for source data, source-free domain adaptation has emerged as a viable solution that leverages self-training methods to pseudo-label high-confidence regions and adapt the model to the target data. However, the confidence scores obtained are often highly biased due to over-confidence and class-imbalance issues, which render both model selection and optimization problematic. In this paper, we propose a novel calibration-guided source-free domain adaptive semantic segmentation (Cal-SFDA) framework. The core idea is to estimate the expected calibration error (ECE) from the segmentation predictions, serving as a strong indicator of the model's generalization capability to the unlabeled target domain. The estimated ECE scores, in turn, assist the model training and fair selection in both source training and target adaptation stages. During model pre-training on the source domain, we ensure the differentiability of the ECE objective by leveraging the LogSumExp trick and using ECE scores to select the best source checkpoints for adaptation. To enable ECE estimation on the target domain without requiring labels, we train a value net for ECE estimation and apply statistic warm-up on its BatchNorm layers for stability. The estimated ECE scores assist in determining the reliability of prediction and enable class-balanced pseudo-labeling by positively guiding the adaptation progress and inhibiting potential error accumulation. Extensive experiments on two widely-used synthetic-to-real transfer tasks show that the proposed approach surpasses previous state-of-the-art by up to 5.25% of mIoU with fair model selection criteria.
翻訳日:2023-08-08 17:19:21 公開日:2023-08-06
# SU(1,1)干渉計の感度に及ぼす量子統計の影響

The effect of Quantum Statistics on the sensitivity in an SU(1,1) interferometer ( http://arxiv.org/abs/2308.03002v1 )

ライセンス: Link先を確認
Jie Zeng, Yingxing Ding, Mengyao Zhou, Gao-Feng Jiao, Keye Zhang, L. Q. Chen, Weiping Zhang, and Chun-Hua Yuan(参考訳) su(1,1)干渉計を入力したキャット状態に基づくパラメータ推定の量子拡張に対する光場の量子統計の影響を理論的に検討した。 相感度は、Schr\"{o}dinger cat状態の2つのコヒーレント状態の間の相対位相$\theta$に依存する。 最適感度は、相対位相が$\pi$%、すなわち奇数のコヒーレント状態入力であるときに達成される。 1つのポートに入力されたコヒーレント状態に対して、第2の入力ポートへの奇コヒーレント状態の位相感度は、圧縮された真空状態入力の位相感度よりも劣る。 しかし、損失が存在する場合、シュル"{o}dinger cat状態は、圧縮された真空状態よりも損失に抵抗する。 Schr\"{o}dinger cat state の振幅が増加するにつれて、位相感度の量子化が減少し、これは、Schr\"{o}dinger cat state の量子統計が、準ポアソン統計やスーパーポアソン統計からポアソン統計に傾く傾向があることを示している。

We theoretically study the effect of quantum statistics of the light field on the quantum enhancement of parameter estimation based on cat state input the SU(1,1) interferometer. The phase sensitivity is dependent on the relative phase $\theta$ between two coherent states of Schr\"{o}dinger cat states. The optimal sensitivity is achieved when the relative phase is $\pi$% , i.e., odd coherent states input. For a coherent state input into one port, the phase sensitivity of the odd coherent state into the second input port is inferior to that of the squeezed vacuum state input. However, in the presence of losses the Schr\"{o}dinger cat states are more resistant to loss than squeezed vacuum states. As the amplitude of Schr\"{o}dinger cat states increases, the quantum enhancement of phase sensitivity decreases, which shows that the quantum statistics of Schr\"{o}dinger cat states tends towards Poisson statistics from sub-Poisson statistics or super-Poisson statistics.
翻訳日:2023-08-08 17:18:49 公開日:2023-08-06
# 3次元局所変調UNetを用いた頭蓋内大動脈瘤の弱制御セグメンテーション

Weakly supervised segmentation of intracranial aneurysms using a 3D focal modulation UNet ( http://arxiv.org/abs/2308.03001v1 )

ライセンス: Link先を確認
Amirhossein Rasoulian, Soorena Salari, Yiming Xiao(参考訳) 脳血管障害のリスク評価と治療決定には,未破裂脳動脈瘤(UIAs)の正確な同定と定量化が不可欠である。 3次元磁気共鳴血管造影(MRA)による大動脈瘤の2次元手技による評価は準最適で時間を要する。 自動3D計測は、臨床ワークフローと治療結果に大きな恩恵をもたらす。 しかし、医用画像セグメンテーションにおける大きな問題の1つは、大量の注釈付きデータが必要であることである。 粗いラベルを用いた弱い教師付き学習などの要件を緩和する技術は非常に望ましい。 本稿では,FocalSegNet(FocalSegNet)と呼ばれる新しい3次元焦点変調UNetと条件付き乱数場(CRF)後処理によるUIAの粗いラベルを取得し,Diceスコアが0.68、Hausdorff距離が95%である。 本研究では,最先端の3d unet と swin-unetr に対する提案アルゴリズムの性能を評価し,提案するfocalsegnetの優位性とタスクに対する焦点変調の利点を実証した。

Accurate identification and quantification of unruptured intracranial aneurysms (UIAs) are essential for the risk assessment and treatment decisions of this cerebrovascular disorder. Current assessment based on 2D manual measures of aneurysms on 3D magnetic resonance angiography (MRA) is sub-optimal and time-consuming. Automatic 3D measures can significantly benefit the clinical workflow and treatment outcomes. However, one major issue in medical image segmentation is the need for large well-annotated data, which can be expensive to obtain. Techniques that mitigate the requirement, such as weakly supervised learning with coarse labels are highly desirable. In this paper, we leverage coarse labels of UIAs from time-of-flight MRAs to obtain refined UIAs segmentation using a novel 3D focal modulation UNet, called FocalSegNet and conditional random field (CRF) postprocessing, with a Dice score of 0.68 and 95% Hausdorff distance of 0.95 mm. We evaluated the performance of the proposed algorithms against the state-of-the-art 3D UNet and Swin-UNETR, and demonstrated the superiority of the proposed FocalSegNet and the benefit of focal modulation for the task.
翻訳日:2023-08-08 17:18:31 公開日:2023-08-06
# styleedl: イメージ感情分布学習のためのスタイル誘導高次注意ネットワーク

StyleEDL: Style-Guided High-order Attention Network for Image Emotion Distribution Learning ( http://arxiv.org/abs/2308.03000v1 )

ライセンス: Link先を確認
Peiguang Jing, Xianyi Liu, Ji Wang, Yinwei Wei, Liqiang Nie, Yuting Su(参考訳) 感情分布学習は、イメージを通して感情を表現する傾向から注目を集めている。 人間の主観性から生じる感情のあいまいさについては、主に画像の全体的あるいは重要な部分から適切な表現を学ぶことに焦点を当てていた。 しかし、画像の理解を深めるが、様式的な情報とのつながりを確立することはめったにない。 本稿では,視覚内容の階層的スタイリスティック情報を探索することにより,画像のスタイリスティックな表現を対話的に学習するStyleEDLという画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。 具体的には、グラムに基づくスタイリスティック表現における層内および層間相関について検討し、一方で、敵対的な高次注意機構を利用して微妙な視覚部位間の潜在的な相互作用を捉える。 さらに,コンテンツ依存型感情表現を動的に生成し,最終的な感情分布学習を支援するスタイリスティックグラフ畳み込みネットワークを導入する。 いくつかのベンチマークデータセットで実施された大規模な実験により,提案手法の有効性が示された。 実装は、https://github.com/liuxianyi/StyleEDL.comでリリースされている。

Emotion distribution learning has gained increasing attention with the tendency to express emotions through images. As for emotion ambiguity arising from humans' subjectivity, substantial previous methods generally focused on learning appropriate representations from the holistic or significant part of images. However, they rarely consider establishing connections with the stylistic information although it can lead to a better understanding of images. In this paper, we propose a style-guided high-order attention network for image emotion distribution learning termed StyleEDL, which interactively learns stylistic-aware representations of images by exploring the hierarchical stylistic information of visual contents. Specifically, we consider exploring the intra- and inter-layer correlations among GRAM-based stylistic representations, and meanwhile exploit an adversary-constrained high-order attention mechanism to capture potential interactions between subtle visual parts. In addition, we introduce a stylistic graph convolutional network to dynamically generate the content-dependent emotion representations to benefit the final emotion distribution learning. Extensive experiments conducted on several benchmark datasets demonstrate the effectiveness of our proposed StyleEDL compared to state-of-the-art methods. The implementation is released at: https://github.com/liuxianyi/StyleEDL.
翻訳日:2023-08-08 17:18:08 公開日:2023-08-06
# Web 4.0とWeb 3.0のインテリジェントネットワークインフラストラクチャのギャップ

A Review of Gaps between Web 4.0 and Web 3.0 Intelligent Network Infrastructure ( http://arxiv.org/abs/2308.02996v1 )

ライセンス: Link先を確認
Zihan Zhou, Zihao Li, Xiaoshuai Zhang, Yunqing Sun and Hao Xu(参考訳) world wide webは、web 3.0と今後のweb 4.0のキャンペーンに見られるように、そのペースをインテリジェントで分散化されたエコシステムへとスピードアップしている。 欧州委員会によるweb 4.0に関する最新の言及により、戦略的web 4.0の成功への競争が始まった。 Web 4.0は、オープンでセキュアで信頼できる公正さとデジタルエコシステムを、民間および公共セクターの個人とビジネスにもたらすことを約束している。 Web 3.0 と Web 4.0 を学術的、産業的に見れば重複するスコープと目的にもかかわらず、次世代 WWW には明確な特徴とギャップがある。 このレビューでは、WWW開発に関する簡単な紹介により、より鮮明なWebエクスペリエンスの絡み合った、一貫した要件が明らかになり、社会的および技術的な側面において人間中心のエクスペリエンスが向上する。 さらに、このレビューは、Web 4.0のネイティブAIエンティティに関する分散インテリジェンスを展望し、Web 4.0環境全体に対する持続的で自律的で分散化されたAIサービスを想定し、セルフサステナブルなDecentralized Physical and Software Infrastructure for Computing Force Network、Semantic Network、Virtual/Mixed Reality、およびプライバシー保護コンテンツ推定のパワーを提供する。 このレビューは、Web 4.0が分散化された物理的インフラを活用することに焦点を当てたネイティブインテリジェンスを提供し、Web 4.0とWeb 3.0の間のギャップを、最新のブロックチェーン対応コンピューティングとネットワークルーティングプロトコルで埋めることを目的としている。

World Wide Web is speeding up its pace into an intelligent and decentralized ecosystem, as seen in the campaign of Web 3.0 and forthcoming Web 4.0. Marked by the Europe Commission's latest mention of Web 4.0, a race towards strategic Web 4.0 success has started. Web 4.0 is committed to bringing the next technological transition with an open, secure, trustworthy fairness and digital ecosystem for individuals and businesses in private and public sectors. Despite overlapping scopes and objectives of Web 3.0 and Web 4.0 from academic and industrial perspectives, there are distinct and definitive features and gaps for the next generation of WWW. In this review, a brief introduction to WWW development unravels the entangled but consistent requirement of a more vivid web experience, enhancing human-centric experience in both societal and technical aspects. Moreover, the review brings a decentralized intelligence prospect of view on native AI entities for Web 4.0, envisioning sustainable, autonomous and decentralized AI services for the entire Web 4.0 environment, powering a self-sustainable Decentralized Physical and Software Infrastructure for Computing Force Network, Semantic Network, Virtual/Mixed Reality, and Privacy-preserving content presumption. The review aims to reveal that Web 4.0 offers native intelligence with focused thinking on utilizing decentralized physical infrastructure, in addition to sole requirements on decentralization, bridging the gap between Web 4.0 and Web 3.0 advances with the latest future-shaping blockchain-enabled computing and network routing protocols.
翻訳日:2023-08-08 17:17:47 公開日:2023-08-06
# オンチップ非線形および量子光学のための解釈可能な逆設計キャビティ

Interpretable inverse-designed cavity for on-chip nonlinear and quantum optics ( http://arxiv.org/abs/2308.03036v1 )

ライセンス: Link先を確認
Zhetao Jia, Wayesh Qarony, Jagang Park, Sean Hooten, Difan Wen, Yertay Zhiyenbayev, Matteo Secl\`i, Walid Redjem, Scott Dhuey, Adam Schwartzberg, Eli Yablonovitch, and Boubacar Kant\'e(参考訳) 逆設計は波動物理学、特にコンパクトで高性能なデバイスのためのフォトニクスにおいて強力なツールである。 これまで、応用は主に線形系に限定されており、非線形系で研究や実証されることはほとんどない。 さらに、逆設計技法の「ブラックボックス」の性質は、最適化された逆設計構造の理解を妨げている。 実効位相マッチング条件を制御し,非線形プロセスによるオンチップ光子生成効率を向上させるために,解釈可能な結果を持つ逆設計法を提案する。 自発的4波混合プロセスによって光子対を1.1mhzで生成できるシリコン・オン・インシュレータ・プラットフォームを用いて、偶然比162の偶然の一致でコンパクトな逆設計デバイスを作成し、特徴付けする。 設計手法は製造制約を考慮し,大規模通信および計算アプリケーションにおいてスケーラブルな量子光源として使用できる。

Inverse design is a powerful tool in wave-physics and in particular in photonics for compact, high-performance devices. To date, applications have mostly been limited to linear systems and it has rarely been investigated or demonstrated in the nonlinear regime. In addition, the "black box" nature of inverse design techniques has hindered the understanding of optimized inverse-designed structures. We propose an inverse design method with interpretable results to enhance the efficiency of on-chip photon generation rate through nonlinear processes by controlling the effective phase-matching conditions. We fabricate and characterize a compact, inverse-designed device using a silicon-on-insulator platform that allows a spontaneous four-wave mixing process to generate photon pairs at 1.1MHz with a coincidence to accidental ratio of 162. Our design method accounts for fabrication constraints and can be used for scalable quantum light sources in large-scale communication and computing applications.
翻訳日:2023-08-08 17:12:57 公開日:2023-08-06
# 多人数協調不均衡データマイニングのためのサーバレスフェデレーションAUPRC最適化

Serverless Federated AUPRC Optimization for Multi-Party Collaborative Imbalanced Data Mining ( http://arxiv.org/abs/2308.03035v1 )

ライセンス: Link先を確認
Xidong Wu, Zhengmian Hu, Jian Pei, Heng Huang(参考訳) 分散学習や連合学習といった多人数共同トレーニングは、ビッグデータの課題に対処するために使用される。 しかし、従来の多人数協調学習アルゴリズムは主にバランスの取れたデータマイニングタスクのために設計され、精度を最適化することを目的としている(\emph{e.} クロスエントロピー)。 多くの実世界のアプリケーションにおけるデータ分散は歪んでおり、精度向上のために訓練された分類器は、モデルがプライマリクラスにかなり偏りがあるため、不均衡なデータタスクに適用されると性能が低下する。 そのため、精度再呼曲線(auprc)の面積を有効指標として導入した。 シングルマシン AUPRC の最大化法は設計されているが、多人数協調アルゴリズムは研究されていない。 シングルマシンからマルチパーティ設定への変更は、重要な課題となる。 この課題に対処するために、サーバーレスマルチパーティ協調学習は、サーバーノードボトルネックを回避して通信コストを削減できるため、サーバーレスマルチパーティ協調学習環境における条件確率最適化問題として再編成し、AUPRCを直接最適化する新しいServerLess biAsed sTochastic gradiEnt (SLATE)アルゴリズムを提案する。 その後、分散低減手法を用いて、単一マシンのオンライン手法で到達した最良の理論的収束結果と一致する収束率を改善するために、モメンタムに基づく分散還元(SLATE-M)アルゴリズムを用いた ServerLess biAsed sTochastic gradiEntを提案する。 我々の知る限りでは、これはマルチパーティ共同AUPRCの最大化問題を解く最初の試みである。

Multi-party collaborative training, such as distributed learning and federated learning, is used to address the big data challenges. However, traditional multi-party collaborative training algorithms were mainly designed for balanced data mining tasks and are intended to optimize accuracy (\emph{e.g.}, cross-entropy). The data distribution in many real-world applications is skewed and classifiers, which are trained to improve accuracy, perform poorly when applied to imbalanced data tasks since models could be significantly biased toward the primary class. Therefore, the Area Under Precision-Recall Curve (AUPRC) was introduced as an effective metric. Although single-machine AUPRC maximization methods have been designed, multi-party collaborative algorithm has never been studied. The change from the single-machine to the multi-party setting poses critical challenges. To address the above challenge, we study the serverless multi-party collaborative AUPRC maximization problem since serverless multi-party collaborative training can cut down the communications cost by avoiding the server node bottleneck, and reformulate it as a conditional stochastic optimization problem in a serverless multi-party collaborative learning setting and propose a new ServerLess biAsed sTochastic gradiEnt (SLATE) algorithm to directly optimize the AUPRC. After that, we use the variance reduction technique and propose ServerLess biAsed sTochastic gradiEnt with Momentum-based variance reduction (SLATE-M) algorithm to improve the convergence rate, which matches the best theoretical convergence result reached by the single-machine online method. To the best of our knowledge, this is the first work to solve the multi-party collaborative AUPRC maximization problem.
翻訳日:2023-08-08 17:12:46 公開日:2023-08-06
# FourLLIE:フーリエ周波数情報による低光画像強調

FourLLIE: Boosting Low-Light Image Enhancement by Fourier Frequency Information ( http://arxiv.org/abs/2308.03033v1 )

ライセンス: Link先を確認
Chenxi Wang, Hongjun Wu, Zhi Jin(参考訳) 近年,低照度画像強調(LLIE)においてフーリエ周波数情報が注目されている。 一部の研究者はフーリエ空間において、光度低下は主に振幅成分に存在し、残りは位相成分に存在することに気付いた。 これらの研究者は、フーリエ周波数と空間情報の両方を取り入れることで、LLIEの優れた解を提案した。 本研究では,フーリエ空間における低光度画像の光度向上に効果的に活用できる振幅の大きさと光度の大きさとの正の相関について検討する。 さらに、フーリエ変換は画像のグローバルな情報を抽出することができ、マルチ層パーセプトロン(MLP)やトランスフォーマーのような巨大なニューラルネットワークパラメータを導入しないことがわかった。 この目的のために,2段階のフーリエベースLLIEネットワーク(FourLLIE)を提案する。 第1段階では、フーリエ空間の振幅変換マップを推定することにより、低照度画像の明るさを改善する。 第2段階では,snr(signal-to-noise-ratio)マップを導入し,大域フーリエ周波数と局所空間情報を統合し,空間空間内の画像詳細を復元する。 この巧妙な設計により、FourLLIEは4つの代表的なデータセット上で既存の最先端(SOTA)LLIEメソッドよりも優れ、優れたモデル効率を維持している。

Recently, Fourier frequency information has attracted much attention in Low-Light Image Enhancement (LLIE). Some researchers noticed that, in the Fourier space, the lightness degradation mainly exists in the amplitude component and the rest exists in the phase component. By incorporating both the Fourier frequency and the spatial information, these researchers proposed remarkable solutions for LLIE. In this work, we further explore the positive correlation between the magnitude of amplitude and the magnitude of lightness, which can be effectively leveraged to improve the lightness of low-light images in the Fourier space. Moreover, we find that the Fourier transform can extract the global information of the image, and does not introduce massive neural network parameters like Multi-Layer Perceptrons (MLPs) or Transformer. To this end, a two-stage Fourier-based LLIE network (FourLLIE) is proposed. In the first stage, we improve the lightness of low-light images by estimating the amplitude transform map in the Fourier space. In the second stage, we introduce the Signal-to-Noise-Ratio (SNR) map to provide the prior for integrating the global Fourier frequency and the local spatial information, which recovers image details in the spatial space. With this ingenious design, FourLLIE outperforms the existing state-of-the-art (SOTA) LLIE methods on four representative datasets while maintaining good model efficiency.
翻訳日:2023-08-08 17:11:54 公開日:2023-08-06
# モンテカルロ法によるデバイス非依存量子鍵分布のセキュリティ評価

Monte Carlo approach to evaluation of the security of device-independent quantum key distribution ( http://arxiv.org/abs/2308.03030v1 )

ライセンス: Link先を確認
Hong-Yi Su(参考訳) 本稿では,多セットデバイス非依存の量子鍵分布プロトコル,すなわち,各パーティが実行すべき2つ以上の測定(あるいは入力)と2コトミックな結果(あるいは出力)に関する情報理論のセキュリティに関する総合的研究を行う。 開発したアプローチは、対称または非対称ベル実験のいずれかのプロトコルに適用すると、測定装置の最小検出効率とともに、セキュアな鍵レートの非自明な推定値が得られる。 その結果,測定回数の増加は,セキュリティ基準で要求される最小限の効率を低下させる可能性が示唆された。 しかし、改善は、しかしながら、 (i)プロトコルでテスト対象に選ばれた複数セットベル不等式の選択、 2) 対称または非対称ベル実験が考慮されるか否か。 最近の論文[J]と比較すると。 R. Gonzales-Ureta, A. Predojevi\'c, A. Cabello, Phys A 103, 052436 (2021)] で、我々は2出力プロトコルを心配している。 本研究は,デバイス非依存の量子鍵分布をヘラルドを使わずに適用するためのセキュリティ評価と効率要件の低減に向けた取り組みである。

We present a generic study on the information-theoretic security of multi-setting device-independent quantum key distribution protocols, i.e., ones that involve more than two measurements (or inputs) for each party to perform, and yield dichotomic results (or outputs). The approach we develop, when applied in protocols with either symmetric or asymmetric Bell experiments, yields nontrivial estimates of the secure key rates, along with those of the minimum detection efficiencies of the measuring devices. The results imply that increasing the number of measurements may lower the minimum efficiency required by the security criterion. The improvement, however, depends on (i) the choice of multi-setting Bell inequalities chosen to be tested in a protocol, and (ii) whether a symmetric or asymmetric Bell experiment is considered. In comparison with a recent paper [J. R. Gonzales-Ureta, A. Predojevi\'c, and A. Cabello, Phys. Rev. A 103, 052436 (2021)], we concern ourselves with the two-output protocols. Our results serve as an advance toward the quest for evaluating security and reducing efficiency requirement of applying device-independent quantum key distribution in scenarios without heralding.
翻訳日:2023-08-08 17:11:06 公開日:2023-08-06
# brighten-and-colorize:低光度画像強調のためのデカップリングネットワーク

Brighten-and-Colorize: A Decoupled Network for Customized Low-Light Image Enhancement ( http://arxiv.org/abs/2308.03029v1 )

ライセンス: Link先を確認
Chenxi Wang, Zhi Jin(参考訳) low-light image enhancement (llie) は、低光度で撮影された画像の知覚的品質を改善することを目的としている。 一般的に、低照度画像を光度成分と彩色成分に分けることができる。 この領域の最近の進歩は、主に色覚の役割を無視しながら、明るさの洗練に焦点を当てている。 これは容易に色収差をもたらし、ある程度はカスタマイズされたllieにおける多彩な色差の応用を制限する。 本稿では,llieに画像カラー化を導入する 'brighten-and-colorize' ネットワーク (bcnet) を提案する。 bcnetは正確な色でllieを実現できると同時に、ユーザの好みに応じて彩度や色のスタイルをカスタマイズできる。 特にbcnetでは、llieをマルチタスク学習問題として、鮮やかさと色付けを挙げている。 明るいサブタスクは、他の従来のLLIEメソッドと一致して、明るい光度を得る。 カラー化サブタスクは、ユーザガイド画像のカラー化のようなカラーガイダンスとして、低光画像の彩色について行う。 モデルトレーニングが完了すると、色指導(入力低光度クロミナンス)は、ユーザーがカスタマイズした結果を得るために単純に操作できる。 このカスタマイズされたプロセスはオプションであり、分離された性質のため、光度の構造と詳細な情報を損なわない。 LLIEデータセットの大規模な実験により,提案手法はステートオフ・ザ・アート(SOTA)性能とユーザフレンドリなカスタマイズの両方を達成することが示された。

Low-Light Image Enhancement (LLIE) aims to improve the perceptual quality of an image captured in low-light conditions. Generally, a low-light image can be divided into lightness and chrominance components. Recent advances in this area mainly focus on the refinement of the lightness, while ignoring the role of chrominance. It easily leads to chromatic aberration and, to some extent, limits the diverse applications of chrominance in customized LLIE. In this work, a ``brighten-and-colorize'' network (called BCNet), which introduces image colorization to LLIE, is proposed to address the above issues. BCNet can accomplish LLIE with accurate color and simultaneously enables customized enhancement with varying saturations and color styles based on user preferences. Specifically, BCNet regards LLIE as a multi-task learning problem: brightening and colorization. The brightening sub-task aligns with other conventional LLIE methods to get a well-lit lightness. The colorization sub-task is accomplished by regarding the chrominance of the low-light image as color guidance like the user-guide image colorization. Upon completion of model training, the color guidance (i.e., input low-light chrominance) can be simply manipulated by users to acquire customized results. This customized process is optional and, due to its decoupled nature, does not compromise the structural and detailed information of lightness. Extensive experiments on the commonly used LLIE datasets show that the proposed method achieves both State-Of-The-Art (SOTA) performance and user-friendly customization.
翻訳日:2023-08-08 17:10:34 公開日:2023-08-06
# 産業制御のための事前学習型大規模言語モデル

Pre-Trained Large Language Models for Industrial Control ( http://arxiv.org/abs/2308.03028v1 )

ライセンス: Link先を確認
Lei Song, Chuheng Zhang, Li Zhao, Jiang Bian(参考訳) 産業制御においては,サンプルが少なく,技術的負債の少ない高性能コントローラの開発が注目されている。 インターネットスケールコーパスの事前学習から得られる豊富な事前知識を持つ基礎モデルは、適切なプロンプトを持つ優れたコントローラとなる可能性を持っている。 本稿では, HVAC (Heating, Ventilation, Air Conditioning) ビルの制御を例として, GPT-4 (第1階層基礎モデルの1つ) の制御機能について検討する。 HVACを制御するために、タスクの短い記述、いくつかの選択されたデモ、そして現在の観察を各ステップでGPT-4に提供し、GPT-4で応答するアクションを実行することで、言語ゲームとしてタスクをラップする。 1) gpt-4はどのようにしてhvacを制御できるのか? 2) GPT-4 は HVAC 制御の異なるシナリオにどの程度一般化できるのか? 3) テキストコンテキストのどの部分がパフォーマンスに影響するのか? 一般論として, GPT-4はサンプルが少なく, 技術的負債が少ないRL法に匹敵する性能を示し, 産業制御タスクに基礎モデルを直接適用する可能性を示した。

For industrial control, developing high-performance controllers with few samples and low technical debt is appealing. Foundation models, possessing rich prior knowledge obtained from pre-training with Internet-scale corpus, have the potential to be a good controller with proper prompts. In this paper, we take HVAC (Heating, Ventilation, and Air Conditioning) building control as an example to examine the ability of GPT-4 (one of the first-tier foundation models) as the controller. To control HVAC, we wrap the task as a language game by providing text including a short description for the task, several selected demonstrations, and the current observation to GPT-4 on each step and execute the actions responded by GPT-4. We conduct series of experiments to answer the following questions: 1)~How well can GPT-4 control HVAC? 2)~How well can GPT-4 generalize to different scenarios for HVAC control? 3) How different parts of the text context affect the performance? In general, we found GPT-4 achieves the performance comparable to RL methods with few samples and low technical debt, indicating the potential of directly applying foundation models to industrial control tasks.
翻訳日:2023-08-08 17:10:09 公開日:2023-08-06
# 断層診断のための因果解離隠れマルコフモデル

Causal Disentanglement Hidden Markov Model for Fault Diagnosis ( http://arxiv.org/abs/2308.03027v1 )

ライセンス: Link先を確認
Rihao Chang, Yongtao Ma, Weizhi Nie, Jie Nie, An-an Liu(参考訳) 現代の産業では, 予測保守の実現を目的として, 故障診断が広く適用されている。 故障診断システムの主な課題は, 故障信号の代表的な特徴を抽出し, 故障タイプを正確に予測することである。 本稿では, 因果解離型隠れマルコフモデル(CDHM)を提案し, 軸受故障機構の因果関係を学習し, それらの特性を捉えることにより, より堅牢な表現を実現する。 具体的には,時系列データを十分に活用し,振動信号を故障関連要因と故障関連要因に段階的に分離する。 ELBOは、因果不整合マルコフモデルの学習を最適化するために再構成される。 さらに、アプリケーションの範囲を拡大するために、教師なしのドメイン適応を採用し、学習された異種表現を他の作業環境に転送する。 CWRUデータセットとIMSデータセットで実験を行った。 関連する結果は,提案手法の優越性を検証する。

In modern industries, fault diagnosis has been widely applied with the goal of realizing predictive maintenance. The key issue for the fault diagnosis system is to extract representative characteristics of the fault signal and then accurately predict the fault type. In this paper, we propose a Causal Disentanglement Hidden Markov model (CDHM) to learn the causality in the bearing fault mechanism and thus, capture their characteristics to achieve a more robust representation. Specifically, we make full use of the time-series data and progressively disentangle the vibration signal into fault-relevant and fault-irrelevant factors. The ELBO is reformulated to optimize the learning of the causal disentanglement Markov model. Moreover, to expand the scope of the application, we adopt unsupervised domain adaptation to transfer the learned disentangled representations to other working environments. Experiments were conducted on the CWRU dataset and IMS dataset. Relevant results validate the superiority of the proposed method.
翻訳日:2023-08-08 17:09:46 公開日:2023-08-06
# シーンテキストからシーンテキストへの翻訳に向けて

Towards Scene-Text to Scene-Text Translation ( http://arxiv.org/abs/2308.03024v1 )

ライセンス: Link先を確認
Onkar Susladkar, Prajwal Gatti, Anand Mishra(参考訳) 本研究では,シーンテキストをソース言語(例えば英語)からターゲット言語(例えば中国語)へ「視覚的」に翻訳するタスクについて検討する。 視覚的翻訳は、シーンテキストの認識と翻訳だけでなく、フォント、サイズ、背景といったテキストの視覚的特徴を保存する翻訳画像の生成も含んでいる。 このタスクには、フォントを未知の文字に補間したり、テキストサイズや背景を保存するなど、いくつかの課題がある。 そこで本研究では,新しい条件拡散法であるVTNetを紹介する。 VTNetをトレーニングするために、英語、ヒンディー語、タミル語、中国語、ベンガル語、ドイツ語を含む6つのポピュラー言語で600Kのシーンテキスト画像の合成言語間データセットを作成しました。 広汎な実験と関連する手法との比較により,VTnetの性能を評価する。 また,従来のシーンテキスト編集ベンチマークでは,従来の最新結果を上回っていた。 さらに,モデルの強みと欠点を理解するために,厳密な質的研究を行う。 その結果,本手法は未認識の単語やフォントによく適用できることがわかった。 私たちの仕事は、電話カメラを使ったテキスト翻訳や教育資料の翻訳など、現実世界のアプリケーションに利益をもたらすと強く信じています。 コードとデータは公開される予定だ。

In this work, we study the task of ``visually" translating scene text from a source language (e.g., English) to a target language (e.g., Chinese). Visual translation involves not just the recognition and translation of scene text but also the generation of the translated image that preserves visual features of the text, such as font, size, and background. There are several challenges associated with this task, such as interpolating font to unseen characters and preserving text size and the background. To address these, we introduce VTNet, a novel conditional diffusion-based method. To train the VTNet, we create a synthetic cross-lingual dataset of 600K samples of scene text images in six popular languages, including English, Hindi, Tamil, Chinese, Bengali, and German. We evaluate the performance of VTnet through extensive experiments and comparisons to related methods. Our model also surpasses the previous state-of-the-art results on the conventional scene-text editing benchmarks. Further, we present rigorous qualitative studies to understand the strengths and shortcomings of our model. Results show that our approach generalizes well to unseen words and fonts. We firmly believe our work can benefit real-world applications, such as text translation using a phone camera and translating educational materials. Code and data will be made publicly available.
翻訳日:2023-08-08 17:09:31 公開日:2023-08-06
# SAPIEN: 大規模言語モデルによる影響のある仮想エージェント

SAPIEN: Affective Virtual Agents Powered by Large Language Models ( http://arxiv.org/abs/2308.03022v1 )

ライセンス: Link先を確認
Masum Hasan, Cengiz Ozel, Sammy Potter and Ehsan Hoque(参考訳) このデモでは,13の異なる言語でオープンドメインの会話を行ない,表情や音声で感情を表示できる,大規模言語モデルによる高忠実度仮想エージェントのためのプラットフォームであるsapienを紹介する。 このプラットフォームでは、仮想エージェントのパーソナリティ、バックグラウンド、会話の前提をカスタマイズすることができ、リッチで没入的なインタラクションエクスペリエンスを提供する。 さらに、仮想会議の後、ユーザは会話の分析を受け取り、コミュニケーションスキルに対するアクション可能なフィードバックを受け取ることができる。 本稿ではプラットフォームの概要を説明し,エンタテインメントからメンタルヘルス,コミュニケーショントレーニング,言語学習,教育,医療など,この技術のさまざまな応用領域について論じる。 さらに、このような現実的な仮想エージェント表現の倫理的意味と、責任ある使用を確保する上での潜在的な課題についても考察する。

In this demo paper, we introduce SAPIEN, a platform for high-fidelity virtual agents driven by large language models that can hold open domain conversations with users in 13 different languages, and display emotions through facial expressions and voice. The platform allows users to customize their virtual agent's personality, background, and conversation premise, thus providing a rich, immersive interaction experience. Furthermore, after the virtual meeting, the user can choose to get the conversation analyzed and receive actionable feedback on their communication skills. This paper illustrates an overview of the platform and discusses the various application domains of this technology, ranging from entertainment to mental health, communication training, language learning, education, healthcare, and beyond. Additionally, we consider the ethical implications of such realistic virtual agent representations and the potential challenges in ensuring responsible use.
翻訳日:2023-08-08 17:09:13 公開日:2023-08-06
# 階層的劣化表現によるオールインワン多段画像復元ネットワーク

All-in-one Multi-degradation Image Restoration Network via Hierarchical Degradation Representation ( http://arxiv.org/abs/2308.03021v1 )

ライセンス: Link先を確認
Cheng Zhang, Yu Zhu, Qingsen Yan, Jinqiu Sun, Yanning Zhang(参考訳) 画像復元の目的は、歪んだ画像から高品質な画像を復元することである。 しかし、現在の手法は通常1つのタスク (\emph{e.g.}, denoising, deblurring, super- resolution) に集中しており、実際のマルチタスク処理、特にモバイルデバイスでは対応できない。 したがって、様々な未知の歪みから画像を復元できるオールインワン方式の開発は大きな課題である。 これまでの研究では、観察された画像から劣化表現を学ぶために対比学習が用いられてきたが、これはしばしば正と負のペアの不足によって引き起こされる表現ドリフトをもたらす。 この問題に対処するために,画像復元のための精度の高い劣化表現を効果的に捕捉し,活用できる新しいオールインワン・マルチデグレーション画像復元ネットワーク(AMIRNet)を提案する。 AMIRNetは、劣化情報の事前知識なく、クラスタリングによって木構造を段階的に構築することで、未知の劣化画像の劣化表現を学習する。 この木構造表現は、様々な歪みの一貫性と不一致を明示的に反映し、画像復元の手がかりとなる。 画像復元ネットワークの性能をさらに向上し、未知の歪みに起因する領域ギャップを克服するために、ドメインを整列させ、特徴を分解表現のガイダンスで洗練する特徴変換ブロック(FTB)を設計する。 本研究では,複数の歪データセットについて広範な実験を行い,本手法の有効性と,その有効性を示す。

The aim of image restoration is to recover high-quality images from distorted ones. However, current methods usually focus on a single task (\emph{e.g.}, denoising, deblurring or super-resolution) which cannot address the needs of real-world multi-task processing, especially on mobile devices. Thus, developing an all-in-one method that can restore images from various unknown distortions is a significant challenge. Previous works have employed contrastive learning to learn the degradation representation from observed images, but this often leads to representation drift caused by deficient positive and negative pairs. To address this issue, we propose a novel All-in-one Multi-degradation Image Restoration Network (AMIRNet) that can effectively capture and utilize accurate degradation representation for image restoration. AMIRNet learns a degradation representation for unknown degraded images by progressively constructing a tree structure through clustering, without any prior knowledge of degradation information. This tree-structured representation explicitly reflects the consistency and discrepancy of various distortions, providing a specific clue for image restoration. To further enhance the performance of the image restoration network and overcome domain gaps caused by unknown distortions, we design a feature transform block (FTB) that aligns domains and refines features with the guidance of the degradation representation. We conduct extensive experiments on multiple distorted datasets, demonstrating the effectiveness of our method and its advantages over state-of-the-art restoration methods both qualitatively and quantitatively.
翻訳日:2023-08-08 17:08:58 公開日:2023-08-06
# グラフィックデザインのための言語に基づくフォトカラー調整

Language-based Photo Color Adjustment for Graphic Designs ( http://arxiv.org/abs/2308.03059v1 )

ライセンス: Link先を確認
Zhenwei Wang, Nanxuan Zhao, Gerhard Hancke, Rynson W.H. Lau(参考訳) 写真の色を調整してデザイン要素を関連付けることは、グラフィックデザインがそのメッセージを効果的に届け、美的に喜ばせるための必須の方法です。 しかし、既存のツールや以前の作業は使いやすさと表現力のレベルの間にジレンマに直面している。 そこで本研究では,インタラクティブな言語による写真彩色手法を導入することで,グラフィックデザインのエキスパートと初心者の両方を支援する直感的なシステムを提案する。 色を変える必要がある写真を含むグラフィックデザインを前提として,本モデルでは,原色と対象領域を予測し,与えられた言語に基づく指示に基づいて対象領域を原色で再現する。 命令の多粒度は多様なユーザ意図を可能にする。 提案する新たなタスクは,次のようなユニークな課題に直面する。 1) 利用者が指定したターゲットデザイン要素からまったく同じ色で色を再現するための色精度 2 指示を正しく解析し、特定の結果又は複数の妥当な結果を生成するための多粒性指示 3) 意味的に意味のある局所領域において, 原画像のセマンティクスを保たせるために再色する局所性。 これらの課題に対処するため,LangRecolと呼ばれる言語ベースの色予測モジュールとセマンティック・パレットベースの写真再色生成モジュールの2つの主要コンポーネントを提案する。 また,モデル学習を可能にするインストラクションを用いた合成グラフィックデザインデータセットの作成手法を提案する。 我々は広範囲な実験とユーザスタディを通じてモデルを評価する。 また,本手法の有効性と実用性を示すいくつかの実用的応用についても論じる。 この論文のコードとデータは以下のとおりである。

Adjusting the photo color to associate with some design elements is an essential way for a graphic design to effectively deliver its message and make it aesthetically pleasing. However, existing tools and previous works face a dilemma between the ease of use and level of expressiveness. To this end, we introduce an interactive language-based approach for photo recoloring, which provides an intuitive system that can assist both experts and novices on graphic design. Given a graphic design containing a photo that needs to be recolored, our model can predict the source colors and the target regions, and then recolor the target regions with the source colors based on the given language-based instruction. The multi-granularity of the instruction allows diverse user intentions. The proposed novel task faces several unique challenges, including: 1) color accuracy for recoloring with exactly the same color from the target design element as specified by the user; 2) multi-granularity instructions for parsing instructions correctly to generate a specific result or multiple plausible ones; and 3) locality for recoloring in semantically meaningful local regions to preserve original image semantics. To address these challenges, we propose a model called LangRecol with two main components: the language-based source color prediction module and the semantic-palette-based photo recoloring module. We also introduce an approach for generating a synthetic graphic design dataset with instructions to enable model training. We evaluate our model via extensive experiments and user studies. We also discuss several practical applications, showing the effectiveness and practicality of our approach. Code and data for this paper are at: https://zhenwwang.github.io/langrecol.
翻訳日:2023-08-08 17:01:38 公開日:2023-08-06
# 駆動量子ビットにおける空間的相関の古典的および量子的ノイズ--良い、悪い、悪い

Spatially correlated classical and quantum noise in driven qubits: The good, the bad, and the ugly ( http://arxiv.org/abs/2308.03054v1 )

ライセンス: Link先を確認
Ji Zou and Stefano Bosco and Daniel Loss(参考訳) 複数の量子ビット間の相関ノイズは、スケーラブルでフォールトトレラントな量子プロセッサを実現する上で大きな課題となる。 このノイズを様々な量子ビットアーキテクチャーで定量化するための最近の実験的試みにもかかわらず、量子ビット力学におけるその役割の包括的な理解はいまだ解明されていない。 本稿では,マルコフ雑音と非マルコフ雑音の両方を含む空間相関雑音下での駆動量子ビットのダイナミクスに関する解析的検討を行う。 驚くべきことに、相関した古典的ノイズは、系内の量子コヒーレンスを増加させることなく相関的デコヒーレンスのみをもたらすが、相関された量子ノイズを利用して絡み合いを生成することができる。 特に、量子極限において、純粋な強調雑音は、遠方の量子ビットに相関するコヒーレントな長距離2量子ビットイジング相互作用を誘導する。 対照的に、量子ビットがコヒーレント駆動を受けるとき、純粋に横向きのノイズに対して、相関量子ノイズは、コヒーレント対称交換とジアルシンスキー-モリヤ相互作用の両方を誘導し、また相関緩和も生じ、両者ともかなりの絡み合いを引き起こす。 驚くべきことに、この場合、システムは異なるパラメータレジームにおいて異なる動的位相を示すことが判明する。 最後に、時空間相関1/f雑音がデコヒーレンス率に及ぼす影響と、時間相関が絡み合いを回復するかを明らかにする。 本分析は,相関ノイズの有害な影響を低減するための効果的な誤り緩和戦略の設計に関する重要な知見を提供するだけでなく,量子情報処理におけるノイズ誘発相関の活用と活用を可能にする。

Correlated noise across multiple qubits poses a significant challenge for achieving scalable and fault-tolerant quantum processors. Despite recent experimental efforts to quantify this noise in various qubit architectures, a comprehensive understanding of its role in qubit dynamics remains elusive. Here, we present an analytical study of the dynamics of driven qubits under spatially correlated noise, including both Markovian and non-Markovian noise. Surprisingly, we find that, while correlated classical noise only leads to correlated decoherence without increasing the quantum coherence in the system, the correlated quantum noise can be exploited to generate entanglement. In particular, we reveal that, in the quantum limit, pure dephasing noise induces a coherent long-range two-qubit Ising interaction that correlates distant qubits. In contrast, for purely transverse noise when qubits are subjected to coherent drives, the correlated quantum noise induces both coherent symmetric exchange and Dzyaloshinskii-Moriya interaction between the qubits, as well as correlated relaxation, both of which give rise to significant entanglement. Remarkably, in this case, we uncover that the system exhibits distinct dynamical phases in different parameter regimes. Finally, we reveal the impact of spatio-temporally correlated 1/f noise on the decoherence rate, and how its temporal correlations restore lost entanglement. Our analysis not only offers critical insights into designing effective error mitigation strategies to reduce harmful effects of correlated noise, but also enables tailored protocols to leverage and harness noise-induced correlations for quantum information processing.
翻訳日:2023-08-08 17:01:15 公開日:2023-08-06
# TARJAMAT:10種類のアラビア語の機械翻訳における Bard と ChatGPT の評価

TARJAMAT: Evaluation of Bard and ChatGPT on Machine Translation of Ten Arabic Varieties ( http://arxiv.org/abs/2308.03051v1 )

ライセンス: Link先を確認
Karima Kadaoui, Samar M. Magdy, Abdul Waheed, Md Tawkat Islam Khondaker, Ahmed Oumar El-Shangiti, El Moatez Billah Nagoudi, Muhammad Abdul-Mageed(参考訳) 人間の指示に従うように微調整された大規模言語モデル(LLM)が、AIのブレークスルーとして最近登場した。 例えば、Google BardやOpenAI ChatGPTといったモデルは、質問応答、コードのデバッグ、対話生成のための驚くほど強力なツールです。 これらのモデルの多言語的習熟度が報告されているにもかかわらず、その言語的傾向はいまだに不十分である。 この制約を考慮し,10種類のアラビア語の機械翻訳能力について, Bard と ChatGPT (GPT-3.5 と GPT-4 を併用) を徹底的に評価した。 評価は,古典アラビア語,現代標準アラビア語,数種のニュアンス方言など,多種多様なアラビア語を対象とする。 さらに,翻訳作業中の人間の指示に従う際に,最新のモデルであるbardの有効性を検証するために,人間中心の研究を行った。 我々の徹底的な分析は、LLMが特定のアラビア方言、特にアルジェリア方言やモーリタニア方言のような最小の公的なデータが存在する方言との課題に直面する可能性を示唆している。 しかし、Google Translateのような確立した商用システムに追随することもあるが、より一般的な方言との良好なパフォーマンスを示している。 さらに,翻訳文脈における人間の指示と整合するbardの周辺的機能についても分析を行った。 総じて, LLMの普及は包括的ではなく, 多様な地域社会の言語的, 文化的な複雑さに対処する能力に限られていることが示唆された。

Large language models (LLMs) finetuned to follow human instructions have recently emerged as a breakthrough in AI. Models such as Google Bard and OpenAI ChatGPT, for example, are surprisingly powerful tools for question answering, code debugging, and dialogue generation. Despite the purported multilingual proficiency of these models, their linguistic inclusivity remains insufficiently explored. Considering this constraint, we present a thorough assessment of Bard and ChatGPT (encompassing both GPT-3.5 and GPT-4) regarding their machine translation proficiencies across ten varieties of Arabic. Our evaluation covers diverse Arabic varieties such as Classical Arabic, Modern Standard Arabic, and several nuanced dialectal variants. Furthermore, we undertake a human-centric study to scrutinize the efficacy of the most recent model, Bard, in following human instructions during translation tasks. Our exhaustive analysis indicates that LLMs may encounter challenges with certain Arabic dialects, particularly those for which minimal public data exists, such as Algerian and Mauritanian dialects. However, they exhibit satisfactory performance with more prevalent dialects, albeit occasionally trailing behind established commercial systems like Google Translate. Additionally, our analysis reveals a circumscribed capability of Bard in aligning with human instructions in translation contexts. Collectively, our findings underscore that prevailing LLMs remain far from inclusive, with only limited ability to cater for the linguistic and cultural intricacies of diverse communities.
翻訳日:2023-08-08 17:00:42 公開日:2023-08-06
# 一般化ステレオマッチングのためのマルチスケールアテンション変換器

Multi-scale Alternated Attention Transformer for Generalized Stereo Matching ( http://arxiv.org/abs/2308.03048v1 )

ライセンス: Link先を確認
Wei Miao, Hong Zhao, Tongjia Chen, Wei Huang, Changyan Xiao(参考訳) 最近のステレオマッチングネットワークは、双対ビューのマッチング範囲を制限するために、エピポーラ線制約を導入することで劇的な性能を実現する。 しかし、複雑な実世界のシナリオでは、エピポーラ内線のみに基づく特徴情報は、ステレオマッチングを容易にするには弱すぎる。 本稿では,2重および1重の視野におけるエピポーラ線の影響のバランスをとるために,Alternated Attention U-shaped Transformer (AAUformer) と呼ばれる簡易かつ高効率なネットワークを提案する。 他のモデルと比較して、我々のモデルはいくつかの主要な設計を持っている。 1)画素レベルでの単一視点の局所的意味的特徴をより良く解放するために,空間内自己アテンションの限界を破るためにウィンドウ自己アテンションを導入し,クロスマッチ前に密集した特徴に対する畳み込みネットワークを完全に置き換える。 2) マルチスケールの注目バックボーンネットワークは, 識別困難な領域に対する粗大なマッチングを実現するために, 不変特徴を抽出するように設計された。 我々はいくつかの主流ステレオマッチングデータセットについて比較研究とアブレーション研究を行った。 その結果,本モデルがScene Flowデータセットの最先端性を実現し,KITTI 2015データセットの微調整性能が競い合っていることがわかった。 さらに、合成および実世界のデータセットのクロス一般化実験では、我々のモデルは最先端のいくつかの研究よりも優れている。

Recent stereo matching networks achieves dramatic performance by introducing epipolar line constraint to limit the matching range of dual-view. However, in complicated real-world scenarios, the feature information based on intra-epipolar line alone is too weak to facilitate stereo matching. In this paper, we present a simple but highly effective network called Alternated Attention U-shaped Transformer (AAUformer) to balance the impact of epipolar line in dual and single view respectively for excellent generalization performance. Compared to other models, our model has several main designs: 1) to better liberate the local semantic features of the single-view at pixel level, we introduce window self-attention to break the limits of intra-row self-attention and completely replace the convolutional network for denser features before cross-matching; 2) the multi-scale alternated attention backbone network was designed to extract invariant features in order to achieves the coarse-to-fine matching process for hard-to-discriminate regions. We performed a series of both comparative studies and ablation studies on several mainstream stereo matching datasets. The results demonstrate that our model achieves state-of-the-art on the Scene Flow dataset, and the fine-tuning performance is competitive on the KITTI 2015 dataset. In addition, for cross generalization experiments on synthetic and real-world datasets, our model outperforms several state-of-the-art works.
翻訳日:2023-08-08 17:00:16 公開日:2023-08-06
# 条件付き移動を用いたプロトタイプ指向トランスダクティブ・ファウショット学習

Prototypes-oriented Transductive Few-shot Learning with Conditional Transport ( http://arxiv.org/abs/2308.03047v1 )

ライセンス: Link先を確認
Long Tian, Jingyi Feng, Wenchao Chen, Xiaoqiang Chai, Liming Wang, Xiyang Liu, Bo Chen(参考訳) Transductive Few-Shot Learning (TFSL)は、クエリサンプルの統計を利用して、典型的にはインダクティブピアを上回っているため、最近注目を集めている。 しかしながら、従来のTFSLメソッドは通常、クエリサンプル内のすべてのクラスが等しく、不均衡なTFSLに偏り、パフォーマンスが著しく低下する可能性があることを前に、均一にエンコードする。 この重要な問題を踏まえ、本研究では、不均衡なクエリサンプルの偏りのない統計をフル活用するために、新しい条件輸送(CT)ベースのTFSLモデルである {\textbf P}rototypes-oriented {\textbf U}nbiased {\textbf T}ransfer {\textbf M}odel (PUTM)を提案する。 CTにより学習された統計を効率的に転送するために、学習したナビゲータからMAPに基づいてプロトタイプを洗練するための閉形式解を導出する。 上記の2段階は、偏りのない統計を発見して転送する反復的な方法に従い、emベースの解法を定式化します。 miniImageNet, tieredImageNet, CUB, CIFAR-FS の4つの標準ベンチマークによる実験結果から, クラス不均衡一般化におけるモデルの有用性が示された。

Transductive Few-Shot Learning (TFSL) has recently attracted increasing attention since it typically outperforms its inductive peer by leveraging statistics of query samples. However, previous TFSL methods usually encode uniform prior that all the classes within query samples are equally likely, which is biased in imbalanced TFSL and causes severe performance degradation. Given this pivotal issue, in this work, we propose a novel Conditional Transport (CT) based imbalanced TFSL model called {\textbf P}rototypes-oriented {\textbf U}nbiased {\textbf T}ransfer {\textbf M}odel (PUTM) to fully exploit unbiased statistics of imbalanced query samples, which employs forward and backward navigators as transport matrices to balance the prior of query samples per class between uniform and adaptive data-driven distributions. For efficiently transferring statistics learned by CT, we further derive a closed form solution to refine prototypes based on MAP given the learned navigators. The above two steps of discovering and transferring unbiased statistics follow an iterative manner, formulating our EM-based solver. Experimental results on four standard benchmarks including miniImageNet, tieredImageNet, CUB, and CIFAR-FS demonstrate superiority of our model in class-imbalanced generalization.
翻訳日:2023-08-08 16:59:53 公開日:2023-08-06
# 近代スカイサーベイデータにおけるL&Tブラウンドワーフ探索のための機械学習手法

Machine learning methods for the search for L&T brown dwarfs in the data of modern sky surveys ( http://arxiv.org/abs/2308.03045v1 )

ライセンス: Link先を確認
Aleksandra Avdeeva(参考訳) 様々な推定によれば、ブラウンドワーフ(bd)は銀河の全天体の最大25%を占めるはずである。 しかし、個体群と個体群の両方で発見・調査されているものは少ない。 ブラウンドワーフの均質で完全なサンプルは、この種の研究には必要である。 その弱さのため、ブラウン・ドワーフのスペクトル研究は比較的困難である。 そのため、分光観測で確認されたブラウン・ドワーフのかなりの信頼できるサンプルを作成することは、現時点では不可能である。 多数の調査データに適用された決定規則として、その色を用いて茶色の小星を探索し、生成する試みが数多くなされている。 本研究では,PanStarrs DR1,2MASS,WISEデータ上でのランダムフォレスト分類器,XGBoost,SVM分類器,TabNetなどの機械学習手法を用いて,LとTのブラウンドロームを他のスペクトルおよび光度クラスのオブジェクトと区別する。 モデルの説明について述べる。 また、我々のモデルを古典的な決定規則と比較し、その効率性と妥当性を証明する。

According to various estimates, brown dwarfs (BD) should account for up to 25 percent of all objects in the Galaxy. However, few of them are discovered and well-studied, both individually and as a population. Homogeneous and complete samples of brown dwarfs are needed for these kinds of studies. Due to their weakness, spectral studies of brown dwarfs are rather laborious. For this reason, creating a significant reliable sample of brown dwarfs, confirmed by spectroscopic observations, seems unattainable at the moment. Numerous attempts have been made to search for and create a set of brown dwarfs using their colours as a decision rule applied to a vast amount of survey data. In this work, we use machine learning methods such as Random Forest Classifier, XGBoost, SVM Classifier and TabNet on PanStarrs DR1, 2MASS and WISE data to distinguish L and T brown dwarfs from objects of other spectral and luminosity classes. The explanation of the models is discussed. We also compare our models with classical decision rules, proving their efficiency and relevance.
翻訳日:2023-08-08 16:59:21 公開日:2023-08-06
# マルチパーティライト量子相関とその3種類の測定方法

Multipartite Bipartite Quantum Correlation and Its Three Types of Measures ( http://arxiv.org/abs/2308.03044v1 )

ライセンス: Link先を確認
Jing-Min Zhu(参考訳) MQC(Multipartite Quantum correlation)は多くの新しい微視的およびマクロ的な量子現象を説明できるだけでなく、より優れた特定の潜在的な量子技術にも関係している。 mqcの組織と構造は非常に豊かで複雑であるため、その説明と測定は常にオープントピックである。 We fundamentally reconsider MQC descriptions and their practical applications in quantum technologies, propose multipartite bipartite QC with intuitive and clear physical image, and specifically give three types of measures: one class based on minimal entropy-like difference of local measurement fore-and-aft multipartite bipartite density matrix such as multipartite bipartite quantum discord(QD),the other based on minimal trace-like geometric distance such as multipartite bipartite Hilbert-Schmidt distance(HSD), and another based on decoherence such as Multipartite Bipartite Local Measurement-Induced Minimal Decoherence(LMIMD) and Local Eigen-Measurement-Induced Decoherence(LEMID). それらの計算は単純であり、これらの事実は、より優れた特定の潜在的なアプリケーションを実現することが容易であることを示している。 次に、3種類の尺度を用いて、典型的な有名な本物のmqcの組織と構造を探索し、それらの利点と欠点を物理的意味と数学的構造から分析する。

Multipartite Quantum Correlation(MQC) not only explains many novel microscopic and macroscopic quantum phenomena; but also concerns specific potential quantum technologies with superiorities. The MQC organization and structure are extremely rich and complex, hence their descriptions and measures have always been an open topic. We fundamentally reconsider MQC descriptions and their practical applications in quantum technologies, propose multipartite bipartite QC with intuitive and clear physical image, and specifically give three types of measures: one class based on minimal entropy-like difference of local measurement fore-and-aft multipartite bipartite density matrix such as multipartite bipartite quantum discord(QD),the other based on minimal trace-like geometric distance such as multipartite bipartite Hilbert-Schmidt distance(HSD), and another based on decoherence such as Multipartite Bipartite Local Measurement-Induced Minimal Decoherence(LMIMD) and Local Eigen-Measurement-Induced Decoherence(LEMID). Their computations are simple, and these facts show that the realization of their specific potential applications with superiorities would be easy. Then we usethree types of measures to explore the organization and structure of some typical well-known genuine MQCs, and analyze their advantages and disadvantages from their physical connotation and mathematical structure.
翻訳日:2023-08-08 16:59:03 公開日:2023-08-06
# 3D-EX : 定義と辞書の統一データセット

3D-EX : A Unified Dataset of Definitions and Dictionary Examples ( http://arxiv.org/abs/2308.03043v1 )

ライセンス: Link先を確認
Fatemah Almeman, Hadi Sheikhi, Luis Espinosa-Anke(参考訳) 定義は語彙学、言語学、計算意味論における基本的な構成要素である。 NLPでは、言語モデルにおける単語埋め込みや文脈表現の強化に使用されている。 しかし、定義を含む語彙資源は幅広い性質を示し、それらに基づいて訓練され評価されたモデルの振る舞いに影響を及ぼす。 本稿では,よく知られた英語資源を<term, definition, example>トリプルという形で1つの集中型知識リポジトリに組み合わせることで,このギャップを埋めることを目的としたデータセットである3d- exを紹介する。 3d-exは、列車/バリデーション/テスト分割を注意深く計算した統一評価フレームワークである。 我々は,このデータセットを下流のnlpタスクで効果的に活用できることを示す実験結果を報告する。 コードとデータはhttps://github.com/f-almeman/3d-exで入手できる。

Definitions are a fundamental building block in lexicography, linguistics and computational semantics. In NLP, they have been used for retrofitting word embeddings or augmenting contextual representations in language models. However, lexical resources containing definitions exhibit a wide range of properties, which has implications in the behaviour of models trained and evaluated on them. In this paper, we introduce 3D- EX , a dataset that aims to fill this gap by combining well-known English resources into one centralized knowledge repository in the form of <term, definition, example> triples. 3D- EX is a unified evaluation framework with carefully pre-computed train/validation/test splits to prevent memorization. We report experimental results that suggest that this dataset could be effectively leveraged in downstream NLP tasks. Code and data are available at https://github.com/F-Almeman/3D-EX .
翻訳日:2023-08-08 16:58:43 公開日:2023-08-06
# 画素ワイドビデオ対応のための細粒度特徴の学習

Learning Fine-Grained Features for Pixel-wise Video Correspondences ( http://arxiv.org/abs/2308.03040v1 )

ライセンス: Link先を確認
Rui Li, Shenglong Zhou, Dong Liu(参考訳) ビデオ分析タスクは、同じ視覚ターゲットに対応する異なるフレームからピクセルを識別することに大きく依存する。 この問題に対処するため、近年の研究では、特に自己監督的な方法で、画素にマッチする特徴表現を学習することを目的とした特徴学習手法が提唱されている。 残念なことに、これらの手法は小さな、あるいは1ピクセルの視覚ターゲットでは困難である。 画素ワイドビデオ対応は伝統的に光学フローと関連付けられており、決定論的対応と現実世界のビデオの堅牢性に欠ける。 画素ワイド対応を確立するための学習機能の問題に対処する。 自己教師付き特徴学習だけでなく,光学的流れにも動機づけられ,合成ビデオのラベル付けだけでなく,実世界ビデオのラベル付き表示を包括的枠組みで学習する手法を提案する。 我々は,学習特徴の一般化能力を高めるために,逆学習方式を採用する。 さらに,計算効率を高めるために,粗大なフレームワークを設計する。 一連の対応型タスクに対する実験結果から,提案手法は最先端のライバルよりも精度と効率が優れていることが示された。

Video analysis tasks rely heavily on identifying the pixels from different frames that correspond to the same visual target. To tackle this problem, recent studies have advocated feature learning methods that aim to learn distinctive representations to match the pixels, especially in a self-supervised fashion. Unfortunately, these methods have difficulties for tiny or even single-pixel visual targets. Pixel-wise video correspondences were traditionally related to optical flows, which however lead to deterministic correspondences and lack robustness on real-world videos. We address the problem of learning features for establishing pixel-wise correspondences. Motivated by optical flows as well as the self-supervised feature learning, we propose to use not only labeled synthetic videos but also unlabeled real-world videos for learning fine-grained representations in a holistic framework. We adopt an adversarial learning scheme to enhance the generalization ability of the learned features. Moreover, we design a coarse-to-fine framework to pursue high computational efficiency. Our experimental results on a series of correspondence-based tasks demonstrate that the proposed method outperforms state-of-the-art rivals in both accuracy and efficiency.
翻訳日:2023-08-08 16:58:28 公開日:2023-08-06
# 感染症リスク予測のための機械学習

Machine Learning for Infectious Disease Risk Prediction: A Survey ( http://arxiv.org/abs/2308.03037v1 )

ライセンス: Link先を確認
Mutong Liu, Yang Liu, Jiming Liu(参考訳) 感染性疾患(新興型か長期型か)は、多くの人々を危険にさらし、世界中で大きな公衆衛生上の負担をもたらす。 伝染病に対するプロセスにおいて、疾患感染のモデル化による感染リスクの予測は、疾患感染の予防及び制御をより効果的な方法で支援する上で重要な役割を担っている。 本稿では,機械学習が病気の伝染パターンを定量的に特徴付け,感染症リスクを正確に予測する上で重要な役割を果たすことを体系的に記述する。 まず,機械学習を用いた感染症リスク予測の背景とモチベーションを紹介する。 次に,感染症リスク予測のための各種機械学習モデルの開発とコンポーネントについて述べる。 具体的には、既存のモデルは統計予測、データ駆動機械学習、疫学にインスパイアされた機械学習の3つのカテゴリに分類される。 次に,モデル入力処理やタスク指向目標の設計,パフォーマンス評価を行う際の課題について論じる。 最後に、オープンな質問と今後の方向性について議論する。

Infectious diseases, either emerging or long-lasting, place numerous people at risk and bring heavy public health burdens worldwide. In the process against infectious diseases, predicting the epidemic risk by modeling the disease transmission plays an essential role in assisting with preventing and controlling disease transmission in a more effective way. In this paper, we systematically describe how machine learning can play an essential role in quantitatively characterizing disease transmission patterns and accurately predicting infectious disease risks. First, we introduce the background and motivation of using machine learning for infectious disease risk prediction. Next, we describe the development and components of various machine learning models for infectious disease risk prediction. Specifically, existing models fall into three categories: Statistical prediction, data-driven machine learning, and epidemiology-inspired machine learning. Subsequently, we discuss challenges encountered when dealing with model inputs, designing task-oriented objectives, and conducting performance evaluation. Finally, we conclude with a discussion of open questions and future directions.
翻訳日:2023-08-08 16:58:12 公開日:2023-08-06
# 極端事象抑制のための制御対応エコー状態ネットワーク(Ca-ESN)

Control-aware echo state networks (Ca-ESN) for the suppression of extreme events ( http://arxiv.org/abs/2308.03095v1 )

ライセンス: Link先を確認
Alberto Racca and Luca Magri(参考訳) 極端事象は突然の大振幅変化またはカオス非線形系の観測可能な状態であり、多くの科学的現象を特徴づける。 その暴力的な性質から、極端な出来事は一般的に悪影響を及ぼし、出来事が起こるのを防ぐ方法を求める。 本研究では,比例積分微分やモデル予測制御といったESNと制御戦略をシームレスに組み合わせ,極端な事象を抑制するための制御対応エコー状態ネットワーク(Ca-ESN)を提案する。 本手法は,従来の手法に対する極端な事象の発生を2桁程度低減するカオス・乱流流れについて紹介する。 この研究は、ニューラルネットワークを用いた非線形システムの効率的な制御の新しい可能性を開く。

Extreme event are sudden large-amplitude changes in the state or observables of chaotic nonlinear systems, which characterize many scientific phenomena. Because of their violent nature, extreme events typically have adverse consequences, which call for methods to prevent the events from happening. In this work, we introduce the control-aware echo state network (Ca-ESN) to seamlessly combine ESNs and control strategies, such as proportional-integral-derivative and model predictive control, to suppress extreme events. The methodology is showcased on a chaotic-turbulent flow, in which we reduce the occurrence of extreme events with respect to traditional methods by two orders of magnitude. This works opens up new possibilities for the efficient control of nonlinear systems with neural networks.
翻訳日:2023-08-08 16:53:09 公開日:2023-08-06
# 重ね合わせ粒子における重力場の量子不確かさと絡み合い

Quantum uncertainty of gravitational field and entanglement in superposed massive particles ( http://arxiv.org/abs/2308.03093v1 )

ライセンス: Link先を確認
Yuuki Sugiyama, Akira Matsumura, and Kazuhiro Yamamoto(参考訳) 重力の量子性の研究は現代物理学において重要な問題である。 近年、重力ポテンシャルの量子重ね合わせに関する研究が大きな関心を集めている。 Mari \textit{et al にインスパイアされた。 と『Sci』。 Rep. {\bf 6} 22777 (2016)] and Baym and Ozawa [Proc] ナトル と。 Sci U.S.A. {\bf 106}, 3035 (2009)], Belenchia \textit{et al. である。 D {\bf 98}, 126009 (2018)] はそのような量子的重ね合わせを含むゲダンケンの実験を検討し、重ね合わせが因果関係と相補性に矛盾すると述べた。 彼らは重力の自由度を量子化することでこの矛盾を解消した。 これは重力ポテンシャルの量子重ね合わせと重力場の量子化との強い関係を示唆している。 これまでの研究で [phys] D {\bf 106}, 125002 (2022)] は、場の量子的不確実性は因果性と相補性の間の整合性を保証することを示した。 本研究では,電磁・重力ポテンシャルによる2つの粒子の状態の絡み合いに着目し,量子不確かさ,因果性,相補性との関係について検討する。 数値解析の結果,電磁・重力場の量子的不確実性は真空変動を引き起こし,因果性を満たす場合の2つの粒子状態の絡み合いを禁止していることがわかった。 さらに,粒子が絡み合わなければ相補性は持続することを示した。 不確実性の関係は、2つの粒子の状態間の絡み合いを起こさない。

Investigating the quantum nature of gravity is an important issue in modern physics. Recently, studies pertaining to the quantum superposition of gravitational potential have garnered significant interest. Inspired by Mari \textit{et al.} [Sci. Rep. {\bf 6} 22777 (2016)] and Baym and Ozawa [Proc. Natl. Acad. Sci. U.S.A. {\bf 106}, 3035 (2009)], Belenchia \textit{et al.} [Phys. Rev. D {\bf 98}, 126009 (2018)] considered a gedanken experiment involving such a quantum superposition and mentioned that the superposition renders causality and complementarity inconsistent. They resolved this inconsistency by considering the quantized dynamical degrees of freedom of gravity. This suggests a strong relationship between the quantum superposition of the gravitational potential and the quantization of the gravitational field. In our previous study [Phys. Rev. D {\bf 106}, 125002 (2022)], we have shown that the quantum uncertainty of a field guarantees the consistency between causality and complementarity. In this study, we focus on the entanglement between two particles' states due to the electromagnetic/gravitational potential and investigate its relationship with quantum uncertainty, causality, and complementarity. Our numerical analyses show that the quantum uncertainty of the electromagnetic/gravitational field results in vacuum fluctuations and prohibits the entanglement between two particles' states when causality is satisfied. We further demonstrate that complementarity holds when the particles do not get entangled. The uncertainty relation does not cause the entanglement between two particles' states, which guarantees complementarity.
翻訳日:2023-08-08 16:52:55 公開日:2023-08-06
# ECT:学習した原因トークンによるきめ細かいエッジ検出

ECT: Fine-grained Edge Detection with Learned Cause Tokens ( http://arxiv.org/abs/2308.03092v1 )

ライセンス: Link先を確認
Shaocong Xu, Xiaoxue Chen, Yuhang Zheng, Guyue Zhou, Yurong Chen, Hongbin Zha and Hao Zhao(参考訳) 本研究では, 反射率, 照明, 正常, 深度変化による特定のエッジの予測を目的とした, 細粒度エッジ検出課題に挑戦する。 1)畳み込みは局所演算子であり、一方、エッジ形成の原因を特定するためには、遠方のピクセルを見る必要がある。 2) エッジ原因に特異的な先行は予測ヘッドに固定される。 (3) 汎用的かつきめ細かなエッジ検出に別々のネットワークを用いることで, それらの間の制約を破ることができる。 これら3つの問題に対処するために,注目機構によりグローバルな受容場を有する汎用エッジと細粒度エッジを逐次予測する2段階トランスフォーマーネットワークを提案する。 エッジ原因に関する事前の知識は、原因認識デコーダ設計において4つの学習可能な原因トークンとして定式化される。 さらに、汎用エッジと細粒エッジとの一貫性を促進するために、エッジアグリゲーションとアライメント損失を利用する。 本手法はbsds-rindおよび新たに開発したベンチマークを用いて評価し,最新の結果を得た。 私たちのコード、データ、モデルはhttps://github.com/daniellli/ect.gitで公開されている。

In this study, we tackle the challenging fine-grained edge detection task, which refers to predicting specific edges caused by reflectance, illumination, normal, and depth changes, respectively. Prior methods exploit multi-scale convolutional networks, which are limited in three aspects: (1) Convolutions are local operators while identifying the cause of edge formation requires looking at far away pixels. (2) Priors specific to edge cause are fixed in prediction heads. (3) Using separate networks for generic and fine-grained edge detection, and the constraint between them may be violated. To address these three issues, we propose a two-stage transformer-based network sequentially predicting generic edges and fine-grained edges, which has a global receptive field thanks to the attention mechanism. The prior knowledge of edge causes is formulated as four learnable cause tokens in a cause-aware decoder design. Furthermore, to encourage the consistency between generic edges and fine-grained edges, an edge aggregation and alignment loss is exploited. We evaluate our method on the public benchmark BSDS-RIND and several newly derived benchmarks, and achieve new state-of-the-art results. Our code, data, and models are publicly available at https://github.com/Daniellli/ECT.git.
翻訳日:2023-08-08 16:52:25 公開日:2023-08-06
# 射影エンタングルペア作用素を用いたibmの蹴りイジング実験のシミュレーション

Simulation of IBM's kicked Ising experiment with Projected Entangled Pair Operator ( http://arxiv.org/abs/2308.03082v1 )

ライセンス: Link先を確認
Hai-Jun Liao, Kang Wang, Zong-Sheng Zhou, Pan Zhang and Tao Xiang(参考訳) 我々は、最近、誤差緩和を伴う量子回路(Nature 618, 500 (2023))を用いてエミュレートされた127量子ビットキックドイジングモデルの古典的なシミュレーションを行う。 提案手法はハイゼンベルク図の射影的絡み合ったペア作用素(PEPO)に基づいている。 その主な特徴は、クリフォードおよび近クリフォードゲートを含む量子回路における下層の低ランクおよび低絡み合い構造を自動的に識別する能力である。 従来は古典的検証を超えて検討されていた5+1トロッターステップを用いた量子回路によるアプローチの評価を行った。 我々はクリフォード展開理論を開発し、正確な期待値を計算し、アルゴリズムを評価する。 その結果,PEPOは,信念伝播を伴うテンソルネットワーク,行列積演算子,クリフォード摂動理論など,既存の手法よりも効率と精度が優れていた。 特に、結合次元が$\chi=2$のPEPOは、結合次元が$\chi=1024$のMPOとCPTに類似した精度を与える。 そして、$\chi=184$のPEPOは、単一のCPUを使って正確な結果を3ドル秒で提供する。 さらに,本手法を20トロッターステップの回路に適用する。 結果の単調で一貫した収束を$\chi$で観測し、外挿を通して$\chi\to\infty$で結果を推定することができる。 次に、外挿された結果と量子ハードウェアおよび既存のテンソルネットワーク手法で達成された結果を比較する。 さらに、量子回路シミュレーションにおける我々のアプローチの有用性について、特に近クリフォード回路や量子近似最適化アルゴリズムを含むシナリオで論じる。 我々のアプローチは,PEPOによる時間発展問題の解法として初めて採用され,量子多体系の力学特性を探索するための強力なツールとなる可能性が示唆された。

We perform classical simulations of the 127-qubit kicked Ising model, which was recently emulated using a quantum circuit with error mitigation [Nature 618, 500 (2023)]. Our approach is based on the projected entangled pair operator (PEPO) in the Heisenberg picture. Its main feature is the ability to automatically identify the underlying low-rank and low-entanglement structures in the quantum circuit involving Clifford and near-Clifford gates. We assess our approach using the quantum circuit with 5+1 trotter steps which was previously considered beyond classical verification. We develop a Clifford expansion theory to compute exact expectation values and use them to evaluate algorithms. The results indicate that PEPO significantly outperforms existing methods, including the tensor network with belief propagation, the matrix product operator, and the Clifford perturbation theory, in both efficiency and accuracy. In particular, PEPO with bond dimension $\chi=2$ already gives similar accuracy to the CPT with $K=10$ and MPO with bond dimension $\chi=1024$. And PEPO with $\chi=184$ provides exact results in $3$ seconds using a single CPU. Furthermore, we apply our method to the circuit with 20 Trotter steps. We observe the monotonic and consistent convergence of the results with $\chi$, allowing us to estimate the outcome with $\chi\to\infty$ through extrapolations. We then compare the extrapolated results to those achieved in quantum hardware and with existing tensor network methods. Additionally, we discuss the potential usefulness of our approach in simulating quantum circuits, especially in scenarios involving near-Clifford circuits and quantum approximate optimization algorithms. Our approach is the first use of PEPO in solving the time evolution problem, and our results suggest it could be a powerful tool for exploring the dynamical properties of quantum many-body systems.
翻訳日:2023-08-08 16:52:06 公開日:2023-08-06
# タクシー対応分析による極端にスパースな一致表の可視化:テキストデータの事例研究

Visualization of Extremely Sparse Contingency Table by Taxicab Correspondence Analysis: A Case Study of Textual Data ( http://arxiv.org/abs/2308.03079v1 )

ライセンス: Link先を確認
V. Choulakian and J. Allard (Universit\'e de Moncton Canada)(参考訳) 本稿では,非常に少ないオンティンジェンシー表を可視化するために,ロバストな対応解析の変種であるタキシカブ対応解析の概要を示す。 特に,sah と fokou\'e (2019) が最近導入した8冊の聖典の断片について,サイズ 590 と 8265 の極めて疎いテキストデータセットを可視化し,ma,sun,zou (2022) による (12 + 1) 次元縮小法 (t-sne, umap, phate, ...) で詳細に研究した。

We present an overview of taxicab correspondence analysis, a robust variant of correspondence analysis, for visualization of extremely sparse ontingency tables. In particular we visualize an extremely sparse textual data set of size 590 by 8265 concerning fragments of 8 sacred books recently introduced by Sah and Fokou\'e (2019) and studied quite in detail by (12 + 1) dimension reduction methods (t-SNE, UMAP, PHATE,...) by Ma, Sun and Zou (2022).
翻訳日:2023-08-08 16:51:34 公開日:2023-08-06
# 多体Hatano-Nelsonモデルにおける絡み合いのダイナミクス

Entanglement dynamics in the many-body Hatano-Nelson model ( http://arxiv.org/abs/2308.03078v1 )

ライセンス: Link先を確認
Takahiro Orito and Ken-Ichiro Imura(参考訳) 非エルミート量子系における絡み合いダイナミクスを数値的に研究し,準粒子画像の観点から解析した。 具体的モデルとして, オンサイト障害および近距離-近距離相互作用下での非対称ホッピング(ハタノ・ネルソンモデル)を持つ1次元強結合モデルを考える。 以前の研究の主張とは対照的に、この非エルミート量子系における絡み合いダイナミクスは、特に弱い障害を持つ非局在化状態においてヘルミート量子系と大きく異なる; 絡み合いエントロピー $s_{\rm ent}(t)$ は、特徴的な非単調な時間発展を示す。 我々は,この挙動の性質を準粒子図で明らかにし,定量化した。 t\rightarrow\infty$ の漸近的レジームでは、このレジームにおける絡み合いエントロピー $s_{\rm ent}(t)$ は、非常に抑制された値に飽和し、サブシステムのサイズに対して対数的にのみ増加する。

The entanglement dynamics in a non-Hermitian quantum system is studied numerically and analyzed from the viewpoint of quasiparticle picture. As a concrete model, we consider a one-dimensional tight-binding model with asymmetric hopping (Hatano-Nelson model) under onsite disorder and nearest-neighbor interaction. As opposed to an assertion of previous studies, the entanglement dynamics in this non-Hermitian quantum system is very different from the one in its Hermitian counterpart, especially in the delocalized regime with weak disorder; there the entanglement entropy $S_{\rm ent}(t)$ shows a characteristic non-monotonic time evolution. We have clarified and quantified the nature of this behavior in the quasiparticle picture. In the asymptotic regime of $t\rightarrow\infty$, the entanglement entropy $S_{\rm ent}(t)$ in this regime saturates to a much suppressed value, which increases only logarithmically with respect to the size of the subsystem.
翻訳日:2023-08-08 16:51:16 公開日:2023-08-06
# 乳癌によるMobileNetV1とMobileNetV2の性能評価

Study for Performance of MobileNetV1 and MobileNetV2 Based on Breast Cancer ( http://arxiv.org/abs/2308.03076v1 )

ライセンス: Link先を確認
Jiuqi Yan(参考訳) 人工知能は常に進化しており、人々の生活のあらゆる面において効果的な支援を提供することができる。 この実験は主に医学における人工知能の利用を研究することを目的としている。 この実験の目的は、Kaggleでダウンロードされた乳房の病理像を検出するのに、MobileNetV1とMobileNetV2のどちらが優れているかを比較することである。 医師が病理像を見ると、判断の誤りにつながるエラーがあり、観察速度は遅くなる。 人工知能の合理的使用は、乳がん判定における医師診断の誤りを効果的に低減し、医師診断を高速化する。 データセットはKaggleからダウンロードされ、標準化された。 実験の基本原理は、ニューラルネットワークモデルにダウンロードされたデータセットを学習させることである。 そしてそのパターンを見つけ、乳房の組織が癌かどうかを自分で判断する。 このデータセットでは良性腫瘍像と悪性腫瘍像が分類され、そのうち198738は良性腫瘍像、78,786は悪性腫瘍像である。 MobileNetV1とMobileNetV2を呼んだ後、データセットを個別に訓練し、トレーニング精度と検証精度を求め、画像を描画する。 mobilenetv1はmobilenetv2トレーニングの検証精度とオーバーフィットが向上している。 実験結果から、このデータセットを処理する場合、MobileNetV1はMobileNetV2よりもはるかに優れていることが分かる。

Artificial intelligence is constantly evolving and can provide effective help in all aspects of people's lives. The experiment is mainly to study the use of artificial intelligence in the field of medicine. The purpose of this experiment was to compare which of MobileNetV1 and MobileNetV2 models was better at detecting histopathological images of the breast downloaded at Kaggle. When the doctor looks at the pathological image, there may be errors that lead to errors in judgment, and the observation speed is slow. Rational use of artificial intelligence can effectively reduce the error of doctor diagnosis in breast cancer judgment and speed up doctor diagnosis. The dataset was downloaded from Kaggle and then normalized. The basic principle of the experiment is to let the neural network model learn the downloaded data set. Then find the pattern and be able to judge on your own whether breast tissue is cancer. In the dataset, benign tumor pictures and malignant tumor pictures have been classified, of which 198738 are benign tumor pictures and 78, 786 are malignant tumor pictures. After calling MobileNetV1 and MobileNetV2, the dataset is trained separately, the training accuracy and validation accuracy rate are obtained, and the image is drawn. It can be observed that MobileNetV1 has better validation accuracy and overfit during MobileNetV2 training. From the experimental results, it can be seen that in the case of processing this dataset, MobileNetV1 is much better than MobileNetV2.
翻訳日:2023-08-08 16:50:56 公開日:2023-08-06
# M$^3$Net:Few-shot Fine-fine Action Recognitionのためのマルチビューエンコーディング、マッチング、融合

M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot Fine-grained Action Recognition ( http://arxiv.org/abs/2308.03063v1 )

ライセンス: Link先を確認
Hao Tang, Jun Liu, Shuanglin Yan, Rui Yan, Zechao Li, Jinhui Tang(参考訳) 微粒な映像理解に必要な手動注釈データが少ないため、少数のラベル付きインスタンスで新規な微粒なアクションカテゴリを分類することを目的として、FS-FGのアクション認識が注目されている。 FSの粗いアクション認識の進歩にもかかわらず、現在のアプローチでは、微妙なアクションの詳細を捉えることができないことと、クラス内のばらつきとクラス間の類似度が高い限られたデータからの学習が不十分である、という2つの課題に直面している。 これらの制約に対処するため,FS-FG アクション認識のためのマッチングベースのフレームワーク M$^3$Net を提案し,複数の視点にまたがるエンコーディング,類似性マッチング,意思決定を容易にするために, \textit{multi-view encoding}, \textit{multi-view matching}, \textit{multi-view fusion} を組み込んだ。 \textit{multi-view encoding} はフレーム内、ビデオ内、およびエピソード内の観点からリッチなコンテキストの詳細をキャプチャし、きめ細かいデータのためにカスタマイズされた高次埋め込みを生成する。 \textit{Multi-view matching}は、限定サンプル内でフレキシブルな関係モデリングを可能にし、インスタンス特化、カテゴリ特化、タスク特化の観点を活用することで、マルチスケールの時空間変動を処理する。 \textit{Multi-view fusion} は上記のビューに対するマッチング予測融合とマッチングロス融合で構成され、前者は相互補完性を促進し、後者はマルチタスク協調学習を用いて埋め込み一般化性を高める。 FS-FG の動作認識において,M$3$Net の微細な動作の詳細を捕捉し,最先端の性能を達成する上での優位性を示す。

Due to the scarcity of manually annotated data required for fine-grained video understanding, few-shot fine-grained (FS-FG) action recognition has gained significant attention, with the aim of classifying novel fine-grained action categories with only a few labeled instances. Despite the progress made in FS coarse-grained action recognition, current approaches encounter two challenges when dealing with the fine-grained action categories: the inability to capture subtle action details and the insufficiency of learning from limited data that exhibit high intra-class variance and inter-class similarity. To address these limitations, we propose M$^3$Net, a matching-based framework for FS-FG action recognition, which incorporates \textit{multi-view encoding}, \textit{multi-view matching}, and \textit{multi-view fusion} to facilitate embedding encoding, similarity matching, and decision making across multiple viewpoints. \textit{Multi-view encoding} captures rich contextual details from the intra-frame, intra-video, and intra-episode perspectives, generating customized higher-order embeddings for fine-grained data. \textit{Multi-view matching} integrates various matching functions enabling flexible relation modeling within limited samples to handle multi-scale spatio-temporal variations by leveraging the instance-specific, category-specific, and task-specific perspectives. \textit{Multi-view fusion} consists of matching-predictions fusion and matching-losses fusion over the above views, where the former promotes mutual complementarity and the latter enhances embedding generalizability by employing multi-task collaborative learning. Explainable visualizations and experimental results on three challenging benchmarks demonstrate the superiority of M$^3$Net in capturing fine-grained action details and achieving state-of-the-art performance for FS-FG action recognition.
翻訳日:2023-08-08 16:50:30 公開日:2023-08-06
# InterTracker: 野生の手で相互作用する一般的な物体の発見と追跡

InterTracker: Discovering and Tracking General Objects Interacting with Hands in the Wild ( http://arxiv.org/abs/2308.03061v1 )

ライセンス: Link先を確認
Yanyan Shao and Qi Ye and Wenhan Luo and Kaihao Zhang and Jiming Chen(参考訳) オブジェクトとのインタラクションを理解することは、人工知能を具現化し、人間が対話しているオブジェクトを特定するための重要な研究トピックである。 既存の方法は相互作用する物体を見つけるためにフレームベースの検出器に依存している。 しかし、このアプローチには重い閉塞、背景の乱雑、邪魔な物体が伴う。 そこで本稿では,これらの課題を解決するために,物体間相互作用の時空間情報を利用して対話的物体を追跡する手法を提案する。 物体追跡問題のような追跡対象の事前知識がなければ,まず手と物体の空間的関係を利用してシーンから対話対象を適応的に発見する。 次に、連続するフレーム間のオブジェクトの出現の一貫性と連続性を利用して、オブジェクトを追跡する。 この追跡定式化により,大規模汎用オブジェクト追跡データセットのトレーニングにも有効である。 さらに、100DOHからテストおよび評価を行うためのビデオレベルのハンドオブジェクトインタラクションデータセットをキュレートする。 その結果,提案手法は最先端の手法よりも優れていた。 具体的には,異なる対象と連続的に相互作用する場面において,平均精度(ap)指標を用いて評価した場合,約10%の印象的な改善が得られた。 また,本手法は相互作用する物体に対してより連続的な軌跡を生成できることを示す。

Understanding human interaction with objects is an important research topic for embodied Artificial Intelligence and identifying the objects that humans are interacting with is a primary problem for interaction understanding. Existing methods rely on frame-based detectors to locate interacting objects. However, this approach is subjected to heavy occlusions, background clutter, and distracting objects. To address the limitations, in this paper, we propose to leverage spatio-temporal information of hand-object interaction to track interactive objects under these challenging cases. Without prior knowledge of the general objects to be tracked like object tracking problems, we first utilize the spatial relation between hands and objects to adaptively discover the interacting objects from the scene. Second, the consistency and continuity of the appearance of objects between successive frames are exploited to track the objects. With this tracking formulation, our method also benefits from training on large-scale general object-tracking datasets. We further curate a video-level hand-object interaction dataset for testing and evaluation from 100DOH. The quantitative results demonstrate that our proposed method outperforms the state-of-the-art methods. Specifically, in scenes with continuous interaction with different objects, we achieve an impressive improvement of about 10% as evaluated using the Average Precision (AP) metric. Our qualitative findings also illustrate that our method can produce more continuous trajectories for interacting objects.
翻訳日:2023-08-08 16:49:49 公開日:2023-08-06
# TOPIQ:画像品質評価のためのセマンティックスから歪みへのトップダウンアプローチ

TOPIQ: A Top-down Approach from Semantics to Distortions for Image Quality Assessment ( http://arxiv.org/abs/2308.03060v1 )

ライセンス: Link先を確認
Chaofeng Chen, Jiadi Mo, Jingwen Hou, Haoning Wu, Liang Liao, Wenxiu Sun, Qiong Yan, Weisi Lin(参考訳) 画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目撃したコンピュータビジョンの基本課題である。 人間の視覚システムの特徴に触発されて、既存の手法は通常、優れた性能を達成するために、グローバル表現とローカル表現の組み合わせ(\ie、multi-scale feature)を使用する。 しかし、それらの多くは単純な線形な多スケール特徴融合を採用しており、それらの複雑な関係や相互作用を無視している。 対照的に、人間が最初にグローバルな印象を形成して重要な地域を特定し、それらの地域の詳細に集中する。 そこで我々は,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。 IQA に対する我々のアプローチは,マルチスケールな特徴を生かしたヒューリスティックな粗いネットワーク (CFANet) の設計と,マルチレベルなセマンティック情報をトップダウンで低レベルな表現に段階的に伝播させることである。 提案手法の重要な要素は,高レベル特徴に導かれる低レベル特徴に対するアテンションマップを計算するクロススケールアテンション機構である。 このメカニズムは低レベルの歪みに対するアクティブセマンティクス領域を強調し、パフォーマンスを向上させる。 CFANetはFull-Reference (FR) とNo-Reference (NR) IQAの両方で使用できる。 我々はResNet50をバックボーンとして使用し、CFANetはビジョントランスフォーマーに基づく最先端の手法と比較して、ほとんどのパブリックFRおよびNRベンチマークにおいて、より効率的で(現在の最高のFRメソッドでは、${\sim}13\%$ FLOPSでのみ)、より良い、あるいは競争的なパフォーマンスを実現していることを示す。 コードは \url{https://github.com/chaofengc/IQA-PyTorch} でリリースされる。

Image Quality Assessment (IQA) is a fundamental task in computer vision that has witnessed remarkable progress with deep neural networks. Inspired by the characteristics of the human visual system, existing methods typically use a combination of global and local representations (\ie, multi-scale features) to achieve superior performance. However, most of them adopt simple linear fusion of multi-scale features, and neglect their possibly complex relationship and interaction. In contrast, humans typically first form a global impression to locate important regions and then focus on local details in those regions. We therefore propose a top-down approach that uses high-level semantics to guide the IQA network to focus on semantically important local distortion regions, named as \emph{TOPIQ}. Our approach to IQA involves the design of a heuristic coarse-to-fine network (CFANet) that leverages multi-scale features and progressively propagates multi-level semantic information to low-level representations in a top-down manner. A key component of our approach is the proposed cross-scale attention mechanism, which calculates attention maps for lower level features guided by higher level features. This mechanism emphasizes active semantic regions for low-level distortions, thereby improving performance. CFANet can be used for both Full-Reference (FR) and No-Reference (NR) IQA. We use ResNet50 as its backbone and demonstrate that CFANet achieves better or competitive performance on most public FR and NR benchmarks compared with state-of-the-art methods based on vision transformers, while being much more efficient (with only ${\sim}13\%$ FLOPS of the current best FR method). Codes are released at \url{https://github.com/chaofengc/IQA-PyTorch}.
翻訳日:2023-08-08 16:49:28 公開日:2023-08-06
# promptsum:パラメータ効率のよい制御可能な抽象要約

PromptSum: Parameter-Efficient Controllable Abstractive Summarization ( http://arxiv.org/abs/2308.03117v1 )

ライセンス: Link先を確認
Mathieu Ravaut, Hailin Chen, Ruochen Zhao, Chengwei Qin, Shafiq Joty, Nancy Chen(参考訳) バックボーン事前学習言語モデル(PLM)の凍結を保ちながら追加のプロンプト埋め込みをチューニングするパラメータ効率のよい手法であるPrompt tuning (PT)は、特に低リソースシナリオにおいて、言語理解タスクにおいて有望な結果を示している。 しかし,要約などの生成タスクに適した効果的なプロンプト設計手法はいまだに欠落している。 同時に、指示(離散的なプロンプト)による要約は、要約生成における品質と制御性という望ましい2つの目的を達成することができる。 パラメータ効率,データ効率,可制御性の3つの条件下での強い要約性能の目標に向けて,PTとマルチタスクの目的と離散エンティティを組み合わせて抽象的な要約を行うPromptSumを導入する。 このモデルでは,一般的な抽象要約ベンチマークとエンティティを通じた強力な制御可能性を組み合わせた競合ルージュ結果が得られるが,いずれも数桁未満のパラメータをチューニングするのみである。

Prompt tuning (PT), a parameter-efficient technique that only tunes the additional prompt embeddings while keeping the backbone pre-trained language model (PLM) frozen, has shown promising results in language understanding tasks, especially in low-resource scenarios. However, effective prompt design methods suitable for generation tasks such as summarization are still lacking. At the same time, summarization guided through instructions (discrete prompts) can achieve a desirable double objective of high quality and controllability in summary generation. Towards a goal of strong summarization performance under the triple conditions of parameter-efficiency, data-efficiency, and controllability, we introduce PromptSum, a method combining PT with a multi-task objective and discrete entity prompts for abstractive summarization. Our model achieves competitive ROUGE results on popular abstractive summarization benchmarks coupled with a strong level of controllability through entities, all while only tuning several orders of magnitude less parameters.
翻訳日:2023-08-08 16:41:36 公開日:2023-08-06
# 凸屋根コヒーレンス測度の1量子状態の閉表現

Closed expressions for one-qubit states of convex roof coherence measures ( http://arxiv.org/abs/2308.03116v1 )

ライセンス: Link先を確認
Xiao-Dan Cui and C. L. Liu(参考訳) 本稿では,1量子状態に対する凸屋根コヒーレンス尺度の閉式について検討する。 c_f(\varphi)=f(\abs{c_0}^2,\abs{c_1}^2)$ (ここでは$\ket{\varphi}=c_0\ket{0}+c_1\ket{1}$) は、$\varphi$(すなわち$c_{l_1}(\varphi)$)のコヒーレンスに関する$l_1$ノルムに対して凸である。 さらに、これらの措置の運用的解釈を示す。 最後に、凸屋根コヒーレンス測度 $C_f(\varphi)$ が $C_{l_1}(\varphi)$ に対して非凸であることの有用性を示す。この変換に必要な条件を$p\varphi_1\oplus(1-p)\varphi_2\to q\phi_1\oplus(1-q)\phi_2$ は非コヒーレント演算により与えられる。

We study the closed expressions of the convex roof coherence measures for one-qubit states in this paper. We present the analytical expressions for the convex roof coherence measures, $C_f(\rho)$, of one-qubit states with $C_f(\varphi):=f(\abs{c_0}^2,\abs{c_1}^2)$ (where $\ket{\varphi}=c_0\ket{0}+c_1\ket{1}$) being convex with respect to the $l_1$ norm of coherence of $\varphi$ (i.e., $C_{l_1}(\varphi)$), such coherence measures including the coherence of formation, the geometric measure of coherence, the coherence concurrence, and the coherence rank. We further present the operational interpretations of these measures. Finally, we present the usefulness of the convex roof coherence measures $C_f(\varphi)$ being non-convex with respect to $C_{l_1}(\varphi)$ by giving the necessary and sufficient conditions for the transformations $p\varphi_1\oplus(1-p)\varphi_2\to q\phi_1\oplus(1-q)\phi_2$ via incoherent operations, where $\varphi_i$, $\phi_j$ $(i, j=1, 2)$ are one-qubit pure states and $0\leq p, q\leq 1$.
翻訳日:2023-08-08 16:41:18 公開日:2023-08-06
# SAAM:モノクラー深さ推定に対する敵対的攻撃

SAAM: Stealthy Adversarial Attack on Monoculor Depth Estimation ( http://arxiv.org/abs/2308.03108v1 )

ライセンス: Link先を確認
Amira Guesmi, Muhammad Abdullah Hanif, Bassem Ouni, Muhammad Shafique(参考訳) 本稿では,敵パッチに対するMDEの脆弱性について検討する。 本稿では, 推定距離を劣化させたり, 物体を周囲にシームレスに混入させたりすることで, MDE を損なう新規な \underline{S}tealthy \underline{A}dversarial \underline{A}ttacks on \underline{M}DE (SAAM) を提案する。 我々の実験は、デザインされたステルスパッチがDNNベースのMDEにオブジェクトの深さを誤って推定することに成功したことを実証した。 実際,提案した対向パッチは,影響領域の99.%の深さ誤差を有意に達成している。 重要なのは、その敵対的な性質にもかかわらず、パッチは自然主義的な外観を保ち、人間の観察者には目立たないことである。 我々はこの研究が、エッジデバイス上でのMDEの文脈における敵攻撃の脅威に光を当てていると信じている。 このような攻撃による現実的な被害に対するコミュニティ内の認識を高め、より堅牢で適応的な防御メカニズムの開発に関するさらなる研究を促進することを願っている。

In this paper, we investigate the vulnerability of MDE to adversarial patches. We propose a novel \underline{S}tealthy \underline{A}dversarial \underline{A}ttacks on \underline{M}DE (SAAM) that compromises MDE by either corrupting the estimated distance or causing an object to seamlessly blend into its surroundings. Our experiments, demonstrate that the designed stealthy patch successfully causes a DNN-based MDE to misestimate the depth of objects. In fact, our proposed adversarial patch achieves a significant 60\% depth error with 99\% ratio of the affected region. Importantly, despite its adversarial nature, the patch maintains a naturalistic appearance, making it inconspicuous to human observers. We believe that this work sheds light on the threat of adversarial attacks in the context of MDE on edge devices. We hope it raises awareness within the community about the potential real-life harm of such attacks and encourages further research into developing more robust and adaptive defense mechanisms.
翻訳日:2023-08-08 16:40:29 公開日:2023-08-06
# 非構造データからの効果的な農業情報抽出のためのLLMを用いた埋め込み型検索

Embedding-based Retrieval with LLM for Effective Agriculture Information Extracting from Unstructured Data ( http://arxiv.org/abs/2308.03107v1 )

ライセンス: Link先を確認
Ruoling Peng, Kang Liu, Po Yang, Zhipeng Yuan, Shunbao Li(参考訳) 害虫識別は農業における害虫防除の重要な側面である。 しかし、ほとんどの農家は現場の害虫を正確に特定できないため、迅速なクエリーを行うための構造化データソースは限られている。 本研究では,人間による介入が最小限か全くない農業用文書から構造化データを抽出するために,ドメイン非依存の一般事前学習型大規模言語モデル(llm)を用いた。 埋め込み型検索を用いてテキスト検索とフィルタリングを行う手法を提案し,続いてLCM質問応答を用いて文書からエンティティや属性を自動的に抽出し,構造化データに変換する手法を提案する。 既存の手法と比較して,提案手法は効率を保ちながらベンチマークの精度を一貫して向上させる。

Pest identification is a crucial aspect of pest control in agriculture. However, most farmers are not capable of accurately identifying pests in the field, and there is a limited number of structured data sources available for rapid querying. In this work, we explored using domain-agnostic general pre-trained large language model(LLM) to extract structured data from agricultural documents with minimal or no human intervention. We propose a methodology that involves text retrieval and filtering using embedding-based retrieval, followed by LLM question-answering to automatically extract entities and attributes from the documents, and transform them into structured data. In comparison to existing methods, our approach achieves consistently better accuracy in the benchmark while maintaining efficiency.
翻訳日:2023-08-08 16:40:10 公開日:2023-08-06
# NLIファインチューニングによるドメイン特化検索の改善

Improving Domain-Specific Retrieval by NLI Fine-Tuning ( http://arxiv.org/abs/2308.03103v1 )

ライセンス: Link先を確認
Roman Du\v{s}ek, Aleksander Wawer, Christopher Galias, Lidia Wojciechowska(参考訳) 本論文の目的は,自然言語推論(nli)データの微調整可能性を調査し,情報検索とランク付けを改善することである。 ポーランド最大のeコマースサイトと選択されたオープンドメインデータセットからのデータを用いて、英語とポーランド語の両方でこれを実証する。 コントラスト損失とnliデータを用いた教師付き手法で微調整した単言語および多言語文エンコーダを用いる。 この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。 最後に,NLIによるドメイン外ユースケースの微調整の効果を説明するため,埋め込みの均一性とアライメントについて検討する。

The aim of this article is to investigate the fine-tuning potential of natural language inference (NLI) data to improve information retrieval and ranking. We demonstrate this for both English and Polish languages, using data from one of the largest Polish e-commerce sites and selected open-domain datasets. We employ both monolingual and multilingual sentence encoders fine-tuned by a supervised method utilizing contrastive loss and NLI data. Our results point to the fact that NLI fine-tuning increases the performance of the models in both tasks and both languages, with the potential to improve mono- and multilingual models. Finally, we investigate uniformity and alignment of the embeddings to explain the effect of NLI-based fine-tuning for an out-of-domain use-case.
翻訳日:2023-08-08 16:39:58 公開日:2023-08-06
# 学習率のない学習:D適応と確率線形探索の分離

Learning-Rate-Free Learning: Dissecting D-Adaptation and Probabilistic Line Search ( http://arxiv.org/abs/2308.03102v1 )

ライセンス: Link先を確認
Max McGuinness(参考訳) 本稿では,D-Adaptation (arXiv:2301.07733) とprobabilistic line search (arXiv:1502.02846) の2つの手法について検討する。 これらのアプローチは、距離メトリクスとガウス過程の後方推定をそれぞれ組み込むことにより、初期学習率の選択の負担を軽減することを目的としている。 本報告では,両手法の直感的な概要と設計目標の共有,および2つのアルゴリズムの融合範囲について述べる。

This paper explores two recent methods for learning rate optimisation in stochastic gradient descent: D-Adaptation (arXiv:2301.07733) and probabilistic line search (arXiv:1502.02846). These approaches aim to alleviate the burden of selecting an initial learning rate by incorporating distance metrics and Gaussian process posterior estimates, respectively. In this report, I provide an intuitive overview of both methods, discuss their shared design goals, and devise scope for merging the two algorithms.
翻訳日:2023-08-08 16:39:47 公開日:2023-08-06
# LARCH: ヒューリスティックスによる大規模言語モデルに基づく自動読解作成

LARCH: Large Language Model-based Automatic Readme Creation with Heuristics ( http://arxiv.org/abs/2308.03099v1 )

ライセンス: Link先を確認
Yuta Koreeda, Terufumi Morishita, Osamu Imaichi, Yasuhiro Sogawa(参考訳) プログラムコードの管理と再利用において重要な役割を果たすので、読み書きはソフトウェア開発の重要な側面である。 多くの開発者にとっては痛点だが、数千行のコードから抽象的な記述を生成する必要があるため、最近の大規模言語モデル(llm)の進歩にもかかわらず、自動生成は依然として課題である。 本稿では,レポジトリを代表するコードフラグメントを識別できれば,LCMが一貫性があり,実際に正しい読み出しを生成することができることを示す。 そこで我々は,larch (llm-based automatic readme creation with heuristics) を開発した。 人的および自動的な評価を通じて、LARCHは、ほとんどのケースにおいて一貫性のある、事実上正しい読み出しを生成でき、代表的なコード識別に依存しないベースラインよりも優れていることを示す。 LARCHをオープンソースにし、クロスプラットフォームのVisual Studio Codeインターフェースとコマンドラインインターフェースを提供しました。 LARCHの機能を示すデモビデオはhttps://youtu.be/ZUKkh5ED-O4 で公開されている。

Writing a readme is a crucial aspect of software development as it plays a vital role in managing and reusing program code. Though it is a pain point for many developers, automatically creating one remains a challenge even with the recent advancements in large language models (LLMs), because it requires generating abstract description from thousands of lines of code. In this demo paper, we show that LLMs are capable of generating a coherent and factually correct readmes if we can identify a code fragment that is representative of the repository. Building upon this finding, we developed LARCH (LLM-based Automatic Readme Creation with Heuristics) which leverages representative code identification with heuristics and weak supervision. Through human and automated evaluations, we illustrate that LARCH can generate coherent and factually correct readmes in the majority of cases, outperforming a baseline that does not rely on representative code identification. We have made LARCH open-source and provided a cross-platform Visual Studio Code interface and command-line interface, accessible at https://github.com/hitachi-nlp/larch . A demo video showcasing LARCH's capabilities is available at https://youtu.be/ZUKkh5ED-O4 .
翻訳日:2023-08-08 16:39:36 公開日:2023-08-06
# 遷移情報エクストラクタと遷移文生成器を用いたChit-Chatからタスク指向対話へのシステム開始遷移

System-Initiated Transitions from Chit-Chat to Task-Oriented Dialogues with Transition Info Extractor and Transition Sentence Generator ( http://arxiv.org/abs/2308.03098v1 )

ライセンス: Link先を確認
Ye Liu, Stefan Ultes, Wolfgang Minker and Wolfgang Maier(参考訳) 本研究では,チントチャットからタスク関連サービスに切り替える対話シナリオについて検討し,チントチャットとタスク指向対話の両方に係わる統合対話モデルが,協調的かつ協調的に,チントチャットからタスク指向へ移行するダイアログモードのイニシアティブをどう行うかを検討する。 まず、先行するchit-chatインタラクションを追跡し、タスク指向サービスに切り替える潜在的なユーザの意図を検出する {transition info extractor} (tie) を構築します。 一方、統一モデルでは、効率の良いアダプタチューニングと遷移プロンプト学習により、変換文生成装置(TSG)が拡張される。 遷移ドメインなどの前のチットチャットからタスク関連情報を見つけるのに成功すれば、tsgは統一モデル内で自動的に活性化され、tieによって抽出された遷移情報に基づいて遷移文を生成することにより、この遷移を開始する。 実験の結果, 前向き遷移について有望な性能を示した。 本研究では,条件付きランダム場(CRF)を利用して,TIEモデルの大幅な改善を実現する。 TSGは、通常のチャットとタスク指向応答生成の統一能力を保ちながら、柔軟に遷移文を生成することができる。

In this work, we study dialogue scenarios that start from chit-chat but eventually switch to task-related services, and investigate how a unified dialogue model, which can engage in both chit-chat and task-oriented dialogues, takes the initiative during the dialogue mode transition from chit-chat to task-oriented in a coherent and cooperative manner. We firstly build a {transition info extractor} (TIE) that keeps track of the preceding chit-chat interaction and detects the potential user intention to switch to a task-oriented service. Meanwhile, in the unified model, a {transition sentence generator} (TSG) is extended through efficient Adapter tuning and transition prompt learning. When the TIE successfully finds task-related information from the preceding chit-chat, such as a transition domain, then the TSG is activated automatically in the unified model to initiate this transition by generating a transition sentence under the guidance of transition information extracted by TIE. The experimental results show promising performance regarding the proactive transitions. We achieve an additional large improvement on TIE model by utilizing Conditional Random Fields (CRF). The TSG can flexibly generate transition sentences while maintaining the unified capabilities of normal chit-chat and task-oriented response generation.
翻訳日:2023-08-08 16:39:11 公開日:2023-08-06
# 教師なしドメイン適応における事前学習データの導入

Incorporating Pre-training Data Matters in Unsupervised Domain Adaptation ( http://arxiv.org/abs/2308.03097v1 )

ライセンス: Link先を確認
Yinsong Xu, Aidong Men, Yang Liu, Qingchao Chen(参考訳) 非教師付きドメイン適応(UDA)とソースフリーUDA(SFUDA)メソッドは、ソースとターゲットの2つのドメインに関わる問題を定式化する。 彼らは通常、ImageNetのような大規模データセットで事前訓練されたモデルから始まる標準的なトレーニングアプローチを採用し、その効果についてはほとんど議論しない。 このギャップを認識し,(1)ImageNet, ソース, ターゲットドメイン間の相関関係について検討する。 2) ImageNetの事前学習はターゲットリスクにどのように影響するか? まず,3つの領域(imagenet, source, target)のいずれかの差異が減少するが,プリトレイン領域のセマンティクス構造を損なうコストが低下する,微調整におけるsp効果を経験的に観察した。 第2の質問は、spを説明し、ターゲットリスクが3つのドメイン間の勾配差によって束縛されていることを定量化する理論である。 予行データセット(つまりImageNet)のセマンティッククラスタ構造が障害された場合、適応性能を阻害する。 そこで我々は,ImageNetを第3のドメインとして組み込んで,UDA/SFUDAを3プレーヤゲームとして再定義する。 具体的には,理論と経験的知見に着想を得て,事前学習データセットの意味構造を微調整時に保持する新しいフレームワーク trida を提案する。 実験結果から,UDAおよびSFUDAベンチマークにおける最先端性能が得られた。

Unsupervised domain adaptation(UDA) and Source-free UDA(SFUDA) methods formulate the problem involving two domains: source and target. They typically employ a standard training approach that begins with models pre-trained on large-scale datasets e.g., ImageNet, while rarely discussing its effect. Recognizing this gap, we investigate the following research questions: (1) What is the correlation among ImageNet, the source, and the target domain? (2) How does pre-training on ImageNet influence the target risk? To answer the first question, we empirically observed an interesting Spontaneous Pulling (SP) Effect in fine-tuning where the discrepancies between any two of the three domains (ImageNet, Source, Target) decrease but at the cost of the impaired semantic structure of the pre-train domain. For the second question, we put forward a theory to explain SP and quantify that the target risk is bound by gradient disparities among the three domains. Our observations reveal a key limitation of existing methods: it hinders the adaptation performance if the semantic cluster structure of the pre-train dataset (i.e.ImageNet) is impaired. To address it, we incorporate ImageNet as the third domain and redefine the UDA/SFUDA as a three-player game. Specifically, inspired by the theory and empirical findings, we present a novel framework termed TriDA which additionally preserves the semantic structure of the pre-train dataset during fine-tuning. Experimental results demonstrate that it achieves state-of-the-art performance across various UDA and SFUDA benchmarks.
翻訳日:2023-08-08 16:38:47 公開日:2023-08-06
# 繰り返しブロックレバレッジスコアサンプリングによるグラディエント符号化

Gradient Coding through Iterative Block Leverage Score Sampling ( http://arxiv.org/abs/2308.03096v1 )

ライセンス: Link先を確認
Neophytos Charalambides, Mert Pilanci, Alfred Hero(参考訳) 我々は、$\ell_2$-subspace埋め込みのためのレバレッジスコアサンプリングスケッチを一般化し、変換されたデータのサンプリングサブセットを適合させる。 この手法は、分散計算ネットワークにおける障害の存在下で線形回帰を加速するために、勾配符号化と呼ばれる一階法のための近似符号付き計算手法を導出するために用いられる。 我々は、分散ネットワーク上でデータを複製し、誘導サンプリング分布を通して近似を保証する。 この研究の意義と大きな貢献は、ランダム化された数値線形代数を近似符号化計算で統一し、一様サンプリングによって誘導された$\ell_2$-subspace 埋め込みを達成することである。 均一サンプリングへの移行は、サブサンプルランダム化アダマール変換の場合のように、ランダムプロジェクションを適用することなく行われる。 さらに,この手法を符号化計算に組み込むことにより,線形回帰を近似的に解く反復的スケッチ手法を提案する。 また,さらなる圧縮のために,サンプリングと置換によるスケッチを行う場合の重み付けも提案する。

We generalize the leverage score sampling sketch for $\ell_2$-subspace embeddings, to accommodate sampling subsets of the transformed data, so that the sketching approach is appropriate for distributed settings. This is then used to derive an approximate coded computing approach for first-order methods; known as gradient coding, to accelerate linear regression in the presence of failures in distributed computational networks, \textit{i.e.} stragglers. We replicate the data across the distributed network, to attain the approximation guarantees through the induced sampling distribution. The significance and main contribution of this work, is that it unifies randomized numerical linear algebra with approximate coded computing, while attaining an induced $\ell_2$-subspace embedding through uniform sampling. The transition to uniform sampling is done without applying a random projection, as in the case of the subsampled randomized Hadamard transform. Furthermore, by incorporating this technique to coded computing, our scheme is an iterative sketching approach to approximately solving linear regression. We also propose weighting when sketching takes place through sampling with replacement, for further compression.
翻訳日:2023-08-08 16:38:21 公開日:2023-08-06
# PNN:近位アルゴリズムから頑健な展開型画像復調ネットワークとPlug-and-Play法へ

PNN: From proximal algorithms to robust unfolded image denoising networks and Plug-and-Play methods ( http://arxiv.org/abs/2308.03139v1 )

ライセンス: Link先を確認
Hoang Trieu Vy Le, Audrey Repetti, Nelly Pustelnik(参考訳) 逆イメージング問題を解決するための一般的なアプローチは、最小化問題を解くことにより、元の未知画像の最大後部推定(MAP)を求めることである。 この文脈では、反復的近似アルゴリズムが広く使われ、非滑らかな関数や線形作用素を扱える。 近年,これらのアルゴリズムは,推定品質をさらに向上するために,ディープラーニング戦略と組み合わせられている。 特に近位ニューラルネットワーク(PNN)が導入され、MAP推定値を求めるために近位アルゴリズムをアンロールすることで、学習された線形演算子とパラメータを含む一定回数のイテレーションが実現されている。 PNNは最適化理論に基づいているため、非常に柔軟であり、近位アルゴリズムがそれを解くことができるとすぐに、任意の画像復元タスクに適応できる。 従来のネットワークよりもはるかに軽量なアーキテクチャを持つ。 本稿では,二元FBと二元Chambolle-Pockアルゴリズムの両方に基づいて,ガウス分母タスクのためのPNNを構築する統一フレームワークを提案する。 さらに、これらのアルゴリズムの慣性バージョンを高速化することで、関連するNN層のスキップ接続が可能になることを示す。 我々は,pnnフレームワークのための異なる学習戦略を提案し,そのロバスト性(リプシッツ特性)と雑音化効率について検討する。 最後に,画像劣化問題に対するフォワードバックアルゴリズムに接続した場合のPNNの堅牢性を評価する。

A common approach to solve inverse imaging problems relies on finding a maximum a posteriori (MAP) estimate of the original unknown image, by solving a minimization problem. In thiscontext, iterative proximal algorithms are widely used, enabling to handle non-smooth functions and linear operators. Recently, these algorithms have been paired with deep learning strategies, to further improve the estimate quality. In particular, proximal neural networks (PNNs) have been introduced, obtained by unrolling a proximal algorithm as for finding a MAP estimate, but over a fixed number of iterations, with learned linear operators and parameters. As PNNs are based on optimization theory, they are very flexible, and can be adapted to any image restoration task, as soon as a proximal algorithm can solve it. They further have much lighter architectures than traditional networks. In this article we propose a unified framework to build PNNs for the Gaussian denoising task, based on both the dual-FB and the primal-dual Chambolle-Pock algorithms. We further show that accelerated inertial versions of these algorithms enable skip connections in the associated NN layers. We propose different learning strategies for our PNN framework, and investigate their robustness (Lipschitz property) and denoising efficiency. Finally, we assess the robustness of our PNNs when plugged in a forward-backward algorithm for an image deblurring problem.
翻訳日:2023-08-08 16:32:26 公開日:2023-08-06
# E-CLIP: CLIPによるラベル効率の高いイベントベースのオープンワールド理解を目指して

E-CLIP: Towards Label-efficient Event-based Open-world Understanding by CLIP ( http://arxiv.org/abs/2308.03135v1 )

ライセンス: Link先を確認
Jiazhou Zhou, Xu Zheng, Yuanhuiyi Lyu, Lin Wang(参考訳) CLIP(Contrasting Language-image relateding)は近年,2次元画像認識タスクにおいて,オープンワールドと少数ショットのパフォーマンスを約束している。 しかし、CLIPの新たなイベントカメラデータへの転送能力はまだ未調査のままである。 特に、画像テキストデータとのモダリティギャップと大規模データセットの欠如のため、この目標達成は自明ではなく、重要な研究革新を必要とする。 本稿では、大規模イベントベースデータセットの欠如を補うために、イベントベース認識のためのCLIPの可能性を明らかにする、新しく効果的なフレームワークであるE-CLIPを提案する。 私たちの仕事は2つの重要な課題に対処します 1)クリップのビジュアルエンコーダをイベントデータに一般化する方法,例えばスパーシティや時間分解能の高いイベントのユニークな特性を十分に活用する。 2)マルチモーダル埋め込み、すなわち画像、テキスト、イベントを効果的に整列する方法。 この目的のために,まずイベントエンコーダを導入し,イベントからの時間情報を微妙にモデル化し,同時にイベントプロンプトを生成し,モダリティブリッジングを促進する。 次に、コンテンツプロンプトを生成し、ハイブリッドテキストプロンプトを利用するテキストエンコーダを設計し、多様なデータセットにまたがるE-CLIPの一般化能力を向上する。 提案するイベントエンコーダ,テキストエンコーダ,および原画像エンコーダにより,新しい階層型三重コントラストアライメント(HTCA)モジュールを導入し,相関性を最適化し,3つのモード間の効率的な知識伝達を実現する。 我々は2つの認識ベンチマークで広範な実験を行い、その結果、我々のE-CLIPは、N-Caltechデータセットでそれぞれ3.94%と+4.62%という大きなマージンで既存の手法より優れていることを示した。 さらに,E-CLIPはテキストクエリと画像クエリの両方を用いてイベント検索タスクに柔軟に拡張でき,高い性能を示すことができる。

Contrasting Language-image pertaining (CLIP) has recently shown promising open-world and few-shot performance on 2D image-based recognition tasks. However, the transferred capability of CLIP to the novel event camera data still remains under-explored. In particular, due to the modality gap with the image-text data and the lack of large-scale datasets, achieving this goal is non-trivial and thus requires significant research innovation. In this paper, we propose E-CLIP, a novel and effective framework that unleashes the potential of CLIP for event-based recognition to compensate for the lack of large-scale event-based datasets. Our work addresses two crucial challenges: 1) how to generalize CLIP's visual encoder to event data while fully leveraging events' unique properties, e.g., sparsity and high temporal resolution; 2) how to effectively align the multi-modal embeddings, i.e., image, text, and events. To this end, we first introduce a novel event encoder that subtly models the temporal information from events and meanwhile generates event prompts to promote the modality bridging. We then design a text encoder that generates content prompts and utilizes hybrid text prompts to enhance the E-CLIP's generalization ability across diverse datasets. With the proposed event encoder, text encoder, and original image encoder, a novel Hierarchical Triple Contrastive Alignment (HTCA) module is introduced to jointly optimize the correlation and enable efficient knowledge transfer among the three modalities. We conduct extensive experiments on two recognition benchmarks, and the results demonstrate that our E-CLIP outperforms existing methods by a large margin of +3.94% and +4.62% on the N-Caltech dataset, respectively, in both fine-tuning and few-shot settings. Moreover, our E-CLIP can be flexibly extended to the event retrieval task using both text or image queries, showing plausible performance.
翻訳日:2023-08-08 16:32:02 公開日:2023-08-06
# エネルギーバンド構造のためのフル量子固有解法器

A powered full quantum eigensolver for energy band structures ( http://arxiv.org/abs/2308.03134v1 )

ライセンス: Link先を確認
Bozhi Wang, Jingwei Wen, Jiawei Wu, Haonan Xie, Fan Yang, Shijie Wei, Gui-lu Long(参考訳) 近年、凝縮物系の量子アルゴリズム、特にエネルギーバンド構造の計算に着目する研究が増えている。 本稿では,フル量子固有解器(FQE)の演算子の指数を用いた量子アルゴリズム,パワーフル量子固有解器(P-FQE)を提案する。 これにより、ある状況下で目標状態を測定する成功確率が指数関数的に上昇し、作用素の指数化に関わる生成要素の数は軌道の数に依存する対数多項式依存性を示す。 さらに, ツイスト二層グラフェンのバンド構造決定のための数値計算を行う。 グラフェンおよびワイル半金属の超伝導量子コンピュータを用いたP-FQEアルゴリズムの有効性とロバスト性を実験的に実証した。 我々のアルゴリズムの大きな利点は、非常に高性能なハードウェアの要求を減らし、ノイズの多い中間スケール量子(NISQ)デバイスでのエネルギースペクトル決定により適していることである。

There has been an increasing research focus on quantum algorithms for condensed matter systems recently, particularly on calculating energy band structures. Here, we propose a quantum algorithm, the powered full quantum eigensolver(P-FQE), by using the exponentiation of operators of the full quantum eigensolver(FQE). This leads to an exponential increase in the success probability of measuring the target state in certain circumstances where the number of generating elements involved in the exponentiation of operators exhibit a log polynomial dependence on the number of orbitals. Furthermore, we conduct numerical calculations for band structure determination of the twisted double-layer graphene. We experimentally demonstrate the feasibility and robustness of the P-FQE algorithm using superconducting quantum computers for graphene and Weyl semimetal. One significant advantage of our algorithm is its ability to reduce the requirements of extremely high-performance hardware, making it more suitable for energy spectra determination on noisy intermediate-scale quantum (NISQ) devices.
翻訳日:2023-08-08 16:31:28 公開日:2023-08-06
# 二元量子最適制御のためのスイッチング時間最適化

Switching Time Optimization for Binary Quantum Optimal Control ( http://arxiv.org/abs/2308.03132v1 )

ライセンス: Link先を確認
Xinyu Fei, Lucas T. Brady, Jeffrey Larson, Sven Leyffer, Siqian Shen(参考訳) 量子最適制御(quantum optimal control)は、量子系の進化を制御する技術であり、量子物理学における幅広い問題に適用されている。 本研究では, 制御決定が二値化され, 様々な量子アルゴリズムで解決される二元量子制御最適化問題について検討する。 本稿では,古典的な最適化手法と計算手法を用いて,連続時間帯における制御スイッチ数と制御間隔の持続時間を逐次最適化するアルゴリズムフレームワークを開発する。 具体的には、まず時間離散化に基づいてバイナリ制御問題の連続緩和を解き、次にヒューリスティックを用いてスイッチ数に対するペナルティを持つコントローラシーケンスを得る。 次に、スイッチング時間最適化モデルを定式化し、逐次最小二乗計画と高速化時間発展シミュレーションを適用して解く。 我々の計算フレームワークは、高品質な性能でバイナリ制御を得ることができ、また、様々な量子物理学アプリケーションで量子制御インスタンスのファミリーを解くことで計算時間を短縮できることを示した。

Quantum optimal control is a technique for controlling the evolution of a quantum system and has been applied to a wide range of problems in quantum physics. We study a binary quantum control optimization problem, where control decisions are binary-valued and the problem is solved in diverse quantum algorithms. In this paper, we utilize classical optimization and computing techniques to develop an algorithmic framework that sequentially optimizes the number of control switches and the duration of each control interval on a continuous time horizon. Specifically, we first solve the continuous relaxation of the binary control problem based on time discretization and then use a heuristic to obtain a controller sequence with a penalty on the number of switches. Then, we formulate a switching time optimization model and apply sequential least-squares programming with accelerated time-evolution simulation to solve the model. We demonstrate that our computational framework can obtain binary controls with high-quality performance and also reduce computational time via solving a family of quantum control instances in various quantum physics applications.
翻訳日:2023-08-08 16:31:13 公開日:2023-08-06
# 複数参照時代に向けて -- NLG評価におけるデータ漏洩と限定参照多様性の対応

Towards Multiple References Era -- Addressing Data Leakage and Limited Reference Diversity in NLG Evaluation ( http://arxiv.org/abs/2308.03131v1 )

ライセンス: Link先を確認
Xianfeng Zeng, Yijin Liu, Fandong Meng and Jie Zho(参考訳) BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。 しかし、最近の研究では、これらのマッチングベースのメトリクスと人間の評価との間に弱い相関関係が明らかになっている。 本稿では、マッチングベースのメトリクスにおけるパフォーマンスボトルネックは、参照の多様性の制限によって引き起こされる可能性があると推測する。 この問題に対処するために,これらの指標と人的評価との整合性を高めるために, textit{multiple references} を用いることを提案する。 wmtメトリックベンチマークでは、マルチリファレンスf200spbleuが従来のシングルリファレンスより7.2\%精度が向上している。 驚くべきことに、ニューラルネットワークベースのbertscoreを3.9\%の精度向上で上回っている。 さらに,大規模言語モデル (LLM) におけるデータ漏洩問題は,マルチリファレンス・メトリックによって大幅に軽減できることがわかった。 コードとデータは \url{https://github.com/sefazeng/llm-ref} でリリースします。

N-gram matching-based evaluation metrics, such as BLEU and chrF, are widely utilized across a range of natural language generation (NLG) tasks. However, recent studies have revealed a weak correlation between these matching-based metrics and human evaluations, especially when compared with neural-based metrics like BLEURT. In this paper, we conjecture that the performance bottleneck in matching-based metrics may be caused by the limited diversity of references. To address this issue, we propose to utilize \textit{multiple references} to enhance the consistency between these metrics and human evaluations. Within the WMT Metrics benchmarks, we observe that the multi-references F200spBLEU surpasses the conventional single-reference one by an accuracy improvement of 7.2\%. Remarkably, it also exceeds the neural-based BERTscore by an accuracy enhancement of 3.9\%. Moreover, we observe that the data leakage issue in large language models (LLMs) can be mitigated to a large extent by our multi-reference metric. We release the code and data at \url{https://github.com/SefaZeng/LLM-Ref}
翻訳日:2023-08-08 16:30:56 公開日:2023-08-06
# 力学カシミール効果における量子場の光力学的逆反応

Optomechanical Backreaction of Quantum Field Processes in Dynamical Casimir Effect ( http://arxiv.org/abs/2308.03129v1 )

ライセンス: Link先を確認
Yu-Cun Xie, Salvatore Butera and Bei-Lok Hu(参考訳) 動的カシミール効果(DCE)と宇宙粒子生成(CPC)は、膨張する宇宙や高速な移動境界によって量子場の真空変動のパラメトリック増幅と同じ物理機構を共有している。 プランク時間での宇宙論的粒子生成の反作用は、初期の宇宙の等方化と均質化において重要な役割を果たすことが示されている。 DCEにおける場の量子過程のバックリアクション効果を理解することが、この研究のゴールである。 1+1d(時間依存半径を持つ環)と3+1d(移動側が1つの対称矩形導電箱)の2つのモデル系における量子場過程の解析を行った。 どちらの場合も、半径や長さの時間依存性は、粒子の生成と関連する効果のバックリアクションによってのみ決定されるが、外部剤は存在しない。 1+1Dの場合、トレース異常による唯一の量子場効果は、静的カシミール効果の魅力的な力により、環の収縮を上下に加速させる傾向がある。 長方形の箱の場合、静的なカシミール効果により膨張や収縮が遅くなる。 我々の発見は、宇宙学的バックリアクション問題で発見された量子レンツ法則(Quantum Lenz law)に従っており、バックリアクションは、粒子生成の抑制と系のダイナミクスの減速を意味する、さらなる変化に対応する方向に機能する。 結論として、さらなる研究のために理論的に重要な問題の2つの関連クラスを提案する。

Dynamical Casimir effect (DCE) and cosmological particle creation (CPC) share the same underlying physical mechanism, that of parametric amplification of vacuum fluctuations in the quantum field by an expanding universe or by a fast moving boundary. Backreaction of cosmological particle creation at the Planck time has been shown to play a significant role in the isotropization and homogenization of the early universe. Understanding the backreaction effects of quantum field processes in DCE is the goal of this work. We present analyses of quantum field processes in two model systems: in 1+1D, a ring with time-dependent radius, and in 3+1D, a symmetric rectangular conducting box with one moving side. In both cases the time-dependence of the radius or the length is determined solely by the backreaction of particle creation and related effects, there is no external agent. We find that for 1+1D, the only quantum field effect due to the trace anomaly tends to accelerate the contraction of the ring over and above that due to the attractive force in the static Casimir effect. For the rectangular box the expansion or contraction is slowed down compared to that due to the static Casimir effect. Our findings comply with what is known as the quantum Lenz law, found in cosmological backreaction problems: the backreaction works in the direction of opposing further changes, which means the suppression of particle creation and a slow down of the system dynamics. In conclusion we suggest two related classes of problems of theoretical significance for further investigations.
翻訳日:2023-08-08 16:30:39 公開日:2023-08-06
# 再正規化群としての反復的マグニチュード・プルーニング:抽選券仮説の文脈での研究

Iterative Magnitude Pruning as a Renormalisation Group: A Study in The Context of The Lottery Ticket Hypothesis ( http://arxiv.org/abs/2308.03128v1 )

ライセンス: Link先を確認
Abu-Al Hassan(参考訳) この論文は、LTH(Lottery Ticket hypothesis)というエキサイティングな概念に焦点を当てた、Deep Neural Networks(DNN)の複雑な世界に展開している。 LTHは、広範囲なDNNの中で、より小型で訓練可能なサブネットワークを「勝利チケット」と呼び、フルモデルに匹敵する性能を達成できるとしている。 LTHにおける重要なプロセスであるイテレーティブ・マグニチュード・プルーニング(IMP)は、最小限の重みを徐々に排除し、DNNにおける段階的な学習をエミュレートする。 これらの当選チケットを特定したら、さらに彼らの「普遍性」を調査します。 言い換えれば、ある特定の問題に対してうまく機能する当選券が、他の同様の問題にも有効であるかどうかを確認する。 また、物理学におけるIMPとRenormalisation Group(RG)理論の分割を橋渡しし、IMPのより厳密な理解を促進する。

This thesis delves into the intricate world of Deep Neural Networks (DNNs), focusing on the exciting concept of the Lottery Ticket Hypothesis (LTH). The LTH posits that within extensive DNNs, smaller, trainable subnetworks termed "winning tickets", can achieve performance comparable to the full model. A key process in LTH, Iterative Magnitude Pruning (IMP), incrementally eliminates minimal weights, emulating stepwise learning in DNNs. Once we identify these winning tickets, we further investigate their "universality". In other words, we check if a winning ticket that works well for one specific problem could also work well for other, similar problems. We also bridge the divide between the IMP and the Renormalisation Group (RG) theory in physics, promoting a more rigorous understanding of IMP.
翻訳日:2023-08-08 16:30:13 公開日:2023-08-06
# 『黒澤』:スクリプト作家の助手。

"Kurosawa": A Script Writer's Assistant ( http://arxiv.org/abs/2308.03122v1 )

ライセンス: Link先を確認
Prerak Gandhi, Vishal Pramanik, Pushpak Bhattacharyya(参考訳) ストーリーテリングはエンターテイメント産業のライフラインであり、映画、テレビ番組、スタンドアップコメディーはすべてストーリーを必要としている。 良い脚本はストーリーテリングのライフラインであり、創造性とリソース投資を要求する。 良質な脚本家は見つけることは稀であり、しばしば厳しい時間的プレッシャーの下で働く。 そのため、エンターテイメントメディアは積極的に自動化を求めている。 本稿では,プロット生成とスクリプト生成のタスクに対処する,黒澤というAIベースのスクリプト記述ワークベンチを提案する。 Plotジェネレーションは、プロンプト(15~40語)を与えられたコヒーレントで創造的なプロット(600~800語)を生成することを目的としている。 一方、スクリプト生成は、簡単な記述(15~40語)から脚本形式でシーン(200〜500語)を生成する。 黒沢は訓練にデータが必要です。 ストーリーテリングの4-act構造を使用して,プロットデータセットを手作業でアノテートする。 手動でアノテートされたプロットとそれに対応するプロンプト/ストーリーラインのデータセットと、シーンヘッダ、アクションライン、ダイアログ、文字名という4つの主要な要素を持つ1000のシーンのゴールドスタンダードデータセットを個別にタグ付けします。 上記のデータセットでGPT-3を微調整してプロットとシーンを生成する。 これらのプロットとシーンは最初に評価され、その後、巨大で有名なメディアプラットフォームであるErosNowの脚本家によって使用される。 注釈付きデータセットとこれらのデータセットでトレーニングされたモデルを、自動映画のプロットとスクリプト生成のためのワーキングベンチマークとしてリリースする。

Storytelling is the lifeline of the entertainment industry -- movies, TV shows, and stand-up comedies, all need stories. A good and gripping script is the lifeline of storytelling and demands creativity and resource investment. Good scriptwriters are rare to find and often work under severe time pressure. Consequently, entertainment media are actively looking for automation. In this paper, we present an AI-based script-writing workbench called KUROSAWA which addresses the tasks of plot generation and script generation. Plot generation aims to generate a coherent and creative plot (600-800 words) given a prompt (15-40 words). Script generation, on the other hand, generates a scene (200-500 words) in a screenplay format from a brief description (15-40 words). Kurosawa needs data to train. We use a 4-act structure of storytelling to annotate the plot dataset manually. We create a dataset of 1000 manually annotated plots and their corresponding prompts/storylines and a gold-standard dataset of 1000 scenes with four main elements -- scene headings, action lines, dialogues, and character names -- tagged individually. We fine-tune GPT-3 with the above datasets to generate plots and scenes. These plots and scenes are first evaluated and then used by the scriptwriters of a large and famous media platform ErosNow. We release the annotated datasets and the models trained on these datasets as a working benchmark for automatic movie plot and script generation.
翻訳日:2023-08-08 16:29:53 公開日:2023-08-06
# NNVISR: ビデオ処理フレームワークにニューラルネットワークの補間と超解像を実現する

NNVISR: Bring Neural Network Video Interpolation and Super Resolution into Video Processing Framework ( http://arxiv.org/abs/2308.03121v1 )

ライセンス: Link先を確認
Yuan Tong, Mengshun Hu, Zheng Wang(参考訳) 本稿では,VapourSynthビデオ処理フレームワーク用のオープンソースのフィルタプラグインであるNNVISRについて述べる。 NNVISRは、フレームのグループを強化するネットワークを受け入れ、ビデオ処理中に他のネットワーク非依存の詳細を処理することで、ビデオ拡張ニューラルネットワークとビデオ処理パイプラインの間のギャップを埋める。 NNVISRはhttps://github.com/tongyuantongyu/vs-NNVISRで公開されている。

We present NNVISR - an open-source filter plugin for the VapourSynth video processing framework, which facilitates the application of neural networks for various kinds of video enhancing tasks, including denoising, super resolution, interpolation, and spatio-temporal super-resolution. NNVISR fills the gap between video enhancement neural networks and video processing pipelines, by accepting any network that enhances a group of frames, and handling all other network agnostic details during video processing. NNVISR is publicly released at https://github.com/tongyuantongyu/vs-NNVISR.
翻訳日:2023-08-08 16:29:30 公開日:2023-08-06
# PSUベイアンバン校生のeラーニング技術に対する意識レベル

Level of Awareness of PSU Bayambang Campus Students towards E learning Technologies ( http://arxiv.org/abs/2308.03118v1 )

ライセンス: Link先を確認
Matthew John F. Sino Cruz, Kim Eric B. Nanlabi, and Michael Ryan C. Peoro(参考訳) 本研究は,eラーニング技術に関するPSU Bayambang Campus学生の意識を評価する。 人口統計調査とICTリソースアセスメントを通じてデータを収集する定量的研究手法が用いられた。 この調査は、既存のeラーニング技術の学生の親しみと知識を測定した。 回答者の約52.50%はeラーニングの概念に精通していたが、エクスポージャーと利用レベルを考慮する必要がある。 学生の意識に影響を与える要因として,技術,サポート,ユーザなどが挙げられた。 ポリシーやリソース提供を通じて実装を改善することができる。 研究者たちは、eラーニングポリシの統合、ICTリソースとインフラストラクチャの提供、学生と教師のトレーニングの提供を推奨している。 この研究は、政策設計のガイドとなり、大学の学習プロセスを強化し、より良い学習と相互作用を促進する。

The study assesses the awareness of PSU Bayambang Campus students regarding e-learning technologies. A Quantitative Research Approach was used, gathering data through a demographic questionnaire and ICT Resources assessment. The survey measured students' familiarity and knowledge of existing e-learning technologies. Around 52.50% of respondents were familiar with e learning concepts, but their exposure and utilization levels need consideration. Technology, Support, and Users were identified as key factors influencing student awareness. Implementation can be improved through policies and resource provision. The researchers recommend integrating e learning policies, providing ICT Resources and Infrastructure, and offering training for students and teachers. This research serves as a guide for policy design, enhancing the University's learning process and facilitating better learning and interaction.
翻訳日:2023-08-08 16:29:20 公開日:2023-08-06
# 戦略獲物は急性捕食者を作る:カモフラージュ物体を発生させることによるカモフラージュ物体検出装置の強化

Strategic Preys Make Acute Predators: Enhancing Camouflaged Object Detectors by Generating Camouflaged Objects ( http://arxiv.org/abs/2308.03166v1 )

ライセンス: Link先を確認
Chunming He, Kai Li, Yachao Zhang, Yulun Zhang, Zhenhua Guo, Xiu Li, Martin Danelljan, Fisher Yu(参考訳) camouflaged object detection (cod)は、周囲に視覚的にブレンドされたcamouflaged objectを識別する困難なタスクである。 成功したとはいえ、既存のCOD検出器はいくつかの困難なケースで正確な結果を得るのに苦戦している。 この問題を解決するために,捕食者がより優れたカモフラージュと捕食者を開発し,捕食者側と捕食者側の両方からより鋭い視覚システムを取得し,アルゴリズムを開発するように誘導する捕食者ゲームから着想を得た。 獲物側では,cod法が検出しにくいより多くのカモフラージュオブジェクトを生成する補助生成器を導入する,敵対的訓練フレームワークであるcamouflageatorを提案する。 カモフラーゲターは、強化された補助発電機が強力な検出器を生成するのに役立つように、発電機と検出器を反対方向に訓練する。 捕食者側では,カモフラージュされた物体の内部コヒーレンスを掘削し,より完全なセグメンテーション結果を得るために,カモフラージュされた特徴コヒーレンスモジュールを導入する,内部コヒーレンス・エッジガイダンス(ICEG)と呼ばれる新しいCOD法を導入する。 さらに、ICEGは、曖昧な境界を得るのを避けるために誤った予測を取り除くために、エッジ誘導分離キャリブレーションモジュールを提案する。 大規模な実験では、ICEGは既存のCOD検出器より優れており、カモフラージュ器は、最先端のCOD性能をもたらすICEGを含む様々なCOD検出器を改善するために柔軟である。

Camouflaged object detection (COD) is the challenging task of identifying camouflaged objects visually blended into surroundings. Albeit achieving remarkable success, existing COD detectors still struggle to obtain precise results in some challenging cases. To handle this problem, we draw inspiration from the prey-vs-predator game that leads preys to develop better camouflage and predators to acquire more acute vision systems and develop algorithms from both the prey side and the predator side. On the prey side, we propose an adversarial training framework, Camouflageator, which introduces an auxiliary generator to generate more camouflaged objects that are harder for a COD method to detect. Camouflageator trains the generator and detector in an adversarial way such that the enhanced auxiliary generator helps produce a stronger detector. On the predator side, we introduce a novel COD method, called Internal Coherence and Edge Guidance (ICEG), which introduces a camouflaged feature coherence module to excavate the internal coherence of camouflaged objects, striving to obtain more complete segmentation results. Additionally, ICEG proposes a novel edge-guided separated calibration module to remove false predictions to avoid obtaining ambiguous boundaries. Extensive experiments show that ICEG outperforms existing COD detectors and Camouflageator is flexible to improve various COD detectors, including ICEG, which brings state-of-the-art COD performance.
翻訳日:2023-08-08 16:23:46 公開日:2023-08-06
# FireFly - 森林火災におけるエンバー検出のための合成データセット

FireFly A Synthetic Dataset for Ember Detection in Wildfire ( http://arxiv.org/abs/2308.03164v1 )

ライセンス: Link先を確認
Yue Hu, Xinan Ye, Yifei Liu, Souvik Kundu, Gourav Datta, Srikar Mutnuri, Namo Asavisanu, Nora Ayanian, Konstantinos Psounis, Peter Beerel(参考訳) 本稿では,Unreal Engine 4 (UE4) を用いたエンバー検出のための合成データセット "FireFly" について述べる。 データセットを作成するために,調整可能なパラメータを用いた合成ラベル付きデータセットの自動生成を可能にし,様々な環境条件からのデータ多様性を可能とし,ユーザの要求に応じてデータセットの多様性とカスタマイズを両立させるツールを提案する。 我々は4つの人気オブジェクト検出モデルでFireFlyを評価するために,合計19,273フレームを生成した。 さらに,人間の介入を最小限に抑えるために,実生活のemberフレームのためのセミオートマチックなラベリングプロセスを作成するために,訓練されたモデルを利用した。 さらに、実際の山火事のシナリオで平均平均精度(mAP)が8.57%向上することが実証された。

This paper presents "FireFly", a synthetic dataset for ember detection created using Unreal Engine 4 (UE4), designed to overcome the current lack of ember-specific training resources. To create the dataset, we present a tool that allows the automated generation of the synthetic labeled dataset with adjustable parameters, enabling data diversity from various environmental conditions, making the dataset both diverse and customizable based on user requirements. We generated a total of 19,273 frames that have been used to evaluate FireFly on four popular object detection models. Further to minimize human intervention, we leveraged a trained model to create a semi-automatic labeling process for real-life ember frames. Moreover, we demonstrated an up to 8.57% improvement in mean Average Precision (mAP) in real-world wildfire scenarios compared to models trained exclusively on a small real dataset.
翻訳日:2023-08-08 16:23:15 公開日:2023-08-06
# CGBA: 曲率対応の幾何学的ブラックボックス攻撃

CGBA: Curvature-aware Geometric Black-box Attack ( http://arxiv.org/abs/2308.03163v1 )

ライセンス: Link先を確認
Md Farhamdur Reza, Ali Rahmati, Tianfu Wu, Huaiyu Dai(参考訳) 決定に基づくブラックボックス攻撃は、しばしば敵の例を作るために大量のクエリを必要とする。 さらに、推定正規ベクトル方向の境界点を問合せに基づく決定に基づく攻撃は、しばしば非効率と収束の問題に苦しむ。 本稿では,制限された2次元平面上の半円路に沿って境界探索を行い,境界曲率に関係なく境界点の発見を確実にする,クエリ効率の高い幾何的決定に基づくブラックボックス攻撃(CGBA)を提案する。 提案するcgba攻撃は任意の決定境界に対して効果的に作用するが,非標的攻撃下で一般的に使用される分類器において広く見られ,実験的に検証される高品質な逆行例を作成するために低曲率を利用する場合,特に効果的である。 対照的に、決定境界はしばしば標的攻撃の下で高い曲率を示す。 そこで我々は,攻撃対象に適応したクエリ効率の高い新しい変種CGBA-Hを開発した。 さらに,いくつかの追加クエリを犠牲にして,より優れた初期境界点を求めるアルゴリズムを設計し,ターゲット攻撃の性能を大幅に向上させる。 imagenet と cifar10 データセット上の既知の分類器に対する提案手法の性能評価を行い, cgba と cgba-h が最先端の非標的攻撃と標的攻撃よりも優れていることを示す。 ソースコードはhttps://github.com/farhamdur/cgbaで入手できる。

Decision-based black-box attacks often necessitate a large number of queries to craft an adversarial example. Moreover, decision-based attacks based on querying boundary points in the estimated normal vector direction often suffer from inefficiency and convergence issues. In this paper, we propose a novel query-efficient curvature-aware geometric decision-based black-box attack (CGBA) that conducts boundary search along a semicircular path on a restricted 2D plane to ensure finding a boundary point successfully irrespective of the boundary curvature. While the proposed CGBA attack can work effectively for an arbitrary decision boundary, it is particularly efficient in exploiting the low curvature to craft high-quality adversarial examples, which is widely seen and experimentally verified in commonly used classifiers under non-targeted attacks. In contrast, the decision boundaries often exhibit higher curvature under targeted attacks. Thus, we develop a new query-efficient variant, CGBA-H, that is adapted for the targeted attack. In addition, we further design an algorithm to obtain a better initial boundary point at the expense of some extra queries, which considerably enhances the performance of the targeted attack. Extensive experiments are conducted to evaluate the performance of our proposed methods against some well-known classifiers on the ImageNet and CIFAR10 datasets, demonstrating the superiority of CGBA and CGBA-H over state-of-the-art non-targeted and targeted attacks, respectively. The source code is available at https://github.com/Farhamdur/CGBA.
翻訳日:2023-08-08 16:23:01 公開日:2023-08-06
# 説明可能なai帰属法の精密ベンチマーク

Precise Benchmarking of Explainable AI Attribution Methods ( http://arxiv.org/abs/2308.03161v1 )

ライセンス: Link先を確認
Rafa\"el Brandt, Daan Raatjens, Georgi Gaydadjiev(参考訳) ディープラーニングモデルのアウトプットの背後にある理論的根拠は、人間の理解が難しいことが多い。 説明可能なAI(XAI)は、機械学習モデルの解釈可能性と説明可能性を改善する方法を開発することで、この問題を解決することを目指している。 異なるXAI手法の評価と比較には信頼性の高い評価指標が必要である。 本稿では,最新のXAI属性手法のベンチマークのための新しい評価手法を提案する。 提案手法は,入力ノードの寄与を高精度に表現できる,基本的真理説明を伴う合成分類モデルから構成される。 また,XAI法の説明と合成モデルから導出した説明との違いを定量化するための新しい高忠実度指標を提案する。 評価基準は、精度とリコールを別々に評価することを可能にした。 また,入力の負あるいは正の寄与を独立に評価する指標を提案する。 我々の提案はXAIメソッド出力に関する深い洞察を提供する。 本稿では,合成畳み込み画像分類モデルを構築し,その評価手法を用いて複数のxai帰属法をベンチマークする。 我々は,既存のXAI評価指標と比較した。 提案手法において構築されたモデルから直接基底真理を導出することにより、例えば、トレーニングセットに基づく主観的バイアスの欠如を保証する。 実験結果から,広く利用されている Guided-Backprop 法と Smoothgrad XAI 法の性能に関する新たな知見が得られた。 どちらも正の寄与画素 (0.7, 0.76, 0.7, 0.77, 0.77) では精度が良いが、負の寄与画素 (0.44, 0.61, 0.47, 0.75, resp.) では精度が劣る。 後者の場合のリコールスコアは近いままである。 私たちは、我々のメトリクスが実行時間で最速であることを示します。

The rationale behind a deep learning model's output is often difficult to understand by humans. EXplainable AI (XAI) aims at solving this by developing methods that improve interpretability and explainability of machine learning models. Reliable evaluation metrics are needed to assess and compare different XAI methods. We propose a novel evaluation approach for benchmarking state-of-the-art XAI attribution methods. Our proposal consists of a synthetic classification model accompanied by its derived ground truth explanations allowing high precision representation of input nodes contributions. We also propose new high-fidelity metrics to quantify the difference between explanations of the investigated XAI method and those derived from the synthetic model. Our metrics allow assessment of explanations in terms of precision and recall separately. Also, we propose metrics to independently evaluate negative or positive contributions of inputs. Our proposal provides deeper insights into XAI methods output. We investigate our proposal by constructing a synthetic convolutional image classification model and benchmarking several widely used XAI attribution methods using our evaluation approach. We compare our results with established prior XAI evaluation metrics. By deriving the ground truth directly from the constructed model in our method, we ensure the absence of bias, e.g., subjective either based on the training set. Our experimental results provide novel insights into the performance of Guided-Backprop and Smoothgrad XAI methods that are widely in use. Both have good precision and recall scores among positively contributing pixels (0.7, 0.76 and 0.7, 0.77, respectively), but poor precision scores among negatively contributing pixels (0.44, 0.61 and 0.47, 0.75, resp.). The recall scores in the latter case remain close. We show that our metrics are among the fastest in terms of execution time.
翻訳日:2023-08-08 16:22:20 公開日:2023-08-06
# 2+1次元のフェルミオンに対する動的カシミール効果

Dynamical Casimir effect for fermions in 2+1 dimensions ( http://arxiv.org/abs/2308.03158v1 )

ライセンス: Link先を確認
C. D. Fosco and G. Hansen(参考訳) 2+1次元のディラック場に境界条件を課す曲線の時間依存性によるフェルミオン対生成現象について検討した。 これらの条件はフェルミオン電流の正規成分の非自明な関係をもたらし、次元のないパラメータの値に依存する。 ペア生成効果はバッグ境界条件に対して最大化され,そのパラメータの特定の値に対して得られる。 この効果は、直線に対する曲線の変形のパワーの拡張を用いて、真空崩壊の確率に関する情報を抽出する効果的な作用によって研究される。 この過程に対する最初の非自明な寄与は、静的境界に結合したディラック場に対する電磁真空偏極テンソルから得られることを示す。

We study the fermion pair creation phenomenon due to the time dependence of curves, where boundary conditions are imposed on a Dirac field in 2+1 dimensions. These conditions, which lead to non-trivial relations for the normal component of the fermionic current, depend on the value of a dimensionless parameter. We show that the pair creation effect is maximized for bag boundary conditions, obtained for a particular value of that parameter. The effect is studied in terms of the effective action to extract information on the probability of vacuum decay, using an expansion in powers of the deformation of the curves with respect to straight lines. We demonstrate that the first non-trivial contributions to this process can be obtained from the electromagnetic vacuum polarization tensor for a Dirac field coupled to static boundaries.
翻訳日:2023-08-08 16:21:38 公開日:2023-08-06
# AI-GOMS: 大規模AI駆動グローバルオーシャンモデリングシステム

AI-GOMS: Large AI-Driven Global Ocean Modeling System ( http://arxiv.org/abs/2308.03152v1 )

ライセンス: Link先を確認
Wei Xiong, Yanfei Xiang, Hao Wu, Shuyi Zhou, Yuze Sun, Muyuan Ma, Xiaomeng Huang(参考訳) 海洋モデリングは海洋の物理的、化学的、生物学的過程をシミュレーションするための強力なツールであり、海洋科学研究と運用海洋学の基礎となっている。 現代の数値海洋モデリングは主に支配方程式と数値アルゴリズムからなる。 非線形不安定性,計算コスト,低再利用効率,高結合コストが,数値海洋モデリングのさらなる発展のボトルネックとなっている。 近年、科学計算における人工知能に基づくモデリングは、デジタル双対や科学シミュレーションの革命的な可能性を示しているが、数値海洋モデリングのボトルネックは解決されていない。 本稿では,AIによる大規模海洋モデリングシステムであるAI-GOMSについて紹介する。 AI-GOMSは、基本海洋変動予測のためのフーリエベースのMasked Autoencoder構造を持つバックボーンモデルと、局所的なダウンスケーリング、ウェーブデコーディング、生化学結合モジュールを含む軽量な微調整モデルから構成される。 AI-GOMSは、1/4{\deg}空間分解能で15の深さ層を持つ大洋の基本変数の30日間の予測で最高のパフォーマンスを達成した。 AI-GOMSは, 統計指標の優れた性能に加えて, 黒潮地域のメソスケール渦を1/12{\degの空間分解能と熱帯太平洋の海洋成層化でシミュレーションした。 AI-GOMSは、地球システムモデリングのための新しいバックボーンダウンストリームパラダイムを提供する。

Ocean modeling is a powerful tool for simulating the physical, chemical, and biological processes of the ocean, which is the foundation for marine science research and operational oceanography. Modern numerical ocean modeling mainly consists of governing equations and numerical algorithms. Nonlinear instability, computational expense, low reusability efficiency and high coupling costs have gradually become the main bottlenecks for the further development of numerical ocean modeling. Recently, artificial intelligence-based modeling in scientific computing has shown revolutionary potential for digital twins and scientific simulations, but the bottlenecks of numerical ocean modeling have not been further solved. Here, we present AI-GOMS, a large AI-driven global ocean modeling system, for accurate and efficient global ocean daily prediction. AI-GOMS consists of a backbone model with the Fourier-based Masked Autoencoder structure for basic ocean variable prediction and lightweight fine-tuning models incorporating regional downscaling, wave decoding, and biochemistry coupling modules. AI-GOMS has achieved the best performance in 30 days of prediction for the global ocean basic variables with 15 depth layers at 1/4{\deg} spatial resolution. Beyond the good performance in statistical metrics, AI-GOMS realizes the simulation of mesoscale eddies in the Kuroshio region at 1/12{\deg} spatial resolution and ocean stratification in the tropical Pacific Ocean. AI-GOMS provides a new backbone-downstream paradigm for Earth system modeling, which makes the system transferable, scalable and reusable.
翻訳日:2023-08-08 16:21:13 公開日:2023-08-06
# food-500 cap:視覚言語モデル評価のための細粒度食品キャプションベンチマーク

Food-500 Cap: A Fine-Grained Food Caption Benchmark for Evaluating Vision-Language Models ( http://arxiv.org/abs/2308.03151v1 )

ライセンス: Link先を確認
Zheng Ma, Mianzhi Pan, Wenhan Wu, Kanzhi Cheng, Jianbing Zhang, Shujian Huang and Jiajun Chen(参考訳) 視覚言語モデル(VLM)は、かなり下流のマルチモーダルタスクにおいて顕著な性能を示している。 しかし、下流タスクの微調整性能を比較するだけで、VLMの解釈性は低下し、今後の改善に悪影響を及ぼす。 いくつかの先行研究がこの問題を特定し、VLMの制限を検出するためにゼロショット設定で様々な探索手法を用いているが、これらは全て、特殊なデータセットの代わりに一般的なデータセットを用いてVLMを調べる。 実践的な応用では、VLMは電子商取引やニュース分野など特定のシナリオに適用されることが多いため、特定の分野におけるVLMの一般化には注意が必要である。 本稿では,食品分野における一般的なVLMの能力について包括的に検討する。 この目的のために,食品キャプションデータセットであるfood-500 capを構築し,494のカテゴリを持つ24,700の食品画像を含む。 それぞれの画像には、具材、形、色などの食品の細かな属性を含む詳細なキャプションが添えられている。 また,それぞれの食品カテゴリを地理的起源に基づいて分類し,異なる地域におけるvlmの性能差をよりよく解析する,料理文化分類も提供する。 提案したデータセットを用いた実験により, 食品分野におけるVLMの性能は一般分野と比較して低かった。 さらに,本研究は,VLMが地域によって異なる食品を扱う能力に重大なバイアスがあることを明らかにする。 本研究では,異なるアーキテクチャに属する9つのVLMを評価し,その検証を行う。 我々の研究は、VLMが食品や食文化の領域に応用する際の限界に研究者の注意を向け、この問題に対処するためのさらなる調査を促すことを願っている。

Vision-language models (VLMs) have shown impressive performance in substantial downstream multi-modal tasks. However, only comparing the fine-tuned performance on downstream tasks leads to the poor interpretability of VLMs, which is adverse to their future improvement. Several prior works have identified this issue and used various probing methods under a zero-shot setting to detect VLMs' limitations, but they all examine VLMs using general datasets instead of specialized ones. In practical applications, VLMs are usually applied to specific scenarios, such as e-commerce and news fields, so the generalization of VLMs in specific domains should be given more attention. In this paper, we comprehensively investigate the capabilities of popular VLMs in a specific field, the food domain. To this end, we build a food caption dataset, Food-500 Cap, which contains 24,700 food images with 494 categories. Each image is accompanied by a detailed caption, including fine-grained attributes of food, such as the ingredient, shape, and color. We also provide a culinary culture taxonomy that classifies each food category based on its geographic origin in order to better analyze the performance differences of VLM in different regions. Experiments on our proposed datasets demonstrate that popular VLMs underperform in the food domain compared with their performance in the general domain. Furthermore, our research reveals severe bias in VLMs' ability to handle food items from different geographic regions. We adopt diverse probing methods and evaluate nine VLMs belonging to different architectures to verify the aforementioned observations. We hope that our study will bring researchers' attention to VLM's limitations when applying them to the domain of food or culinary cultures, and spur further investigations to address this issue.
翻訳日:2023-08-08 16:20:32 公開日:2023-08-06
# we care: カスタマーケア会話におけるコード混合音声感情認識の改善

"We care": Improving Code Mixed Speech Emotion Recognition in Customer-Care Conversations ( http://arxiv.org/abs/2308.03150v1 )

ライセンス: Link先を確認
N V S Abhishek, Pushpak Bhattacharyya(参考訳) 音声感情認識(英語: speech emotion recognition、ser)は、発話中の感情を識別するタスクである。 感情認識は、法律、医療、教育、カスタマーサポートといったドメインで堅牢な会話エージェントを構築する上で不可欠である。 SERに関する研究の多くは、ノイズフリー環境でプロのアクターを雇ったデータセットを使用している。 カスタマーケアの会話のような自然な環境では、スピーカーが適当に異なる言語を定期的に切り替えているため、音声はうるさい。 我々は、会話型AIセクターにおける主要なユニコーンと協力して、Natural Speech Emotion Dataset(NSED)を開発した。 nsedは、会話中の各発話に感情、感情、価値、覚醒、支配(vad)の値がアノテートされる自然なコード混合音声感情データセットである。 本稿では,単語レベルのvad値を組み込むことにより,nsedのベースライン値よりも,否定的感情に対するserのタスクを2%改善することを示す。 否定的な意見や見解を表わす顧客は、緊急性や不満、不満を抱き、雪玉を手放さなければならないため、否定的な感情認識の精度が不可欠である。 ネガティブな意見のエスカレーションはビジネス上の利益にとって重要である。 そこで本研究では,このような状況において,より礼儀正しく共感的な会話エージェントの開発に利用できる。

Speech Emotion Recognition (SER) is the task of identifying the emotion expressed in a spoken utterance. Emotion recognition is essential in building robust conversational agents in domains such as law, healthcare, education, and customer support. Most of the studies published on SER use datasets created by employing professional actors in a noise-free environment. In natural settings such as a customer care conversation, the audio is often noisy with speakers regularly switching between different languages as they see fit. We have worked in collaboration with a leading unicorn in the Conversational AI sector to develop Natural Speech Emotion Dataset (NSED). NSED is a natural code-mixed speech emotion dataset where each utterance in a conversation is annotated with emotion, sentiment, valence, arousal, and dominance (VAD) values. In this paper, we show that by incorporating word-level VAD value we improve on the task of SER by 2%, for negative emotions, over the baseline value for NSED. High accuracy for negative emotion recognition is essential because customers expressing negative opinions/views need to be pacified with urgency, lest complaints and dissatisfaction snowball and get out of hand. Escalation of negative opinions speedily is crucial for business interests. Our study then can be utilized to develop conversational agents which are more polite and empathetic in such situations.
翻訳日:2023-08-08 16:20:04 公開日:2023-08-06
# 社会的に有能で文化的に適応する人工エージェントの表現順序、相互作用破壊と回復戦略

Towards socially-competent and culturally-adaptive artificial agents Expressive order, interactional disruptions and recovery strategies ( http://arxiv.org/abs/2308.03146v1 )

ライセンス: Link先を確認
Chiara Bassetti, Enrico Blanzieri, Stefano Borgo, Sofia Marangon(参考訳) 社会的相互作用のための人工エージェントの開発は、(ローカルな)社会的規範に関する社会的スキルと知識を持つロボットを強化する。 一つの可能性は、人間とロボットの相互作用における表現力と機能的な順序を区別することである。 本研究の総括的目的は、多人数の社会的状況におけるダイアド的相互作用を超越し、個人ベースの個人化を超越し、現在の「文化的適応性」の概念を拡大する枠組みを構築することである。 中心となる考え方は、マイクロ社会学において、異なる種類の相互作用破壊と関連する回復戦略を扱う能力を持つ人工エージェントを提供することである。 その結果、機能的・社会的破壊を分類し、ロボットのアーキテクチャがそのような知識を活用するために満たすべき要件を調査する。 論文はまた、このレベルの能力は、わずか3次元に集中することで達成されるかを強調している。 (i)社会的能力、 (ii)関係の役割、及び (iii)近接し、人間と人間の相互作用がさらに複雑になる。 技術的な側面に目を向けることなく、エンドツーエンドのデータ駆動アーキテクチャとモジュールアーキテクチャを議論し、この新しい社会的および文化的知識を活用できる程度を評価する。 最後に,このようなエージェントに対する一般的な要件の一覧を提案する。

The development of artificial agents for social interaction pushes to enrich robots with social skills and knowledge about (local) social norms. One possibility is to distinguish the expressive and the functional orders during a human-robot interaction. The overarching aim of this work is to set a framework to make the artificial agent socially-competent beyond dyadic interaction-interaction in varying multi-party social situations-and beyond individual-based user personalization, thereby enlarging the current conception of "culturally-adaptive". The core idea is to provide the artificial agent with the capability to handle different kinds of interactional disruptions, and associated recovery strategies, in microsociology. The result is obtained by classifying functional and social disruptions, and by investigating the requirements a robot's architecture should satisfy to exploit such knowledge. The paper also highlights how this level of competence is achieved by focusing on just three dimensions: (i) social capability, (ii) relational role, and (iii) proximity, leaving aside the further complexity of full-fledged human-human interactions. Without going into technical aspects, End-to-end Data-driven Architectures and Modular Architectures are discussed to evaluate the degree to which they can exploit this new set of social and cultural knowledge. Finally, a list of general requirements for such agents is proposed.
翻訳日:2023-08-08 16:19:40 公開日:2023-08-06
# 自己指向線形分類

Self-Directed Linear Classification ( http://arxiv.org/abs/2308.03142v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Vasilis Kontonis, Christos Tzamos, Nikos Zarifis(参考訳) オンライン分類では、学習者は一連の例を示し、そのラベルをオンラインの方法で予測し、間違いの総数を最小限に抑えることを目的としている。 自己指向型では、学習者は予めサンプルのプールを知り、予測される順序を適応的に選択することができる。 本稿では,予測順序の選択能力について検討し,線形分類の基本課題に対する最低次学習とランダム次学習の第一の強い分離を確立させる。 我々の研究以前は、そのような分離は、例えば1次元のしきい値や軸方向の矩形のような非常に制限された概念クラスに対してのみ知られていた。 主な結果は2つある。 もし$x$が$d$-dimensional unit sphereからランダムに引き出された$n$のデータセットであれば、$o(d \log \log(n))$の間違いを生じさせ、データセット全体を分類する効率的な自己指向学習器を設計します。 もし$x$が任意の$d$-dimensionalデータセットサイズ$n$であれば、$x$のラベルを$99\%で予測し、$n$とは無関係にバインドする効率的な自己指向学習器を設計します。 対照的に、最悪の順序付けやランダム順序付けでは、点が単位球面から一様に引かれ、学習者がラベルを1〜%の値で予測するだけでよい場合でも、誤りの数は少なくとも$\omega(d \log n)$でなければならない。

In online classification, a learner is presented with a sequence of examples and aims to predict their labels in an online fashion so as to minimize the total number of mistakes. In the self-directed variant, the learner knows in advance the pool of examples and can adaptively choose the order in which predictions are made. Here we study the power of choosing the prediction order and establish the first strong separation between worst-order and random-order learning for the fundamental task of linear classification. Prior to our work, such a separation was known only for very restricted concept classes, e.g., one-dimensional thresholds or axis-aligned rectangles. We present two main results. If $X$ is a dataset of $n$ points drawn uniformly at random from the $d$-dimensional unit sphere, we design an efficient self-directed learner that makes $O(d \log \log(n))$ mistakes and classifies the entire dataset. If $X$ is an arbitrary $d$-dimensional dataset of size $n$, we design an efficient self-directed learner that predicts the labels of $99\%$ of the points in $X$ with mistake bound independent of $n$. In contrast, under a worst- or random-ordering, the number of mistakes must be at least $\Omega(d \log n)$, even when the points are drawn uniformly from the unit sphere and the learner only needs to predict the labels for $1\%$ of them.
翻訳日:2023-08-08 16:19:16 公開日:2023-08-06
# 大規模言語モデルの自動修正:多様な自己補正戦略の展望

Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies ( http://arxiv.org/abs/2308.03188v1 )

ライセンス: Link先を確認
Liangming Pan, Michael Saxon, Wenda Xu, Deepak Nathani, Xinyi Wang, William Yang Wang(参考訳) 大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。 しかし、その効果は幻覚、不誠実な推論、有害な内容など、望ましくない、一貫性のない行動によって損なわれる。 これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。 LLM自体や外部システムによって生み出される自動フィードバックを活用する技術は、LLMベースのソリューションをより実用的で、最小限のフィードバックでデプロイ可能にする有望な方法であるため、特に興味深い。 本稿では,この新しい手法の包括的レビューを行う。 我々は、トレーニング時間、ジェネレーション時間、ポストホック補正を含む、これらの戦略を利用した様々な最近の研究を分析し、分類する。 また,この戦略の主な応用を要約し,今後の方向性と課題を論じて結論づける。

Large language models (LLMs) have demonstrated remarkable performance across a wide array of NLP tasks. However, their efficacy is undermined by undesired and inconsistent behaviors, including hallucination, unfaithful reasoning, and toxic content. A promising approach to rectify these flaws is self-correction, where the LLM itself is prompted or guided to fix problems in its own output. Techniques leveraging automated feedback -- either produced by the LLM itself or some external system -- are of particular interest as they are a promising way to make LLM-based solutions more practical and deployable with minimal human feedback. This paper presents a comprehensive review of this emerging class of techniques. We analyze and taxonomize a wide array of recent work utilizing these strategies, including training-time, generation-time, and post-hoc correction. We also summarize the major applications of this strategy and conclude by discussing future directions and challenges.
翻訳日:2023-08-08 16:13:25 公開日:2023-08-06
# 学習したベータ分布を用いた推薦の信頼度モデリングのための軽量手法

A Lightweight Method for Modeling Confidence in Recommendations with Learned Beta Distributions ( http://arxiv.org/abs/2308.03186v1 )

ライセンス: Link先を確認
Norman Knyazev and Harrie Oosterhuis(参考訳) ほとんどのRecommender Systems(RecSys)は、彼らの決定に対する自信を示していない。 したがって、特定の推奨事項とそうでないものとを区別しない。 既存のrecsyの信頼度法は、不正確なヒューリスティック、概念的に複雑、あるいは計算的に非常に高価である。 その結果、現実世界のRecSysアプリケーションはこれらの手法を滅多に採用せず、その振る舞いに対する信頼感を与えない。 本研究では,信頼度を明示した簡易かつ実用的なレコメンデーション手法として学習ベータ分布(LBD)を提案する。 我々の主な洞察は、ベータ分布は、閉じた間隔で自然に信頼をモデル化するが、最小限のモデル複雑度で実装できる確率分布として、ユーザの好みを予測することである。 以上の結果から,LBDは既存の手法と競合する精度を維持しつつ,精度と信頼性の相関性は著しく高いことがわかった。 さらに、LBDは、高精度なターゲットレコメンデーションタスクに適用した場合、高い性能を有する。 我々の研究は、RecSysの信頼性は単純さや正確さを犠牲にすることなく、計算の複雑さを伴わずに実現できることを示した。 これにより、現実世界のRecSysに関するより良い洞察が得られ、新しい将来の応用への扉を開くことを願っている。

Most Recommender Systems (RecSys) do not provide an indication of confidence in their decisions. Therefore, they do not distinguish between recommendations of which they are certain, and those where they are not. Existing confidence methods for RecSys are either inaccurate heuristics, conceptually complex or computationally very expensive. Consequently, real-world RecSys applications rarely adopt these methods, and thus, provide no confidence insights in their behavior. In this work, we propose learned beta distributions (LBD) as a simple and practical recommendation method with an explicit measure of confidence. Our main insight is that beta distributions predict user preferences as probability distributions that naturally model confidence on a closed interval, yet can be implemented with the minimal model-complexity. Our results show that LBD maintains competitive accuracy to existing methods while also having a significantly stronger correlation between its accuracy and confidence. Furthermore, LBD has higher performance when applied to a high-precision targeted recommendation task. Our work thus shows that confidence in RecSys is possible without sacrificing simplicity or accuracy, and without introducing heavy computational complexity. Thereby, we hope it enables better insight into real-world RecSys and opens the door for novel future applications.
翻訳日:2023-08-08 16:13:09 公開日:2023-08-06
# vn-solver:グラフ上の組合せ最適化のためのビジョンベースニューラルソルバ

VN-Solver: Vision-based Neural Solver for Combinatorial Optimization over Graphs ( http://arxiv.org/abs/2308.03185v1 )

ライセンス: Link先を確認
Mina Samizadeh, Guangmo Tong(参考訳) データ駆動型アプローチは、走行セールスマン問題や車両ルーティング問題といったグラフに対する組合せ最適化問題の解決に有効であることが証明されている。 このような手法の背景にある理論的根拠は、入力インスタンスは、最悪の計算困難さを克服するために活用できる、健全なパターンの分布に従うことができるということである。 グラフ上の最適化問題に対して、神経組合せソルバの一般的な実践は、隣接行列の形で入力を消費する。 本稿では,概念的に斬新なビジョンベース手法について検討する: ニューラルネットワークは,グラフパターンを見ることによって,グラフ最適化問題を解くことができるか? この結果から,このようなビジョンベース手法の性能は,非自明なだけでなく,最先端の行列ベース手法に匹敵するものであることが示唆された。

Data-driven approaches have been proven effective in solving combinatorial optimization problems over graphs such as the traveling salesman problems and the vehicle routing problem. The rationale behind such methods is that the input instances may follow distributions with salient patterns that can be leveraged to overcome the worst-case computational hardness. For optimization problems over graphs, the common practice of neural combinatorial solvers consumes the inputs in the form of adjacency matrices. In this paper, we explore a vision-based method that is conceptually novel: can neural models solve graph optimization problems by \textit{taking a look at the graph pattern}? Our results suggest that the performance of such vision-based methods is not only non-trivial but also comparable to the state-of-the-art matrix-based methods, which opens a new avenue for developing data-driven optimization solvers.
翻訳日:2023-08-08 16:12:46 公開日:2023-08-06
# 潜時拡散モデルを用いたフォトリアリスティック・アイデンティティ保存画像に基づく感情操作

Photorealistic and Identity-Preserving Image-Based Emotion Manipulation with Latent Diffusion Models ( http://arxiv.org/abs/2308.03183v1 )

ライセンス: Link先を確認
Ioannis Pikoulis, Panagiotis P. Filntisis, Petros Maragos(参考訳) 本稿では,画像から画像への変換タスクに関する膨大な文献に対して,比較的未探索な応用領域である「野生内」画像を用いた拡散モデルの感情操作能力について検討する。 提案手法は先行処理のいくつかをカプセル化しており,最も重要なのは遅延拡散モデルとCLIP潜伏子を用いたテキスト駆動操作である。 我々はAffectNetの質的、定量的な評価を行い、画像品質とリアリズムの観点からアプローチの優位性を実証するとともに、様々なGANベースのアプローチと比較して感情翻訳と競合する結果を得る。 コードは公開リポジトリとしてリリースされている。

In this paper, we investigate the emotion manipulation capabilities of diffusion models with "in-the-wild" images, a rather unexplored application area relative to the vast and rapidly growing literature for image-to-image translation tasks. Our proposed method encapsulates several pieces of prior work, with the most important being Latent Diffusion models and text-driven manipulation with CLIP latents. We conduct extensive qualitative and quantitative evaluations on AffectNet, demonstrating the superiority of our approach in terms of image quality and realism, while achieving competitive results relative to emotion translation compared to a variety of GAN-based counterparts. Code is released as a publicly available repo.
翻訳日:2023-08-08 16:12:33 公開日:2023-08-06
# 故障検出のためのモデル信頼性を定量化する経験的最適リスク

Empirical Optimal Risk to Quantify Model Trustworthiness for Failure Detection ( http://arxiv.org/abs/2308.03179v1 )

ライセンス: Link先を確認
Shuang Ao, Stefan Rueger, Advaith Siddharthan(参考訳) AIシステムにおける障害検出(FD)は、安全クリティカルなタスクのデプロイにおける重要な安全保護である。 FD性能の一般的な評価方法はリスクカバレッジ曲線(RC)であり、これはデータカバレッジ率と受理データのパフォーマンスとのトレードオフを明らかにする。 RC曲線の下の面積を計算することで、RC曲線を定量化する一般的な方法である。 しかし、この指標は、どのような手法がFDにどのように適しているか、あるいは最適なカバレッジ率を示さない。 FDは、データ破棄が少なく、より高いパフォーマンスを達成することを目的としているため、最も不確実なサンプルを除く部分的なカバレッジは、完全なカバレッジよりも直感的で有意義である。 さらに、モデルが理論的に理想的な性能を達成できる範囲に最適点が存在する。 最適rc曲線 (e-auoptrc) における余剰面積について, 最適点から全被覆までの範囲について検討する。 また、この最適点におけるモデル性能は、モデル学習能力とキャリブレーションの両方を表現できる。 信頼度指標 (ti) として, モデル全体の精度に対する補完的評価指標として提案する。 我々は10種類のトランスフォーマーモデルとcnnモデルを用いた3つのベンチマーク画像データセットについて広範な実験を行った。 提案手法は,既存の評価指標よりもモデル信頼性を反映できることを示す。 さらに, モデル全体の精度が高いモデルが必ずしも高いtiを産出するとは限らないこと, モデル全体の精度を補完する指標として, 提案する信頼指数の必要性を示唆する。 コードは \url{https://github.com/aoshuang92/optimal_risk} で入手できる。

Failure detection (FD) in AI systems is a crucial safeguard for the deployment for safety-critical tasks. The common evaluation method of FD performance is the Risk-coverage (RC) curve, which reveals the trade-off between the data coverage rate and the performance on accepted data. One common way to quantify the RC curve by calculating the area under the RC curve. However, this metric does not inform on how suited any method is for FD, or what the optimal coverage rate should be. As FD aims to achieve higher performance with fewer data discarded, evaluating with partial coverage excluding the most uncertain samples is more intuitive and meaningful than full coverage. In addition, there is an optimal point in the coverage where the model could achieve ideal performance theoretically. We propose the Excess Area Under the Optimal RC Curve (E-AUoptRC), with the area in coverage from the optimal point to the full coverage. Further, the model performance at this optimal point can represent both model learning ability and calibration. We propose it as the Trust Index (TI), a complementary evaluation metric to the overall model accuracy. We report extensive experiments on three benchmark image datasets with ten variants of transformer and CNN models. Our results show that our proposed methods can better reflect the model trustworthiness than existing evaluation metrics. We further observe that the model with high overall accuracy does not always yield the high TI, which indicates the necessity of the proposed Trust Index as a complementary metric to the model overall accuracy. The code are available at \url{https://github.com/AoShuang92/optimal_risk}.
翻訳日:2023-08-08 16:12:21 公開日:2023-08-06
# クエリガイドによるFew-shot 3D Point Cloud Segmentationの強化

Boosting Few-shot 3D Point Cloud Segmentation via Query-Guided Enhancement ( http://arxiv.org/abs/2308.03177v1 )

ライセンス: Link先を確認
Zhenhua Ning, Zhuotao Tian, Guangming Lu, Wenjie Pei(参考訳) 3dポイントクラウドセグメンテーションに関する広範な研究が行われているが、ジェネリックモデルを新しいカテゴリに効果的に適応させることは、依然として大きな課題である。 本稿では,pc-fss(point cloud few-shot segmentation)モデルを改善するための新しい手法を提案する。 従来のPC-FSSでは,クエリサンプルの新規クラスを識別するために,サポートプロトタイプのカテゴリ情報を直接活用する手法とは異なり,提案手法では,サポートプロトタイプとクエリ機能間のコンテキストギャップを減らし,モデル性能を大幅に向上させる2つの重要な側面を識別する。 具体的には,(1)クエリサンプルの背景や背景が不明瞭な外部キューを除去しながら,クエリコンテキストに適合するサポートバックグラウンドプロトタイプを適応させるとともに,(2)クエリ機能の指導の下で,クエリターゲットに意味的ギャップがないものをエミュレートするために,サポートプロトタイプを水平的に修正する。 提案する設計は特徴抽出器と無関係であり,任意のプロトタイプベース手法に容易に適用できる。 S3DISとScanNetの実験結果は, 高い効率を維持しつつ, 大幅な改善を実現し, 顕著な実用効果を示した。 このアプローチのコードはhttps://github.com/AaronNZH/Boosting-Few-shot-3D-Point-Segmentation-via-Query-Guided-Enhancementで公開されています。

Although extensive research has been conducted on 3D point cloud segmentation, effectively adapting generic models to novel categories remains a formidable challenge. This paper proposes a novel approach to improve point cloud few-shot segmentation (PC-FSS) models. Unlike existing PC-FSS methods that directly utilize categorical information from support prototypes to recognize novel classes in query samples, our method identifies two critical aspects that substantially enhance model performance by reducing contextual gaps between support prototypes and query features. Specifically, we (1) adapt support background prototypes to match query context while removing extraneous cues that may obscure foreground and background in query samples, and (2) holistically rectify support prototypes under the guidance of query features to emulate the latter having no semantic gap to the query targets. Our proposed designs are agnostic to the feature extractor, rendering them readily applicable to any prototype-based methods. The experimental results on S3DIS and ScanNet demonstrate notable practical benefits, as our approach achieves significant improvements while still maintaining high efficiency. The code for our approach is available at https://github.com/AaronNZH/Boosting-Few-shot-3D-Point-Cloud-Segmentation-via-Query-Guided-Enhanceme nt
翻訳日:2023-08-08 16:11:56 公開日:2023-08-06
# 視覚言語処理による安全・信頼性の高いAIシステムの構築

Building Safe and Reliable AI systems for Safety Critical Tasks with Vision-Language Processing ( http://arxiv.org/abs/2308.03176v1 )

ライセンス: Link先を確認
Shuang Ao(参考訳) AIシステムはさまざまな分野に適用され、優れたパフォーマンスを達成したが、その安全性と信頼性は依然として大きな懸念事項である。 これは特に安全上重要な課題である。 これらの重要なタスクの共通した特徴の1つは、小さなミスが大きな結果をもたらし、生命を危険にさらすリスク感受性である。 センシティブなタスクにおけるaiシステムのデプロイ成功のガイドラインとなる要因はいくつかあります。 一 故障検出及びアウト・オブ・ディストリビューション(OOD)検出 二 識別の過度な適合 三 予測の不確かさの定量化 (iv)データの摂動に対する堅牢性。 これらの要因は、安全で信頼性の高いAIを構築するための主要なブロックである、現在のAIシステムの課題でもある。 具体的には、現在のAIアルゴリズムは、障害検出の一般的な原因を特定することができない。 さらに、予測の質を定量化するために追加の技術が必要である。 これらはすべて不正確な不確かさの定量化に寄与し、予測に対する信頼を低下させる。 したがって、正確なモデル不確実性定量化とさらなる改善は困難である。 これらの課題に対処するため、正規化手法や学習戦略など多くの手法が提案されている。 ビジョンと言語は最も典型的なデータ型であり、多くのオープンソースベンチマークデータセットがあるため、この論文は分類、画像キャプション、ビジョン質問応答といったタスクのためのビジョン言語データ処理に焦点を当てる。 本論では,安全クリティカルタスクの正確なモデル不確実性を保証するため,現在の技術をさらに発展させることにより,安全を守ることを目的とする。

Although AI systems have been applied in various fields and achieved impressive performance, their safety and reliability are still a big concern. This is especially important for safety-critical tasks. One shared characteristic of these critical tasks is their risk sensitivity, where small mistakes can cause big consequences and even endanger life. There are several factors that could be guidelines for the successful deployment of AI systems in sensitive tasks: (i) failure detection and out-of-distribution (OOD) detection; (ii) overfitting identification; (iii) uncertainty quantification for predictions; (iv) robustness to data perturbations. These factors are also challenges of current AI systems, which are major blocks for building safe and reliable AI. Specifically, the current AI algorithms are unable to identify common causes for failure detection. Furthermore, additional techniques are required to quantify the quality of predictions. All these contribute to inaccurate uncertainty quantification, which lowers trust in predictions. Hence obtaining accurate model uncertainty quantification and its further improvement are challenging. To address these issues, many techniques have been proposed, such as regularization methods and learning strategies. As vision and language are the most typical data type and have many open source benchmark datasets, this thesis will focus on vision-language data processing for tasks like classification, image captioning, and vision question answering. In this thesis, we aim to build a safeguard by further developing current techniques to ensure the accurate model uncertainty for safety-critical tasks.
翻訳日:2023-08-08 16:11:30 公開日:2023-08-06
# 少量のデータを用いた機械学習診断モデルの新規人口への適応:臨床神経科学の成果

Adapting Machine Learning Diagnostic Models to New Populations Using a Small Amount of Data: Results from Clinical Neuroscience ( http://arxiv.org/abs/2308.03175v1 )

ライセンス: Link先を確認
Rongguang Wang, Guray Erus, Pratik Chaudhari, Christos Davatzikos(参考訳) 機械学習(ML)は、医療を含む多くの分野に革命をもたらす大きな可能性を示している。 しかし、特に医学において再現性の危機に直面している。 トレーニングセットから注意深く構築され、評価されたmlモデルは、異なる患者集団のデータや取得機器の設定やプロトコルに基づいてうまく一般化できない可能性がある。 我々は、アルツハイマー病(AD)、統合失調症(SZ)、脳老化の神経画像化の文脈でこの問題に取り組む。 例えば、性別、年齢、人種、臨床コホートなどの属性によって分類され、ターゲットグループ、例えば、他の性別、年齢グループなどにおいて、対象グループから少ない割合(10%)のデータを用いて予測を行う、重み付き経験的リスク最小化アプローチを開発する。 本手法を20の神経画像研究から得られた15,363人のマルチソースデータに適用し,ADとSZの診断と脳年齢推定のためのMLモデルを構築した。 提案手法は,AD分類で0.95以上,SZ分類で0.7以上,脳年齢予測で5年未満で絶対誤差が得られ,スキャナ,プロトコル,人口統計学的特徴の変動に対する堅牢性を実現している。 一部のケースでは、より大きなトレーニングセットの多様性とサイズを活用するため、ターゲットグループからすべてのデータをトレーニングするよりも優れています。 また,軽度認知障害者における疾患進行の予測などの予後タスクにおけるモデルの有用性を実証した。 批判的に、脳年齢予測モデルは神経生理学的検査との相関に関する新しい臨床知見をもたらす。

Machine learning (ML) has shown great promise for revolutionizing a number of areas, including healthcare. However, it is also facing a reproducibility crisis, especially in medicine. ML models that are carefully constructed from and evaluated on a training set might not generalize well on data from different patient populations or acquisition instrument settings and protocols. We tackle this problem in the context of neuroimaging of Alzheimer's disease (AD), schizophrenia (SZ) and brain aging. We develop a weighted empirical risk minimization approach that optimally combines data from a source group, e.g., subjects are stratified by attributes such as sex, age group, race and clinical cohort to make predictions on a target group, e.g., other sex, age group, etc. using a small fraction (10%) of data from the target group. We apply this method to multi-source data of 15,363 individuals from 20 neuroimaging studies to build ML models for diagnosis of AD and SZ, and estimation of brain age. We found that this approach achieves substantially better accuracy than existing domain adaptation techniques: it obtains area under curve greater than 0.95 for AD classification, area under curve greater than 0.7 for SZ classification and mean absolute error less than 5 years for brain age prediction on all target groups, achieving robustness to variations of scanners, protocols, and demographic or clinical characteristics. In some cases, it is even better than training on all data from the target group, because it leverages the diversity and size of a larger training set. We also demonstrate the utility of our models for prognostic tasks such as predicting disease progression in individuals with mild cognitive impairment. Critically, our brain age prediction models lead to new clinical insights regarding correlations with neurophysiological tests.
翻訳日:2023-08-08 16:11:08 公開日:2023-08-06
# 誤校正の2つの側面:ネットワーク校正における信頼度予測と信頼度予測

Two Sides of Miscalibration: Identifying Over and Under-Confidence Prediction for Network Calibration ( http://arxiv.org/abs/2308.03172v1 )

ライセンス: Link先を確認
Shuang Ao, Stefan Rueger, Advaith Siddharthan(参考訳) 安全クリティカルタスクの信頼性予測には,ディープニューラルネットワークの信頼性校正が不可欠である。 ミススキャリブレーションはモデル過信と/またはモデル過信につながる可能性がある;すなわち、モデルの予測に対する信頼性はモデルの正確性よりも大きいか小さいかのどちらかである。 近年の研究では、キャリブレーション手法を導入し、様々なタスクで成功をおさめている。 しかし、自信不足による不一致は、まだあまり注目されていない。 本稿では,信頼度の低い問題に注意を払う必要性に対処する。 まず,新しい基準,誤校正スコアを導入し,過度あるいは過度な信頼性を含む,全体的な校正状態とクラスレベルの校正状態を特定する。 提案手法は,既存のキャリブレーション手法の落とし穴を明らかにし,モデルを過度に校正し,信頼性の低い予測を悪化させる。 そこで我々は,クラスワイドの誤校正スコアをプロキシとして利用して,過度かつ過度に対処できる校正手法を設計する。 提案手法が既存のキャリブレーション手法を大きく上回ることを示す広範な実験を報告する。 また,提案手法が故障検出とモデルの信頼性を向上させることを報告し,リスクカバレッジ曲線を用いた自動故障検出タスクにおけるキャリブレーション手法の有効性を検証する。 コードは \url{https://github.com/aoshuang92/miscalibration_ts} で入手できる。

Proper confidence calibration of deep neural networks is essential for reliable predictions in safety-critical tasks. Miscalibration can lead to model over-confidence and/or under-confidence; i.e., the model's confidence in its prediction can be greater or less than the model's accuracy. Recent studies have highlighted the over-confidence issue by introducing calibration techniques and demonstrated success on various tasks. However, miscalibration through under-confidence has not yet to receive much attention. In this paper, we address the necessity of paying attention to the under-confidence issue. We first introduce a novel metric, a miscalibration score, to identify the overall and class-wise calibration status, including being over or under-confident. Our proposed metric reveals the pitfalls of existing calibration techniques, where they often overly calibrate the model and worsen under-confident predictions. Then we utilize the class-wise miscalibration score as a proxy to design a calibration technique that can tackle both over and under-confidence. We report extensive experiments that show our proposed methods substantially outperforming existing calibration techniques. We also validate our proposed calibration technique on an automatic failure detection task with a risk-coverage curve, reporting that our methods improve failure detection as well as trustworthiness of the model. The code are available at \url{https://github.com/AoShuang92/miscalibration_TS}.
翻訳日:2023-08-08 16:10:36 公開日:2023-08-06
# アンサンブル法による多変量時系列の異常検出

Detection of Anomalies in Multivariate Time Series Using Ensemble Techniques ( http://arxiv.org/abs/2308.03171v1 )

ライセンス: Link先を確認
Anastasios Iliopoulos, John Violos, Christos Diou and Iraklis Varlamis(参考訳) 多変量時系列における異常検出は多くの分野において大きな問題である。 その性質上、実際のデータでは異常はわずかに発生するため、異常検出のタスクは分類アルゴリズムの解決が困難な問題となる。 LSTM、オートエンコーダ、畳み込みオートエンコーダなどのディープニューラルネットワークに基づく手法は、そのような不均衡なデータに肯定的な結果を示す。 しかし、多変量時系列に適用する場合、アルゴリズムが直面する大きな課題は、特徴集合の小さな部分集合から異常が発生することである。 そこで本研究では,これらの基本モデルの性能向上のために,特徴量のサブセットのみを考慮した機能バッグング手法を提案し,また,主成分分析(PCA)から計算したネスト回転に基づく変換を適用して,アプローチの有効性と一般化を向上する。 予測性能をさらに向上するために,複数の基本モデルを組み合わせて最終決定を行うアンサンブル手法を提案する。 さらに,ロジスティック回帰器を用いて基本モデルの出力を結合する半教師付き手法を提案する。 提案手法は閉回路内の水の流れに関する時系列データを含むSkoltech Anomaly Benchmark(SKAB)データセットに適用され,実験結果から,提案手法が基本アルゴリズムより優れていることが示された。 より具体的には、異常検出精度における性能改善は、教師なしモデルでは2%、半教師なしモデルでは少なくとも10%に達する。

Anomaly Detection in multivariate time series is a major problem in many fields. Due to their nature, anomalies sparsely occur in real data, thus making the task of anomaly detection a challenging problem for classification algorithms to solve. Methods that are based on Deep Neural Networks such as LSTM, Autoencoders, Convolutional Autoencoders etc., have shown positive results in such imbalanced data. However, the major challenge that algorithms face when applied to multivariate time series is that the anomaly can arise from a small subset of the feature set. To boost the performance of these base models, we propose a feature-bagging technique that considers only a subset of features at a time, and we further apply a transformation that is based on nested rotation computed from Principal Component Analysis (PCA) to improve the effectiveness and generalization of the approach. To further enhance the prediction performance, we propose an ensemble technique that combines multiple base models toward the final decision. In addition, a semi-supervised approach using a Logistic Regressor to combine the base models' outputs is proposed. The proposed methodology is applied to the Skoltech Anomaly Benchmark (SKAB) dataset, which contains time series data related to the flow of water in a closed circuit, and the experimental results show that the proposed ensemble technique outperforms the basic algorithms. More specifically, the performance improvement in terms of anomaly detection accuracy reaches 2% for the unsupervised and at least 10% for the semi-supervised models.
翻訳日:2023-08-08 16:10:13 公開日:2023-08-06
# 圧縮センシングを用いた変分量子アルゴリズムの高性能デバッグの実現

Enabling High Performance Debugging for Variational Quantum Algorithms using Compressed Sensing ( http://arxiv.org/abs/2308.03213v1 )

ライセンス: Link先を確認
Kun Liu, Tianyi Hao, and Swamit Tannu(参考訳) 変分量子アルゴリズム(VQA)は、現代のノイズ中間スケール量子(NISQ)コンピュータを用いて、実用的な問題を解くことができる。 VQAsは、パラメータ化量子回路によって計算された損失関数を古典的に最適化することにより、量子ビット誤差の存在下で近似解を求める。 しかしながら、量子ハードウェアの可用性の限界、高いエラー率、古典的なシミュレーションの大きなオーバーヘッドのため、VQAの開発とテストは困難である。 さらに、VQA研究者は、回路パラメータの適切な初期化を選択し、適切な古典的なオプティマイザ構成を利用し、適切なエラー軽減方法をデプロイする必要がある。 残念ながら、これらのタスクは今日、VQAハイパーパラメータの設定とチューニングを行うソフトウェアツールがないため、アドホックな方法で実行されます。 本稿では,OSCAR(cOmpressed Sensing based Cost lAndscape Reconstruction)について述べる。 1)初期化の訂正 2)騒音緩和技術、及び 3) NISQハードウェアにおけるソリューションの品質を最大化するための古典最適化器。 OSCARは、グリッドサーチに必要な数千の量子回路を実行することなく、損失関数のランドスケープをユーザに提供することで、効率的なデバッグとパフォーマンスチューニングを可能にする。 OSCARを使えば、最大100倍のスピードアップでコストの全体像を正確に再構築できます。 さらにOSCARは、計算されたランドスケープを補間することにより、即座にオプティマイザ関数クエリを計算できるため、オーバーヘッドを大幅に削減したVQA構成の試行が可能になる。

Variational quantum algorithms (VQAs) can potentially solve practical problems using contemporary Noisy Intermediate Scale Quantum (NISQ) computers. VQAs find near-optimal solutions in the presence of qubit errors by classically optimizing a loss function computed by parameterized quantum circuits. However, developing and testing VQAs is challenging due to the limited availability of quantum hardware, their high error rates, and the significant overhead of classical simulations. Furthermore, VQA researchers must pick the right initialization for circuit parameters, utilize suitable classical optimizer configurations, and deploy appropriate error mitigation methods. Unfortunately, these tasks are done in an ad-hoc manner today, as there are no software tools to configure and tune the VQA hyperparameters. In this paper, we present OSCAR (cOmpressed Sensing based Cost lAndscape Reconstruction) to help configure: 1) correct initialization, 2) noise mitigation techniques, and 3) classical optimizers to maximize the quality of the solution on NISQ hardware. OSCAR enables efficient debugging and performance tuning by providing users with the loss function landscape without running thousands of quantum circuits as required by the grid search. Using OSCAR, we can accurately reconstruct the complete cost landscape with up to 100X speedup. Furthermore, OSCAR can compute an optimizer function query in an instant by interpolating a computed landscape, thus enabling the trial run of a VQA configuration with considerably reduced overhead.
翻訳日:2023-08-08 16:02:50 公開日:2023-08-06
# 平均ハードアテンション変換器は一様閾値回路である

Average-Hard Attention Transformers are Constant-Depth Uniform Threshold Circuits ( http://arxiv.org/abs/2308.03212v1 )

ライセンス: Link先を確認
Lena Strobl(参考訳) トランスフォーマーは様々な自然言語処理タスクのニューラルネットワークモデルとして広く使われている。 従来の研究では、入力長に対する内部計算に対する平均的ハードアテンションと対数精度の2つの仮定を定深しきい値回路との関係について検討していた。 Merrill et al. (2022) は、平均強注意変換器が複雑性クラスTC0に該当する言語を認識し、定数深さ多項式サイズのしきい値回路で認識できる言語の集合を示すことを証明している。 同様に、merrill and sabharwal (2023) は、log-precision transformersが一様tc0クラス内の言語を認識することを示した。 このことは、両トランスモデルが一定の深さのしきい値回路でシミュレート可能であることを示し、後者は均一な回路ファミリを生成するため、より堅牢であることを示している。 本論文では,最初の結果が一様回路にも拡張可能であることを示す。

Transformers have emerged as a widely used neural network model for various natural language processing tasks. Previous research explored their relationship with constant-depth threshold circuits, making two assumptions: average-hard attention and logarithmic precision for internal computations relative to input length. Merrill et al. (2022) prove that average-hard attention transformers recognize languages that fall within the complexity class TC0, denoting the set of languages that can be recognized by constant-depth polynomial-size threshold circuits. Likewise, Merrill and Sabharwal (2023) show that log-precision transformers recognize languages within the class of uniform TC0. This shows that both transformer models can be simulated by constant-depth threshold circuits, with the latter being more robust due to generating a uniform circuit family. Our paper shows that the first result can be extended to yield uniform circuits as well.
翻訳日:2023-08-08 16:02:24 公開日:2023-08-06
# 不規則サンプリング時系列のための時間パラメータ化された畳み込みニューラルネットワーク

Time-Parameterized Convolutional Neural Networks for Irregularly Sampled Time Series ( http://arxiv.org/abs/2308.03210v1 )

ライセンス: Link先を確認
Chrysoula Kosma, Giannis Nikolentzos, Michalis Vazirgiannis(参考訳) 不規則にサンプリングされた多変量時系列は、いくつかのアプリケーション領域においてユビキタスであり、スパース(sparse)、完全観測ではなく、異なる変数にわたる非整合観測をもたらす。 recurrent neural network (rnns)やconvolutional neural networks (cnns)のような標準的なシーケンシャルニューラルネットワークアーキテクチャは、観測時間間の定期的な間隔を考慮し、不規則な時系列モデリングに重大な挑戦をしている。 提案されたアーキテクチャのほとんどは不規則な時間間隔を扱うためにrnn変種を含んでいるが、畳み込みニューラルネットワークは不規則なサンプリング設定で十分に研究されていない。 本稿では,時間的に初期化されたカーネルを用いて畳み込み層をパラメータ化する。 このような時間の一般的な関数は、連続時間隠れダイナミクスの学習プロセスを強化し、畳み込み核重みに効率的に組み込むことができる。 そこで本研究では,バニラ畳み込みと同じような特性を持つが,不規則にサンプリングされた時系列に対して慎重に設計されている時間パラメータ畳み込みニューラルネットワーク(tpcnn)を提案する。 我々は,実世界の不規則な多変量時系列データセットを含む補間タスクと分類タスクについてTPCNNを評価する。 実験結果から,提案したTPCNNモデルの競合性能は,他の最先端手法よりも優れていた。 同時に, ネットワーク性能を向上させる学習可能な時間関数の組み合わせを活用し, この分野における畳み込みの初回適用を早めることにより, 入力系列の解釈可能性を実現する。

Irregularly sampled multivariate time series are ubiquitous in several application domains, leading to sparse, not fully-observed and non-aligned observations across different variables. Standard sequential neural network architectures, such as recurrent neural networks (RNNs) and convolutional neural networks (CNNs), consider regular spacing between observation times, posing significant challenges to irregular time series modeling. While most of the proposed architectures incorporate RNN variants to handle irregular time intervals, convolutional neural networks have not been adequately studied in the irregular sampling setting. In this paper, we parameterize convolutional layers by employing time-explicitly initialized kernels. Such general functions of time enhance the learning process of continuous-time hidden dynamics and can be efficiently incorporated into convolutional kernel weights. We, thus, propose the time-parameterized convolutional neural network (TPCNN), which shares similar properties with vanilla convolutions but is carefully designed for irregularly sampled time series. We evaluate TPCNN on both interpolation and classification tasks involving real-world irregularly sampled multivariate time series datasets. Our experimental results indicate the competitive performance of the proposed TPCNN model which is also significantly more efficient than other state-of-the-art methods. At the same time, the proposed architecture allows the interpretability of the input series by leveraging the combination of learnable time functions that improve the network performance in subsequent tasks and expedite the inaugural application of convolutions in this field.
翻訳日:2023-08-08 16:02:07 公開日:2023-08-06
# 頂点カットを用いた通信自由分散GNN訓練

Communication-Free Distributed GNN Training with Vertex Cut ( http://arxiv.org/abs/2308.03209v1 )

ライセンス: Link先を確認
Kaidi Cao, Rui Deng, Shirley Wu, Edward W Huang, Karthik Subbian, Jure Leskovec(参考訳) 数十億のノードとエッジからなる実世界のグラフ上でのグラフニューラルネットワーク(gnns)のトレーニングは、主にグラフとその中間ノードとエッジの機能を格納するために必要な実質的なメモリを必要とするため、非常に困難である。 スピードアップを達成するための一般的なアプローチは、グラフを多数の小さなサブグラフに分割し、1つ以上のマシンで複数のGPUに分散し、並列に処理する。 しかし、既存の分散メソッドは、頻繁で実質的なgpu間通信を必要とし、かなりの時間のオーバーヘッドと徐々にスケーラビリティが低下する。 本稿では,コミュニケーションフリートレーニングを実装することで,学習プロセスを著しく高速化する分散GNNトレーニングフレームワークであるCoFree-GNNを紹介する。 このフレームワークはVertex Cutパーティショニング(すなわちグラフをパーティショニングする)を利用しており、パーティショニング間のエッジを切断する代わりに、Vertex Cutはエッジをパーティショニングし、ノード情報を複製してグラフ構造を保存する。 さらに、重複ノードから生じる歪みグラフ分布を処理するために、再重み付け機構を組み込むことにより、高いモデル精度を維持する。 また,トレーニングプロセスの高速化を目的としたDropEdgeの改良手法を提案する。 実世界のネットワーク上での広範な実験を用いて、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。

Training Graph Neural Networks (GNNs) on real-world graphs consisting of billions of nodes and edges is quite challenging, primarily due to the substantial memory needed to store the graph and its intermediate node and edge features, and there is a pressing need to speed up the training process. A common approach to achieve speed up is to divide the graph into many smaller subgraphs, which are then distributed across multiple GPUs in one or more machines and processed in parallel. However, existing distributed methods require frequent and substantial cross-GPU communication, leading to significant time overhead and progressively diminishing scalability. Here, we introduce CoFree-GNN, a novel distributed GNN training framework that significantly speeds up the training process by implementing communication-free training. The framework utilizes a Vertex Cut partitioning, i.e., rather than partitioning the graph by cutting the edges between partitions, the Vertex Cut partitions the edges and duplicates the node information to preserve the graph structure. Furthermore, the framework maintains high model accuracy by incorporating a reweighting mechanism to handle a distorted graph distribution that arises from the duplicated nodes. We also propose a modified DropEdge technique to further speed up the training process. Using an extensive set of experiments on real-world networks, we demonstrate that CoFree-GNN speeds up the GNN training process by up to 10 times over the existing state-of-the-art GNN training approaches.
翻訳日:2023-08-08 16:01:42 公開日:2023-08-06
# ヒト生体分子アトラスプログラム(HuBMAP)における微小血管分画

Microvasculature Segmentation in Human BioMolecular Atlas Program (HuBMAP) ( http://arxiv.org/abs/2308.03203v1 )

ライセンス: Link先を確認
Youssef Sultan, Yongqiang Wang, James Scanlon, Lisa D'lima(参考訳) 画像分割は、医療分野における自動運転の歩行者検出と術前腫瘍郭清を含む、さまざまな応用において重要なツールである。 これらの応用の中で、我々は、人体の詳細な細胞マップを作成することを目的とした重要なイニシアチブである、National Institutes of Health (NIH) Human BioMolecular Atlas Program (HuBMAP)に焦点を当てている。 本研究では,2D Periodic Acid-Schiff (PAS) 染色組織像を用いて,ヒト腎臓における各種微小血管構造のセグメンテーションに焦点を当てた。 我々の手法はFastAI U-Netモデルから始まり、代替のバックボーンアーキテクチャを調査し、より深いモデルを調べ、Feature Pyramid Networksを試す。 ベースラインのU-Netモデルに対してそれらの性能をベンチマークすることで、これらの様々なアプローチを厳格に評価する。 そこで本研究では,最先端セグメンテーション手法を包括的に探求し,今後の研究に有用な知見を提供する。

Image segmentation serves as a critical tool across a range of applications, encompassing autonomous driving's pedestrian detection and pre-operative tumor delineation in the medical sector. Among these applications, we focus on the National Institutes of Health's (NIH) Human BioMolecular Atlas Program (HuBMAP), a significant initiative aimed at creating detailed cellular maps of the human body. In this study, we concentrate on segmenting various microvascular structures in human kidneys, utilizing 2D Periodic Acid-Schiff (PAS)-stained histology images. Our methodology begins with a foundational FastAI U-Net model, upon which we investigate alternative backbone architectures, delve into deeper models, and experiment with Feature Pyramid Networks. We rigorously evaluate these varied approaches by benchmarking their performance against our baseline U-Net model. This study thus offers a comprehensive exploration of cutting-edge segmentation techniques, providing valuable insights for future research in the field.
翻訳日:2023-08-08 16:01:17 公開日:2023-08-06
# ソースフリードメイン適応型ヒューマンポース推定

Source-free Domain Adaptive Human Pose Estimation ( http://arxiv.org/abs/2308.03202v1 )

ライセンス: Link先を確認
Qucheng Peng, Ce Zheng, Chen Chen(参考訳) HPE(Human Pose Estimation)は、モーション分析、ヘルスケア、仮想現実など、さまざまな分野で広く使われている。 しかし、ラベル付き実世界のデータセットの膨大な費用は、HPEにとって大きな課題となる。 これを解決する1つのアプローチは、合成データセット上でHPEモデルをトレーニングし、実際のデータ上でドメイン適応(DA)を実行することである。 残念ながら、HPEの既存のDAメソッドは、適応プロセスでソースデータとターゲットデータの両方を使用することで、データのプライバシとセキュリティを無視している。 そこで本研究では,hpeのクロスドメイン学習の課題を解決するために,適応プロセス中にソースデータにアクセスせずに,新たなタスクであるsource-free domain adaptive hpeを提案する。 さらに、ソースモデル、中間モデル、ターゲットモデルという3つのモデルからなる新しいフレームワークを提案し、ソース保護とターゲット関連の観点からタスクを探索する。 音源保護モジュールは、ノイズに抵抗しながらより効果的にソース情報を保存し、ターゲット関連モジュールは、新しい空間確率空間を構築して空間表現のスパーシティを低減し、この空間に基づいてポーズ固有のコントラスト学習と情報最大化を提案する。 いくつかの領域適応型HPEベンチマークの総合的な実験により、提案手法は既存の手法よりもかなり優れていることが示された。

Human Pose Estimation (HPE) is widely used in various fields, including motion analysis, healthcare, and virtual reality. However, the great expenses of labeled real-world datasets present a significant challenge for HPE. To overcome this, one approach is to train HPE models on synthetic datasets and then perform domain adaptation (DA) on real-world data. Unfortunately, existing DA methods for HPE neglect data privacy and security by using both source and target data in the adaptation process. To this end, we propose a new task, named source-free domain adaptive HPE, which aims to address the challenges of cross-domain learning of HPE without access to source data during the adaptation process. We further propose a novel framework that consists of three models: source model, intermediate model, and target model, which explores the task from both source-protect and target-relevant perspectives. The source-protect module preserves source information more effectively while resisting noise, and the target-relevant module reduces the sparsity of spatial representations by building a novel spatial probability space, and pose-specific contrastive learning and information maximization are proposed on the basis of this space. Comprehensive experiments on several domain adaptive HPE benchmarks show that the proposed method outperforms existing approaches by a considerable margin.
翻訳日:2023-08-08 16:00:57 公開日:2023-08-06
# 目に見えないものを解き放つ:スマートフォンで捉えた画像による位置特定空気質指標の探索

Unmasking the Invisible: Finding Location-Specific Aggregated Air Quality Index with Smartphone-Captured Images ( http://arxiv.org/abs/2308.03200v1 )

ライセンス: Link先を確認
Joyanta Jyoti Mondal, Md. Farhadul Islam, Raima Islam, Nowsin Kabir Rhidi, A. B. M. Alim Al Islam, Meem Arafat Manab, Jannatun Noor(参考訳) スマートフォンの普及と移動性は、これらを環境健康研究に広く利用している。 しかし, PM2.5濃度に基づく大気質指数(AQI)を決定する可能性については, 既存の文献では明らかにされていない。 本稿では,スマートフォンカメラで撮影した画像を用いて,位置特異的PM2.5濃度の予測に関する課題を徹底的に検討する。 私たちの研究はバングラデシュの首都ダッカに焦点をあてています。 我々の研究は、1000以上の屋外画像を撮影、注釈付けしてトレーニングする深層畳み込みニューラルネットワーク(dcnn)の開発に関するものです。 これらの写真はダッカの様々な場所で撮影され、そのラベルは米領事館から得たPM2.5濃度データに基づいて、 NowCastアルゴリズムを用いて計算されている。 教師付き学習を通じて,トレーニング中の相関指標を確立し,PM2.5濃度のイメージベース予測器(PPPC)として機能する能力を高める。 これにより、スマートフォン画像から同等の日平均AQI指数を計算することができる。 一般的なパラメータ化モデルとは異なり、パラメータが少ないため、我々のモデルはリソース効率を示す。 さらに,本モデルがVGG19,ResNet50,MobileNetV2などのCNNベースモデルよりも,位置特異的PM2.5濃度の予測に優れていることを示す。 我々のデータセットは、Dhakaによる大気画像と対応するPM2.5測定を含む、初めて公開されているコレクションである。 私たちのコードとデータセットは、論文を公開するときに公開されます。

The prevalence and mobility of smartphones make these a widely used tool for environmental health research. However, their potential for determining aggregated air quality index (AQI) based on PM2.5 concentration in specific locations remains largely unexplored in the existing literature. In this paper, we thoroughly examine the challenges associated with predicting location-specific PM2.5 concentration using images taken with smartphone cameras. The focus of our study is on Dhaka, the capital of Bangladesh, due to its significant air pollution levels and the large population exposed to it. Our research involves the development of a Deep Convolutional Neural Network (DCNN), which we train using over a thousand outdoor images taken and annotated. These photos are captured at various locations in Dhaka, and their labels are based on PM2.5 concentration data obtained from the local US consulate, calculated using the NowCast algorithm. Through supervised learning, our model establishes a correlation index during training, enhancing its ability to function as a Picture-based Predictor of PM2.5 Concentration (PPPC). This enables the algorithm to calculate an equivalent daily averaged AQI index from a smartphone image. Unlike, popular overly parameterized models, our model shows resource efficiency since it uses fewer parameters. Furthermore, test results indicate that our model outperforms popular models like ViT and INN, as well as popular CNN-based models such as VGG19, ResNet50, and MobileNetV2, in predicting location-specific PM2.5 concentration. Our dataset is the first publicly available collection that includes atmospheric images and corresponding PM2.5 measurements from Dhaka. Our code and dataset will be made public when publishing the paper.
翻訳日:2023-08-08 16:00:35 公開日:2023-08-06
# 強結合限界における格子QCDの量子ゲートセット:$N_f=1$

Quantum Gate Sets for Lattice QCD in the strong coupling limit: $N_f=1$ ( http://arxiv.org/abs/2308.03196v1 )

ライセンス: Link先を確認
Michael Fromm, Owe Philipsen, Wolfgang Unger and Christopher Winterowd(参考訳) 我々は、格子量子クロマティックス(LQCD)を1つの無質量スタガークォークで結合する極限でシミュレートするプリミティブ量子ゲートセットを導出した。 この理論は、モンテカルロ法を用いて符号問題を克服できるため、非零密度の研究にとって興味深い。 この研究では、量子シミュレーションのテスト場として使用します。 鍵となる点は、ボソニック ヒルベルト空間の切断は、理論が色相自由度(`baryons' と `mesons'')で定式化されているため必要ではないということである。 バリオンは連続時間と分離の限界において静的となるが、メソニック理論の力学は格子点あたりの2量子ビットを含む。 baryons''へのレンディングダイナミクスは、単にコントロールされたバージョンで導出ゲートセットを使用する必要がある。

We derive the primitive quantum gate sets to simulate lattice quantum chromodynamics (LQCD) in the strong-coupling limit with one flavor of massless staggered quarks. This theory is of interest for studies at non-zero density as the sign problem can be overcome using Monte Carlo methods. In this work, we use it as a testing ground for quantum simulations. The key point is that no truncation of the bosonic Hilbert space is necessary as the theory is formulated in terms of color-singlet degrees of freedom (``baryons'' and ``mesons''). The baryons become static in the limit of continuous time and decouple, whereas the dynamics of the mesonic theory involves two qubits per lattice site. Lending dynamics also to the ``baryons'' simply requires to use the derived gate set in its controlled version.
翻訳日:2023-08-08 16:00:06 公開日:2023-08-06
# Syn-Mediverse:医療施設の知的情景理解のためのマルチモーダル合成データセット

Syn-Mediverse: A Multimodal Synthetic Dataset for Intelligent Scene Understanding of Healthcare Facilities ( http://arxiv.org/abs/2308.03193v1 )

ライセンス: Link先を確認
Rohit Mohan, Jos\'e Arce, Sassan Mokhtar, Daniele Cattaneo and Abhinav Valada(参考訳) 患者の命がかかっている医療施設では、安全と効率が最重要である。 複雑な手術などの困難な作業で医療スタッフを支援するロボットが採用されているにもかかわらず、人間の専門知識は依然として不可欠である。 次世代の自律医療ロボットは、彼らの複雑でフレネティックな環境を理解し理解する能力にかかっている。 ディープラーニングモデルは、この目的のためにますます使われているが、現実の医療環境では入手できない、広範な注釈付きトレーニングデータが必要である。 このギャップを埋めるために、多様な医療施設の超現実的なマルチモーダル合成データセットであるSyn-Mediverseを提案する。 Syn-Mediverseは、業界標準の光学追跡カメラからのnum{48000}画像を含み、深度推定、オブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーションを含む5つの異なるシーン理解タスクに1.5Mアノテーションを提供する。 各タスクのさまざまな最先端ベースラインのパフォーマンスを評価することで、データセットの複雑さを実証します。 医療施設の現場理解に関する研究をさらに進めるために、公開データセットとともに、オンライン評価ベンチマークを \url{http://syn-mediverse.cs.uni-freiburg.de} で提供する。

Safety and efficiency are paramount in healthcare facilities where the lives of patients are at stake. Despite the adoption of robots to assist medical staff in challenging tasks such as complex surgeries, human expertise is still indispensable. The next generation of autonomous healthcare robots hinges on their capacity to perceive and understand their complex and frenetic environments. While deep learning models are increasingly used for this purpose, they require extensive annotated training data which is impractical to obtain in real-world healthcare settings. To bridge this gap, we present Syn-Mediverse, the first hyper-realistic multimodal synthetic dataset of diverse healthcare facilities. Syn-Mediverse contains over \num{48000} images from a simulated industry-standard optical tracking camera and provides more than 1.5M annotations spanning five different scene understanding tasks including depth estimation, object detection, semantic segmentation, instance segmentation, and panoptic segmentation. We demonstrate the complexity of our dataset by evaluating the performance on a broad range of state-of-the-art baselines for each task. To further advance research on scene understanding of healthcare facilities, along with the public dataset we provide an online evaluation benchmark available at \url{http://syn-mediverse.cs.uni-freiburg.de}
翻訳日:2023-08-08 15:59:48 公開日:2023-08-06
# 生体エントロピーと虹彩容量の理解:国家規模でのアイデンティティ衝突を避ける

Understanding Biometric Entropy and Iris Capacity: Avoiding Identity Collisions on National Scales ( http://arxiv.org/abs/2308.03189v1 )

ライセンス: Link先を確認
John Daugman(参考訳) 同一性衝突のない虹彩パターンで登録できる人の数は、抽出された生体計測エントロピーと決定操作閾値との関係で研究されている。 同一性衝突が、これらの変数を考えると、アイリスの「容量」を定義できないほど、人口規模は大きくなる。 この組合せ問題に対する一般的な解は、よく知られた「誕生日問題」と類似している。 国立標準技術研究所(National Institute of Standards and Technology)による1.2兆 (1.2 x 10^(12) のアイリス比較に関する実証データを参照して、国民の人口規模に関するユニークな生体認証への応用を示す。 ある人の2つの虹彩パターンのエントロピーは、グローバルアイデンティティの特異性に十分である。

The numbers of persons who can be enrolled by their iris patterns with no identity collisions is studied in relation to the biometric entropy extracted, and the decision operating threshold. The population size at which identity collision becomes likelier than not, given those variables, defines iris "capacity." The general solution to this combinatorial problem is derived, in analogy with the well-known "birthday problem." Its application to unique biometric identification on national population scales is shown, referencing empirical data from US NIST (National Institute of Standards and Technology) trials involving 1.2 trillion (1.2 x 10^(12) ) iris comparisons. The entropy of a given person's two iris patterns suffices for global identity uniqueness.
翻訳日:2023-08-08 15:59:20 公開日:2023-08-06
# 21世紀に言語学が繁栄する理由--ピアンタドシへの返答(2023年)

Why Linguistics Will Thrive in the 21st Century: A Reply to Piantadosi (2023) ( http://arxiv.org/abs/2308.03228v1 )

ライセンス: Link先を確認
Jordan Kodner, Sarah Payne, Jeffrey Heinz(参考訳) 我々は、ピアンタドシの2023年の主張を批判的に評価し、「現代言語モデルはチョムスキーの言語へのアプローチに反する」という4つの主要な点に焦点を当てた。 まず、大きな言語モデル(LLM)の性能と実用性にもかかわらず、人間は桁違いに少ないデータに曝露した後、言語に対する能力を達成する。 幼児が比較的ほとんど露出しないまま、母国語に精通した話し手になるという事実は、チョムスキーが最初に注目した言語学習の中心的な謎であり、LLMは今のところこの謎を解くという約束をほとんど示していない。 第二に、人工的に自然に何ができるのか? 簡単に言えば、llmが言語の基礎となる認知構造やメカニズムを理解する上での意義と、その獲得は、鳥の飛べ方を理解するための飛行機の意味のように思える。 第三に、llmはいくつかの理由から科学的な言語理論を構成することができないが、科学的理論は単なる予測ではなく解釈可能な説明を提供する必要がある。 LLMの言語能力と認知能力が人間に匹敵するかどうかを判断するためには、人間の能力が実際に何であるかを解明する必要がある。 言い換えれば、言語と認知の別の理論が必要であり、生成言語学はまさにそのような理論を提供する。 そのため,21世紀以降は,科学的分野としての生成言語学が不可欠であり続けると結論づけた。

We present a critical assessment of Piantadosi's (2023) claim that "Modern language models refute Chomsky's approach to language," focusing on four main points. First, despite the impressive performance and utility of large language models (LLMs), humans achieve their capacity for language after exposure to several orders of magnitude less data. The fact that young children become competent, fluent speakers of their native languages with relatively little exposure to them is the central mystery of language learning to which Chomsky initially drew attention, and LLMs currently show little promise of solving this mystery. Second, what can the artificial reveal about the natural? Put simply, the implications of LLMs for our understanding of the cognitive structures and mechanisms underlying language and its acquisition are like the implications of airplanes for understanding how birds fly. Third, LLMs cannot constitute scientific theories of language for several reasons, not least of which is that scientific theories must provide interpretable explanations, not just predictions. This leads to our final point: to even determine whether the linguistic and cognitive capabilities of LLMs rival those of humans requires explicating what humans' capacities actually are. In other words, it requires a separate theory of language and cognition; generative linguistics provides precisely such a theory. As such, we conclude that generative linguistics as a scientific discipline will remain indispensable throughout the 21st century and beyond.
翻訳日:2023-08-08 15:52:17 公開日:2023-08-06
# 音声・首面加速度計信号からの音声品質分類のための自己教師付き事前学習モデルの検討

Investigation of Self-supervised Pre-trained Models for Classification of Voice Quality from Speech and Neck Surface Accelerometer Signals ( http://arxiv.org/abs/2308.03226v1 )

ライセンス: Link先を確認
Sudarsana Reddy Kadiri, Farhad Javanmardi, Paavo Alku(参考訳) 音声品質の自動分類に関する先行研究は、音声信号の入力としての使用を主に研究してきた。 近年,音声と首面加速度計(nsa)信号を入力として併用し,mfccと声門源の特徴を抽出する研究がいくつか行われている。 本研究では,自己教師付き事前学習モデル(wav2vec2-base,wav2vec2-large,hubert)とsvmとcnnを用いた音声品質分類(breathy,modal, pressed)における同時記録音声とnsa信号について検討した。 さらに,音声入力とnsa入力の両方に対する声門源波形と生信号波形の特徴抽出において,事前学習モデルの有効性を比較検討した。 2つの信号処理方法(quasi-closed phase (qcp) 声門逆フィルタリングとゼロ周波数フィルタリング (zff) を用いて、声門音源波形を音声信号とnsa信号の両方から推定する。 The study has three main goals: (1) to study whether features derived from pre-trained models improve classification accuracy compared to conventional features (spectrogram, mel-spectrogram, MFCCs, i-vector, and x-vector), (2) to investigate which of the two modalities (speech vs. NSA) is more effective in the classification task with pre-trained model-based features, and (3) to evaluate whether the deep learning-based CNN classifier can enhance the classification accuracy in comparison to the SVM classifier. その結果, 音声信号と比較して, NSA入力を用いた場合の分類性能は良好であった。 これらの特徴の間に、事前訓練されたモデルベースの特徴は、従来の特徴と比較して、音声入力とNSA入力の両方において、より良い分類精度を示した。 また, HuBERT の機能は wav2vec2-BASE や wav2vec2-LARGE よりも優れていた。

Prior studies in the automatic classification of voice quality have mainly studied the use of the acoustic speech signal as input. Recently, a few studies have been carried out by jointly using both speech and neck surface accelerometer (NSA) signals as inputs, and by extracting MFCCs and glottal source features. This study examines simultaneously-recorded speech and NSA signals in the classification of voice quality (breathy, modal, and pressed) using features derived from three self-supervised pre-trained models (wav2vec2-BASE, wav2vec2-LARGE, and HuBERT) and using a SVM as well as CNNs as classifiers. Furthermore, the effectiveness of the pre-trained models is compared in feature extraction between glottal source waveforms and raw signal waveforms for both speech and NSA inputs. Using two signal processing methods (quasi-closed phase (QCP) glottal inverse filtering and zero frequency filtering (ZFF)), glottal source waveforms are estimated from both speech and NSA signals. The study has three main goals: (1) to study whether features derived from pre-trained models improve classification accuracy compared to conventional features (spectrogram, mel-spectrogram, MFCCs, i-vector, and x-vector), (2) to investigate which of the two modalities (speech vs. NSA) is more effective in the classification task with pre-trained model-based features, and (3) to evaluate whether the deep learning-based CNN classifier can enhance the classification accuracy in comparison to the SVM classifier. The results revealed that the use of the NSA input showed better classification performance compared to the speech signal. Between the features, the pre-trained model-based features showed better classification accuracies, both for speech and NSA inputs compared to the conventional features. It was also found that the HuBERT features performed better than the wav2vec2-BASE and wav2vec2-LARGE features.
翻訳日:2023-08-08 15:51:50 公開日:2023-08-06
# 西洋古典音楽における調和と新奇性の進化の定量化

Quantifying the evolution of harmony and novelty in western classical music ( http://arxiv.org/abs/2308.03224v1 )

ライセンス: Link先を確認
Alfredo Gonz\'alez-Espinoza, Joshua B. Plotkin(参考訳) 音楽は複雑な社会文化的構成であり、様々な分野の研究者や一般大衆を魅了している。 音楽の歴史的発展を理解することは、知覚と認知を理解するのに役立ち、文化的な伝達、創造性、革新の過程に関する洞察を与える。 本稿では、和声に関連する音楽的特徴について考察し、西洋古典音楽の400年以上にわたる発展について述べる。 そこで我々は,ある音符集合に対して最も高い確率で表現できる効果中心アルゴリズムの変種を開発し,楽譜を測度で計算した局所鍵列として表現した。 我々は、重要な不確実性、およびキー遷移における多様性とノベルティを定量化する尺度を開発する。 これらの概念によって表される特徴を実証するための具体例を示し、それらが調和複雑性とどのように関連しているかを論じ、調和の進化を研究するために使用できる。 我々は音楽学者や科学者が以前報告したいくつかの観察と傾向を確認した。 本報告では,古典後期の高調波遷移における革新の減少とそれに続く急激な古典的変化を報告し,音楽理論家による記述と整合したこの発見について解説する。 最後に, 異文化研究におけるこのアプローチの限界と, 楽曲の表現がより表現力のある, 分かりやすい表現の必要性, また, 大規模で信頼性の高いコーパスの必要性について考察する。

Music is a complex socio-cultural construct, which fascinates researchers in diverse fields, as well as the general public. Understanding the historical development of music may help us understand perceptual and cognition, while also yielding insight in the processes of cultural transmission, creativity, and innovation. Here, we present a study of musical features related to harmony, and we document how they evolved over 400 years in western classical music. We developed a variant of the center of effect algorithm to call the most likely for a given set of notes, to represent a musical piece as a sequence of local keys computed measure by measure. We develop measures to quantify key uncertainty, and diversity and novelty in key transitions. We provide specific examples to demonstrate the features represented by these concepts, and we argue how they are related to harmonic complexity and can be used to study the evolution of harmony. We confirm several observations and trends previously reported by musicologists and scientists, with some discrepancies during the Classical period. We report a decline in innovation in harmonic transitions in the early classical period followed by a steep increase in the late classical; and we give an explanation for this finding that is consistent with accounts by music theorists. Finally, we discuss the limitations of this approach for cross-cultural studies and the need for more expressive but still tractable representations of musical scores, as well as a large and reliable musical corpus, for future study.
翻訳日:2023-08-08 15:51:13 公開日:2023-08-06
# 相互損失を考慮した2視点対応学習のためのローカルコンセンサス強化シームズネットワーク

Local Consensus Enhanced Siamese Network with Reciprocal Loss for Two-view Correspondence Learning ( http://arxiv.org/abs/2308.03217v1 )

ライセンス: Link先を確認
Linbo Wang, Jing Wu, Xianyong Fang, Zhengyi Liu, Chenjie Cao, Yanwei Fu(参考訳) 2視点対応学習の最近の研究は、通常、一致の信頼性と相対的なポーズを共同で予測するエンドツーエンドネットワークを確立する。 私たちはこのフレームワークを2つの側面から改善する。 まず,既存のモデルの特徴を増大させるため,LFC(Local Feature Consensus)プラグインブロックを提案する。 対応機能を与えられたブロックは、近隣のコンセンサスを相互に拡張し、それを集約して強化された特徴を生成する。 inlier は一様クロスビュー変換に従い、outlier よりもより一貫性のある学習機能を共有するため、feature consensus は inlier correlation を強化し、outlier distraction を抑制する。 第二に、既存のアプローチでは、逆マッピングの情報を考慮することなく、1つのイメージをもう1つのイメージに投影する基本行列と基底真理対応によるネットワークトレーニングを監督する。 我々は、相互投影の監督を生かした相互損失を伴って既存のモデルをシームズネットワークに拡張し、追加のモデルパラメータを導入することなくマッチング性能を大幅に向上させる。 msa-netに基づいて2つの提案を実装し,ベンチマークデータセットにおける最先端のパフォーマンスを実験的に達成した。

Recent studies of two-view correspondence learning usually establish an end-to-end network to jointly predict correspondence reliability and relative pose. We improve such a framework from two aspects. First, we propose a Local Feature Consensus (LFC) plugin block to augment the features of existing models. Given a correspondence feature, the block augments its neighboring features with mutual neighborhood consensus and aggregates them to produce an enhanced feature. As inliers obey a uniform cross-view transformation and share more consistent learned features than outliers, feature consensus strengthens inlier correlation and suppresses outlier distraction, which makes output features more discriminative for classifying inliers/outliers. Second, existing approaches supervise network training with the ground truth correspondences and essential matrix projecting one image to the other for an input image pair, without considering the information from the reverse mapping. We extend existing models to a Siamese network with a reciprocal loss that exploits the supervision of mutual projection, which considerably promotes the matching performance without introducing additional model parameters. Building upon MSA-Net, we implement the two proposals and experimentally achieve state-of-the-art performance on benchmark datasets.
翻訳日:2023-08-08 15:50:49 公開日:2023-08-06
# 自動エンコーダ学習におけるSGDバッチサイズの影響:空間性,シャープ性,特徴学習

The Effect of SGD Batch Size on Autoencoder Learning: Sparsity, Sharpness, and Feature Learning ( http://arxiv.org/abs/2308.03215v1 )

ライセンス: Link先を確認
Nikhil Ghosh, Spencer Frei, Wooseok Ha, and Bin Yu(参考訳) 本研究では,直交データ上で線形あるいはReLUアクティベートした単一ニューロンオートエンコーダを訓練する際の確率勾配降下(SGD)のダイナミクスについて検討する。 この非凸問題に対して、一定のステップサイズを持つランダム初期化SGDは、任意のバッチサイズの選択に対して、大域的最小値を求めることに成功した。 しかし、見つかった特定のグローバルな最小限はバッチサイズに依存する。 フルバッチ設定では、解が密度(スパースではない)であり、初期化方向と高度に整合していることを示し、特徴学習が比較的少ないことを示す。 一方、サンプル数より厳密に小さいバッチサイズの場合、SGDは初期化とほぼ直交する大域的な最小値を発見し、確率勾配のランダム性は、この設定において質的に異なるタイプの「機能選択」を誘導することを示した。 さらに、ヘッシアンの痕跡によって最小のシャープさを測定すると、完全なバッチ勾配降下を持つミニマは、大きなバッチがよりシャープなミニマを導くことを示唆する以前の作品とは対照的に、厳密に小さなバッチサイズを持つミニマより平坦である。 ステップサイズが一定であるsgdの収束を証明するために、独立興味を持つかもしれない非均質なランダムウォークの理論から強力なツールを導入する。

In this work, we investigate the dynamics of stochastic gradient descent (SGD) when training a single-neuron autoencoder with linear or ReLU activation on orthogonal data. We show that for this non-convex problem, randomly initialized SGD with a constant step size successfully finds a global minimum for any batch size choice. However, the particular global minimum found depends upon the batch size. In the full-batch setting, we show that the solution is dense (i.e., not sparse) and is highly aligned with its initialized direction, showing that relatively little feature learning occurs. On the other hand, for any batch size strictly smaller than the number of samples, SGD finds a global minimum which is sparse and nearly orthogonal to its initialization, showing that the randomness of stochastic gradients induces a qualitatively different type of "feature selection" in this setting. Moreover, if we measure the sharpness of the minimum by the trace of the Hessian, the minima found with full batch gradient descent are flatter than those found with strictly smaller batch sizes, in contrast to previous works which suggest that large batches lead to sharper minima. To prove convergence of SGD with a constant step size, we introduce a powerful tool from the theory of non-homogeneous random walks which may be of independent interest.
翻訳日:2023-08-08 15:50:26 公開日:2023-08-06
# イジング鎖の1次元量子シミュレーションにおける量子ビット数を半減する

Reducing the number of qubits by a half in one dimensional quantum simulations of Ising chains ( http://arxiv.org/abs/2308.01545v2 )

ライセンス: Link先を確認
Somayeh Mehrabankar, Miguel \'Angel Garc\'ia-March, Carmen G. Almud\'ever, and Armando P\'erez(参考訳) ブロック再正規化群法 (brgm) を用いたイジングモデルの検討を行い, 異なるシステムサイズにおけるイジングの挙動について検討した。 BRGMはスピンの数を1/2に減らし、半分のスピンを使いながらイジングモデルの本質的な物理的特徴を効果的に保存する。 比較分析により, 系の大きさが大きくなるにつれて, カップリング定数が再定義された場合, 元のハミルトニアンの値と再正規化ハミルトニアンの値の間に収束があることが示されている。 驚くべきことに、24個のスピンを持つスピン鎖では、磁化、相関関数、絡み合いエントロピーを含む全ての物理的特徴は、元のハミルトニアンの結果と正確に対応している。 BRGMが比較的少数のスピンでも正確にIsingモデルを特徴づけることの成功は、複雑な物理システムの研究における堅牢性と有用性を強調し、利用可能な量子ビットの数がほとんど制約されている現在のNISQコンピュータでのシミュレーションを促進する。

We investigate the Ising model using the Block Renormalization Group Method (BRGM), focusing on its behavior across different system sizes. The BRGM reduces the number of spins by a factor of 1/2, effectively preserving essential physical features of the Ising model while using only half the spins. Through a comparative analysis, we demonstrate that as the system size increases, there is a convergence between results obtained from the original and renormalized Hamiltonians, provided the coupling constants are redefined accordingly. Remarkably, for a spin chain with 24 spins, all physical features, including magnetization, correlation function, and entanglement entropy, exhibit an exact correspondence with the results from the original Hamiltonian. The success of BRGM in accurately characterizing the Ising model, even with a relatively small number of spins, underscores its robustness and utility in studying complex physical systems, and facilitates its simulation on current NISQ computers, where the available number of qubits is largely constrained.
翻訳日:2023-08-08 10:42:48 公開日:2023-08-06