このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230617となっている論文です。

PDF登録状況(公開日: 20230617)

TitleAuthorsAbstract論文公表日・翻訳日
# 軽量クラウドソーステストによるandroidフラグメンテーションの改ざん

Taming Android Fragmentation through Lightweight Crowdsourced Testing ( http://arxiv.org/abs/2304.04347v2 )

ライセンス: Link先を確認
Xiaoyu Sun, Xiao Chen, Yonghui Liu, John Grundy and Li Li(参考訳) Androidのフラグメンテーションは、AndroidデバイスとOSバージョンの圧倒的な多様性を指す。 これにより、サポート対象デバイス毎のアプリテストが不可能になり、コミュニティに多くの互換性バグが散在し、結果としてユーザエクスペリエンスが貧弱になる。 これを軽減するために、我々の同僚の研究者たちは、このような互換性問題を自動的に検出する様々な研究を設計した。 しかし、現在の最先端のツールは、特定の種類の互換性問題(すなわちAPIシグネチャの進化によって生じる互換性の問題)を検出するためにのみ使用できる。 例えば、実際のデバイスでカスタマイズされたOSバージョンやOSのセマンティックな変更は、重大な互換性の問題を引き起こす可能性がある。 この目的のために我々は,この研究ギャップを埋め,クラウドソースによるAndroidフラグメンテーションの活用を可能にする,新規で軽量なクラウドソーステストアプローチであるLAZYCOWを提案する。 具体的には、クラウドソーシングテストは、開発者が実際のデバイス上で製品をテストし、プラットフォーム固有の問題を特定できる、従来のモバイルテストメカニズムの新たな代替手段である。 実世界のandroidデバイスにおける何千ものテストケースの実験結果は、lazycowがapiによる互換性問題の自動識別と検証に有効であることを示している。 また,定性的指標を用いてユーザエクスペリエンスを調査した結果,LAZYCOWが実用的かつ歓迎されているという強い証拠が得られた。

Android fragmentation refers to the overwhelming diversity of Android devices and OS versions. These lead to the impossibility of testing an app on every supported device, leaving a number of compatibility bugs scattered in the community and thereby resulting in poor user experiences. To mitigate this, our fellow researchers have designed various works to automatically detect such compatibility issues. However, the current state-of-the-art tools can only be used to detect specific kinds of compatibility issues (i.e., compatibility issues caused by API signature evolution), i.e., many other essential types of compatibility issues are still unrevealed. For example, customized OS versions on real devices and semantic changes of OS could lead to serious compatibility issues, which are non-trivial to be detected statically. To this end, we propose a novel, lightweight, crowdsourced testing approach, LAZYCOW, to fill this research gap and enable the possibility of taming Android fragmentation through crowdsourced efforts. Specifically, crowdsourced testing is an emerging alternative to conventional mobile testing mechanisms that allow developers to test their products on real devices to pinpoint platform-specific issues. Experimental results on thousands of test cases on real-world Android devices show that LAZYCOW is effective in automatically identifying and verifying API-induced compatibility issues. Also, after investigating the user experience through qualitative metrics, users' satisfaction provides strong evidence that LAZYCOW is useful and welcome in practice.
翻訳日:2023-10-24 12:46:09 公開日:2023-06-17
# レジリエントIoTアプリケーションのためのアーキテクチャ設計決定モデル

An Architectural Design Decision Model for Resilient IoT Application ( http://arxiv.org/abs/2306.10429v1 )

ライセンス: Link先を確認
Cristovao Freitas Iglesias Jr, Claudio Miceli and Miodrag Bolic(参考訳) モノのインターネット(internet of things)は、センシング、ネットワーク、処理能力を備えた物理的物体の周囲に普遍的に存在し、環境と協調して共通の目標を達成するためのパラダイムである。 しかし、IoTアプリケーションの可用性に影響を及ぼす脅威は、財政的にも、ユーザの物理的な整合性の安全のためにも重要である。 この機能は、運用を継続し、脅威を効率的に処理するIoTアプリケーションを要求する。 しかし、IoTアプリケーションの脅威に対する高い感受性と、レジリエンスを第一級表現とみなすモデリングメカニズムの欠如により、脅威に対処できるIoTアプリケーションの設計はステークホルダーにとって難しい。 本稿では、レジリエントなIoTアプリケーションの設計におけるステークホルダの難しさを軽減するために、レジリエントなIoTアプリケーションのためのアーキテクチャ設計決定モデルを提案する。 私たちのアプローチは例示され、ケースのモデリングを通じて価値を示しています。

The Internet of Things is a paradigm that refers to the ubiquitous presence around us of physical objects equipped with sensing, networking, and processing capabilities that allow them to cooperate with their environment to reach common goals. However, any threat affecting the availability of IoT applications can be crucial financially and for the safety of the physical integrity of users. This feature calls for IoT applications that remain operational and efficiently handle possible threats. However, designing an IoT application that can handle threats is challenging for stakeholders due to the high susceptibility to threats of IoT applications and the lack of modeling mechanisms that contemplate resilience as a first-class representation. In this paper, an architectural Design Decision Model for Resilient IoT applications is presented to reduce the difficulty of stakeholders in designing resilient IoT applications. Our approach is illustrated and demonstrates the value through the modeling of a case.
翻訳日:2023-10-23 19:26:27 公開日:2023-06-17
# OpenSBT: 自動走行システムの検索ベーステストのためのモジュールフレームワーク

OpenSBT: A Modular Framework for Search-based Testing of Automated Driving Systems ( http://arxiv.org/abs/2306.10296v1 )

ライセンス: Link先を確認
Lev Sorokin, Tiziano Munaro, Damir Safin, Brian Hsuan-Cheng Liao, Adam Molin(参考訳) 検索ベースソフトウェアテスト(SBT)は、自動走行システム(ADS)をテストするための効率的かつ効率的な手法である。 しかし、複雑な運転シミュレーションプラットフォームを統合し、必要な検索アルゴリズムで通信プロトコルとAPIを確立するため、ADSテスト用のテストパイプラインは特に難しい。 この複雑さは、sbtが広く採用されることを防ぎ、異なるシミュレータと探索アプローチによる徹底した実験的な比較実験を行う。 ADS の SBT を促進するオープンソースでモジュール化された拡張可能なフレームワーク OpenSBT を提案する。 OpenSBTでは、シミュレータをテスト対象の組み込みシステム、検索アルゴリズム、テスト用のフィットネス機能と統合することができる。 我々は,このアーキテクチャについて述べるとともに,産業パートナーのdensoと共同で高忠実度prescanシミュレータにおいて,carlaの緊急ブレーキ自動テストに異なる探索アルゴリズムを適用することで,このフレームワークの利用例を示す。 OpenSBTはhttps://git.fortiss.org/opensbt.comで入手できる。

Search-based software testing (SBT) is an effective and efficient approach for testing automated driving systems (ADS). However, testing pipelines for ADS testing are particularly challenging as they involve integrating complex driving simulation platforms and establishing communication protocols and APIs with the desired search algorithm. This complexity prevents a wide adoption of SBT and thorough empirical comparative experiments with different simulators and search approaches. We present OpenSBT, an open-source, modular and extensible framework to facilitate the SBT of ADS. With OpenSBT, it is possible to integrate simulators with an embedded system under test, search algorithms and fitness functions for testing. We describe the architecture and show the usage of our framework by applying different search algorithms for testing Automated Emergency Braking Systems in CARLA as well in the high-fidelity Prescan simulator in collaboration with our industrial partner DENSO. OpenSBT is available at https://git.fortiss.org/opensbt.
翻訳日:2023-10-23 19:26:11 公開日:2023-06-17
# 気温変動が経済成長に及ぼす長期的影響--機械学習によるアプローチ

Long-term Effects of Temperature Variations on Economic Growth: A Machine Learning Approach ( http://arxiv.org/abs/2308.06265v1 )

ライセンス: Link先を確認
Eugene Kharitonov, Oksana Zakharchuk, Lin Mei(参考訳) 本研究では,データ駆動アプローチによる経済成長に対する温度変動の長期的影響について検討する。 機械学習技術を活用することで、バークレー地球からの世界土地表面温度データと、世界銀行からGDPや人口データを含む経済指標を分析します。 分析の結果,平均気温とGDP成長の有意な関係が明らかとなり,気候変動が経済パフォーマンスに著しく影響を及ぼす可能性が示唆された。 本研究は、気候要因を経済計画や政策決定に取り入れることの重要性を強調し、気候経済研究における複雑な関係を明らかにするための機械学習の有用性を実証する。

This study investigates the long-term effects of temperature variations on economic growth using a data-driven approach. Leveraging machine learning techniques, we analyze global land surface temperature data from Berkeley Earth and economic indicators, including GDP and population data, from the World Bank. Our analysis reveals a significant relationship between average temperature and GDP growth, suggesting that climate variations can substantially impact economic performance. This research underscores the importance of incorporating climate factors into economic planning and policymaking, and it demonstrates the utility of machine learning in uncovering complex relationships in climate-economy studies.
翻訳日:2023-10-23 14:28:42 公開日:2023-06-17
# 巨額の開示:ChatGPTは投資家が財務情報を処理できるか?

Bloated Disclosures: Can ChatGPT Help Investors Process Financial Information? ( http://arxiv.org/abs/2306.10224v1 )

ライセンス: Link先を確認
Alex Kim, Maximilian Muhn, Valeri Nikolaev(参考訳) ChatGPTのような生成AIツールは、投資家が情報を処理する方法を根本的に変えることができる。 株式市場を実験室として、複雑な企業開示を要約する上で、これらのツールの経済的有用性を検討する。 制約のない要約は、オリジナルに比べて70%以上短縮されることが多いが、情報内容は増幅されている。 ある文書が正(負)の感情を持つとき、その要約はより正(負)になる。 さらに重要なことは、この要約は開示された情報に対する株式市場の反応を説明するのに効果的である。 これらの知見に動機づけられて,我々は情報量尺度を提案する。 肥大化した開示は、価格効率の低下や情報非対称性の向上など、資本市場の悪影響と関連していることを示す。 最後に、このモデルは、企業の(非)財務的パフォーマンスとリスクを識別するターゲットサマリーの構築に有効であることを示す。 本結果は,情報処理に制約のある投資家に対して,生成言語モデリングがかなりの価値をもたらすことを示す。

Generative AI tools such as ChatGPT can fundamentally change the way investors process information. We probe the economic usefulness of these tools in summarizing complex corporate disclosures using the stock market as a laboratory. The unconstrained summaries are dramatically shorter, often by more than 70% compared to the originals, whereas their information content is amplified. When a document has a positive (negative) sentiment, its summary becomes more positive (negative). More importantly, the summaries are more effective at explaining stock market reactions to the disclosed information. Motivated by these findings, we propose a measure of information "bloat." We show that bloated disclosure is associated with adverse capital markets consequences, such as lower price efficiency and higher information asymmetry. Finally, we show that the model is effective at constructing targeted summaries that identify firms' (non-)financial performance and risks. Collectively, our results indicate that generative language modeling adds considerable value for investors with information processing constraints.
翻訳日:2023-07-23 12:36:26 公開日:2023-06-17
# 複雑な運転シーンにおける異常検出のための対向学習の探求

Towards exploring adversarial learning for anomaly detection in complex driving scenes ( http://arxiv.org/abs/2307.05256v1 )

ライセンス: Link先を確認
Nour Habib, Yunsu Cho, Abhishek Buragohain, Andreas Rausch(参考訳) 自動運転車のような多くの自律システム(AS)の1つは、様々な安全クリティカルな機能を実行する。 これらの自律システムの多くは、環境を知覚する人工知能(AI)技術を活用している。 しかし、このようなaiベースのコンポーネントの精度はトレーニングデータの品質に大きく依存するため、これらの知覚するコンポーネントは正式には検証できない。 したがって、機械学習(ML)ベースの異常検出は、トレーニングデータに属さないデータを識別する技術であり、そのようなAIベースのコンポーネントの開発と運用期間中に安全測定指標として使用できる。 機械学習のサブフィールドであるadversarial learningは、単純なデータセットで印象的な結果を持つ画像やビデオの異常を検出する能力が証明された。 そこで本研究では,バークレー・ディープドライブと呼ばれる高度に複雑な運転シーンデータセットにおいて,このような手法の性能について調査し,考察する。

One of the many Autonomous Systems (ASs), such as autonomous driving cars, performs various safety-critical functions. Many of these autonomous systems take advantage of Artificial Intelligence (AI) techniques to perceive their environment. But these perceiving components could not be formally verified, since, the accuracy of such AI-based components has a high dependency on the quality of training data. So Machine learning (ML) based anomaly detection, a technique to identify data that does not belong to the training data could be used as a safety measuring indicator during the development and operational time of such AI-based components. Adversarial learning, a sub-field of machine learning has proven its ability to detect anomalies in images and videos with impressive results on simple data sets. Therefore, in this work, we investigate and provide insight into the performance of such techniques on a highly complex driving scenes dataset called Berkeley DeepDrive.
翻訳日:2023-07-16 03:53:50 公開日:2023-06-17
# RECAP-KG:プライマリケアにおけるリモートCOVID-19評価のための生GPノートからの知識グラフのマイニング

RECAP-KG: Mining Knowledge Graphs from Raw GP Notes for Remote COVID-19 Assessment in Primary Care ( http://arxiv.org/abs/2306.17175v1 )

ライセンス: Link先を確認
Rakhilya Lee Mekhtieva, Brandon Forbes, Dalal Alrajeh, Brendan Delaney, Alessandra Russo(参考訳) 臨床意思決定は患者に適切なケアを提供するための基本的な段階である。 近年,このプロセスで臨床医を支援するための意思決定システムが開発されている。 しかし、現在使われている技術的解決策は、単純な回帰モデルに基づいており、患者年齢、既存条件、喫煙者ステータスなど、単純な事前定義された多重選択機能しか考慮できない。 患者データの特定のソースとして、利用可能な意思決定システムが処理できないのは、患者相談GPノートの収集である。 これらは、最終決定を下し、患者を適切なケアに導くために臨床医が使用する重要な兆候と症状を含んでいる。 GPノートから情報を抽出することは技術的に難しい問題であり、省略やタイポ、不完全文を含む傾向がある。 このオープンな課題に対処する。 本稿では,患者相談の前後に書かれた生のGP医療ノートから知識グラフ構築を行うフレームワークを提案する。 SNOMEDオントロジーから抽出したサポートフレーズや、RECAP(REmote COVID-19 Assessment in Primary Care)患者リスク予測ツールで用いられる値から予め定義されたサポート事実を頼りに、我々のグラフ生成フレームワークは、コンサルテーションノートが書かれた高度に構造化されていない一貫性のないフォーマットから構造化知識グラフを抽出することができる。 私たちの知識グラフには、既存の患者の症状、持続時間、重症度に関する情報が含まれています。 本フレームワークは,英国におけるCOVID-19クリニカルアセスメント・サーベイ(CCAS)患者データセットのコンサルテーションノートに応用する。 提案手法は従来のNLP法よりも精度が高く,患者に対する質問に答える上で有効であることを示す。

Clinical decision-making is a fundamental stage in delivering appropriate care to patients. In recent years several decision-making systems designed to aid the clinician in this process have been developed. However, technical solutions currently in use are based on simple regression models and are only able to take into account simple pre-defined multiple-choice features, such as patient age, pre-existing conditions, smoker status, etc. One particular source of patient data, that available decision-making systems are incapable of processing is the collection of patient consultation GP notes. These contain crucial signs and symptoms - the information used by clinicians in order to make a final decision and direct the patient to the appropriate care. Extracting information from GP notes is a technically challenging problem, as they tend to include abbreviations, typos, and incomplete sentences. This paper addresses this open challenge. We present a framework that performs knowledge graph construction from raw GP medical notes written during or after patient consultations. By relying on support phrases mined from the SNOMED ontology, as well as predefined supported facts from values used in the RECAP (REmote COVID-19 Assessment in Primary Care) patient risk prediction tool, our graph generative framework is able to extract structured knowledge graphs from the highly unstructured and inconsistent format that consultation notes are written in. Our knowledge graphs include information about existing patient symptoms, their duration, and their severity. We apply our framework to consultation notes of COVID-19 patients in the UK COVID-19 Clinical Assesment Servcie (CCAS) patient dataset. We provide a quantitative evaluation of the performance of our framework, demonstrating that our approach has better accuracy than traditional NLP methods when answering questions about patients.
翻訳日:2023-07-09 14:19:42 公開日:2023-06-17
# NLGの強化:オンラインドメインにおけるインフォーマル要約のためのオフライン強化学習

Empowering NLG: Offline Reinforcement Learning for Informal Summarization in Online Domains ( http://arxiv.org/abs/2306.17174v1 )

ライセンス: Link先を確認
Zhi-Xuan Tai and Po-Chuan Chen(参考訳) 本研究は,ユーザエクスペリエンスを最適化し,ユーザサポートエージェントの作業負荷を軽減することを目的とした,革新的な自然言語生成(NLG)アプローチを提案する。 我々の主な目的は、オフライン強化学習技術を用いて、オンライン記事や投稿の非公式要約を生成することである。 本研究では,提案手法を既存のテキスト生成手法と比較し,クロール,強化学習,テキスト生成モジュールを組み込んだアーキテクチャ設計の概要を提供する。 本論文は,本手法を提示することにより,オンラインコンテンツに対する自然言語要約生成の新たな視点を提供することで,NLG分野に貴重な貢献をする。 エンパワーングNLGの実装により、我々はオンラインドメインで高品質な応答を生成することができる。 実験の結果、平均的な「様」スコアは0.09954378から0.5000152に大きく改善された。 この進歩は、カスタマーサポートサービスの効率と効果を高め、オンラインコンテンツを使用する際のユーザーエクスペリエンス全体を向上させる可能性がある。

Our research introduces an innovative Natural Language Generation (NLG) approach that aims to optimize user experience and alleviate the workload of human customer support agents. Our primary objective is to generate informal summaries for online articles and posts using an offline reinforcement learning technique. In our study, we compare our proposed method with existing approaches to text generation and provide a comprehensive overview of our architectural design, which incorporates crawling, reinforcement learning, and text generation modules. By presenting this original approach, our paper makes a valuable contribution to the field of NLG by offering a fresh perspective on generating natural language summaries for online content. Through the implementation of Empowering NLG, we are able to generate higher-quality replies in the online domain. The experimental results demonstrate a significant improvement in the average "like" score, increasing from 0.09954378 to 0.5000152. This advancement has the potential to enhance the efficiency and effectiveness of customer support services and elevate the overall user experience when consuming online content.
翻訳日:2023-07-09 14:19:08 公開日:2023-06-17
# AI技術の受容を促すものは何だろう? 期待と経験の役割

What drives the acceptance of AI technology?: the role of expectations and experiences ( http://arxiv.org/abs/2306.13670v1 )

ライセンス: Link先を確認
Minsang Yi and Hanbyul Choi(参考訳) 近年、人工知能製品やサービスはパイロットとして潜在的なユーザーを提供するようになっている。 人工知能に対する受容意図は、現在のAI製品やサービスの経験、AIへの期待、ICT技術に関する過去の経験に大きく影響されている。 本研究は,AIの受容意図に影響を与える要因を探究し,その形成過程を理解することを目的とする。 本研究では,AI経験と過去のICT経験が,AI受容意図に2つの影響を及ぼすことを示す。 直接的な経路を通じて、より高いAI経験とICT経験は、AIを受け入れる意図の高まりと関連している。 さらに、AI体験とICT体験がAIに対する期待の高まりに寄与する間接的な経路があり、その結果として、これらの期待が受容意図を高める。 この結果に基づき、将来人工知能の導入を計画している企業や公共団体に対して、いくつかの推奨事項が提案されている。 ICTサービスとパイロットAI製品とサービスのユーザエクスペリエンスを管理し、ポジティブなエクスペリエンスを提供することが重要です。 潜在的なAIユーザに対して、AI製品やサービスの特徴とメリットに関する具体的な情報を提供することが不可欠である。 これにより、AI技術に関する現実的な期待を実現できる。

In recent years, Artificial intelligence products and services have been offered potential users as pilots. The acceptance intention towards artificial intelligence is greatly influenced by the experience with current AI products and services, expectations for AI, and past experiences with ICT technology. This study aims to explore the factors that impact AI acceptance intention and understand the process of its formation. The analysis results of this study reveal that AI experience and past ICT experience affect AI acceptance intention in two ways. Through the direct path, higher AI experience and ICT experience are associated with a greater intention to accept AI. Additionally, there is an indirect path where AI experience and ICT experience contribute to increased expectations for AI, and these expectations, in turn, elevate acceptance intention. Based on the findings, several recommendations are suggested for companies and public organizations planning to implement artificial intelligence in the future. It is crucial to manage the user experience of ICT services and pilot AI products and services to deliver positive experiences. It is essential to provide potential AI users with specific information about the features and benefits of AI products and services. This will enable them to develop realistic expectations regarding AI technology.
翻訳日:2023-07-02 13:46:40 公開日:2023-06-17
# 自律運転システムにおけるデータ統合のためのディープラーニング手法の検討

A survey on deep learning approaches for data integration in autonomous driving system ( http://arxiv.org/abs/2306.11740v1 )

ライセンス: Link先を確認
Xi Zhu, Likang Wang, Caifa Zhou, Xiya Cao, Yue Gong, Lei Chen(参考訳) 自動運転車の知覚モジュールは、環境を理解するためにマルチセンサーシステムに依存している。 近年のディープラーニングの進歩は、知覚能力を高めるためにマルチセンサー計測を統合するアプローチの急速な発展につながった。 本稿では,自律走行システムにおける認識モジュールに適用される最新のディープラーニング統合技術を調査し,「何,どのように,いつ,一体化すべきか」に基づいて,統合アプローチを分類する。 統合の新たな分類法が提案され、マルチビュー、マルチモダリティ、マルチフレームの3つの次元に基づいている。 統合操作とその長所と短所は要約され、既存のメソッドの制限を緩和できる"理想的な"データ統合アプローチの特性に関する新たな洞察を提供する。 何百もの関連論文をレビューした後、この調査は最適なデータ統合アプローチの重要な特徴に関する議論で締めくくります。

The perception module of self-driving vehicles relies on a multi-sensor system to understand its environment. Recent advancements in deep learning have led to the rapid development of approaches that integrate multi-sensory measurements to enhance perception capabilities. This paper surveys the latest deep learning integration techniques applied to the perception module in autonomous driving systems, categorizing integration approaches based on "what, how, and when to integrate." A new taxonomy of integration is proposed, based on three dimensions: multi-view, multi-modality, and multi-frame. The integration operations and their pros and cons are summarized, providing new insights into the properties of an "ideal" data integration approach that can alleviate the limitations of existing methods. After reviewing hundreds of relevant papers, this survey concludes with a discussion of the key features of an optimal data integration approach.
翻訳日:2023-06-22 16:34:01 公開日:2023-06-17
# ニューラルネットワークを用いた多視点3次元物体再構成と不確かさモデリング

Multi-view 3D Object Reconstruction and Uncertainty Modelling with Neural Shape Prior ( http://arxiv.org/abs/2306.11739v1 )

ライセンス: Link先を確認
Ziwei Liao, Steven L. Waslander(参考訳) セマンティックシーン理解には3次元オブジェクト再構成が重要である。 深度情報や咬合,騒音の欠如から,単眼画像から詳細な3次元形状を再構成することは困難である。 現在の手法のほとんどは、再構成の不確かさを意識せずに決定論的対象モデルを生成する。 本研究では,3dオブジェクトモデルの大規模データセットから物体形状分布を学習し,それを潜在空間にマッピングするニューラルオブジェクト表現を用いてこの問題に取り組む。 本稿では,その表現の一部として不確実性をモデル化し,個々の入力画像から直接不確実性コードを生成する不確実性認識エンコーダを定義する手法を提案する。 さらに,潜時符号の不確かさをSDF値に伝達し,各メッシュコンポーネントに対して局所的不確実性を持つ3次元オブジェクトメッシュを生成する手法を提案する。 最後に,マルチビュー観測から潜在コードを融合するためのベイズフレームワークによるインクリメンタル融合法を提案する。 本研究では,合成データと実データの両方でシステムを評価し,不確実性に基づく融合の有効性を実証し,3次元オブジェクトの再構成精度を向上させる。

3D object reconstruction is important for semantic scene understanding. It is challenging to reconstruct detailed 3D shapes from monocular images directly due to a lack of depth information, occlusion and noise. Most current methods generate deterministic object models without any awareness of the uncertainty of the reconstruction. We tackle this problem by leveraging a neural object representation which learns an object shape distribution from large dataset of 3d object models and maps it into a latent space. We propose a method to model uncertainty as part of the representation and define an uncertainty-aware encoder which generates latent codes with uncertainty directly from individual input images. Further, we propose a method to propagate the uncertainty in the latent code to SDF values and generate a 3d object mesh with local uncertainty for each mesh component. Finally, we propose an incremental fusion method under a Bayesian framework to fuse the latent codes from multi-view observations. We evaluate the system in both synthetic and real datasets to demonstrate the effectiveness of uncertainty-based fusion to improve 3D object reconstruction accuracy.
翻訳日:2023-06-22 16:33:49 公開日:2023-06-17
# 1+1次元のカイラル異常再訪:相補的運動論的観点と普遍性

Chiral anomaly in (1+1) dimensions revisited: complementary kinetic perspective and universality ( http://arxiv.org/abs/2201.02844v2 )

ライセンス: Link先を確認
Wei-Han Hsiao, Chiao-Hsuan Wang(参考訳) 1+1)次元時空におけるカイラル異常の古典的な例を再検討する。 半古典的ボルツマン方程式による電荷保存の導出をレビューすることにより、キラルな異常は(1+1)次元で、ベリー曲率を運動理論に補正することなく現れると論じる。 中心的なステップは準粒子の分布関数の漸近的挙動にのみ依存し、その分散関係は分散の詳細な関数形式ではなく、$|\mathbf p|\to\pm\infty$の極限である。 この観察に動機付けられた2つの課題に対処する。 1+1)次元のカイラル異常を現在の代数的アプローチとディラック・ラグランジアンの勾配拡大の運動理論を用いて再構成し、既存のアプローチに相補的な視点を与える。 もう一方は、様々な準粒子分散におけるカイラル異常の普遍性を示している。 時間微分に線形な2バンドモデルの場合、藤川法を用いて、キラルな異常を示すためには、キラリティーオッドの厳密な単調分散が十分であることを示す。

We reinvestigate the classic example of chiral anomaly in (1+1) dimensional spacetime. By reviewing the derivation of charge conservation with the semiclassical Boltzmann equation, we argue that chiral anomalies could emerge in (1+1) dimensions without Berry curvature corrections to the kinetic theory. The pivotal step depends only on the asymptotic behavior of the distribution function of the quasiparticle, and thus its dispersion relation, in the limit of $|\mathbf p|\to\pm\infty$ rather than the detailed functional form of the dispersion. We address two subjects motivated by this observation. One concerns reformulating (1+1) dimensional chiral anomaly using kinetic theory with the current algebra approach and the gradient expansion of the Dirac Lagrangian, adding a complementary perspective to the existing approaches. The other demonstrates the universality of chiral anomaly across various quasiparticle dispersions. For two-band models linear in the temporal derivative, with Fujikawa's method we show it is sufficient tohave a chirality-odd strictly monotonic dispersion in order to exhibit chiral anomaly.
翻訳日:2023-06-22 06:38:46 公開日:2023-06-17
# 道路交通速度予測のための長期記憶における動的時空間の理解

Understanding Dynamic Spatio-Temporal Contexts in Long Short-Term Memory for Road Traffic Speed Prediction ( http://arxiv.org/abs/2112.02409v2 )

ライセンス: Link先を確認
Won Kyung Lee, Deuk Sin Kwon, So Young Sohn(参考訳) インテリジェント交通システム構築には信頼性の高い交通流予測が不可欠である。 多くのビッグデータに基づく予測手法が開発されているが、時間と位置を考慮した道路間の複雑な動的相互作用を反映していない。 本研究では,道路間の空間的および時間的依存を考慮した動的局所長短期記憶(LSTM)モデルを提案する。 そのため、局所化された動的空間重み行列とその動的変動を用いる。 さらに、LSTMモデルは、長い依存性を持つシーケンシャルデータと複雑な非線形機能を扱うことができる。 実験の結果,提案モデルの予測性能は2つの異なるベースライン法と比較して良好であった。

Reliable traffic flow prediction is crucial to creating intelligent transportation systems. Many big-data-based prediction approaches have been developed but they do not reflect complicated dynamic interactions between roads considering time and location. In this study, we propose a dynamically localised long short-term memory (LSTM) model that involves both spatial and temporal dependence between roads. To do so, we use a localised dynamic spatial weight matrix along with its dynamic variation. Moreover, the LSTM model can deal with sequential data with long dependency as well as complex non-linear features. Empirical results indicated superior prediction performances of the proposed model compared to two different baseline methods.
翻訳日:2023-06-22 06:37:21 公開日:2023-06-17
# 最適性の結果

Consequences of Optimality ( http://arxiv.org/abs/2111.10861v2 )

ライセンス: Link先を確認
Dibakar Das(参考訳) 合理性はしばしば最適な意思決定に関係している。 人間は有理なエージェントであることが知られている。 しかし、近年のコンピューティングや、大量のデータと共に科学や技術分野の進歩は、これが人間の有界な合理性の限界を、機械の知性によって拡張する可能性があると感じている。 本稿では, 計算モデルによる結果から, より多くのエージェントがグローバルな最適性に到達し, 計算能力の向上等により, 同じ問題を独立して解くことにより, 資源消費の迅速化による「コモンズの流れ」が加速されることを示す。 したがって、有界合理性は持続可能性の観点から偽装(同じ問題に対する解決策の多様性を提供する)を祝福していると見なすことができる。

Rationality is often related to optimal decision making. Humans are known to be bounded rational agents. However, recent advances in computing, and other scientific and technical fields along with large amount of data have led to a feeling that this could result in extending the limits of bounded rationality in humans through augmented machine intelligence. In this paper, results from a computational model show that as more agents reach global optimality, faster with enhanced computing, etc., solving the same problem independently, this leads to accelerated "tragedy of the commons" due to quicker resource consumption. Thus, bounded rationality could be seen as blessing in disguise (providing diversity to solutions for the same problem) from sustainability standpoint.
翻訳日:2023-06-22 06:37:04 公開日:2023-06-17
# 未知共変量シフトに適応した予測セット

Prediction Sets Adaptive to Unknown Covariate Shift ( http://arxiv.org/abs/2203.06126v6 )

ライセンス: Link先を確認
Hongxiang Qiu, Edgar Dobriban, Eric Tchetgen Tchetgen(参考訳) ユニークな結果ではなく、結果のセットを予測することは、統計的学習における不確実性定量化の有望な解決策である。 統計的な保証を伴う予測セットの構築に関する豊富な文献にもかかわらず、実際には一般的な問題である未知の共変量シフトへの適応は深刻な未解決の課題となっている。 本稿では,有限サンプル被覆保証付き予測セットが非形式的であることを示し,未知の共変量シフトの下で漸近被覆保証付き予測セットを効率的に構築する,新しいフレキシブルな分布自由化手法であるPredSet-1Stepを提案する。 我々は,本手法が大標本に対して高い信頼度を有する良好なカバレッジ誤差を有する,ほぼ正しいことを正式に示す。 南アフリカのコホート研究において、多くの実験とHIVのリスク予測に関するデータセットにおいて、名目上のカバレッジを実現していることを示す。 我々の理論は、一般漸近線形推定器に基づくウォルドの信頼区間のカバレッジの収束率の新しい境界に基づいている。

Predicting sets of outcomes -- instead of unique outcomes -- is a promising solution to uncertainty quantification in statistical learning. Despite a rich literature on constructing prediction sets with statistical guarantees, adapting to unknown covariate shift -- a prevalent issue in practice -- poses a serious unsolved challenge. In this paper, we show that prediction sets with finite-sample coverage guarantee are uninformative and propose a novel flexible distribution-free method, PredSet-1Step, to efficiently construct prediction sets with an asymptotic coverage guarantee under unknown covariate shift. We formally show that our method is \textit{asymptotically probably approximately correct}, having well-calibrated coverage error with high confidence for large samples. We illustrate that it achieves nominal coverage in a number of experiments and a data set concerning HIV risk prediction in a South African cohort study. Our theory hinges on a new bound for the convergence rate of the coverage of Wald confidence intervals based on general asymptotically linear estimators.
翻訳日:2023-06-22 06:27:08 公開日:2023-06-17
# 単純対相互作用による量子ファンアウト演算の実装

Implementing the quantum fanout operation with simple pairwise interactions ( http://arxiv.org/abs/2203.01141v2 )

ライセンス: Link先を確認
Stephen Fenner, Rabins Wosti(参考訳) n$でさえも、粒子間の対相互作用の和であるハミルトニアンによれば、n$ qubits を進化させることで、特定の定数深さ回路 [arxiv:quant-ph/0309163] を用いて $(n+1)$-qubit ファンアウトゲートを正確に実装できることが示されている。 しかし、その論文で考慮されたハミルトニアンにおける結合係数はすべて等しいと仮定される。 本稿では、これらの結果を一般化し、奇数$n$を含むすべての$n$に対して、$(n+1)$-qubitパリティゲートを正確に実装でき、従って同じ深さの$(n+1)$-qubitファンアウトゲートを、同様のハミルトニアンであるが不等結合を持つものを用いて、等価に$(n+1)$-qubitファンアウトゲートを実装できることを示す。 また, 2次元および3次元の同一量子ビットの空間配置を与えられたファンアウトを実現するための必要十分条件を与え,逆二乗則を満たすペアワイズ結合についても検討した。 我々は,5ドルキュービットのファンアウトを実装するのに十分な4量子ビットの平面配置を与えるために,我々の基準を用いる。

It has been shown that, for even $n$, evolving $n$ qubits according to a Hamiltonian that is the sum of pairwise interactions between the particles, can be used to exactly implement an $(n+1)$-qubit fanout gate using a particular constant-depth circuit [arXiv:quant-ph/0309163]. However, the coupling coefficients in the Hamiltonian considered in that paper are assumed to be all equal. In this paper, we generalize these results and show that for all $n$, including odd $n$, one can exactly implement an $(n+1)$-qubit parity gate and hence, equivalently in constant depth an $(n+1)$-qubit fanout gate, using a similar Hamiltonian but with unequal couplings, and we give an exact characterization of which couplings are adequate to implement fanout via the same circuit. We also investigate pairwise couplings that satisfy an inverse square law, giving necessary and sufficient criteria for implementing fanout given spatial arrangements of identical qubits in two and three dimensions subject to this law. We use our criteria to give planar arrangements of four qubits that (together with a target qubit) are adequate to implement $5$-qubit fanout.
翻訳日:2023-06-22 06:25:58 公開日:2023-06-17
# 時間依存型複素対称ポテンシャル井戸の厳密解

Exact solutions for time-dependent complex symmetric potential well ( http://arxiv.org/abs/2206.04593v2 )

ライセンス: Link先を確認
Boubakeur Khantoul, A. Bounames(参考訳) 擬不変作用素法を用いて、複素時間依存対称ポテンシャル well$V\left(x,t\right) =if\left(t\right) \left\vert x\right\vert$ における時間依存質量を持つ粒子のモデルを調べる。 問題は正確に解くことができ、schr\"{o}dinger の波動関数の解析式はエアリー関数の項で与えられる。 実際、時間依存距離作用素とユニタリ変換の適切な選択により、対応する2つの擬エルミート不変量は、対称線型ポテンシャル井戸に閉じ込められた粒子のハミルトニアンであるよく知られた時間依存エルミート不変量へと変換される。 最後の不変量の固有函数はエアリー函数である。 そして、両領域について得られた位相が実となり、問題の一般解を導出する。

Using the pseudo-invariant operator method, we investigate the model of a particle with a time-dependent mass in a complex time-dependent symmetric potential well $V\left( x,t\right) =if\left(t\right) \left\vert x\right\vert$. The problem is exactly solvable and the analytic expressions of the Schr\"{o}dinger wavefunctions are given in terms of the Airy function. Indeed, with an appropriate choice of the time-dependent metric operators and the unitary transformations, for each region, the two corresponding pseudo-Hermitian invariants transform into a well-known time-independent Hermitian invariant which is the Hamiltonian of a particle confined in a symmetric linear potential well. The eigenfunctions of the last invariant are the Airy functions. Then, the phases obtained are real for both regions and the general solution to the problem is deduced.
翻訳日:2023-06-22 06:08:07 公開日:2023-06-17
# VFed-SSD: 実用的垂直Federated Advertisingに向けて

VFed-SSD: Towards Practical Vertical Federated Advertising ( http://arxiv.org/abs/2205.15987v4 )

ライセンス: Link先を確認
Wenjie Li, Qiaolin Xia, Junfeng Deng, Hao Cheng, Jiangming Liu, Kouying Xue, Yong Cheng and Shu-Tao Xia(参考訳) レバー時代の民間データにおける安全な学習パラダイムとして,広告主と出版社が私有する補完的ユーザ属性の合同学習を可能にすることで,垂直フェデレートラーニング(VFL)が広告モデルを改善することが期待されている。 しかし、広告システムに適用する上で重要な課題は2つある。 a) ラベル付き重複サンプルの限られた規模、及び b) リアルタイムクロスアジェンシーサービスのコストが高いこと。 本稿では,2つの制限を緩和する半教師付き分割蒸留フレームワークVFed-SSDを提案する。 私たちはそれを認識します i)広告システムで利用可能な大量のラベルなし重複データがあり、 二 フェデレーションモデルを分解することにより、モデル性能と推論コストのバランスを保てること。 具体的には,垂直分割された非ラベルデータを利用した自己教師付きタスクマッチングペア検出(mpd)を開発し,スプリットナレッジ蒸留(splitkd)スキーマを提案する。 3つの産業用データセットに関する実証的研究では,全データセットに対するaucの中央値が0.86%改善され,各局部および連系配置モードでは2.6%改善した。 全体として、当社のフレームワークは、デプロイコストの最小化と大幅なパフォーマンス向上により、リアルタイム表示広告のための効率的なフェデレーション強化ソリューションを提供する。

As an emerging secure learning paradigm in lever-aging cross-agency private data, vertical federatedlearning (VFL) is expected to improve advertising models by enabling the joint learning of complementary user attributes privately owned by the advertiser and the publisher. However, there are two key challenges in applying it to advertising systems: a) the limited scale of labeled overlapping samples, and b) the high cost of real-time cross-agency serving. In this paper, we propose a semi-supervised split distillation framework VFed-SSD to alleviate the two limitations. We identify that: i)there are massive unlabeled overlapped data available in advertising systems, and ii) we can keep a balance between model performance and inference cost by decomposing the federated model. Specifically, we develop a self-supervised task MatchedPair Detection (MPD) to exploit the vertically partitioned unlabeled data and propose the Split Knowledge Distillation (SplitKD) schema to avoid cross-agency serving. Empirical studies on three industrial datasets exhibit the effectiveness of ourmethods, with the median AUC over all datasets improved by 0.86% and 2.6% in the local andthe federated deployment mode respectively. Overall, our framework provides an efficient federation-enhanced solution for real-time display advertising with minimal deploying cost and significant performance lift.
翻訳日:2023-06-22 06:06:09 公開日:2023-06-17
# 物理活性化関数(PAFs):物理インフォームドニューラルネットワーク(PINNs)へのより効率的な物理誘導のためのアプローチ

Physical Activation Functions (PAFs): An Approach for More Efficient Induction of Physics into Physics-Informed Neural Networks (PINNs) ( http://arxiv.org/abs/2205.14630v2 )

ライセンス: Link先を確認
Jassem Abbasi (1), P{\aa}l {\O}steb{\o} Andersen (1) ((1) University of Stavanger)(参考訳) 近年,科学計算におけるディープラーニング(DL)手法と解析的あるいは数値的アプローチのギャップは,物理情報ニューラルネットワーク(PINN)の進化によって埋められている。 しかしながら、PINNのトレーニングや物理モデルの最適インターリーブには、多くの複雑さがある。 本稿では,Physical Activation Function(PAF)の概念を紹介した。 この概念は、すべてのニューロンにReLU、tanh、sigmoidのような一般的な活性化関数(AF)を使う代わりに、それらの数学的表現が研究現象の物理法則から受け継がれるような一般的なAFを使用することができる。 PAFの公式は、問題の解析解における項にインスピレーションを与えることができる。 PDEシステムの初期条件や境界条件のような調査現象に関連する数学的公式にインスピレーションを与えることができることを示した。 本研究では,高調波振動,バーガー,対流対流方程式,不均質拡散方程式を含む複数のpdesに対するpafの利点を検証する。 PAFの主な利点は、物理現象とその基礎となる数学的モデルの調査と、PINNのより効率的な制約とインターリーブであった。 この制約により、トレーニング外分布のテストデータに対するpinnの予測が大幅に改善された。 さらに, PAFの適用により, PINNのサイズが75%まで減少した。 また、ピンのトレーニングのアップグレードに特筆すべきケースでは、損失項の値が1桁から2桁削減された。 最適な値を見つけるのに必要なイテレーションも大幅に削減された。 PAFの使用は、より複雑なPINNの生成に役立ち、より長い範囲の予測に有効である、と結論付けている。

In recent years, the gap between Deep Learning (DL) methods and analytical or numerical approaches in scientific computing is tried to be filled by the evolution of Physics-Informed Neural Networks (PINNs). However, still, there are many complications in the training of PINNs and optimal interleaving of physical models. Here, we introduced the concept of Physical Activation Functions (PAFs). This concept offers that instead of using general activation functions (AFs) such as ReLU, tanh, and sigmoid for all the neurons, one can use generic AFs that their mathematical expression is inherited from the physical laws of the investigating phenomena. The formula of PAFs may be inspired by the terms in the analytical solution of the problem. We showed that the PAFs can be inspired by any mathematical formula related to the investigating phenomena such as the initial or boundary conditions of the PDE system. We validated the advantages of PAFs for several PDEs including the harmonic oscillations, Burgers, Advection-Convection equation, and the heterogeneous diffusion equations. The main advantage of PAFs was in the more efficient constraining and interleaving of PINNs with the investigating physical phenomena and their underlying mathematical models. This added constraint significantly improved the predictions of PINNs for the testing data that was out-of-training distribution. Furthermore, the application of PAFs reduced the size of the PINNs up to 75% in different cases. Also, the value of loss terms was reduced by 1 to 2 orders of magnitude in some cases which is noteworthy for upgrading the training of the PINNs. The iterations required for finding the optimum values were also significantly reduced. It is concluded that using the PAFs helps in generating PINNs with less complexity and much more validity for longer ranges of prediction.
翻訳日:2023-06-22 06:05:23 公開日:2023-06-17
# ゼロラベルによる多変量時系列異常の検出

Detecting Multivariate Time Series Anomalies with Zero Known Label ( http://arxiv.org/abs/2208.02108v3 )

ライセンス: Link先を確認
Qihang Zhou, Jiming Chen, Haoyu Liu, Shibo He, Wenchao Meng(参考訳) 多変量時系列異常検出は、すべての通常のインスタンスを持つトレーニングデータセットを必要とする半教師付き設定の下で広範囲に研究されている。 しかし、それぞれのデータインスタンスが正常であることを完全に保証する必要があるため、このようなデータセットの作成は非常に手間がかかる。 したがって、ラベルの知識のないデータセットに基づいて、多変量時系列異常検出手法を探索することが望まれる。 本稿では,動的グラフとエンティティ認識正規化フローによる多変量時系列異常検出のための教師なし異常検出手法であるmtgflowを提案する。 しかし、エンティティ間の複雑な相互依存性と各エンティティ固有の特性は、推定可能な分布に基づいて異常を検出することはもちろん、密度推定に重大な課題をもたらす。 これらの問題に対処するために,多変量時系列の正確な分布をモデル化するグラフ構造学習モデルを用いて,エンティティ間の相互および動的関係を学ぶことを提案する。 さらに、個々のエンティティの異なる特性を考慮したエンティティ認識正規化フローを開発し、各エンティティをパラメータ化された正規分布に記述し、細粒度密度推定を行う。 これら2つの戦略を組み込んだMTGFlowは、優れた異常検出性能を実現する。 7つのベースラインを持つ5つの公開データセットの実験が行われ、MTGFlowはSOTA法を最大5.0AUROC\%で上回っている。 コードはhttps://github.com/zqhang/Detecting-Multivariate-Time-Series-Anomalies-with-Zero-Known-Labelでリリースされる。

Multivariate time series anomaly detection has been extensively studied under the semi-supervised setting, where a training dataset with all normal instances is required. However, preparing such a dataset is very laborious since each single data instance should be fully guaranteed to be normal. It is, therefore, desired to explore multivariate time series anomaly detection methods based on the dataset without any label knowledge. In this paper, we propose MTGFlow, an unsupervised anomaly detection approach for multivariate time series anomaly detection via dynamic graph and entity-aware normalizing flow, leaning only on a widely accepted hypothesis that abnormal instances exhibit sparse densities than the normal. However, the complex interdependencies among entities and the diverse inherent characteristics of each entity pose significant challenges on the density estimation, let alone to detect anomalies based on the estimated possibility distribution. To tackle these problems, we propose to learn the mutual and dynamic relations among entities via a graph structure learning model, which helps to model accurate distribution of multivariate time series. Moreover, taking account of distinct characteristics of the individual entities, an entity-aware normalizing flow is developed to describe each entity into a parameterized normal distribution, thereby producing fine-grained density estimation. Incorporating these two strategies, MTGFlow achieves superior anomaly detection performance. Experiments on five public datasets with seven baselines are conducted, MTGFlow outperforms the SOTA methods by up to 5.0 AUROC\%. Codes will be released at https://github.com/zqhang/Detecting-Multivariate-Time-Series-Anomalies-with-Zero-Known-Label.
翻訳日:2023-06-22 05:46:24 公開日:2023-06-17
# 道徳的模倣: 大きな言語モデルは、政治的アイデンティティに合わせた道徳的合理化を生み出す

Moral Mimicry: Large Language Models Produce Moral Rationalizations Tailored to Political Identity ( http://arxiv.org/abs/2209.12106v2 )

ライセンス: Link先を確認
Gabriel Simmons(参考訳) 大規模言語モデル(llm)は、好ましくない社会的バイアスを再現する傾向だけでなく、流麗なテキストを生成する素晴らしい能力を示している。 本研究は、llmが米国における政治集団に関連する道徳的バイアスを再現するかどうかについて検討するものである。 この仮説はTransformer-based LLMのGPT-3/3.5およびOPTファミリーで研究されている。 モラル基礎理論の道具を用いて、これらのLSMは確かに道徳的な模倣であることを示す。 リベラルまたは保守的な政治的アイデンティティによって促されるとき、モデルは対応する道徳的偏見を反映してテキストを生成する。 本研究は,道徳的模倣とモデルサイズとの関係と,道徳的用法とLLMの類似性についても検討した。

Large Language Models (LLMs) have demonstrated impressive capabilities in generating fluent text, as well as tendencies to reproduce undesirable social biases. This study investigates whether LLMs reproduce the moral biases associated with political groups in the United States, an instance of a broader capability herein termed moral mimicry. This hypothesis is explored in the GPT-3/3.5 and OPT families of Transformer-based LLMs. Using tools from Moral Foundations Theory, it is shown that these LLMs are indeed moral mimics. When prompted with a liberal or conservative political identity, the models generate text reflecting corresponding moral biases. This study also explores the relationship between moral mimicry and model size, and similarity between human and LLM moral word use.
翻訳日:2023-06-22 05:38:49 公開日:2023-06-17
# 物理一貫性を用いたホログラム再構成の自己教師付き学習

Self-supervised learning of hologram reconstruction using physics consistency ( http://arxiv.org/abs/2209.08288v2 )

ライセンス: Link先を確認
Luzhe Huang, Hanlong Chen, Tairan Liu, Aydogan Ozcan(参考訳) 過去10年間、ディープラーニングは様々な計算イメージング、センシング、顕微鏡といったタスクに応用されてきた。 教師付き学習方式により、これらの手法は主に大規模で多様なラベル付きトレーニングデータに依存している。 このようなトレーニングイメージデータセットの取得と準備は、しばしば手間とコストがかかり、バイアスのある見積もりと新しいサンプルタイプへの限定された一般化につながる。 本稿では,ラベル付きおよび実験的トレーニングデータを必要としない自己教師付き学習モデルであるgedankennetについて報告する。 自己教師付き学習モデルは, 実験や実世界のサンプルとの類似性をもたず, 人工的に生成する物理抵抗損失とランダム画像を用いて学習した。 自己教師訓練の後、gedankennetは様々な生体試料の実験ホログラムに一般化し、実験的に取得したテストホログラムを用いて異なる種類の物体の位相および振幅画像を再構成した。 実験データや実際の興味のサンプルやその空間的特徴の知識がなければ、gedankennetの自己教師付き学習はマクスウェル方程式と一致する複素数値画像再構成を達成し、その出力推論と対象解は自由空間における波動伝播を正確に表現する。 gedankennetフレームワークはまた、ホログラム距離、ピクセルサイズ、照明波長の変化を含む物理フォワードモデルにおけるランダムで未知の摂動に対する回復力を示す。 この自己教師あり学習はホログラフィ、顕微鏡、計算画像分野における様々な逆問題に新たな機会をもたらす。

The past decade has witnessed transformative applications of deep learning in various computational imaging, sensing and microscopy tasks. Due to the supervised learning schemes employed, these methods mostly depend on large-scale, diverse, and labeled training data. The acquisition and preparation of such training image datasets are often laborious and costly, also leading to biased estimation and limited generalization to new sample types. Here, we report a self-supervised learning model, termed GedankenNet, that eliminates the need for labeled or experimental training data, and demonstrate its effectiveness and superior generalization on hologram reconstruction tasks. Without prior knowledge about the sample types to be imaged, the self-supervised learning model was trained using a physics-consistency loss and artificial random images that are synthetically generated without any experiments or resemblance to real-world samples. After its self-supervised training, GedankenNet successfully generalized to experimental holograms of various unseen biological samples, reconstructing the phase and amplitude images of different types of objects using experimentally acquired test holograms. Without access to experimental data or knowledge of real samples of interest or their spatial features, GedankenNet's self-supervised learning achieved complex-valued image reconstructions that are consistent with the Maxwell's equations, and its output inference and object solutions accurately represent the wave propagation in free-space. GedankenNet framework also exhibits resilience to random, unknown perturbations in the physical forward model, including changes in the hologram distances, pixel size and illumination wavelength. This self-supervised learning of image reconstruction tasks creates new opportunities for various inverse problems in holography, microscopy and computational imaging fields.
翻訳日:2023-06-22 05:38:26 公開日:2023-06-17
# 重み付き損失による相補的ラベル学習

Class-Imbalanced Complementary-Label Learning via Weighted Loss ( http://arxiv.org/abs/2209.14189v2 )

ライセンス: Link先を確認
Meng Wei, Yong Zhou, Zhongnian Li, Xinzheng Xu(参考訳) 補足ラベル学習(cll)は、弱い教師付き分類において広く使われているが、クラス不均衡なトレーニングサンプルと向き合う場合、現実世界のデータセットにおいて重大な課題に直面している。 このようなシナリオでは、あるクラスのサンプル数は他のクラスのサンプルよりもかなり少なく、結果として予測の精度が低下する。 残念ながら、既存のCLLアプローチはこの問題を調査していない。 この課題を緩和するために,多クラス分類のためのクラス不均衡相補ラベルから学習可能な新しい問題設定を提案する。 そこで本研究では,Weighted Complementary-Label Learning (WCLL) と呼ばれる新しいCLL手法を提案する。 提案手法は,マルチクラス不均衡トレーニングサンプルに適用可能なクラス不均衡相補ラベルを用いて,重み付き経験的リスク最小化損失をモデル化する。 さらに、理論的保証を提供するための推定誤差を導出する。 提案手法を評価するため,複数の広く利用されているベンチマークデータセットと実世界のデータセットについて広範な実験を行い,既存の最先端手法と比較した。 提案手法は,複数のクラス不均衡シナリオの場合においても,これらのデータセットが大幅に改善されていることを示す。 特に,提案手法は補完ラベルを用いて分類器を訓練するだけでなく,クラス不均衡の問題も解決する。

Complementary-label learning (CLL) is widely used in weakly supervised classification, but it faces a significant challenge in real-world datasets when confronted with class-imbalanced training samples. In such scenarios, the number of samples in one class is considerably lower than in other classes, which consequently leads to a decline in the accuracy of predictions. Unfortunately, existing CLL approaches have not investigate this problem. To alleviate this challenge, we propose a novel problem setting that enables learning from class-imbalanced complementary labels for multi-class classification. To tackle this problem, we propose a novel CLL approach called Weighted Complementary-Label Learning (WCLL). The proposed method models a weighted empirical risk minimization loss by utilizing the class-imbalanced complementary labels, which is also applicable to multi-class imbalanced training samples. Furthermore, we derive an estimation error bound to provide theoretical assurance. To evaluate our approach, we conduct extensive experiments on several widely-used benchmark datasets and a real-world dataset, and compare our method with existing state-of-the-art methods. The proposed approach shows significant improvement in these datasets, even in the case of multiple class-imbalanced scenarios. Notably, the proposed method not only utilizes complementary labels to train a classifier but also solves the problem of class imbalance.
翻訳日:2023-06-22 05:26:18 公開日:2023-06-17
# 低精度環境におけるリプシッツ連続損失関数のsgd変異

Variants of SGD for Lipschitz Continuous Loss Functions in Low-Precision Environments ( http://arxiv.org/abs/2211.04655v4 )

ライセンス: Link先を確認
Michael R. Metel(参考訳) 低ビット浮動小数点浮動小数点環境におけるニューラルネットワークの学習を動機とし,適応ステップサイズと計算誤差を用いてsgdの変種について検討した。 一般確率的リプシッツ連続損失関数、クラーク定常点への漸近収束結果、および近似定常点への非漸近収束を、損失関数の確率勾配の近似のみを計算できること、およびsgdステップ自体を計算する誤差を仮定して提示する。 2つの画像認識タスクのSGDと比較して、テストセットの精度が向上した様々な低精度演算環境において、異なるSGDの変種を経験的にテストする。

Motivated by neural network training in low-bit floating and fixed-point environments, this work studies the convergence of variants of SGD using adaptive step sizes with computational error. Considering a general stochastic Lipschitz continuous loss function, an asymptotic convergence result to a Clarke stationary point, and the non-asymptotic convergence to an approximate stationary point are presented assuming that only an approximation of the loss function's stochastic gradient can be computed, as well as error in computing the SGD step itself. Different variants of SGD are tested empirically in a variety of low-precision arithmetic environments, where improved test set accuracy is observed compared to SGD for two image recognition tasks.
翻訳日:2023-06-22 05:19:58 公開日:2023-06-17
# 脳MRIからの早期アルツハイマー検出のための深部マルチブランチCNNアーキテクチャ

Deep Multi-Branch CNN Architecture for Early Alzheimer's Detection from Brain MRIs ( http://arxiv.org/abs/2210.12331v3 )

ライセンス: Link先を確認
Paul K. Mandal, Rakesh Mahto(参考訳) アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症を引き起こす神経変性疾患であり、特に予防的治療を受けなければ、単純なタスクを阻害する脳機能低下を引き起こす。 アメリカ人の9人に1人以上が広告誘発認知症を患っており、広告関連認知症患者に対する無給ケアは2716億ドルと評価されている。 したがって, 早期AD診断の進歩を防ぐために, 様々なアプローチが開発されている。 本稿では,まず,広告の早期検出に使用可能な他の手法について検討する。 次にアルツハイマー病の神経画像化イニシアチブ(adni)から得られたデータセットの概要を説明し、7,866,819パラメータからなる深層畳み込みニューラルネットワーク(cnn)アーキテクチャを提案する。 このモデルは3つの異なる分岐を持ち、それぞれの長さが異なる。 各ブランチは異なるカーネルサイズで構成されている。 このモデルは、非服用、軽度服用、中等度服用を99.05%の正確さで予測できる。

Alzheimer's disease (AD) is a neuro-degenerative disease that can cause dementia and result severe reduction in brain function inhibiting simple tasks especially if no preventative care is taken. Over 1 in 9 Americans suffer from AD induced dementia and unpaid care for people with AD related dementia is valued at $271.6 billion. Hence, various approaches have been developed for early AD diagnosis to prevent its further progression. In this paper, we first review other approaches that could be used for early detection of AD. We then give an overview of our dataset that was from the Alzheimer's Disease Neuroimaging Initiative (ADNI) and propose a deep Convolutional Neural Network (CNN) architecture consisting of 7,866,819 parameters. This model has three different convolutional branches with each having a different length. Each branch is comprised of different kernel sizes. This model can predict whether a patient is non-demented, mild-demented, or moderately demented with a 99.05% three class accuracy.
翻訳日:2023-06-22 05:18:07 公開日:2023-06-17
# Aging with GRACE: 離散キーバリューアダプタによる生涯モデル編集

Aging with GRACE: Lifelong Model Editing with Discrete Key-Value Adapters ( http://arxiv.org/abs/2211.11031v4 )

ライセンス: Link先を確認
Thomas Hartvigsen, Swami Sankaranarayanan, Hamid Palangi, Yoon Kim, Marzyeh Ghassemi(参考訳) デプロイされたモデルは、入力のシフト、ユーザニーズの変化、あるいは創発的な知識ギャップによって、時間の経過とともに崩壊する。 有害な行動が特定される場合、ターゲットとする編集が必要である。 しかし、事前訓練されたモデルの特定の振る舞いを調整する現在のモデルエディタは、複数の編集でモデル性能を低下させる。 本稿では,展開モデルのストリーミングエラーにスポットフィックスを実装し,無関係な入力への影響を最小限に抑えるライフロングモデル編集手法であるGRACEを提案する。 GRACEはトレーニング済みモデルの潜在空間に新しいマッピングを書き、モデルの重みを変えることなく、個別にローカルな編集のコードブックを作成する。 これはストリーミングエラーのみを使用して、数千のシーケンシャルな編集を可能にする最初の方法である。 T5,BERT,GPTモデルを用いた実験では,非表示入力に一般化しつつ,編集および保持におけるGRACEの最先端性能を示す。 我々のコードは \href{https://www.github.com/thartvigsen/grace}{github.com/thartvigsen/grace} で入手できる。

Deployed models decay over time due to shifting inputs, changing user needs, or emergent knowledge gaps. When harmful behaviors are identified, targeted edits are required. However, current model editors, which adjust specific behaviors of pre-trained models, degrade model performance over multiple edits. We propose GRACE, a Lifelong Model Editing method, which implements spot-fixes on streaming errors of a deployed model, ensuring minimal impact on unrelated inputs. GRACE writes new mappings into a pre-trained model's latent space, creating a discrete, local codebook of edits without altering model weights. This is the first method enabling thousands of sequential edits using only streaming errors. Our experiments on T5, BERT, and GPT models show GRACE's state-of-the-art performance in making and retaining edits, while generalizing to unseen inputs. Our code is available at \href{https://www.github.com/thartvigsen/grace}{github.com/thartvigsen/grace}.
翻訳日:2023-06-22 05:08:22 公開日:2023-06-17
# 量子資源理論には有限完全単調集合が存在するか?

Is there a finite complete set of monotones in any quantum resource theory? ( http://arxiv.org/abs/2212.02473v2 )

ライセンス: Link先を確認
Chandan Datta, Ray Ganardi, Tulja Varun Kondra, Alexander Streltsov(参考訳) エンタングルメント量子化は、量子情報処理タスクにおける量子状態の値を評価することを目的としている。 密接に関連する問題は状態変換性であり、2つのリモートパーティが量子粒子を交換することなく共有量子状態を別のパーティに変換できるかどうかを問う。 ここでは、量子の絡み合いと一般の量子資源理論とのこの関係を探求する。 リソース自由な純粋状態を含む任意の量子資源理論に対して、全ての状態変換を完全に決定するリソース単調の有限集合は存在しないことを示す。 これらの制限は、不連続あるいは無限のモノトンの集合が考慮されている場合、あるいは量子触媒を用いてどのように超えるかについて議論する。 また,単一資源単音によって記述される理論の構造を議論し,全順序資源理論と等価性を示す。 これらは任意の量子状態に対して自由変換が存在する理論である。 完全順序付け理論はすべての純粋状態間の自由変換を可能にする。 単一量子系に対しては、完全に順序付けられた資源理論に対する状態変換の完全な特徴付けを提供する。

Entanglement quantification aims to assess the value of quantum states for quantum information processing tasks. A closely related problem is state convertibility, asking whether two remote parties can convert a shared quantum state into another one without exchanging quantum particles. Here, we explore this connection for quantum entanglement and for general quantum resource theories. For any quantum resource theory which contains resource-free pure states, we show that there does not exist a finite set of resource monotones which completely determines all state transformations. We discuss how these limitations can be surpassed, if discontinuous or infinite sets of monotones are considered, or by using quantum catalysis. We also discuss the structure of theories which are described by a single resource monotone and show equivalence with totally ordered resource theories. These are theories where a free transformation exists for any pair of quantum states. We show that totally ordered theories allow for free transformations between all pure states. For single-qubit systems, we provide a full characterization of state transformations for any totally ordered resource theory.
翻訳日:2023-06-22 05:01:11 公開日:2023-06-17
# マルチセム融合:3次元物体検出のためのマルチモーダルセマンティクス融合

Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection ( http://arxiv.org/abs/2212.05265v2 )

ライセンス: Link先を確認
Shaoqing Xu, Fang Li, Ziying Song, Jin Fang, Sifen Wang, Zhi-Xin Yang(参考訳) lidarとカメラ融合技術は、自動運転で3dオブジェクト検出を実現することを約束している。 多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合し、検出精度を高める。 しかしながら、2次元特徴写像の制限された分解能は正確な再射影を阻害し、しばしば発音される境界ブラウリング効果を誘発する。 この制限をうまく処理するために,2D画像と3Dポイントのシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。 具体的には、2次元画像と3次元点雲の解析結果を生成するために、2D/3Dセマンティックセマンティックセマンティクス法を用いる。 2Dセマンティック情報は、キャリブレーションパラメータを持つ3Dポイントクラウドにさらに再投影される。 2Dと3Dのパーシング結果の不一致に対処するため,適応型融合スコアを学習して融合する適応型注意ベースフュージョン (AAF) モジュールを提案する。 次に、融合意味ラベル付きポイントクラウドを、以下の3dオブジェクト検出器に送信する。 さらに,最終検出性能を高めるために,異なるレベルの深部特徴を集約する深部特徴融合(DFF)モジュールを提案する。 フレームワークの有効性を2つの大規模オブジェクト検出ベンチマークで検証し,異なるベースラインと比較した。 実験の結果,提案手法は点群のみを用いた手法や2次元意味情報のみを用いた手法に比べて検出性能が著しく向上することがわかった。 最も重要なことは、提案されたアプローチが他のアプローチを大きく上回り、nuScenesテストベンチマークで最先端の結果を設定することである。

LiDAR and camera fusion techniques are promising for achieving 3D object detection in autonomous driving. Most multi-modal 3D object detection frameworks integrate semantic knowledge from 2D images into 3D LiDAR point clouds to enhance detection accuracy. Nevertheless, the restricted resolution of 2D feature maps impedes accurate re-projection and often induces a pronounced boundary-blurring effect, which is primarily attributed to erroneous semantic segmentation. To well handle this limitation, we propose a general multi-modal fusion framework Multi-Sem Fusion (MSF) to fuse the semantic information from both the 2D image and 3D points scene parsing results. Specifically, we employ 2D/3D semantic segmentation methods to generate the parsing results for 2D images and 3D point clouds. The 2D semantic information is further reprojected into the 3D point clouds with calibration parameters. To handle the misalignment between the 2D and 3D parsing results, we propose an Adaptive Attention-based Fusion (AAF) module to fuse them by learning an adaptive fusion score. Then the point cloud with the fused semantic label is sent to the following 3D object detectors. Furthermore, we propose a Deep Feature Fusion (DFF) module to aggregate deep features at different levels to boost the final detection performance. The effectiveness of the framework has been verified on two public large-scale 3D object detection benchmarks by comparing them with different baselines. The experimental results show that the proposed fusion strategies can significantly improve the detection performance compared to the methods using only point clouds and the methods using only 2D semantic information. Most importantly, the proposed approach significantly outperforms other approaches and sets state-of-the-art results on the nuScenes testing benchmark.
翻訳日:2023-06-22 04:50:44 公開日:2023-06-17
# 音声から完全3次元人間の動きを生成する

Generating Holistic 3D Human Motion from Speech ( http://arxiv.org/abs/2212.04420v2 )

ライセンス: Link先を確認
Hongwei Yi, Hualin Liang, Yifei Liu, Qiong Cao, Yandong Wen, Timo Bolkart, Dacheng Tao, Michael J. Black(参考訳) 本研究は,人間の発話から3次元全身運動を生成する問題に対処する。 音声記録が与えられると,現実的で多様な3d体ポーズ,手振り,表情のシーケンスを合成する。 これを実現するために,我々はまず,同期音声を用いた3次元全体ボディーメッシュの高品質データセットを構築した。 次に、顔、体、手が別々にモデル化される新しい音声対運動生成フレームワークを定義する。 分離されたモデリングは、顔の調音が人間の発話と強く相関しているのに対し、身体のポーズや手のジェスチャーは相関が小さいことに起因している。 具体的には、顔の動きにオートエンコーダ、身体と手の動きにベクトル量子可変オートエンコーダ(VQ-VAE)を用いる。 組成VQ-VAEは多様な結果を生成する鍵となる。 さらに,身体のポーズや手の動きを生成できるクロス条件自己回帰モデルを提案し,コヒーレントで現実的な動きをもたらす。 広汎な実験とユーザスタディにより,提案手法が質的かつ定量的に,最先端の性能を達成することを示す。 私たちの新しいデータセットとコードは、https://talkshow.is.tue.mpg.deで研究目的でリリースされます。

This work addresses the problem of generating 3D holistic body motions from human speech. Given a speech recording, we synthesize sequences of 3D body poses, hand gestures, and facial expressions that are realistic and diverse. To achieve this, we first build a high-quality dataset of 3D holistic body meshes with synchronous speech. We then define a novel speech-to-motion generation framework in which the face, body, and hands are modeled separately. The separated modeling stems from the fact that face articulation strongly correlates with human speech, while body poses and hand gestures are less correlated. Specifically, we employ an autoencoder for face motions, and a compositional vector-quantized variational autoencoder (VQ-VAE) for the body and hand motions. The compositional VQ-VAE is key to generating diverse results. Additionally, we propose a cross-conditional autoregressive model that generates body poses and hand gestures, leading to coherent and realistic motions. Extensive experiments and user studies demonstrate that our proposed approach achieves state-of-the-art performance both qualitatively and quantitatively. Our novel dataset and code will be released for research purposes at https://talkshow.is.tue.mpg.de.
翻訳日:2023-06-22 04:49:29 公開日:2023-06-17
# ハードウェア効率のよい機械学習アーキテクチャによるqubit readoutのスケーリング

Scaling Qubit Readout with Hardware Efficient Machine Learning Architectures ( http://arxiv.org/abs/2212.03895v2 )

ライセンス: Link先を確認
Satvik Maurya, Chaithanya Naik Mude, William D. Oliver, Benjamin Lienhard, Swamit Tannu(参考訳) 量子ビットを読むことは量子コンピューティングの基本的な操作である。 量子情報を古典情報に変換し、その後の分類により、クォービット状態 `0' または `1' を割り当てる。 残念ながら、qubit readoutは超伝導量子プロセッサ上で最もエラーが発生しやすい、最も遅い操作の1つです。 最先端の超伝導量子プロセッサでは、読み出し誤差は1~10%である。 高読み出し精度は、近未来の雑音量子コンピュータと誤り訂正量子コンピュータの高忠実性を実現するために不可欠である。 以前の研究では、機械学習によるシングルショット量子ビット状態分類を使用しており、ディープニューラルネットワークはクロストークエラーの補償によって、より堅牢な識別に使用された。 しかし、特に高速なハードウェア識別が必要な場合、ニューラルネットワークサイズはシステムのスケーラビリティを制限することができる。 この最先端のベースライン設計は、ほとんどのシステムで超伝導量子ビットの制御と読み出しに使用される既製のfpgaでは実装できないため、ソフトウェアで識別を行う必要があるため、全体の読み出し遅延が増加する。 本研究では,マッチングフィルタの階層構造を,より小さくスケーラブルなニューラルネットワークと組み合わせることで,量子状態識別を改善するためのスケーラブルな手法であるherqulesを提案する。 我々は,既製のFPGA上で容易に実装可能なスケーラブルな設計により,ベースラインよりもはるかに高い読み出し精度(16.4%の改善)を実現している。 また、HERQULESはより汎用性が高く、トレーニングのオーバーヘッドを伴わずにベースライン設計よりも短い読み出し時間をサポートできることを示す。

Reading a qubit is a fundamental operation in quantum computing. It translates quantum information into classical information enabling subsequent classification to assign the qubit states `0' or `1'. Unfortunately, qubit readout is one of the most error-prone and slowest operations on a superconducting quantum processor. On state-of-the-art superconducting quantum processors, readout errors can range from 1-10%. High readout accuracy is essential for enabling high fidelity for near-term noisy quantum computers and error-corrected quantum computers of the future. Prior works have used machine-learning-assisted single-shot qubit-state classification, where a deep neural network was used for more robust discrimination by compensating for crosstalk errors. However, the neural network size can limit the scalability of systems, especially if fast hardware discrimination is required. This state-of-the-art baseline design cannot be implemented on off-the-shelf FPGAs used for the control and readout of superconducting qubits in most systems, which increases the overall readout latency as discrimination has to be performed in software. In this work, we propose HERQULES, a scalable approach to improve qubit-state discrimination by using a hierarchy of matched filters in conjunction with a significantly smaller and scalable neural network for qubit-state discrimination. We achieve substantially higher readout accuracies (16.4% relative improvement) than the baseline with a scalable design that can be readily implemented on off-the-shelf FPGAs. We also show that HERQULES is more versatile and can support shorter readout durations than the baseline design without additional training overheads.
翻訳日:2023-06-22 04:49:10 公開日:2023-06-17
# ビンジンフリー非カルテ型心筋mriのための神経暗黙的k空間

Neural Implicit k-Space for Binning-free Non-Cartesian Cardiac MR Imaging ( http://arxiv.org/abs/2212.08479v5 )

ライセンス: Link先を確認
Wenqi Huang, Hongwei Li, Jiazhen Pan, Gastao Cruz, Daniel Rueckert and Kerstin Hammernik(参考訳) 本稿では,心電図をトリガーした非カルテシアン磁気共鳴イメージング(CMR)のための,k空間におけるニューラル暗示表現を直接学習する新しい画像再構成フレームワークを提案する。 既存の手法では,心臓運動の一相を再構築するために隣接時点からデータを取得しているが,本手法では連続的,バイナリフリー,主題特異的なk空間表現が可能であり,各サンプルk空間に時間,コイルインデックス,周波数領域位置からなる一意な座標を割り当てる。 次に、周波数領域正則化を持つ多層パーセプトロンを用いて、これらのユニークな座標からk空間強度への対象固有写像を学習する。 推定中、デカルト座標の完全なk-空間と任意の時間分解が得られる。 単純な逆フーリエ変換は、密度補償や非カルテデータに対するコストのかかる非一様フーリエ変換をなくして、画像を復元する。 この新しいイメージング・フレームワークは、6人の被験者から42個の放射的サンプルデータセットで試験された。 提案手法は,4相,1相,30相の心拍データを用いて定性的,定量的に他の手法より優れる。 心室中隔欠損症50例に対する心室中隔膜再建術の成績は改善し, 時空間分解能は改善し, リアルタイムCMRの可能性も活用できた。

In this work, we propose a novel image reconstruction framework that directly learns a neural implicit representation in k-space for ECG-triggered non-Cartesian Cardiac Magnetic Resonance Imaging (CMR). While existing methods bin acquired data from neighboring time points to reconstruct one phase of the cardiac motion, our framework allows for a continuous, binning-free, and subject-specific k-space representation.We assign a unique coordinate that consists of time, coil index, and frequency domain location to each sampled k-space point. We then learn the subject-specific mapping from these unique coordinates to k-space intensities using a multi-layer perceptron with frequency domain regularization. During inference, we obtain a complete k-space for Cartesian coordinates and an arbitrary temporal resolution. A simple inverse Fourier transform recovers the image, eliminating the need for density compensation and costly non-uniform Fourier transforms for non-Cartesian data. This novel imaging framework was tested on 42 radially sampled datasets from 6 subjects. The proposed method outperforms other techniques qualitatively and quantitatively using data from four and one heartbeat(s) and 30 cardiac phases. Our results for one heartbeat reconstruction of 50 cardiac phases show improved artifact removal and spatio-temporal resolution, leveraging the potential for real-time CMR.
翻訳日:2023-06-22 04:39:15 公開日:2023-06-17
# EXIF as Language: 画像とカメラメタデータの相互関連を学習する

EXIF as Language: Learning Cross-Modal Associations Between Images and Camera Metadata ( http://arxiv.org/abs/2301.04647v4 )

ライセンス: Link先を確認
Chenhao Zheng, Ayush Shrivastava, Andrew Owens(参考訳) 我々は、与えられた写真を記録するカメラに関する情報をキャプチャする視覚表現を学ぶ。 そこで我々は,画像パッチとEXIFメタデータのマルチモーダル埋め込みを訓練し,カメラが自動的に画像ファイルに挿入する。 私たちのモデルは、単にテキストに変換し、変換器で処理することで、このメタデータを表現します。 私たちが学んだ機能は、下流の画像検査や校正作業において、他の自己監督機能や監督機能よりも大幅に優れています。 特に,画像内のすべてのパッチに対して視覚的な埋め込みをクラスタリングすることにより,スプライシングされた画像領域を"ゼロショット"にローカライズすることに成功した。

We learn a visual representation that captures information about the camera that recorded a given photo. To do this, we train a multimodal embedding between image patches and the EXIF metadata that cameras automatically insert into image files. Our model represents this metadata by simply converting it to text and then processing it with a transformer. The features that we learn significantly outperform other self-supervised and supervised features on downstream image forensics and calibration tasks. In particular, we successfully localize spliced image regions "zero shot" by clustering the visual embeddings for all of the patches within an image.
翻訳日:2023-06-22 04:31:01 公開日:2023-06-17
# 軌道空間上の量子ウォーク

Quantum Walk on Orbit Spaces ( http://arxiv.org/abs/2301.03193v2 )

ライセンス: Link先を確認
Satoshi Ohya(参考訳) 多重連結空間上の経路積分における被覆空間法に着想を得て、軌道空間上の連続および離散時間量子ウォークのための時間発展核の普遍的な公式を示す。 ここで、ウォーカーの構成空間が軌道空間 $\Lambda/\Gamma$ である場合、$\Lambda$ は任意の格子であり、$\Gamma$ は $\Lambda$ 上の作用が固定点を持たない離散群である。 我々は、$\lambda/\gamma$ 上の時間発展核は $\lambda$ 上の時間発展核の重み付け和として書くことができ、ここでは和は $\lambda$ の初期点の軌道上にあり、重み係数は $\gamma$ の1次元ユニタリ表現によって与えられる。 1次元に焦点をあてて、この公式の多くの例を示す。 また、量子ウォークにおける可解核、正準密度行列、および任意の群のユニタリ表現の普遍的な公式も、いずれも時間進化カーネルと全く同じ方法で構成されている。

Inspired by the covering-space method in path integral on multiply connected spaces, we here present a universal formula of time-evolution kernels for continuous- and discrete-time quantum walks on orbit spaces. In this note, we focus on the case in which walkers' configuration space is the orbit space $\Lambda/\Gamma$, where $\Lambda$ is an arbitrary lattice and $\Gamma$ is a discrete group whose action on $\Lambda$ has no fixed points. We show that the time-evolution kernel on $\Lambda/\Gamma$ can be written as a weighted sum of time-evolution kernels on $\Lambda$, where the summation is over the orbit of initial point in $\Lambda$ and weight factors are given by a one-dimensional unitary representation of $\Gamma$. Focusing on one dimension, we present a number of examples of the formula. We also present universal formulas of resolvent kernels, canonical density matrices, and unitary representations of arbitrary groups in quantum walks on $\Lambda/\Gamma$, all of which are constructed in exactly the same way as for the time-evolution kernel.
翻訳日:2023-06-22 04:29:08 公開日:2023-06-17
# 都市視覚知能:aiと街並み画像を用いた都市研究

Urban Visual Intelligence: Studying Cities with AI and Street-level Imagery ( http://arxiv.org/abs/2301.00580v2 )

ライセンス: Link先を確認
Fan Zhang, Arianna Salazar Miranda, F\'abio Duarte, Lawrence Vale, Gary Hack, Min Chen, Yu Liu, Michael Batty, Carlo Ratti(参考訳) 都市の視覚次元は、シッテ、リンチ、アーンハイム、ヤコブなどの学者の先駆的業績以来、都市研究において基本的な主題となっている。 数十年後、ビッグデータと人工知能(AI)は人々の移動、感覚、都市との相互作用に革命をもたらしている。 本稿では,都市の外観と機能に関する文献を概観し,視覚情報がどのように活用されたかを説明する。 概念的枠組みである都市視覚知能(urban visual intelligence)は、新しい画像データソースとai技術が研究者が認識し測定する方法を再形作し、物理的環境とその社会経済環境との相互作用を様々な規模で研究することを可能にするために導入されている。 論文は、これらの新しいアプローチは、研究者が古典的な都市理論とテーマを再検討することを可能にし、デジタル時代の人間の行動や願望に合致した環境を作るのに役立つと論じている。

The visual dimension of cities has been a fundamental subject in urban studies, since the pioneering work of scholars such as Sitte, Lynch, Arnheim, and Jacobs. Several decades later, big data and artificial intelligence (AI) are revolutionizing how people move, sense, and interact with cities. This paper reviews the literature on the appearance and function of cities to illustrate how visual information has been used to understand them. A conceptual framework, Urban Visual Intelligence, is introduced to systematically elaborate on how new image data sources and AI techniques are reshaping the way researchers perceive and measure cities, enabling the study of the physical environment and its interactions with socioeconomic environments at various scales. The paper argues that these new approaches enable researchers to revisit the classic urban theories and themes, and potentially help cities create environments that are more in line with human behaviors and aspirations in the digital age.
翻訳日:2023-06-22 04:28:45 公開日:2023-06-17
# 分子生物学のための量子コンピューティング

Quantum Computing for Molecular Biology ( http://arxiv.org/abs/2212.12220v2 )

ライセンス: Link先を確認
Alberto Baiardi, Matthias Christandl, and Markus Reiher(参考訳) 分子生物学と生化学は、その性質上量子力学である分子構造とその相互作用の観点から、生体の微視的過程を解釈する。 これらの相互作用の理論的基礎は非常に確立されているが、関連する量子力学方程式の計算解は非常に難しい。 しかし、生物学における分子機能の多くは、電子と核の相互作用が原子の相互作用をモデル化する効果的な古典的な代理ポテンシャルにマッピングされた古典力学で理解することができる。 これらのポテンシャルの単純な数学的構造は計算上の大きな利点をもたらすが、これは全ての量子相関と相互作用の厳密な多粒子の性質が省略されるコストが伴う。 本研究では,分子生物学の量子基盤の実用的有用性を量子計算がいかに前進するかを,生体分子のシミュレーションに計算の利点を提供することによって議論する。 この文脈で生体分子の電子構造に関する典型的な量子力学的問題を論じるだけでなく、古典的な問題(タンパク質の折り畳みや薬物設計など)や、バイオインフォマティクスのデータ駆動的アプローチや、それらが量子シミュレーションや量子計算に許容される程度についても考察する。

Molecular biology and biochemistry interpret microscopic processes in the living world in terms of molecular structures and their interactions, which are quantum mechanical by their very nature. Whereas the theoretical foundations of these interactions are very well established, the computational solution of the relevant quantum mechanical equations is very hard. However, much of molecular function in biology can be understood in terms of classical mechanics, where the interactions of electrons and nuclei have been mapped onto effective classical surrogate potentials that model the interaction of atoms or even larger entities. The simple mathematical structure of these potentials offers huge computational advantages; however, this comes at the cost that all quantum correlations and the rigorous many-particle nature of the interactions are omitted. In this work, we discuss how quantum computation may advance the practical usefulness of the quantum foundations of molecular biology by offering computational advantages for simulations of biomolecules. We not only discuss typical quantum mechanical problems of the electronic structure of biomolecules in this context, but also consider the dominating classical problems (such as protein folding and drug design) as well as data-driven approaches of bioinformatics and the degree to which they might become amenable to quantum simulation and quantum computation.
翻訳日:2023-06-22 04:27:45 公開日:2023-06-17
# ベクトル量子化ワッサースタインオートエンコーダ

Vector Quantized Wasserstein Auto-Encoder ( http://arxiv.org/abs/2302.05917v2 )

ライセンス: Link先を確認
Tung-Long Vuong, Trung Le, He Zhao, Chuanxia Zheng, Mehrtash Harandi, Jianfei Cai, Dinh Phung(参考訳) 深い離散的な潜伏的なプレゼンテーションを学ぶことは、より優れたシンボリックで要約された抽象化を提供する。 量子化変分オートエンコーダ(VQ-VAE)にインスパイアされた深部離散表現の学習の多くは、元々のVQ-VAE形式の改善に重点を置いており、生成的視点から深部離散表現を学ぶことはほとんどない。 本研究では,生成的視点から深層離散表現を学習する。 具体的には、コードワードのシーケンス上の離散分布を付与し、それらの間のws距離を最小化することにより、コードワードのシーケンス上の分布をデータ分布に輸送する決定論的デコーダを学習する。 WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。 最後に,本手法をいくつかのよく知られたベンチマークで実証的に評価し,コードブックの利用率や画像再構成・生成率の観点から,他のVQ-VAE変種よりも質的,定量的な性能が得られることを示した。

Learning deep discrete latent presentations offers a promise of better symbolic and summarized abstractions that are more useful to subsequent downstream tasks. Inspired by the seminal Vector Quantized Variational Auto-Encoder (VQ-VAE), most of work in learning deep discrete representations has mainly focused on improving the original VQ-VAE form and none of them has studied learning deep discrete representations from the generative viewpoint. In this work, we study learning deep discrete representations from the generative viewpoint. Specifically, we endow discrete distributions over sequences of codewords and learn a deterministic decoder that transports the distribution over the sequences of codewords to the data distribution via minimizing a WS distance between them. We develop further theories to connect it with the clustering viewpoint of WS distance, allowing us to have a better and more controllable clustering solution. Finally, we empirically evaluate our method on several well-known benchmarks, where it achieves better qualitative and quantitative performances than the other VQ-VAE variants in terms of the codebook utilization and image reconstruction/generation.
翻訳日:2023-06-22 03:51:06 公開日:2023-06-17
# ハイパーネットワークは音の暗黙的な神経表現を構築する

Hypernetworks build Implicit Neural Representations of Sounds ( http://arxiv.org/abs/2302.04959v3 )

ライセンス: Link先を確認
Filip Szatkowski, Karol J. Piczak, Przemys{\l}aw Spurek, Jacek Tabor, Tomasz Trzci\'nski(参考訳) Inlicit Neural Representation (INR)は、画像の超解像、画像圧縮、あるいは3Dレンダリングなど、様々なリアルタイムアプリケーションにおけるマルチメディア信号の表現に使われている。 inrを利用する既存の手法は主に視覚データに焦点を当てており、画像ベースのinrモデルのアーキテクチャ属性に存在する帰納的バイアスのため、オーディオなどの他のモダリティへの応用は非自明である。 この制限に対処するために,ハイパーネットワークを活用したオーディオサンプルのためのINRを生成する最初のメタ学習手法であるHyperSoundを紹介した。 本手法は他の最先端モデルに匹敵する品質でオーディオサンプルを再構成し、スペクトログラムなどの深層ニューラルネットワークで使用される現代音声表現の代替手段を提供する。

Implicit Neural Representations (INRs) are nowadays used to represent multimedia signals across various real-life applications, including image super-resolution, image compression, or 3D rendering. Existing methods that leverage INRs are predominantly focused on visual data, as their application to other modalities, such as audio, is nontrivial due to the inductive biases present in architectural attributes of image-based INR models. To address this limitation, we introduce HyperSound, the first meta-learning approach to produce INRs for audio samples that leverages hypernetworks to generalize beyond samples observed in training. Our approach reconstructs audio samples with quality comparable to other state-of-the-art models and provides a viable alternative to contemporary sound representations used in deep neural networks for audio processing, such as spectrograms.
翻訳日:2023-06-22 03:50:01 公開日:2023-06-17
# 3次元分子生成と最適化のための幾何完全拡散

Geometry-Complete Diffusion for 3D Molecule Generation and Optimization ( http://arxiv.org/abs/2302.04313v4 )

ライセンス: Link先を確認
Alex Morehead, Jianlin Cheng(参考訳) 拡散確率モデル (DDPM) は近年, テキスト誘導画像生成から構造誘導タンパク質設計に至るまで, コンピュータビジョンや計算生物学などの分野における新たな最先端の成果を開拓し, 嵐による生成モデリングの分野を開拓している。 後者の研究の線に沿って、DDPMフレームワーク内で同変グラフニューラルネットワーク(GNN)を用いて3次元分子を生成する方法が最近提案されている。 しかし、そのような手法は分子グラフ生成中に3d分子の重要な幾何学的・物理的性質を学習できないため、分子に依存しないgnnを3dグラフの分断ネットワークとして採用し、大きな3d分子のデータセットに効果的にスケールする能力に悪影響を及ぼす。 そこで本研究では,既存の3次元分子拡散モデルに対して,qm9データセットやより大きなgeom-drugsデータセットの条件的・非条件的設定において有意なマージンで勝る3d分子生成のための幾何完全拡散モデル(gcdm)を導入することで,これらのギャップに対処する。 重要なのは,cgdmが3d分子生成のために学習した幾何完全分極化プロセスにより,ジオムドラッグのスケールで現実的な安定な大きな分子を生成できることである。 さらに、GCDMの幾何学的特徴は、分子拡散モデルの新しい実世界の汎用性を示すために、既存の3次元分子の幾何学的および化学組成を直接最適化するために効果的に再利用できることを示す。 私たちのソースコード、データ、再現性命令は、https://github.com/bioinfomachinelearning/bio-diffusionで無料で利用できます。

Denoising diffusion probabilistic models (DDPMs) have recently taken the field of generative modeling by storm, pioneering new state-of-the-art results in disciplines such as computer vision and computational biology for diverse tasks ranging from text-guided image generation to structure-guided protein design. Along this latter line of research, methods have recently been proposed for generating 3D molecules using equivariant graph neural networks (GNNs) within a DDPM framework. However, such methods are unable to learn important geometric and physical properties of 3D molecules during molecular graph generation, as they adopt molecule-agnostic and non-geometric GNNs as their 3D graph denoising networks, which negatively impacts their ability to effectively scale to datasets of large 3D molecules. In this work, we address these gaps by introducing the Geometry-Complete Diffusion Model (GCDM) for 3D molecule generation, which outperforms existing 3D molecular diffusion models by significant margins across conditional and unconditional settings for the QM9 dataset as well as for the larger GEOM-Drugs dataset. Importantly, we demonstrate that the geometry-complete denoising process GCDM learns for 3D molecule generation allows the model to generate realistic and stable large molecules at the scale of GEOM-Drugs, whereas previous methods fail to do so with the features they learn. Additionally, we show that GCDM's geometric features can effectively be repurposed to directly optimize the geometry and chemical composition of existing 3D molecules for specific molecular properties, demonstrating new, real-world versatility of molecular diffusion models. Our source code, data, and reproducibility instructions are freely available at https://github.com/BioinfoMachineLearning/Bio-Diffusion.
翻訳日:2023-06-22 03:49:07 公開日:2023-06-17
# 合成データ生成のための機械学習: レビュー

Machine Learning for Synthetic Data Generation: A Review ( http://arxiv.org/abs/2302.04062v4 )

ライセンス: Link先を確認
Yingzhou Lu, Minjie Shen, Huazheng Wang, Wenqi Wei(参考訳) 機械学習はデータに大きく依存するが、現実のアプリケーションは様々なデータ関連の問題に直面することが多い。 これには、品質の低いデータ、マシンラーニングモデルの適合性の低いデータポイント、プライバシや安全性、規制に関する懸念によるデータアクセスの困難などが含まれる。 これらの課題に照らして、合成データ生成の概念は、現実世界のデータが容易にならない方法でデータ共有と利用を可能にする、有望な代替手段として浮上する。 本稿では,合成データ生成のために機械学習モデルを用いた既存研究の総合的な体系的レビューを行う。 このレビューは、合成データ生成、コンピュータビジョン、スピーチ、自然言語処理、ヘルスケア、ビジネスドメインの応用から始まり、様々な視点を包含している。 さらに、ニューラルネットワークアーキテクチャと深層生成モデルを重視した、さまざまな機械学習手法を探求する。 また、合成データ生成に関するプライバシーと公平性に関する重要な側面についても論じる。 さらに,本研究では,この新興分野における課題と機会を明らかにし,今後の研究の道筋を明かす。 本稿では,合成データ生成の複雑さを解明し,知識の進歩に寄与し,合成データ生成のさらなる探求を促すことを目的とする。

Machine learning heavily relies on data, but real-world applications often encounter various data-related issues. These include data of poor quality, insufficient data points leading to under-fitting of machine learning models, and difficulties in data access due to concerns surrounding privacy, safety, and regulations. In light of these challenges, the concept of synthetic data generation emerges as a promising alternative that allows for data sharing and utilization in ways that real-world data cannot facilitate. This paper presents a comprehensive systematic review of existing studies that employ machine learning models for the purpose of generating synthetic data. The review encompasses various perspectives, starting with the applications of synthetic data generation, spanning computer vision, speech, natural language processing, healthcare, and business domains. Additionally, it explores different machine learning methods, with particular emphasis on neural network architectures and deep generative models. The paper also addresses the crucial aspects of privacy and fairness concerns related to synthetic data generation. Furthermore, this study identifies the challenges and opportunities prevalent in this emerging field, shedding light on the potential avenues for future research. By delving into the intricacies of synthetic data generation, this paper aims to contribute to the advancement of knowledge and inspire further exploration in synthetic data generation.
翻訳日:2023-06-22 03:48:32 公開日:2023-06-17
# StyLIP: CLIPベースのドメイン一般化のためのマルチスケールスタイルのプロンプト学習

StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based Domain Generalization ( http://arxiv.org/abs/2302.09251v2 )

ライセンス: Link先を確認
Shirsha Bose, Enrico Fini, Ankit Jha, Mainak Singha, Biplab Banerjee, Elisa Ricci(参考訳) 大規模基盤モデル(例えばCLIP)は、慎重に設計された言語プロンプトを活用することで、下流タスクでゼロショットの一般化性能を示す。 しかし、その成功にもかかわらず、ほとんどの素早い学習技術はドメインシフトの存在下では性能が劣る傾向にある。 この課題に対処し、ドメイン間のCLIPの一般化能力を改善するために、ドメインに依存しないプロンプト学習戦略に基づくドメイン一般化(DG)の新しいアプローチである「textsc{StyLIP}」を提案する。 明示的なドメイン知識がなければ、事前学習したCLIPから抽出した視覚的スタイルと内容情報をインプロンプトで切り離すことを目標とし、推論中に新規ドメインに適応できるようにしている。 さらに、これらのマルチスケールスタイルの特徴から直接プロンプトトークンを学習する一連のスタイルプロジェクタを検討し、生成したプロンプト埋め込みは、後にコンテンツプロジェクタで学習したマルチスケール視覚特徴と融合する。 プロジェクタは、クリップの凍結した視覚とテキストエンコーダによって対照的に訓練される。 我々は,複数のベンチマークで5つの異なるDG設定で広範な実験を行い,関連する最先端手法を一貫して上回ることを示す。

Large-scale foundation models (e.g., CLIP) have shown promising zero-shot generalization performance on downstream tasks by leveraging carefully designed language prompts. However, despite their success, most prompt learning techniques tend to underperform in the presence of domain shift. Our study addresses this problem and, to improve CLIP's generalization ability across domains, proposes \textsc{StyLIP}, a novel approach for Domain Generalization (DG) based on a domain-agnostic prompt learning strategy. In the absence of explicit domain knowledge, we aim to disentangle the visual style and the content information extracted from the pre-trained CLIP in the prompts so they can be effortlessly adapted to novel domains during inference. Furthermore, we consider a set of style projectors to learn the prompt tokens directly from these multi-scale style features, and the generated prompt embeddings are later fused with the multi-scale visual features learned through a content projector. The projectors are contrastively trained, given CLIP's frozen vision and text encoders. We present extensive experiments in five different DG settings on multiple benchmarks, demonstrating that \textsc{StyLIP} consistently outperforms the relevant state-of-the-art methods.
翻訳日:2023-06-22 03:41:08 公開日:2023-06-17
# フィードバックグラフを用いた実践的コンテキスト帯域

Practical Contextual Bandits with Feedback Graphs ( http://arxiv.org/abs/2302.08631v2 )

ライセンス: Link先を確認
Mengxiao Zhang, Yuheng Zhang, Olga Vrousgou, Haipeng Luo, Paul Mineiro(参考訳) 文脈的帯域幅は成熟した理論を持つが、学習のペースを高めるために様々なフィードバックパターンを効果的に活用することは、まだ不明である。 フィードバックグラフを持つバンドは、全情報と帯域構成を補間し、学習の統計的複雑さを軽減するための有望なフレームワークを提供する。 本稿では,回帰への還元に基づくフィードバックグラフを用いた文脈的包帯に対するアプローチを提案し,分析する。 得られたアルゴリズムは計算的に実用的であり、確立されたミニマックスレートを達成する。

While contextual bandit has a mature theory, effectively leveraging different feedback patterns to enhance the pace of learning remains unclear. Bandits with feedback graphs, which interpolates between the full information and bandit regimes, provides a promising framework to mitigate the statistical complexity of learning. In this paper, we propose and analyze an approach to contextual bandits with feedback graphs based upon reduction to regression. The resulting algorithms are computationally practical and achieve established minimax rates, thereby reducing the statistical complexity in real-world applications.
翻訳日:2023-06-22 03:40:32 公開日:2023-06-17
# 芸術の状況はどうなっていますか。 機械学習ベンチマーク性能における多重性会計

What is the state of the art? Accounting for multiplicity in machine learning benchmark performance ( http://arxiv.org/abs/2303.07272v3 )

ライセンス: Link先を確認
Kajsa M{\o}llersen and Einar Holsb{\o}(参考訳) 機械学習手法は一般に評価され、公開リポジトリのデータセットのパフォーマンスによって比較される。 これにより、しばしば数千のメソッドが同じ条件下で、時間にわたって評価される。 問題における最上位の成績は「最先端(SOTA)パフォーマンス」と呼ばれ、新しい手法を公表するための基準点として用いられる。 SOTAの最大性能を推定として用いることは偏りのある推定器であり、過度に楽観的な結果を与える。 マルチプリシティ(multiplicity)は、複数の比較と複数のテストの文脈でよく研究されているトピックであるが、著者たちが認識している限り、SOTAの推定に関する議論からほとんど欠落している。 新しい手法を評価するための基準として,楽観的な最先端推定法が用いられ,その結果が著しく劣る手法が容易に見過ごされる。 本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。 独立分類器を用いた模擬例による乗法の影響を実証する。 分類子依存性が分散にどのように影響するかを示すとともに,精度が高い場合には影響が限定されることを示した。 最後に,2020年のkaggleコンペティションという実例について論じる。

Machine learning methods are commonly evaluated and compared by their performance on data sets from public repositories. This allows for multiple methods, oftentimes several thousands, to be evaluated under identical conditions and across time. The highest ranked performance on a problem is referred to as state-of-the-art (SOTA) performance, and is used, among other things, as a reference point for publication of new methods. Using the highest-ranked performance as an estimate for SOTA is a biased estimator, giving overly optimistic results. The mechanisms at play are those of multiplicity, a topic that is well-studied in the context of multiple comparisons and multiple testing, but has, as far as the authors are aware of, been nearly absent from the discussion regarding SOTA estimates. The optimistic state-of-the-art estimate is used as a standard for evaluating new methods, and methods with substantial inferior results are easily overlooked. In this article, we provide a probability distribution for the case of multiple classifiers so that known analyses methods can be engaged and a better SOTA estimate can be provided. We demonstrate the impact of multiplicity through a simulated example with independent classifiers. We show how classifier dependency impacts the variance, but also that the impact is limited when the accuracy is high. Finally, we discuss a real-world example; a Kaggle competition from 2020.
翻訳日:2023-06-22 03:23:11 公開日:2023-06-17
# 一階漸近論を超越した量子ディコトミーとコヒーレント熱力学

Quantum dichotomies and coherent thermodynamics beyond first-order asymptotics ( http://arxiv.org/abs/2303.05524v2 )

ライセンス: Link先を確認
Patryk Lipka-Bartosik, Christopher T. Chubb, Joseph M. Renes, Marco Tomamichel, Kamil Korzekwa(参考訳) すなわち、量子チャネル $\mathcal e$ を $\rho_1^{\otimes n}$ から $\rho_2^{\otimes r_nn}$ に、エラー $\epsilon_n$ (トレース距離によって測定) と $\sigma_1^{\otimes n}$ を $\sigma_2^{\otimes r_nn}$ に正確にマッピングする。 我々は、任意のペア$(\rho_1,\sigma_1) の初期状態と可換ペア$(\rho_2,\sigma_2) 最終状態の$に対して、小、中、大の偏差誤差レジームおよびゼロエラーレジームにおいて、最適変換率$R_n$の2階漸近式を導出する。 また、熱ギブス状態によって与えられる$\sigma_1$および$\sigma_2$の場合、第1の3つの状態における最適変換速度は熱演算によって達成できることを示す。 これにより、エネルギー固有空間間のコヒーレンスを持つような完全一般の初期状態と熱力学的状態の相互変換の2次漸近性を研究することができる。 そこで本研究では,コヒーレント入力を用いた熱力学プロトコルの最適性能について論じ,有限サイズ効果による変換誤差を著しく低減できる3つの新しい共振現象について述べる。 さらに,量子ディコトミーに関する結果は,二階漸近項まで,局所演算と古典的通信の下での純粋二部絡み状態間の最適変換率を求めるためにも利用できる。

We address the problem of exact and approximate transformation of quantum dichotomies in the asymptotic regime, i.e., the existence of a quantum channel $\mathcal E$ mapping $\rho_1^{\otimes n}$ into $\rho_2^{\otimes R_nn}$ with an error $\epsilon_n$ (measured by trace distance) and $\sigma_1^{\otimes n}$ into $\sigma_2^{\otimes R_n n}$ exactly, for a large number $n$. We derive second-order asymptotic expressions for the optimal transformation rate $R_n$ in the small, moderate, and large deviation error regimes, as well as the zero-error regime, for an arbitrary pair $(\rho_1,\sigma_1)$ of initial states and a commuting pair $(\rho_2,\sigma_2)$ of final states. We also prove that for $\sigma_1$ and $\sigma_2$ given by thermal Gibbs states, the derived optimal transformation rates in the first three regimes can be attained by thermal operations. This allows us, for the first time, to study the second-order asymptotics of thermodynamic state interconversion with fully general initial states that may have coherence between different energy eigenspaces. Thus, we discuss the optimal performance of thermodynamic protocols with coherent inputs and describe three novel resonance phenomena allowing one to significantly reduce transformation errors induced by finite-size effects. What is more, our result on quantum dichotomies can also be used to obtain, up to second-order asymptotic terms, optimal conversion rates between pure bipartite entangled states under local operations and classical communication.
翻訳日:2023-06-22 03:21:14 公開日:2023-06-17
# 知識グラフエンティティとスキーマの深いアクティブアライメント

Deep Active Alignment of Knowledge Graph Entities and Schemata ( http://arxiv.org/abs/2304.04389v3 )

ライセンス: Link先を確認
Jiacheng Huang and Zequn Sun and Qijin Chen and Xiaozhou Xu and Weijun Ren and Wei Hu(参考訳) 知識グラフ(KG)は現実世界に関する豊富な事実を格納する。 本稿では, 実体だけでなく, 異なるkgにおける関係とクラス間のアライメントを見出すことを目的としたkgアライメントについて検討する。 エンティティレベルでのアライメントは、スキーマレベルでアライメントをクロスコンパイルする。 我々は,深層学習と能動学習に基づく新しいKGアライメント手法であるDAAKGを提案する。 ディープラーニングでは、エンティティ、関係、クラスの埋め込みを学び、それらを半教師付きで協調的に調整する。 アクティブな学習では、エンティティ、リレーション、クラスペアが推測できる確率を推定し、人間のラベル付けに最適なバッチを選択する。 バッチ選択の効率的な解法として2つの近似アルゴリズムを設計する。 ベンチマークデータセットを用いた実験により,DAAKGの精度と一般化が向上し,全モジュールの有効性が検証された。

Knowledge graphs (KGs) store rich facts about the real world. In this paper, we study KG alignment, which aims to find alignment between not only entities but also relations and classes in different KGs. Alignment at the entity level can cross-fertilize alignment at the schema level. We propose a new KG alignment approach, called DAAKG, based on deep learning and active learning. With deep learning, it learns the embeddings of entities, relations and classes, and jointly aligns them in a semi-supervised manner. With active learning, it estimates how likely an entity, relation or class pair can be inferred, and selects the best batch for human labeling. We design two approximation algorithms for efficient solution to batch selection. Our experiments on benchmark datasets show the superior accuracy and generalization of DAAKG and validate the effectiveness of all its modules.
翻訳日:2023-06-22 03:03:41 公開日:2023-06-17
# DCANet:イメージブラインドに注意を向けたデュアル畳み込みニューラルネットワーク

DCANet: Dual Convolutional Neural Network with Attention for Image Blind Denoising ( http://arxiv.org/abs/2304.01498v2 )

ライセンス: Link先を確認
Wencong Wu, Guannan Lv, Yingying Duan, Peng Liang, Yungang Zhang, Yuelong Xia(参考訳) 画像のノイズ除去は多くのコンピュータビジョンタスクにおいて重要な前処理手順である。 現在、ディープニューラルネットワークに基づく多くの認知モデルは、既知の分布(すなわち加法的なガウスホワイトノイズ)でノイズを取り除くのによく機能する。 しかし、実際のノイズを除去することは依然として非常に難しい課題であり、現実のノイズは単に一つの種類の分布に従わず、空間的に異なる可能性がある。 本稿では,dcanet(dcanet)と呼ばれる画像ブラインドデノージングに注意を向けた,新しい二重畳み込みニューラルネットワーク(cnn)を提案する。 我々の知る限り、提案したDCANetは、デュアルCNNとアテンション機構を統合した最初の作品である。 dcanetは、ノイズ推定ネットワークと、空間的およびチャネル的注意モジュール(scam)と、二重構造を有するcnnとからなる。 ノイズ推定ネットワークを用いて画像内の空間分布と雑音レベルを推定する。 SCAMの入力として雑音画像とその推定ノイズを合成し、2つの異なる分岐を含む2つのCNNを相補的特徴を学習して復号化画像を得るように設計されている。 実験により,提案したDCANetは,合成ノイズと実雑音の両方を効果的に抑制できることを確認した。 DCANetのコードはhttps://github.com/WenCongWu/DCANetで公開されている。

Noise removal of images is an essential preprocessing procedure for many computer vision tasks. Currently, many denoising models based on deep neural networks can perform well in removing the noise with known distributions (i.e. the additive Gaussian white noise). However eliminating real noise is still a very challenging task, since real-world noise often does not simply follow one single type of distribution, and the noise may spatially vary. In this paper, we present a new dual convolutional neural network (CNN) with attention for image blind denoising, named as the DCANet. To the best of our knowledge, the proposed DCANet is the first work that integrates both the dual CNN and attention mechanism for image denoising. The DCANet is composed of a noise estimation network, a spatial and channel attention module (SCAM), and a CNN with a dual structure. The noise estimation network is utilized to estimate the spatial distribution and the noise level in an image. The noisy image and its estimated noise are combined as the input of the SCAM, and a dual CNN contains two different branches is designed to learn the complementary features to obtain the denoised image. The experimental results have verified that the proposed DCANet can suppress both synthetic and real noise effectively. The code of DCANet is available at https://github.com/WenCongWu/DCANet.
翻訳日:2023-06-22 03:00:54 公開日:2023-06-17
# DeePLT:スマートホームにおける認知者の軌道予測による個人化照明支援

DeePLT: Personalized Lighting Facilitates by Trajectory Prediction of Recognized Residents in the Smart Home ( http://arxiv.org/abs/2304.08027v2 )

ライセンス: Link先を確認
Danial Safaei, Ali Sobhani, Ali Akbar Kiaei, Fatemeh Khorshidi, Mohammad Fakhredanesh, Cyrus Ahmady(参考訳) 近年、住宅の様々な部分の知性は、現代の住宅において不可欠な特徴の1つとなっている。 これらの部品の1つは、各人の光をパーソナライズする知性照明システムである。 本稿では、軌道予測によって推定される、認識されたユーザの即時未来位置における照明をパーソナライズする機械学習に基づくインテリジェントシステムを提案する。 提案するシステムは, (i) 与えられた映像フレームの人物を検出・局所化するための人間検出, (ii) 検出された人物を識別するための顔認識, (iii) 映像フレームのシーケンス内の人物を追跡するための人間追跡, (iv) 逆強化学習を用いた環境におけるユーザの将来の位置を予測するための軌道予測,からなる。 提案手法は、仕様、顔画像、カスタム照明設定など、各人物にユニークなプロファイルを提供する。 このプロファイルは照明調整プロセスで使用される。 一定の照明を考慮した他の方法とは異なり,本システムは,ユーザの直接的介入なしに,色や光強度の観点でそれぞれの「好みの照明」を適用できる。 これにより、より高速で効率良く照明を調整できる。 また, 予測された軌道経路により, 所望の照明を適用でき, 家庭住民の快適で快適な環境が得られる。 実験結果では、入力時点から平均1.4秒で所望の光を照射し、人間の検出では22.1mAp、顔認識では95.12%、人間の追跡では93.3%、軌道予測では10.80 MinADE20, 18.55 MinFDE20, 15.8 MinADE5, 30.50 MinFDE5を照射した。

In recent years, the intelligence of various parts of the home has become one of the essential features of any modern home. One of these parts is the intelligence lighting system that personalizes the light for each person. This paper proposes an intelligent system based on machine learning that personalizes lighting in the instant future location of a recognized user, inferred by trajectory prediction. Our proposed system consists of the following modules: (I) human detection to detect and localize the person in each given video frame, (II) face recognition to identify the detected person, (III) human tracking to track the person in the sequence of video frames and (IV) trajectory prediction to forecast the future location of the user in the environment using Inverse Reinforcement Learning. The proposed method provides a unique profile for each person, including specifications, face images, and custom lighting settings. This profile is used in the lighting adjustment process. Unlike other methods that consider constant lighting for every person, our system can apply each 'person's desired lighting in terms of color and light intensity without direct user intervention. Therefore, the lighting is adjusted with higher speed and better efficiency. In addition, the predicted trajectory path makes the proposed system apply the desired lighting, creating more pleasant and comfortable conditions for the home residents. In the experimental results, the system applied the desired lighting in an average time of 1.4 seconds from the moment of entry, as well as a performance of 22.1mAp in human detection, 95.12% accuracy in face recognition, 93.3% MDP in human tracking, and 10.80 MinADE20, 18.55 MinFDE20, 15.8 MinADE5 and 30.50 MinFDE5 in trajectory prediction.
翻訳日:2023-06-22 02:52:59 公開日:2023-06-17
# 視覚言語モデルにおける思考プロンプトチューニングの連鎖

Chain of Thought Prompt Tuning in Vision Language Models ( http://arxiv.org/abs/2304.07919v2 )

ライセンス: Link先を確認
Jiaxin Ge, Hongyin Luo, Siyuan Qian, Yulu Gan, Jie Fu, Shanghang Zhang(参考訳) 言語-画像事前学習は、自然言語のプロンプトを視覚モデルに促すことで、ゼロショットおよび数ショットダウンストリームタスクに対して有望な結果を示した。 しかし、最近の研究では、例えば不慣れな領域からの画像を処理する際に、人間が複雑なタスク設定で行う固有の段階から段階までの認知的推論プロセスを無視し、チューニングに1つのプロンプトしか使用していない。 Chain of Thoughtは人間の推論プロセスに対するシンプルで効果的な近似であり、自然言語処理(NLP)タスクに有用であることが証明されている。 この認知的直観に基づいて、効果的な推論を行うことは視覚的タスクにおいて重要な問題であり、思考の連鎖がこの問題の解決策になり得ると考えている。 本稿では,視覚言語モデリングのための思考プロンプトチューニングの新たな連鎖を提案する。 大規模な実験により,画像分類タスクの一般化,単一データセット以上の転送性の向上,ドメイン一般化性能の向上,画像テキスト検索や視覚的質問応答の高速化など,推論能力の向上が期待できる。 私たちは視覚とテキストの埋め込みを組み合わせたチェーン・オブ・シークレットのプロンプトを成功させた最初の人物です。 私たちはコードを公開します

Language-Image Pre-training has demonstrated promising results on zero-shot and few-shot downstream tasks by prompting visual models with natural language prompts. However, most recent studies only use a single prompt for tuning, neglecting the inherent step-to-step cognitive reasoning process that humans conduct in complex task settings, for example, when processing images from unfamiliar domains. Chain of Thought is a simple and effective approximation to human reasoning process and has been proven useful for natural language processing (NLP) tasks. Based on this cognitive intuition, we believe that conducting effective reasoning is also an important problem in visual tasks, and a chain of thought could be a solution to this problem. In this work, we propose a novel chain of thought prompt tuning for vision-language modeling. Extensive experiments show that our method not only generalizes better in image classification tasks, has greater transferability beyond a single dataset, and has stronger domain generalization performance, but also performs much better in imagetext retrieval and visual question answering, which require more reasoning capabilities. We are the first to successfully adapt chain-of-thought prompting that combines visual and textual embeddings. We will release our codes
翻訳日:2023-06-22 02:52:27 公開日:2023-06-17
# RadAdapt: 大規模言語モデルの軽量ドメイン適応による要約

RadAdapt: Radiology Report Summarization via Lightweight Domain Adaptation of Large Language Models ( http://arxiv.org/abs/2305.01146v2 )

ライセンス: Link先を確認
Dave Van Veen, Cara Van Uden, Maayane Attias, Anuj Pareek, Christian Bluethgen, Malgorzata Polacin, Wah Chiu, Jean-Benoit Delbrouck, Juan Manuel Zambrano Chaves, Curtis P. Langlotz, Akshay S. Chaudhari, John Pauly(参考訳) 本研究は,Radiology Report summarization (RRS) の課題に対して,大規模言語モデル(LLM)を適応するための軽量戦略を体系的に検討する。 具体的には、プレトレーニング(自然言語、バイオメディカルテキスト、臨床テキスト)と離散的なプロンプトやパラメータ効率の微調整によるドメイン適応に焦点を当てる。 臨床テキストの事前学習とrrsサンプルの微調整によって,タスクに最大限に適応することで,一貫して最高のパフォーマンスを達成できた。 重要なことに、この方法は、エンドツーエンドの微調整(パラメータの100%)とは対照的に、モデル全体のパラメータの0.32%しか微調整しない。 さらに, 放射線学読者による研究と定性分析を結論付ける前に, 文脈内実例とアウト・オブ・ディストリビューション(OOD)訓練の効果について検討した。 本研究は、RSにおけるドメイン適応の重要性を強調し、臨床業務に有効な自然言語処理ソリューションを開発するための貴重な洞察を提供する。

We systematically investigate lightweight strategies to adapt large language models (LLMs) for the task of radiology report summarization (RRS). Specifically, we focus on domain adaptation via pretraining (on natural language, biomedical text, or clinical text) and via discrete prompting or parameter-efficient fine-tuning. Our results consistently achieve best performance by maximally adapting to the task via pretraining on clinical text and fine-tuning on RRS examples. Importantly, this method fine-tunes a mere 0.32% of parameters throughout the model, in contrast to end-to-end fine-tuning (100% of parameters). Additionally, we study the effect of in-context examples and out-of-distribution (OOD) training before concluding with a radiologist reader study and qualitative analysis. Our findings highlight the importance of domain adaptation in RRS and provide valuable insights toward developing effective natural language processing solutions for clinical tasks.
翻訳日:2023-06-22 02:44:11 公開日:2023-06-17
# 知的財産権保護の深化に関する調査

Deep Intellectual Property Protection: A Survey ( http://arxiv.org/abs/2304.14613v2 )

ライセンス: Link先を確認
Yuchen Sun, Tianpeng Liu, Panhe Hu, Qing Liao, Shaojing Fu, Nenghai Yu, Deke Guo, Yongxiang Liu, Li Liu(参考訳) AlexNetからResNet、ChatGPTまで、Deep Neural Networks (DNN)は近年革命的な進歩を遂げており、様々な分野で広く利用されている。 DNNの高性能化には、大量の高品質なデータ、高価なコンピューティングハードウェア、そして高コストで入手できる優れたDNNアーキテクチャが必要である。 そのため、トレーニングされたDNNは価値ある資産となり、トレーニングされたDNNモデルを違法な複製、盗み、再配布、虐待から保護するために、それらを作成した正当な所有者の知的財産(IP)と見なさなければならない。 新たな分野であると同時に学際的な分野でもあるが,多数のDNNモデルIP保護手法が提案されている。 この急速な進化の時期を考えると、本論文の目的はdnnのip保護手法である深層透かしと深部指紋検査の2つを包括的に調査することである。 この調査には190以上の研究成果が含まれており、問題定義、主な脅威と課題、ディープウォーターマーキングとディープフィンガープリンティングのメリットとデメリット、評価指標、パフォーマンス議論など、深いip保護の多くの側面をカバーしている。 今後の研究に期待できる方向を特定することで調査を終了する。

Deep Neural Networks (DNNs), from AlexNet to ResNet to ChatGPT, have made revolutionary progress in recent years, and are widely used in various fields. The high performance of DNNs requires a huge amount of high-quality data, expensive computing hardware, and excellent DNN architectures that are costly to obtain. Therefore, trained DNNs are becoming valuable assets and must be considered the Intellectual Property (IP) of the legitimate owner who created them, in order to protect trained DNN models from illegal reproduction, stealing, redistribution, or abuse. Although being a new emerging and interdisciplinary field, numerous DNN model IP protection methods have been proposed. Given this period of rapid evolution, the goal of this paper is to provide a comprehensive survey of two mainstream DNN IP protection methods: deep watermarking and deep fingerprinting, with a proposed taxonomy. More than 190 research contributions are included in this survey, covering many aspects of Deep IP Protection: problem definition, main threats and challenges, merits and demerits of deep watermarking and deep fingerprinting methods, evaluation metrics, and performance discussion. We finish the survey by identifying promising directions for future research.
翻訳日:2023-06-22 02:43:25 公開日:2023-06-17
# ハミルトンサイクル上の高次元クラスタリング

High-dimensional Clustering onto Hamiltonian Cycle ( http://arxiv.org/abs/2304.14531v2 )

ライセンス: Link先を確認
Tianyi Huang, Shenghui Cheng, Stan Z. Li, Zhengjun Zhang(参考訳) クラスタリングは、類似性に基づいてアンラベリングされたサンプルをグループ化する。 高次元データ解析のための重要なツールとなっている。 しかしながら、ほとんどのクラスタリング手法は、単に擬似ラベルを生成するだけで、異なるクラスタと外れ値の類似性を同時に提示することができない。 本稿では,ハミルトンサイクル上での高次元クラスタリング(HCHC)と呼ばれる新しいフレームワークを提案する。 まず、HCHCは、深層クラスタリングのための1つの目的関数における局所構造とグローバル構造を結合し、ラベルを相対確率として改善し、各クラスタに局所構造を保持しながら異なるクラスタ間の類似性をマイニングする。 そして、クラスタの類似性によって生成される最適なハミルトニアンサイクル上に、異なるクラスタのアンカーを並べ替え、円周上にマッピングする。 最後に、クラスタの確率が高いサンプルは、対応するアンカーの近くにマッピングされる。 このようにして、我々のフレームワークは、クラスタ(高い確率を持つサンプルによって形成される)、クラスタ類似性(円周距離として表現される)、およびアウトリー(全てのクラスタから遠く離れた点として認識される)の3つの側面を視覚的に同時に評価することができる。 この実験はHCHCの優位性を示している。

Clustering aims to group unlabelled samples based on their similarities. It has become a significant tool for the analysis of high-dimensional data. However, most of the clustering methods merely generate pseudo labels and thus are unable to simultaneously present the similarities between different clusters and outliers. This paper proposes a new framework called High-dimensional Clustering onto Hamiltonian Cycle (HCHC) to solve the above problems. First, HCHC combines global structure with local structure in one objective function for deep clustering, improving the labels as relative probabilities, to mine the similarities between different clusters while keeping the local structure in each cluster. Then, the anchors of different clusters are sorted on the optimal Hamiltonian cycle generated by the cluster similarities and mapped on the circumference of a circle. Finally, a sample with a higher probability of a cluster will be mapped closer to the corresponding anchor. In this way, our framework allows us to appreciate three aspects visually and simultaneously - clusters (formed by samples with high probabilities), cluster similarities (represented as circular distances), and outliers (recognized as dots far away from all clusters). The experiments illustrate the superiority of HCHC.
翻訳日:2023-06-22 02:43:02 公開日:2023-06-17
# デュアルアテンションネットワークを用いた強化学習によるフレキシブルジョブショップスケジューリング

Flexible Job Shop Scheduling via Dual Attention Network Based Reinforcement Learning ( http://arxiv.org/abs/2305.05119v2 )

ライセンス: Link先を確認
Runqing Wang, Gang Wang, Jian Sun, Fang Deng and Jie Chen(参考訳) フレキシブル製造は、フレキシブルなジョブショップスケジューリング問題(FJSP)のような複雑なスケジューリング問題を引き起こしている。 FJSPでは、複数のマシンで操作を処理できるため、操作とマシンの間の複雑な関係が生じる。 近年, 深層強化学習(DRL)を用いて, FJSP解決のための優先派遣規則(PDR)を学習している。 しかし、orツールのような厳密な方法によって、ソリューションの品質は改善の余地がある。 この問題に対処するため,本稿では,深層特徴抽出のための自己注意モデルとスケーラブルな意思決定のためのDRLの利点を生かした,エンドツーエンド学習フレームワークを提案する。 操作と機械間の複雑な関係を正確に簡潔に表現し、複数の相互接続された操作メッセージアテンションブロックと機械メッセージアテンションブロックからなる二重アテンションネットワーク(DAN)を提案する。 DANは複雑な関係を利用して、高品質な意思決定を支援するために生産適応型操作と機械機能を構築する。 合成データと公開ベンチマークを用いた実験結果から,提案手法は従来のPDRと最先端のDRL法の両方に優れることがわかった。 さらに、特定のケースにおける正確な手法に匹敵する結果を達成し、大規模かつ実世界のFJSPタスクに好適な一般化能力を示す。

Flexible manufacturing has given rise to complex scheduling problems such as the flexible job shop scheduling problem (FJSP). In FJSP, operations can be processed on multiple machines, leading to intricate relationships between operations and machines. Recent works have employed deep reinforcement learning (DRL) to learn priority dispatching rules (PDRs) for solving FJSP. However, the quality of solutions still has room for improvement relative to that by the exact methods such as OR-Tools. To address this issue, this paper presents a novel end-to-end learning framework that weds the merits of self-attention models for deep feature extraction and DRL for scalable decision-making. The complex relationships between operations and machines are represented precisely and concisely, for which a dual-attention network (DAN) comprising several interconnected operation message attention blocks and machine message attention blocks is proposed. The DAN exploits the complicated relationships to construct production-adaptive operation and machine features to support high-quality decisionmaking. Experimental results using synthetic data as well as public benchmarks corroborate that the proposed approach outperforms both traditional PDRs and the state-of-the-art DRL method. Moreover, it achieves results comparable to exact methods in certain cases and demonstrates favorable generalization ability to large-scale and real-world unseen FJSP tasks.
翻訳日:2023-06-22 02:21:00 公開日:2023-06-17
# 大規模言語モデルによるAI生成テキスト検出の回避

Large Language Models can be Guided to Evade AI-Generated Text Detection ( http://arxiv.org/abs/2305.10847v4 )

ライセンス: Link先を確認
Ning Lu, Shengcai Liu, Rui He, Qi Wang, Ke Tang(参考訳) 大規模言語モデル(llm)は,エッセイ執筆や質問応答など,さまざまなタスクにおいて例外的なパフォーマンスを示している。 しかし、これらのモデルの潜在的な誤用に対処することが重要であるため、盗作やスパムなどの有害な結果につながる可能性がある。 近年、微調整分類器や様々な統計手法を含むいくつかの検出器が提案されている。 本研究では,注意深いプロンプトの支援により,これらの検出システムを効果的に回避できることを示す。 このようなプロンプトを自動的に生成する新しい置換型in-context example optimization method(sico)を提案する。 LLMを誤用できる3つの現実世界のタスクにおいて、SICOはChatGPTを6つの既存の検出器から回避することができ、平均して0.54AUCの低下を引き起こした。 驚くべきことに、ほとんどの場合、これらの検出器はランダムな分類器よりもさらに悪い性能を発揮する。 これらの結果は、既存の検出器の脆弱性を明確に示している。 最後に、SICOの強い性能は、この分野の新しい検出器に対する信頼性の高い評価プロトコルであることを示唆している。

Large Language Models (LLMs) have demonstrated exceptional performance in a variety of tasks, including essay writing and question answering. However, it is crucial to address the potential misuse of these models, which can lead to detrimental outcomes such as plagiarism and spamming. Recently, several detectors have been proposed, including fine-tuned classifiers and various statistical methods. In this study, we reveal that with the aid of carefully crafted prompts, LLMs can effectively evade these detection systems. We propose a novel Substitution-based In-Context example Optimization method (SICO) to automatically generate such prompts. On three real-world tasks where LLMs can be misused, SICO successfully enables ChatGPT to evade six existing detectors, causing a significant 0.54 AUC drop on average. Surprisingly, in most cases these detectors perform even worse than random classifiers. These results firmly reveal the vulnerability of existing detectors. Finally, the strong performance of SICO suggests itself as a reliable evaluation protocol for any new detector in this field.
翻訳日:2023-06-22 02:12:36 公開日:2023-06-17
# 高品質機械翻訳の自動投稿のための構文対称性に注意を向ける

Bring More Attention to Syntactic Symmetry for Automatic Postediting of High-Quality Machine Translations ( http://arxiv.org/abs/2305.10557v2 )

ライセンス: Link先を確認
Baikjin Jung, Myungji Lee, Jong-Hyeok Lee, Yunsu Kim(参考訳) 自動ポストティング(英: Automatic Postiting、APE)は、機械翻訳(MT)を改良する自動化プロセスである。 近年,既存の APE システムは,豊富なデータ資源を持つ言語ペアに対してさえ,高品質な MT を扱うのが得意でないことが示唆されている。 この問題の解決策の1つは、対象言語に関する深い知識をモデルに浸透させることである。 そこで本研究では,目的言語に対するapモデルの理解を深める言語的動機付けによる正規化手法を提案する。本手法はmt上で対称な自己着脱を促す損失関数であり,本手法がmtsにおけるap品質の向上に寄与することを示す。

Automatic postediting (APE) is an automated process to refine a given machine translation (MT). Recent findings present that existing APE systems are not good at handling high-quality MTs even for a language pair with abundant data resources, English-to-German: the better the given MT is, the harder it is to decide what parts to edit and how to fix these errors. One possible solution to this problem is to instill deeper knowledge about the target language into the model. Thus, we propose a linguistically motivated method of regularization that is expected to enhance APE models' understanding of the target language: a loss function that encourages symmetric self-attention on the given MT. Our analysis of experimental results demonstrates that the proposed method helps improving the state-of-the-art architecture's APE quality for high-quality MTs.
翻訳日:2023-06-22 02:11:50 公開日:2023-06-17
# DUBLIN -- 言語画像ネットワークによる文書理解

DUBLIN -- Document Understanding By Language-Image Network ( http://arxiv.org/abs/2305.14218v3 )

ライセンス: Link先を確認
Kriti Aggarwal, Aditi Khandelwal, Kumar Tanmay, Owais Mohammed Khan, Qiang Liu, Monojit Choudhury, Hardik Hansrajbhai Chauhan, Subhojit Som, Vishrav Chaudhary, Saurabh Tiwary(参考訳) 視覚的文書理解は、文書画像中のテキストとビジュアル要素の両方を分析する複雑なタスクである。 既存のモデルは、しばしば手動の機能エンジニアリングやドメイン固有のパイプラインに依存しており、異なるドキュメントタイプや言語での一般化能力を制限する。 本稿では,文書画像の空間的情報と意味的情報の両方を活用する,masked Document Text Generation Task,Bunding Box Task,Rendered Question Answering Taskの3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。 本モデルは,webベースの構造的読解,文書の視覚的質問応答,キー情報抽出,ダイアグラム理解,テーブル質問応答など,いくつかのベンチマークにおいて,競争的あるいは最先端的な結果を達成する。 特に, DUBLIN は WebSRC データセット上で 77.75 と 84.25 の EM を達成する最初のピクセルベースモデルであることを示す。 また,我々のモデルでは,docvqa,infographicsvqa,ocr-vqa,ai2dデータセットの画素ベースのsataモデルが4.6%,6.5%,2.6%,21%であった。 また、RVL-CDIP文書分類における競合性能も達成する。 さらに、文書画像としてレンダリングすることでテキストベースのデータセットの新しいベースラインを作成し、この方向の研究を促進する。

Visual document understanding is a complex task that involves analyzing both the text and the visual elements in document images. Existing models often rely on manual feature engineering or domain-specific pipelines, which limit their generalization ability across different document types and languages. In this paper, we propose DUBLIN, which is pretrained on web pages using three novel objectives: Masked Document Text Generation Task, Bounding Box Task, and Rendered Question Answering Task, that leverage both the spatial and semantic information in the document images. Our model achieves competitive or state-of-the-art results on several benchmarks, such as Web-Based Structural Reading Comprehension, Document Visual Question Answering, Key Information Extraction, Diagram Understanding, and Table Question Answering. In particular, we show that DUBLIN is the first pixel-based model to achieve an EM of 77.75 and F1 of 84.25 on the WebSRC dataset. We also show that our model outperforms the current pixel-based SOTA models on DocVQA, InfographicsVQA, OCR-VQA and AI2D datasets by 4.6%, 6.5%, 2.6% and 21%, respectively. We also achieve competitive performance on RVL-CDIP document classification. Moreover, we create new baselines for text-based datasets by rendering them as document images to promote research in this direction.
翻訳日:2023-06-22 02:04:09 公開日:2023-06-17
# su(2)対称監視量子回路における臨界位相とスピンシャープニング

Critical phase and spin sharpening in SU(2)-symmetric monitored quantum circuits ( http://arxiv.org/abs/2305.13356v2 )

ライセンス: Link先を確認
Shayan Majidy, Utkarsh Agrawal, Sarang Gopalakrishnan, Andrew C. Potter, Romain Vasseur, Nicole Yunger Halpern(参考訳) 監視された量子回路は、一定の測定速度で絡み合い遷移を示す。 このような遷移は、観測者が測定結果からどれだけの情報を学べるかによって特徴づけられる位相を分離する。 正確な数値と有効統計力学モデルへの写像を用いて, SU(2)-symmetric monitored quantum circuits について検討した。 対称性の非アベリア性のため、測度 qubit 対は測度のみの極限においても非自明な絡み合いのスケーリングを可能にする。 体積則の絡み合った相と非可換対称性から拡散的精製ダイナミクスが現れる臨界相の間の遷移を見いだす。 さらに,「スピン強調遷移」を数値的に同定した。 一方の位相は、測定がシステムの全スピン量子数を効率的に識別できる位相であり、もう一方の位相は測定ができない位相である。

Monitored quantum circuits exhibit entanglement transitions at certain measurement rates. Such a transition separates phases characterized by how much information an observer can learn from the measurement outcomes. We study SU(2)-symmetric monitored quantum circuits, using exact numerics and a mapping onto an effective statistical-mechanics model. Due to the symmetry's non-Abelian nature, measuring qubit pairs allows for nontrivial entanglement scaling even in the measurement-only limit. We find a transition between a volume-law entangled phase and a critical phase whose diffusive purification dynamics emerge from the non-Abelian symmetry. Additionally, we numerically identify a "spin-sharpening transition." On one side is a phase in which the measurements can efficiently identify the system's total spin quantum number; on the other side is a phase in which measurements cannot.
翻訳日:2023-06-22 02:02:29 公開日:2023-06-17
# IndicTrans2:22言語すべてを対象とした高品質・アクセシブル機械翻訳モデル

IndicTrans2: Towards High-Quality and Accessible Machine Translation Models for all 22 Scheduled Indian Languages ( http://arxiv.org/abs/2305.16307v2 )

ライセンス: Link先を確認
AI4Bharat and Jay Gala and Pranjal A. Chitale and Raghavan AK and Sumanth Doddapaneni and Varun Gumma and Aswanth Kumar and Janki Nawale and Anupama Sujatha and Ratish Puduppully and Vivek Raghavan and Pratyush Kumar and Mitesh M. Khapra and Raj Dabre and Anoop Kunchukuttan(参考訳) インドは10億人を超える人々が話す4つの主要な言語ファミリーの言語を持つ豊かな言語環境を持っている。 これらの言語のうち22言語はインド憲法(予定言語)に記載されており、この研究の焦点となっている。 言語の多様性を考えると、インドのような国では高品質でアクセスしやすい機械翻訳(mt)システムが不可欠である。 この作業の前には、 (i)22言語にまたがる並列トレーニングデータはない。 (ii)これらの言語をすべてカバーし、インドに関連する内容を含む堅牢なベンチマークは存在せず、 (3)インドの22の予定言語すべてをサポートする既存の翻訳モデルはない。 本研究は,22言語すべてを対象とした機械翻訳システムへの,広範かつ容易かつオープンなアクセスを可能にするために必要な欠片に着目して,このギャップに対処することを目的とする。 より大きなトレーニングデータセットのキュレーションと作成、多様で高品質なベンチマークの作成、多言語モデルのトレーニング、オープンアクセスモデルのリリースの4つです。 bharat parallel corpus collection (bpcc) は、indic 言語で利用可能な最大のパラレルコーパスである。 bpccには合計230mのバイテキストペアが含まれており、そのうち644kの手動翻訳文ペアを含む合計116mが新たに追加された。 第2のコントリビューションは、さまざまなドメイン、インドオリジンコンテンツ、ソース元のテストセットを特徴とする、22言語すべてをカバーする最初のn-way並列ベンチマークのリリースです。 次に、22言語すべてをサポートする最初のモデルであるIndicTrans2を紹介します。 最後に、アクセシビリティとコラボレーションを促進するために、我々のモデルと関連するデータをhttps://github.com/ai4bharat/IndicTrans2でパーミッシブライセンスでリリースします。

India has a rich linguistic landscape with languages from 4 major language families spoken by over a billion people. 22 of these languages are listed in the Constitution of India (referred to as scheduled languages) are the focus of this work. Given the linguistic diversity, high-quality and accessible Machine Translation (MT) systems are essential in a country like India. Prior to this work, there was (i) no parallel training data spanning all the 22 languages, (ii) no robust benchmarks covering all these languages and containing content relevant to India, and (iii) no existing translation models which support all the 22 scheduled languages of India. In this work, we aim to address this gap by focusing on the missing pieces required for enabling wide, easy, and open access to good machine translation systems for all 22 scheduled Indian languages. We identify four key areas of improvement: curating and creating larger training datasets, creating diverse and high-quality benchmarks, training multilingual models, and releasing models with open access. Our first contribution is the release of the Bharat Parallel Corpus Collection (BPCC), the largest publicly available parallel corpora for Indic languages. BPCC contains a total of 230M bitext pairs, of which a total of 126M were newly added, including 644K manually translated sentence pairs created as part of this work. Our second contribution is the release of the first n-way parallel benchmark covering all 22 Indian languages, featuring diverse domains, Indian-origin content, and source-original test sets. Next, we present IndicTrans2, the first model to support all 22 languages, surpassing existing models on multiple existing and new benchmarks created as a part of this work. Lastly, to promote accessibility and collaboration, we release our models and associated data with permissive licenses at https://github.com/ai4bharat/IndicTrans2.
翻訳日:2023-06-22 01:53:13 公開日:2023-06-17
# im-promptu: イメージプロンプトからのコンテキスト内コンポジション

Im-Promptu: In-Context Composition from Image Prompts ( http://arxiv.org/abs/2305.17262v2 )

ライセンス: Link先を確認
Bhishma Dedhia, Michael Chang, Jake C. Snell, Thomas L. Griffiths, Niraj K. Jha(参考訳) 大規模な言語モデルは、少数のデモから様々なタスクを解決できる数少ない学習者です。 この暗黙のタスクの理解は、単語トークンに対する注意のメカニズムが類推的推論に重要な役割を果たしていることを示唆している。 本研究では,視覚刺激の構成可能な要素に対して,類似推論がコンテキスト内合成を可能にするかどうかを検討する。 まず,視覚インコンテキスト学習者の一般化特性をテストするための3つのベンチマークスイートを提案する。 アナロジーに基づくインコンテキスト学習の概念を定式化し,im-promptuと呼ばれるメタ学習フレームワークの設計に使用する。 言語に必要なトークンの粒度は十分に確立されているが、視覚刺激における文脈内一般化を可能にするための適切な構成の粒度は、通常不明である。 この目的のために、我々はim-promptuを使用して、ベクタ表現、パッチ表現、オブジェクトスロットなど、さまざまなレベルのコンポジション性を持つ複数のエージェントを訓練します。 本実験は,合成規則を未知の領域に拡張する非構成的表現を用いて,外挿能力と構成性の程度とのトレードオフを明らかにする。 パッチベースの表現は、堅牢な外挿のために全オブジェクトを含むパッチを必要とする。 同時に、クロスアテンションモジュールと結合したオブジェクト中心のトークン化器は一貫性のある高忠実な解を生成し、これらの帰納的バイアスは合成の一般化に特に重要である。 最後に,画像生成のための直感的なプログラミングインタフェースとしてim-promptuのユースケースを示す。

Large language models are few-shot learners that can solve diverse tasks from a handful of demonstrations. This implicit understanding of tasks suggests that the attention mechanisms over word tokens may play a role in analogical reasoning. In this work, we investigate whether analogical reasoning can enable in-context composition over composable elements of visual stimuli. First, we introduce a suite of three benchmarks to test the generalization properties of a visual in-context learner. We formalize the notion of an analogy-based in-context learner and use it to design a meta-learning framework called Im-Promptu. Whereas the requisite token granularity for language is well established, the appropriate compositional granularity for enabling in-context generalization in visual stimuli is usually unspecified. To this end, we use Im-Promptu to train multiple agents with different levels of compositionality, including vector representations, patch representations, and object slots. Our experiments reveal tradeoffs between extrapolation abilities and the degree of compositionality, with non-compositional representations extending learned composition rules to unseen domains but performing poorly on combinatorial tasks. Patch-based representations require patches to contain entire objects for robust extrapolation. At the same time, object-centric tokenizers coupled with a cross-attention module generate consistent and high-fidelity solutions, with these inductive biases being particularly crucial for compositional generalization. Lastly, we demonstrate a use case of Im-Promptu as an intuitive programming interface for image generation.
翻訳日:2023-06-22 01:41:14 公開日:2023-06-17
# 医用画像情報学入門

Introduction to Medical Imaging Informatics ( http://arxiv.org/abs/2306.00421v3 )

ライセンス: Link先を確認
Md. Zihad Bin Jahangir, Ruksat Hossain, Riadul Islam, MD Abdullah Al Nasim, Md. Mahim Anjum Haque, Md Jahangir Alam, Sajedul Talukder(参考訳) 医療画像情報学は、医療画像の取得、管理、解釈を改善するために、医療画像と情報学の原則を組み合わせた急速に成長する分野である。 本章では,画像処理,特徴工学,機械学習など,医用画像情報学の基本概念を紹介する。 また、コンピュータビジョンとディープラーニング技術の最近の進歩と、病気の検出、診断、予後予測のための新しい定量的イメージマーカーや予測モデルの開発にどのように利用されているかについても論じる。 本章は, 医用画像情報学の基礎知識を網羅することにより, 医療における情報学の役割とその患者医療への影響を理解する基盤を提供する。

Medical imaging informatics is a rapidly growing field that combines the principles of medical imaging and informatics to improve the acquisition, management, and interpretation of medical images. This chapter introduces the basic concepts of medical imaging informatics, including image processing, feature engineering, and machine learning. It also discusses the recent advancements in computer vision and deep learning technologies and how they are used to develop new quantitative image markers and prediction models for disease detection, diagnosis, and prognosis prediction. By covering the basic knowledge of medical imaging informatics, this chapter provides a foundation for understanding the role of informatics in medicine and its potential impact on patient care.
翻訳日:2023-06-22 01:33:39 公開日:2023-06-17
# 表現駆動強化学習

Representation-Driven Reinforcement Learning ( http://arxiv.org/abs/2305.19922v2 )

ライセンス: Link先を確認
Ofir Nabati, Guy Tennenholtz and Shie Mannor(参考訳) 強化学習のための表現駆動型フレームワークを提案する。 ポリシを期待値の推定値として表現することで、コンテキストバンディットのテクニックを活用して、探索と搾取をガイドします。 特に、ポリシーネットワークを線形な特徴空間に埋め込むことで、適切なポリシー表現が最適な探索を可能にする表現探索問題として探索探索問題を再構築することができる。 我々は,このフレームワークを進化的および政策的勾配に基づくアプローチに適用することにより,従来の手法に比べて大幅に性能が向上することを示す。 本フレームワークは, 最適探査・探索戦略決定における政策表現の重要性を強調し, 強化学習の新しい視点を提供する。

We present a representation-driven framework for reinforcement learning. By representing policies as estimates of their expected values, we leverage techniques from contextual bandits to guide exploration and exploitation. Particularly, embedding a policy network into a linear feature space allows us to reframe the exploration-exploitation problem as a representation-exploitation problem, where good policy representations enable optimal exploration. We demonstrate the effectiveness of this framework through its application to evolutionary and policy gradient-based approaches, leading to significantly improved performance compared to traditional methods. Our framework provides a new perspective on reinforcement learning, highlighting the importance of policy representation in determining optimal exploration-exploitation strategies.
翻訳日:2023-06-22 01:30:59 公開日:2023-06-17
# コンピュータビジョンに基づく中国語手話の双方向翻訳システム

A two-way translation system of Chinese sign language based on computer vision ( http://arxiv.org/abs/2306.02144v2 )

ライセンス: Link先を確認
Shengzhuo Wei and Yan Lan(参考訳) 聴覚障害者のコミュニケーションの主要な手段として、手話は特別な文法的順序を持ち、手話のリアルタイム翻訳システムの開発には意義と価値がある。 研究プロセスでは、中国の大規模連続手話データセットのための軽量ニューラルネットワークモデルにTSMモジュールを追加しました。 ネットワーク性能を高精度かつ高速な認識速度で効果的に向上させる。 同時に、漢文を単語に分割し、自然語順を法定手話順にマッピングするbert-base- chineseモデルを改善し、最後に対応する単語ビデオを分離手話データセットで使用して文ビデオを生成することにより、テキスト対手話翻訳の機能を実現する。 最後の研究では、手話認識と翻訳機能を備えたシステムを構築し、完全なデータセットのパフォーマンステストを実施しました。 手話ビデオ認識精度は約99.3%に達し、約0.05秒、手話生成ビデオ時間は約1.3秒であった。 手話システムの性能は良好であり、実現可能である。

As the main means of communication for deaf people, sign language has a special grammatical order, so it is meaningful and valuable to develop a real-time translation system for sign language. In the research process, we added a TSM module to the lightweight neural network model for the large Chinese continuous sign language dataset . It effectively improves the network performance with high accuracy and fast recognition speed. At the same time, we improve the Bert-Base-Chinese model to divide Chinese sentences into words and mapping the natural word order to the statute sign language order, and finally use the corresponding word videos in the isolated sign language dataset to generate the sentence video, so as to achieve the function of text-to-sign language translation. In the last of our research we built a system with sign language recognition and translation functions, and conducted performance tests on the complete dataset. The sign language video recognition accuracy reached about 99.3% with a time of about 0.05 seconds, and the sign language generation video time was about 1.3 seconds. The sign language system has good performance performance and is feasible.
翻訳日:2023-06-22 01:23:47 公開日:2023-06-17
# X線イメージング、MRI、核イメージングの事例研究

Case Studies on X-Ray Imaging, MRI and Nuclear Imaging ( http://arxiv.org/abs/2306.02055v3 )

ライセンス: Link先を確認
Shuvra Sarker, Angona Biswas, MD Abdullah Al Nasim, Md Shahin Ali, Sai Puppala, Sajedul Talukder(参考訳) 医療イメージングの分野は医学において必須の分野であり、体内組織や臓器の画像を撮影するために様々な形態の放射線が関与している。 これらの画像は臨床診断に不可欠であり,本章では重篤な疾患の診断におけるx線,mri,核画像の利用について検討する。 しかし、これらの画像の手動による評価と保存は困難で時間がかかる。 この問題に対処するために、人工知能(ai)ベースの技術、特にディープラーニング(dl)は、画像モダリティから体系的な特徴抽出と分類にますます普及し、医師の迅速かつ正確な診断を支援する。 本稿では,aiベースのアプローチ,特に畳み込みニューラルネットワーク(cnn)を用いて,医療画像技術による疾患検出を支援する方法について注目する。 CNNは生の入力画像から特徴を抽出する能力から画像解析において一般的に用いられる手法であり,本研究の主要な議論領域となる。 そこで本研究では,CNNを医療画像技術を用いた疾患診断分野として検討している。

The field of medical imaging is an essential aspect of the medical sciences, involving various forms of radiation to capture images of the internal tissues and organs of the body. These images provide vital information for clinical diagnosis, and in this chapter, we will explore the use of X-ray, MRI, and nuclear imaging in detecting severe illnesses. However, manual evaluation and storage of these images can be a challenging and time-consuming process. To address this issue, artificial intelligence (AI)-based techniques, particularly deep learning (DL), have become increasingly popular for systematic feature extraction and classification from imaging modalities, thereby aiding doctors in making rapid and accurate diagnoses. In this review study, we will focus on how AI-based approaches, particularly the use of Convolutional Neural Networks (CNN), can assist in disease detection through medical imaging technology. CNN is a commonly used approach for image analysis due to its ability to extract features from raw input images, and as such, will be the primary area of discussion in this study. Therefore, we have considered CNN as our discussion area in this study to diagnose ailments using medical imaging technology.
翻訳日:2023-06-22 01:23:07 公開日:2023-06-17
# 医用画像用オートmlシステム

AutoML Systems For Medical Imaging ( http://arxiv.org/abs/2306.04750v2 )

ライセンス: Link先を確認
Tasmia Tahmida Jidney, Angona Biswas, MD Abdullah Al Nasim, Ismail Hossain, Md Jahangir Alam, Sajedul Talukder, Mofazzal Hossain, Dr. Md Azim Ullah(参考訳) 医療画像解析における機械学習の統合は、医師が提供した医療の質を大幅に向上させる。 人間の専門知識とコンピュータシステムの組み合わせにより、診断精度が向上する。 自動機械学習アプローチは、ニューラルネットワーク検索と転送学習技術を利用して、カスタムイメージ認識モデルの作成を単純化する。 医療画像技術は、診断や手続きのために内部臓器や身体部位の画像を非侵襲的に作成するために用いられる。 本稿では, 医療画像におけるAutoMLの潜在的な応用, 戦略, 技術について, 理論的, 実証的証拠を通じて概説する。

The integration of machine learning in medical image analysis can greatly enhance the quality of healthcare provided by physicians. The combination of human expertise and computerized systems can result in improved diagnostic accuracy. An automated machine learning approach simplifies the creation of custom image recognition models by utilizing neural architecture search and transfer learning techniques. Medical imaging techniques are used to non-invasively create images of internal organs and body parts for diagnostic and procedural purposes. This article aims to highlight the potential applications, strategies, and techniques of AutoML in medical imaging through theoretical and empirical evidence.
翻訳日:2023-06-22 01:13:02 公開日:2023-06-17
# 時間外相関器による非KAM系の動的感度推定

Probing Dynamical Sensitivity of a Non-KAM System Through Out-of-Time-Order Correlators ( http://arxiv.org/abs/2306.04209v2 )

ライセンス: Link先を確認
Naga Dileep Varikuti, Abinash Sahu, Arul Lakshminarayan, Vaibhav Madhok(参考訳) 非KAM (Kolmogorov-Arnold-Moser) 系は、時間依存の弱い場によって摂動されるとき、不変位相空間トーラスの急激な破れによって古典的カオスへの高速な経路を提供する。 本研究では, 時間外相関器(OTOC)を用いて量子極限における摂動非KAM系の動的感度を, $\textit{resonance}$条件を特徴付けるパラメータとして徐々に変化させる。 この目的のために、アーノルドの拡散に類似した確率的ウェブを呈示し、位相空間における大規模拡散を促進する量子化蹴り高調波発振器(KHO)モデルを考える。 共鳴におけるKHOのリャプノフ指数は弱い摂動状態においてゼロに近づき、従来の意味では弱いカオスとなるが、古典的な位相空間は大きな構造変化を起こす。 そこで本研究では, 共振系におけるOTOCsの検討を行い, 非共振系との比較を行った。 共鳴では、OTOCの長時間のダイナミクスはこれらの構造変化に敏感であり、非共鳴における線形あるいは定常的な成長とは対照的に二次的に成長する。 一方,不安定不動点に関する文献では,短時間のダイナミクスが比較的安定であり,指数関数的な成長を示すことが示唆された。 解析結果はいくつかの特殊なケースで導出された解析式によって裏付けられる。 次に, 共振性のないケースに関する知見を, ほぼ可積分なKAMシステムに拡張する。

Non-KAM (Kolmogorov-Arnold-Moser) systems, when perturbed by weak time-dependent fields, offer a fast route to classical chaos through an abrupt breaking of invariant phase space tori. In this work, we employ out-of-time-order correlators (OTOCs) to study the dynamical sensitivity of a perturbed non-KAM system in the quantum limit as the parameter that characterizes the $\textit{resonance}$ condition is slowly varied. For this purpose, we consider a quantized kicked harmonic oscillator (KHO) model, which displays stochastic webs resembling Arnold's diffusion that facilitate large-scale diffusion in the phase space. Although the Lyapunov exponent of the KHO at resonances remains close to zero in the weak perturbative regime, making the system weakly chaotic in the conventional sense, the classical phase space undergoes significant structural changes. Motivated by this, we study the OTOCs when the system is in resonance and contrast the results with the non-resonant case. At resonances, we observe that the long-time dynamics of the OTOCs are sensitive to these structural changes, where they grow quadratically as opposed to linear or stagnant growth at non-resonances. On the other hand, our findings suggest that the short-time dynamics remain relatively more stable and show the exponential growth found in the literature for unstable fixed points. The numerical results are backed by analytical expressions derived for a few special cases. We will then extend our findings concerning the non-resonant cases to a broad class of near-integrable KAM systems.
翻訳日:2023-06-22 01:12:37 公開日:2023-06-17
# 差分特徴誘導ddpmに基づく生成的変化検出モデル

A Generative Change Detection Model Based on Difference-Feature Guided DDPM ( http://arxiv.org/abs/2306.03424v2 )

ライセンス: Link先を確認
Yihan Wen, Xiaokang Zhang, Xianping Ma, Wendi Liang, Man-On Pun(参考訳) cnnやtransformer networksのようなディープラーニング(dl)アプローチは、octmporal change detection(cd)において有望である。 しかし、これらの手法は長距離依存を捕捉し、2次元構造と空間的局所情報を取り入れることで、エッジを識別する不正確なCDマップが得られる。 これらの制約を克服するために,CADM (change-aware diffusion model) と呼ばれる新しいエンド・ツー・エンドDDPMモデルを提案する。 まず、CADMは生成モデルとしてCDマップを直接生成する。 複雑な確率モデルを学習する強力な手法である変分推論を利用して、モデルのデータ表現の段階的学習と洗練を容易にする。 これによりCADMは、微妙で不規則な建物や自然の風景を背景から効果的に区別することができる。 次にcadmは適応キャリブレーション条件付き差分符号化技術を導入する。 本手法は,CDマップの精度を高め,サンプリングプロセスの導出に多段階特徴の違いを利用する。 最後に、CADMはノイズ抑圧ベースセマンティックエンハンサー(NSSE)を導入し、CDマップの品質を向上させる。 NSSEは、現在のステップからの事前知識を利用して、高周波ノイズを抑制し、差分情報を高め、CDマップを精査する。 我々は,CDD,WHU,Levier,GVLMの4つのリモートセンシングCDタスクにおけるCADMの評価を行った。 実験の結果,CADMは最先端手法よりも優れており,提案モデルの一般化と有効性を示している。

Deep learning (DL) approaches, such as CNN and Transformer networks, have shown promise in bitemporal change detection (CD). However, these approaches have limitations in capturing long-range dependencies and incorporating 2D structure and spatial local information, resulting in inaccurate CD maps with discerning edges. To overcome these limitations, this paper presents a novel end-to-end DDPM-based model called change-aware diffusion model (CADM), which introduces three key innovations. Firstly, CADM directly generates CD maps as a generation model. It leverages variational inference, a powerful technique for learning complex probabilistic models, to facilitate the gradual learning and refinement of the model's data representation. This enables CADM to effectively distinguish subtle and irregular buildings or natural scenes from the background. Secondly, CADM introduces an adaptive calibration conditional difference encoding technique. This technique utilizes differences between multi-level features to guide the sampling process, enhancing the precision of the CD map. Lastly, CADM incorporates a noise suppression-based semantic enhancer (NSSE) to improve the quality of the CD map. The NSSE utilizes prior knowledge from the current step to suppress high-frequency noise, enhancing the differential information and refining the CD map. We evaluate CADM on four remote sensing CD tasks with different ground scenarios, including CDD, WHU, Levier, and GVLM. Experimental results demonstrate that CADM significantly outperforms state-of-the-art methods, indicating the generalization and effectiveness of the proposed model.
翻訳日:2023-06-22 01:11:55 公開日:2023-06-17
# 拡散の拡散:周期的一方向拡散によるテキストビジョン条件付き生成

Diffusion in Diffusion: Cyclic One-Way Diffusion for Text-Vision-Conditioned Generation ( http://arxiv.org/abs/2306.08247v2 )

ライセンス: Link先を確認
Yongqi Yang, Ruoyu Wang, Zhihao Qian, Ye Zhu, Yu Wu(参考訳) 拡散モデルを用いたテキスト・ツー・イメージ(T2I)生成により、ユーザはテキスト条件が与えられた合成画像のセマンティックコンテンツを制御することができる。 よりカスタマイズされた画像生成アプリケーションに向けたさらなるステップとして、セマンティックレベルのテキスト入力だけでなく、ピクセルレベルの視覚条件にもとづく画像の合成を行う、新しいマルチモダリティ生成設定を導入する。 既存の文献は、まず与えられた視覚情報を言語と接続して意味論的表現に変換し、それから元の分節化プロセスに組み込む。 一見直感的に見えるように、このような方法論設計は意味遷移中にピクセル値を失うため、低レベルのビジョン(例えば、顔画像のid)の保存が望まれるタスクシナリオを満たせない。 そこで本研究では,セマンティックテキストやピクセル・ビジュアル・コンディショニングに関して,カスタマイズされた画像を作成するためのトレーニングフリーフレームワークであるCyclic One-Way Diffusion (COW)を提案する。 特に,画像のサブ領域は,物理的拡散と同様に相互干渉を伴い,消音軌道に沿った究極の調和を達成する。 そこで本稿では,視覚条件を高濃度の「シード」としてデノベーションプロセスの初期化段階に植え込み,一方の情報フローを視覚条件から制御して調和画像に「拡散」することにより,所定の視覚条件を反復的に繰り返し利用することを提案する。 画像内における内部拡散過程を段階的に実施するために, 破壊・構築過程を何回も繰り返す。 難解なワンショット顔とテキストコンディショニング画像合成タスクの実験は,学習に基づくテキスト・ビジョン条件付き手法と比較して,速度,画質,条件付き忠実性において優れることを示した。 プロジェクトページはhttps://bigaandsmallq.github.io/cow/。

Text-to-Image (T2I) generation with diffusion models allows users to control the semantic content in the synthesized images given text conditions. As a further step toward a more customized image creation application, we introduce a new multi-modality generation setting that synthesizes images based on not only the semantic-level textual input but also on the pixel-level visual conditions. Existing literature first converts the given visual information to semantic-level representation by connecting it to languages, and then incorporates it into the original denoising process. Seemingly intuitive, such methodological design loses the pixel values during the semantic transition, thus failing to fulfill the task scenario where the preservation of low-level vision is desired (e.g., ID of a given face image). To this end, we propose Cyclic One-Way Diffusion (COW), a training-free framework for creating customized images with respect to semantic text and pixel-visual conditioning. Notably, we observe that sub-regions of an image impose mutual interference, just like physical diffusion, to achieve ultimate harmony along the denoising trajectory. Thus we propose to repetitively utilize the given visual condition in a cyclic way, by planting the visual condition as a high-concentration "seed" at the initialization step of the denoising process, and "diffuse" it into a harmonious picture by controlling a one-way information flow from the visual condition. We repeat the destroy-and-construct process multiple times to gradually but steadily impose the internal diffusion process within the image. Experiments on the challenging one-shot face and text-conditioned image synthesis task demonstrate our superiority in terms of speed, image quality, and conditional fidelity compared to learning-based text-vision conditional methods. Project page is available at: https://bigaandsmallq.github.io/COW/
翻訳日:2023-06-22 00:54:26 公開日:2023-06-17
# 構成同変表現学習

Compositionally Equivariant Representation Learning ( http://arxiv.org/abs/2306.07783v2 )

ライセンス: Link先を確認
Xiao Liu, Pedro Sanchez, Spyridon Thermos, Alison Q. O'Neil and Sotirios A. Tsaftaris(参考訳) ディープラーニングモデルは、効果的に訓練するために十分な監督(ラベル付きデータ)を必要とすることが多い。 対照的に、ヒトはMRIやCTスキャンのような医療画像の重要な解剖学を、最小限のガイダンスで素早く学べる。 この認識機能は、異なる医療施設の新しい画像や、異なる設定の新しいタスクに容易に一般化する。 この迅速で汎用的な学習能力は、現在の医学モデルではよく表現されていない人間の脳における画像パターンの構成構造によるものである。 本稿では,より解釈可能で一般化可能な医用画像分割表現の学習における構成性の利用について検討する。 全体として、医用画像を生成するために使用される生成因子は、各因子が構成的(例えば、ヒト解剖学の構造に対応する)であり、タスクと等価である構成的等式性を満たすことが提案される。 したがって、基底真理因子をよく近似するよい表現は合成同値である必要がある。 構成表現を学習可能なvon-Mises-Fisher(vMF)カーネルでモデル化することにより、異なる設計と学習バイアスを用いて、Un-, weakly, semi-supervised settingsの下でより構成的に同変であるように表現を強制する方法について検討する。 その結果,本手法は半教師付き領域一般化医療画像セグメンテーションのタスクにおいて,いくつかの強いベースライン上で最高の性能を達成できた。 コードはhttps://github.com/vios-sで公開される。

Deep learning models often need sufficient supervision (i.e. labelled data) in order to be trained effectively. By contrast, humans can swiftly learn to identify important anatomy in medical images like MRI and CT scans, with minimal guidance. This recognition capability easily generalises to new images from different medical facilities and to new tasks in different settings. This rapid and generalisable learning ability is largely due to the compositional structure of image patterns in the human brain, which are not well represented in current medical models. In this paper, we study the utilisation of compositionality in learning more interpretable and generalisable representations for medical image segmentation. Overall, we propose that the underlying generative factors that are used to generate the medical images satisfy compositional equivariance property, where each factor is compositional (e.g. corresponds to the structures in human anatomy) and also equivariant to the task. Hence, a good representation that approximates well the ground truth factor has to be compositionally equivariant. By modelling the compositional representations with learnable von-Mises-Fisher (vMF) kernels, we explore how different design and learning biases can be used to enforce the representations to be more compositionally equivariant under un-, weakly-, and semi-supervised settings. Extensive results show that our methods achieve the best performance over several strong baselines on the task of semi-supervised domain-generalised medical image segmentation. Code will be made publicly available upon acceptance at https://github.com/vios-s.
翻訳日:2023-06-22 00:52:08 公開日:2023-06-17
# 自動運転のためのレーダー: ディープラーニング手法と課題のレビュー

Radars for Autonomous Driving: A Review of Deep Learning Methods and Challenges ( http://arxiv.org/abs/2306.09304v2 )

ライセンス: Link先を確認
Arvind Srivastav and Soumyajit Mandal(参考訳) Radarは、自動運転車の安全で信頼性の高いナビゲーションに使用される知覚センサースイートの重要なコンポーネントである。 その特徴は、高分解能の速度イメージング、隠蔽および長距離におけるエージェントの検出、悪天候下での堅牢な性能である。 しかし、レーダーデータの利用には、低解像度、疎度、乱雑、高い不確実性、優れたデータセットの欠如など、いくつかの課題がある。 これらの課題はレーダーディープラーニングの研究に制限がある。 結果として、現在のレーダーモデルは、レーダーデータに比較的弱い光学的特徴に焦点を当てたライダーや視覚モデルの影響を受け、レーダーの能力の過小評価と自律認識への貢献の低下をもたらす。 このレビューは、自律レーダーデータに関するさらなる深層学習研究を促進することを目的としている。 1)重要研究テーマの特定、及び 2)現場における現在の機会と課題を総合的に概観する。 対象とするトピックは、早期および後期の融合、占有フロー推定、不確実性モデリング、マルチパス検出などである。 この論文はまた、レーダーの基礎とデータ表現についても論じ、最近のレーダーデータセットのキュレーションリストを示し、レーダー研究に関連する最先端のlidarとビジョンモデルをレビューする。 論文の概要と結果については、webサイト:autonomous-radars.github.ioをご覧ください。

Radar is a key component of the suite of perception sensors used for safe and reliable navigation of autonomous vehicles. Its unique capabilities include high-resolution velocity imaging, detection of agents in occlusion and over long ranges, and robust performance in adverse weather conditions. However, the usage of radar data presents some challenges: it is characterized by low resolution, sparsity, clutter, high uncertainty, and lack of good datasets. These challenges have limited radar deep learning research. As a result, current radar models are often influenced by lidar and vision models, which are focused on optical features that are relatively weak in radar data, thus resulting in under-utilization of radar's capabilities and diminishing its contribution to autonomous perception. This review seeks to encourage further deep learning research on autonomous radar data by 1) identifying key research themes, and 2) offering a comprehensive overview of current opportunities and challenges in the field. Topics covered include early and late fusion, occupancy flow estimation, uncertainty modeling, and multipath detection. The paper also discusses radar fundamentals and data representation, presents a curated list of recent radar datasets, and reviews state-of-the-art lidar and vision models relevant for radar research. For a summary of the paper and more results, visit the website: autonomous-radars.github.io.
翻訳日:2023-06-22 00:46:30 公開日:2023-06-17
# OpenOOD v1.5: 配布外検出のためのベンチマーク強化

OpenOOD v1.5: Enhanced Benchmark for Out-of-Distribution Detection ( http://arxiv.org/abs/2306.09301v2 )

ライセンス: Link先を確認
Jingyang Zhang, Jingkang Yang, Pengyun Wang, Haoqi Wang, Yueqian Lin, Haoran Zhang, Yiyou Sun, Xuefeng Du, Kaiyang Zhou, Wayne Zhang, Yixuan Li, Ziwei Liu, Yiran Chen, Hai Li(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、オープンワールド・インテリジェントシステムの信頼性の高い運用に不可欠である。 OOD検出手法の出現にもかかわらず、評価の不整合は、この分野の進歩を追跡する上での課題である。 OpenOOD v1はOOD検出評価の統合を開始したが、スケーラビリティとユーザビリティの制限に直面した。 本報告では,OOD検出手法の精度,標準化,ユーザフレンドリな評価を保証したOpenOOD v1.5を提案する。 特に、OpenOOD v1.5は、評価機能をImageNetなどの大規模データセットに拡張し、未調査の重要でないフルスペクトルOOD検出を調査し、オンラインリーダーボードや使いやすい評価器などの新機能を導入している。 この研究は、総合的な実験結果から得られた深い分析と洞察にも貢献し、OOD検出手法の知識プールを強化する。 これらの拡張により、OpenOOD v1.5は、OOD検出研究のためのより堅牢で包括的な評価ベンチマークを提供することを目的としている。

Out-of-Distribution (OOD) detection is critical for the reliable operation of open-world intelligent systems. Despite the emergence of an increasing number of OOD detection methods, the evaluation inconsistencies present challenges for tracking the progress in this field. OpenOOD v1 initiated the unification of the OOD detection evaluation but faced limitations in scalability and usability. In response, this paper presents OpenOOD v1.5, a significant improvement from its predecessor that ensures accurate, standardized, and user-friendly evaluation of OOD detection methodologies. Notably, OpenOOD v1.5 extends its evaluation capabilities to large-scale datasets such as ImageNet, investigates full-spectrum OOD detection which is important yet underexplored, and introduces new features including an online leaderboard and an easy-to-use evaluator. This work also contributes in-depth analysis and insights derived from comprehensive experimental results, thereby enriching the knowledge pool of OOD detection methodologies. With these enhancements, OpenOOD v1.5 aims to drive advancements and offer a more robust and comprehensive evaluation benchmark for OOD detection research.
翻訳日:2023-06-22 00:46:07 公開日:2023-06-17
# PLAN: 変数対応のプライベート平均推定

PLAN: Variance-Aware Private Mean Estimation ( http://arxiv.org/abs/2306.08745v2 )

ライセンス: Link先を確認
Martin Aum\"uller, Christian Janos Lebeda, Boel Nelson, Rasmus Pagh(参考訳) 差分プライベート平均推定は、データ分析と機械学習のためのプライバシ保存アルゴリズムの重要な構成要素である。 プライバシとユーティリティのトレードオフは最悪の場合よく理解されているが、多くのデータセットはより良いアルゴリズムを生み出すために悪用される可能性がある構造を示している。 本稿では、入力が分散$\mathcal{d}$ over $\mathbf{r}^d$ から独立にサンプリングされ、座標的に標準偏差$\boldsymbol{\sigma} \in \mathbf{r}^d$ を持つ設定において、平均推定のための微分的プライベートアルゴリズムの族である$\textit{private limit adapted noise}$ (plan) を提案する。 マハラノビス距離での推定と同様、PLANはノイズの形状をデータの形に調整するが、従来のアルゴリズムとは異なり、プライバシー予算は座標に不均一に費やされる。 $\mathcal{D}$ の濃度仮定の下で、ベクトル $\boldsymbol{\sigma}$ のスキューをどのように活用するかを示し、$\ell_2$ 誤差が $\|\boldsymbol{\sigma}\|_1$ に比例した(ゼロ濃度の)微分プライベート平均推定値を得る。 以前の研究は、$\boldsymbol{\sigma}$を考慮に入れなかったり、マハラノビス距離$\unicode{x2013}$で測定された誤差は、どちらも$\ell_2$エラーは$\sqrt{d}\|\boldsymbol{\sigma}\|_2$に比例する。 PLANの有効性を検証するため,合成データと実世界のデータの両方で精度を実証的に評価した。

Differentially private mean estimation is an important building block in privacy-preserving algorithms for data analysis and machine learning. Though the trade-off between privacy and utility is well understood in the worst case, many datasets exhibit structure that could potentially be exploited to yield better algorithms. In this paper we present $\textit{Private Limit Adapted Noise}$ (PLAN), a family of differentially private algorithms for mean estimation in the setting where inputs are independently sampled from a distribution $\mathcal{D}$ over $\mathbf{R}^d$, with coordinate-wise standard deviations $\boldsymbol{\sigma} \in \mathbf{R}^d$. Similar to mean estimation under Mahalanobis distance, PLAN tailors the shape of the noise to the shape of the data, but unlike previous algorithms the privacy budget is spent non-uniformly over the coordinates. Under a concentration assumption on $\mathcal{D}$, we show how to exploit skew in the vector $\boldsymbol{\sigma}$, obtaining a (zero-concentrated) differentially private mean estimate with $\ell_2$ error proportional to $\|\boldsymbol{\sigma}\|_1$. Previous work has either not taken $\boldsymbol{\sigma}$ into account, or measured error in Mahalanobis distance $\unicode{x2013}$ in both cases resulting in $\ell_2$ error proportional to $\sqrt{d}\|\boldsymbol{\sigma}\|_2$, which can be up to a factor $\sqrt{d}$ larger. To verify the effectiveness of PLAN, we empirically evaluate accuracy on both synthetic and real world data.
翻訳日:2023-06-22 00:44:20 公開日:2023-06-17
# 通信のための大規模言語モデル: 次の大きなこと?

Large Language Models for Telecom: The Next Big Thing? ( http://arxiv.org/abs/2306.10249v1 )

ライセンス: Link先を確認
Lina Bariah, Qiyang Zhao, Hang Zou, Yu Tian, Faouzi Bader, and Merouane Debbah(参考訳) 生成人工知能(GenAI)の進化は、様々な面でテクノロジーの未来を変える転換点となっている。 特に無線ネットワークは、自己進化型ネットワークの開花とともに、ジェナイを活用し、現在の無線ネットワークの設計や運用方法を根本的に変えるいくつかの利点を享受するためのリッチな分野を表している。 具体的には、GenAIのサブフィールドである大規模言語モデル(LLM)は、さまざまなTelecomデータで訓練されたマルチモーダルな大規模モデルを細調整して、複数の下流タスクを実行し、タスクごとに専用のAIモデルの必要性を排除し、人工知能(AGI)搭載の無線ネットワークの実現への道を開く、新しい自律無線ネットワークの時代を開くことを想定している。 本稿では,LLMをTelecomドメインに統合することで実現可能な機会を広げる。 特に、将来の無線ネットワークにおけるLLMの可能性と応用の新たな領域を前方視し、Telecom LLMの設計、トレーニング、テスト、デプロイの方向性を定義し、関連する理論的および実践的な課題に関する洞察を明らかにすることを目的としている。

The evolution of generative artificial intelligence (GenAI) constitutes a turning point in reshaping the future of technology in different aspects. Wireless networks in particular, with the blooming of self-evolving networks, represent a rich field for exploiting GenAI and reaping several benefits that can fundamentally change the way how wireless networks are designed and operated nowadays. To be specific, large language models (LLMs), a subfield of GenAI, are envisioned to open up a new era of autonomous wireless networks, in which a multimodal large model trained over various Telecom data, can be fine-tuned to perform several downstream tasks, eliminating the need for dedicated AI models for each task and paving the way for the realization of artificial general intelligence (AGI)-empowered wireless networks. In this article, we aim to unfold the opportunities that can be reaped from integrating LLMs into the Telecom domain. In particular, we aim to put a forward-looking vision on a new realm of possibilities and applications of LLMs in future wireless networks, defining directions for designing, training, testing, and deploying Telecom LLMs, and reveal insights on the associated theoretical and practical challenges.
翻訳日:2023-06-21 23:35:56 公開日:2023-06-17
# snowman: 基礎モデルから蒸留した100万規模の中国のコモンセンス知識グラフ

Snowman: A Million-scale Chinese Commonsense Knowledge Graph Distilled from Foundation Model ( http://arxiv.org/abs/2306.10241v1 )

ライセンス: Link先を確認
Jiaan Wang, Jianfeng Qu, Yunlong Liang, Zhixu Li, An Liu, Guanfeng Liu, Xin Zheng(参考訳) コモンセンス知識グラフ(CKG)の構築は、認知知性において重要な意味を持つため、広く研究されている。 それでも、既存のCKGは一般的に英語を指向しており、英語以外の言語の研究を制限している。 一方、ChatGPTやGPT-4のような基礎モデルの出現は、人間のフィードバックからの強化学習の助けを借りて、有望な知性を示している。 そこで,本稿では,基礎モデルを用いてsnowmanという中国語のckgを構築した。 具体的には、ChatGPTから異なる種類のコモンセンスヘッドアイテムを蒸留し、ヘッドアイテムと事前定義された関係に関するテールアイテムの収集に引き続き使用します。 予備分析の結果,ChatGPTで蒸留した負のコモンセンス知識は,他の知識に比べて人間の受容度が低いことがわかった。 そこで我々は、無効な負のコモンセンスをフィルタリングする簡単な自己命令型フィルタリング戦略を設計する。 全体では、Snowmanは1000万以上の中国のコモンセンスをカバーしており、中国最大のCKGとなっている。 さらに, 雪だるまの受け入れ率は90.6 %であり, 最先端基礎モデルによる高品質の3倍率を示す。 また,雪だるまのユーザビリティと有効性を示すコモンセンス知識モデルの実験を行った。

Constructing commonsense knowledge graphs (CKGs) has attracted wide research attention due to its significant importance in cognitive intelligence. Nevertheless, existing CKGs are typically oriented to English, limiting the research in non-English languages. Meanwhile, the emergence of foundation models like ChatGPT and GPT-4 has shown promising intelligence with the help of reinforcement learning from human feedback. Under the background, in this paper, we utilize foundation models to construct a Chinese CKG, named Snowman. Specifically, we distill different types of commonsense head items from ChatGPT, and continue to use it to collect tail items with respect to the head items and pre-defined relations. Based on the preliminary analysis, we find the negative commonsense knowledge distilled by ChatGPT achieves lower human acceptance compared to other knowledge. Therefore, we design a simple yet effective self-instruct filtering strategy to filter out invalid negative commonsense. Overall, the constructed Snowman covers more than ten million Chinese commonsense triples, making it the largest Chinese CKG. Moreover, human studies show the acceptance of Snowman achieves 90.6\%, indicating the high-quality triples distilled by the cutting-edge foundation model. We also conduct experiments on commonsense knowledge models to show the usability and effectiveness of our Snowman.
翻訳日:2023-06-21 23:35:31 公開日:2023-06-17
# ブラインド音源分離のための高速フルランク空間共分散解析

Neural Fast Full-Rank Spatial Covariance Analysis for Blind Source Separation ( http://arxiv.org/abs/2306.10240v1 )

ライセンス: Link先を確認
Yoshiaki Bando, Yoshiki Masuyama, Aditya Arie Nugraha, Kazuyoshi Yoshii(参考訳) 本稿では,ブラインドソース分離(bss)のために提案される多チャンネル混合の確率的生成モデルを用いた,神経源分離モデルの効率的な教師なし学習法について述べる。 この目的のために、amortized variational inference (avi) はフルランク空間共分散解析 (fca) によるbssの逆問題を直接解くために用いられる。 ニューラルFCAと呼ばれるこの非教師なし手法は、原則としてドメインミスマッチ問題から解放されるが、比較的短い残響に対する堅牢性と引き換えに空間モデルの完全ランク性のために計算的に要求される。 性能を犠牲にすることなくモデル複雑性を低減するため,結合対角化可能なフルランク空間モデルに基づくニューラルFastFCAを提案する。 aviに導入したニューラルネットワーク分離モデルは,反復的ソースステアリングと呼ばれる効率的な反復アルゴリズムのニューラルネットワークブロックと単一ステップを交互に実行する。 この交互アーキテクチャにより、ディープニューラルネットワークとマルチチャネル最適化アルゴリズムの両方を活用することで、分離モデルを迅速に分離することができる。 AVIによるトレーニング目的は、観察された混合物の限界化確率を最大化するために導出される。 2~4つの音源の混合信号を用いた実験により、ニューラルネットワークのfastfcaは従来のbss法を上回り、計算時間を約2%に短縮した。

This paper describes an efficient unsupervised learning method for a neural source separation model that utilizes a probabilistic generative model of observed multichannel mixtures proposed for blind source separation (BSS). For this purpose, amortized variational inference (AVI) has been used for directly solving the inverse problem of BSS with full-rank spatial covariance analysis (FCA). Although this unsupervised technique called neural FCA is in principle free from the domain mismatch problem, it is computationally demanding due to the full rankness of the spatial model in exchange for robustness against relatively short reverberations. To reduce the model complexity without sacrificing performance, we propose neural FastFCA based on the jointly-diagonalizable yet full-rank spatial model. Our neural separation model introduced for AVI alternately performs neural network blocks and single steps of an efficient iterative algorithm called iterative source steering. This alternating architecture enables the separation model to quickly separate the mixture spectrogram by leveraging both the deep neural network and the multichannel optimization algorithm. The training objective with AVI is derived to maximize the marginalized likelihood of the observed mixtures. The experiment using mixture signals of two to four sound sources shows that neural FastFCA outperforms conventional BSS methods and reduces the computational time to about 2% of that for the neural FCA.
翻訳日:2023-06-21 23:35:10 公開日:2023-06-17
# ビデオ異常検出のためのマルチスケール時空間インタラクションネットワーク

Multi-scale Spatial-temporal Interaction Network for Video Anomaly Detection ( http://arxiv.org/abs/2306.10239v1 )

ライセンス: Link先を確認
Zhiyuan Ning, Zhangxun Li, Liang Song(参考訳) video anomaly detection (vad)は信号処理において欠かせない課題である。 時間的・空間的情報のみの解析では特定の異常は検出できないため,vadでは2種類の情報間の相互作用が重要であると考えられる。 しかし、現在のデュアルストリームアーキテクチャは2種類の情報間の相互作用をオートエンコーダのボトルネックに制限するか、あるいはその相互作用に異常に無関係な背景画素を組み込むかのいずれかである。 そこで本稿では,VADのためのマルチスケール時空間ネットワーク(MSTI-Net)を提案する。 まず,オブジェクトに対して特に注意を払い,二つの情報間の意味的な違いを解消するために,従来の直接融合の代替として,注意に基づく空間-時間融合モジュール(astm)を提案する。 さらに,両ストリームネットワークの出現経路と動き経路間の複数のASTM接続を注入し,任意の規模で空間的・時間的相互作用を促進する。 最後に、複数のスケールから得られた正規情報がメモリに記録され、テストフェーズにおける異常と正常事象の区別が強化される。 ucsd ped2では96.8%、cuhk avenueでは87.6%、上海工科大学データセットでは73.9%のaucsを達成した。

Video anomaly detection (VAD) is an essential yet challenge task in signal processing. Since certain anomalies cannot be detected by analyzing temporal or spatial information alone, the interaction between two types of information is considered crucial for VAD. However, current dual-stream architectures either limit interaction between the two types of information to the bottleneck of autoencoder or incorporate background pixels irrelevant to anomalies into the interaction. To this end, we propose a multi-scale spatial-temporal interaction network (MSTI-Net) for VAD. First, to pay particular attention to objects and reconcile the significant semantic differences between the two information, we propose an attention-based spatial-temporal fusion module (ASTM) as a substitute for the conventional direct fusion. Furthermore, we inject multi ASTM-based connections between the appearance and motion pathways of a dual stream network to facilitate spatial-temporal interaction at all possible scales. Finally, the regular information learned from multiple scales is recorded in memory to enhance the differentiation between anomalies and normal events during the testing phase. Solid experimental results on three standard datasets validate the effectiveness of our approach, which achieve AUCs of 96.8% for UCSD Ped2, 87.6% for CUHK Avenue, and 73.9% for the ShanghaiTech dataset.
翻訳日:2023-06-21 23:34:44 公開日:2023-06-17
# 2点型絡み合った光子源の量子超解像

Quantum super-resolution for imaging two pointlike entangled photon sources ( http://arxiv.org/abs/2306.10238v1 )

ライセンス: Link先を確認
Huan Zhang, Wei Ye, Ying Xia, Zeyang Liao, Xue-hua Wang(参考訳) 光パラメトリック増幅器(opa)に任意の量子統計分布を持つ単一モード源を注入することにより、点状絡み合い源を生成できるモーメント法と空間モード多重化法(spade)を用いて、2つの点状絡み込み源を撮像する解像度について検討した。 分離推定感度は, 検出モードごとに主に光子分布によって決定され, OPAの圧縮パラメータを増大させるか, エンタングル源の相対位相差を除去することにより向上できることを示した。 さらに、無限に小さなソース分離の場合、絡み合ったソースの使用は、非一貫性とコヒーレントなソースの使用よりも分解能が良い。 この結果は、量子超解像イメージングと量子メトロロジーに重要な応用を見出すことができる。

We investigate the resolution for imaging two pointlike entangled sources by using the method of the moments and the spatial-mode demultiplexing (SPADE), where the pointlike entangled sources can be generated by injecting single-mode sources with arbitrary quantum statistics distribution into an optical parametric amplifier (OPA). We demonstrate that the separation estimation sensitivity is mainly determined by the photon distribution in each detected modes and it can be enhanced by either increasing the squeezed parameter of the OPA or eliminating the relative phase difference of the entangle sources. Furthermore, in the limiting case of infinitely small source separation, the usage of entangled sources can have better resolution than those using incoherent and coherent sources. The results here can find important applications for the quantum super-resolution imaging and quantum metrology.
翻訳日:2023-06-21 23:34:23 公開日:2023-06-17
# フェデレーション・マイトショット学習

Federated Few-shot Learning ( http://arxiv.org/abs/2306.10234v1 )

ライセンス: Link先を確認
Song Wang, Xingbo Fu, Kaize Ding, Chen Chen, Huiyuan Chen, Jundong Li(参考訳) フェデレーション・ラーニング(fl)は、複数のクライアントがローカルデータを交換することなく、協調して機械学習モデルを学習できるようにする。 このようにして、サーバはすべてのクライアントの計算能力を活用し、すべてのクライアント間でより大きなデータサンプルセットでモデルをトレーニングすることができる。 このようなメカニズムは様々な分野で有効であることが証明されているが、既存の研究は、各クライアントがトレーニングに十分なデータを保存すると仮定している。 しかし実際には、特定のクライアントは限られた数のサンプル(すなわち、少数のサンプル)しか含まない。 例えば、特定のユーザーが新しいモバイルデバイスで撮影した写真データは、比較的まれである。 このシナリオでは、既存のFLの取り組みは、一般的にこれらのクライアントに大きなパフォーマンス低下に遭遇します。 そのため、FLシナリオの下で限られたデータを持つクライアントに一般化可能な数ショットモデルを開発することが急務である。 本稿では,この新問題について,"emph{federated few-shot learning}"と呼ぶ。 しかしながら、クライアント間のグローバルデータ分散(クライアント間のデータ分散の違い)と各クライアント内のローカルデータ不足(トレーニングに十分なローカルデータ不足)という2つの大きな理由により、この問題は依然として困難なままである。 これら2つの課題を克服するために,グローバルデータ分散と局所データ不足の悪影響を軽減すべく,2つのモデルと専用トレーニング戦略を別々に更新した,連帯型少数ショット学習フレームワークを提案する。 ニュース記事とイメージをカバーする4つの一般的なデータセットに関する広範囲な実験は、最先端のベースラインと比較して、フレームワークの有効性を検証する。 当社のコードは、SongW-SW/F2L}{https://github.com/SongW-SW/F2L}}です。

Federated Learning (FL) enables multiple clients to collaboratively learn a machine learning model without exchanging their own local data. In this way, the server can exploit the computational power of all clients and train the model on a larger set of data samples among all clients. Although such a mechanism is proven to be effective in various fields, existing works generally assume that each client preserves sufficient data for training. In practice, however, certain clients may only contain a limited number of samples (i.e., few-shot samples). For example, the available photo data taken by a specific user with a new mobile device is relatively rare. In this scenario, existing FL efforts typically encounter a significant performance drop on these clients. Therefore, it is urgent to develop a few-shot model that can generalize to clients with limited data under the FL scenario. In this paper, we refer to this novel problem as \emph{federated few-shot learning}. Nevertheless, the problem remains challenging due to two major reasons: the global data variance among clients (i.e., the difference in data distributions among clients) and the local data insufficiency in each client (i.e., the lack of adequate local data for training). To overcome these two challenges, we propose a novel federated few-shot learning framework with two separately updated models and dedicated training strategies to reduce the adverse impact of global data variance and local data insufficiency. Extensive experiments on four prevalent datasets that cover news articles and images validate the effectiveness of our framework compared with the state-of-the-art baselines. Our code is provided\footnote{\href{https://github.com/SongW-SW/F2L}{https://github.com/SongW-SW/F2L}}.
翻訳日:2023-06-21 23:34:07 公開日:2023-06-17
# GLIMMER: 一般化された遅延動作メモリリランカ

GLIMMER: generalized late-interaction memory reranker ( http://arxiv.org/abs/2306.10231v1 )

ライセンス: Link先を確認
Michiel de Jong, Yury Zemlyanskiy, Nicholas FitzGerald, Sumit Sanghai, William W. Cohen, Joshua Ainslie(参考訳) メモリオーグメンテーションは、外部情報を言語モデルに効率的に組み込むための強力なアプローチであるが、テキスト検索に比べて性能が低下する。 LUMENはメモリを部分的にプリコンプリートし、より小さなライブエンコーダでメモリ表現を更新する。 このアプローチを改良したGLIMMERを提案する。 1) メモリ上に浅い再ランカを適用して強力なメモリ表現への自由アクセスを利用して、低コストで検索品質を大幅に向上させ、 2) 汎用的で高品質なメモリとライブエンコーダを学ぶためのマルチタスクトレーニングの導入。 GLIMMERは、知識集約型タスクのKILTベンチマークにおけるLUMENやFiDと比較して、高速な性能向上を実現している。

Memory-augmentation is a powerful approach for efficiently incorporating external information into language models, but leads to reduced performance relative to retrieving text. Recent work introduced LUMEN, a memory-retrieval hybrid that partially pre-computes memory and updates memory representations on the fly with a smaller live encoder. We propose GLIMMER, which improves on this approach through 1) exploiting free access to the powerful memory representations by applying a shallow reranker on top of memory to drastically improve retrieval quality at low cost, and 2) incorporating multi-task training to learn a general and higher quality memory and live encoder. GLIMMER achieves strong gains in performance at faster speeds compared to LUMEN and FiD on the KILT benchmark of knowledge-intensive tasks.
翻訳日:2023-06-21 23:33:41 公開日:2023-06-17
# インテリジェントエージェントの遺伝子

Genes in Intelligent Agents ( http://arxiv.org/abs/2306.10225v1 )

ライセンス: Link先を確認
Fu Feng, Jing Wang, Congzhi Zhang, Wenqian Li, Xu Yang and Xin Geng(参考訳) 強化学習(RL)における知的エージェントの訓練は、動物学習よりもはるかに時間がかかる。 これは、エージェントはゼロから学ぶが、動物は祖先から受け継がれた遺伝子で学習し、生まれながらの能力で生まれるためである。 動物における遺伝子に触発され、インテリジェントエージェントの遺伝子を概念化し、遺伝子(エージェント)を表現、評価、進化させる計算フレームワークである遺伝子強化学習(GRL)を導入する。 GRLを活用することで、遺伝子を同定し、遺伝子のいくつかの利点を示す。 まず、遺伝子はエージェントのニューラルネットワークの断片の形をとり、世代にわたって遺伝することができる。 第2に、遺伝子は祖先からの知識を凝縮し、生来の能力を持つエージェントをもたらすため、エージェントにより良い、より安定した学習能力をもたらすことを検証します。 第3に,知的エージェントにおけるラマルキアン進化の証拠を示す。 世代をまたがる遺伝子への知識の継続的なエンコーディングは、遺伝子の進化を促進する。 全体として、我々の研究は遺伝子を組み込んでエージェントを訓練するための新しいパラダイムを促進する。

Training intelligent agents in Reinforcement Learning (RL) is much more time-consuming than animal learning. This is because agents learn from scratch, but animals learn with genes inherited from ancestors and are born with some innate abilities. Inspired by genes in animals, here we conceptualize the gene in intelligent agents and introduce Genetic Reinforcement Learning (GRL), a computational framework to represent, evaluate, and evolve genes (in agents). Leveraging GRL we identify genes and demonstrate several advantages of genes. First, we find that genes take the form of the fragment of agents' neural networks and can be inherited across generations. Second, we validate that genes bring better and stabler learning ability to agents, since genes condense knowledge from ancestors and bring agent with innate abilities. Third, we present evidence of Lamarckian evolution in intelligent agents. The continuous encoding of knowledge into genes across generations facilitates the evolution of genes. Overall, our work promotes a novel paradigm to train agents by incorporating genes.
翻訳日:2023-06-21 23:33:29 公開日:2023-06-17
# バイアスヒューリスティック誘導強化学習アルゴリズムの消失

Vanishing Bias Heuristic-guided Reinforcement Learning Algorithm ( http://arxiv.org/abs/2306.10216v1 )

ライセンス: Link先を確認
Qinru Li, Hao Xiang(参考訳) 強化学習は多くのatariゲームで大きな成功を収めた。 本稿では,月面ランダーの環境を調査し,Q-Learning, SARSA, MC, タイリング符号などの古典的手法を実装した。 また、DQN、Double DQN、Clipped DQNなどのニューラルネットワークベースの手法を実装した。 そこで我々は,ヒューリスティックRLというアルゴリズムを提案し,ヒューリスティックを用いて,導入した人間のバイアスを緩和しつつ,早期学習の指導を行う。 本実験は,月面ランダー環境における提案手法の有望な結果を示した。

Reinforcement Learning has achieved tremendous success in the many Atari games. In this paper we explored with the lunar lander environment and implemented classical methods including Q-Learning, SARSA, MC as well as tiling coding. We also implemented Neural Network based methods including DQN, Double DQN, Clipped DQN. On top of these, we proposed a new algorithm called Heuristic RL which utilizes heuristic to guide the early stage training while alleviating the introduced human bias. Our experiments showed promising results for our proposed methods in the lunar lander environment.
翻訳日:2023-06-21 23:33:14 公開日:2023-06-17
# 置換支援エントロピー次元減少を伴う滑らかな低次元パターンの線形スケーラブル学習

Linearly-scalable learning of smooth low-dimensional patterns with permutation-aided entropic dimension reduction ( http://arxiv.org/abs/2306.10287v1 )

ライセンス: Link先を確認
Illia Horenko and Lukas Pospisil(参考訳) 多くのデータサイエンスの応用において、目的は高次元データセットから適切に整列された滑らかな低次元データパターンを抽出することである。 これは、一般的なソートアルゴリズムが主に低次元データにおける単調順序を見つけることを目的としているのに対し、典型的な次元の縮小と特徴抽出アルゴリズムはスムーズな低次元データパターンの抽出を主な目的としていないためである。 パターン品質基準としてユークリッドの滑らか度を選択する場合、これらの問題(最適な「クリスプ」データの置換と、置換された低次元の滑らかなパターンのスパース集合の抽出)は、教師なしエントロピー規則化反復最適化問題として効率的に解けることを示す。 この線形スケーリング可能な(次元において)数値手順の単調性および収束条件を定式化し、反復コストのスケーリングを$\mathcal{O}(DT^2)$とすると、$T$はデータ統計量の大きさであり、$D$は特徴空間次元である。 提案手法の有効性は, 高次元経済データから遷移パターンを最小化するスムーズな倒産リスクの同定を含む実例および実世界の応用の検証を通じて実証された。 その結果,本手法の全体的な時間複雑性の統計的性質は,信頼区間内の次元$d$の線形スケーリングを示すことがわかった。

In many data science applications, the objective is to extract appropriately-ordered smooth low-dimensional data patterns from high-dimensional data sets. This is challenging since common sorting algorithms are primarily aiming at finding monotonic orderings in low-dimensional data, whereas typical dimension reduction and feature extraction algorithms are not primarily designed for extracting smooth low-dimensional data patterns. We show that when selecting the Euclidean smoothness as a pattern quality criterium, both of these problems (finding the optimal 'crisp' data permutation and extracting the sparse set of permuted low-dimensional smooth patterns) can be efficiently solved numerically as one unsupervised entropy-regularized iterative optimization problem. We formulate and prove the conditions for monotonicity and convergence of this linearly-scalable (in dimension) numerical procedure, with the iteration cost scaling of $\mathcal{O}(DT^2)$, where $T$ is the size of the data statistics and $D$ is a feature space dimension. The efficacy of the proposed method is demonstrated through the examination of synthetic examples as well as a real-world application involving the identification of smooth bankruptcy risk minimizing transition patterns from high-dimensional economical data. The results showcase that the statistical properties of the overall time complexity of the method exhibit linear scaling in the dimensionality $D$ within the specified confidence intervals.
翻訳日:2023-06-21 23:27:43 公開日:2023-06-17
# enlighten-anything:segment anythingモデルが低光度画像エンハンスメントを満たすとき

Enlighten-anything:When Segment Anything Model Meets Low-light Image Enhancement ( http://arxiv.org/abs/2306.10286v1 )

ライセンス: Link先を確認
Qihan Zhao, Xiaofeng Zhang, Hao Tang, Chaochen Gu, Shanying Zhu(参考訳) 画像復元は低レベルの視覚的タスクであり、ほとんどのCNN手法はブラックボックスとして設計されており、透明性と固有の美学に欠ける。 多くの教師なしのアプローチは、低照度シーンにおける可視情報の劣化を無視しており、これは補完的な情報の集約に深刻な影響を与え、極端な状況下ではフュージョンアルゴリズムが十分に融合結果を生成することができない。 本稿では,SAMセグメンテーションのセグメンテーションの意味的意図を低照度画像に拡張・融合し,視覚的知覚に優れた融合画像を得るエンライエンアリングを提案する。 教師なし学習の一般化能力は大幅に向上し,lolデータセットを用いた実験により,ベースラインよりもpsnrでは3db,ssimでは8dbの改善が確認された。 SAMのゼロショット学習は、教師なしの低照度向上のための強力な補助を提供する。 rethink-diffusionのソースコードはhttps://github.com/zhangbaijin/enlighten-anythingから入手できる。

Image restoration is a low-level visual task, and most CNN methods are designed as black boxes, lacking transparency and intrinsic aesthetics. Many unsupervised approaches ignore the degradation of visible information in low-light scenes, which will seriously affect the aggregation of complementary information and also make the fusion algorithm unable to produce satisfactory fusion results under extreme conditions. In this paper, we propose Enlighten-anything, which is able to enhance and fuse the semantic intent of SAM segmentation with low-light images to obtain fused images with good visual perception. The generalization ability of unsupervised learning is greatly improved, and experiments on LOL dataset are conducted to show that our method improves 3db in PSNR over baseline and 8 in SSIM. zero-shot learning of SAM introduces a powerful aid for unsupervised low-light enhancement. The source code of Rethink-Diffusion can be obtained from https://github.com/zhangbaijin/enlighten-anything
翻訳日:2023-06-21 23:27:17 公開日:2023-06-17
# OpenGSL: グラフ構造学習のための総合ベンチマーク

OpenGSL: A Comprehensive Benchmark for Graph Structure Learning ( http://arxiv.org/abs/2306.10280v1 )

ライセンス: Link先を確認
Zhiyao Zhou, Sheng Zhou, Bochao Mao, Xuanyi Zhou, Jiawei Chen, Qiaoyu Tan, Daochen Zha, Can Wang, Yan Feng, Chun Chen(参考訳) グラフニューラルネットワーク(GNN)は、グラフトポロジとノード属性を効果的に統合する能力のため、グラフ上での表現学習のデファクトスタンダードとして登場した。 しかし、グラフの複雑で連続的な生成過程から生じるノード接続の固有な最適部分性質は、それらを効果的にモデル化する上で大きな課題を提起する。 この問題に対処するために、データ中心の学習アプローチのファミリであるグラフ構造学習(GSL)が近年注目を集めている。 GSLの中核となる概念は、グラフ構造と対応するGNNモデルを協調的に最適化することである。 多くのGSL手法の提案にもかかわらず、データセットのバリエーション、データ処理技術、分割戦略など、一貫性のない実験プロトコルのため、この分野の進展はいまだ不明である。 本稿では,このギャップに対処することを目的とした,GSLの最初の総合ベンチマークであるOpenGSLを紹介する。 OpenGSLは、均一なデータ処理と分割戦略を使用して、様々な一般的なデータセットで評価することで、最先端のGSLメソッドの公平な比較を可能にする。 広範な実験により、既存のGSL法はバニラGNN法よりも一貫して優れているわけではないことが観察された。 しかし,学習グラフ構造は計算量や空間要件が高いにもかかわらず,様々なgnnバックボーンにわたって強力な一般化能力を示すことが観察できる。 当社のオープンソースライブラリが,迅速かつ公平な評価を促進し,gsl分野でのさらなる革新的研究を促進することを願っています。 ベンチマークのコードはhttps://github.com/OpenGSL/OpenGSLで確認できる。

Graph Neural Networks (GNNs) have emerged as the de facto standard for representation learning on graphs, owing to their ability to effectively integrate graph topology and node attributes. However, the inherent suboptimal nature of node connections, resulting from the complex and contingent formation process of graphs, presents significant challenges in modeling them effectively. To tackle this issue, Graph Structure Learning (GSL), a family of data-centric learning approaches, has garnered substantial attention in recent years. The core concept behind GSL is to jointly optimize the graph structure and the corresponding GNN models. Despite the proposal of numerous GSL methods, the progress in this field remains unclear due to inconsistent experimental protocols, including variations in datasets, data processing techniques, and splitting strategies. In this paper, we introduce OpenGSL, the first comprehensive benchmark for GSL, aimed at addressing this gap. OpenGSL enables a fair comparison among state-of-the-art GSL methods by evaluating them across various popular datasets using uniform data processing and splitting strategies. Through extensive experiments, we observe that existing GSL methods do not consistently outperform vanilla GNN counterparts. However, we do observe that the learned graph structure demonstrates a strong generalization ability across different GNN backbones, despite its high computational and space requirements. We hope that our open-sourced library will facilitate rapid and equitable evaluation and inspire further innovative research in the field of GSL. The code of the benchmark can be found in https://github.com/OpenGSL/OpenGSL.
翻訳日:2023-06-21 23:26:59 公開日:2023-06-17
# 非凸最適化における適応戦略

Adaptive Strategies in Non-convex Optimization ( http://arxiv.org/abs/2306.10278v1 )

ライセンス: Link先を確認
Zhenxun Zhuang(参考訳) アルゴリズムが特定のパラメータ(問題の)に適応するとは、そのようなパラメータの事前知識を必要としないが、そのパラメータを知っていれば競合的に実行する。 この論文は、以下のシナリオで適応アルゴリズムに関する我々の研究を示す。 1) 確率的最適化設定では, 確率的勾配のみを受け取り, 評価における雑音のレベルが収束率に大きく影響する。 チューニングは通常、最適な速度を達成するためにノイズスケールの事前知識がなければ要求される。 これを考慮し,ノイズ適応アルゴリズムを設計・解析し,異なる雑音スケール下で(ほぼ)最適速度を自動的に保証する。 2. ディープニューラルネットワークのトレーニングでは,BatchNormのような正規化技術を使用しない限り,各座標の勾配のスケールが非常に広い範囲に散らばることができる。 このような状況では、勾配スケールの問題に対処しないアルゴリズムは非常に不適切な振る舞いをする。 これを緩和するために,グラデーションスケールに適応するスケールフリーアルゴリズムの利点を正式に確立し,その実効性を実証実験で提示した。 3.非凸最適化における従来の解析は、通常滑らかさの仮定に依存する。 しかし、この条件はLong Short-Term Memory NetworkやTransformerなど、ディープラーニングの目的関数の特性を捉えていない。 その代わり、よりリラックスした条件を満たすことができ、潜在的に非有界な滑らかさを持つ。 この条件下では、一般化されたSignSGDアルゴリズムは、SGDが得られる最もよく知られた収束率と勾配クリッピングとを理論的に一致させることができるが、明示的なクリッピングを全く必要とせず、Adamの性能と実証的に一致し、他者を打ち負かすことができることを示す。 さらに、未知のリラックスした滑らかさに自動的に適応させることもできる。

An algorithm is said to be adaptive to a certain parameter (of the problem) if it does not need a priori knowledge of such a parameter but performs competitively to those that know it. This dissertation presents our work on adaptive algorithms in following scenarios: 1. In the stochastic optimization setting, we only receive stochastic gradients and the level of noise in evaluating them greatly affects the convergence rate. Tuning is typically required when without prior knowledge of the noise scale in order to achieve the optimal rate. Considering this, we designed and analyzed noise-adaptive algorithms that can automatically ensure (near)-optimal rates under different noise scales without knowing it. 2. In training deep neural networks, the scales of gradient magnitudes in each coordinate can scatter across a very wide range unless normalization techniques, like BatchNorm, are employed. In such situations, algorithms not addressing this problem of gradient scales can behave very poorly. To mitigate this, we formally established the advantage of scale-free algorithms that adapt to the gradient scales and presented its real benefits in empirical experiments. 3. Traditional analyses in non-convex optimization typically rely on the smoothness assumption. Yet, this condition does not capture the properties of some deep learning objective functions, including the ones involving Long Short-Term Memory networks and Transformers. Instead, they satisfy a much more relaxed condition, with potentially unbounded smoothness. Under this condition, we show that a generalized SignSGD algorithm can theoretically match the best-known convergence rates obtained by SGD with gradient clipping but does not need explicit clipping at all, and it can empirically match the performance of Adam and beat others. Moreover, it can also be made to automatically adapt to the unknown relaxed smoothness.
翻訳日:2023-06-21 23:26:32 公開日:2023-06-17
# 都市植生ポイントセグメンテーションのためのディープラーニングアーキテクチャのベンチマーク

Benchmarking Deep Learning Architectures for Urban Vegetation Points Segmentation ( http://arxiv.org/abs/2306.10274v1 )

ライセンス: Link先を確認
Aditya, Bharat Lohani, Jagannath Aryal, Stephan Winter(参考訳) 植生は、持続可能で回復力のある都市が様々な生態系サービスを提供し、人間を豊かにする上で不可欠である。 しかし、植生は急速な都市化とインフラのフットプリントの拡大によって深刻なストレスにさらされている。 したがって、この植生のマッピングは都市環境において不可欠である。 近年,ポイントクラウドセマンティクスセグメンテーションのディープラーニングが大きな進歩を遂げている。 高度なモデルは、ベンチマークデータセットで最先端のパフォーマンスを獲得し、複数のクラスで構成され、現実世界のシナリオを表現する。 しかし,植生点に関する分類的セグメンテーションは検討されていない。 したがって、植生点分割のための深層学習モデルの選択は曖昧である。 この問題に対処するため,植生のセマンティックセグメンテーションのためのポイントベース深層学習モデルの総合評価を行った。 我々は、PointCNN、KPConv (omni-supervised)、RandLANet、SCFNetの4つの代表的な点ベースモデルを選択した。 これらのモデルは、特にChandigarh、Tronto3D、Keralaの3つの異なるデータセットで研究されている。 ポイントCNNはチャンディガルデータセット(93.32%)とケララデータセット(85.68%)で最高mIoUを達成し、KPConvはトロント3Dデータセット(91.26%)で最高mIoUを提供する。 本論文は,植生セグメンテーションにおけるこれらのモデルの開発について,特に植生セグメンテーションを対象とするモデルに含めるべき成分について概説する。 本稿では,植生ポイントセグメンテーションのための新しいアーキテクチャの開発に向けての一歩である。

Vegetation is crucial for sustainable and resilient cities providing various ecosystem services and well-being of humans. However, vegetation is under critical stress with rapid urbanization and expanding infrastructure footprints. Consequently, mapping of this vegetation is essential in the urban environment. Recently, deep learning for point cloud semantic segmentation has shown significant progress. Advanced models attempt to obtain state-of-the-art performance on benchmark datasets, comprising multiple classes and representing real world scenarios. However, class specific segmentation with respect to vegetation points has not been explored. Therefore, selection of a deep learning model for vegetation points segmentation is ambiguous. To address this problem, we provide a comprehensive assessment of point-based deep learning models for semantic segmentation of vegetation class. We have selected four representative point-based models, namely PointCNN, KPConv (omni-supervised), RandLANet and SCFNet. These models are investigated on three different datasets, specifically Chandigarh, Toronto3D and Kerala, which are characterized by diverse nature of vegetation, varying scene complexity and changing per-point features. PointCNN achieves the highest mIoU on the Chandigarh (93.32%) and Kerala datasets (85.68%) while KPConv (omni-supervised) provides the highest mIoU on the Toronto3D dataset (91.26%). The paper develops a deeper insight, hitherto not reported, into the working of these models for vegetation segmentation and outlines the ingredients that should be included in a model specifically for vegetation segmentation. This paper is a step towards the development of a novel architecture for vegetation points segmentation.
翻訳日:2023-06-21 23:26:05 公開日:2023-06-17
# 古と新のミニマリズム:ホップ代数の比較

Old and New Minimalism: a Hopf algebra comparison ( http://arxiv.org/abs/2306.10270v1 )

ライセンス: Link先を確認
Matilde Marcolli, Robert C. Berwick, Noam Chomsky(参考訳) 本稿では、いくつかの古いミニマリズム、特にスティバーの計算最小主義とチョムスキーの新しいマージとミニマリズムの定式化をホップ代数の数学的記述の観点から比較する。 より新しい定式化は、基礎となる数学的構造において純粋に有利であることを示す。 より正確には、スタブルの計算ミニマリズムの場合、外部マージは二元演算を持つ部分定義された作用素の項で記述でき、一方内部マージはローデイ・ロンコ・ホップ代数と対応する右加群コジブラ商の右イデアルの系を決定する。 この数学的構造は、内部的および外部的マージが、ミニマリズムの古い定式化において著しく異なる役割を持ち、それらは、言語的に望ましい単一の代数的操作の対面として和解することがより困難であることを示している。 一方、より新しいミニマリズムの定式化は、内部マージと外部マージが直接同じ操作から生じるホップ代数構造を自然に持つことを示す。 また、代数的性質のレベルでは、新しい極小主義の外部化モデルと、木の頭部に基づく平面埋め込みの割り当ての提案を比較する。

In this paper we compare some old formulations of Minimalism, in particular Stabler's computational minimalism, and Chomsky's new formulation of Merge and Minimalism, from the point of view of their mathematical description in terms of Hopf algebras. We show that the newer formulation has a clear advantage purely in terms of the underlying mathematical structure. More precisely, in the case of Stabler's computational minimalism, External Merge can be described in terms of a partially defined operated algebra with binary operation, while Internal Merge determines a system of right-ideal coideals of the Loday-Ronco Hopf algebra and corresponding right-module coalgebra quotients. This mathematical structure shows that Internal and External Merge have significantly different roles in the old formulations of Minimalism, and they are more difficult to reconcile as facets of a single algebraic operation, as desirable linguistically. On the other hand, we show that the newer formulation of Minimalism naturally carries a Hopf algebra structure where Internal and External Merge directly arise from the same operation. We also compare, at the level of algebraic properties, the externalization model of the new Minimalism with proposals for assignments of planar embeddings based on heads of trees.
翻訳日:2023-06-21 23:25:40 公開日:2023-06-17
# 計測に基づく量子計算モデルを用いた表面コードエンコーダ回路

Encoder Circuit For Surface Code using Measurement-Based Quantum Computing Model ( http://arxiv.org/abs/2306.10267v1 )

ライセンス: Link先を確認
Priyam Srivastava, Vaibhav Katyal and Ankur Raina(参考訳) 表面符号は量子誤差補正理論において最も重要な位相安定化符号の一つである。 本稿では,資源状態としてクラスタ状態を用いる計測ベースの量子計算(MBQC)により,表面コードを得る効率的な方法を提案する。 簡易な二次元表面符号をスタビライザ形式を用いて研究し,解析する。 また,曲面符号の安定化器を計算により取得するアルゴリズムを提案する。 我々はfowlerらによって得られた表層符号の安定化器の違いに注目し、cz絡み込み操作で形成されるクラスタ状態とは対照的に、cnot絡み込み操作を用いてリソース状態を生成する。 この違いを理解するための理論的計算を提供する。 得られた曲面符号は、1つの論理量子ビットを符号化するエンコーダ回路として実用的に使用できる。

Surface codes are one of the most important topological stabilizer codes in the theory of quantum error correction. In this paper, we provide an efficient way to obtain surface codes through Measurement-based quantum computation (MBQC) using cluster state as the resource state. Simple twodimensional surface codes are studied and analyzed using stabilizer formalism. We also present an algorithm to computationally obtain the stabilizer of the surface codes, through which we later determine the distance of the codes. We note the difference in the stabilizers of the surface codes obtained by Fowler et al. wherein they used CNOT entangling operation to create the resource state as opposed to the cluster state which is formed using CZ entangling operation. We provide a theoretical calculation to understand this difference. The obtained surface codes can be used practically as an encoder circuit to encode one logical qubit.
翻訳日:2023-06-21 23:25:16 公開日:2023-06-17
# NBMOD: ノイズの多いバックグラウンドでそれを見つけて、グラフ化する

NBMOD: Find It and Grasp It in Noisy Background ( http://arxiv.org/abs/2306.10265v1 )

ライセンス: Link先を確認
Boyuan Cao, Xinyu Zhou, Congmin Guo, Baohua Zhang, Yuchen Liu, Qianqiu Tan(参考訳) オブジェクトのグラッピングはロボットの基本的かつ重要な能力であり、ソートやピックといった多くのタスクはこのスキルに依存している。 安定した把握の前提条件は、適切な把握位置を正しく識別する能力である。 しかし, 多様な形状, 密度分布, および様々な物体のバリ中心間の有意差により, 適切な把握点の発見は困難である。 過去数年間、研究者は上記の問題に対処する多くの方法を提案し、コーネルデータセットやjacquardデータセットなどの公開データセットで非常に良い結果を得た。 問題は、CornelとJacquardのデータセットの背景は比較的単純である ― 通常はホワイトボードだが、実際の運用環境では、背景は複雑でうるさい。 さらに、現実世界のシナリオでは、ロボットは通常、固定されたタイプのオブジェクトのみをつかむ必要がある。 そこで本研究では,20種類の果実の31,500 rgb-d画像からなる,把握検出のための雑音下背景マルチオブジェクトデータセットnbmodという大規模把持検出データセットを提案する。 角度の正確な予測は、常に向き付けられた境界ボックスの検出タスクにおいて難しい問題である。 本稿では,この問題に対処する回転アンカー機構(RAM)を提案する。 本研究では,ロボットシステムの高リアルタイム要件を考慮し,ra-graspnet (graspnet with rotation anchor),rara (network with rotation anchor and region attention),rast (network with rotation anchor and semi transformer),ragt (network with rotation anchor and global transformer) という一連の軽量アーキテクチャを提案する。 RAGT-3/3モデルはNAMODデータセットで99%の精度を達成する。 NBMODと私たちのコードはhttps://github.com/kmittle/Grasp-Detection-NBMODで利用可能です。

Grasping objects is a fundamental yet important capability of robots, and many tasks such as sorting and picking rely on this skill. The prerequisite for stable grasping is the ability to correctly identify suitable grasping positions. However, finding appropriate grasping points is challenging due to the diverse shapes, varying density distributions, and significant differences between the barycenter of various objects. In the past few years, researchers have proposed many methods to address the above-mentioned issues and achieved very good results on publicly available datasets such as the Cornell dataset and the Jacquard dataset. The problem is that the backgrounds of Cornell and Jacquard datasets are relatively simple - typically just a whiteboard, while in real-world operational environments, the background could be complex and noisy. Moreover, in real-world scenarios, robots usually only need to grasp fixed types of objects. To address the aforementioned issues, we proposed a large-scale grasp detection dataset called NBMOD: Noisy Background Multi-Object Dataset for grasp detection, which consists of 31,500 RGB-D images of 20 different types of fruits. Accurate prediction of angles has always been a challenging problem in the detection task of oriented bounding boxes. This paper presents a Rotation Anchor Mechanism (RAM) to address this issue. Considering the high real-time requirement of robotic systems, we propose a series of lightweight architectures called RA-GraspNet (GraspNet with Rotation Anchor): RARA (network with Rotation Anchor and Region Attention), RAST (network with Rotation Anchor and Semi Transformer), and RAGT (network with Rotation Anchor and Global Transformer) to tackle this problem. Among them, the RAGT-3/3 model achieves an accuracy of 99% on the NBMOD dataset. The NBMOD and our code are available at https://github.com/kmittle/Grasp-Detection-NBMOD.
翻訳日:2023-06-21 23:25:03 公開日:2023-06-17
# 複数のブラックボックスオラクルからのアクティブポリシー改善

Active Policy Improvement from Multiple Black-box Oracles ( http://arxiv.org/abs/2306.10259v1 )

ライセンス: Link先を確認
Xuefeng Liu, Takuma Yoneda, Chaoqi Wang, Matthew R. Walter, Yuxin Chen(参考訳) 強化学習(RL)は様々な複雑な領域において大きな進歩を遂げてきた。 しかし、rlによる効果的な政策の特定は、しばしば広範な探検を必要とする。 模倣学習は、専門家のデモンストレーションを使って探索をガイドすることでこの問題を軽減することを目的としている。 現実のシナリオでは、一つの最適なオラクルではなく、複数のブラックボックスの専門家にアクセスできることが多い。 これらの専門家は、すべての州で相互に勝ってはおらず、どのoracleを使うべきか、どの州で使うべきかを積極的に決定する上での課題を提示している。 我々は,複数の準最適オラクルから模倣学習を行うポリシ改善アルゴリズムのクラスであるMAPSとMAPS-SEを紹介する。 特に、MAPSはどのオークルを選択して値関数の推定を模倣し改善するかを積極的に選択し、MAPS-SEはアクティブな状態探索基準を活用してどの状態を探索すべきかを決定する。 我々は,MAPSとMAPS-SEが,最先端の政策改善アルゴリズムよりも有効であることを示す。 実証実験の結果,MAPS-SEはDeepMind Control Suiteの幅広い制御タスクにまたがる複数のオーラクルからの状態的模倣学習を通じて,政策最適化を著しく促進することが示された。 私たちのコードは、https://github.com/ripl/maps.comで公開されています。

Reinforcement learning (RL) has made significant strides in various complex domains. However, identifying an effective policy via RL often necessitates extensive exploration. Imitation learning aims to mitigate this issue by using expert demonstrations to guide exploration. In real-world scenarios, one often has access to multiple suboptimal black-box experts, rather than a single optimal oracle. These experts do not universally outperform each other across all states, presenting a challenge in actively deciding which oracle to use and in which state. We introduce MAPS and MAPS-SE, a class of policy improvement algorithms that perform imitation learning from multiple suboptimal oracles. In particular, MAPS actively selects which of the oracles to imitate and improve their value function estimates, and MAPS-SE additionally leverages an active state exploration criterion to determine which states one should explore. We provide a comprehensive theoretical analysis and demonstrate that MAPS and MAPS-SE enjoy sample efficiency advantage over the state-of-the-art policy improvement algorithms. Empirical results show that MAPS-SE significantly accelerates policy optimization via state-wise imitation learning from multiple oracles across a broad spectrum of control tasks in the DeepMind Control Suite. Our code is publicly available at: https://github.com/ripl/maps.
翻訳日:2023-06-21 23:24:30 公開日:2023-06-17
# SWAPネットワークのための資源効率の良い回路コンパイル

Resource-Efficient Circuit Compilation for SWAP Networks ( http://arxiv.org/abs/2306.10250v1 )

ライセンス: Link先を確認
Yun-Jie Wang and Zhao-Yun Chen and Yu-Chun Wu and Guo-Ping Guo(参考訳) SWAPネットワークは、論理演算を物理的に隣接した量子ビットにマッピングすることで、量子システムの限られた接続に対処する有望なソリューションを提供する。 本稿では,SWAPネットワークにおいて,オーバーコンプリートなネイティブゲートの集合を利用する拡張を伴って,新たな分解戦略を提案する。 包括的評価を通じて,一般化SWAPネットワークと量子ランダムアクセスメモリ(QRAM)の実装の合理化とゲート数削減におけるプロトコルの有効性を実証する。 我々の研究は、接続性が制限されたことによる課題に取り組み、スワップネットワークの性能向上とqram実装の簡略化につながり、量子コンピューティング技術の進歩に寄与した。

The SWAP network offers a promising solution for addressing the limited connectivity in quantum systems by mapping logical operations to physically adjacent qubits. In this article, we present a novel decomposition strategy for the SWAP network, accompanied by additional extensions that leverage an overcomplete set of native gates. Through comprehensive evaluations, we demonstrate the effectiveness of our protocol in reducing the gate count and streamlining the implementation of generalized SWAP networks and Quantum Random Access Memory (QRAM). Our research tackles the challenges posed by limited connectivity, leading to improved performance of SWAP networks and simplified QRAM implementation, thereby contributing to the advancement of quantum computing technologies.
翻訳日:2023-06-21 23:24:14 公開日:2023-06-17
# Achilles' Heels: 合成データ公開におけるレコード識別の脆弱性

Achilles' Heels: Vulnerable Record Identification in Synthetic Data Publishing ( http://arxiv.org/abs/2306.10308v1 )

ライセンス: Link先を確認
Matthieu Meeus, Florent Guepin, Ana-Maria Cretu and Yves-Alexandre de Montjoye(参考訳) 合成データは、プライバシを維持しながら個人レベルのデータを共有するための最も有望なソリューションと見なされている。 シャドーモデリングに基づくメンバーシップ推論攻撃(MIA)は、合成データのプライバシーリスクを評価する標準的なアプローチとなっている。 非常に効果的だが、作成するには大量のデータセットと、単一のレコードによって生じるリスクを評価するためにトレーニングされたモデルが必要である。 したがって、データセットのプライバシーリスクは現在、アドホックメソッドを使用して選択された少数のレコード上でMIAを実行することで評価される。 ここでは、我々の知る限り、合成データパブリッシングのための第一原理的脆弱なレコード識別技術を提案し、記録に最も近い隣人への距離を活用している。 提案手法は,従来のアドホックメソッドを,データセットとジェネレータにまたがって強く上回ることを示す。 また,本手法がmiaの選択やパラメータの選択に堅牢であることを示す。 最後に,合成データ生成器を差分プライベートにする場合,脆弱なレコードを正確に識別することを示す。 脆弱なレコードの選択は、法的視点を含む合成データリリースのプライバシーを評価する際に、より正確なMIAと同じくらい重要である。 そこで本稿では,単純かつ高効率な手法を提案する。 提案手法により, 合成データ公開によるリスクを, 研究者がより正確に評価し, より優れたMIAを合成データ上で比較できることを期待する。

Synthetic data is seen as the most promising solution to share individual-level data while preserving privacy. Shadow modeling-based membership inference attacks (MIAs) have become the standard approach to evaluate the privacy risk of synthetic data. While very effective, they require a large number of datasets to be created and models trained to evaluate the risk posed by a single record. The privacy risk of a dataset is thus currently evaluated by running MIAs on a handful of records selected using ad-hoc methods. We here propose what is, to the best of our knowledge, the first principled vulnerable record identification technique for synthetic data publishing, leveraging the distance to a record's closest neighbors. We show our method to strongly outperform previous ad-hoc methods across datasets and generators. We also show evidence of our method to be robust to the choice of MIA and to specific choice of parameters. Finally, we show it to accurately identify vulnerable records when synthetic data generators are made differentially private. The choice of vulnerable records is as important as more accurate MIAs when evaluating the privacy of synthetic data releases, including from a legal perspective. We here propose a simple yet highly effective method to do so. We hope our method will enable practitioners to better estimate the risk posed by synthetic data publishing and researchers to fairly compare ever improving MIAs on synthetic data.
翻訳日:2023-06-21 23:17:18 公開日:2023-06-17
# Deep Huber 量子レグレッションネットワーク

Deep Huber quantile regression networks ( http://arxiv.org/abs/2306.10306v1 )

ライセンス: Link先を確認
Hristos Tyralis, Georgia Papacharalampous, Nilay Dogulu, Kwok P. Chun(参考訳) 典型的な機械学習回帰アプリケーションは、正方形または絶対誤差スコアリング関数を用いたトレーニングを通じて、予測確率分布の平均または中央値の報告を目的としている。 予測確率分布 (quantiles と expectiles) のより機能的な予測の発行の重要性は、予測の不確実性を定量化する手段として認識されている。 ディープラーニング(dl)アプリケーションでは、量子化と期待回帰ニューラルネットワーク(それぞれqrnnとernn)によって実現可能です。 本稿では、QRNNとERNNをエッジケースとしてネストするディープハマー量子回帰ネットワーク(DHQRN)を紹介する。 DHQRNは、限定的なケースとして量子化と期待をネストするという意味で、より一般的な関数であるHuber量子化を予測できる。 主なアイデアは、Huber量子化関数に一貫性のあるHuber量子化回帰関数でディープラーニングアルゴリズムをトレーニングすることである。 概念実証として、オーストラリアの住宅価格を予測するためにdhqrnが用いられる。 この文脈では、3つのDLアーキテクチャの予測性能と、経済ケーススタディの結果の明確な解釈について論じる。

Typical machine learning regression applications aim to report the mean or the median of the predictive probability distribution, via training with a squared or an absolute error scoring function. The importance of issuing predictions of more functionals of the predictive probability distribution (quantiles and expectiles) has been recognized as a means to quantify the uncertainty of the prediction. In deep learning (DL) applications, that is possible through quantile and expectile regression neural networks (QRNN and ERNN respectively). Here we introduce deep Huber quantile regression networks (DHQRN) that nest QRNNs and ERNNs as edge cases. DHQRN can predict Huber quantiles, which are more general functionals in the sense that they nest quantiles and expectiles as limiting cases. The main idea is to train a deep learning algorithm with the Huber quantile regression function, which is consistent for the Huber quantile functional. As a proof of concept, DHQRN are applied to predict house prices in Australia. In this context, predictive performances of three DL architectures are discussed along with evidential interpretation of results from an economic case study.
翻訳日:2023-06-21 23:16:59 公開日:2023-06-17
# 教育用アダプティブライティング支援システムにおけるリビジョン行動の理解

Understanding Revision Behavior in Adaptive Writing Support Systems for Education ( http://arxiv.org/abs/2306.10304v1 )

ライセンス: Link先を確認
Luca Mouchel, Thiemo Wambsganss, Paola Mejia-Domenzain and Tanja K\"aser(参考訳) 適応書記支援システムにおける改訂行動は、これらのツールの設計と効果を改善し、学生の自己統制学習(SRL)を促進することができる重要かつ比較的新しい研究分野である。 これらのツールの使い方を理解することが、学習者の書き方や学習プロセスを支援するための鍵となる。 本稿では,学生の大規模なリビジョン行動に関する洞察を得た,新しいパイプラインを提案する。 教育環境では,適応的な筆記支援ツールを用いて2つのグループのデータセットを活用する。 そこで本研究では,本ツールが学習者間のリビジョンの促進に有効であることを示す。 筆者らは,文章の書き直し時に学習者の異なる戦略を分析した結果,模範事例の利用者は時間とともに改善し,女性はより効率的であることが判明した。 本研究は,srlの大規模行動計測のためのパイプライン(例えば,就業行動やリビジョン行動)に寄与し,学生の筆記支援における効果を高めることを目的として,教育用適応書字支援システムの設計を知らせる。 ソースコードはhttps://github.com/lucamouchel/understanding-revision-behaviorで入手できる。

Revision behavior in adaptive writing support systems is an important and relatively new area of research that can improve the design and effectiveness of these tools, and promote students' self-regulated learning (SRL). Understanding how these tools are used is key to improving them to better support learners in their writing and learning processes. In this paper, we present a novel pipeline with insights into the revision behavior of students at scale. We leverage a data set of two groups using an adaptive writing support tool in an educational setting. With our novel pipeline, we show that the tool was effective in promoting revision among the learners. Depending on the writing feedback, we were able to analyze different strategies of learners when revising their texts, we found that users of the exemplary case improved over time and that females tend to be more efficient. Our research contributes a pipeline for measuring SRL behaviors at scale in writing tasks (i.e., engagement or revision behavior) and informs the design of future adaptive writing support systems for education, with the goal of enhancing their effectiveness in supporting student writing. The source code is available at https://github.com/lucamouchel/Understanding-Revision-Behavior.
翻訳日:2023-06-21 23:16:41 公開日:2023-06-17
# MachMap: コンパクトHDマップ構築のためのエンドツーエンドベクトル化ソリューション

MachMap: End-to-End Vectorized Solution for Compact HD-Map Construction ( http://arxiv.org/abs/2306.10301v1 )

ライセンス: Link先を確認
Limeng Qiao, Yongchao Zheng, Peng Zhang, Wenjie Ding, Xi Qiu, Xing Wei, Chi Zhang(参考訳) 本報告では,自動運転チャレンジ2023 - オンラインHDマップ構築における第1位獲得ソリューションを紹介する。 ベクトル化パイプラインを精査することにより,鳥眼視空間における点検出パラダイムとしてのhd-map構築のタスクをエンドツーエンドで定式化した,machmapと呼ばれる効果的なアーキテクチャを詳細に述べる。 まず,新しいmap-compactionスキームをフレームワークに導入し,表現性能を低下させることなくベクトル化点数を93%削減した。 上記のプロセスに基づいて、一般的なクエリベースのパラダイムに従い、時間ベースのインスタンスデコーダとよく設計されたポイントマスク結合ヘッドであるInternImageのような強力なCNNベースのバックボーンを統合することで、強力なベースラインを提案する。 さらに、追加のオプションアンサンブルステージを使用してモデル予測を洗練し、パフォーマンスを向上させる。 IN-1K を初期化した MachMap-tiny は Argoverse2 ベンチマークで 79.1 の mAP を実現し,さらに改良された MachMap-huge は 83.5 の mAP に達した。

This report introduces the 1st place winning solution for the Autonomous Driving Challenge 2023 - Online HD-map Construction. By delving into the vectorization pipeline, we elaborate an effective architecture, termed as MachMap, which formulates the task of HD-map construction as the point detection paradigm in the bird-eye-view space with an end-to-end manner. Firstly, we introduce a novel map-compaction scheme into our framework, leading to reducing the number of vectorized points by 93% without any expression performance degradation. Build upon the above process, we then follow the general query-based paradigm and propose a strong baseline with integrating a powerful CNN-based backbone like InternImage, a temporal-based instance decoder and a well-designed point-mask coupling head. Additionally, an extra optional ensemble stage is utilized to refine model predictions for better performance. Our MachMap-tiny with IN-1K initialization achieves a mAP of 79.1 on the Argoverse2 benchmark and the further improved MachMap-huge reaches the best mAP of 83.5, outperforming all the other online HD-map construction approaches on the final leaderboard with a distinct performance margin (> 9.8 mAP at least).
翻訳日:2023-06-21 23:16:20 公開日:2023-06-17
# 表向きオントロジー原理を用いた教育機関ドメインの再編成

Reorganizing Educational Institutional Domain using Faceted Ontological Principles ( http://arxiv.org/abs/2306.10300v1 )

ライセンス: Link先を確認
Subhashis Das, Debashis Naskar and Sayon Roy(参考訳) 本研究の目的は,異なる図書館分類システムと言語オントロジーが,特定の関心領域と情報検索の限界をどう配置するかを明らかにすることである。 ドメイン特有なオントロジーの構築には知識表現技術と言語を使用します。 このオントロジーは問題解決に役立つだけでなく、ドメインオントロジーの原則を使って複雑なクエリを扱えることの容易さを示し、より良い情報検索を容易にするだろう。

The purpose of this work is to find out how different library classification systems and linguistic ontologies arrange a particular domain of interest and what are the limitations for information retrieval. We use knowledge representation techniques and languages for construction of a domain specific ontology. This ontology would help not only in problem solving, but it would demonstrate the ease with which complex queries can be handled using principles of domain ontology, thereby facilitating better information retrieval.
翻訳日:2023-06-21 23:15:55 公開日:2023-06-17
# 空気中のエッジインテリジェンス:フェデレートラーニングにおける干渉の2つの側面

Edge Intelligence Over the Air: Two Faces of Interference in Federated Learning ( http://arxiv.org/abs/2306.10299v1 )

ライセンス: Link先を確認
Zihan Chen, Howard H. Yang, Tony Q. S. Quek(参考訳) フェデレーション・エッジ・ラーニングは次世代無線ネットワークにおける知性を実現する基盤として考えられているが、スペクトル資源が限られているためスケーラビリティが制限されることが多い。 この課題を踏まえて、近年の研究では、中間パラメータの高速集約に電磁波の重ね合わせ特性を活用し、(ほぼ)無制限スケーラビリティを実現するために、アナログオーバー・ザ・エア計算を連合エッジ学習システムに統合することを提案した。 オーバーザ・エア計算は、ハードウェアコストの低さ、アクセス遅延の低減、プライバシ保護の強化など、他の面でシステムにもメリットがある。 これらの利点にもかかわらず、無線通信による干渉はモデルトレーニングプロセスの様々な側面にも影響を及ぼすが、その重要性は十分に認識されていない。 本稿では,実機上でのエッジ学習システムにおける干渉の正負の影響について概説する。 潜在的なオープンイシューや研究トレンドについても論じる。

Federated edge learning is envisioned as the bedrock of enabling intelligence in next-generation wireless networks, but the limited spectral resources often constrain its scalability. In light of this challenge, a line of recent research suggested integrating analog over-the-air computations into federated edge learning systems, to exploit the superposition property of electromagnetic waves for fast aggregation of intermediate parameters and achieve (almost) unlimited scalability. Over-the-air computations also benefit the system in other aspects, such as low hardware cost, reduced access latency, and enhanced privacy protection. Despite these advantages, the interference introduced by wireless communications also influences various aspects of the model training process, while its importance is not well recognized yet. This article provides a comprehensive overview of the positive and negative effects of interference on over-the-air computation-based edge learning systems. The potential open issues and research trends are also discussed.
翻訳日:2023-06-21 23:15:47 公開日:2023-06-17
# 数分割アルゴリズムによる量子相互情報再分配

Quantum mutual information redistribution by Number Partitioning algorithm ( http://arxiv.org/abs/2306.10297v1 )

ライセンス: Link先を確認
Muchun Yang, Cheng-Qian Xu, D. L. Zhou(参考訳) 三分割状態における量子情報分布は、量子情報プロセスにおいて基本的な役割を果たす。 ここでは、二項ユニタリ変換 $U_{AB}$ が、三項純状態 $|\psi\rangle_{ABC}$ において、d_A\times d_B\times d_C$ 次元ヒルベルト空間において、量子相互情報を第三者$C$ で再分配する方法を検討する。 特に、パーティー $a$ とパーティー $c$, $i(a:c)=s(\rho_a)-s(\rho_b)+s(\rho_c)$ の間の量子相互エントロピーを最大化する最適なユニタリ変換 $u_{ab}^{\ast}$ を見つけることに集中する。 相互エントロピー $i(a:c)$ はアラキ-リーブの不等式から導かれる 2s(\rho_c)$ で上限される。 この上限は、r_C\le d_A$ を満たすランク $r_{C}$ の任意の純粋状態に対する最適なユニタリ変換によって実現できる。 r_c> d_a$ の一般純状態の場合、上界は任意の二成分ユニタリ変換では実現できない。 後者の場合の相互エントロピーを最大化するために、最適化を修正数分割問題に変換した近似最適ユニタリ変換を生成する高速数値アルゴリズムを提案する。 パラメータ化ユニタリ変換に対するadamアルゴリズムの結果との比較により,本アルゴリズムの有効性を確認した。 この近似アルゴリズムは、高次元の3成分量子状態に対する量子相互情報の再分配を実現するための実用的なプロトコルを提供する。

Quantum information distribution in a tripartite state plays a fundamental role in quantum information processes. Here we investigate how a bipartite unitary transformation $U_{AB}$ redistributes the quantum mutual information with the third party $C$ in a tripartite pure state $|\psi\rangle_{ABC}$ in a $d_A\times d_B\times d_C$ dimensional Hilbert space. In particular, we focus on finding out the optimal unitary transformation $U_{AB}^{\ast}$ that maximizes the quantum mutual entropy between party $A$ and party $C$, $I(A:C)=S(\rho_A)-S(\rho_B)+S(\rho_C)$. We show that the mutual entropy $I(A:C)$ is upper bounded by $2S(\rho_C)$ derived from the Araki-Lieb inequality. This upper bound can be realized via an optimal unitary transformation for any pure state with the rank $r_{C}$ of $\rho_C$ satisfying $r_C\le d_A$. For a generic pure state with $r_C> d_A$, the upper bound can not be realized by any bipartite unitary transformation. To maximize the mutual entropy in the latter case, we propose a fast numerical algorithm to produce an approximate optimal unitary transformation, where our optimization is transformed into a modified number partition problem. The validness of our algorithm is confirmed by its comparison with the results from the Adam algorithm for parameterized unitary transformations. Our approximate algorithm thus provides a practical protocol to implement redistribution of quantum mutual information for a tripartite quantum state with high dimensions.
翻訳日:2023-06-21 23:15:31 公開日:2023-06-17
# シャトルコック衝突イベント検出の新しい展望

A New Perspective for Shuttlecock Hitting Event Detection ( http://arxiv.org/abs/2306.10293v1 )

ライセンス: Link先を確認
Yu-Hsi Chen(参考訳) 本稿では,シャトルコック衝突事故検出のための新しいアプローチを紹介する。 汎用的な手法に頼るのではなく、画像列を推論することでプレイヤーのヒットアクションをキャプチャする。 ビデオクリップでイベントを打つことの特徴を学習するために、SwingNetとして知られるディープラーニングモデルを利用する。 このモデルは、バドミントンを打つ行為に関連する特性とパターンを捉えるように設計されている。 提案するビデオクリップ上でswingnetをトレーニングすることで,その特徴に基づいて,ヒットイベントのインスタンスを正確に認識し,識別することを目指している。 さらに,映像から先行する特徴を抽出するために,特定の映像処理手法を適用し,モデルの学習難易度を著しく低減する。 提案手法は,直感的かつユーザフレンドリなアプローチを提供するだけでなく,バドミントン衝突検出タスクに対する新たな視点を提供する。 ソースコードはhttps://github.com/TW-yuhsi/A-New-Perspective-for-Shuttlecock-Hitting-Event-Detectionで入手できる。

This article introduces a novel approach to shuttlecock hitting event detection. Instead of depending on generic methods, we capture the hitting action of players by reasoning over a sequence of images. To learn the features of hitting events in a video clip, we specifically utilize a deep learning model known as SwingNet. This model is designed to capture the relevant characteristics and patterns associated with the act of hitting in badminton. By training SwingNet on the provided video clips, we aim to enable the model to accurately recognize and identify the instances of hitting events based on their distinctive features. Furthermore, we apply the specific video processing technique to extract the prior features from the video, which significantly reduces the learning difficulty for the model. The proposed method not only provides an intuitive and user-friendly approach but also presents a fresh perspective on the task of detecting badminton hitting events. The source code will be available at https://github.com/TW-yuhsi/A-New-Perspective-for-Shuttlecock-Hitting-Event-Detection.
翻訳日:2023-06-21 23:14:51 公開日:2023-06-17
# 点相互作用の理論の新しい考察

A new look at the theory of point interactions ( http://arxiv.org/abs/2306.10292v1 )

ライセンス: Link先を確認
R. Figari, H. Saberbaghi, A. Teta(参考訳) 多中心点相互作用ハミルトン群の全族について検討する。 これらの作用素の大きな部分族は、2つ以上の散乱中心の位置が一致する場合、特異あるいは自明になることはない。 この意味では、それらはデフォルトでは「局所的」な点相互作用のハミルトニアンとは対照的に正規化されているように見える。 2中心の場合、中心距離の関数として負の固有値の挙動を研究する。 この結果は、2つの重粒子と1つの軽粒子を持つ3粒子系のボルン・オッペンハイマー近似を解析するために用いられる。 我々は,この簡易モデルが超紫外大惨事を示しないことを示すとともに,連続する低エネルギー固有値の比がエフィモフ幾何学則に従うことを証明した。

We investigate the entire family of multi-center point interaction Hamiltonians. We show that a large sub-family of these operators do not become either singular or trivial when the positions of two or more scattering centers tend to coincide. In this sense, they appear to be renormalised by default as opposed to the "local" point interaction Hamiltonians usually considered in the literature as the ones of physical interest. In the two-center case we study the behaviour of the negative eigenvalues as a function of the center distance. The result is used to analyze a formal Born-Oppenheimer approximation of a three-particle system with two heavy and one light particle. We show that this simplified model does not show any ultra-violet catastrophe and we prove that the ratio of successive low energy eigenvalues follows the Efimov geometrical law.
翻訳日:2023-06-21 23:14:24 公開日:2023-06-17
# DsMtGCN:知識グラフ補完のための指向性マルチタスクフレームワーク

DsMtGCN: A Direction-sensitive Multi-task framework for Knowledge Graph Completion ( http://arxiv.org/abs/2306.10290v1 )

ライセンス: Link先を確認
Jining Wang, Chuan Chen, Zibin Zheng, Yuren Zhou(参考訳) 知識グラフ(KG)の固有の不完全性を解決するため、知識グラフ補完(KGC)モデルは、既知の三重項から欠落するリンクを予測するために提案されている。 その中には、グラフ畳み込みネットワーク(GCN)を用いてKGの構造情報を活用することで、より高度な結果を得たものもある。 しかし, 従来のGCNモデルでは, 隣人から異なる方向に集約されたエンティティの埋め込みは, 単に単一のタスクを完了させるだけであり, 前方および後方のサブタスクの要求を無視している。 本稿では,方向情報を完全に活用するための方向感応型マルチタスクgcn (dsmtgcn) を提案し,様々なエンティティとサブタスクに基づいて異なる方向の埋め込みを特異的に結合するマルチヘッドセルフアテンションを適用し,埋め込みの分布を調整する幾何学的制約を課し,従来の二項クロスエントロピー損失を三重不確かさを反映して修正する。 さらに、いくつかのベンチマークデータセット上での競合実験の結果、我々のモデルの有効性を検証する。

To solve the inherent incompleteness of knowledge graphs (KGs), numbers of knowledge graph completion (KGC) models have been proposed to predict missing links from known triples. Among those, several works have achieved more advanced results via exploiting the structure information on KGs with Graph Convolutional Networks (GCN). However, we observe that entity embeddings aggregated from neighbors in different directions are just simply averaged to complete single-tasks by existing GCN based models, ignoring the specific requirements of forward and backward sub-tasks. In this paper, we propose a Direction-sensitive Multi-task GCN (DsMtGCN) to make full use of the direction information, the multi-head self-attention is applied to specifically combine embeddings in different directions based on various entities and sub-tasks, the geometric constraints are imposed to adjust the distribution of embeddings, and the traditional binary cross-entropy loss is modified to reflect the triple uncertainty. Moreover, the competitive experiments results on several benchmark datasets verify the effectiveness of our model.
翻訳日:2023-06-21 23:14:02 公開日:2023-06-17
# サバイバル機械学習と統計的手法を用いた認知症発症リスクの予測--高齢化コホートの英語縦断研究の結果から

Predicting Risk of Dementia with Survival Machine Learning and Statistical Methods: Results on the English Longitudinal Study of Ageing Cohort ( http://arxiv.org/abs/2306.10330v1 )

ライセンス: Link先を確認
Daniel Stamate, Henry Musto, Olesya Ajnakina, Daniel Stahl(参考訳) 認知症の発症を予測する機械学習モデルは、通常、イベントが発生するまでの時間を無視した分類手法に従う。 本研究は,機械学習手法の文脈でサバイバル分析を用いた代替案を提案する。 ランダムフォレストと弾性ネットの機械学習アルゴリズムに基づく2つのサバイバル手法拡張を、英語の長周期ELSAコホートに基づくトレーニング、最適化、予測モデルの評価に適用した。 2つのサバイバル機械学習モデルは従来の統計的コックス比例ハザードモデルと比較され、ネストクロスバリデーションやモンテカルロ検証のような計算集約的な手順で示されるように、ELSAデータの予測能力と安定性が優れたことを証明している。 この研究は、ELSAデータにサバイバル機械学習を適用した最初の試みであり、この場合、サバイバル分析において広く用いられているコックス統計手法よりもAIベースの予測モデルアプローチの方が優れていることを示す。 含意,方法論的考察,今後の研究方向性について論じる。

Machine learning models that aim to predict dementia onset usually follow the classification methodology ignoring the time until an event happens. This study presents an alternative, using survival analysis within the context of machine learning techniques. Two survival method extensions based on machine learning algorithms of Random Forest and Elastic Net are applied to train, optimise, and validate predictive models based on the English Longitudinal Study of Ageing ELSA cohort. The two survival machine learning models are compared with the conventional statistical Cox proportional hazard model, proving their superior predictive capability and stability on the ELSA data, as demonstrated by computationally intensive procedures such as nested cross-validation and Monte Carlo validation. This study is the first to apply survival machine learning to the ELSA data, and demonstrates in this case the superiority of AI based predictive modelling approaches over the widely employed Cox statistical approach in survival analysis. Implications, methodological considerations, and future research directions are discussed.
翻訳日:2023-06-21 23:07:35 公開日:2023-06-17
# ブロックチェーン技術による健康保険の管理

Managing health insurance using blockchain technology ( http://arxiv.org/abs/2306.10329v1 )

ライセンス: Link先を確認
Tajkia Nuri Ananna, Munshi Saifuzzaman, Mohammad Jabed Morshed Chowdhury, Md Sadek Ferdous(参考訳) 健康保険は質の高い医療を確保する上で重要な役割を果たしている。 医療業界のコストの高騰に対応して、医療保険の需要が急増している。 さらに、健康保険の患者は、健康保険の患者よりも予防医療を受ける傾向にある。 しかし、健康保険の付与から保険者へのサービス提供まで、健康保険業界は多くの障害に直面している。 不正な行動、虚偽の主張、透明性とデータのプライバシーの欠如、消費者、医療専門家、さらには保険会社自体の人的努力への依存は、成功への最も一般的かつ重要なハードルである。 これらの制約を考えると、この章は医療保険業界における最も直接的な懸念を簡潔に取り上げ、ブロックチェーン技術の統合がこれらの問題を解決する上でどのように寄与するかについての洞察を提供する。 この章は、既存の制限と将来の方向性を強調して終わる。

Health insurance plays a significant role in ensuring quality healthcare. In response to the escalating costs of the medical industry, the demand for health insurance is soaring. Additionally, those with health insurance are more likely to receive preventative care than those without health insurance. However, from granting health insurance to delivering services to insured individuals, the health insurance industry faces numerous obstacles. Fraudulent actions, false claims, a lack of transparency and data privacy, reliance on human effort and dishonesty from consumers, healthcare professionals, or even the insurer party itself, are the most common and important hurdles towards success. Given these constraints, this chapter briefly covers the most immediate concerns in the health insurance industry and provides insight into how blockchain technology integration can contribute to resolving these issues. This chapter finishes by highlighting existing limitations as well as potential future directions.
翻訳日:2023-06-21 23:07:15 公開日:2023-06-17
# ADNIコホートを用いた生存機械学習によるアルツハイマー病診断の予測

Predicting Alzheimers Disease Diagnosis Risk over Time with Survival Machine Learning on the ADNI Cohort ( http://arxiv.org/abs/2306.10326v1 )

ライセンス: Link先を確認
Henry Musto, Daniel Stamate, Ida Pu, Daniel Stahl(参考訳) 世界中のアルツハイマー病の流行は認知症につながる認知低下の悪化を予測できる効率的なツールの探索を促している。 本稿では,サバイバル機械学習の可能性を,劣化だけでなく劣化の確率も予測可能なモデル構築のためのツールとして検討する。 臨床研究およびアルツハイマー病のリスク予測において,優れた予測能力(0.86 C-Index)を示し,その活用を支援する。

The rise of Alzheimers Disease worldwide has prompted a search for efficient tools which can be used to predict deterioration in cognitive decline leading to dementia. In this paper, we explore the potential of survival machine learning as such a tool for building models capable of predicting not only deterioration but also the likely time to deterioration. We demonstrate good predictive ability (0.86 C-Index), lending support to its use in clinical investigation and prediction of Alzheimers Disease risk.
翻訳日:2023-06-21 23:07:01 公開日:2023-06-17
# ai clinics on mobile (aicom) : 未熟で手の届かない人のためのユニバーサルai医師

AI Clinics on Mobile (AICOM): Universal AI Doctors for the Underserved and Hard-to-Reach ( http://arxiv.org/abs/2306.10324v1 )

ライセンス: Link先を確認
Tim Tianyi Yang, Tom Tianze Yang, Na An, Ao Kong, Shaoshan Liu, and Steve Xue Liu(参考訳) 本稿では,健康に関する国連持続可能な開発目標3(sdg3)への回答を目的としたオープンソースプロジェクトであるaicom(artificial intelligence clinics on mobile)について紹介する。 AICOMプロジェクトの主な動機は、最先進国(LDC)の80%以上が携帯電話を所有しているという事実にある。 したがって、接続のない安価な携帯電話でaiベースの病気診断とスクリーニング機能を有効にすることで、医療アクセス問題に対処するための重要な第一歩となる。 AICOMプロジェクトで開発された技術はこの目標を正確に達成し,サルポックススクリーニングにおけるAICOMの有効性を実証した。 私たちは、AICOMプラットフォームの拡張とオープンソース化を継続し、Universal AI doctor for the Underserved and Hard-to-Reachに進化することを目指しています。

This paper introduces Artificial Intelligence Clinics on Mobile (AICOM), an open-source project devoted to answering the United Nations Sustainable Development Goal 3 (SDG3) on health, which represents a universal recognition that health is fundamental to human capital and social and economic development. The core motivation for the AICOM project is the fact that over 80% of the people in the least developed countries (LDCs) own a mobile phone, even though less than 40% of these people have internet access. Hence, through enabling AI-based disease diagnostics and screening capability on affordable mobile phones without connectivity will be a critical first step to addressing healthcare access problems. The technologies developed in the AICOM project achieve exactly this goal, and we have demonstrated the effectiveness of AICOM on monkeypox screening tasks. We plan to continue expanding and open-sourcing the AICOM platform, aiming for it to evolve into an universal AI doctor for the Underserved and Hard-to-Reach.
翻訳日:2023-06-21 23:06:54 公開日:2023-06-17
# MO-VLN: オープンセットゼロショットビジョン・ランゲージナビゲーションのためのマルチタスクベンチマーク

MO-VLN: A Multi-Task Benchmark for Open-set Zero-Shot Vision-and-Language Navigation ( http://arxiv.org/abs/2306.10322v1 )

ライセンス: Link先を確認
Xiwen Liang, Liang Ma, Shanshan Guo, Jianhua Han, Hang Xu, Shikui Ma, Xiaodan Liang(参考訳) 自然言語が与えられた場合、一般的なロボットは指示を理解し、探索されていない環境でも視覚観察に基づいて対象物や位置を見つける必要がある。 ほとんどのエージェントは、高度な一般化を達成するために、膨大な多様なトレーニングデータに依存している。 これらのエージェントは、しばしば共通のオブジェクトと少ないタスクに焦点を当てるため、異なる種類の命令を扱うのに十分な知性を持たない。 オープンセット視覚・言語ナビゲーションの研究を容易にするために,マルチタスク設定におけるエージェントの有効性と一般化の検証を目的としたMO-VLNというベンチマークを提案する。 まず,よりリアルな照明とディテールを備えたunreal engine 5を用いて,現実的なシナリオによる3次元シミュレータを開発した。 シミュレーターには、カフェ、レストラン、介護施設の3つのシーンがあり、業界で高い価値がある。 また,本シミュレータは,既存の環境に比べて複雑である,テイクウェイカップや医療用粘着テープなど,多種多様な不定期な物体を包含する。 近年の大規模言語モデル(chatgpt,vicunaなど)の成功に触発されて,人間のアノテーションを使わずに多彩な高品質な命令型データを構築した。 われわれのベンチマークMO-VLNは4つのタスクを提供している。 1) 特定の対象カテゴリー(例えば「フォーク」)が与えられた目標条件付きナビゲーション 2)簡単な指示が与えられた目標条件付きナビゲーション(例えば「テニスボールの探索と移動」) 3) ステップバイステップの指示 4)高レベルの命令に基づく抽象オブジェクト("I am thirsty"など)の発見。

Given a natural language, a general robot has to comprehend the instruction and find the target object or location based on visual observations even in unexplored environments. Most agents rely on massive diverse training data to achieve better generalization, which requires expensive labor. These agents often focus on common objects and fewer tasks, thus are not intelligent enough to handle different types of instructions. To facilitate research in open-set vision-and-language navigation, we propose a benchmark named MO-VLN, aiming at testing the effectiveness and generalization of the agent in the multi-task setting. First, we develop a 3D simulator rendered by realistic scenarios using Unreal Engine 5, containing more realistic lights and details. The simulator contains three scenes, i.e., cafe, restaurant, and nursing house, of high value in the industry. Besides, our simulator involves multiple uncommon objects, such as takeaway cup and medical adhesive tape, which are more complicated compared with existing environments. Inspired by the recent success of large language models (e.g., ChatGPT, Vicuna), we construct diverse high-quality data of instruction type without human annotation. Our benchmark MO-VLN provides four tasks: 1) goal-conditioned navigation given a specific object category (e.g., "fork"); 2) goal-conditioned navigation given simple instructions (e.g., "Search for and move towards a tennis ball"); 3) step-by-step instruction following; 4) finding abstract object based on high-level instruction (e.g., "I am thirsty").
翻訳日:2023-06-21 23:06:36 公開日:2023-06-17
# 目に見えないもの:多属性制御可能な対話生成の合成一般化を探る

Seen to Unseen: Exploring Compositional Generalization of Multi-Attribute Controllable Dialogue Generation ( http://arxiv.org/abs/2306.10317v1 )

ライセンス: Link先を確認
Weihao Zeng, Lulu Zhao, Keqing He, Ruotong Geng, Jingang Wang, Wei Wu, Weiran Xu(参考訳) 既存の制御可能な対話生成作業は、単一属性制御に重点を置いており、複数の属性の組み合わせを分割する一般化能力に欠ける。 本稿では,多属性制御可能な対話生成のための合成一般化について検討する。 本稿では,プロンプトベース不整合制御可能な対話生成モデルDCGを提案する。 属性指向のプロンプトベクトルを生成して属性の概念合成を学習し、異なる属性をアンタングルしてより一般化する。 さらに,粒度の異なる複数の属性を対象とした参照自由度評価フレームワークを設計する。 2つのベンチマークによる実験結果から,本手法の有効性と評価指標が証明された。

Existing controllable dialogue generation work focuses on the single-attribute control and lacks generalization capability to out-of-distribution multiple attribute combinations. In this paper, we explore the compositional generalization for multi-attribute controllable dialogue generation where a model can learn from seen attribute values and generalize to unseen combinations. We propose a prompt-based disentangled controllable dialogue generation model, DCG. It learns attribute concept composition by generating attribute-oriented prompt vectors and uses a disentanglement loss to disentangle different attributes for better generalization. Besides, we design a unified reference-free evaluation framework for multiple attributes with different levels of granularities. Experiment results on two benchmarks prove the effectiveness of our method and the evaluation metric.
翻訳日:2023-06-21 23:06:12 公開日:2023-06-17
# FuzzyLogic.jl: 効率的かつ生産的ファジィ推論のための柔軟なライブラリ

FuzzyLogic.jl: a Flexible Library for Efficient and Productive Fuzzy Inference ( http://arxiv.org/abs/2306.10316v1 )

ライセンス: Link先を確認
Luca Ferranti, Jani Boutellier(参考訳) 本稿では,ファジィ推論を行うJuliaライブラリであるtextsc{FuzzyLogic.jl}を紹介する。 ライブラリは完全にオープンソースで、パーミッシブライセンスでリリースされている。 ライブラリの中核となる設計原則は、ユーザフレンドリ、柔軟性、効率性、相互運用性である。 特に,我々のライブラリは使いやすく,表現力に富んだ簡潔なドメイン固有言語でファジィシステムを指定でき,視覚化ツールがいくつかあり,Mamdani,Sugeno,Type-2といった一般的な推論システムをサポートし,カスタムユーザ設定やアルゴリズムで容易に拡張でき,ファジィ推論を効率的に行うことができる。 また、Matlabなどの他のフォーマットからファジィモデルを読むこともできる。 fis、fcl、またはfml。 本稿では,ライブラリの主要な特徴を概説し,いくつかの例でベンチマークし,Matlabファジィツールボックスと比較して大幅に高速化されたことを示す。

This paper introduces \textsc{FuzzyLogic.jl}, a Julia library to perform fuzzy inference. The library is fully open-source and released under a permissive license. The core design principles of the library are: user-friendliness, flexibility, efficiency and interoperability. Particularly, our library is easy to use, allows to specify fuzzy systems in an expressive yet concise domain specific language, has several visualization tools, supports popular inference systems like Mamdani, Sugeno and Type-2 systems, can be easily expanded with custom user settings or algorithms and can perform fuzzy inference efficiently. It also allows reading fuzzy models from other formats such as Matlab .fis, FCL or FML. In this paper, we describe the library main features and benchmark it with a few examples, showing it achieves significant speedup compared to the Matlab fuzzy toolbox.
翻訳日:2023-06-21 23:05:59 公開日:2023-06-17
# FutureTOD:タスク指向対話のための事前学習言語モデルに将来の知識を教える

FutureTOD: Teaching Future Knowledge to Pre-trained Language Model for Task-Oriented Dialogue ( http://arxiv.org/abs/2306.10315v1 )

ライセンス: Link先を確認
Weihao Zeng, Keqing He, Yejie Wang, Chen Zeng, Jingang Wang, Yunsen Xian, Weiran Xu(参考訳) 汎用テキストに基づく事前学習型言語モデルは,NLPシナリオにおいて大きな成功を収める。 しかし、一般的なテキストとタスク指向対話の言語パターンの本質的な違いは、既存の事前学習言語モデルの実用性を低下させる。 現在の対話事前学習法は、対照的な枠組みに依存し、真正と強負の両方を選択するという課題に直面している。 本稿では, 自己学習フレームワークを用いて, これまでの対話コンテキストの表現に今後の知識を割く, 新たな対話事前学習モデルfuturetodを提案する。 私たちの直感は、良い対話表現は、ローカルな文脈情報を学び、将来の情報を予測できるということです。 多様な下流対話タスクに関する広範な実験により,モデルの有効性,特に一般化,ロバスト性,学習における対話表現能力が示された。

Pre-trained language models based on general text enable huge success in the NLP scenario. But the intrinsical difference of linguistic patterns between general text and task-oriented dialogues makes existing pre-trained language models less useful in practice. Current dialogue pre-training methods rely on a contrastive framework and face the challenges of both selecting true positives and hard negatives. In this paper, we propose a novel dialogue pre-training model, FutureTOD, which distills future knowledge to the representation of the previous dialogue context using a self-training framework. Our intuition is that a good dialogue representation both learns local context information and predicts future information. Extensive experiments on diverse downstream dialogue tasks demonstrate the effectiveness of our model, especially the generalization, robustness, and learning discriminative dialogue representations capabilities.
翻訳日:2023-06-21 23:05:42 公開日:2023-06-17
# フリードキンの限られた情報を持つ敵-ジョンセンモデル

Adversaries with Limited Information in the Friedkin--Johnsen Model ( http://arxiv.org/abs/2306.10313v1 )

ライセンス: Link先を確認
Sijing Tu, Stefan Neumann, Aristides Gionis(参考訳) 近年、オンライン・ソーシャルネットワークは社会に不和をもたらし、民主主義を弱体化させ、コミュニティを不安定化させようとする敵の標的となっている。 多くの場合、ゴールは紛争の特定の側面を支持するのではなく、不一致と偏極を高めることである。 このような攻撃を数学的に理解するために、研究者はフリードキン=ジョンセンモデルのような社会学の世論形成モデルを使い、少数のユーザーに対して意見を変えることで敵がどれだけ不和を生み出すか正式に研究している。 この一連の研究において、敵はネットワークトポロジーとすべてのユーザの意見に関する完全な知識を持っていると一般的に考えられている。 しかし、後者の仮定はしばしば非現実的であり、ユーザーの意見が得られず、正確に見積もることが難しい。 この懸念に対処するために、我々は以下の疑問を提起する。 攻撃者は、ネットワークトポロジのみを知っていても、ソーシャルネットワークで不和を和らげることができるのか? 私たちはこの質問に答える。 ネットワーク内の不一致や偏光に強い影響を与える少数のユーザ群を検出するための近似アルゴリズムを提案する。 敵がこれらのユーザを過激化させ、ネットワークにおける初期不一致/分極があまり高くない場合、ユーザの意見が分かっている場合、その設定に定数近似を与える。 影響力のあるユーザの集合を見つけるために、正および負のエッジ重みを持つグラフにおいて、MaxCutの変種に対する新しい近似アルゴリズムを提供する。 ネットワークトポロジにのみアクセス可能な手法を実験的に評価し,ネットワークトポロジとすべてのユーザの意見にアクセス可能な手法として同等の性能を有することを見出した。 さらに、Chen と Racz [IEEE Trans. Netw. Sci. Eng., 2021] によるオープンな質問であるNP完全性証明を提示する。

In recent years, online social networks have been the target of adversaries who seek to introduce discord into societies, to undermine democracies and to destabilize communities. Often the goal is not to favor a certain side of a conflict but to increase disagreement and polarization. To get a mathematical understanding of such attacks, researchers use opinion-formation models from sociology, such as the Friedkin--Johnsen model, and formally study how much discord the adversary can produce when altering the opinions for only a small set of users. In this line of work, it is commonly assumed that the adversary has full knowledge about the network topology and the opinions of all users. However, the latter assumption is often unrealistic in practice, where user opinions are not available or simply difficult to estimate accurately. To address this concern, we raise the following question: Can an attacker sow discord in a social network, even when only the network topology is known? We answer this question affirmatively. We present approximation algorithms for detecting a small set of users who are highly influential for the disagreement and polarization in the network. We show that when the adversary radicalizes these users and if the initial disagreement/polarization in the network is not very high, then our method gives a constant-factor approximation on the setting when the user opinions are known. To find the set of influential users, we provide a novel approximation algorithm for a variant of MaxCut in graphs with positive and negative edge weights. We experimentally evaluate our methods, which have access only to the network topology, and we find that they have similar performance as methods that have access to the network topology and all user opinions. We further present an NP-hardness proof, which was an open question by Chen and Racz [IEEE Trans. Netw. Sci. Eng., 2021].
翻訳日:2023-06-21 23:05:30 公開日:2023-06-17
# 実世界のRAW画像からの効率的なHDR再構成

Efficient HDR Reconstruction from Real-World Raw Images ( http://arxiv.org/abs/2306.10311v1 )

ライセンス: Link先を確認
Qirui Yang, Yihao Liu and Jingyu Yang(参考訳) 高ダイナミックレンジ(HDR)イメージングは、ジェネリックイメージセンサーの限られたダイナミックレンジのため、依然として重要な課題である。 既存の学習ベースのHDR再構成手法の多くは、ダイナミックレンジを拡張するためにブラケット付き露光sRGB画像の集合を取り、画像信号処理装置(ISP)が生画像から複数のsRGB画像を生成することを要求することにより、計算およびメモリ非効率である。 本稿では,生の入力から動的範囲を広げ,再構成したHDR生画像に対して1つのISP処理のみを実行することを提案する。 我々は,(1)新しい計算用生HDRデータ生成パイプラインを設計し,第1の実世界の生HDRデータセットであるRealRaw-HDRを構築し,(2)構造的再パラメータ化手法を用いて軽量なHDRモデルRepUNetを開発し,(3)短時間と長時間の撮影画像間の動きの不一致を軽減するためのプラグアンドプレイ動作アライメント損失を提案する。 広汎な実験により、我々の手法は視覚的品質と量的指標の両方において最先端のパフォーマンスを達成することを示した。

High dynamic range (HDR) imaging is still a significant yet challenging problem due to the limited dynamic range of generic image sensors. Most existing learning-based HDR reconstruction methods take a set of bracketed-exposure sRGB images to extend the dynamic range, and thus are computational- and memory-inefficient by requiring the Image Signal Processor (ISP) to produce multiple sRGB images from the raw ones. In this paper, we propose to broaden the dynamic range from the raw inputs and perform only one ISP processing for the reconstructed HDR raw image. Our key insights are threefold: (1) we design a new computational raw HDR data formation pipeline and construct the first real-world raw HDR dataset, RealRaw-HDR; (2) we develop a lightweight-efficient HDR model, RepUNet, using the structural re-parameterization technique; (3) we propose a plug-and-play motion alignment loss to mitigate motion misalignment between short- and long-exposure images. Extensive experiments demonstrate that our approach achieves state-of-the-art performance in both visual quality and quantitative metrics.
翻訳日:2023-06-21 23:04:55 公開日:2023-06-17
# DCdetector: 時系列異常検出のためのデュアルアテンションコントラスト表現学習

DCdetector: Dual Attention Contrastive Representation Learning for Time Series Anomaly Detection ( http://arxiv.org/abs/2306.10347v1 )

ライセンス: Link先を確認
Yiyuan Yang, Chaoli Zhang, Tian Zhou, Qingsong Wen, Liang Sun(参考訳) 時系列異常検出は、幅広いアプリケーションにとって重要である。 時系列の通常のサンプル分布から逸脱したサンプルを識別することを目的としている。 このタスクの最も基本的な課題は、異常の効果的な識別を可能にする表現マップを学ぶことである。 レコンストラクションに基づく手法が依然として優位であるが、異常による表現学習は、大きな異常損失によってパフォーマンスを損なう可能性がある。 一方、コントラスト学習は、任意のインスタンスを他のインスタンスと明確に区別できる表現を見つけることを目的としており、時系列異常検出のためのより自然で有望な表現をもたらすことができる。 本稿では,マルチスケールな二重注意コントラスト表現学習モデルであるDCdetectorを提案する。 dcdetectorは、新しい二重注意非対称設計を用いて、置換環境と純粋なコントラスト損失を作成し、学習プロセスを導い、優れた識別能力を持つ置換不変表現を学習する。 広範囲な実験により、dcdetectorは複数の時系列異常検出ベンチマークデータセットで最先端の結果を得ることができた。 コードはhttps://github.com/DAMO-DI-ML/KDD2023-DCdetectorで公開されている。

Time series anomaly detection is critical for a wide range of applications. It aims to identify deviant samples from the normal sample distribution in time series. The most fundamental challenge for this task is to learn a representation map that enables effective discrimination of anomalies. Reconstruction-based methods still dominate, but the representation learning with anomalies might hurt the performance with its large abnormal loss. On the other hand, contrastive learning aims to find a representation that can clearly distinguish any instance from the others, which can bring a more natural and promising representation for time series anomaly detection. In this paper, we propose DCdetector, a multi-scale dual attention contrastive representation learning model. DCdetector utilizes a novel dual attention asymmetric design to create the permutated environment and pure contrastive loss to guide the learning process, thus learning a permutation invariant representation with superior discrimination abilities. Extensive experiments show that DCdetector achieves state-of-the-art results on multiple time series anomaly detection benchmark datasets. Code is publicly available at https://github.com/DAMO-DI-ML/KDD2023-DCdetector.
翻訳日:2023-06-21 22:57:11 公開日:2023-06-17
# occluded video 予測のための高速フーリエインセプションネットワーク

Fast Fourier Inception Networks for Occluded Video Prediction ( http://arxiv.org/abs/2306.10346v1 )

ライセンス: Link先を確認
Ping Li and Chenhan Zhang and Xianghua Xu(参考訳) ビデオ予測は、過去のフレームを用いて将来のフレームを生成するピクセルレベルのタスクである。 物体の重なり合いや映像のシーンの閉塞といった連続した複雑な動きがしばしば存在し、このタスクには大きな課題が生じる。 以前の作業は、長期の時間的ダイナミクスをうまく捉えられなかったり、オクルージョンマスクを扱わなかったりする。 これらの課題に対処するため,ビデオ予測のための完全畳み込み型高速フーリエインセプションネットワークである「textit{FFINet}」を開発した。 前者は速いフーリエ畳み込みを採用して受容場を拡大し、複雑な幾何学的構造を持つ欠落領域(閉包)はインパインターで満たされる。 後者は重積フーリエ変換開始モジュールを用いて群畳み込みによる時間的進化とチャネルワイドフーリエ畳み込みによる空間的移動を学習し、局所的特徴と大域的時空間的特徴の両方を捉える。 これにより、より現実的で高品質な未来のフレームが生成される。 モデルを最適化するには、目標である \ie に対して回復損失を課し、接地フレームと回収フレームの間の平均二乗誤差を最小化する。 mnist, taxibj, human3.6m, caltech pedestrian, kthの5つのベンチマークにおける定量的・質的実験結果から, 提案手法の優位性が示された。 私たちのコードはGitHubで入手可能です。

Video prediction is a pixel-level task that generates future frames by employing the historical frames. There often exist continuous complex motions, such as object overlapping and scene occlusion in video, which poses great challenges to this task. Previous works either fail to well capture the long-term temporal dynamics or do not handle the occlusion masks. To address these issues, we develop the fully convolutional Fast Fourier Inception Networks for video prediction, termed \textit{FFINet}, which includes two primary components, \ie, the occlusion inpainter and the spatiotemporal translator. The former adopts the fast Fourier convolutions to enlarge the receptive field, such that the missing areas (occlusion) with complex geometric structures are filled by the inpainter. The latter employs the stacked Fourier transform inception module to learn the temporal evolution by group convolutions and the spatial movement by channel-wise Fourier convolutions, which captures both the local and the global spatiotemporal features. This encourages generating more realistic and high-quality future frames. To optimize the model, the recovery loss is imposed to the objective, \ie, minimizing the mean square error between the ground-truth frame and the recovery frame. Both quantitative and qualitative experimental results on five benchmarks, including Moving MNIST, TaxiBJ, Human3.6M, Caltech Pedestrian, and KTH, have demonstrated the superiority of the proposed approach. Our code is available at GitHub.
翻訳日:2023-06-21 22:56:53 公開日:2023-06-17
# できる限り、私は得られない: マルチモーダルな知識グラフのトポロジーを考慮したマルチホップ推論

Do as I can, not as I get: Topology-aware multi-hop reasoning on multi-modal knowledge graphs ( http://arxiv.org/abs/2306.10345v1 )

ライセンス: Link先を確認
Shangfei Zheng, Hongzhi Yin, Tong Chen, Quoc Viet Hung Nguyen, Wei Chen, and Lei Zhao(参考訳) マルチモーダル知識グラフ(mkg)は、エンティティとリレーションとマルチモーダル補助データからなる三重項を含む。 近年、強化学習(rl)に基づくマルチホップマルチモーダルナレッジグラフ推論(mmkgr)は、解釈可能な方法でmkgの本質的不完全性に対処するため、広く注目を集めている。 しかし、その性能は経験的に設計された報酬とスパースの関係によって制限される。 また、この方法は、トレーニング中にテストエンティティが見られたトランスダクティブ設定のために設計されており、トレーニングセットにテストエンティティが現れないインダクティブ設定ではうまく機能しない。 これらの課題を克服するために,帰納的および帰納的設定下でMKG推論を行うTMR(Topology-aware Multi-hop Reasoning)を提案する。 特に、tmrは主に2つの成分からなる。 1) トポロジを意識した帰納表現は、見知らぬエンティティの指示された関係から情報を取り込み、クエリ関連トポロジの特徴を注意深い方法で集約し、細粒なエンティティ非依存の特徴を生成する。 2) マルチモーダルな特徴融合を完了した後, 関係拡張適応RLは手動の報酬を排除し, 動的にアクションを追加することで, マルチホップ推論を行う。 最後に、帰納的推論評価のために、異なるスケールで新しいMKGデータセットを構築する。 実験により,TMPはインダクティブとトランスダクティブの両方で最先端のMKGR法より優れていた。

Multi-modal knowledge graph (MKG) includes triplets that consist of entities and relations and multi-modal auxiliary data. In recent years, multi-hop multi-modal knowledge graph reasoning (MMKGR) based on reinforcement learning (RL) has received extensive attention because it addresses the intrinsic incompleteness of MKG in an interpretable manner. However, its performance is limited by empirically designed rewards and sparse relations. In addition, this method has been designed for the transductive setting where test entities have been seen during training, and it works poorly in the inductive setting where test entities do not appear in the training set. To overcome these issues, we propose TMR (Topology-aware Multi-hop Reasoning), which can conduct MKG reasoning under inductive and transductive settings. Specifically, TMR mainly consists of two components. (1) The topology-aware inductive representation captures information from the directed relations of unseen entities, and aggregates query-related topology features in an attentive manner to generate the fine-grained entity-independent features. (2) After completing multi-modal feature fusion, the relation-augment adaptive RL conducts multi-hop reasoning by eliminating manual rewards and dynamically adding actions. Finally, we construct new MKG datasets with different scales for inductive reasoning evaluation. Experimental results demonstrate that TMP outperforms state-of-the-art MKGR methods under both inductive and transductive settings.
翻訳日:2023-06-21 22:56:16 公開日:2023-06-17
# プロセスマイニングのための機械学習の調整

Tailoring Machine Learning for Process Mining ( http://arxiv.org/abs/2306.10341v1 )

ライセンス: Link先を確認
Paolo Ceravolo and Sylvio Barbon Junior and Ernesto Damiani and Wil van der Aalst(参考訳) 機械学習モデルは、プロセスマイニングパイプラインに日常的に統合され、データ変換、ノイズ低減、異常検出、分類、予測などのタスクを実行する。 多くの場合、これらのモデルの設計は対応するデータ分布に関するいくつかのアドホックな仮定に基づいているが、プロセスデータで通常観測される非パラメトリック分布に必ずしも従わない。 さらに、彼らが従う学習手順は、データ処理に課される制約を無視する。 データエンコーディングは、これらの仮定間のミスマッチを円滑にするための重要な要素であるが、そのポテンシャルは不十分である。 本稿では,プロセスマイニングと機械学習の健全な統合を構築する上で,プロセスデータを用いた機械学習モデルのトレーニングがもたらした問題に対する深い洞察が重要であることを論じる。 本研究の目的は,機械学習をプロセスマイニングの要件と正しく整合させる手法の基礎を築き,その方向性を解明することである。

Machine learning models are routinely integrated into process mining pipelines to carry out tasks like data transformation, noise reduction, anomaly detection, classification, and prediction. Often, the design of such models is based on some ad-hoc assumptions about the corresponding data distributions, which are not necessarily in accordance with the non-parametric distributions typically observed with process data. Moreover, the learning procedure they follow ignores the constraints concurrency imposes to process data. Data encoding is a key element to smooth the mismatch between these assumptions but its potential is poorly exploited. In this paper, we argue that a deeper insight into the issues raised by training machine learning models with process data is crucial to ground a sound integration of process mining and machine learning. Our analysis of such issues is aimed at laying the foundation for a methodology aimed at correctly aligning machine learning with process mining requirements and stimulating the research to elaborate in this direction.
翻訳日:2023-06-21 22:55:47 公開日:2023-06-17
# 超高忠実複合量子相ゲート

Ultrahigh-fidelity composite quantum phase gates ( http://arxiv.org/abs/2306.10340v1 )

ライセンス: Link先を確認
Hayk L. Gevorgyan and Nikolay V. Vitanov(参考訳) z, s, t, 一般位相ゲートの4つの基本量子位相ゲートに対するcp系列について述べる。 CP配列は最大18個のパルスを含み、パルス振幅と持続時間において最大8つの実験誤差を補償することができる。 短いcpシーケンス(最大8パルス)を解析的に計算し、より長いパルスを数値的に計算する。 本稿では,他のコヒーレント制御技術では同時に達成できない3つの特徴である,過度な精度とエラーに対する堅牢性を伴うCPの顕著な柔軟性を示す。 これらのCP系列、特にZ、S、Tゲートは、様々な物理系で異なる超高忠実度、誤差範囲、速度の最適なバランスを見つけるための様々な選択肢を提供するため、量子情報アプリケーションにおいて非常に有用な量子制御ツールである。

A number of CP sequences for four basic quantum phase gates -- the Z, S, T and general phase gates -- are presented. The CP sequences contain up to 18 pulses and can compensate up to eight orders of experimental errors in the pulse amplitude and duration. The short CP sequences (up to 8 pulses) are calculated analytically and the longer ones numerically. The results presented in this article demonstrate the remarkable flexibility of CPs accompanied by extreme accuracy and robustness to errors -- three features that cannot be simultaneously achieved by any other coherent control technique. These CP sequences, in particular the Z, S and T gates, can be very useful quantum control tools in quantum information applications, because they provide a variety of options to find the optimal balance between ultrahigh fidelity, error range and speed, which may be different in different physical systems.
翻訳日:2023-06-21 22:55:31 公開日:2023-06-17
# 移行学習とBERTモデルを用いたペルシャ意味的役割ラベル付け

Persian Semantic Role Labeling Using Transfer Learning and BERT-Based Models ( http://arxiv.org/abs/2306.10339v1 )

ライセンス: Link先を確認
Saeideh Niksirat Aghdam, Sayyed Ali Hossayni, Erfan Khedersolh Sadeh, Nasim Khozouei, Behrouz Minaei Bidgoli(参考訳) 意味的役割ラベリング(srl)は、文中の各述語における述語-指示構造を検出するプロセスである。 SRLはトピックや概念抽出、質問応答、要約、機械翻訳、感情分析、テキストマイニングといった多くのNLPアプリケーションにおいて、前処理のステップとして重要な役割を果たす。 近年、多くの言語で統一srlは、その優れた性能のために多くの注目を集めており、これはエラー伝播問題を克服した結果である。 しかし、ペルシア語については、これまでのすべての研究はSRLの伝統的な手法に焦点を合わせており、精度が低下し、金融資源、時間、エネルギー消費の面で高価な特徴抽出ステップを課している。 そこで本研究では, 特徴抽出の必要性をなくすだけでなく, 実環境において新たなサンプルを対象とする既存手法よりも優れる, エンドツーエンドのsrl法を提案する。 提案手法は補助的特徴を一切用いておらず, 従来手法に比べて精度が16(83.16)以上向上している。

Semantic role labeling (SRL) is the process of detecting the predicate-argument structure of each predicate in a sentence. SRL plays a crucial role as a pre-processing step in many NLP applications such as topic and concept extraction, question answering, summarization, machine translation, sentiment analysis, and text mining. Recently, in many languages, unified SRL dragged lots of attention due to its outstanding performance, which is the result of overcoming the error propagation problem. However, regarding the Persian language, all previous works have focused on traditional methods of SRL leading to a drop in accuracy and imposing expensive feature extraction steps in terms of financial resources, time and energy consumption. In this work, we present an end-to-end SRL method that not only eliminates the need for feature extraction but also outperforms existing methods in facing new samples in practical situations. The proposed method does not employ any auxiliary features and shows more than 16 (83.16) percent improvement in accuracy against previous methods in similar circumstances.
翻訳日:2023-06-21 22:55:17 公開日:2023-06-17
# トラウマが影に潜む:児童性虐待に関するオンライン投稿におけるメンタルヘルス問題に関するRedditのケーススタディ

Trauma lurking in the shadows: A Reddit case study of mental health issues in online posts about Childhood Sexual Abuse ( http://arxiv.org/abs/2306.10338v1 )

ライセンス: Link先を確認
Orchid Chetia Phukan, Rajesh Sharma, Arun Balaji Buduru(参考訳) 児童性虐待 (Childhood Sexual Abuse, CSA) は、社会への脅威であり、生き残り者の精神的健康に長く影響を及ぼす。 CSAの生存者は、生涯を通じて様々なメンタルヘルス問題に悩まされている。 メンタルヘルス問題に直面しているCSA生存者に対する適切なケアと注意は、CSA生存者のメンタルヘルス状態を劇的に改善させる。 これまでは、オンラインソーシャルメディア(OSM)データを利用してメンタルヘルスの問題を理解する作業は、CSAのバックグラウンドを持つ個人におけるメンタルヘルスの問題に焦点を当てていなかった。 私たちの研究は、CSAに関連するRedditの投稿を調査して、彼らのメンタルヘルス問題を理解することで、このギャップを埋めます。 抑うつ、不安、外傷後ストレス障害(ptsd)などの精神的健康問題は、csaの背景のあるポストで最もよく見られる。 CSA背景の有無にかかわらず、メンタルヘルス問題に関連する投稿の間には、観測可能な違いが存在する。 この違いを念頭に置いて、CSA暴露記事のメンタルヘルス問題を特定するために、2段階のフレームワークを開発しました。 第1段階はCSAの背景と無関係のポストを分類し、第2段階はCSAの背景に分類されるポストのメンタルヘルスの問題を認識する。 第一段階のトップモデルは精度が96.26%、f1スコア(マクロ)が96.24%である。 第2段階では トップモデルはハミングスコア67.09%と報告しています コンテンツ警告: 子どもの性的虐待や抑うつなどの話題に対処するため、読者の判断が推奨される。

Childhood Sexual Abuse (CSA) is a menace to society and has long-lasting effects on the mental health of the survivors. From time to time CSA survivors are haunted by various mental health issues in their lifetime. Proper care and attention towards CSA survivors facing mental health issues can drastically improve the mental health conditions of CSA survivors. Previous works leveraging online social media (OSM) data for understanding mental health issues haven't focused on mental health issues in individuals with CSA background. Our work fills this gap by studying Reddit posts related to CSA to understand their mental health issues. Mental health issues such as depression, anxiety, and Post-Traumatic Stress Disorder (PTSD) are most commonly observed in posts with CSA background. Observable differences exist between posts related to mental health issues with and without CSA background. Keeping this difference in mind, for identifying mental health issues in posts with CSA exposure we develop a two-stage framework. The first stage involves classifying posts with and without CSA background and the second stage involves recognizing mental health issues in posts that are classified as belonging to CSA background. The top model in the first stage is able to achieve accuracy and f1-score (macro) of 96.26% and 96.24%. and in the second stage, the top model reports hamming score of 67.09%. Content Warning: Reader discretion is recommended as our study tackles topics such as child sexual abuse, molestation, etc.
翻訳日:2023-06-21 22:54:58 公開日:2023-06-17
# 公正な因果的特徴選択

Fair Causal Feature Selection ( http://arxiv.org/abs/2306.10336v1 )

ライセンス: Link先を確認
Zhaolong Ling, Jingxuan Wu, Yiwen Zhang, Peng Zhou, Xingyu Wu, Kui Yu, and Xindong Wu(参考訳) 因果的特徴選択は最近、機械学習で注目を集めている。 既存の因果特徴選択アルゴリズムは、最適な特徴サブセットとしてクラス変数のユニークな因果特徴を選択する。 しかし、クラス変数は通常複数の状態を持ち、クラス変数の異なる状態に対して同じ因果特徴を選択することは不公平である。 この問題に対処するため,我々はクラス属性のそれぞれの状態が持つ因果情報を評価するためにクラス固有の相互情報を用い,理論的に各状態と因果特性の関係を解析した。 これに基づいて,FairCFS (Fair Causal Feature Selection Algorithm) が提案され,クラス変数の各状態の因果的特徴を正確に識別する。 具体的には、FairCFSは、各状態の観点から、クラス固有の相互情報のペア比較と、クラス固有の相互情報値のサイズを使い、因果的特徴を見つけるために、分断型フレームワークに従う。 FairCFSの正しさと適用条件を理論的に証明し、FairCFSの最先端手法と比較して効率と優位性を実証するための広範な実験を行った。

Causal feature selection has recently received increasing attention in machine learning. Existing causal feature selection algorithms select unique causal features of a class variable as the optimal feature subset. However, a class variable usually has multiple states, and it is unfair to select the same causal features for different states of a class variable. To address this problem, we employ the class-specific mutual information to evaluate the causal information carried by each state of the class attribute, and theoretically analyze the unique relationship between each state and the causal features. Based on this, a Fair Causal Feature Selection algorithm (FairCFS) is proposed to fairly identifies the causal features for each state of the class variable. Specifically, FairCFS uses the pairwise comparisons of class-specific mutual information and the size of class-specific mutual information values from the perspective of each state, and follows a divide-and-conquer framework to find causal features. The correctness and application condition of FairCFS are theoretically proved, and extensive experiments are conducted to demonstrate the efficiency and superiority of FairCFS compared to the state-of-the-art approaches.
翻訳日:2023-06-21 22:54:35 公開日:2023-06-17
# 常微分方程式のデータ駆動発見のための普遍微分方程式の解析

An analysis of Universal Differential Equations for data-driven discovery of Ordinary Differential Equations ( http://arxiv.org/abs/2306.10335v1 )

ライセンス: Link先を確認
Mattia Silvestri, Federico Baldo, Eleonora Misino, Michele Lombardi(参考訳) 過去10年間で、科学コミュニティは、多くの現象の正確かつ確実な分析を提供するために、科学研究におけるデータ駆動アプローチの展開に注意を向けた。 最も顕著なのは、物理インフォームドニューラルネットワークと、より最近では、ユニバーサル微分方程式(UDE)がシステム統合と識別の両方に有効であることが証明されたことである。 しかし,提案手法の詳細な分析は行われていない。 本研究では、通常の微分方程式(ODE)発見の文脈において、UDEフレームワークをテストすることで貢献する。 本研究では,データ駆動アプローチと数値解法を組み合わせた場合の問題点を2つのケーススタディで分析し,データ収集プロセスの重要性について検討する。 我々は,この分析が物理インフォームド機械学習フレームワークの機能と限界の調査に重要な貢献をしていると考えている。

In the last decade, the scientific community has devolved its attention to the deployment of data-driven approaches in scientific research to provide accurate and reliable analysis of a plethora of phenomena. Most notably, Physics-informed Neural Networks and, more recently, Universal Differential Equations (UDEs) proved to be effective both in system integration and identification. However, there is a lack of an in-depth analysis of the proposed techniques. In this work, we make a contribution by testing the UDE framework in the context of Ordinary Differential Equations (ODEs) discovery. In our analysis, performed on two case studies, we highlight some of the issues arising when combining data-driven approaches and numerical solvers, and we investigate the importance of the data collection process. We believe that our analysis represents a significant contribution in investigating the capabilities and limitations of Physics-informed Machine Learning frameworks.
翻訳日:2023-06-21 22:54:16 公開日:2023-06-17
# アルツハイマー病の悪化予測のための機械学習アプローチ

A Machine Learning Approach for Predicting Deterioration in Alzheimer's Disease ( http://arxiv.org/abs/2306.10334v1 )

ライセンス: Link先を確認
Henry Musto, Daniel Stamate, Ida Pu, Daniel Stahl(参考訳) 本稿では,機械学習を用いたアルツハイマー病の悪化について検討する。 被験者は、アルツハイマー病神経画像イニシアチブ(デマトグラフィー、遺伝学、CSF、イメージング、神経心理学検査など)のデータを用いて、最終訪問時の劣化(本質的にはイエス/ノー分類)の結果として、ベースライン診断に基づいて2つのデータセットに分割された。 勾配ブースティングを含む6つの機械学習モデルが構築され、ネストしたクロスバリデーション手順を使用してこれらのデータセット上で評価された。 認知正常群のうちどれが悪化し,より悪い診断(AUC = 0.88)を受けたかをCARTで予測し,良好な予測能力を示すことができた。 軽度認知障害群では弾性ネット(auc = 0.76)を用いて良好な劣化予測能力を得ることができた。

This paper explores deterioration in Alzheimers Disease using Machine Learning. Subjects were split into two datasets based on baseline diagnosis (Cognitively Normal, Mild Cognitive Impairment), with outcome of deterioration at final visit (a binomial essentially yes/no categorisation) using data from the Alzheimers Disease Neuroimaging Initiative (demographics, genetics, CSF, imaging, and neuropsychological testing etc). Six machine learning models, including gradient boosting, were built, and evaluated on these datasets using a nested crossvalidation procedure, with the best performing models being put through repeated nested cross-validation at 100 iterations. We were able to demonstrate good predictive ability using CART predicting which of those in the cognitively normal group deteriorated and received a worse diagnosis (AUC = 0.88). For the mild cognitive impairment group, we were able to achieve good predictive ability for deterioration with Elastic Net (AUC = 0.76).
翻訳日:2023-06-21 22:54:02 公開日:2023-06-17
# 非線形ポリシーを持つ線形系の非漸近的システム同定

Non-asymptotic System Identification for Linear Systems with Nonlinear Policies ( http://arxiv.org/abs/2306.10369v1 )

ライセンス: Link先を確認
Yingying Li, Tianpeng Zhang, Subhro Das, Jeff Shamma, Na Li(参考訳) 本稿では,一般非線形・時変政策下での線形系の単軌跡系同定問題とランダム励振雑音について考察する。 この問題は、制約付き線形システムに対する安全な学習ベースの制御によって動機付けられ、学習プロセス中の安全なポリシーは通常非線形で、状態と入力制約を満たすための時間変化がある。 本稿では,生成した状態と動作の軌跡が有界である限り,任意の非線形および/または時変ポリシによってデータ軌跡が生成される場合に,最小二乗推定に対して非漸近的誤差を与える。 これは、通常ランダム入力や線形ポリシーを考える線形システム同定のための既存の非漸近的保証を著しく一般化する。 興味深いことに、我々の誤差境界は、軌道長、システム次元、励起レベルへの依存に関する線形ポリシーと一致している。 最後に、ロバストなモデル予測制御による安全な学習による結果の応用を実証し、数値解析を行う。

This paper considers a single-trajectory system identification problem for linear systems under general nonlinear and/or time-varying policies with i.i.d. random excitation noises. The problem is motivated by safe learning-based control for constrained linear systems, where the safe policies during the learning process are usually nonlinear and time-varying for satisfying the state and input constraints. In this paper, we provide a non-asymptotic error bound for least square estimation when the data trajectory is generated by any nonlinear and/or time-varying policies as long as the generated state and action trajectories are bounded. This significantly generalizes the existing non-asymptotic guarantees for linear system identification, which usually consider i.i.d. random inputs or linear policies. Interestingly, our error bound is consistent with that for linear policies with respect to the dependence on the trajectory length, system dimensions, and excitation levels. Lastly, we demonstrate the applications of our results by safe learning with robust model predictive control and provide numerical analysis.
翻訳日:2023-06-21 22:48:11 公開日:2023-06-17
# コールドハイブリッド電気光学イオントラップ

Cold hybrid electrical-optical ion trap ( http://arxiv.org/abs/2306.10366v1 )

ライセンス: Link先を確認
Jin-Ming Cui, Shi-Jia Sun, Xi-Wang Luo, Yun-Feng Huang, Chuan-Feng Li, Guang-Can Guo(参考訳) 量子情報や量子化学などの研究の進歩は、粒子(イオン、中性原子、分子など)を捕捉するための微妙な方法を必要とする。 本稿では,ポールトラップと光トワイザーを組み合わせたハイブリッドイオントラップ法を提案する。 このトラップは、ポールトラップの深いポテンシャル特性の進歩と光学双極子トラップのマイクロモーションフリー機能を組み合わせたものである。 ポールトラップの無線周波数電圧と同期的に光双極子トラップを変調することにより、トラップ中心内の交互電気力が完全に反作用し、トラップ深さが300Kを超えている間に、コールドトラップイオンの微動温度がnKのオーダーに達する。 これらの特徴は、$s$-waveレジームでイオンと原子の冷たい衝突を可能にし、コールドハイブリッドシステムで生成した分子イオンを安定して捕捉する。 これにより、イオンと周囲の中性粒子との相互作用を探究し、新しい反応経路や反応生成物の研究を可能にするユニークなプラットフォームを提供する。

Advances in research such as quantum information and quantum chemistry require subtle methods for trapping particles (including ions, neutral atoms, molecules, etc.). Here we propose a hybrid ion trapping method by combining a Paul trap with optical tweezers. The trap combines the advances of the deep-potential feature for the Paul trap and the micromotion-free feature for the optical dipole trap. By modulating the optical-dipole trap synchronously with the radio frequency voltage of the Paul trap, the alternating electrical force in the trap center is fully counteracted, and the micromotion temperature of a cold trapped ion can reach the order of nK while the trap depth is beyond 300K. These features will enable cold collisions between an ion and an atom in the $s$-wave regime and stably trap the produced molecular ion in the cold hybrid system. This will provide a unique platform for probing the interactions between the ions and the surrounding neutral particles and enable the investigation of new reaction pathways and reaction products in the cold regime.
翻訳日:2023-06-21 22:47:55 公開日:2023-06-17
# MAX-CUTの連続量子ウォークは熱い

Continuous-time quantum walks for MAX-CUT are hot ( http://arxiv.org/abs/2306.10365v1 )

ライセンス: Link先を確認
Robert J. Banks, Ehsan Haque, Farah Nazef, Fatima Fethallah, Fatima Ruqaya, Hamza Ahsan, Het Vora, Hibah Tahir, Ibrahim Ahmad, Isaac Hewins, Ishaq Shah, Krish Baranwal, Mannan Arora, Mateen Asad, Mubasshirah Khan, Nabian Hasan, Nuh Azad, Salgai Fedaiee, Shakeel Majeed, Shayam Bhuyan, Tasfia Tarannum, Yahya Ali, Dan E. Browne and P. A. Warburton(参考訳) 時間非依存ハミルトニアンと熱化の関係を利用して、MAX-CUTの連続時間量子ウォークの性能に関するヒューリスティックな予測を行う。 その結果得られる予測は、基礎となるマックスカットグラフの三角形の数に依存する。 これらの結果を,多段階量子ウォークとフロケシステムによる時間依存的な設定に拡張する。 このアプローチは、連続時間量子アルゴリズムによる組合せ最適化問題に取り組む際のユニタリダイナミクスの役割を理解する新しい方法を提供する。

By exploiting the link between time-independent Hamiltonians and thermalisation, heuristic predictions on the performance of continuous-time quantum walks for MAX-CUT are made. The resulting predictions depend on the number of triangles in the underlying MAX-CUT graph. We extend these results to the time-dependent setting with multi-stage quantum walks and Floquet systems. The approach followed here provides a novel way of understanding the role of unitary dynamics in tackling combinatorial optimisation problems with continuous-time quantum algorithms.
翻訳日:2023-06-21 22:47:38 公開日:2023-06-17
# rgb熱セマンティクスセグメンテーションのための残留空間融合ネットワーク

Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation ( http://arxiv.org/abs/2306.10364v1 )

ライセンス: Link先を確認
Ping Li and Junjie Chen and Binbin Lin and Xianghua Xu(参考訳) セマンティクスのセグメンテーションは、自動運転やロボットセンシングといった幅広い応用において重要な役割を果たす。 従来の方法では、主にRGBイメージを使用し、照明条件、陰、暗黒の影響が大きい。 近年の研究では、セグメンテーションの補正として、熱画像は夜のシナリオに頑健であることが示されている。 しかし、既存の作品はrgb-thermal (rgb-t) イメージを単純に融合するか、rgbストリームと熱ストリームの両方に同じ構造を持つエンコーダを採用するかのいずれかであり、様々な照明条件下でのセグメンテーションのモダリティ差を無視している。 そこで本研究では,RGB-TセマンティックセグメンテーションのためのResidual Space Fusion Network (RSFNet)を提案する。 具体的には、RGBと熱画像の補正特徴を学習するために非対称エンコーダを用いる。 両モード特徴を効果的に融合させるため,特徴学習を監督するために相性検出により擬似ラベルを生成し,構造的再パラメータ化を備えた残留空間融合(RSF)モジュールを開発した。 RSFは階層的特徴融合を用いて多レベル特徴を集約し、空間重みを残差接続で適用し、信頼ゲートによる多スペクトル特徴融合を適応的に制御する。 2つのベンチマーク ( \ie, mfnet database, pst900 database) で広範な実験が行われた。 その結果,本手法は精度と速度のバランスを良好に保ちつつ,最先端のセグメンテーション性能を示すことができた。

Semantic segmentation plays an important role in widespread applications such as autonomous driving and robotic sensing. Traditional methods mostly use RGB images which are heavily affected by lighting conditions, \eg, darkness. Recent studies show thermal images are robust to the night scenario as a compensating modality for segmentation. However, existing works either simply fuse RGB-Thermal (RGB-T) images or adopt the encoder with the same structure for both the RGB stream and the thermal stream, which neglects the modality difference in segmentation under varying lighting conditions. Therefore, this work proposes a Residual Spatial Fusion Network (RSFNet) for RGB-T semantic segmentation. Specifically, we employ an asymmetric encoder to learn the compensating features of the RGB and the thermal images. To effectively fuse the dual-modality features, we generate the pseudo-labels by saliency detection to supervise the feature learning, and develop the Residual Spatial Fusion (RSF) module with structural re-parameterization to learn more promising features by spatially fusing the cross-modality features. RSF employs a hierarchical feature fusion to aggregate multi-level features, and applies the spatial weights with the residual connection to adaptively control the multi-spectral feature fusion by the confidence gate. Extensive experiments were carried out on two benchmarks, \ie, MFNet database and PST900 database. The results have shown the state-of-the-art segmentation performance of our method, which achieves a good balance between accuracy and speed.
翻訳日:2023-06-21 22:47:30 公開日:2023-06-17
# 潜時拡散モデルを用いたテキスト駆動型フォリー音生成

Text-Driven Foley Sound Generation With Latent Diffusion Model ( http://arxiv.org/abs/2306.10359v1 )

ライセンス: Link先を確認
Yi Yuan, Haohe Liu, Xubo Liu, Xiyuan Kang, Peipei Wu, Mark D.Plumbley, Wenwu Wang(参考訳) Foley Sound Generationはマルチメディアコンテンツのための背景音の合成を目的としている。 従来のモデルは通常、ラベルを入力として大規模な開発セット(シングルナンバーやワンホットベクトルなど)を使用する。 本研究では,テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。 データ不足の問題を緩和するため,本モデルはまず,大規模データセットを事前学習し,コントラスト言語-オーディオ関連(clap)手法を用いた転送学習により,このタスクを微調整した。 テキストエンコーダによって抽出された特徴埋め込みは,生成モデルの性能に大きな影響を与える可能性がある。 したがって、エンコーダの後、トレーニング可能な層を導入し、エンコーダによって生成されたテキスト埋め込みを改善する。 また、複数の候補音声クリップを同時に生成し、候補クリップの埋め込みと対象テキストラベルの埋め込みとの類似度スコアで決定される最良波形を選択することにより、生成された波形をさらに洗練する。 提案手法を用いて,DCASEチャレンジ2023タスク7に提出されたシステムのうち,${1}^{st}$をランク付けする。 アブレーション実験の結果,提案手法は音響発生性能を著しく向上させることが示された。 提案するシステムの実装コードはオンラインで公開されている。

Foley sound generation aims to synthesise the background sound for multimedia content. Previous models usually employ a large development set with labels as input (e.g., single numbers or one-hot vector). In this work, we propose a diffusion model based system for Foley sound generation with text conditions. To alleviate the data scarcity issue, our model is initially pre-trained with large-scale datasets and fine-tuned to this task via transfer learning using the contrastive language-audio pertaining (CLAP) technique. We have observed that the feature embedding extracted by the text encoder can significantly affect the performance of the generation model. Hence, we introduce a trainable layer after the encoder to improve the text embedding produced by the encoder. In addition, we further refine the generated waveform by generating multiple candidate audio clips simultaneously and selecting the best one, which is determined in terms of the similarity score between the embedding of the candidate clips and the embedding of the target text label. Using the proposed method, our system ranks ${1}^{st}$ among the systems submitted to DCASE Challenge 2023 Task 7. The results of the ablation studies illustrate that the proposed techniques significantly improve sound generation performance. The codes for implementing the proposed system are available online.
翻訳日:2023-06-21 22:47:02 公開日:2023-06-17
# MATNet:マルチレベルフュージョンとセルフアテンション・トランスフォーマを用いた多段マルチステップPV生成予測

MATNet: Multi-Level Fusion and Self-Attention Transformer-Based Model for Multivariate Multi-Step Day-Ahead PV Generation Forecasting ( http://arxiv.org/abs/2306.10356v1 )

ライセンス: Link先を確認
Matteo Tortora, Francesco Conte, Gianluca Natrella, Paolo Soda(参考訳) 再生可能エネルギー源(RES)の現代の電力システムへの統合は、気候変動とマクロ経済と地政学の不安定さによってますます重要になっている。 resの中で、太陽光発電(pv)エネルギーは世界で最も有望な1つとして急速に発展している。 しかし、その普及は、電気系統の不均衡につながる固有の不確実性に関連する課題を提起している。 したがって、PV生産の正確な予測は、これらの不確実性を解消し、現代の電力システムへのPVの統合を促進するのに役立つ。 現在、PV予測方法は、物理ベースの戦略とデータベースの戦略の2つの主要なカテゴリに分けることができる。 しかし、これらのAIベースのモデルは、データ内の複雑なパターンや関係をキャプチャできるが、その現象の物理的な事前知識を無視している。 そこで本稿では,多段型マルチステップ型日頭PV発電予測のための自己注意型トランスフォーマーアーキテクチャであるMATNetを提案する。 aiパラダイムと、物理ベースの手法のpv発電に関する事前の物理知識を組み合わせたハイブリッドアプローチで構成されている。 このモデルは、歴史的pvデータと、多層融合アプローチによる過去の気象データと予測予報データによって供給される。 回帰性能指標の異なるausgridベンチマークデータセットを用いて,提案モデルの有効性を評価した。 その結果,提案アーキテクチャはRMSEが0.0460に等しい現状の手法よりも優れていた。 これらの結果はmatnetが予測精度を向上させる可能性を示し、太陽光発電の電力網への統合を促進するための有望な解決策であることを示唆している。

The integration of renewable energy sources (RES) into modern power systems has become increasingly important due to climate change and macroeconomic and geopolitical instability. Among the RES, photovoltaic (PV) energy is rapidly emerging as one of the world's most promising. However, its widespread adoption poses challenges related to its inherently uncertain nature that can lead to imbalances in the electrical system. Therefore, accurate forecasting of PV production can help resolve these uncertainties and facilitate the integration of PV into modern power systems. Currently, PV forecasting methods can be divided into two main categories: physics-based and data-based strategies, with AI-based models providing state-of-the-art performance in PV power forecasting. However, while these AI-based models can capture complex patterns and relationships in the data, they ignore the underlying physical prior knowledge of the phenomenon. Therefore, we propose MATNet, a novel self-attention transformer-based architecture for multivariate multi-step day-ahead PV power generation forecasting. It consists of a hybrid approach that combines the AI paradigm with the prior physical knowledge of PV power generation of physics-based methods. The model is fed with historical PV data and historical and forecast weather data through a multi-level joint fusion approach. The effectiveness of the proposed model is evaluated using the Ausgrid benchmark dataset with different regression performance metrics. The results show that our proposed architecture significantly outperforms the current state-of-the-art methods with an RMSE equal to 0.0460. These findings demonstrate the potential of MATNet in improving forecasting accuracy and suggest that it could be a promising solution to facilitate the integration of PV energy into the power grid.
翻訳日:2023-06-21 22:46:42 公開日:2023-06-17
# LLMVA-GEBC:ジェネリックイベント境界キャプション用ビデオアダプタ付き大言語モデル

LLMVA-GEBC: Large Language Model with Video Adapter for Generic Event Boundary Captioning ( http://arxiv.org/abs/2306.10354v1 )

ライセンス: Link先を確認
Yunlong Tang, Jinrui Zhang, Xiangchen Wang, Teng Wang, Feng Zheng(参考訳) 本稿では,CVPR 2023ジェネリックイベント境界キャプション(GEBC)コンペティションの優勝について述べる。 従来のビデオキャプションタスクとは異なり、GABCはキャプションモデルに対して、指定されたビデオ境界付近のステータスの即時変化を理解することを要求する。 本稿では, LLMVA-GEBC (Large Language Model with Video Adapter for Generic Event Boundary Captioning): 1) トレーニング済みのLLMを用いて, 高品質な字幕を生成する。 2) GEBC タスクにモデルを適応させるために,ビデオ Q-former をアダプタとして,凍結した視覚特徴抽出器と LLM でトレーニングする。 提案手法は,テストセットの76.14点を達成し,第1位を獲得した。 私たちのコードはhttps://github.com/zjr2000/LLMVA-GEBCで利用可能です。

Our winning entry for the CVPR 2023 Generic Event Boundary Captioning (GEBC) competition is detailed in this paper. Unlike conventional video captioning tasks, GEBC demands that the captioning model possess an understanding of immediate changes in status around the designated video boundary, making it a difficult task. This paper proposes an effective model LLMVA-GEBC (Large Language Model with Video Adapter for Generic Event Boundary Captioning): (1) We utilize a pretrained LLM for generating human-like captions with high quality. (2) To adapt the model to the GEBC task, we take the video Q-former as an adapter and train it with the frozen visual feature extractors and LLM. Our proposed method achieved a 76.14 score on the test set and won the first place in the challenge. Our code is available at https://github.com/zjr2000/LLMVA-GEBC .
翻訳日:2023-06-21 22:46:18 公開日:2023-06-17
# bkd-fedgnn:フェデレーショングラフニューラルネットワークにおける分類バックドア攻撃のベンチマーク

Bkd-FedGNN: A Benchmark for Classification Backdoor Attacks on Federated Graph Neural Network ( http://arxiv.org/abs/2306.10351v1 )

ライセンス: Link先を確認
Fan Liu, Siqi Lai, Yansong Ning, Hao Liu(参考訳) Federated Graph Neural Network(FedGNN)は、グラフニューラルネットワークとフェデレーション学習の強みを統合して、機密データに直接アクセスすることなく高度な機械学習アプリケーションを実現するため、最近急速に成長する研究トピックとして登場した。 そのアドバンテージにもかかわらず、fedgnnの分散性は追加の脆弱性、特に悪意のある参加者によるバックドア攻撃をもたらす。 グラフバックドア攻撃は研究されているが、GNNとフェデレーション学習の組み合わせによって導入された複雑な複雑さは、これらの攻撃の包括的理解を妨げる。 これらの制限に対処するため、FedGNNに対するバックドア攻撃のベンチマークであるBkd-FedGNNを提案する。 具体的には、bkd-fedgnnはグラフバックドア攻撃をトリガ生成とインジェクションステップに分解し、攻撃をノードレベルのフェデレーション設定に拡張することで、ノードレベルとグラフレベルの分類タスクの両方をカバーする統一フレームワークとなる。 さらに,FedGNNに対するバックドア攻撃における複数の重要な要因の影響を徹底的に検討した。 これらの要因は、データ分散、悪意のある攻撃者数、攻撃時間、オーバーラップ率、トリガーサイズ、トリガータイプ、トリガー位置、中毒率など、グローバルレベルおよびローカルレベルの要因に分類される。 最後に、13のベンチマークデータセットと13の重要な要素について総合的な評価を行い、6つのドメインのノードレベルおよびグラフレベルのタスクに関する1,725の実験的な構成を行った。 これらの実験は8,000以上の個別のテストを包含しており、feedgnnのバックドア攻撃に対する理解を深める、徹底した評価と洞察力のある観察を提供することができます。

Federated Graph Neural Network (FedGNN) has recently emerged as a rapidly growing research topic, as it integrates the strengths of graph neural networks and federated learning to enable advanced machine learning applications without direct access to sensitive data. Despite its advantages, the distributed nature of FedGNN introduces additional vulnerabilities, particularly backdoor attacks stemming from malicious participants. Although graph backdoor attacks have been explored, the compounded complexity introduced by the combination of GNNs and federated learning has hindered a comprehensive understanding of these attacks, as existing research lacks extensive benchmark coverage and in-depth analysis of critical factors. To address these limitations, we propose Bkd-FedGNN, a benchmark for backdoor attacks on FedGNN. Specifically, Bkd-FedGNN decomposes the graph backdoor attack into trigger generation and injection steps, and extending the attack to the node-level federated setting, resulting in a unified framework that covers both node-level and graph-level classification tasks. Moreover, we thoroughly investigate the impact of multiple critical factors in backdoor attacks on FedGNN. These factors are categorized into global-level and local-level factors, including data distribution, the number of malicious attackers, attack time, overlapping rate, trigger size, trigger type, trigger position, and poisoning rate. Finally, we conduct comprehensive evaluations on 13 benchmark datasets and 13 critical factors, comprising 1,725 experimental configurations for node-level and graph-level tasks from six domains. These experiments encompass over 8,000 individual tests, allowing us to provide a thorough evaluation and insightful observations that advance our understanding of backdoor attacks on FedGNN.The Bkd-FedGNN benchmark is publicly available at https://github.com/usail-hkust/BkdFedGCN.
翻訳日:2023-06-21 22:46:00 公開日:2023-06-17
# MA-NeRF:スパース画像からの顔合成のための運動支援神経放射場

MA-NeRF: Motion-Assisted Neural Radiance Fields for Face Synthesis from Sparse Images ( http://arxiv.org/abs/2306.10350v1 )

ライセンス: Link先を確認
Weichen Zhang, Xiang Zhou, YuKang Cao, WenSen Feng, Chun Yuan(参考訳) スパース画像からの3次元顔アバター合成の課題に対処する。 顔のアバターの復元のための既存のパラメトリックモデルは、入力に由来する詳細を生成するのに苦労しています。 一方、現在のNeRFベースのアバター法は、新しいビュー合成に有望な結果をもたらすが、未知の表現に対してうまく一般化できない。 パラメトリックな3DMMモデルを利用して、高忠実度乾燥可能な顔アバターを再構成し、未知の表現をうまく処理できる新しいフレームワークを提案する。 実装の核となるのは、構造化変位特徴と意味認識学習モジュールです。 構造的変位特性は, 運動を付加的な制約として導入し, 変位量を構成することにより, 未知の表現に対してより良く機能する。 さらに、セマンティック・アウェア・ラーニングには、セマンティック・埋め込み、学習可能な潜在コードなど、複数のレベルの事前処理が組み込まれ、パフォーマンスをより高いレベルに引き上げる。 フレームワークの設計を定量的かつ定性的に実証するために、詳細な実験が行われており、我々の手法は現在の最先端技術よりもはるかに優れた結果が得られる。

We address the problem of photorealistic 3D face avatar synthesis from sparse images. Existing Parametric models for face avatar reconstruction struggle to generate details that originate from inputs. Meanwhile, although current NeRF-based avatar methods provide promising results for novel view synthesis, they fail to generalize well for unseen expressions. We improve from NeRF and propose a novel framework that, by leveraging the parametric 3DMM models, can reconstruct a high-fidelity drivable face avatar and successfully handle the unseen expressions. At the core of our implementation are structured displacement feature and semantic-aware learning module. Our structured displacement feature will introduce the motion prior as an additional constraints and help perform better for unseen expressions, by constructing displacement volume. Besides, the semantic-aware learning incorporates multi-level prior, e.g., semantic embedding, learnable latent code, to lift the performance to a higher level. Thorough experiments have been doen both quantitatively and qualitatively to demonstrate the design of our framework, and our method achieves much better results than the current state-of-the-arts.
翻訳日:2023-06-21 22:45:27 公開日:2023-06-17
# 感性検索のためのタイポロバスト表現学習

Typo-Robust Representation Learning for Dense Retrieval ( http://arxiv.org/abs/2306.10348v1 )

ライセンス: Link先を確認
Panuthep Tasawong, Wuttikorn Ponwitayarat, Peerat Limkonchotiwat, Can Udomcharoenchaikit, Ekapol Chuangsuwanich, Sarana Nutanong(参考訳) デンス検索は情報検索の基本的な構成要素である。 現実世界の設定における密集検索の主な課題の1つは、ミススペル語を含むクエリの処理である。 ミススペルクエリを扱う一般的なアプローチは、ミススペルクエリとそれらのプリスタントクエリとの差の最小化である。 ミススペルクエリとプリスタンクエリのアライメントのみに焦点を当てた既存のアプローチとは異なり,本手法は各ミススペルクエリと周辺クエリとのコントラストも改善する。 提案手法の有効性を評価するため、2つのベンチマークデータセットと2つのベースエンコーダを用いて既存の競合相手と比較した。 提案手法は,全てのケースにおいて,ミススペルクエリで競合より優れている。 私たちのコードとモデルはhttps://github.com/で利用可能です。 DST-DenseRetrieval.com/panuthept/DST-DenseRetrieval。

Dense retrieval is a basic building block of information retrieval applications. One of the main challenges of dense retrieval in real-world settings is the handling of queries containing misspelled words. A popular approach for handling misspelled queries is minimizing the representations discrepancy between misspelled queries and their pristine ones. Unlike the existing approaches, which only focus on the alignment between misspelled and pristine queries, our method also improves the contrast between each misspelled query and its surrounding queries. To assess the effectiveness of our proposed method, we compare it against the existing competitors using two benchmark datasets and two base encoders. Our method outperforms the competitors in all cases with misspelled queries. Our code and models are available at https://github. com/panuthept/DST-DenseRetrieval.
翻訳日:2023-06-21 22:45:07 公開日:2023-06-17
# ディープニューラルネットワークを用いた映画における感情体験予測の強化:音声と言語の重要性

Enhancing the Prediction of Emotional Experience in Movies using Deep Neural Networks: The Significance of Audio and Language ( http://arxiv.org/abs/2306.10397v1 )

ライセンス: Link先を確認
Sogand Mehrpour Mohammadi, Meysam Gouran Orimi, Hamidreza Rabiee(参考訳) 本稿では,ディープニューラルネットワークモデルを用いて,映画視聴中に経験される人間の感情の範囲を正確に予測することに焦点を当てた。 この設定では、経験的感情に大きく影響を与える3つの明確な入力モダリティが存在する:RGBビデオフレームから派生した視覚的手がかり、音声、音声、音楽を含む聴覚的要素、アクターの対話を含む言語的要素。 感情は、ヴァレンス(幸せから悲しみへ)と覚醒(感情の強さを示す)を含む2要素モデルを用いて記述されることが多い。 この点に関してPlethoraは、ビデオコンテンツから価と刺激を予測するために、数多くのモデルを提示している。 しかし、これらのモデルにはすべて3つのモダリティが含まれておらず、言語はそれらすべてを通して一貫して排除されている。 本研究では,すべてのモダリティを包括的に結合し,それぞれのヴァレンスと覚醒の予測における重要度を確認する分析を行う。 事前学習したニューラルネットワークを用いて,各入力のモダリティを表現する。 視覚入力を処理するために,事前学習された畳み込みニューラルネットワークを用いてシーン[1],オブジェクト[2],アクション[3,4]を認識する。 音声処理には,音声関連タスク,すなわちsoundnet[5]を扱うために設計された専用ニューラルネットワークを用いる。 最後に,変換器(BERT)モデルからの双方向エンコーダ表現を用いて言語特徴[6]を抽出する。 cognimuseデータセット[7]の結果を報告する。ここでは、提案モデルが現在の最先端のアプローチを上回っている。 驚くべきことに, 言語は経験的覚醒に大きく影響するが, 音はヴァレンス予測の主要な決定要因として現れる。 対照的に、視覚モダリティは感情を予測する全てのモダリティの中で最も影響が少ない。

Our paper focuses on making use of deep neural network models to accurately predict the range of human emotions experienced during watching movies. In this certain setup, there exist three clear-cut input modalities that considerably influence the experienced emotions: visual cues derived from RGB video frames, auditory components encompassing sounds, speech, and music, and linguistic elements encompassing actors' dialogues. Emotions are commonly described using a two-factor model including valence (ranging from happy to sad) and arousal (indicating the intensity of the emotion). In this regard, a Plethora of works have presented a multitude of models aiming to predict valence and arousal from video content. However, non of these models contain all three modalities, with language being consistently eliminated across all of them. In this study, we comprehensively combine all modalities and conduct an analysis to ascertain the importance of each in predicting valence and arousal. Making use of pre-trained neural networks, we represent each input modality in our study. In order to process visual input, we employ pre-trained convolutional neural networks to recognize scenes[1], objects[2], and actions[3,4]. For audio processing, we utilize a specialized neural network designed for handling sound-related tasks, namely SoundNet[5]. Finally, Bidirectional Encoder Representations from Transformers (BERT) models are used to extract linguistic features[6] in our analysis. We report results on the COGNIMUSE dataset[7], where our proposed model outperforms the current state-of-the-art approaches. Surprisingly, our findings reveal that language significantly influences the experienced arousal, while sound emerges as the primary determinant for predicting valence. In contrast, the visual modality exhibits the least impact among all modalities in predicting emotions.
翻訳日:2023-06-21 21:04:01 公開日:2023-06-17
# 分散半教師付きスパース統計推論

Distributed Semi-Supervised Sparse Statistical Inference ( http://arxiv.org/abs/2306.10395v1 )

ライセンス: Link先を確認
Jiyuan Tu, Weidong Liu, Xiaojun Mao, Mingyue Xu(参考訳) 本稿では,半教師付きスパース統計推論を分散配置で検討する。 ラベル付きデータとラベル付きデータの両方を統合する効率的なマルチラウンド分散デバイアス推定器を開発した。 ラベルなしのデータを追加することで、各イテレーションのラウンドの統計率が向上することを示す。 本手法は、損失関数の特定の形式に従って、$m$推定と一般化線形モデルのための調整されたデバイアス手法を提供する。 本手法は絶対偏差損失のような非スムース損失にも適用できる。 さらに,このアルゴリズムは高次元逆共分散行列の1つの推定しか必要としないため,計算効率がよい。 提案手法の有効性をシミュレーション研究と実データ応用で示し, ラベルなしデータの導入によるメリットを浮き彫りにした。

This paper is devoted to studying the semi-supervised sparse statistical inference in a distributed setup. An efficient multi-round distributed debiased estimator, which integrates both labeled and unlabelled data, is developed. We will show that the additional unlabeled data helps to improve the statistical rate of each round of iteration. Our approach offers tailored debiasing methods for $M$-estimation and generalized linear model according to the specific form of the loss function. Our method also applies to a non-smooth loss like absolute deviation loss. Furthermore, our algorithm is computationally efficient since it requires only one estimation of a high-dimensional inverse covariance matrix. We demonstrate the effectiveness of our method by presenting simulation studies and real data applications that highlight the benefits of incorporating unlabeled data.
翻訳日:2023-06-21 21:03:33 公開日:2023-06-17
# glyphnet: 注意に基づく畳み込みニューラルネットワークを用いたホモグリフドメインデータセットと検出

GlyphNet: Homoglyph domains dataset and detection using attention-based Convolutional Neural Networks ( http://arxiv.org/abs/2306.10392v1 )

ライセンス: Link先を確認
Akshat Gupta, Laxman Singh Tomar, Ridhima Garg(参考訳) サイバー攻撃はマシンを欺き、そもそも存在しないものを信じさせる。 しかし、人間でさえ獲物になるものもある。 視覚の脆弱性を悪用するために長年にわたって攻撃してきた有名な攻撃は、ホモグリフ攻撃として知られている。 正当なドメインとは区別が難しい非正規ドメインを作成するために、プライマリだが効果的なメカニズムを採用している。 さらに、ユーザが気付くのは、その違いがかなり区別できないため、これらのホモグリフドメイン名をクリックするのを止めることはできない。 多くの場合、それは彼らのシステムに情報盗難またはマルウェア攻撃をもたらす。 既存のアプローチでは、単純な文字列ベースの比較技術がプライマリ言語ベースのタスクに適用されている。 ある程度は影響があるが、それらは通常、異なる種類のホモグリフに頑健ではなく、弦の長さに比例する時間要件のため計算上は実現できないため失敗する。 同様に、ニューラルネットワークベースのアプローチを使用して、偽の文字列から実際のドメイン文字列を決定する。 それでも、両方のメソッドの問題は、実際のドメイン文字列と偽のドメイン文字列のペアシーケンスを連携させる必要があることだ。 したがって、既存のアプローチは現実世界の実践シナリオには適していない。 私たちの研究では、実とホモグリフの両方の4mドメインを含む画像データセットであるglyphnetを作成しました。 さらに,注目に基づく畳み込みニューラルネットワークを用いたホモグリフ攻撃検出システムのベースライン手法を提案する。 その結果,本モデルでは0.93 aucでホモグリフ攻撃を検出できることがわかった。

Cyber attacks deceive machines into believing something that does not exist in the first place. However, there are some to which even humans fall prey. One such famous attack that attackers have used over the years to exploit the vulnerability of vision is known to be a Homoglyph attack. It employs a primary yet effective mechanism to create illegitimate domains that are hard to differentiate from legit ones. Moreover, as the difference is pretty indistinguishable for a user to notice, they cannot stop themselves from clicking on these homoglyph domain names. In many cases, that results in either information theft or malware attack on their systems. Existing approaches use simple, string-based comparison techniques applied in primary language-based tasks. Although they are impactful to some extent, they usually fail because they are not robust to different types of homoglyphs and are computationally not feasible because of their time requirement proportional to the string length. Similarly, neural network-based approaches are employed to determine real domain strings from fake ones. Nevertheless, the problem with both methods is that they require paired sequences of real and fake domain strings to work with, which is often not the case in the real world, as the attacker only sends the illegitimate or homoglyph domain to the vulnerable user. Therefore, existing approaches are not suitable for practical scenarios in the real world. In our work, we created GlyphNet, an image dataset that contains 4M domains, both real and homoglyphs. Additionally, we introduce a baseline method for a homoglyph attack detection system using an attention-based convolutional Neural Network. We show that our model can reach state-of-the-art accuracy in detecting homoglyph attacks with a 0.93 AUC on our dataset.
翻訳日:2023-06-21 21:03:20 公開日:2023-06-17
# デバイス上でのトレーニングメモリウォールの破壊:システム的調査

Breaking On-device Training Memory Wall: A Systematic Survey ( http://arxiv.org/abs/2306.10388v1 )

ライセンス: Link先を確認
Shitian Li and Chunlin Tian and Kahou Tam and Rui Ma and Li Li(参考訳) デバイス上でのトレーニングは、マシンラーニングに対する一般的なアプローチとなり、モデルをモバイルやエッジデバイスで直接トレーニングすることが可能になっている。 しかしながら、この領域における大きな課題は、これらのデバイスで利用可能なメモリの制限であり、トレーニング可能なモデルのサイズと複雑さを厳しく制限することができる。 本稿では,デバイス上でのメモリウォールの破壊に関する最新の技術を探究し,リソース制約のあるデバイスで大規模で複雑なモデルをトレーニングできる手法に注目した。 具体的には,デバイス上でのトレーニング中に発生するメモリ壁の現象に寄与する重要な要因を最初に分析する。 次に、メモリ制限の問題に対処するオンデバイストレーニングに関する総合的な文献レビューを示す。 最後に、デバイス上でのトレーニングを要約し、今後の研究におけるオープンな問題を強調する。 これらの技術の概要とメモリウォールの破壊効果を概観することにより、この分野の研究者や実践者がデバイス上でのトレーニングの急速な発展の展望をナビゲートしたいと考えている。

On-device training has become an increasingly popular approach to machine learning, enabling models to be trained directly on mobile and edge devices. However, a major challenge in this area is the limited memory available on these devices, which can severely restrict the size and complexity of the models that can be trained. In this systematic survey, we aim to explore the current state-of-the-art techniques for breaking on-device training memory walls, focusing on methods that can enable larger and more complex models to be trained on resource-constrained devices. Specifically, we first analyze the key factors that contribute to the phenomenon of memory walls encountered during on-device training. Then, we present a comprehensive literature review of on-device training, which addresses the issue of memory limitations. Finally, we summarize on-device training and highlight the open problems for future research. By providing a comprehensive overview of these techniques and their effectiveness in breaking memory walls, we hope to help researchers and practitioners in this field navigate the rapidly evolving landscape of on-device training.
翻訳日:2023-06-21 21:02:55 公開日:2023-06-17
# 癌転移の術中同定のための深層学習システムの開発

Development of a Deep Learning System for Intra-Operative Identification of Cancer Metastases ( http://arxiv.org/abs/2306.10380v1 )

ライセンス: Link先を確認
Thomas Schnelldorfer, Janil Castro, Atoussa Goldar-Najafi, Liping Liu(参考訳) いくつかのがん患者では、治療目的の手術が早期に再発する可能性がある。 術中癌ステージングの現在の限界、特に可視性転移の術中誤同定は、患者に不要な術中介入をもたらす主な原因であると考えられる。 本稿では,消化管悪性腫瘍症例の腹腔鏡下腹腔鏡画像におけるaiシステムによる腹膜表面転移の認識改善について検討する。 生検下腹膜病変を評価するためのシミュレーション設定において,深層学習による外科的指導システムの試作が腹膜表面転移の同定に有効であった。 この環境では、発達したAIモデルは、転移の同定を5%改善し、不必要な生検の数を現行の標準法に比べて28%削減する。 非バイオプシド腹膜病変を評価した結果, 臨床検査で良性と考えられた腹膜表面転移をAIが同定できる可能性が示唆された。 腹膜表面転移の術中診断のためのaiシステムの技術的実現可能性を示すが,多施設臨床における今後の評価が必要である。

For several cancer patients, operative resection with curative intent can end up in early recurrence of the cancer. Current limitations in peri-operative cancer staging and especially intra-operative misidentification of visible metastases is likely the main reason leading to unnecessary operative interventions in the affected individuals. Here, we evaluate whether an artificial intelligence (AI) system can improve recognition of peritoneal surface metastases on routine staging laparoscopy images from patients with gastrointestinal malignancies. In a simulated setting evaluating biopsied peritoneal lesions, a prototype deep learning surgical guidance system outperformed oncologic surgeons in identifying peritoneal surface metastases. In this environment the developed AI model would have improved the identification of metastases by 5% while reducing the number of unnecessary biopsies by 28% compared to current standard practice. Evaluating non-biopsied peritoneal lesions, the findings support the possibility that the AI system could identify peritoneal surface metastases that were falsely deemed benign in clinical practice. Our findings demonstrate the technical feasibility of an AI system for intra-operative identification of peritoneal surface metastases, but require future assessment in a multi-institutional clinical setting.
翻訳日:2023-06-21 21:02:36 公開日:2023-06-17
# マルチモードダイヤモンド共振器のkerr-optomechanical spectroscopy

Kerr-optomechanical spectroscopy of multimode diamond resonators ( http://arxiv.org/abs/2306.10377v1 )

ライセンス: Link先を確認
Parisa Behjat, Peyman Parsa, Natalia C. Carvalho, Prasoon K. Shandilya and Paul E. Barclay(参考訳) ダイヤモンドマイクロディスクキャビティは光力学とスピンオプトメカニカル技術において重要な役割を担っている。 これらの装置の以前の光学的研究は、基本的な放射呼吸モードのみに焦点を当てている。 これらの構造の他のメカニカルモードへのアクセスは、その光学特性を改善するための経路を特定し、多モードオプティメカニカルシステムを実装し、共鳴スピン-フォノンカップリングプロセスの範囲を広げるために望ましい。 ここでは、ダイヤモンドマイクロディスク上でブロードバンド光学分光を行い、最大10GHzの周波数で高品質のメカニカルモードを観測する。 ダイヤモンドのケラ非線形光学応答による光力学応答のファノ干渉により、これらの高周波モードの光力学結合は10khzを超える可能性があり、高周波マルチモード光メカニックに魅力的である。 数kpaのフォノン当たりの応力と組み合わせて、これらの特性はスピン-オプトメカニカルカップリングの優れた候補となる。

Diamond microdisk cavities play a key role in optomechanical and spin-optomechanical technologies. Previous optomechanical studies of these devices have focused exclusively on their fundamental radial breathing mode. Accessing other mechanical modes of these structures is desirable for identifying routes towards improving their optomechanical properties, implementing multimode optomechanical systems, and broadening the accessible range of resonant spin--phonon coupling processes. Here we perform broadband optomechanical spectroscopy on diamond microdisks, and observe high quality factor mechanical modes with frequencies up to 10 GHz. Through Fano interference of their optomechanical response with diamond's Kerr nonlinear optical response, we estimate that optomechanical coupling of these high frequency modes can exceed 10 kHz, making them attractive for high-frequency multimode optomechanics. In combination with their per-phonon stress of a few kPa, these properties makes them excellent candidates for spin-optomechanical coupling.
翻訳日:2023-06-21 21:02:11 公開日:2023-06-17
# clara: 信頼できる対話型ロボットエージェントのためのユーザコマンドの分類と解除

CLARA: Classifying and Disambiguating User Commands for Reliable Interactive Robotic Agents ( http://arxiv.org/abs/2306.10376v1 )

ライセンス: Link先を確認
Jeongeun Park, Seungwon Lim, Joonhyung Lee, Sangbeom Park, Youngjae Yu and Sungjoon Choi(参考訳) 本稿では,大規模言語モデル(LLM)を用いた対話型ロボットエージェントの文脈において,与えられたユーザコマンドが明確であるか,曖昧であるか,あるいは不可能であるかを推定することに焦点を当てる。 この問題に対処するために,まず,コマンドが確実かどうか(明確か)を分類するためのllmsの不確実性推定法(曖昧か不可能か)を提案する。 コマンドが不確実であると分類されると、ゼロショット方式で状況認識コンテキストでLLMを活用する不明瞭なコマンドと非実用的なコマンドとを区別する。 あいまいなコマンドに対しては、質問生成を通じてLLMと対話することで、コマンドを曖昧にします。 我々は、与えられたコマンドを適切に認識すると、ロボットの誤動作や望ましくない動作が減少し、対話型ロボットエージェントの信頼性が向上すると信じている。 我々は,ロボットの状況認識のためのデータセットを提示する。2つの高レベルコマンド,シーン記述,コマンドタイプのラベル(明快,曖昧,実行不可能)からなる。 提案手法は,テーブルトップのピック・アンド・プレースシミュレーションを用いて検証した。 最後に,実世界のロボットインタラクション実験,すなわちハンドオーバシナリオにおいて提案手法を実証する。

In this paper, we focus on inferring whether the given user command is clear, ambiguous, or infeasible in the context of interactive robotic agents utilizing large language models (LLMs). To tackle this problem, we first present an uncertainty estimation method for LLMs to classify whether the command is certain (i.e., clear) or not (i.e., ambiguous or infeasible). Once the command is classified as uncertain, we further distinguish it between ambiguous or infeasible commands leveraging LLMs with situational aware context in a zero-shot manner. For ambiguous commands, we disambiguate the command by interacting with users via question generation with LLMs. We believe that proper recognition of the given commands could lead to a decrease in malfunction and undesired actions of the robot, enhancing the reliability of interactive robot agents. We present a dataset for robotic situational awareness, consisting pair of high-level commands, scene descriptions, and labels of command type (i.e., clear, ambiguous, or infeasible). We validate the proposed method on the collected dataset, pick-and-place tabletop simulation. Finally, we demonstrate the proposed approach in real-world human-robot interaction experiments, i.e., handover scenarios.
翻訳日:2023-06-21 21:01:56 公開日:2023-06-17
# 不確実性を考慮した意思決定における文脈最適化手法の検討

A Survey of Contextual Optimization Methods for Decision Making under Uncertainty ( http://arxiv.org/abs/2306.10374v1 )

ライセンス: Link先を確認
Utsav Sadana, Abhilash Chenreddy, Erick Delage, Alexandre Forel, Emma Frejinger, Thibaut Vidal(参考訳) 近年,不確実性に直面した意思決定問題を解決するために,予測アルゴリズムと最適化手法を組み合わせた操作研究(OR)と機械学習(ML)コミュニティへの関心が高まっている。 これによりコンテキスト最適化の分野が生まれ、データ駆動の手順が開発され、最も最近更新された情報を最大限に活用する意思決定者にアクションを処方する。 データ駆動型最適化、規範的最適化、予測確率プログラミング、ポリシー最適化、(スマート)予測/見積-最適化、決定中心学習、(タスクベース)エンドツーエンドの学習/予測/最適化など、さまざまな名前でORとMLの文献にさまざまなモデルとメソッドが提示されている。 本稿では,1段階と2段階の確率的プログラミング問題に着目し,データから方針を学ぶための3つの主要なフレームワークを特定し,その強みと限界について論じる。 既存のモデルと手法を統一的な記法と用語で提示し,識別された3つのフレームワークに従って分類する。 この調査の目的は、この活発な研究分野の一般的な理解を強化し、mlと確率的プログラミングの統合におけるさらなる理論とアルゴリズムの進歩を刺激することである。

Recently there has been a surge of interest in operations research (OR) and the machine learning (ML) community in combining prediction algorithms and optimization techniques to solve decision-making problems in the face of uncertainty. This gave rise to the field of contextual optimization, under which data-driven procedures are developed to prescribe actions to the decision-maker that make the best use of the most recently updated information. A large variety of models and methods have been presented in both OR and ML literature under a variety of names, including data-driven optimization, prescriptive optimization, predictive stochastic programming, policy optimization, (smart) predict/estimate-then-optimize, decision-focused learning, (task-based) end-to-end learning/forecasting/optimization, etc. Focusing on single and two-stage stochastic programming problems, this review article identifies three main frameworks for learning policies from data and discusses their strengths and limitations. We present the existing models and methods under a uniform notation and terminology and classify them according to the three main frameworks identified. Our objective with this survey is to both strengthen the general understanding of this active field of research and stimulate further theoretical and algorithmic advancements in integrating ML and stochastic programming.
翻訳日:2023-06-21 21:01:39 公開日:2023-06-17
# Ladder: 画像のラベル付け、オブジェクトの検出、オブジェクト検出のためのモデルの繰り返しデプロイを行うソフトウェア

Ladder: A software to label images, detect objects and deploy models recurrently for object detection ( http://arxiv.org/abs/2306.10372v1 )

ライセンス: Link先を確認
Zhou Tang, and Zhiwu Zhang(参考訳) Object Detection (OD) は、画像やビデオ中の物体を特定し分類できるコンピュータビジョン技術であり、精密農業の効率を大幅に向上させる可能性がある。 ODアプリケーションプロセスをシンプルにするために、トレーニングデータセットの効率的なラベル付け、ODモデルのトレーニング、トレーニングされたモデルのデプロイを可能にするGUIを提供するソフトウェアであるLadderを開発した。 Ladderは、事前訓練されたODモデルの予測を初期画像ラベリングとして活用するインタラクティブなリカレントフレームワークで設計されている。 人間のラベルを追加すると、新たにラベル付けされた画像がトレーニングデータに追加され、ODモデルが再トレーニングされる。 同じGUIで、モデルの重みファイルを読み込んで新しい画像を検出することで、よく訓練されたODモデルをデプロイすることもできる。 我々は、無人航空機(UAV)が撮影したRGB(赤、緑、青)画像の小麦わらに深い学習モデルを構築するためにLadderを用いた。 Ladder は OD を用いて、フィールド画像中の小麦ストライプのさびの重症度を直接評価し、UAV ベースの画像の縫い付けを不要にしている。 低, 中, 高重度スコアはそれぞれ72%, 50%, 80%であった。 このケースは、Ladderが精密農業と作物の育種においてODをいかに強化するかを示している。

Object Detection (OD) is a computer vision technology that can locate and classify objects in images and videos, which has the potential to significantly improve efficiency in precision agriculture. To simplify OD application process, we developed Ladder - a software that provides users with a friendly graphic user interface (GUI) that allows for efficient labelling of training datasets, training OD models, and deploying the trained model. Ladder was designed with an interactive recurrent framework that leverages predictions from a pre-trained OD model as the initial image labeling. After adding human labels, the newly labeled images can be added into the training data to retrain the OD model. With the same GUI, users can also deploy well-trained OD models by loading the model weight file to detect new images. We used Ladder to develop a deep learning model to access wheat stripe rust in RGB (red, green, blue) images taken by an Unmanned Aerial Vehicle (UAV). Ladder employs OD to directly evaluate different severity levels of wheat stripe rust in field images, eliminating the need for photo stitching process for UAVs-based images. The accuracy for low, medium and high severity scores were 72%, 50% and 80%, respectively. This case demonstrates how Ladder empowers OD in precision agriculture and crop breeding.
翻訳日:2023-06-21 21:01:17 公開日:2023-06-17
# マルチモード量子メモリを用いた計測デバイス非依存量子鍵分布の非線形改善

Nonlinear improvement of measurement-device-independent quantum key distribution using multimode quantum memory ( http://arxiv.org/abs/2306.10370v1 )

ライセンス: Link先を確認
Yusuke Mizutani and Tomoyuki Horikiri(参考訳) 本稿では、オンデマンドストレージとマルチモードストレージという2つの異なるQM機能に基づく量子メモリ(QM)を利用した、計測デバイスに依存しないQKD(MDI-QKD)のための量子鍵分布方式を提案する。 本稿では,QMの利用により鍵レートが非線形に増加することを示す。 オンデマンドストレージを組み込んだプロトコルでは、セキュアな鍵レートは$r=o(\sqrt{\eta_{ch}})$を$\eta_{ch}$とするが、代替手法として$o(m_s^2)$であり、$m_s$はマルチモードストレージを組み込んだスキームにおける周波数(空間的)多重化の回数である。 本稿では、2つの関数を組み込んだQMとして原子周波数コムを採用し、MDI-QKDに基づくアーキテクチャを提案する。 このスキームは量子リピータに拡張することができ、単一の量子リピータノードであっても、モードの数を増やすための非線形拡張と実験的インセンティブが存在する。

This paper proposes a quantum key distribution (QKD) scheme for measurement-device-independent QKD (MDI-QKD) utilizing quantum memory (QM), which is based on two distinct functions of QM: on-demand storage and multimode storage. We demonstrate a nonlinear increase in the secure key rate due to the utilization of QM. In the protocol incorporating on-demand storage, it is acknowledged that the secure key rate is scaled by $R=O(\sqrt{\eta_{ch}})$ as $\eta_{ch}$, while as an alternative approach, we reveal that the improvement is $O(m_s^2)$, with $m_s$ being the number of modes in frequency (spatial) multiplexing in the scheme incorporating multimode storage. We adopt an atomic frequency comb as a QM that incorporates the two functions and propose an architecture based on MDI-QKD to attain experimental feasibility. This scheme can be extended to quantum repeaters, and even for a single quantum-repeater node, there is a nonlinear enhancement and an experimental incentive to increase the number of modes.
翻訳日:2023-06-21 21:00:53 公開日:2023-06-17
# 強化学習を用いた変分逐次最適実験設計

Variational Sequential Optimal Experimental Design using Reinforcement Learning ( http://arxiv.org/abs/2306.10430v1 )

ライセンス: Link先を確認
Wanggang Shen, Jiayuan Dong, Xun Huan(参考訳) 本稿では,ベイズフレームワークと情報収集ユーティリティを用いて,有限列実験を最適に設計する新しい手法である変分逐次最適実験設計(vsoed)を提案する。 具体的には,ベイズ後方への変分近似により,期待効用として下限推定器を採用する。 変分下限とポリシー勾配更新を同時に最大化することにより最適な設計方針を数値的に解く。 本稿では,パラメータ推定,モデル識別,目標指向予測を対象とするOED問題に対して,本手法を実証する。 これらのケースは、明示的かつ暗黙的な可能性、迷惑パラメータ、物理学に基づく偏微分方程式モデルを含む。 vsoedの結果,従来の逐次設計アルゴリズムと比較して,サンプル効率が大幅に向上し,フォワードモデルシミュレーション数が減少した。

We introduce variational sequential Optimal Experimental Design (vsOED), a new method for optimally designing a finite sequence of experiments under a Bayesian framework and with information-gain utilities. Specifically, we adopt a lower bound estimator for the expected utility through variational approximation to the Bayesian posteriors. The optimal design policy is solved numerically by simultaneously maximizing the variational lower bound and performing policy gradient updates. We demonstrate this general methodology for a range of OED problems targeting parameter inference, model discrimination, and goal-oriented prediction. These cases encompass explicit and implicit likelihoods, nuisance parameters, and physics-based partial differential equation models. Our vsOED results indicate substantially improved sample efficiency and reduced number of forward model simulations compared to previous sequential design algorithms.
翻訳日:2023-06-21 20:55:29 公開日:2023-06-17
# SATモジュロ対称性を用いた共証明学習

Co-Certificate Learning with SAT Modulo Symmetries ( http://arxiv.org/abs/2306.10427v1 )

ライセンス: Link先を確認
Markus Kirchweger, Tom\'a\v{s} Peitl, Stefan Szeider(参考訳) 与えられたco-NP特性を満たす同型まで全てのグラフを生成するSATベースの新しい手法を提案する。 本手法はSAT Modulo Symmetry (SMS) フレームワークを拡張し,協調学習(co-certificate learning)と呼ぶ手法を提案する。 SMSが与えられたco-NPプロパティに違反する候補グラフを生成する場合、この違反の証明書、すなわちco-NPプロパティの 'co-certificate' を得る。 SATソルバはSMSのバックエンドとして機能し、CDCL手順の一部として学習する。 我々は、SMSと共証明学習が、量子力学の基礎の中心であり、半世紀以上にわたって研究されてきたKochen-Speckerベクトルシステムのサイズに最もよく知られた下界を改善する強力な方法であることを示した。 我々のアプローチは、最近提案されたSATベースの方法よりも桁違いに高速でスケールできる。

We present a new SAT-based method for generating all graphs up to isomorphism that satisfy a given co-NP property. Our method extends the SAT Modulo Symmetry (SMS) framework with a technique that we call co-certificate learning. If SMS generates a candidate graph that violates the given co-NP property, we obtain a certificate for this violation, i.e., `co-certificate' for the co-NP property. The co-certificate gives rise to a clause that the SAT solver, serving as SMS's backend, learns as part of its CDCL procedure. We demonstrate that SMS plus co-certificate learning is a powerful method that allows us to improve the best-known lower bound on the size of Kochen-Specker vector systems, a problem that is central to the foundations of quantum mechanics and has been studied for over half a century. Our approach is orders of magnitude faster and scales significantly better than a recently proposed SAT-based method.
翻訳日:2023-06-21 20:55:08 公開日:2023-06-17
# 区間境界伝搬による認定訓練の理解

Understanding Certified Training with Interval Bound Propagation ( http://arxiv.org/abs/2306.10426v1 )

ライセンス: Link先を確認
Yuhao Mao, Mark Niklas M\"uller, Marc Fischer, Martin Vechev(参考訳) 堅牢性検証の手法がより正確になるにつれて、堅牢性のあるニューラルネットワークのトレーニングがますます重要になっている。 この目的のために、認定トレーニングメソッドは、堅牢性仕様よりも最悪のケース損失の上限を計算し、最適化する。 皮肉なことに、不正確な間隔境界伝播(IBP)に基づく訓練法は、より正確なバウンディング法を利用する方法よりも一貫して優れている。 しかし、我々はippを成功させるメカニズムについて理解していない。 本研究は,IPP境界の密度を計測する新しい測定基準を利用して,これらのメカニズムを徹底的に検討する。 まず, ディープリニアモデルでは, 初期化時の幅と深さでタイトネスが減少するが, ネットワーク幅が十分であればippトレーニングにより改善することを示す。 そして,IPP境界の重量行列に関する十分かつ必要な条件を導出し,これらが厳密な正則化を課していることを示し,認定トレーニングにおける堅牢性と精度のトレードオフを実証的に検証した。 広範囲な実験により,ReLUネットワークの理論的予測が検証され,ネットワークの性能が向上し,最先端の結果が得られた。 興味深いことに、全てのIPPベースのトレーニング手法は、高い厳密性をもたらすが、高い認証性を達成するには不十分であり、必要ではない。 このことは、厳密なIPB境界に必要な強い正規化を誘発しない新たなトレーニング方法の存在を示唆しており、堅牢性と標準精度の向上につながっている。

As robustness verification methods are becoming more precise, training certifiably robust neural networks is becoming ever more relevant. To this end, certified training methods compute and then optimize an upper bound on the worst-case loss over a robustness specification. Curiously, training methods based on the imprecise interval bound propagation (IBP) consistently outperform those leveraging more precise bounding methods. Still, we lack an understanding of the mechanisms making IBP so successful. In this work, we thoroughly investigate these mechanisms by leveraging a novel metric measuring the tightness of IBP bounds. We first show theoretically that, for deep linear models, tightness decreases with width and depth at initialization, but improves with IBP training, given sufficient network width. We, then, derive sufficient and necessary conditions on weight matrices for IBP bounds to become exact and demonstrate that these impose strong regularization, explaining the empirically observed trade-off between robustness and accuracy in certified training. Our extensive experimental evaluation validates our theoretical predictions for ReLU networks, including that wider networks improve performance, yielding state-of-the-art results. Interestingly, we observe that while all IBP-based training methods lead to high tightness, this is neither sufficient nor necessary to achieve high certifiable robustness. This hints at the existence of new training methods that do not induce the strong regularization required for tight IBP bounds, leading to improved robustness and standard accuracy.
翻訳日:2023-06-21 20:54:51 公開日:2023-06-17
# フェデレーション学習に基づくスマートグリッド上の偽データ注入攻撃の分散局在化

Federated Learning Based Distributed Localization of False Data Injection Attacks on Smart Grids ( http://arxiv.org/abs/2306.10420v1 )

ライセンス: Link先を確認
Cihat Ke\c{c}eci, Katherine R. Davis, Erchin Serpedin(参考訳) スマートグリッド上のデータ分析と監視は、サイバー物理システムへの攻撃によって脅かされている。 偽データ注入攻撃(fdia: false data injection attack)は、悪意のあるデータを注入することでスマート測定デバイスをターゲットにした攻撃の1つである。 FDIAの検出とローカライゼーションにおける機械学習技術の活用が有効であることが証明された。 このようなモデルのトレーニングには,現実的なシナリオでは不可能なセンシティブなユーザデータの集中処理が必要である。 FDIA攻撃の検出にフェデレート学習を用いることで、機密性の高いユーザデータのプライバシーを維持しつつ、攻撃の検出と位置決めのためのモデルを訓練することができる。 しかし、フェデレート学習は各ノードにおける検出器のパーソナライズのような新しい問題をもたらす。 本稿では,グラフニューラルネットワークとLSTMレイヤを用いたデータにおける時間パターンを用いて,接続された電力バス間の局所的相関を利用して,ハイブリッドディープニューラルネットワークアーキテクチャと組み合わせたフェデレート学習に基づくスキームを提案する。 提案するメカニズムは,クライアントのプライバシを保護しつつ,分散セットアップにおけるFDIA検出器のフレキシブルかつ効率的なトレーニングを提供する。 提案手法をIEEE 57,118,300バスシステムおよび実電力負荷データを用いて広範囲なシミュレーションにより検証した。

Data analysis and monitoring on smart grids are jeopardized by attacks on cyber-physical systems. False data injection attack (FDIA) is one of the classes of those attacks that target the smart measurement devices by injecting malicious data. The employment of machine learning techniques in the detection and localization of FDIA is proven to provide effective results. Training of such models requires centralized processing of sensitive user data that may not be plausible in a practical scenario. By employing federated learning for the detection of FDIA attacks, it is possible to train a model for the detection and localization of the attacks while preserving the privacy of sensitive user data. However, federated learning introduces new problems such as the personalization of the detectors in each node. In this paper, we propose a federated learning-based scheme combined with a hybrid deep neural network architecture that exploits the local correlations between the connected power buses by employing graph neural networks as well as the temporal patterns in the data by using LSTM layers. The proposed mechanism offers flexible and efficient training of an FDIA detector in a distributed setup while preserving the privacy of the clients. We validate the proposed architecture by extensive simulations on the IEEE 57, 118, and 300 bus systems and real electricity load data.
翻訳日:2023-06-21 20:54:25 公開日:2023-06-17
# 側方抑制とドメイン適応を用いた多言語多語表現の同定

Multilingual Multiword Expression Identification Using Lateral Inhibition and Domain Adaptation ( http://arxiv.org/abs/2306.10419v1 )

ライセンス: Link先を確認
Andrei-Marius Avram, Verginica Barbu Mititelu, Vasile P\u{a}i\c{s}, Dumitru-Clementin Cercel and \c{S}tefan Tr\u{a}u\c{s}an-Matu(参考訳) 多語表現(mwes)を正しく識別することは、その誤認が基礎となるテキストの曖昧さと誤解をもたらす可能性があるため、ほとんどの自然言語処理システムにとって重要なタスクである。 本研究では, PARSEMEコーパスのバージョン1.2で利用可能な14言語すべてを対象に, MWE識別のためのmBERTモデルの性能を多言語文脈で評価する。 また,言語非依存な組込みを作成し,多語表現の識別能力を向上させるために,側面抑制と言語敵対訓練を方法論に組み込んだ。 提案手法は,グローバルなMWE識別のための14言語中11言語,不明なMWE識別のための14言語中12言語において,PARSEME 1.2コンペティションのベストシステムであるMTLB-STRUCTと比較して,よりよい結果が得られることを示す。 さらに、すべての言語で平均的に比較すると、MTLB-STRUCTシステムでは、グローバルなMWE識別では1.23%、不明なグローバルなMWE識別では4.73%を上回っています。

Correctly identifying multiword expressions (MWEs) is an important task for most natural language processing systems since their misidentification can result in ambiguity and misunderstanding of the underlying text. In this work, we evaluate the performance of the mBERT model for MWE identification in a multilingual context by training it on all 14 languages available in version 1.2 of the PARSEME corpus. We also incorporate lateral inhibition and language adversarial training into our methodology to create language-independent embeddings and improve its capabilities in identifying multiword expressions. The evaluation of our models shows that the approach employed in this work achieves better results compared to the best system of the PARSEME 1.2 competition, MTLB-STRUCT, on 11 out of 14 languages for global MWE identification and on 12 out of 14 languages for unseen MWE identification. Additionally, averaged across all languages, our best approach outperforms the MTLB-STRUCT system by 1.23% on global MWE identification and by 4.73% on unseen global MWE identification.
翻訳日:2023-06-21 20:54:05 公開日:2023-06-17
# KEST:制御可能なテキスト生成のためのカーネル距離に基づく効率的な自己学習

KEST: Kernel Distance Based Efficient Self-Training for Improving Controllable Text Generation ( http://arxiv.org/abs/2306.10414v1 )

ライセンス: Link先を確認
Yuxi Feng, Xiaoyuan Yi, Laks V.S. Lakshmanan, and Xing Xie(参考訳) 自己学習(ST)は、擬似ラベルを生成することで言語理解タスクに結実し、言語モデルの微調整におけるラベル付けボトルネックを低減する。 しかし、半教師付き制御可能な言語生成を促進するために、STは2つの重要な課題に直面している。 まず、自己生成された擬似テキストによって強化された生成モデルは、以前に学習されたテキストの分布を過度に探索する傾向にあり、モード崩壊と低世代多様性に悩まされる。 第二に、各イテレーションで擬似テキストを生成するのは時間がかかり、トレーニングプロセスが著しく減速する。 本研究では,これらの問題に対処する新しい,効率的な自己学習フレームワークであるKESTを提案する。 kestは、標準クロスエントロピーではなくカーネルベースの損失を利用して、共有非自己回帰生成器によって生成されるソフトな擬似テキストから学ぶ。 我々は、kestがより多様な疑似テキストを効率的に活用できることを理論的および実証的に証明する。これにより、以前適合したディストリビューションの精錬と活用が可能になるだけでなく、より大きな潜在的なテキスト空間への探索が促進され、パフォーマンス向上の保証が得られる。 3つの制御可能な生成タスクの実験により、KESTは複数の強いベースラインに対してテキストの流速と生成の多様性を維持しながら、制御精度を著しく向上することが示された。

Self-training (ST) has come to fruition in language understanding tasks by producing pseudo labels, which reduces the labeling bottleneck of language model fine-tuning. Nevertheless, in facilitating semi-supervised controllable language generation, ST faces two key challenges. First, augmented by self-generated pseudo text, generation models tend to over-exploit the previously learned text distribution, suffering from mode collapse and poor generation diversity. Second, generating pseudo text in each iteration is time-consuming, severely decelerating the training process. In this work, we propose KEST, a novel and efficient self-training framework to handle these problems. KEST utilizes a kernel-based loss, rather than standard cross entropy, to learn from the soft pseudo text produced by a shared non-autoregressive generator. We demonstrate both theoretically and empirically that KEST can benefit from more diverse pseudo text in an efficient manner, which allows not only refining and exploiting the previously fitted distribution but also enhanced exploration towards a larger potential text space, providing a guarantee of improved performance. Experiments on three controllable generation tasks demonstrate that KEST significantly improves control accuracy while maintaining comparable text fluency and generation diversity against several strong baselines.
翻訳日:2023-06-21 20:53:45 公開日:2023-06-17
# 階層的階層化と階層化プロセス(ihrp) : 密結合システムに対する新しい効果的な階層化手法と学生成績評価の事例研究

Iterative Hierarchy and Ranking Process (IHRP): A Novel Effective Hierarchy Method for Densely Connected Systems and Case Study in Student Performance Assessment ( http://arxiv.org/abs/2306.10409v1 )

ライセンス: Link先を確認
Suvojit Dhara and Adrijit Goswami(参考訳) 実際の意思決定問題では、決定属性に対する要因の影響を決定することが重要な課題である。 決定属性に最も影響を与えるためには、要因間の適切な階層を見つけ、システムにおけるそれらの重要値を決定することが非常に重要である。 解釈構造モデリング(ISM)は、専門家の意見に基づいて要素間影響をマイニングする階層構築手法として広く用いられている。 本稿では,従来のISM法の主な欠点の1つとして,これらの要因が密接な相互関係を持つシステムについて述べる。 このようなシステムを "dense system" と呼ぶ。 本稿では,このような高密度システムにおいて効果的に機能する「Iterative Hierarchy and Ranking Process(IHRP)」と呼ばれる新しい階層構築手法を提案する。 専門家の意見の曖昧さを考慮に入れるため、直観主義的ファジィ言語学は研究に使われてきた。 本稿では,その階層的位置に基づくシステムにおける要因の相対的重要性を2段階計算し,それに従って因子をランク付けする。 本研究は,インドにおける新しい高校行政因子のデータを調査によって収集し,学生の成績評価を事例的に検討した。 提案手法と従来のism法で達成した因子ランキングとtopsisやvikorなどの標準的外格法との比較検討を行った。 提案手法は従来のISM法と比較して85-95%の相関性が得られる。 このことは,従来の手法,特に高密度システムよりも優れた階層構造を決定するための提案手法の有効性を実証する。

In real-life decision-making problems, determining the influences of the factors on the decision attribute is one of the primary tasks. To affect the decision attribute most, finding a proper hierarchy among the factors and determining their importance values in the system becomes quite important. Interpretive structural modeling (ISM) is a widely used hierarchy-building method that mines factor inter-influences based on expert opinions. This paper discusses one of the main drawbacks of the conventional ISM method in systems where the factors are densely interrelated. We refer to such systems as "dense systems". We propose a novel iterative hierarchy-building technique, called 'Iterative Hierarchy and Ranking Process'(IHRP) which performs effectively in such dense systems. To take the vagueness of the expert opinions into account, intuitionistic fuzzy linguistics has been used in the research work. In this paper, we propose a two-stage calculation of the relative importance of the factors in the system based on their hierarchical positions and rank the factors accordingly. We have performed a case study on student performance assessment by taking up novel Indian high-school administrative factors' data collected by surveying the experts in this field. A comparative study has been conducted in terms of the correlation of the factor ranking achieved by the proposed method and conventional ISM method with that of standard outranking methods like TOPSIS, and VIKOR. Our proposed IHRP framework achieves an 85-95% correlation compared to a 50-60% correlation for the conventional ISM method. This proves the effectiveness of the proposed method in determining a better hierarchy than the conventional method, especially in dense systems.
翻訳日:2023-06-21 20:53:22 公開日:2023-06-17
# FP-IRL:Fokker-Planck-based Inverse Reinforcement Learning -- マルコフ決定過程に対する物理制約付きアプローチ

FP-IRL: Fokker-Planck-based Inverse Reinforcement Learning -- A Physics-Constrained Approach to Markov Decision Processes ( http://arxiv.org/abs/2306.10407v1 )

ライセンス: Link先を確認
Chengyang Huang and Siddhartha Srivastava and Xun Huan and Krishna Garikipati(参考訳) 逆強化学習(Inverse Reinforcement Learning、IRL)は、自律エージェントの行動の基礎となる根拠を明らかにするための説得力のある手法である。 IRLは、観測されたエージェント軌道からマルコフ決定過程(MDP)の未知の報酬関数を推定しようとする。 しかし、irlには遷移関数が必要であり、ほとんどのアルゴリズムはそれが知られているか、データから事前に推定できると仮定している。 したがって、システムの進化を決定することに加えて、ポリシーの推定に入るため、そのような遷移ダイナミクスがaプライオリ(a-priori)として知られていない場合、さらに困難になる。 状態-作用空間におけるこれらのエージェントのダイナミクスが It^{o} の確率微分方程式 (SDE) によって記述されるとき、これらの遷移はフォッカー・プランク方程式 (Fokker-Planck) によって記述された平均場理論から推測できる。 我々は、自由エネルギーの最小化(FP)と報酬の最大化(MDP)を超えて広がる時間離散FPとMDPの間に同型が存在すると推測する。 我々は、このアイソモルフィズムの特定の発現を特定し、それを用いて、観測された軌道のみを用いて遷移関数と報酬関数を同時に推測できる新しい物理対応IRLアルゴリズムFP-IRLを作成する。 我々は、FPのポテンシャル関数を推測するために変分システム同定を用い、その結果、予想を利用して報酬、遷移、ポリシーの評価を可能にする。 そこで我々は,FP-IRLを合成ベンチマークに適用し,がん細胞動態の生物学的問題に適用することにより,FP-IRLの有効性を示す。

Inverse Reinforcement Learning (IRL) is a compelling technique for revealing the rationale underlying the behavior of autonomous agents. IRL seeks to estimate the unknown reward function of a Markov decision process (MDP) from observed agent trajectories. However, IRL needs a transition function, and most algorithms assume it is known or can be estimated in advance from data. It therefore becomes even more challenging when such transition dynamics is not known a-priori, since it enters the estimation of the policy in addition to determining the system's evolution. When the dynamics of these agents in the state-action space is described by stochastic differential equations (SDE) in It^{o} calculus, these transitions can be inferred from the mean-field theory described by the Fokker-Planck (FP) equation. We conjecture there exists an isomorphism between the time-discrete FP and MDP that extends beyond the minimization of free energy (in FP) and maximization of the reward (in MDP). We identify specific manifestations of this isomorphism and use them to create a novel physics-aware IRL algorithm, FP-IRL, which can simultaneously infer the transition and reward functions using only observed trajectories. We employ variational system identification to infer the potential function in FP, which consequently allows the evaluation of reward, transition, and policy by leveraging the conjecture. We demonstrate the effectiveness of FP-IRL by applying it to a synthetic benchmark and a biological problem of cancer cell dynamics, where the transition function is inaccessible.
翻訳日:2023-06-21 20:52:57 公開日:2023-06-17
# ベイジアン自律材料位相マッピングのための人間とロボット

Human-In-the-Loop for Bayesian Autonomous Materials Phase Mapping ( http://arxiv.org/abs/2306.10406v1 )

ライセンス: Link先を確認
Felix Adams, Austin McDannald, Ichiro Takeuchi, A. Gilad Kusne(参考訳) 自動実験(AE)は、機械学習と研究ハードウェアの自動化をクローズドループで組み合わせ、その後の実験をユーザ目標に向けて導く。 材料研究に適用されるように、aeは材料探索を加速し、伝統的なエジソン研究に比べて時間とコストを削減できる。 さらに、理論、シミュレーション、文献、ドメインの専門家を含む様々な情報源からの知識を統合することで、AEのパフォーマンスを向上させることができる。 ドメインの専門家は自動化が難しいユニークな知識を扱うタスクを提供するかもしれません。 本稿では,構成構造相マッピングのための自律的材料探索キャンペーンに人間の入力を統合する手法のセットを提案する。 この方法は薄膜3次組合せライブラリから収集したX線回折データに示す。 キャンペーン中の任意の時点で、ユーザは、自分の事前の知識(例えば、類似する材料システムの位相マップの知識)に基づいて、興味のある領域、可能性のある位相領域、およびおそらく位相境界を示し、確信度を定量化することによって、入力を提供することを選択できる。 人間の入力は位相写像上の確率的前置集合を定義することで統合される。 アルゴリズムの出力は、データ、モデル、人間の入力を考慮し、潜在的な位相マップ上の確率分布である。 適切な入力によって位相マッピング性能が大幅に向上することを示す。

Autonomous experimentation (AE) combines machine learning and research hardware automation in a closed loop, guiding subsequent experiments toward user goals. As applied to materials research, AE can accelerate materials exploration, reducing time and cost compared to traditional Edisonian studies. Additionally, integrating knowledge from diverse sources including theory, simulations, literature, and domain experts can boost AE performance. Domain experts may provide unique knowledge addressing tasks that are difficult to automate. Here, we present a set of methods for integrating human input into an autonomous materials exploration campaign for composition-structure phase mapping. The methods are demonstrated on x-ray diffraction data collected from a thin film ternary combinatorial library. At any point during the campaign, the user can choose to provide input by indicating regions-of-interest, likely phase regions, and likely phase boundaries based on their prior knowledge (e.g., knowledge of the phase map of a similar material system), along with quantifying their certainty. The human input is integrated by defining a set of probabilistic priors over the phase map. Algorithm output is a probabilistic distribution over potential phase maps, given the data, model, and human input. We demonstrate a significant improvement in phase mapping performance given appropriate human input.
翻訳日:2023-06-21 20:52:26 公開日:2023-06-17
# rlパーセプトロン:高次元における政策学習の一般化ダイナミクス

The RL Perceptron: Generalisation Dynamics of Policy Learning in High Dimensions ( http://arxiv.org/abs/2306.10404v1 )

ライセンス: Link先を確認
Nishil Patel, Sebastian Lee, Stefano Sarao Mannelli, Sebastian Goldt, Adrew Saxe(参考訳) 強化学習 (Reinforcement Learning, RL) アルゴリズムは、様々な領域において変形を証明している。 現実世界のドメインに取り組むために、これらのシステムはニューラルネットワークを使ってピクセルや他の高次元センサー入力から直接ポリシーを学ぶ。 対照的に、RLの多くの理論は離散状態空間や最悪のケース解析に焦点を合わせており、高次元環境における政策学習のダイナミクスに関する根本的な疑問が残っている。 本稿では、様々な学習プロトコルをキャプチャし、その典型的ダイナミクスを閉形式常微分方程式(odes)の集合として導出する、rlの可解な高次元モデルを提案する。 学習速度と課題難易度に対する最適スケジュール(rlにおけるトレーニング中のアニーリングスキームやカリキュラムに類似)を導出し、このモデルが低報酬下での遅延学習を含むリッチな振る舞いを示すこと、報酬ベースラインに依存する様々な学習レジーム、報酬の厳格性によって駆動される速度・正確性トレードオフを示す。 Procgen ゲーム "Bossfight" や Arcade Learning Environment ゲーム "Pong" の変種に関する実験も、実際にそのような速度精度のトレードオフを示している。 これらの結果は、高次元RLにおける理論と実践の間のギャップを埋めるための一歩となる。

Reinforcement learning (RL) algorithms have proven transformative in a range of domains. To tackle real-world domains, these systems often use neural networks to learn policies directly from pixels or other high-dimensional sensory input. By contrast, much theory of RL has focused on discrete state spaces or worst-case analysis, and fundamental questions remain about the dynamics of policy learning in high-dimensional settings. Here, we propose a solvable high-dimensional model of RL that can capture a variety of learning protocols, and derive its typical dynamics as a set of closed-form ordinary differential equations (ODEs). We derive optimal schedules for the learning rates and task difficulty - analogous to annealing schemes and curricula during training in RL - and show that the model exhibits rich behaviour, including delayed learning under sparse rewards; a variety of learning regimes depending on reward baselines; and a speed-accuracy trade-off driven by reward stringency. Experiments on variants of the Procgen game "Bossfight" and Arcade Learning Environment game "Pong" also show such a speed-accuracy trade-off in practice. Together, these results take a step towards closing the gap between theory and practice in high-dimensional RL.
翻訳日:2023-06-21 20:52:04 公開日:2023-06-17
# 拡散モデルによる画像調和

Image Harmonization with Diffusion Model ( http://arxiv.org/abs/2306.10441v1 )

ライセンス: Link先を確認
Jiajie Li, Jian Wang, Chen Wang, Jinjun Xiong(参考訳) 画像編集における画像合成は、前景画像と背景画像とを融合して合成を生成する。 前景と背景の一貫性のない照明条件は、しばしば非現実的な複合材料をもたらす。 画像調和は、視覚的に魅力的で一貫した出力を達成するために照明と色を調整することでこの課題に対処する。 本稿では拡散モデルを利用した画像調和のための新しい手法を提案する。 本研究では,2つの条件拡散モデル,すなわち分類器ガイドと分類器フリーの比較分析を行う。 私たちの焦点は、前景画像の照明と色を調整するという課題に対処し、背景とシームレスに融合する視覚的に魅力的なアウトプットを作り出すことです。 本研究により,拡散モデルに基づく画像調和の領域における今後の研究の基盤を固める。

Image composition in image editing involves merging a foreground image with a background image to create a composite. Inconsistent lighting conditions between the foreground and background often result in unrealistic composites. Image harmonization addresses this challenge by adjusting illumination and color to achieve visually appealing and consistent outputs. In this paper, we present a novel approach for image harmonization by leveraging diffusion models. We conduct a comparative analysis of two conditional diffusion models, namely Classifier-Guidance and Classifier-Free. Our focus is on addressing the challenge of adjusting illumination and color in foreground images to create visually appealing outputs that seamlessly blend with the background. Through this research, we establish a solid groundwork for future investigations in the realm of diffusion model-based image harmonization.
翻訳日:2023-06-21 20:42:17 公開日:2023-06-17
# 空中リモートセンシング画像からの物体数:野生動物および海洋哺乳動物への応用

Object counting from aerial remote sensing images: application to wildlife and marine mammals ( http://arxiv.org/abs/2306.10439v1 )

ライセンス: Link先を確認
Tanya Singh, Hugo Gangloff, Minh-Tan Pham(参考訳) 人為的な活動は野生動物や海洋動物に脅威を与え、効率的な動物の数え方の必要性を招いた。 本研究は、深層学習技術を用いてカウントタスクを自動化する。 群衆と動物の計数に関する以前の研究に触発されて、様々なバックボーンを持つunetモデルが実装され、ガウス密度マップをトレーニングに使用し、検出器のトレーニングを不要にしている。 新しいモデルは、空中画像でイルカやゾウを数えることに適用されている。 EfficientNet-B5バックボーンはアフリカゾウにとって最高のパフォーマンスを達成し、ResNet18バックボーンはイルカにとって有望な結果を示している。 複雑な画像背景条件にもかかわらず、モデルは正確に動物を特定する。 この研究は、人工知能を活用することで、野生生物の保全に寄与し、空中リモートセンシングから検出することなく効率的な物体数による人間と野生生物の共存を促進する。

Anthropogenic activities pose threats to wildlife and marine fauna, prompting the need for efficient animal counting methods. This research study utilizes deep learning techniques to automate counting tasks. Inspired by previous studies on crowd and animal counting, a UNet model with various backbones is implemented, which uses Gaussian density maps for training, bypassing the need of training a detector. The new model is applied to the task of counting dolphins and elephants in aerial images. Quantitative evaluation shows promising results, with the EfficientNet-B5 backbone achieving the best performance for African elephants and the ResNet18 backbone for dolphins. The model accurately locates animals despite complex image background conditions. By leveraging artificial intelligence, this research contributes to wildlife conservation efforts and enhances coexistence between humans and wildlife through efficient object counting without detection from aerial remote sensing.
翻訳日:2023-06-21 20:42:06 公開日:2023-06-17
# 光キャビティを駆動する古典光によって生じるキュービット絡み合い

Qubit entanglement generated by classical light driving an optical cavity ( http://arxiv.org/abs/2306.10436v1 )

ライセンス: Link先を確認
Seongjin Ahn, Andrey S. Moskalenko, Vladimir Y. Chernyak and Shaul Mukamel(参考訳) 量子光の単一キャビティモードを介して通信するが直接相互作用を持たない2つの量子ビット間の絡み合いの発生について検討する。 このような絡み合いは、単に量子を第三者と交換することで生成できることを示し、これは空洞モードである。 1つの量子を交換するだけで、最大絡み合いが生じる。 単一の量子は外部の量子光源によって提供される。 しかし、交換に使用される量子を励起するために古典的な光源を使用し、2ビットの絡み合いの度合いを調査する。 まずキャビティモードと各キュービット間の相互作用の特徴的時間スケールを同定する。 駆動パルス長の2つの条件について検討した。一方は短いが、他方は相互作用の時間スケールに比較して長い。 第1の体制では、パルスがキャビティモードの変位を発生させることでシステムをポンプできることが知られている。 特定のパルス形状を用いることで、パルスがキャビティモードと相互作用した後の変位を本質的に消失させることができることを示す。 この場合、キュービットの回転が呼び出される。 さらに,非局所動作を含むパルスがキャビティモードとキュービットの接合系に与える影響を高次的に確認し,各項を与えられた順序まで計算する形式性を示す。 古典光源を用いた絡み合い発生の検証のための実験設計を可能にするため、各項が非零または抑制されるパルス形状の明示的な条件が導出される。 駆動が十分に長い反対の状態では、断熱的に得られるような圧縮状態を利用する。 キュービットのスクイーズとそれに伴う回転が生成する2量子ビットの絡み合いにどのように影響するかについて検討した。

We study the generation of entanglement between two qubits which communicate through a single cavity mode of quantum light but have no direct interaction. We show that such entanglement can be generated simply by exchanging quanta with a third party, which is in our case the cavity mode. Exchanging only a single quantum creates maximal entanglement. A single quantum can be provided by an external quantum light source. However, we use a classical light source to pump quanta which are used for the exchange, and investigate the degree of two-qubit entanglement. We first identify a characteristic timescale of the interaction between the cavity mode and each qubit. We investigate two regimes of the driving pulse length, one is short and the other is long compared to the characteristic timescale of the interaction. In the first regime, it is known that the pulse can pump the system by generating a displacement of the cavity mode. We show that, by using a specific pulse shape, one can make the displacement to essentially vanish after the pulse finishes interaction with the cavity mode. In this case, a rotation of the qubits can be invoked. In addition, higher-order effects of the pulse including a non-local operation on the joint system of the cavity mode and the qubits are found, and we present a formalism to compute each term up to a given order. An explicit condition on the pulse shape for each term to be nonzero or suppressed is derived to enable an experimental design for verifying the entanglement generation using a classical light source. In the opposite regime where the driving is sufficiently long, we utilize a squeezed state which may be obtained adiabatically. We study how the squeezing and the accompanied rotation of qubits affect the generated two-qubit entanglement.
翻訳日:2023-06-21 20:41:48 公開日:2023-06-17
# 非局所PDEと量子光学:境界状態と共鳴

Nonlocal PDEs and Quantum Optics: Bound States and Resonances ( http://arxiv.org/abs/2306.10431v1 )

ライセンス: Link先を確認
Erik Orvehed Hiltunen, Joseph Kraisler, John C Schotland, Michael I Weinstein(参考訳) 2つの準位原子の系と相互作用する1つの光子の量子光学を考える。 これは非局所偏微分方程式系に対する非線形固有確率の研究につながる。 これらの方程式に対する解の2つのクラスが研究されている。 境界状態は正の実部分を持つ固有値に対する負の固有値と共鳴に対応する。 我々は、そのような状態の数に対する上限とともに、境界状態の存在に必要な十分条件を発見した。 我々はまた、高コントラストの少ない原子モデルに対する固有プロブレムも検討した。 この設定では、固有値に対する漸近式を導出した。 我々の結果は数値計算で示される。

We consider the quantum optics of a single photon interacting with a system of two level atoms. This leads to the study of a nonlinear eigenproblem for a system of nonlocal partial differential equations. Two classes of solutions to these equations are studied. Bound states correspond to negative eigenvalues and resonances to eigenvalues with positive real parts. We have found necessary and sufficient conditions for the existence of bound states, along with an upper bound on the number of such states. We have also considered the eigenproblem for atomic models with small high contrast inclusions. In this setting, we have derived asymptotic formulas for the eigenvalues. Our results are illustrated with numerical computations.
翻訳日:2023-06-21 20:41:04 公開日:2023-06-17