このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230517となっている論文です。

PDF登録状況(公開日: 20230517)

TitleAuthorsAbstract論文公表日・翻訳日
# github開発ワークフロー自動化のエコシステム

The GitHub Development Workflow Automation Ecosystems ( http://arxiv.org/abs/2305.04772v2 )

ライセンス: Link先を確認
Mairieli Wessel, Tom Mens, Alexandre Decan, Pooya Rostami Mazrae(参考訳) 大規模ソフトウェア開発は、特にオープンソースソフトウェア開発エコシステムとその関連開発者コミュニティにおいて、高度に協力的かつ地理的に分散した取り組みとなっている。 問題やバグ処理、コードレビュー、コーディング、テスト、デプロイメントなど、幅広いアクティビティを含む現代的な開発プロセス(プルベースの開発など)が生まれています。 これらの非常に労力集約的なアクティビティは、バージョン管理システム、バグおよびイシュートラッカ、コードレビューシステム、コード品質分析ツール、テスト自動化、依存性管理、脆弱性検出ツールなど、さまざまなツールによってサポートされています。 共同開発プロセスの複雑さを軽減するため、開発ワークフローの一部である反復的なヒューマンアクティビティの多くは、CI/CDツールによって自動化され、ソフトウェアプロジェクトの生産性と品質が向上します。 ソーシャルコーディングプラットフォームは、これらすべてのツールとワークフロー自動化を単一の包括環境に統合することを目指している。 これらのソーシャルコーディングプラットフォームは、開発ボットの出現を引き起こし、外部CI/CDツールとの統合を促進し、他の多くの開発関連タスクの自動化を可能にした。 最も人気のあるソーシャルコーディングプラットフォームであるGitHubは、2019年11月からホストされているソフトウェア開発リポジトリでワークフローを自動化するGitHub Actionsを導入した。 この章は、開発ボットとgithubアクションとその相互接続のエコシステムを探求する。 このドメインにおける最先端技術に関する広範な調査、これらのエコシステムが伴う機会と脅威、研究者やソフトウェア実践者にとっての課題と今後の展望に関するレポートを提供する。

Large-scale software development has become a highly collaborative and geographically distributed endeavour, especially in open-source software development ecosystems and their associated developer communities. It has given rise to modern development processes (e.g., pull-based development) that involve a wide range of activities such as issue and bug handling, code reviewing, coding, testing, and deployment. These often very effort-intensive activities are supported by a wide variety of tools such as version control systems, bug and issue trackers, code reviewing systems, code quality analysis tools, test automation, dependency management, and vulnerability detection tools. To reduce the complexity of the collaborative development process, many of the repetitive human activities that are part of the development workflow are being automated by CI/CD tools that help to increase the productivity and quality of software projects. Social coding platforms aim to integrate all this tooling and workflow automation in a single encompassing environment. These social coding platforms gave rise to the emergence of development bots, facilitating the integration with external CI/CD tools and enabling the automation of many other development-related tasks. GitHub, the most popular social coding platform, has introduced GitHub Actions to automate workflows in its hosted software development repositories since November 2019. This chapter explores the ecosystems of development bots and GitHub Actions and their interconnection. It provides an extensive survey of the state-of-the-art in this domain, discusses the opportunities and threats that these ecosystems entail, and reports on the challenges and future perspectives for researchers as well as software practitioners.
翻訳日:2023-10-24 11:54:38 公開日:2023-05-17
# SatAIOps:全ライフサイクルの衛星ネットワーク運用を改善

SatAIOps: Revamping the Full Life-Cycle Satellite Network Operations ( http://arxiv.org/abs/2305.08722v2 )

ライセンス: Link先を確認
Peng Hu(参考訳) 近年,大型コンステレーションやペイロードで表現されたngso衛星ネットワークは,地球上のあらゆる場所に高品質なインターネット接続を実現する上で大きな期待を寄せている。 しかし、衛星運用に対する従来のアプローチは、複雑さ、セキュリティ、レジリエンス、環境上の懸念の増大によって課されるNGSO衛星ネットワークにおける新たな課題に対処できない。 そのため、衛星ネットワークのライフサイクル全体において、信頼性があり、持続可能で効率的なアプローチが必要である。 本稿では,新たな課題に対するタイムリーな回答として,SatAIOpsと呼ばれる新しいアプローチを提案する。 高度衛星ネットワークの現在の課題に関する議論を通じて,サタイオプスとその機能モジュールを衛星のライフサイクル全体に適用することを提案する。 SatAIOpsは、信頼できる責任あるAI技術で運用上の課題に対処するための、新たな視点を提供する。 これは、研究と産業コミュニティの進化と協力のための新しいフレームワークを可能にする。

Recently advanced non-geostationary (NGSO) satellite networks represented by large constellations and advanced payloads provide great promises for enabling high-quality Internet connectivity to any place on Earth. However, the traditional approach to satellite operations cannot address the new challenges in the NGSO satellite networks imposed by the significant increase in complexity, security, resilience, and environmental concerns. Therefore, a reliable, sustainable, and efficient approach is required for the entire life-cycle of satellite network operations. This paper provides a timely response to the new challenges and proposes a novel approach called "SatAIOps" as an overall solution. Through our discussion on the current challenges of the advanced satellite networks, SatAIOps and its functional modules in the entire life-cycle of satellites are proposed, with some example technologies given. SatAIOps provides a new perspective for addressing operational challenges with trustworthy and responsible AI technologies. It enables a new framework for evolving and collaborative efforts from research and industry communities.
翻訳日:2023-10-24 08:44:49 公開日:2023-05-17
# 特権のないKubernetesランナーを使用してカスタムリソース上でGitHubプロジェクトをテストする

Testing GitHub projects on custom resources using unprivileged Kubernetes runners ( http://arxiv.org/abs/2305.10346v1 )

ライセンス: Link先を確認
Igor Sfiligoi, Daniel McDonald, Rob Knight and Frank W\"urthwein(参考訳) githubは、使いやすさとテスト環境とのシームレスな統合のため、ソフトウェアプロジェクトをホストするための人気のあるリポジトリである。 ネイティブなgithub actionsにより、ソフトウェア開発者は新しいコミットを検証でき、新しいコードが大きなバグを起こさないという自信を持つことができる。 自由に利用できるテスト環境は、少数の人気のあるセットアップに限定されているが、カスタムのアクションランナーで拡張できる。 当社のチームは、GPUアクセラレータを備えたKubernetesクラスタにアクセスできたので、GPUを提供するランナーを自動デプロイする可能性について検討しました。 ただし、利用可能なKubernetesベースのセットアップはすべて、クラスタ管理者レベルの権限を必要とする。 この問題に対処するため、我々は、完全に特権のない方法で動作するシンプルなカスタム設定を開発した。 本稿では, プロトタイプ国立研究プラットフォームシステムにおける2つのナイト研究所プロジェクトの状況について, セットアップの概要と使用経験について述べる。

GitHub is a popular repository for hosting software projects, both due to ease of use and the seamless integration with its testing environment. Native GitHub Actions make it easy for software developers to validate new commits and have confidence that new code does not introduce major bugs. The freely available test environments are limited to only a few popular setups but can be extended with custom Action Runners. Our team had access to a Kubernetes cluster with GPU accelerators, so we explored the feasibility of automatically deploying GPU-providing runners there. All available Kubernetes-based setups, however, require cluster-admin level privileges. To address this problem, we developed a simple custom setup that operates in a completely unprivileged manner. In this paper we provide a summary description of the setup and our experience using it in the context of two Knight lab projects on the Prototype National Research Platform system.
翻訳日:2023-10-24 08:23:36 公開日:2023-05-17
# iOS開発で使用されるパッケージマネージャの脆弱性伝播

Vulnerability Propagation in Package Managers Used in iOS Development ( http://arxiv.org/abs/2305.10339v1 )

ライセンス: Link先を確認
Kristiina Rahkema, Dietmar Pfahl(参考訳) ソフトウェアを書く場合、サードパーティのライブラリを使うのが一般的だが、よく知られたライブラリでも脆弱性を見つけることができる。 検出された脆弱性は、しばしばライブラリコードで素早く修正される。 これらの修正を依存するソフトウェアアプリケーションに組み込む最も簡単な方法は、使用済みライブラリのバージョンを更新することです。 パッケージマネージャは、ライブラリの依存関係を更新するための自動ソリューションを提供する。 しかし、ライブラリ依存は他のライブラリへの依存を持ち、いくつかの間接レベルを持つ依存ネットワークとなる。 依存関係ネットワークによって引き起こされる脆弱性リスクの評価は、ソフトウェア開発者にとって非自明な作業である。 Swiftエコシステムのライブラリ依存ネットワークは、CocoaPods、Carthage、Swift Package Managerのライブラリを含んでいる。 Swiftエコシステムのライブラリ依存性ネットワークにおける脆弱性の伝播方法、依存関係のアップグレードによる脆弱性依存関係の修正方法、これらの脆弱性に関する公開情報からサードパーティの脆弱性分析をより正確にできるかどうか、などを分析しました。 接続されたライブラリの5.9%が,脆弱なライブラリに直接あるいは推移的に依存していることが分かりました。 公に報告された脆弱性を持つほとんどのライブラリはcで記述されているが、公に報告された脆弱性の最も大きな影響は、ネイティブios言語で書かれたライブラリにある。 脆弱性のある依存関係の約30%は、ライブラリの依存関係をアップグレードすることで修正できることが分かった。 重大な脆弱性や最新のライブラリバージョンの場合、70%以上の脆弱性のある依存関係は、依存関係のアップグレードによって修正される。 最後に、報告された脆弱性のコード位置(メソッドまたはクラス)の公開情報を使用して、脆弱な依存性使用の分析を洗練できるかどうかを確認した。 このような情報はほとんどの場合、利用できないことが分かりました。

Although using third-party libraries is common practice when writing software, vulnerabilities may be found even in well-known libraries. Detected vulnerabilities are often fixed quickly in the library code. The easiest way to include these fixes in a dependent software application, is to update the used library version. Package managers provide automated solutions for updating library dependencies. However, library dependencies can have dependencies to other libraries resulting in a dependency network with several levels of indirections. Assessing vulnerability risks induced by dependency networks is a non-trivial task for software developers. The library dependency network in the Swift ecosystem encompasses libraries from CocoaPods, Carthage and Swift Package Manager. We analysed how vulnerabilities propagate in the library dependency network of the Swift ecosystem, how vulnerable dependencies could be fixed via dependency upgrades, and if third party vulnerability analysis could be made more precise given public information on these vulnerabilities. We found that only 5.9% of connected libraries had a direct or transitive dependency to a vulnerable library. Although we found that most libraries with publicly reported vulnerabilities are written in C, the highest impact of publicly reported vulnerabilities originated from libraries written in native iOS languages. We found that around 30% of vulnerable dependencies could have been fixed via upgrading the library dependency. In case of critical vulnerabilities and latest library versions, over 70% of vulnerable dependencies would have been fixed via a dependency upgrade. Lastly, we checked whether the analysis of vulnerable dependency use could be refined using publicly available information on the code location (method or class) of a reported vulnerability. We found that such information is not available most of the time.
翻訳日:2023-10-24 08:23:15 公開日:2023-05-17
# ローコード自動化プラットフォームにおけるパーソナライズされたアクション提案

Personalized action suggestions in low-code automation platforms ( http://arxiv.org/abs/2305.10530v1 )

ライセンス: Link先を確認
Saksham Gupta, Gust Verbruggen, Mukul Singh, Sumit Gulwani, Vu Le(参考訳) 自動化プラットフォームは、ワークフローを使用して反復的なタスクを自動化することを目指している。 しかし、多くのアクションが考えられるため、ユーザは各ステップで所望のアクションを検索する必要があるため、フロー開発速度が妨げられる。 各ステップで次の項目を推奨するパーソナライズされたトランスフォーマーモデルを提案する。 このパーソナライゼーションは、推論時に利用できるユーザ統計からエンドツーエンドに学習される。 我々は,power automationユーザによるワークフローモデルを評価し,パーソナライゼーションがtop-1の精度を22%向上させることを示した。 新しいユーザーにとって、われわれのモデルはパーソナライズなしで訓練されたモデルと類似する。

Automation platforms aim to automate repetitive tasks using workflows, which start with a trigger and then perform a series of actions. However, with many possible actions, the user has to search for the desired action at each step, which hinders the speed of flow development. We propose a personalized transformer model that recommends the next item at each step. This personalization is learned end-to-end from user statistics that are available at inference time. We evaluated our model on workflows from Power Automate users and show that personalization improves top-1 accuracy by 22%. For new users, our model performs similar to a model trained without personalization.
翻訳日:2023-10-24 08:12:19 公開日:2023-05-17
# プライマリユースのための臨床データの匿名化

Anonymising Clinical Data for Secondary Use ( http://arxiv.org/abs/2307.03682v1 )

ライセンス: Link先を確認
Irene Ferreira, Chris Harbron, Alex Hughes, Tamsin Sargood, Christoph Gerlinger(参考訳) すでに臨床研究で収集されているデータの二次的利用は、近年ますます普及しており、製薬業界やヨーロッパや米国の多くの学術機関が臨床試験データへのアクセスを約束している。 これは医療研究の進歩に社会的な利益をもたらすが、被験者のプライバシーを守るためにバランスをとる必要がある。 臨床研究レポートと個々の患者レベルのデータでは、これらのシナリオは関連するリスクが異なり、一般的に異なるアプローチを必要とする。 あらゆるデータ共有シナリオでは、データユーティリティと主題の再識別のリスクとの間にトレードオフがあり、このバランスを達成することが重要です。 定量的メトリクスは、必要な非識別の量を導くことができ、新しい技術はリスクユーティリティバランスを達成するための代替手段を提供し始めるかもしれない。

Secondary use of data already collected in clinical studies has become more and more popular in recent years, with the commitment of the pharmaceutical industry and many academic institutions in Europe and the US to provide access to their clinical trial data. Whilst this clearly provides societal benefit in helping to progress medical research, this has to be balanced against protection of subjects' privacy. There are two main scenarios for sharing subject data: within Clinical Study Reports and Individual Patient Level Data, and these scenarios have different associated risks and generally require different approaches. In any data sharing scenario, there is a trade-off between data utility and the risk of subject re-identification, and achieving this balance is key. Quantitative metrics can guide the amount of de-identification required and new technologies may also start to provide alternative ways to achieve the risk-utility balance.
翻訳日:2023-10-23 18:04:02 公開日:2023-05-17
# 解釈可能なグラフネットワークによるユニバーサル代数の導出

Interpretable Graph Networks Formulate Universal Algebra Conjectures ( http://arxiv.org/abs/2307.11688v1 )

ライセンス: Link先を確認
Francesco Giannini, Stefano Fioravanti, Oguzhan Keskin, Alisia Maria Lupidi, Lucie Charlotte Magister, Pietro Lio, Pietro Barbiero(参考訳) 人工知能(AI)の台頭により、研究者は何十年にもわたって伝統的なアプローチを導いた難しい数学的な問題を研究できるようになった。 しかし、現代数学の基礎をなす分野の1つであるUniversal Algebra(UA)におけるAIの使用は、まだ完全に解明されていない。 この研究は、AIを用いて、等価な方程式と位相的特徴を持つUAの予想を研究することを提案する。 トポロジカル表現はグラフニューラルネットワークを用いてそのような特性の分析を可能にするが、これらのモデルの透過性と脆性が制限されたため、既存の予想を実証的に検証したり、新しい予想を定式化するのに簡単な使用が妨げられる。 これらのギャップを埋めるために、UAの予想に基づいてAI対応データセットを生成する一般的なアルゴリズムを提案し、完全に解釈可能なグラフネットワークを構築するための新しいニューラルネットワーク層を導入する。 実験の結果,解釈可能なグラフネットワークが示された。 (i)作業の正確性を犠牲にすることなく解釈性を高める。 (ii) 普遍代数の性質を予測するときに強く一般化する。 (iii)既存の予想を実証的に検証する簡単な説明を生成し、 (iv)新規予想の定式化を示唆する部分グラフを同定する。

The rise of Artificial Intelligence (AI) recently empowered researchers to investigate hard mathematical problems which eluded traditional approaches for decades. Yet, the use of AI in Universal Algebra (UA) -- one of the fields laying the foundations of modern mathematics -- is still completely unexplored. This work proposes the first use of AI to investigate UA's conjectures with an equivalent equational and topological characterization. While topological representations would enable the analysis of such properties using graph neural networks, the limited transparency and brittle explainability of these models hinder their straightforward use to empirically validate existing conjectures or to formulate new ones. To bridge these gaps, we propose a general algorithm generating AI-ready datasets based on UA's conjectures, and introduce a novel neural layer to build fully interpretable graph networks. The results of our experiments demonstrate that interpretable graph networks: (i) enhance interpretability without sacrificing task accuracy, (ii) strongly generalize when predicting universal algebra's properties, (iii) generate simple explanations that empirically validate existing conjectures, and (iv) identify subgraphs suggesting the formulation of novel conjectures.
翻訳日:2023-10-23 16:43:04 公開日:2023-05-17
# 外因性変数と機械学習アルゴリズムを用いた短期株価予測

Short-Term Stock Price Forecasting using exogenous variables and Machine Learning Algorithms ( http://arxiv.org/abs/2309.00618v1 )

ライセンス: Link先を確認
Albert Wong, Steven Whang, Emilio Sagre, Niha Sachin, Gustavo Dutra, Yew-Wei Lim, Gaetan Hains, Youry Khmelevsky, Frank Zhang(参考訳) 株式市場で正確な予測を作ることは金融業界では常に大きな課題だった。 予測分野における機械学習の次のレベルとしての台頭とともに、2020年3月から2022年5月までの短期間にニューヨーク証券取引所で取引された3つの有名株の予測において、4つの機械学習モデルとそれらの精度を比較した。 我々は,XGBoost,Random Forest,Multi-layer Perceptron,Support Vector Regressionモデルをデプロイ,開発,チューニングする。 評価指標としてRMSE, MAPE, MTT, MPEが最も高い精度を示すモデルについて報告する。 XGBoostは、240のトレーディングデイのトレーニングデータセットを使用して、より長い(最大10秒)実行にもかかわらず、最も高い精度を提供する。 この研究の結果は、個々のパラメータをさらに調整したり、より外在的な変数を導入することで改善されるかもしれない。

Creating accurate predictions in the stock market has always been a significant challenge in finance. With the rise of machine learning as the next level in the forecasting area, this research paper compares four machine learning models and their accuracy in forecasting three well-known stocks traded in the NYSE in the short term from March 2020 to May 2022. We deploy, develop, and tune XGBoost, Random Forest, Multi-layer Perceptron, and Support Vector Regression models. We report the models that produce the highest accuracies from our evaluation metrics: RMSE, MAPE, MTT, and MPE. Using a training data set of 240 trading days, we find that XGBoost gives the highest accuracy despite running longer (up to 10 seconds). Results from this study may improve by further tuning the individual parameters or introducing more exogenous variables.
翻訳日:2023-10-23 11:32:44 公開日:2023-05-17
# 教師チューニングモデルがクイックラーニング

Instruction Tuned Models are Quick Learners ( http://arxiv.org/abs/2306.05539v1 )

ライセンス: Link先を確認
Himanshu Gupta and Saurabh Arjun Sawant and Swaroop Mishra and Mutsumi Nakamura and Arindam Mitra and Santosh Mashetty and Chitta Baral(参考訳) 言語モデルのインストラクションチューニングは、いくつかの例を用いて、コンテキスト内学習を通じて、未知のタスクにモデルを一般化する能力を示す。 しかし、一般的な教師付き学習では、微調整のためのダウンストリームトレーニングデータが必要となる。 現実の状況では、微調整用のデータが不足し、ほとんどショット推論と完全に監督された微調整の間にある。 そこで,本研究では,伝達学習とSOTA(State-of-the-art)教師付きモデルの性能の一致に要する最小ダウンストリームトレーニングデータを推定することにより,各種タスクに対する調律モデルのサンプル効率を示す。 我々は,STL(Single Task Learning)とMTL(Multi Task Learning)の両方の設定において,Super Natural Instructions (SuperNI)の119タスクについて実験を行った。 その結果, STL設定では, 下流列車データの25%が, 下流作業におけるSOTA性能を上回った指導調律モデルであることが判明した。 mtl設定では、ダウンストリームトレーニングデータのわずか6%でトレーニングされた命令チューニングモデルがsotaを達成する一方、トレーニングデータの100%を使用すると、前回のstaよりも3.69%改善(ルージュl74.68)する。 本稿では,t5 対 tk-instruct の分析を行い,サンプル効率と転送学習の両面において命令チューニングが助けとなることを示すために,いくつかのベースラインを開発した。 さらに,前処理を命令で行うと,両方の設定で一貫した約4%のパフォーマンス向上が観察される。 最後に、カテゴリー研究を行い、従来の結果とは対照的に、質問書き直しとタイトル生成カテゴリのタスクが命令チューニングに苦しむことを発見した。

Instruction tuning of language models has demonstrated the ability to enhance model generalization to unseen tasks via in-context learning using a few examples. However, typical supervised learning still requires a plethora of downstream training data for finetuning. Often in real-world situations, there is a scarcity of data available for finetuning, falling somewhere between few shot inference and fully supervised finetuning. In this work, we demonstrate the sample efficiency of instruction tuned models over various tasks by estimating the minimal downstream training data required by them to perform transfer learning and match the performance of state-of-the-art (SOTA) supervised models. We conduct experiments on 119 tasks from Super Natural Instructions (SuperNI) in both the single task learning (STL) and multi task learning (MTL) settings. Our findings reveal that, in the STL setting, instruction tuned models equipped with 25% of the downstream train data surpass the SOTA performance on the downstream tasks. In the MTL setting, an instruction tuned model trained on only 6% of downstream training data achieve SOTA, while using 100% of the training data results in a 3.69% points improvement (ROUGE-L 74.68) over the previous SOTA. We conduct an analysis on T5 vs Tk-Instruct by developing several baselines to demonstrate that instruction tuning aids in increasing both sample efficiency and transfer learning. Additionally, we observe a consistent ~4% performance increase in both settings when pre-finetuning is performed with instructions. Finally, we conduct a categorical study and find that contrary to previous results, tasks in the question rewriting and title generation categories suffer from instruction tuning.
翻訳日:2023-06-18 13:10:40 公開日:2023-05-17
# PrivaScissors: 相互情報のレンズを通して協調推論のプライバシーを高める

PrivaScissors: Enhance the Privacy of Collaborative Inference through the Lens of Mutual Information ( http://arxiv.org/abs/2306.07973v1 )

ライセンス: Link先を確認
Lin Duan, Jingwei Sun, Yiran Chen, Maria Gorlatova(参考訳) エッジクラウドのコラボレーティブ推論により、リソース制限のIoTデバイスは、生データをクラウドサーバに公開することなく、ディープラーニングアプリケーションをサポートすることができる。 それにもかかわらず、以前の研究では、協調推論が依然としてエッジデバイスからのデータや予測を露出させることを示した。 協調推論のプライバシを高めるために, モデルの中間結果と装置のデータと予測との相互情報を低減するために, privascissors と呼ばれる防衛戦略を導入する。 多様な攻撃の文脈で複数のデータセット上でPrivaScissorsの性能を評価し、理論的に堅牢性を保証する。

Edge-cloud collaborative inference empowers resource-limited IoT devices to support deep learning applications without disclosing their raw data to the cloud server, thus preserving privacy. Nevertheless, prior research has shown that collaborative inference still results in the exposure of data and predictions from edge devices. To enhance the privacy of collaborative inference, we introduce a defense strategy called PrivaScissors, which is designed to reduce the mutual information between a model's intermediate outcomes and the device's data and predictions. We evaluate PrivaScissors's performance on several datasets in the context of diverse attacks and offer a theoretical robustness guarantee.
翻訳日:2023-06-18 12:19:19 公開日:2023-05-17
# マルチチェーンDeFiフラッド検出のための機械学習の活用

Leveraging Machine Learning for Multichain DeFi Fraud Detection ( http://arxiv.org/abs/2306.07972v1 )

ライセンス: Link先を確認
Georgios Palaiokrassas and Sandro Scherrers and Iason Ofeidis and Leandros Tassiulas(参考訳) 2008年のBitcoinによる無許可ブロックチェーンの導入以来、最も適したユースケースは金融システムとその利点を信頼できる仲介者に依存することなく、シームレスに利用できるようにすることであることが明らかとなった。 チェーン間のスマートコントラクトは分散ファイナンス(defi)のエコシステムを提供し、ユーザは160busdを超える累積的なロック付き価値で、貸出プール、自動マーケットメーカ(amm)取引所、安定コイン、デリバティブなどとやり取りすることができる。 defiには高い報酬が伴う一方で、多くのリスクも伴う。 多くの金融犯罪が長年にわたって発生しており、悪意のある活動の早期発見が優先課題となっている。 提案フレームワークでは,最大であるEthereumなど,さまざまなチェーンから機能セットを抽出する有効な方法を導入し,Covalentとのコラボレーションによる新たなデータセットに基づいて,最も広く使用されているDeFiプロトコル(Aave, Compound, Curve, Lido, Yearnを含む合計23)のトランザクションで収集した広範なデータセットに基づいて評価する。 XGBoostやニューラルネットワークなど、DeFiと相互作用する不正アカウント検出のための異なる機械学習手法を用いて、新しいDeFi関連機能の導入により、精度、精度、リコール、F1スコア、F2スコアなどの評価結果が大幅に改善されることを示した。

Since the inception of permissionless blockchains with Bitcoin in 2008, it became apparent that their most well-suited use case is related to making the financial system and its advantages available to everyone seamlessly without depending on any trusted intermediaries. Smart contracts across chains provide an ecosystem of decentralized finance (DeFi), where users can interact with lending pools, Automated Market Maker (AMM) exchanges, stablecoins, derivatives, etc. with a cumulative locked value which had exceeded 160B USD. While DeFi comes with high rewards, it also carries plenty of risks. Many financial crimes have occurred over the years making the early detection of malicious activity an issue of high priority. The proposed framework introduces an effective method for extracting a set of features from different chains, including the largest one, Ethereum and it is evaluated over an extensive dataset we gathered with the transactions of the most widely used DeFi protocols (23 in total, including Aave, Compound, Curve, Lido, and Yearn) based on a novel dataset in collaboration with Covalent. Different Machine Learning methods were employed, such as XGBoost and a Neural Network for identifying fraud accounts detection interacting with DeFi and we demonstrate that the introduction of novel DeFi-related features, significantly improves the evaluation results, where Accuracy, Precision, Recall, F1-score and F2-score where utilized.
翻訳日:2023-06-18 12:19:06 公開日:2023-05-17
# 変換器を用いた化学類似性探索のためのプロンプト工学

Prompt Engineering for Transformer-based Chemical Similarity Search Identifies Structurally Distinct Functional Analogues ( http://arxiv.org/abs/2305.16330v1 )

ライセンス: Link先を確認
Clayton W. Kosonocky, Aaron L. Feller, Claus O. Wilke, Andrew D. Ellington(参考訳) 化学類似性検索は、新しい薬物様分子を同定するためにin-silico法で広く使われている。 これらの手法は歴史的に計算分子の類似性に対する構造に基づく比較に依存している。 ここでは, 化学言語モデルを用いて, ベクトルに基づく化学探索を行う。 我々は,2つの異なる化学文字列表現アルゴリズム(1つはクエリ,もう1つはデータベース)を利用する,迅速なエンジニアリング戦略を作成することで実装を拡張した。 本手法は,5つの薬物様クエリ分子 (ペニシリンG, ニアルトレルビル, ジドブジン, リセリン酸ジエチルアミド, フェンタニル) および3つの色素様クエリ分子 (アシッドブルー25, アボベンゾインおよび2-ジフェニルアミノカルバゾール) の検索結果について検討した。 この手法は,関連特許文献で示されるクエリと機能的に類似する分子を同定し,これらの分子の多くはクエリとは構造的に異なるため,従来の化学類似性探索法では見当たらないことが判明した。 この方法は、標的機能を達成する新しい分子の構造クラスを発見するのに役立つ。

Chemical similarity searches are widely used in-silico methods for identifying new drug-like molecules. These methods have historically relied on structure-based comparisons to compute molecular similarity. Here, we use a chemical language model to create a vector-based chemical search. We extend implementations by creating a prompt engineering strategy that utilizes two different chemical string representation algorithms: one for the query and the other for the database. We explore this method by reviewing the search results from five drug-like query molecules (penicillin G, nirmatrelvir, zidovudine, lysergic acid diethylamide, and fentanyl) and three dye-like query molecules (acid blue 25, avobenzone, and 2-diphenylaminocarbazole). We find that this novel method identifies molecules that are functionally similar to the query, indicated by the associated patent literature, and that many of these molecules are structurally distinct from the query, making them unlikely to be found with traditional chemical similarity search methods. This method may aid in the discovery of novel structural classes of molecules that achieve target functionality.
翻訳日:2023-06-04 12:07:14 公開日:2023-05-17
# ラット対応ビデオ位置予測のためのモーションスセナリオデカップリング:戦略とベンチマーク

Motion-Scenario Decoupling for Rat-Aware Video Position Prediction: Strategy and Benchmark ( http://arxiv.org/abs/2305.18310v1 )

ライセンス: Link先を確認
Xiaofeng Liu, Jiaxin Gao, Yaohua Liu, Risheng Liu and Nenggan Zheng(参考訳) 近年、深層学習技術を用いた人間の行動認識と行動予測において顕著な進歩が見られ、視覚に基づく意味理解が向上した。 しかし、小さなバイオロボティクスのための高品質なモーションデータセットがまだ存在しないため、第三者の観察に基づく長期移動予測と行動制御のためのより困難なシナリオが提示されている。 本研究では,事前定義されたアノテーションルールに基づいて,個人や環境への影響要因を考慮し,生物ロボットの動き予測データセットであるRatPoseを紹介する。 これらの要因に対する動き予測のロバスト性を高めるために、シナリオ指向と動き指向の機能を効果的に分離し、シナリオコントラスト損失とモーションクラスタリング損失を総合訓練のために設計するデュアルストリーム運動分離(\textit{DMSD})フレームワークを提案する。 このような特有なアーキテクチャでは、二重分岐特徴フロー情報が相互作用して補償される。 さらに,難易度が異なるタスクにおいて,提案する‘textit{DMSD} フレームワークの大幅な性能向上を示す。 また,提案するデータセットの一般化能力を検証するために,長期離散軌道予測タスクを実装した。

Recently significant progress has been made in human action recognition and behavior prediction using deep learning techniques, leading to improved vision-based semantic understanding. However, there is still a lack of high-quality motion datasets for small bio-robotics, which presents more challenging scenarios for long-term movement prediction and behavior control based on third-person observation. In this study, we introduce RatPose, a bio-robot motion prediction dataset constructed by considering the influence factors of individuals and environments based on predefined annotation rules. To enhance the robustness of motion prediction against these factors, we propose a Dual-stream Motion-Scenario Decoupling (\textit{DMSD}) framework that effectively separates scenario-oriented and motion-oriented features and designs a scenario contrast loss and motion clustering loss for overall training. With such distinctive architecture, the dual-branch feature flow information is interacted and compensated in a decomposition-then-fusion manner. Moreover, we demonstrate significant performance improvements of the proposed \textit{DMSD} framework on different difficulty-level tasks. We also implement long-term discretized trajectory prediction tasks to verify the generalization ability of the proposed dataset.
翻訳日:2023-06-04 11:40:52 公開日:2023-05-17
# 山火事管理における高度燃料水分量モニタリングのための機械学習とVIIRS衛星検索

Machine Learning and VIIRS Satellite Retrievals for Skillful Fuel Moisture Content Monitoring in Wildfire Management ( http://arxiv.org/abs/2305.11910v1 )

ライセンス: Link先を確認
John S. Schreck, William Petzke, Pedro A. Jimenez, Thomas Brummet, Jason C. Knievel, Eric James, Branko Kosovic, David John Gagne(参考訳) 植生の燃料水分量(FMC)のモニタリングは、森林火災の影響を管理し緩和するために重要である。 In situ FMC 観測と数値天気予報(NWP)モデルと衛星検索を組み合わせることで、機械学習(ML)モデルの開発を可能にし、連続した米国(CONUS)上でのFMC 探索を推定した。 本研究では,国立水モデルと高分解能ラピッドリフレッシュ(HRRR)NWPモデル,および表面特性を特徴づける静的変数,およびスオミ-NPP衛星システム上でのVIIRS観測装置からの表面反射率と地表面温度(LST)の検索を用いてMLモデルを訓練した。 高度パラメータ最適化により,毎日の気候学rmse (+44\%) と1時間毎の気候学rmse (+24\%) と比較して熟練したfmcモデルが得られた。 さらに、VIIRS検索はFMCを推定するための重要な予測因子であり、高いバンド相関によりグループとして大きく寄与した。 一方,HRRR群の個人予測器は,説明可能性技術により比較的重要であった。 HRRRとVIIRSの検索がモデル入力として使用されなかった場合、性能は大幅に低下した。 VIIRSの検索が使われなかった場合、RMSEの性能は悪化した。 このことは、MODISよりも優れたモデルをもたらすFMCのモデリングにおけるVIIRS検索の重要性を強調している。 全体として、予測器のVIIRS基の重要性は、10h燃料と大気と土壌水分との動的関係を裏付ける。 これらの結果は,MLモデルを用いてFMCを予測するための適切なデータソースを選択することの重要性を強調した。

Monitoring the fuel moisture content (FMC) of vegetation is crucial for managing and mitigating the impact of wildland fires. The combination of in situ FMC observations with numerical weather prediction (NWP) models and satellite retrievals has enabled the development of machine learning (ML) models to estimate dead FMC retrievals over the contiguous US (CONUS). In this study, ML models were trained using variables from the National Water Model and the High-Resolution Rapid Refresh (HRRR) NWP models, and static variables characterizing the surface properties, as well as surface reflectances and land surface temperature (LST) retrievals from the VIIRS instrument on board the Suomi-NPP satellite system. Extensive hyper-parameter optimization yielded skillful FMC models compared to a daily climatography RMSE (+44\%) and to an hourly climatography RMSE (+24\%). Furthermore, VIIRS retrievals were important predictors for estimating FMC, contributing significantly as a group due to their high band-correlation. In contrast, individual predictors in the HRRR group had relatively high importance according to the explainability techniques used. When both HRRR and VIIRS retrievals were not used as model inputs, the performance dropped significantly. If VIIRS retrievals were not used, the RMSE performance was worse. This highlights the importance of VIIRS retrievals in modeling FMC, which yielded better models compared to MODIS. Overall, the importance of the VIIRS group of predictors corroborates the dynamic relationship between the 10-h fuel and the atmosphere and soil moisture. These findings emphasize the significance of selecting appropriate data sources for predicting FMC with ML models, with VIIRS retrievals and selected HRRR variables being critical components in producing skillful FMC estimates.
翻訳日:2023-05-28 05:20:21 公開日:2023-05-17
# 逐次ベストアーム同定と脳-コンピュータインタフェースへの応用

Sequential Best-Arm Identification with Application to Brain-Computer Interface ( http://arxiv.org/abs/2305.11908v1 )

ライセンス: Link先を確認
Xin Zhou, Botao Hao, Jian Kang, Tor Lattimore, Lexin Li(参考訳) 脳コンピュータインタフェース(BCI)は、脳と外部デバイスまたはコンピュータシステムとの直接通信を可能にする技術である。 個人が自分の思考だけを使ってデバイスと対話することを可能にし、医療、リハビリテーション、そして人間の増強に幅広い応用の可能性を持っている。 脳波 (eeg) と事象関連電位 (erp) に基づくスペラーシステム (bci) は、ユーザーが物理的キーボードを用いることなく、異なる刺激提示パラダイムの下で脳信号を記録・解釈することで、単語を綴ることができるbciの一種である。 従来の非適応的パラダイムは各単語の選択を独立して扱い、長い学習プロセスをもたらす。 サンプリング効率を向上させるため,マルチアームバンディットにおいて,最善のアーム識別タスクのシーケンスとして問題をキャストした。 事前訓練済みの大規模言語モデル(LLM)を利用することで、以前のタスクから学んだ知識を利用して、その後のタスクを通知し、促進する。 そこで本研究では,固定信頼度設定と固定予算設定の下での逐次トップツー・トンプソンサンプリング(STTS)アルゴリズムを提案する。 提案アルゴリズムの理論的特性について検討し, 合成データ解析とP300 BCIスペルシミュレータの例を用いて, その実質的な改善を実証する。

A brain-computer interface (BCI) is a technology that enables direct communication between the brain and an external device or computer system. It allows individuals to interact with the device using only their thoughts, and holds immense potential for a wide range of applications in medicine, rehabilitation, and human augmentation. An electroencephalogram (EEG) and event-related potential (ERP)-based speller system is a type of BCI that allows users to spell words without using a physical keyboard, but instead by recording and interpreting brain signals under different stimulus presentation paradigms. Conventional non-adaptive paradigms treat each word selection independently, leading to a lengthy learning process. To improve the sampling efficiency, we cast the problem as a sequence of best-arm identification tasks in multi-armed bandits. Leveraging pre-trained large language models (LLMs), we utilize the prior knowledge learned from previous tasks to inform and facilitate subsequent tasks. To do so in a coherent way, we propose a sequential top-two Thompson sampling (STTS) algorithm under the fixed-confidence setting and the fixed-budget setting. We study the theoretical property of the proposed algorithm, and demonstrate its substantial empirical improvement through both synthetic data analysis as well as a P300 BCI speller simulator example.
翻訳日:2023-05-28 05:19:49 公開日:2023-05-17
# enceおよび他のMADに基づく校正指標の特性

Properties of the ENCE and other MAD-based calibration metrics ( http://arxiv.org/abs/2305.11905v1 )

ライセンス: Link先を確認
Pascal Pernot(参考訳) expecteded Normalized Calibration Error (ENCE) は、回帰問題に対する予測の不確かさの質を評価するために機械学習で使われる一般的なキャリブレーション統計である。 CEの推定はキャリブレーションデータのバイナリ化に基づいている。 この短い注記で、私はenceの厄介な性質、すなわち、よく校正されたまたはほぼ校正されたデータセットのビンの数の平方根に比例していることを示します。 同様の振る舞いはzスコア(ZVE)の分散に基づく校正誤差に影響し、どちらの場合もこの性質は平均絶対偏差(MAD)統計を用いて校正誤差を推定した結果である。 したがって、この問題はキャリブレーション誤差統計量の信頼できる推定のためにどのビンを選ぶかという問題である。 キャリブレーションされたと仮定されるデータセットのビン数に依存しないence値とZVE値を推定し、同時に統計的キャリブレーションテストを行う方法が提案されている。 また、ZVEは異常や不確実性に対するセンセーションよりも感度が低いことも示されている。

The Expected Normalized Calibration Error (ENCE) is a popular calibration statistic used in Machine Learning to assess the quality of prediction uncertainties for regression problems. Estimation of the ENCE is based on the binning of calibration data. In this short note, I illustrate an annoying property of the ENCE, i.e. its proportionality to the square root of the number of bins for well calibrated or nearly calibrated datasets. A similar behavior affects the calibration error based on the variance of z-scores (ZVE), and in both cases this property is a consequence of the use of a Mean Absolute Deviation (MAD) statistic to estimate calibration errors. Hence, the question arises of which number of bins to choose for a reliable estimation of calibration error statistics. A solution is proposed to infer ENCE and ZVE values that do not depend on the number of bins for datasets assumed to be calibrated, providing simultaneously a statistical calibration test. It is also shown that the ZVE is less sensitive than the ENCE to outstanding errors or uncertainties.
翻訳日:2023-05-28 05:19:26 公開日:2023-05-17
# ヒト軟組織による情報処理

Information processing via human soft tissue ( http://arxiv.org/abs/2305.14366v1 )

ライセンス: Link先を確認
Yo Kobayashi(参考訳) 本研究は,人間の軟部生体組織を物理貯水池計算においてソフトボディの一種として使用できることを示した。 軟質生物組織は、応力-ひずみ非線形性や粘弾性といった特性を持ち、非線形性や記憶を含む物理貯水池計算の要件を満たす。 本研究の目的は,人間の軟組織の力学を非線形力学系のエミュレーションのための物理貯水池として活用することであった。 この概念を実証するために, 手関節の屈曲伸展方向の運動中の関節角データと, その運動に伴う筋の超音波画像が, 被験者から得られた。 システムへの入力は手関節の角度であり、筋肉内の変形場(超音波画像から守られている)は貯水池の状態を表していた。 その結果, 軟組織の力学は非線形力学系をエミュレートする計算作業に肯定的な影響を与えることがわかった。 この研究は人間の軟組織を潜在的な計算資源として利用できることを示唆している。

This study demonstrates that the soft biological tissues of humans can be used as a type of soft body in physical reservoir computing. Soft biological tissues possess characteristics such as stress-strain nonlinearity and viscoelasticity that satisfy the requirements for physical reservoir computing, including nonlinearity and memory. The aim of this study was to utilize the dynamics of human soft tissues as a physical reservoir for the emulation of nonlinear dynamical systems. To demonstrate this concept, joint angle data during motion in the flexion-extension direction of the wrist joint, and ultrasound images of the muscles associated with that motion, were acquired from human participants. The input to the system was the angle of the wrist joint, while the deformation field within the muscle (obtained from ultrasound images) represented the state of the reservoir. The results indicate that the dynamics of soft tissue have a positive impact on the computational task of emulating nonlinear dynamical systems. This research suggests that the soft tissue of humans can be used as a potential computational resource.
翻訳日:2023-05-28 04:50:47 公開日:2023-05-17
# PulseNet: 犬のランダム拡張ポリシーと連続ウェーブレット変換を用いたディープラーニングECG信号分類

PulseNet: Deep Learning ECG-signal classification using random augmentation policy and continous wavelet transform for canines ( http://arxiv.org/abs/2305.15424v1 )

ライセンス: Link先を確認
Andre Dourson, Roberto Santilli, Federica Marchesotti, Jennifer Schneiderman, Oliver Roman Stiel, Fernando Junior, Michael Fitzke, Norbert Sithirangathan, Emil Walleser, Xiaoli Qiao, Mark Parkinson(参考訳) 心電図(ecg)の評価には熟練した獣医が必要であるが、心電図の解釈と診断支援のための獣医の利用は限られている。 ECGシークエンスの自動評価ツールの開発は、臨床医にリアルタイムの結果と意思決定支援ツールを提供することで、獣医のケアを改善することができる。 犬の心電図配列を正常または異常と分類する深層畳み込みニューラルネットワーク(cnn)アプローチを実装した。 ECGレコードは8秒のリードII配列に変換され、正常(心臓異常の証拠はない)または異常(1つ以上の心臓異常の存在)に分類される。 このプロジェクトで実装された新しい拡張ライブラリであるrandomaugmentecgを使用して、ecgシーケンスをトレーニングするためにランダムに拡張する。 各チャンクは連続ウェーブレット変換を用いて2次元スカルグラムに変換される。 2Dの頭蓋骨は正常または異常と分類され、バイナリCNN分類器によって分類される。 AUC-ROCスコアが0.9506に達した3人の獣医師に対して、ヒトレベルのパフォーマンスに適合したテストデータセットで実験結果が検証された。 さらに、MLOpsアプローチを使用して、Microsoft Azureへのモデルデプロイメントを記述します。 本研究は,犬用心電図を自動的に分類する深層学習モデルの実装の試みの1つであり,自動心電図分類の導入は,診断性能の向上と臨床効率の向上を通じて獣医学的ケアを向上させる。

Evaluating canine electrocardiograms (ECG) require skilled veterinarians, but current availability of veterinary cardiologists for ECG interpretation and diagnostic support is limited. Developing tools for automated assessment of ECG sequences can improve veterinary care by providing clinicians real-time results and decision support tools. We implement a deep convolutional neural network (CNN) approach for classifying canine electrocardiogram sequences as either normal or abnormal. ECG records are converted into 8 second Lead II sequences and classified as either normal (no evidence of cardiac abnormalities) or abnormal (presence of one or more cardiac abnormalities). For training ECG sequences are randomly augmented using RandomAugmentECG, a new augmentation library implemented specifically for this project. Each chunk is then is converted using a continuous wavelet transform into a 2D scalogram. The 2D scalogram are then classified as either normal or abnormal by a binary CNN classifier. Experimental results are validated against three boarded veterinary cardiologists achieving an AUC-ROC score of 0.9506 on test dataset matching human level performance. Additionally, we describe model deployment to Microsoft Azure using an MLOps approach. To our knowledge, this work is one of the first attempts to implement a deep learning model to automatically classify ECG sequences for canines.Implementing automated ECG classification will enhance veterinary care through improved diagnostic performance and increased clinic efficiency.
翻訳日:2023-05-28 04:42:07 公開日:2023-05-17
# エッジにおける表情認識: CPU vs GPU vs VPU vs TPU

Facial Expression Recognition at the Edge: CPU vs GPU vs VPU vs TPU ( http://arxiv.org/abs/2305.15422v1 )

ライセンス: Link先を確認
Mohammadreza Mohammadi, Heath Smith, Lareb Khan, Ramtin Zand(参考訳) 顔表情認識(FER)は人間とコンピュータの相互作用において重要な役割を担い、幅広い用途で利用されている。 畳み込みニューラルネットワーク(CNN)は、人間の表情を分類する能力を示すが、大きなCNNはリソースやエネルギーに制約のあるIoTデバイスに実装するのに適していない。 本研究では,ハードウェア対応CNNの開発と最適化のための階層的フレームワークを提案する。 我々はNVIDIA Jetson Nano、Intel Neural Compute Stick、Coral TPUなど、さまざまなエッジAIアクセラレータを包括的に分析する。 提案手法を用いて,CK+表情認識データセットを用いた場合,ピーク精度99.49%を達成した。 さらに,0.39ミリ秒の最小遅延,0.52ワットの最小消費電力を実現した。

Facial Expression Recognition (FER) plays an important role in human-computer interactions and is used in a wide range of applications. Convolutional Neural Networks (CNN) have shown promise in their ability to classify human facial expressions, however, large CNNs are not well-suited to be implemented on resource- and energy-constrained IoT devices. In this work, we present a hierarchical framework for developing and optimizing hardware-aware CNNs tuned for deployment at the edge. We perform a comprehensive analysis across various edge AI accelerators including NVIDIA Jetson Nano, Intel Neural Compute Stick, and Coral TPU. Using the proposed strategy, we achieved a peak accuracy of 99.49% when testing on the CK+ facial expression recognition dataset. Additionally, we achieved a minimum inference latency of 0.39 milliseconds and a minimum power consumption of 0.52 Watts.
翻訳日:2023-05-28 04:41:41 公開日:2023-05-17
# 超越格子: 点雲と表面表現による神経処理

Transcending Grids: Point Clouds and Surface Representations Powering Neurological Processing ( http://arxiv.org/abs/2305.15426v1 )

ライセンス: Link先を確認
Kishore Babu Nampalle, Pradeep Singh, Vivek Narayan Uppala, Sumit Gangwar, Rajesh Singh Negi, Balasubramanian Raman(参考訳) 医療分野では、正確な医療画像の分類が不可欠であるが、従来の方法では、一貫したグリッド構造で医療データをヒンジすることが多い。 最近の医学研究は、データの表現を考慮せずに、より良いパフォーマンスを達成するためにアーキテクチャを微調整することに焦点を当てている。 本稿では,非構造化点クラウドデータ構造を利用してグリッドベースデータを高次元表現に変換する新しい手法を提案する。 まず,画素色情報を空間座標として統合することにより,画像から疎点雲を生成する。 次に、画像次元に基づく点からなる超曲面を構築し、この超曲面内の各滑らかな断面が特定の画素位置を象徴する。 多角形面構成は隣接テンソルを用いて達成される。 最後に、高精細な領域に焦点をあてて構築された超曲面を高密度にサンプリングすることで、濃密な点雲が生成される。 本手法の有効性を脳腫瘍データセット上で実証し,既存の分類法よりも大幅に改善した。 この手法により、元の画像から複雑な詳細を抽出し、高度な画像解析と処理タスクの新しい可能性を開くことができる。

In healthcare, accurately classifying medical images is vital, but conventional methods often hinge on medical data with a consistent grid structure, which may restrict their overall performance. Recent medical research has been focused on tweaking the architectures to attain better performance without giving due consideration to the representation of data. In this paper, we present a novel approach for transforming grid based data into its higher dimensional representations, leveraging unstructured point cloud data structures. We first generate a sparse point cloud from an image by integrating pixel color information as spatial coordinates. Next, we construct a hypersurface composed of points based on the image dimensions, with each smooth section within this hypersurface symbolizing a specific pixel location. Polygonal face construction is achieved using an adjacency tensor. Finally, a dense point cloud is generated by densely sampling the constructed hypersurface, with a focus on regions of higher detail. The effectiveness of our approach is demonstrated on a publicly accessible brain tumor dataset, achieving significant improvements over existing classification techniques. This methodology allows the extraction of intricate details from the original image, opening up new possibilities for advanced image analysis and processing tasks.
翻訳日:2023-05-28 04:30:09 公開日:2023-05-17
# 言語モデルトケナイザが言語間の不公平を導入

Language Model Tokenizers Introduce Unfairness Between Languages ( http://arxiv.org/abs/2305.15425v1 )

ライセンス: Link先を確認
Aleksandar Petrov, Emanuele La Malfa, Philip H.S. Torr, Adel Bibi(参考訳) 最近の言語モデルは、明示的に訓練されていない場合でも、印象的な多言語性能を示している。 それにもかかわらず、異なる言語にわたるアウトプットの品質に関する懸念が高まっている。 本稿では,モデルが呼び出されるずっと前に,トークン化段階において,異なる言語に対する処理の相違がいかに発生するかを示す。 同じテキストが異なる言語に翻訳された場合、トークン化の長さは大きく異なり、15回までの違いがある。 これらの相違は、多言語サポートのために意図的に訓練されたとしても、私たちが評価する17のトークンにまたがる。 文字レベルとバイトレベルのモデルは、いくつかの言語ペアのエンコーディング長の4倍以上の差を示す。 これは、商用言語サービスへのアクセスコスト、処理時間とレイテンシ、およびモデルにコンテキストとして提供可能なコンテンツの量に関して、一部の言語コミュニティにとって不公平な扱いを誘導します。 したがって,多言語的に公正なトークン化器を用いて,将来の言語モデルを訓練すべきである。

Recent language models have shown impressive multilingual performance, even when not explicitly trained for it. Despite this, concerns have been raised about the quality of their outputs across different languages. In this paper, we show how disparity in the treatment of different languages arises at the tokenization stage, well before a model is even invoked. The same text translated into different languages can have drastically different tokenization lengths, with differences up to 15 times in some cases. These disparities persist across the 17 tokenizers we evaluate, even if they are intentionally trained for multilingual support. Character-level and byte-level models also exhibit over 4 times the difference in the encoding length for some language pairs. This induces unfair treatment for some language communities in regard to the cost of accessing commercial language services, the processing time and latency, as well as the amount of content that can be provided as context to the models. Therefore, we make the case that we should train future language models using multilingually fair tokenizers.
翻訳日:2023-05-28 04:29:50 公開日:2023-05-17
# 圧縮とプロンプト:転送可能なプロンプトによるllm推論の精度と効率のトレードオフを改善する

Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM Inference with Transferable Prompt ( http://arxiv.org/abs/2305.11186v1 )

ライセンス: Link先を確認
Zhaozhuo Xu, Zirui Liu, Beidi Chen, Yuxin Tang, Jue Wang, Kaixiong Zhou, Xia Hu and Anshumali Shrivastava(参考訳) 数十億のパラメータで武装した大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクで例外的なパフォーマンスを示す。 しかし、推論の間、特に単一のGPUのような一般的なハードウェアにデプロイする場合、大きな計算課題が提示される。 そのため、圧縮によって達成されるものの、計算とメモリ要求を削減し、LLM推論のレイテンシを最小限に抑えることが重要となる。 しかし、圧縮llmは通常予測精度の低下を経験するため、このプロセスは効率と精度のトレードオフを必然的に引き起こす。 本研究では,このトレードオフを最適化するためには,元のモデルと異なる独自の入力形式を必要とする。 この結果から, 圧縮LDMにおける生成品質は, 精度の高いプロンプトを選択することで, 特定のクエリに対して顕著に向上できることが示唆された。 この知見に乗じて,圧縮llm上で加法プロンプトを育成し,精度を高めるための学習パラダイムを提案する。 我々の経験的結果は、戦略的な迅速な利用により、圧縮されたLLMは元のモデルの精度と一致し、時折超えることができることを示唆している。 さらに,これらの学習プロンプトが,各種データセット,タスク,圧縮レベル間である程度の転送性を持つことを示した。 これらの知見は、LLM推論における精度と効率のバランスを高める新しい可能性に光を当てている。 具体的には、圧縮された大きなモデルに対する司法入力編集の重要性を強調し、共通ハードウェア上でのLSMのスケーリングの潜在的な進歩を示唆している。

Large Language Models (LLMs), armed with billions of parameters, exhibit exceptional performance across a wide range of Natural Language Processing (NLP) tasks. However, they present a significant computational challenge during inference, especially when deploying on common hardware such as single GPUs. As such, minimizing the latency of LLM inference by curtailing computational and memory requirements, though achieved through compression, becomes critically important. However, this process inevitably instigates a trade-off between efficiency and accuracy, as compressed LLMs typically experience a reduction in predictive precision. In this research, we introduce an innovative perspective: to optimize this trade-off, compressed LLMs require a unique input format that varies from that of the original models. Our findings indicate that the generation quality in a compressed LLM can be markedly improved for specific queries by selecting prompts with precision. Capitalizing on this insight, we introduce a prompt learning paradigm that cultivates an additive prompt over a compressed LLM to bolster their accuracy. Our empirical results imply that through our strategic prompt utilization, compressed LLMs can match, and occasionally even exceed, the accuracy of the original models. Moreover, we demonstrated that these learned prompts have a certain degree of transferability across various datasets, tasks, and compression levels. These insights shine a light on new possibilities for enhancing the balance between accuracy and efficiency in LLM inference. Specifically, they underscore the importance of judicious input editing to a compressed large model, hinting at potential advancements in scaling LLMs on common hardware.
翻訳日:2023-05-22 17:57:05 公開日:2023-05-17
# 余震予測のためのGPSデータの予測能力の評価

Assessing the predicting power of GPS data for aftershocks forecasting ( http://arxiv.org/abs/2305.11183v1 )

ライセンス: Link先を確認
Vincenzo Maria Schimmenti, Giuseppe Petrillo, Alberto Rosso, Francois P. Landes(参考訳) 2015年から2019年までの地震カタログの余震予測のための機械学習手法を提案する。 提案手法は,主衝撃時の地表面の変形をGPS(Global Positioning System)局で測定し,畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)で処理することにより,入力の空間的相関を捉える。 適度なデータ量にもかかわらず、この新しいアプローチのパフォーマンスは非常に有望である。 予測の精度はGPS局の密度に大きく依存しており、オフショア地域のようにメインショックが測定ステーションから遠く離れた場所で発生すると予測力が失われる。

We present a machine learning approach for the aftershock forecasting of Japanese earthquake catalogue from 2015 to 2019. Our method takes as sole input the ground surface deformation as measured by Global Positioning System (GPS) stations at the day of the mainshock, and processes it with a Convolutional Neural Network (CNN), thus capturing the input's spatial correlations. Despite the moderate amount of data the performance of this new approach is very promising. The accuracy of the prediction heavily relies on the density of GPS stations: the predictive power is lost when the mainshocks occur far from measurement stations, as in offshore regions.
翻訳日:2023-05-22 17:56:36 公開日:2023-05-17
# 移動学習に基づく付加生産モデルの比較 : 事例研究による検討

Comparison of Transfer Learning based Additive Manufacturing Models via A Case Study ( http://arxiv.org/abs/2305.11181v1 )

ライセンス: Link先を確認
Yifan Tang, M. Rahmani Dehaghani, G. Gary Wang(参考訳) トランスファーラーニング(TL)に基づく付加的製造(AM)モデリングは、過去の製品からのデータを再利用し、新しい製品のモデリングにおいてデータ不足を緩和する新たな分野である。 近年、いくつかの試験が実施されているが、AMモデリングにTLを適用するという固有の課題は、どのソースドメインを使用するか、どれくらいのターゲットデータが必要か、データ前処理技術を適用するかどうかなど、ほとんど議論されていない。 本稿では,金属AM製品に関するオープンソースデータセットに基づいたケーススタディを通じて,これらの質問に答えることを目的とする。 ケーススタディでは,5つのTL手法が決定木回帰(DTR)と人工ニューラルネットワーク(ANN)と統合され,その性能をベースラインのDTRとANNと比較する6つのTLベースモデルを構築する。 これらの比較は応用TL法の性能を定量化するために用いられ、類似性、トレーニングデータサイズ、データ前処理の観点から議論される。 最後に、質的類似度が大きいソースAMドメインと一定範囲のトレーニングデータサイズ比を推奨する。 さらに、TLによるモデリング性能と性能改善のバランスをとるために、データ前処理を慎重に行う必要がある。

Transfer learning (TL) based additive manufacturing (AM) modeling is an emerging field to reuse the data from historical products and mitigate the data insufficiency in modeling new products. Although some trials have been conducted recently, the inherent challenges of applying TL in AM modeling are seldom discussed, e.g., which source domain to use, how much target data is needed, and whether to apply data preprocessing techniques. This paper aims to answer those questions through a case study defined based on an open-source dataset about metal AM products. In the case study, five TL methods are integrated with decision tree regression (DTR) and artificial neural network (ANN) to construct six TL-based models, whose performances are then compared with the baseline DTR and ANN in a proposed validation framework. The comparisons are used to quantify the performance of applied TL methods and are discussed from the perspective of similarity, training data size, and data preprocessing. Finally, the source AM domain with larger qualitative similarity and a certain range of target-to-source training data size ratio are recommended. Besides, the data preprocessing should be performed carefully to balance the modeling performance and the performance improvement due to TL.
翻訳日:2023-05-22 17:56:24 公開日:2023-05-17
# diffiner:音声強調のための汎用拡散型生成精製器

Diffiner: A Versatile Diffusion-based Generative Refiner for Speech Enhancement ( http://arxiv.org/abs/2210.17287v2 )

ライセンス: Link先を確認
Ryosuke Sawata, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Takashi Shibuya, Shusuke Takahashi and Yuki Mitsufuji(参考訳) ディープニューラルネットワーク(DNN)ベースの音声強調法(SE)は、従来の非DNNベースの手法よりも優れているが、生成された出力の知覚品質を劣化させることが多い。 この問題に対処するために,我々は,SE法で事前処理した知覚音声品質の向上を目的としたDNNベースの生成精細器Diffinerを導入する。 クリーン音声のみからなるデータセットを利用して拡散に基づく生成モデルを訓練する。 そして, 従来のSE法により生じる劣化・歪曲した部分に, 拡散復元によって生成したクリーンな部分を効果的に混合し, 音声を洗練させる。 精製器をクリーンな音声で訓練すると、各SEモジュールに特別な追加の訓練を加えることなく、様々なSEメソッドに適用することができる。 したがって,本手法は多機能な後処理モジュールw.r.t.SE法であり,モジュラリティの面で高い可能性を持つ。 実験の結果,従来のSE手法によらず,知覚音声の質が向上した。

Although deep neural network (DNN)-based speech enhancement (SE) methods outperform the previous non-DNN-based ones, they often degrade the perceptual quality of generated outputs. To tackle this problem, we introduce a DNN-based generative refiner, Diffiner, aiming to improve perceptual speech quality pre-processed by an SE method. We train a diffusion-based generative model by utilizing a dataset consisting of clean speech only. Then, our refiner effectively mixes clean parts newly generated via denoising diffusion restoration into the degraded and distorted parts caused by a preceding SE method, resulting in refined speech. Once our refiner is trained on a set of clean speech, it can be applied to various SE methods without additional training specialized for each SE module. Therefore, our refiner can be a versatile post-processing module w.r.t. SE methods and has high potential in terms of modularity. Experimental results show that our method improved perceptual speech quality regardless of the preceding SE methods used.
翻訳日:2023-05-20 01:01:03 公開日:2023-05-17
# 銀行間ネットワーク安定のための強化学習政策勧告

Reinforcement Learning Policy Recommendation for Interbank Network Stability ( http://arxiv.org/abs/2204.07134v2 )

ライセンス: Link先を確認
Alessio Brini, Gabriele Tedeschi, Daniele Tantari(参考訳) 本稿では,政策勧告が人工銀行間市場のパフォーマンスに与える影響を解析する。 金融機関は、公的勧告及び個人情報に基づく貸付契約を定めている。 前者は、システムの適合性を最大化し、経済環境に関する情報を収集する強化学習最適政策によってモデル化される。 政策勧告は、低金利または高流動性供給の最適な選択を通じて、経済アクターに信用関係を作るよう指示する。 後者は、エージェントのバランスシートに基づいて、銀行が市場内で最適な顧客に提供する流動性供給と金利を決定することができる。 公開信号とプライベート信号の組み合わせにより、金融機関は動的ネットワークを生成できる優先的なアタッチメント進化手順によって、時間とともにクレジットカード接続を作成または切断する。 以上の結果から, 銀行間ネットワークの出現は, 貸し手や借主のサイズに一定の均質性が組み合わさることで, システムのレジリエンスを確保する上で不可欠であることが示唆された。 また,強化学習により得られる最適政策勧告は,システムリスクの軽減に不可欠である。

In this paper, we analyze the effect of a policy recommendation on the performance of an artificial interbank market. Financial institutions stipulate lending agreements following a public recommendation and their individual information. The former is modeled by a reinforcement learning optimal policy that maximizes the system's fitness and gathers information on the economic environment. The policy recommendation directs economic actors to create credit relationships through the optimal choice between a low interest rate or a high liquidity supply. The latter, based on the agents' balance sheet, allows determining the liquidity supply and interest rate that the banks optimally offer their clients within the market. Thanks to the combination between the public and the private signal, financial institutions create or cut their credit connections over time via a preferential attachment evolving procedure able to generate a dynamic network. Our results show that the emergence of a core-periphery interbank network, combined with a certain level of homogeneity in the size of lenders and borrowers, is essential to ensure the system's resilience. Moreover, the optimal policy recommendation obtained through reinforcement learning is crucial in mitigating systemic risk.
翻訳日:2023-05-20 00:59:16 公開日:2023-05-17
# 認識型ニューラルネットワーク

Epistemic Neural Networks ( http://arxiv.org/abs/2107.08924v8 )

ライセンス: Link先を確認
Ian Osband, Zheng Wen, Seyed Mohammad Asghari, Vikranth Dwaracherla, Morteza Ibrahimi, Xiuyuan Lu, and Benjamin Van Roy(参考訳) 知性は、エージェントが知らないことに関する知識に依存している。 この能力は、複数の入力にまたがるラベルの結合予測の品質に基づいて評価することができる。 原則として、アンサンブルに基づくアプローチは効果的な共同予測をもたらすが、大規模なアンサンブルを訓練する際の計算コストは禁じられる。 我々は,大規模事前学習モデルを含む従来のニューラルネットワークを補完し,不確かさを推定するために漸進的計算によってトレーニングできるアーキテクチャであるepepnetを紹介する。 エピネットでは、従来のニューラルネットワークは数百以上の粒子からなる非常に大きなアンサンブルを、桁違いに少ない計算で上回る。 epinetはベイズニューラルネットワークの伝統的な枠組みに合わない。 エピネットのようなBNN以外のアプローチの開発に対応するため、共同予測を生成するモデルのためのインターフェースとして、てんかん性ニューラルネットワーク(ENN)を導入する。

Intelligence relies on an agent's knowledge of what it does not know. This capability can be assessed based on the quality of joint predictions of labels across multiple inputs. In principle, ensemble-based approaches produce effective joint predictions, but the computational costs of training large ensembles can become prohibitive. We introduce the epinet: an architecture that can supplement any conventional neural network, including large pretrained models, and can be trained with modest incremental computation to estimate uncertainty. With an epinet, conventional neural networks outperform very large ensembles, consisting of hundreds or more particles, with orders of magnitude less computation. The epinet does not fit the traditional framework of Bayesian neural networks. To accommodate development of approaches beyond BNNs, such as the epinet, we introduce the epistemic neural network (ENN) as an interface for models that produce joint predictions.
翻訳日:2023-05-19 21:21:44 公開日:2023-05-17
# 重み付きcspsのスーパーリパラメトリゼーション:特性と最適化の展望

Super-Reparametrizations of Weighted CSPs: Properties and Optimization Perspective ( http://arxiv.org/abs/2201.02018v2 )

ライセンス: Link先を確認
Tom\'a\v{s} Dlask, Tom\'a\v{s} Werner, Simon de Givry(参考訳) 重み付きCSP(WCSP)の再パラメータ化の概念(WCSPの同値保存変換とも呼ばれる)はよく知られており、最適なWCSP値の近似や有界化に多くのアルゴリズムで用いられている。 対照的にスーパーリパラメトリゼーション(wcspの目標を各割り当てに維持または増やす重みの変化)の概念は既に提案されていたが、詳細は研究されなかった。 このギャップを埋めるために、超再パラメータ化の理論的性質をいくつか提示し、再パラメータ化の理論特性と比較する。 さらに,スーパーリパラメトリゼーションを用いたwcspの最適値の上限を計算するためのフレームワークを提案する。 任意の制約伝達ルール(技術的条件下では)を原則として適用して境界値を改善することは可能であることを示す。 特にアーク整合性については、この手法は既知の仮想AC(VAC)アルゴリズムに還元される。 我々はSAC(Singleton arc consistency)法を実装し,WCSPの他の強力な局所成分と比較した。 その結果、SACから得られる境界は、多くの事例群よりも優れていることがわかった。

The notion of reparametrizations of Weighted CSPs (WCSPs) (also known as equivalence-preserving transformations of WCSPs) is well-known and finds its use in many algorithms to approximate or bound the optimal WCSP value. In contrast, the concept of super-reparametrizations (which are changes of the weights that keep or increase the WCSP objective for every assignment) was already proposed but never studied in detail. To fill this gap, we present a number of theoretical properties of super-reparametrizations and compare them to those of reparametrizations. Furthermore, we propose a framework for computing upper bounds on the optimal value of the (maximization version of) WCSP using super-reparametrizations. We show that it is in principle possible to employ arbitrary (under some technical conditions) constraint propagation rules to improve the bound. For arc consistency in particular, the method reduces to the known Virtual AC (VAC) algorithm. We implemented the method for singleton arc consistency (SAC) and compared it to other strong local consistencies in WCSPs on a public benchmark. The results show that the bounds obtained from SAC are superior for many instance groups.
翻訳日:2023-05-19 21:09:11 公開日:2023-05-17
# 教師なしドメイン適応のための3つの新しい検証と大規模ベンチマークランキング

Three New Validators and a Large-Scale Benchmark Ranking for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2208.07360v4 )

ライセンス: Link先を確認
Kevin Musgrave, Serge Belongie, Ser-Nam Lim(参考訳) ハイパーパラメータの変更はモデルの精度に劇的な影響を与える可能性がある。 したがって、ハイパーパラメータのチューニングは機械学習モデルの最適化において重要な役割を果たす。 ハイパーパラメータチューニングプロセスの不可欠な部分は、モデルチェックポイントの評価である。 教師付き設定では、これらのバリデーターはラベルを持つ検証セット上で精度を計算してチェックポイントを評価する。 対照的に、教師なしの設定では、検証セットはそのようなラベルを持たない。 ラベルがないと精度を計算できないため、バリデーターは精度を推定しなければならない。 しかし、正確さを推定する最善のアプローチは何でしょう? 本稿では、教師なしドメイン適応(UDA)の文脈において、この問題を考察する。 具体的には、3つの新しいバリデータを提案し、1000,000のチェックポイントの大規模なデータセット上で、既存の5つのバリデータと比較し、ランク付けする。 実験結果から,提案するバリデータのうち2つが,様々な環境下での最先端性能を実現することを示す。 最後に、多くの場合、最先端技術は単純なベースライン法によって得られる。 我々の知る限りでは、これはこれまでで最大のUDA検証者の実証研究である。 コードはhttps://www.github.com/KevinMusgrave/powerful-benchmarker.comで入手できる。

Changes to hyperparameters can have a dramatic effect on model accuracy. Thus, the tuning of hyperparameters plays an important role in optimizing machine-learning models. An integral part of the hyperparameter-tuning process is the evaluation of model checkpoints, which is done through the use of "validators". In a supervised setting, these validators evaluate checkpoints by computing accuracy on a validation set that has labels. In contrast, in an unsupervised setting, the validation set has no such labels. Without any labels, it is impossible to compute accuracy, so validators must estimate accuracy instead. But what is the best approach to estimating accuracy? In this paper, we consider this question in the context of unsupervised domain adaptation (UDA). Specifically, we propose three new validators, and we compare and rank them against five other existing validators, on a large dataset of 1,000,000 checkpoints. Extensive experimental results show that two of our proposed validators achieve state-of-the-art performance in various settings. Finally, we find that in many cases, the state-of-the-art is obtained by a simple baseline method. To the best of our knowledge, this is the largest empirical study of UDA validators to date. Code is available at https://www.github.com/KevinMusgrave/powerful-benchmarker.
翻訳日:2023-05-19 21:02:45 公開日:2023-05-17
# タスク非依存の継続的強化学習:獲得と課題克服

Task-Agnostic Continual Reinforcement Learning: Gaining Insights and Overcoming Challenges ( http://arxiv.org/abs/2205.14495v3 )

ライセンス: Link先を確認
Massimo Caccia, Jonas Mueller, Taesup Kim, Laurent Charlin, Rasool Fakoor(参考訳) 連続学習(CL)は、破滅的な忘れなど標準的なディープラーニングアプローチの限界に対処しながら、一連のタスクから学習するモデルやエージェントの開発を可能にする。 本研究では,タスクに依存しないCLとマルチタスク(MTL)エージェントの性能差に寄与する要因について検討する。 1) タスク非依存の手法は, 限られたデータ, 計算量, あるいは高次元の設定において有利であり, 2) 高速適応は連続的な学習環境において特に有益であり, 破滅的な忘れ込みの影響を軽減するのに役立つ。 これらの仮説を考察するために,タスク非依存CLエージェントに対するリプレイベースリカレント強化学習(3RL)手法を提案する。 合成タスクとメタワールドベンチマークで3RLを評価し,50個のユニークな操作タスクを含む。 その結果,3rlはベースラインメソッドよりも優れており,高次元の難易度設定ではマルチタスクに匹敵する性能を持つことがわかった。 また,リカレントタスク非依存エージェントは,変圧器をベースとしたエージェントの性能に一貫して優れ,かつ一致していることを示す。 これらの知見は、タスク認識mtlアプローチに対するタスク非依存clの利点に対する洞察を与え、リソース制約、高次元、マルチタスク環境におけるタスク非依存手法の可能性を強調している。

Continual learning (CL) enables the development of models and agents that learn from a sequence of tasks while addressing the limitations of standard deep learning approaches, such as catastrophic forgetting. In this work, we investigate the factors that contribute to the performance differences between task-agnostic CL and multi-task (MTL) agents. We pose two hypotheses: (1) task-agnostic methods might provide advantages in settings with limited data, computation, or high dimensionality, and (2) faster adaptation may be particularly beneficial in continual learning settings, helping to mitigate the effects of catastrophic forgetting. To investigate these hypotheses, we introduce a replay-based recurrent reinforcement learning (3RL) methodology for task-agnostic CL agents. We assess 3RL on a synthetic task and the Meta-World benchmark, which includes 50 unique manipulation tasks. Our results demonstrate that 3RL outperforms baseline methods and can even surpass its multi-task equivalent in challenging settings with high dimensionality. We also show that the recurrent task-agnostic agent consistently outperforms or matches the performance of its transformer-based counterpart. These findings provide insights into the advantages of task-agnostic CL over task-aware MTL approaches and highlight the potential of task-agnostic methods in resource-constrained, high-dimensional, and multi-task environments.
翻訳日:2023-05-19 21:01:06 公開日:2023-05-17
# 選択的適応型ラッソ

The Selectively Adaptive Lasso ( http://arxiv.org/abs/2205.10697v5 )

ライセンス: Link先を確認
Alejandro Schuler, Yi Li, Mark van der Laan(参考訳) 機械学習回帰法は非現実的なパラメトリック仮定なしで関数を推定できる。 予測誤差は極めて高いが、平均処理効果のようなパラメータの半パラメトリックな効率的な推定(tmle、aipwなど)に必要な理論的収束率には不足している。 高適応ラッソ (Highly Adaptive Lasso, HAL) は、有意義に大きい関数のクラスに対して十分早く収束することが証明された唯一の回帰法である。 残念ながら、HALは計算能力に乏しい。 本稿では,halの理論に基づいて,halの次元自由非パラメトリック収束率を保ちつつ,計算量的に大きな高次元データセットに拡張可能な新しいアルゴリズムであるsal(selectively adaptive lasso)を構築する。 これを達成するために,ネストドンスカークラスにおける経験的損失最小化に関する一般的な理論的結果を証明する。 結果として得られたアルゴリズムは,適応学習率による勾配木ブースティングの一形態であり,既製ソフトウェアによる実装が迅速かつ自明である。 最後に,本アルゴリズムは,多様な実世界のデータセット群上での標準勾配向上性能を保っていることを示す。 SALは、多くのビッグデータ設定において、半パラメトリック効率的な推定器を現実的に可能かつ理論的に正当化する。

Machine learning regression methods allow estimation of functions without unrealistic parametric assumptions. Although they can perform exceptionally in prediction error, most lack theoretical convergence rates necessary for semi-parametric efficient estimation (e.g. TMLE, AIPW) of parameters like average treatment effects. The Highly Adaptive Lasso (HAL) is the only regression method proven to converge quickly enough for a meaningfully large class of functions, independent of the dimensionality of the predictors. Unfortunately, HAL is not computationally scalable. In this paper we build upon the theory of HAL to construct the Selectively Adaptive Lasso (SAL), a new algorithm which retains HAL's dimension-free, nonparametric convergence rate but which also scales computationally to large high-dimensional datasets. To accomplish this, we prove some general theoretical results pertaining to empirical loss minimization in nested Donsker classes. Our resulting algorithm is a form of gradient tree boosting with an adaptive learning rate, which makes it fast and trivial to implement with off-the-shelf software. Finally, we show that our algorithm retains the performance of standard gradient boosting on a diverse group of real-world datasets. SAL makes semi-parametric efficient estimators practically possible and theoretically justifiable in many big data settings.
翻訳日:2023-05-19 21:00:39 公開日:2023-05-17
# 臨床的安全なセグメンテーションのためのトランスフォーマーを用いたアウト・オブ・ディストリビューション検出

Transformer-based out-of-distribution detection for clinically safe segmentation ( http://arxiv.org/abs/2205.10650v2 )

ライセンス: Link先を確認
Mark S Graham, Petru-Daniel Tudosiu, Paul Wright, Walter Hugo Lopez Pinaya, U Jean-Marie, Yee Mah, James Teo, Rolf H J\"ager, David Werring, Parashkev Nachev, Sebastien Ourselin, M Jorge Cardoso(参考訳) 臨床環境では、デプロイされた画像処理システムは、彼らが遭遇する可能性のあるすべての入力に対して堅牢であり、特に確実に間違った予測をしないことが不可欠である。 安全な処理に対する最も一般的なアプローチは、不確実性の尺度を提供するネットワークをトレーニングすることだが、トレーニングデータ分布に遠く及ばない入力には失敗する傾向がある。 近年、データサンプルの可能性を明示的に定量化し、さらなる処理を行う前にOOD(out-of-distribution)サンプルをフィルタリングする手法が提案されている。 本研究では,頭部ctで出血を分別する作業において,画像分割に注目し,遠眼および近眼症例におけるネットワーク不確かさに対するいくつかのアプローチを評価した。 これらのアプローチは、OODを操作する際に確実に間違った予測を提供するため、安全なセグメンテーションには適さない。 本稿では,VQ-GANを用いたフル3次元OOD検出を行い,画像の圧縮潜在表現と変換器を用いてデータ可能性の推定を行う。 本手法は遠近法と近近法の両方で画像の同定に成功した。 画像の可読性とモデルのセグメンテーションの品質との間には強い関係があり、このアプローチはセグメンテーションに適さない画像のフィルタリングに有効である。 我々の知る限り、3D画像データ上でOOD検出を行うためにトランスフォーマーが適用されたのはこれが初めてである。 コードはgithub.com/marksgraham/transformer-oodで入手できる。

In a clinical setting it is essential that deployed image processing systems are robust to the full range of inputs they might encounter and, in particular, do not make confidently wrong predictions. The most popular approach to safe processing is to train networks that can provide a measure of their uncertainty, but these tend to fail for inputs that are far outside the training data distribution. Recently, generative modelling approaches have been proposed as an alternative; these can quantify the likelihood of a data sample explicitly, filtering out any out-of-distribution (OOD) samples before further processing is performed. In this work, we focus on image segmentation and evaluate several approaches to network uncertainty in the far-OOD and near-OOD cases for the task of segmenting haemorrhages in head CTs. We find all of these approaches are unsuitable for safe segmentation as they provide confidently wrong predictions when operating OOD. We propose performing full 3D OOD detection using a VQ-GAN to provide a compressed latent representation of the image and a transformer to estimate the data likelihood. Our approach successfully identifies images in both the far- and near-OOD cases. We find a strong relationship between image likelihood and the quality of a model's segmentation, making this approach viable for filtering images unsuitable for segmentation. To our knowledge, this is the first time transformers have been applied to perform OOD detection on 3D image data. Code is available at github.com/marksgraham/transformer-ood.
翻訳日:2023-05-19 21:00:16 公開日:2023-05-17
# 部分的情報分解に基づく神経表現の複雑さの測定

A Measure of the Complexity of Neural Representations based on Partial Information Decomposition ( http://arxiv.org/abs/2209.10438v2 )

ライセンス: Link先を確認
David A. Ehrlich, Andreas C. Schneider, Viola Priesemann, Michael Wibral, Abdullah Makkeh(参考訳) ニューラルネットワークでは、タスク関連情報はニューロンのグループによって共同で表現される。 しかし、分類ラベルに関するこの相互情報を個々のニューロンに分散させる具体的な方法はよく理解されていない:その部分は特定の単一ニューロンからのみ取得できるが、他の部分は複数のニューロンによって冗長または相乗的に運ばれる。 情報理論の最近の拡張である部分的情報分解(PID)が、これらの異なる貢献をいかに解消するかを示す。 本稿では,複数のニューロンにまたがる情報へのアクセスの難しさを定量化する「表現複雑度」の尺度を提案する。 より小さなレイヤに対して、この複雑さが直接計算可能であることを示す。 より大きな層に対して,サブサンプリング法と粗粒化法を提案し,後者に対応する境界を証明した。 経験的に、MNISTとCIFAR10タスクを解く量子ディープニューラルネットワークでは、連続した隠蔽層とトレーニングオーバーの両方を通して表現の複雑さが減少し、その結果を関連する指標と比較する。 概して、神経表現と複雑なシステムの構造と進化を分析するための原理的かつ解釈可能な要約統計として、表現複雑性を提案する。

In neural networks, task-relevant information is represented jointly by groups of neurons. However, the specific way in which this mutual information about the classification label is distributed among the individual neurons is not well understood: While parts of it may only be obtainable from specific single neurons, other parts are carried redundantly or synergistically by multiple neurons. We show how Partial Information Decomposition (PID), a recent extension of information theory, can disentangle these different contributions. From this, we introduce the measure of "Representational Complexity", which quantifies the difficulty of accessing information spread across multiple neurons. We show how this complexity is directly computable for smaller layers. For larger layers, we propose subsampling and coarse-graining procedures and prove corresponding bounds on the latter. Empirically, for quantized deep neural networks solving the MNIST and CIFAR10 tasks, we observe that representational complexity decreases both through successive hidden layers and over training, and compare the results to related measures. Overall, we propose representational complexity as a principled and interpretable summary statistic for analyzing the structure and evolution of neural representations and complex systems in general.
翻訳日:2023-05-19 20:51:03 公開日:2023-05-17
# ニューロシンボリックエキスパートシステムにおける接地論理説明の動的生成

Dynamic Generation of Grounded Logical Explanations in a Neuro-Symbolic Expert System ( http://arxiv.org/abs/2209.07662v3 )

ライセンス: Link先を確認
Nathaniel Weir and Benjamin Van Durme(参考訳) ファクトベースに接地した人間の解釈可能な証明木を生成する体系的推論手法を提案する。 提案手法は従来の Prolog ベースの推論エンジンを導入し,ニューラルネットワークモデリング,誘導生成,半パラメトリック密度検索を組み合わせた手作りルールを置き換える。 提案手法は,自然言語文の係り受け(de)を捕捉・スコアする解釈可能な推論規則を動的にインスタンス化する新しいシステムであるNELLIEを用いて実証する。 これは科学的推論領域で示されるように、強力なパフォーマンスにつながると同時に、人が検証した事実の構成からいかに答えが論理的に導かれるかを示す推論トレースを生成する。

We propose an approach for systematic reasoning that produces human interpretable proof trees grounded in a factbase. Our approach evokes classic Prolog-based inference engines, where we replace handcrafted rules by combining neural language modeling, guided generation, and semiparametric dense retrieval. We demonstrate this approach through a novel system, NELLIE, which dynamically instantiates interpretable inference rules that capture and score entailment (de)compositions over natural language statements. This leads to strong performance, as shown in the scientific reasoning domain, while also producing reasoning traces showing how answers derive logically from the composition of human-verified facts.
翻訳日:2023-05-19 20:50:44 公開日:2023-05-17
# speechblender:誤用データ生成のための音声拡張フレームワーク

SpeechBlender: Speech Augmentation Framework for Mispronunciation Data Generation ( http://arxiv.org/abs/2211.00923v2 )

ライセンス: Link先を確認
Yassine El Kheir, Shammur Absar Chowdhury, Hamdy Mubarak, Shazia Afzal and Ahmed Ali(参考訳) ラベル付き第二言語(L2)音声データの欠如は、誤発音検出モデルの設計において大きな課題である。 SpeechBlender - このようなデータ不足を克服するために、誤発音エラーを生成するためのきめ細かいデータ拡張パイプライン。 様々なマスクを用いて音素単位の異なる領域を対象とし、混合因子を用いて発音を増強しながら生の音声信号を線形補間する。 マスクは信号をスムーズにブレンドし、 'cut/paste' 法よりも効果的なサンプルを生成する。 提案手法は,ASRによる音素レベルの誤発音検出モデルに対して,Speechocean762を用いて,先行技術に比べてピアソン相関係数 (PCC) が2.0%向上した。 さらに、ベースラインと比較してphonemeレベルで5.0%改善しています。 またアラビアAraVoiceL2テストセットではF1スコアが4.6%増加した。

The lack of labeled second language (L2) speech data is a major challenge in designing mispronunciation detection models. We introduce SpeechBlender - a fine-grained data augmentation pipeline for generating mispronunciation errors to overcome such data scarcity. The SpeechBlender utilizes varieties of masks to target different regions of phonetic units, and use the mixing factors to linearly interpolate raw speech signals while augmenting pronunciation. The masks facilitate smooth blending of the signals, generating more effective samples than the `Cut/Paste' method. Our proposed technique achieves state-of-the-art results, with Speechocean762, on ASR dependent mispronunciation detection models at phoneme level, with a 2.0% gain in Pearson Correlation Coefficient (PCC) compared to the previous state-of-the-art [1]. Additionally, we demonstrate a 5.0% improvement at the phoneme level compared to our baseline. We also observed a 4.6% increase in F1-score with Arabic AraVoiceL2 testset.
翻訳日:2023-05-19 20:41:26 公開日:2023-05-17
# p2t2:量的$t_{2}$重み付けmriによるロバストな$t_{2}$分布推定のための物理的素数深層神経ネットワークアプローチ

P2T2: a Physically-primed deep-neural-network approach for robust $T_{2}$ distribution estimation from quantitative $T_{2}$-weighted MRI ( http://arxiv.org/abs/2212.04928v2 )

ライセンス: Link先を確認
Hadas Ben-Atya and Moti Freiman(参考訳) マルチエチョ$T_2$-weighted MRI(T_2W$)データからの緩和時間分布を推定すると、神経変性疾患、変形性関節症、腫瘍を含む様々な病態における炎症、脱髄、浮腫、軟骨組成を評価する貴重なバイオマーカーが提供される。 ディープニューラルネットワーク(DNN)に基づく手法は、MRIデータから$T_2$分布を推定する複雑な逆問題に対処するために提案されているが、SNR(Signal-to-Noise ratio)の低い臨床データに対してはまだ十分に堅牢ではなく、取得時に使用するエコー時間(TE)の変動のような分布シフトに非常に敏感である。 その結果, 臨床実践や大規模多施設試験において, 不均質な獲得プロトコルを用いた適用が阻害される。 我々は,DNNアーキテクチャにMRI信号に加えて信号減衰前処理モデルを組み込んで,$T_2$分布推定の精度とロバスト性を向上する,$P_2T_2$という物理価格のDNN手法を提案する。 1次元および2次元の数値シミュレーションと臨床データを用いて,dnn法および古典法との比較により,$p_2t_2$モデルを評価した。 本モデルでは,臨床でよく見られる低snr値(snr<80$)の基準モデルの精度を改善した。 さらに, 提案したDNNモデルと比較して, 獲得過程における分布変化に対するロバスト性は$\sim$35\%向上した。 最後に、我々の$P_2T_2$モデルは、実際のMRIデータに適用した場合のベースラインアプローチと比較して、最も詳細なMyelin-Water分画マップを生成する。 我々の$P_2T_2$モデルはMRIデータからT_2$分布を推定する信頼性と正確な手段を提供し、異種取得プロトコルを用いた大規模多施設試験での使用を約束する。

Estimating $T_2$ relaxation time distributions from multi-echo $T_2$-weighted MRI ($T_2W$) data can provide valuable biomarkers for assessing inflammation, demyelination, edema, and cartilage composition in various pathologies, including neurodegenerative disorders, osteoarthritis, and tumors. Deep neural network (DNN) based methods have been proposed to address the complex inverse problem of estimating $T_2$ distributions from MRI data, but they are not yet robust enough for clinical data with low Signal-to-Noise ratio (SNR) and are highly sensitive to distribution shifts such as variations in echo-times (TE) used during acquisition. Consequently, their application is hindered in clinical practice and large-scale multi-institutional trials with heterogeneous acquisition protocols. We propose a physically-primed DNN approach, called $P_2T_2$, that incorporates the signal decay forward model in addition to the MRI signal into the DNN architecture to improve the accuracy and robustness of $T_2$ distribution estimation. We evaluated our $P_2T_2$ model in comparison to both DNN-based methods and classical methods for $T_2$ distribution estimation using 1D and 2D numerical simulations along with clinical data. Our model improved the baseline model's accuracy for low SNR levels ($SNR<80$) which are common in the clinical setting. Further, our model achieved a $\sim$35\% improvement in robustness against distribution shifts in the acquisition process compared to previously proposed DNN models. Finally, Our $P_2T_2$ model produces the most detailed Myelin-Water fraction maps compared to baseline approaches when applied to real human MRI data. Our $P_2T_2$ model offers a reliable and precise means of estimating $T_2$ distributions from MRI data and shows promise for use in large-scale multi-institutional trials with heterogeneous acquisition protocols.
翻訳日:2023-05-19 20:33:27 公開日:2023-05-17
# クラスタアウェア精密医療のための単純かつスケーラブルなアルゴリズム

Simple and Scalable Algorithms for Cluster-Aware Precision Medicine ( http://arxiv.org/abs/2211.16553v3 )

ライセンス: Link先を確認
Amanda M. Buch, Conor Liston, and Logan Grosenick(参考訳) AI対応の精密医療は、データ駆動型パーソナライズされた診断、予後、治療を可能にすることで、医療結果の変革的な改善を約束する。 しかし、よく知られた「次元の曲線」と生物医学データのクラスター構造が相互作用し、高次元で限定された観察精密医学領域における共同チャレンジを示す。 両問題を同時に克服するために,標準的な埋め込み手法と凸クラスタリングペナルティをモジュール方式で組み合わせた,シンプルでスケーラブルな共同クラスタリングと埋め込み手法を提案する。 本手法は, 階層的クラスタ化主成分分析 (PCA) や局所線形埋め込み (LLE) , 正準相関解析 (CCA) の簡単な実装により, 現在の共同埋め込み法とクラスタリング法の複雑さと限界を克服するものである。 数値実験と実例の両方を通して,本手法が従来のクラスタリング手法や現代のクラスタリング手法を,非常に不確定な問題(例えば,数十回の観測で)や大規模なサンプルデータセットで上回っていることを実証する。 重要なことは、私たちのアプローチでは、ユーザが望ましい数のクラスタを選択する必要はなく、階層的にクラスタ化された埋め込みの解釈可能なデンドログラムが得られます。 したがって,マルチオミクスおよびニューロイメージングデータにおける既存のサブグループ同定手法を大幅に改善し,スケーラブルで解釈可能なバイオマーカーを精度の高い医療に活用する。

AI-enabled precision medicine promises a transformational improvement in healthcare outcomes by enabling data-driven personalized diagnosis, prognosis, and treatment. However, the well-known "curse of dimensionality" and the clustered structure of biomedical data together interact to present a joint challenge in the high dimensional, limited observation precision medicine regime. To overcome both issues simultaneously we propose a simple and scalable approach to joint clustering and embedding that combines standard embedding methods with a convex clustering penalty in a modular way. This novel, cluster-aware embedding approach overcomes the complexity and limitations of current joint embedding and clustering methods, which we show with straightforward implementations of hierarchically clustered principal component analysis (PCA), locally linear embedding (LLE), and canonical correlation analysis (CCA). Through both numerical experiments and real-world examples, we demonstrate that our approach outperforms traditional and contemporary clustering methods on highly underdetermined problems (e.g., with just tens of observations) as well as on large sample datasets. Importantly, our approach does not require the user to choose the desired number of clusters, but instead yields interpretable dendrograms of hierarchically clustered embeddings. Thus our approach improves significantly on existing methods for identifying patient subgroups in multiomics and neuroimaging data, enabling scalable and interpretable biomarkers for precision medicine.
翻訳日:2023-05-19 20:31:34 公開日:2023-05-17
# コンテキスト内学習はどのような学習アルゴリズムか? 線形モデルによる研究

What learning algorithm is in-context learning? Investigations with linear models ( http://arxiv.org/abs/2211.15661v3 )

ライセンス: Link先を確認
Ekin Aky\"urek, Dale Schuurmans, Jacob Andreas, Tengyu Ma, Denny Zhou(参考訳) ニューラルシーケンスモデル、特にトランスフォーマーは、文脈内学習において顕著な能力を示す。 ラベル付き例のシーケンスから新しい予測器を構築することができ、追加のパラメータ更新なしに入力に$(x, f(x))$が表示される。 本稿では,トランスフォーマーをベースとしたインコンテキスト学習者が,より小さなモデルをアクティベーションに符号化することで,暗黙的な学習アルゴリズムを暗黙的に実装する仮説について検討する。 線形回帰を原型問題として用いることで,この仮説の証拠を3つ提示する。 まず, 勾配降下と閉形式リッジ回帰に基づく線形モデルのための学習アルゴリズムをトランスフォーマーが実装できることを示す。 第2に, 学習者は, 勾配降下, リッジ回帰, および完全最小二乗回帰によって計算された予測器と密接に一致し, トランスフォーマタ深さやデータセットノイズが変化するため, 予測器間の遷移が変化し, 広い幅と深さのベイズ推定器に収束することを示した。 第3に,学習者の後期層が重みベクトルやモーメント行列を非線形にエンコードする,文脈内学習者がアルゴリズム的特徴をこれらの予測器と共有する,予備的証拠を示す。 これらの結果は,文脈内学習がアルゴリズム的に理解可能であり,(少なくとも線形の場合)学習者が標準推定アルゴリズムを再発見できることを示唆している。 コードと参照の実装はhttps://github.com/ekinakyurek/google-research/blob/master/incontextでリリースされる。

Neural sequence models, especially transformers, exhibit a remarkable capacity for in-context learning. They can construct new predictors from sequences of labeled examples $(x, f(x))$ presented in the input without further parameter updates. We investigate the hypothesis that transformer-based in-context learners implement standard learning algorithms implicitly, by encoding smaller models in their activations, and updating these implicit models as new examples appear in the context. Using linear regression as a prototypical problem, we offer three sources of evidence for this hypothesis. First, we prove by construction that transformers can implement learning algorithms for linear models based on gradient descent and closed-form ridge regression. Second, we show that trained in-context learners closely match the predictors computed by gradient descent, ridge regression, and exact least-squares regression, transitioning between different predictors as transformer depth and dataset noise vary, and converging to Bayesian estimators for large widths and depths. Third, we present preliminary evidence that in-context learners share algorithmic features with these predictors: learners' late layers non-linearly encode weight vectors and moment matrices. These results suggest that in-context learning is understandable in algorithmic terms, and that (at least in the linear case) learners may rediscover standard estimation algorithms. Code and reference implementations are released at https://github.com/ekinakyurek/google-research/blob/master/incontext.
翻訳日:2023-05-19 20:30:37 公開日:2023-05-17
# 厳密な不確かさを意識した量子化フレームワークは、再現可能で再現可能な機械学習ワークフローに不可欠である

A Rigorous Uncertainty-Aware Quantification Framework Is Essential for Reproducible and Replicable Machine Learning Workflows ( http://arxiv.org/abs/2301.05763v2 )

ライセンス: Link先を確認
Line Pouchard, Kristofer G. Reyes, Francis J. Alexander Byung-Jun Yoon(参考訳) 機械学習(ML)または人工知能(AI)モデルによる予測を再現し、そのようなML/AI予測を組み込んだ科学的ワークフローの結果として得られる能力は、多くの要因によって駆動される。 関心量の再現可能性(QoI)を定量的に評価できる不確実性対応計量は、ML/AIモデルを含む科学的ワークフローから得られる結果の信頼性に寄与する。 本稿では,ベイズパラダイムにおける不確実性定量化(uq)が,複雑な科学的ワークフローの再現性を定量化する汎用的かつ厳密な枠組みを提供できるかについて議論する。 このようなフレームワークは、科学ワークフローのためにML/AIに現在存在する重要なギャップを埋める可能性があり、研究者はML/AIモデル予測変数がML/AI駆動ワークフローの予測結果に与える影響を判断できる。 我々は、このフレームワークが様々な科学的応用のためにより再現可能で信頼できるワークフローの設計に寄与し、究極的には科学的発見を加速することを期待している。

The ability to replicate predictions by machine learning (ML) or artificial intelligence (AI) models and results in scientific workflows that incorporate such ML/AI predictions is driven by numerous factors. An uncertainty-aware metric that can quantitatively assess the reproducibility of quantities of interest (QoI) would contribute to the trustworthiness of results obtained from scientific workflows involving ML/AI models. In this article, we discuss how uncertainty quantification (UQ) in a Bayesian paradigm can provide a general and rigorous framework for quantifying reproducibility for complex scientific workflows. Such as framework has the potential to fill a critical gap that currently exists in ML/AI for scientific workflows, as it will enable researchers to determine the impact of ML/AI model prediction variability on the predictive outcomes of ML/AI-powered workflows. We expect that the envisioned framework will contribute to the design of more reproducible and trustworthy workflows for diverse scientific applications, and ultimately, accelerate scientific discoveries.
翻訳日:2023-05-19 20:23:48 公開日:2023-05-17
# oracle による非スムース弱凸関数制約最適化のための単ループスイッチングサブグレードの複雑さ

Oracle Complexity of Single-Loop Switching Subgradient Methods for Non-Smooth Weakly Convex Functional Constrained Optimization ( http://arxiv.org/abs/2301.13314v2 )

ライセンス: Link先を確認
Yankun Huang, Qihang Lin(参考訳) 対象関数が弱凸であり、制約関数が凸または弱凸である非凸制約付き最適化問題を考える。 この問題を解決するために,oracle の複雑性が凸問題でのみ知られている直感的かつ容易に実装可能な一階法であるclassic switching subgradient method を考える。 本稿では,非凸問題のほぼ定常点を求めるために,スイッチング段階法のオラクル複雑性を初めて解析する。 結果は凸および弱凸制約に対して別途導出される。 従来の手法、特にダブルループ法と比較して、切り換え勾配法は非滑らかな問題に適用でき、単一のループのみを用いて同じ複雑さを達成できるため、内部反復数調整の手間を省くことができる。

We consider a non-convex constrained optimization problem, where the objective function is weakly convex and the constraint function is either convex or weakly convex. To solve this problem, we consider the classical switching subgradient method, which is an intuitive and easily implementable first-order method whose oracle complexity was only known for convex problems. This paper provides the first analysis on the oracle complexity of the switching subgradient method for finding a nearly stationary point of non-convex problems. Our results are derived separately for convex and weakly convex constraints. Compared to existing approaches, especially the double-loop methods, the switching gradient method can be applied to non-smooth problems and achieves the same complexity using only a single loop, which saves the effort on tuning the number of inner iterations.
翻訳日:2023-05-19 20:13:48 公開日:2023-05-17
# 論理的誤りの分類のための言語モデルを用いたケースベース推論

Case-Based Reasoning with Language Models for Classification of Logical Fallacies ( http://arxiv.org/abs/2301.11879v2 )

ライセンス: Link先を確認
Zhivar Sourati, Filip Ilievski, H\^ong-\^An Sandlin, Alain Mermoud(参考訳) web上で誤った情報やプロパガンダを広めることの容易さとスピードは、自然言語議論の誤用を検出するための信頼できる技術を開発する必要性を動機付けている。 しかし、最先端の言語モデリング手法は、複雑な推論を必要とする論理的誤り分類のようなタスクに対する堅牢性の欠如を示している。 本稿では,言語モデルによる検索と過去の事例の適応により,論理的誤りの新たな事例を分類するケースベース推論手法を提案する。 我々は,目的,説明,反論,議論構造に関する外部情報に基づいて,モデルに対する入力表現を強化するための4つの補完的戦略を設計する。 ドメイン内およびドメイン外設定の実験は、ケースベース推論が言語モデルの精度と一般化性を向上させることを示す。 我々のアブレーション研究では,類似事例の表現がモデル性能に強い影響を与え,モデルがより少ないケースで良好に動作し,ケースデータベースのサイズが性能に悪影響を及ぼすことが示唆された。 最後に,検索した事例の特性とモデル性能との関係について詳しく検討する。

The ease and speed of spreading misinformation and propaganda on the Web motivate the need to develop trustworthy technology for detecting fallacies in natural language arguments. However, state-of-the-art language modeling methods exhibit a lack of robustness on tasks like logical fallacy classification that require complex reasoning. In this paper, we propose a Case-Based Reasoning method that classifies new cases of logical fallacy by language-modeling-driven retrieval and adaptation of historical cases. We design four complementary strategies to enrich input representation for our model, based on external information about goals, explanations, counterarguments, and argument structure. Our experiments in in-domain and out-of-domain settings indicate that Case-Based Reasoning improves the accuracy and generalizability of language models. Our ablation studies suggest that representations of similar cases have a strong impact on the model performance, that models perform well with fewer retrieved cases, and that the size of the case database has a negligible effect on the performance. Finally, we dive deeper into the relationship between the properties of the retrieved cases and the model performance.
翻訳日:2023-05-19 20:12:23 公開日:2023-05-17
# $U(1)$対称性強化トーリックコード

$U(1)$ symmetry-enriched toric code ( http://arxiv.org/abs/2302.03707v2 )

ライセンス: Link先を確認
Kai-Hsin Wu, Alexey Khudorozhkov, Guilherme Delfino, Dmitry Green, Claudio Chamon(参考訳) 我々は、さらに大域的な$U(1)$対称性を持つ正方格子上の北エフの$\mathbb Z_2$トーリック符号の一般化を提案し、研究する。 量子モンテカルロシミュレーションを用いて、UV/IR混合を示す位相的に順序付けられた基底状態多様体の強い証拠、すなわち、基底状態の位相的縮退は格子の顕微鏡的詳細に依存する。 具体的には、基底状態の縮退はトーラスサイクルの方向に対して格子傾斜に依存する。 特に、正方格子の垂直/水平線に沿った通常のコンパクト化は2倍の基底状態縮退を示すが、格子を45^\circ$でコンパクト化すると3倍の縮退が起こる。 特異な位相的性質に加えて、この系はヒルベルト空間の断片化を示す。 最後に, 超伝導量子線アレイにおける模型の実験的実現について提案する。

We propose and study a generalization of Kitaev's $\mathbb Z_2$ toric code on a square lattice with an additional global $U(1)$ symmetry. Using Quantum Monte Carlo simulation, we find strong evidence for a topologically ordered ground state manifold with indications of UV/IR mixing, i.e., the topological degeneracy of the ground state depends on the microscopic details of the lattice. Specifically, the ground state degeneracy depends on the lattice tilt relative to the directions of the torus cycles. In particular, we observe that while the usual compactification along the vertical/horizontal lines of the square lattice shows a two-fold ground state degeneracy, compactifying the lattice at $45^\circ$ leads to a three-fold degeneracy. In addition to its unusual topological properties, this system also exhibits Hilbert space fragmentation. Finally, we propose a candidate experimental realization of the model in an array of superconducting quantum wires.
翻訳日:2023-05-19 20:02:44 公開日:2023-05-17
# マージ決定トランスフォーマー:マルチタスクポリシー形成のための重み平均化

Merging Decision Transformers: Weight Averaging for Forming Multi-Task Policies ( http://arxiv.org/abs/2303.07551v2 )

ライセンス: Link先を確認
Daniel Lawson, Ahmed H. Qureshi(参考訳) 近年の研究では、ジェネラリスト、トランスフォーマーベース、言語モデル、ビジョンモデル、シーケンシャルな意思決定問題の作成が期待されている。 このようなモデルを作成するには、一般的に集中的なトレーニング目標、データ、計算が必要です。 複数のタスク固有の個別に訓練されたポリシーを組み合わせることで、より柔軟にジェネラリストポリシーを作成できれば、それは興味深いことです。 本研究では,異なるムジョコロコモーション問題に対して学習したパラメータ空間における決定トランスフォーマーのサブセットをマージし,平均化することにより,マルチタスクモデルを構築することにより,この方向への予備的な一歩を踏み出す。 また、ポリシーをマージすると、すべてのポリシーが、事前学習された共通の初期化から始まっていれば、より良い結果が得られることも示します。 また,より大きな事前学習モデルによる改善や,フィッシャー情報のマージによる改善も確認した。 一般に、この方向の研究は、一般的に有能なモデルを形成するプロセスの民主化と配布に役立つと信じている。

Recent work has shown the promise of creating generalist, transformer-based, models for language, vision, and sequential decision-making problems. To create such models, we generally require centralized training objectives, data, and compute. It is of interest if we can more flexibly create generalist policies by merging together multiple, task-specific, individually trained policies. In this work, we take a preliminary step in this direction through merging, or averaging, subsets of Decision Transformers in parameter space trained on different MuJoCo locomotion problems, forming multi-task models without centralized training. We also show that when merging policies, we can obtain better results if all policies start from common, pre-trained initializations. We also find improvements from larger pre-trained models, and utilizing Fisher information for merging. In general, we believe research in this direction could help democratize and distribute the process of which forms generally capable models.
翻訳日:2023-05-19 19:55:37 公開日:2023-05-17
# スマート商業ビルにおけるモノのインターネットデータ収集に対する居住者の認識と通知嗜好の検討

Exploring Smart Commercial Building Occupants' Perceptions and Notification Preferences of Internet of Things Data Collection in the United States ( http://arxiv.org/abs/2303.04955v2 )

ライセンス: Link先を確認
Tu Le, Alan Wang, Yaxing Yao, Yuanyuan Feng, Arsalan Heydarian, Norman Sadeh, and Yuan Tian(参考訳) 商用ビルにおけるIoT(Internet of Things, モノのインターネット)デバイスによるデータ収集は、利便性とエネルギー効率の向上を可能にする。 しかし、このような利点は、建物で働く居住者がデータ収集を理解し信頼する方法が異なるため、実際に実施される際の大きな知覚上の課題に直面している。 スマートな建物におけるデータ収集の半公的、普及的、マルチモーダルな性質は、データ収集と通知の好みに対する住民の理解を研究する必要があることを示している。 スマートな商業ビルで働くことを報告している米国参加者492人を対象に,オンライン調査を行った。 1)スマート商業ビルにおけるデータ収集の意識と認識 2)プライバシ通知の嗜好,及び 3) プライバシ通知選択の潜在的な要因。 参加者の約半数は、IoTデバイスやセンサーの存在に気付いていても、IoTのデータ収集と使用プラクティスを十分に認識していません。 さまざまなデータプラクティスに関する誤解も少なくありません。 参加者の大多数は、スマートな建物におけるデータプラクティスを通知したいと考えており、Webサイトや物理的な兆候といった受動的なものへのプッシュ通知を好んでいる。 驚いたことに、モバイルアプリの通知はスマートホームの人気のあるチャンネルであるにもかかわらず、スマートな商業ビルでは最も好まれない方法だ。

Data collection through the Internet of Things (IoT) devices, or smart devices, in commercial buildings enables possibilities for increased convenience and energy efficiency. However, such benefits face a large perceptual challenge when being implemented in practice, due to the different ways occupants working in the buildings understand and trust in the data collection. The semi-public, pervasive, and multi-modal nature of data collection in smart buildings points to the need to study occupants' understanding of data collection and notification preferences. We conduct an online study with 492 participants in the US who report working in smart commercial buildings regarding: 1) awareness and perception of data collection in smart commercial buildings, 2) privacy notification preferences, and 3) potential factors for privacy notification preferences. We find that around half of the participants are not fully aware of the data collection and use practices of IoT even though they notice the presence of IoT devices and sensors. We also discover many misunderstandings around different data practices. The majority of participants want to be notified of data practices in smart buildings, and they prefer push notifications to passive ones such as websites or physical signs. Surprisingly, mobile app notification, despite being a popular channel for smart homes, is the least preferred method for smart commercial buildings.
翻訳日:2023-05-19 19:54:53 公開日:2023-05-17
# 確率的拡散モデルを用いた合成ECG信号生成

Synthetic ECG Signal Generation using Probabilistic Diffusion Models ( http://arxiv.org/abs/2303.02475v3 )

ライセンス: Link先を確認
Edmond Adib, Amanda Fernandez, Fatemeh Afghah and John Jeff Prevost(参考訳) ディープラーニング画像処理モデルは,近年,高品質な画像生成において顕著な成功を収めている。 特に, 改良型脱神経拡散確率モデル (DDPM) では, 画像品質が最先端生成モデルよりも優れており, 合成心電図(ECG)信号の生成能力について検討する動機となった。 本研究では,改良DDPMとWGAN-GPモデルを用いたWasserstein GANにより合成ECG信号を生成し,比較した。 この目的のために、DDPMをオリジナルの$2D$形式で利用するパイプラインを考案した。 まず、$d$のecg時系列データは$2d$スペースに埋め込まれており、私たちはgang angular summation/difference fields(gasf/gadf)とmarkov transition fields(mtf)を使用して、各ecg時系列から3つの$d$行列を生成しました。 そして、$d$ ddpmを使って$d$の合成ecg画像を生成する。 1d$のecg信号は、2d$で生成された画像ファイルを1d$のスペースに戻すことで生成される。 この研究は、無条件モデルと、トレーニングフェーズでMIT-BIH Arrhythmiaデータセットの正規正弦ビートクラスを使用する、排他的に \emph{Normal Sinus Beat} ECG 信号を生成することに焦点を当てている。 各モデルによる生成されたECG信号の \emph{quality}, \emph{distribution}, \emph{authenticity} を定量的に評価し比較する。 提案したパイプラインと,本論文の特定の設定では,WGAN-GPモデルがDDPMよりも常に優れていることを示す。

Deep learning image processing models have had remarkable success in recent years in generating high quality images. Particularly, the Improved Denoising Diffusion Probabilistic Models (DDPM) have shown superiority in image quality to the state-of-the-art generative models, which motivated us to investigate their capability in the generation of the synthetic electrocardiogram (ECG) signals. In this work, synthetic ECG signals are generated by the Improved DDPM and by the Wasserstein GAN with Gradient Penalty (WGAN-GP) models and then compared. To this end, we devise a pipeline to utilize DDPM in its original $2D$ form. First, the $1D$ ECG time series data are embedded into the $2D$ space, for which we employed the Gramian Angular Summation/Difference Fields (GASF/GADF) as well as Markov Transition Fields (MTF) to generate three $2D$ matrices from each ECG time series, which when put together, form a $3$-channel $2D$ datum. Then $2D$ DDPM is used to generate $2D$ $3$-channel synthetic ECG images. The $1D$ ECG signals are created by de-embedding the $2D$ generated image files back into the $1D$ space. This work focuses on unconditional models and the generation of \emph{Normal Sinus Beat} ECG signals exclusively, where the Normal Sinus Beat class from the MIT-BIH Arrhythmia dataset is used in the training phase. The \emph{quality}, \emph{distribution}, and the \emph{authenticity} of the generated ECG signals by each model are quantitatively evaluated and compared. Our results show that in the proposed pipeline and in the particular setting of this paper, the WGAN-GP model is consistently superior to DDPM in all the considered metrics.
翻訳日:2023-05-19 19:53:51 公開日:2023-05-17
# ヘイトスピーチ検出課題におけるショット選択のための社会文化的知識

Sociocultural knowledge is needed for selection of shots in hate speech detection tasks ( http://arxiv.org/abs/2304.01890v4 )

ライセンス: Link先を確認
Antonis Maronikolakis, Abdullatif K\"oksal, Hinrich Sch\"utze(参考訳) 我々は,ブラジル,ドイツ,インド,ケニアの国々において,モデルの学習と解釈を支援するために,スラリーとヘイトスピーチのターゲットであるヘイトレクシコンを紹介する。 モデル予測の解釈に我々の語彙をどのように利用できるかを示し、極端な音声を分類するために開発されたモデルは予測を行う際にターゲット語に大きく依存することを示した。 さらに,HATELEXICONを用いた低リソース環境下での撮影選択を支援する手法を提案する。 数ショットの学習では、ショットの選択はモデルの性能において最重要となる。 本研究では,HASOCデータをトレーニング用として用い,Multilingual HateCheck (MHC) をベンチマークとして,ドイツ語とヒンディー語のいくつかの設定をシミュレートする。 我々は,我々のレキシコンに基づくショットの選択が,ランダムにサンプリングされたショットで訓練されたモデルよりも,MHCで優れた性能を示すことを示す。 したがって、いくつかのトレーニング例しか与えられていない場合、我々のレキシコンを使用して、より多くの社会文化的情報を含むショットを選択すると、より少ないパフォーマンスが得られます。

We introduce HATELEXICON, a lexicon of slurs and targets of hate speech for the countries of Brazil, Germany, India and Kenya, to aid training and interpretability of models. We demonstrate how our lexicon can be used to interpret model predictions, showing that models developed to classify extreme speech rely heavily on target words when making predictions. Further, we propose a method to aid shot selection for training in low-resource settings via HATELEXICON. In few-shot learning, the selection of shots is of paramount importance to model performance. In our work, we simulate a few-shot setting for German and Hindi, using HASOC data for training and the Multilingual HateCheck (MHC) as a benchmark. We show that selecting shots based on our lexicon leads to models performing better on MHC than models trained on shots sampled randomly. Thus, when given only a few training examples, using our lexicon to select shots containing more sociocultural information leads to better few-shot performance.
翻訳日:2023-05-19 19:46:10 公開日:2023-05-17
# リアルタイムハミルトン・ヤコビPDEを用いた科学機械学習問題の解法

Leveraging Multi-time Hamilton-Jacobi PDEs for Certain Scientific Machine Learning Problems ( http://arxiv.org/abs/2303.12928v2 )

ライセンス: Link先を確認
Paula Chen, Tingwei Meng, Zongren Zou, J\'er\^ome Darbon, George Em Karniadakis(参考訳) ハミルトン・ヤコビ偏微分方程式(HJ PDE)は、最適制御、微分ゲーム、画像科学など幅広い分野と深い関係を持つ。 時間変数を高次元量とすることで、HJ PDEをマルチタイムケースに拡張することができる。 本稿では,機械学習における特定の最適化問題と,特定のHJ PDEに対する解の表現に対応するマルチタイムホップ式との間に,新たな理論的関係を確立する。 この接続を通じて、機械学習アプリケーションの学習過程の解釈可能性を高めるために、これらの学習問題を解く際に、マルチタイムのHJ PDEを解き、拡張することで、対応する最適制御問題を解くことを示す。 この接続に関する最初の調査として,正規化線形回帰問題と線形二次レギュレータ(lqr)の関係を明らかにした。 次に、理論的な接続を利用して標準lqrソルバ(すなわち、リッカティ常微分方程式に基づくもの)を適応させ、機械学習のための新しいトレーニングアプローチを設計する。 最後に,連続学習,ポストトレーニングキャリブレーション,トランスファー学習,スパースダイナミクス同定といった文脈において,riccatiに基づくアプローチの汎用性と計算可能性を示す数値例を提案する。

Hamilton-Jacobi partial differential equations (HJ PDEs) have deep connections with a wide range of fields, including optimal control, differential games, and imaging sciences. By considering the time variable to be a higher dimensional quantity, HJ PDEs can be extended to the multi-time case. In this paper, we establish a novel theoretical connection between specific optimization problems arising in machine learning and the multi-time Hopf formula, which corresponds to a representation of the solution to certain multi-time HJ PDEs. Through this connection, we increase the interpretability of the training process of certain machine learning applications by showing that when we solve these learning problems, we also solve a multi-time HJ PDE and, by extension, its corresponding optimal control problem. As a first exploration of this connection, we develop the relation between the regularized linear regression problem and the Linear Quadratic Regulator (LQR). We then leverage our theoretical connection to adapt standard LQR solvers (namely, those based on the Riccati ordinary differential equations) to design new training approaches for machine learning. Finally, we provide some numerical examples that demonstrate the versatility and possible computational advantages of our Riccati-based approach in the context of continual learning, post-training calibration, transfer learning, and sparse dynamics identification.
翻訳日:2023-05-19 19:44:00 公開日:2023-05-17
# 量子作用素上のマイクロカノニカルウィンドウ

Microcanonical windows on quantum operators ( http://arxiv.org/abs/2304.10948v2 )

ライセンス: Link先を確認
Silvia Pappalardi, Laura Foini and Jorge Kurchan(参考訳) 量子作用素 O のマイクロカノニカル射影 WOW の構成,そのスペクトル,およびそれからの正準時間相関の検索について論じる。

We discuss a construction of a microcanonical projection WOW of a quantum operator O, its spectrum, and the retrieval of canonical many-time correlations from it.
翻訳日:2023-05-19 19:34:43 公開日:2023-05-17
# StyleGAN Salon: Pose-invariant Hairstyle Transferのための多視点遅延最適化

StyleGAN Salon: Multi-View Latent Optimization for Pose-Invariant Hairstyle Transfer ( http://arxiv.org/abs/2304.02744v2 )

ライセンス: Link先を確認
Sasikarn Khwanmuang, Pakkapon Phongthawee, Patsorn Sangkloy, Supasorn Suwajanakorn(参考訳) 本稿は,参照画像のヘアスタイルを,仮想毛髪試着用の入力写真に転送することを目的としている。 例えば、長い髪型をバングでピクシーカットに変えて、既存の髪を取り外し、額の見た目を推測したり、帽子をかぶった人から部分的に見える髪を別のポーズで移すといった、さまざまな課題を想定しています。 過去のソリューションでは、欠落部分の幻覚としてstyleganを利用し、いわゆるgan反転または投影を通じてシームレスな顔毛複合体を生成する。 しかし、髪型を正確に転写し、入力の顔の形やアイデンティティを保持する幻覚の制御には依然として課題がある。 これを解決するために,参照合成の「2つの異なるビュー」を用いて,隠蔽領域や曖昧領域を意味的にガイドする多視点最適化フレームワークを提案する。 最適化は2つのポーズ間で情報を共有するため、不完全な参照から高い忠実度と現実的な結果が得られる。 われわれのフレームワークは, 従来よりはるかに難易度の高いヘアトランスファーシナリオからなるユーザスタディにおいて, 高品質な結果が得られ, 先行研究よりも優れていた。 プロジェクトページ: https://stylegan-salon.github.io/

Our paper seeks to transfer the hairstyle of a reference image to an input photo for virtual hair try-on. We target a variety of challenges scenarios, such as transforming a long hairstyle with bangs to a pixie cut, which requires removing the existing hair and inferring how the forehead would look, or transferring partially visible hair from a hat-wearing person in a different pose. Past solutions leverage StyleGAN for hallucinating any missing parts and producing a seamless face-hair composite through so-called GAN inversion or projection. However, there remains a challenge in controlling the hallucinations to accurately transfer hairstyle and preserve the face shape and identity of the input. To overcome this, we propose a multi-view optimization framework that uses "two different views" of reference composites to semantically guide occluded or ambiguous regions. Our optimization shares information between two poses, which allows us to produce high fidelity and realistic results from incomplete references. Our framework produces high-quality results and outperforms prior work in a user study that consists of significantly more challenging hair transfer scenarios than previously studied. Project page: https://stylegan-salon.github.io/.
翻訳日:2023-05-19 19:32:56 公開日:2023-05-17
# 深部強化学習のための後方サンプリング

Posterior Sampling for Deep Reinforcement Learning ( http://arxiv.org/abs/2305.00477v2 )

ライセンス: Link先を確認
Remo Sasso, Michelangelo Conserva, Paulo Rauber(参考訳) 驚くべき成功にもかかわらず、深い強化学習アルゴリズムはサンプル非効率のままであり、良いポリシーを見つけるには膨大な試行錯誤が必要になる。 モデルベースのアルゴリズムは、計画に使用できる環境モデルを構築することでサンプル効率を約束する。 強化学習のための後サンプリングはそのようなモデルに基づくアルゴリズムであり、表の設定の性能から大きな関心を集めている。 本稿では,モデルベース本質を保ちつつ,後方サンプリングによる後方サンプリングを実際にスケーラブルに近似した深層強化学習 (psdrl) のための後方サンプリング法を提案する。 PSDRLは、潜在状態空間モデルに対する効率的な不確実性定量化と、値関数近似に基づく特別に調整された連続計画アルゴリズムを組み合わせる。 Atariベンチマークの大規模な実験によると、PSDRLは、サンプル効率と計算効率の両方において、最先端(モデルベース)強化学習法と競合しながら、過去の最先端のサンプリングをスケールアップする試みを著しく上回っている。

Despite remarkable successes, deep reinforcement learning algorithms remain sample inefficient: they require an enormous amount of trial and error to find good policies. Model-based algorithms promise sample efficiency by building an environment model that can be used for planning. Posterior Sampling for Reinforcement Learning is such a model-based algorithm that has attracted significant interest due to its performance in the tabular setting. This paper introduces Posterior Sampling for Deep Reinforcement Learning (PSDRL), the first truly scalable approximation of Posterior Sampling for Reinforcement Learning that retains its model-based essence. PSDRL combines efficient uncertainty quantification over latent state space models with a specially tailored continual planning algorithm based on value-function approximation. Extensive experiments on the Atari benchmark show that PSDRL significantly outperforms previous state-of-the-art attempts at scaling up posterior sampling while being competitive with a state-of-the-art (model-based) reinforcement learning method, both in sample efficiency and computational efficiency.
翻訳日:2023-05-19 19:26:03 公開日:2023-05-17
# カーネル化スタインの相違に基づく適合性試験の改善のための摂動法

Using Perturbation to Improve Goodness-of-Fit Tests based on Kernelized Stein Discrepancy ( http://arxiv.org/abs/2304.14762v2 )

ライセンス: Link先を確認
Xing Liu, Andrew B. Duncan, Axel Gandy(参考訳) kernelized stein discrepancy (ksd) は、適合度テストで広く使われるスコアベースの不一致である。 対象分布が未知の正規化因子を持つ場合でも、ベイズ解析のように適用することができる。 我々は、KSD試験が、ターゲットと代替分布が同一の分離モードを持つが混合比が異なる場合、低出力に悩まされることを理論的かつ実証的に示す。 対象分布が不変である点に関して,マルコフ遷移核を介して観測試料を摂動させることを提案する。 これにより、摂動サンプルにKSDテストを適用することができます。 提案手法が好適に選択されたカーネルでは,提案手法がKSD試験よりも大幅に高出力となることを示す数値的な証拠を提供する。

Kernelized Stein discrepancy (KSD) is a score-based discrepancy widely used in goodness-of-fit tests. It can be applied even when the target distribution has an unknown normalising factor, such as in Bayesian analysis. We show theoretically and empirically that the KSD test can suffer from low power when the target and the alternative distribution have the same well-separated modes but differ in mixing proportions. We propose to perturb the observed sample via Markov transition kernels, with respect to which the target distribution is invariant. This allows us to then employ the KSD test on the perturbed sample. We provide numerical evidence that with suitably chosen kernels the proposed approach can lead to a substantially higher power than the KSD test.
翻訳日:2023-05-19 19:25:29 公開日:2023-05-17
# hong-ou-mandel interferometryを用いた近接ビデオフレームレート量子センシング

Near-video frame rate quantum sensing using Hong-Ou-Mandel interferometry ( http://arxiv.org/abs/2304.13300v2 )

ライセンス: Link先を確認
Sandeep Singh, Vimlesh Kumar, Varun Sharma, Daniele Faccio, G. K. Samanta(参考訳) バランスの取れない2つの光子をバランスの取れたビームスプリッターに束ねるHong-Ou-Mandel(HOM)干渉は、量子センシングのための有望なツールとして登場した。 広スペクトル帯域光子対(高分解能センシング用)と高輝度(高速センシング用)が必要である。 ここでは、単一周波数連続波ダイオードレーザーを用いて、高精度、リアルタイムセンシングが可能なフレキシブルスペクトル帯域を持つ光子対の生成を示す。 1mmの周期的なKTP結晶を用いて、スペクトル帯域幅163.42$\pm$1.68 nmの縮退した光子対を生成し、その結果、HOM-dip幅4.01$\pm$0.04$\mu$mで60nmの変位を測定し、205\pm0.75$ nmの振幅と周波数8Hzの振動を測定するのに十分な高輝度を実現した。 fisher-information と maximum likelihood estimation は、精度 (cram\'er-rao bound) の4.97nmまでの光学遅延測定と 0.89 nm と 0.54 nm の精度をそれぞれ許容する。

Hong-Ou-Mandel (HOM) interference, the bunching of two indistinguishable photons on a balanced beam-splitter, has emerged as a promising tool for quantum sensing. There is a need for wide spectral-bandwidth photon pairs (for high-resolution sensing) with high brightness (for fast sensing). Here we show the generation of photon-pairs with flexible spectral-bandwidth even using single-frequency, continuous-wave diode laser enabling high-precision, real-time sensing. Using 1-mm-long periodically-poled KTP crystal, we produced degenerate, photon-pairs with spectral-bandwidth of 163.42$\pm$1.68 nm resulting in a HOM-dip width of 4.01$\pm$0.04 $\mu$m to measure a displacement of 60 nm, and sufficiently high brightness to enable the measurement of vibrations with amplitude of $205\pm0.75$ nm and frequency of 8 Hz. Fisher-information and maximum likelihood estimation enables optical delay measurements as small as 4.97 nm with precision (Cram\'er-Rao bound) and accuracy of 0.89 and 0.54 nm, respectively, therefore showing HOM sensing capability for real-time, precision-augmented, in-field quantum sensing applications.
翻訳日:2023-05-19 19:24:50 公開日:2023-05-17
# llm2loss: 説明可能なモデル診断に言語モデルを活用する

LLM2Loss: Leveraging Language Models for Explainable Model Diagnostics ( http://arxiv.org/abs/2305.03212v2 )

ライセンス: Link先を確認
Shervin Ardeshir(参考訳) 膨大な量のデータに基づいて訓練されたLarge Language Model (LLM)は、抽象空間におけるかなり複雑なテキスト入力のモデリングにおいて、前例のない成功と一般化を達成し、ゼロショット学習のための強力なツールとなった。 このような機能は、CLIPのようなクロスモーダル基盤モデルを用いて視覚ドメインのような他のモダリティに拡張され、結果として視覚入力から意味的に意味のある表現を抽出できる。 本研究では,この機能を活用し,モデルの障害パターンとバイアスに関する意味的な洞察を提供するアプローチを提案する。 ブラックボックスモデルとそのトレーニングデータ、タスク定義が与えられた場合、まず、各データポイントのタスク関連損失を計算します。 次に、各トレーニングデータポイント(例えば、そのビジュアルエンコーダからCLIP埋め込み)について意味論的意味のある表現を抽出し、この意味論的意味のあるデータポイントの表現をタスク損失にマッピングする軽量診断モデルを訓練する。 このような軽量モデルのアンサンブルは、故障やバイアスのパターンを識別する点において、ブラックボックスモデルの性能に関する洞察を生み出すのに有効であることを示す。

Trained on a vast amount of data, Large Language models (LLMs) have achieved unprecedented success and generalization in modeling fairly complex textual inputs in the abstract space, making them powerful tools for zero-shot learning. Such capability is extended to other modalities such as the visual domain using cross-modal foundation models such as CLIP, and as a result, semantically meaningful representation are extractable from visual inputs. In this work, we leverage this capability and propose an approach that can provide semantic insights into a model's patterns of failures and biases. Given a black box model, its training data, and task definition, we first calculate its task-related loss for each data point. We then extract a semantically meaningful representation for each training data point (such as CLIP embeddings from its visual encoder) and train a lightweight diagnosis model which maps this semantically meaningful representation of a data point to its task loss. We show that an ensemble of such lightweight models can be used to generate insights on the performance of the black-box model, in terms of identifying its patterns of failures and biases.
翻訳日:2023-05-19 19:14:20 公開日:2023-05-17
# GPT-Sentinel:人間とチャットGPT生成コンテンツを識別する

GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content ( http://arxiv.org/abs/2305.07969v2 )

ライセンス: Link先を確認
Yutian Chen, Hao Kang, Vivian Zhai, Liangze Li, Rita Singh, Bhiksha Raj(参考訳) 本稿では,言語モデルを用いたChatGPT生成対人文テキスト検出手法を提案する。 この目的のために、我々はまずOpenGPTTextという、ChatGPTを用いて生成されたリフレーズ付きコンテンツからなる前処理データセットを収集し、リリースした。 次に、RoBERTa(Roustly Optimized BERT Pretraining Approach)とText-to-Text Transfer Transformer(T5)を用いて、テキスト分類のための2つの異なるモデルの設計、実装、訓練を行った。 私たちのモデルは、さまざまなメトリクスで評価したように、テストデータセット上で97%以上の精度で、驚くべき結果を達成しました。 さらに,人間の手書きテキストとChatGPT生成テキストの主な特徴を抽出し,識別する能力を示すための解釈可能性の検討を行った。 本研究は,生成テキストの検出における言語モデルの有効利用に関する重要な知見を提供する。

This paper presents a novel approach for detecting ChatGPT-generated vs. human-written text using language models. To this end, we first collected and released a pre-processed dataset named OpenGPTText, which consists of rephrased content generated using ChatGPT. We then designed, implemented, and trained two different models for text classification, using Robustly Optimized BERT Pretraining Approach (RoBERTa) and Text-to-Text Transfer Transformer (T5), respectively. Our models achieved remarkable results, with an accuracy of over 97% on the test dataset, as evaluated through various metrics. Furthermore, we conducted an interpretability study to showcase our model's ability to extract and differentiate key features between human-written and ChatGPT-generated text. Our findings provide important insights into the effective use of language models to detect generated text.
翻訳日:2023-05-19 19:07:18 公開日:2023-05-17
# LLaMA博士: 生成データ拡張によるPubMedQA上の小さな言語モデルの改善

Dr. LLaMA: Improving Small Language Models on PubMedQA via Generative Data Augmentation ( http://arxiv.org/abs/2305.07804v2 )

ライセンス: Link先を確認
Zhen Guo, Peiqi Wang, Yanwei Wang, Shangdi Yu(参考訳) 大規模言語モデル(llm)は自然言語処理において著しい進歩を遂げているが、その拡大は計算コストと非効率の面での課題を生じさせている。 逆に、Small Language Models (SLM) はその効率で知られているが、特にドメイン固有のシナリオにおいて、限られた能力と訓練データを持つタスクでしばしば困難に直面する。 本稿では, LLMを用いた生成データ拡張により医療領域のSLMを改善する手法であるDr. LLaMAを紹介する。 目的は、特殊用途に適したより効率的で有能なモデルを開発することである。 PubMedQAデータセットの予備的な結果から, LLMは既存の質問応答ペアを効果的に洗練・多様化し, 微調整後のモデルの性能向上につながることが示された。 最高のSLMは、PubMedQA上の16億以下のパラメータを持つ、数発のGPT-4を超える。 私たちのコードと生成されたデータは、さらなる探索を容易にするために公開されています。

Large Language Models (LLMs) have made remarkable strides in natural language processing, but their expanding size poses challenges in terms of computational expense and inefficiency. Conversely, Small Language Models (SLMs) are known for their efficiency but often encounter difficulties in tasks with limited capacity and training data, particularly in domain-specific scenarios. In this paper, we introduce Dr. LLaMA, a method that improves SLMs in the medical domain through generative data augmentation utilizing LLMs. The objective is to develop more efficient and capable models tailored for specialized applications. Our preliminary results on the PubMedQA dataset demonstrate that LLMs effectively refine and diversify existing question-answer pairs, leading to improved performance of a significantly smaller model after fine-tuning. The best SLM surpasses few-shot GPT-4 with under 1.6 billion parameters on the PubMedQA. Our code and generated data are publicly available to facilitate further explorations.
翻訳日:2023-05-19 19:06:29 公開日:2023-05-17
# 汎用ロボットの基礎モデルに向けて:タスク自動生成とシーン生成によるスケールでの異種スキル学習

Towards A Foundation Model for Generalist Robots: Diverse Skill Learning at Scale via Automated Task and Scene Generation ( http://arxiv.org/abs/2305.10455v1 )

ライセンス: Link先を確認
Zhou Xian, Theophile Gervet, Zhenjia Xu, Yi-Ling Qiao, Tsun-Hsuan Wang(参考訳) この文書は、一般のロボットへの潜在的な経路に対する著者のビジョンを概説する位置紙として機能する。 この文書の目的は、著者たちの興奮をコミュニティと共有し、ロボット工学とAIにおける有望な研究方向性を明らかにすることである。 著者らは、提案されたパラダイムは、ロボット研究の長年の目標を達成するための、実現可能な道であると信じている。 この文書は、ロボット工学研究のための最新の大規模基盤モデルにおいて、鉱業に関する具体的な知識を提示する。 これらのモデルを直接適用したり、低レベルのポリシー学習をガイドする代わりに、多様なタスクやシーンを大規模に生成して低レベルのスキル学習をスケールアップし、最終的には汎用ロボットを力づけるロボティクスの基礎モデルへと導くことを推奨している。 著者らは積極的にこの方向を推し進めているが、一方で、大規模な政策訓練を施した汎用ロボットを構築するという野心的な目標には、計算力やハードウェアなどの重要なリソースが要求されている。 そのため、この初期段階で意見を共有することで議論が促進され、業界団体から提案された経路や関連するトピックに対する関心が高まり、この分野の技術的進歩が促進される可能性があると著者らは考えている。

This document serves as a position paper that outlines the authors' vision for a potential pathway towards generalist robots. The purpose of this document is to share the excitement of the authors with the community and highlight a promising research direction in robotics and AI. The authors believe the proposed paradigm is a feasible path towards accomplishing the long-standing goal of robotics research: deploying robots, or embodied AI agents more broadly, in various non-factory real-world settings to perform diverse tasks. This document presents a specific idea for mining knowledge in the latest large-scale foundation models for robotics research. Instead of directly adapting these models or using them to guide low-level policy learning, it advocates for using them to generate diversified tasks and scenes at scale, thereby scaling up low-level skill learning and ultimately leading to a foundation model for robotics that empowers generalist robots. The authors are actively pursuing this direction, but in the meantime, they recognize that the ambitious goal of building generalist robots with large-scale policy training demands significant resources such as computing power and hardware, and research groups in academia alone may face severe resource constraints in implementing the entire vision. Therefore, the authors believe sharing their thoughts at this early stage could foster discussions, attract interest towards the proposed pathway and related topics from industry groups, and potentially spur significant technical advancements in the field.
翻訳日:2023-05-19 18:57:18 公開日:2023-05-17
# VVC+M:人間と機械のためのスケーラブルな画像符号化

VVC+M: Plug and Play Scalable Image Coding for Humans and Machines ( http://arxiv.org/abs/2305.10453v1 )

ライセンス: Link先を確認
Alon Harell, Yalda Foroutan, and Ivan V. Bajic(参考訳) 機械の圧縮は、下流の自動分析の性能を最適化しながら入力をエンコードする新興分野である。 人間や機械のスケーラブルなコーディングでは、機械の圧縮表現がさらに活用され、入力再構成が可能となる。 機械作業と人間の知覚の両方に圧縮スキームを共同で最適化することにより、機械側ではRD(sub-optimal rate-distortion)の性能が向上する。 我々は、VVCなどのビデオコーデックの残余符号化機能を利用して、画像圧縮(ICM)方式でスケーラブルなコーデックを作成することを目的として、画像の場合に焦点を当てた。 このアプローチを用いることで、既存のスケーラブルなコーデックを改善して、人間の知覚に競争力を維持しながら、マシンタスク上で優れたRDパフォーマンスを実現する。 さらに,任意の icm スキームに対して,機械解析の品質と人間の視覚との結合を生じさせることなく,ポストホックを訓練することができる。

Compression for machines is an emerging field, where inputs are encoded while optimizing the performance of downstream automated analysis. In scalable coding for humans and machines, the compressed representation used for machines is further utilized to enable input reconstruction. Often performed by jointly optimizing the compression scheme for both machine task and human perception, this results in sub-optimal rate-distortion (RD) performance for the machine side. We focus on the case of images, proposing to utilize the pre-existing residual coding capabilities of video codecs such as VVC to create a scalable codec from any image compression for machines (ICM) scheme. Using our approach we improve an existing scalable codec to achieve superior RD performance on the machine task, while remaining competitive for human perception. Moreover, our approach can be trained post-hoc for any given ICM scheme, and without creating a coupling between the quality of the machine analysis and human vision.
翻訳日:2023-05-19 18:56:50 公開日:2023-05-17
# 素隣接行列を用いた生体医学知識グラフの解析

Analysing Biomedical Knowledge Graphs using Prime Adjacency Matrices ( http://arxiv.org/abs/2305.10467v1 )

ライセンス: Link先を確認
Konstantinos Bougiatiotis and Georgios Paliouras(参考訳) 生物医学的タスクに関連するほとんどの現象は本質的に複雑であり、多くの場合、生体医学的知識グラフ(kgs)上でシグナルとして表現される。 本研究では,バイオメディカルなKGに対する新しい表現フレームワークであるPAM(Prime Adjacency Matrix)の導入について紹介する。 PAMは素数を用いて、KG全体を単一の隣接行列で表現し、ネットワークの複数の特性の高速な計算を可能にする。 バイオメディカル・ナレッジ・グラフの相違と,covid-19の薬剤補充と重要なメタパス抽出の2つのケーススタディを提供することにより,バイオメディカル領域におけるフレームワークの適用性を示す。 従来のワークフローよりも優れた結果を得ることができ、トレーニング不要な非常にシンプルな手法を、かなり少ない時間で使用しています。

Most phenomena related to biomedical tasks are inherently complex, and in many cases, are expressed as signals on biomedical Knowledge Graphs (KGs). In this work, we introduce the use of a new representation framework, the Prime Adjacency Matrix (PAM) for biomedical KGs, which allows for very efficient network analysis. PAM utilizes prime numbers to enable representing the whole KG with a single adjacency matrix and the fast computation of multiple properties of the network. We illustrate the applicability of the framework in the biomedical domain by working on different biomedical knowledge graphs and by providing two case studies: one on drug-repurposing for COVID-19 and one on important metapath extraction. We show that we achieve better results than the original proposed workflows, using very simple methods that require no training, in considerably less time.
翻訳日:2023-05-19 18:48:23 公開日:2023-05-17
# Nomogram と Machine Learning を用いた肺癌患者の孤立性肺結節予測

Solitary pulmonary nodules prediction for lung cancer patients using nomogram and machine learning ( http://arxiv.org/abs/2305.10466v1 )

ライセンス: Link先を確認
Hailan Zhang and Gongjin Song(参考訳) Lung cancer(LC) is a type of malignant neoplasm that originates in the bronchial mucosa or glands.As a clinically common nodule,solitary pulmonary nodules(SPNs) have a significantly higher probability of malignancy when they are larger than 8 mm in diameter.But there is also a risk of lung cancer when the diameter is less than 8mm,the purpose of this study was to create a nomogram for estimating the likelihood of lung cancer in patients with SPNs of 8 mm or smaller using computed tomography(CT) scans and biomarker information.Use CT scans and various biomarkers as input to build predictive models for the likelihood of lung cancer in patients with SPNs of 8 mm or less.The age,precursor gastrin-releasing peptide (ProGRP),gender,Carcinoembryonic Antigen(CEA),and stress corrosion cracking(SCC) were independent key tumor markers and were entered into the nomogram.The developed nomogram demonstrated strong accuracy in predicting lung cancer risk,with an internal validation area under the receiver operating characteristics curve(ROC) of 0.8474.The calibration curves plotted showed that the nomogram predicted the probability of lung cancer with good agreement with the actual probability.In this study,we finally succeeded in constructing a suitable nomogram that could predict the risk of lung cancer in patients with SPNs<=8 mm in diameter.The model has a high level of accuracy and is able to accurately distinguish between different patients,allowing clinicians to develop personalized treatment plans for individuals with SPNs.

Lung cancer(LC) is a type of malignant neoplasm that originates in the bronchial mucosa or glands.As a clinically common nodule,solitary pulmonary nodules(SPNs) have a significantly higher probability of malignancy when they are larger than 8 mm in diameter.But there is also a risk of lung cancer when the diameter is less than 8mm,the purpose of this study was to create a nomogram for estimating the likelihood of lung cancer in patients with SPNs of 8 mm or smaller using computed tomography(CT) scans and biomarker information.Use CT scans and various biomarkers as input to build predictive models for the likelihood of lung cancer in patients with SPNs of 8 mm or less.The age,precursor gastrin-releasing peptide (ProGRP),gender,Carcinoembryonic Antigen(CEA),and stress corrosion cracking(SCC) were independent key tumor markers and were entered into the nomogram.The developed nomogram demonstrated strong accuracy in predicting lung cancer risk,with an internal validation area under the receiver operating characteristics curve(ROC) of 0.8474.The calibration curves plotted showed that the nomogram predicted the probability of lung cancer with good agreement with the actual probability.In this study,we finally succeeded in constructing a suitable nomogram that could predict the risk of lung cancer in patients with SPNs<=8 mm in diameter.The model has a high level of accuracy and is able to accurately distinguish between different patients,allowing clinicians to develop personalized treatment plans for individuals with SPNs.
翻訳日:2023-05-19 18:48:06 公開日:2023-05-17
# 回転ラプラス分布によるSO(3)のロバスト確率モデリングに向けて

Towards Robust Probabilistic Modeling on SO(3) via Rotation Laplace Distribution ( http://arxiv.org/abs/2305.10465v1 )

ライセンス: Link先を確認
Yingda Yin, Jiangran Lyu, Yang Wang, He Wang, Baoquan Chen(参考訳) 単一のRGB画像から3DoF回転を推定することは重要な問題である。 一般的なアプローチとして、確率的回転モデリングは、単予想回転回帰と比較して予測不確実性情報も持つ。 SO(3) 上の確率分布をモデル化するためには、ガウス的なビンガム分布と行列フィッシャーを用いるのが自然であるが、それらは例えば180^\circ$エラーのような外れ値の予測に敏感であり、したがって最適性能に収束することができない。 本稿では,多変量ラプラス分布からインスピレーションを得て,SO(3)上の新しい回転ラプラス分布を提案する。 我々の回転ラプラス分布は、異常値の乱れに対して頑健であり、改善可能な低エラー領域に多くの勾配を強制する。 また,本手法は小雑音に対して頑健性を示し,不完全アノテーションを許容することを示す。 この利点により、擬似ラベルがノイズである半教師付き回転回帰におけるその利点を実証する。 対称物体に対する多モード回転解空間を更に捉えるため、我々は分布をラプラス混合モデルに拡張し、その有効性を示す。 提案した分布と混合モデルにより, 確率的および非確率的ベースライン上の回転回帰実験のすべてにおいて, 最先端性能が得られることを示す。

Estimating the 3DoF rotation from a single RGB image is an important yet challenging problem. As a popular approach, probabilistic rotation modeling additionally carries prediction uncertainty information, compared to single-prediction rotation regression. For modeling probabilistic distribution over SO(3), it is natural to use Gaussian-like Bingham distribution and matrix Fisher, however they are shown to be sensitive to outlier predictions, e.g. $180^\circ$ error and thus are unlikely to converge with optimal performance. In this paper, we draw inspiration from multivariate Laplace distribution and propose a novel rotation Laplace distribution on SO(3). Our rotation Laplace distribution is robust to the disturbance of outliers and enforces much gradient to the low-error region that it can improve. In addition, we show that our method also exhibits robustness to small noises and thus tolerates imperfect annotations. With this benefit, we demonstrate its advantages in semi-supervised rotation regression, where the pseudo labels are noisy. To further capture the multi-modal rotation solution space for symmetric objects, we extend our distribution to rotation Laplace mixture model and demonstrate its effectiveness. Our extensive experiments show that our proposed distribution and the mixture model achieve state-of-the-art performance in all the rotation regression experiments over both probabilistic and non-probabilistic baselines.
翻訳日:2023-05-19 18:47:48 公開日:2023-05-17
# 若干の例による再構成誤差に基づく異常検出

Reconstruction Error-based Anomaly Detection with Few Outlying Examples ( http://arxiv.org/abs/2305.10464v1 )

ライセンス: Link先を確認
Fabrizio Angiulli, Fabio Fassetti, Luca Ferragina(参考訳) 再構成エラーに基づくニューラルアーキテクチャは、異常検出に対する古典的なディープラーニングアプローチを構成しており、優れた性能を示している。 オートエンコーダをトレーニングして、正規性を表すと考えられる一連の例を再構築し、十分に大きな再構成エラーを示すそれらのデータを異常として指摘する。 残念なことに、これらのアーキテクチャはデータ内の異常も適切に再構築することができる。 この現象は、トレーニングセットに異常がある場合により明らかである。 特に、これらの異常がラベル付けされたとき、半教師化と呼ばれる設定は、オートエンコーダを訓練する最善の方法は、異常を無視し、通常のデータで再構成エラーを最小限に抑えることである。 本研究の目的は,正規データのドメイン記述の外部に既知の異常を配置するようにモデルに指示する,再構成エラーに基づくアーキテクチャのアプローチを検討することである。 具体的には,通常例と未知例の両方に関連付けられた再構成誤差のコントラストを高め,異常検出性能を向上させるために,限られた数の異常例を利用する。 実験の結果,本手法は,標準的なオートエンコーダ手法や,半教師付き異常検出のためのディープラーニング技術よりも優れた性能を実現することがわかった。

Reconstruction error-based neural architectures constitute a classical deep learning approach to anomaly detection which has shown great performances. It consists in training an Autoencoder to reconstruct a set of examples deemed to represent the normality and then to point out as anomalies those data that show a sufficiently large reconstruction error. Unfortunately, these architectures often become able to well reconstruct also the anomalies in the data. This phenomenon is more evident when there are anomalies in the training set. In particular when these anomalies are labeled, a setting called semi-supervised, the best way to train Autoencoders is to ignore anomalies and minimize the reconstruction error on normal data. The goal of this work is to investigate approaches to allow reconstruction error-based architectures to instruct the model to put known anomalies outside of the domain description of the normal data. Specifically, our strategy exploits a limited number of anomalous examples to increase the contrast between the reconstruction error associated with normal examples and those associated with both known and unknown anomalies, thus enhancing anomaly detection performances. The experiments show that this new procedure achieves better performances than the standard Autoencoder approach and the main deep learning techniques for semi-supervised anomaly detection.
翻訳日:2023-05-19 18:47:24 公開日:2023-05-17
# DualVector:デュアル部分表現を用いた教師なしベクトルフォント合成

DualVector: Unsupervised Vector Font Synthesis with Dual-Part Representation ( http://arxiv.org/abs/2305.10462v1 )

ライセンス: Link先を確認
Ying-Tian Liu, Zhifei Zhang, Yuan-Chen Guo, Matthew Fisher, Zhaowen Wang, Song-Hai Zhang(参考訳) フォントの自動生成はフォント設計の重要な助けとなる。 現在の多くのアプローチでは、グリフをピクセル化画像とみなし、拡張時のアーティファクトとベクター化後の品質損失を提示している。 一方、既存のベクトルフォント合成法では、形状を簡潔に表現できないか、訓練中にベクトル監督を必要とする。 ベクトルフォント合成の質を次のレベルに押し上げるために,各グリフを閉じた「正」と「負」の経路対の集合としてモデル化する,ベクトルグリフのための新しい双対表現を提案する。 グリフ輪郭はこれらの経路上のブール演算によって得られる。 まず,そのような表現をグリフ画像からのみ学習し,それに続く輪郭改良ステップを考案し,輪郭を画像表現と整合させ,さらに詳細化を図る。 我々の手法はDualVectorと呼ばれ、ベクトルフォント合成における最先端の手法よりも定量的かつ定性的に優れている。 我々の合成ベクトルフォントは、TrueType Fontのような一般的なデジタルフォント形式に簡単に変換できる。 コードはhttps://github.com/thuliu-yt16/dualvectorでリリースされる。

Automatic generation of fonts can be an important aid to typeface design. Many current approaches regard glyphs as pixelated images, which present artifacts when scaling and inevitable quality losses after vectorization. On the other hand, existing vector font synthesis methods either fail to represent the shape concisely or require vector supervision during training. To push the quality of vector font synthesis to the next level, we propose a novel dual-part representation for vector glyphs, where each glyph is modeled as a collection of closed "positive" and "negative" path pairs. The glyph contour is then obtained by boolean operations on these paths. We first learn such a representation only from glyph images and devise a subsequent contour refinement step to align the contour with an image representation to further enhance details. Our method, named DualVector, outperforms state-of-the-art methods in vector font synthesis both quantitatively and qualitatively. Our synthesized vector fonts can be easily converted to common digital font formats like TrueType Font for practical use. The code is released at https://github.com/thuliu-yt16/dualvector.
翻訳日:2023-05-19 18:47:03 公開日:2023-05-17
# コンディショニングフィールド初期化を用いたニューラルネットワークによるトポロジー最適化

Topology Optimization using Neural Networks with Conditioning Field Initialization for Improved Efficiency ( http://arxiv.org/abs/2305.10460v1 )

ライセンス: Link先を確認
Hongrui Chen, Aditya Joglekar, Levent Burak Kara(参考訳) ニューラルネットワークに基づくトポロジー最適化のための条件付きフィールド初期化を提案する。 本研究では,(1)既存のニューラルネットワークによるトポロジ最適化の改善,(2)最適化されていない領域に事前初期フィールドを使用することにより,ニューラルネットワークによるトポロジ最適化の効率をさらに向上できることを示す。 提案手法は,ケースベースで学習したトポロジニューラルネットワークを用いて,単一トポロジ最適化問題の幾何学を表現する。 領域座標を入力として、トポロジーが連続密度場で表される各座標における密度を表す。 変位は有限要素ソルバによって解決される。 初期設計領域で計算されたひずみエネルギー場を最適化を通じてニューラルネットワークに入力される追加条件場として利用する。 ひずみエネルギー場入力の追加は、スタンドアロンのニューラルネットワークに基づくトポロジー最適化と比較して収束速度を改善する。

We propose conditioning field initialization for neural network based topology optimization. In this work, we focus on (1) improving upon existing neural network based topology optimization, (2) demonstrating that by using a prior initial field on the unoptimized domain, the efficiency of neural network based topology optimization can be further improved. Our approach consists of a topology neural network that is trained on a case by case basis to represent the geometry for a single topology optimization problem. It takes in domain coordinates as input to represent the density at each coordinate where the topology is represented by a continuous density field. The displacement is solved through a finite element solver. We employ the strain energy field calculated on the initial design domain as an additional conditioning field input to the neural network throughout the optimization. The addition of the strain energy field input improves the convergence speed compared to standalone neural network based topology optimization.
翻訳日:2023-05-19 18:46:45 公開日:2023-05-17
# analognas:アナログインメモリコンピューティングを用いた正確な推論のためのニューラルネットワーク設計フレームワーク

AnalogNAS: A Neural Network Design Framework for Accurate Inference with Analog In-Memory Computing ( http://arxiv.org/abs/2305.10459v1 )

ライセンス: Link先を確認
Hadjer Benmeziane, Corey Lammie, Irem Boybat, Malte Rasch, Manuel Le Gallo, Hsinyu Tsai, Ramachandran Muralidhar, Smail Niar, Ouarnoughi Hamza, Vijay Narayanan, Abu Sebastian and Kaoutar El Maghraoui(参考訳) ディープラーニング(DL)の進歩は、効率的なDeep Neural Network(DNN)設計と新しいハードウェアアクセラレータによって駆動される。 現在のDNNの設計は、主に商用プラットフォームへの汎用的な利用と展開のために調整されている。 エッジでの推論には低レイテンシ、コンパクト、電力効率のモデルが必要です。 典型的なフォン・ノイマンアーキテクチャに基づくデジタルプロセッサは、大量のデータ移動がメモリ内外にあることを考えると、エッジAIには適さない。 逆に、アナログ/混合信号インメモリコンピューティングハードウェアアクセラレータは、推論ワークロードを加速する場合、von neumanアーキテクチャのメモリ壁を容易に超越することができる。 エリアと電力効率が向上し、エッジリソースの制約された環境において最重要となる。 本稿では,アナログメモリ・コンピューティング(IMC)推論・アクセラレータをターゲットとしたDNN自動設計フレームワークであるAnalogNASを提案する。 我々は,様々な小型機械学習(tinyml)タスクの精度と展開効率の観点から,最先端(sota)モデルにおけるアナログの性能を示すために,広範なハードウェアシミュレーションを行う。 また、相変化メモリ(PCM)に基づく64コアMCチップ上で実装した場合、SOTAモデルよりも精度の高いAnalogNASモデルを示す実験結果を示す。 アナログ検索コード: https://github.com/ibm/analog-nas

The advancement of Deep Learning (DL) is driven by efficient Deep Neural Network (DNN) design and new hardware accelerators. Current DNN design is primarily tailored for general-purpose use and deployment on commercially viable platforms. Inference at the edge requires low latency, compact and power-efficient models, and must be cost-effective. Digital processors based on typical von Neumann architectures are not conducive to edge AI given the large amounts of required data movement in and out of memory. Conversely, analog/mixed signal in-memory computing hardware accelerators can easily transcend the memory wall of von Neuman architectures when accelerating inference workloads. They offer increased area and power efficiency, which are paramount in edge resource-constrained environments. In this paper, we propose AnalogNAS, a framework for automated DNN design targeting deployment on analog In-Memory Computing (IMC) inference accelerators. We conduct extensive hardware simulations to demonstrate the performance of AnalogNAS on State-Of-The-Art (SOTA) models in terms of accuracy and deployment efficiency on various Tiny Machine Learning (TinyML) tasks. We also present experimental results that show AnalogNAS models achieving higher accuracy than SOTA models when implemented on a 64-core IMC chip based on Phase Change Memory (PCM). The AnalogNAS search code is released: https://github.com/IBM/analog-nas
翻訳日:2023-05-19 18:46:32 公開日:2023-05-17
# 3モードの非ガウス量子照明

Non-Gaussian Quantum Illumination with three modes ( http://arxiv.org/abs/2305.10458v1 )

ライセンス: Link先を確認
Ricardo Gallego Torrom\'e(参考訳) 信号が2つの光子状態によって記述され、アイドラーが1つの光子状態によって記述される3つの光子を記述する非ガウス状態の量子照明は、高雑音背景において標準ガウス量子照明よりも優れていることを示す。

It is shown how quantum illumination with non-Gaussian states describing three photons, where the signal is described by two photon states and the idler is described one photon state, can outperform standard Gaussian quantum illumination in a high noisy background.
翻訳日:2023-05-19 18:46:12 公開日:2023-05-17
# ランダム畳み込み核を用いた時系列クラスタリング

Time Series Clustering With Random Convolutional Kernels ( http://arxiv.org/abs/2305.10457v1 )

ライセンス: Link先を確認
Jorge Marco-Blanco, Rub\'en Cuevas(参考訳) 時系列は、様々な自然現象や社会現象を記述できる。 いくつかのサンプルは、気候変動と地震対策のトレンド、株価、ウェブサイト訪問である。 時系列クラスタリングは、これらの事例に関連して、温度異常、差し迫った火山噴火、市場の混乱、不正なウェブトラフィックを表現できるアウトリーチを見つけるのに役立つ。 ランダムカーネルを用いた自動特徴抽出手法の成功を基盤として,2つのステップからなる時系列クラスタリング手法を開発した。 まず、ランダムな畳み込み構造がデータを拡張された特徴表現に変換する。 その後、クラスタリングアルゴリズムが変換データを分類する。 この手法は時系列クラスタリングベンチマークにおける最先端の結果を改善する。

Time series can describe a wide range of natural and social phenomena. A few samples are climate and seismic measures trends, stock prices, or website visits. Time-series clustering helps to find outliers that, related to these instances, could represent temperature anomalies, imminent volcanic eruptions, market disturbances, or fraudulent web traffic. Founded on the success of automatic feature extraction techniques, specifically employing random kernels, we develop a new method for time series clustering consisting of two steps. First, a random convolutional structure transforms the data into an enhanced feature representation. Afterwards, a clustering algorithm classifies the transformed data. The method improves state-of-the-art results on time series clustering benchmarks.
翻訳日:2023-05-19 18:46:05 公開日:2023-05-17
# LPMM:Landmark-Parameter Morphable Modelによるニューラルトーキングヘッドモデルに対する直観的姿勢制御

LPMM: Intuitive Pose Control for Neural Talking-Head Model via Landmark-Parameter Morphable Model ( http://arxiv.org/abs/2305.10456v1 )

ライセンス: Link先を確認
Kwangho Lee, Patrick Kwon, Myung Ki Lee, Namhyuk Ahn, Junsoo Lee(参考訳) 現在のトーキングヘッドモデルは、フォトリアリスティックなトーキングヘッドビデオを生成することができるが、ポーズ制御性は限られている。 ほとんどの方法では、ユーザがフレンドリーなポーズコントロールから遠ざかっているため、特定のビデオシーケンスが要求される。 3次元モーファブルモデル(3dmm)は意味的なポーズ制御を提供するが、特定の表現を捉えることができない。 トレーニング済みのニューラルトーキングヘッドモデル上での頭部方向と表情のパラメトリック制御を利用する新しい手法を提案する。 これを実現するために,一組のセマンティックパラメータを通して顔のランドマーク領域を制御するランドマークパラメータ・モルファブル・モデル(LPMM)を導入する。 LPMMを用いて、他の顔の特徴を歪ませることなく、特定の頭部ポーズ因子を調整することができる。 その結果,本手法はニューラルトーキングヘッドモデルに対する直感的なrigライクな制御を提供し,パラメータと画像に基づく入力が可能であることがわかった。

While current talking head models are capable of generating photorealistic talking head videos, they provide limited pose controllability. Most methods require specific video sequences that should exactly contain the head pose desired, being far from user-friendly pose control. Three-dimensional morphable models (3DMM) offer semantic pose control, but they fail to capture certain expressions. We present a novel method that utilizes parametric control of head orientation and facial expression over a pre-trained neural-talking head model. To enable this, we introduce a landmark-parameter morphable model (LPMM), which offers control over the facial landmark domain through a set of semantic parameters. Using LPMM, it is possible to adjust specific head pose factors, without distorting other facial attributes. The results show our approach provides intuitive rig-like control over neural talking head models, allowing both parameter and image-based inputs.
翻訳日:2023-05-19 18:45:56 公開日:2023-05-17
# スクイーズ駆動kerr発振器における量子トンネルとレベル交差

Quantum tunneling and level crossings in the squeeze-driven Kerr oscillator ( http://arxiv.org/abs/2305.10483v1 )

ライセンス: Link先を確認
Miguel A. Prado Reynoso, D. J. Nader, Jorge Ch\'avez-Carlos, B. E. Ordaz-Mendoza, Rodrigo G. Corti\~nas, Victor S. Batista, S. Lerma-Hern\'andez, Francisco P\'erez-Bernal, Lea F. Santos(参考訳) 最近、圧縮駆動型超伝導カー発振器の実験で測定された準エネルギースペクトルは、対応する静的有効ハミルトニアンのエネルギースペクトルとよく一致した。 実験はまた、低エネルギー状態のダイナミクスを同じ創発的静的有効モデルで説明できることを示した。 スペクトルはハミルトニアンパラメータの特定の値に対する実(回避)レベルの交差を示し、量子トンネルを抑圧するために選択することができる。 そこで本研究では, 有効モデルのスペクトルとダイナミクスを高エネルギーまで分析し, 間もなく実験範囲内になるはずである。 半古典的アプローチから得られる交差のパラメータ値も,その力学から直接同定可能であることを示す。 量子トンネルの解析は、位相空間の異なる領域間で進化した状態のフシミ体積の有効フラックスを用いて行われる。 初期コヒーレント状態とクエンチダイナミクスの両方が考慮される。 我々は、状態の密度が局所対数発散と局所的なステップの不連続を示す任意の自由度を持つ量子系に対して、レベル交差とそのダイナミクスに対する結果が典型的であると論じる。

The quasi-energy spectrum recently measured in experiments with a squeeze-driven superconducting Kerr oscillator showed good agreement with the energy spectrum of its corresponding static effective Hamiltonian. The experiments also demonstrated that the dynamics of low-energy states can be explained with the same emergent static effective model. The spectrum exhibits real (avoided) level crossings for specific values of the Hamiltonian parameters, which can then be chosen to suppress (enhance) quantum tunneling. Here, we analyze the spectrum and the dynamics of the effective model up to high energies, which should soon be within experimental reach. We show that the parameters values for the crossings, which can be obtained from a semiclassical approach, can also be identified directly from the dynamics. Our analysis of quantum tunneling is done with the effective flux of the Husimi volume of the evolved states between different regions of the phase space. Both initial coherent states and quench dynamics are considered. We argue that the level crossings and their consequences to the dynamics are typical to any quantum system with one degree of freedom, whose density of states presents a local logarithmic divergence and a local step discontinuity.
翻訳日:2023-05-19 18:37:52 公開日:2023-05-17
# 一般化ハバード・ストラトノヴィッチ変換による量子強長距離モデルの厳密解

Exact solution for quantum strong long-range models via a generalized Hubbard-Stratonovich transformation ( http://arxiv.org/abs/2305.10482v1 )

ライセンス: Link先を確認
Juan Rom\'an-Roche, V\'ictor Herr\'aiz-L\'opez, David Zueco(参考訳) 我々は、カンパ等で提案された古典解を拡張して、正準アンサンブルにおける量子強長距離モデルの正確な解析解を示す。 36,6897(2003年)。 具体的には、一般化ディッケモデルとハバード・ストラトノヴィッチ変換の一般化として相互作用量子モデルの間の同値性を利用する。 提案手法を横磁場のイジング連鎖に適用し,Fermi-Hubbardモデルや短距離・長距離モデル,反強磁性相互作用を持つモデルなど他のモデルへの応用の可能性について議論する。 以上の結果から, モデルの臨界挙動は, 相互作用範囲, 強い長距離状態, モデルの次元性とは無関係であることが示唆された。 さらに, 順序パラメータ表現は平均場理論によって提供されるものと同値であることを示し, 後者の完全性を確認した。 最後に、相関の代数的減衰を調べ、全位相図における相互作用の範囲に依存することを特徴付ける。

We present an exact analytical solution for quantum strong long-range models in the canonical ensemble by extending the classical solution proposed in Campa et al., J. Phys. A 36, 6897 (2003). Specifically, we utilize the equivalence between generalized Dicke models and interacting quantum models as a generalization of the Hubbard-Stratonovich transformation. To demonstrate our method, we apply it to the Ising chain in transverse field and discuss its potential application to other models, such as the Fermi-Hubbard model, combined short and long-range models and models with antiferromagnetic interactions. Our findings indicate that the critical behaviour of a model is independent of the range of interactions, within the strong long-range regime, and the dimensionality of the model. Moreover, we show that the order parameter expression is equivalent to that provided by mean-field theory, thus confirming the exactness of the latter. Finally, we examine the algebraic decay of correlations and characterize its dependence on the range of interactions in the full phase diagram.
翻訳日:2023-05-19 18:37:34 公開日:2023-05-17
# 二次元磁性金属のトポロジカル超伝導

Topological Superconductivity in Two-Dimensional Altermagnetic Metals ( http://arxiv.org/abs/2305.10479v1 )

ライセンス: Link先を確認
Di Zhu, Zheng-Yang Zhuang, Zhigang Wu, Zhongbo Yan(参考訳) 磁性金属を超伝導状態に持ち込むことは、非伝統的な超伝導体や潜在的にトポロジカル超伝導体を実現するための重要なアプローチである。 第3次コリニア磁性相に分類される交代磁性は、バンド構造の興味深い運動量依存スピンスプリッティングを引き起こし、対称性の強化されたゼロネット磁化による偶数個のスピン偏極フェルミ表面をもたらす。 本研究では,この新しい磁気秩序が,d$-wave の交代磁性とラシュバスピン軌道結合を持つ2次元金属の超伝導に及ぼす影響について検討する。 具体的には、この系で起こりうる超伝導ペアリングの種類を決定し、それらが位相特性を持つかどうかを確認する。 自己整合平均場計算により、時間反転対称性と反転対称性が欠如しているため、一般にスピン-シンガレット$s$波とスピン-トリップレット$p$波のペアリングが好まれる。 詳細な計算によって支持される対称性の引数を用いて、$p$波対が支配されるとき、一階と二階の両方を含む多くのトポロジカル超伝導体が現れることを示す。 特に、2階のトポロジカル超伝導体は$\mathcal{C}_{4z}\mathcal{T}$対称性によって強制され、マヨラナ角モードのスピン分極を一意な絡み合った構造にすることができる。 本研究は, 反磁性金属が本質的非古典的超伝導とトポロジカル超伝導を探求するための魅力的な基盤であることを示す。

Bringing magnetic metals into superconducting states represents an important approach for realizing unconventional superconductors and potentially even topological superconductors. Altermagnetism, classified as a third basic collinear magnetic phase, gives rise to intriguing momentum-dependent spin-splitting of the band structure, and results in an even number of spin-polarized Fermi surfaces due to the symmetry-enforced zero net magnetization. In this work, we investigate the effect of this new magnetic order on the superconductivity of a two-dimensional metal with $d$-wave altermagnetism and Rashba spin-orbital coupling. Specifically we determine the types of superconducting pairing that can occur in this system and ascertain whether they possess topological properties. Through self-consistent mean-field calculations, we find that the system in general favors a mixture of spin-singlet $s$-wave and spin-triplet $p$-wave pairings, due to the absence of time-reversal symmetry and inversion symmetry. Using symmetry arguments supported by detailed calculations, we show that a number of topological superconductors, including both first-order and second-order ones, can emerge when the $p$-wave pairing dominates. In particular, we find that the second-order topological superconductor is enforced by a $\mathcal{C}_{4z}\mathcal{T}$ symmetry, which renders the spin polarization of Majorana corner modes into a unique entangled structure. Our study demonstrates that altermagnetic metals are fascinating platforms for the exploration of intrinsic unconventional superconductivity and topological superconductivity.
翻訳日:2023-05-19 18:37:17 公開日:2023-05-17
# QCD媒体における量子-古典パルトンダイナミクス

Quantum to classical parton dynamics in QCD media ( http://arxiv.org/abs/2305.10476v1 )

ライセンス: Link先を確認
Jo\~ao Barata, Jean-Paul Blaizot, Yacine Mehtar-Tani(参考訳) 本研究では, 高エネルギークォークの密度行列が弾性衝突する高密度QCD媒体に伝播する時間発展について検討する(本研究では放射光は無視される)。 媒体はガウス相関関数を持つ確率色場としてモデル化される。 これにより、中程度の自由度を排除し、開量子系の記述に精通した近似を用いて、高エネルギークォークの密度行列の減少の進化のための単純なマスター方程式を得ることができる。 このマスター方程式を解析的に解き、簡単なランゲヴィン方程式から解を再構成できることを実証する。 最近では、密度行列の色の一重項成分のみがクォークの媒質中への伝播を生き残ることが判明している。 密度行列のオフ対角要素は、横位置空間及び運動量空間において順次抑制され、初期条件の詳細とは独立となる。 この挙動は対応するフォン・ノイマンのエントロピー(英語版)に反映され、後期の成長は媒体中の高エネルギークォークによって探索される古典的位相空間の増加と関連している。 古典分布としてのウィグナー変換の解釈は、関連する古典的エントロピーがフォン・ノイマンエントロピーと後期に一致するという事実によってさらに支持される。

We study the time evolution of the density matrix of a high energy quark propagating in a dense QCD medium where it undergoes elastic collisions (radiation is ignored in the present study). The medium is modeled as a stochastic color field with a Gaussian correlation function. This allows us to eliminate the medium degrees of freedom and obtain a simple master equation for the evolution of the reduced density matrix of the high energy quark, making use of approximations that are familiar in the description of open quantum systems. This master equation is solved analytically, and we demonstrate that its solution can be reconstructed from a simple Langevin equation. At late times, one finds that only the color singlet component of the density matrix survives the quark's propagation through the medium. The off-diagonal elements of the density matrix are suppressed successively in transverse position space and in momentum space, and become independent of the details of the initial condition. This behavior is reflected in the corresponding von Neumann entropy, whose growth at late time is related to the increase of the classical phase space explored by the high energy quark in its motion through the medium. The interpretation of the Wigner transform as a classical distribution is further supported by the fact that the associated classical entropy coincides at late time with the von Neumann entropy.
翻訳日:2023-05-19 18:36:44 公開日:2023-05-17
# 相関性を保つ:ビデオ拡散モデルに先立つノイズ

Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models ( http://arxiv.org/abs/2305.10474v1 )

ライセンス: Link先を確認
Songwei Ge, Seungjun Nah, Guilin Liu, Tyler Poon, Andrew Tao, Bryan Catanzaro, David Jacobs, Jia-Bin Huang, Ming-Yu Liu, Yogesh Balaji(参考訳) 拡散モデルを用いた高品質な画像生成の著しい進歩にもかかわらず、フォトリアリスティックかつ時間的コヒーレントなアニメーションフレーム列の合成はまだ初期段階である。 既存の10億規模のデータセットで画像を生成することは可能だが、同じ規模のビデオデータを集めることは依然として難しい。 また、ビデオ拡散モデルのトレーニングは、画像よりも計算コストがはるかに高い。 本研究では,映像合成課題の実用的解として,映像データを用いた事前学習画像拡散モデルの微調整について検討する。 映像拡散に先立って映像ノイズを鼻で拡大することにより,映像の音響特性が向上することがわかった。 慎重に設計されたビデオノイズは、パフォーマンスを著しく向上させる。 UCF-101 と MSR-VTT ベンチマークでSOTA のゼロショットテキスト・ビデオ結果が得られたことを,我々のモデルである Preserve Your Own correlation (PYoCo) が広く検証した。 また、小規模のUCF-101ベンチマークでSOTAビデオ生成の品質を10\times$小さなモデルで達成し、従来の技術に比べて計算量が大幅に少ない。

Despite tremendous progress in generating high-quality images using diffusion models, synthesizing a sequence of animated frames that are both photorealistic and temporally coherent is still in its infancy. While off-the-shelf billion-scale datasets for image generation are available, collecting similar video data of the same scale is still challenging. Also, training a video diffusion model is computationally much more expensive than its image counterpart. In this work, we explore finetuning a pretrained image diffusion model with video data as a practical solution for the video synthesis task. We find that naively extending the image noise prior to video noise prior in video diffusion leads to sub-optimal performance. Our carefully designed video noise prior leads to substantially better performance. Extensive experimental validation shows that our model, Preserve Your Own Correlation (PYoCo), attains SOTA zero-shot text-to-video results on the UCF-101 and MSR-VTT benchmarks. It also achieves SOTA video generation quality on the small-scale UCF-101 benchmark with a $10\times$ smaller model using significantly less computation than the prior art.
翻訳日:2023-05-19 18:36:23 公開日:2023-05-17
# リカレントニューラルネットワークを用いた薬物分子の副作用予測

Predicting Side Effect of Drug Molecules using Recurrent Neural Networks ( http://arxiv.org/abs/2305.10473v1 )

ライセンス: Link先を確認
Collin Beaudoin, Koustubh Phalak, Swaroop Ghosh(参考訳) サイドエフェクトなどの分子特性の同定と検証は、分子合成の過程において最も重要かつ時間を要するステップの1つである。 例えば、規制団体への提出前に副作用を特定できない場合、企業への追加調査に数百万ドルと数ヶ月かかる可能性がある。 規制審査中の副作用の特定に失敗しても命がかからない。 このタスクの複雑さとコストにより、機械学習ベースのソリューションの候補となった。 事前のアプローチは、副作用予測のために複雑なモデル設計と過剰なパラメータ数に依存する。 複雑なモデルへの依存は、問題を緩和するよりも、化学者から困難を逸脱させるだけだと信じています。 大型モデルの実装も、高性能コンピュータに事前アクセスすることなく高価である。 本稿では,単純なニューラルネットワーク,特にリカレントニューラルネットワークの利用を可能にするヒューリスティックなアプローチを提案する。

Identification and verification of molecular properties such as side effects is one of the most important and time-consuming steps in the process of molecule synthesis. For example, failure to identify side effects before submission to regulatory groups can cost millions of dollars and months of additional research to the companies. Failure to identify side effects during the regulatory review can also cost lives. The complexity and expense of this task have made it a candidate for a machine learning-based solution. Prior approaches rely on complex model designs and excessive parameter counts for side effect predictions. We believe reliance on complex models only shifts the difficulty away from chemists rather than alleviating the issue. Implementing large models is also expensive without prior access to high-performance computers. We propose a heuristic approach that allows for the utilization of simple neural networks, specifically the recurrent neural network, with a 98+% reduction in the number of required parameters compared to available large language models while still obtaining near identical results as top-performing models.
翻訳日:2023-05-19 18:36:05 公開日:2023-05-17
# 機械学習を用いた生態学者のための9つのヒント

Nine tips for ecologists using machine learning ( http://arxiv.org/abs/2305.10472v1 )

ライセンス: Link先を確認
Marine Desprez, Vincent Miele and Olivier Gimenez(参考訳) 高い予測性能と柔軟性のため、機械学習モデルは生態学者にとって適切かつ効率的なツールである。 しかし、機械学習モデルの実装はまだ簡単な作業ではなく、この分野での経験のない生態学者を脅かすかもしれない。 ここでは、生態学者が機械学習モデルを実装するのに役立つ一連のヒントを提供する。 多くの生態学的研究が、生態状態や生物学的実体などの予め定義されたクラスにデータを割り当てることを目的としているため、分類問題に焦点を当てている。 9つのヒントのそれぞれは、マシンラーニングモデルの開発における一般的なエラー、トラップ、あるいは課題を特定し、生態学的研究での使用を促進するための推奨を提供する。

Due to their high predictive performance and flexibility, machine learning models are an appropriate and efficient tool for ecologists. However, implementing a machine learning model is not yet a trivial task and may seem intimidating to ecologists with no previous experience in this area. Here we provide a series of tips to help ecologists in implementing machine learning models. We focus on classification problems as many ecological studies aim to assign data into predefined classes such as ecological states or biological entities. Each of the nine tips identifies a common error, trap or challenge in developing machine learning models and provides recommendations to facilitate their use in ecological studies.
翻訳日:2023-05-19 18:35:50 公開日:2023-05-17
# bike2vec: ロードサイクリングライダーとレースのベクトル埋め込み表現

Bike2Vec: Vector Embedding Representations of Road Cycling Riders and Races ( http://arxiv.org/abs/2305.10471v1 )

ライセンス: Link先を確認
Ethan Baron, Bram Janssens, Matthias Bogaert(参考訳) ベクトル埋め込みは、様々な下流タスクで使用できる非数値データの効果的な表現を得るために、いくつかの領域でうまく適用されている。 本稿では, 自転車競技におけるベクトル埋め込みの新たな応用について, 歴史的結果をもとに, ライダーやレースの表現を学習する方法を示す。 我々は、教師なし学習技術を用いて、結果の埋め込みがライダーやレースの興味深い特徴を捉えていることを検証する。 これらの埋め込みは、早期人材識別やレース結果予測などの下流予測タスクに使用できる。

Vector embeddings have been successfully applied in several domains to obtain effective representations of non-numeric data which can then be used in various downstream tasks. We present a novel application of vector embeddings in professional road cycling by demonstrating a method to learn representations for riders and races based on historical results. We use unsupervised learning techniques to validate that the resultant embeddings capture interesting features of riders and races. These embeddings could be used for downstream prediction tasks such as early talent identification and race outcome prediction.
翻訳日:2023-05-19 18:35:41 公開日:2023-05-17
# クロスモーダルセマンティクスのマイニングによるオブジェクトセグメンテーション

Object Segmentation by Mining Cross-Modal Semantics ( http://arxiv.org/abs/2305.10469v1 )

ライセンス: Link先を確認
Zongwei Wu, Jingjing Wang, Zhuyun Zhou, Zhaochong An, Qiuping Jiang, C\'edric Demonceaux, Guolei Sun, Radu Timofte(参考訳) マルチセンサーの手がかりはオブジェクトのセグメンテーションに有望であるが、各センサの固有のノイズは、実際にはキャリブレーションエラーと同様に、セグメンテーションの精度をバイアスする可能性がある。 本稿では,マルチモーダル特徴の融合と復号化を導くために,クロスモーダル・セマンティックスをマイニングし,相対エントロピーに基づくモーダルコントリビューションの制御を目的とした新しいアプローチを提案する。 マルチモーダル入力のセマンティクスは、モダリティ共有一貫性とモダリティ固有変動の2つの側面で検討する。 具体的には,(1)全周可視核融合(af),(2)粗視デコーダ(cfd),(3)クロスレイヤー自己スーパービジョンからなる,xmsnetと呼ばれる新しいネットワークを提案する。 一方、AFブロックは、共有表現と特定表現を明示的に解離させ、品質に応じて比率、領域、パターンを調整することで、モーダル寄与を重み付けすることを学ぶ。 一方、当社のCFDは、まず共有機能をデコードし、それから特異性を考慮したクエリによって出力を洗練します。 さらに,ネットワーク階層間のインタラクションを可能にするために,復号層間の意味的一貫性を強制し,特徴判別性を改善する。 深さや熱的手がかりのある11のデータセットと、salientとcamouflage object segmentationという2つの困難なタスクの徹底的な比較は、パフォーマンスとロバスト性の両方の観点からの有効性を検証する。

Multi-sensor clues have shown promise for object segmentation, but inherent noise in each sensor, as well as the calibration error in practice, may bias the segmentation accuracy. In this paper, we propose a novel approach by mining the Cross-Modal Semantics to guide the fusion and decoding of multimodal features, with the aim of controlling the modal contribution based on relative entropy. We explore semantics among the multimodal inputs in two aspects: the modality-shared consistency and the modality-specific variation. Specifically, we propose a novel network, termed XMSNet, consisting of (1) all-round attentive fusion (AF), (2) coarse-to-fine decoder (CFD), and (3) cross-layer self-supervision. On the one hand, the AF block explicitly dissociates the shared and specific representation and learns to weight the modal contribution by adjusting the proportion, region, and pattern, depending upon the quality. On the other hand, our CFD initially decodes the shared feature and then refines the output through specificity-aware querying. Further, we enforce semantic consistency across the decoding layers to enable interaction across network hierarchies, improving feature discriminability. Exhaustive comparison on eleven datasets with depth or thermal clues, and on two challenging tasks, namely salient and camouflage object segmentation, validate our effectiveness in terms of both performance and robustness.
翻訳日:2023-05-19 18:35:31 公開日:2023-05-17
# Connected Hidden Neurons (CHNNet): 高速収束のためのニューラルネットワーク

Connected Hidden Neurons (CHNNet): An Artificial Neural Network for Rapid Convergence ( http://arxiv.org/abs/2305.10468v1 )

ライセンス: Link先を確認
Rafiad Sadat Shahir, Zayed Humayun, Mashrufa Akter Tamim, Shouri Saha, Md. Golam Rabiul Alam(参考訳) 人工ニューラルネットワークの開発の目的は、生物学的ニューラルネットワークの機能の模倣であった。 しかし、生物学的ニューラルネットワークとは異なり、従来の人工ニューラルネットワークは階層的に構築されることが多く、同一層のニューロンがそれらの間の接続を持たないため、ニューロン間の情報の流れを阻害する可能性がある。 そこで本研究では,同じ隠れ層に存在する隠れたニューロンが相互に結合し,複雑なパターンを学習し,収束速度を高速化する,ニューラルネットワークのより堅牢なモデルを提案する。 浅層および深層ネットワークの完全連結層として提案するモデルについて実験的に検討した結果,モデルが収束率を著しく増加させることが示された。

The core purpose of developing artificial neural networks was to mimic the functionalities of biological neural networks. However, unlike biological neural networks, traditional artificial neural networks are often structured hierarchically, which can impede the flow of information between neurons as the neurons in the same layer have no connections between them. Hence, we propose a more robust model of artificial neural networks where the hidden neurons, residing in the same hidden layer, are interconnected, enabling the neurons to learn complex patterns and speeding up the convergence rate. With the experimental study of our proposed model as fully connected layers in shallow and deep networks, we demonstrate that the model results in a significant increase in convergence rate.
翻訳日:2023-05-19 18:35:04 公開日:2023-05-17
# ReasonNet: 時間とグローバルな推論によるエンドツーエンドの運転

ReasonNet: End-to-End Driving with Temporal and Global Reasoning ( http://arxiv.org/abs/2305.10507v1 )

ライセンス: Link先を確認
Hao Shao, Letian Wang, Ruobing Chen, Steven L. Waslander, Hongsheng Li, Yu Liu(参考訳) 自動運転車の大規模展開はまだ先であり、大きな課題の1つは都市部の密集した交通シナリオにある。 このような場合、シーンの将来の進化やオブジェクトの将来の振る舞いを予測し、突然のオブジェクトの出現のような稀な有害事象に対処することは依然として困難である。 本稿では,運転シーンの時間的情報とグローバル情報の両方を広範囲に活用する新しいエンドツーエンド駆動フレームワークであるReasonNetを提案する。 オブジェクトの時間的挙動を推論することにより,異なるフレームの特徴間の相互作用や関係を効果的に処理することができる。 シーンのグローバルな情報に関する推論は、全体的な知覚性能を改善し、特に隠蔽対象からの潜在的な危険を予知する有害事象の検出に役立てることができる。 咬合イベントの包括的評価のために,様々な咬合イベントからなる運転シミュレーションベンチマークdriveocclusionsimを公開する。 我々は、複数のCARLAベンチマークで広範囲に実験を行い、我々のモデルは、CARLA Leaderboardのセンサートラックにランクインした。

The large-scale deployment of autonomous vehicles is yet to come, and one of the major remaining challenges lies in urban dense traffic scenarios. In such cases, it remains challenging to predict the future evolution of the scene and future behaviors of objects, and to deal with rare adverse events such as the sudden appearance of occluded objects. In this paper, we present ReasonNet, a novel end-to-end driving framework that extensively exploits both temporal and global information of the driving scene. By reasoning on the temporal behavior of objects, our method can effectively process the interactions and relationships among features in different frames. Reasoning about the global information of the scene can also improve overall perception performance and benefit the detection of adverse events, especially the anticipation of potential danger from occluded objects. For comprehensive evaluation on occlusion events, we also release publicly a driving simulation benchmark DriveOcclusionSim consisting of diverse occlusion events. We conduct extensive experiments on multiple CARLA benchmarks, where our model outperforms all prior methods, ranking first on the sensor track of the public CARLA Leaderboard.
翻訳日:2023-05-19 18:30:05 公開日:2023-05-17
# クリーンデータよりも腐敗データの多いシステム同定のための厳密なリカバリ

Exact Recovery for System Identification with More Corrupt Data than Clean Data ( http://arxiv.org/abs/2305.10506v1 )

ライセンス: Link先を確認
Baturalp Yalcin, Javad Lavaei, Murat Arcak(参考訳) 本稿では,2つのラッソ型推定器を用いた線形離散時間系のシステム同定問題について検討する。 本研究では,2つのシナリオにおいて,これらの推定器の漸近特性と非漸近特性について検討した。 システムから採取したサンプルは相関しているため,既存のラッソに関する結果は適用できない。 システムを安定させ,攻撃を定期的に注入した場合,システムダイナミクスの正確な回復のためのサンプル複雑性は,n が状態の次元である O(n) であることが示される。 逆攻撃が確率 p のインスタンスごとに発生すると、正確な回復に必要なサンプルの複雑さは o(\log(n)p/(1-p)^2) となる。 この結果は漸近的体制下での真の系力学へのほぼ確実に収束することを意味する。 副産物として、データの半数以上が漏洩しても、推定者はシステムについて正しく学習する。 本稿では,不正データよりもクリーンなデータが少ない場合の動的システムの相関データからの学習に関する文献において,最初の数学的保証を提供する。

In this paper, we study the system identification problem for linear discrete-time systems under adversaries and analyze two lasso-type estimators. We study both asymptotic and non-asymptotic properties of these estimators in two separate scenarios, corresponding to deterministic and stochastic models for the attack times. Since the samples collected from the system are correlated, the existing results on lasso are not applicable. We show that when the system is stable and the attacks are injected periodically, the sample complexity for the exact recovery of the system dynamics is O(n), where n is the dimension of the states. When the adversarial attacks occur at each time instance with probability p, the required sample complexity for the exact recovery scales as O(\log(n)p/(1-p)^2). This result implies the almost sure convergence to the true system dynamics under the asymptotic regime. As a by-product, even when more than half of the data is compromised, our estimators still learn the system correctly. This paper provides the first mathematical guarantee in the literature on learning from correlated data for dynamical systems in the case when there is less clean data than corrupt data.
翻訳日:2023-05-19 18:29:47 公開日:2023-05-17
# モデルフリーロバスト平均方向強化学習

Model-Free Robust Average-Reward Reinforcement Learning ( http://arxiv.org/abs/2305.10504v1 )

ライセンス: Link先を確認
Yue Wang, Alvaro Velasquez, George Atia, Ashley Prater-Bennette, Shaofeng Zou(参考訳) ロバスト・マルコフ決定プロセス(MDP)は、不確実性の集合に対する最悪の性能を最適化することで、モデル不確実性の課題に対処する。 本稿では,モデルフリー環境下でのロバストな平均回帰MDPに着目した。 まず、後続の収束解析に不可欠であるロバスト平均逆ベルマン方程式の解の構造を理論的に特徴づける。 次に、2つのモデルフリーアルゴリズム、ロバストな相対値反復(RVI)TDとロバストなRVIQ学習を設計し、理論的に最適解への収束を証明した。 汚染モデル,全変量,Chi-2乗発散,Kullback-Leibler(KL)発散,Wasserstein距離など,広く使用されている不確実性集合を例に挙げる。

Robust Markov decision processes (MDPs) address the challenge of model uncertainty by optimizing the worst-case performance over an uncertainty set of MDPs. In this paper, we focus on the robust average-reward MDPs under the model-free setting. We first theoretically characterize the structure of solutions to the robust average-reward Bellman equation, which is essential for our later convergence analysis. We then design two model-free algorithms, robust relative value iteration (RVI) TD and robust RVI Q-learning, and theoretically prove their convergence to the optimal solution. We provide several widely used uncertainty sets as examples, including those defined by the contamination model, total variation, Chi-squared divergence, Kullback-Leibler (KL) divergence and Wasserstein distance.
翻訳日:2023-05-19 18:29:26 公開日:2023-05-17
# OR-NeRF:ニューラルラジアンス場を用いたマルチビューセグメンテーションによる3次元シーンからの物体除去

OR-NeRF: Object Removing from 3D Scenes Guided by Multiview Segmentation with Neural Radiance Fields ( http://arxiv.org/abs/2305.10503v1 )

ライセンス: Link先を確認
Youtan Yin, Zhoujie Fu, Fan Yang, Guosheng Lin(参考訳) ニューラル・レージアンス・フィールド(NeRF)の出現により、3Dシーン編集への関心が高まっている。 編集における重要なタスクのひとつは、視覚的な推論可能性とマルチビューの一貫性を確保しながら、シーンからオブジェクトを削除することだ。 しかし、現在のメソッドは、時間を要するオブジェクトラベリング、特定のターゲットを削除する能力の制限、削除後のレンダリング品質の低下といった課題に直面している。 本稿では, OR-NeRF と呼ばれる新しいオブジェクト除去パイプラインを提案する。このパイプラインは3次元シーンからオブジェクトを1つのビューでポイントまたはテキストプロンプトで取り除き, 従来よりも少ない時間で性能を向上する。 提案手法では,全ビューにユーザアノテーションを迅速に展開するポイントプロジェクション戦略を用いて,処理負担を大幅に削減する。 このアルゴリズムにより、最近の2次元セグメンテーションモデルSegment-Anything(SAM)を利用して、精度と効率を改善したマスクを予測することができる。 さらに2次元塗布法により色と深さの先行値を得た。 最後に, 物体除去後の形状と外観の整合性を維持するために, 奥行き監視と知覚的損失を用いる。 実験結果から,本手法は品質と量の両方を考慮して,従来よりも少ない時間で編集品質を向上することが示された。

The emergence of Neural Radiance Fields (NeRF) for novel view synthesis has led to increased interest in 3D scene editing. One important task in editing is removing objects from a scene while ensuring visual reasonability and multiview consistency. However, current methods face challenges such as time-consuming object labelling, limited capability to remove specific targets, and compromised rendering quality after removal. This paper proposes a novel object-removing pipeline, named OR-NeRF, that can remove objects from 3D scenes with either point or text prompts on a single view, achieving better performance in less time than previous works. Our method uses a points projection strategy to rapidly spread user annotations to all views, significantly reducing the processing burden. This algorithm allows us to leverage the recent 2D segmentation model Segment-Anything (SAM) to predict masks with improved precision and efficiency. Additionally, we obtain colour and depth priors through 2D inpainting methods. Finally, our algorithm employs depth supervision and perceptual loss for scene reconstruction to maintain consistency in geometry and appearance after object removal. Experimental results demonstrate that our method achieves better editing quality with less time than previous works, considering both quality and quantity.
翻訳日:2023-05-19 18:29:11 公開日:2023-05-17
# EENED:畳み込み変換器を用いた終端神経てんかん検出

EENED: End-to-End Neural Epilepsy Detection based on Convolutional Transformer ( http://arxiv.org/abs/2305.10502v1 )

ライセンス: Link先を確認
Chenyu Liu, Xinliang Zhou and Yang Liu(参考訳) 最近のtransformer and convolution neural network (cnn)ベースのモデルは脳波信号処理において有望な結果を示している。 トランスフォーマーモデルは自己アテンション機構を通じてEEG信号のグローバルな依存関係をキャプチャし、CNNモデルはソートゥースウェーブのようなローカルな特徴をキャプチャすることができる。 本研究では,CNNとTransformerを組み合わせたエンドツーエンドの神経てんかん検出モデルであるEENEDを提案する。 具体的には、Transformerエンコーダに畳み込みモジュールを導入することで、EENEDは患者の脳波信号の特徴の時間依存性の関係を学習し、スパイクの出現や鋭く遅い波の発散など、てんかんと密接に関連する局所脳波異常変異に気づく。 提案フレームワークは,脳波信号の異なる規模の特徴を捉えるためのTransformerとCNNの機能を組み合わせて,てんかん検出の精度と信頼性の向上を約束する。 ソースコードは近いうちにGitHubで公開される予定です。

Recently Transformer and Convolution neural network (CNN) based models have shown promising results in EEG signal processing. Transformer models can capture the global dependencies in EEG signals through a self-attention mechanism, while CNN models can capture local features such as sawtooth waves. In this work, we propose an end-to-end neural epilepsy detection model, EENED, that combines CNN and Transformer. Specifically, by introducing the convolution module into the Transformer encoder, EENED can learn the time-dependent relationship of the patient's EEG signal features and notice local EEG abnormal mutations closely related to epilepsy, such as the appearance of spikes and the sprinkling of sharp and slow waves. Our proposed framework combines the ability of Transformer and CNN to capture different scale features of EEG signals and holds promise for improving the accuracy and reliability of epilepsy detection. Our source code will be released soon on GitHub.
翻訳日:2023-05-19 18:28:48 公開日:2023-05-17
# ニューラルネットワーク分類器を用いた学習度比

Learning Likelihood Ratios with Neural Network Classifiers ( http://arxiv.org/abs/2305.10500v1 )

ライセンス: Link先を確認
Shahzar Rizvi, Mariel Pettee, Benjamin Nachman(参考訳) 確率比は、仮説テスト、信頼区間の構築、分布の再重み付けなどを可能にする科学における統計的推測にとって重要な量である。 しかし、現代の科学応用の多くは、確率比の計算が非常に困難あるいは不可能であるデータ駆動モデルやシミュレーション駆動モデルを使用している。 いわゆる ‘likelihood ratio trick’ を適用することで、確率比の近似をニューラルネットワークに基づく分類器の巧妙なパラメータ化を用いて計算することができる。 この手順を満たすために、複数の異なるニューラルネットワークの設定を定義することができ、それぞれが有限のトレーニングデータを使用する場合の確率比を近似する性能を持つ。 本稿では,二つの単変量分布と多変量ガウス分布の確率比とシミュレーションされた高エネルギー粒子物理データセットを近似して,いくつかの共通損失関数の性能と分類器出力のパラメトリゼーションを詳述する。

The likelihood ratio is a crucial quantity for statistical inference in science that enables hypothesis testing, construction of confidence intervals, reweighting of distributions, and more. Many modern scientific applications, however, make use of data- or simulation-driven models for which computing the likelihood ratio can be very difficult or even impossible. By applying the so-called ``likelihood ratio trick,'' approximations of the likelihood ratio may be computed using clever parametrizations of neural network-based classifiers. A number of different neural network setups can be defined to satisfy this procedure, each with varying performance in approximating the likelihood ratio when using finite training data. We present a series of empirical studies detailing the performance of several common loss functionals and parametrizations of the classifier output in approximating the likelihood ratio of two univariate and multivariate Gaussian distributions as well as simulated high-energy particle physics datasets.
翻訳日:2023-05-19 18:28:29 公開日:2023-05-17
# エッジ方向性が親水性グラフの学習を改善する

Edge Directionality Improves Learning on Heterophilic Graphs ( http://arxiv.org/abs/2305.10498v1 )

ライセンス: Link先を確認
Emanuele Rossi, Bertrand Charpentier, Francesco Di Giovanni, Fabrizio Frasca, Stephan G\"unnemann, Michael Bronstein(参考訳) グラフニューラルネットワーク(gnns)は、関係データモデリングのデファクト標準ツールとなっている。 しかし、多くの現実世界のグラフが向けられているが、今日のGNNモデルの大半は、グラフを非ダイレクトにすることで、この情報を完全に捨てている。 その理由は歴史的である。 1)スペクトルGNNの初期変種の多くは、明示的に無向グラフを必要とし、 2) 好中球グラフに関する最初のベンチマークでは, 方向性による有意な利得は得られなかった。 本稿では, グラフを方向性として扱うと, グラフの有効ホモフィリエが増大し, 方向情報の正しい利用による潜在的な利得が示唆された。 そこで我々は,有向グラフの深層学習のための新しい汎用フレームワークであるDirected Graph Neural Network (Dir-GNN)を紹介した。 dir-gnnは、入出力エッジの分離集約を行うことで、エッジ方向情報を考慮した任意のメッセージパッシングニューラルネットワーク(mpnn)を拡張するために使用できる。 我々は,Dir-GNNが従来のMPNNよりも高い指向性Weisfeiler-Lehmanテストの表現性に一致することを証明した。 広範な実験において、我々のフレームワークは、ホモフィル性データセットにパフォーマンスをそのまま残すが、GCN、GAT、GraphSageのようなヘテロフィル性ベンチマークのベースモデルよりも大幅に向上し、より複雑な手法よりも優れ、新しい最先端の結果が得られることを検証した。

Graph Neural Networks (GNNs) have become the de-facto standard tool for modeling relational data. However, while many real-world graphs are directed, the majority of today's GNN models discard this information altogether by simply making the graph undirected. The reasons for this are historical: 1) many early variants of spectral GNNs explicitly required undirected graphs, and 2) the first benchmarks on homophilic graphs did not find significant gain from using direction. In this paper, we show that in heterophilic settings, treating the graph as directed increases the effective homophily of the graph, suggesting a potential gain from the correct use of directionality information. To this end, we introduce Directed Graph Neural Network (Dir-GNN), a novel general framework for deep learning on directed graphs. Dir-GNN can be used to extend any Message Passing Neural Network (MPNN) to account for edge directionality information by performing separate aggregations of the incoming and outgoing edges. We prove that Dir-GNN matches the expressivity of the Directed Weisfeiler-Lehman test, exceeding that of conventional MPNNs. In extensive experiments, we validate that while our framework leaves performance unchanged on homophilic datasets, it leads to large gains over base models such as GCN, GAT and GraphSage on heterophilic benchmarks, outperforming much more complex methods and achieving new state-of-the-art results.
翻訳日:2023-05-19 18:28:12 公開日:2023-05-17
# 忠実度指標の改善における帰属の重要性

Incorporating Attribution Importance for Improving Faithfulness Metrics ( http://arxiv.org/abs/2305.10496v1 )

ライセンス: Link先を確認
Zhixue Zhao, Nikolaos Aletras(参考訳) 機能帰属メソッド(fas)は、予測を行うモデル推論プロセスに関する洞察を提供する一般的なアプローチである。 faがより忠実であるほど、入力のどの部分が予測にとってより重要であるかをより正確に反映する。 充足度や包括性など、広く使われている忠実度指標は、特定のfaによってランク付けされた最上位のトークンを完全に削除または保持し、予測可能性の変化を観察するハード消去基準を用いる。 しかし、この厳しい基準は個々のトークンの重要性を無視し、それら全てを計算能力と包括性のために等しく扱う。 本稿では,簡易かつ効果的なソフト消去基準を提案する。 入力からトークンを完全に削除または保持する代わりに、faの重要性に比例してトークンベクトル表現の一部をランダムにマスクします。 様々な自然言語処理タスクと異なるfasの広範囲な実験により、我々のソフト・サフィシシーとソフト・コンプレッシブネスのメトリクスは、ハード・サフィシリティと包括性よりも、一貫してより忠実な説明を好むことが示された。 私たちのコード: https://github.com/casszhao/softfaith

Feature attribution methods (FAs) are popular approaches for providing insights into the model reasoning process of making predictions. The more faithful a FA is, the more accurately it reflects which parts of the input are more important for the prediction. Widely used faithfulness metrics, such as sufficiency and comprehensiveness use a hard erasure criterion, i.e. entirely removing or retaining the top most important tokens ranked by a given FA and observing the changes in predictive likelihood. However, this hard criterion ignores the importance of each individual token, treating them all equally for computing sufficiency and comprehensiveness. In this paper, we propose a simple yet effective soft erasure criterion. Instead of entirely removing or retaining tokens from the input, we randomly mask parts of the token vector representations proportionately to their FA importance. Extensive experiments across various natural language processing tasks and different FAs show that our soft-sufficiency and soft-comprehensiveness metrics consistently prefer more faithful explanations compared to hard sufficiency and comprehensiveness. Our code: https://github.com/casszhao/SoftFaith
翻訳日:2023-05-19 18:27:48 公開日:2023-05-17
# ベイズ正規化

Bayesian Renormalization ( http://arxiv.org/abs/2305.10491v1 )

ライセンス: Link先を確認
David S. Berman, Marc S. Klinger and Alexander G. Stapleton(参考訳) 本稿では,ベイズ統計的推論にインスパイアされた再正規化に対する完全情報理論的アプローチについて述べる。 ベイズ再正規化の主な洞察は、フィッシャー計量が確率分布の空間における近傍点の微分可能性の定量化に緊急RGスケールの役割を担う相関長を定義することである。 このRGスケールは、統計的推論実験中に与えられたシステムについてできる一意な観測の最大数のプロキシとして解釈できる。 ベイズ再正規化スキームの役割は、上記のスケールで境界付けられた精度まで、与えられたシステムの効果的なモデルを作成することである。 ベイズ的再正規化の物理系への応用において、創発的情報理論スケールは、現在の実験装置で探索できる最大エネルギーと自然に同一視されるため、ベイズ的再正規化は通常の再正規化と一致する。 しかしながら、ベイズ再正規化は、即時物理的スケールが存在しない状況でも適用できるほど一般的であり、従ってデータサイエンスの文脈における再正規化への理想的なアプローチを提供する。 この目的のために,ベイズ正規化方式が,情報ボトルネックや拡散学習パラダイムといった既存のデータ圧縮手法やデータ生成手法とどのように関係しているかを考察する。

In this note we present a fully information theoretic approach to renormalization inspired by Bayesian statistical inference, which we refer to as Bayesian Renormalization. The main insight of Bayesian Renormalization is that the Fisher metric defines a correlation length that plays the role of an emergent RG scale quantifying the distinguishability between nearby points in the space of probability distributions. This RG scale can be interpreted as a proxy for the maximum number of unique observations that can be made about a given system during a statistical inference experiment. The role of the Bayesian Renormalization scheme is subsequently to prepare an effective model for a given system up to a precision which is bounded by the aforementioned scale. In applications of Bayesian Renormalization to physical systems, the emergent information theoretic scale is naturally identified with the maximum energy that can be probed by current experimental apparatus, and thus Bayesian Renormalization coincides with ordinary renormalization. However, Bayesian Renormalization is sufficiently general to apply even in circumstances in which an immediate physical scale is absent, and thus provides an ideal approach to renormalization in data science contexts. To this end, we provide insight into how the Bayesian Renormalization scheme relates to existing methods for data compression and data generation such as the information bottleneck and the diffusion learning paradigm.
翻訳日:2023-05-19 18:27:13 公開日:2023-05-17
# 量子アルゴリズムを分解する2つの方法

Making the cut: two methods for breaking down a quantum algorithm ( http://arxiv.org/abs/2305.10485v1 )

ライセンス: Link先を確認
Miguel Mur\c{c}a, Duarte Magano, Yasser Omar(参考訳) フォールトトレラント量子コンピュータが古典的に難解な問題を効率的に解くという約束にもかかわらず、今日のノイズの多い小規模量子ハードウェアの時代において、計算の優位に達する量子アルゴリズムを見つけることは依然として大きな課題である。 したがって、深さと空間制限に対応するために、新しい量子アルゴリズム(または既存のアルゴリズムを適応させる)を作成する作業が進行中である。 ハイブリッド・クエリ・パースペクティブを採用することで、``crunch down'' 量子アルゴリズムの2つの方法を低い(クエリ)深さのラウンドに識別し、これらのアプローチを ``parallelization'' と ``interpolation'' と指定する。 私たちの知る限りでは、これらを明示的に識別して比較することはできませんでしたが、文献にはその例があります。 これらを既知の量子スピードアップの2つの問題に適用する:$k$-threshold関数の計算とNANDツリーの計算である。 第1の問題は、並列化が最高のパフォーマンスを提供し、第2の補間はより良い選択であることを示す。 したがって、量子アルゴリズムをハイブリッドな量子古典的アルゴリズムに分解する方法が一つ以上存在する。

Despite the promise that fault-tolerant quantum computers can efficiently solve classically intractable problems, it remains a major challenge to find quantum algorithms that may reach computational advantage in the present era of noisy, small-scale quantum hardware. Thus, there is substantial ongoing effort to create new quantum algorithms (or adapt existing ones) to accommodate depth and space restrictions. By adopting a hybrid query perspective, we identify and characterize two methods of ``breaking down'' quantum algorithms into rounds of lower (query) depth, designating these approaches as ``parallelization'' and ``interpolation''. To the best of our knowledge, these had not been explicitly identified and compared side-by-side, although one can find instances of them in the literature. We apply them to two problems with known quantum speedup: calculating the $k$-threshold function and computing a NAND tree. We show that for the first problem parallelization offers the best performance, while for the second interpolation is the better choice. This illustrates that no approach is strictly better than the other, and so that there is more than one good way to break down a quantum algorithm into a hybrid quantum-classical algorithm.
翻訳日:2023-05-19 18:26:36 公開日:2023-05-17
# 神経信念伝播デコーダの一般化境界

Generalization Bounds for Neural Belief Propagation Decoders ( http://arxiv.org/abs/2305.10540v1 )

ライセンス: Link先を確認
Sudarshan Adiga, Xin Xiao, Ravi Tandon, Bane Vasic, Tamal Bose(参考訳) 機械学習ベースのアプローチは、次世代通信システムのためのデコーダの設計にますます使われている。 広く使われているフレームワークの1つは、信念伝播(NBP)であり、それは信仰伝播(BP)イテレーションをディープニューラルネットワークに展開し、パラメータはデータ駆動方式で訓練される。 NBPデコーダは古典的復号アルゴリズムを改善することが示されている。 本稿では, NBPデコーダの一般化機能について検討する。 具体的には、デコーダの一般化ギャップは、経験的ビットレートと期待されたビットエラーレートの差である。 このギャップを埋めて、コードパラメータ(ブロック長、メッセージ長、変数/チェックノード次数)、復号化イテレーション、トレーニングデータセットサイズなど、デコーダの複雑さに依存することを示す新たな理論的結果を示す。 結果は正規パリティチェック行列と不規則パリティチェック行列の両方に示される。 我々の知る限りでは、ニューラルネットワークに基づくデコーダの一般化性能に関する最初の理論的結果である。 本稿では,トレーニングデータセットサイズに対する一般化ギャップの依存性を示す実験結果と,異なるコードに対する復号化繰り返しを示す。

Machine learning based approaches are being increasingly used for designing decoders for next generation communication systems. One widely used framework is neural belief propagation (NBP), which unfolds the belief propagation (BP) iterations into a deep neural network and the parameters are trained in a data-driven manner. NBP decoders have been shown to improve upon classical decoding algorithms. In this paper, we investigate the generalization capabilities of NBP decoders. Specifically, the generalization gap of a decoder is the difference between empirical and expected bit-error-rate(s). We present new theoretical results which bound this gap and show the dependence on the decoder complexity, in terms of code parameters (blocklength, message length, variable/check node degrees), decoding iterations, and the training dataset size. Results are presented for both regular and irregular parity-check matrices. To the best of our knowledge, this is the first set of theoretical results on generalization performance of neural network based decoders. We present experimental results to show the dependence of generalization gap on the training dataset size, and decoding iterations for different codes.
翻訳日:2023-05-19 18:18:32 公開日:2023-05-17
# tsetlinマシンを用いたデータからのベイズネットワークモデルの生成

Generating Bayesian Network Models from Data Using Tsetlin Machines ( http://arxiv.org/abs/2305.10538v1 )

ライセンス: Link先を確認
Christian D. Blakely(参考訳) ベイジアンネットワーク(BN)は、透明性、解釈可能性、確率論的推論、因果モデリングにおいて多くの分野に採用されている非循環型グラフィカル(DAG)モデルである。 データセットが与えられた場合、BNを使用するためのハードルのひとつは、相関や因果関係に関わらず、依存関係を適切に処理するデータからネットワークグラフを構築することだ。 本稿では,tsetlinマシンを用いたネットワーク構造発見のための初期手法を提案する。

Bayesian networks (BN) are directed acyclic graphical (DAG) models that have been adopted into many fields for their strengths in transparency, interpretability, probabilistic reasoning, and causal modeling. Given a set of data, one hurdle towards using BNs is in building the network graph from the data that properly handles dependencies, whether correlated or causal. In this paper, we propose an initial methodology for discovering network structures using Tsetlin Machines.
翻訳日:2023-05-19 18:18:15 公開日:2023-05-17
# 予測付きオンラインリストラベリング

Online List Labeling with Predictions ( http://arxiv.org/abs/2305.10536v1 )

ライセンス: Link先を確認
Samuel McCauley, Benjamin Moseley, Aidin Niaparast, Shikha Singh(参考訳) アルゴリズムの実行時間を改善するために、学習した予測を使って最悪のケースバリアを突破する方法が示されています。 しかし、強い理論的保証を持つデータ構造に予測を組み込むことは未開発である。 本稿では,この方向を一歩進めて,基本的なオンラインリストラベリング問題において予測を活用できることを示す。 問題では、n個のアイテムが時間とともに到着し、サイズ Theta(n) の配列でソート順序で格納されなければならない。 要素の配列スロットはそのラベルであり、移動された要素の総数(すなわちrelabeled)を最小化しながらソートされた順序を維持することを目的としている。 データ構造をラベル付けした新しいリストを設計し、その性能を2つのモデルでバインドする。 最悪の場合の学習強化モデルでは、予測における誤差の観点から保証を与える。 我々のデータ構造は、予測エラーに対して最適であり、予測が完全に誤っている場合でも、最もよく知られた最悪のケース境界を保証する。 また,確率的誤差モデルを検討し,誤差の期待と分散の観点から性能を限定する。 最後に、理論結果は実証的に示される。 特に,我々のデータ構造は,過去に到達した要素から予測が構築される実時間データセットにおいて,現実のユースケースのように強いパフォーマンスを示す。

A growing line of work shows how learned predictions can be used to break through worst-case barriers to improve the running time of an algorithm. However, incorporating predictions into data structures with strong theoretical guarantees remains underdeveloped. This paper takes a step in this direction by showing that predictions can be leveraged in the fundamental online list labeling problem. In the problem, n items arrive over time and must be stored in sorted order in an array of size Theta(n). The array slot of an element is its label and the goal is to maintain sorted order while minimizing the total number of elements moved (i.e., relabeled). We design a new list labeling data structure and bound its performance in two models. In the worst-case learning-augmented model, we give guarantees in terms of the error in the predictions. Our data structure provides strong guarantees: it is optimal for any prediction error and guarantees the best-known worst-case bound even when the predictions are entirely erroneous. We also consider a stochastic error model and bound the performance in terms of the expectation and variance of the error. Finally, the theoretical results are demonstrated empirically. In particular, we show that our data structure has strong performance on real temporal data sets where predictions are constructed from elements that arrived in the past, as is typically done in a practical use case.
翻訳日:2023-05-19 18:18:05 公開日:2023-05-17
# 自己学習型会話システムにおける欠陥行動のスケーラブルで安全な修復

Scalable and Safe Remediation of Defective Actions in Self-Learning Conversational Systems ( http://arxiv.org/abs/2305.10528v1 )

ライセンス: Link先を確認
Sarthak Ahuja, Mohammad Kachuee, Fateme Sheikholeslami, Weiqing Liu, Jaeyoung Do(参考訳) オフポリティ強化学習は、最先端の会話型AIの推進力であり、より自然なヒューマンエージェントインタラクションをもたらし、目標指向エージェントのユーザ満足度を向上させる。 しかし、大規模な商業環境では、このようなシステムで処理される幅広いアプリケーションにおいて、ポリシーの改善と継続的な経験のバランスをとることはしばしば困難である。 文献では、この問題に対処するために、オフポリシー評価と総合統計のガードレールが一般的に用いられている。 本稿では,過去のレグレッションインシデントレポートから得られた高精度なサンプルをキュレートし,活用し,オンライン展開前の政策を検証し,保護し,改善する手法を提案する。 実世界の会話システムからのデータと実際の回帰インシデントを用いて広範な実験を行った。 提案手法は現在, 顧客を故障経験から保護し, 長期的方針改善を可能にするため, 製品システムにデプロイされている。

Off-Policy reinforcement learning has been a driving force for the state-of-the-art conversational AIs leading to more natural humanagent interactions and improving the user satisfaction for goal-oriented agents. However, in large-scale commercial settings, it is often challenging to balance between policy improvements and experience continuity on the broad spectrum of applications handled by such system. In the literature, off-policy evaluation and guard-railing on aggregate statistics has been commonly used to address this problem. In this paper, we propose a method for curating and leveraging high-precision samples sourced from historical regression incident reports to validate, safe-guard, and improve policies prior to the online deployment. We conducted extensive experiments using data from a real-world conversational system and actual regression incidents. The proposed method is currently deployed in our production system to protect customers against broken experiences and enable long-term policy improvements.
翻訳日:2023-05-19 18:17:47 公開日:2023-05-17
# マイクロリング共振器における後方散乱とHong-Ou-Manifolds

Backscattering and Hong-Ou-Mandel Manifolds in Microring Resonators ( http://arxiv.org/abs/2305.10523v1 )

ライセンス: Link先を確認
Peter L. Kaulfuss, Paul M. Alsing, Richard J. Birrittella, Dashiell L.P. Vitullo(参考訳) 二重バスミラー共振器(MRR)に現れるHong-Ou-Mandel多様体(HOMM)に対する後方散乱の影響について検討する。 HOMMは、HOM効果における一致検出の完全な破壊干渉に対する高次元パラメータ解を表す。 バック散乱をモデル化するために、光子をmrr内の新しいカウンタープロパゲーションモードに 'reflect' することができる内部スプリッター(beam splitters)' をリング内に導入する。 MRRの1次元HOMMは, 同一のMRRの線形鎖であっても, 後方散乱による劣化に対して極めて堅牢であることがわかった。 さらに, 並列に連結された非同一のMRRの連鎖に少量の後方散乱が導入されることが望まれ, 同一のMRRの連鎖のように振る舞うことが示唆された。

We investigate the effect of backscattering on the Hong-Ou-Mandel manifold (HOMM) that manifests in double-bus mircoring resonators (MRRs). The HOMM represents higher-dimensional parameter solutions for the complete destructive interference of coincident detection in the HOM effect. To model the backscattering, we introduce a set of internal `beam splitters' inside the ring that allow photons to `reflect' into new counter-propagating modes inside the MRR. We find that the one-dimensional HOMM in MRRs investigated here is extremely robust against deterioration due to backscattering, even in a linear chain of identical MRRs. Further we find that a small amount of backscattering introduced into a chain of non-identical MRRs connected in parallel could be desirable, causing them to behave more like chain of identical MRRs.
翻訳日:2023-05-19 18:17:30 公開日:2023-05-17
# 生成言語モデルの統計的知識評価

Statistical Knowledge Assessment for Generative Language Models ( http://arxiv.org/abs/2305.10519v1 )

ライセンス: Link先を確認
Qingxiu Dong, Jingjing Xu, Lingpeng Kong, Zhifang Sui and Lei Li(参考訳) ジェネレーティブ言語モデル(GLM)は、事実知識を保存し、クエリーを効率的に答える能力を示した。 様々なプロンプトが与えられたら、GLMは一貫して事実的に正しい答えを生成するのか? 本稿では,潜在変数に導かれる統計的知識評価フレームワークと,多種多様なテキスト形式の連続確率を計算することによってモデルの知識を定量化するKaRRメトリックを紹介する。 LLaMA, Alpaca, OPTなどを含む14のGLMを対象とした総合的な知識比較を行う。 統計的知識アセスメントは600の関連タイプを包含し,人間評価と強い相関(0.43ケンドールの$\tau$)を示す。 この結果から,同じバックボーン構造を持つGLMの知識はスケーリング法則に則っており,命令追従データへのチューニングは,実際の正しいテキストを一貫して生成するモデルの能力を損なう可能性が示唆された。

Generative Language Models (GLMs) have demonstrated capabilities to store factual knowledge and answer queries efficiently. Given varying prompts, does a GLM consistently generate factually correct answers? In this paper, we introduce a statistical knowledge assessment framework guided by latent variables and the KaRR metric, which quantifies a model's knowledge by computing its continuous probability across diverse text forms. We conduct a comprehensive comparison of knowledge across 14 GLMs using our framework, including LLaMA, Alpaca, OPT, and others. Our statistical knowledge assessment encompasses 600 relation types and exhibits a strong correlation (0.43 Kendall's $\tau$) with human evaluation. Our findings reveal that the knowledge in GLMs with the same backbone architecture adheres to the scaling law, and that tuning on instruction-following data may compromise the model's ability to generate factually correct text consistently.
翻訳日:2023-05-19 18:17:15 公開日:2023-05-17
# 幾何保存型GANとElasticaeを用いた多点画像マニフォールドの学習

Learning Pose Image Manifolds Using Geometry-Preserving GANs and Elasticae ( http://arxiv.org/abs/2305.10513v1 )

ライセンス: Link先を確認
Shenyuan Liang, Pavan Turaga, Anuj Srivastava(参考訳) 本稿では,限られた訓練データを用いた3次元物体のイメージ多様体,特にポーズ多様体の学習課題について検討する。 多様体学習へのdnnアプローチを提案し,新しい連続3次元回転のための物体画像の予測を行う。 幾何学的スタイル-GAN(Geom-SGAN)は、画像を低次元の潜在表現にマッピングし、(一階の)多様体の幾何を維持する。 すなわち、基底点と接空間の間の対方向に距離を保ち、(2)低次元の潜在空間における有向点(点 + 接方向)の間を滑らかに補間するためにオイラーの弾性体を用いる。 より大きな画像空間にマッピングすると、その結果の補間は回転する物体のビデオに似ている。 大規模実験は、最先端のGANやVAEと比較して、回転多様体上の学習経路において、視覚的かつ定量的にこの枠組みの優位性を確立する。

This paper investigates the challenge of learning image manifolds, specifically pose manifolds, of 3D objects using limited training data. It proposes a DNN approach to manifold learning and for predicting images of objects for novel, continuous 3D rotations. The approach uses two distinct concepts: (1) Geometric Style-GAN (Geom-SGAN), which maps images to low-dimensional latent representations and maintains the (first-order) manifold geometry. That is, it seeks to preserve the pairwise distances between base points and their tangent spaces, and (2) uses Euler's elastica to smoothly interpolate between directed points (points + tangent directions) in the low-dimensional latent space. When mapped back to the larger image space, the resulting interpolations resemble videos of rotating objects. Extensive experiments establish the superiority of this framework in learning paths on rotation manifolds, both visually and quantitatively, relative to state-of-the-art GANs and VAEs.
翻訳日:2023-05-19 18:17:01 公開日:2023-05-17
# imad:画像提示マルチモーダル対話

IMAD: IMage-Augmented multi-modal Dialogue ( http://arxiv.org/abs/2305.10512v1 )

ライセンス: Link先を確認
Moskvoretskii Viktor, Frolov Anton, Kuznetsov Denis(参考訳) 現在,対話システムはテキストベースの通信処理において高い性能を達成している。 しかし、視覚情報を効果的に組み込んでいないため、大きな課題となっている。 さらに,対話生成にイメージを取り入れた既存のモデルは,画像自体の議論に重点を置いている。 提案手法は,対話の文脈でイメージを解釈するマルチモーダル対話システムにおいて,新たな視点を示す。 これにより、現在の対話システムの能力を拡張し、単一のモダリティ(テキスト)からマルチモダリティへ移行することを目指している。 しかし、このタスクには画像と対話コンテキストの両方を含む検証された英語データセットが欠如している。 そこで本研究では,マルチモーダル対話データセットを自動構築する2段階アプローチを提案する。 最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。 第2段階では、関連画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。 我々は、このアプローチと追加のラベル付けを使用して、画像拡張マルチモーダル対話データセット(imad: image augmented multi-modal dialogue dataset)を作成しました。 さらに,このデータセットに基づいてトレーニングされたベースラインモデルを提案する。

Currently, dialogue systems have achieved high performance in processing text-based communication. However, they have not yet effectively incorporated visual information, which poses a significant challenge. Furthermore, existing models that incorporate images in dialogue generation focus on discussing the image itself. Our proposed approach presents a novel perspective on multi-modal dialogue systems, which interprets the image in the context of the dialogue. By doing so, we aim to expand the capabilities of current dialogue systems and transition them from single modality (text) to multi-modality. However, there is a lack of validated English datasets that contain both images and dialogue contexts for this task. Thus, we propose a two-stage approach to automatically construct a multi-modal dialogue dataset. In the first stage, we utilize text-to-image similarity and sentence similarity to identify which utterances could be replaced with an image. In the second stage, we replace those utterances by selecting a subset of relevant images and filtering them with a visual question answering model. We used this approach, along with additional labeling, to create the IMage Augmented multi-modal Dialogue dataset (IMAD), which can serve as a validated dataset for this task. Furthermore, we propose a baseline model trained on this dataset, which outperforms model trained on the same data without images and BlenderBot.
翻訳日:2023-05-19 18:16:40 公開日:2023-05-17
# ChatGPTは機械翻訳におけるジェンダーバイアスを持続し、非ジェンダー代名詞を無視する:ベンガル語および他の5つの低リソース言語にまたがる発見

ChatGPT Perpetuates Gender Bias in Machine Translation and Ignores Non-Gendered Pronouns: Findings across Bengali and Five other Low-Resource Languages ( http://arxiv.org/abs/2305.10510v1 )

ライセンス: Link先を確認
Sourojit Ghosh, and Aylin Caliskan(参考訳) この多文化時代には、言語翻訳は最も実行されたタスクの1つであり、AIを改良し自動化されつつある。 新たなAIシステムとして、ChatGPTはこのような翻訳タスクに熟練していると主張している。 具体的には、性中立代名詞のみを用いた英語と言語間の翻訳におけるChatGPTの精度について検討する。 この研究は、世界中の7$^{th}の言語であるベンガルを中心とし、Farsi、Maray、Tagalog、Thai、Turkianの5つの言語にまたがる私たちの発見を一般化しています。 ChatGPTは、特定の職業(例えば、男性 = 医師、女性 = 看護師)や行動(例えば、女性 = 料理、男 = 仕事に行く)に割り当てられたジェンダーのデフォルトやステレオタイプを、言語中の性中立な代名詞を「he」や「she」に変換する。 また、chatgpt は、英語の性中立代名詞 ‘they' を他の言語で同等の性中立代名詞に変換するのに完全に失敗したことを観察する。 英語でジェンダー情報によって促されたベンガル語の言葉を尊重し、適切にジェンダーマークしたバージョンを提供するが、ChatGPTは同じ職業の女性よりも男性に高い敬意を抱いているようである。 我々は、ChatGPTがGoogle TranslateやMS Translatorのようなツールで実証されたのと同じ性別バイアスを示しており、このような低リソース言語に適合するように言語翻訳を行うAIの設計者に対して、人間中心のアプローチを提案する。

In this multicultural age, language translation is one of the most performed tasks, and it is becoming increasingly AI-moderated and automated. As a novel AI system, ChatGPT claims to be proficient in such translation tasks and in this paper, we put that claim to the test. Specifically, we examine ChatGPT's accuracy in translating between English and languages that exclusively use gender-neutral pronouns. We center this study around Bengali, the 7$^{th}$ most spoken language globally, but also generalize our findings across five other languages: Farsi, Malay, Tagalog, Thai, and Turkish. We find that ChatGPT perpetuates gender defaults and stereotypes assigned to certain occupations (e.g. man = doctor, woman = nurse) or actions (e.g. woman = cook, man = go to work), as it converts gender-neutral pronouns in languages to `he' or `she'. We also observe ChatGPT completely failing to translate the English gender-neutral pronoun `they' into equivalent gender-neutral pronouns in other languages, as it produces translations that are incoherent and incorrect. While it does respect and provide appropriately gender-marked versions of Bengali words when prompted with gender information in English, ChatGPT appears to confer a higher respect to men than to women in the same occupation. We conclude that ChatGPT exhibits the same gender biases which have been demonstrated for tools like Google Translate or MS Translator, as we provide recommendations for a human centered approach for future designers of AIs that perform language translation to better accommodate such low-resource languages.
翻訳日:2023-05-19 18:16:19 公開日:2023-05-17
# 超伝導量子ビット寿命の読み出し誘起抑制と向上

Readout-induced suppression and enhancement of superconducting qubit lifetimes ( http://arxiv.org/abs/2305.10508v1 )

ライセンス: Link先を確認
Ted Thorbeck, Zhihao Xiao, Archana Kamal, and Luke C. G. Govia(参考訳) 超伝導量子ビットの寿命が読み出し中に悩まされ、読み出しエラーが増加することは長年知られている。 この劣化は, スクビット浴中の2段階のシステムにより, 強い散逸の「ホットスポット」と重なるように, リードアウト誘起の脱落がクビットを広げる反ゼノ効果によるものと考えられる。 フラックス可変量子ビットを用いてキュービットの周波数依存損失を探索し、測定による劣化によるキュービット緩和への修正を組み込んだ自己整合マスター方程式を用いて、読み出し中の寿命変化を正確に予測する。 さらに,読み出し時のキュービットライフタイムの抑制と希少な向上を説明するゼノ効果とアンチゼノ効果の両方を制御的に示す。

It has long been known that the lifetimes of superconducting qubits suffer during readout, increasing readout errors. We show that this degradation is due to the anti-Zeno effect, as readout-induced dephasing broadens the qubit so that it overlaps 'hot spots' of strong dissipation, likely due to two-level systems in the qubit's bath. Using a flux-tunable qubit to probe the qubit's frequency dependent loss, we accurately predict the change in lifetime during readout with a new self-consistent master equation that incorporates the modification to qubit relaxation due to measurement-induced dephasing. Moreover, we controllably demonstrate both the Zeno and anti-Zeno effects, which explain suppression and the rarer enhancement of qubit lifetimes during readout.
翻訳日:2023-05-19 18:15:43 公開日:2023-05-17
# ハード負のサンプル分布がコントラスト知識グラフ埋め込みに及ぼす影響の検討

Investigating the Effect of Hard Negative Sample Distribution on Contrastive Knowledge Graph Embedding ( http://arxiv.org/abs/2305.10563v1 )

ライセンス: Link先を確認
Honggen Zhang, June Zhang(参考訳) 知識グラフ補完タスクの成功は、自己教師付き学習と負の三重項によるデータセットの増強に依存する知識グラフ埋め込み(KGE)の品質に大きく依存する。 対照的な損失に関する負のサンプルの理論的分析と、(ハード)負の三重項の品質のヒューリスティックな生成の間には、文献のギャップがある。 本稿では,負のサンプル分布を明示的に考慮するために情報損失を修正した。 強負によるInfoNCE損失の最小化は、与えられた3重埋め込みと負の埋め込みのKL分割を最大化する。 しかし、強陰性は偽陰性(誤三重)を引き起こし、下流タスク性能を低下させることも示している。 この問題に対処するために,知識グラフのグラフ構造を用いて偽陰性三重項を除去する新しい負のサンプル分布を提案する。 我々はアルゴリズムをHardness and Structure-Aware (\textbf{HaSa}) contrastive KGEと呼ぶ。 実験により,wn18rr と fb15k-237 データセットのいくつかの指標において,最先端の kge メソッドよりも優れることを示す。

The success of the knowledge graph completion task heavily depends on the quality of the knowledge graph embeddings (KGEs), which relies on self-supervised learning and augmenting the dataset with negative triples. There is a gap in literature between the theoretical analysis of negative samples on contrastive loss and heuristic generation of quality (i.e., hard) negative triples. In this paper, we modify the InfoNCE loss to explicitly account for the negative sample distribution. We show minimizing InfoNCE loss with hard negatives maximizes the KL-divergence between the given and negative triple embedding. However, we also show that hard negatives can lead to false negatives (i.e., accidentally factual triples) and reduce downstream task performance. To address this issue, we propose a novel negative sample distribution that uses the graph structure of the knowledge graph to remove the false negative triples. We call our algorithm Hardness and Structure-aware (\textbf{HaSa}) contrastive KGE. Experiments show that our method outperforms state-of-the-art KGE methods in several metrics for WN18RR and FB15k-237 datasets.
翻訳日:2023-05-19 18:10:11 公開日:2023-05-17
# 大規模多言語イベント理解:抽出,可視化,検索

Massively Multi-Lingual Event Understanding: Extraction, Visualization, and Search ( http://arxiv.org/abs/2305.10561v1 )

ライセンス: Link先を確認
Chris Jenkins, Shantanu Agarwal, Joel Barry, Steven Fincke, Elizabeth Boschee(参考訳) 本稿では,現在最先端,言語横断,ゼロショットイベント抽出システムであるISI-Clearと,イベントの可視化と検索のためのユーザインタフェースについて述べる。 ISI-Clearは英語のトレーニングデータのみを使用して、グローバルイベントをオンデマンドで提供し、AfrikaansからYiddishまで100の言語でユーザが提供するテキストを処理する。 抽出したイベントの複数のイベント中心ビューを,グラフィカルな表現と文書レベルの要約を含む形で提供する。 また、既存の言語横断検索アルゴリズムとイベント抽出機能を統合し、言語横断イベント中心検索を提供し、英語の自然言語クエリ(イランにおけるコレラのアウトブレイクなど)または構造化クエリ(例えば、コレラエージェントとロケーションイランによる病気アウトブレイクのすべてのイベントを見つける)を使用して、英語話者が非英語文書のコーパスから自動的に抽出されたイベントを検索できるようにする。

In this paper, we present ISI-Clear, a state-of-the-art, cross-lingual, zero-shot event extraction system and accompanying user interface for event visualization & search. Using only English training data, ISI-Clear makes global events available on-demand, processing user-supplied text in 100 languages ranging from Afrikaans to Yiddish. We provide multiple event-centric views of extracted events, including both a graphical representation and a document-level summary. We also integrate existing cross-lingual search algorithms with event extraction capabilities to provide cross-lingual event-centric search, allowing English-speaking users to search over events automatically extracted from a corpus of non-English documents, using either English natural language queries (e.g. cholera outbreaks in Iran) or structured queries (e.g. find all events of type Disease-Outbreak with agent cholera and location Iran).
翻訳日:2023-05-19 18:09:52 公開日:2023-05-17
# 時相核融合変圧器を用いた短時間電力負荷予測:グリッド階層とデータソースの影響

Short-Term Electricity Load Forecasting Using the Temporal Fusion Transformer: Effect of Grid Hierarchies and Data Sources ( http://arxiv.org/abs/2305.10559v1 )

ライセンス: Link先を確認
Elena Giacomazzi, Felix Haag, Konstantin Hopf(参考訳) エネルギー遷移に関する最近の発展は、分散グリッドに特に課題をもたらす。 したがって、効率的なグリッド管理では、正確な負荷予測がますます重要になる。 トランスフォーマーアーキテクチャ、特にtft(temporal fusion transformer)のような新しいモデリングアプローチは、時系列予測に有望な方法として現れてきた。 今のところ、TFTを電力負荷予測問題に適用する研究はほとんど1つのデータセットと少数の共変量しか考慮していない。 そこで,tftアーキテクチャは,異なる時間軸(日単位と週単位)とネットワークレベル(グリッドレベルと変電所レベル)にまたがる時間単位の短時間負荷予測を実現する可能性について検討する。 TFTアーキテクチャは、グリッド全体の日頭予測のための最先端のLSTMモデルよりも高い予測性能を提供していない。 しかし, この結果から, サブステーションレベルに適用した場合, 上位グリッドレベルへのアグリゲーションによるTFTの大幅な改善が得られ, 最高のシナリオに対する予測誤差が2.43%(MAPE)となった。 さらに、TLTは、週間前予測のLSTMアプローチ(最低で2.52%(MAPE)の予測誤差が得られる)に対して、顕著な改善を提供しているようである。 負荷予測のためのTFT手法を用いた将来の研究の道程について概説し, グリッドレベル(グリッド, サブステーション, 世帯レベルなど)の探索を行った。

Recent developments related to the energy transition pose particular challenges for distribution grids. Hence, precise load forecasts become more and more important for effective grid management. Novel modeling approaches such as the Transformer architecture, in particular the Temporal Fusion Transformer (TFT), have emerged as promising methods for time series forecasting. To date, just a handful of studies apply TFTs to electricity load forecasting problems, mostly considering only single datasets and a few covariates. Therefore, we examine the potential of the TFT architecture for hourly short-term load forecasting across different time horizons (day-ahead and week-ahead) and network levels (grid and substation level). We find that the TFT architecture does not offer higher predictive performance than a state-of-the-art LSTM model for day-ahead forecasting on the entire grid. However, the results display significant improvements for the TFT when applied at the substation level with a subsequent aggregation to the upper grid-level, resulting in a prediction error of 2.43% (MAPE) for the best-performing scenario. In addition, the TFT appears to offer remarkable improvements over the LSTM approach for week-ahead forecasting (yielding a predictive error of 2.52% (MAPE) at the lowest). We outline avenues for future research using the TFT approach for load forecasting, including the exploration of various grid levels (e.g., grid, substation, and household level).
翻訳日:2023-05-19 18:09:31 公開日:2023-05-17
# 高品質機械翻訳の自動投稿のための構文対称性に注意を向ける

Bring More Attention to Syntactic Symmetry for Automatic Postediting of High-Quality Machine Translations ( http://arxiv.org/abs/2305.10557v1 )

ライセンス: Link先を確認
Baikjin Jung, Myungji Lee, Jong-Hyeok Lee, Yunsu Kim(参考訳) 自動ポストティング(英: Automatic Postiting、APE)は、機械翻訳(MT)を改良する自動化プロセスである。 最近の研究によると、既存の APE システムは、豊富なデータ資源を持つ言語ペアであっても、高品質な MT を扱うのが得意ではない。 この問題の解決策の1つは、対象言語に関する深い知識をモデルに浸透させることである。 そこで本研究では,目的言語に対するapモデルの理解を深める言語的動機付けによる正規化手法を提案する。本手法はmt上で対称な自己着脱を促す損失関数であり,本手法がmtsにおけるap品質の向上に寄与することを示す。

Automatic postediting (APE) is an automated process to refine a given machine translation (MT). Recent findings present that existing APE systems are not good at handling high-quality MTs even for a language pair with abundant data resources, English$\unicode{x2013}$German: the better the given MT is, the harder it is to decide what parts to edit and how to fix these errors. One possible solution to this problem is to instill deeper knowledge about the target language into the model. Thus, we propose a linguistically motivated method of regularization that is expected to enhance APE models' understanding of the target language: a loss function that encourages symmetric self-attention on the given MT. Our analysis of experimental results demonstrates that the proposed method helps improving the state-of-the-art architecture's APE quality for high-quality MTs.
翻訳日:2023-05-19 18:09:07 公開日:2023-05-17
# ストラテジック・デマンド・バランシングと学習に基づく戦術的デコンフリクションによるUAM統合競合管理

Integrated Conflict Management for UAM with Strategic Demand Capacity Balancing and Learning-based Tactical Deconfliction ( http://arxiv.org/abs/2305.10556v1 )

ライセンス: Link先を確認
Shulu Chen, Antony Evans, Marc Brittain and Peng Wei(参考訳) 都市空気移動(UAM)は、私たちの日常の交通に革命をもたらす可能性を秘めており、都市環境内および周辺の専用場所間で、乗客と貨物の迅速かつ効率的な輸送を提供する。 しかし、この新興輸送モードの商業化と採用の前には、航空安全は保証されなければならない。 強化学習は、シミュレーションによる商用航空輸送の戦術的難解化に有効性を示している。 しかし,その性能は交通密度に依存することが判明した。 本研究では,戦略紛争管理のための需要キャパシティバランス(dcb)と戦術分離のための強化学習を組み合わせた新しい枠組みを提案する。 プレコンディショニングにDCBを用いることにより, 強化学習により, 戦術的安全分離に優れた性能が得られることを示す。 また,このDCBプレコンディショニングにより,他の方法では不可能な安全レベルを達成できることが示唆された。 さらに,戦略的なDCBと戦略分離のための強化学習を組み合わせることで,これらの安全レベルを満たしつつ,代替ソリューションよりも高い運用効率を実現することができる。

Urban air mobility (UAM) has the potential to revolutionize our daily transportation, offering rapid and efficient deliveries of passengers and cargo between dedicated locations within and around the urban environment. Before the commercialization and adoption of this emerging transportation mode, however, aviation safety must be guaranteed, i.e., all the aircraft have to be safely separated by strategic and tactical deconfliction. Reinforcement learning has demonstrated effectiveness in the tactical deconfliction of en route commercial air traffic in simulation. However, its performance is found to be dependent on the traffic density. In this project, we propose a novel framework that combines demand capacity balancing (DCB) for strategic conflict management and reinforcement learning for tactical separation. By using DCB to precondition traffic to proper density levels, we show that reinforcement learning can achieve much better performance for tactical safety separation. Our results also indicate that this DCB preconditioning can allow target levels of safety to be met that are otherwise impossible. In addition, combining strategic DCB with reinforcement learning for tactical separation can meet these safety levels while achieving greater operational efficiency than alternative solutions.
翻訳日:2023-05-19 18:08:52 公開日:2023-05-17
# 距離認識型自己認識による深層マルチインスタンス学習

Deep Multiple Instance Learning with Distance-Aware Self-Attention ( http://arxiv.org/abs/2305.10552v1 )

ライセンス: Link先を確認
Georg W\"olflein and Lucie Charlotte Magister and Pietro Li\`o and David J. Harrison and Ognjen Arandjelovi\'c(参考訳) 従来の教師付き学習タスクは、トレーニングセットのすべてのインスタンスにラベルを必要とするが、多くの現実世界のアプリケーションでは、ラベルはインスタンスのコレクション(バグ)にのみ利用できる。 多重インスタンス学習(MIL)として知られるこの問題は、高解像度画像を小さなパッチに分割する医療領域において特に重要であるが、ラベルは画像全体に適用される。 最近のMILモデルは、自己注意を用いてパッチ間の対応をキャプチャすることができ、バッグ内の他のすべてのパッチに基づいて各パッチを異なる量にすることができる。 しかしながら、これらのアプローチは大きな画像内のパッチ間の相対的な空間的関係を考慮せず、特に計算病理学において重要である。 そこで,本稿では,パッチ間の相互作用をモデル化する際に,相対的な空間情報を明示的に考慮した距離認識セルフアテンション(das-mil)を備えた新しいmilモデルを提案する。 離散的な自己注意のための既存の相対的位置表現とは異なり、我々の手法は注意重みの計算に連続的な距離依存項を導入し、MILの文脈で相対的位置表現を初めて適用した。 本研究では,相対的な空間情報の考慮を必要とするカスタムmnistベースのmilデータセットと,がん転移検出データセットであるcamlyon16を用いて,aurocスコアを0.01で評価した。 両モデルとも、絶対位置符号化を用いた既存のMIL手法と、MILに適用された既存の相対位置表現方式より優れている。 私たちのコードはhttps://anonymous.4open.science/r/das-milで利用可能です。

Traditional supervised learning tasks require a label for every instance in the training set, but in many real-world applications, labels are only available for collections (bags) of instances. This problem setting, known as multiple instance learning (MIL), is particularly relevant in the medical domain, where high-resolution images are split into smaller patches, but labels apply to the image as a whole. Recent MIL models are able to capture correspondences between patches by employing self-attention, allowing them to weigh each patch differently based on all other patches in the bag. However, these approaches still do not consider the relative spatial relationships between patches within the larger image, which is especially important in computational pathology. To this end, we introduce a novel MIL model with distance-aware self-attention (DAS-MIL), which explicitly takes into account relative spatial information when modelling the interactions between patches. Unlike existing relative position representations for self-attention which are discrete, our approach introduces continuous distance-dependent terms into the computation of the attention weights, and is the first to apply relative position representations in the context of MIL. We evaluate our model on a custom MNIST-based MIL dataset that requires the consideration of relative spatial information, as well as on CAMELYON16, a publicly available cancer metastasis detection dataset, where we achieve a test AUROC score of 0.91. On both datasets, our model outperforms existing MIL approaches that employ absolute positional encodings, as well as existing relative position representation schemes applied to MIL. Our code is available at https://anonymous.4open.science/r/das-mil.
翻訳日:2023-05-19 18:08:31 公開日:2023-05-17
# 無限大深層ニューラルネットワークにおけるスパーシティ・ディテールトレードオフ

Sparsity-depth Tradeoff in Infinitely Wide Deep Neural Networks ( http://arxiv.org/abs/2305.10550v1 )

ライセンス: Link先を確認
Chanwoo Chun, Daniel D. Lee(参考訳) 本研究では,広帯域の深部ベイズニューラルネットワークの一般化性能に及ぼすスパース神経活動の影響について検討する。 この目的のために, ニューラルネットワークのガウス過程(NNGP)カーネルを, 整列線形単位(ReLU)の活性化と, 活性ニューロンの所定の割合で導出した。 nngpカーネルを用いて、sparserネットワークが様々なデータセットの浅い深さで非スパースネットワークを上回ることを観測した。 我々は、カーネルリッジ回帰の一般化誤差に関する既存の理論を拡張して、この観測を検証する。

We investigate how sparse neural activity affects the generalization performance of a deep Bayesian neural network at the large width limit. To this end, we derive a neural network Gaussian Process (NNGP) kernel with rectified linear unit (ReLU) activation and a predetermined fraction of active neurons. Using the NNGP kernel, we observe that the sparser networks outperform the non-sparse networks at shallow depths on a variety of datasets. We validate this observation by extending the existing theory on the generalization error of kernel-ridge regression.
翻訳日:2023-05-19 18:08:04 公開日:2023-05-17
# 逆マルチエージェント強化学習による集団行動における個人報酬の発見

Discovering Individual Rewards in Collective Behavior through Inverse Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2305.10548v1 )

ライセンス: Link先を確認
Daniel Waelchli, Pascal Weber, Petros Koumoutsakos(参考訳) 魚学校や細菌コロニーのような複雑な力学系の集団行動における個々の目的の発見は長年の課題である。 逆強化学習はこの課題に対処するための強力なアプローチであるが、連続状態-作用空間と複数の相互作用エージェントを含む力学系への適用性は制限されている。 本研究では,オフポリシー逆マルチエージェント強化学習アルゴリズム(imarl)を導入することで,この課題に挑戦する。 我々のアプローチは、ref-erテクニックとガイド付きコスト学習を組み合わせる。 実演を活用することで,アルゴリズムは報酬関数を自動的に発見し,エージェントの効果的なポリシーを学習する。 広範にわたる実験により,提案手法は提供されたデータから観測された振る舞いを捉え,OpenAIジムのシングルエージェントモデルや学習行動のマルチエージェントモデルを含む課題領域にわたって有望な結果が得られることを示した。 本研究は, IMARLアルゴリズムが, 構成成分の観点から, 集合力学を理解するための重要なステップであることを示し, 集合行動を示す複雑な物理系を研究するためのツールとしての価値を示した。

The discovery of individual objectives in collective behavior of complex dynamical systems such as fish schools and bacteria colonies is a long-standing challenge. Inverse reinforcement learning is a potent approach for addressing this challenge but its applicability to dynamical systems, involving continuous state-action spaces and multiple interacting agents, has been limited. In this study, we tackle this challenge by introducing an off-policy inverse multi-agent reinforcement learning algorithm (IMARL). Our approach combines the ReF-ER techniques with guided cost learning. By leveraging demonstrations, our algorithm automatically uncovers the reward function and learns an effective policy for the agents. Through extensive experimentation, we demonstrate that the proposed policy captures the behavior observed in the provided data, and achieves promising results across problem domains including single agent models in the OpenAI gym and multi-agent models of schooling behavior. The present study shows that the proposed IMARL algorithm is a significant step towards understanding collective dynamics from the perspective of its constituents, and showcases its value as a tool for studying complex physical systems exhibiting collective behaviour.
翻訳日:2023-05-19 18:07:53 公開日:2023-05-17
# 混合モードをもつ非対称角度からのマルチモーダルコンテンツモデレーションの再考

Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality ( http://arxiv.org/abs/2305.10547v1 )

ライセンス: Link先を確認
Jialin Yuan, Ye Yu, Gaurav Mittal, Matthew Hall, Sandra Sajeev, Mei Chen(参考訳) ソーシャルメディア上のコンテンツが本質的にマルチモーダルであることから、マルチモーダルコンテンツモデレーション(CM)の必要性は急速に高まっている。 既存のユニモーダルCMシステムは、モダリティ(ミームやビデオなど)を横断する有害なコンテンツをキャッチできず、深刻な結果をもたらす可能性がある。 本稿では,マルチモーダルおよびユニモーダルcmタスクを対象とする新しいcmモデルであるasymmetric mixed-modal moderation (am3)を提案する。 具体的には、視覚と言語間の意味論における非対称性に対処するため、AM3は、両モードの共通知識を融合させるだけでなく、各モードにおけるユニークな情報を活用するために設計された、新しい非対称融合アーキテクチャを持つ。 多様性(multimodality)と一様性(unimodality)で伝達される情報(asymmetry in modalities)の間に本質的な違いを見落としながら、2つのモダリティを融合することに焦点を当てた以前の著作とは異なり、我々は多様性にのみ現れる一意的な知識を学ぶために、新しい交叉モダリティ(cross-modality)の対比的損失を提案する。 これは、有害な意図が両方のモダリティの交叉を通してのみ伝達されるため、重要である。 広範囲な実験により、AM3はマルチモーダルCMベンチマークとユニモーダルCMベンチマークの両方において、既存の最先端手法よりも優れていることを示す。

There is a rapidly growing need for multimodal content moderation (CM) as more and more content on social media is multimodal in nature. Existing unimodal CM systems may fail to catch harmful content that crosses modalities (e.g., memes or videos), which may lead to severe consequences. In this paper, we present a novel CM model, Asymmetric Mixed-Modal Moderation (AM3), to target multimodal and unimodal CM tasks. Specifically, to address the asymmetry in semantics between vision and language, AM3 has a novel asymmetric fusion architecture that is designed to not only fuse the common knowledge in both modalities but also to exploit the unique information in each modality. Unlike previous works that focus on fusing the two modalities while overlooking the intrinsic difference between the information conveyed in multimodality and in unimodality (asymmetry in modalities), we propose a novel cross-modality contrastive loss to learn the unique knowledge that only appears in multimodality. This is critical as some harmful intent may only be conveyed through the intersection of both modalities. With extensive experiments, we show that AM3 outperforms all existing state-of-the-art methods on both multimodal and unimodal CM benchmarks.
翻訳日:2023-05-19 18:07:33 公開日:2023-05-17
# グラフ誘起和生成ネットワークを用いた確率的グラフ表現学習

Tractable Probabilistic Graph Representation Learning with Graph-Induced Sum-Product Networks ( http://arxiv.org/abs/2305.10544v1 )

ライセンス: Link先を確認
Federico Errica, Mathias Niepert(参考訳) 本稿では,グラフ表現学習のための確率的フレームワークであるgspns(graph-induced sum-product network)を提案する。 メッセージパッシングニューラルネットワークの文脈において頂点によって誘導される計算木にインスパイアされた我々は、親SPNのパラメータが子供の和単位の後方混合確率の学習可能な変換である和積ネットワーク(SPN)の階層を構築する。 重みの共有とGSPNの木型計算グラフにより、純粋確率モデルの利点を付加して深部グラフネットワークの有効性と有効性を得る。 一般的なニューラルモデルと比較して,少ない監督シナリオ,欠落データ処理,グラフ分類におけるモデルの競争力を示す。 実験は超パラメータの定性解析と確率的クエリに答えるモデルの能力で補完する。

We introduce Graph-Induced Sum-Product Networks (GSPNs), a new probabilistic framework for graph representation learning that can tractably answer probabilistic queries. Inspired by the computational trees induced by vertices in the context of message-passing neural networks, we build hierarchies of sum-product networks (SPNs) where the parameters of a parent SPN are learnable transformations of the a-posterior mixing probabilities of its children's sum units. Due to weight sharing and the tree-shaped computation graphs of GSPNs, we obtain the efficiency and efficacy of deep graph networks with the additional advantages of a purely probabilistic model. We show the model's competitiveness on scarce supervision scenarios, handling missing data, and graph classification in comparison to popular neural models. We complement the experiments with qualitative analyses on hyper-parameters and the model's ability to answer probabilistic queries.
翻訳日:2023-05-19 18:07:00 公開日:2023-05-17
# 量子ネットワークにおける不正なパーティによる自己検査とデバイス非依存的絡み合い認証

Self-testing with dishonest parties and device-independent entanglement certification in quantum networks ( http://arxiv.org/abs/2305.10587v1 )

ライセンス: Link先を確認
Gl\'aucia Murta and Flavio Baccari(参考訳) ここでは、ネットワーク内のノードの一部が衝突し、不正に動作した場合に、ネットワークに分散する量子状態のデバイスに依存しない認証のタスクについて検討する。 本稿では,不当当事者との自己テストのパラダイムを紹介し,GHZ状態を自己テストするためのプロトコルを提案する。 この結果を不当な当事者のネットワークにおける状態認証に適用し、共有状態の完全性に関する堅牢な声明を提供する。 最後に、その結果をクラスタシナリオに拡張し、状態認証中にいくつかのサブグループが衝突する可能性がある。 Svetlichnyが[PRD 35, 3066 (1987)]で導入した, 真のマルチパーティライト非局所性の強い定義のための新たな運用動機を提供する。

Here we consider the task of device-independent certification of the quantum state distributed in a network when some of the nodes in this network may collude and act dishonestly. We introduce the paradigm of self-testing with dishonest parties and present a protocol to self-test the GHZ state in this framework. We apply this result for state certification in a network with dishonest parties and also provide robust statements about the fidelity of the shared state. Finally, we extend our results to the cluster scenario, where several subgroups of parties may collude during the state certification. Our findings provide a new operational motivation for the strong definition of genuine multipartite nonlocality as originally introduced by Svetlichny in [PRD 35, 3066 (1987)].
翻訳日:2023-05-19 17:59:38 公開日:2023-05-17
# sim-mees: クラッタ環境における移動マニピュレータ用モジュール型エンドエフェクタシステム

Sim-MEES: Modular End-Effector System Grasping Dataset for Mobile Manipulators in Cluttered Environments ( http://arxiv.org/abs/2305.10580v1 )

ライセンス: Link先を確認
Juncheng Li, David J. Cappelleri(参考訳) 本稿では, 難易度と物理特性の異なる1,550個のオブジェクトを含む大規模合成データセットSim-MEESと, 分散環境におけるグリップパの異なるモダリティを用いてグリップを計画するモバイルマニピュレータのための1100万個のグリップラベルを提案する。 私たちのデータセット生成プロセスは、解析モデルとクラッタ環境全体の動的シミュレーションを組み合わせることで、正確な把握ラベルを提供する。 そこで本研究では, パラレル顎グリッパーと吸引カップグリッパーのラベリング法について, シムミートがクラッタ環境において正確な把握ラベルを提供できることを示すために, 最新の手法との比較を行った。

In this paper, we present Sim-MEES: a large-scale synthetic dataset that contains 1,550 objects with varying difficulty levels and physics properties, as well as 11 million grasp labels for mobile manipulators to plan grasps using different gripper modalities in cluttered environments. Our dataset generation process combines analytic models and dynamic simulations of the entire cluttered environment to provide accurate grasp labels. We provide a detailed study of our proposed labeling process for both parallel jaw grippers and suction cup grippers, comparing them with state-of-the-art methods to demonstrate how Sim-MEES can provide precise grasp labels in cluttered environments.
翻訳日:2023-05-19 17:59:24 公開日:2023-05-17
# 非トレーサブル表現を用いたマルチプランネ波ニューラル放射場

MultiPlaneNeRF: Neural Radiance Field with Non-Trainable Representation ( http://arxiv.org/abs/2305.10579v1 )

ライセンス: Link先を確認
Dominik Zimny, Jacek Tabor, Maciej Zi\k{e}ba, Przemys{\l}aw Spurek(参考訳) NeRFは2D画像から3Dオブジェクトを効率的に表現する人気モデルである。 しかしながら、バニラNeRFにはいくつかの重要な制限がある。 NeRFは個々のオブジェクトに対して個別にトレーニングされなければならない。 トレーニング時間は、ニューラルネットワークの重みで物体の形状と色を符号化してから長い。 さらに、NeRFは見えないデータに対してうまく一般化しない。 本稿では,上記の問題をすべて同時に解決する最初のモデルであるMultiPlaneNeRFを提案する。 私たちのモデルは2D画像を直接処理します。 2次元画像に3dポイントを投影し,訓練不能な表現を生成する。 投影ステップはパラメータ化されず、非常に浅いデコーダが効率よく表現を処理できる。 NeRFの一部として既存のイメージを使用することで、暗黙のデコーダのみをトレーニングするため、パラメータの数を大幅に削減できます。 さらに、大きなデータセット上でMultiPlaneNeRFをトレーニングし、暗黙のデコーダを多くのオブジェクトに一般化させます。 これにより、新しいオブジェクトのNeRF表現を生成するために、2Dイメージを(追加のトレーニングなしで)置き換えることができる。 実験では、MultiPlaneNeRFが、新しいビューを合成し、一般化特性を持つ最先端モデルに匹敵する結果が得られることを示した。

NeRF is a popular model that efficiently represents 3D objects from 2D images. However, vanilla NeRF has a few important limitations. NeRF must be trained on each object separately. The training time is long since we encode the object's shape and color in neural network weights. Moreover, NeRF does not generalize well to unseen data. In this paper, we present MultiPlaneNeRF -- a first model that simultaneously solves all the above problems. Our model works directly on 2D images. We project 3D points on 2D images to produce non-trainable representations. The projection step is not parametrized, and a very shallow decoder can efficiently process the representation. Using existing images as part of NeRF can significantly reduce the number of parameters since we train only a small implicit decoder. Furthermore, we can train MultiPlaneNeRF on a large data set and force our implicit decoder to generalize across many objects. Consequently, we can only replace the 2D images (without additional training) to produce a NeRF representation of the new object. In the experimental section, we demonstrate that MultiPlaneNeRF achieves comparable results to state-of-the-art models for synthesizing new views and has generalization properties.
翻訳日:2023-05-19 17:59:08 公開日:2023-05-17
# 鎖を破る:極値統計とランダムスピン鎖の局在

Breaking the chains: extreme value statistics and localization in random spin chains ( http://arxiv.org/abs/2305.10574v1 )

ライセンス: Link先を確認
Jeanne Colbois and Nicolas Laflorencie(参考訳) 1次元 (1D) の無秩序な系における単粒子アンダーソンの局所化について非常によく理解されているにもかかわらず、多体効果は依然として驚きに満ちており、その有名な例は相互作用駆動多体局在(MBL)問題である。 興味深いことに、非相互作用限界は非自明な多粒子物理学を研究する自然な場を提供し、非常に大規模な対角化シミュレーションでいくつかの一般的なメカニズムをテストすることができる。 本研究では, 1次元多体アンダーソン絶縁体について, ランダム磁場中の等価スピンチェーンモデルの極分極に着目し, 極値理論のレンズを通して再検討した。 多体鎖破壊機構を数値解析し,解析的に解ける玩具モデルと比較した。 弱い障害強度から大きな障害強度までの統一的な記述は、障害に依存しない平均局在長$\xi(W)$が連鎖破壊につながる極端な事象を支配している。 特に、局所磁化分布のテールは$\xi(w)$で制御される。 また、Fr'echet型法則によって与えられる極分極の完全分布の定量的な理解も得られる。 第2部では、有限相互作用物理学とMBL問題について検討する。 利用可能なシステムサイズについて、相互作用問題と非相互作用アンダーソンの場合の極値分布の差を数値的に定量化する。 厳密には、MBL遷移と一致するかもしれない$W$変化として、鋭い「極端統計遷移」を観察する。

Despite a very good understanding of single-particle Anderson localization in one-dimensional (1D) disordered systems, many-body effects are still full of surprises, a famous example being the interaction-driven many-body localization (MBL) problem, about which much has been written, and perhaps the best is yet to come. Interestingly enough the non-interacting limit provides a natural playground to study non-trivial multiparticle physics, offering the possibility to test some general mechanisms with very large-scale exact diagonalization simulations. In this work, we first revisit the 1D many-body Anderson insulator through the lens of extreme value theory, focusing on the extreme polarizations of the equivalent spin chain model in a random magnetic field. A many-body-induced chain breaking mechanism is explored numerically, and compared to an analytically solvable toy model. A unified description, from weak to large disorder strengths $W$ emerges, where the disorder-dependent average localization length $\xi(W)$ governs the extreme events leading to chain breaks. In particular, tails of the local magnetization distributions are controlled by $\xi(W)$. Remarkably, we also obtain a quantitative understanding of the full distribution of the extreme polarizations, which is given by a Fr\'echet-type law. In a second part, we explore finite interaction physics and the MBL question. For the available system sizes, we numerically quantify the difference in the extreme value distributions between the interacting problem and the non-interacting Anderson case. Strikingly, we observe a sharp "extreme-statistics transition" as $W$ changes, which may coincide with the MBL transition.
翻訳日:2023-05-19 17:58:49 公開日:2023-05-17
# テンソル製品と超次元計算

Tensor Products and Hyperdimensional Computing ( http://arxiv.org/abs/2305.10572v1 )

ライセンス: Link先を確認
Frank Qiu(参考訳) グラフ埋め込みの以前の分析に続いて、ベクトル記号アーキテクチャ(VSA)と超次元計算(HDC)の一般的な設定にいくつかの結果を一般化し拡張する。 重要なことに、重ね合わせ、直交、テンソル積の間の数学的関係を探求する。 テンソル積表現を中心表現として、一意的な性質のスイートとして確立する。 これらは、最も汎用的で表現力のある表現であり、エラーのないアンバインドと検出を持つ最も圧縮された表現である。

Following up on a previous analysis of graph embeddings, we generalize and expand some results to the general setting of vector symbolic architectures (VSA) and hyperdimensional computing (HDC). Importantly, we explore the mathematical relationship between superposition, orthogonality, and tensor product. We establish the tensor product representation as the central representation, with a suite of unique properties. These include it being the most general and expressive representation, as well as being the most compressed representation that has errorrless unbinding and detection.
翻訳日:2023-05-19 17:58:21 公開日:2023-05-17
# 大気量子チャネルの数値シミュレーション

Numerical simulations of atmospheric quantum channels ( http://arxiv.org/abs/2305.10570v1 )

ライセンス: Link先を確認
M. Klen and A. A. Semenov(参考訳) 大気乱流は自由空間量子通信における主外乱の1つである。 このようなチャネル内の光の量子状態は、透過率(PDT)の確率分布を特徴とする変動損失によって影響を受ける。 我々は大気中を透過する光の数値シミュレーションにより異なるシナリオのPDTを得る。 その結果, 解析モデルと比較し, 対数正規分布, ビームウェーダーモデル, 楕円ビーム近似, トータル確率の法則に基づくモデルなどと比較した。 その適用性は受信機開口半径に大きく依存している。 本稿では,ベータ分布に基づく実験モデルを提案する。これは幅広いチャネルパラメータの数値シミュレーションとよく一致している。 しかし、上記の解析モデルが数値シミュレーションデータに適合しないシナリオがまだ残っている。 数値シミュレーションは、自由空間チャネルを通る二次スケーズ光を解析するために使われる。

Atmospheric turbulence is one of the lead disturbance factors for free-space quantum communication. The quantum states of light in such channels are affected by fluctuating losses characterized by the probability distributions of transmittance (PDT). We obtain the PDT for different scenarios via numerical simulations of light transmission through the atmosphere. The results are compared with analytical models: truncated log-normal distribution, beam-wandering model, elliptic-beam approximation, and the model based on the law of total probability. Their applicability is shown to be strongly dependent on the receiver aperture radius. We introduce an empirical model based on the beta distribution, which is in good agreement with numerical simulations for a wide range of channel parameters. However, there are still scenarios where none of the above analytical models fits the numerically-simulated data. The numerical simulation is then used to analyze the transmission of quadrature-squeezed light through free-space channels.
翻訳日:2023-05-19 17:58:13 公開日:2023-05-17
# 動的PETにおける生理的薬物動態モデリングのための自己教師付き学習

Self-Supervised Learning for Physiologically-Based Pharmacokinetic Modeling in Dynamic PET ( http://arxiv.org/abs/2305.10569v1 )

ライセンス: Link先を確認
Francesca De Benetti, Walter Simson, Magdalini Paschali, Hasan Sari, Axel Romiger, Kuangyu Shi, Nassir Navab and Thomas Wendler(参考訳) ダイナミックポジトロン放射トモグラフィー(dPET)は、生理過程の定量的測定を可能にするトレーサーの時間分解画像を提供する。 Voxel-wise physiologically-based pharmacokinetic (PBPK) model of the time activity curves (TAC)は、臨床ワークフローに関連のある診断情報を提供する。 従来のTACのフィッティング戦略は遅く、隣接するボクセル間の空間的関係を無視する。 F-18-フルオロデオキシグルコース(FDG)dPETからTACの運動パラメータを推定するために、時空間UNetを訓練する。 この研究は、測定されたTACと学習された運動パラメータで生成されたものとの類似性を強制する自己教師付き損失定式化を導入する。 本手法は,期待する生理学と一致した画素方向のパラメトリック画像を生成すると同時に,従来の手法に比べて臓器レベルでの定量的比較結果を提供する。 我々の知る限りでは、これは非線形運動モデルと整合した運動パラメータのボクセルワイズ計算を可能にする最初の自己教師付きネットワークである。 コードは受理次第公開される予定だ。

Dynamic positron emission tomography imaging (dPET) provides temporally resolved images of a tracer enabling a quantitative measure of physiological processes. Voxel-wise physiologically-based pharmacokinetic (PBPK) modeling of the time activity curves (TAC) can provide relevant diagnostic information for clinical workflow. Conventional fitting strategies for TACs are slow and ignore the spatial relation between neighboring voxels. We train a spatio-temporal UNet to estimate the kinetic parameters given TAC from F-18-fluorodeoxyglucose (FDG) dPET. This work introduces a self-supervised loss formulation to enforce the similarity between the measured TAC and those generated with the learned kinetic parameters. Our method provides quantitatively comparable results at organ-level to the significantly slower conventional approaches, while generating pixel-wise parametric images which are consistent with expected physiology. To the best of our knowledge, this is the first self-supervised network that allows voxel-wise computation of kinetic parameters consistent with a non-linear kinetic model. The code will become publicly available upon acceptance.
翻訳日:2023-05-19 17:57:59 公開日:2023-05-17
# チョコレートバニーからチョコレートワニ:言語モデルは名詞の化合物を理解するか?

From chocolate bunny to chocolate crocodile: Do Language Models Understand Noun Compounds? ( http://arxiv.org/abs/2305.10568v1 )

ライセンス: Link先を確認
Jordan Coil and Vered Shwartz(参考訳) 名詞複合解釈は、構成名詞間の関係(例えば、バニー型チョコレート)を明示する自由文パラフローゼにおいて、名詞化合物(例えば、チョコレートバニー)を表現するタスクである。 我々は、標準タスク(hendrickx et al., 2013)のデータおよび評価設定の変更を提案し、gpt-3がほぼ完全に解決することを示す。 次に、名詞複合概念化の課題、すなわち、新規または稀な名詞化合物のパラフレーズ化について検討する。 例えば、チョコレート・クロコダイルはクロコダイル型のチョコレートである。 このタスクには創造性、常識、同様の概念に関する知識を一般化する能力が必要です。 GPT-3のパフォーマンスは完璧ではないが、人間よりも優れている - 膨大な量の知識へのアクセスと、概念処理が人々にとって難しいためだろう(Connell and Lynott, 2012)。 最後に, GPT-3 が世界とトレーニングデータにどのような影響を与えるのかを推定する。 GPT-3のアウトプットは大きなウェブコーパスと重なり合うことが多いが, 新規な名詞化合物にはオウム化戦略が有用でないことが判明した。

Noun compound interpretation is the task of expressing a noun compound (e.g. chocolate bunny) in a free-text paraphrase that makes the relationship between the constituent nouns explicit (e.g. bunny-shaped chocolate). We propose modifications to the data and evaluation setup of the standard task (Hendrickx et al., 2013), and show that GPT-3 solves it almost perfectly. We then investigate the task of noun compound conceptualization, i.e. paraphrasing a novel or rare noun compound. E.g., chocolate crocodile is a crocodile-shaped chocolate. This task requires creativity, commonsense, and the ability to generalize knowledge about similar concepts. While GPT-3's performance is not perfect, it is better than that of humans -- likely thanks to its access to vast amounts of knowledge, and because conceptual processing is effortful for people (Connell and Lynott, 2012). Finally, we estimate the extent to which GPT-3 is reasoning about the world vs. parroting its training data. We find that the outputs from GPT-3 often have significant overlap with a large web corpus, but that the parroting strategy is less beneficial for novel noun compounds.
翻訳日:2023-05-19 17:57:40 公開日:2023-05-17
# 女性を魅了する:画像生成AIにおける表現的およびプレゼンテーション的ジェンダーバイアスの監査

Smiling Women Pitching Down: Auditing Representational and Presentational Gender Biases in Image Generative AI ( http://arxiv.org/abs/2305.10566v1 )

ライセンス: Link先を確認
Luhang Sun, Mian Wei, Yibing Sun, Yoo Ji Suh, Liwei Shen, Sijia Yang(参考訳) DALL-E 2のような生成AIモデルは、テキストプロンプトを解釈し、人間の創造性を示す高品質な画像を生成することができる。 大衆の熱意は高まっているが、aiが生成する画像における潜在的なジェンダーバイアスの体系的な監査はまだ少ない。 我々は153職種にまたがる15,300 DALL-E 2画像における2つの職業性バイアス(表現バイアスとプレゼンテーションバイアス)の頻度を調べ、2021年国勢調査の労働統計とGoogle Imagesに対するベンチマークにより潜在的なバイアス増幅を評価した。 以上の結果から,dall-e 2は男性優位の領域では女性を過小評価し,女性優位の職業では女性を過小評価していることが明らかとなった。 さらに、dall-e 2像は、特に女性優位(vs.男性優位)の職業において、笑顔と下向きの頭部を持つ男性よりも女性が多い。 我々の計算アルゴリズム監査研究は、Google Imagesと比較して、DALL-E 2の表現バイアスとプレゼンテーションバイアスが顕著であることを示し、偏見に富んだAI生成画像からメディアエコロジーへのフィードバックを避けるためにフェミニストの介入を求める。

Generative AI models like DALL-E 2 can interpret textual prompts and generate high-quality images exhibiting human creativity. Though public enthusiasm is booming, systematic auditing of potential gender biases in AI-generated images remains scarce. We addressed this gap by examining the prevalence of two occupational gender biases (representational and presentational biases) in 15,300 DALL-E 2 images spanning 153 occupations, and assessed potential bias amplification by benchmarking against 2021 census labor statistics and Google Images. Our findings reveal that DALL-E 2 underrepresents women in male-dominated fields while overrepresenting them in female-dominated occupations. Additionally, DALL-E 2 images tend to depict more women than men with smiling faces and downward-pitching heads, particularly in female-dominated (vs. male-dominated) occupations. Our computational algorithm auditing study demonstrates more pronounced representational and presentational biases in DALL-E 2 compared to Google Images and calls for feminist interventions to prevent such bias-laden AI-generated images to feedback into the media ecology.
翻訳日:2023-05-19 17:57:20 公開日:2023-05-17
# 既知分類器の偽比較

Counterfactually Comparing Abstaining Classifiers ( http://arxiv.org/abs/2305.10564v1 )

ライセンス: Link先を確認
Yo Joong Choe, Aditya Gangrade, Aaditya Ramdas(参考訳) abstaining classifiersには、不確かである入力に対する予測を省略するオプションがある。 これらの分類器は、信頼性と安全性を改善するための不確実な予測を無視できるため、高い意思決定問題で人気が高まっている。 しかし、ブラックボックスのabstaining classifier(s)を評価する場合、分類器がアブステンションで何を予測していたかを説明する原則的なアプローチが欠けている。 これらの欠落した予測は、例えば放射線科医が診断を知らない場合や、運転者が自動運転車に注意を払わない場合に重要である。 本稿では,禁忌を欠いたデータとして扱うことにより,禁忌者の評価・比較の問題に対する新しいアプローチと展望を提案する。 評価手法は, 分類器が回避できない場合の期待性能として定義される, 分類器の反事実スコアを定義することに集中する。 評価データがトレーニングデータから独立している場合(予測がランダムに欠落していることを保証する)、そのスコアが識別可能である。 注意すべき点は、棄権が決定論的であれば、分類器はその棄権に対して任意に不利な動作を行うことができるので、スコアは特定できないことである。 観測因果推論からツールを活用することで,非パラメトリックかつ二重ロバストな手法を開発し,同定下でこの量を効率的に推定する。 本手法はシミュレーションと実データ実験の両方で検討した。

Abstaining classifiers have the option to abstain from making predictions on inputs that they are unsure about. These classifiers are becoming increasingly popular in high-stake decision-making problems, as they can withhold uncertain predictions to improve their reliability and safety. When evaluating black-box abstaining classifier(s), however, we lack a principled approach that accounts for what the classifier would have predicted on its abstentions. These missing predictions are crucial when, e.g., a radiologist is unsure of their diagnosis or when a driver is inattentive in a self-driving car. In this paper, we introduce a novel approach and perspective to the problem of evaluating and comparing abstaining classifiers by treating abstentions as missing data. Our evaluation approach is centered around defining the counterfactual score of an abstaining classifier, defined as the expected performance of the classifier had it not been allowed to abstain. We specify the conditions under which the counterfactual score is identifiable: if the abstentions are stochastic, and if the evaluation data is independent of the training data (ensuring that the predictions are missing at random), then the score is identifiable. Note that, if abstentions are deterministic, then the score is unidentifiable because the classifier can perform arbitrarily poorly on its abstentions. Leveraging tools from observational causal inference, we then develop nonparametric and doubly robust methods to efficiently estimate this quantity under identification. Our approach is examined in both simulated and real data experiments.
翻訳日:2023-05-19 17:56:55 公開日:2023-05-17
# 文脈学習を用いた知識のない時間的知識グラフ予測

Temporal Knowledge Graph Forecasting Without Knowledge Using In-Context Learning ( http://arxiv.org/abs/2305.10613v1 )

ライセンス: Link先を確認
Dong-Ho Lee, Kian Ahrabian, Woojeong Jin, Fred Morstatter, Jay Pujara(参考訳) 時間的知識グラフ(TKG)予測ベンチマークは、過去の事実の知識を用いて将来の事実を予測するためにモデルに挑戦する。 本稿では,大規模言語モデル (LLM) をテキスト内学習 (ICL) を用いてこれらのベンチマークに適用する。 特に構造的および時間的情報を取り込むための微調整や明示的なモジュールを使わずに、tkg予測にllmがどの程度使用できるかを検討する。 本実験では,関連する歴史的事実をプロンプトに変換し,トークン確率を用いてランキング予測を生成する枠組みを提案する。 驚くべきことに、我々は、tkg予測のために慎重に設計・訓練された最先端のtkgモデルと同等にllmが機能するのを観察した。 提案手法は,様々な特徴を持つモデルやデータセットにまたがる性能評価を行い,文脈情報を作成するための代替ヒューリスティックスと,tkg法や単純な頻度ベースラインと対比する。 また、エンティティ/リレーショナル名の代わりに数値インデックスを使うこと、すなわち意味情報を隠すことは、パフォーマンスに大きな影響を与えない(\pm$0.4\% hit@1)。 これは、事前の意味知識が不要であることを示している;代わりに、llmは、そのようなパフォーマンスを達成するためにコンテキスト内の既存のパターンを活用できる。 また, iclは, 一般的な情報や最近の情報に基づく単純な予測を超えて, 歴史的文脈から不規則なパターンを学習することを可能にする。

Temporal knowledge graph (TKG) forecasting benchmarks challenge models to predict future facts using knowledge of past facts. In this paper, we apply large language models (LLMs) to these benchmarks using in-context learning (ICL). We investigate whether and to what extent LLMs can be used for TKG forecasting, especially without any fine-tuning or explicit modules for capturing structural and temporal information. For our experiments, we present a framework that converts relevant historical facts into prompts and generates ranked predictions using token probabilities. Surprisingly, we observe that LLMs, out-of-the-box, perform on par with state-of-the-art TKG models carefully designed and trained for TKG forecasting. Our extensive evaluation presents performances across several models and datasets with different characteristics, compares alternative heuristics for preparing contextual information, and contrasts to prominent TKG methods and simple frequency and recency baselines. We also discover that using numerical indices instead of entity/relation names, i.e., hiding semantic information, does not significantly affect the performance ($\pm$0.4\% Hit@1). This shows that prior semantic knowledge is unnecessary; instead, LLMs can leverage the existing patterns in the context to achieve such performance. Our analysis also reveals that ICL enables LLMs to learn irregular patterns from the historical context, going beyond simple predictions based on common or recent information.
翻訳日:2023-05-19 17:51:02 公開日:2023-05-17
# ACRoBat: コンパイル時の動的ディープラーニングの自動バッチの最適化

ACRoBat: Optimizing Auto-batching of Dynamic Deep Learning at Compile Time ( http://arxiv.org/abs/2305.10611v1 )

ライセンス: Link先を確認
Pratik Fegade, Tianqi Chen, Phillip B. Gibbons, Todd C. Mowry(参考訳) 動的制御フローは、テキスト解析、機械翻訳、深層モデルの早期流出といったアプリケーションのための表現的かつ効率的なディープラーニング計算を設計するためにしばしば使用される重要な手法である。 しかし、結果として生じる制御フローのばらつきにより、バッチ化は重要なパフォーマンス最適化であり、手動での実行が難しい。 本稿では,静的+動的コンパイラ最適化とエンドツーエンドのテンソルコード生成を組み合わせることで,動的深層学習のための効率的なバッチ処理を実現するフレームワークであるacrobatを提案する。 ACRoBatはNvidia GeForce RTX 3070 GPU上で、最先端のバッチ処理フレームワークであるDyNetよりも最大8.5倍パフォーマンスが向上している。

Dynamic control flow is an important technique often used to design expressive and efficient deep learning computations for applications such as text parsing, machine translation, exiting early out of deep models and so on. However, the resulting control flow divergence makes batching, an important performance optimization, difficult to perform manually. In this paper, we present ACRoBat, a framework that enables efficient automatic batching for dynamic deep learning computations by performing hybrid static+dynamic compiler optimizations and end-to-end tensor code generation. ACRoBat performs up to 8.5X better than DyNet, a state-of-the-art framework for automatic batching, on an Nvidia GeForce RTX 3070 GPU.
翻訳日:2023-05-19 17:50:36 公開日:2023-05-17
# L2ノルム法による高周波単語間のコサイン類似度推定

Solving Cosine Similarity Underestimation between High Frequency Words by L2 Norm Discounting ( http://arxiv.org/abs/2305.10610v1 )

ライセンス: Link先を確認
Saeth Wannasuphoprasit, Yi Zhou, Danushka Bollegala(参考訳) BERTのようなマスキング言語モデル(MLM)から得られた文脈的トークン埋め込みを用いて計算された2単語間のコサイン類似性は、それらの単語間の実際の類似性を過小評価することを示した(Zhou et al., 2022)。 この類似性の過小評価問題は、高頻度の単語では特に深刻である。 この問題は以前の研究でも指摘されているが、今のところ解決は提案されていない。 単語の文脈的埋め込みのl2ノルムは,事前学習コーパスにおけるログ頻度と相関する。 その結果、高い頻度の単語に関連する大きなL2ノルムはコサイン類似度値を減少させ、類似度スコアを過小評価する。 そこで本研究では,単語間のコサイン類似度を測定する際に,コーパス内の単語の頻度によって文脈化単語埋め込みのl2ノルムを下げる手法を提案する。 いわゆる「停止語」は、他の単語と異なる振る舞いを示すが、これは割引プロセスにおいて特別な配慮を必要とする。 文脈化単語類似度データセットにおける実験結果から,提案手法が類似度推定問題を正確に解決することを示す。

Cosine similarity between two words, computed using their contextualised token embeddings obtained from masked language models (MLMs) such as BERT has shown to underestimate the actual similarity between those words (Zhou et al., 2022). This similarity underestimation problem is particularly severe for highly frequent words. Although this problem has been noted in prior work, no solution has been proposed thus far. We observe that the L2 norm of contextualised embeddings of a word correlates with its log-frequency in the pretraining corpus. Consequently, the larger L2 norms associated with the highly frequent words reduce the cosine similarity values measured between them, thus underestimating the similarity scores. To solve this issue, we propose a method to discount the L2 norm of a contextualised word embedding by the frequency of that word in a corpus when measuring the cosine similarities between words. We show that the so called stop words behave differently from the rest of the words, which require special consideration during their discounting process. Experimental results on a contextualised word similarity dataset show that our proposed discounting method accurately solves the similarity underestimation problem.
翻訳日:2023-05-19 17:50:24 公開日:2023-05-17
# 熱を使わずに迅速な情報消去を訓練する方法

How to train your demon to do fast information erasure without heat production ( http://arxiv.org/abs/2305.10607v1 )

ライセンス: Link先を確認
Stephen Whitelam(参考訳) メモリ消去やコスト削減、熱発生など、不可逆的な論理演算を実行する時間依存プロトコルは、コンピュータの効率に限界を置きます。 ここでは、物理メモリの原型的コンピュータモデルを用いて、作業の入力や熱の生成なしに、フィードバック制御プロトコルを学習し、高速なメモリ消去を行うことができることを示す。 これらのプロトコルは、ニューラルネットの「デーモン」によって制定され、デーモンがメモリよりも熱を発生させるため、熱力学の第二法則に違反しない。 その結果、ある計算がエネルギー的に有利にレンダリングされ、補償された計算が別の場所で熱を発生させるという非局所的な熱交換の形式となり、これはコンピュータ内のエネルギーの流れを合理的に設計できる戦術である。

Time-dependent protocols that perform irreversible logical operations, such as memory erasure, cost work and produce heat, placing bounds on the efficiency of computers. Here we use a prototypical computer model of a physical memory to show that it is possible to learn feedback-control protocols to do fast memory erasure without input of work or production of heat. These protocols, which are enacted by a neural-network "demon", do not violate the second law of thermodynamics because the demon generates more heat than the memory absorbs. The result is a form of nonlocal heat exchange in which one computation is rendered energetically favorable while a compensating one produces heat elsewhere, a tactic that could be used to rationally design the flow of energy within a computer.
翻訳日:2023-05-19 17:50:02 公開日:2023-05-17
# tree of thoughts: 大規模言語モデルによる意図的な問題解決

Tree of Thoughts: Deliberate Problem Solving with Large Language Models ( http://arxiv.org/abs/2305.10601v1 )

ライセンス: Link先を確認
Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, Karthik Narasimhan(参考訳) 言語モデルは、幅広いタスクにわたる一般的な問題解決のためにますますデプロイされていますが、推論の間、トークンレベル、左右の意思決定プロセスに限られています。 これはつまり,探索や戦略的検討,あるいは初期決定が重要な役割を担うタスクに不足する可能性がある,ということだ。 これらの課題を克服するために、言語モデル推論のための新しいフレームワークであるTree of Thoughts (ToT)を導入し、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化し、問題解決の中間段階となる一貫性のあるテキスト単位(思想)を探索する。 ToTは、複数の異なる推論経路と、次の行動経路を決定するための自己評価選択を考慮し、グローバルな選択が必要なときに前向きや後向きの追跡を行うことで、故意の意思決定を可能にする。 実験の結果,totは,非自明な計画や探索を必要とする3つの新しいタスク(ゲームオブ24,クリエイティビティライティング,ミニクロスワード)において,言語モデルの問題解決能力を大幅に向上させることがわかった。 例えば、24のGame of 24では、チェーン・オブ・シントを持つGPT-4がタスクの4%しか解決しないのに対して、我々の手法は74%の成功率を達成した。 すべてのプロンプトによるコードリポジトリ: https://github.com/ysymyth/tree-of-thought-llm。

Language models are increasingly being deployed for general problem solving across a wide range of tasks, but are still confined to token-level, left-to-right decision-making processes during inference. This means they can fall short in tasks that require exploration, strategic lookahead, or where initial decisions play a pivotal role. To surmount these challenges, we introduce a new framework for language model inference, Tree of Thoughts (ToT), which generalizes over the popular Chain of Thought approach to prompting language models, and enables exploration over coherent units of text (thoughts) that serve as intermediate steps toward problem solving. ToT allows LMs to perform deliberate decision making by considering multiple different reasoning paths and self-evaluating choices to decide the next course of action, as well as looking ahead or backtracking when necessary to make global choices. Our experiments show that ToT significantly enhances language models' problem-solving abilities on three novel tasks requiring non-trivial planning or search: Game of 24, Creative Writing, and Mini Crosswords. For instance, in Game of 24, while GPT-4 with chain-of-thought prompting only solved 4% of tasks, our method achieved a success rate of 74%. Code repo with all prompts: https://github.com/ysymyth/tree-of-thought-llm.
翻訳日:2023-05-19 17:49:47 公開日:2023-05-17
# 学習によるRADARとLIDARの関係改善

Improving Extrinsics between RADAR and LIDAR using Learning ( http://arxiv.org/abs/2305.10594v1 )

ライセンス: Link先を確認
Peng Jiang, Srikanth Saripalli(参考訳) LIDARとRADARは、自律運転システムでよく使われる2つのセンサーである。 両者間の余分なキャリブレーションは、効果的なセンサー融合に不可欠である。 この課題は、RADAR測定における低い精度とスパース情報によって生じる。 本稿では,自律システムにおける3次元RADAR-LIDARキャリブレーションの新しい解法を提案する。 この方法は単純なターゲットを用いて、対応登録やワンステップ最適化アルゴリズムを含むデータを生成する。 この最適化は、小さな多層認識(MLP)を用いて、ターゲット周辺のセンサの戻りエネルギーの回帰を行いながら、再投射誤差を最小限にすることを目的としている。 提案手法は、PyTorchのようなディープラーニングフレームワークを使用し、勾配降下により最適化できる。 実験では、360度Ouster-128 LIDARと360度Navtech RADARを使用し、生測値を提供する。 提案手法の有効性を検証し,外因性キャリブレーションパラメータの精度向上を図った。

LIDAR and RADAR are two commonly used sensors in autonomous driving systems. The extrinsic calibration between the two is crucial for effective sensor fusion. The challenge arises due to the low accuracy and sparse information in RADAR measurements. This paper presents a novel solution for 3D RADAR-LIDAR calibration in autonomous systems. The method employs simple targets to generate data, including correspondence registration and a one-step optimization algorithm. The optimization aims to minimize the reprojection error while utilizing a small multi-layer perception (MLP) to perform regression on the return energy of the sensor around the targets. The proposed approach uses a deep learning framework such as PyTorch and can be optimized through gradient descent. The experiment uses a 360-degree Ouster-128 LIDAR and a 360-degree Navtech RADAR, providing raw measurements. The results validate the effectiveness of the proposed method in achieving improved estimates of extrinsic calibration parameters.
翻訳日:2023-05-19 17:49:20 公開日:2023-05-17
# 高精度・ネアター顔検出のための逆非最大抑圧法

Inverted Non-maximum Suppression for more Accurate and Neater Face Detection ( http://arxiv.org/abs/2305.10593v1 )

ライセンス: Link先を確認
Lian Liu, liguo Zhou(参考訳) 近年,CNNに基づく顔検出法は大きな進歩を遂げている。 cnnの強力な表現能力に加えて、後処理手法は顔検出の性能にとって非常に重要である。 一般に、顔検出方法は、1つの顔の複数の候補バウンディングボックスを予測する。 NMSは、最も正確なボックスを得るために、不正確な候補ボックスをフィルタリングするために使用される。 nmsの原則は、基本ボックスとしてスコアの高いボックスを選択し、基本ボックスと重なり合う部分が大きいがスコアが低いボックスを削除することである。 しかし、現在のNMS法とその改良版は、顔の画質が悪い場合や、顔がクラスタ内にある場合、うまく機能しない。 これらの状況では、NMSフィルタリング後も、しばしば複数の予測ボックスに対応する顔が存在する。 このような否定的な結果を低減するため,本論文では,他のNMS手法の逆順に動作する新しいNMS法を提案する。 本手法は,低品質かつ小型の顔サンプルに対して良好に機能する。 実験により,提案手法が異なる顔検出法に対してポストプロセッサとして有効であることを実証した。

CNN-based face detection methods have achieved significant progress in recent years. In addition to the strong representation ability of CNN, post-processing methods are also very important for the performance of face detection. In general, the face detection method predicts several candidate bounding-boxes for one face. NMS is used to filter out inaccurate candidate boxes to get the most accurate box. The principle of NMS is to select the box with a higher score as the basic box and then delete the box which has a large overlapping area with the basic box but has a lower score. However, the current NMS method and its improved versions do not perform well when face image quality is poor or faces are in a cluster. In these situations, even after NMS filtering, there is often a face corresponding to multiple predicted boxes. To reduce this kind of negative result, in this paper, we propose a new NMS method that operates in the reverse order of other NMS methods. Our method performs well on low-quality and tiny face samples. Experiments demonstrate that our method is effective as a post-processor for different face detection methods.
翻訳日:2023-05-19 17:49:07 公開日:2023-05-17
# 誤り補正パリティスナップショットによる非局所的ブラインオーダーの測定

Measuring Non-local Brane Order with Error-corrected Parity Snapshots ( http://arxiv.org/abs/2305.10592v1 )

ライセンス: Link先を確認
Junhyeok Hur and Wonjun Lee and Kiryang Kwon and SeungJung Huh and Gil Young Cho and Jae-yoon Choi(参考訳) ハルダンやスピン液体相のようなエキゾチックな量子多体状態は、分数励起や非可換統計のような顕著な特徴を示し、多体量子系における量子の絡み合いの新しい理解を提供する。 これらの位相は、光学格子やライドバーグ原子配列のような原子アナログ量子シミュレーションプラットフォームで直接測定できる非局所相関子によって分類される。 しかし、大規模システムにおいてこれらの位相を特徴付けるのは、原子損失のような局所的なエラーに敏感であり、指数関数的にシグナルを抑制するため、実験的に困難である。 さらに、アナログ量子シミュレータにおける非相関エラーを体系的に同定し緩和するためのプロトコルが不足している。 本稿では,光格子を用いた大規模中性原子量子シミュレータのための誤差補正法を提案する。 誤差補正法は,mott絶縁体の非相関孔と相関する粒子-孔対を区別することができる。 非相関誤差を除去した後、非局所パリティ相関器の劇的な改善を観察し、周辺スケール法を見いだす。 さらに, 誤差モデルにより, サイト占有時のゆらぎを統計的に推定し, 一般化ブレイン相関器を計測し, 2次元のモット絶縁体の秩序パラメータとして確認する。 我々の研究は、大規模量子シミュレーターにおけるエキゾチックな状態の研究と特徴付けのための有望な道を提供する。

Exotic quantum many-body states, such as Haldane and spin liquid phases, can exhibit remarkable features like fractional excitations and non-abelian statistics and offer new understandings of quantum entanglement in many-body quantum systems. These phases are classified by non-local correlators that can be directly measured in atomic analog quantum simulating platforms, such as optical lattices and Rydberg atom arrays. However, characterizing these phases in large systems is experimentally challenging because they are sensitive to local errors like atom loss, which suppress its signals exponentially. Additionally, protocols for systematically identifying and mitigating uncorrelated errors in analog quantum simulators are lacking. Here, we address these challenges by developing an error correction method for large-scale neutral atom quantum simulators using optical lattices. Our error correction method can distinguish correlated particle-hole pairs from uncorrelated holes in the Mott insulator. After removing the uncorrelated errors, we observe a dramatic improvement in the non-local parity correlator and find the perimeter scaling law. Furthermore, the error model provides a statistical estimation of fluctuations in site occupation, from which we measure the generalized brane correlator and confirm that it can be an order parameter for Mott insulators in two dimensions. Our work provides a promising avenue for investigating and characterizing exotic phases of matters in large-scale quantum simulators.
翻訳日:2023-05-19 17:48:52 公開日:2023-05-17
# INCLG:マルチタスク画像処理ネットワークを用いた非クリフリップ生成のための塗装

INCLG: Inpainting for Non-Cleft Lip Generation with a Multi-Task Image Processing Network ( http://arxiv.org/abs/2305.10589v1 )

ライセンス: Link先を確認
Shuang Chen, Amir Atapour-Abarghouei, Edmond S. L. Ho, Hubert P. H. Shum(参考訳) そこで我々は, 口唇裂患者の非口蓋裂画像を予測するソフトウェアを提案し, 口蓋裂手術の理解, 認識, 議論を容易にする。 患者のプライバシを保護するため,訓練に口唇画像を必要としない画像塗布を用いたソフトウェア・フレームワークを設計し,モデル漏洩のリスクを軽減する。 我々は, 顔画像と顔ランドマークの両方を予測する新しいマルチタスクアーキテクチャを実装し, 外科医が評価した性能向上を実現した。 このソフトウェアはPyTorchで実装されており、消費者レベルのカラー画像で高速な予測速度で利用でき、効果的に展開できる。

We present a software that predicts non-cleft facial images for patients with cleft lip, thereby facilitating the understanding, awareness and discussion of cleft lip surgeries. To protect patients privacy, we design a software framework using image inpainting, which does not require cleft lip images for training, thereby mitigating the risk of model leakage. We implement a novel multi-task architecture that predicts both the non-cleft facial image and facial landmarks, resulting in better performance as evaluated by surgeons. The software is implemented with PyTorch and is usable with consumer-level color images with a fast prediction speed, enabling effective deployment.
翻訳日:2023-05-19 17:48:27 公開日:2023-05-17
# Masked Language Model Scoringのためのより良い方法

A Better Way to Do Masked Language Model Scoring ( http://arxiv.org/abs/2305.10588v1 )

ライセンス: Link先を確認
Carina Kauf and Anna Ivanova(参考訳) 自己回帰言語モデルの下で与えられた文のログ様度を推定するのは簡単である: チェーンルールを適用して、連続するトークンごとにログ様度値を和化することができる。 しかし、マスキング言語モデルでは、文のログ類似度を推定する直接的な方法は存在しない。 Salazar et al. (2020) は、各文トークンを連続的にマスキングし、残りの文を文脈として取り出し、結果の値を和らげることによって計算される文擬似log-likelihood (PLL) スコアを推定することを提案する。 そこで本研究では,原文のpll法が語彙外の単語に対して膨らませたスコアを与え,対象のトークンだけでなく,単語内のすべてのトークンをターゲットの右にマスクする適応指標を提案する。 適応された測度 (PLL-word-l2r) は、元のPLL測度とPLL測度の両方に優れており、すべての単語内トークンがマスクされていることを示す。 特に、理論的なデシデラタを満足し、自己回帰モデルからのスコアとよりよく相関する。 最後に,MLM特性を評価するための適切な評価基準を選択することの重要性を強調し,指標の選択がより厳密に制御された最小ペア評価ベンチマーク(BLiMPなど)に影響を与えることを示す。

Estimating the log-likelihood of a given sentence under an autoregressive language model is straightforward: one can simply apply the chain rule and sum the log-likelihood values for each successive token. However, for masked language models, there is no direct way to estimate the log-likelihood of a sentence. To address this issue, Salazar et al. (2020) propose to estimate sentence pseudo-log-likelihood (PLL) scores, computed by successively masking each sentence token, retrieving its score using the rest of the sentence as context, and summing the resulting values. Here, we demonstrate that the original PLL method yields inflated scores for out-of-vocabulary words and propose an adapted metric, in which we mask not only the target token, but also all within-word tokens to the right of the target. We show that our adapted metric (PLL-word-l2r) outperforms both the original PLL metric and a PLL metric in which all within-word tokens are masked. In particular, it better satisfies theoretical desiderata and better correlates with scores from autoregressive models. Finally, we show that the choice of metric affects even tightly controlled, minimal pair evaluation benchmarks (such as BLiMP), underscoring the importance of selecting an appropriate scoring metric for evaluating MLM properties.
翻訳日:2023-05-19 17:48:15 公開日:2023-05-17
# モデル予測解析のための自己回帰型言語モデル隠れ状態のトークン分解

Token-wise Decomposition of Autoregressive Language Model Hidden States for Analyzing Model Predictions ( http://arxiv.org/abs/2305.10614v1 )

ライセンス: Link先を確認
Byung-Doh Oh, William Schuler(参考訳) トランスフォーマーをベースとした大規模言語モデルがなぜそのように予測するのかを研究することへの関心が最近は高まっているが、各層で実行される複雑な計算は伝統的に大きなボトルネックとなっている。 この欠点を軽減するために、この研究は、ほぼ全ての現代のトランスフォーマーアーキテクチャにおいて正確である各初期入力トークンに基づいて、自己回帰言語モデルから最終隠れ状態の線形分解を示す。 この分解により、特定の入力トークンの寄与を緩和する確率分布の定義が可能になり、モデルから1つの前方通過しか持たない次の単語の列に対するモデル確率への影響を分析するのに使用できる。 本研究は,次の単語の確率の変化を重要度指標として,まず言語モデル予測に最も寄与する文脈単語について検討する。 回帰実験により、トランスフォーマティブベースの言語モデルは、主にコロケーション関係に依存し、次単語予測において構文依存性やコリファレンス関係などの言語的要因が続くことが示唆された。 さらに,これらの尺度を用いて構文的依存関係の予測とコアフェレント参照スパンの分析を行った結果,それぞれ同じトークンのコロケーション関連と繰り返しが,言語モデルのタスクに対する予測について大きく説明されている。

While there is much recent interest in studying why Transformer-based large language models make predictions the way they do, the complex computations performed within each layer have traditionally posed a strong bottleneck. To mitigate this shortcoming, this work presents a linear decomposition of final hidden states from autoregressive language models based on each initial input token, which is exact for virtually all contemporary Transformer architectures. This decomposition allows the definition of probability distributions that ablate the contribution of specific input tokens, which can be used to analyze their influence on model probabilities over a sequence of upcoming words with only one forward pass from the model. Using the change in next-word probability as a measure of importance, this work first examines which context words make the biggest contribution to language model predictions. Regression experiments suggest that Transformer-based language models rely primarily on collocational associations, followed by linguistic factors such as syntactic dependencies and coreference relationships in making next-word predictions. Additionally, analyses using these measures to predict syntactic dependencies and coreferent mention spans show that collocational association and repetitions of the same token respectively, largely explain the language model's predictions on the tasks.
翻訳日:2023-05-19 17:37:57 公開日:2023-05-17
# トレーサグラフィにおける強化学習の意義

What Matters in Reinforcement Learning for Tractography ( http://arxiv.org/abs/2305.09041v2 )

ライセンス: Link先を確認
Antoine Th\'eberge, Christian Desrosiers, Maxime Descoteaux, Pierre-Marc Jodoin(参考訳) 近年,手作業による基準流路の整備を行なわずに白質の構造を再構築するためのトラクトグラフィー法と訓練薬の学習のために深部強化学習(RL)が提案されている。 報告されたパフォーマンスは競争力があったが、提案されたフレームワークは複雑であり、その複数の部分の役割と影響についてはほとんど分かっていない。 本研究では,RLアルゴリズムの選択,シード戦略,入力信号,報酬関数など,提案するフレームワークのさまざまなコンポーネントを徹底的に検討し,その影響について光を当てる。 この作業のために約7,400台のモデルがトレーニングされ、gpu時間は約41,000時間であった。 我々のゴールは、どの領域で何が機能し、何がうまくいかなかったかを明らかにすることで、トラクトログラフィーのための深部RLの可能性を探究する研究者を指導することである。 そこで我々は最終的に,RLアルゴリズムの選択,エージェントへの入力,報酬関数などに関する一連の勧告を提案し,トラクトログラフィの強化学習による今後の作業を支援する。 トラクトログラフィのための強化学習を探求したいユーザや研究者のために、オープンソースのコードベース、トレーニングされたモデル、データセットもリリースしています。

Recently, deep reinforcement learning (RL) has been proposed to learn the tractography procedure and train agents to reconstruct the structure of the white matter without manually curated reference streamlines. While the performances reported were competitive, the proposed framework is complex, and little is still known about the role and impact of its multiple parts. In this work, we thoroughly explore the different components of the proposed framework, such as the choice of the RL algorithm, seeding strategy, the input signal and reward function, and shed light on their impact. Approximately 7,400 models were trained for this work, totalling nearly 41,000 hours of GPU time. Our goal is to guide researchers eager to explore the possibilities of deep RL for tractography by exposing what works and what does not work with the category of approach. As such, we ultimately propose a series of recommendations concerning the choice of RL algorithm, the input to the agents, the reward function and more to help future work using reinforcement learning for tractography. We also release the open source codebase, trained models, and datasets for users and researchers wanting to explore reinforcement learning for tractography.
翻訳日:2023-05-19 10:34:01 公開日:2023-05-17
# 適応的注意と関係による顔行動単位の検出

Facial Action Unit Detection via Adaptive Attention and Relation ( http://arxiv.org/abs/2001.01168v2 )

ライセンス: Link先を確認
Zhiwen Shao, Yong Zhou, Jianfei Cai, Hancheng Zhu, Rui Yao(参考訳) 顔アクションユニット(AU)検出は、微妙でダイナミックなAUから相関情報を取得するのが難しいため困難である。 既存の方法は、しばしばAUの関連領域の局所化を頼りにしており、相関する顔のランドマークによって局所的なAUの注意を事前に定義することは、しばしば必須の部分を破棄する。 さらに、既存の関係推論手法では、各AUの特定の方法を無視しながら、すべてのAUに対して共通のパターンを用いることが多い。 これらの制約に対処するために,顔AU検出のための適応的注意・関係(AAR)フレームワークを提案する。 具体的には,注意前定義の制約の下で各auのグローバルアテンションマップをレグレッションする適応アテンション回帰ネットワークと,強い相関領域のランドマークと弱相関領域における顔のグローバル分散依存性の両方を捉える上で有用なau検出のガイダンスを提案する。 さらに,AUの多様性と動態を考慮した適応時空間グラフ畳み込みネットワークを提案し,各AUの独立パターン,AU間の依存性,および時間依存性を同時に推論する。 大規模な実験は我々のアプローチが示す (i)制約のあるシナリオではbp4d、disfa、gft、制約のないシナリオではaf-wild2といった挑戦的なベンチマークで競合性能を達成し、 (ii) 各AUの地域相関分布を正確に学習することができる。

Facial action unit (AU) detection is challenging due to the difficulty in capturing correlated information from subtle and dynamic AUs. Existing methods often resort to the localization of correlated regions of AUs, in which predefining local AU attentions by correlated facial landmarks often discards essential parts, or learning global attention maps often contains irrelevant areas. Furthermore, existing relational reasoning methods often employ common patterns for all AUs while ignoring the specific way of each AU. To tackle these limitations, we propose a novel adaptive attention and relation (AAR) framework for facial AU detection. Specifically, we propose an adaptive attention regression network to regress the global attention map of each AU under the constraint of attention predefinition and the guidance of AU detection, which is beneficial for capturing both specified dependencies by landmarks in strongly correlated regions and facial globally distributed dependencies in weakly correlated regions. Moreover, considering the diversity and dynamics of AUs, we propose an adaptive spatio-temporal graph convolutional network to simultaneously reason the independent pattern of each AU, the inter-dependencies among AUs, as well as the temporal dependencies. Extensive experiments show that our approach (i) achieves competitive performance on challenging benchmarks including BP4D, DISFA, and GFT in constrained scenarios and Aff-Wild2 in unconstrained scenarios, and (ii) can precisely learn the regional correlation distribution of each AU.
翻訳日:2023-05-18 21:42:26 公開日:2023-05-17
# 直交符号化行列を用いたマルチクラス解法

Solving for multi-class using orthogonal coding matrices ( http://arxiv.org/abs/1801.09055v6 )

ライセンス: Link先を確認
Peter Mills(参考訳) 二進法を多クラス分類に一般化する一般的な方法は誤り訂正符号(ECC)である。 例えば、ECCを直交させることによって、様々な方法で最適化することができる。 ここでは,2種類の直交ECCを7種類のデータセット上で2種類のバイナリ分類器を用いてテストし,他の3種類のマルチクラス手法と比較する。 符号がゼロを含まない最初の直交ECCは、確率の高速で単純な解法である。 直交ECCは最近の文献で予測されるランダムECCよりも常に正確である。 不確実性係数(U.C.)の改善は0.4--17.5%(0.004--0.139、絶対)、ブリアスコアの改善は0.7--10.7%である。 残念なことに、直交ECCは1対1よりも正確ではない。 メソッドがロジスティック回帰とペアになっていて、直交のECCは1対1の差はない。 SVMと組み合わせた場合、損失は1.5%、相対値が0.011、不確実性係数が0.011、ブライアスコアが6.5%である。 直交ECCは、線形分類器とペアリングする場合、常に5つのマルチクラスメソッドのうち最速である。 分類速度がトレーニングサンプル数に依存しない分別線形分類器とペアを組む場合、直交ECCを用いた分類は、他の方法よりも常に正確であり、1対1より高速であった。 ここでの1対1の損失は、米国では1.9%(絶対値0.017)、ブライアスコアでは39%だった。 速度の利得は1.1%から100%以上である。 スピードアップが正確さに値するかどうかは、アプリケーションによって異なります。

A common method of generalizing binary to multi-class classification is the error correcting code (ECC). ECCs may be optimized in a number of ways, for instance by making them orthogonal. Here we test two types of orthogonal ECCs on seven different datasets using three types of binary classifier and compare them with three other multi-class methods: 1 vs. 1, one-versus-the-rest and random ECCs. The first type of orthogonal ECC, in which the codes contain no zeros, admits a fast and simple method of solving for the probabilities. Orthogonal ECCs are always more accurate than random ECCs as predicted by recent literature. Improvments in uncertainty coefficient (U.C.) range between 0.4--17.5% (0.004--0.139, absolute), while improvements in Brier score between 0.7--10.7%. Unfortunately, orthogonal ECCs are rarely more accurate than 1 vs. 1. Disparities are worst when the methods are paired with logistic regression, with orthogonal ECCs never beating 1 vs. 1. When the methods are paired with SVM, the losses are less significant, peaking at 1.5%, relative, 0.011 absolute in uncertainty coefficient and 6.5% in Brier scores. Orthogonal ECCs are always the fastest of the five multi-class methods when paired with linear classifiers. When paired with a piecewise linear classifier, whose classification speed does not depend on the number of training samples, classifications using orthogonal ECCs were always more accurate than the other methods and also faster than 1 vs. 1. Losses against 1 vs. 1 here were higher, peaking at 1.9% (0.017, absolute), in U.C. and 39% in Brier score. Gains in speed ranged between 1.1% and over 100%. Whether the speed increase is worth the penalty in accuracy will depend on the application.
翻訳日:2023-05-18 21:41:29 公開日:2023-05-17
# 接ベクトル変分量子固有解法:導関数の不正確性に対するロバスト変分量子固有解法

Tangent Vector Variational Quantum Eigensolver: A Robust Variational Quantum Eigensolver against the inaccuracy of derivative ( http://arxiv.org/abs/2105.01141v3 )

ライセンス: Link先を確認
Hikaru Wakaura, Andriyan Bayu Suksmono(参考訳) 量子ビット数と量子ボリュームの両方の急速な発展、特に近年のイオントラップ量子コンピュータの発展により、FTQC(Fault-Tolerant-Quantum-Computer)が近い将来実現されることは間違いない。 FTQCは100論理単位に10,000の物理量子ビットを必要とするため、最初の大規模ノイズ中間スケール量子(NISQ)として使用される。 変分量子固有解法(VQE)は、100以上の論理量子ビットを持つ大規模FTQCが実現するまで用いられる。 したがってvqe法は,ftqc近傍の大きな資源を用いた解の精度と時間について改善する必要がある。 本稿では,これらの問題を管理するために,Tangent-Vector VQE(TVVQE)法を提案する。 この方法は試行エネルギーの接ベクトルのノルムを最適化する。 我々は,水素分子,ハバードモデル,リチウムハイドライド分子のエネルギー準位を計算し,TVVQEが他のVQE法よりも正確な基底および励起エネルギー準位を計算することができることを示した。

Observing rapid developments of both the number of qubits and quantum volume, especially with recent advances in ion-trap quantum computers, it is no doubt that Fault-Tolerant-Quantum-Computer (FTQC) will be realized in the near future. Since FTQC requires 10,000 physical qubits for every 100 logical ones, it will be used as the first large-scale Noisy-Intermediate-Scale-Quantum (NISQ) . The Variational Quantum Eigensolver (VQE) method will be used until large-scale FTQC with more than 100 logical qubits are realized. Therefore, the VQE method must be improved with respect to both accuracy and time to solution using large resource of the near FTQC . In this paper, we propose Tangent-Vector VQE (TVVQE) method to manage these issues. The method optimizes the norm of tangent vector of trial energy. We demonstrate the calculation of energy levels on Hydrogen molecule, Hubbard model, and Lithium Hydride molecule and reveal that TVVQE has a potential to calculate ground and excited energy levels more accurately than other VQE methods.
翻訳日:2023-05-18 21:36:24 公開日:2023-05-17
# IKEA ASMデータセット:アクション、オブジェクト、詩を通じて家具を組み立てる人々の理解

The IKEA ASM Dataset: Understanding People Assembling Furniture through Actions, Objects and Pose ( http://arxiv.org/abs/2007.00394v2 )

ライセンス: Link先を確認
Yizhak Ben-Shabat, Xin Yu, Fatemeh Sadat Saleh, Dylan Campbell, Cristian Rodriguez-Opazo, Hongdong Li, Stephen Gould(参考訳) 大規模ラベル付きデータセットの可用性は、さまざまなコンピュータビジョンタスクを解決するためにディープラーニングメソッドを適用する上で重要な要件である。 人間の活動を理解するという文脈では、既存の公開データセットはサイズが大きいが、しばしば単一のrgbカメラに限定され、フレーム単位またはクリップ単位のアクションアノテーションのみを提供する。 人間の活動に関するよりリッチな分析と理解を可能にするために、我々は、深さ、原子アクション、オブジェクトのセグメンテーション、人間のポーズを含む、300万フレーム、マルチビュー、家具組み立てビデオデータセットであるikea asmを紹介します。 さらに,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定といった重要な手法をベンチマークする。 データセットは、マルチモーダルおよびマルチビューデータを統合して、これらのタスクをより良く実行する、総合的な方法の開発を可能にする。

The availability of a large labeled dataset is a key requirement for applying deep learning methods to solve various computer vision tasks. In the context of understanding human activities, existing public datasets, while large in size, are often limited to a single RGB camera and provide only per-frame or per-clip action annotations. To enable richer analysis and understanding of human activities, we introduce IKEA ASM -- a three million frame, multi-view, furniture assembly video dataset that includes depth, atomic actions, object segmentation, and human pose. Additionally, we benchmark prominent methods for video action recognition, object segmentation and human pose estimation tasks on this challenging dataset. The dataset enables the development of holistic methods, which integrate multi-modal and multi-view data to better perform on these tasks.
翻訳日:2023-05-18 21:36:04 公開日:2023-05-17
# fedcomm: 秘密コミュニケーションの媒体としての連合学習

FedComm: Federated Learning as a Medium for Covert Communication ( http://arxiv.org/abs/2201.08786v3 )

ライセンス: Link先を確認
Dorjan Hitaj, Giulio Pagnotta, Briland Hitaj, Fernando Perez-Cruz, Luigi V. Mancini(参考訳) ディープラーニングの採用に関連するプライバシーへの影響を軽減するソリューションとして提案されたフェデレートラーニング(FL)は、多数の参加者が実際のプライベートトレーニングデータを公開することなく、ディープニューラルネットワークをトレーニングすることを可能にする。 これまで多くの研究がflのセキュリティとプライバシー特性を調査し、多くの革新的な攻撃と防衛戦略を生み出してきた。 本稿では,FL方式の通信能力について詳しく検討する。 特に,FL学習プロセスに関わる当事者が,FLを秘密通信媒体として利用して任意のメッセージを送ることができることを示す。 我々は、FLフレームワーク内でターゲットペイロードのロバストな共有と転送を可能にする、新しいマルチシステム包括通信技術であるFedCommを紹介する。 我々はFedCommがステルスなコミュニケーションチャネルを提供し、トレーニングプロセスの中断を最小限に抑えていることを示す。 実験の結果,FLプロシージャが収束する前に,FedCommはペイロードの100%をキロビットの順に配送できることがわかった。 また、FedCommはアプリケーションドメインと基盤となるFLスキームで使用されるニューラルネットワークアーキテクチャとは独立であることを示す。

Proposed as a solution to mitigate the privacy implications related to the adoption of deep learning, Federated Learning (FL) enables large numbers of participants to successfully train deep neural networks without having to reveal the actual private training data. To date, a substantial amount of research has investigated the security and privacy properties of FL, resulting in a plethora of innovative attack and defense strategies. This paper thoroughly investigates the communication capabilities of an FL scheme. In particular, we show that a party involved in the FL learning process can use FL as a covert communication medium to send an arbitrary message. We introduce FedComm, a novel multi-system covert-communication technique that enables robust sharing and transfer of targeted payloads within the FL framework. Our extensive theoretical and empirical evaluations show that FedComm provides a stealthy communication channel, with minimal disruptions to the training process. Our experiments show that FedComm successfully delivers 100% of a payload in the order of kilobits before the FL procedure converges. Our evaluation also shows that FedComm is independent of the application domain and the neural network architecture used by the underlying FL scheme.
翻訳日:2023-05-18 21:26:26 公開日:2023-05-17
# CloudWalker:Randomが3Dポイントのクラウド形状分析に参入

CloudWalker: Random walks for 3D point cloud shape analysis ( http://arxiv.org/abs/2112.01050v4 )

ライセンス: Link先を確認
Adi Mesika, Yizhak Ben-Shabat and Ayellet Tal(参考訳) 点雲は3次元形状を表す方法として注目されているが、その不規則な構造は深層学習法に挑戦している。 本稿では,ランダムウォークを用いた3次元形状学習手法であるCloudWalkerを提案する。 以前の作業では、畳み込みニューラルネットワーク(CNN)を適応させたり、グリッドやメッシュ構造を3Dポイントクラウドに配置する試みがあった。 この研究は、与えられた点集合から形状を表現および学習するための異なるアプローチを示す。 鍵となるアイデアは、3Dオブジェクトの異なる領域を探索するために、複数のランダムウォークによって設定された点に構造を加えることである。 そして、各点とウォークの表現を学習し、推論時に複数のウォーク予測を集約する。 本手法は,2つの3次元形状解析タスク,分類と検索において最先端の結果を得る。

Point clouds are gaining prominence as a method for representing 3D shapes, but their irregular structure poses a challenge for deep learning methods. In this paper we propose CloudWalker, a novel method for learning 3D shapes using random walks. Previous works attempt to adapt Convolutional Neural Networks (CNNs) or impose a grid or mesh structure to 3D point clouds. This work presents a different approach for representing and learning the shape from a given point set. The key idea is to impose structure on the point set by multiple random walks through the cloud for exploring different regions of the 3D object. Then we learn a per-point and per-walk representation and aggregate multiple walk predictions at inference. Our approach achieves state-of-the-art results for two 3D shape analysis tasks: classification and retrieval.
翻訳日:2023-05-18 21:25:43 公開日:2023-05-17
# 量子アプリケーション用超低雑音増幅器(QLNA)の設計

Design of Ultra-Low Noise Amplifier for Quantum Applications (QLNA) ( http://arxiv.org/abs/2111.15358v3 )

ライセンス: Link先を確認
Ahmad Salmanogli(参考訳) 本稿では、主に量子アプリケーションで使用可能な超低雑音増幅器の設計を強調する。 設計回路はノイズフィギュアとその改善に集中しており、量子関連アプリケーションの場合、回路ノイズ温度は0.4K程度でなければならない。 この課題は非常に難しいと思われるが、本研究は回路の設計、回路のミスマッチと反射係数の最小化、回路トランスコンダクタンスの向上、回路のノイズフィギュアを可能な限り効率的に改善することに焦点を当てている。 その結果,10kで動作する回路のユニークな設計のために,0.009db程度のノイズフィギュアに到達する可能性が示唆された。 量子理論を用いた導出関係は、ノイズフィギュアを最適化するために設計がどの量に集中すべきかを明らかにする。 例えば、回路フォトニックモードに依存する臨界量としての回路利得電力は、ノイズ図形が直接影響を受ける理論的に導出される。 最後に、量子理論と工学的アプローチを融合することで、ノイズフィギュアを極力最小化する高効率回路を設計する。

The present article mainly emphasizes the design of the ultra-low-noise amplifier that can be used in quantum applications. The design circuit concentrates on the noise figure and its improvement, because for quantum-associated applications, the circuit noise temperature should be around 0.4 K. It means that the designed circuit is comparable with the Josephson Junction amplifier. Although this task seems to be highly challenging, this work focuses on engineering the circuit, minimizing the mismatch and reflection coefficients in the circuit, and enhancing the circuit transconductance to improve the noise figure in the circuit as efficiently as possible. The results indicated the possibility of reaching the noise figure around 0.009 dB for a unique design of the circuit operating at 10 K. Unlike the traditional way, herein, the circuit is analyzed using quantum mechanical theory to analyze the circuit completely. The derived relationship using quantum theory reveals that which quantities the design should focus on to optimize the noise figure. For instance, the circuit gain power as a critical quantity dependent on the circuit photonic modes is theoretically derived by which the noise figure is directly affected. Finally, merging quantum theory with engineering approaches leads to designing a highly efficient circuit for strongly minimizing noise figure.
翻訳日:2023-05-18 21:25:31 公開日:2023-05-17
# 対角化可能な集団雑音を用いたGroverの探索アルゴリズムの性能

Performance of Grover's search algorithm with diagonalizable collective noises ( http://arxiv.org/abs/2111.12219v2 )

ライセンス: Link先を確認
Minghua Pan, Taiping Xiong and Shenggen Zheng(参考訳) グローバーの探索アルゴリズム(gsa)は、量子ノイズにさらされると二次速度が失われることで知られる。 本研究は,この結果に部分的に同意し,その結果を述べる。 まず, GSAのオーラクルに作用する様々な典型的な対角音について検討し, 繰り返し数の増加に伴い成功確率が減少し, 約1/2$の振動が生じることを示した。 第2に,ビットフリップやビット位相フリップノイズなどの特定の種類のノイズによって,GSAの性能を向上できることを示す。 最後に、ビット相フリップノイズの雑音閾値を判定し、所望の成功確率を達成するとともに、ビット相フリップノイズを持つgsaが従来の雑音よりも優れていることを示す。 これらの結果は、ノイズを伴う量子アルゴリズムの実現可能性の評価や機械学習への応用など、ノイズの中規模量子(nisq)コンピューティングにおける新たな研究の道筋を示唆する。

Grover's search algorithm (GSA) is known to experience a loss of its quadratic speedup when exposed to quantum noise. In this study, we partially agree with this result and present our findings. First, we examine different typical diagonalizable noises acting on the oracles in GSA and find that the success probability decreases and oscillates around $1/2$ as the number of iterations increases. Secondly, our results show that the performance of GSA can be improved by certain types of noise, such as bit flip and bit-phase flip noise. Finally, we determine the noise threshold for bit-phase flip noise to achieve a desired success probability and demonstrate that GSA with bit-phase flip noise still outperforms its classical counterpart. These results suggest new avenues for research in noisy intermediate-scale quantum (NISQ) computing, such as evaluating the feasibility of quantum algorithms with noise and exploring their applications in machine learning.
翻訳日:2023-05-18 21:25:11 公開日:2023-05-17
# 非線形作用素の擬逆変換の理論的基礎

Theoretical Foundations for Pseudo-Inversion of Nonlinear Operators ( http://arxiv.org/abs/2111.10755v2 )

ライセンス: Link先を確認
Eyal Gofer and Guy Gilboa(参考訳) ムーア・ペンローズ逆は物理学、統計学、工学の様々な分野で広く使われている。 これは、過剰完全データの場合の線型作用素の反転の概念をうまく捉えている。 データ科学では、非線形演算子は広く用いられる。 本稿では,非線形作用素に対する擬逆(PI)の基本特性を特徴付ける。 概念は広く定義されている。 最初は一般集合に対して、次にノルム空間の精製である。 ノルム空間のPIは、作用素が行列であるときにムーア・ペンローズ逆数が得られる。 PIの存在と特異性の条件を示し、連続性や作用素合成や射影作用素の値など、その性質を研究する理論的結果を確立する。 解析式は、ハードスレッディングやソフトスレッディングやReLUのようなよく知られた非可逆な非線形作用素のPIに対して与えられる。 最後に,神経層を分析し,ウェーブレット閾値との関係について考察する。

The Moore-Penrose inverse is widely used in physics, statistics, and various fields of engineering. It captures well the notion of inversion of linear operators in the case of overcomplete data. In data science, nonlinear operators are extensively used. In this paper we characterize the fundamental properties of a pseudo-inverse (PI) for nonlinear operators. The concept is defined broadly. First for general sets, and then a refinement for normed spaces. The PI for normed spaces yields the Moore-Penrose inverse when the operator is a matrix. We present conditions for existence and uniqueness of a PI and establish theoretical results investigating its properties, such as continuity, its value for operator compositions and projection operators, and others. Analytic expressions are given for the PI of some well-known, non-invertible, nonlinear operators, such as hard- or soft-thresholding and ReLU. Finally, we analyze a neural layer and discuss relations to wavelet thresholding.
翻訳日:2023-05-18 21:24:53 公開日:2023-05-17
# サブサンプリングによるネットワーク埋め込みの漸近

Asymptotics of Network Embeddings Learned via Subsampling ( http://arxiv.org/abs/2107.02363v4 )

ライセンス: Link先を確認
Andrew Davison and Morgane Austern(参考訳) ネットワークデータは、ノード分類、ノードクラスタリング、リンク予測などのタスクを含む、現代の機械学習においてユビキタスである。 頻繁なアプローチは、ベクトル値データのために開発されたアルゴリズムを適用するネットワークのユークリッド埋め込みを学ぶことから始まる。 大規模ネットワークでは、サブサンプリング方式を自由に選択できる確率勾配法を用いて埋め込みを学習する。 このような方法の強い実証的性能にもかかわらず、理論的にはよく理解されていない。 私たちの作品は、node2vecのようなサブサンプリングアプローチを使って表現メソッドを単一の統一フレームワークにカプセル化します。 グラフが交換可能であると仮定すると、学習された埋め込みベクトルの分布は漸近的に分離する。 さらに,損失関数の選択と埋め込み次元を含む潜在パラメータの観点から,漸近分布を特徴付け,収束率を与えた。 これは、埋め込みベクトルが何を表現し、これらのメソッドが下流のタスクでいかにうまく機能するかを理解するための理論的基盤を提供する。 特に、一般的に使用される損失関数は、フィッシャー一貫性の欠如のような欠点をもたらす可能性がある。

Network data are ubiquitous in modern machine learning, with tasks of interest including node classification, node clustering and link prediction. A frequent approach begins by learning an Euclidean embedding of the network, to which algorithms developed for vector-valued data are applied. For large networks, embeddings are learned using stochastic gradient methods where the sub-sampling scheme can be freely chosen. Despite the strong empirical performance of such methods, they are not well understood theoretically. Our work encapsulates representation methods using a subsampling approach, such as node2vec, into a single unifying framework. We prove, under the assumption that the graph is exchangeable, that the distribution of the learned embedding vectors asymptotically decouples. Moreover, we characterize the asymptotic distribution and provided rates of convergence, in terms of the latent parameters, which includes the choice of loss function and the embedding dimension. This provides a theoretical foundation to understand what the embedding vectors represent and how well these methods perform on downstream tasks. Notably, we observe that typically used loss functions may lead to shortcomings, such as a lack of Fisher consistency.
翻訳日:2023-05-18 21:24:18 公開日:2023-05-17
# 階層型学習:共変量シフト下での学習改善のための汎用統計手法

Stratified Learning: A General-Purpose Statistical Method for Improved Learning under Covariate Shift ( http://arxiv.org/abs/2106.11211v2 )

ライセンス: Link先を確認
Maximilian Autenrieth, David A. van Dyk, Roberto Trotta, David C. Stenning(参考訳) 本稿では,学習セットが代表的でない場合の教師付き学習を改善するための,単純,統計的,理論的に正当化された手法を提案する。 因果推論において確立された方法論を基礎として,共変量シフトの影響を条件付けによって低減・排除できることを示す。 実際には、推定確率スコアに基づいてデータを分割して構築したストラタ内に学習者を適合させることで、ほぼ平衡した共変量と大幅に改良された目標予測へと導かれる。 本稿では,宇宙論における2つの現代研究課題に対する汎用手法の有効性を実証する。 Sloan Data Sky Survey (SDSS)データから既存の銀河赤方偏移の条件付き密度推定を改善する。

We propose a simple, statistically principled, and theoretically justified method to improve supervised learning when the training set is not representative, a situation known as covariate shift. We build upon a well-established methodology in causal inference, and show that the effects of covariate shift can be reduced or eliminated by conditioning on propensity scores. In practice, this is achieved by fitting learners within strata constructed by partitioning the data based on the estimated propensity scores, leading to approximately balanced covariates and much-improved target prediction. We demonstrate the effectiveness of our general-purpose method on two contemporary research questions in cosmology, outperforming state-of-the-art importance weighting methods. We obtain the best reported AUC (0.958) on the updated "Supernovae photometric classification challenge", and we improve upon existing conditional density estimation of galaxy redshift from Sloan Data Sky Survey (SDSS) data.
翻訳日:2023-05-18 21:24:00 公開日:2023-05-17
# DiGS : 無向点雲に対する拡散誘導形暗黙的ニューラル表現

DiGS : Divergence guided shape implicit neural representation for unoriented point clouds ( http://arxiv.org/abs/2106.10811v3 )

ライセンス: Link先を確認
Yizhak Ben-Shabat, Chamin Hewa Koneputugodage, Stephen Gould(参考訳) 形状暗黙的神経表現(INR)は近年,形状解析や再構成作業に有効であることが示されている。 既存のINRは、形状の暗黙のレベルセットを学ぶために点座標を必要とする。 通常のベクトルが各点で利用できる場合、高い忠実度表現が学習できるが、通常のベクトルは生データとして提供されないことが多い。 さらに, この手法の初期化は, 表面再構成に重要な役割を果たすことが示されている。 本稿では,通常のベクトルを入力として必要としない分岐誘導型形状表現学習手法を提案する。 距離関数の発散にソフト制約を組み込むことは、各点における未知の正規に一致する勾配を確実に指向する滑らかな解を好んでおり、場合によっては、基底真理正規ベクトルを直接使用するアプローチよりもさらに優れていることを示す。 さらに, 正弦波INRに対する新しい幾何学的初期化法を導入し, 所望の解への収束をさらに改善する。 表面再構成と形状空間学習の課題に対するアプローチの有効性を評価し,他の非オブジェクト指向手法と比較してSOTA性能を示す。 コードとモデルのパラメータは、プロジェクトページhttps://chumbyte.github.io/digs-site/で利用可能です。

Shape implicit neural representations (INRs) have recently shown to be effective in shape analysis and reconstruction tasks. Existing INRs require point coordinates to learn the implicit level sets of the shape. When a normal vector is available for each point, a higher fidelity representation can be learned, however normal vectors are often not provided as raw data. Furthermore, the method's initialization has been shown to play a crucial role for surface reconstruction. In this paper, we propose a divergence guided shape representation learning approach that does not require normal vectors as input. We show that incorporating a soft constraint on the divergence of the distance function favours smooth solutions that reliably orients gradients to match the unknown normal at each point, in some cases even better than approaches that use ground truth normal vectors directly. Additionally, we introduce a novel geometric initialization method for sinusoidal INRs that further improves convergence to the desired solution. We evaluate the effectiveness of our approach on the task of surface reconstruction and shape space learning and show SOTA performance compared to other unoriented methods. Code and model parameters available at our project page https://chumbyte.github.io/DiGS-Site/.
翻訳日:2023-05-18 21:23:40 公開日:2023-05-17
# ジャコビアン制御によるガウスカーネルリッジ回帰の帯域選択

Bandwidth Selection for Gaussian Kernel Ridge Regression via Jacobian Control ( http://arxiv.org/abs/2205.11956v3 )

ライセンス: Link先を確認
Oskar Allerbo and Rebecka J\"ornsten(参考訳) ほとんどの機械学習手法はハイパーパラメータのチューニングを必要とする。 ガウス核を持つカーネルリッジ回帰では、ハイパーパラメータは帯域幅である。 帯域幅はカーネルの長さスケールを規定し、優れた一般化モデルを得るために慎重に選択する必要がある。 帯域幅選択のデフォルトの方法はクロスバリデーションと限界極大化であり、計算コストが高いにもかかわらず良い結果をもたらすことが多い。 さらに,これらの手法による推定値のばらつきは,特にトレーニングデータが少ない場合には顕著である。 ヤコビアン正則化に着想を得て、ガウス核によるカーネルリッジ回帰によって推定される関数の微分がカーネル帯域に依存するかの近似式を定式化する。 次に、この表現を用いてジャコビアン制御に基づく閉形式、計算量的フェザーライト、帯域選択ヒューリスティックを提案する。 さらに、ヤコビアン式は、推定関数の滑らかさとトレーニングデータカーネル行列の条件付けとの間のトレードオフである帯域幅選択を照らす。 本研究では,実データと合成データについて,クロスバリデーションや限界度最大化と比較して,帯域選択の面ではかなり高速かつ安定であることを示す。

Most machine learning methods require tuning of hyper-parameters. For kernel ridge regression with the Gaussian kernel, the hyper-parameter is the bandwidth. The bandwidth specifies the length-scale of the kernel and has to be carefully selected in order to obtain a model with good generalization. The default methods for bandwidth selection is cross-validation and marginal likelihood maximization, which often yields good results, albeit at high computational costs. Furthermore, the estimates provided by these methods tend to have very high variance, especially when training data are scarce. Inspired by Jacobian regularization, we formulate an approximate expression for how the derivatives of the functions inferred by kernel ridge regression with the Gaussian kernel depend on the kernel bandwidth. We then use this expression to propose a closed-form, computationally feather-light, bandwidth selection heuristic based on controlling the Jacobian. In addition, the Jacobian expression illuminates how the bandwidth selection is a trade-off between the smoothness of the inferred function, and the conditioning of the training data kernel matrix. We show on real and synthetic data that compared to cross-validation and marginal likelihood maximization, our method is considerably faster and considerably more stable in terms of bandwidth selection.
翻訳日:2023-05-18 21:16:59 公開日:2023-05-17
# 部分ラベルを用いた複数ラベル認識のための異種意味伝達

Heterogeneous Semantic Transfer for Multi-label Recognition with Partial Labels ( http://arxiv.org/abs/2205.11131v2 )

ライセンス: Link先を確認
Tianshui Chen, Tao Pu, Lingbo Liu, Yukai Shi, Zhijing Yang, Liang Lin(参考訳) 部分ラベル付きマルチラベル画像認識(MLR-PL)では,各画像に未知なラベルがある場合,アノテーションのコストを大幅に削減し,大規模なMLRを実現する。 これらの相関関係は、既知のラベルが持つ知識を伝達して未知のラベルを検索し、MLR-PLタスクの性能を向上させるのに役立つ(図1参照)。 本研究では,画像内および画像間の意味相関を探索し,未知ラベルに対する擬似ラベルを生成するために,未知ラベルの知識を転送する2つの相補的トランスファーモジュールからなる,新しいヘテロジニアス・セマンティクス・トランスファー(hst)フレームワークを提案する。 具体的には、画像内意味伝達(ist)モジュールが画像毎に画像固有のラベル共起行列を学習し、既知のラベルをマップしてこれらの行列に基づいて未知のラベルを補完する。 さらに、クロスイメージトランスファー(CST)モジュールは、カテゴリ固有の特徴-プロトタイプの類似性を学習し、対応するプロトタイプと高い類似度を持つ未知のラベルを補完する。 最後に、既知のおよび生成された擬似ラベルは、MLRモデルのトレーニングに使用される。 Microsoft COCO、Visual Genome、Pascal VOC 2007データセットで実施された大規模な実験は、提案されたHSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスを達成することを示している。 具体的には、これまで開発されてきたアルゴリズムの結果より、平均精度(map)が1.4%、3.3%、0.4%向上した。

Multi-label image recognition with partial labels (MLR-PL), in which some labels are known while others are unknown for each image, may greatly reduce the cost of annotation and thus facilitate large-scale MLR. We find that strong semantic correlations exist within each image and across different images, and these correlations can help transfer the knowledge possessed by the known labels to retrieve the unknown labels and thus improve the performance of the MLR-PL task (see Figure 1). In this work, we propose a novel heterogeneous semantic transfer (HST) framework that consists of two complementary transfer modules that explore both within-image and cross-image semantic correlations to transfer the knowledge possessed by known labels to generate pseudo labels for the unknown labels. Specifically, an intra-image semantic transfer (IST) module learns an image-specific label co-occurrence matrix for each image and maps the known labels to complement the unknown labels based on these matrices. Additionally, a cross-image transfer (CST) module learns category-specific feature-prototype similarities and then helps complement the unknown labels that have high degrees of similarity with the corresponding prototypes. Finally, both the known and generated pseudo labels are used to train MLR models. Extensive experiments conducted on the Microsoft COCO, Visual Genome, and Pascal VOC 2007 datasets show that the proposed HST framework achieves superior performance to that of current state-of-the-art algorithms. Specifically, it obtains mean average precision (mAP) improvements of 1.4%, 3.3%, and 0.4% on the three datasets over the results of the best-performing previously developed algorithm.
翻訳日:2023-05-18 21:16:38 公開日:2023-05-17
# ビデオデータにおける異なるモーションタイプ分離のための未学習ジェネレータネットワークによる潜時空間のゆがみ

Latent-space disentanglement with untrained generator networks for the isolation of different motion types in video data ( http://arxiv.org/abs/2205.10367v2 )

ライセンス: Link先を確認
Abdullah Abdullah and Martin Holler and Karl Kunisch and Malena Sabate Landman(参考訳) ビデオデータ中の異なるタイプの動きを分離することは、ビデオ解析において非常に関連する問題である。 例えば、動的な医学的、生物学的イメージングにおいて、興味のあるダイナミクスの分析とさらなる処理は、測定対象の運動のような追加の望ましくないダイナミクスによってしばしば複雑になる。 本研究は,未学習のジェネレータネットワークによる映像データの表現と,基礎となるダイナミクスに関する最小の1次元情報を用いた潜時空間不等角化手法を組み合わせることで,異なる非線型動作タイプを効率的に分離できることを実証的に示す。 特に、そのような表現は、任意の運動型の選択を凍結し、他の関心の力学の正確な独立表現を得ることを可能にする。 そのような表現を得るにはトレーニングデータセットの事前トレーニングを必要としない。つまり、ジェネレータネットワークのすべてのパラメータは、単一のビデオから直接学習される。

Isolating different types of motion in video data is a highly relevant problem in video analysis. Applications can be found, for example, in dynamic medical or biological imaging, where the analysis and further processing of the dynamics of interest is often complicated by additional, unwanted dynamics, such as motion of the measurement subject. In this work, it is empirically shown that a representation of video data via untrained generator networks, together with a specific technique for latent space disentanglement that uses minimal, one-dimensional information on some of the underlying dynamics, allows to efficiently isolate different, highly non-linear motion types. In particular, such a representation allows to freeze any selection of motion types, and to obtain accurate independent representations of other dynamics of interest. Obtaining such a representation does not require any pre-training on a training data set, i.e., all parameters of the generator network are learned directly from a single video.
翻訳日:2023-05-18 21:16:07 公開日:2023-05-17
# 視点投影による3次元顔復元に向けて:モノクロ画像からの6DoF顔画像の推定

Towards 3D Face Reconstruction in Perspective Projection: Estimating 6DoF Face Pose from Monocular Image ( http://arxiv.org/abs/2205.04126v2 )

ライセンス: Link先を確認
Yueying Kao and Bowen Pan and Miao Xu and Jiangjing Lyu and Xiangyu Zhu and Yuanzhang Chang and Xiaobo Li and Zhen Lei(参考訳) 3次元顔再建では, 鏡視投影の代替として直交投影法が広く採用されている。 この近似は、カメラと顔の距離が十分遠くてもうまく機能する。 しかし、顔がカメラに非常に近づいたり、カメラ軸に沿って動いたりするシナリオでは、遠近射影の歪みによる不正確な復元と不安定な時間的嵌合に悩まされる。 本稿では,視線投影による単一像の3次元顔再構成の課題に対処することを目的とする。 具体的には、ディープニューラルネットワークであるパースペクティブネットワーク(perspnet)が提案され、正準空間における3d顔形状を同時に再構成し、2dピクセルと3dポイントの対応を学習し、それによって6dof(6自由度)の顔ポーズを推定して視点投影を表現できる。 また,大規模なarkitfaceデータセットをコントリビュートすることで,3dポーズパラメータをアノテートした902,724枚の2d顔画像を含む視点投影のシナリオに基づいて,3d顔再構成ソリューションのトレーニングと評価を可能にする。 実験の結果,本手法は最先端手法よりも有意差が認められた。 コードとデータはhttps://github.com/cbsropenproject/6dof_faceで入手できる。

In 3D face reconstruction, orthogonal projection has been widely employed to substitute perspective projection to simplify the fitting process. This approximation performs well when the distance between camera and face is far enough. However, in some scenarios that the face is very close to camera or moving along the camera axis, the methods suffer from the inaccurate reconstruction and unstable temporal fitting due to the distortion under the perspective projection. In this paper, we aim to address the problem of single-image 3D face reconstruction under perspective projection. Specifically, a deep neural network, Perspective Network (PerspNet), is proposed to simultaneously reconstruct 3D face shape in canonical space and learn the correspondence between 2D pixels and 3D points, by which the 6DoF (6 Degrees of Freedom) face pose can be estimated to represent perspective projection. Besides, we contribute a large ARKitFace dataset to enable the training and evaluation of 3D face reconstruction solutions under the scenarios of perspective projection, which has 902,724 2D facial images with ground-truth 3D face mesh and annotated 6DoF pose parameters. Experimental results show that our approach outperforms current state-of-the-art methods by a significant margin. The code and data are available at https://github.com/cbsropenproject/6dof_face.
翻訳日:2023-05-18 21:15:49 公開日:2023-05-17
# super images -- 3次元医用画像解析の新しい2次元展望

Super Images -- A New 2D Perspective on 3D Medical Imaging Analysis ( http://arxiv.org/abs/2205.02847v2 )

ライセンス: Link先を確認
Ikboljon Sobirov, Numan Saeed, and Mohammad Yaqub(参考訳) 医用画像解析において、深層学習は有望な結果を示した。 医用画像のセグメント化にはボリュームデータに頻繁に依存し, 3D アーキテクチャの活用が必要であり, クロススライス・コンテクストを捉える能力が期待できる。 しかし、3次元畳み込み、最大プーリング、アップ畳み込み、その他の操作がこれらのネットワークで利用されるため、これらのアーキテクチャは、しばしば2次元の等価値よりも時間と計算の点で非効率である。 さらに、事前訓練されたモデル重量は少なく、事前訓練は難しいことが多い。 トレーニング中に3次元知識を効率よく埋め込みながら,3次元データを扱うシンプルな2次元手法を提案する。 ボリュームデータを2次元スーパーイメージに変換し、2次元ネットワークでセグメント化することでこれらの課題を解決する。 本手法は3次元画像にスライスを並べて超高解像度画像を生成する。 深層ニューラルネットワークは、深層情報を失うことなく、これらの特性を空間的に捉え、学習することを期待する。 本研究は,ボリュームデータを扱う際の新たな視点を示し,cnnとvitネットワークと自己教師付き事前学習を用いて仮説を検証した。 2次元ネットワークのみを利用した3次元ネットワークを実現する一方で、モデルの複雑さはおよそ3倍に減少する。 ボリュームデータは比較的少ないため、我々のアプローチはより多くの研究、特に医用画像解析に役立てることが期待できる。

In medical imaging analysis, deep learning has shown promising results. We frequently rely on volumetric data to segment medical images, necessitating the use of 3D architectures, which are commended for their capacity to capture interslice context. However, because of the 3D convolutions, max pooling, up-convolutions, and other operations utilized in these networks, these architectures are often more inefficient in terms of time and computation than their 2D equivalents. Furthermore, there are few 3D pretrained model weights, and pretraining is often difficult. We present a simple yet effective 2D method to handle 3D data while efficiently embedding the 3D knowledge during training. We propose transforming volumetric data into 2D super images and segmenting with 2D networks to solve these challenges. Our method generates a super-resolution image by stitching slices side by side in the 3D image. We expect deep neural networks to capture and learn these properties spatially despite losing depth information. This work aims to present a novel perspective when dealing with volumetric data, and we test the hypothesis using CNN and ViT networks as well as self-supervised pretraining. While attaining equal, if not superior, results to 3D networks utilizing only 2D counterparts, the model complexity is reduced by around threefold. Because volumetric data is relatively scarce, we anticipate that our approach will entice more studies, particularly in medical imaging analysis.
翻訳日:2023-05-18 21:15:25 公開日:2023-05-17
# 非拘束フレームからの3次元アバター再構成のためのMVP-Humanデータセット

MVP-Human Dataset for 3D Human Avatar Reconstruction from Unconstrained Frames ( http://arxiv.org/abs/2204.11184v2 )

ライセンス: Link先を確認
Xiangyu Zhu, Tingting Liao, Jiangjing Lyu, Xiang Yan, Yunfeng Wang, Kan Guo, Qiong Cao, Stan Z. Li, and Zhen Lei(参考訳) 本稿では,複数の制約のないフレームから3次元アバターを再構成する,カメラキャリブレーション,キャプチャ空間,制約された動作の仮定に依存しない,新たな問題を考える。 この問題は、複数の制約のない画像を入力として取り、標準空間の形状とスキニングアバターを生成し、1つのフィードフォワードパスで終了するフレームワークによって解決されるべきである。 そこで本研究では,複数の画像から得られた画像の特徴をアライメントして統合し,その形状を表すピクセルにアライメントされた暗黙関数を推定することにより,暗黙のスキンフィールドを多段階的に再構築する野生の3次元アバター再構成(arwild)を提案する。 新しいフレームワークのトレーニングとテストを可能にするため、400人の被験者からなる大規模データセットMVP-Human(Multi-ViewとMulti-ViewとMulti-Pose 3D Human)をコントリビュートし、それぞれ異なるポーズで15のスキャンと8のビューイメージを持ち、合計6,000の3Dスキャンと48,000の画像を提供する。 全体として、特定のネットワークアーキテクチャと多様なデータにより、トレーニングされたモデルは、制約のないフレームから3Dアバターの再構築を可能にし、最先端のパフォーマンスを達成する。

In this paper, we consider a novel problem of reconstructing a 3D human avatar from multiple unconstrained frames, independent of assumptions on camera calibration, capture space, and constrained actions. The problem should be addressed by a framework that takes multiple unconstrained images as inputs, and generates a shape-with-skinning avatar in the canonical space, finished in one feed-forward pass. To this end, we present 3D Avatar Reconstruction in the wild (ARwild), which first reconstructs the implicit skinning fields in a multi-level manner, by which the image features from multiple images are aligned and integrated to estimate a pixel-aligned implicit function that represents the clothed shape. To enable the training and testing of the new framework, we contribute a large-scale dataset, MVP-Human (Multi-View and multi-Pose 3D Human), which contains 400 subjects, each of which has 15 scans in different poses and 8-view images for each pose, providing 6,000 3D scans and 48,000 images in total. Overall, benefits from the specific network architecture and the diverse data, the trained model enables 3D avatar reconstruction from unconstrained frames and achieves state-of-the-art performance.
翻訳日:2023-05-18 21:15:03 公開日:2023-05-17
# 絶対的誤り: 負の決定論的情報による弱い教師付き物体検出の促進

Absolute Wrong Makes Better: Boosting Weakly Supervised Object Detection via Negative Deterministic Information ( http://arxiv.org/abs/2204.10068v2 )

ライセンス: Link先を確認
Guanchun Wang, Xiangrong Zhang, Zelin Peng, Xu Tang, Huiyu Zhou, Licheng Jiao(参考訳) 弱教師付きオブジェクト検出(WSOD)は、画像レベルのラベル(画像全体のインスタンスのカテゴリなど)をオブジェクト検出器のトレーニングに使用する、困難なタスクである。 既存の多くのメソッドはMIL(Multiple Case Learning)パラダイムに従っており、有望なパフォーマンスを実現している。 しかし、決定論的情報の欠如は、部分的な支配と欠落に繋がる。 本稿は,WSODにおける決定論的情報の特定と活用に焦点を当てる。 負のインスタンス(すなわち全く間違ったインスタンス)が、以前の研究の多くで無視され、通常は貴重な決定論的情報を含んでいることを発見した。 そこで本研究では,WSOD改善のための負決定性情報(NDI)に基づく手法,すなわちNDI-WSODを提案する。 具体的には,NDIの収集と活用の2段階からなる。 収集段階では,NDIをオンラインの負のインスタンスから識別し,蒸留するプロセスをいくつか設計する。 評価段階において,抽出したNDIを用いて,新たな負のコントラスト学習機構と負のガイド付きインスタンス選択戦略を構築し,それぞれが部分支配と欠落するインスタンスの問題に対処する。 VOC 2007 や VOC 2012 や MS COCO などの公開ベンチマークによる実験結果から,本手法が良好な性能を発揮することが示された。

Weakly supervised object detection (WSOD) is a challenging task, in which image-level labels (e.g., categories of the instances in the whole image) are used to train an object detector. Many existing methods follow the standard multiple instance learning (MIL) paradigm and have achieved promising performance. However, the lack of deterministic information leads to part domination and missing instances. To address these issues, this paper focuses on identifying and fully exploiting the deterministic information in WSOD. We discover that negative instances (i.e. absolutely wrong instances), ignored in most of the previous studies, normally contain valuable deterministic information. Based on this observation, we here propose a negative deterministic information (NDI) based method for improving WSOD, namely NDI-WSOD. Specifically, our method consists of two stages: NDI collecting and exploiting. In the collecting stage, we design several processes to identify and distill the NDI from negative instances online. In the exploiting stage, we utilize the extracted NDI to construct a novel negative contrastive learning mechanism and a negative guided instance selection strategy for dealing with the issues of part domination and missing instances, respectively. Experimental results on several public benchmarks including VOC 2007, VOC 2012 and MS COCO show that our method achieves satisfactory performance.
翻訳日:2023-05-18 21:14:38 公開日:2023-05-17
# 境界治療効果に対する確率因果計画法

Stochastic Causal Programming for Bounding Treatment Effects ( http://arxiv.org/abs/2202.10806v4 )

ライセンス: Link先を確認
Kirtan Padh, Jakob Zeitler, David Watson, Matt Kusner, Ricardo Silva and Niki Kilbertus(参考訳) 因果効果の推定は自然科学や社会科学の多くのタスクにおいて重要である。 連続部分的識別問題に対するアルゴリズムを設計する: 測定不能な共起が識別を不可能にするとき、多変量連続処理の影響を限定する。 具体的には、制約付き最適化問題における目的関数として因果効果を適用し、これらの関数を最小化/最大化する。 フレキシブルな学習アルゴリズムとモンテカルロ法を組み合わせて,確率的因果計画法という名の解群を実装した。 特に,補助変数を前処理集合と後処理集合にクラスタリングし,細粒度因果グラフを容易に特定できないような設定において,ジェネリックフレームワークを効率的に定式化する方法を示す。 これらの設定では、隠れた共通原因の分布ファミリーを完全に指定する必要がなくなる。 モンテカルロ計算も非常に単純化されており、アルゴリズムは代替法に対してより計算的に安定である。

Causal effect estimation is important for many tasks in the natural and social sciences. We design algorithms for the continuous partial identification problem: bounding the effects of multivariate, continuous treatments when unmeasured confounding makes identification impossible. Specifically, we cast causal effects as objective functions within a constrained optimization problem, and minimize/maximize these functions to obtain bounds. We combine flexible learning algorithms with Monte Carlo methods to implement a family of solutions under the name of stochastic causal programming. In particular, we show how the generic framework can be efficiently formulated in settings where auxiliary variables are clustered into pre-treatment and post-treatment sets, where no fine-grained causal graph can be easily specified. In these settings, we can avoid the need for fully specifying the distribution family of hidden common causes. Monte Carlo computation is also much simplified, leading to algorithms which are more computationally stable against alternatives.
翻訳日:2023-05-18 21:13:26 公開日:2023-05-17
# 裁判所決定における法的議論のマイニング

Mining Legal Arguments in Court Decisions ( http://arxiv.org/abs/2208.06178v2 )

ライセンス: Link先を確認
Ivan Habernal, Daniel Faber, Nicola Recchia, Sebastian Bretthauer, Iryna Gurevych, Indra Spiecker genannt D\"ohmann, Christoph Burchard(参考訳) 法的談話における議論の同定、分類、分析は、議論採掘分野の開始以来、顕著な研究分野であった。 しかしながら、自然言語処理(NLP)研究者は、裁判所の決定における議論のモデル化と注釈付けの方法と、法の専門家が法的議論を理解し分析する方法との間に大きな違いがある。 計算的アプローチは一般的に一般的な前提や主張に対する議論を単純化するが、法律研究における議論は、典型的には、特定の場合や一般法の適用に関する洞察を得るために重要なリッチな類型論を示す。 この問題に対処し、フィールドを前進させるためにいくつかの重要な貢献をする。 まず,欧州人権裁判所(ECHR)の手続における法的議論のための新たな注釈体系を設計し,法的議論研究の理論と実践に深く根ざしている。 第二に、373の判決(トークン2.3Mと15kの注釈付き引数)の大きなコーパスをコンパイルし、注釈付けします。 最後に、法的なnlpドメインにおける最先端モデルを上回る議論マイニングモデルを訓練し、専門家による徹底的な評価を提供する。 すべてのデータセットとソースコードは、open lincensesのhttps://github.com/trusthlt/mining-legal-argumentsで入手できる。

Identifying, classifying, and analyzing arguments in legal discourse has been a prominent area of research since the inception of the argument mining field. However, there has been a major discrepancy between the way natural language processing (NLP) researchers model and annotate arguments in court decisions and the way legal experts understand and analyze legal argumentation. While computational approaches typically simplify arguments into generic premises and claims, arguments in legal research usually exhibit a rich typology that is important for gaining insights into the particular case and applications of law in general. We address this problem and make several substantial contributions to move the field forward. First, we design a new annotation scheme for legal arguments in proceedings of the European Court of Human Rights (ECHR) that is deeply rooted in the theory and practice of legal argumentation research. Second, we compile and annotate a large corpus of 373 court decisions (2.3M tokens and 15k annotated argument spans). Finally, we train an argument mining model that outperforms state-of-the-art models in the legal NLP domain and provide a thorough expert-based evaluation. All datasets and source codes are available under open lincenses at https://github.com/trusthlt/mining-legal-arguments.
翻訳日:2023-05-18 21:07:47 公開日:2023-05-17
# 拡張gupの定式化と運動量カットオフの役割

Extended GUP formulation and the role of momentum cut-off ( http://arxiv.org/abs/2208.03101v2 )

ライセンス: Link先を確認
Sebastiano Segreto, Giovanni Montani(参考訳) 我々は、結合代数の文脈において、ヤコビの恒等性を満足する最も一般的な定式化の1つである弦低エネルギー極限と一致する修正不確かさ原理から導かれる GUP 理論の拡張を解析する。 After providing some physical insights on the nature of the considered approaches exploiting the cosmological arena, first, we show how a natural formulation of the theory in an infinite momentum space does not lead to the emergence of a nonzero minimal uncertainty in position, then we construct a truncated formulation of the theory in momentum space, proving that only in this case we can recover the desired feature of the presence of a nonzero minimal uncertainty in position, whichas usual in these theories - can be interpreted as a phenomenological manifestation of cut-off physics effects. 両方の量子化スキームは完全に特徴付けられ、最終的に波状パケットの挙動と時間的進化を研究するために応用される。 得られた結果は、GUP理論の一般化が、位置の不確実性の最小限の形で最小長の存在の観点から、弦の低エネルギー限界とより整合した光を放つことができる。

We analyze the extension of the GUP theory deriving from the modified uncertainty principle in agreement with the string low energy limit, which represents one of the most general formulations satisfying the Jacobi identity, in the context of the associative algebras. After providing some physical insights on the nature of the considered approaches exploiting the cosmological arena, first, we show how a natural formulation of the theory in an infinite momentum space does not lead to the emergence of a nonzero minimal uncertainty in position, then we construct a truncated formulation of the theory in momentum space, proving that only in this case we can recover the desired feature of the presence of a nonzero minimal uncertainty in position, which - as usual in these theories - can be interpreted as a phenomenological manifestation of cut-off physics effects. Both quantization schemes are completely characterized and finally applied to study wave packets' behavior and their evolution in time. The obtained results can shed light on which generalizations of the GUP theory are more coherent with the string low energy limit, in view of the existence of a minimum length in the form of a minimal uncertainty in position.
翻訳日:2023-05-18 21:07:25 公開日:2023-05-17
# パラメトリック共振器アレイの駆動拡散位相位相

Driven-dissipative topological phases in parametric resonator arrays ( http://arxiv.org/abs/2207.13715v3 )

ライセンス: Link先を確認
\'Alvaro G\'omez-Le\'on and Tom\'as Ramos and Alejandro Gonz\'alez-Tudela and Diego Porras(参考訳) パラメトリック振動子のアレイにおけるトポロジカル増幅現象について検討する。 位相増幅の2つのフェーズがあり、方向輸送と指数関数ゲインはサイト数で、そのうちの1つはスクイーズを特徴としている。 また,0エネルギーモードの位相的自明な位相も見出され,増幅が生じるが,他の位相的保護は不十分である。 異なる位相の障害に対するレジリエンスとその安定性,利得,雑音-信号比を特徴付ける。 最後に,最新技術による実験実装について述べる。

We study the phenomena of topological amplification in arrays of parametric oscillators. We find two phases of topological amplification, both with directional transport and exponential gain with the number of sites, and one of them featuring squeezing. We also find a topologically trivial phase with zero-energy modes which produces amplification but lacks the robust topological protection of the others. We characterize the resilience to disorder of the different phases and their stability, gain, and noise-to-signal ratio. Finally, we discuss their experimental implementation with state-of-the-art techniques.
翻訳日:2023-05-18 21:07:08 公開日:2023-05-17
# 変分因果推論による目標条件強化学習の一般化

Generalizing Goal-Conditioned Reinforcement Learning with Variational Causal Reasoning ( http://arxiv.org/abs/2207.09081v6 )

ライセンス: Link先を確認
Wenhao Ding, Haohong Lin, Bo Li, Ding Zhao(参考訳) ヒューマンインテリジェンスにおける一般化可能なソリューションを実現するための重要な要素として、推論は、部分対全体論を要約し、原因と効果の関係を発見することによって、強化学習(RL)エージェントの様々な目標への一般化に大きな可能性をもたらす。 しかし、因果関係を発見して表現する方法は依然として大きなギャップであり、因果関係rlの開発を妨げている。 本稿では、オブジェクトとイベントの関係に基づいて構築された構造であるCausal Graph(CG)を用いて、Gal-Conditioned RL(GCRL)を増強する。 我々はGCRL問題をCGを潜時変数として変分極大に定式化する。 提案手法は,CGの後部を推定するための介入データ,一般化可能なモデルと解釈可能なポリシーの学習,という2つのステップを交互に行う理論的性能保証付きフレームワークを提案する。 推論下での一般化能力を検証する公開ベンチマークが欠如していることから,提案手法の有効性を実証的に示すために9つのタスクを設計した。 さらなる理論的解析により、我々の業績改善は因果発見、遷移モデリング、政策訓練の活発なサイクルによるものであることが示され、これは広範囲なアブレーション研究における実験的証拠と一致する。

As a pivotal component to attaining generalizable solutions in human intelligence, reasoning provides great potential for reinforcement learning (RL) agents' generalization towards varied goals by summarizing part-to-whole arguments and discovering cause-and-effect relations. However, how to discover and represent causalities remains a huge gap that hinders the development of causal RL. In this paper, we augment Goal-Conditioned RL (GCRL) with Causal Graph (CG), a structure built upon the relation between objects and events. We novelly formulate the GCRL problem into variational likelihood maximization with CG as latent variables. To optimize the derived objective, we propose a framework with theoretical performance guarantees that alternates between two steps: using interventional data to estimate the posterior of CG; using CG to learn generalizable models and interpretable policies. Due to the lack of public benchmarks that verify generalization capability under reasoning, we design nine tasks and then empirically show the effectiveness of the proposed method against five baselines on these tasks. Further theoretical analysis shows that our performance improvement is attributed to the virtuous cycle of causal discovery, transition modeling, and policy training, which aligns with the experimental evidence in extensive ablation studies.
翻訳日:2023-05-18 21:06:58 公開日:2023-05-17
# 超高分解能画像復元のためのグローバルローカルステップワイズ生成ネットワーク

Global-Local Stepwise Generative Network for Ultra High-Resolution Image Restoration ( http://arxiv.org/abs/2207.08808v2 )

ライセンス: Link先を確認
Xin Feng, Haobo Ji, Wenjie Pei, Fanglin Chen, Guangming Lu(参考訳) 劣化画像のレギュラーサイズによる画像背景復元の研究は著しい進歩を遂げているが,計算量やメモリ使用量の増加や注釈データの不足などにより,超高解像度(4k)画像の復元は依然として極めて困難な課題である。 本稿では,3つの局所経路と1つの大域経路を含む段階的復元戦略を用いて,超高分解能画像復元のための新しいモデルを提案する。 局所経路は局所的かつ高分解能な画像パッチよりも細粒度の画像復元に焦点をあて、グローバル経路はスケールダウンだが無傷な画像で粗い画像復元を行い、セマンティクスやノイズパターンを含むグローバルビューにおける局所経路の手がかりを提供する。 これらの4つの経路間の相互協調を円滑にするために,我々は低レベルコンテンツ,知覚的注意,回復力,高レベル意味論の4点において,経路間の整合性を確保するように設計されている。 この研究のもうひとつの大きな貢献として,4,670個の実世界と合成画像からなる反射除去と降雨ストリーク除去のための,これまでに初めて超高解像度データセットを導入する。 画像の背景復元のための3つの典型的なタスク(画像の反射除去、画像雨のストレーク除去、画像のデハジング)の広範な実験は、glsgnが最先端の手法を一貫して上回っていることを示している。

While the research on image background restoration from regular size of degraded images has achieved remarkable progress, restoring ultra high-resolution (e.g., 4K) images remains an extremely challenging task due to the explosion of computational complexity and memory usage, as well as the deficiency of annotated data. In this paper we present a novel model for ultra high-resolution image restoration, referred to as the Global-Local Stepwise Generative Network (GLSGN), which employs a stepwise restoring strategy involving four restoring pathways: three local pathways and one global pathway. The local pathways focus on conducting image restoration in a fine-grained manner over local but high-resolution image patches, while the global pathway performs image restoration coarsely on the scale-down but intact image to provide cues for the local pathways in a global view including semantics and noise patterns. To smooth the mutual collaboration between these four pathways, our GLSGN is designed to ensure the inter-pathway consistency in four aspects in terms of low-level content, perceptual attention, restoring intensity and high-level semantics, respectively. As another major contribution of this work, we also introduce the first ultra high-resolution dataset to date for both reflection removal and rain streak removal, comprising 4,670 real-world and synthetic images. Extensive experiments across three typical tasks for image background restoration, including image reflection removal, image rain streak removal and image dehazing, show that our GLSGN consistently outperforms state-of-the-art methods.
翻訳日:2023-05-18 21:06:35 公開日:2023-05-17
# ヒットレスメモリ再構成型フォトニックリザーバコンピューティングアーキテクチャ

Hitless memory-reconfigurable photonic reservoir computing architecture ( http://arxiv.org/abs/2207.06245v2 )

ライセンス: Link先を確認
Mohab Abdalla, Cl\'ement Zrounba, Raphael Cardoso, Paul Jimenez, Guanghui Ren, Andreas Boes, Arnan Mitchell, Alberto Bosio, Ian O'Connor, Fabio Pavanello(参考訳) リザーバコンピューティングは、時間依存の信号を効率的に処理するためのアナログバイオインスパイアされた計算モデルであり、フォトニックの実装は、膨大な並列情報処理、低消費電力、高速操作の組み合わせを約束している。 しかし、特に時間遅延貯水池計算(TDRC)の場合、ほとんどの実装は特定のタスクのために所望のシステムダイナミクスを達成するために貯水池での信号減衰を必要とし、しばしばシステム外で大量の電力が結合される。 本稿では,光減衰器ブロックを必要とせずにシステムのメモリ容量を調整可能な共振キャビティに一体化した非対称マッハ・ツェンダー干渉計(mzi)に基づく新しいtdrcアーキテクチャを提案する。 さらに、これは全メモリ容量メトリックの特定のコンポーネントに対して最適な値を見つけるために利用することができる。 この手法を時間ビットワイズXORタスクで実証し、メモリ容量再構成によりメモリ固有のタスクに対して最適な性能が得られると結論付けた。

Reservoir computing is an analog bio-inspired computation model for efficiently processing time-dependent signals, the photonic implementations of which promise a combination of massive parallel information processing, low power consumption, and high speed operation. However, most implementations, especially for the case of time-delay reservoir computing (TDRC), require signal attenuation in the reservoir to achieve the desired system dynamics for a specific task, often resulting in large amounts of power being coupled outside of the system. We propose a novel TDRC architecture based on an asymmetric Mach-Zehnder interferometer (MZI) integrated in a resonant cavity which allows the memory capacity of the system to be tuned without the need for an optical attenuator block. Furthermore, this can be leveraged to find the optimal value for the specific components of the total memory capacity metric. We demonstrate this approach on the temporal bitwise XOR task and conclude that this way of memory capacity reconfiguration allows optimal performance to be achieved for memory-specific tasks.
翻訳日:2023-05-18 21:06:06 公開日:2023-05-17
# 解釈可能な埋め込みのための(un)likelihood training

(Un)likelihood Training for Interpretable Embedding ( http://arxiv.org/abs/2207.00282v2 )

ライセンス: Link先を確認
Jiaxin Wu, Chong-Wah Ngo, Wing-Kwong Chan and Zhijian Hou(参考訳) クロスモーダル表現学習は,テキストと視覚データ間の意味的ギャップを埋めるための新しい標準となった。 しかしながら、連続的な潜在空間におけるモダリティ非依存表現の学習は、しばしばブラックボックスのデータ駆動トレーニングプロセスとして扱われる。 表現学習の有効性は,トレーニングデータの質や規模に大きく依存していることが知られている。 映像表現学習では,学習のための映像コンテンツの完全なスペクトルを注釈するラベルの完全なセットを持つことは,不可能ではないにせよ極めて困難である。 これらの問題、ブラックボックストレーニングとデータセットバイアスは、説明不能で予測不可能な結果のため、ビデオ理解のために表現学習を実際に展開することが困難である。 本稿では,ラベル空間の問題に対処しながら,埋め込みの背後にある意味を解き放つための2つの新しい訓練目標,可能性と相違点を提案する。 機会訓練は、ラベル以外の埋め込みの意味を解釈することを目的としており、違和感訓練は、正規化のための事前知識を活用して意味的に一貫性のある解釈を保証する。 双方のトレーニング目標により,解釈可能なクロスモーダル表現を学習する新しいエンコーダデコーダネットワークが提案されている。 TRECVidとMSR-VTTデータセットの大規模な実験により、提案されたネットワークは、統計的に有意な性能マージンを持つ最先端の検索モデルよりも優れていることが示された。

Cross-modal representation learning has become a new normal for bridging the semantic gap between text and visual data. Learning modality agnostic representations in a continuous latent space, however, is often treated as a black-box data-driven training process. It is well-known that the effectiveness of representation learning depends heavily on the quality and scale of training data. For video representation learning, having a complete set of labels that annotate the full spectrum of video content for training is highly difficult if not impossible. These issues, black-box training and dataset bias, make representation learning practically challenging to be deployed for video understanding due to unexplainable and unpredictable results. In this paper, we propose two novel training objectives, likelihood and unlikelihood functions, to unroll semantics behind embeddings while addressing the label sparsity problem in training. The likelihood training aims to interpret semantics of embeddings beyond training labels, while the unlikelihood training leverages prior knowledge for regularization to ensure semantically coherent interpretation. With both training objectives, a new encoder-decoder network, which learns interpretable cross-modal representation, is proposed for ad-hoc video search. Extensive experiments on TRECVid and MSR-VTT datasets show the proposed network outperforms several state-of-the-art retrieval models with a statistically significant performance margin.
翻訳日:2023-05-18 21:05:47 公開日:2023-05-17
# バイナリ分類における対人訓練の整合性

The Consistency of Adversarial Training for Binary Classification ( http://arxiv.org/abs/2206.09099v2 )

ライセンス: Link先を確認
Natalie S. Frank, Jonathan Niles-Weed(参考訳) 敵の摂動に対するロバスト性は、現代の機械学習において重要な関心事である。 頑健な分類器を訓練するための最先端の手法の1つは、超越的なサロゲートリスクを最小化する敵の訓練である。 サーロゲートリスクの統計的一貫性は、標準的な機械学習の文脈ではよく理解されているが、敵対的な設定では理解されていない。 本稿では,二元分類におけるルベーグ測度に関して絶対連続な分布に対して,どのスプレム系サロゲートが一致するかを特徴付ける。 さらに, 敵の分類リスクに対する, 敵の代理的リスクに関連する定量的境界を求める。 最後に, 対人訓練における$\cH$-consistencyの意義について論じる。

Robustness to adversarial perturbations is of paramount concern in modern machine learning. One of the state-of-the-art methods for training robust classifiers is adversarial training, which involves minimizing a supremum-based surrogate risk. The statistical consistency of surrogate risks is well understood in the context of standard machine learning, but not in the adversarial setting. In this paper, we characterize which supremum-based surrogates are consistent for distributions absolutely continuous with respect to Lebesgue measure in binary classification. Furthermore, we obtain quantitative bounds relating adversarial surrogate risks to the adversarial classification risk. Lastly, we discuss implications for the $\cH$-consistency of adversarial training.
翻訳日:2023-05-18 21:05:24 公開日:2023-05-17
# タイミングはすべて:コストのかかる行動と予算制約で選択的に行動することを学ぶ

Timing is Everything: Learning to Act Selectively with Costly Actions and Budgetary Constraints ( http://arxiv.org/abs/2205.15953v3 )

ライセンス: Link先を確認
David Mguni, Aivar Sootla, Juliusz Ziomek, Oliver Slumbers, Zipeng Dai, Kun Shao, Jun Wang(参考訳) 多くの現実世界の設定では、アクションの実行にコストがかかり、金融システムのトランザクションコストや燃料コストが一般的な例である。 これらの設定では、各ステップでのアクションの実行は、すぐにコストを蓄積し、非常に低い結果をもたらす。 さらに、反復的な演技は、摩耗と涙を生じさせ、最終的にダメージを与える。 textit{when to act} の決定は成功には不可欠であるが、最小の有界コストを伴わないアクションが最適に振る舞うことの課題は解決されていない。 本稿では,行動時と行動時の両方を最適に選択するために,強化学習(RL)フレームワークであるtextbf{L}earnable \textbf{I}mpulse \textbf{C}ontrol \textbf{R}einforcement \textbf{A}lgorithm (licRA)を導入する。 licraの中核は、rlと \textit{impulse control}として知られるポリシーを結合したネスト構造であり、アクションがコストが発生すると目的を最大化するために学習する。 我々は,任意のRL法をシームレスに採用したlicRAが,動作のタイミングと最適等級を最適に選択するポリシーに収束していることを証明する。 次に、エージェントが最大$k<\infty$アクションで実行できる問題に対処するためにlicRAを増強し、より一般的には予算制約に直面します。 licRAが最適値関数を学習し、予算制約がほぼ確実に満たされることを示す。 我々は,openai gym の \textit{lunar lander} と \textit{highway} 環境でのベンチマーク rl メソッドに対する licra の優れた性能と,金融における merton portfolio 問題の変種を示す。

Many real-world settings involve costs for performing actions; transaction costs in financial systems and fuel costs being common examples. In these settings, performing actions at each time step quickly accumulates costs leading to vastly suboptimal outcomes. Additionally, repeatedly acting produces wear and tear and ultimately, damage. Determining \textit{when to act} is crucial for achieving successful outcomes and yet, the challenge of efficiently \textit{learning} to behave optimally when actions incur minimally bounded costs remains unresolved. In this paper, we introduce a reinforcement learning (RL) framework named \textbf{L}earnable \textbf{I}mpulse \textbf{C}ontrol \textbf{R}einforcement \textbf{A}lgorithm (LICRA), for learning to optimally select both when to act and which actions to take when actions incur costs. At the core of LICRA is a nested structure that combines RL and a form of policy known as \textit{impulse control} which learns to maximise objectives when actions incur costs. We prove that LICRA, which seamlessly adopts any RL method, converges to policies that optimally select when to perform actions and their optimal magnitudes. We then augment LICRA to handle problems in which the agent can perform at most $k<\infty$ actions and more generally, faces a budget constraint. We show LICRA learns the optimal value function and ensures budget constraints are satisfied almost surely. We demonstrate empirically LICRA's superior performance against benchmark RL methods in OpenAI gym's \textit{Lunar Lander} and in \textit{Highway} environments and a variant of the Merton portfolio problem within finance.
翻訳日:2023-05-18 21:04:50 公開日:2023-05-17
# オールニューラルネットワークの解釈における可変許容因子

Variance Tolerance Factors For Interpreting ALL Neural Networks ( http://arxiv.org/abs/2209.13858v2 )

ライセンス: Link先を確認
Sichao Li, Amanda Barnard(参考訳) ブラックボックスモデルは、ディープラーニングタスクに対してのみ結果を提供し、これらの結果の取得方法に関する情報的詳細を欠いている。 入力変数がアウトプットとどのように関連しているかを知ることは、その関連理由に加えて、予測を実験実験に翻訳したり、精査されたモデル予測を擁護する上でも重要である。 本稿では、影響関数にインスパイアされた分散耐性因子(VTF)を定義し、特徴の重要性をランク付けすることでブラックボックスニューラルネットワークの文脈における特徴を解釈し、基礎モデルと特徴モデルからなる新しいアーキテクチャを構築し、全ての優れたニューラルネットワークを含むラショーモン集合の特徴的重要性を探求する一般的な理論を提案する。 ラーショモン集合における2つの特徴重要ランキング法と,VTFに基づく特徴選択法を作成し,検討した。 合成およびベンチマークデータセットの徹底的な評価を行い、非結晶性金ナノ粒子の生成と、プロトゾアンケイ酸塩に40時間曝露した1793の芳香族化合物の化学毒性を予測する2つの実例に適用した。

Black box models only provide results for deep learning tasks, and lack informative details about how these results were obtained. Knowing how input variables are related to outputs, in addition to why they are related, can be critical to translating predictions into laboratory experiments, or defending a model prediction under scrutiny. In this paper, we propose a general theory that defines a variance tolerance factor (VTF) inspired by influence function, to interpret features in the context of black box neural networks by ranking the importance of features, and construct a novel architecture consisting of a base model and feature model to explore the feature importance in a Rashomon set that contains all well-performing neural networks. Two feature importance ranking methods in the Rashomon set and a feature selection method based on the VTF are created and explored. A thorough evaluation on synthetic and benchmark datasets is provided, and the method is applied to two real world examples predicting the formation of noncrystalline gold nanoparticles and the chemical toxicity 1793 aromatic compounds exposed to a protozoan ciliate for 40 hours.
翻訳日:2023-05-18 20:56:48 公開日:2023-05-17
# DBFBアルゴリズムの深部展開と限定角密度を用いたROICTイメージングへの応用

Deep Unfolding of the DBFB Algorithm with Application to ROI CT Imaging with Limited Angular Density ( http://arxiv.org/abs/2209.13264v3 )

ライセンス: Link先を確認
Marion Savanier, Emilie Chouzenoux, Jean-Christophe Pesquet, and Cyril Riddell(参考訳) 本稿では,限られた数のct測定値から関心領域(roi)を再構成する新しい手法を提案する。 古典的モデルに基づく反復再構成手法は、予測可能な特徴を持つ画像につながる。 それでも、それらはしばしば退屈なパラメータ化と遅い収束に苦しむ。 それとは対照的に、ディープラーニング手法は高速であり、大規模なデータセットからの情報を活用することで高い再構築品質に達することができるが、解釈性に欠ける。 両手法のクロスロードでは,近年,深層展開ネットワークが提案されている。 彼らの設計には、イメージングシステムの物理と反復最適化アルゴリズムのステップが含まれる。 様々な用途においてこれらのネットワークの成功に触発され、限られたデータからROICTを再構成するように設計されたU-RDBFBと呼ばれる展開ニューラルネットワークを導入する。 疎度誘導正規化関数と組み合わさった頑健な非凸データ忠実度項により、少ないビューのトランケートデータを効果的に処理する。 我々はDual Block coordinate Forward-Backward (DBFB)アルゴリズムを拡張し、反復的再重み付け方式に組込み、キーパラメータを教師付き方式で学習する。 実験では,モデルベース反復方式,マルチスケール深層学習アーキテクチャ,その他の深層展開手法など,最先端の手法を改良した。

This paper presents a new method for reconstructing regions of interest (ROI) from a limited number of computed tomography (CT) measurements. Classical model-based iterative reconstruction methods lead to images with predictable features. Still, they often suffer from tedious parameterization and slow convergence. On the contrary, deep learning methods are fast, and they can reach high reconstruction quality by leveraging information from large datasets, but they lack interpretability. At the crossroads of both methods, deep unfolding networks have been recently proposed. Their design includes the physics of the imaging system and the steps of an iterative optimization algorithm. Motivated by the success of these networks for various applications, we introduce an unfolding neural network called U-RDBFB designed for ROI CT reconstruction from limited data. Few-view truncated data are effectively handled thanks to a robust non-convex data fidelity term combined with a sparsity-inducing regularization function. We unfold the Dual Block coordinate Forward-Backward (DBFB) algorithm, embedded in an iterative reweighted scheme, allowing the learning of key parameters in a supervised manner. Our experiments show an improvement over several state-of-the-art methods, including a model-based iterative scheme, a multi-scale deep learning architecture, and other deep unfolding methods.
翻訳日:2023-05-18 20:56:28 公開日:2023-05-17
# スパイクニューラルネットワークのための時空間拡散注意法

A Spatial-channel-temporal-fused Attention for Spiking Neural Networks ( http://arxiv.org/abs/2209.10837v2 )

ライセンス: Link先を確認
Wuque Cai, Hongze Sun, Rui Liu, Yan Cui, Jun Wang, Yang Xia, Dezhong Yao, and Daqing Guo(参考訳) スパイクニューラルネットワーク(SNN)は脳の計算戦略を模倣し、時空間情報処理においてかなりの能力を示す。 人間の知覚に必須の要素として、視覚注意は生物視覚システムにおいてサルエント領域を選択するダイナミックなプロセスを指す。 視覚注意機構はコンピュータビジョンアプリケーションで大きな成功を収めているが、snsに導入されることは滅多にない。 そこで本研究では,SNNを誘導し,蓄積した歴史的空間チャネル情報を利用して,対象領域を効果的に捉えることのできる,空間チャネル融合型注意モジュール(SCTFA)を提案する。 3つのイベントストリームデータセット(DVS Gesture, SL-Animals-DVS, MNIST-DVS)の体系的評価により、SCTFAモジュール(SCTFA-SNN)を用いたSNNが、ベースラインSNN(BL-SNN)と他の2つのSNNモデルに分解された注目モジュールを著しく上回るだけでなく、既存の最先端手法との競合精度も達成できることを示した。 さらに,SCTFA-SNNモデルでは,不完全なデータに直面する場合,ノイズに対する強い頑健さと優れた安定性を保ちながら,複雑性と効率の維持を図っている。 これらの結果は、脳の適切な認知機構を組み込むことが、SNNの能力を高めるための有望なアプローチをもたらすことを示唆している。

Spiking neural networks (SNNs) mimic brain computational strategies, and exhibit substantial capabilities in spatiotemporal information processing. As an essential factor for human perception, visual attention refers to the dynamic process for selecting salient regions in biological vision systems. Although visual attention mechanisms have achieved great success in computer vision applications, they are rarely introduced into SNNs. Inspired by experimental observations on predictive attentional remapping, we propose a new spatial-channel-temporal-fused attention (SCTFA) module that can guide SNNs to efficiently capture underlying target regions by utilizing accumulated historical spatial-channel information in the present study. Through a systematic evaluation on three event stream datasets (DVS Gesture, SL-Animals-DVS and MNIST-DVS), we demonstrate that the SNN with the SCTFA module (SCTFA-SNN) not only significantly outperforms the baseline SNN (BL-SNN) and two other SNN models with degenerated attention modules, but also achieves competitive accuracy with existing state-of-the-art methods. Additionally, our detailed analysis shows that the proposed SCTFA-SNN model has strong robustness to noise and outstanding stability when faced with incomplete data, while maintaining acceptable complexity and efficiency. Overall, these findings indicate that incorporating appropriate cognitive mechanisms of the brain may provide a promising approach to elevate the capabilities of SNNs.
翻訳日:2023-05-18 20:55:52 公開日:2023-05-17
# 素数を用いた効率的なマルチリレーショナルネットワーク表現

Efficient multi-relational network representation using primes ( http://arxiv.org/abs/2209.06575v2 )

ライセンス: Link先を確認
Konstantinos Bougiatiotis, Georgios Paliouras(参考訳) 本研究では,コンパクトで,非常に効率的なネットワーク解析が可能な,複雑なマルチリレーショナルネットワークの表現を提案する。 マルチリレーショナルネットワークは、複雑なデータ関係をキャプチャし、バイオメディカルからファイナンシャル、ソーシャルなど、さまざまなアプリケーションを持つ。 より多くのデータで使われるようになるにつれて、そのようなネットワークを表現し分析する効率的な方法を見つけることが重要です。 本稿では,素数を利用する素数行列(PAM)の概念をネットワークの関係を表すために導入する。 算術の基本定理により、これは単一の隣接行列を用いて、完全な多重関係グラフの損失のないコンパクトな表現を可能にする。 さらに、この表現はマルチホップ隣接行列の高速計算を可能にし、様々な下流タスクに有用である。 本稿では,様々な単純かつ複雑なネットワーク解析タスクを通じて提案手法の利点を説明する。

In this work, we propose a novel representation of complex multi-relational networks, which is compact and allows very efficient network analysis. Multi-relational networks capture complex data relationships and have a variety of applications, ranging from biomedical to financial, social, etc. As they get to be used with ever larger quantities of data, it is crucial to find efficient ways to represent and analyse such networks. This paper introduces the concept of Prime Adjacency Matrices (PAMs), which utilize prime numbers, to represent the relations of the network. Due to the fundamental theorem of arithmetic, this allows for a lossless, compact representation of a complete multi-relational graph, using a single adjacency matrix. Moreover, this representation enables the fast computation of multi-hop adjacency matrices, which can be useful for a variety of downstream tasks. We illustrate the benefits of using the proposed approach through various simple and complex network analysis tasks.
翻訳日:2023-05-18 20:55:17 公開日:2023-05-17
# 最大形量子振幅推定の改善

Improved maximum-likelihood quantum amplitude estimation ( http://arxiv.org/abs/2209.03321v3 )

ライセンス: Link先を確認
Adam Callison, Dan E. Browne(参考訳) 量子振幅推定は、量子強化モンテカルロシミュレーションや量子機械学習など、多数の強力な量子アルゴリズムにおいて重要なサブルーチンである。 最大類似量子振幅推定(mlqae)は、量子位相推定に基づく元のアルゴリズムよりもずっと単純な量子回路を用いた最近の多くのアプローチの1つである。 本稿では,MLQAEの分析を深め,量子回路の深さが制限されるシナリオを含むより規範的な形式でアルゴリズムを配置する。 この過程で、アルゴリズムが所望の精度を達成することができない目標振幅の ‘exceptional' 値の特定の範囲を観察し、説明する。 そこで我々は,この問題を克服するためにアルゴリズムのヒューリスティックな修正を提案し,数値的に検証する。

Quantum amplitude estimation is a key subroutine in a number of powerful quantum algorithms, including quantum-enhanced Monte Carlo simulation and quantum machine learning. Maximum-likelihood quantum amplitude estimation (MLQAE) is one of a number of recent approaches that employ much simpler quantum circuits than the original algorithm based on quantum phase estimation. In this article, we deepen the analysis of MLQAE to put the algorithm in a more prescriptive form, including scenarios where quantum circuit depth is limited. In the process, we observe and explain particular ranges of `exceptional' values of the target amplitude for which the algorithm fails to achieve the desired precision. We then propose and numerically validate a heuristic modification to the algorithm to overcome this problem, bringing the algorithm even closer to being useful as a practical subroutine on near- and mid-term quantum hardware.
翻訳日:2023-05-18 20:55:02 公開日:2023-05-17
# 関係量子力学の相対的事実は量子力学と相容れない

Relative Facts of Relational Quantum Mechanics are Incompatible with Quantum Mechanics ( http://arxiv.org/abs/2208.11793v2 )

ライセンス: Link先を確認
Jay Lawrence, Marcin Markiewicz, Marek \.Zukowski(参考訳) リレーショナル量子力学(RQM)は量子論の解釈(arXiv:2109.09170参照)であると主張している。 しかし、量子論からは大きな隔たりがある。 (i)RQM測定結果において、システム$S$とオブザーバ$A$をデコヒーレンスなしで絡める相互作用から生じる。 (ii)そのような結果が観察者$a$に対する「事実」であるが、前回の計測過程において$s$または$a$と相互作用していない別の観察者$b$とは事実ではない。 b$ システムには$s \otimes a$ が残っている。 これらの主張によって記述された相対的な事実が量子論と相容れないことを示すGHZのような矛盾を導出する。 したがって、関係量子力学は、我々が導入した解釈の基準に従って、量子論の解釈と見なすべきではない。 基準は、解釈が結果の概念を導入するとき、これらの結果が何であれ、生まれた規則によって指定された確率分布に従う必要があると述べる。

Relational Quantum Mechanics (RQM) claims to be an interpretation of quantum theory [see arXiv:2109.09170, which appears in the Oxford Handbook of the History of Interpretation of Quantum Physics]. However, there are significant departures from quantum theory: (i) in RQM measurement outcomes arise from interactions which entangle a system $S$ and an observer $A$ without decoherence, and (ii) such an outcome is a "fact" relative to the observer $A$, but it is not a fact relative to another observer $B$ who has not interacted with $S$ or $A$ during the foregoing measurement process. For $B$ the system $S \otimes A$ remains entangled. We derive a GHZ-like contradiction showing that relative facts described by these statements are incompatible with quantum theory. Hence Relational Quantum Mechanics should not be considered an interpretation of quantum theory, according to a criterion for interpretations that we have introduced. The criterion states that whenever an interpretation introduces a notion of outcomes, these outcomes, whatever they are, must follow the probability distribution specified by the Born rule.
翻訳日:2023-05-18 20:54:35 公開日:2023-05-17
# 長距離アドバンテージを有する量子熱エンジン

Quantum heat engine with long-range advantages ( http://arxiv.org/abs/2208.09492v2 )

ライセンス: Link先を確認
Andrea Solfanelli, Guido Giachetti, Michele Campisi, Stefano Ruffo, Nicol\`o Defenu(参考訳) 量子デバイスにおける長距離インタラクションの利用は、量子技術応用におけるパフォーマンス向上への有望な道筋を提供する。 ここで、長距離相互作用の存在は、多体作動物質を特徴とする量子熱エンジンの性能を高めることが示されている。 我々は,量子オットーサイクルを経たキタエフ連鎖のパラダイム的例に注目し,その構成要素間の相互作用範囲が増加すると,熱力学的にかなりの優位性が得られることを示す。 興味深いことに、このような利点は有限周期の現実的な状況において最も重要である: 長距離相互作用の存在は、動的に生成された励起の有害な効果を抑えることにより、非断熱的エネルギー損失を減少させる。 この効果により、電力と効率のトレードオフを緩和し、幅広い実験および技術応用への道を開くことができる。

The employment of long-range interactions in quantum devices provides a promising route towards enhancing their performance in quantum technology applications. Here, the presence of long-range interactions is shown to enhance the performances of a quantum heat engine featuring a many-body working substance. We focus on the paradigmatic example of a Kitaev chain undergoing a quantum Otto cycle and show that a substantial thermodynamic advantage may be achieved as the range of the interactions among its constituents increases. Interestingly, such an advantage is most significant for the realistic situation of a finite time cycle: the presence of long-range interactions reduces the non-adiabatic energy losses, by suppressing the detrimental effects of dynamically generated excitations. This effect allows mitigating the trade-off between power and efficiency, paving the way for a wide range of experimental and technological applications.
翻訳日:2023-05-18 20:54:13 公開日:2023-05-17
# 位相空間における量子力学:序論

Quantum Mechanics in Phase Space: An introduction ( http://arxiv.org/abs/2208.08682v5 )

ライセンス: Link先を確認
Eduardo Mart\'in-Mart\'inez(参考訳) 位相空間と基本ガウス量子力学に量子力学を導入する講義ノートのインフォーマルコレクション。

Informal collection of lecture notes introducing quantum mechanics in phase space and basic Gaussian quantum mechanics.
翻訳日:2023-05-18 20:53:58 公開日:2023-05-17
# 量子画像間のmulitphoton相関

Mulitphoton Correlations between Quantum Images ( http://arxiv.org/abs/2211.08674v2 )

ライセンス: Link先を確認
Serge Massar, Fabrice Devaux, Eric Lantz(参考訳) パラメトリックダウンコンバージョンによって生じる絡み合った量子画像の実験は、これまで2つの光子相関の研究に限られてきた。 ここでは,量子画像間の多重光子相関を実験的に把握し,bi-光子波動関数の位相に敏感ななど,多くの新機能を示す。 具体例として,CCDカメラを焦点から遠ざけるような既存の量子イメージング実験の修正を検討し,その結果の4光子干渉の詳細な解析予測を行い,数値シミュレーションによる支援を行う。 ボブの光子は最初は絡み合っていないが、アリスの光子の合同検出はボブの光子を絡み合う状態に投影する。 ここで提案される一般的なアプローチは、高次元の絡み合いを含む他の量子光学実験に拡張することができる。

Experimental demonstrations of entangled quantum images produced through parametric downconversion have so far been confined to studying two photon correlations. Here we show that multiphoton correlations between quantum images are accessible experimentally and exhibit many new features including being sensitive to the phase of the bi-photon wavefunction. As a concrete example, we consider a modification of existing quantum imaging experiments in which the CCD cameras are moved out of focus, provide detailed analytical predictions for the resulting 4 photon intereferences, and support these by numerical simulations. The proposed experiment can also be interpreted as entanglement swapping: Bob's photons are initially unentangled, but the joint detection of Alice's photons projects Bob's photons onto an entangled state. The general approach proposed here can be extended to other quantum optics experiments involving high dimensional entanglement.
翻訳日:2023-05-18 20:48:20 公開日:2023-05-17
# テキストの包括的表記法

An Inclusive Notion of Text ( http://arxiv.org/abs/2211.05604v2 )

ライセンス: Link先を確認
Ilia Kuznetsov, Iryna Gurevych(参考訳) 自然言語処理(NLP)研究者は、文法、意味、およびテキストに基づくコミュニケーションのモデルを開発する。 タスクとデータの違いにより、テキストと見なされるものは研究によって大きく異なる。 これらの違いを体系的に捉えるための概念的な枠組みが欠けている。 テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である。 その目的に向けて,テキストデータの生成と変換を議論する共通用語を提案し,NLPモデリングで使用可能な言語的および非言語的要素の2階層分類を導入した。 この分類法を用いて、保守的な言語中心の視点を超えてテキストの概念を拡張する既存の研究を調査する。 我々は,nlpにおけるテキストインクルーシブアプローチの鍵となるデシデラタと課題を概説し,コミュニティレベルの報告を議論を集約するための重要な次のステップとして提案する。

Natural language processing (NLP) researchers develop models of grammar, meaning and communication based on written text. Due to task and data differences, what is considered text can vary substantially across studies. A conceptual framework for systematically capturing these differences is lacking. We argue that clarity on the notion of text is crucial for reproducible and generalizable NLP. Towards that goal, we propose common terminology to discuss the production and transformation of textual data, and introduce a two-tier taxonomy of linguistic and non-linguistic elements that are available in textual sources and can be used in NLP modeling. We apply this taxonomy to survey existing work that extends the notion of text beyond the conservative language-centered view. We outline key desiderata and challenges of the emerging inclusive approach to text in NLP, and suggest community-level reporting as a crucial next step to consolidate the discussion.
翻訳日:2023-05-18 20:48:07 公開日:2023-05-17
# KGLM:リンク予測のための言語モデルにおける知識グラフ構造の統合

KGLM: Integrating Knowledge Graph Structure in Language Models for Link Prediction ( http://arxiv.org/abs/2211.02744v2 )

ライセンス: Link先を確認
Jason Youn and Ilias Tagkopoulos(参考訳) 複雑な関係を大規模に表現する知識グラフの能力は、知識表現、質問回答、レコメンデーションシステムなど、様々なニーズに採用されている。 知識グラフは、しばしばそれらが表す情報に不完全であり、知識グラフの完成タスクを必要とする。 事前訓練された言語モデルと微調整された言語モデルはこれらのタスクにおいて有望であるが、これらのモデルは知識グラフに符号化された固有情報、すなわちエンティティと関係型を無視している。 本稿では、知識グラフ言語モデル(kglm)アーキテクチャを提案する。そこでは、異なるエンティティと関係型を区別することを学ぶ新しいエンティティ/関係埋め込み層を導入し、モデルが知識グラフの構造を学習できるようにする。 そこで本研究では,ナレッジグラフから抽出したトリプルを用いて,この追加組込み層を用いて言語モデルをさらに事前学習し,その後,ベンチマークデータセットにおけるリンク予測タスクの新たな最先端性能を設定する。

The ability of knowledge graphs to represent complex relationships at scale has led to their adoption for various needs including knowledge representation, question-answering, and recommendation systems. Knowledge graphs are often incomplete in the information they represent, necessitating the need for knowledge graph completion tasks. Pre-trained and fine-tuned language models have shown promise in these tasks although these models ignore the intrinsic information encoded in the knowledge graph, namely the entity and relation types. In this work, we propose the Knowledge Graph Language Model (KGLM) architecture, where we introduce a new entity/relation embedding layer that learns to differentiate distinctive entity and relation types, therefore allowing the model to learn the structure of the knowledge graph. In this work, we show that further pre-training the language models with this additional embedding layer using the triples extracted from the knowledge graph, followed by the standard fine-tuning phase sets a new state-of-the-art performance for the link prediction task on the benchmark datasets.
翻訳日:2023-05-18 20:47:53 公開日:2023-05-17
# リーマンADMM

A Riemannian ADMM ( http://arxiv.org/abs/2211.02163v2 )

ライセンス: Link先を確認
Jiaxiang Li, Shiqian Ma, Tejes Srivastava(参考訳) 目的が滑らかな函数と非滑らかな函数の和であるようなリーマン最適化問題のクラスを、周囲空間において考慮する。 このクラスの問題は、スパース主成分分析、スパーススペクトルクラスタリング、直交辞書学習のような機械学習や統計学における重要な応用を見出す。 本稿では,この問題を解くために,リーマン交互方向乗算器(ADMM)を提案する。 アルゴリズムは各イテレーションで容易に計算可能なステップを採用する。 提案アルゴリズムにおいて,$\epsilon$-stationary 点を求める場合の繰り返し複雑性を軽度な仮定で解析する。 非凸問題を解くための既存のADMMは、非凸制約集合を許さないか、非滑らかな目的函数を許さない。 対照的に,非滑らかな目的と多様体の制約が同時に発生する問題に対して,複雑性の結果が確立される。 提案手法の利点を実証するために, 数値実験を行った。

We consider a class of Riemannian optimization problems where the objective is the sum of a smooth function and a nonsmooth function, considered in the ambient space. This class of problems finds important applications in machine learning and statistics such as the sparse principal component analysis, sparse spectral clustering, and orthogonal dictionary learning. We propose a Riemannian alternating direction method of multipliers (ADMM) to solve this class of problems. Our algorithm adopts easily computable steps in each iteration. The iteration complexity of the proposed algorithm for obtaining an $\epsilon$-stationary point is analyzed under mild assumptions. Existing ADMM for solving nonconvex problems either does not allow nonconvex constraint set, or does not allow nonsmooth objective function. In contrast, our complexity result is established for problems with simultaneous nonsmooth objective and manifold constraint. Numerical experiments are conducted to demonstrate the advantage of the proposed method.
翻訳日:2023-05-18 20:47:34 公開日:2023-05-17
# 部分モジュラ最大化におけるバランシングユーティリティと公正性(技術報告)

Balancing Utility and Fairness in Submodular Maximization (Technical Report) ( http://arxiv.org/abs/2211.00980v2 )

ライセンス: Link先を確認
Yanhao Wang and Yuchen Li and Francesco Bonchi and Ying Wang(参考訳) サブモジュラー関数最大化(submodular function maximization)は、データ要約、影響最大化、レコメンデーションなど、多くのアプリケーションにおいて基本的な組合せ最適化問題である。 これらの問題の多くにおいて、目的は、各ユーティリティが単調な部分モジュラ関数によって定義されるすべてのユーザに対して平均的なユーティリティを最大化するソリューションを見つけることである。 しかし、ユーザ人口が複数の人口集団で構成されている場合、別の重要な問題は、ユーティリティが複数のグループに分散しているかどうかである。 emph{utility} と \emph{fairness} の目標はどちらも望ましいが、両者は矛盾する可能性がある。 本稿では,実用性と公正性のバランスをとるために,<emph{Bicriteria Submodular Maximization} (BSM) と呼ばれる新しい問題を提案する。 具体的には、しきい値以下でないフェアネス関数の値に従えば、ユーティリティ関数を最大化するために固定サイズの解を見つける必要がある。 BSMは一般に任意の定数係数で近似できないので、インスタンス依存近似スキームの設計に注意を向ける。 提案アルゴリズムは,BSMインスタンスを他のサブモジュール最適化問題インスタンスに変換することによって得られる近似係数の異なる2つの手法からなる。 本手法は,実世界および合成データセットを用いて,最大カバレッジ,影響最大化,施設配置という3つのサブモジュラー最大化問題の応用例を示す。

Submodular function maximization is a fundamental combinatorial optimization problem with plenty of applications -- including data summarization, influence maximization, and recommendation. In many of these problems, the goal is to find a solution that maximizes the average utility over all users, for each of whom the utility is defined by a monotone submodular function. However, when the population of users is composed of several demographic groups, another critical problem is whether the utility is fairly distributed across different groups. Although the \emph{utility} and \emph{fairness} objectives are both desirable, they might contradict each other, and, to the best of our knowledge, little attention has been paid to optimizing them jointly. In this paper, we propose a new problem called \emph{Bicriteria Submodular Maximization} (BSM) to strike a balance between utility and fairness. Specifically, it requires finding a fixed-size solution to maximize the utility function, subject to the value of the fairness function not being below a threshold. Since BSM is inapproximable within any constant factor in general, we turn our attention to designing instance-dependent approximation schemes. Our algorithmic proposal comprises two methods, with different approximation factors, obtained by converting a BSM instance into other submodular optimization problem instances. Using real-world and synthetic datasets, we showcase applications of our methods in three submodular maximization problems: maximum coverage, influence maximization, and facility location.
翻訳日:2023-05-18 20:47:20 公開日:2023-05-17
# DWDM光伝送網に統合された量子鍵分布系の理論的解析

Theoretical analysis of quantum key distribution systems when integrated with a DWDM optical transport network ( http://arxiv.org/abs/2209.15507v2 )

ライセンス: Link先を確認
Irina Vorontsova, Roman Goncharov, Angelina Tarabrina, Fedor Kiselev, and Vladimir Egorov(参考訳) 自然発振ラマン散乱, 4波混合, 線形チャネルクロストークによるQKDシステムの性能への影響に関する理論的研究と数値シミュレーションを行った。 コヒーレントワンウェイ(COW)QKDプロトコル、サブキャリアウェーブ(SCW)QKDシステム、従来のDWDMチャネルと統合された連続可変(CV)QKDシステムである。 我々は、異なるチャネル割り当てスキーム(例えば、構成)に対処するシステムに対して、セキュアな鍵生成率を算出する。 均一なDWDMグリッドは、通信窓のCバンドとOバンド(約1310nm)に量子チャネルがあると考えられる。 システムの性能は、最大到達可能な距離値の観点から分析される。 さらなる分析と調査のための構成は、最適に選択され、すなわち、最大到達距離が最適である。

A theoretical research and numerical simulation of the noise influence caused by spontaneous Raman scattering, four-wave mixing, and linear channel crosstalk on the performance of QKD systems was conducted. Three types of QKD systems were considered: coherent one-way (COW) QKD protocol, subcarrier-wave (SCW) QKD system, and continuous-variable (CV) QKD integrated with classical DWDM channels. We calculate the secure key generation rate for the systems mentioned addressing different channel allocation schemes (i.e., configurations). A uniform DWDM grid is considered with quantum channel located in C-band and O-band (at 1310 nm) of a telecommunication window. The systems' performance is analyzed in terms of the maximal achievable distance values. Configurations for the further analysis and investigation are chosen optimally, i.e., their maximal achievable distances are the best.
翻訳日:2023-05-18 20:46:21 公開日:2023-05-17
# マルチプロンプトアライメントによるマルチソース非教師なしドメイン適応

Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation ( http://arxiv.org/abs/2209.15210v3 )

ライセンス: Link先を確認
Haoran Chen, Zuxuan Wu, Xintong Han, Yu-Gang Jiang(参考訳) 非教師なしドメイン適応(UDA)の既存の手法は、ドメイン不変の特徴を抽出するために共有ネットワークに依存している。 しかしながら、複数のソースドメインに直面する場合、そのようなネットワークを最適化するには、ネットワーク全体のパラメータを更新することが必要となる。 計算的経済的な方法で下流タスクに高容量モデルを適用する,近年の素早い学習の進歩に触発されて,マルチソースUDAのためのシンプルかつ効率的なフレームワークであるMPA(Multi-Prompt Alignment)を導入した。 ソースとターゲットのドメインペアが与えられた場合、MPAはまず個々のプロンプトをトレーニングし、対照的な損失によってドメインギャップを最小限にする。 そして、MPAは、学習したプロンプトを自動エンコードプロセスで認知し、再構成されたプロンプトの合意を最大化することでそれらを調整する。 さらに,自動符号化プロセスから得られる部分空間が,対象領域の合理化に容易に適用可能であることを示し,本手法を実用化するために有効であることを示す。 大規模な実験により、MPAは3つの一般的なデータセットで最先端の結果を達成し、DomainNetの平均精度は54.1%である。

Most existing methods for unsupervised domain adaptation (UDA) rely on a shared network to extract domain-invariant features. However, when facing multiple source domains, optimizing such a network involves updating the parameters of the entire network, making it both computationally expensive and challenging, particularly when coupled with min-max objectives. Inspired by recent advances in prompt learning that adapts high-capacity models for downstream tasks in a computationally economic way, we introduce Multi-Prompt Alignment (MPA), a simple yet efficient framework for multi-source UDA. Given a source and target domain pair, MPA first trains an individual prompt to minimize the domain gap through a contrastive loss. Then, MPA denoises the learned prompts through an auto-encoding process and aligns them by maximizing the agreement of all the reconstructed prompts. Moreover, we show that the resulting subspace acquired from the auto-encoding process can easily generalize to a streamlined set of target domains, making our method more efficient for practical usage. Extensive experiments show that MPA achieves state-of-the-art results on three popular datasets with an impressive average accuracy of 54.1% on DomainNet.
翻訳日:2023-05-18 20:46:03 公開日:2023-05-17
# ZX計算の完全性

Completeness of the ZX-calculus ( http://arxiv.org/abs/2209.14894v2 )

ライセンス: Link先を確認
Quanlong Wang(参考訳) ZX計算は直感的だが数学的には厳密な量子コンピューティングのグラフィカル言語であり、特に量子回路の枠組みにおいて強力である。 zx-計算の完全性は、m$n$の行列の等式は純粋に図式的に導出できることを意味する。 この論文では、量子計算のための別のグラフィカル言語である zw-calculus の完全性結果からの変換を通じて、純粋な量子力学全体の zx-calculus に対する最初の完全公理化を与える。 これはquantomaticのようなソフトウェアを使って、自動画像量子コンピューティングへの道を開くものだ。 この普遍完全性に基づいて、複素数の環を任意の可換環に対するZW-計算の完全性定理に基づくクリフォード+Tフラグメントに対応する部分環に制限することにより、量子コンピューティングにおいて近似的に普遍的なクリフォード+T量子力学に対するZX-計算の完全公理化を直接得る。 さらに, 2-qubit clifford+t回路におけるzx-calculusの完全性(わずか9規則)を図式書き換えによる17回路関係の完全集合の検証により証明する。 量子ビット関連形式論における完全性の結果に加えて、量子安定化器量子力学のためのZX-計算の完全性も量子安定化器系に拡張する。 最後に、一般化された補数性の証明へのzx計算の適用、絡み合い分類の表現と toffoli ゲート、および uma ゲートの等価性チェックの例を示す。

The ZX-calculus is an intuitive but also mathematically strict graphical language for quantum computing, which is especially powerful for the framework of quantum circuits. Completeness of the ZX-calculus means any equality of matrices with size powers of $n$ can be derived purely diagrammatically. In this thesis, we give the first complete axiomatisation the ZX-calculus for the overall pure qubit quantum mechanics, via a translation from the completeness result of another graphical language for quantum computing -- the ZW-calculus. This paves the way for automated pictorial quantum computing, with the aid of some software like Quantomatic. Based on this universal completeness, we directly obtain a complete axiomatisation of the ZX-calculus for the Clifford+T quantum mechanics, which is approximatively universal for quantum computing, by restricting the ring of complex numbers to its subring corresponding to the Clifford+T fragment resting on the completeness theorem of the ZW-calculus for arbitrary commutative ring. Furthermore, we prove the completeness of the ZX-calculus (with just 9 rules) for 2-qubit Clifford+T circuits by verifying the complete set of 17 circuit relations in diagrammatic rewriting. In addition to completeness results within the qubit related formalism, we extend the completeness of the ZX-calculus for qubit stabilizer quantum mechanics to the qutrit stabilizer system. Finally, we show with some examples the application of the ZX-calculus to the proof of generalised supplementarity, the representation of entanglement classification and Toffoli gate, as well as equivalence-checking for the UMA gate.
翻訳日:2023-05-18 20:45:41 公開日:2023-05-17
# 分散誘電体物体におけるマクロ量子電磁力学の積分定式化

Integral Formulation of Macroscopic Quantum Electrodynamics in Dispersive Dielectric Objects ( http://arxiv.org/abs/2209.13962v3 )

ライセンス: Link先を確認
Carlo Forestiere and Giovanni Miano(参考訳) 本稿では, ホップフィールド型アプローチを用いて, 有限サイズの線形分散誘電体物体に対するハイゼンベルク像におけるマクロ量子電磁力学の積分定式化を提案する。 電磁場演算子を真空の遅延グリーン関数を介して偏光密度場演算子の関数として表現することにより、偏光密度場演算子の進化を制御した積分方程式を得る。 この定式化は、古典的電磁力学から確立された計算技術を直接適用して、オープンで分散的で吸収的な環境で量子力学計算を行うという大きな利点をもたらす。

We propose an integral formulation of macroscopic quantum electrodynamics in the Heisenberg picture for linear dispersive dielectric objects of finite size, utilizing the Hopfield-type approach. By expressing the electromagnetic field operators as a function of the polarization density field operator via the retarded Green function for the vacuum, we obtain an integral equation that governs the evolution of the polarization density field operator. This formulation offers significant advantages, as it allows for the direct application of well-established computational techniques from classical electrodynamics to perform quantum electrodynamics computations in open, dispersive, and absorbing environments.
翻訳日:2023-05-18 20:45:14 公開日:2023-05-17
# 正準場:ポーズ・カノニカル化ニューラルフィールドの自己教師あり学習

Canonical Fields: Self-Supervised Learning of Pose-Canonicalized Neural Fields ( http://arxiv.org/abs/2212.02493v3 )

ライセンス: Link先を確認
Rohith Agaram, Shaurya Dewan, Rahul Sajnani, Adrien Poulenard, Madhava Krishna, Srinath Sridhar(参考訳) コーディネートベースの暗黙的ニューラルネットワーク、すなわちニューラルネットワークは、3Dコンピュータビジョンにおける形状と外観の有用な表現として登場した。 しかし、進歩にもかかわらず、shapenetのような"canonicalized"オブジェクトインスタンスを提供し、3dの位置と向き(pose)を一貫して整列するデータセットのないオブジェクトのカテゴリのニューラルフィールドを構築することは、依然として困難である。 本稿では,ニューラルネットワーク,特にニューラル放射場(NeRF)に代表される対象カテゴリから,インスタンスの3次元ポーズを正準化する自己教師型手法CaFi-Netを提案する。 cafi-netは、カテゴリレベルの正準化のための同変体特徴を抽出するために設計されたsiameseネットワークアーキテクチャを使用して、連続的および騒がしい放射場から直接学習する。 提案手法では,任意の3次元ポーズにおける新規オブジェクトインスタンスの事前学習した神経放射場を推定し,カテゴリ全体で一貫した3次元ポーズを持つ正準場を推定する。 13のオブジェクトカテゴリにまたがる1300のNeRFモデルのデータセットに対する大規模な実験は、我々の手法が3Dポイントクラウドベースの手法の性能と一致しているか、超越しているかを示している。

Coordinate-based implicit neural networks, or neural fields, have emerged as useful representations of shape and appearance in 3D computer vision. Despite advances, however, it remains challenging to build neural fields for categories of objects without datasets like ShapeNet that provide "canonicalized" object instances that are consistently aligned for their 3D position and orientation (pose). We present Canonical Field Network (CaFi-Net), a self-supervised method to canonicalize the 3D pose of instances from an object category represented as neural fields, specifically neural radiance fields (NeRFs). CaFi-Net directly learns from continuous and noisy radiance fields using a Siamese network architecture that is designed to extract equivariant field features for category-level canonicalization. During inference, our method takes pre-trained neural radiance fields of novel object instances at arbitrary 3D pose and estimates a canonical field with consistent 3D pose across the entire category. Extensive experiments on a new dataset of 1300 NeRF models across 13 object categories show that our method matches or exceeds the performance of 3D point cloud-based methods.
翻訳日:2023-05-18 20:37:15 公開日:2023-05-17
# ニューラルネットワークによるロバスト状態オブザーバの学習(より長いバージョン)

Learning Robust State Observers using Neural ODEs (longer version) ( http://arxiv.org/abs/2212.00866v2 )

ライセンス: Link先を確認
Keyan Miao and Konstantinos Gatsis(参考訳) 本稿では,神経オデムに関する最近の研究結果に基づき,神経オデムに基づく非線形系に対する状態オブザーバの設計手法を提案し,ルンベルガー様オブザーバとそれらの非線形拡張(カザンツィス・クラヴァリス・ルエンベルガー(kkl)オブザーバ)について,部分的既知の非線形ダイナミクスと未知の非線形ダイナミクスをそれぞれ学習する。 特に、調整可能なKKLオブザーバの場合、学習における学習に基づくオブザーバの堅牢性向上の基礎として、オブザーバの設計と収束速度とロバストネスのトレードオフの関係を分析し、利用する。 この手法の利点を数値シミュレーションで説明する。

Relying on recent research results on Neural ODEs, this paper presents a methodology for the design of state observers for nonlinear systems based on Neural ODEs, learning Luenberger-like observers and their nonlinear extension (Kazantzis-Kravaris-Luenberger (KKL) observers) for systems with partially-known nonlinear dynamics and fully unknown nonlinear dynamics, respectively. In particular, for tuneable KKL observers, the relationship between the design of the observer and its trade-off between convergence speed and robustness is analysed and used as a basis for improving the robustness of the learning-based observer in training. We illustrate the advantages of this approach in numerical simulations.
翻訳日:2023-05-18 20:36:40 公開日:2023-05-17
# 1500-2100nm帯トロイの木馬攻撃における量子鍵分布成分ループホール

Quantum key distribution component loopholes in 1500-2100 nm range perspective for Trojan-horse attacks ( http://arxiv.org/abs/2211.16815v2 )

ライセンス: Link先を確認
Boris Nasedkin, Fedor Kiselev, Ilya Filipov, Darya Tolochko, Azat Ismagilov, Vladimir Chistiakov, Andrei Gaidash, Anton Tcypkin, Anton Kozubov, Vladimir Egorov(参考訳) 量子鍵分布(QKD)システムで使用されるコンポーネントの脆弱性は実装のセキュリティに影響を与え、システム開発やセキュリティ分析において考慮する必要がある。 本稿では,1500-2100nm帯におけるトロイの木馬攻撃対策の設計にQKDシステムでよく用いられる光ファイバ素子の伝送について検討した。 その結果,Eavesdroppingの可能性が開けた伝送スペクトルに抜け穴が見つかった。 また,単一モードファイバにおける全反射の破れに基づく簡易なパッシブ対策を提案し、1830nm以上の波長の二重パストロイの木馬プローブパルスに対して,少なくとも60dbの挿入損失が生じた。

Vulnerabilities of components used in quantum key distribution (QKD) systems affect its implementation security and must be taken into consideration during system development and security analysis. In this paper, we investigated transmission of fiber optical elements, which are commonly used in QKD systems for designing countermeasures against Trojan-horse attacks, in 1500-2100 nm range. As a result, we found loopholes in their transmission spectra which open possibilities for eavesdropping. We also suggested a simple passive countermeasure based on violation of total internal reflection in single-mode fiber, that leads to additional insertion losses of at least 60 dB for double-pass Trojan-horse probe pulses for wavelengths longer than 1830 nm.
翻訳日:2023-05-18 20:36:25 公開日:2023-05-17
# ランダムイジングモデルのためのディープラーニング最適量子アニールスケジュール

Deep learning optimal quantum annealing schedules for random Ising models ( http://arxiv.org/abs/2211.15209v2 )

ライセンス: Link先を確認
Pratibha Raghupati Hegde, Gianluca Passarelli, Giovanni Cantele, and Procolo Lucignano(参考訳) 量子アドバンテージへの競争における重要なステップは、アドホックアニーリングスケジュールを用いた量子アニーリングの最適化である。 この分野の最近の進歩に動機づけられ,正規グラフ上のランダムイジングモデルの最適アニーリングスケジュールの探索を自動化すべく,lstm(long-short term memory)ニューラルネットワークを用いた。 局所断熱アニーリングパスを用いてネットワークをトレーニングすることで、未発見のインスタンスやより大きなグラフに対して、トレーニングに使用するものよりも最適なアニーリングスケジュールを予測できる。

A crucial step in the race towards quantum advantage is optimizing quantum annealing using ad-hoc annealing schedules. Motivated by recent progress in the field, we propose to employ long-short term memory (LSTM) neural networks to automate the search for optimal annealing schedules for random Ising models on regular graphs. By training our network using locally-adiabatic annealing paths, we are able to predict optimal annealing schedules for unseen instances and even larger graphs than those used for training.
翻訳日:2023-05-18 20:36:12 公開日:2023-05-17
# 不確かさを意識したメトリビュージオローカライゼーション

Uncertainty-aware Vision-based Metric Cross-view Geolocalization ( http://arxiv.org/abs/2211.12145v2 )

ライセンス: Link先を確認
Florian Fervers, Sebastian Bullinger, Christoph Bodensteiner, Michael Arens, Rainer Stiefelhagen(参考訳) 本稿では,地上車両から撮影されたカメラ画像と空中画像とを整合させ,車両のジオポジショニングを判定する視覚ベースメトリッククロスビュージオローカイゼーション(cvgl)の新しい手法を提案する。 航空画像は世界中で低コストで利用可能であるため、既存の2つの自動運転パラダイム、すなわち高価な高精細な事前地図を使用するか、あるいは実行時にキャプチャされたセンサデータに完全に依存することによる妥協の可能性がある。 本稿では,地上画像と空中画像を用いて車両ポーズの確率分布を予測する,エンドツーエンドの微分可能モデルを提案する。 我々は,複数の車両データセットとオルソ写真提供者の航空画像を組み合わせて,その実現可能性を示す。 地上の真理のポーズは、しばしば航空画像に不正確なため、より正確な地上の真理のポーズを生成し、それらを一般に公開するための擬似ラベルのアプローチを実装している。 従来の研究では, 適切な局所化精度を達成するためには, 対象領域からのトレーニングデータを必要とするが, この制限を克服し, 厳格に困難なクロスエリアの場合においても, 先行結果を上回っている。 我々は,テスト領域の地上データや空中データなしでも,従来の最先端技術を大きなマージンで改善し,世界規模の応用の可能性を強調した。 さらに,追跡フレームワークに不確実性認識予測を統合することで,車両の走行経路を経時的に決定し,kitti-360の0.78mの平均位置誤差を発生させる。

This paper proposes a novel method for vision-based metric cross-view geolocalization (CVGL) that matches the camera images captured from a ground-based vehicle with an aerial image to determine the vehicle's geo-pose. Since aerial images are globally available at low cost, they represent a potential compromise between two established paradigms of autonomous driving, i.e. using expensive high-definition prior maps or relying entirely on the sensor data captured at runtime. We present an end-to-end differentiable model that uses the ground and aerial images to predict a probability distribution over possible vehicle poses. We combine multiple vehicle datasets with aerial images from orthophoto providers on which we demonstrate the feasibility of our method. Since the ground truth poses are often inaccurate w.r.t. the aerial images, we implement a pseudo-label approach to produce more accurate ground truth poses and make them publicly available. While previous works require training data from the target region to achieve reasonable localization accuracy (i.e. same-area evaluation), our approach overcomes this limitation and outperforms previous results even in the strictly more challenging cross-area case. We improve the previous state-of-the-art by a large margin even without ground or aerial data from the test region, which highlights the model's potential for global-scale application. We further integrate the uncertainty-aware predictions in a tracking framework to determine the vehicle's trajectory over time resulting in a mean position error on KITTI-360 of 0.78m.
翻訳日:2023-05-18 20:36:01 公開日:2023-05-17
# 3次構造に基づくRNA設計のための階層的データ効率表現学習

Hierarchical Data-efficient Representation Learning for Tertiary Structure-based RNA Design ( http://arxiv.org/abs/2301.10774v2 )

ライセンス: Link先を確認
Cheng Tan, Yijie Zhang, Zhangyang Gao, Hanqun Cao, Stan Z. Li(参考訳) 人工知能は、生体高分子の一次配列と第三次構造との関係を明らかにすることに顕著な進歩を遂げているが、特定の第三次構造に基づくrna配列の設計は依然として困難である。 タンパク質設計における既存のアプローチはタンパク質の構造から配列への依存を徹底的に研究してきたが、RNAの設計は構造的な複雑さとデータ不足のために依然として困難に直面している。 この問題に加えて、タンパク質設計手法を直接RNA設計に移植しても、同様の構造成分を共有しながら十分な結果が得られない。 本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。 我々は,大規模で精巧なベンチマークデータセットを作成し,複雑なrna3次構造を表現するための包括的構造モデリング手法を設計した。 さらに,クラスタレベルとサンプルレベルでの対比学習を通じて構造表現を学習し,限られたデータを完全に活用する階層型データ効率表現学習フレームワークを提案する。 限られた超球面空間内でデータ表現を制約することで、データポイント間の本質的な関係を明示的に課すことができる。 さらに,RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造を事前知識として組み込んだ。 大規模な実験により提案手法の有効性を実証し,今後のRNA設計タスクの信頼性の高いベースラインを提供する。 ソースコードとベンチマークデータセットは公開される予定だ。

While artificial intelligence has made remarkable strides in revealing the relationship between biological macromolecules' primary sequence and tertiary structure, designing RNA sequences based on specified tertiary structures remains challenging. Though existing approaches in protein design have thoroughly explored structure-to-sequence dependencies in proteins, RNA design still confronts difficulties due to structural complexity and data scarcity. Adding to the problem, direct transplantation of protein design methodologies into RNA design fails to achieve satisfactory outcomes although sharing similar structural components. In this study, we aim to systematically construct a data-driven RNA design pipeline. We crafted a large, well-curated benchmark dataset and designed a comprehensive structural modeling approach to represent the complex RNA tertiary structure. More importantly, we proposed a hierarchical data-efficient representation learning framework that learns structural representations through contrastive learning at both cluster-level and sample-level to fully leverage the limited data. By constraining data representations within a limited hyperspherical space, the intrinsic relationships between data points could be explicitly imposed. Moreover, we incorporated extracted secondary structures with base pairs as prior knowledge to facilitate the RNA design process. Extensive experiments demonstrate the effectiveness of our proposed method, providing a reliable baseline for future RNA design tasks. The source code and benchmark dataset will be released publicly.
翻訳日:2023-05-18 20:29:11 公開日:2023-05-17
# 交流最適潮流のコンパクト最適化学習

Compact Optimization Learning for AC Optimal Power Flow ( http://arxiv.org/abs/2301.08840v3 )

ライセンス: Link先を確認
Seonho Park, Wenbo Chen, Terrence W.K. Mak and Pascal Van Hentenryck(参考訳) 本稿では,最適潮流(OPF)に対するエンドツーエンドの学習手法を再考する。 OPFの入出力マッピングを学習する既存の方法は、出力空間の高次元性に起因するスケーラビリティの問題に悩まされている。 本稿ではまず,主成分分析(PCA)を用いて最適解の空間を著しく圧縮できることを示す。 次に、ベクトルを元の出力空間に変換する前に、主成分の部分空間で学習する新しい方法であるコンパクト学習を提案する。 この圧縮により、トレーニング可能なパラメータの数は大幅に減少し、スケーラビリティと有効性が向上する。 Compact LearningはPGLibから最大30,000台のバスでさまざまなテストケースで評価されている。 また,小型学習の出力は,ACソルバを暖房して実現可能性の回復に役立てるとともに,大幅な高速化を実現することができることを示した。

This paper reconsiders end-to-end learning approaches to the Optimal Power Flow (OPF). Existing methods, which learn the input/output mapping of the OPF, suffer from scalability issues due to the high dimensionality of the output space. This paper first shows that the space of optimal solutions can be significantly compressed using principal component analysis (PCA). It then proposes Compact Learning, a new method that learns in a subspace of the principal components before translating the vectors into the original output space. This compression reduces the number of trainable parameters substantially, improving scalability and effectiveness. Compact Learning is evaluated on a variety of test cases from the PGLib with up to 30,000 buses. The paper also shows that the output of Compact Learning can be used to warm-start an exact AC solver to restore feasibility, while bringing significant speed-ups.
翻訳日:2023-05-18 20:28:49 公開日:2023-05-17
# 楕円型インタフェース問題を解くディリクレ・ノイマン学習アルゴリズム

Dirichlet-Neumann learning algorithm for solving elliptic interface problems ( http://arxiv.org/abs/2301.07361v2 )

ライセンス: Link先を確認
Qi Sun, Xuejun Xu, and Haotian Yi(参考訳) 重複しない領域分解法は、様々な分野から生じるインタフェース問題を解くのに自然であるが、数値シミュレーションは技術的解析を必要とし、しばしば高品質なグリッドの使用によってのみ利用でき、より複雑な状況での使用を妨げる。 メッシュ生成の負担を解消し,インターフェースジャンプ条件に効果的に取り組むために,高コントラスト係数と不規則なインターフェースを用いたベンチマーク楕円型インタフェース問題を解決するために,ディリクレ・ノイマン学習アルゴリズム(Dirichlet-Neumann learning algorithm)を提案する。 変分原理を用いて,ニューラルネットワーク拡張演算子を用いたdirichlet-neumannアルゴリズムを実現するための手法として,分解された各部分問題に対する境界ペナルティ処理による不一致を評価するための厳密な誤り解析を行う。 提案手法の有効性とロバスト性は, 一連の楕円型インタフェース問題を通じて実験的に実証され, 特に界面に誤ったフラックス予測が存在する場合に, 他の選択肢よりも優れた性能が得られた。

Non-overlapping domain decomposition methods are natural for solving interface problems arising from various disciplines, however, the numerical simulation requires technical analysis and is often available only with the use of high-quality grids, thereby impeding their use in more complicated situations. To remove the burden of mesh generation and to effectively tackle with the interface jump conditions, a novel mesh-free scheme, i.e., Dirichlet-Neumann learning algorithm, is proposed in this work to solve the benchmark elliptic interface problem with high-contrast coefficients as well as irregular interfaces. By resorting to the variational principle, we carry out a rigorous error analysis to evaluate the discrepancy caused by the boundary penalty treatment for each decomposed subproblem, which paves the way for realizing the Dirichlet-Neumann algorithm using neural network extension operators. The effectiveness and robustness of our proposed methods are demonstrated experimentally through a series of elliptic interface problems, achieving better performance over other alternatives especially in the presence of erroneous flux prediction at interface.
翻訳日:2023-05-18 20:28:36 公開日:2023-05-17
# nullエネルギー条件違反:トンネル対カシミール効果

Null energy condition violation: Tunnelling versus the Casimir effect ( http://arxiv.org/abs/2301.02455v2 )

ライセンス: Link先を確認
Jean Alexandre and Drew Backhouse(参考訳) 有限体積で許容される2つの縮退したミニマ間のトンネルは、非拡張対称な基底状態をもたらす。 これにより、フィールドを含むボックス内の連続的なモーメントの集合が仮定された場合、十分な低温でヌルエネルギ条件に違反する。 離散モーメントを考慮すると、この図を修正でき、トンネルによって引き起こされる基底状態エネルギーにカシミールエネルギーを加えることで達成される。 ゼロ温度に焦点をあてると、これらの非自明な効果は、典型的な長さスケールに依存する。

We show that tunnelling between two degenerate minima, as allowed in a finite volume, leads to a non-extensive symmetric ground state. This results in Null Energy Condition violation for sufficiently low temperatures, when a continuous set of momenta in the box containing the field is assumed. Taking into account discrete momenta can modify this picture and is achieved via the addition of the Casimir energy to the tunnelling-induced ground state energy. Focusing on zero-temperature, these non-trivial effects are found to compete, depending on the typical length scales involved.
翻訳日:2023-05-18 20:28:16 公開日:2023-05-17
# 超伝導アナログシミュレータにおけるポーラロン励起のスペクトル特性

Spectral features of polaronic excitations in a superconducting analog simulator ( http://arxiv.org/abs/2212.14859v3 )

ライセンス: Link先を確認
Julian K. Nauth and Vladimir M. Stojanovic(参考訳) 導電性超伝導トランスモン量子ビットとマイクロ波共振器を用いたアナログ量子シミュレータのフレームワーク内でのポーラロン励起のスペクトル特性について検討した。 このシステムは、ピエルルと呼吸モード相互作用機構を通じて、反復スピンレスフェルミオン励起と分散レスフォノンとの非局所結合を記述する格子モデルをエミュレートする。 このモデルの特徴は、効果的な励起-フォノンカップリング強度の臨界値における鋭い水平交差遷移であり、遷移点の上方では、このモデルの基底状態は、重く着飾られた(小さなポーラロン)励起に対応する。 カーネル-多項法を用いて、このシステムの運動量-周波数分解スペクトル関数を幅広いパラメータで評価した。 特に、素励起の零準同相ブロッホ状態が、任意の励起-フォノン結合強度のために、この系のハミルトニアンの正確な固有状態を表すという事実の分岐を裏付ける。 また, 数値評価されたスペクトル関数と, 初期非励起ブロッホ状態(Loschmidt echo)の生存確率とのよく知られた関係に基づいて, 励起-フォノン相互作用のクエンチに従って系の力学を予測できることを示した。 本研究では,Ramsey干渉プロトコルのマルチキュービット(多体)バージョンを用いて,局所(単一キュービット)アドバイザビリティを持つシステムにおける動的応答関数を抽出する手法を提案する。

We investigate spectral properties of polaronic excitations within the framework of an analog quantum simulator based on inductively coupled superconducting transmon qubits and microwave resonators. This system emulates a lattice model that describes a nonlocal coupling of an itinerant spinless-fermion excitation to dispersionless (Einstein-type) phonons through the Peierls and breathing-mode interaction mechanisms. The model is characterized by a sharp, level-crossing transition at a critical value of the effective excitation-phonon coupling strength; above the transition point, the ground state of this model corresponds to a heavily dressed (small-polaron) excitation. Using the kernel-polynomial method, we evaluate the momentum-frequency resolved spectral function of this system for a broad range of parameters. In particular, we underscore the ramifications of the fact that the zero-quasimomentum Bloch state of a bare excitation represents the exact eigenstate of the Hamiltonian of this system for an arbitrary excitation-phonon coupling strength. We also show that -- based on the numerically evaluated spectral function and its well-known relation with the survival probability of the initial, bare-excitation Bloch state (the Loschmidt echo) -- one can make predictions about the system dynamics following an excitation-phonon interaction quench. To make contact with anticipated experimental realizations, we utilize a previously proposed method for extracting dynamical-response functions in systems with local (single-qubit) addressability using the multiqubit (many-body) version of the Ramsey interference protocol.
翻訳日:2023-05-18 20:28:06 公開日:2023-05-17
# hhlアルゴリズムを(非ユニタリ)量子多体理論に適用する

Adapting the HHL algorithm to (non-unitary) quantum many-body theory ( http://arxiv.org/abs/2212.14781v2 )

ライセンス: Link先を確認
Nishanth Baskaran, Abhishek Singh Rawat, Akshaya Jayashankar, Dibyajyoti Chakravarti, K. Sugisaki, Shibdas Roy, Sudhindu Bikash Mandal, D. Mukherjee, and V. S. Prasannaa(参考訳) 量子化学の近・長期量子アルゴリズム開発における急速な進歩は、従来のアプローチを超えて、量子コンピューティングを電子構造計算に適用する新しい方法を模索する契機となった。 本研究では、量子多体理論と量子線形解法の関係を同定し、Harrow-Hassidim-Lloyd (HHL)アルゴリズムを実装し、(非単位)線形結合クラスタ理論を用いて光分子系の相関エネルギーの正確な予測を行う。 hhlアルゴリズムを2つの新しい側面を統合するために変更する。 (a)任意の対称正定値行列 a をスケールして ax = b を解き、a の固有値を計算することなく、常に合理的な精度で x を達成することができる新しいスケーリング手法を定式化している。 (b)回路全体の深さを減らす手法を考案する。 本稿では, 量子コンピューティングの異なる時代におけるhhlの変種について紹介する。adapthhliteは, 雑音型中間スケール量子(nisq), 後期nisq, 初期のフォールトトレラント時代の適切な形式であり, フォールトトレラント量子コンピューティング時代のadapthhlである。 シミュレーションと11量子ビットのIonQ量子ハードウェアを用いて, 相関エネルギーを高精度に取得し, 同時にリソースリーン化を図りながら, NISQ のAdaptHHLite 変異体を実演する。

Rapid progress in developing near- and long-term quantum algorithms for quantum chemistry has provided us with an impetus to move beyond traditional approaches and explore new ways to apply quantum computing to electronic structure calculations. In this work, we identify the connection between quantum many-body theory and a quantum linear solver, and implement the Harrow-Hassidim-Lloyd (HHL) algorithm to make precise predictions of correlation energies for light molecular systems via the (non-unitary) linearised coupled cluster theory. We alter the HHL algorithm to integrate two novel aspects- (a) we prescribe a novel scaling approach that allows one to scale any arbitrary symmetric positive definite matrix A, to solve for Ax = b and achieve x with reasonable precision, all the while without having to compute the eigenvalues of A, and (b) we devise techniques that reduce the depth of the overall circuit. In this context, we introduce the following variants of HHL for different eras of quantum computing- AdaptHHLite in its appropriate forms for noisy intermediate scale quantum (NISQ), late-NISQ, and the early fault-tolerant eras, as well as AdaptHHL for the fault-tolerant quantum computing era. We demonstrate the ability of the NISQ variant of AdaptHHLite to capture correlation energy precisely, while simultaneously being resource-lean, using simulation as well as the 11-qubit IonQ quantum hardware.
翻訳日:2023-05-18 20:27:42 公開日:2023-05-17
# A-NeSI:確率論的ニューロシンボリック推論のためのスケーラブル近似法

A-NeSI: A Scalable Approximate Method for Probabilistic Neurosymbolic Inference ( http://arxiv.org/abs/2212.12393v2 )

ライセンス: Link先を確認
Emile van Krieken, Thiviyan Thanapalasingam, Jakub M. Tomczak, Frank van Harmelen, Annette ten Teije(参考訳) ニューラルネットワークとシンボリック推論を組み合わせた問題について検討する。 近年、DeepProbLogのような確率的ニューロシンボリックラーニング(PNL)フレームワークが指数時間正確な推論を行い、PNLソリューションのスケーラビリティを制限している。 本稿では、ニューラルネットワークを用いてスケーラブルな近似推論を行うPNLの新しいフレームワークであるA-NeSIを紹介する。 A-NeSI 1) 確率論理のセマンティクスを変更することなく,多項式時間で近似推論を行う。 2) 背景知識が生成したデータを用いて訓練する。 3)予測の象徴的な説明をすることができる。 4) 安全クリティカルなアプリケーションで不可欠な、テスト時の論理的な制約の満足度を保証できる。 実験の結果,A-NeSIは指数的組合せスケーリングで3つのニューロシンボリックな課題を解く最初のエンドツーエンド手法であることがわかった。 最後に,A-NeSIは性能上のペナルティを伴わずに,説明可能性と安全性を実現することを示す。

We study the problem of combining neural networks with symbolic reasoning. Recently introduced frameworks for Probabilistic Neurosymbolic Learning (PNL), such as DeepProbLog, perform exponential-time exact inference, limiting the scalability of PNL solutions. We introduce Approximate Neurosymbolic Inference (A-NeSI): a new framework for PNL that uses neural networks for scalable approximate inference. A-NeSI 1) performs approximate inference in polynomial time without changing the semantics of probabilistic logics; 2) is trained using data generated by the background knowledge; 3) can generate symbolic explanations of predictions; and 4) can guarantee the satisfaction of logical constraints at test time, which is vital in safety-critical applications. Our experiments show that A-NeSI is the first end-to-end method to solve three neurosymbolic tasks with exponential combinatorial scaling. Finally, our experiments show that A-NeSI achieves explainability and safety without a penalty in performance.
翻訳日:2023-05-18 20:27:15 公開日:2023-05-17
# 因果信用付与に向けて

Towards Causal Credit Assignment ( http://arxiv.org/abs/2212.11636v2 )

ライセンス: Link先を確認
M\'aty\'as Schubert(参考訳) コントリビューションに基づいた今後の成果に対するアクションへのクレジットの割り当ては、強化学習における長年にわたるオープンな課題である。 最も一般的に使われるクレジット割当法の仮定は、決定の影響がすぐには明らかでないタスクにおいて不利である。 さらに、この方法は、エージェントによって選択されたアクションのみを評価することができ、非常に非効率である。 しかし、この分野では他の方法が広く採用されていない。 Hindsight Credit Assignmentは有望だが、まだ未検討の候補であり、長期的および対実的なクレジット割り当ての問題を解決することを目的としている。 本論文では,その主な利益と改善すべき要点を特定するため,後見クレジットの割り当てを実証的に検討する。 次に, 因子化された状態表現, 特に環境の因果構造に基づく状態表現に適用する。 この設定では、与えられた因果構造を効果的に活用するHindsight Credit Assignmentの変種を提案する。 今回の変更により,後見クレジット割り当ての作業負荷が大幅に減少し,作業効率が向上し,さまざまなタスクにおけるベースラインクレジット割り当てメソッドを上回ることが可能になった。 これは、与えられたまたは学習された因果構造に基づく他の方法への道を開く。

Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
翻訳日:2023-05-18 20:26:58 公開日:2023-05-17
# マルチレーン検出

Multi Lane Detection ( http://arxiv.org/abs/2212.11533v5 )

ライセンス: Link先を確認
Fei Wu and Luoyu Chen(参考訳) 車線検出は長年の課題であり、自動運転の基本モジュールである。 課題は、現在の運転道路の車線を検知し、ID、方向、曲率、幅、長さなどの関連情報と視覚化を提供することである。 我々の研究は、CNNのバックボーンDLA-34とアフィニティ・フィールズ(Affinity Fields)をベースとし、車線数を仮定することなく、様々な車線を頑健に検出することを目的としている。 さらに,より効率的な車線検出アルゴリズムを実現するための新しい復号法について検討する。

Lane detection is a long-standing task and a basic module in autonomous driving. The task is to detect the lane of the current driving road, and provide relevant information such as the ID, direction, curvature, width, length, with visualization. Our work is based on CNN backbone DLA-34, along with Affinity Fields, aims to achieve robust detection of various lanes without assuming the number of lanes. Besides, we investigate novel decoding methods to achieve more efficient lane detection algorithm.
翻訳日:2023-05-18 20:26:40 公開日:2023-05-17
# 2部量子状態判別と分解可能な絡み合い証

Bipartite quantum state discrimination and decomposable entanglement witness ( http://arxiv.org/abs/2212.10799v2 )

ライセンス: Link先を確認
Donghoon Ha, Jeong San Kim(参考訳) 正の偏移法を用いて二成分量子状態の識別を考察し、正の偏移法測定による最小誤差の判別が絡み合いの証人と密接に関連していることを示す。 分解可能な絡み合いの証人の概念を用いて,正の偏差測定により最小限のエラー識別の条件を確立する。 また, 最大成功確率の上限の条件を, 任意の正の偏移測定値に対して提示する。 最後に,多次元二成分量子状態の例を用いて結果を示す。

We consider bipartite quantum state discrimination using positive-partial-transpose measurements and show that minimum-error discrimination by positive-partial-transpose measurements is closely related to entanglement witness. By using the concept of decomposable entanglement witness, we establish conditions on minimum-error discrimination by positive-partial-transpose measurements. We also provide conditions on the upper bound of the maximum success probability over all possible positive-partial-transpose measurements. Finally, we illustrate our results using examples of multidimensional bipartite quantum states.
翻訳日:2023-05-18 20:26:11 公開日:2023-05-17
# バイナリ分類におけるラベル保護のためのGANに基づく垂直フェデレーション学習

GAN-based Vertical Federated Learning for Label Protection in Binary Classification ( http://arxiv.org/abs/2302.02245v2 )

ライセンス: Link先を確認
Yujin Han, Leying Guan(参考訳) スプリットラーニング(Split Learning, SplitNN)は、VFL(Vertical Federated Learning)において、高い計算コストと低モデリング効率に対処するための一般的な戦略として登場した。 しかし、その人気にもかかわらず、バニラスプリットNNは暗号化保護に欠けており、特にGradients(LLG)のラベル漏洩問題に弱いままである。 学習中のラベルの使用によるLCG問題に触発され,GAFM(Generative Adversarial Federated Model)を提案し,GAN(Generative Adversarial Networks)とスプリットNNを統合することで,ラベルのプライバシー保護を強化する新しい手法を提案する。 GAFMは、ラベル情報を明示的なラベルに頼るのではなく、ラベル分布を学習することで間接的にラベル情報を利用する。 GAFMはまた、ノイズラベルに基づく追加のクロスエントロピー損失を使用して、予測精度をさらに向上する。 GANとクロスエントロピー損失成分の組み合わせは,GAFMがモデルの有用性を著しく損なうことなくLPGを緩和するために必要であることを示す。 さまざまなデータセットでの実証的な結果から、gafmは複数のランダム実行におけるすべてのベースラインと比較して、モデルユーティリティとプライバシのトレードオフを良好かつ堅牢に達成していることがわかる。 さらに,スプリットNNに対するGAFMの優位性を実証するため,スプリットNNに対する勾配摂動によるラベル保護の強化が実証された。

Split learning (splitNN) has emerged as a popular strategy for addressing the high computational costs and low modeling efficiency in Vertical Federated Learning (VFL). However, despite its popularity, vanilla splitNN lacks encryption protection, leaving it vulnerable to privacy leakage issues, especially Label Leakage from Gradients (LLG). Motivated by the LLG issue resulting from the use of labels during training, we propose the Generative Adversarial Federated Model (GAFM), a novel method designed specifically to enhance label privacy protection by integrating splitNN with Generative Adversarial Networks (GANs). GAFM leverages GANs to indirectly utilize label information by learning the label distribution rather than relying on explicit labels, thereby mitigating LLG. GAFM also employs an additional cross-entropy loss based on the noisy labels to further improve the prediction accuracy. Our ablation experiment demonstrates that the combination of GAN and the cross-entropy loss component is necessary to enable GAFM to mitigate LLG without significantly compromising the model utility. Empirical results on various datasets show that GAFM achieves a better and more robust trade-off between model utility and privacy compared to all baselines across multiple random runs. In addition, we provide experimental justification to substantiate GAFM's superiority over splitNN, demonstrating that it offers enhanced label protection through gradient perturbation relative to splitNN.
翻訳日:2023-05-18 20:18:26 公開日:2023-05-17
# 協調型マルチエージェント強化学習のための個別グローバルマックスを伴わない二重自己認識値分解フレームワーク

Dual Self-Awareness Value Decomposition Framework without Individual Global Max for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2302.02180v2 )

ライセンス: Link先を確認
Zhiwei Xu, Bin Zhang, Dapeng Li, Guangchong Zhou, Zeren Zhang, Guoliang Fan(参考訳) 協調型マルチエージェント強化学習の分野では,値分解手法が普及している。 しかしながら、既存の方法のほとんどすべてが、個々のグローバルマックス(igm)またはその変種(問題解決能力を制限する)の原則に従っている。 これを解決するために、心理学における二重自己認識の概念に着想を得た二重自己認識価値分解フレームワークを提案する。 各エージェントは、クレジット割り当て問題を解決するためのアクション選択のためのegoポリシーと、変更されたego値関数からなる。 値関数因子化は明示的な探索手順を用いてigmの仮定を無視することができる。 また,提案手法は,アルゴリズムが局所的な最適値に収まらないよう,新たなアンチエゴ探索機構を提案する。 IGMを含まない最初の完全値分解法として,提案手法は様々な協調作業において望ましい性能を実現する。

Value decomposition methods have gained popularity in the field of cooperative multi-agent reinforcement learning. However, almost all existing methods follow the principle of Individual Global Max (IGM) or its variants, which limits their problem-solving capabilities. To address this, we propose a dual self-awareness value decomposition framework, inspired by the notion of dual self-awareness in psychology, that entirely rejects the IGM premise. Each agent consists of an ego policy for action selection and an alter ego value function to solve the credit assignment problem. The value function factorization can ignore the IGM assumption by utilizing an explicit search procedure. On the basis of the above, we also suggest a novel anti-ego exploration mechanism to avoid the algorithm becoming stuck in a local optimum. As the first fully IGM-free value decomposition method, our proposed framework achieves desirable performance in various cooperative tasks.
翻訳日:2023-05-18 20:17:59 公開日:2023-05-17
# 平均制約ポリシー最適化

Average-Constrained Policy Optimization ( http://arxiv.org/abs/2302.00808v2 )

ライセンス: Link先を確認
Akhil Agnihotri, Rahul Jain, Haipeng Luo(参考訳) 制約のある強化学習(RL)は、様々なアプリケーションにとってますます重要な問題になりつつある。 平均基準は割引基準よりも適していることが多い。 しかし、平均基準制約付きMDPのRLは依然として難しい問題である。 割引制約付きRL問題のために設計されたアルゴリズムは、平均CMDP設定ではうまく機能しないことが多い。 本稿では,平均値の制約付きmdpに対する関数近似アルゴリズムを用いた新しいポリシー最適化を提案する。 平均制約付き政策最適化(ACPO)アルゴリズムは信頼領域法に基づくPPO型アルゴリズムに着想を得たものである。 我々は,平均的MDPに対する基本感度理論を開発し,それに対応する境界をアルゴリズムの設計に用いる。 我々は,その性能に関する理論的保証を提供し,様々な挑戦的なmujoco環境における広範囲な実験を通じて,平均cmdp設定に適応した他の最先端アルゴリズムと比較して,アルゴリズムの優れた性能を示す。

Reinforcement Learning (RL) with constraints is becoming an increasingly important problem for various applications. Often, the average criterion is more suitable than the discounted criterion. Yet, RL for average criterion-constrained MDPs remains a challenging problem. Algorithms designed for discounted constrained RL problems often do not perform well for the average CMDP setting. In this paper, we introduce a new policy optimization with function approximation algorithm for constrained MDPs with the average criterion. The Average-Constrained Policy Optimization (ACPO) algorithm is inspired by the famed PPO-type algorithms based on trust region methods. We develop basic sensitivity theory for average MDPs, and then use the corresponding bounds in the design of the algorithm. We provide theoretical guarantees on its performance, and through extensive experimental work in various challenging MuJoCo environments, show the superior performance of the algorithm when compared to other state-of-the-art algorithms adapted for the average CMDP setting.
翻訳日:2023-05-18 20:17:44 公開日:2023-05-17
# 蒸留政策最適化

Distillation Policy Optimization ( http://arxiv.org/abs/2302.00533v3 )

ライセンス: Link先を確認
Jianfei Ma(参考訳) しかし、オン・ポリシーのアルゴリズムはまだ安定しているはずだ。 過去の経験を利用したオフポリシーアルゴリズムは、一般的にはサンプル効率だが不安定であると考えられている。 法外データを活用するアルゴリズムを設計できる一方で、法外通路に沿って航行することで安定した学習を活用できるだろうか? 本稿では,関心の分布的視点を借用して評価し,高速な学習を可能にし,幅広いアルゴリズムに適用可能な,政策改善のための2つのデータソースを交互に交配する,アクタ-批判学習フレームワークを提案する。 そのバックボーンにおいて、一般化された優位推定器(GAE)を任意の状態依存ベースラインに適用するように拡張する統一的優位推定器(UAE)や、政策勾配の安定化に長けた学習ベースラインなどの分散低減機構を第一に、単にアクション値関数へのブリッジであるだけでなく、有利な学習信号を蒸留する。 最後に,本手法がサンプル効率を向上し,異なるレベルを補間できることが実証的に示される。 有機的な全体であり、その混合はアルゴリズム設計により多くのインスピレーションを与える。

On-policy algorithms are supposed to be stable, however, sample-intensive yet. Off-policy algorithms utilizing past experiences are deemed to be sample-efficient, nevertheless, unstable in general. Can we design an algorithm that can employ the off-policy data, while exploit the stable learning by sailing along the course of the on-policy walkway? In this paper, we present an actor-critic learning framework that borrows the distributional perspective of interest to evaluate, and cross-breeds two sources of the data for policy improvement, which enables fast learning and can be applied to a wide class of algorithms. In its backbone, the variance reduction mechanisms, such as unified advantage estimator (UAE), that extends generalized advantage estimator (GAE) to be applicable on any state-dependent baseline, and a learned baseline, that is competent to stabilize the policy gradient, are firstly put forward to not merely be a bridge to the action-value function but also distill the advantageous learning signal. Lastly, it is empirically shown that our method improves sample efficiency and interpolates different levels well. Being of an organic whole, its mixture places more inspiration to the algorithm design.
翻訳日:2023-05-18 20:17:33 公開日:2023-05-17
# ランダムネットワーク蒸留による爆発防止

Anti-Exploration by Random Network Distillation ( http://arxiv.org/abs/2301.13616v2 )

ライセンス: Link先を確認
Alexander Nikulin, Vladislav Kurenkov, Denis Tarasov, Sergey Kolesnikov(参考訳) 様々な分野におけるランダムネットワーク蒸留(rnd)の成功にもかかわらず、オフライン強化学習における分散動作をペナルティ化するための不確実性評価として使用するには十分な識別性は認められなかった。 本稿では,これらの結果を再検討し,rndプリエント条件付けのナイーブな選択により,爆発防止ボーナスを効果的に最小化することは不可能であり,識別性は問題ではないことを示す。 その結果, ソフトアクタ-クリティックに基づく簡易で効率的なアンサンブルフリーアルゴリズムを実現することができた。 d4rlベンチマークで評価し、アンサンブルベースの手法に匹敵する性能を達成でき、アンサンブルフリーのアプローチを高いマージンで上回ることができることを示した。

Despite the success of Random Network Distillation (RND) in various domains, it was shown as not discriminative enough to be used as an uncertainty estimator for penalizing out-of-distribution actions in offline reinforcement learning. In this paper, we revisit these results and show that, with a naive choice of conditioning for the RND prior, it becomes infeasible for the actor to effectively minimize the anti-exploration bonus and discriminativity is not an issue. We show that this limitation can be avoided with conditioning based on Feature-wise Linear Modulation (FiLM), resulting in a simple and efficient ensemble-free algorithm based on Soft Actor-Critic. We evaluate it on the D4RL benchmark, showing that it is capable of achieving performance comparable to ensemble-based methods and outperforming ensemble-free approaches by a wide margin.
翻訳日:2023-05-18 20:17:13 公開日:2023-05-17
# 長距離ホッピングとペアリングを持つ北エフ鎖における対数・フラクタル・ボリュームロー絡み

Logarithmic, Fractal and Volume-Law Entanglement in a Kitaev chain with long-range hopping and pairing ( http://arxiv.org/abs/2301.13231v2 )

ライセンス: Link先を確認
Andrea Solfanelli, Stefano Ruffo, Sauro Succi, Nicol\`o Defenu(参考訳) 彼らの顕著な集団的特徴により、長距離の相互作用は情報拡散を促進し、局所的な相互作用を持つ従来のシステムでは観察できないエンタングルメントスケーリングの形式を生成する。 本研究では,長距離ホッピングとペアリングカップリングが崩壊するキタエフ鎖の絡み合いエントロピーの漸近挙動について,距離のパワー則を用いて検討する。 我々は,大規模サブシステムサイズ限界における基底状態の絡み合いの漸近的成長を解析的および数値的に解析し,真の非局所的な性質が極めて豊かな現象論をもたらすことを見出した。 最も顕著なのは, 強長距離体制において, 化学ポテンシャルの値や動力法則の崩壊の強さによって, 系基底状態が対数的, フラクタル的, あるいは体積則絡み合いスケーリングを持つ可能性があることであった。

Thanks to their prominent collective character, long-range interactions promote information spreading and generate forms of entanglement scaling, which cannot be observed in traditional systems with local interactions. In this work, we study the asymptotic behavior of the entanglement entropy for Kitaev chains with long-range hopping and pairing couplings decaying with a power law of the distance. We provide a fully-fledged analytical and numerical characterization of the asymptotic growth of the ground state entanglement in the large subsystem size limit, finding that the truly non-local nature of the model leads to an extremely rich phenomenology. Most significantly, in the strong long-range regime, we discovered that the system ground state may have a logarithmic, fractal, or volume-law entanglement scaling, depending on the value of the chemical potential and on the strength of the power law decay.
翻訳日:2023-05-18 20:16:56 公開日:2023-05-17
# FedRC:ロバストクラスタリングによるフェデレーション学習における分散分散シフトの対処

FedRC: Tackling Diverse Distribution Shifts Challenge in Federated Learning by Robust Clustering ( http://arxiv.org/abs/2301.12379v2 )

ライセンス: Link先を確認
Yongxin Guo, Xiaoying Tang, Tao Lin(参考訳) Federated Learning(FL)は、エッジデバイス上でクライアントデータを保持することによって、プライバシを保護する機械学習パラダイムである。 しかし,学習システムの多様で異質な性質のため,実際にFLを最適化することは困難である。 近年の研究では、クライアント間での分散シフトの発生時のFLの最適化に焦点が当てられているが、機能分散シフト、ラベル分布シフト、コンセプトシフトなど、複数のタイプの分散シフトが同時に発生すると、グローバルなパフォーマンスが保証されている。 本稿では,多様な分布シフトの同時発生による学習課題を特定し,これらの課題を克服するためのクラスタリング原理を提案する。 その結果,既存の手法ではクラスタリング原理に対処できないことがわかった。 そこで本稿では,2段階最適化問題と新たな目的関数を組み込むことで,提案したクラスタリングの原理に準拠する,FedRCと呼ばれる新しいクラスタリングアルゴリズムフレームワークを提案する。 大規模な実験により、FedRCは他のSOTAクラスタベースのFL法よりも大幅に優れていた。 私たちのコードは公開されます。

Federated Learning (FL) is a machine learning paradigm that safeguards privacy by retaining client data on edge devices. However, optimizing FL in practice can be challenging due to the diverse and heterogeneous nature of the learning system. Though recent research has focused on improving the optimization of FL when distribution shifts occur among clients, ensuring global performance when multiple types of distribution shifts occur simultaneously among clients -- such as feature distribution shift, label distribution shift, and concept shift -- remain under-explored. In this paper, we identify the learning challenges posed by the simultaneous occurrence of diverse distribution shifts and propose a clustering principle to overcome these challenges. Through our research, we find that existing methods failed to address the clustering principle. Therefore, we propose a novel clustering algorithm framework, dubbed as FedRC, which adheres to our proposed clustering principle by incorporating a bi-level optimization problem and a novel objective function. Extensive experiments demonstrate that FedRC significantly outperforms other SOTA cluster-based FL methods. Our code will be publicly available.
翻訳日:2023-05-18 20:16:36 公開日:2023-05-17
# 混合整数プログラミングによるニューラルネットワークの認証可逆性

Certified Invertibility in Neural Networks via Mixed-Integer Programming ( http://arxiv.org/abs/2301.11783v2 )

ライセンス: Link先を確認
Tianqi Cui, Thomas Bertalan, George J. Pappas, Manfred Morari, Ioannis G. Kevrekidis and Mahyar Fazlyab(参考訳) ニューラルネットワークは、ネットワークのアウトプットを著しく変えうる、小さく、知覚できない摂動である敵の攻撃に対して脆弱であることが知られている。 逆に、ネットワークの決定に影響を与えない大きな、意味のある摂動が存在する(過剰な不変性)。 本研究では,後者の現象を2つの文脈で検討する。 (a)離散時間力学系識別、及び (b)ニューラルネットワークの出力を他のネットワークの出力に校正すること。 非可逆性境界からの距離によってネットワーク予測の ``safety' を大域解が測定する数理最適化のレンズを通して非可逆性を調べる。 ReLUネットワークの混合整数プログラム(MIP)と力学系のニューラルネットワーク近似に適用される$L_p$ノルム(p=1,2,\infty$)を定式化する。 また,ニューラルネットワーク間のトランスフォーメーション,例えばネットワークプルーニングの異なるレベル間の変換における可逆性証明に,この知見がどのように役立つかについても論じた。

Neural networks are known to be vulnerable to adversarial attacks, which are small, imperceptible perturbations that can significantly alter the network's output. Conversely, there may exist large, meaningful perturbations that do not affect the network's decision (excessive invariance). In our research, we investigate this latter phenomenon in two contexts: (a) discrete-time dynamical system identification, and (b) the calibration of a neural network's output to that of another network. We examine noninvertibility through the lens of mathematical optimization, where the global solution measures the ``safety" of the network predictions by their distance from the non-invertibility boundary. We formulate mixed-integer programs (MIPs) for ReLU networks and $L_p$ norms ($p=1,2,\infty$) that apply to neural network approximators of dynamical systems. We also discuss how our findings can be useful for invertibility certification in transformations between neural networks, e.g. between different levels of network pruning.
翻訳日:2023-05-18 20:16:17 公開日:2023-05-17
# 文書要約のための知識保存プロンプトの探索

The Exploration of Knowledge-Preserving Prompts for Document Summarisation ( http://arxiv.org/abs/2301.11719v4 )

ライセンス: Link先を確認
Chen Chen, Wei Emma Zhang, Alireza Seyed Shakeri, Makhmoor Fiza(参考訳) 近年の文書要約技術の発展にもかかわらず、生成した要約と原文との事実的不一致は時折起こり続けている。 本研究は,事実知識を生成要約に取り入れるプロンプトの導入可能性を検討する。 具体的には,学習可能な連続プレフィックスプロンプトと個別自然言語プロンプトを併用して要約生成を支援するプレフィックスチューニングについて検討した。 実験結果から,訓練可能な接頭辞は,離散的プロンプトから情報を正確に抽出する上で有効であることが確認された。 生成した要約のルージュ改善は、要約プロセスに事実知識を明示的に追加することで全体的なパフォーマンスが向上し、他の自然言語処理タスクに適用する大きな可能性を示している。

Despite the great development of document summarisation techniques nowadays, factual inconsistencies between the generated summaries and the original texts still occur from time to time. This study explores the possibility of adopting prompts to incorporate factual knowledge into generated summaries. We specifically study prefix-tuning that uses a set of trainable continuous prefix prompts together with discrete natural language prompts to aid summary generation. Experimental results demonstrate that the trainable prefixes can help the summarisation model extract information from discrete prompts precisely, thus generating knowledge-preserving summaries that are factually consistent with the discrete prompts. The ROUGE improvements of the generated summaries indicate that explicitly adding factual knowledge into the summarisation process could boost the overall performance, showing great potential for applying it to other natural language processing tasks.
翻訳日:2023-05-18 20:16:01 公開日:2023-05-17
# ニューラルネットワークは意思決定境界付近の領域を拡大する

Neural networks learn to magnify areas near decision boundaries ( http://arxiv.org/abs/2301.11375v2 )

ライセンス: Link先を確認
Jacob A. Zavatone-Veth and Sheng Yang and Julian A. Rubinfien and Cengiz Pehlevan(参考訳) ニューラルネットワーク特徴写像によって誘導されるリーマン幾何学の学習方法を検討する。 無限の幅では、ランダムパラメータを持つニューラルネットワークは入力空間上で高度に対称なメトリクスを誘導する。 分類タスクを実行するために訓練されたネットワークにおける特徴学習は、決定境界に沿った地域を拡大する。 これらの変化は、前述した一般化を改善するためにカーネルメソッドのハンドチューニングのための幾何学的アプローチと一致している。

We study how training molds the Riemannian geometry induced by neural network feature maps. At infinite width, neural networks with random parameters induce highly symmetric metrics on input space. Feature learning in networks trained to perform classification tasks magnifies local areas along decision boundaries. These changes are consistent with previously proposed geometric approaches for hand-tuning of kernel methods to improve generalization.
翻訳日:2023-05-18 20:15:47 公開日:2023-05-17
# mcoco: 多レベル一貫性協調型マルチビュークラスタリング

MCoCo: Multi-level Consistency Collaborative Multi-view Clustering ( http://arxiv.org/abs/2302.13339v2 )

ライセンス: Link先を確認
Yiyang Zhou, Qinghai Zheng, Wenbiao Yan, Yifei Wang, Pengcheng Shi, Jihua Zhu(参考訳) マルチビュークラスタリングは、さまざまなビューから一貫した情報を探索し、クラスタリングをガイドする。 既存の作品の多くは、機能空間における浅い一貫性を追求し、複数のビューの情報をクラスタリングのための統一表現に統合することに焦点を当てている。 これらの手法は意味空間における一貫性を十分に考慮し、探求しなかった。 そこで我々は,マルチビュークラスタリングのためのMCoCo(Multi-level Consistency Collaborative Learning framework)を提案する。 具体的には、MCoCoは特徴空間における複数のビューのクラスタ割り当てを共同で学習し、対照的な学習によって意味空間における異なるビューのセマンティックラベルを調整する。 さらに,semantic spaceの一貫した情報を自己教師付き信号として活用し,機能空間におけるクラスタ割り当てと協調するマルチレベル一貫性協調戦略を考案した。 したがって、異なるレベルの空間が相互に連携し、それぞれの一貫性の目標を達成することで、MCoCoは融合せずに異なるビューの一貫性のある情報を完全にマイニングする。 最先端手法と比較して,本手法の有効性と優越性について広範な実験を行った。

Multi-view clustering can explore consistent information from different views to guide clustering. Most existing works focus on pursuing shallow consistency in the feature space and integrating the information of multiple views into a unified representation for clustering. These methods did not fully consider and explore the consistency in the semantic space. To address this issue, we proposed a novel Multi-level Consistency Collaborative learning framework (MCoCo) for multi-view clustering. Specifically, MCoCo jointly learns cluster assignments of multiple views in feature space and aligns semantic labels of different views in semantic space by contrastive learning. Further, we designed a multi-level consistency collaboration strategy, which utilizes the consistent information of semantic space as a self-supervised signal to collaborate with the cluster assignments in feature space. Thus, different levels of spaces collaborate with each other while achieving their own consistency goals, which makes MCoCo fully mine the consistent information of different views without fusion. Compared with state-of-the-art methods, extensive experiments demonstrate the effectiveness and superiority of our method.
翻訳日:2023-05-18 20:10:12 公開日:2023-05-17
# 光量子メモリのための完全パッケージ型マルチチャネル低温モジュール

A fully packaged multi-channel cryogenic module for optical quantum memories ( http://arxiv.org/abs/2302.12919v2 )

ライセンス: Link先を確認
David J. Starling, Katia Shtyrkova, Ian Christen, Ryan Murphy, Linsen Li, Kevin C. Chen, Dave Kharas, Xingyu Zhang, John Cummings, W. John Nowak, Eric Bersin, Robert J. Niffenegger, Madison Sutula, Dirk Englund, Scott Hamilton, P. Benjamin Dixon(参考訳) 量子ネットワークを実現するには、スケーラブルなアーキテクチャに光インターフェースを組み込んだ長寿命の量子メモリが必要である。 ダイヤモンドのカラーセンター量子エミッタは、その光学特性とスケーラブルな統合との互換性から、有望なメモリモダリティとして登場してきた。 しかし、拡張性のあるカラーセンターエミッタモジュールの開発には、異種統合と低温互換パッケージングの分野で大きな進歩が必要である。 本稿では,メモリ使用のための低温安定かつネットワーク互換な量子エミッタモジュールについて報告する。 この量子エミッタモジュールは、分散センシングや処理といった高度な量子ネットワークアプリケーションに向けた重要な開発である。

Realizing a quantum network will require long-lived quantum memories with optical interfaces incorporated into a scalable architecture. Color centers quantum emitters in diamond have emerged as a promising memory modality due to their optical properties and compatibility with scalable integration. However, developing a scalable color center emitter module requires significant advances in the areas of heterogeneous integration and cryogenically compatible packaging. Here we report on a cryogenically stable and network compatible quantum-emitter module for memory use. This quantum-emitter module is a significant development towards advanced quantum networking applications such as distributed sensing and processing.
翻訳日:2023-05-18 20:09:54 公開日:2023-05-17
# 事前訓練されたlmによるパワー一般時系列分析

One Fits All:Power General Time Series Analysis by Pretrained LM ( http://arxiv.org/abs/2302.11939v2 )

ライセンス: Link先を確認
Tian Zhou, PeiSong Niu, Xue Wang, Liang Sun, Rong Jin(参考訳) 自然言語処理 (NLP) やコンピュータビジョン (CV) において, 事前学習モデルに大きな成功をおさめてきたが, 時系列解析の進歩は限られている。 異なるタスクを実行するために統一モデルを使用するNLPやCVとは異なり、特別に設計されたアプローチは、分類、異常検出、予測、少数ショット学習などの時系列分析タスクにおいて依然として支配的である。 時系列分析のための事前訓練されたモデルの開発を妨げる主な課題は、トレーニングのための大量のデータがないことである。 本研究では,数十億のトークンから事前学習した言語やCVモデルを時系列解析に活用することで,この問題に対処する。 具体的には、事前学習言語や画像モデルにおける残余ブロックの自己注意層やフィードフォワード層の変更を控える。 このモデルはFPT(Frozen Pretrained Transformer)と呼ばれ、時系列を含む全ての主要なタスクを微調整することで評価される。 この結果から, 自然言語や画像を用いた事前学習モデルでは, 実時間時系列解析タスクにおいて, ほぼ同等あるいは最先端のパフォーマンスが得られることが示された。 また, 原理成分分析(pca)と同様に, 自己着脱モジュールの挙動が理論上, 経験的にも見いだされ, トランスフォーマーがドメインギャップをどのように橋渡しするか, および事前学習したトランスフォーマーの普遍性を理解するための重要なステップを説明するのに役立つ。 コードはhttps://anonymous.4open.science/r/Pretrained-LM-for-TSForcasting-C561で公開されている。

Although we have witnessed great success of pre-trained models in natural language processing (NLP) and computer vision (CV), limited progress has been made for general time series analysis. Unlike NLP and CV where a unified model can be used to perform different tasks, specially designed approach still dominates in each time series analysis task such as classification, anomaly detection, forecasting, and few-shot learning. The main challenge that blocks the development of pre-trained model for time series analysis is the lack of a large amount of data for training. In this work, we address this challenge by leveraging language or CV models, pre-trained from billions of tokens, for time series analysis. Specifically, we refrain from altering the self-attention and feedforward layers of the residual blocks in the pre-trained language or image model. This model, known as the Frozen Pretrained Transformer (FPT), is evaluated through fine-tuning on all major types of tasks involving time series. Our results demonstrate that pre-trained models on natural language or images can lead to a comparable or state-of-the-art performance in all main time series analysis tasks, as illustrated in Figure~\ref{fig:representation}. We also found both theoretically and empirically that the self-attention module behaviors similarly to principle component analysis (PCA), an observation that helps explains how transformer bridges the domain gap and a crucial step towards understanding the universality of a pre-trained transformer. The code is publicly available at https://anonymous.4open.science/r/Pretrained-LM-for-TSForcasting-C561.
翻訳日:2023-05-18 20:09:45 公開日:2023-05-17
# ヘルム(ホルツ)におけるガウス過程 : 海流のより流動的なモデル

Gaussian processes at the Helm(holtz): A more fluid model for ocean currents ( http://arxiv.org/abs/2302.10364v2 )

ライセンス: Link先を確認
Renato Berlinghieri, Brian L. Trippe, David R. Burt, Ryan Giordano, Kaushik Srinivasan, Tamay \"Ozg\"okmen, Junfei Xia, Tamara Broderick(参考訳) 海洋学者は、ブイ速度のばらばらな観測に基づいて、海流の予測と電流ベクトル場のダイバーシティの同定に興味を持っている。 電流速度は空間的位置の連続的かつ非線形な関数であると期待するため、ガウス過程(GP)は魅力的なモデルを提供する。 しかし、標準定常カーネルでgpをbuoyデータに直接適用することは、物理的に非現実的な事前仮定のため、現在の予測と分岐識別の両方に苦労する可能性がある。 電流の既知の物理的性質をよりよく反映するために、ヘルムホルツ分解によって得られるベクトル場の発散およびカールフリー成分に標準定常核を置くことを提案する。 この分解は、混合部分微分によってのみ元のベクトル場に関係しているため、計算コストを一定に増やすだけで、元のデータを推論できることが示される。 合成および実海データに対する本手法の利点について述べる。

Oceanographers are interested in predicting ocean currents and identifying divergences in a current vector field based on sparse observations of buoy velocities. Since we expect current velocity to be a continuous but highly non-linear function of spatial location, Gaussian processes (GPs) offer an attractive model. But we show that applying a GP with a standard stationary kernel directly to buoy data can struggle at both current prediction and divergence identification -- due to some physically unrealistic prior assumptions. To better reflect known physical properties of currents, we propose to instead put a standard stationary kernel on the divergence and curl-free components of a vector field obtained through a Helmholtz decomposition. We show that, because this decomposition relates to the original vector field just via mixed partial derivatives, we can still perform inference given the original data with only a small constant multiple of additional computational expense. We illustrate the benefits of our method on synthetic and real ocean data.
翻訳日:2023-05-18 20:09:17 公開日:2023-05-17
# 成長する調節性神経細胞オートマトン

Growing Steerable Neural Cellular Automata ( http://arxiv.org/abs/2302.10197v2 )

ライセンス: Link先を確認
Ettore Randazzo, Alexander Mordvintsev and Craig Fouts(参考訳) ニューラルセルラーオートマタ(NCA)モデルは、局所的な調整から生じるパターン形成と複雑なグローバルな振る舞いに顕著な能力を示している。 しかし、NAAの当初の実装では、細胞は自身の向きを調整することができず、モデルデザイナがそれらを外部に向き付ける責任がある。 NCA(Growing Isotropic Neural Cellular Automata)の最近の等方的変種は、その近傍の空間状態の勾配を知覚する依存性を取り除くことで、モデル指向非依存の細胞を、下から、右から、あるいは左から、もはや区別できないようにしている。 本研究では, 調整可能な内部状態によって決定されるように, 各セルが自身の向きに責任を持つようにすることで, NCAを別のアプローチで再検討する。 得られたステアブルncaは、同一パターンに埋め込まれた配向の異なる細胞を含む。 等方性 NCA が配向に依存しないのに対して、ステアブル NCA はキラリティを持ち、それらは所定の左右対称性を持つ。 したがって, 2種のみを用いた対称性の破断, (2) 回転不変なトレーニング目標の導入, システムのアップダウン対称性を壊すために非同期セル更新に頼ることで, ステアブルなncaを等方性に類似するが, より単純な方法で訓練できることが示されている。

Neural Cellular Automata (NCA) models have shown remarkable capacity for pattern formation and complex global behaviors stemming from local coordination. However, in the original implementation of NCA, cells are incapable of adjusting their own orientation, and it is the responsibility of the model designer to orient them externally. A recent isotropic variant of NCA (Growing Isotropic Neural Cellular Automata) makes the model orientation-independent - cells can no longer tell up from down, nor left from right - by removing its dependency on perceiving the gradient of spatial states in its neighborhood. In this work, we revisit NCA with a different approach: we make each cell responsible for its own orientation by allowing it to "turn" as determined by an adjustable internal state. The resulting Steerable NCA contains cells of varying orientation embedded in the same pattern. We observe how, while Isotropic NCA are orientation-agnostic, Steerable NCA have chirality: they have a predetermined left-right symmetry. We therefore show that we can train Steerable NCA in similar but simpler ways than their Isotropic variant by: (1) breaking symmetries using only two seeds, or (2) introducing a rotation-invariant training objective and relying on asynchronous cell updates to break the up-down symmetry of the system.
翻訳日:2023-05-18 20:09:01 公開日:2023-05-17
# ATLAS実験における液体アルゴンカロリー計に蓄積されたエネルギーの計算のためのリカレントニューラルネットワークのファームウェア実装

Firmware implementation of a recurrent neural network for the computation of the energy deposited in the liquid argon calorimeter of the ATLAS experiment ( http://arxiv.org/abs/2302.07555v2 )

ライセンス: Link先を確認
Georges Aad, Thomas Calvet, Nemer Chiedde, Robert Faure, Etienne Marie Fortin, Lauri Laatu, Emmanuel Monnier, Nairit Sur(参考訳) ATLAS実験は、LHCにおける陽子-陽子衝突の産物である粒子の特性を測定する。 ATLAS検出器はLHCの高輝度化に先立って大幅にアップグレードされる。 ATLAS液体アルゴンカロリー計は検出器内で電磁的に相互作用する粒子のエネルギーを測定する。 このカロリー計の読み出し電子機器は、前述のATLASアップグレード中に交換される。 新しい電子ボードは、ファームウェアに埋め込まれたニューラルネットワークの実装を可能にするIntelの最先端のフィールドプログラマブルゲートアレイ(FPGA)に基づいている。 ニューラルネットワークは、カロリメータに蓄積されるエネルギーを計算するのに使用される現在の最適フィルタリングアルゴリズムよりも優れていることが示されている。 本稿では,ストラティックス10fpga上の熱量計に蓄積されるエネルギーの再構成を可能にするリカレントニューラルネットワーク(recurrent neural network, rnn)の実装について述べる。 高レベル合成(hls)言語の実装は高速プロトタイピングを可能にしたが、リソース使用量とレイテンシの面では厳しい要件を満たすには至らなかった。 超高速集積回路ハードウェア記述言語(VHDL)のさらなる最適化により、125 ns未満のレイテンシでFPGA当たりの384チャンネルの処理要求を満たすことができた。

The ATLAS experiment measures the properties of particles that are products of proton-proton collisions at the LHC. The ATLAS detector will undergo a major upgrade before the high luminosity phase of the LHC. The ATLAS liquid argon calorimeter measures the energy of particles interacting electromagnetically in the detector. The readout electronics of this calorimeter will be replaced during the aforementioned ATLAS upgrade. The new electronic boards will be based on state-of-the-art field-programmable gate arrays (FPGA) from Intel allowing the implementation of neural networks embedded in firmware. Neural networks have been shown to outperform the current optimal filtering algorithms used to compute the energy deposited in the calorimeter. This article presents the implementation of a recurrent neural network (RNN) allowing the reconstruction of the energy deposited in the calorimeter on Stratix 10 FPGAs. The implementation in high level synthesis (HLS) language allowed fast prototyping but fell short of meeting the stringent requirements in terms of resource usage and latency. Further optimisations in Very High-Speed Integrated Circuit Hardware Description Language (VHDL) allowed fulfilment of the requirements of processing 384 channels per FPGA with a latency smaller than 125 ns.
翻訳日:2023-05-18 20:08:33 公開日:2023-05-17
# イベントベースカメラとスパイクニューラルネットワークによる光フロー推定

Optical flow estimation from event-based cameras and spiking neural networks ( http://arxiv.org/abs/2302.06492v2 )

ライセンス: Link先を確認
Javier Cuadrado, Ulysse Ran\c{c}on, Beno\^it Cottereau, Francisco Barranco and Timoth\'ee Masquelier(参考訳) イベントベースのカメラはコンピュータビジョンコミュニティ内で関心を集めている。 これらのセンサーは、前回のイベントからあるピクセルの輝度が一定の閾値を超えると、非同期ピクセル、イベントの出力、あるいは「スパイク」で動作する。 低消費電力、低レイテンシ、高ダイナミックレンジなど、それら固有の特性のおかげで、特に時間的制約や安全性要件の厳しいアプリケーションに適しているように思える。 非同期センサとニューロモルフィックハードウェアの結合により、最小限の電力要求でリアルタイムシステムが得られるため、イベントベースのセンサはスパイキングニューラルネットワーク(SNN)に適している。 本研究では,dsecデータセットからのイベントセンサデータとスパイクニューラルネットワークを用いて,運転シナリオの光学フローを推定するシステムを開発した。 教師付きトレーニング後,高密度光フロー推定が可能なU-NetライクなSNNを提案する。 そこで我々は,地絡と予測フローの間の誤差ベクトルの最小基準と最小角度の両方を奨励し,代用勾配を用いた後方伝播によるモデルの訓練を行う。 さらに, 3次元畳み込みを用いることで, 時間受容場を増大させることで, データの動的性質を捉えることができる。 各デコードステージの後のアップサンプリングは、各デコーダの出力が最終的な推定に寄与することを保証する。 分離可能な畳み込みのおかげで、私たちは(競合と比べて)かなり正確な光学フロー推定ができる軽量モデルの開発に成功しました。

Event-based cameras are raising interest within the computer vision community. These sensors operate with asynchronous pixels, emitting events, or "spikes", when the luminance change at a given pixel since the last event surpasses a certain threshold. Thanks to their inherent qualities, such as their low power consumption, low latency and high dynamic range, they seem particularly tailored to applications with challenging temporal constraints and safety requirements. Event-based sensors are an excellent fit for Spiking Neural Networks (SNNs), since the coupling of an asynchronous sensor with neuromorphic hardware can yield real-time systems with minimal power requirements. In this work, we seek to develop one such system, using both event sensor data from the DSEC dataset and spiking neural networks to estimate optical flow for driving scenarios. We propose a U-Net-like SNN which, after supervised training, is able to make dense optical flow estimations. To do so, we encourage both minimal norm for the error vector and minimal angle between ground-truth and predicted flow, training our model with back-propagation using a surrogate gradient. In addition, the use of 3d convolutions allows us to capture the dynamic nature of the data by increasing the temporal receptive fields. Upsampling after each decoding stage ensures that each decoder's output contributes to the final estimation. Thanks to separable convolutions, we have been able to develop a light model (when compared to competitors) that can nonetheless yield reasonably accurate optical flow estimates.
翻訳日:2023-05-18 20:08:13 公開日:2023-05-17
# 関数回帰による領域一般化

Domain Generalization by Functional Regression ( http://arxiv.org/abs/2302.04724v2 )

ライセンス: Link先を確認
Markus Holzleitner, Sergei V. Pereverzyev, Werner Zellinger(参考訳) ドメインの一般化の問題は、異なるソースの分布からのデータから学習することであり、未ラベルのサンプルでのみ見られる新しいターゲットの分布をうまく一般化することが期待できるモデルである。 本稿では,関数回帰問題としての領域一般化について検討する。 我々の概念は、入力の辺分布から入力の対応する条件分布への線形演算子を学習するための新しいアルゴリズムに導かれる。 提案アルゴリズムでは,生成したカーネルHilbert空間のソース分布に依存した構築を予測可能とし,理想化リスクに対する有限サンプル誤差境界を満たす。 数値的な実装とソースコードが利用可能である。

The problem of domain generalization is to learn, given data from different source distributions, a model that can be expected to generalize well on new target distributions which are only seen through unlabeled samples. In this paper, we study domain generalization as a problem of functional regression. Our concept leads to a new algorithm for learning a linear operator from marginal distributions of inputs to the corresponding conditional distributions of outputs given inputs. Our algorithm allows a source distribution-dependent construction of reproducing kernel Hilbert spaces for prediction, and, satisfies finite sample error bounds for the idealized risk. Numerical implementations and source code are available.
翻訳日:2023-05-18 20:07:46 公開日:2023-05-17
# 確率的コントラスト学習はあいまいな入力の正解不確かさを回復する

Probabilistic Contrastive Learning Recovers the Correct Aleatoric Uncertainty of Ambiguous Inputs ( http://arxiv.org/abs/2302.02865v3 )

ライセンス: Link先を確認
Michael Kirchhof, Enkelejda Kasneci, Seong Joon Oh(参考訳) 対照的に訓練されたエンコーダは、最近データ生成過程を反転させることが証明されており、例えば、イメージを生成した真の潜在ベクトルに各入力をエンコードする(Zimmermann et al., 2021)。 しかし、実世界の観測には固有の曖昧さがしばしばある。 例えば、画像はぼやけているか、3Dオブジェクトの2Dビューのみを表示するため、複数の潜伏者がそれらを生成できた可能性がある。 これにより、非定常不確実性を伴う潜在ベクトルの真の後部確率が成立する。 この設定では、共通InfoNCEの目的とエンコーダを拡張して、ポイントの代わりに遅延分布を予測する。 これらの分布は, 滞留空間の回転に至るまでのアレータティック不確実性のレベルを含む, データ生成過程の正しい後部を復元することを示す。 不確実性の推定を校正することに加えて、これらの後方は画像検索における信頼できる間隔の計算を可能にする。 それらは、あるクエリと同じ潜在性を持つ画像で構成されており、その不確実性がある。 コードはhttps://github.com/mkirchhof/Probabilistic_Contrastive_Learningで入手できる。

Contrastively trained encoders have recently been proven to invert the data-generating process: they encode each input, e.g., an image, into the true latent vector that generated the image (Zimmermann et al., 2021). However, real-world observations often have inherent ambiguities. For instance, images may be blurred or only show a 2D view of a 3D object, so multiple latents could have generated them. This makes the true posterior for the latent vector probabilistic with heteroscedastic uncertainty. In this setup, we extend the common InfoNCE objective and encoders to predict latent distributions instead of points. We prove that these distributions recover the correct posteriors of the data-generating process, including its level of aleatoric uncertainty, up to a rotation of the latent space. In addition to providing calibrated uncertainty estimates, these posteriors allow the computation of credible intervals in image retrieval. They comprise images with the same latent as a given query, subject to its uncertainty. Code is available at https://github.com/mkirchhof/Probabilistic_Contrastive_Learning
翻訳日:2023-05-18 20:07:36 公開日:2023-05-17
# SelfPromer: 深さ一貫性を備えたセルフプロンプトデハージングトランス

SelfPromer: Self-Prompt Dehazing Transformers with Depth-Consistency ( http://arxiv.org/abs/2303.07033v2 )

ライセンス: Link先を確認
Cong Wang and Jinshan Pan and Wanyu Lin and Jiangxin Dong and Xiao-Ming Wu(参考訳) 本研究は,画像デハージングに有効な深度整合型セルフプロンプトトランスを提案する。 ヘイズ残像とその明確な像の深さが異なるという観測によって動機づけられた。 したがって、デハザード画像とクリア画像の深さ整合性を強制することは、デハザーズに必須である。 そこで本研究では, より優れた修復を行うために, ヘイズ入力画像とそれに対応する鮮明な画像との深度差の特徴に基づくプロンプトを開発する。 具体的には,入力画像から抽出した深部特徴を深度差特徴量に適用し,入力中のヘイズ残差情報を含むプロンプトを生成する。 そこで我々は,深い特徴にプロンプトを線形に追加することにより,迷路残差を知覚するプロンプト埋め込みモジュールを提案する。 さらに,より優れた除去のために,haze残差に注意を払うための効果的なプロンプトアテンションモジュールを開発した。 VQGANに基づくエンコーダ・デコーダネットワークにプロンプト、プロンプト埋め込み、そしてインタプリタを組み込むことにより、より優れた知覚品質を実現することができる。 画像の鮮明な深さは推論では得られず,一方のフィードフォワード実行によるデハズ化画像は依然として一部のヘイズ残差を含む可能性があるため,より優れたヘイズフリー画像生成に向けてデハズ化モデルを反復的に補正できる新しい連続自己プロンプト推論を提案する。 本手法は,NIQE,PI,PIQEなどの知覚指標を用いて,合成と実世界の両方のデータセットに対する最先端のアプローチに対して良好に作用することを示す。

This work presents an effective depth-consistency self-prompt Transformer for image dehazing. It is motivated by an observation that the estimated depths of an image with haze residuals and its clear counterpart vary. Enforcing the depth consistency of dehazed images with clear ones, therefore, is essential for dehazing. For this purpose, we develop a prompt based on the features of depth differences between the hazy input images and corresponding clear counterparts that can guide dehazing models for better restoration. Specifically, we first apply deep features extracted from the input images to the depth difference features for generating the prompt that contains the haze residual information in the input. Then we propose a prompt embedding module that is designed to perceive the haze residuals, by linearly adding the prompt to the deep features. Further, we develop an effective prompt attention module to pay more attention to haze residuals for better removal. By incorporating the prompt, prompt embedding, and prompt attention into an encoder-decoder network based on VQGAN, we can achieve better perception quality. As the depths of clear images are not available at inference, and the dehazed images with one-time feed-forward execution may still contain a portion of haze residuals, we propose a new continuous self-prompt inference that can iteratively correct the dehazing model towards better haze-free image generation. Extensive experiments show that our method performs favorably against the state-of-the-art approaches on both synthetic and real-world datasets in terms of perception metrics including NIQE, PI, and PIQE.
翻訳日:2023-05-18 19:59:41 公開日:2023-05-17
# untrimmed videoにおける多用途理解のための学習グラウンドドヴィジュアル言語表現

Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos ( http://arxiv.org/abs/2303.06378v2 )

ライセンス: Link先を確認
Teng Wang, Jinrui Zhang, Feng Zheng, Wenhao Jiang, Ran Cheng, Ping Luo(参考訳) 近年,共同ビデオ言語学習が注目されている。 しかし、既存の作品は、主にシングルまたは複数トリミングされたビデオクリップ(イベント)に焦点を当てている。 関連性から脱却するために,情報的イベントを自動的に検出し,多文記述と対応するイベントセグメントのアライメントを効果的に抽出する,アントリミングビデオのための基底的視覚言語学習フレームワークを提案する。 粗いビデオ言語アライメントの代わりに、細粒度セグメントレベルアライメント(TEG)とイベント・トゥ・テキスト生成(ETG)の2つの二重プレテキストタスクを提案する。 TEGは、共同意味空間におけるクロスモーダル距離を推定することにより、文の集合が与えられたイベントの提案を適応的に基礎づけることを学ぶ。 一方、ETGは、イベント提案のマッチしたテキストを再構成(生成)することを目的としており、イベント表現が意味のある意味情報を保持するように促している。 イベントセットとテキストセット間の正確なラベル割り当てを促進するため,曖昧な境界アノテーションによる準最適マッチングを緩和するためのセマンティック・アウェア・コストを提案する。 我々のフレームワークは、視覚的な言語理解と生成を含むタスクに容易に拡張できる。 我々は、ActivityNet Captions、YouCook2、YouMakeupで最先端の高密度ビデオキャプション性能を達成し、他の言語生成および理解タスクで競合性能を達成した。 また,本手法は,PIC 4th ChallengeのMTVGおよびMDVCタスクにおいて,第1位を獲得した。 私たちのコードはhttps://github.com/zjr2000/gvlで公開されています。

Joint video-language learning has received increasing attention in recent years. However, existing works mainly focus on single or multiple trimmed video clips (events), which makes human-annotated event boundaries necessary during inference. To break away from the ties, we propose a grounded vision-language learning framework for untrimmed videos, which automatically detects informative events and effectively excavates the alignments between multi-sentence descriptions and corresponding event segments. Instead of coarse-level video-language alignments, we present two dual pretext tasks to encourage fine-grained segment-level alignments, i.e., text-to-event grounding (TEG) and event-to-text generation (ETG). TEG learns to adaptively ground the possible event proposals given a set of sentences by estimating the cross-modal distance in a joint semantic space. Meanwhile, ETG aims to reconstruct (generate) the matched texts given event proposals, encouraging the event representation to retain meaningful semantic information. To encourage accurate label assignment between the event set and the text set, we propose a novel semantic-aware cost to mitigate the sub-optimal matching results caused by ambiguous boundary annotations. Our framework is easily extensible to tasks covering visually-grounded language understanding and generation. We achieve state-of-the-art dense video captioning performance on ActivityNet Captions, YouCook2 and YouMakeup, and competitive performance on several other language generation and understanding tasks. Our method also achieved 1st place in both the MTVG and MDVC tasks of the PIC 4th Challenge. Our code is publicly available at https://github.com/zjr2000/GVL.
翻訳日:2023-05-18 19:59:10 公開日:2023-05-17
# 参照データのない位相収差補正:適応型混合損失深層学習アプローチ

Phase Aberration Correction without Reference Data: An Adaptive Mixed Loss Deep Learning Approach ( http://arxiv.org/abs/2303.05747v2 )

ライセンス: Link先を確認
Mostafa Sharifzadeh, Habib Benali, Hassan Rivaz(参考訳) 位相収差は超音波における画質劣化の主な原因の1つであり、異種媒質中の音速の空間的変化によって引き起こされる。 この効果は送信波を妨害し、エコー信号のコヒーレントな総和を防ぎ、最適下画像の品質をもたらす。 実際の実験では、非収差の基底真理を得るのは難しいが、実現不可能である。 シミュレーションデータにのみ依存することによる深層学習に基づく位相収差補正技術の性能低下と,シミュレーションデータと実験データ間の領域シフトの存在を阻害する。 そこで本研究では,位相収差効果を補償するために参照データを必要としない深層学習方式を提案する。 我々は、入力とターゲットの出力がランダムに収差された無線周波数(RF)データであるネットワークを訓練する。 さらに,ネットワークの最適性能をトレーニングするには,平均二乗誤差などの従来の損失関数が不十分であることを示す。 代わりに、BモードとRFデータの両方を利用する適応混合損失関数を提案し、より効率的な収束と性能の向上を実現した。 ソースコードは \url{http://code.sonography.ai} で入手できる。

Phase aberration is one of the primary sources of image quality degradation in ultrasound, which is induced by spatial variations in sound speed across the heterogeneous medium. This effect disrupts transmitted waves and prevents coherent summation of echo signals, resulting in suboptimal image quality. In real experiments, obtaining non-aberrated ground truths can be extremely challenging, if not infeasible. It hinders the performance of deep learning-based phase aberration correction techniques due to sole reliance on simulated data and the presence of domain shift between simulated and experimental data. Here, for the first time, we propose a deep learning-based method that does not require reference data to compensate for the phase aberration effect. We train a network wherein both input and target output are randomly aberrated radio frequency (RF) data. Moreover, we demonstrate that a conventional loss function such as mean square error is inadequate for training the network to achieve optimal performance. Instead, we propose an adaptive mixed loss function that employs both B-mode and RF data, resulting in more efficient convergence and enhanced performance. Source code is available at \url{http://code.sonography.ai}.
翻訳日:2023-05-18 19:58:39 公開日:2023-05-17
# 混合量子状態に対するメトリクスの比較:SjoqvistとBures

Comparing metrics for mixed quantum states: Sjoqvist and Bures ( http://arxiv.org/abs/2303.01690v2 )

ライセンス: Link先を確認
Paul M. Alsing, Carlo Cafaro, Orlando Luongo, Cosmo Lupo, Stefano Mancini, Hernando Quevedo(参考訳) 混合量子状態に対して無限に多くの識別性指標が存在することが知られている。 この自由は、量子状態の複雑さや体積のような物理的に意味のある幾何量の計量依存的な解釈をもたらす。 本稿では, 任意の非退化混合量子状態に対するsjoqvist計量とbures計量の関係について, 純粋量子状態のアンサンブルによる密度作用素の分解の概念を用いて, 明示的かつ難解な数学的議論を初めて提示する。 そして、物理学的な観点からこれらの2つのメトリクスの違いの理解を深めるために、平衡状態の量子系を特定する任意の熱量子状態に対する2つのメトリクスの公式表現と、非ゼロ温度での貯水池の比較を行った。 例示目的では、任意に配向した均一なスピン量子ビットと有限温度浴による熱平衡の定常外部磁場を特徴とする単純な物理系において、これら2つの測定値の違いを示す。 最後に、Bures と Sjoqvist のメトリクスを、その単調性の観点から比較する。

It is known that there are infinitely many distinguishability metrics for mixed quantum states. This freedom, in turn, leads to metric-dependent interpretations of physically meaningful geometric quantities such as complexity and volume of quantum states. In this paper, we first present an explicit and unabridged mathematical discussion on the relation between the Sjoqvist metric and the Bures metric for arbitrary nondegenerate mixed quantum states, using the notion of decompositions of density operators by means of ensembles of pure quantum states. Then, to enhance our comprehension of the difference between these two metrics from a physics standpoint, we compare the formal expressions of these two metrics for arbitrary thermal quantum states specifying quantum systems in equilibrium with a reservoir at non-zero temperature. For illustrative purposes, we show the difference between these two metrics in the case of a simple physical system characterized by a spin-qubit in an arbitrarily oriented uniform and stationary external magnetic field in thermal equilibrium with a finite-temperature bath. Finally, we compare the Bures and Sjoqvist metrics in terms of their monotonicity property.
翻訳日:2023-05-18 19:58:20 公開日:2023-05-17
# deepsade: ドメイン制約満足度を保証するニューラルネットワークの学習

DeepSaDe: Learning Neural Networks that Guarantee Domain Constraint Satisfaction ( http://arxiv.org/abs/2303.01141v2 )

ライセンス: Link先を確認
Kshitij Goyal, Sebastijan Dumancic, Hendrik Blockeel(参考訳) 機械学習モデル、特にニューラルネットワークの人気が高まっているため、その信頼性に関する懸念があり、特に安全クリティカルなアプリケーションにおいて、例えば自動運転車の動作は安全でなければならない。 このようなドメイン要件が制約として強制されるようなニューラルネットワークをトレーニングできるアプローチもあるが、(目に見えないデータであっても)可能なすべての予測によって制約が満足されることを保証できないか、強制可能な制約の種類に制限されているかのいずれかだ。 本稿では,様々な制約を強制し,すべての可能な予測によって制約が満たされることを保証するニューラルネットワークの学習手法を提案する。 このアプローチは、線形モデルの学習が制約満足度問題(CSP)として定式化される以前の作業に基づいている。 このアイデアをニューラルネットワークに適用するために、ネットワーク層上の制約伝搬と、勾配降下とCSP解決の混合に基づく重み更新という、2つの重要な新しい要素が追加されている。 さまざまな機械学習タスクの評価は、我々のアプローチが多種多様なドメイン制約を強制するのに十分柔軟であり、それをニューラルネットワークで保証できることを示している。

As machine learning models, specifically neural networks, are becoming increasingly popular, there are concerns regarding their trustworthiness, specially in safety-critical applications, e.g. actions of an autonomous vehicle must be safe. There are approaches that can train neural networks where such domain requirements are enforced as constraints, but they either cannot guarantee that the constraint will be satisfied by all possible predictions (even on unseen data) or they are limited in the type of constraints that can be enforced. In this paper, we present an approach to train neural networks which can enforce a wide variety of constraints and guarantee that the constraint is satisfied by all possible predictions. The approach builds on earlier work where learning linear models is formulated as a constraint satisfaction problem (CSP). To make this idea applicable to neural networks, two crucial new elements are added: constraint propagation over the network layers, and weight updates based on a mix of gradient descent and CSP solving. Evaluation on various machine learning tasks demonstrates that our approach is flexible enough to enforce a wide variety of domain constraints and is able to guarantee them in neural networks.
翻訳日:2023-05-18 19:58:02 公開日:2023-05-17
# X線超蛍光の確率モデリング

Stochastic modeling of x-ray superfluorescence ( http://arxiv.org/abs/2303.00853v2 )

ライセンス: Link先を確認
Andrei Benediktovitch and Stasis Chuchurka and \v{S}pela Kru\v{s}i\v{c} and Aliaksei Halavanau and Nina Rohringer(参考訳) x線自由電子レーザーの激しいパルスによって引き起こされる集団x線放出現象であるx線増幅自発発光と超蛍光のダイナミクスをモデル化するアプローチを確率的偏微分方程式に基づいて開発した。 方程式は第一原理から導出され、関連する近似、導出ステップ、および励起x線放射に特有の拡張が提示される。 結果として得られる方程式は、場変数と原子変数の両方のノイズ項で拡張された3次元の一般化マックスウェル・ブロッホ方程式である。 導出雑音項は、自然放射の正確な再構成を可能にする特定の相関特性を有する。 結果として、発達した形式主義は、自発放出、増幅自発放出、超蛍光といった、刺激されたX線放射の全ての段階の記述に普遍的に適している。 放出された場(例えば時空間コヒーレンス)の複数の特性を示す数値的な例を示す。 我々は、X線放射分光測定、X線レーザー発振器のモデリング、およびX線超蛍光を用いた他の実験を解釈するための固体基底を形成することを期待する。

An approach to modeling the dynamics of x-ray amplified spontaneous emission and superfluorescence -- the phenomenon of collective x-ray emission initiated by intense pulses of X-ray Free Electron Lasers -- is developed based on stochastic partial differential equations. The equations are derived from first principles, and the relevant approximations, derivation steps, and extensions specific to stimulated x-ray emission are presented. The resulting equations have a form of three-dimensional generalized Maxwell-Bloch equations augmented with noise terms for both field and atomic variables. The derived noise terms possess specific correlation properties that enable the correct reconstruction of spontaneous emission. As a result, the developed formalism is universally suitable for the description of all stages of stimulated x-ray emission: spontaneous emission, amplified spontaneous emission, and superfluorescence. Numerical examples illustrating multiple properties of the emitted field -- e.g., spatio-temporal coherence -- are presented. We expect that the developed formalism will form a solid base for interpreting stimulated x-ray emission spectroscopy measurements, modeling x-ray laser oscillators, and describing other experiments that employ x-ray superfluorescence.
翻訳日:2023-05-18 19:57:43 公開日:2023-05-17
# 深い構造を持つガウス特徴モデルの学習曲線

Learning curves for deep structured Gaussian feature models ( http://arxiv.org/abs/2303.00564v2 )

ライセンス: Link先を確認
Jacob A. Zavatone-Veth and Cengiz Pehlevan(参考訳) 近年,多層なガウス的ランダムな特徴を持つモデルの一般化性能の解析にディープラーニング理論に大きな注目が寄せられている。 しかし、特徴異方性の影響を考察した作品はほとんどなく、ほとんどが独立かつ同分布のガウス重みを用いて特徴が生成されると仮定している。 ここでは,構造化ガウス的特徴の多層モデルに対する学習曲線を導出する。 特徴層の最初の行間の相関を許容することは一般化に役立ち、後層の構造は一般に有害であることを示す。 その結果,単純な可解モデルのクラスにおいて,重み構造が一般化にどのように影響するかが明らかになった。

In recent years, significant attention in deep learning theory has been devoted to analyzing the generalization performance of models with multiple layers of Gaussian random features. However, few works have considered the effect of feature anisotropy; most assume that features are generated using independent and identically distributed Gaussian weights. Here, we derive learning curves for models with many layers of structured Gaussian features. We show that allowing correlations between the rows of the first layer of features can aid generalization, while structure in later layers is generally detrimental. Our results shed light on how weight structure affects generalization in a simple class of solvable models.
翻訳日:2023-05-18 19:57:25 公開日:2023-05-17
# 量子位相空間アプローチによるマクスウェル・ボルツマン理想気体模型の量子および相対論的補正

Quantum and Relativistic corrections to Maxwell-Boltzmann ideal gas model from a Quantum Phase Space approach ( http://arxiv.org/abs/2302.13973v2 )

ライセンス: Link先を確認
Rivo Herivola Manjakamanana Ravelonjato, Ravo Tokiniaina Ranaivoson, Raoelina Andriambololona, Roland Raboanary, Hanitriarivo Rakotoson, Naivo Rabesiranana(参考訳) 理想気体モデルに関連する量子補正は、しばしば粒子の性質(ボソンやフェルミオン)に関係していると考えられている。 これらの補正は、それぞれボース=アインシュタイン統計とフェルミ=ディラック統計に繋がる。 しかし、この研究では、位相空間の量子的性質に関連する他の種類の補正も検討されている。 これらの補正は、理想気体の分配関数の表現の改善として導入される。 そして、ガスの熱力学特性を推定する。 非相対論的量子ケースと相対論的量子ケースの両方を考慮する。 非相対論的量子の場合の補正は、マクスウェル・ボルツマン気体の低温および閉じ込められた空間における古典的挙動からの逸脱を記述するのに特に有用である。 これらの補正は、量子サイズと形状効果の説明を含むと見なすことができる。 相対論的量子の場合、補正は閉じ込められた空間と各粒子の熱エネルギーがそれらの静止エネルギーに匹敵する場合に関係がある。 この補正は、主に状態の熱力学的方程式や、分配関数やエントロピー、内部エネルギー、自由エネルギーといった熱力学的関数の表現における修正として現れる。 古典表現は漸近極限として得られる。

The quantum corrections related to the ideal gas model that are often considered are those which are related to the particles nature: bosons or fermions. These corrections lead respectively to the Bose-Einstein and Fermi-Dirac statistics. However, in this work, other kinds of corrections which are related to the quantum nature of phase space are considered. These corrections are introduced as improvement in the expression of the partition function of an ideal gas. Then corrected thermodynamics properties of the gas are deduced. Both the non-relativistic quantum and relativistic quantum cases are considered. It is shown that the corrections in the non-relativistic quantum case may be particularly useful to describe the deviation from classical behavior of a Maxwell-Boltzmann gas at low temperature and in confined space. These corrections can be considered as including the description of quantum size and shape effects. For the relativistic quantum case, the corrections could be relevant for confined space and when the thermal energy of each particle is comparable to their rest energy. The corrections appear mainly as modifications in the thermodynamic equation of state and in the expressions of the partition function and thermodynamic functions like entropy, internal energy, and free energy. Classical expressions are obtained as asymptotic limits.
翻訳日:2023-05-18 19:57:14 公開日:2023-05-17
# 節の絡み合い, 理論を探る例

Entanglement of Sections, Examples Looking for a Theory ( http://arxiv.org/abs/2304.01072v2 )

ライセンス: Link先を確認
M. H. Freedman and M. B. Hastings(参考訳) 量子情報は状態の絡み合いに関するものである。 この出発点にパラメータを追加し、単一の状態がバンドルの非バナッシングセクションとなるようにします。 例を通してセクションの絡み合いのパターンを考察する。

Quantum information is about the entanglement of states. To this starting point we add parameters whereby a single state becomes a non-vanishing section of a bundle. We consider through examples the possible entanglement patterns of sections.
翻訳日:2023-05-18 19:50:41 公開日:2023-05-17
# 3次元アノテーションを伴わないオープンボキャブラリポイントクラウド物体検出

Open-Vocabulary Point-Cloud Object Detection without 3D Annotation ( http://arxiv.org/abs/2304.00788v2 )

ライセンス: Link先を確認
Yuheng Lu, Chenfeng Xu, Xiaobao Wei, Xiaodong Xie, Masayoshi Tomizuka, Kurt Keutzer, Shanghang Zhang(参考訳) open-vocabulary detectionの目的は、任意のテキスト記述に基づいて新しいオブジェクトを識別することである。 本稿では,オープンな3次元ポイントクラウド検出を分割・コンカレンス戦略により解決する。 1)各種オブジェクトのローカライズのための汎用表現を学習可能なポイントクラウド検出器の開発 2)テキスト表現とポイントクラウド表現を接続することで,検出者がテキストプロンプトに基づいて新たなオブジェクトカテゴリを分類できる。 具体的には、2dプリトレーニングされた検出器から予測された2dバウンディングボックスの監督下で、ポイントクラウド検出器がオブジェクトのローカライズを学習するリッチイメージプリトレーニングモデルを用いる。 さらに,画像,点雲,テキストのモダリティを結合し,視覚言語による事前学習モデル(CLIP)の恩恵を受けるために,非偏差三重項比較学習を提案する。 ポイントクラウド検出器に画像と視覚言語を事前訓練した新しいモデルを使用することで、3Dアノテーションを必要とせずにオープンな3Dオブジェクト検出が可能になる。 実験により,ScanNet および SUN RGB-D データセット上での幅広いベースラインに対して,少なくとも 3.03 点と 7.47 点の改善が得られた。 さらに,アプローチが機能する理由を説明するために,包括的な分析を行う。

The goal of open-vocabulary detection is to identify novel objects based on arbitrary textual descriptions. In this paper, we address open-vocabulary 3D point-cloud detection by a dividing-and-conquering strategy, which involves: 1) developing a point-cloud detector that can learn a general representation for localizing various objects, and 2) connecting textual and point-cloud representations to enable the detector to classify novel object categories based on text prompting. Specifically, we resort to rich image pre-trained models, by which the point-cloud detector learns localizing objects under the supervision of predicted 2D bounding boxes from 2D pre-trained detectors. Moreover, we propose a novel de-biased triplet cross-modal contrastive learning to connect the modalities of image, point-cloud and text, thereby enabling the point-cloud detector to benefit from vision-language pre-trained models,i.e.,CLIP. The novel use of image and vision-language pre-trained models for point-cloud detectors allows for open-vocabulary 3D object detection without the need for 3D annotations. Experiments demonstrate that the proposed method improves at least 3.03 points and 7.47 points over a wide range of baselines on the ScanNet and SUN RGB-D datasets, respectively. Furthermore, we provide a comprehensive analysis to explain why our approach works.
翻訳日:2023-05-18 19:50:37 公開日:2023-05-17
# 一致波面センシングによる多光子空間波動関数の再構成

Reconstructing the multiphoton spatial wave function with coincidence wavefront sensing ( http://arxiv.org/abs/2304.00236v3 )

ライセンス: Link先を確認
Yi Zheng, Mu Yang, Yu-Wei Liao, Jin-Shi Xu, Chuan-Feng Li, Guang-Can Guo(参考訳) 複数の粒子の量子波関数は、単独で働く検出器にはアクセスできない追加情報を提供する。 本稿では,多光子横空間波動関数の位相を再構成するための偶然波面センシング(CWS)手法を提案する。 空間的に解決された偶然光子計数が関与する。 弱測定波面センサを用いた2光子ケースの数値シミュレーションを行い、その正しさを検証し、相関に隠された位相情報を明らかにする。 我々の研究は、多部量子システムを特徴づける直接的な空間的方法を提供し、実験的なボヘミア力学や量子光学技術への応用のような基礎研究につながる。

The quantum wave function of multiple particles provides additional information which is inaccessible to detectors working alone. Here, we introduce the coincidence wavefront sensing (CWS) method to reconstruct the phase of the multiphoton transverse spatial wave function. The spatially resolved coincidence photon counting is involved. Numerical simulations of two-photon cases using the weak measurement wavefront sensor are performed to test its correctness, and the phase information hidden in the correlation are revealed. Our work provides a direct spatial way to characterize multipartite quantum systems, and leads to fundamental studies like experimental Bohmian mechanics and applications in quantum optical technologies.
翻訳日:2023-05-18 19:50:14 公開日:2023-05-17
# UKP-SQuARE v3:マルチエージェントQA研究のためのプラットフォーム

UKP-SQuARE v3: A Platform for Multi-Agent QA Research ( http://arxiv.org/abs/2303.18120v2 )

ライセンス: Link先を確認
Haritz Puerto, Tim Baumg\"artner, Rachneet Sachdeva, Haishuo Fang, Hao Zhang, Sewin Tariverdian, Kexin Wang, Iryna Gurevych(参考訳) 質問応答(qa)データセットの継続的な開発は、研究コミュニティのマルチドメインモデルに対する関心を引き起こした。 一般的なアプローチは、複数のデータセットでトレーニングされたモデルであるマルチデータセットモデルを使用することである。 しかし、GitHubやHugging FaceといったオンラインリポジトリでのQAモデルの普及に伴い、別の選択肢が実現しつつある。 近年の研究では、エキスパートエージェントを組み合わせることで、マルチデータセットモデルよりも大きなパフォーマンス向上が得られることが示されている。 マルチエージェントモデルの研究を容易にするため、QA研究のためのオンラインプラットフォームであるUKP-SQuAREを拡張し、マルチエージェントシステムの3つのファミリーをサポートする。 i) エージェントの選択 二 エージェントの早期融合及び 三 エージェントの後期融合 推論速度の評価実験を行い、マルチデータセットモデルと比較して性能と速度のトレードオフについて議論する。 UKP-SQuAREはオープンソースで、http://square.ukp-lab.deで公開されている。

The continuous development of Question Answering (QA) datasets has drawn the research community's attention toward multi-domain models. A popular approach is to use multi-dataset models, which are models trained on multiple datasets to learn their regularities and prevent overfitting to a single dataset. However, with the proliferation of QA models in online repositories such as GitHub or Hugging Face, an alternative is becoming viable. Recent works have demonstrated that combining expert agents can yield large performance gains over multi-dataset models. To ease research in multi-agent models, we extend UKP-SQuARE, an online platform for QA research, to support three families of multi-agent systems: i) agent selection, ii) early-fusion of agents, and iii) late-fusion of agents. We conduct experiments to evaluate their inference speed and discuss the performance vs. speed trade-off compared to multi-dataset models. UKP-SQuARE is open-source and publicly available at http://square.ukp-lab.de.
翻訳日:2023-05-18 19:50:04 公開日:2023-05-17
# 直流合成最適化のための不正確なLPAと外部整列行列への応用

An inexact LPA for DC composite optimization and application to matrix completions with outliers ( http://arxiv.org/abs/2303.16822v2 )

ライセンス: Link先を確認
Ting Tao, Ruyu Liu, Lianghai Xiao, Shaohua Pan(参考訳) 本稿では, 凸合成最適化問題と非滑らか成分を含むdcプログラムの拡張として, 低ランク行列回復のロバスト因子分解モデルにおいてしばしば発生する直流複合最適化問題について述べる。 この非凸および非滑らかな問題に対して,各ステップにおいて,対象関数の部分的線形化によって構築される強凸大化の無限最小化を計算し,クルディカ-\l\"ojasiewicz (kl) 特性の下で生成した反復列の大域収束を確立することにより,非特異な線形化近位アルゴリズム(ilpa)を提案する。 特に, 複合構造を活用することで, 極限点において指数 1/2$ の kl 特性を持つポテンシャル関数の検証可能な条件を提供し, 反復列が局所 r-線型収束率を持つようにし, 凸合成最適化アルゴリズムの収束解析で用いられる正則性との関係を明らかにする。 最後に,iLPAを外接点を持つ行列完備化のためのロバストな分解モデルに適用し,Polyak subgradient法との比較により,解の計算時間と品質の優位性を確認した。

This paper is concerned with a class of DC composite optimization problems which, as an extension of convex composite optimization problems and DC programs with nonsmooth components, often arises in robust factorization models of low-rank matrix recovery. For this class of nonconvex and nonsmooth problems, we propose an inexact linearized proximal algorithm (iLPA) by computing in each step an inexact minimizer of a strongly convex majorization constructed with a partial linearization of their objective functions, and establish the global convergence of the generated iterate sequence under the Kurdyka-\L\"ojasiewicz (KL) property of a potential function. In particular, by leveraging the composite structure, we provide a verifiable condition for the potential function to have the KL property of exponent $1/2$ at the limit point, so for the iterate sequence to have a local R-linear convergence rate, and clarify its relationship with the regularity used in the convergence analysis of algorithms for convex composite optimization. Finally, our iLPA is applied to a robust factorization model for matrix completions with outliers, and numerical comparison with the Polyak subgradient method confirms its superiority in computing time and quality of solutions.
翻訳日:2023-05-18 19:49:47 公開日:2023-05-17
# WordStylist: 潜時拡散モデルを用いたスタイルのVerbatim手書きテキスト生成

WordStylist: Styled Verbatim Handwritten Text Generation with Latent Diffusion Models ( http://arxiv.org/abs/2303.16576v2 )

ライセンス: Link先を確認
Konstantina Nikolaidou, George Retsinas, Vincent Christlein, Mathias Seuret, Giorgos Sfikas, Elisa Barney Smith, Hamam Mokayed, Marcus Liwicki(参考訳) テキストから画像への合成は、特定のテキスト記述に従って画像を生成するタスクである。 ジェネレーティブ・アドバイサル・ネットワークは,導入以来,画像合成の標準手法として検討されてきた。 Denoising Diffusion Probabilistic Modelsは近年,テキストから画像への合成など,新たなベースラインを設定している。 その有用性は別として、他の文書画像処理タスクのトレーニングモデルを支援するためのデータ拡張ツールとして特に関係がある。 本稿では,単語レベルでテキストからテキストへのテキスト画像生成のための潜在拡散に基づく手法を提案する。 提案手法は,学習や文字認識,テキスト認識を必要とせずに,クラスインデックススタイルやテキストコンテンツプロンプトを用いて,異なる書き手スタイルから現実的な単語画像を生成することができる。 Fr'echet Inception Distance, 文字認識精度, 文字検索によるシステム性能の評価を行った。 提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能を向上させるとともに,類似の文字検索スコアを実データとして取得する。 コードは、https://github.com/koninik/WordStylist.comで入手できる。

Text-to-Image synthesis is the task of generating an image according to a specific text description. Generative Adversarial Networks have been considered the standard method for image synthesis virtually since their introduction. Denoising Diffusion Probabilistic Models are recently setting a new baseline, with remarkable results in Text-to-Image synthesis, among other fields. Aside its usefulness per se, it can also be particularly relevant as a tool for data augmentation to aid training models for other document image processing tasks. In this work, we present a latent diffusion-based method for styled text-to-text-content-image generation on word-level. Our proposed method is able to generate realistic word image samples from different writer styles, by using class index styles and text content prompts without the need of adversarial training, writer recognition, or text recognition. We gauge system performance with the Fr\'echet Inception Distance, writer recognition accuracy, and writer retrieval. We show that the proposed model produces samples that are aesthetically pleasing, help boosting text recognition performance, and get similar writer retrieval score as real data. Code is available at: https://github.com/koninik/WordStylist.
翻訳日:2023-05-18 19:49:21 公開日:2023-05-17
# グラフニューラルネットワークによる粒子物理過程の位相再構成

Topological Reconstruction of Particle Physics Processes using Graph Neural Networks ( http://arxiv.org/abs/2303.13937v4 )

ライセンス: Link先を確認
Lukas Ehrke, John Andrew Raine, Knut Zoch, Manuel Guth, Tobias Golling(参考訳) 本稿では,粒子の減衰とメッセージパッシンググラフニューラルネットワークの柔軟性を基礎として,中間粒子を含む基礎となる物理過程を再構築する新しい手法であるtopographを提案する。 トポグラフは観測された最終状態天体の組合せ的な割り当てを解き、元の母粒子と関連付けるだけでなく、ハード散乱過程における中間粒子の性質とそれに続く崩壊を直接予測する。 グラフニューラルネットワークを用いた標準的なコンビネータアプローチや現代的なアプローチと比較すると、グラフの複雑さは再構成されたオブジェクトの数と線形にスケールする。 我々は、全ハドロン減衰チャネルにおけるトップクォーク対生成にトポグラフを適用し、標準手法より優れ、最先端の機械学習技術の性能に適合する。

We present a new approach, the Topograph, which reconstructs underlying physics processes, including the intermediary particles, by leveraging underlying priors from the nature of particle physics decays and the flexibility of message passing graph neural networks. The Topograph not only solves the combinatoric assignment of observed final state objects, associating them to their original mother particles, but directly predicts the properties of intermediate particles in hard scatter processes and their subsequent decays. In comparison to standard combinatoric approaches or modern approaches using graph neural networks, which scale exponentially or quadratically, the complexity of Topographs scales linearly with the number of reconstructed objects. We apply Topographs to top quark pair production in the all hadronic decay channel, where we outperform the standard approach and match the performance of the state-of-the-art machine learning technique.
翻訳日:2023-05-18 19:48:34 公開日:2023-05-17
# 粒子平均場変動ベイズ

Particle Mean Field Variational Bayes ( http://arxiv.org/abs/2303.13930v2 )

ライセンス: Link先を確認
Minh-Ngoc Tran, Paco Tseng, Robert Kohn(参考訳) 平均場変分ベイズ法 (MFVB) はベイズ推論において最も計算効率のよい手法の1つである。 しかし、その用途は共役前のモデルや解析計算を必要とするモデルに限られている。 本稿では,MFVB法の適用性を大幅に拡大する粒子ベースMFVB法を提案する。 本研究では,wasserstein勾配流とlangevin拡散ダイナミクスの結合を利用して,新しい手法の理論的基礎を確立し,ベイズロジスティック回帰,確率的ボラティリティ,ディープニューラルネットワークを用いた手法の有効性を示す。

The Mean Field Variational Bayes (MFVB) method is one of the most computationally efficient techniques for Bayesian inference. However, its use has been restricted to models with conjugate priors or those that require analytical calculations. This paper proposes a novel particle-based MFVB approach that greatly expands the applicability of the MFVB method. We establish the theoretical basis of the new method by leveraging the connection between Wasserstein gradient flows and Langevin diffusion dynamics, and demonstrate the effectiveness of this approach using Bayesian logistic regression, stochastic volatility, and deep neural networks.
翻訳日:2023-05-18 19:48:18 公開日:2023-05-17
# 雑音量子コンピュータによる局所化の観測

Observation of localization using a noisy quantum computer ( http://arxiv.org/abs/2303.12309v2 )

ライセンス: Link先を確認
Kazue Kudo(参考訳) 強非秩序な量子多体系の量子力学は、局在特性を示す。 初期状態メモリは、システムがローカライズされた状態にあるときに緩やかな緩和のために維持される。 本研究は,量子スピンチェーンの磁化とねじれの重ね合わせを短時間進化の後に評価することにより,ノイズ量子コンピュータを用いて局在を観測できることを実証する。 量子回路シミュレーションと実デバイス計算から得られたこれらの量は、障害強度に明らかな依存を示すが、実デバイス計算はノイズによるエラーを著しく受ける。 ハミルトンの正確な対角化を用いて、この研究はノイズによる誤差がこれらの量に与える影響を分析する。 解析はまた、ツイスト重なりがハミルトニアンの固有状態の情報をどのように反映するかも示唆している。

Quantum dynamics in a strongly-disordered quantum many-body system show localization properties. The initial state memory is maintained due to slow relaxation when the system is in the localized regime. This work demonstrates how localization can be observed using a noisy quantum computer by evaluating the magnetization and twist overlap in a quantum spin chain after a short-time evolution. Those quantities obtained from quantum-circuit simulation and real-device computation show apparent dependence on the disorder strength, although real-device computation suffers from noise-induced errors significantly. Using the exact diagonalization of the Hamiltonian, this work analyzes how noise-induced errors influences those quantities. The analysis also suggests how twist overlap can reflect the information on eigenstates of the Hamiltonian.
翻訳日:2023-05-18 19:48:08 公開日:2023-05-17
# GoferBot: ビジュアルガイド付き人間ロボット協調組立システム

GoferBot: A Visual Guided Human-Robot Collaborative Assembly System ( http://arxiv.org/abs/2304.08840v2 )

ライセンス: Link先を確認
Zheyu Zhuang, Yizhak Ben-Shabat, Jiahao Zhang, Stephen Gould, Robert Mahony(参考訳) スマートマニュファクチャリングへの現在の転換により、製造プロセスにおけるヒューマンロボットコラボレーション(HRC)の需要が高まっている。 人間の同僚の行動の知覚と理解は、非構造的でダイナミックな環境でのタスクを効率的に効果的に実行するための協調ロボットの課題をもたらす。 最近のデータ駆動マシンビジョン機能をRCシステムに統合することは、これらの課題に対処するための論理的な次のステップである。 しかし、これらの場合、既製の部品は一般化の限界のために苦労する。 これらのアプローチの成熟度と堅牢性を完全に評価するためには、実世界の評価が必要である。 さらに、制約を理解するために複数のモダリティを組み合わせる前に、純粋ビジョンの側面を理解することは重要な第一歩である。 本稿では,現実の組立タスクのための新しい視覚ベースセマンティックHRCシステムであるGoferBotを提案する。 非構造化マルチインスティスタンス・ダイナミック環境において組立部品を到達・把握する視覚サーボモジュールと、暗黙的なコミュニケーションのために人間の行動予測を行う行動認識モジュールと、人間の行動の知覚的理解を利用して直感的で効率的な協調的な組立体験を生成する視覚ハンドオーバモジュールとからなる。 GoferBotは、視覚的知覚から純粋に暗黙のセマンティック情報を活用することで、すべてのサブモジュールをシームレスに統合する新しいアセンブリシステムである。

The current transformation towards smart manufacturing has led to a growing demand for human-robot collaboration (HRC) in the manufacturing process. Perceiving and understanding the human co-worker's behaviour introduces challenges for collaborative robots to efficiently and effectively perform tasks in unstructured and dynamic environments. Integrating recent data-driven machine vision capabilities into HRC systems is a logical next step in addressing these challenges. However, in these cases, off-the-shelf components struggle due to generalisation limitations. Real-world evaluation is required in order to fully appreciate the maturity and robustness of these approaches. Furthermore, understanding the pure-vision aspects is a crucial first step before combining multiple modalities in order to understand the limitations. In this paper, we propose GoferBot, a novel vision-based semantic HRC system for a real-world assembly task. It is composed of a visual servoing module that reaches and grasps assembly parts in an unstructured multi-instance and dynamic environment, an action recognition module that performs human action prediction for implicit communication, and a visual handover module that uses the perceptual understanding of human behaviour to produce an intuitive and efficient collaborative assembly experience. GoferBot is a novel assembly system that seamlessly integrates all sub-modules by utilising implicit semantic information purely from visual perception.
翻訳日:2023-05-18 19:41:42 公開日:2023-05-17
# コントラスト学習に基づくマルチモーダルショートビデオラグ検出システム

Multimodal Short Video Rumor Detection System Based on Contrastive Learning ( http://arxiv.org/abs/2304.08401v3 )

ライセンス: Link先を確認
Yuxing Yang, Junhao Zhao, Siyi Wang, Xiangyu Min, Pengchao Wang and Haizhou Wang(参考訳) ショートビデオプラットフォームがニュース拡散の顕著なチャネルとして台頭し、中国の主要プラットフォームは次第にフェイクニュースの拡散の場へと進化してきた。 しかし、短いビデオの噂を区別することは、大量の情報とビデオ間の共有機能によって大きな課題となり、均一性をもたらす。 ショートビデオの拡散を効果的に解決するため,本研究グループは,各アルゴリズムのメリットと欠点を考慮して,マルチモーダル特徴融合と外部知識の統合を包含する手法を提案する。 提案手法は,(1)短い映像から抽出された複数の特徴を含む包括的データセットの作成,(2)マルチモーダルなうわさ検出モデルの開発,(2)ビデオ特徴抽出に時間的セグメントネットワーク(tsn)ビデオ符号化モデルを使用し,その後にocrと自動音声認識(asr)を用いてテキスト特徴を抽出する。 次に, BERTモデルを用いてテキストと映像の特徴を融合させ, (3) コントラスト学習により区別が達成される: 関係する情報源をクロールして外部知識を取得し, ベクトルデータベースを利用してその知識を分類出力に組み込む。 本研究のプロセスは実践的考察によって推進され,本研究から得られた知識は,ショートビデオのうわさの特定や社会的意見の管理など,実践的シナリオにおいて大きな価値を持つ。

With the rise of short video platforms as prominent channels for news dissemination, major platforms in China have gradually evolved into fertile grounds for the proliferation of fake news. However, distinguishing short video rumors poses a significant challenge due to the substantial amount of information and shared features among videos, resulting in homogeneity. To address the dissemination of short video rumors effectively, our research group proposes a methodology encompassing multimodal feature fusion and the integration of external knowledge, considering the merits and drawbacks of each algorithm. The proposed detection approach entails the following steps: (1) creation of a comprehensive dataset comprising multiple features extracted from short videos; (2) development of a multimodal rumor detection model: first, we employ the Temporal Segment Networks (TSN) video coding model to extract video features, followed by the utilization of Optical Character Recognition (OCR) and Automatic Speech Recognition (ASR) to extract textual features. Subsequently, the BERT model is employed to fuse textual and video features; (3) distinction is achieved through contrast learning: we acquire external knowledge by crawling relevant sources and leverage a vector database to incorporate this knowledge into the classification output. Our research process is driven by practical considerations, and the knowledge derived from this study will hold significant value in practical scenarios, such as short video rumor identification and the management of social opinions.
翻訳日:2023-05-18 19:40:58 公開日:2023-05-17
# 知識追跡のための注意的Q行列学習

Attentive Q-Matrix Learning for Knowledge Tracing ( http://arxiv.org/abs/2304.08168v2 )

ライセンス: Link先を確認
Zhongfeng Jia, Wei Su, Jiamin Liu, Wenli Yue(参考訳) 過去10年間の知的学習システム(ITS)の急速な発展に伴い、個別の学習指導を提供するため、学生の知識状態の追跡がますます重要になっている。 これは、学生が過去のプラットフォーム上でのインタラクションに基づいて知識概念(KC、問題解決に必要なスキル)をモデル化する知識追跡(KT)の主案である。 多くのKTモデルが提案され、最近顕著な性能を示している。 しかし、これらのモデルの多くは質問をインデックスするために概念を使用する。つまり、質問に対して事前に定義されたスキルタグは、その質問に正しく答えるために必要なkcsを示すために事前に必要となる。 これは、質問がスキルタグによってうまく整理されていない場合が多い大規模なオンライン教育プラットフォームに適用するのは非常に困難である。 本稿では,q-matrix-based attentive knowledge tracing(qakt)を提案する。q-matrix-based attentive knowledge tracing(qakt)は,その性能を犠牲にすることなく,事前に定義されたスキルタグが存在しないシーンに注意手法を適用することができるエンドツーエンドのスタイルモデルである。 QAKTは,Q-matrixとRaschモデルに基づく新しいハイブリッド埋め込み手法により,問題を階層的にモデル化し,q-matrixを学生のシーケンスに基づいて効率的に学習することができる。 一方、QAKTのアーキテクチャは、複数のスキルに関連する質問に親しみやすいことを保証する。 様々なオープンデータセットの実験を行った結果、我々のモデルは最先端のKT手法と同じような、あるいはそれ以上のパフォーマンスを示すことを実証的に検証した。 さらなる実験の結果、QAKTが学習したq行列は、既存のITSのデータマイニングタスクに役立つ、人間の専門家によってラベル付けされたものよりも非常にモデルに依存し、情報に十分であることが示唆された。

As the rapid development of Intelligent Tutoring Systems (ITS) in the past decade, tracing the students' knowledge state has become more and more important in order to provide individualized learning guidance. This is the main idea of Knowledge Tracing (KT), which models students' mastery of knowledge concepts (KCs, skills needed to solve a question) based on their past interactions on platforms. Plenty of KT models have been proposed and have shown remarkable performance recently. However, the majority of these models use concepts to index questions, which means the predefined skill tags for each question are required in advance to indicate the KCs needed to answer that question correctly. This makes it pretty hard to apply on large-scale online education platforms where questions are often not well-organized by skill tags. In this paper, we propose Q-matrix-based Attentive Knowledge Tracing (QAKT), an end-to-end style model that is able to apply the attentive method to scenes where no predefined skill tags are available without sacrificing its performance. With a novel hybrid embedding method based on the q-matrix and Rasch model, QAKT is capable of modeling problems hierarchically and learning the q-matrix efficiently based on students' sequences. Meanwhile, the architecture of QAKT ensures that it is friendly to questions associated with multiple skills and has outstanding interpretability. After conducting experiments on a variety of open datasets, we empirically validated that our model shows similar or even better performance than state-of-the-art KT methods. Results of further experiments suggest that the q-matrix learned by QAKT is highly model-agnostic and more information-sufficient than the one labeled by human experts, which could help with the data mining tasks in existing ITSs.
翻訳日:2023-05-18 19:40:32 公開日:2023-05-17
# 幾何学的変換感性アーキテクチャを用いた非対象中心画像からの自己教師付き学習

Self-Supervised Learning from Non-Object Centric Images with a Geometric Transformation Sensitive Architecture ( http://arxiv.org/abs/2304.08014v7 )

ライセンス: Link先を確認
Taeho Kim, Jong-Min Lee(参考訳) ほとんどの不変性に基づく自己教師付き手法は、幾何学変換に不変な事前学習のための単一のオブジェクト中心の画像(イメージネット画像など)に依存している。 しかし、画像がオブジェクト中心でない場合、画像のセマンティクスは切り欠きによって著しく変化する可能性がある。 さらに、モデルが幾何学的変換に敏感になるにつれて、位置情報を捉えるのに苦労する可能性がある。 そこで我々は,4次元回転,ランダム作物,マルチクロップに着目し,幾何学的変換に敏感な幾何学的変換センシティブなアーキテクチャを提案する。 本手法は,教師特徴マップのプーリングと回転を通じて,その変換によって変化する目標を用いて,生徒の自転を予測し,センシティブ化を促す。 さらに、パッチ対応損失を利用して、類似した特徴を持つパッチ間の対応を促進する。 このアプローチは、学習がマルチクロップに敏感でない場合に発生する局所的対グローバル対応を奨励することで、長期的な依存関係を捉えるよりも適切な方法で長期的な依存関係を捉えることができます。 提案手法は,非対象中心の画像を事前学習データとして使用する場合,幾何学的変換に敏感であるようにモデルを訓練する他の方法と比較して,性能向上を示す。 画像分類、意味セグメンテーション、検出、インスタンスセグメンテーションといったタスクでは、dino[caron et al.[2021b]のベースラインを4.9$top-1 acc$、3.3$miou$、3.4$ap^b$、2.7$ap^m$で上回りました。 コードおよび事前訓練されたモデルは、https://github.com/bok3948/GTSAで公開されている。

Most invariance-based self-supervised methods rely on single object-centric images (e.g., ImageNet images) for pretraining, learning features that invariant to geometric transformation. However, when images are not object-centric, the semantics of the image can be significantly altered due to cropping. Furthermore, as the model becomes insensitive to geometric transformations, it may struggle to capture location information. For this reason, we propose a Geometric Transformation Sensitive Architecture designed to be sensitive to geometric transformations, specifically focusing on four-fold rotation, random crop, and multi-crop. Our method encourages the student to be sensitive by predicting rotation and using targets that vary with those transformations through pooling and rotating the teacher feature map. Additionally, we use patch correspondence loss to encourage correspondence between patches with similar features. This approach allows us to capture long-term dependencies in a more appropriate way than capturing long-term dependencies by encouraging local-to-global correspondence, which occurs when learning to be insensitive to multi-crop. Our approach demonstrates improved performance when using non-object-centric images as pretraining data compared to other methods that train the model to be insensitive to geometric transformation. We surpass DINO[Caron et al.[2021b]] baseline in tasks including image classification, semantic segmentation, detection, and instance segmentation with improvements of 4.9 $Top-1 Acc$, 3.3 $mIoU$, 3.4 $AP^b$, and 2.7 $AP^m$. Code and pretrained models are publicly available at: https://github.com/bok3948/GTSA
翻訳日:2023-05-18 19:39:52 公開日:2023-05-17
# pt対称フィードバック誘起線幅狭化

PT-symmetric feedback induced linewidth narrowing ( http://arxiv.org/abs/2304.07475v2 )

ライセンス: Link先を確認
Yuanjiang Tang, Chao Liang, Xin Wen, Weipeng Li, An-Ning Xu and Yong-Chun Liu(参考訳) 細線幅は精度測定とセンシングにおいて長い目標である。 共振系の直線幅を狭めるために,パリティ時間(PT)対称フィードバック法を提案する。 1次測定フィードバックループを用いることで、散逸共振系をPT対称系に変換する。 通常2つ以上のモードを必要とする従来のPT対称システムとは異なり、ここではPT対称フィードバックシステムは単一の共振モードのみを含み、アプリケーションの範囲を大きく広げる。 この方法は、目覚ましい線幅狭化と測定感度の向上を可能にする。 この概念を原子の熱アンサンブルで説明し、48倍の磁気共鳴線幅の狭さを実現する。 本手法を磁力計に適用することにより, 測定感度の22倍向上を実現する。 この研究は、フィードバックを持つ共鳴系における非エルミート物理学と高精度測定の道を開く。

Narrow linewidth is a long-pursuing goal in precision measurement and sensing. We propose a parity-time (PT )-symmetric feedback method to narrow the linewidths of resonance systems. By using a quadrature measurement-feedback loop, we transform a dissipative resonance system into a PT-symmetric system. Unlike the conventional PT-symmetric systems which typically require two or more modes, here the PT-symmetric feedback system contains only a single resonance mode, which greatly extends the scope of applications. The method enables remarkable linewidth narrowing and enhancement of measurement sensitivity. We illustrate the concept in a thermal ensemble of atoms, achieving a 48-fold narrowing of the magnetic resonance linewidth. By applying the method in magnetometry, we realize a 22-times improvement of the measurement sensitivity. This work opens the avenue for studying non-Hermitian physics and high-precision measurements in resonance systems with feedback.
翻訳日:2023-05-18 19:39:23 公開日:2023-05-17
# ブラックボックスVIのサンプル平均近似

Sample Average Approximation for Black-Box VI ( http://arxiv.org/abs/2304.06803v2 )

ライセンス: Link先を確認
Javier Burroni, Justin Domke, Daniel Sheldon(参考訳) ステップサイズを選択するタスクを含む,確率勾配上昇の困難を回避したブラックボックスVIに対する新しいアプローチを提案する。 提案手法では,サンプル平均近似 (saa) 問題の列を用いる。 SAAはそれらを決定論的に変換することで確率最適化問題の解を近似する。 準ニュートン法と線探索を用いて各決定論的最適化問題を解き,超パラメータ選択を自動化するヒューリスティックポリシーを提案する。 実験の結果,本手法はVI問題を単純化し,既存手法よりも高速な性能を実現することがわかった。

We present a novel approach for black-box VI that bypasses the difficulties of stochastic gradient ascent, including the task of selecting step-sizes. Our approach involves using a sequence of sample average approximation (SAA) problems. SAA approximates the solution of stochastic optimization problems by transforming them into deterministic ones. We use quasi-Newton methods and line search to solve each deterministic optimization problem and present a heuristic policy to automate hyperparameter selection. Our experiments show that our method simplifies the VI problem and achieves faster performance than existing methods.
翻訳日:2023-05-18 19:39:11 公開日:2023-05-17
# オートRLハイパーパラメータの景観

AutoRL Hyperparameter Landscapes ( http://arxiv.org/abs/2304.02396v3 )

ライセンス: Link先を確認
Aditya Mohan, Carolin Benjamins, Konrad Wienecke, Alexander Dockhorn, Marius Lindauer(参考訳) 強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その性能に対するハイパーパラメータの影響によって制限されている。 これはしばしば、実践において良い結果を得るのを難しくする。 オートRL(Automated RL)はこの問題に対処するが、ハイパーパラメータ最適化(HPO)手法が最適構成を探索する際のハイパーパラメータランドスケープのダイナミクスについてはほとんど知られていない。 ハイパーパラメータの設定を動的に調整する既存のautorlアプローチの観点から,ハイパーパラメータのランドスケープを1つのポイントだけではなく,トレーニングを通じて複数のポイントで構築・解析する手法を提案する。 Addressing an important open question on the legitimacy of such dynamic AutoRL approaches, we provide thorough empirical evidence that the hyperparameter landscapes strongly vary over time across representative algorithms from RL literature (DQN, PPO, and SAC) in different kinds of environments (Cartpole, Bipedal Walker, and Hopper) This supports the theory that hyperparameters should be dynamically adjusted during training and shows the potential for more insights on AutoRL problems that can be gained through landscape analyses. 私たちのコードはhttps://github.com/automl/AutoRL-Landscapeにある。

Although Reinforcement Learning (RL) has shown to be capable of producing impressive results, its use is limited by the impact of its hyperparameters on performance. This often makes it difficult to achieve good results in practice. Automated RL (AutoRL) addresses this difficulty, yet little is known about the dynamics of the hyperparameter landscapes that hyperparameter optimization (HPO) methods traverse in search of optimal configurations. In view of existing AutoRL approaches dynamically adjusting hyperparameter configurations, we propose an approach to build and analyze these hyperparameter landscapes not just for one point in time but at multiple points in time throughout training. Addressing an important open question on the legitimacy of such dynamic AutoRL approaches, we provide thorough empirical evidence that the hyperparameter landscapes strongly vary over time across representative algorithms from RL literature (DQN, PPO, and SAC) in different kinds of environments (Cartpole, Bipedal Walker, and Hopper) This supports the theory that hyperparameters should be dynamically adjusted during training and shows the potential for more insights on AutoRL problems that can be gained through landscape analyses. Our code can be found at https://github.com/automl/AutoRL-Landscape
翻訳日:2023-05-18 19:39:02 公開日:2023-05-17
# 統合失調症診断と側方化解析のための時間的動的同期機能脳ネットワーク

Temporal Dynamic Synchronous Functional Brain Network for Schizophrenia Diagnosis and Lateralization Analysis ( http://arxiv.org/abs/2304.01347v3 )

ライセンス: Link先を確認
Cheng Zhu, Ying Tan, Shuqi Yang, Jiaqing Miao, Jiayi Zhu, Huan Huang, Dezhong Yao, and Cheng Luo(参考訳) 利用可能な証拠は、動的機能接続(dfc)は静止状態脳機能磁気共鳴画像(rs-fmri)データにおいて脳活動の時間的異常を捉えることができ、統合失調症(sz)患者の脳活動異常のメカニズムを明らかにするのに自然な利点があることを示唆している。 そこで、時間的脳カテゴリグラフ畳み込みネットワーク(temporal-bcgcn)と呼ばれる高度な動的脳ネットワーク解析モデルを用いた。 まず、動的な同期機能を構築するために、ユニークな動的脳ネットワーク解析モジュールdsf-brainnetが設計された。 その後、特徴の同期時間特性に基づいて、革命的グラフ畳み込み法であるTemporalConvが提案された。 最後に, RS-fMRIデータに基づく深層学習における最初のモジュール状異常半球側方化試験ツール, CategoryPoolを提案する。 この研究はCOBREとUCLAのデータセットで検証され、それぞれ83.62%と89.71%の平均精度を達成した。 アブレーションの結果は,従来のエッジ特徴グラフ畳み込みアプローチに対するTemporalConvの利点と,古典的なグラフプーリングアプローチに対するCataggoryPoolの改善を示す。 本研究は,SZの右半球より左半球の低次知覚系と高次ネットワーク領域が高度に機能し,SZの左内側上前頭回の重要性を再確認した。 私たちのコアコードは、https://github.com/swfen/Temporal-BCGCN.comで利用可能です。

The available evidence suggests that dynamic functional connectivity (dFC) can capture time-varying abnormalities in brain activity in resting-state cerebral functional magnetic resonance imaging (rs-fMRI) data and has a natural advantage in uncovering mechanisms of abnormal brain activity in schizophrenia(SZ) patients. Hence, an advanced dynamic brain network analysis model called the temporal brain category graph convolutional network (Temporal-BCGCN) was employed. Firstly, a unique dynamic brain network analysis module, DSF-BrainNet, was designed to construct dynamic synchronization features. Subsequently, a revolutionary graph convolution method, TemporalConv, was proposed, based on the synchronous temporal properties of feature. Finally, the first modular abnormal hemispherical lateralization test tool in deep learning based on rs-fMRI data, named CategoryPool, was proposed. This study was validated on COBRE and UCLA datasets and achieved 83.62% and 89.71% average accuracies, respectively, outperforming the baseline model and other state-of-the-art methods. The ablation results also demonstrate the advantages of TemporalConv over the traditional edge feature graph convolution approach and the improvement of CategoryPool over the classical graph pooling approach. Interestingly, this study showed that the lower order perceptual system and higher order network regions in the left hemisphere are more severely dysfunctional than in the right hemisphere in SZ and reaffirms the importance of the left medial superior frontal gyrus in SZ. Our core code is available at: https://github.com/swfen/Temporal-BCGCN.
翻訳日:2023-05-18 19:38:31 公開日:2023-05-17
# RPTQ:大規模言語モデルのためのリオーダーベースポストトレーニング量子化

RPTQ: Reorder-based Post-training Quantization for Large Language Models ( http://arxiv.org/abs/2304.01089v4 )

ライセンス: Link先を確認
Zhihang Yuan, Lin Niu, Jiawei Liu, Wenyu Liu, Xinggang Wang, Yuzhang Shang, Guangyu Sun, Qiang Wu, Jiaxiang Wu, Bingzhe Wu(参考訳) 大規模言語モデル(llm)は印象的なパフォーマンスを示しているが,メモリ使用量が大きいため,デプロイメントが課題となっている。 この問題は量子化によって緩和できる。 本稿では,LCMにおけるアクティベーションの定量化の課題が,外れ値のみの存在ではなく,チャネル間の様々な範囲から生じることを確かめる。 この課題に対処するために、リオーダーベースのアプローチを用いたRTTQと呼ばれる量子化手法を導入する。 チャネルを再構成してクラスタに量子化することにより、RTTQはチャネル間の範囲差の影響を効果的に緩和する。 再注文操作のオーバーヘッドを最小限に抑えるため,線形層における標準動作と重みを融合する。 実験では,LPMの3ビットアクティベーションを初めて利用し,メモリ使用量の大幅な削減を実現した。 例えば、OPT-175bの量子化は、最大80%のメモリ消費削減につながる。

Large-scale language models (LLMs) have demonstrated impressive performance, but their deployment presents challenges due to their significant memory usage. This issue can be alleviated through quantization. In this paper, we identify that the challenge in quantizing activations in LLMs arises from varying ranges across channels, rather than solely the presence of outliers. To address this challenge, we introduce a quantization method called RPTQ, which utilizes a reorder-based approach. By rearranging the channels and quantizing them in clusters, RPTQ effectively mitigates the impact of range differences between channels. To minimize the overhead of the reorder operation, we fuse it into the layer norm operation and weights in linear layers. In our experiments, RPTQ achieved a significant breakthrough by utilizing 3-bit activation in LLMs for the first time, resulting in a substantial reduction in memory usage. For instance, quantizing OPT-175b can lead to a memory consumption reduction of up to 80%.
翻訳日:2023-05-18 19:37:57 公開日:2023-05-17
# 偽ニュース検出のためのメモリ付きグラフグローバルアテンションネットワーク

Graph Global Attention Network with Memory for Fake News Detection ( http://arxiv.org/abs/2305.00456v2 )

ライセンス: Link先を確認
Qian Chang, Xia Lia, Patrick S.W. Fong(参考訳) ソーシャルメディアの普及に伴い、偽ニュースの検出は社会に重大な脅威をもたらす重要な問題となっている。 偽情報の拡散は社会的危害をもたらし、情報の信頼性を損なう可能性がある。 この問題に対処するため、ディープラーニングは、特に自然言語処理(NLP)の開発において、有望なアプローチとして現れてきた。 本研究では,ソーシャルメディア上での偽ニュース検出の問題に対処し,社会に重大な課題をもたらす。 本研究では,ニュースコンテキストやユーザ内容のノードを符号化するNLP技術を活用し,3つのグラフ畳み込みネットワークを用いて特徴を抽出し,内因性および外因性情報を集約する,偽ニュース検出のための新しいアプローチGANMを提案する。 GANMは、ニュース拡散ネットワークの構造的均一性を学ぶために、メモリを備えたユニークなグローバルアテンションメカニズムを採用している。 このアプローチは、実際のデータセットで良い結果を得る。

With the proliferation of social media, the detection of fake news has become a critical issue that poses a significant threat to society. The dissemination of fake information can lead to social harm and damage the credibility of information. To address this issue, deep learning has emerged as a promising approach, especially with the development of natural language processing (NLP). This study addresses the problem of detecting fake news on social media, which poses a significant challenge to society. This study proposes a new approach named GANM for fake news detection that employs NLP techniques to encode nodes for news context and user content and uses three graph convolutional networks to extract features and aggregate users' endogenous and exogenous information. The GANM employs a unique global attention mechanism with memory to learn the structural homogeneity of news dissemination networks. The approach achieves good results on a real dataset.
翻訳日:2023-05-18 19:32:39 公開日:2023-05-17
# ChatGPT - コンピュータサイエンスの学生とインストラクターにとっての祝福か、それともカースか?

ChatGPT -- a Blessing or a Curse for Undergraduate Computer Science Students and Instructors? ( http://arxiv.org/abs/2304.14993v2 )

ライセンス: Link先を確認
Ishika Joshi, Ritvik Budhiraja, Harshal Dev, Jahnvi Kadia, M. Osama Ataullah, Sayan Mitra, Dhruv Kumar, Harshal D. Akolekar(参考訳) chatgptはopenaiが開発したai言語モデルで、人間のようなテキストを理解し、生成することができる。 言語生成、質問応答、テキスト要約、チャットボット開発、言語翻訳、感情分析、コンテンツ生成、パーソナライズ、テキスト補完、ストーリーテリングなど、さまざまなユースケースで使用することができる。 ChatGPTは大きな肯定的な注目を集めているが、学術界では理解と不確実性の感覚も生み出している。 学生はchatgptを利用して家庭での課題や試験を完了し、真に知識を得ることなく良い成績を得ることができるのではないかという懸念がある。 本稿では,学部生のコンピュータ科学における話題に関する多岐にわたる質問に対して,chatgptの信頼性の高まりを定量的に示す手法を提案する。 分析の結果,学生はチャットgptに依拠して自傷行為のリスクを負い,課題や試験を完遂する可能性が示唆された。 この分析に基づいて、学生とインストラクターの両方に建設的なレコメンデーションを提供する。

ChatGPT is an AI language model developed by OpenAI that can understand and generate human-like text. It can be used for a variety of use cases such as language generation, question answering, text summarization, chatbot development, language translation, sentiment analysis, content creation, personalization, text completion, and storytelling. While ChatGPT has garnered significant positive attention, it has also generated a sense of apprehension and uncertainty in academic circles. There is concern that students may leverage ChatGPT to complete take-home assignments and exams and obtain favorable grades without genuinely acquiring knowledge. This paper adopts a quantitative approach to demonstrate ChatGPT's high degree of unreliability in answering a diverse range of questions pertaining to topics in undergraduate computer science. Our analysis shows that students may risk self-sabotage by blindly depending on ChatGPT to complete assignments and exams. We build upon this analysis to provide constructive recommendations to both students and instructors.
翻訳日:2023-05-18 19:32:24 公開日:2023-05-17
# $\pi$-Tuning: 最適マルチタスク補間によるマルチモーダル基礎モデルの転送

$\pi$-Tuning: Transferring Multimodal Foundation Models with Optimal Multi-task Interpolation ( http://arxiv.org/abs/2304.14381v3 )

ライセンス: Link先を確認
Chengyue Wu, Teng Wang, Yixiao Ge, Zeyu Lu, Ruisong Zhou, Ying Shan, Ping Luo(参考訳) ファウンデーションモデルは、単一タスクとマルチモーダルタスクの統一インターフェースによるマルチタスク学習において大きな進歩を遂げている。 しかし,このようなマルチタスク学習者の潜在能力は,移動学習において活用されていない。 本研究では,視覚・言語・視覚言語タスクのための汎用パラメータ効率変換学習手法であるPredict-Interpolate Tuning(\pi$-Tuning)を提案する。 同様のタスクから学んだ軽量タスク固有のエキスパートのパラメータを集約し、ターゲットとなるダウンストリームタスクを支援する。 タスク類似性は、統一モダリティ非依存空間で予測され、タスク関係を示すスケーラブルなグラフが得られる。 $\pi$-チューニングにはいくつかの魅力がある。 まず、特にデータ共有シナリオにおいて、類似したタスク間のモーダル間転送可能性の両方を柔軟に探索し、転送学習の精度と堅牢性を改善する。 第2に、マルチタスク予測と補間による転送学習の体系的なソリューションを提供し、プロンプトやアダプタなど、さまざまなパラメータ効率のエキスパートと互換性がある。 第3に、14のユニモーダルデータセットと6つのマルチモーダルデータセットにおけるタスクレベルの相互利益に関する広範な研究は、$\pi$-Tuningが、フルショットとローショットのいずれにおいても、ファインチューニングやその他のパラメータ効率のよいトランスファー学習方法を上回ることを示している。 タスクグラフはまた、モダリティ間のタスク転送可能性の詳細な解釈可能な分析を可能にする。 コードはhttps://github.com/TencentARC/pi-Tuning.comから入手できる。

Foundation models have achieved great advances in multi-task learning with a unified interface of unimodal and multimodal tasks. However, the potential of such multi-task learners has not been exploited during transfer learning. In this work, we present a universal parameter-efficient transfer learning method, termed Predict-Interpolate Tuning ($\pi$-Tuning), for vision, language, and vision-language tasks. It aggregates the parameters of lightweight task-specific experts learned from similar tasks to aid the target downstream task. The task similarities are predicted in a unified modality-independent space, yielding a scalable graph to demonstrate task relationships. $\pi$-Tuning has several appealing benefits. First, it flexibly explores both intra- and inter-modal transferability between similar tasks to improve the accuracy and robustness of transfer learning, especially in data-scarce scenarios. Second, it offers a systematical solution for transfer learning with multi-task prediction-and-then-interpolation, compatible with diverse types of parameter-efficient experts, such as prompt and adapter. Third, an extensive study of task-level mutual benefits on 14 unimodal and 6 multimodal datasets shows that $\pi$-Tuning surpasses fine-tuning and other parameter-efficient transfer learning methods both in full-shot and low-shot regimes. The task graph also enables an in-depth interpretable analysis of task transferability across modalities. The code will be available at https://github.com/TencentARC/pi-Tuning.
翻訳日:2023-05-18 19:32:06 公開日:2023-05-17
# 強化学習を用いた不確実性外乱下におけるメトロシステムのエネルギー効率の最適化

Optimizing Energy Efficiency in Metro Systems Under Uncertainty Disturbances Using Reinforcement Learning ( http://arxiv.org/abs/2304.13443v3 )

ライセンス: Link先を確認
Haiqin Xie, Cheng Wang, Shicheng Li, Yue Zhang, Shanshan Wang(参考訳) 都市交通の分野では、地下鉄は公共交通の重要かつ持続可能な手段となっている。 しかし、その実質的なエネルギー消費は持続可能性の目標に挑戦する。 遅延や乗客の流れの変化などの障害は、メトロシステムのエネルギー効率に悪影響を及ぼすことで、この問題をさらに悪化させる可能性がある。 そこで本研究では,列車の走行時間と走行速度を調整し,外乱下におけるメトロシステムのエネルギー効率を最適化し,メトロタイムテーブルを再スケジュールする政策ベース強化学習手法を提案する。 シミュレーション環境で行った実験は,本手法がベースライン法よりも優れていることを示し,トラクションエネルギーを最大10.9%削減し,再生制動エネルギー利用率を最大47.9%向上させた。 本研究は,都市交通の省エネルギー問題に対する効果的な解決法を提供する。

In the realm of urban transportation, metro systems serve as crucial and sustainable means of public transit. However, their substantial energy consumption poses a challenge to the goal of sustainability. Disturbances such as delays and passenger flow changes can further exacerbate this issue by negatively affecting energy efficiency in metro systems. To tackle this problem, we propose a policy-based reinforcement learning approach that reschedules the metro timetable and optimizes energy efficiency in metro systems under disturbances by adjusting the dwell time and cruise speed of trains. Our experiments conducted in a simulation environment demonstrate the superiority of our method over baseline methods, achieving a traction energy consumption reduction of up to 10.9% and an increase in regenerative braking energy utilization of up to 47.9%. This study provides an effective solution to the energy-saving problem of urban rail transit.
翻訳日:2023-05-18 19:31:17 公開日:2023-05-17
# 医用画像解析のためのsegment anythingモデル--実験的検討

Segment Anything Model for Medical Image Analysis: an Experimental Study ( http://arxiv.org/abs/2304.10517v3 )

ライセンス: Link先を確認
Maciej A. Mazurowski, Haoyu Dong, Hanxue Gu, Jichen Yang, Nicholas Konz, Yixin Zhang(参考訳) 医療画像のセグメンテーションモデルは、データアノテーションの可用性が限られているため、いまだに困難である。 Segment Anything Model (SAM)は、ユーザ定義オブジェクトをインタラクティブな方法でセグメント化する基礎モデルである。 自然画像のパフォーマンスは印象的だが、医療画像領域には独自の課題がある。 本稿では,様々な形態や解剖から19の医用画像データセットを収集し,医療画像のセグメンテーションを行うsamの能力を広範囲に評価した。 1) 単一プロンプトによるsamの性能は, iou=0.1135, iou=0.8650, hip x線, iou=0.1135, iou=0.8650まで, データセットや課題によって大きく異なる。 2)脳腫瘍のセグメンテーションなど他の様々なシナリオでは,曖昧さの少ないプロンプトとより貧弱なプロンプトにより,セグメンテーション性能が向上した。 (3)SAMはポイントプロンプトよりもボックスプロンプトの方が優れている。 (4)SAMは、RITM、SimpleClick、FocalClickのようなメソッドをほぼすべての単一ポイントプロンプト設定で上回る。 (5) 複数のポイントプロンプトが反復的に提供される場合、SAMのパフォーマンスは一般的にわずかに改善されるが、他のメソッドのパフォーマンスはSAMのポイントベースのパフォーマンスを上回るレベルに改善される。 また、テストされたすべてのデータセットにおけるSAMのパフォーマンス、反復的なセグメンテーション、そしてすぐにあいまいさを与えるSAMの振る舞いについて、いくつかのイラストを提供している。 SAMは、特定の医用画像データセットに対して、印象的なゼロショットセグメンテーション性能を示すが、他者にとっては適度に低い性能を示す。 SAMは、医療画像の自動画像分割において大きな影響を与える可能性があるが、それを使用する際に適切なケアを適用する必要がある。

Training segmentation models for medical images continues to be challenging due to the limited availability of data annotations. Segment Anything Model (SAM) is a foundation model that is intended to segment user-defined objects of interest in an interactive manner. While the performance on natural images is impressive, medical image domains pose their own set of challenges. Here, we perform an extensive evaluation of SAM's ability to segment medical images on a collection of 19 medical imaging datasets from various modalities and anatomies. We report the following findings: (1) SAM's performance based on single prompts highly varies depending on the dataset and the task, from IoU=0.1135 for spine MRI to IoU=0.8650 for hip X-ray. (2) Segmentation performance appears to be better for well-circumscribed objects with prompts with less ambiguity and poorer in various other scenarios such as the segmentation of brain tumors. (3) SAM performs notably better with box prompts than with point prompts. (4) SAM outperforms similar methods RITM, SimpleClick, and FocalClick in almost all single-point prompt settings. (5) When multiple-point prompts are provided iteratively, SAM's performance generally improves only slightly while other methods' performance improves to the level that surpasses SAM's point-based performance. We also provide several illustrations for SAM's performance on all tested datasets, iterative segmentation, and SAM's behavior given prompt ambiguity. We conclude that SAM shows impressive zero-shot segmentation performance for certain medical imaging datasets, but moderate to poor performance for others. SAM has the potential to make a significant impact in automated medical image segmentation in medical imaging, but appropriate care needs to be applied when using it.
翻訳日:2023-05-18 19:30:29 公開日:2023-05-17
# 配向相における長寿命一重項状態とその相転移から等方相への生存

Long-lived singlet state in oriented phase and its survival across the phase transition into isotropic phase ( http://arxiv.org/abs/2304.10459v2 )

ライセンス: Link先を確認
Vishal Varma, and T S Mahesh(参考訳) 核スピン対の長寿命一重項状態(LLS)は、液体NMRを介して等方性相において広く研究され、利用されてきた。 しかし、異方性相におけるLSSの報告はほとんどなく、スカラーカップリングに加えて双極子カップリングからの寄与を許容し、多くのエキサイティングな可能性を開く。 本稿では,液晶溶媒のネマティック相に部分的に配向した一対の核スピンにおけるLSSの観察を報告する。 スピンは残留双極子-双極子カップリングを介して強く相互作用する。 配向相におけるLSSは、通常のスピン格子緩和時間定数(T_1$)の最大3倍長寿命である。 加熱すると、システムはネマティックから等方相への相転移を起こし、llsは対応する$t_1$の最大5倍の寿命を持つ。 興味深いことに、配向相で調製されたLSSは、ネマティック相から等方相への遷移を生き残ることができる。 配向相におけるllsの応用として, 液晶溶媒中の溶質分子の小さな移動拡散係数を測定するために, その長寿命を利用する。 最後に、LSSへのアクセスをロックまたはアンロックするために位相遷移を利用することを提案する。

Long-lived singlet states (LLS) of nuclear spin pairs have been extensively studied and utilized in the isotropic phase via liquid state NMR. However, there are hardly any reports of LLS in the anisotropic phase that allows contribution from the dipolar coupling in addition to the scalar coupling, thereby opening many exciting possibilities. Here we report observing LLS in a pair of nuclear spins partially oriented in the nematic phase of a liquid crystal solvent. The spins are strongly interacting via the residual dipole-dipole coupling. We observe LLS in the oriented phase living up to three times longer than the usual spin-lattice relaxation time constant ($T_1$). Upon heating, the system undergoes a phase transition from nematic into isotropic phase, wherein the LLS is up to five times longer lived than the corresponding $T_1$. Interestingly, the LLS prepared in the oriented phase can survive the transition from the nematic to the isotropic phase. As an application of LLS in the oriented phase, we utilize its longer life to measure the small translational diffusion coefficient of solute molecules in the liquid crystal solvent. Finally, we propose utilizing the phase transition to lock or unlock access to LLS.
翻訳日:2023-05-18 19:29:57 公開日:2023-05-17
# NetGPT: ネットワークトラフィックのための生成事前学習トランス

NetGPT: Generative Pretrained Transformer for Network Traffic ( http://arxiv.org/abs/2304.09513v2 )

ライセンス: Link先を確認
Xuying Meng, Chungang Lin, Yequan Wang, Yujun Zhang(参考訳) インターネット上のすべてのデータはネットワークトラフィックによって転送されるため、ネットワークトラフィックを正確にモデル化することは、ネットワークサービスの品質向上とデータのプライバシ保護に役立つ。 ネットワークトラフィックのための事前トレーニングされたモデルは、大規模生データを使用してネットワークトラフィックの本質的特性を学習し、特定の下流タスクを考慮せずに入力トラフィックの識別可能な結果を生成することができる。 効果的な事前学習モデルは、アプリケーション分類、攻撃検出、トラフィック生成などの下流タスクのトレーニング効率と効率を著しく最適化することができる。 自然言語処理における事前学習の成功にもかかわらず、ネットワーク分野における作業は行われていない。 ネットワークトラフィックとネットワークタスクの多様な要求と特性を考慮すると、ネットワークトラフィックのための事前訓練されたモデルを構築するのは簡単ではありません。 本稿では,これらの課題に取り組むため,トラヒック理解と生成タスクの両方に生成的事前学習モデルnetgptを提供することを初めて試みる。 本稿では,統一テキスト入力を構築し,トラヒック理解と生成タスクの両方をサポートするマルチパターンネットワークトラヒックモデリングを提案する。 さらに、ヘッダフィールドをシャッフルし、フロー内のパケットをセグメンテーションし、プロンプトで様々なタスクラベルを組み込むことにより、プリトレーニングされたモデルのタスクへの適応効果をさらに最適化する。 暗号化されたソフトウェア、DNS、民間の産業プロトコル、暗号通貨マイニングといったさまざまなトラフィックデータセットを用いて、トラフィックデータセットに対するさまざまなトラフィック理解および生成タスクにおけるNetGPTの有効性を実証し、最先端のベースラインを幅広いマージンで上回ります。

All data on the Internet are transferred by network traffic, thus accurately modeling network traffic can help improve network services quality and protect data privacy. Pretrained models for network traffic can utilize large-scale raw data to learn the essential characteristics of network traffic, and generate distinguishable results for input traffic without considering specific downstream tasks. Effective pretrained models can significantly optimize the training efficiency and effectiveness of downstream tasks, such as application classification, attack detection and traffic generation. Despite the great success of pretraining in natural language processing, there is no work in the network field. Considering the diverse demands and characteristics of network traffic and network tasks, it is non-trivial to build a pretrained model for network traffic and we face various challenges, especially the heterogeneous headers and payloads in the multi-pattern network traffic and the different dependencies for contexts of diverse downstream network tasks. To tackle these challenges, in this paper, we make the first attempt to provide a generative pretrained model NetGPT for both traffic understanding and generation tasks. We propose the multi-pattern network traffic modeling to construct unified text inputs and support both traffic understanding and generation tasks. We further optimize the adaptation effect of the pretrained model to diversified tasks by shuffling header fields, segmenting packets in flows, and incorporating diverse task labels with prompts. With diverse traffic datasets from encrypted software, DNS, private industrial protocols and cryptocurrency mining, expensive experiments demonstrate the effectiveness of our NetGPT in a range of traffic understanding and generation tasks on traffic datasets, and outperform state-of-the-art baselines by a wide margin.
翻訳日:2023-05-18 19:29:20 公開日:2023-05-17
# 3相ニュートリノ振動の完全相補性関係

Complete complementarity relations for three-flavor neutrino oscillations ( http://arxiv.org/abs/2305.06095v2 )

ライセンス: Link先を確認
Massimo Blasone, Silvio De Siena, Cristina Matrella(参考訳) 完全相補性関係を利用して3相振動ニュートリノ系で符号化された量子相関を特徴付ける。 特に、2つのフレーバーサブシステムに関連するコントリビューションを分析し、それぞれが特定の内部構造を示す。 我々は,初期電子状態とミューオンニュートリノ状態の両方において,大距離における相関の挙動に注目した。 この解析は、ニュートリノが混合状態で表される波束法に基づいており、その結果、二成分相関は量子ディスコードによって記述される。

We exploit complete complementarity relations to characterize quantum correlations encoded in a three-flavor oscillating neutrino system. In particular, we analyze the contributions associated to the twoflavor subsystems, each of which exhibits a particular internal structure. We focus on the behavior of the correlations at large distances, both for an initial electron and muon neutrino state. Our analysis is based on the wave packet approach in which the neutrino is represented by a mixed state: consequently, the bipartite correlations are described by the Quantum Discord.
翻訳日:2023-05-18 19:21:19 公開日:2023-05-17
# 自己注意力学におけるクラスターの出現

The emergence of clusters in self-attention dynamics ( http://arxiv.org/abs/2305.05465v2 )

ライセンス: Link先を確認
Borjan Geshkovski, Cyril Letrouit, Yury Polyanskiy, Philippe Rigollet(参考訳) 相互作用する粒子系としてトランスフォーマーを見ることにより,重みが時間に依存しない場合の学習表現の幾何学を記述する。 トークンを表す粒子は、時間とともに無限大となるため、特定の制限対象に向かって集結する傾向にある。 クラスタ位置は初期トークンによって決定され、Transformersが学習した表現のコンテキスト認識を確認する。 力学系と偏微分方程式の手法を用いて、出現する制限対象の型は値行列のスペクトルに依存することを示した。 さらに、一次元の場合、自己着行列が低階ブール行列に収束することを証明する。 これらの結果の組み合わせは、vaswaniらによる経験的観察を数学的に確認する。 [VSP'17]トランスフォーマーによって処理されると、リーダーが一連のトークンに現れる。

Viewing Transformers as interacting particle systems, we describe the geometry of learned representations when the weights are not time dependent. We show that particles, representing tokens, tend to cluster toward particular limiting objects as time tends to infinity. Cluster locations are determined by the initial tokens, confirming context-awareness of representations learned by Transformers. Using techniques from dynamical systems and partial differential equations, we show that the type of limiting object that emerges depends on the spectrum of the value matrix. Additionally, in the one-dimensional case we prove that the self-attention matrix converges to a low-rank Boolean matrix. The combination of these results mathematically confirms the empirical observation made by Vaswani et al. [VSP'17] that leaders appear in a sequence of tokens when processed by Transformers.
翻訳日:2023-05-18 19:21:10 公開日:2023-05-17
# 信用リスク管理のためのuq:深い証拠回帰アプローチ

UQ for Credit Risk Management: A deep evidence regression approach ( http://arxiv.org/abs/2305.04967v2 )

ライセンス: Link先を確認
Ashish Dhiman(参考訳) 機械学習は、さまざまな信用リスクアプリケーションにその方法を見つけた。 信用リスクの本質的な性質から,予測リスク指標の不確実性を定量化することが不可欠であり,信用リスク設定に不確実性を考慮したディープラーニングモデルを適用することは非常に有用である。 本研究では,スケーラブルな uq-aware 深層学習手法であるdeep evidence regression の適用について検討し,既定値による損失予測に適用した。 我々は,weibullプロセスによって生成された対象変数の学習に深部証拠回帰法を拡張し,関連する学習フレームワークを提供することにより,文献に寄与する。 シミュレーションデータと実世界のデータの両方に対する我々のアプローチの応用を実証する。

Machine Learning has invariantly found its way into various Credit Risk applications. Due to the intrinsic nature of Credit Risk, quantifying the uncertainty of the predicted risk metrics is essential, and applying uncertainty-aware deep learning models to credit risk settings can be very helpful. In this work, we have explored the application of a scalable UQ-aware deep learning technique, Deep Evidence Regression and applied it to predicting Loss Given Default. We contribute to the literature by extending the Deep Evidence Regression methodology to learning target variables generated by a Weibull process and provide the relevant learning framework. We demonstrate the application of our approach to both simulated and real-world data.
翻訳日:2023-05-18 19:20:59 公開日:2023-05-17
# 幾何学的量子ディスコード信号非分解

Geometric Quantum Discord Signals Non-Factorization ( http://arxiv.org/abs/2305.04952v2 )

ライセンス: Link先を確認
Souvik Banerjee, Pablo Basteiro, Rathindra Nath Das, Moritz Dorband(参考訳) 本稿では,与えられた量子システムの因子分解特性の指標として,幾何量子ディスコード(gqd)の情報理論量を提案する。 特に,AdS/CFT対応に照らして既知の幾何双対を持つ状態として,一般純状態と熱場二重状態の両方に対して,非消滅不協和関数が分解されないことを示す。 この分析により、アインシュタイン・ローゼン橋の最適純粋古典近似として熱混合二重状態の新たな解釈を与える。 我々は、GQDの非消滅とワームホールマイクロステートの存在を結びつける。

We propose the information-theoretic quantity of geometric quantum discord (GQD) as an indicator of the factorization properties of a given quantum system. In particular, we show how non-vanishing discord implies that the corresponding partition function does not factorize, both for generic pure states and the thermofield double state as a state with a known geometric dual in light of the AdS/CFT correspondence. Via this analysis, we give a novel interpretation to the thermomixed double state as the best purely classical approximation of the Einstein-Rosen bridge. We connect the non-vanishing of GQD with the existence of wormhole microstates.
翻訳日:2023-05-18 19:20:46 公開日:2023-05-17
# DAMO-NLP at SemEval-2023 Task 2: Unified Retrieval-augmented System for Multilingual Named Entity Recognition

DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System for Multilingual Named Entity Recognition ( http://arxiv.org/abs/2305.03688v3 )

ライセンス: Link先を確認
Zeqi Tan, Shen Huang, Zixia Jia, Jiong Cai, Yinghui Li, Weiming Lu, Yueting Zhuang, Kewei Tu, Pengjun Xie, Fei Huang and Yong Jiang(参考訳) MultiCoNER \RNum{2}共有タスクは、細粒度でノイズの多いシナリオで多言語名付きエンティティ認識(NER)に取り組むことを目的としており、MultiCoNER \RNum{1}タスクの意味的曖昧さと低コンテキスト設定を継承する。 これらの問題に対処するため、MultiCoNER \RNum{1} の以前のトップシステムは知識ベースまたはガゼッタを組み込んでいる。 しかし、彼らはまだ知識不足、コンテキストの長さの制限、単一検索戦略に苦しんでいる。 本稿では,超細粒度多言語nerのための統一検索型システム (u-raner) を提案する。 我々は,先行する上位システムでエラー解析を行い,その性能ボトルネックが不十分な知識にあることを明らかにした。 また,文脈長の制限により,検索知識がモデルに見えなくなることが判明した。 検索コンテキストの強化を目的として,エンティティ中心のwikidata知識ベースを取り入れ,モデルのコンテキスト範囲を広げるインフュージョンアプローチを採用している。 また,様々な検索戦略を探求し,検索知識の質を向上する。 当社のsystem\footnote{We will release the dataset, code, and script of our system at {\small \url{https://github.com/modelscope/AdaSeq/tree/master/examples/U-RaNER}}。 MultiCoNER \RNum{2}共有タスクでは、13トラック中9トラックが勝利する。 さらに,多くのタスクにおいて強力な機能を持つ大規模言語モデルの1つであるChatGPTと比較した。 その結果,ChatGPTの抽出作業にはまだ多くの改善の余地があることが示唆された。

The MultiCoNER \RNum{2} shared task aims to tackle multilingual named entity recognition (NER) in fine-grained and noisy scenarios, and it inherits the semantic ambiguity and low-context setting of the MultiCoNER \RNum{1} task. To cope with these problems, the previous top systems in the MultiCoNER \RNum{1} either incorporate the knowledge bases or gazetteers. However, they still suffer from insufficient knowledge, limited context length, single retrieval strategy. In this paper, our team \textbf{DAMO-NLP} proposes a unified retrieval-augmented system (U-RaNER) for fine-grained multilingual NER. We perform error analysis on the previous top systems and reveal that their performance bottleneck lies in insufficient knowledge. Also, we discover that the limited context length causes the retrieval knowledge to be invisible to the model. To enhance the retrieval context, we incorporate the entity-centric Wikidata knowledge base, while utilizing the infusion approach to broaden the contextual scope of the model. Also, we explore various search strategies and refine the quality of retrieval knowledge. Our system\footnote{We will release the dataset, code, and scripts of our system at {\small \url{https://github.com/modelscope/AdaSeq/tree/master/examples/U-RaNER}}.} wins 9 out of 13 tracks in the MultiCoNER \RNum{2} shared task. Additionally, we compared our system with ChatGPT, one of the large language models which have unlocked strong capabilities on many tasks. The results show that there is still much room for improvement for ChatGPT on the extraction task.
翻訳日:2023-05-18 19:20:36 公開日:2023-05-17
# 言語選択の政治--ロシア・ウクライナ戦争がウクライナ語のtwitter利用にどう影響するか

The Politics of Language Choice: How the Russian-Ukrainian War Influences Ukrainians' Language Use on Twitter ( http://arxiv.org/abs/2305.02770v2 )

ライセンス: Link先を確認
Daniel Racek, Brittany I. Davidson, Paul W. Thurner, Xiao Xiang Zhu and G\"oran Kauermann(参考訳) 言語の使用は本質的に政治的であり、しばしば文化的アイデンティティの手段であり、国家建設の基礎である。 ここでは,2020年1月から2022年10月までのロシア・ウクライナ戦争前後の62,000人以上から400万以上の地理的タグ付きツイートに基づいて,ウクライナ市民の言語選択とツイート活動について検討した。 統計的モデルを用いて,twitter上でのユーザの流入と流出から生じるサンプル効果を,ユーザの行動変化から生じる行動的影響から分離する。 我々は、戦争前に既にロシア語からウクライナ語への安定した変化を観察しており、その発生によって劇的に加速している。 これらの変化の大部分は、ユーザの行動の変化によるものです。 注目すべきなのは、ロシアのツイートユーザーの半数以上が、戦争の結果、ウクライナに強引に切り替えていることだ。

The use of language is innately political and often a vehicle of cultural identity as well as the basis for nation building. Here, we examine language choice and tweeting activity of Ukrainian citizens based on more than 4 million geo-tagged tweets from over 62,000 users before and during the Russian-Ukrainian War, from January 2020 to October 2022. Using statistical models, we disentangle sample effects, arising from the in- and outflux of users on Twitter, from behavioural effects, arising from behavioural changes of the users. We observe a steady shift from the Russian language towards the Ukrainian language already before the war, which drastically speeds up with its outbreak. We attribute these shifts in large part to users' behavioural changes. Notably, we find that more than half of the Russian-tweeting users perform a hard-switch to Ukrainian as a result of the war.
翻訳日:2023-05-18 19:19:50 公開日:2023-05-17
# 自分自身を解放する: 自己記憶による検索強化テキスト生成

Lift Yourself Up: Retrieval-augmented Text Generation with Self Memory ( http://arxiv.org/abs/2305.02437v2 )

ライセンス: Link先を確認
Xin Cheng, Di Luo, Xiuying Chen, Lemao Liu, Dongyan Zhao, Rui Yan(参考訳) 人書き参照をメモリとして直接アクセスすることで、検索強化生成は幅広いテキスト生成タスクにおいて大きな進歩を遂げた。 より優れたメモリは、通常、より良いジェネレーション−(プリミティブ問題として定義する)を促す。 メモリ検索の伝統的なアプローチは、入力と最もよく似たメモリを選択することである。 しかし、この方法はメモリが検索される固定コーパスの品質によって制限される。 本稿では,より優れた生成がより良いメモリを誘導する,プライマル問題の双対性を検討することにより,検索型ジェネレータを反復的に使用し,未バウンドメモリプールを作成し,メモリセレクタを用いて1つの出力をメモリとして選択することで,この制限に対処する新しいフレームワークであるselfmemを提案する。 これにより、モデルが自己メモリと呼ばれる独自の出力を活用し、生成を改善することができる。 本研究では,ニューラルマシン翻訳,抽象的テキスト要約,対話生成の3つのタスクにおけるselfmemの有効性を,微調整小モデルと少数ショットllmの2世代パラダイムの下で評価した。 提案手法は, JRC-Acquis, XSum (50.3 ROUGE-1), BigPatent (62.9 ROUGE-1) の4つの方向において, 自己記憶の可能性を示す。 さらに,selfmemフレームワークの各コンポーネントについて詳細な分析を行い,ボトルネックを特定し,今後の研究への洞察を提供する。

With direct access to human-written reference as memory, retrieval-augmented generation has achieved much progress in a wide range of text generation tasks. Since better memory would typically prompt better generation~(we define this as primal problem). The traditional approach for memory retrieval involves selecting memory that exhibits the highest similarity to the input. However, this method is constrained by the quality of the fixed corpus from which memory is retrieved. In this paper, by exploring the duality of the primal problem: better generation also prompts better memory, we propose a novel framework, selfmem, which addresses this limitation by iteratively employing a retrieval-augmented generator to create an unbounded memory pool and using a memory selector to choose one output as memory for the subsequent generation round. This enables the model to leverage its own output, referred to as self-memory, for improved generation. We evaluate the effectiveness of selfmem on three distinct text generation tasks: neural machine translation, abstractive text summarization, and dialogue generation, under two generation paradigms: fine-tuned small model and few-shot LLM. Our approach achieves state-of-the-art results in four directions in JRC-Acquis, XSum (50.3 ROUGE-1), and BigPatent (62.9 ROUGE-1), demonstrating the potential of self-memory in enhancing retrieval-augmented generation models. Furthermore, we conduct thorough analyses of each component in the selfmem framework to identify bottlenecks and provide insights for future research.
翻訳日:2023-05-18 19:19:34 公開日:2023-05-17
# 予習はやめないの? Promptベースのファインチューニングパワーフルラーニング

Don't Stop Pretraining? Make Prompt-based Fine-tuning Powerful Learner ( http://arxiv.org/abs/2305.01711v2 )

ライセンス: Link先を確認
Zhengxiang Shi, Aldo Lipani(参考訳) 言語モデル (LM) は、膨大な量の未ラベルデータに基づいて訓練され、自然言語処理 (NLP) の分野を大きく進歩させた。 本研究では,タスク関連テキストの事前学習を継続するNLPにおける広く受け入れられている概念を再検討し,下流タスクにおける微調整(FT)の性能を向上させる。 8つの単文タスクと8つの文ペアタスクを半教師付きおよび完全教師付き設定の両方で実験した結果、従来の継続前訓練は必ずしも利点を提供しておらず、文ペアタスクやプロンプトベースのftを使用する場合にも有害であることがわかった。 これらの課題に対処するために,従来の継続事前学習とインストラクションチューニングのアイデアを組み合わせたPrompt-based Continued Pre-training (PCP)を提案する。 本手法は,目標タスクを微調整する前に教師なし事前学習目標により,タスク関連テキストとプロンプトテンプレートの両方をlmsに提示することにより,プロンプトベースftの性能を向上させることを目的としている。 21のベンチマークに対する実証的な評価では、PCPは、数百の未実装例であっても、半教師付きおよび完全教師付き設定の両方において、最先端のプロンプトベースのFTアプローチ(最大20.1%の絶対)の性能を一貫して改善することを示した。 さらに、PCPによるプロンプトベースのFTは、最先端の半教師付きアプローチをより単純さで上回り、反復処理や追加データ拡張の必要性を排除している。 さらに,PCPの性能低下を考察し,PCPの利点がモデルやデータセットの異なるサイズで持続していることを明らかにする。

Language models (LMs) trained on vast quantities of unlabelled data have greatly advanced the field of natural language processing (NLP). In this study, we re-visit the widely accepted notion in NLP that continued pre-training LMs on task-related texts improves the performance of fine-tuning (FT) in downstream tasks. Through experiments on eight single-sentence tasks and eight sentence-pair tasks in both semi-supervised and fully-supervised settings, we find that conventional continued pre-training does not consistently provide benefits and can even be detrimental for sentence-pair tasks or when prompt-based FT is used. To tackle these issues, we propose Prompt-based Continued Pre-training (PCP), which combines the idea of instruction tuning with conventional continued pre-training. Our approach aims to improve the performance of prompt-based FT by presenting both task-related texts and prompt templates to LMs through unsupervised pre-training objectives before fine-tuning for the target task. Our empirical evaluations on 21 benchmarks demonstrate that the PCP consistently improves the performance of state-of-the-art prompt-based FT approaches (up to 20.1% absolute) in both semi-supervised and fully-supervised settings, even with only hundreds of unlabelled examples. Additionally, prompt-based FT with the PCP outperforms state-of-the-art semi-supervised approaches with greater simplicity, eliminating the need for an iterative process and extra data augmentation. Our further analysis explores the performance lower bound of the PCP and reveals that the advantages of PCP persist across different sizes of models and datasets.
翻訳日:2023-05-18 19:19:06 公開日:2023-05-17
# 量子可解非線形微分方程式

Quantum Solvable Nonlinear Differential Equations ( http://arxiv.org/abs/2305.00653v2 )

ライセンス: Link先を確認
Yu Tanaka and Keisuke Fujii(参考訳) 量子コンピュータは、様々な産業や科学分野において重要な役割を果たす非線形常微分方程式(ODE)を効率的に解くことができる。 しかし、どの非線形ODEが、どの仮定の下で、量子コンピュータを用いて指数的スピードアップを達成できるかは定かではない。 本研究では,量子コンピュータ上で効率的に解くことができる非線形 ode クラス,量子 solvable ode を導入し,その効率性は ode 内の n 個の変数に対する polylog(n) の計算複雑性で ode を解くことで定義される。 具体的には、Koopman-von-Neumann線型化を用いて、非線型ODEをハミルトン力学に写像し、写像されたハミルトンのノルムが保存され、写像されたハミルトンのノルムがスパースである条件を見つける。 これにより、量子可解ODEをポリログ(N)オーバーヘッドで解くために最適なハミルトンシミュレーション手法を利用できる。 さらに,量子可解 ode は拡張短距離 kuramoto モデルのような幅広い非線形 ode を含むことを示した。 これは指数的量子スピードアップで非線形微分方程式を解く最初の具体例であるため、これらの発見は非線形問題の解法における量子コンピュータの適用に大きく貢献する。

Quantum computers have the potential to efficiently solve nonlinear ordinary differential equations (ODEs), which play a crucial role in various industries and scientific fields. However, it remains unclear which nonlinear ODEs, and under what assumptions, can achieve exponential speedup using a quantum computer. In this work, we introduce a class of nonlinear ODEs, called quantum solvable ODEs, that can be efficiently solved on quantum computers, where the efficiency is defined as solving the ODE with computational complexity of polylog(N) for a number N of variables in ODEs. Specifically, we employ Koopman-von-Neumann linearization to map nonliner ODEs to Hamiltonian dynamics and find conditions where the norm of the mapped Hamiltonian is preserved and the mapped Hamiltonian is sparse. This allows us to use the optimal Hamiltonian simulation technique for solving the quantum solvable ODEs with polylog(N) overhead. We further show that quantum solvable ODEs include a wide range of nonlinear ODEs, such as the extended short-range Kuramoto model. Since this is the first concrete example of solving nonlinear differential equations with exponential quantum speedup, these findings contribute significantly to the application of quantum computers in solving nonlinear problems.
翻訳日:2023-05-18 19:18:36 公開日:2023-05-17
# タンパク複合体不変組込みを有するクロスゲートmlpはワンショット抗体デザイナーである

Cross-Gate MLP with Protein Complex Invariant Embedding is A One-Shot Antibody Designer ( http://arxiv.org/abs/2305.09480v2 )

ライセンス: Link先を確認
Cheng Tan, Zhangyang Gao, Stan Z. Li(参考訳) 抗体は異物や抗原に反応して免疫系によって産生される重要なタンパク質である。 抗体の特異性は、抗体鎖の可変領域に位置し、抗原結合部位を形成する相補性決定領域(cdr)によって決定される。 従来の研究では、複雑な技術を使ってCDRを生成するが、不適切な幾何学的モデリングに悩まされている。 さらに、反復的な洗練戦略は非効率な推論につながる。 本稿では,CDRの1次元配列と3次元構造を1ショットで共設計できる「textit{simple yet effective}」モデルを提案する。 これを実現するために、抗体CDR設計問題を2段階に分離する。 (i)タンパク質複合体構造の幾何学的モデリング及び (ii)シーケンス構造共学習。 我々は、C$\alpha$,N,C,O原子を含むバックボーン原子間の成分間相互作用を捕捉し、包括的幾何学的モデリングを実現する、タンパク質複合体のための新しいマクロ分子構造不変埋め込みを開発する。 そして、シーケンス構造コラーニングのための単純なクロスゲートMLPを導入し、シーケンスと構造表現を暗黙的に洗練させる。 これにより、モデルが所望のシーケンスと構造をワンショットで設計できる。 本モデルが最先端の抗体cdr設計法に比較して優れた性能が得られることを示すため,本研究のシーケンスレベルと構造レベルでの結果を評価するために広範な実験を行った。

Antibodies are crucial proteins produced by the immune system in response to foreign substances or antigens. The specificity of an antibody is determined by its complementarity-determining regions (CDRs), which are located in the variable domains of the antibody chains and form the antigen-binding site. Previous studies have utilized complex techniques to generate CDRs, but they suffer from inadequate geometric modeling. Moreover, the common iterative refinement strategies lead to an inefficient inference. In this paper, we propose a \textit{simple yet effective} model that can co-design 1D sequences and 3D structures of CDRs in a one-shot manner. To achieve this, we decouple the antibody CDR design problem into two stages: (i) geometric modeling of protein complex structures and (ii) sequence-structure co-learning. We develop a novel macromolecular structure invariant embedding, typically for protein complexes, that captures both intra- and inter-component interactions among the backbone atoms, including C$\alpha$, N, C, and O atoms, to achieve comprehensive geometric modeling. Then, we introduce a simple cross-gate MLP for sequence-structure co-learning, allowing sequence and structure representations to implicitly refine each other. This enables our model to design desired sequences and structures in a one-shot manner. Extensive experiments are conducted to evaluate our results at both the sequence and structure level, which demonstrate that our model achieves superior performance compared to the state-of-the-art antibody CDR design methods.
翻訳日:2023-05-18 19:10:58 公開日:2023-05-17
# ニューロシンボリックAIとその分類:サーベイ

Neurosymbolic AI and its Taxonomy: a survey ( http://arxiv.org/abs/2305.08876v2 )

ライセンス: Link先を確認
Wandemberg Gibaut, Leonardo Pereira, Fabio Grassiotto, Alexandre Osorio, Eder Gadioli, Amparo Munoz, Sildolfo Gomes, Claudio dos Santos(参考訳) ニューロシンボリックAIは、古典的なAIやニューラルネットワークといった象徴的な処理を組み合わせたモデルを扱う。 これらのモデルは、データセットとモデルのサイズの増大に代えて、データ分散に関する学習の組み合わせ、事前知識と学習知識に基づく推論、およびそれらを共生的に使用することによって、人工知能(AGI)への取り組みとして現れている。 本調査は,近年,この分野の研究論文を調査し,提示されたモデルと応用モデルの分類・比較を行う。

Neurosymbolic AI deals with models that combine symbolic processing, like classic AI, and neural networks, as it's a very established area. These models are emerging as an effort toward Artificial General Intelligence (AGI) by both exploring an alternative to just increasing datasets' and models' sizes and combining Learning over the data distribution, Reasoning on prior and learned knowledge, and by symbiotically using them. This survey investigates research papers in this area during recent years and brings classification and comparison between the presented models as well as applications.
翻訳日:2023-05-18 19:10:33 公開日:2023-05-17
# モバイルデバイス上でのMLモデルの監視と適応

Monitoring and Adapting ML Models on Mobile Devices ( http://arxiv.org/abs/2305.07772v2 )

ライセンス: Link先を確認
Wei Hao, Zixi Wang, Lauren Hong, Lingxiao Li, Nader Karayanni, Chengzhi Mao, Junfeng Yang, and Asaf Cidon(参考訳) MLモデルは、低レイテンシ推論とオフライン操作のために、ますますモバイルデバイスにプッシュされている。 しかし、一度モデルがデプロイされると、MLオペレーターがその正確性を追跡することは難しく、予測不能に低下する(例えば、データドリフトのため)。 ユーザからのフィードバックを必要とせずに,モバイルデバイス上でモデルを継続的に監視し,適応するための,最初のエンドツーエンドシステムを設計した。 私たちのキーとなる観察は、しばしばモデル劣化は特定の根本原因によるもので、大規模なデバイス群に影響を与える可能性があるということです。 したがって、システムが多数のデバイス間で一貫した劣化を検知すると、根本原因分析を用いて問題の発端を特定し、原因特異的適応を適用する。 2つのコンピュータビジョンデータセット上でシステムを評価し,既存の手法と比較して一貫して精度を高めることを示す。 運転中の車から収集した写真を含むデータセットでは,システムの平均精度が15%向上する。

ML models are increasingly being pushed to mobile devices, for low-latency inference and offline operation. However, once the models are deployed, it is hard for ML operators to track their accuracy, which can degrade unpredictably (e.g., due to data drift). We design the first end-to-end system for continuously monitoring and adapting models on mobile devices without requiring feedback from users. Our key observation is that often model degradation is due to a specific root cause, which may affect a large group of devices. Therefore, once the system detects a consistent degradation across a large number of devices, it employs a root cause analysis to determine the origin of the problem and applies a cause-specific adaptation. We evaluate the system on two computer vision datasets, and show it consistently boosts accuracy compared to existing approaches. On a dataset containing photos collected from driving cars, our system improves the accuracy on average by 15%.
翻訳日:2023-05-18 19:10:21 公開日:2023-05-17
# 条件付きニューラルネットワークによる時空間予測への時間統合のためのジェネリックアプローチ

A Generic Approach to Integrating Time into Spatial-Temporal Forecasting via Conditional Neural Fields ( http://arxiv.org/abs/2305.06827v2 )

ライセンス: Link先を確認
Minh-Thanh Bui, Duc-Thinh Ngo, Demin Lu, and Zonghua Zhang(参考訳) 自律運転ネットワーク(autonomous driving network)は、高効率な時系列予測アルゴリズムを使用して、システムが環境の将来の状態を判断し、時間の経過とともにシステムの振る舞いに影響を及ぼす、自律運転ネットワーク(autonomous driving network)の重要な能力である。 近年,時系列に存在する複雑な時間的・空間的依存関係を利用するために,畳み込みニューラルネットワークあるいはグラフニューラルネットワークを用いた予測アルゴリズムが多数開発されている。 これらの手法は統計的アプローチよりも大きな利点を示してきたが、時系列の時間成分を介して季節パターンを表すグローバルな情報を予測モデルに効果的に組み込んで精度を向上させることが課題である。 本稿では,時間成分を予測モデルに統合する一般的な手法を提案する。 第一の考え方は、時間成分から抽出された補助的特徴を表現するために条件付きニューラルネットワークを使用することで、グローバル情報を得ることであり、レイヤーワイドゲート融合モジュールを介して自己回帰ニューラルネットワークから抽出された局所情報と効果的に結合する。 道路交通とセルラーネットワークトラヒックデータセットに関する広範な実験により,提案手法の有効性が証明された。

Self-awareness is the key capability of autonomous systems, e.g., autonomous driving network, which relies on highly efficient time series forecasting algorithm to enable the system to reason about the future state of the environment, as well as its effect on the system behavior as time progresses. Recently, a large number of forecasting algorithms using either convolutional neural networks or graph neural networks have been developed to exploit the complex temporal and spatial dependencies present in the time series. While these solutions have shown significant advantages over statistical approaches, one open question is to effectively incorporate the global information which represents the seasonality patterns via the time component of time series into the forecasting models to improve their accuracy. This paper presents a general approach to integrating the time component into forecasting models. The main idea is to employ conditional neural fields to represent the auxiliary features extracted from the time component to obtain the global information, which will be effectively combined with the local information extracted from autoregressive neural networks through a layer-wise gated fusion module. Extensive experiments on road traffic and cellular network traffic datasets prove the effectiveness of the proposed approach.
翻訳日:2023-05-18 19:10:07 公開日:2023-05-17
# 大規模言語モデルにおける辞書プロンプト翻訳の連鎖

Chain-of-Dictionary Prompting Elicits Translation in Large Language Models ( http://arxiv.org/abs/2305.06575v2 )

ライセンス: Link先を確認
Hongyuan Lu, Haoyang Huang, Dongdong Zhang, Haoran Yang, Wai Lam, Furu Wei(参考訳) 大規模言語モデル(LLM)は、並列データなしで訓練しても、MNMT(multilingual neural machine translation)において驚くほど優れた性能を示している。 しかし、トレーニングデータの量は巨大であるにもかかわらず、レアな単語、特に低リソース言語への翻訳にはまだ苦労している。 さらに悪いことに、LLM上での低リソース言語によるテキスト内学習に関する関連するデモを検索することは非現実的です。 そこで本研究では,入力単語のサブセットに対する多言語辞書の連鎖により,事前知識を持つllmを増強し,llmの翻訳能力を高める新しい手法であるcodを提案する。 CoDによるChatGPTの拡張は、FLORES-200の完全なテストセット上で、MNMTの13倍のchrF++ポイント(キリル文字で書かれた英語からセルビア語への3.08から42.63)を大きく増加させることを示している。 我々はさらに,多言語辞書の連鎖の重要性と,低リソース言語に対するcodの限定的なデモンストレーションの優位性を実証した。

Large language models (LLMs) have shown surprisingly good performance in multilingual neural machine translation (MNMT) even when trained without parallel data. Yet, despite the fact that the amount of training data is gigantic, they still struggle with translating rare words, particularly for low-resource languages. Even worse, it is usually unrealistic to retrieve relevant demonstrations for in-context learning with low-resource languages on LLMs, which restricts the practical use of LLMs for translation -- how should we mitigate this problem? To this end, we present a novel method, CoD, which augments LLMs with prior knowledge with the chains of multilingual dictionaries for a subset of input words to elicit translation abilities for LLMs. Extensive experiments indicate that augmenting ChatGPT with CoD elicits large gains by up to 13x chrF++ points for MNMT (3.08 to 42.63 for English to Serbian written in Cyrillic script) on FLORES-200 full devtest set. We further demonstrate the importance of chaining the multilingual dictionaries, as well as the superiority of CoD to few-shot demonstration for low-resource languages.
翻訳日:2023-05-18 19:09:50 公開日:2023-05-17
# 多目的最適化のための逆強化学習の収束の証明

A proof of convergence of inverse reinforcement learning for multi-objective optimization ( http://arxiv.org/abs/2305.06137v2 )

ライセンス: Link先を確認
Akira Kitaoka, Riki Eto(参考訳) 本稿では,多目的最適化問題の逆問題を定式化することにより,多目的最適化に対するワッサーシュタイン逆強化学習の収束性を示す。 さらに,勾配降下を伴う逆強化学習(最大エントロピー逆強化学習,誘導コスト学習)と射影劣勾配法との収束を証明した。

We show the convergence of Wasserstein inverse reinforcement learning for multi-objective optimizations with the projective subgradient method by formulating an inverse problem of the multi-objective optimization problem. In addition, we prove convergence of inverse reinforcement learning (maximum entropy inverse reinforcement learning, guided cost learning) with gradient descent and the projective subgradient method.
翻訳日:2023-05-18 19:09:28 公開日:2023-05-17
# 知識グラフ補完モデルと学習者 : LLMを用いたeコマースにおける関係ラベルの実証的研究

Knowledge Graph Completion Models are Few-shot Learners: An Empirical Study of Relation Labeling in E-commerce with LLMs ( http://arxiv.org/abs/2305.09858v1 )

ライセンス: Link先を確認
Jiao Chen, Luyi Ma, Xiaohan Li, Nikhil Thakurdesai, Jianpeng Xu, Jason H.D. Cho, Kaushiki Nag, Evren Korpeoglu, Sushant Kumar, Kannan Achan(参考訳) 知識グラフ(KG)は、商品や製品タイプ間の補完的あるいは置換可能な関係など、エンティティとそれらの関係に関する構造化情報を提供することで、eコマースシステムのパフォーマンスを向上させる上で重要な役割を果たす。 しかしながら、KGsにおけるリレーショナルラベリングは、eコマースドメインの動的な性質と関連する人的労働コストのため、依然として困難な課題である。 近年,多数の自然言語処理タスクにおいて,LLM(Large Language Models)のブレークスルーが驚くべき結果を示している。 本稿では,eコマースKGにおけるリレーショナルラベリングのためのLLMの実証的研究を行い,自然言語の強力な学習能力と,限定ラベル付きデータを用いた製品タイプ間の関係予測の有効性について検討する。 palm や gpt-3.5 を含む様々な llm をベンチマークデータセット上で評価し,関係ラベリングタスクにおける人間と比較して,その競合性能を達成する能力を示す。 さらに、モデル性能への影響を調べるために、異なるプロンプトエンジニアリング手法を実験する。 以上の結果から,LLMは電子商取引KGのリレーショナルラベリングにおいて既存のKG完成モデルよりも大幅に優れており,人間のラベリングに取って代わるほど高い性能を示した。

Knowledge Graphs (KGs) play a crucial role in enhancing e-commerce system performance by providing structured information about entities and their relationships, such as complementary or substitutable relations between products or product types, which can be utilized in recommender systems. However, relation labeling in KGs remains a challenging task due to the dynamic nature of e-commerce domains and the associated cost of human labor. Recently, breakthroughs in Large Language Models (LLMs) have shown surprising results in numerous natural language processing tasks. In this paper, we conduct an empirical study of LLMs for relation labeling in e-commerce KGs, investigating their powerful learning capabilities in natural language and effectiveness in predicting relations between product types with limited labeled data. We evaluate various LLMs, including PaLM and GPT-3.5, on benchmark datasets, demonstrating their ability to achieve competitive performance compared to humans on relation labeling tasks using just 1 to 5 labeled examples per relation. Additionally, we experiment with different prompt engineering techniques to examine their impact on model performance. Our results show that LLMs significantly outperform existing KG completion models in relation labeling for e-commerce KGs and exhibit performance strong enough to replace human labeling.
翻訳日:2023-05-18 18:14:31 公開日:2023-05-17
# CoEdIT:タスク特化インストラクションチューニングによるテキスト編集

CoEdIT: Text Editing by Task-Specific Instruction Tuning ( http://arxiv.org/abs/2305.09857v1 )

ライセンス: Link先を確認
Vipul Raheja, Dhruv Kumar, Ryan Koo, Dongyeop Kang(参考訳) テキスト編集や改訂は、人間の筆記プロセスの重要な機能である。 高品質なリビジョンと人間ライターとのコラボレーションのためのLCMの能力を理解することは、効果的な筆記アシスタントを構築するための重要なステップである。 LLMの先行的な成功とインストラクションチューニングにより、ユーザ生成テキストの品質を向上し、プロセスの効率を向上させるために、テキストリビジョンのための命令調整 LLM を活用する。 本稿では,文章作成支援のための最先端テキスト編集モデルであるCoEdITを紹介する。 CoEdIT は "Make the sentence simple" や "Write it in a more neutral style" といった所望のテキストの属性を指定するユーザからの指示を受け、編集されたテキストを出力する。 本稿では,テキスト編集のためのタスク特化命令群(合計82k命令)を微調整した大規模言語モデルを提案する。 本モデル(1)は,様々なテキスト編集ベンチマークにおいて最先端のパフォーマンスを達成し,(2)命令でトレーニングされた最大最大サイズのllmと競合するが,$\sim$60x小さく,(3)未認識の編集命令に一般化でき,(4)編集動作の異なる組合せを含む命令に一般化する合成理解能力を示す。 定性的かつ定量的な分析により、他の最先端テキスト編集モデルと比較して、著者はCoEdITが提案する編集を好むことを示す。 コードとデータセットは公開されています。

Text editing or revision is an essential function of the human writing process. Understanding the capabilities of LLMs for making high-quality revisions and collaborating with human writers is a critical step toward building effective writing assistants. With the prior success of LLMs and instruction tuning, we leverage instruction-tuned LLMs for text revision to improve the quality of user-generated text and improve the efficiency of the process. We introduce CoEdIT, a state-of-the-art text editing model for writing assistance. CoEdIT takes instructions from the user specifying the attributes of the desired text, such as "Make the sentence simpler" or "Write it in a more neutral style," and outputs the edited text. We present a large language model fine-tuned on a diverse collection of task-specific instructions for text editing (a total of 82K instructions). Our model (1) achieves state-of-the-art performance on various text editing benchmarks, (2) is competitive with publicly available largest-sized LLMs trained on instructions while being $\sim$60x smaller, (3) is capable of generalizing to unseen edit instructions, and (4) exhibits compositional comprehension abilities to generalize to instructions containing different combinations of edit actions. Through extensive qualitative and quantitative analysis, we show that writers prefer the edits suggested by CoEdIT, relative to other state-of-the-art text editing models. Our code and dataset are publicly available.
翻訳日:2023-05-18 18:14:04 公開日:2023-05-17
# 機械学習とキーワード認識型クロスエンコーダ・ランキング要約器による自然言語テキストの意味的類似度測定 - UCGIS GIS&T知識を用いたケーススタディ

Semantic Similarity Measure of Natural Language Text through Machine Learning and a Keyword-Aware Cross-Encoder-Ranking Summarizer -- A Case Study Using UCGIS GIS&T Body of Knowledge ( http://arxiv.org/abs/2305.09877v1 )

ライセンス: Link先を確認
Yuanyuan Tian, Wenwen Li, Sizhe Wang, Zhining Gu(参考訳) 地理情報科学大学コンソーシアム(ucgis)によって始められたgis&t知識体(bok)は、地理情報科学および技術(gis&t)に関連する地理空間トピックを定義し、開発し、文書化するためのコミュニティ主導の取り組みである。 近年、GIS&T BoKは、トピックの再編成とコンテンツの更新に関して、厳格な発展を遂げており、プロジェクトの新しいデジタルバージョンを生み出している。 BoKトピックは、研究者や学生がGISについて学ぶ上で有用な資料を提供する一方で、意味的類似性などのトピック間の意味的関係も、より優れた自動トピックナビゲーションを実現するために識別する必要がある。 現在、関連するトピックは編集者または著者によって手動で定義されており、トピック間の関係を不完全に評価する可能性がある。 この課題に対処するため、本研究では、深層ニューラルネットワークと従来の機械学習アプローチを含むテキストから意味を抽出する上で、複数自然言語処理(NLP)技術の有効性を評価する。 また、科学出版物のセマンティック要約を生成するために、新しいテキスト要約KACERS(Keyword-Aware Cross-Encoder-Ranking Summarizer)を提案する。 主要なトピックのセマンティックリンクを識別することにより、GIS&T BoKプロジェクトの今後の開発とコンテンツ組織のためのガイダンスを提供する。 また、科学論文の分析における機械学習技術の利用に関する新たな視点を提供し、長いテキスト文書の意味理解におけるkacers summaryrの可能性を示す。

Initiated by the University Consortium of Geographic Information Science (UCGIS), GIS&T Body of Knowledge (BoK) is a community-driven endeavor to define, develop, and document geospatial topics related to geographic information science and technologies (GIS&T). In recent years, GIS&T BoK has undergone rigorous development in terms of its topic re-organization and content updating, resulting in a new digital version of the project. While the BoK topics provide useful materials for researchers and students to learn about GIS, the semantic relationships among the topics, such as semantic similarity, should also be identified so that a better and automated topic navigation can be achieved. Currently, the related topics are either defined manually by editors or authors, which may result in an incomplete assessment of topic relationship. To address this challenge, our research evaluates the effectiveness of multiple natural language processing (NLP) techniques in extracting semantics from text, including both deep neural networks and traditional machine learning approaches. Besides, a novel text summarization - KACERS (Keyword-Aware Cross-Encoder-Ranking Summarizer) - is proposed to generate a semantic summary of scientific publications. By identifying the semantic linkages among key topics, this work provides guidance for future development and content organization of the GIS&T BoK project. It also offers a new perspective on the use of machine learning techniques for analyzing scientific publications, and demonstrate the potential of KACERS summarizer in semantic understanding of long text documents.
翻訳日:2023-05-18 18:04:15 公開日:2023-05-17
# 非構造キャニオンにおける遠隔運転における制御入力インタフェースを用いた運転行動生成モデルによるシミュレーション

Generative Model-based Simulation of Driver Behavior when Using Control Input Interface for Teleoperated Driving in Unstructured Canyon Terrains ( http://arxiv.org/abs/2305.09874v1 )

ライセンス: Link先を確認
Hyeonggeun Yun, Younggeol Cho, Jinwon Lee, Arim Ha, Jihyeok Yun(参考訳) 無人地上車両(UGV)は、主に遠隔操作によって運用される。 非構造化環境で安定した遠隔操作を可能にするために、いくつかの研究は、コストがかかり、多くの時間と労力を要するユーザー研究を伴う運転支援と評価方法を提案している。 シミュレーションモデルに基づくアプローチがユーザ研究を補完するために提案されているが、遠隔運転のモデルは非構造化環境を考慮しない。 提案手法は,深部生成モデルを用いた運転者のための遠隔運転シミュレーションモデルである。 まず,先行研究に基づいて非構造化環境を模倣し,ドライバから運転データを収集するための遠隔操作型運転シミュレータを構築した。 次に,条件付き変分オートエンコーダ(CVAE)に基づくシミュレーションモデルの設計と実装を行う。 提案手法は,非構造キャニオン地形において,ドライバを適切にシミュレートしてデータを生成することができることを示す。

Unmanned ground vehicles (UGVs) in unstructured environments mostly operate through teleoperation. To enable stable teleoperated driving in unstructured environments, some research has suggested driver assistance and evaluation methods that involve user studies, which can be costly and require lots of time and effort. A simulation model-based approach has been proposed to complement the user study; however, the models on teleoperated driving do not account for unstructured environments. Our proposed solution involves simulation models of teleoperated driving for drivers that utilize a deep generative model. Initially, we build a teleoperated driving simulator to imitate unstructured environments based on previous research and collect driving data from drivers. Then, we design and implement the simulation models based on a conditional variational autoencoder (CVAE). Our evaluation results demonstrate that the proposed teleoperated driving model can generate data by simulating the driver appropriately in unstructured canyon terrains.
翻訳日:2023-05-18 18:03:44 公開日:2023-05-17
# 量子コンピュータ上でのテッセラック時間結晶の形成

Formation of Tesseract Time Crystals on a Quantum Computer ( http://arxiv.org/abs/2305.09872v1 )

ライセンス: Link先を確認
Christopher Sims(参考訳) フロケ駆動による新しい物質状態の工学は、凝縮物質物理学の分野に革命をもたらした。 この技術は、通常のシステムにないハイブリッドトポロジカル状態と秩序相の生成を可能にする。 周期駆動下での空間秩序系を例示する結晶構造が広く研究されている。 しかし、最近の焦点は、特定の条件下で時間変換対称性を破る周期的に駆動される量子多体系である離散時間結晶(dtcs)へと移っている。 本稿では,量子コンピュータ上でのDTCの利用の理論的予測,実験的実現,および新たな可能性について検討する。 さらに、離散時間結晶を用いた時間変化テッセラクトの形成を示し、高次元格子系における時間変換対称性の研究を可能にする。

The engineering of new states of matter through Floquet driving has revolutionized the field of condensed matter physics. This technique enables the creation of hybrid topological states and ordered phases that are absent in normal systems. Crystalline structures, exemplifying spatially ordered systems under periodic driving, have been extensively studied. However, the recent focus has shifted towards discrete time crystals (DTCs), periodically driven quantum many-body systems that break time translation symmetry under specific conditions. In this paper, we explore the theoretical predictions, experimental realizations, and emerging possibilities of utilizing DTCs on quantum computers. Additionally, the formation of time varying tesseracts using discrete time crystals is presented, allowing for the investigation of time translational symmetry in higher-dimensional lattice systems.
翻訳日:2023-05-18 18:03:29 公開日:2023-05-17
# シリコン上の電気駆動カーボンナノチューブ型プラズモニックレーザー

An electrically-driven Carbon nanotube-based plasmonic laser on Silicon ( http://arxiv.org/abs/2305.09871v1 )

ライセンス: Link先を確認
Ke Liu, Behrouz Movahhed Nouri, Elham Heidari, Hamed Dalir and Volker J. Sorger(参考訳) フォトニック信号処理は、高変調帯域を持つ効率的なオンチップ光源を必要とする。 今日では、従来の高速半導体ダイオードレーザーは、圧縮効果と寄生電気容量のため、数GHzの順序で変調速度を示すのみである。 ここでは、シリコンフォトニック結晶ナノビーム(PCNB)キャビティへのモノリシック集積による強力な光物質相互作用を利用した電気駆動型カーボンナノチューブ(CNT)レーザーについて述べる。 レーザーは、一次元PCNBキャビティに埋め込まれたプラズモン金属-酸化物-半導体ハイブリッドモードの両方からなるコンボキャビティ内の単層CNTによって形成される。 放射は、Cバンドの整合性に応じて静電ドープされたナノチューブのバンド間再結合に由来する。 シミュレーション結果から,レーザは通信周波数で動作し,出力が3(100)uw以上,変調速度が100(1000)ghz以下で1x(10x)しきい値で動作していることが分かった。 このようなモノリシックな統合スキームは、将来のフォトニクス集積回路において、光源に代替可能なアプローチを提供する。

Photonic signal processing requires efficient on-chip light sources with higher modulation bandwidths. Todays conventional fastest semiconductor diode lasers exhibit modulation speeds only on the order of a few tens of GHz due to gain compression effects and parasitic electrical capacitances. Here we theoretically show an electrically-driven Carbon nanotube (CNT)-based laser utilizing strong light-matter-interaction via monolithic integration into Silicon photonic crystal nanobeam (PCNB) cavities. The laser is formed by single-walled CNTs inside a combo-cavity consisting of both a plasmonic metal-oxide-semiconductor hybrid mode embedded in the one dimensional PCNB cavity. The emission originates from interband recombinations of electrostatically-doped nanotubes depending on the tubes chirality towards matching the C-band. Our simulation results show that the laser operates at telecom frequencies resulting in a power output > 3 (100) uW and > 100 (1000)GHz modulation speed at 1x (10x) threshold. Such monolithic integration schemes provide an alternative promising approach for light source in future photonics integrated circuits.
翻訳日:2023-05-18 18:03:18 公開日:2023-05-17
# リンク信号予測のための線形最適化による符号付きサブグラフ符号化手法

A Signed Subgraph Encoding Approach via Linear Optimization for Link Sign Prediction ( http://arxiv.org/abs/2305.09869v1 )

ライセンス: Link先を確認
Zhihong Fang and Shaolin Tan and Yaonan Wang(参考訳) 本稿では,署名ネットワークにおける限定的な符号データに基づいて,リンクの符号を推測する問題を考える。 このリンクサイン予測問題に関して、SDGNN(Signed Directed Graph Neural Networks)は、現在私たちの知る限り最高の予測性能を提供する。 本稿では,最先端アルゴリズムであるsdgnnと比較し,全体的な先行予測性能を得るための,異なるリンク符号予測アーキテクチャであるselo (subgraph encoding via linear optimization)を提案する。 提案モデルでは,符号付き有向ネットワークのエッジ埋め込み学習にサブグラフ符号化手法を用いる。 特に、符号付きサブグラフ符号化手法を導入し、線形最適化法により、各サブグラフを隣接行列の代わりに確率行列に埋め込む。 評価指標として, auc, f1, micro-f1, macro-f1を用いた6つの実世界の署名ネットワークを用いた総合実験を行った。 実験の結果,提案手法は6つの実世界ネットワークと4つの評価指標すべてにおいて,既存の基本機能ベース手法と組込みベース手法に勝ることがわかった。

In this paper, we consider the problem of inferring the sign of a link based on limited sign data in signed networks. Regarding this link sign prediction problem, SDGNN (Signed Directed Graph Neural Networks) provides the best prediction performance currently to the best of our knowledge. In this paper, we propose a different link sign prediction architecture call SELO (Subgraph Encoding via Linear Optimization), which obtains overall leading prediction performances compared the state-of-the-art algorithm SDGNN. The proposed model utilizes a subgraph encoding approach to learn edge embeddings for signed directed networks. In particular, a signed subgraph encoding approach is introduced to embed each subgraph into a likelihood matrix instead of the adjacency matrix through a linear optimization method. Comprehensive experiments are conducted on six real-world signed networks with AUC, F1, micro-F1, and Macro-F1 as the evaluation metrics. The experiment results show that the proposed SELO model outperforms existing baseline feature-based methods and embedding-based methods on all the six real-world networks and in all the four evaluation metrics.
翻訳日:2023-05-18 18:03:02 公開日:2023-05-17
# 不確定な最大エントロピーの原理

The Principle of Uncertain Maximum Entropy ( http://arxiv.org/abs/2305.09868v1 )

ライセンス: Link先を確認
Kenneth Bogert, Matthew Kothe(参考訳) 情報理論においてジェインズが導入した最大エントロピーの原理は、統計力学、機械学習、生態学といった様々な分野の進歩に貢献した。 結果として得られる解は触媒となり、研究者は経験的な観察を偏りのないモデル獲得にマッピングし、複雑なシステムや現象の理解を深める。 しかし、ノイズや眼球閉塞などのモデル要素が直接観測できない状況を考えると、特徴制約に合致しないため、標準的な最大エントロピーアプローチが失敗する可能性がある。 ここでは,不確実な最大エントロピーの原理を,いくつかのアドホックな手法の精度を超越しながら,任意のノイズを観測しながら,利用可能な情報を符号化する手法として示す。 さらに,ブラックボックス機械学習モデルの出力を不確定な最大エントロピーモデルへの入力として活用し,観測関数が利用できないシナリオに対する新しいアプローチを提案する。 以前の修正では、観測誤差の計算時に特徴的制約を緩和するか、ゼロ平均ガウス型のようなよく特性化された誤差を与えられたか、観察によって与えられた最も可能性の高いモデル要素を単に選択するかのどちらかであった。 従来の最大エントロピー法を一般化し,不確実な観測を活用できるため,様々な分野の幅広い応用が期待できる。

The principle of maximum entropy, as introduced by Jaynes in information theory, has contributed to advancements in various domains such as Statistical Mechanics, Machine Learning, and Ecology. Its resultant solutions have served as a catalyst, facilitating researchers in mapping their empirical observations to the acquisition of unbiased models, whilst deepening the understanding of complex systems and phenomena. However, when we consider situations in which the model elements are not directly observable, such as when noise or ocular occlusion is present, possibilities arise for which standard maximum entropy approaches may fail, as they are unable to match feature constraints. Here we show the Principle of Uncertain Maximum Entropy as a method that both encodes all available information in spite of arbitrarily noisy observations while surpassing the accuracy of some ad-hoc methods. Additionally, we utilize the output of a black-box machine learning model as input into an uncertain maximum entropy model, resulting in a novel approach for scenarios where the observation function is unavailable. Previous remedies either relaxed feature constraints when accounting for observation error, given well-characterized errors such as zero-mean Gaussian, or chose to simply select the most likely model element given an observation. We anticipate our principle finding broad applications in diverse fields due to generalizing the traditional maximum entropy method with the ability to utilize uncertain observations.
翻訳日:2023-05-18 18:02:43 公開日:2023-05-17
# Jaseciプログラミングパラダイムとランタイムスタック: スケールアウトされたプロダクションアプリケーションの構築は簡単かつ高速

The Jaseci Programming Paradigm and Runtime Stack: Building Scale-out Production Applications Easy and Fast ( http://arxiv.org/abs/2305.09864v1 )

ライセンス: Link先を確認
jason Mars, Yiping Kang, Roland Daynauth, Baichuan Li, Ashish Mahendra, Krisztian Flautner, Lingjia tang(参考訳) 今日のプロダクションスケールアウトアプリケーションは、ストレージバックエンド、ロギングインフラストラクチャ、aiモデルなど、多くのサブアプリケーションコンポーネントを含んでいる。 これらのコンポーネントは、大きく異なる特性を持ち、コラボレーションや相互インターフェースをマイクロサービスとして必要としています。 これにより、スケールアウトアプリケーションの開発、最適化、構成、デプロイにおける複雑さが増し、ほとんどの個人や小さなチームにとって参入障壁が高まる。 我々は,この複雑さを減らすことを目的とした,新しいランタイムシステムJaseciとプログラミング言語Jacを開発した。 jaseciの設計全体において重要な設計原則は、スケールアウトデータ管理、マイクロサービスのコンポーネント化、ライブアップデートの複雑さをランタイムスタックに移し、自動化と最適化を自動的に行うことで、抽象化のレベルを上げることである。 実世界のAIアプリケーションを使用して、アプリケーションパフォーマンスと開発者の生産性に対するJaseciのメリットを示しています。

Today's production scale-out applications include many sub-application components, such as storage backends, logging infrastructure and AI models. These components have drastically different characteristics, are required to work in collaboration, and interface with each other as microservices. This leads to increasingly high complexity in developing, optimizing, configuring, and deploying scale-out applications, raising the barrier to entry for most individuals and small teams. We developed a novel co-designed runtime system, Jaseci, and programming language, Jac, which aims to reduce this complexity. The key design principle throughout Jaseci's design is to raise the level of abstraction by moving as much of the scale-out data management, microservice componentization, and live update complexity into the runtime stack to be automated and optimized automatically. We use real-world AI applications to demonstrate Jaseci's benefit for application performance and developer productivity.
翻訳日:2023-05-18 18:02:19 公開日:2023-05-17
# 自然言語におけるブラックボックステキストモジュールと言語モデル

Explaining black box text modules in natural language with language models ( http://arxiv.org/abs/2305.09863v1 )

ライセンス: Link先を確認
Chandan Singh, Aliyah R. Hsu, Richard Antonello, Shailee Jain, Alexander G. Huth, Bin Yu, Jianfeng Gao(参考訳) 大規模言語モデル (LLM) は,タスクの増大に対して顕著な予測性能を示した。 しかし、その急速な増殖と不透明さの増大は、解釈可能性の必要性を高めている。 ここでは、ブラックボックステキストモジュールの自然言語説明を自動取得できるかどうかを問う。 テキストモジュール(text module)は、llm内のサブモジュールや脳領域の適合モデルなど、テキストをスカラー連続値にマッピングする関数である。 ブラックボックス"は、モジュールの入出力のみにアクセス可能であることを示している。 本稿では,テキストモジュールを取り込み,モジュールの選択性に関する自然言語説明と,その説明がどの程度信頼できるかを示すスコアを返す方法であるsumer and score (sasc)を提案する。 我々はSASCを3つの文脈で研究した。 まず, 合成モジュール上でSASCを評価し, 多くの場合, 基礎的真理説明を復元する。 第二に、SASCを用いて、事前訓練されたBERTモデル内のモジュールを説明し、モデルの内部の検査を可能にする。 最後に、sscは言語刺激に対する個々のfmriボクセルの反応の説明を生成できることを示し、脳の詳細なマッピングへの応用の可能性を示した。 SASCの使用と結果の再生に関するすべてのコードはGithubで公開されている。

Large language models (LLMs) have demonstrated remarkable prediction performance for a growing array of tasks. However, their rapid proliferation and increasing opaqueness have created a growing need for interpretability. Here, we ask whether we can automatically obtain natural language explanations for black box text modules. A "text module" is any function that maps text to a scalar continuous value, such as a submodule within an LLM or a fitted model of a brain region. "Black box" indicates that we only have access to the module's inputs/outputs. We introduce Summarize and Score (SASC), a method that takes in a text module and returns a natural language explanation of the module's selectivity along with a score for how reliable the explanation is. We study SASC in 3 contexts. First, we evaluate SASC on synthetic modules and find that it often recovers ground truth explanations. Second, we use SASC to explain modules found within a pre-trained BERT model, enabling inspection of the model's internals. Finally, we show that SASC can generate explanations for the response of individual fMRI voxels to language stimuli, with potential applications to fine-grained brain mapping. All code for using SASC and reproducing results is made available on Github.
翻訳日:2023-05-18 18:02:01 公開日:2023-05-17
# Epsilon Smpling Rocks: 機械翻訳における最小ベイズリスクデコードのためのサンプリング戦略の調査

Epsilon Sampling Rocks: Investigating Sampling Strategies for \\Minimum Bayes Risk Decoding for Machine Translation ( http://arxiv.org/abs/2305.09860v1 )

ライセンス: Link先を確認
Markus Freitag and Behrooz Ghorbani and Patrick Fernandes(参考訳) 機械翻訳(MT)の最近の進歩は、最小ベイズリスク(MBR)復号化がビーム探索復号法(特にニューラルベースユーティリティ関数と組み合わせた場合)の強力な代替となることを示している。 しかし、MBR復号法の性能は、モデルからどれだけの候補をサンプリングするかに大きく依存する。 本稿では,MBR復号化のための候補リストを生成するための異なるサンプリング手法が性能に与える影響について検討する。 我々は,祖先,核,トップkサンプリングなどの一般的なサンプリング手法を評価する。 それらの限界に対する洞察に基づいて、我々は最近提案されたエプシロンサンプリングアプローチを実験し、全てのトークンをエプシロンよりも小さい確率で掘り起こし、サンプルの各トークンが公正な確率質量を受け取ることを保証した。 エプシロンサンプリングに基づくmbrデコーディングは,人間による広範囲な評価により,ビーム探索デコーディングのみならず,他の4つの言語ペアをまたいだmbrデコード手法においても有意に優れていることが示された。

Recent advances in machine translation (MT) have shown that Minimum Bayes Risk (MBR) decoding can be a powerful alternative to beam search decoding, especially when combined with neural-based utility functions. However, the performance of MBR decoding depends heavily on how and how many candidates are sampled from the model. In this paper, we explore how different sampling approaches for generating candidate lists for MBR decoding affect performance. We evaluate popular sampling approaches, such as ancestral, nucleus, and top-k sampling. Based on our insights into their limitations, we experiment with the recently proposed epsilon-sampling approach, which prunes away all tokens with a probability smaller than epsilon, ensuring that each token in a sample receives a fair probability mass. Through extensive human evaluations, we demonstrate that MBR decoding based on epsilon-sampling significantly outperforms not only beam search decoding, but also MBR decoding with all other tested sampling methods across four language pairs.
翻訳日:2023-05-18 18:01:43 公開日:2023-05-17
# より小さな言語モデルはブラックボックスマシン生成テキスト検出器より優れている

Smaller Language Models are Better Black-box Machine-Generated Text Detectors ( http://arxiv.org/abs/2305.09859v1 )

ライセンス: Link先を確認
Fatemehsadat Mireshghallah, Justus Mattern, Sicun Gao, Reza Shokri, Taylor Berg-Kirkpatrick(参考訳) 人間が書いたものと非常によく似た説得力のある発話を生成できる流麗な生成言語モデルが出現すると、テキストが機械によって生成されたか、あるいは人間が書いたかの区別がより困難で重要になり、そのようなモデルは誤った情報や偽ニュース、偽レビュー、特定の著者や人物を模倣するために使われる。 この目的のために、マシン生成テキストを検出する手法が数多く提案されている。 これらのメソッドの多くは、ターゲットモデルのロジットにアクセスするか、ターゲットからサンプリングする機能を必要とする。 そのようなブラックボックス検出方法の1つは、生成したテキストが生成者の可能性関数の下で局所的に最適であるという観察に依存している。 全体として、より小さく、部分的に訓練されたモデルは、より普遍的なテキスト検出器として、より正確に、小モデルと大モデルの両方から生成されたテキストを検出できる。 興味深いことに、検出器とジェネレータが同じデータで訓練されたかどうかは、検出の成功にとって重要ではない。 例えば、OPT-125Mモデルは、ChatGPT世代を検出するのにAUCが0.81であり、GPTファミリーのGPTJ-6BはAUCが0.45である。

With the advent of fluent generative language models that can produce convincing utterances very similar to those written by humans, distinguishing whether a piece of text is machine-generated or human-written becomes more challenging and more important, as such models could be used to spread misinformation, fake news, fake reviews and to mimic certain authors and figures. To this end, there have been a slew of methods proposed to detect machine-generated text. Most of these methods need access to the logits of the target model or need the ability to sample from the target. One such black-box detection method relies on the observation that generated text is locally optimal under the likelihood function of the generator, while human-written text is not. We find that overall, smaller and partially-trained models are better universal text detectors: they can more precisely detect text generated from both small and larger models. Interestingly, we find that whether the detector and generator were trained on the same data is not critically important to the detection success. For instance the OPT-125M model has an AUC of 0.81 in detecting ChatGPT generations, whereas a larger model from the GPT family, GPTJ-6B, has AUC of 0.45.
翻訳日:2023-05-18 18:01:22 公開日:2023-05-17
# 抽象要約における語彙と意味品質のバランス

Balancing Lexical and Semantic Quality in Abstractive Summarization ( http://arxiv.org/abs/2305.09898v1 )

ライセンス: Link先を確認
Jeewoo Sul and Yong Suk Choi(参考訳) 抽象的要約に広く使われているシーケンスからシーケンスまでのニューラルモデルの重要な問題は、露出バイアスである。 この問題を緩和するため、近年では再ランクシステムも適用されている。 いくつかの性能改善にもかかわらず、このアプローチは未検討のままである。 以前の作品では、ほとんどがルージュスコアと候補要約によるランクを指定するが、語彙重複度と意味的類似度の間には、かなり大きなギャップがある。 本稿では,リランカが語彙と意味的品質のバランスをとる新しいトレーニング手法を提案する。 さらに,ランキングにおける偽陽性を新たに定義し,その影響を減らすための戦略を提案する。 CNN/DailyMail および XSum データセットを用いた実験により,語彙的側面を著しく劣化させることなく要約の意味を推定できることを示した。 具体的には、CNN/DailyMailデータセットで89.67 BERTScoreを達成し、新しい最先端パフォーマンスを実現する。 私たちのコードはhttps://github.com/jeewoo1025/BalSumで公開されています。

An important problem of the sequence-to-sequence neural models widely used in abstractive summarization is exposure bias. To alleviate this problem, re-ranking systems have been applied in recent years. Despite some performance improvements, this approach remains underexplored. Previous works have mostly specified the rank through the ROUGE score and aligned candidate summaries, but there can be quite a large gap between the lexical overlap metric and semantic similarity. In this paper, we propose a novel training method in which a re-ranker balances the lexical and semantic quality. We further newly define false positives in ranking and present a strategy to reduce their influence. Experiments on the CNN/DailyMail and XSum datasets show that our method can estimate the meaning of summaries without seriously degrading the lexical aspect. More specifically, it achieves an 89.67 BERTScore on the CNN/DailyMail dataset, reaching new state-of-the-art performance. Our code is publicly available at https://github.com/jeewoo1025/BalSum.
翻訳日:2023-05-18 17:55:21 公開日:2023-05-17
# 補足分類器による部分ラベル学習

Complementary Classifier Induced Partial Label Learning ( http://arxiv.org/abs/2305.09897v1 )

ライセンス: Link先を確認
Yuheng Jia, Chongjie Si, Min-ling Zhang(参考訳) 部分ラベル学習(PLL)では、各トレーニングサンプルは候補ラベルのセットに関連付けられ、そのうち1つのみが有効である。 PLLの中核は、候補ラベルを曖昧にし、基幹となるものを取得することである。 曖昧さの解消において、既存の著作物は通常、サンプルに属さないラベルの集合を正確に示す非候補ラベルセット(つまり補完ラベル)の有効性を完全には調査しない。 本稿では,非候補ラベルを用いて補完的分類器を誘導し,従来のPLL分類器との対角関係を自然に形成し,候補ラベルの偽陽性ラベルを除去する。 さらに、特徴空間とラベル空間は、動的グラフによってキャプチャされた同じ局所位相構造を共有し、曖昧さを補助するためにそれを利用する。 4つの制御されたUCIデータセットと6つの実世界のデータセットに対する最先端のPLL手法に対する提案手法の優位性を検証し,PLLにおける補完学習の有用性を明らかにする。 コードはhttps://github.com/Chongjie-Si/PL-CLにリンクされている。

In partial label learning (PLL), each training sample is associated with a set of candidate labels, among which only one is valid. The core of PLL is to disambiguate the candidate labels to get the ground-truth one. In disambiguation, the existing works usually do not fully investigate the effectiveness of the non-candidate label set (a.k.a. complementary labels), which accurately indicates a set of labels that do not belong to a sample. In this paper, we use the non-candidate labels to induce a complementary classifier, which naturally forms an adversarial relationship against the traditional PLL classifier, to eliminate the false-positive labels in the candidate label set. Besides, we assume the feature space and the label space share the same local topological structure captured by a dynamic graph, and use it to assist disambiguation. Extensive experimental results validate the superiority of the proposed approach against state-of-the-art PLL methods on 4 controlled UCI data sets and 6 real-world data sets, and reveal the usefulness of complementary learning in PLL. The code has been released in the link https://github.com/Chongjie-Si/PL-CL.
翻訳日:2023-05-18 17:55:05 公開日:2023-05-17
# 勾配クリッピング・通信圧縮による分散非凸最適化の収束性とプライバシ

Convergence and Privacy of Decentralized Nonconvex Optimization with Gradient Clipping and Communication Compression ( http://arxiv.org/abs/2305.09896v1 )

ライセンス: Link先を確認
Boyue Li, Yuejie Chi(参考訳) 分散機械学習における通信効率の達成は、アルゴリズム設計の効果的な技術として認識され、大きな注目を集めている。 本稿では,通信圧縮を伴う分散非凸最適化における一般的な戦略である勾配クリッピングの役割を理解するための第一歩を踏み出す。 そこで,従来のPortER-DPではガウス摂動による局所的な差分プライバシー解析が可能であり,後者ではトレーニングの安定化に寄与する。 拘束的境界勾配仮定を仮定することなく収束保証を確立する新しい解析フレームワークを開発する。 我々の知る限りでは、我々の研究は勾配クリッピングと通信圧縮による分散非凸最適化のための最初の収束解析を提供し、収束率、圧縮率、ネットワーク接続性、プライバシの間のトレードオフを強調する。

Achieving communication efficiency in decentralized machine learning has been attracting significant attention, with communication compression recognized as an effective technique in algorithm design. This paper takes a first step to understand the role of gradient clipping, a popular strategy in practice, in decentralized nonconvex optimization with communication compression. We propose PORTER, which considers two variants of gradient clipping added before or after taking a mini-batch of stochastic gradients, where the former variant PORTER-DP allows local differential privacy analysis with additional Gaussian perturbation, and the latter variant PORTER-GC helps to stabilize training. We develop a novel analysis framework that establishes their convergence guarantees without assuming the stringent bounded gradient assumption. To the best of our knowledge, our work provides the first convergence analysis for decentralized nonconvex optimization with gradient clipping and communication compression, highlighting the trade-offs between convergence rate, compression ratio, network connectivity, and privacy.
翻訳日:2023-05-18 17:54:44 公開日:2023-05-17
# RuLa:ルールセットベースの量子リピータのためのプログラミング言語

RuLa: A Programming Language for RuleSet-based Quantum Repeaters ( http://arxiv.org/abs/2305.09895v1 )

ライセンス: Link先を確認
Ryosuke Satoh(参考訳) 量子リピータはスケーラブルな量子ネットワークにとって重要な技術である。 量子リピータに関する重要な課題の1つは、遠い量子コンピュータに対して量子エンタングルメントを提供する方法の管理である。 我々は、リピータを管理するための分散的な方法である RuleSet アーキテクチャに焦点を当てている。 ルールセットの概念は、柔軟性と非同期操作のため、将来の量子リピータのための量子リピータの管理をスケールアップするように設計されているが、まだ定義のコンセプトレベルであり、生のルールセットを定義するのは非常に困難である。 本稿では,ルールセットを直感的で一貫性のある方法で記述するために,RuLaという新しいプログラミング言語を導入する。 rula氏がルールセットとルールを定義する方法は、ルールセットとルールセットの実行方法と非常に似ています。 ルールセットがRuLaでどのように定義されているかと、コンパイルの出力が何であるかの例を示します。 我々はまた、この言語の将来のユースケースと応用についても論じた。

Quantum Repeaters are one critical technology for scalable quantum networking. One of the key challenges regarding quantum repeaters is their management of how they provide quantum entanglement for distant quantum computers. We focus on the RuleSet architecture, which is a decentralized way to manage repeaters. The RuleSet concept is designed to scale up the management of quantum repeaters for future quantum repeaters, suitable because of its flexibility and asynchronous operation, however, it is still at the conceptual level of definition and it is very hard to define raw RuleSets. In this thesis, we introduce a new programming language, called "RuLa", to write the RuleSets in an intuitive and coherent way. The way RuLa defines RuleSet and Rule is very similar to how the Rule and RuleSets are executed so that the programmer can construct the RuleSets the way they want repeaters to execute them. We provide some examples of how the RuleSets are defined in RuLa and what is the output of the compilation. We also discussed future use cases and applications of this language.
翻訳日:2023-05-18 17:54:27 公開日:2023-05-17
# リモートセンシング画像の非対称性領域適応セグメンテーションのための複数音源知識の統合

Integrating Multiple Sources Knowledge for Class Asymmetry Domain Adaptation Segmentation of Remote Sensing Images ( http://arxiv.org/abs/2305.09893v1 )

ライセンス: Link先を確認
Kuiliang Gao, Anzhu Yu, Xiong You, Wenyue Guo, Ke Li, Ningbo Huang(参考訳) リモートセンシング画像(RSI)セマンティックセグメンテーションのための既存の教師なし領域適応(UDA)法では、クラス対称性は、ソースとターゲットのRSIが全く同じクラス空間を持つ、広く従う理想的な仮定である。 しかし実際には、ターゲットのRSIと全く同じクラスを持つソースRSIを見つけることは、しばしば困難である。 より一般的には、複数のソースRSIが利用可能である。 この目的のために,4つの鍵成分からなる複数のソースを持つ新しいクラス非対称性RSIドメイン適応法を提案する。 まず、複数のブランチセグメンテーションネットワークを構築し、各ソースRSIの専門家を学習する。 次に、各ソースとターゲットペアのドメイン適応を達成しつつ、各ソースのクラス情報を補完するクロスドメイン混合戦略を用いた新しい協調学習手法を提案する。 第3に、異なる専門家の強度を効果的に組み合わせる擬似ラベル生成戦略が提案され、ソースクラスユニオンがターゲットクラスセットと等しいか、あるいは含んでいる2つのケースに柔軟に適用できる。 第4に,マルチビュー対応の知識統合モジュールを開発し,複数のドメインから予測対象への知識ルーティングと転送を行う。

In the existing unsupervised domain adaptation (UDA) methods for remote sensing images (RSIs) semantic segmentation, class symmetry is an widely followed ideal assumption, where the source and target RSIs have exactly the same class space. In practice, however, it is often very difficult to find a source RSI with exactly the same classes as the target RSI. More commonly, there are multiple source RSIs available. To this end, a novel class asymmetry RSIs domain adaptation method with multiple sources is proposed in this paper, which consists of four key components. Firstly, a multi-branch segmentation network is built to learn an expert for each source RSI. Secondly, a novel collaborative learning method with the cross-domain mixing strategy is proposed, to supplement the class information for each source while achieving the domain adaptation of each source-target pair. Thirdly, a pseudo-label generation strategy is proposed to effectively combine strengths of different experts, which can be flexibly applied to two cases where the source class union is equal to or includes the target class set. Fourthly, a multiview-enhanced knowledge integration module is developed for the high-level knowledge routing and transfer from multiple domains to target predictions.
翻訳日:2023-05-18 17:54:11 公開日:2023-05-17
# 教師なし文表現のためのクラスタリング対応否定サンプリング

Clustering-Aware Negative Sampling for Unsupervised Sentence Representation ( http://arxiv.org/abs/2305.09892v1 )

ライセンス: Link先を確認
Jinghao Deng and Fanqi Wan and Tao Yang and Xiaojun Quan and Rui Wang(参考訳) 対照学習は文表現学習において広く研究されている。 しかし、初期の研究は主に正の例の構築に焦点が当てられ、バッチ内のサンプルはしばしば単に負の例として扱われる。 このアプローチは適切なネガティブな例を選択することの重要性を見落とし、ハードネガティブの不足と偽陰性の含みにつながる可能性がある。 そこで本研究では,教師なし文表現学習のためのコントラスト学習にクラスタ情報を組み込む新しい手法であるclusterns (clustering-aware negative sampling)を提案する。 1つの統一フレームワークにおける2つの問題を解決するために,修正k-meansクラスタリングアルゴリズムを適用し,ハードネガの供給とトレーニング中のバッチ内偽ネガの認識を行う。 意味的テキスト類似性(STS)タスクの実験により,提案したClusterNSは教師なし文表現学習のベースラインと良好に比較できることを示した。 私たちのコードは公開されています。

Contrastive learning has been widely studied in sentence representation learning. However, earlier works mainly focus on the construction of positive examples, while in-batch samples are often simply treated as negative examples. This approach overlooks the importance of selecting appropriate negative examples, potentially leading to a scarcity of hard negatives and the inclusion of false negatives. To address these issues, we propose ClusterNS (Clustering-aware Negative Sampling), a novel method that incorporates cluster information into contrastive learning for unsupervised sentence representation learning. We apply a modified K-means clustering algorithm to supply hard negatives and recognize in-batch false negatives during training, aiming to solve the two issues in one unified framework. Experiments on semantic textual similarity (STS) tasks demonstrate that our proposed ClusterNS compares favorably with baselines in unsupervised sentence representation learning. Our code has been made publicly available.
翻訳日:2023-05-18 17:53:50 公開日:2023-05-17
# ss-bsn:非局所的自己相似性を有する自己教師付き発声のための注意盲点ネットワーク

SS-BSN: Attentive Blind-Spot Network for Self-Supervised Denoising with Nonlocal Self-Similarity ( http://arxiv.org/abs/2305.09890v1 )

ライセンス: Link先を確認
Young-Joo Han and Ha-Jin Yu(参考訳) 近年,教師付き学習に基づく画像分類法に関する研究が数多く行われている。 しかし、これらの手法は大規模ノイズクリーン画像対に依存しており、実際は入手が困難である。 雑音画像のみを訓練できる自己教師付き訓練による雑音除去手法が提案されている。 これらの手法は畳み込みニューラルネットワーク(CNN)に基づいており、有望な性能を示している。 しかし、CNNに基づく手法は、従来の手法に不可欠な非局所的な自己相似性を考慮しない。 本稿では,非局所的自己相似性を捉える新しい自己相似性モジュールである自己相似性注意(ss-attention)を提案する。 我々は,空間分解能の複雑さが2次的に増大しているため,従来の自己保持モジュールを用いて実装することがほぼ不可能な,軽量な自己保持モジュールをピクセル単位で設計することに注力する。 さらに、SS-Attentionを自己相似性に基づく盲点ネットワーク(SS-BSN)と呼ぶ盲点ネットワークに統合する。 実世界のイメージデノゲーションタスクについて実験を行った。 提案手法は,スマートフォン画像デノージングデータセット(sidd)とダルムシュタットノイズデータセット(dnd)ベンチマークデータセットの自己教師付きデノージングにおいて,定量的かつ質的に最先端手法を上回っている。

Recently, numerous studies have been conducted on supervised learning-based image denoising methods. However, these methods rely on large-scale noisy-clean image pairs, which are difficult to obtain in practice. Denoising methods with self-supervised training that can be trained with only noisy images have been proposed to address the limitation. These methods are based on the convolutional neural network (CNN) and have shown promising performance. However, CNN-based methods do not consider using nonlocal self-similarities essential in the traditional method, which can cause performance limitations. This paper presents self-similarity attention (SS-Attention), a novel self-attention module that can capture nonlocal self-similarities to solve the problem. We focus on designing a lightweight self-attention module in a pixel-wise manner, which is nearly impossible to implement using the classic self-attention module due to the quadratically increasing complexity with spatial resolution. Furthermore, we integrate SS-Attention into the blind-spot network called self-similarity-based blind-spot network (SS-BSN). We conduct the experiments on real-world image denoising tasks. The proposed method quantitatively and qualitatively outperforms state-of-the-art methods in self-supervised denoising on the Smartphone Image Denoising Dataset (SIDD) and Darmstadt Noise Dataset (DND) benchmark datasets.
翻訳日:2023-05-18 17:53:34 公開日:2023-05-17
# 大規模グラフ上の分散ニューラルネットワークトレーニングの簡略化 - ランダム分割によるモデルアグリゲーションの改善

Simplifying Distributed Neural Network Training on Massive Graphs: Randomized Partitions Improve Model Aggregation ( http://arxiv.org/abs/2305.09887v1 )

ライセンス: Link先を確認
Jiong Zhu, Aishwarya Reganti, Edward Huang, Charles Dickens, Nikhil Rao, Karthik Subbian, Danai Koutra(参考訳) GNNの分散トレーニングは、単一のマシンのストレージと計算能力を超える巨大なグラフ(例えば、ソーシャルおよびeコマースネットワーク)の学習を可能にする。 集中型トレーニングに匹敵するパフォーマンスを達成するために、分散フレームワークは、インスタンス間の通信や集中型トレーニングへの定期的なフォールバックによる、クロスインスタンスのノード依存性の最大回復にフォーカスしている。 本研究では,従来のコスト処理に頼らず,スケーラビリティ,収束速度,性能を改良した分散GNNトレーニングフレームワークを提案する。 具体的には,(1)訓練グラフの局所的な部分の局所的なモデルを非同期に学習する独立したトレーナーを組み立て,(2)局所的なモデルを同期するために周期的な(時間に基づく)モデルアグリゲーションのみを実行する。 私たちのフレームワークは、モデルアグリゲーションと集中型トレーニングの間のパフォーマンスギャップを埋める鍵と考えられてきたクロスインスタンスノード依存性の回復を最大化する代わりに、ノードやスーパーノード(すなわち元のノードのコレクション)のランダムな割り当てを活用して、トレーニンググラフを分割することで、データの均一性を改善し、インスタンス間の勾配と損失関数の差を最小限にする。 最大13億エッジのソーシャルおよびeコマースネットワークに関する実験では、トレーニングデータが少ないにもかかわらず、RandomTMAとSuperTMAのアプローチが最先端のパフォーマンスと2.31倍のスピードアップを達成した。

Distributed training of GNNs enables learning on massive graphs (e.g., social and e-commerce networks) that exceed the storage and computational capacity of a single machine. To reach performance comparable to centralized training, distributed frameworks focus on maximally recovering cross-instance node dependencies with either communication across instances or periodic fallback to centralized training, which create overhead and limit the framework scalability. In this work, we present a simplified framework for distributed GNN training that does not rely on the aforementioned costly operations, and has improved scalability, convergence speed and performance over the state-of-the-art approaches. Specifically, our framework (1) assembles independent trainers, each of which asynchronously learns a local model on locally-available parts of the training graph, and (2) only conducts periodic (time-based) model aggregation to synchronize the local models. Backed by our theoretical analysis, instead of maximizing the recovery of cross-instance node dependencies -- which has been considered the key behind closing the performance gap between model aggregation and centralized training -- , our framework leverages randomized assignment of nodes or super-nodes (i.e., collections of original nodes) to partition the training graph such that it improves data uniformity and minimizes the discrepancy of gradient and loss function across instances. In our experiments on social and e-commerce networks with up to 1.3 billion edges, our proposed RandomTMA and SuperTMA approaches -- despite using less training data -- achieve state-of-the-art performance and 2.31x speedup compared to the fastest baseline, and show better robustness to trainer failures.
翻訳日:2023-05-18 17:53:08 公開日:2023-05-17
# 視覚トランスフォーマーとそのcnnトランスフォーマーに基づく変種に関する調査

A survey of the Vision Transformers and its CNN-Transformer based Variants ( http://arxiv.org/abs/2305.09880v1 )

ライセンス: Link先を確認
Asifullah Khan, Zunaira Rauf, Anabia Sohail, Abdul Rehman, Hifsa Asif, Aqsa Asif, and Umair Farooq(参考訳) 視覚トランスフォーマーは最近、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワーク(cnns)の代替として人気を博した。 これらのビジョントランスフォーマーは、画像内のグローバルな関係に焦点を合わせる能力が大きいが、CNNと比較して一般化が不十分になる可能性がある。 近年,視覚変換器における畳み込みと自己認識機構のハイブリッド化が注目されている。 これらのcnn-transformerアーキテクチャはハイブリッドビジョントランスフォーマーとしても知られ、視覚応用において顕著な結果を示している。 近年、これらのハイブリッド視覚トランスフォーマーが急速に増えているため、これらのアーキテクチャの分類と説明が必要である。 本調査では,近年のビジョントランスフォーマーアーキテクチャの分類,特にハイブリッドビジョントランスフォーマーの分類について述べる。 さらに,注意機構,位置埋め込み,マルチスケール処理,畳み込みといった各アーキテクチャの重要な特徴についても述べる。 この調査は、様々なコンピュータビジョンタスクにおいて優れた性能を達成するためのハイブリッドビジョントランスフォーマーの可能性を強調している。 さらに、この急速に発展する分野の今後の方向性も指している。

Vision transformers have recently become popular as a possible alternative to convolutional neural networks (CNNs) for a variety of computer vision applications. These vision transformers due to their ability to focus on global relationships in images have large capacity, but may result in poor generalization as compared to CNNs. Very recently, the hybridization of convolution and self-attention mechanisms in vision transformers is gaining popularity due to their ability of exploiting both local and global image representations. These CNN-Transformer architectures also known as hybrid vision transformers have shown remarkable results for vision applications. Recently, due to the rapidly growing number of these hybrid vision transformers, there is a need for a taxonomy and explanation of these architectures. This survey presents a taxonomy of the recent vision transformer architectures, and more specifically that of the hybrid vision transformers. Additionally, the key features of each architecture such as the attention mechanisms, positional embeddings, multi-scale processing, and convolution are also discussed. This survey highlights the potential of hybrid vision transformers to achieve outstanding performance on a variety of computer vision tasks. Moreover, it also points towards the future directions of this rapidly evolving field.
翻訳日:2023-05-18 17:52:37 公開日:2023-05-17
# 統合フォトニックシステムにおける任意のn-光子状態の決定論的生成

Deterministic generation of arbitrary n-photon states in an integrated photonic system ( http://arxiv.org/abs/2305.09878v1 )

ライセンス: Link先を確認
Fan Xing, Zeyang Liao, and Xue-hua Wang(参考訳) 量子光源は量子情報科学の様々な面で重要な役割を果たすが、容易に統合できる任意の多光子状態のオンデマンド高効率生成は依然として困難である。 本稿では,導波路モードによって媒介されるエミッタ間の長距離集団相互作用に基づいて,非常に忠実度の高いn光子群を決定論的に生成するチップ統合方式を提案する。 n光子は束の中で放出されるが、2つの連続したn光子バンドルは、n光子銃として振る舞うことができる反束される傾向がある。 この結果から,フォトニックチップを用いた量子情報処理や量子計測などの分野において重要な応用が得られている。

Quantum light sources play a vital role in various aspects of quantum information science, but on-demand high-efficient generation of arbitrary multiphoton states which can be easily integrated is still challenging. Here, we propose a chip-integrable scheme to deterministically generate a group of n photons with very high fidelity based on the long-range collective interaction between the emitters mediated by the waveguide modes. The n photons are shown to be emitted in a bundle while two successive n-photon bundles tend to be antibunched which can behave as an n-photon gun. Our results here can find important applications in the areas such as photonic-chip-based quantum information processing and quantum metrology.
翻訳日:2023-05-18 17:52:19 公開日:2023-05-17
# 確率的推論としてのモデルベース検証

Model-based Validation as Probabilistic Inference ( http://arxiv.org/abs/2305.09930v1 )

ライセンス: Link先を確認
Harrison Delecki, Anthony Corso, Mykel J. Kochenderfer(参考訳) 障害の分布を見積もることは、自律システムを検証する上で重要なステップだ。 既存のアプローチでは、少数の初期条件に対する障害の発見や、テスト中のシステムの特性に関する限定的な仮定に重点を置いている。 逐次システムの故障軌道上の分布をベイズ推定として推定する。 モデルに基づくアプローチは,システムダイナミクスのロールアウトを用いた故障軌道上の分布を表現し,自動微分による軌道勾配の計算を行う。 本手法は, 逆振子制御システム, 自律走行シナリオ, 部分的に観測可能な月面着陸機で実証された。 複数の鎖を持つハミルトン・モンテカルロの既製の実装を用いてサンプリングを行い、安全な軌道に対して多モード性および勾配平滑化を捉える。 すべての実験において,ブラックボックスベースラインアプローチと比較して試料効率とパラメータ空間のカバレッジが向上した。 この作業はオープンソースである。

Estimating the distribution over failures is a key step in validating autonomous systems. Existing approaches focus on finding failures for a small range of initial conditions or make restrictive assumptions about the properties of the system under test. We frame estimating the distribution over failure trajectories for sequential systems as Bayesian inference. Our model-based approach represents the distribution over failure trajectories using rollouts of system dynamics and computes trajectory gradients using automatic differentiation. Our approach is demonstrated in an inverted pendulum control system, an autonomous vehicle driving scenario, and a partially observable lunar lander. Sampling is performed using an off-the-shelf implementation of Hamiltonian Monte Carlo with multiple chains to capture multimodality and gradient smoothing for safe trajectories. In all experiments, we observed improvements in sample efficiency and parameter space coverage compared to black-box baseline approaches. This work is open sourced.
翻訳日:2023-05-18 17:45:00 公開日:2023-05-17
# Tinto:地球科学における3次元ハイパースペクトル点雲セグメンテーションのためのマルチセンサベンチマーク

Tinto: Multisensor Benchmark for 3D Hyperspectral Point Cloud Segmentation in the Geosciences ( http://arxiv.org/abs/2305.09928v1 )

ライセンス: Link先を確認
Ahmed J. Afifi, Samuel T. Thiele, Sandra Lorenz, Pedram Ghamisi, Raimon Tolosana-Delgado, Moritz Kirsch, Richard Gloaguen, Michael Heizmann(参考訳) 深層学習技術の利用の増加は解釈時間を短縮し、理想的には、デジタルアウトクロップモデルから地質図を自動的に抽出することで、インタプリタバイアスを低減させる。 しかし,これらの自動マッピング手法の正確な検証は,地質図の主観的性質と量的検証データの収集が困難であることから,大きな課題となっている。 さらに、最先端のディープラーニング手法の多くは、2d画像データに限定されており、ハイパークラウドのような3dデジタル露光には不十分である。 これらの課題に対処するため、Tintoは、特にポイントクラウドのような非構造化の3Dデータに対して、地質マッピングのためのディープラーニングアプローチの開発と検証を容易にするために設計された、マルチセンサーのデジタルアウトクロップデータセットである。 ティントは2つの相補集合から成る。 1)corta atalaya (spain) によるスペクトル特性と地表面データを用いた実デジタル露頭モデル 2 原データセットの潜伏特徴を利用した合成双生児で、地上から現実的なスペクトルデータ(センサノイズや加工品を含む)を再構成する。 点雲は密度が高く、3,242,964個のラベル付き点がある。 我々はこれらのデータセットを用いて、地質図の自動作成のための異なるディープラーニングアプローチの能力を探索した。 Tintoを一般公開することで、地球科学における3Dアプリケーションのための新しいディープラーニングツールの開発と適応を後押ししたいと考えています。 データセットは、このリンクを通じてアクセスすることができる。

The increasing use of deep learning techniques has reduced interpretation time and, ideally, reduced interpreter bias by automatically deriving geological maps from digital outcrop models. However, accurate validation of these automated mapping approaches is a significant challenge due to the subjective nature of geological mapping and the difficulty in collecting quantitative validation data. Additionally, many state-of-the-art deep learning methods are limited to 2D image data, which is insufficient for 3D digital outcrops, such as hyperclouds. To address these challenges, we present Tinto, a multi-sensor benchmark digital outcrop dataset designed to facilitate the development and validation of deep learning approaches for geological mapping, especially for non-structured 3D data like point clouds. Tinto comprises two complementary sets: 1) a real digital outcrop model from Corta Atalaya (Spain), with spectral attributes and ground-truth data, and 2) a synthetic twin that uses latent features in the original datasets to reconstruct realistic spectral data (including sensor noise and processing artifacts) from the ground-truth. The point cloud is dense and contains 3,242,964 labeled points. We used these datasets to explore the abilities of different deep learning approaches for automated geological mapping. By making Tinto publicly available, we hope to foster the development and adaptation of new deep learning tools for 3D applications in Earth sciences. The dataset can be accessed through this link: https://doi.org/10.14278/rodare.2256.
翻訳日:2023-05-18 17:44:46 公開日:2023-05-17
# CageViT: 進化的アクティベーションガイドによる高能率ビジョントランス

CageViT: Convolutional Activation Guided Efficient Vision Transformer ( http://arxiv.org/abs/2305.09924v1 )

ライセンス: Link先を確認
Hao Zheng, Jinbao Wang, Xiantong Zhen, Hong Chen, Jingkuan Song, Feng Zheng(参考訳) 近年、トランスフォーマーは視覚および言語モデリングタスクのゴートアーキテクチャとして登場しているが、その計算効率は入力シーケンスの長さによって制限されている。 これに対処するため、性能を維持しつつ計算を加速したりメモリ消費を減らすために、いくつかの効率的な変種が提案されている。 本稿では,コンボリューション・アクティベーション(畳み込み)によって導かれる,計算量を減らす効率的な視覚トランスフォーマーであるcasagevitを提案する。 私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。 1) 畳み込みアクティベーション(畳み込みアクティベーション)は、画像にパッチを当てた後にトークンを前処理し、主要なトークンとマイナートークンを選択・再配置することで、追加の融合層による計算コストを大幅に削減する。 2) 畳み込みモデルのクラスアクティベーションマップを直接使用する代わりに,モデルの要件を低くするために,新たな重み付けされたクラスアクティベーションを設計する。 3) 主要トークンと融合トークンの通信を容易にするため, 融合トークンを注意機構に統合するために, Gated Linear SRAを提案する。 画像分類におけるCageViTの総合的検証を行う。 実験の結果、提案されたCageViTは最新の最先端のバックボーンよりも効率の面で優れており、同等の精度を維持している(例えば、224 x 224 ImageNet-1Kでのみトレーニングされた中程度の43.35Mモデルは、83.4%の精度でトップ1の精度を達成できる)。

Recently, Transformers have emerged as the go-to architecture for both vision and language modeling tasks, but their computational efficiency is limited by the length of the input sequence. To address this, several efficient variants of Transformers have been proposed to accelerate computation or reduce memory consumption while preserving performance. This paper presents an efficient vision Transformer, called CageViT, that is guided by convolutional activation to reduce computation. Our CageViT, unlike current Transformers, utilizes a new encoder to handle the rearranged tokens, bringing several technical contributions: 1) Convolutional activation is used to pre-process the token after patchifying the image to select and rearrange the major tokens and minor tokens, which substantially reduces the computation cost through an additional fusion layer. 2) Instead of using the class activation map of the convolutional model directly, we design a new weighted class activation to lower the model requirements. 3) To facilitate communication between major tokens and fusion tokens, Gated Linear SRA is proposed to further integrate fusion tokens into the attention mechanism. We perform a comprehensive validation of CageViT on the image classification challenge. Experimental results demonstrate that the proposed CageViT outperforms the most recent state-of-the-art backbones by a large margin in terms of efficiency, while maintaining a comparable level of accuracy (e.g. a moderate-sized 43.35M model trained solely on 224 x 224 ImageNet-1K can achieve Top-1 accuracy of 83.4% accuracy).
翻訳日:2023-05-18 17:44:20 公開日:2023-05-17
# 解釈・対処可能な強化学習方針のための遺伝的ファジィシステム

A Genetic Fuzzy System for Interpretable and Parsimonious Reinforcement Learning Policies ( http://arxiv.org/abs/2305.09922v1 )

ライセンス: Link先を確認
Jordan T. Bishop, Marcus Gallagher, Will N. Browne(参考訳) 強化学習(Reinforcement Learning、RL)は、長年にわたって学習分類システム(Learning Classifier Systems、LCS)が適用されてきた研究分野の復活である。 しかし、伝統的なミシガンのアプローチは、標準的な迷路を超えてドメインの解釈や拡張が難しい大きなルールベースを進化させる傾向がある。 ピッツバーグ・ジェネティック・ファジィ・システム(Fizzy MoCoCo)は、多目的・協調的共進化機構を利用して、RL環境におけるファジィ規則に基づくポリシーを進化させる。 システムの多目的性は、ポリシーのパフォーマンスと複雑さに関するものです。 連続状態RL環境であるマウンテンカーは,提案システムのテストベッドとして使用されている。 その結果、システムは、ポリシーのパフォーマンスと複雑さの間のトレードオフを効果的に探求し、可能な限りルールが少ない解釈可能でハイパフォーマンスなポリシーを学習できることが示されました。

Reinforcement learning (RL) is experiencing a resurgence in research interest, where Learning Classifier Systems (LCSs) have been applied for many years. However, traditional Michigan approaches tend to evolve large rule bases that are difficult to interpret or scale to domains beyond standard mazes. A Pittsburgh Genetic Fuzzy System (dubbed Fuzzy MoCoCo) is proposed that utilises both multiobjective and cooperative coevolutionary mechanisms to evolve fuzzy rule-based policies for RL environments. Multiobjectivity in the system is concerned with policy performance vs. complexity. The continuous state RL environment Mountain Car is used as a testing bed for the proposed system. Results show the system is able to effectively explore the trade-off between policy performance and complexity, and learn interpretable, high-performing policies that use as few rules as possible.
翻訳日:2023-05-18 17:43:50 公開日:2023-05-17
# just-in-time adaptive interventionsにおけるrl法におけるコンテキスト推論誤差と部分可観測性の影響評価

Assessing the Impact of Context Inference Error and Partial Observability on RL Methods for Just-In-Time Adaptive Interventions ( http://arxiv.org/abs/2305.09913v1 )

ライセンス: Link先を確認
Karine Karine, Predrag Klasnja, Susan A. Murphy, Benjamin M. Marlin(参考訳) ジャスト・イン・タイム・アダプティブ・インターベンション(Just-in-Time Adaptive Interventions, JITAI)は、行動科学コミュニティ内で開発されたパーソナライズされた健康介入のクラスである。 JITAIは、各個人の時間変化状況に応じて、事前に定義されたコンポーネントセットから介入オプションのシーケンスを反復的に選択することで、適切なタイプとサポート量を提供することを目指している。 本研究では,強化学習手法の学習介入オプション選択ポリシー問題への適用について検討する。 コンテキスト推論の誤りと部分的可観測性が効果的なポリシーを学習する能力に与える影響について検討する。 この結果から,文脈不確かさが増大するにつれて介入効果を向上させるためには,文脈推論からの不確かさの伝播が重要であり,一方,政策勾配アルゴリズムは部分的に観察された行動状態情報に対して顕著な堅牢性をもたらすことが示唆された。

Just-in-Time Adaptive Interventions (JITAIs) are a class of personalized health interventions developed within the behavioral science community. JITAIs aim to provide the right type and amount of support by iteratively selecting a sequence of intervention options from a pre-defined set of components in response to each individual's time varying state. In this work, we explore the application of reinforcement learning methods to the problem of learning intervention option selection policies. We study the effect of context inference error and partial observability on the ability to learn effective policies. Our results show that the propagation of uncertainty from context inferences is critical to improving intervention efficacy as context uncertainty increases, while policy gradient algorithms can provide remarkable robustness to partially observed behavioral state information.
翻訳日:2023-05-18 17:43:34 公開日:2023-05-17
# ユニタリ結合型クラスターダウンフォールディングフォーマリズムの精度に及ぼす高速励起の影響

Impact of high-rank excitations on accuracy of the unitary coupled cluster downfolding formalism ( http://arxiv.org/abs/2305.09911v1 )

ライセンス: Link先を確認
Karol Kowalski, Bo Peng, Nicholas P. Bauman(参考訳) 本稿では,H6 および H8 ベンチマークシステム上での 2 つのユニタリ結合クラスタ Ansatz (DUCC) を用いた下降手順のエルミート形式の精度を評価する。 計算基盤は、職業数表現符号を用いて任意の第二量子化作用素の行列表現を構築し、様々な作用素の指数関数の正確な表現を可能にする。 実験では,sr-cc法(single-reference coupled cluster method)から推定される外部励起を用いて,高次sr-cc外部振幅が強相関状態のエネルギーを適切に記述するために必要であることを実証した。 このアプローチは、対応するエネルギーの変動特性を失うことに関連するsr-cc理論の問題を相殺できることを示す。

In this paper, we evaluate the accuracy of the Hermitian form of the downfolding procedure utilizing the double unitary coupled cluster Ansatz (DUCC) on the H6 and H8 benchmark systems. The computational infrastructure employs the occupation-number-representation codes to construct the matrix representation of arbitrary second-quantized operators, enabling the exact representation of exponentials of various operators. The tests utilize external excitations estimated from standard single-reference coupled cluster methods (SR-CC) to demonstrate that higher-rank SR-CC external amplitudes were necessary to describe the energies in the strongly correlated regime adequately. We show that this approach can offset problems of the corresponding SR-CC theories associated with losing the variational character of corresponding energies.
翻訳日:2023-05-18 17:43:19 公開日:2023-05-17
# 財務・医療におけるストリーミング分析を用いたインクリメンタルアウトレーラ検出モデル

Incremental Outlier Detection Modelling Using Streaming Analytics in Finance & Health Care ( http://arxiv.org/abs/2305.09907v1 )

ライセンス: Link先を確認
Ch Priyanka, Vivek(参考訳) 本稿では,ストリーミング環境下でオンライン外乱検出アルゴリズムを用いて,段階的に構築するオンラインモデルを構築した。 ストリーミングデータに取り組むためには,ストリーミングモデルが必要不可欠であることを確認した。 本研究の目的は,実環境に適用可能なストリーミングモデルの重要性を考察し,分析することにある。 本研究では,一クラスサポートベクターマシン(oc-svm),アイソレーションフォレスト適応スライディングウィンドウアプローチ(iforest asd),厳密なストーム,アングルベースアウトリアー検出(abod),局所アウトリアー係数(lof),kitnet,kn asdメソッドなど,様々なアウトリアー検出アルゴリズムを構築した。 クレジットカード不正検出,チャーン予測,ethereum不正予測などの金融問題に対する,上記のモデルの有効性と妥当性について検討した。 さらに, 心拍数予測, 糖尿病予測, および心拍数予測問題など, 医療予測問題におけるモデルの性能についても分析した。 結果とデータセットによると、非常に不均衡なデータセットに対してうまく機能し、負のクラスが多数存在し、少数派が正のクラスとなる。 すべてのモデルの中で、アンサンブルモデル戦略IForest ASDモデルは、ほとんどのケースで上位3モデルに立つ場合において、ほぼすべてのケースでより良いパフォーマンスを示した。

In this paper, we had built the online model which are built incrementally by using online outlier detection algorithms under the streaming environment. We identified that there is highly necessity to have the streaming models to tackle the streaming data. The objective of this project is to study and analyze the importance of streaming models which is applicable in the real-world environment. In this work, we built various Outlier Detection (OD) algorithms viz., One class Support Vector Machine (OC-SVM), Isolation Forest Adaptive Sliding window approach (IForest ASD), Exact Storm, Angle based outlier detection (ABOD), Local outlier factor (LOF), KitNet, KNN ASD methods. The effectiveness and validity of the above-built models on various finance problems such as credit card fraud detection, churn prediction, ethereum fraud prediction. Further, we also analyzed the performance of the models on the health care prediction problems such as heart stroke prediction, diabetes prediction and heart stroke prediction problems. As per the results and dataset it shows that it performs well for the highly imbalanced datasets that means there is a majority of negative class and minority will be the positive class. Among all the models, the ensemble model strategy IForest ASD model performed better in most of the cases standing in the top 3 models in almost all of the cases.
翻訳日:2023-05-18 17:43:07 公開日:2023-05-17
# 線形活性化を持つ単一隠れ層ニューラルネットワークの勾配流れの iss 特性について

On the ISS Property of the Gradient Flow for Single Hidden-Layer Neural Networks with Linear Activations ( http://arxiv.org/abs/2305.09904v1 )

ライセンス: Link先を確認
Arthur Castello B. de Oliveira, Milad Siami and Eduardo D. Sontag(参考訳) ニューラルネットワークと機械学習に関する最近の研究は、回帰問題の初期の複雑性によって厳密に要求されるよりも多くのパラメータを使用すると、より正確でより高速に収束するモデル(古典的統計的信念)をもたらすことを示唆している。 この現象は、しばしば' Benign overfitting'として知られ、他の方法で過度パラメータ化が学習問題の性質に与える影響について疑問を投げかける。 本研究では,不確実性が勾配推定に及ぼす影響について検討する。 この不確実性は、ノイズデータから勾配を推定したり、直接測定した場合に自然に発生する。 私たちの研究対象は、任意の数の入力と出力を持つ、任意に幅の広い隠れ層を持つ線形ニューラルネットワークである。 本稿では,ニューラルネットワークの入力と出力が一次元である場合の問題を,不整合の場合の収束に必要な条件と十分な条件に基づいて,システムの堅牢性に関する十分な条件を導出する。 次に、一般の過度にパラメータ化された定式化は、損失関数が最小化される集合の外側に配置されたスプリアス平衡の集合を導入し、より一般的な定式化のために現在の結果を拡張できる将来の作業の方向性について議論する。

Recent research in neural networks and machine learning suggests that using many more parameters than strictly required by the initial complexity of a regression problem can result in more accurate or faster-converging models -- contrary to classical statistical belief. This phenomenon, sometimes known as ``benign overfitting'', raises questions regarding in what other ways might overparameterization affect the properties of a learning problem. In this work, we investigate the effects of overfitting on the robustness of gradient-descent training when subject to uncertainty on the gradient estimation. This uncertainty arises naturally if the gradient is estimated from noisy data or directly measured. Our object of study is a linear neural network with a single, arbitrarily wide, hidden layer and an arbitrary number of inputs and outputs. In this paper we solve the problem for the case where the input and output of our neural-network are one-dimensional, deriving sufficient conditions for robustness of our system based on necessary and sufficient conditions for convergence in the undisturbed case. We then show that the general overparametrized formulation introduces a set of spurious equilibria which lay outside the set where the loss function is minimized, and discuss directions of future work that might extend our current results for more general formulations.
翻訳日:2023-05-18 17:42:41 公開日:2023-05-17
# 非凸損失においても, 雑音性確率勾配モードのプライバシ損失

Privacy Loss of Noisy Stochastic Gradient Descent Might Converge Even for Non-Convex Losses ( http://arxiv.org/abs/2305.09903v1 )

ライセンス: Link先を確認
Shahab Asoodeh and Mario Diaz(参考訳) Noisy-SGDアルゴリズムは機械学習モデルのプライベートトレーニングに広く利用されている。 このアルゴリズムの従来のプライバシ解析では、内部状態が公開されていると仮定し、イテレーション数に無期限に増加するプライバシ領域が発生する。 しかし、最近の調査結果は、内部状態が隠れている場合、プライバシーの損失は境界を保っている可能性があることを示している。 それでも、この顕著な結果は損失関数の(強い)凸性の仮定に大きく依存している。 この条件をさらに緩和する上で重要なオープン問題であり、プライバシーの喪失についても同様の収束限界が証明されている。 本研究では,個々のサンプルがトレーニングプロセスに与える影響を制限するために,勾配クリッピングを組み込んだノイズsgdの一般的な変種であるdp-sgdについて,この問題に対処する。 その結果,DP-SGDのプライバシー損失は,損失関数の凸性や滑らかさの仮定を必要とせず,指数関数的に収束することがわかった。 さらに,DP-SGDの正規化(未計画)のプライバシー損失を分析した。 これらの結果を得るために,非線形データ処理の不等式に依拠して,結合確率過程間のホッケースティックの発散を直接解析する。

The Noisy-SGD algorithm is widely used for privately training machine learning models. Traditional privacy analyses of this algorithm assume that the internal state is publicly revealed, resulting in privacy loss bounds that increase indefinitely with the number of iterations. However, recent findings have shown that if the internal state remains hidden, then the privacy loss might remain bounded. Nevertheless, this remarkable result heavily relies on the assumption of (strong) convexity of the loss function. It remains an important open problem to further relax this condition while proving similar convergent upper bounds on the privacy loss. In this work, we address this problem for DP-SGD, a popular variant of Noisy-SGD that incorporates gradient clipping to limit the impact of individual samples on the training process. Our findings demonstrate that the privacy loss of projected DP-SGD converges exponentially fast, without requiring convexity or smoothness assumptions on the loss function. In addition, we analyze the privacy loss of regularized (unprojected) DP-SGD. To obtain these results, we directly analyze the hockey-stick divergence between coupled stochastic processes by relying on non-linear data processing inequalities.
翻訳日:2023-05-18 17:42:17 公開日:2023-05-17
# 事前学習モデルからの等変小ショット学習

Equivariant Few-Shot Learning from Pretrained Models ( http://arxiv.org/abs/2305.09900v1 )

ライセンス: Link先を確認
Sourya Basu, Pulkit Katdare, Prasanna Sattigeri, Vijil Chenthamarakshan, Katherine Driggs-Campbell, Payel Das, Lav R. Varshney(参考訳) 効率的な転送学習アルゴリズムは、限られたデータであっても様々な下流タスクの基礎モデルの成功の鍵となる。 最近の研究である \cite{basu2022equi} と \cite{kaba2022equivariance} はそれぞれ群平均化(\textit{equitune})と最適化に基づく手法を提案している。 \cite{kaba2022equivariance} はスクラッチからしか訓練しないが、等式は良好な微調整結果にもかかわらず等変ゼロショットタスクでは不十分である。 これは、事前トレーニングされたモデルが特定の変換に対して、他のモデルよりも優れた品質機能を提供し、単に平均化が削除されるからだ、と仮定しています。 したがって、$\lambda$-\textit{equitune} は \textit{importance weights}, $\lambda$s を使って機能を平均化する。 これらの重みは、小さなニューラルネットワークを使ってデータから直接学習され、ゼロショットと微調整の結果が等級を上回る。 さらに、$\lambda$-equitune が同変であり、同変関数の普遍近似器であることが証明される。 さらに,我々が \textit{equizero} と呼ぶ適切な損失関数とともに用いられる \cite{kaba2022equivariance} の方法は,優れたゼロショットおよび微調整性能をもたらすことを示す。 equitune と equizero はいずれも $\lambda$-equitune の特別な場合である。 提案手法の単純さと汎用性を示すため,多種多様なアプリケーションやモデルに対して検証を行った。 1) CLIP を用いた画像分類 2)深いQ-ラーニング。 3)自然言語生成における公平性(NLG) 4) 言語における構成一般化及び 5) ResnetやAlexnetなどの事前訓練CNNを用いた画像分類。

Efficient transfer learning algorithms are key to the success of foundation models on diverse downstream tasks even with limited data. Recent works of \cite{basu2022equi} and \cite{kaba2022equivariance} propose group averaging (\textit{equitune}) and optimization-based methods, respectively, over features from group-transformed inputs to obtain equivariant outputs from non-equivariant neural networks. While \cite{kaba2022equivariance} are only concerned with training from scratch, we find that equitune performs poorly on equivariant zero-shot tasks despite good finetuning results. We hypothesize that this is because pretrained models provide better quality features for certain transformations than others and simply averaging them is deleterious. Hence, we propose $\lambda$-\textit{equitune} that averages the features using \textit{importance weights}, $\lambda$s. These weights are learned directly from the data using a small neural network, leading to excellent zero-shot and finetuned results that outperform equitune. Further, we prove that $\lambda$-equitune is equivariant and a universal approximator of equivariant functions. Additionally, we show that the method of \cite{kaba2022equivariance} used with appropriate loss functions, which we call \textit{equizero}, also gives excellent zero-shot and finetuned performance. Both equitune and equizero are special cases of $\lambda$-equitune. To show the simplicity and generality of our method, we validate on a wide range of diverse applications and models such as 1) image classification using CLIP, 2) deep Q-learning, 3) fairness in natural language generation (NLG), 4) compositional generalization in languages, and 5) image classification using pretrained CNNs such as Resnet and Alexnet.
翻訳日:2023-05-18 17:41:56 公開日:2023-05-17
# 二元分類における代理リスクの逆整合性

The Adversarial Consistency of Surrogate Risks for Binary Classification ( http://arxiv.org/abs/2305.09956v1 )

ライセンス: Link先を確認
Natalie Frank and Jonathan Niles-Weed(参考訳) 頑健な二分分類のための代理リスクの整合性について検討する。 逆行訓練によってロバストな分類法を学ぶことは一般的であり、各例が小さなボール内で悪質に破損した場合、予想される0$-$1$損失を最小限に抑える。 すなわち、任意のデータ分布に対して、元の敵のリスクの最小化シーケンスに影響を与えることなく、$0〜$$の損失を置き換えることができる。 また、$\rho$-marginの損失に対する逆整合性の定量的バージョンも証明します。 本結果から, 逆一貫したサロゲートのクラスは, 多くの共通サロゲートが整合であることが知られている標準設定よりもかなり小さいことが明らかとなった。

We study the consistency of surrogate risks for robust binary classification. It is common to learn robust classifiers by adversarial training, which seeks to minimize the expected $0$-$1$ loss when each example can be maliciously corrupted within a small ball. We give a simple and complete characterization of the set of surrogate loss functions that are \emph{consistent}, i.e., that can replace the $0$-$1$ loss without affecting the minimizing sequences of the original adversarial risk, for any data distribution. We also prove a quantitative version of adversarial consistency for the $\rho$-margin loss. Our results reveal that the class of adversarially consistent surrogates is substantially smaller than in the standard setting, where many common surrogates are known to be consistent.
翻訳日:2023-05-18 17:36:52 公開日:2023-05-17
# CooK: モジュール的で協調的な知識を備えた汎用言語モデル

CooK: Empowering General-Purpose Language Models with Modular and Collaborative Knowledge ( http://arxiv.org/abs/2305.09955v1 )

ライセンス: Link先を確認
Shangbin Feng, Weijia Shi, Yuyang Bai, Vidhisha Balachandran, Tianxing He, Yulia Tsvetkov(参考訳) 大きな言語モデル(LLM)は、知識集約的なタスクやコンテキストにますます採用されている。 既存のアプローチは、検索や生成された知識の促進を通じて汎用LLMの知識能力を改善するが、それらは知識に富んだモデルの2つの重要な特性を反映するに足らない: 知識はモジュール化され、継続的に成長し、多様なドメインから供給され、知識の獲得と生産は、様々な利害関係者が新しい情報を提供する協調的なプロセスであるべきである。 そこで本研究では,汎用大規模言語モデルにモジュール型で協調的な知識を付与する新しいフレームワーク cook を提案する。 まず、様々なドメインやソースからコーパスで訓練された特殊言語モデル、自己回帰モデルを紹介する。 これらの特殊なLMはパラメトリック知識リポジトリとして機能し、後に汎用LSMの背景知識を生成するよう促される。 次に, 関連性, 簡潔性, 事実性を制御し, 生成文書の情報を動的に選択・保持するための3つの知識フィルタを提案する。 最後に,多分野の知識合成とオンデマンドの知識要求を実現するための,コミュニティ主導の専門的LMからのキュレートされた(関連,事実)知識を付加するボトムアップとトップダウンの知識統合アプローチを提案する。 広範な実験を通じて、CooKが6つのベンチマークデータセットで最先端のパフォーマンスを達成することを示す。 この結果は,研究コミュニティの集合的努力を通じて継続的に更新可能な,進化的かつモジュール的な知識を備えた汎用LLMの強化の可能性を強調した。

Large language models (LLMs) are increasingly adopted for knowledge-intensive tasks and contexts. Existing approaches improve the knowledge capabilities of general-purpose LLMs through retrieval or generated knowledge prompting, but they fall short of reflecting two key properties of knowledge-rich models: knowledge should be modular, ever-growing, sourced from diverse domains; knowledge acquisition and production should be a collaborative process, where diverse stakeholders contribute new information. To this end, we propose CooK, a novel framework to empower general-purpose large language models with modular and collaboratively sourced knowledge. We first introduce specialized language models, autoregressive models trained on corpora from a wide range of domains and sources. These specialized LMs serve as parametric knowledge repositories that are later prompted to generate background knowledge for general-purpose LLMs. We then propose three knowledge filters to dynamically select and retain information in generated documents by controlling for relevance, brevity, and factuality. Finally, we propose bottom-up and top-down knowledge integration approaches to augment general-purpose LLMs with the curated (relevant, factual) knowledge from community-driven specialized LMs that enable multi-domain knowledge synthesis and on-demand knowledge requests. Through extensive experiments, we demonstrate that CooK achieves state-of-the-art performance on six benchmark datasets. Our results highlight the potential of enriching general-purpose LLMs with evolving and modular knowledge -- relevant knowledge that can be continuously updated through the collective efforts of the research community.
翻訳日:2023-05-18 17:36:38 公開日:2023-05-17
# hico-det-sgとv-coco-sg:人間-対象インタラクション検出における体系的一般化を評価するための新しいデータ分割

HICO-DET-SG and V-COCO-SG: New Data Splits to Evaluate Systematic Generalization in Human-Object Interaction Detection ( http://arxiv.org/abs/2305.09948v1 )

ライセンス: Link先を確認
Kentaro Takemoto, Moyuru Yamada, Tomotake Sasaki, Hisanao Akima(参考訳) ヒューマン・オブジェクト・インタラクション(Human-Object Interaction、HOI)は、画像中の人間とオブジェクト間の相互作用を予測するタスクである。 実世界のシナリオでは、HOI検出モデルは体系的な一般化、すなわち、オブジェクトと相互作用の新たな組み合わせへの一般化を必要とする。 しかし、我々の知る限り、オープンベンチマークや既存の研究はHOI検出の体系的な一般化を評価していない。 この問題に対処するため、HICO-DETとV-COCO-SGという2つのHOI検出データ分割セットを作成し、HICO-DETとV-COCOデータセットに基づく。 我々は,新しいデータ分割に対する代表HOI検出モデルの評価を行い,元のデータセットと比較してテスト性能の大幅な劣化を観測した。 この結果から,系統的な一般化がHOI検出の課題であることが示された。 新しいデータ分割によって、この目標に向けてさらなる研究が促進されることを願っています。

Human-Object Interaction (HOI) detection is a task to predict interactions between humans and objects in an image. In real-world scenarios, HOI detection models are required systematic generalization, i.e., generalization to novel combinations of objects and interactions, because it is highly probable that the train data only cover a limited portion of all possible combinations. However, to our knowledge, no open benchmark or existing work evaluates the systematic generalization in HOI detection. To address this issue, we created two new sets of HOI detection data splits named HICO-DET-SG and V-COCO-SG based on HICO-DET and V-COCO datasets. We evaluated representative HOI detection models on the new data splits and observed large degradation in the test performances compared to those on the original datasets. This result shows that systematic generalization is a challenging goal in HOI detection. We hope our new data splits encourage more research toward this goal.
翻訳日:2023-05-18 17:36:13 公開日:2023-05-17
# 畳み込みニューラルネットワークの初期凝縮を理解する

Understanding the Initial Condensation of Convolutional Neural Networks ( http://arxiv.org/abs/2305.09947v1 )

ライセンス: Link先を確認
Zhangchen Zhou, Hanxu Zhou, Yuqing Li, Zhi-Qin John Xu(参考訳) 従来の研究では、小さな初期化と勾配に基づくトレーニング手法を備えた完全接続ネットワークが、トレーニング中に凝縮と呼ばれる現象を示すことが示されている。 この現象は、訓練中に孤立した向きに凝縮する隠れニューロンの入力重みを指し、パラメータ空間における単純な解に対する暗黙の偏りを示す。 しかし, ニューラルネットワーク構造が凝縮に及ぼす影響についてはまだ研究されていない。 本研究では,畳み込みニューラルネットワーク(CNN)の研究に焦点を当てた。 実験では,初期化と勾配に基づく学習方法が小さければ,同一cnn層内の核重みも訓練中に集束し,かなりの凝縮度を示すことが示唆された。 理論的には、有限の訓練期間において、小さな初期化を持つ2層CNNのカーネルが1または数方向に収束することを示した。 この研究は、特殊な構造を持つニューラルネットワークが示す非線形トレーニング行動の理解を深めるための一歩である。

Previous research has shown that fully-connected networks with small initialization and gradient-based training methods exhibit a phenomenon known as condensation during training. This phenomenon refers to the input weights of hidden neurons condensing into isolated orientations during training, revealing an implicit bias towards simple solutions in the parameter space. However, the impact of neural network structure on condensation has not been investigated yet. In this study, we focus on the investigation of convolutional neural networks (CNNs). Our experiments suggest that when subjected to small initialization and gradient-based training methods, kernel weights within the same CNN layer also cluster together during training, demonstrating a significant degree of condensation. Theoretically, we demonstrate that in a finite training period, kernels of a two-layer CNN with small initialization will converge to one or a few directions. This work represents a step towards a better understanding of the non-linear training behavior exhibited by neural networks with specialized structures.
翻訳日:2023-05-18 17:35:56 公開日:2023-05-17
# DeepMSS:PET/CT画像からの生存予測のためのディープマルチモーダルセグメント・ツー・サバイバル学習

DeepMSS: Deep Multi-Modality Segmentation-to-Survival Learning for Survival Outcome Prediction from PET/CT Images ( http://arxiv.org/abs/2305.09946v1 )

ライセンス: Link先を確認
Mingyuan Meng, Bingxin Gu, Michael Fulham, Shaoli Song, Dagan Feng, Lei Bi, and Jinman Kim(参考訳) 生存予測はがん管理の主要な懸念事項である。 深層学習に基づく深層生存モデルが医療画像からエンドツーエンド生存予測を行うために広く採用されている。 近年の深層生存モデルは,Multi-Task Learning (MTL)を通して腫瘍関連情報を抽出するために,生存予測と共同で腫瘍セグメンテーションを行い,有望な性能を達成した。 しかし、既存の深部生存モデルでは腫瘍外予後情報(リンパ節転移や隣接組織浸潤など)の探索が困難である。 また、マルチモダリティ画像を利用した既存の深層生存モデルが未開発である。 経験的に設計された戦略は、固定された事前設計ネットワークを介して多モード情報を融合するために一般的に採用された。 本研究では,PET/CT画像からの生存予測のためのDeep Multi-modality Segmentation-to-Survival Model (DeepMSS)を提案する。 mtlを採用する代わりに,我々のdeepmssが腫瘍の分節化と生存予測のために順次訓練される新しいsegmentation-to-survival learning (ssl)戦略を提案する。 この戦略により、DeepMSSは当初腫瘍領域に集中し、徐々に他の予後関連領域を含むように焦点を拡大できる。 また,訓練中のトレーニングデータに基づく融合戦略の自動最適化を実現するとともに,異なるトレーニング目標に対するdeepmsの適応性を向上させるマルチモダリティ画像情報を融合するデータ駆動戦略を提案する。 また,我々のdeepmssは,deepmssの腫瘍領域から手作りの特徴を抽出し,deepmssのトレーニングと推論に協調的に組み込むことのできる,従来の放射線学的特徴を強調として組み込むこともできる。 2つの大きな臨床データセットを用いた広範囲な実験により、我々のdeepmssは最先端の生存予測方法よりも優れています。

Survival prediction is a major concern for cancer management. Deep survival models based on deep learning have been widely adopted to perform end-to-end survival prediction from medical images. Recent deep survival models achieved promising performance by jointly performing tumor segmentation with survival prediction, where the models were guided to extract tumor-related information through Multi-Task Learning (MTL). However, existing deep survival models have difficulties in exploring out-of-tumor prognostic information (e.g., local lymph node metastasis and adjacent tissue invasions). In addition, existing deep survival models are underdeveloped in utilizing multi-modality images. Empirically-designed strategies were commonly adopted to fuse multi-modality information via fixed pre-designed networks. In this study, we propose a Deep Multi-modality Segmentation-to-Survival model (DeepMSS) for survival prediction from PET/CT images. Instead of adopting MTL, we propose a novel Segmentation-to-Survival Learning (SSL) strategy, where our DeepMSS is trained for tumor segmentation and survival prediction sequentially. This strategy enables the DeepMSS to initially focus on tumor regions and gradually expand its focus to include other prognosis-related regions. We also propose a data-driven strategy to fuse multi-modality image information, which realizes automatic optimization of fusion strategies based on training data during training and also improves the adaptability of DeepMSS to different training targets. Our DeepMSS is also capable of incorporating conventional radiomics features as an enhancement, where handcrafted features can be extracted from the DeepMSS-segmented tumor regions and cooperatively integrated into the DeepMSS's training and inference. Extensive experiments with two large clinical datasets show that our DeepMSS outperforms state-of-the-art survival prediction methods.
翻訳日:2023-05-18 17:35:43 公開日:2023-05-17
# 説明可能な強化学習のためのピッツバーグ学習分類システム:XCSとの比較

Pittsburgh Learning Classifier Systems for Explainable Reinforcement Learning: Comparing with XCS ( http://arxiv.org/abs/2305.09945v1 )

ライセンス: Link先を確認
Jordan T. Bishop, Marcus Gallagher, Will N. Browne(参考訳) 近年、深層学習技術の適用により強化学習(RL)への関心が高まっているが、これらのコネクショナリストのアプローチは象徴的システムと比較して不透明である。 学習分類システム (Learning Classifier Systems, LCS) は、eXplainable AI (XAI) として分類できる進化型機械学習システムである。 ミシガンLSCは、ピッツバーグの代替システム(例えばSAMUEL)が複雑なアルゴリズム設計と高い計算要求に悩まされているため、RLドメインで一般的に使用されているが、ミシガンシステムよりもコンパクトで解釈可能なソリューションを作成できる。 PPL-DL と PPL-ST の2つの新しい LCS の開発を目指している。 前者は「ゼロレベル」システムとして機能し、後者はサミュエルのコアモンテカルロ学習機構を見直して規則の強さを推定する。 我々は2つのピッツバーグ・システムとミシガン・システムxcsを,決定論的および確率的凍結湖環境にまたがって比較した。 その結果, PPL-STはPPL-DLよりも高い性能を示し, 高レベルの環境不確実性の存在下ではXCSより優れていた。 PPL-STによって進化したルールセットは、XCSによって進化したルールよりも高いパフォーマンスを達成することができるが、それ故に計算コストが高いにもかかわらず、より同義的で解釈可能な方法で実現することができる。 このことは、PLP-STは、RLドメインで説明可能なポリシーを作成するのに適したLCSであることを示している。

Interest in reinforcement learning (RL) has recently surged due to the application of deep learning techniques, but these connectionist approaches are opaque compared with symbolic systems. Learning Classifier Systems (LCSs) are evolutionary machine learning systems that can be categorised as eXplainable AI (XAI) due to their rule-based nature. Michigan LCSs are commonly used in RL domains as the alternative Pittsburgh systems (e.g. SAMUEL) suffer from complex algorithmic design and high computational requirements; however they can produce more compact/interpretable solutions than Michigan systems. We aim to develop two novel Pittsburgh LCSs to address RL domains: PPL-DL and PPL-ST. The former acts as a "zeroth-level" system, and the latter revisits SAMUEL's core Monte Carlo learning mechanism for estimating rule strength. We compare our two Pittsburgh systems to the Michigan system XCS across deterministic and stochastic FrozenLake environments. Results show that PPL-ST performs on-par or better than PPL-DL and outperforms XCS in the presence of high levels of environmental uncertainty. Rulesets evolved by PPL-ST can achieve higher performance than those evolved by XCS, but in a more parsimonious and therefore more interpretable fashion, albeit with higher computational cost. This indicates that PPL-ST is an LCS well-suited to producing explainable policies in RL domains.
翻訳日:2023-05-18 17:35:10 公開日:2023-05-17
# 暗黙と双方向のカリキュラムによるデモなし自律強化学習

Demonstration-free Autonomous Reinforcement Learning via Implicit and Bidirectional Curriculum ( http://arxiv.org/abs/2305.09943v1 )

ライセンス: Link先を確認
Jigang Kim, Daesol Cho, H. Jin Kim(参考訳) 強化学習(RL)は環境相互作用のみから複雑なスキルを習得することに成功したが、各エピソードの最後には初期状態へのリセットが容易に利用できると仮定する。 このような仮定は、物理的な世界でリセットするための時間と面倒な回避策のために、エンボディエージェントの自律的な学習を妨げる。 したがって、非エポゾリック相互作用から学習できる自律的RL(ARL)手法への関心が高まっている。 しかしながら、arlの既存の作業は、事前のデータに依存することによる制限があり、タスク関連の相互作用が不十分な環境では学習できない。 一方,Implicit と Bi-directional Curriculum (IBC) を用いた実演自由ARLアルゴリズムを提案する。 学習の進捗に応じて条件付きで活性化される補助エージェントと、最適輸送に基づく双方向のゴールカリキュラムにより、本手法は、実証を利用するエージェントよりも優れた性能を発揮する。

While reinforcement learning (RL) has achieved great success in acquiring complex skills solely from environmental interactions, it assumes that resets to the initial state are readily available at the end of each episode. Such an assumption hinders the autonomous learning of embodied agents due to the time-consuming and cumbersome workarounds for resetting in the physical world. Hence, there has been a growing interest in autonomous RL (ARL) methods that are capable of learning from non-episodic interactions. However, existing works on ARL are limited by their reliance on prior data and are unable to learn in environments where task-relevant interactions are sparse. In contrast, we propose a demonstration-free ARL algorithm via Implicit and Bi-directional Curriculum (IBC). With an auxiliary agent that is conditionally activated upon learning progress and a bidirectional goal curriculum based on optimal transport, our method outperforms previous methods, even the ones that leverage demonstrations.
翻訳日:2023-05-18 17:34:26 公開日:2023-05-17
# 『i'm full who i am』 : オープン言語生成におけるバイアスを測定するためにトランスジェンダーとノンバイナリの声を中心に

"I'm fully who I am": Towards Centering Transgender and Non-Binary Voices to Measure Biases in Open Language Generation ( http://arxiv.org/abs/2305.09941v1 )

ライセンス: Link先を確認
Anaelia Ovalle, Palash Goyal, Jwala Dhamala, Zachary Jaggers, Kai-Wei Chang, Aram Galstyan, Richard Zemel, Rahul Gupta(参考訳) トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。 近年の言語生成技術の普及と普及を考えると、この人口のさらなる疎外化の可能性は増大するのみである。 NLPフェアネスの文献は、性別バイアスの照明と対処に焦点を当てているが、TGNBのアイデンティティに対する性別の害を評価するには、そのようなアイデンティティが社会的性規範とどのように一意に相互作用するか、そしてそれらがジェンダーバイナリ中心の視点とどのように異なるかを理解する必要がある。 このような測定フレームワークは本質的には、ジェンダー非包摂的NLPと彼らが誰に仕えるかの調整を支援するために、中心的なTGNB音声を必要とする。 この目標に向けて、我々はTGNBのコミュニティと既存の学際文献を基盤として、TGNBの人々が経験した限界化を取り巻く社会的現実がオープン言語生成(OLG)にどのように貢献し、持続するかを評価する。 まず, 限界化ストレス因子をまず理解することにより, 1) 性別の誤認と(2) 性開示に対する有害な反応を評価する。 そこで本研究では,TGNB 指向のコミュニティ内で,現実のテキストからキュレートされたテンプレートベースのテキストからなる TANGO データセットを提案する。 モデル内では二項代名詞が支配的であり,二項代名詞を用いたプロンプトをきっかけに,LLMは生成したテキストの中で最少の男女が生成される。 一方,singular theyとneopronounsで発生をトリガーする場合,ミスジェネレーションが最も一般的であった。 LLMのテキストには、性別の開示をきっかけに、スティグマティゼーション言語が含まれ、TGNBの性別の開示によって最も有毒になった。 我々の研究は、TLMにおけるTGNBの有害性に関するさらなる研究を保証し、コミュニティ音声や学際文学におけるジェンダー非包括的AIの設計を具体化するための幅広いケーススタディとして役立っている。

Transgender and non-binary (TGNB) individuals disproportionately experience discrimination and exclusion from daily life. Given the recent popularity and adoption of language generation technologies, the potential to further marginalize this population only grows. Although a multitude of NLP fairness literature focuses on illuminating and addressing gender biases, assessing gender harms for TGNB identities requires understanding how such identities uniquely interact with societal gender norms and how they differ from gender binary-centric perspectives. Such measurement frameworks inherently require centering TGNB voices to help guide the alignment between gender-inclusive NLP and whom they are intended to serve. Towards this goal, we ground our work in the TGNB community and existing interdisciplinary literature to assess how the social reality surrounding experienced marginalization by TGNB persons contributes to and persists within Open Language Generation (OLG). By first understanding their marginalization stressors, we evaluate (1) misgendering and (2) harmful responses to gender disclosure. To do this, we introduce the TANGO dataset, comprising of template-based text curated from real-world text within a TGNB-oriented community. We discover a dominance of binary gender norms within the models; LLMs least misgendered subjects in generated text when triggered by prompts whose subjects used binary pronouns. Meanwhile, misgendering was most prevalent when triggering generation with singular they and neopronouns. When prompted with gender disclosures, LLM text contained stigmatizing language and scored most toxic when triggered by TGNB gender disclosure. Our findings warrant further research on how TGNB harms manifest in LLMs and serve as a broader case study toward concretely grounding the design of gender-inclusive AI in community voices and interdisciplinary literature.
翻訳日:2023-05-18 17:34:01 公開日:2023-05-17
# グラフ上のロングテールカテゴリの特徴付け

Characterizing Long-Tail Categories on Graphs ( http://arxiv.org/abs/2305.09938v1 )

ライセンス: Link先を確認
Haohui Wang, Baoyu Jing, Kaize Ding, Yada Zhu, Dawei Zhou(参考訳) ロングテールデータ配信は、金融取引ネットワーク、eコマースネットワーク、コラボレーションネットワークなど、多くの現実世界のネットワークで一般的である。 最近の開発の成功にもかかわらず、既存の作品は主にグラフ拡張や客観的な重み付けによる機械学習モデルのデバイアスに焦点を当てている。 しかし、グラフ上の長い尾のカテゴリの挙動を特徴づけ、実際のシナリオにおける一般化性能を理解するための理論的ツールを提供する文献は限られている。 このギャップを埋めるために,マルチタスク学習の方法で問題を定式化することにより,グラフ上の長い尾の分類のための最初の一般化を提案し,各タスクは1つの特定のカテゴリの予測に対応する。 その結果,ロングテール分類の一般化性能は,すべてのタスクの損失範囲とタスクの総数に支配されていることがわかった。 理論的な知見に基づいて,グラフのロングテールカテゴリの性能を向上させるための新しい汎用フレームワークtail2learnを提案する。 特に,ラベル制限されたクラスを他のクラスが共有する関連情報から恩恵を受ける階層型タスクグループ化モジュールから始め,頭と尾のクラスの勾配寄与のバランスをとるために,バランスのとれたコントラスト学習モジュールを更に設計する。 最後に、様々な実世界のデータセットに関する広範な実験は、グラフ上の長い尾のカテゴリをキャプチャするTail2Learnの有効性を示した。

Long-tail data distributions are prevalent in many real-world networks, including financial transaction networks, e-commerce networks, and collaboration networks. Despite the success of recent developments, the existing works mainly focus on debiasing the machine learning models via graph augmentation or objective reweighting. However, there is limited literature that provides a theoretical tool to characterize the behaviors of long-tail categories on graphs and understand the generalization performance in real scenarios. To bridge this gap, we propose the first generalization bound for long-tail classification on graphs by formulating the problem in the fashion of multi-task learning, i.e., each task corresponds to the prediction of one particular category. Our theoretical results show that the generalization performance of long-tail classification is dominated by the range of losses across all tasks and the total number of tasks. Building upon the theoretical findings, we propose a novel generic framework Tail2Learn to improve the performance of long-tail categories on graphs. In particular, we start with a hierarchical task grouping module that allows label-limited classes to benefit from the relevant information shared by other classes; then, we further design a balanced contrastive learning module to balance the gradient contributions of head and tail classes. Finally, extensive experiments on various real-world datasets demonstrate the effectiveness of Tail2Learn in capturing long-tail categories on graphs.
翻訳日:2023-05-18 17:33:15 公開日:2023-05-17
# フェデレーション学習におけるグループバイアスの軽減--地域公平を超えて

Mitigating Group Bias in Federated Learning: Beyond Local Fairness ( http://arxiv.org/abs/2305.09931v1 )

ライセンス: Link先を確認
Ganghua Wang, Ali Payani, Myungjin Lee, Ramana Kompella(参考訳) 機械学習モデルにおいて、特定のサブ人口やグループが他よりも好まれるグループフェアネスの問題は、しばらくの間認識されてきた。 集中学習では多くの緩和戦略が提案されているが、これらの手法の多くは、データが複数のクライアントにプライベートに保存されるフェデレーション学習では直接適用できない。 これを解決するために、多くの提案は集約の前にクライアントのレベルでバイアスを緩和しようとします。 しかし、これらのアプローチの有効性はよく分かっていない。 本研究では,グローバルモデルフェアネスとローカルモデルフェアネスの関係を研究することにより,ローカルフェアトレーニングの理論的基礎について検討する。 さらに,広域の公正度測定値に対して,グローバルモデルの公正度は,ローカルクライアントの要約統計値のみを用いて得られることを示す。 そこで本研究では,罰則化された経験損失を直接最小化する,グローバルフェアトレーニングアルゴリズムを提案する。 実データ実験は,局所的公正訓練法と比較して精度を高く保ちながら公平性を高めるための提案手法の有望な性能を示す。

The issue of group fairness in machine learning models, where certain sub-populations or groups are favored over others, has been recognized for some time. While many mitigation strategies have been proposed in centralized learning, many of these methods are not directly applicable in federated learning, where data is privately stored on multiple clients. To address this, many proposals try to mitigate bias at the level of clients before aggregation, which we call locally fair training. However, the effectiveness of these approaches is not well understood. In this work, we investigate the theoretical foundation of locally fair training by studying the relationship between global model fairness and local model fairness. Additionally, we prove that for a broad class of fairness metrics, the global model's fairness can be obtained using only summary statistics from local clients. Based on that, we propose a globally fair training algorithm that directly minimizes the penalized empirical loss. Real-data experiments demonstrate the promising performance of our proposed approach for enhancing fairness while retaining high accuracy compared to locally fair training methods.
翻訳日:2023-05-18 17:32:55 公開日:2023-05-17
# 大規模機械学習問題に対する確率的比率追跡アルゴリズム

Stochastic Ratios Tracking Algorithm for Large Scale Machine Learning Problems ( http://arxiv.org/abs/2305.09978v1 )

ライセンス: Link先を確認
Shigeng Sun and Yuchen Xie(参考訳) 多くの機械学習アプリケーションやタスクは確率勾配勾配(SGD)アルゴリズムとその変種に依存している。 効果的なステップ長選択は、adamやadagradのようなアルゴリズムの開発を動機付けたこれらのアルゴリズムの成功に不可欠である。 本稿では,従来のSGDフレームワークにおける適応的なステップ長選択のための新しいアルゴリズムを提案する。 提案アルゴリズムは従来の非線形最適化手法にインスパイアされ,解析的な結果に支えられている。 妥当な条件下では、アルゴリズムは確立された理論的要件に従ってステップ長を生成し、期待される解の定常近傍に収束する反復を生成する。 提案アルゴリズムは,ロジスティック回帰とディープニューラルネットワークを用いてテストし,手動チューニングから得られる最良ステップ長に匹敵するステップ長を生成できることを実証した。

Many machine learning applications and tasks rely on the stochastic gradient descent (SGD) algorithm and its variants. Effective step length selection is crucial for the success of these algorithms, which has motivated the development of algorithms such as ADAM or AdaGrad. In this paper, we propose a novel algorithm for adaptive step length selection in the classical SGD framework, which can be readily adapted to other stochastic algorithms. Our proposed algorithm is inspired by traditional nonlinear optimization techniques and is supported by analytical findings. We show that under reasonable conditions, the algorithm produces step lengths in line with well-established theoretical requirements, and generates iterates that converge to a stationary neighborhood of a solution in expectation. We test the proposed algorithm on logistic regressions and deep neural networks and demonstrate that the algorithm can generate step lengths comparable to the best step length obtained from manual tuning.
翻訳日:2023-05-18 17:25:02 公開日:2023-05-17
# 書字支援のためのスマートワードの提案

Smart Word Suggestions for Writing Assistance ( http://arxiv.org/abs/2305.09975v1 )

ライセンス: Link先を確認
Chenshuo Wang, Shaoguang Mao, Tao Ge, Wenshan Wu, Xun Wang, Yan Xia, Jonathan Tien, Dongyan Zhao(参考訳) 単語の使用拡大は、文字の補助に望ましい機能である。 この領域の研究をさらに進めるために,本稿では「スマートワード提案(smart word suggestions, sws)」タスクとベンチマークを紹介する。 他の作業とは異なり、SWSはエンドツーエンドの評価を強調し、より現実的な記述支援シナリオを提示します。 このタスクは、改善を必要とする単語やフレーズを識別し、置換の提案を提供する。 ベンチマークには、テストのための人間ラベル付きデータ、トレーニングのための大規模な遠隔監視データセット、評価のためのフレームワークが含まれている。 テストデータには、英語学習者が書いた1000の文章と、10人のネイティブ話者が注釈を付けた16,000以上の代替提案が含まれている。 トレーニングデータセットは、ルールによって生成された370万文と1270万の提案からなる。 7つのベースラインによる我々の実験は、SWSが難しい課題であることを示している。 実験分析に基づいて,今後のSWS研究の方向性を提案する。 データセットと関連するコードはhttps://github.com/microsoft/SmartWordSuggestions.comで公開されている。

Enhancing word usage is a desired feature for writing assistance. To further advance research in this area, this paper introduces "Smart Word Suggestions" (SWS) task and benchmark. Unlike other works, SWS emphasizes end-to-end evaluation and presents a more realistic writing assistance scenario. This task involves identifying words or phrases that require improvement and providing substitution suggestions. The benchmark includes human-labeled data for testing, a large distantly supervised dataset for training, and the framework for evaluation. The test data includes 1,000 sentences written by English learners, accompanied by over 16,000 substitution suggestions annotated by 10 native speakers. The training dataset comprises over 3.7 million sentences and 12.7 million suggestions generated through rules. Our experiments with seven baselines demonstrate that SWS is a challenging task. Based on experimental analysis, we suggest potential directions for future research on SWS. The dataset and related codes is available at https://github.com/microsoft/SmartWordSuggestions.
翻訳日:2023-05-18 17:24:47 公開日:2023-05-17
# River of No Return: 効率的な知識グラフ推論のためのグラフパーコレーション埋め込み

River of No Return: Graph Percolation Embeddings for Efficient Knowledge Graph Reasoning ( http://arxiv.org/abs/2305.09974v1 )

ライセンス: Link先を確認
Kai Wang and Siqiang Luo and Dan Lin(参考訳) 知識グラフ推論のためのグラフニューラルネットワーク(GNN)に基づく埋め込み技術について検討する。 モデルトレーニングにおいて,パスエンコーディングとメッセージパッシングに基づく最先端KG推論モデルにおけるパス冗長性の問題と,変換エラーに対するメッセージパッシングをリンクすることで,KG推論に対する新たな理論的洞察と,実際に高い有効性を実現する。 理論的には、KG経路における変換誤差のエントロピーを分析し、エントロピーの増加を引き起こすクエリ固有の冗長パスを指摘する。 これらの知見は,最短経路の維持と,最小エントロピーメッセージパッシングのための冗長経路の除去を導く。 この目的を達成するために,本研究では,流体力学におけるパーコレーションモデルに基づく効率的なグラフパーコレーションプロセスを提案し,グラフパーコレーション埋め込み(GraPE)と呼ばれる軽量なGNNベースのKG推論フレームワークを設計する。 GraPEは、トランスダクティブな推論タスクとインダクティブな推論タスクの両方において、従来の最先端メソッドよりも優れ、トレーニングパラメータが少なく、推論時間も少ない。

We study Graph Neural Networks (GNNs)-based embedding techniques for knowledge graph (KG) reasoning. For the first time, we link the path redundancy issue in the state-of-the-art KG reasoning models based on path encoding and message passing to the transformation error in model training, which brings us new theoretical insights into KG reasoning, as well as high efficacy in practice. On the theoretical side, we analyze the entropy of transformation error in KG paths and point out query-specific redundant paths causing entropy increases. These findings guide us to maintain the shortest paths and remove redundant paths for minimized-entropy message passing. To achieve this goal, on the practical side, we propose an efficient Graph Percolation Process motivated by the percolation model in Fluid Mechanics, and design a lightweight GNN-based KG reasoning framework called Graph Percolation Embeddings (GraPE). GraPE outperforms previous state-of-the-art methods in both transductive and inductive reasoning tasks while requiring fewer training parameters and less inference time.
翻訳日:2023-05-18 17:24:35 公開日:2023-05-17
# YOLOv8によるリアルタイム飛行物体検出

Real-Time Flying Object Detection with YOLOv8 ( http://arxiv.org/abs/2305.09972v1 )

ライセンス: Link先を確認
Dillon Reis, Jordan Kupec, Jacqueline Hong, Ahmad Daoudi(参考訳) 本稿では,移動学習やさらなる研究に使用できる飛行物体のリアルタイム検出のための一般化モデルと,実装可能な改良モデルを提案する。 我々は、40種類の飛行物体を含むデータセット上で、最初の一般化モデルを訓練し、抽象的な特徴表現を抽出することを強制する。 次に,より代表的な実環境(咬合頻度,小空間サイズ,回転数など)のデータセット上で,これらの学習パラメータを用いて転送学習を行い,改良したモデルを生成する。 空飛ぶ物体の物体検出は、大きな分散オブジェクトの空間サイズ/アスペクト比、速度の速度、閉塞、クラスタ化された背景のため、依然として困難である。 提案する課題のいくつかに,性能を最大化すると同時に対処するために,最先端のシングルショット検出器であるyolov8を用いて,推論速度とマップ間の最善のトレードオフを求める。 YOLOv8は新しい最先端と見なされているが、公式な論文は提供されていない。 そこで我々は、yolov8が採用した新しいアーキテクチャと機能の詳細な説明を提供する。 我々の最終一般化モデルは、0.685のmAP50-95と50fpsの1080pビデオの平均推論速度を達成する。 最終改良モデルは、この推論速度を維持し、改良されたmAP50-95の0.835を達成する。

This paper presents a generalized model for real-time detection of flying objects that can be used for transfer learning and further research, as well as a refined model that is ready for implementation. We achieve this by training our first generalized model on a data set containing 40 different classes of flying objects, forcing the model to extract abstract feature representations. We then perform transfer learning with these learned parameters on a data set more representative of real world environments (i.e., higher frequency of occlusion, small spatial sizes, rotations, etc.) to generate our refined model. Object detection of flying objects remains challenging due to large variance object spatial sizes/aspect ratios, rate of speed, occlusion, and clustered backgrounds. To address some of the presented challenges while simultaneously maximizing performance, we utilize the current state of the art single-shot detector, YOLOv8, in an attempt to find the best tradeoff between inference speed and mAP. While YOLOv8 is being regarded as the new state-of-the-art, an official paper has not been provided. Thus, we provide an in-depth explanation of the new architecture and functionality that YOLOv8 has adapted. Our final generalized model achieves an mAP50-95 of 0.685 and average inference speed on 1080p videos of 50 fps. Our final refined model maintains this inference speed and achieves an improved mAP50-95 of 0.835.
翻訳日:2023-05-18 17:24:16 公開日:2023-05-17
# 可変長埋め込み

Variable Length Embeddings ( http://arxiv.org/abs/2305.09967v1 )

ライセンス: Link先を確認
Johnathan Chiu, Andi Gu, Matt Zhou(参考訳) 本稿では,任意の数のトークンからなる潜在表現を生成可能な自己回帰モデルである,新しいディープラーニングアーキテクチャである可変長埋め込み(VLE)を紹介する。 概念実証として、再構成と画像分解を含むタスクにおけるVLEの能力を実証する。 我々は、iNaturalistとImageNetのデータセットを混合した実験を行い、VLEが10分の1のパラメータを用いて、アートVAEの状態に匹敵する再構成結果が得られることを示した。

In this work, we introduce a novel deep learning architecture, Variable Length Embeddings (VLEs), an autoregressive model that can produce a latent representation composed of an arbitrary number of tokens. As a proof of concept, we demonstrate the capabilities of VLEs on tasks that involve reconstruction and image decomposition. We evaluate our experiments on a mix of the iNaturalist and ImageNet datasets and find that VLEs achieve comparable reconstruction results to a state of the art VAE, using less than a tenth of the parameters.
翻訳日:2023-05-18 17:23:53 公開日:2023-05-17
# 絡み合い力学におけるメソスコピック揺らぎ

Mesoscopic fluctuations in entanglement dynamics ( http://arxiv.org/abs/2305.09962v1 )

ライセンス: Link先を確認
Lih-King Lim, Cunzhong Lou, and Chushun Tian(参考訳) ゆらぎ現象を理解することは多体物理学の発展において主要な役割を果たす。 絡み合いの時間発展は、エキゾチックな量子物質から量子の熱化まで、多体物理学における幅広い対象に必須である。 情報の動的過程から考えると、絡み合いの進化の揺らぎは伝統的な物理量の平衡外ゆらぎとは概念的に異なる。 彼らの研究はいまだ解明されていない。 ここでは、可積分モデルのクラスにおける波動関数の進化における創発的ランダム構造を明らかにする。 これは平衡の絡み合いゆらぎを生じさせ、波の干渉の起源のメソスコピックな揺らぎのパラダイムに顕著に当てはまる。 具体的には、絡み合いエントロピーの分散は普遍的なスケーリング則に従い、分布はガウス上部とガンマ下部のテールを示す。 これらの統計は、システムの微視的詳細と絡み合いプローブの選択から独立しており、メソスコピックの普遍性のクラスを広げている。 これらはメソスコピックデバイスにおける絡み合いの制御に実用的な意味を持つ。

Understanding fluctuation phenomena plays a dominant role in the development of many-body physics. The time evolution of entanglement is essential to a broad range of subjects in many-body physics, ranging from exotic quantum matter to quantum thermalization. Stemming from various dynamical processes of information, fluctuations in entanglement evolution differ conceptually from out-of-equilibrium fluctuations of traditional physical quantities. Their studies remain elusive. Here we uncover an emergent random structure in the evolution of the wavefunction in a class of integrable models. It gives rise to out-of-equilibrium entanglement fluctuations which, strikingly, fall into the paradigm of mesoscopic fluctuations of wave interference origin. Specifically, the entanglement entropy variance obeys a universal scaling law, and the distribution displays a sub-Gaussian upper and a sub-Gamma lower tail. These statistics are independent of both the system's microscopic details and the choice of entanglement probes, and broaden the class of mesoscopic universalities. They have practical implications for controlling entanglement in mesoscopic devices.
翻訳日:2023-05-18 17:23:45 公開日:2023-05-17
# リモートセンシングによるブロックチェーン対応太陽エネルギー保険

Blockchain-enabled Parametric Solar Energy Insurance via Remote Sensing ( http://arxiv.org/abs/2305.09961v1 )

ライセンス: Link先を確認
Mingyu Hao, Keyang Qian, Sid Chi-Kin Chau(参考訳) その人気にもかかわらず、太陽エネルギーの性質は非常に不確実であり、特に家庭ユーザーにとって、太陽エネルギーの商業的生存性と投資に影響を与える。 太陽エネルギー発電からの収入を安定させるためには、オフピーク期間に過剰な太陽エネルギーを貯めるためのエネルギー貯蔵や将来の市場からの金融デリバティブといった伝統的な選択肢が限られている。 本稿では, 太陽パネル所有者が, 検証可能な地理的特定指標(地表面日射)に基づいて, 太陽エネルギーの発生を保証できる「パラメトリック太陽エネルギー保険」という新しいアイデアを探求する。 パラメトリックソーラーエネルギー保険は、太陽エネルギーの不足に対する財政補助金の機会を提供し、再生可能エネルギーの変動を地理的に補正する。 さらに、ブロックチェーンとリモートセンシング(衛星画像)を活用して、太陽エネルギー保険の引受と請求を自動化するだけでなく、説明責任と透明性も向上する、公に検証可能なプラットフォームを太陽エネルギー保険に提供することを提案する。 我々は、最先端のゼロ知識証明(zk-SNARK)を利用して、現実の無許可ブロックチェーンプラットフォームEthereum上で、プライバシー保護ブロックチェーンベースのソーラーエネルギー保険を実現する。

Despite its popularity, the nature of solar energy is highly uncertain and weather dependent, affecting the business viability and investment of solar energy generation, especially for household users. To stabilize the income from solar energy generation, there have been limited traditional options, such as using energy storage to pool excessive solar energy in off-peak periods or financial derivatives from future markets to hedge energy prices. In this paper, we explore a novel idea of "parametric solar energy insurance", by which solar panel owners can insure their solar energy generation based on a verifiable geographically specific index (surface solar irradiation). Parametric solar energy insurance offers opportunities of financial subsidies for insufficient solar energy generation and amortizes the fluctuations of renewable energy generation geographically. Furthermore, we propose to leverage blockchain and remote sensing (satellite imagery) to provide a publicly verifiable platform for solar energy insurance, which not only automates the underwriting and claims of a solar energy insurance policy, but also improves its accountability and transparency. We utilize the state-of-the-art succinct zero-knowledge proofs (zk-SNARK) to realize privacy-preserving blockchain-based solar energy insurance on real-world permissionless blockchain platform Ethereum.
翻訳日:2023-05-18 17:23:27 公開日:2023-05-17
# 反射性ポテンシャル井戸による1次元量子滴の散乱

Scattering of one-dimensional quantum droplets by a reflectionless potential well ( http://arxiv.org/abs/2305.09960v1 )

ライセンス: Link先を確認
Xiaoxiao Hu, Zhiqiang Li, Yu Guo, Yajiang Chen, and Xiaobing Luo(参考訳) 解析的にも数値的にもp\"{o}schl-tellerリフレクションレスポテンシャルによる1次元量子液滴の散乱について検討し,小液滴と大液滴の両方において,一定の臨界入射速度で全反射と全透過の間に鋭い遷移があることを確認した。 我々は小さな量子滴散乱と大きな量子滴散乱の鋭い違いを観察する。 小さな量子滴の散乱は、臨界速度で空間対称の閉じ込められたモードが形成されるソリトンと似ているが、大きな量子滴では空間非対称の閉じ込められたモードが形成される。 さらに、原子数に対する臨界速度の非単調な依存を以下に示す:$小滴側では、臨界速度は原子数とともに増加し、フラットトップレジームでは、臨界速度は原子数の増加に伴って減少する。 厳密には、散乱は粒子放出閾値以下の内部モードを励起し、ポテンシャルとの相互作用によって量子滴が放射されるのを防ぐ。 微小振幅励起スペクトルの解析は、粒子数が増加するにつれて、散乱中に粒子を液滴の外へ放出することがますます困難になることを示しているが、ソリトンからの放射は完全に避けることはできない。 最後に,2つの量子液滴の非反射ポテンシャルでの衝突について検討し,非反射ポテンシャルが作用する$\pi$-phase difference ``generator'' の役割を明らかにする。

We investigate, both analytically and numerically, the scattering of one-dimensional quantum droplets by a P\"{o}schl-Teller reflectionless potential well, confirming that there is a sharp transition between full reflection and full transmission at a certain critical incident speed for both small droplets and large flat-top droplets. We observe sharp differences between small quantum droplet scattering and large quantum droplet scattering. The scattering of small quantum droplets is similar to that of solitons, where a spatially symmetric trapped mode is formed at the critical speed, whereas for large quantum droplets a spatially asymmetric trapped mode is formed. Additionally, a nonmonotonous dependence of the critical speed on the atom number is identified$:$ on the small-droplet side, the critical speed increases with the atom number, while in the flat-top regime, the critical speed decreases with increasing the atom number. Strikingly, the scattering excites internal modes below the particle-emission threshold, preventing the quantum droplets from emitting radiation upon interaction with the potential. Analysis of the small-amplitude excitation spectrum shows that as the number of particles increases, it becomes increasingly difficult to emit particles outside the droplet during scattering, while radiation from solitons cannot be completely avoided. Finally, we study the collision of two quantum droplets at the reflectionless potential, revealing the role of the $\pi$-phase difference ``generator'' played by the reflectionless potential.
翻訳日:2023-05-18 17:23:06 公開日:2023-05-17
# SIMGA: 効率的なグローバルアグリゲーションを備えた単純で効果的なヘテロフィルスグラフニューラルネットワーク

SIMGA: A Simple and Effective Heterophilous Graph Neural Network with Efficient Global Aggregation ( http://arxiv.org/abs/2305.09958v1 )

ライセンス: Link先を確認
Haoyu Liu, Ningyi Liao, Siqiang Luo(参考訳) グラフニューラルネットワーク(GNN)は、グラフ学習において大きな成功を収めているが、不均等に会うとパフォーマンスが低下する。 異種GNNのグローバルアグリゲーションの非協調化の試みでは、通常、$n$のノードを持つグラフに対して$\mathcal{O}(n^2)$の計算効率を必要とするフルグラフ情報を反復的に保持し更新する必要がある。 本稿では,SimRank構造類似度測定をグローバルアグリゲーションとして統合したGNN構造であるSIMGAを提案する。 SIMGAの設計は単純だが、効率と有効性の両方において有望な結果をもたらす。 SIMGAの単純さにより、伝播効率をほぼ直線的に$n$にできる最初の異種GNNモデルとなる。 我々は、SimRankをGNNの新たな解釈として扱うことにより、その効果を理論的に証明し、集約ノード表現行列がグループ化効果を持つことを示す。 simgaのパフォーマンスは、12のベンチマークデータセットで11のベースラインで評価され、通常、最先端モデルよりも優れた精度を達成している。 効率性の研究によると、SIMGAは3000万のエッジを持つ最大のヘテロフィリーデータセットポケックの最先端の手法よりも最大5$\times$高速である。

Graph neural networks (GNNs) realize great success in graph learning but suffer from performance loss when meeting heterophily, i.e. neighboring nodes are dissimilar, due to their local and uniform aggregation. Existing attempts in incoorporating global aggregation for heterophilous GNNs usually require iteratively maintaining and updating full-graph information, which entails $\mathcal{O}(n^2)$ computation efficiency for a graph with $n$ nodes, leading to weak scalability to large graphs. In this paper, we propose SIMGA, a GNN structure integrating SimRank structural similarity measurement as global aggregation. The design of SIMGA is simple, yet it leads to promising results in both efficiency and effectiveness. The simplicity of SIMGA makes it the first heterophilous GNN model that can achieve a propagation efficiency near-linear to $n$. We theoretically demonstrate its effectiveness by treating SimRank as a new interpretation of GNN and prove that the aggregated node representation matrix has expected grouping effect. The performances of SIMGA are evaluated with 11 baselines on 12 benchmark datasets, usually achieving superior accuracy compared with the state-of-the-art models. Efficiency study reveals that SIMGA is up to 5$\times$ faster than the state-of-the-art method on the largest heterophily dataset pokec with over 30 million edges.
翻訳日:2023-05-18 17:22:38 公開日:2023-05-17
# 深い量子ニューラルネットワークがガウス過程を形成する

Deep quantum neural networks form Gaussian processes ( http://arxiv.org/abs/2305.09957v1 )

ライセンス: Link先を確認
Diego Garc\'ia-Mart\'in, Martin Larocca, M. Cerezo(参考訳) 独立かつ同一に分布する前駆体から初期化された人工ニューラルネットワークは、隠れ層当たりのニューロン数の制限でガウス過程に収束することが知られている。 本研究では,量子ニューラルネットワーク(QNN)の類似性を証明する。 すなわち、Haarランダムユニタリあるいは直交深度QNNに基づく特定のモデルの出力が、大きなヒルベルト空間次元$d$の極限でガウス過程に収束することを示す。 この結果の導出は、入力状態が果たす役割、観測可能な測定、ユニタリ行列のエントリが独立ではないという事実から、古典的な場合よりも微妙なものである。 我々の分析の重要な結果は、続くガウス過程はベイズ統計を通じてqnnの出力を効率的に予測することができないということである。 さらに、我々の定理は、予想値と勾配が、ヒルベルト空間次元において指数関数的に$\mathcal{O}\left(\frac{1}{e^d \sqrt{d}}\right)$として集中していることを証明するため、ハールランダムQNNにおける測度現象の集中は以前考えられていたよりもはるかに悪いことを示唆している。 最後に、この結果が$t$-designsにおける濃度の理解をいかに改善するかについて議論する。

It is well known that artificial neural networks initialized from independent and identically distributed priors converge to Gaussian processes in the limit of large number of neurons per hidden layer. In this work we prove an analogous result for Quantum Neural Networks (QNNs). Namely, we show that the outputs of certain models based on Haar random unitary or orthogonal deep QNNs converge to Gaussian processes in the limit of large Hilbert space dimension $d$. The derivation of this result is more nuanced than in the classical case due the role played by the input states, the measurement observable, and the fact that the entries of unitary matrices are not independent. An important consequence of our analysis is that the ensuing Gaussian processes cannot be used to efficiently predict the outputs of the QNN via Bayesian statistics. Furthermore, our theorems imply that the concentration of measure phenomenon in Haar random QNNs is much worse than previously thought, as we prove that expectation values and gradients concentrate as $\mathcal{O}\left(\frac{1}{e^d \sqrt{d}}\right)$ -- exponentially in the Hilbert space dimension. Finally, we discuss how our results improve our understanding of concentration in $t$-designs.
翻訳日:2023-05-18 17:22:12 公開日:2023-05-17
# DinoSR:自己教師型音声表現学習のための自己拡張とオンラインクラスタリング

DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning ( http://arxiv.org/abs/2305.10005v1 )

ライセンス: Link先を確認
Alexander H. Liu, Heng-Jui Chang, Michael Auli, Wei-Ning Hsu, James R. Glass(参考訳) 本稿では,マスク付き言語モデリング,自己蒸留,オンラインクラスタリングを組み合わせた自己教師型音声表現学習(DinoSR)のための自己蒸留とオンラインクラスタリングを提案する。 これらの概念が互いに補完しあうことを示し,音声表現学習モデルを構築した。 DinoSRはまず、入力されたオーディオから教師ネットワークにコンテキスト化された埋め込みを抽出し、埋め込み上にオンラインクラスタリングシステムを実行して、マシンが発見した電話の在庫を出力し、最後に識別トークンを使用して学生ネットワークを誘導する。 本稿では,DinoSRが複数の下流タスクにおいて過去の最先端性能を上回ることを示し,モデルと学習した離散単位の詳細な解析を行う。 ソースコードは匿名化期間後に利用可能になる。

In this paper, we introduce self-distillation and online clustering for self-supervised speech representation learning (DinoSR) which combines masked language modeling, self-distillation, and online clustering. We show that these concepts complement each other and result in a strong representation learning model for speech. DinoSR first extracts contextualized embeddings from the input audio with a teacher network, then runs an online clustering system on the embeddings to yield a machine-discovered phone inventory, and finally uses the discretized tokens to guide a student network. We show that DinoSR surpasses previous state-of-the-art performance in several downstream tasks, and provide a detailed analysis of the model and the learned discrete units. The source code will be made available after the anonymity period.
翻訳日:2023-05-18 17:16:22 公開日:2023-05-17
# 速度制限量子古典的最適輸送の符号化定理

A Coding Theorem for Rate-Limited Quantum-Classical Optimal Transport ( http://arxiv.org/abs/2305.10004v1 )

ライセンス: Link先を確認
Hafez M. Garmaroudi, S. Sandeep Pradhan, Jun Chen(参考訳) 速度制限のある量子古典的最適輸送系の符号化定理を定式化する。 この定理は、観測可能な一般歪みに対して、送信先歪みを所定の閾値以下に保ちながら、所定の目的地状態の忠実な構築のための製品ソース状態における測定プロトコルのレート領域を特徴付ける。 また、通信速度の制限された絡み合い破壊チャネルを介して、ソース量子状態から宛先状態へ変換する最適なコストを求めるために、レート制限の最適輸送の問題に対する解決策を提供する。 符号定理はさらに、ボソニック連続変数量子系をカバーするように拡張される。 量子ビット計測システムの場合, ランダム性を無限に有する解析的評価を行う。

We establish a coding theorem for rate-limited quantum-classical optimal transport systems with limited classical common randomness. This theorem characterizes the rate region of measurement protocols on a product source state for faithful construction of a given destination state while maintaining the source-destination distortion below a prescribed threshold with respect to a general distortion observable. It also provides a solution to the problem of rate-limited optimal transport, which aims to find the optimal cost of transforming a source quantum state to a destination state via an entanglement-breaking channel with a limited communication rate. The coding theorem is further extended to cover Bosonic continuous-variable quantum systems. The analytical evaluation is performed for the case of a qubit measurement system with unlimited common randomness.
翻訳日:2023-05-18 17:16:08 公開日:2023-05-17
# 近赤外可視画像融合と高感度物体検出のための相互強化パラダイム

An Interactively Reinforced Paradigm for Joint Infrared-Visible Image Fusion and Saliency Object Detection ( http://arxiv.org/abs/2305.09999v1 )

ライセンス: Link先を確認
Di Wang, Jinyuan Liu, Risheng Liu, Xin Fan(参考訳) 本研究は,野生における隠れた物体の発見と局在に着目し,無人システムを提供する。 経験的解析により、赤外線と可視画像融合(IVIF)は、画像内の物体の正確な空間的位置を正確に決定するのに対し、多モードサリエント物体検出(SOD)は画像内の物体の正確な位置を正確に決定する。 彼らの共通する特徴は、異なるソース画像から補完的手がかりを求めることで、初めてIRFSと呼ばれるインタラクティブ強化マルチタスクパラダイムを用いて、赤外線および可視画像上の融合と塩物検出タスクの協調関係を探求する動機となる。 本研究では,マルチモーダル画像融合とsodタスクのシームレスなブリッジを実現するために,ソース画像から干渉する特徴を表示できるfsfnet(feature screening-based fusion subnetwork)を開発した。 FSFNetを介して融合画像を生成した後、その融合画像から得られた相補的情報を活用して、その相補性マップを正確に予測する第3のモダリティとして、後のFusion-Guided Cross-Complementary SODサブネットワーク(FC$^2$Net)に入力される。 さらに,より短いトレーニング期間と少ないネットワークパラメータで,IVIFとSODタスクの相互強化を実現するための対話型ループ学習戦略を開発する。 総合実験の結果,IVIFとSOODのシームレスブリッジは相互に性能を向上し,その優位性を強調している。

This research focuses on the discovery and localization of hidden objects in the wild and serves unmanned systems. Through empirical analysis, infrared and visible image fusion (IVIF) enables hard-to-find objects apparent, whereas multimodal salient object detection (SOD) accurately delineates the precise spatial location of objects within the picture. Their common characteristic of seeking complementary cues from different source images motivates us to explore the collaborative relationship between Fusion and Salient object detection tasks on infrared and visible images via an Interactively Reinforced multi-task paradigm for the first time, termed IRFS. To the seamless bridge of multimodal image fusion and SOD tasks, we specifically develop a Feature Screening-based Fusion subnetwork (FSFNet) to screen out interfering features from source images, thereby preserving saliency-related features. After generating the fused image through FSFNet, it is then fed into the subsequent Fusion-Guided Cross-Complementary SOD subnetwork (FC$^2$Net) as the third modality to drive the precise prediction of the saliency map by leveraging the complementary information derived from the fused image. In addition, we develop an interactive loop learning strategy to achieve the mutual reinforcement of IVIF and SOD tasks with a shorter training period and fewer network parameters. Comprehensive experiment results demonstrate that the seamless bridge of IVIF and SOD mutually enhances their performance, and highlights their superiority.
翻訳日:2023-05-18 17:15:56 公開日:2023-05-17
# 任意ハイブリッド気象条件下での1歩の復元画像

Restoring Images Captured in Arbitrary Hybrid Adverse Weather Conditions in One Go ( http://arxiv.org/abs/2305.09996v1 )

ライセンス: Link先を確認
Ye-Cong Wan, Ming-Wen Shao, Yuan-Shuo Cheng, Yue-Xian Liu, Zhi-Yuan Bao, De-Yu Meng(参考訳) 逆条件は通常、確率的なハイブリッド気象の劣化(雨や曇りの夜など)に悩まされるが、既存の画像復元アルゴリズムでは、気象の悪化は独立して起こるので、現実の複雑なシナリオに対処できない可能性がある。 さらに、ハイブリッド条件を特徴付ける包括的なペアデータセットがないため、教師付きトレーニングは実現不可能である。 この目的のために、前述の制限をフレームワークとデータという2つの戦略で進めました。 一方, RAHCと呼ばれる新しい統合された枠組みは, 1回に任意ハイブリッド気象条件を復元し, 背景成分が不足したハイブリッドシナリオを快適に扱えるようにし, 任意のハイブリッド条件を1つの訓練モデルで柔軟に復元することができる。 一方,HACと呼ばれる新しいデータセットを構築し,任意のハイブリッド逆条件の復元を学習し,ベンチマークする。 hacには5つの一般的な天気の組み合わせからなる31のシナリオがあり、合計で316kの悪天候/クリーンペアがある。 製作に関しては、トレーニングセットはフリールのない専用AdverseGANによって自動生成され、テストセットは専門家によって手動で調整され、権威評価が行われる。 大規模な実験は優れた結果をもたらし、特にHACと従来のデータセットの両方で新しい最先端の結果を確立する。

Adverse conditions typically suffer from stochastic hybrid weather degradations (e.g., rainy and hazy night), while existing image restoration algorithms envisage that weather degradations occur independently, thus may fail to handle real-world complicated scenarios. Besides, supervised training is not feasible due to the lack of comprehensive paired dataset to characterize hybrid conditions. To this end, we have advanced the forementioned limitations with two tactics: framework and data. On the one hand, we present a novel unified framework, dubbed RAHC, to Restore Arbitrary Hybrid adverse weather Conditions in one go, which can comfortably cope with hybrid scenarios with insufficient remaining background constituents and restore arbitrary hybrid conditions with a single trained model flexibly. On the other hand, we establish a new dataset, termed HAC, for learning and benchmarking arbitrary Hybrid Adverse Conditions restoration. HAC contains 31 scenarios composed of an arbitrary combination of five common weather, with a total of ~316K adverse-weather/clean pairs. As for fabrication, the training set is automatically generated by a dedicated AdverseGAN with no-frills labor, while the test set is manually modulated by experts for authoritative evaluation. Extensive experiments yield superior results and in particular establish new state-of-the-art results on both HAC and conventional datasets.
翻訳日:2023-05-18 17:15:23 公開日:2023-05-17
# BASEN:マルチトーカー条件における畳み込み注意を伴う時間領域脳支援音声強調ネットワーク

BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with Convolutional Cross Attention in Multi-talker Conditions ( http://arxiv.org/abs/2305.09994v1 )

ライセンス: Link先を確認
Jie Zhang, Qing-Tian Xu, Qiu-Shi Zhu, Zhen-Hua Ling(参考訳) 時間領域単一チャネル音声強調(SE)は、マルチトーカー条件に関する事前情報なしでターゲット話者を抽出することが依然として困難である。 聴取者の脳活動に参加者の聴取者の聴覚情報が含まれていることを聴覚注意復号法を用いて示す。 本稿では,脳波(EEG)信号を聴取者から記録した時間領域脳波支援SEネットワーク(BASEN)を用いて,単音節混合音声からターゲット話者を抽出する手法を提案する。 提案するbasenは,完全畳み込み型時間領域音声分離ネットワークに基づいている。 また,脳波信号に含まれる補完的情報を十分に活用するために,二重分岐特徴を融合する畳み込み多層クロスアテンションモジュールを提案する。 公開データセットを用いた実験結果から,提案手法はいくつかの評価指標において高い性能を示した。 再現可能なコードはhttps://github.com/jzhangu/basen.gitで入手できる。

Time-domain single-channel speech enhancement (SE) still remains challenging to extract the target speaker without any prior information on multi-talker conditions. It has been shown via auditory attention decoding that the brain activity of the listener contains the auditory information of the attended speaker. In this paper, we thus propose a novel time-domain brain-assisted SE network (BASEN) incorporating electroencephalography (EEG) signals recorded from the listener for extracting the target speaker from monaural speech mixtures. The proposed BASEN is based on the fully-convolutional time-domain audio separation network. In order to fully leverage the complementary information contained in the EEG signals, we further propose a convolutional multi-layer cross attention module to fuse the dual-branch features. Experimental results on a public dataset show that the proposed model outperforms the state-of-the-art method in several evaluation metrics. The reproducible code is available at https://github.com/jzhangU/Basen.git.
翻訳日:2023-05-18 17:15:00 公開日:2023-05-17
# リプロンプティング:ギブズサンプリングによるチェーン・オブ・サート・プロンプト推論の自動化

Reprompting: Automated Chain-of-Thought Prompt Inference Through Gibbs Sampling ( http://arxiv.org/abs/2305.09993v1 )

ライセンス: Link先を確認
Weijia Xu, Andrzej Banburski-Fahey, Nebojsa Jojic(参考訳) Repromptingは、人間の介入なしに与えられたタスクに対するCoT(Chain-of-Thought)レシピを探索する反復サンプリングアルゴリズムである。 Gibbsサンプリングを通じて、一連のトレーニングサンプルに対して一貫して動作するCoTレシピを推測します。 提案手法は, 事前サンプル法を用いて新しいレシピを反復的にサンプリングし, 他の学習課題の解決に役立てる。 マルチステップ推論を必要とする5つのビッグベンチハードタスクでは、ゼロショット、少数ショット、人間書きのcotベースラインよりも一貫して優れたパフォーマンスを達成している。 また、より強いモデルから弱いモデルへの知識の移譲が容易になり、弱いモデルの性能が大幅に向上する。 全体として、Repromptingは、人間の書き起こしたCoTプロンプトを使用する従来の最先端メソッドよりも+17ポイント改善されている。

We introduce Reprompting, an iterative sampling algorithm that searches for the Chain-of-Thought (CoT) recipes for a given task without human intervention. Through Gibbs sampling, we infer CoT recipes that work consistently well for a set of training samples. Our method iteratively samples new recipes using previously sampled solutions as parent prompts to solve other training problems. On five Big-Bench Hard tasks that require multi-step reasoning, Reprompting achieves consistently better performance than the zero-shot, few-shot, and human-written CoT baselines. Reprompting can also facilitate transfer of knowledge from a stronger model to a weaker model leading to substantially improved performance of the weaker model. Overall, Reprompting brings up to +17 point improvements over the previous state-of-the-art method that uses human-written CoT prompts.
翻訳日:2023-05-18 17:14:45 公開日:2023-05-17
# 融合モデル:仮想的・物理的・認知的統合とその原理に向けて

A Fusion Model: Towards a Virtual, Physical and Cognitive Integration and its Principles ( http://arxiv.org/abs/2305.09992v1 )

ライセンス: Link先を確認
Hao Lan Zhang, Yun Xue, Yifan Lu, and Sanghyuk Lee(参考訳) 仮想現実(vr)、拡張現実(ar)、混合現実(mr)、デジタルツイン、メタバース、その他の関連デジタル技術が近年注目を集めている。 これらの新しい技術は世界を大きく変えつつある。 この研究は融合モデル、すなわちフュージョン・ユニバース(FU)を導入し、仮想世界、物理的世界、認知世界が統合される。 したがって、我々の物理宇宙の法則や原理と互換性のある融合モデルのための一連の原則を確立することが不可欠である。 本稿では,没入感と対話性に影響を及ぼすいくつかの側面を考察し,物理世界と仮想世界をシームレスに統合するFusion Universeの基本原理を提案する。

Virtual Reality (VR), Augmented Reality (AR), Mixed Reality (MR), digital twin, Metaverse and other related digital technologies have attracted much attention in recent years. These new emerging technologies are changing the world significantly. This research introduces a fusion model, i.e. Fusion Universe (FU), where the virtual, physical, and cognitive worlds are merged together. Therefore, it is crucial to establish a set of principles for the fusion model that is compatible with our physical universe laws and principles. This paper investigates several aspects that could affect immersive and interactive experience; and proposes the fundamental principles for Fusion Universe that can integrate physical and virtual world seamlessly.
翻訳日:2023-05-18 17:14:31 公開日:2023-05-17
# デュアルセマンティック知識を用いたマルチモーダル対話システム

Dual Semantic Knowledge Composed Multimodal Dialog Systems ( http://arxiv.org/abs/2305.09990v1 )

ライセンス: Link先を確認
Xiaolin Chen, Xuemeng Song, Yinwei Wei, Liqiang Nie, Tat-Seng Chua(参考訳) テキスト応答生成はマルチモーダルなタスク指向対話システムにとって不可欠なタスクであり、既存の研究は実りある進歩を遂げているが、それでも2つの限界を被っている。 1)属性知識に焦点をあてるが、異なる実体間の相関関係を明らかにし、それゆえ応答生成を促進する関係知識を無視する。 2) クロスエントロピー損失に基づく出力レベルの監督を行うが, 表現レベルの正規化を欠く。 これらの制約に対処するため,新しいマルチモーダルタスク指向対話システム(MDS-S2)を開発した。 具体的には、まずmds-s2が知識ベースから文脈関連属性と関係知識を同時に取得し、nホップグラフウォークによって非直観的関係知識を抽出する。 その後、属性知識と関係知識が、異なるレベルの質問に対する応答に有益であると考え、mds-s2で多レベル知識合成モジュールを設計し、潜在合成応答表現を得る。 さらに、合成された応答表現と基底真理応答表現から意味情報を抽出するために、潜在クエリ変数の集合を考案し、表現レベルの意味正規化を行う。 公開データセットに対する大規模な実験により,提案したMDS-S2の優位性が確認された。 研究コミュニティを促進するためのコードとパラメータをリリースしました。

Textual response generation is an essential task for multimodal task-oriented dialog systems.Although existing studies have achieved fruitful progress, they still suffer from two critical limitations: 1) focusing on the attribute knowledge but ignoring the relation knowledge that can reveal the correlations between different entities and hence promote the response generation}, and 2) only conducting the cross-entropy loss based output-level supervision but lacking the representation-level regularization. To address these limitations, we devise a novel multimodal task-oriented dialog system (named MDS-S2). Specifically, MDS-S2 first simultaneously acquires the context related attribute and relation knowledge from the knowledge base, whereby the non-intuitive relation knowledge is extracted by the n-hop graph walk. Thereafter, considering that the attribute knowledge and relation knowledge can benefit the responding to different levels of questions, we design a multi-level knowledge composition module in MDS-S2 to obtain the latent composed response representation. Moreover, we devise a set of latent query variables to distill the semantic information from the composed response representation and the ground truth response representation, respectively, and thus conduct the representation-level semantic regularization. Extensive experiments on a public dataset have verified the superiority of our proposed MDS-S2. We have released the codes and parameters to facilitate the research community.
翻訳日:2023-05-18 17:14:18 公開日:2023-05-17
# 短走査アミロイドPET再構成のための堅牢なマルチドメインネットワーク

A robust multi-domain network for short-scanning amyloid PET reconstruction ( http://arxiv.org/abs/2305.09986v1 )

ライセンス: Link先を確認
Hyoung Suk Park and Young Jin Jeong and Kiwan Jeon(参考訳) 本稿では,低品質のアミロイドpet画像を短時間で復元するロバストなマルチドメインネットワークを提案する。 提案手法は,複数のドメインから抽出した短距離(2分)および標準20分(20分)のPET画像のペアをトレーニングする。 これらのドメイン間の関連画像特徴を単一のネットワークで学ぶことは困難である。 私たちの重要な貢献は、異なるドメイン間の特定の表現を効果的に学習できるマッピングラベルの導入です。 さまざまなマッピングラベルでトレーニングされたこのネットワークは、新しいラジオトレーサ、取得プロトコル、PETスキャナーなど、複数のトレーニングドメインと見えないドメインのアミロイドPETデータセットを効率的に修正することができる。 内部検証,時間検証,外部検証は,提案手法の有効性を示す。 特に,未発見領域からの外部検証データセットに対しては,正規化ルート平均二乗誤差や構造類似性指標尺度などの定量的指標を用いて,これらのデータセットで訓練された手法と比較し,比較し,優れた結果を得た。 2人の核医学医は、アミロイドの状態を、それぞれ1と2で0.970と0.930と、外部の検証データセットで正または負と評価した。

This paper presents a robust multi-domain network designed to restore low-quality amyloid PET images acquired in a short period of time. The proposed method is trained on pairs of PET images from short (2 minutes) and standard (20 minutes) scanning times, sourced from multiple domains. Learning relevant image features between these domains with a single network is challenging. Our key contribution is the introduction of a mapping label, which enables effective learning of specific representations between different domains. The network, trained with various mapping labels, can efficiently correct amyloid PET datasets in multiple training domains and unseen domains, such as those obtained with new radiotracers, acquisition protocols, or PET scanners. Internal, temporal, and external validations demonstrate the effectiveness of the proposed method. Notably, for external validation datasets from unseen domains, the proposed method achieved comparable or superior results relative to methods trained with these datasets, in terms of quantitative metrics such as normalized root mean-square error and structure similarity index measure. Two nuclear medicine physicians evaluated the amyloid status as positive or negative for the external validation datasets, with accuracies of 0.970 and 0.930 for readers 1 and 2, respectively.
翻訳日:2023-05-18 17:13:57 公開日:2023-05-17
# s$^3$track:ソフト割り当てフローを用いた自己教師付きトラッキング

S$^3$Track: Self-supervised Tracking with Soft Assignment Flow ( http://arxiv.org/abs/2305.09981v1 )

ライセンス: Link先を確認
Fatemeh Azimi and Fahim Mannan and Felix Heide(参考訳) 本研究では,ビデオレベルのアソシエーションラベルを使わずに,自己監督型複数物体追跡について検討する。 本稿では,連続フレームにおける検出間のフレームワイドな関連を学習する手段として,複数物体追跡の問題を提案する。 そこで本研究では,オブジェクトアソシエイトに適した特徴を学習し,オブジェクトアソシエイトに対する識別可能なソフトオブジェクトアロケーションを提案する。 この学習手法により,オブジェクト特徴間のペア距離に基づいてコスト行列を構築するために使用される,インスタンス認識オブジェクト特徴を学習するための外観モデルを開発する。 我々は,時間的および多視点データを用いてモデルを訓練し,光学的流れと異質性情報を用いた連想擬似ラベルを得る。 特徴対応を学習するためのプリテキストタスクに依存するほとんどの自己教師付きトラッキング手法とは異なり、複雑なシナリオにおけるクロスオブジェクトアソシエーションに直接最適化されている。 そこで,提案手法は,ハイパーパラメータのトレーニングに頑健であり,局所的ミニマムに支障を来さない再同定に基づくmotアプローチを提供する。 提案モデルをkitti,waymo,nuscenes,argoverseデータセット上で評価し,教師なしの他の手法に対して一貫して改善する (7.8\%$$,nuscenesの関連精度向上)。

In this work, we study self-supervised multiple object tracking without using any video-level association labels. We propose to cast the problem of multiple object tracking as learning the frame-wise associations between detections in consecutive frames. To this end, we propose differentiable soft object assignment for object association, making it possible to learn features tailored to object association with differentiable end-to-end training. With this training approach in hand, we develop an appearance-based model for learning instance-aware object features used to construct a cost matrix based on the pairwise distances between the object features. We train our model using temporal and multi-view data, where we obtain association pseudo-labels using optical flow and disparity information. Unlike most self-supervised tracking methods that rely on pretext tasks for learning the feature correspondences, our method is directly optimized for cross-object association in complex scenarios. As such, the proposed method offers a reidentification-based MOT approach that is robust to training hyperparameters and does not suffer from local minima, which are a challenge in self-supervised methods. We evaluate our proposed model on the KITTI, Waymo, nuScenes, and Argoverse datasets, consistently improving over other unsupervised methods ($7.8\%$ improvement in association accuracy on nuScenes).
翻訳日:2023-05-18 17:13:34 公開日:2023-05-17
# 低照度画像強調のためのピラミッド拡散モデル

Pyramid Diffusion Models For Low-light Image Enhancement ( http://arxiv.org/abs/2305.10028v1 )

ライセンス: Link先を確認
Dewei Zhou, Zongxin Yang, Yi Yang(参考訳) 低照度画像からノイズを隠蔽した詳細を復元することは困難であり、従来の方法で得られた結果は改善の余地を残している。 近年の拡散モデルでは,高精細化の連続を通じ,写実的かつ詳細な画像生成を示し,低光度画像強調に導入し,写実的詳細を復元する動機付けを行っている。 しかし、これを行うと2つの問題を見つけました。 1)拡散モデルは、速度を制限する1つの逆プロセスで一定解像度を保つ。 2)拡散モデルは時々大域的な劣化(例えばrgbシフト)を引き起こす。 そこで本研究では,低照度画像強調のためのピラミッド拡散モデル(PyDiff)を提案する。 ピディフは、新しいピラミッド拡散法を用いて、ピラミッド分解様式(すなわち、1つの逆過程において徐々に解像度が増大する)でサンプリングを行う。 ピラミッド拡散により、PyDiffはバニラ拡散モデルよりもはるかに高速になり、性能劣化は起こらない。 さらに、PyDiffは、逆プロセスで起こりうるグローバルな劣化を軽減するためにグローバルな修正器を使用し、性能を大幅に改善し、計算量の少ない拡散モデルのトレーニングを容易にする。 人気のあるベンチマークに関する大規模な実験は、PyDiffが優れたパフォーマンスと効率を達成することを示している。 さらに、PyDiffは、目に見えないノイズや照明分布をうまく一般化することができる。

Recovering noise-covered details from low-light images is challenging, and the results given by previous methods leave room for improvement. Recent diffusion models show realistic and detailed image generation through a sequence of denoising refinements and motivate us to introduce them to low-light image enhancement for recovering realistic details. However, we found two problems when doing this, i.e., 1) diffusion models keep constant resolution in one reverse process, which limits the speed; 2) diffusion models sometimes result in global degradation (e.g., RGB shift). To address the above problems, this paper proposes a Pyramid Diffusion model (PyDiff) for low-light image enhancement. PyDiff uses a novel pyramid diffusion method to perform sampling in a pyramid resolution style (i.e., progressively increasing resolution in one reverse process). Pyramid diffusion makes PyDiff much faster than vanilla diffusion models and introduces no performance degradation. Furthermore, PyDiff uses a global corrector to alleviate the global degradation that may occur in the reverse process, significantly improving the performance and making the training of diffusion models easier with little additional computational consumption. Extensive experiments on popular benchmarks show that PyDiff achieves superior performance and efficiency. Moreover, PyDiff can generalize well to unseen noise and illumination distributions.
翻訳日:2023-05-18 17:06:50 公開日:2023-05-17
# 証人によるコンプトン散乱の絡み合いエントロピー

Entanglement Entropy of Compton Scattering with a Witness ( http://arxiv.org/abs/2305.10027v1 )

ライセンス: Link先を確認
Shanmuka Shivashankara(参考訳) ユニタリティと光学定理は、証人粒子の存在下でのコンプトン散乱の密度行列の減少を導出するために用いられる。 2つの光子は最初は絡み合っており、1つの光子はコンプトン散乱に参加し、もう1つは証人であり、すなわち電子と相互作用しない。 ユニタリティは、目撃光子の絡み合いエントロピーが、絡み合ったパートナーが散乱した後は変化しないことが示されている。 電子および証人粒子の偏光の最終的な相互情報は、低エネルギーコンプトン散乱のノンゼロである。 これは、2つの粒子が直接相互作用しないにもかかわらず相関していることを示している。 初期最大絡み合い状態と仮定すると、散乱光子の偏光における絡み合いエントロピーの変化はストークスパラメータを用いて計算される。 領域の共通比は、最終還元密度行列要素、フォン・ノイマンエントロピー、ストークスパラメータ、相互情報において生じる。 この共通比はトムソン散乱断面積と到達可能な正規化散乱領域からなる。

Unitarity and the optical theorem are used to derive the reduced density matrices of Compton scattering in the presence of a witness particle. Two photons are initially entangled wherein one photon participates in Compton scattering while the other is a witness, i.e. does not interact with the electron. Unitarity is shown to require that the entanglement entropy of the witness photon does not change after its entangled partner undergoes scattering. The final mutual information of the electronic and witness particle's polarization is nonzero for low energy Compton scattering. This indicates that the two particles become correlated in spite of no direct interaction. Assuming an initial maximally entangled state, the change in entanglement entropy of the scattered photon's polarization is calculated in terms of Stokes parameters. A common ratio of areas occurs in the final reduced density matrix elements, von Neumann entropies, Stokes parameter, and mutual information. This common ratio consists of the Thomson scattering cross-section and an accessible regularized scattering area.
翻訳日:2023-05-18 17:06:30 公開日:2023-05-17
# 大腸内視鏡検査の再検討 : 走査ギャップのリアルタイム同定

Colonoscopy Coverage Revisited: Identifying Scanning Gaps in Real-Time ( http://arxiv.org/abs/2305.10026v1 )

ライセンス: Link先を確認
G. Leifman and I. Kligvasser and R. Goldenberg and M. Elad and E. Rivlin(参考訳) 大腸内視鏡は悪性化前にポリープを検出し除去することにより、最も広く用いられる大腸癌予防の医療技術である。 最近の研究では、既存のポリープの約4分の1が日常的に欠落していることが示されている。 そのうちのいくつかは内科医の視界に現れるが、結腸の部分的な被覆のために欠落するものもある。 近年,大腸の未発見領域の検出とマーキングの課題が解決されているが,3次元的真理の欠如や視覚コンテンツの乏しい期間などにより難易度が高い3次元再構成法が一般的である。 本稿では,信頼性の高い3次元再構成が不可能なビデオセグメントに対して,リアルタイムに局所的カバレッジの不足を検出する新しい補完手法を提案する。 内視鏡のドリフト位置による大腸沿面のスキップを,可視時間間隔の低さで同定することを目的とした。 提案する解は2つの相からなる。 最初の段階では、大腸の視認性の良い時間セグメントと、そのギャップが特定される。 第2フェーズでは、トレーニングされたモデルが各ギャップで動作し、次のような質問に答える。 答えが負なら、内科医は警告を受け、リアルタイムで適切な領域に向けることができる。 第2相モデルは、自動生成例に基づくコントラスト損失を用いて訓練される。 訓練を受けた医師がアノテートした250の手順のデータセットについて, 感度0.75, 特異度0.9。

Colonoscopy is the most widely used medical technique for preventing Colorectal Cancer, by detecting and removing polyps before they become malignant. Recent studies show that around one quarter of the existing polyps are routinely missed. While some of these do appear in the endoscopist's field of view, others are missed due to a partial coverage of the colon. The task of detecting and marking unseen regions of the colon has been addressed in recent work, where the common approach is based on dense 3D reconstruction, which proves to be challenging due to lack of 3D ground truth and periods with poor visual content. In this paper we propose a novel and complementary method to detect deficient local coverage in real-time for video segments where a reliable 3D reconstruction is impossible. Our method aims to identify skips along the colon caused by a drifted position of the endoscope during poor visibility time intervals. The proposed solution consists of two phases. During the first, time segments with good visibility of the colon and gaps between them are identified. During the second phase, a trained model operates on each gap, answering the question: Do you observe the same scene before and after the gap? If the answer is negative, the endoscopist is alerted and can be directed to the appropriate area in real-time. The second phase model is trained using a contrastive loss based on auto-generated examples. Our method evaluation on a dataset of 250 procedures annotated by trained physicians provides sensitivity of 0.75 with specificity of 0.9.
翻訳日:2023-05-18 17:06:14 公開日:2023-05-17
# ASP(Q)の効率的な解法

An efficient solver for ASP(Q) ( http://arxiv.org/abs/2305.10021v1 )

ライセンス: Link先を確認
Wolfgang Faber, Giuseppe Mazzotta, and Francesco Ricca(参考訳) 量子化子による解集合プログラミング asp(q) は解集合プログラミング (asp) を拡張し、多項式階層全体から問題に対して宣言的かつモジュラーなモデリングを可能にする。 ASP(Q)の最初の実装であるqaspは、よく開発され成熟したQBF解決技術を活用することを目的として、Quantified Boolean Formulae (QBF) への翻訳に基づいていた。 しかし、qaspで使用されるQBFエンコーディングの実装は非常に一般的であり、多数のシンボルとサブクラスのために既存のQBFソルバでは評価が難しい公式を生成する可能性がある。 本稿では,QBF における ASP(Q) プログラムのより効率的な符号化手順と新しい最適化符号化の両方を特徴とする,qasp のアイデアに基づく新しい実装を提案する。 新しいエンコーディングは、(量化子、変数、節の数という観点から)より小さな公式を生成し、より効率的な評価プロセスをもたらす。 アルゴリズム選択戦略は、複数のQBF解決バックエンドを自動的に組み合わせて、パフォーマンスをさらに向上させる。 既知のベンチマークで行った実験的分析では、新しいシステムがqaspよりも優れていることが示されている。

Answer Set Programming with Quantifiers ASP(Q) extends Answer Set Programming (ASP) to allow for declarative and modular modeling of problems from the entire polynomial hierarchy. The first implementation of ASP(Q), called qasp, was based on a translation to Quantified Boolean Formulae (QBF) with the aim of exploiting the well-developed and mature QBF-solving technology. However, the implementation of the QBF encoding employed in qasp is very general and might produce formulas that are hard to evaluate for existing QBF solvers because of the large number of symbols and sub-clauses. In this paper, we present a new implementation that builds on the ideas of qasp and features both a more efficient encoding procedure and new optimized encodings of ASP(Q) programs in QBF. The new encodings produce smaller formulas (in terms of the number of quantifiers, variables, and clauses) and result in a more efficient evaluation process. An algorithm selection strategy automatically combines several QBF-solving back-ends to further increase performance. An experimental analysis, conducted on known benchmarks, shows that the new system outperforms qasp.
翻訳日:2023-05-18 17:05:52 公開日:2023-05-17
# 半教師付き学習と視覚トランスフォーマーを用いた微細粒度分類のための転送学習

Transfer Learning for Fine-grained Classification Using Semi-supervised Learning and Visual Transformers ( http://arxiv.org/abs/2305.10018v1 )

ライセンス: Link先を確認
Manuel Lagunas, Brayan Impata, Victor Martinez, Virginia Fernandez, Christos Georgakis, Sofia Braun, Felipe Bertrand(参考訳) きめ細かい分類は、同じカテゴリ内のオブジェクト間の微妙な違いを識別する難しいタスクである。 このタスクは、データが不足しているシナリオでは特に難しい。 視覚変換器(ViT)が画像分類の強力なツールとして最近登場したのは、自己認識機構を用いて視覚データの表現を高度に表現する能力のためである。 本研究では,注釈付きデータがない状況に適応し,半教師付き学習技術を用いて微調整したViTモデルであるSemi-ViTを探索する。 これは、画像が手軽に手に入るが、ラベルはうるさい、存在しない、入手する費用がかかる電子商取引で特に一般的である。 以上の結果から,従来の畳み込みニューラルネットワーク(CNN)やViTよりも高い性能を示した。 これらの結果から,Semi-ViTsは視覚データの精密かつきめ細かな分類を必要とするアプリケーションに対して大きな可能性を秘めていることがわかった。

Fine-grained classification is a challenging task that involves identifying subtle differences between objects within the same category. This task is particularly challenging in scenarios where data is scarce. Visual transformers (ViT) have recently emerged as a powerful tool for image classification, due to their ability to learn highly expressive representations of visual data using self-attention mechanisms. In this work, we explore Semi-ViT, a ViT model fine tuned using semi-supervised learning techniques, suitable for situations where we have lack of annotated data. This is particularly common in e-commerce, where images are readily available but labels are noisy, nonexistent, or expensive to obtain. Our results demonstrate that Semi-ViT outperforms traditional convolutional neural networks (CNN) and ViTs, even when fine-tuned with limited annotated data. These findings indicate that Semi-ViTs hold significant promise for applications that require precise and fine-grained classification of visual data.
翻訳日:2023-05-18 17:05:31 公開日:2023-05-17
# 合成データ生成の実用性理論

Utility Theory of Synthetic Data Generation ( http://arxiv.org/abs/2305.10015v1 )

ライセンス: Link先を確認
Shirong Xu and Will Wei Sun and Guang Cheng(参考訳) 合成データの有用性を評価することは、合成アルゴリズムの有効性と効率を測定する上で重要である。 既存の結果は, 合成データの有用性の実証的評価に焦点が当てられているが, 合成データアルゴリズムによる有用性への影響に関する理論的理解は未解明のままである。 本稿では,一般計量に基づく合成アルゴリズムの有用性を定量的に評価することを目的として,統計的観点から実用理論を確立する。 この計量は、合成データセットと元のデータセットで訓練されたモデル間の一般化の絶対差として定義される。 我々は、この実用計量に対する解析的境界を確立し、計量が収束する臨界条件を調べる。 興味深い結果は、下流学習タスクのモデル仕様が正しい限り、合成特徴分布がユーティリティメトリックの収束のために元のものと必ずしも同一ではないことである。 もう一つの重要な実用指標は、合成データに基づくモデル比較である。 具体的には,合成データを用いて学習したモデルの一般化性能のランキングが元のデータと一致するように,合成データアルゴリズムの十分な条件を確立する。 最後に,非パラメトリックモデルとディープニューラルネットワークを用いた広範な実験を行い,理論的知見の検証を行った。

Evaluating the utility of synthetic data is critical for measuring the effectiveness and efficiency of synthetic algorithms. Existing results focus on empirical evaluations of the utility of synthetic data, whereas the theoretical understanding of how utility is affected by synthetic data algorithms remains largely unexplored. This paper establishes utility theory from a statistical perspective, aiming to quantitatively assess the utility of synthetic algorithms based on a general metric. The metric is defined as the absolute difference in generalization between models trained on synthetic and original datasets. We establish analytical bounds for this utility metric to investigate critical conditions for the metric to converge. An intriguing result is that the synthetic feature distribution is not necessarily identical to the original one for the convergence of the utility metric as long as the model specification in downstream learning tasks is correct. Another important utility metric is model comparison based on synthetic data. Specifically, we establish sufficient conditions for synthetic data algorithms so that the ranking of generalization performances of models trained on the synthetic data is consistent with that from the original data. Finally, we conduct extensive experiments using non-parametric models and deep neural networks to validate our theoretical findings.
翻訳日:2023-05-18 17:05:12 公開日:2023-05-17
# 深層学習のための多目的型パラメータ最適化に関する研究

A Survey on Multi-Objective based Parameter Optimization for Deep Learning ( http://arxiv.org/abs/2305.10014v1 )

ライセンス: Link先を確認
Mrittika Chakraborty (1), Wreetbhas Pal (1), Sanghamitra Bandyopadhyay (2) and Ujjwal Maulik (1) ((1) Jadavpur University, (2) Indian Statistical Institute)(参考訳) ディープラーニングモデルは、重要な特徴を抽出するための最も強力な機械学習モデルの1つである。 ディープニューラルモデルのほとんどの設計、すなわちパラメータの初期化は、まだ手動で調整されている。 したがって、高性能なモデルを得るのは非常に時間がかかり、時には不可能である。 したがって、ディープネットワークのパラメータを最適化するには、高い収束率で最適化アルゴリズムを改善する必要がある。 一般に使用される1つの目的ベース最適化手法は、主に時間消費であり、全ての場合において最適な性能を保証するものではない。 同時に最適化しなければならない複数の目的関数を含む数学的最適化問題は、パレート最適化と呼ばれる多目的最適化のカテゴリに該当する。 多目的最適化問題は、パラメータ最適化の選択肢でありながら有用な選択肢の1つである。 しかし、この領域は少しは検討されていない。 本稿では,深層ニューラルネットワークを用いたパラメータ最適化のための多目的最適化手法の有効性を検討する。 本研究で使用されるケーススタディは、複数のアプリケーションにおける予測と分析の生成に関する貴重な洞察を提供するために、この2つの手法を組み合わせる方法に焦点を当てている。

Deep learning models form one of the most powerful machine learning models for the extraction of important features. Most of the designs of deep neural models, i.e., the initialization of parameters, are still manually tuned. Hence, obtaining a model with high performance is exceedingly time-consuming and occasionally impossible. Optimizing the parameters of the deep networks, therefore, requires improved optimization algorithms with high convergence rates. The single objective-based optimization methods generally used are mostly time-consuming and do not guarantee optimum performance in all cases. Mathematical optimization problems containing multiple objective functions that must be optimized simultaneously fall under the category of multi-objective optimization sometimes referred to as Pareto optimization. Multi-objective optimization problems form one of the alternatives yet useful options for parameter optimization. However, this domain is a bit less explored. In this survey, we focus on exploring the effectiveness of multi-objective optimization strategies for parameter optimization in conjunction with deep neural networks. The case studies used in this study focus on how the two methods are combined to provide valuable insights into the generation of predictions and analysis in multiple applications.
翻訳日:2023-05-18 17:04:55 公開日:2023-05-17
# 勾配降下がデリバティブフリー最適化を満たす場合:ブラックボックスシナリオによるマッチング

When Gradient Descent Meets Derivative-Free Optimization: A Match Made in Black-Box Scenario ( http://arxiv.org/abs/2305.10013v1 )

ライセンス: Link先を確認
Chengcheng Han, Liqing Cui, Renyu Zhu, Jianing Wang, Nuo Chen, Qiushi Sun, Xiang Li, Ming Gao(参考訳) 大規模事前学習型言語モデル(PLM)は、その汎用性と幅広い自然言語処理(NLP)タスクを解く可能性において、大きな注目を集めている。 しかし、これらのPLMの実行コストは禁じられているかもしれない。 さらに、商業的考慮と、GPT-3のような誤用の潜在的なリスクのため、PLMはオープンソースにはならない。 PLMのパラメータと勾配はこのシナリオでは利用できない。 タスク固有の連続プロンプトのトレーニングには、勾配降下の代わりに微分自由最適化(DFO)を利用するブラックボックスチューニングが提案されている。 しかし, 勾配を含まない手法は, 勾配に基づく手法に比べ, 依然として有意な差を示した。 本稿では, 知識蒸留によるブラックボックス調律シナリオにおける勾配降下について述べる。 さらに,タスク固有の連続プロンプトを調和的に最適化するために,勾配降下と微分自由最適化を統合したGDFOを提案する。 実験結果から,GDFOは従来の最先端手法に比べて高い性能向上が得られた。

Large pre-trained language models (PLMs) have garnered significant attention for their versatility and potential for solving a wide spectrum of natural language processing (NLP) tasks. However, the cost of running these PLMs may be prohibitive. Furthermore, PLMs may not be open-sourced due to commercial considerations and potential risks of misuse, such as GPT-3. The parameters and gradients of PLMs are unavailable in this scenario. To solve the issue, black-box tuning has been proposed, which utilizes derivative-free optimization (DFO), instead of gradient descent, for training task-specific continuous prompts. However, these gradient-free methods still exhibit a significant gap compared to gradient-based methods. In this paper, we introduce gradient descent into black-box tuning scenario through knowledge distillation. Furthermore, we propose a novel method GDFO, which integrates gradient descent and derivative-free optimization to optimize task-specific continuous prompts in a harmonized manner. Experimental results show that GDFO can achieve significant performance gains over previous state-of-the-art methods.
翻訳日:2023-05-18 17:04:40 公開日:2023-05-17
# AD-KD: 言語モデル圧縮のための属性駆動型知識蒸留

AD-KD: Attribution-Driven Knowledge Distillation for Language Model Compression ( http://arxiv.org/abs/2305.10010v1 )

ライセンス: Link先を確認
Siyue Wu, Hongzhan Chen, Xiaojun Quan, Qifan Wang, Rui Wang(参考訳) 知識蒸留は最近、事前学習された言語モデルを圧縮するために多くの関心を集めている。 しかし、既存の知識蒸留法には2つの限界がある。 まず、生徒モデルは、基礎となる推論を無視しながら、単に教師の行動を模倣する。 第二に、これらの手法は通常、洗練されたモデル固有の知識の伝達に焦点を当てるが、データ固有の知識を見落としている。 本稿では,教師モデルの背後にあるトークンレベルの理論的根拠を,統合的グラディエント(IG)に基づいて探求し,帰属的知識を学生モデルに伝達する,新規な帰属的知識蒸留手法を提案する。 モデル推論と一般化の知識伝達を強化するため,我々は教師のあらゆる潜在的決定に対する多視点帰属蒸留について検討する。 総合的な実験は BERT を用いて GLUE ベンチマークで実施される。 実験結果は,いくつかの最先端手法に対するアプローチの優れた性能を示す。

Knowledge distillation has attracted a great deal of interest recently to compress pre-trained language models. However, existing knowledge distillation methods suffer from two limitations. First, the student model simply imitates the teacher's behavior while ignoring the underlying reasoning. Second, these methods usually focus on the transfer of sophisticated model-specific knowledge but overlook data-specific knowledge. In this paper, we present a novel attribution-driven knowledge distillation approach, which explores the token-level rationale behind the teacher model based on Integrated Gradients (IG) and transfers attribution knowledge to the student model. To enhance the knowledge transfer of model reasoning and generalization, we further explore multi-view attribution distillation on all potential decisions of the teacher. Comprehensive experiments are conducted with BERT on the GLUE benchmark. The experimental results demonstrate the superior performance of our approach to several state-of-the-art methods.
翻訳日:2023-05-18 17:04:22 公開日:2023-05-17
# EfficientSCI:大規模ビデオスナップショット圧縮画像の時空間分解による高結合ネットワーク

EfficientSCI: Densely Connected Network with Space-time Factorization for Large-scale Video Snapshot Compressive Imaging ( http://arxiv.org/abs/2305.10006v1 )

ライセンス: Link先を確認
Lishun Wang, Miao Cao, and Xin Yuan(参考訳) ビデオスナップショット圧縮イメージング(SCI)は、2次元検出器を用いて1回の露光時に連続するビデオフレームをキャプチャする。 その後、所望のビデオフレームを再構築するために効率的な再構成アルゴリズムを設計する必要がある。 最近のDeep Learning-based State-of-the-art(SOTA)再構成アルゴリズムは、ほとんどのタスクにおいて良い結果を得たが、過度のモデル複雑性とGPUメモリの制限により、依然として以下の課題に直面している。 これらの問題に対処するために、ビデオsciの "bf{\em efficient network}} を単一の残留ブロック内の "bf {\em dense connections and space-time factorization mechanism}} を用いて開発し、これを "bf \emph{ efficientsci}}" と呼ぶ。 EfficientSCIネットワークは、それぞれ空間領域における {\bf {\em convolution と時間領域における Transformer を用いて、空間時間相関を確立することができる。 圧縮率の高いUHDカラービデオは,PSNRが32dB以上である単一エンドツーエンドディープラーニングモデルを用いて,スナップショット2次元計測から再構成可能であることを示すのはこれが初めてである。 シミュレーションと実データの両方の大規模な結果から,提案手法は従来のSOTAアルゴリズムよりも高い性能を示し,実時間性能が向上した。 コードは \url{https://github.com/ucaswangls/EfficientSCI.git} にある。

Video snapshot compressive imaging (SCI) uses a two-dimensional detector to capture consecutive video frames during a single exposure time. Following this, an efficient reconstruction algorithm needs to be designed to reconstruct the desired video frames. Although recent deep learning-based state-of-the-art (SOTA) reconstruction algorithms have achieved good results in most tasks, they still face the following challenges due to excessive model complexity and GPU memory limitations: 1) these models need high computational cost, and 2) they are usually unable to reconstruct large-scale video frames at high compression ratios. To address these issues, we develop an {\bf{\em efficient network}} for video SCI by using {\bf {\em dense connections and space-time factorization mechanism}} within a single residual block, dubbed {\bf \emph{EfficientSCI}}. The EfficientSCI network can well establish spatial-temporal correlation by using {\bf {\em convolution in the spatial domain and Transformer in the temporal domain}}, respectively. We are the first time to show that an UHD color video with high compression ratio can be reconstructed from a snapshot 2D measurement using a single end-to-end deep learning model with PSNR above 32 dB. Extensive results on both simulation and real data show that our method significantly outperforms all previous SOTA algorithms with better real-time performance. The code is at \url{https://github.com/ucaswangls/EfficientSCI.git}.
翻訳日:2023-05-18 17:04:08 公開日:2023-05-17
# TG-VQA:ビデオ質問に答える第3のゲーム

TG-VQA: Ternary Game of Video Question Answering ( http://arxiv.org/abs/2305.10049v1 )

ライセンス: Link先を確認
Hao Li, Peng Jin, Zesen Cheng, Songyang Zhang, Kai Chen, Zhennan Wang, Chang Liu, Jie Chen(参考訳) ビデオ質問応答は、その中のアライメントセマンティクスを推論することで、ビデオコンテンツに関する質問に答えることを目的としている。 しかしながら、人間の指示、すなわちアノテーションや事前に大きく依存しているため、現在のコントラスト学習に基づくビデオQA法は、きめ細かい視覚言語的アライメントの実行が困難である。 本研究では,ビデオQAタスクの微妙なアライメントを実現するために,ゲーム理論を革新的に活用し,ビデオ,質問,回答といった特定のインタラクション戦略を持つ複数のプレイヤー間の複雑な関係をシミュレートする。 具体的には,ビデオQA固有のインタラクション戦略を慎重に設計し,ラベルに重きを置くことなく,微粒な視覚言語アライメントラベルを数学的に生成することができる。 我々のTG-VQAは、その有効性と一般化能力を検証し、長期および短期のVideoQAデータセットにおいて、既存の最先端技術(5%以上)よりも優れています。 ゲーム理論的相互作用の指導により、我々のモデルは限られたデータ({10}^4 ~videos$)に驚くほど収束し、大規模データ(10^7~videos$)で事前学習された多くのデータを上回る。

Video question answering aims at answering a question about the video content by reasoning the alignment semantics within them. However, since relying heavily on human instructions, i.e., annotations or priors, current contrastive learning-based VideoQA methods remains challenging to perform fine-grained visual-linguistic alignments. In this work, we innovatively resort to game theory, which can simulate complicated relationships among multiple players with specific interaction strategies, e.g., video, question, and answer as ternary players, to achieve fine-grained alignment for VideoQA task. Specifically, we carefully design a VideoQA-specific interaction strategy to tailor the characteristics of VideoQA, which can mathematically generate the fine-grained visual-linguistic alignment label without label-intensive efforts. Our TG-VQA outperforms existing state-of-the-art by a large margin (more than 5%) on long-term and short-term VideoQA datasets, verifying its effectiveness and generalization ability. Thanks to the guidance of game-theoretic interaction, our model impressively convergences well on limited data (${10}^4 ~videos$), surpassing most of those pre-trained on large-scale data ($10^7~videos$).
翻訳日:2023-05-18 16:58:22 公開日:2023-05-17
# 視覚言語モデルにおける位置情報の役割の探索

Probing the Role of Positional Information in Vision-Language Models ( http://arxiv.org/abs/2305.10046v1 )

ライセンス: Link先を確認
Philipp J. R\"osch and Jind\v{r}ich Libovick\'y(参考訳) 多くのVision-Languageモデル(VL)では、画像内のオブジェクトの位置情報(PI)を注入することで、画像構造を理解することができる。 最新のVLモデルであるLXMERTのケーススタディでは、PIを表現に用い、その視覚的質問応答に与える影響について検討する。 このモデルでは,位置のみが異なる課題セットにおいて,画像テキストマッチングタスクにPIを活用できないことを示す。 しかし、探索実験により、PIが実際に表現に存在していることが確認された。 これに取り組むための2つの戦略を紹介します (i)事前訓練済みの位置情報 (ii)クロスモダリティマッチングを用いたpiの対比学習 そうすることで、詳細なPI文が一致した画像が正しく分類できる。 境界ボックスからの2D情報に加えて,空間内のオブジェクトの局所化を改善するための新機能として,オブジェクトの深さを導入する。 プローブによって定義されたモデル特性を改善できたが、下流の性能には無視できない効果しか与えなかった。 その結果,マルチモーダルモデリングの重要な課題が浮かび上がってきた。探索分類器によって検出可能な情報の存在は,情報がクロスモーダルな設定で利用可能であることを保証するものではない。

In most Vision-Language models (VL), the understanding of the image structure is enabled by injecting the position information (PI) about objects in the image. In our case study of LXMERT, a state-of-the-art VL model, we probe the use of the PI in the representation and study its effect on Visual Question Answering. We show that the model is not capable of leveraging the PI for the image-text matching task on a challenge set where only position differs. Yet, our experiments with probing confirm that the PI is indeed present in the representation. We introduce two strategies to tackle this: (i) Positional Information Pre-training and (ii) Contrastive Learning on PI using Cross-Modality Matching. Doing so, the model can correctly classify if images with detailed PI statements match. Additionally to the 2D information from bounding boxes, we introduce the object's depth as new feature for a better object localization in the space. Even though we were able to improve the model properties as defined by our probes, it only has a negligible effect on the downstream performance. Our results thus highlight an important issue of multimodal modeling: the mere presence of information detectable by a probing classifier is not a guarantee that the information is available in a cross-modal setup.
翻訳日:2023-05-18 16:57:56 公開日:2023-05-17
# インプラント位置予測のための2ストリーム回帰ネットワーク

Two-Stream Regression Network for Dental Implant Position Prediction ( http://arxiv.org/abs/2305.10044v1 )

ライセンス: Link先を確認
Xinquan Yang and Xuguang Li and Xuechen Li and Wenting Chen and Linlin Shen and Xin Li and Yongqiang Deng(参考訳) インプラント補綴治療において, 手術ガイドの設計には多くの手作業が必要であり, 主観的変化がみられやすい。 この問題を解決するために深層学習法が適用され始めたとき, 歯間空間は様々であり, その一部には実際のインプラント領域と類似したテクスチャ特性を示すものもある。 どちらの問題もインプラント位置予測には大きな課題となる。 本稿では, 埋込領域検出器 (IRD) とマルチスケールパッチ埋め込み回帰ネットワーク (MSPENet) から構成される2ストリーム埋込位置回帰フレームワーク (TSIPR) を開発し, この問題に対処する。 irdのトレーニングのために、元のアノテーションを拡張して、よりリッチな特徴を持ち、追加のラベリングコストを発生しない、追加の監督情報を提供する。 マルチスケールのパッチ埋め込みモジュールはMSPENetが様々な歯の間隔で画像から特徴を適応的に抽出するために設計されている。 グローバルローカルな特徴相互作用ブロックは、リッチな特徴表現のための変換器と畳み込みを組み合わせたMSPENetのエンコーダを構築するように設計されている。 推測中、IRDから抽出したRoIマスクを用いてMSPENetの予測結果を洗練する。 5倍のクロスバリデーションによる歯科インプラントデータセットの大規模な実験により,提案したTSIPRは既存の方法よりも優れた性能を示した。

In implant prosthesis treatment, the design of surgical guide requires lots of manual labors and is prone to subjective variations. When deep learning based methods has started to be applied to address this problem, the space between teeth are various and some of them might present similar texture characteristic with the actual implant region. Both problems make a big challenge for the implant position prediction. In this paper, we develop a two-stream implant position regression framework (TSIPR), which consists of an implant region detector (IRD) and a multi-scale patch embedding regression network (MSPENet), to address this issue. For the training of IRD, we extend the original annotation to provide additional supervisory information, which contains much more rich characteristic and do not introduce extra labeling costs. A multi-scale patch embedding module is designed for the MSPENet to adaptively extract features from the images with various tooth spacing. The global-local feature interaction block is designed to build the encoder of MSPENet, which combines the transformer and convolution for enriched feature representation. During inference, the RoI mask extracted from the IRD is used to refine the prediction results of the MSPENet. Extensive experiments on a dental implant dataset through five-fold cross-validation demonstrated that the proposed TSIPR achieves superior performance than existing methods.
翻訳日:2023-05-18 16:57:38 公開日:2023-05-17
# 最適重み付きランダム林

Optimal Weighted Random Forests ( http://arxiv.org/abs/2305.10042v1 )

ライセンス: Link先を確認
Xinyu Chen, Dalei Yu, Xinyu Zhang(参考訳) ランダムフォレスト(RF)アルゴリズムは、その優れた柔軟性と有望な精度の予測方法として非常に人気がある。 RFでは、全ての学習者(木)に同じ重みを付けて予測を行うのが一般的である。 しかし,森林内の異なる樹種の予測性能は,組込みブートストラップサンプリングのランダム化と特徴選択によって大きく異なる。 本稿では,回帰のためのRFに着目し,2つの重み付けアルゴリズム,すなわち1ステップ最適重み付けRF (1step-WRF$_\mathrm{opt}$) と2ステップ最適重み付けRF (2steps-WRF$_\mathrm{opt}$) を提案する。 いくつかの正規性条件の下では、これらのアルゴリズムが漸近的に最適であることを示し、結果として生じる二乗損失とリスクは、実現不可能だが最良のモデル平均推定量と漸近的に同一であることを示す。 実世界のデータセットで行った数値研究は、これらのアルゴリズムが既存の文献で提案されている2つの重み付きrfよりも優れていることを示している。

The random forest (RF) algorithm has become a very popular prediction method for its great flexibility and promising accuracy. In RF, it is conventional to put equal weights on all the base learners (trees) to aggregate their predictions. However, the predictive performances of different trees within the forest can be very different due to the randomization of the embedded bootstrap sampling and feature selection. In this paper, we focus on RF for regression and propose two optimal weighting algorithms, namely the 1 Step Optimal Weighted RF (1step-WRF$_\mathrm{opt}$) and 2 Steps Optimal Weighted RF (2steps-WRF$_\mathrm{opt}$), that combine the base learners through the weights determined by weight choice criteria. Under some regularity conditions, we show that these algorithms are asymptotically optimal in the sense that the resulting squared loss and risk are asymptotically identical to those of the infeasible but best possible model averaging estimator. Numerical studies conducted on real-world data sets indicate that these algorithms outperform the equal-weight forest and two other weighted RFs proposed in existing literature in most cases.
翻訳日:2023-05-18 16:57:15 公開日:2023-05-17
# 子宮内膜癌におけるリンパ節転移のリスク評価 : 因果的アプローチ

Risk Assessment of Lymph Node Metastases in Endometrial Cancer Patients: A Causal Approach ( http://arxiv.org/abs/2305.10041v1 )

ライセンス: Link先を確認
Alessio Zanga, Alice Bernasconi, Peter J.F. Lucas, Hanny Pijnenborg, Casper Reijnen, Marco Scutari, Fabio Stella(参考訳) 子宮内膜癌におけるリンパ節転移の術前リスク評価は複雑かつ困難な課題である。 原則として、機械学習とディープラーニングモデルは、臨床リスク評価のダイナミクスを捉えるのに十分な柔軟性と表現力を持っている。 しかし、この設定では、品質問題、欠落した値、小さなサンプルサイズ、高次元の観測データに限られており、これらのバイアス源で限られた観測データからそのようなモデルを確実に学習することはできない。 代わりに、上記の問題を緩和するための因果ベイズネットワークを学習し、臨床医や医師が利用できる子宮内膜癌に関する事前の知識を活用することを選びます。 本稿では,因果ベイズネットワークにおけるブートストラップ再サンプリングに基づく因果探索アルゴリズムを提案する。 さらに,選択バイアスが素因関係の学習に与える影響を評価するための文脈変数も含む。 最後に, 本研究の強みと限界について検討し, 臨床現場でよく見られる欠失データの存在から考察する。

Assessing the pre-operative risk of lymph node metastases in endometrial cancer patients is a complex and challenging task. In principle, machine learning and deep learning models are flexible and expressive enough to capture the dynamics of clinical risk assessment. However, in this setting we are limited to observational data with quality issues, missing values, small sample size and high dimensionality: we cannot reliably learn such models from limited observational data with these sources of bias. Instead, we choose to learn a causal Bayesian network to mitigate the issues above and to leverage the prior knowledge on endometrial cancer available from clinicians and physicians. We introduce a causal discovery algorithm for causal Bayesian networks based on bootstrap resampling, as opposed to the single imputation used in related works. Moreover, we include a context variable to evaluate whether selection bias results in learning spurious associations. Finally, we discuss the strengths and limitations of our findings in light of the presence of missing data that may be missing-not-at-random, which is common in real-world clinical settings.
翻訳日:2023-05-18 16:56:55 公開日:2023-05-17
# 自然言語におけるグラフ問題の解ける言語モデル

Can Language Models Solve Graph Problems in Natural Language? ( http://arxiv.org/abs/2305.10037v1 )

ライセンス: Link先を確認
Heng Wang, Shangbin Feng, Tianxing He, Zhaoxuan Tan, Xiaochuang Han, Yulia Tsvetkov(参考訳) 大規模言語モデル(LLM)は、ロボット工学の計画、マルチホップ質問応答や知識探索、構造化コモンセンス推論など、暗黙のグラフィカルな構造を持つ様々なタスクに採用されている。 LLMは、これらのタスクの最先端を構造的含意で進めてきたが、LLMがグラフや構造のテキスト記述を明示的に処理し、それらを接地された概念空間にマッピングし、構造化された操作を行うことができるかどうかはまだ未定である。 この目的のために,自然言語で設計したグラフ型問題解決の総合ベンチマークであるnlgraph(natural language graph)を提案する。 NLGraphには29,370の問題が含まれており、接続や最短経路といった単純なタスクから、最大フローやグラフニューラルネットワークのシミュレーションといった複雑な問題まで、複雑な8つのグラフ推論タスクをカバーする。 llms (gpt-3/4) をnlgraphベンチマーク上で様々なプロンプトアプローチで評価し,それを見出す。 1)言語モデルは予備的グラフ推論能力を示す。 2)高度なプロンプトとインコンテキスト学習の利点は,より複雑なグラフ問題において減少する。 3) LLMは, グラフや問題設定の急激な相関に直面すると, 当然脆弱である。 次に,自然言語グラフ問題を解決するための2つの命令に基づく手法である build-a-graph prompting と algorithmic prompting を提案する。 ビルド・ア・グラフとアルゴリズムは、複数のタスクや設定において、NLGraph上のLLMのパフォーマンスを3.07%から16.85%向上させる一方で、言語モデルを用いたセットアップにおいて最も複雑なグラフ推論タスクをどう解決するかは、オープンな研究課題である。 NLGraphベンチマークと評価コードはhttps://github.com/Arthur-Heng/NLGraphで公開されている。

Large language models (LLMs) are increasingly adopted for a variety of tasks with implicit graphical structures, such as planning in robotics, multi-hop question answering or knowledge probing, structured commonsense reasoning, and more. While LLMs have advanced the state-of-the-art on these tasks with structure implications, whether LLMs could explicitly process textual descriptions of graphs and structures, map them to grounded conceptual spaces, and perform structured operations remains underexplored. To this end, we propose NLGraph (Natural Language Graph), a comprehensive benchmark of graph-based problem solving designed in natural language. NLGraph contains 29,370 problems, covering eight graph reasoning tasks with varying complexity from simple tasks such as connectivity and shortest path up to complex problems such as maximum flow and simulating graph neural networks. We evaluate LLMs (GPT-3/4) with various prompting approaches on the NLGraph benchmark and find that 1) language models do demonstrate preliminary graph reasoning abilities, 2) the benefit of advanced prompting and in-context learning diminishes on more complex graph problems, while 3) LLMs are also (un)surprisingly brittle in the face of spurious correlations in graph and problem settings. We then propose Build-a-Graph Prompting and Algorithmic Prompting, two instruction-based approaches to enhance LLMs in solving natural language graph problems. Build-a-Graph and Algorithmic prompting improve the performance of LLMs on NLGraph by 3.07% to 16.85% across multiple tasks and settings, while how to solve the most complicated graph reasoning tasks in our setup with language models remains an open research question. The NLGraph benchmark and evaluation code are available at https://github.com/Arthur-Heng/NLGraph.
翻訳日:2023-05-18 16:56:35 公開日:2023-05-17
# 私のモデルをコピーしてるの? バックドア透かしによるeaas用大規模言語モデルの著作権保護

Are You Copying My Model? Protecting the Copyright of Large Language Models for EaaS via Backdoor Watermark ( http://arxiv.org/abs/2305.10036v1 )

ライセンス: Link先を確認
Wenjun Peng, Jingwei Yi, Fangzhao Wu, Shangxi Wu, Bin Zhu, Lingjuan Lyu, Binxing Jiao, Tong Xu, Guangzhong Sun, Xing Xie(参考訳) 大規模言語モデル(LLM)は、テキスト理解と生成の両方において強力な能力を示している。 企業はこれらのllmをベースにした組み込み・アズ・ア・サービス(eaas)を提供し始めており、様々な自然言語処理(nlp)タスクを顧客に提供することができる。 しかし、以前の研究では、EaaSはモデル抽出攻撃に弱いことが示されており、これらのモデルのトレーニングは非常に高価であるため、LLMの所有者に大きな損失をもたらす可能性がある。 EaaS のための LLM の著作権を保護するため,埋め込みにバックドアを埋め込む Embedding Watermark 法 EmbMarker を提案する。 提案手法は,一般的なテキストコーパスから中頻度単語群を選択してトリガーセットを作成し,そのターゲット埋め込みを透かしとして選択し,トリガーワードを含むテキストの埋め込みをバックドアとして挿入する。 挿入の重みは、テキストに含まれるトリガーワードの数に比例する。 これにより、ウォーターマークバックドアを著作権検証のためにeaas-stealerのモデルに効果的に転送でき、元の埋め込みのユーティリティに対する悪影響を最小限に抑えることができる。 各種データセットに対する広範な実験により,サービス品質を損なうことなく,EaaSモデルの著作権を効果的に保護できることを示す。

Large language models (LLMs) have demonstrated powerful capabilities in both text understanding and generation. Companies have begun to offer Embedding as a Service (EaaS) based on these LLMs, which can benefit various natural language processing (NLP) tasks for customers. However, previous studies have shown that EaaS is vulnerable to model extraction attacks, which can cause significant losses for the owners of LLMs, as training these models is extremely expensive. To protect the copyright of LLMs for EaaS, we propose an Embedding Watermark method called EmbMarker that implants backdoors on embeddings. Our method selects a group of moderate-frequency words from a general text corpus to form a trigger set, then selects a target embedding as the watermark, and inserts it into the embeddings of texts containing trigger words as the backdoor. The weight of insertion is proportional to the number of trigger words included in the text. This allows the watermark backdoor to be effectively transferred to EaaS-stealer's model for copyright verification while minimizing the adverse impact on the original embeddings' utility. Our extensive experiments on various datasets show that our method can effectively protect the copyright of EaaS models without compromising service quality.
翻訳日:2023-05-18 16:56:04 公開日:2023-05-17
# SHoP:高次部分微分方程式を解くためのディープラーニングフレームワーク

SHoP: A Deep Learning Framework for Solving High-order Partial Differential Equations ( http://arxiv.org/abs/2305.10033v1 )

ライセンス: Link先を確認
Tingxiong Xiao, Runzhao Yang, Yuxiao Cheng, Jinli Suo, Qionghai Dai(参考訳) 偏微分方程式(PDE)の解法は計算科学の根本的問題であり、科学と工学の両方の研究に広く応用されている。 普遍近似特性のため、ニューラルネットワークはPDEの解を近似するために広く利用されている。 しかし、高階微分の計算精度が不十分なため、既存の作業では高階PDEを解くことができず、最終的なネットワークは明確な説明のないブラックボックスである。 これらの問題に対処するため,我々はSHoPという高次PDEを解くためのディープラーニングフレームワークを提案する。 具体的には、ニューラルネットワークの高次微分則を導出し、導関数を迅速かつ正確に取得し、さらに、ネットワークをテイラー級数に拡張し、PDEの明確な解を提供する。 異なる次元の4つの高次PDEを実験的に検証し、高次PDEを効率的に高精度に解けることを示す。

Solving partial differential equations (PDEs) has been a fundamental problem in computational science and of wide applications for both scientific and engineering research. Due to its universal approximation property, neural network is widely used to approximate the solutions of PDEs. However, existing works are incapable of solving high-order PDEs due to insufficient calculation accuracy of higher-order derivatives, and the final network is a black box without explicit explanation. To address these issues, we propose a deep learning framework to solve high-order PDEs, named SHoP. Specifically, we derive the high-order derivative rule for neural network, to get the derivatives quickly and accurately; moreover, we expand the network into a Taylor series, providing an explicit solution for the PDEs. We conduct experimental validations four high-order PDEs with different dimensions, showing that we can solve high-order PDEs efficiently and accurately.
翻訳日:2023-05-18 16:55:41 公開日:2023-05-17
# 因果発見に関する調査:理論と実践

A Survey on Causal Discovery: Theory and Practice ( http://arxiv.org/abs/2305.10032v1 )

ライセンス: Link先を確認
Alessio Zanga, Fabio Stella(参考訳) 現象を支配する法則を理解することが科学の進歩の核である。 これは特に、目的が異なる側面間の因果的な相互作用をモデル化することにある場合に当てはまる。 実際、因果推論自体は、原因とその効果を結びつける基礎的な関係を定量化するために特別に設計されている。 因果発見は、因果グラフが(可能であれば)データから回収され、因果効果の同定と推定を可能にする、より広い因果性分野の分枝である。 本稿では,近年の進歩を統一的に検討し,異なる設定下で開発された既存アルゴリズムの概要を整理し,有用なツールとデータを報告し,その方法が実効的に活用できる理由と方法を理解するために実世界のアプリケーションを紹介する。

Understanding the laws that govern a phenomenon is the core of scientific progress. This is especially true when the goal is to model the interplay between different aspects in a causal fashion. Indeed, causal inference itself is specifically designed to quantify the underlying relationships that connect a cause to its effect. Causal discovery is a branch of the broader field of causality in which causal graphs is recovered from data (whenever possible), enabling the identification and estimation of causal effects. In this paper, we explore recent advancements in a unified manner, provide a consistent overview of existing algorithms developed under different settings, report useful tools and data, present real-world applications to understand why and how these methods can be fruitfully exploited.
翻訳日:2023-05-18 16:55:26 公開日:2023-05-17
# TextSLAM: セマンティックな平面テキスト機能を備えたビジュアルSLAM

TextSLAM: Visual SLAM with Semantic Planar Text Features ( http://arxiv.org/abs/2305.10029v1 )

ライセンス: Link先を確認
Boying Li, Danping Zou, Yuan Huang, Xinghan Niu, Ling Pei, Wenxian Yu(参考訳) 本稿では,テキストオブジェクトを意味的特徴として扱うことによって,テキストオブジェクトを密に統合する新しい視覚SLAM手法を提案する。 テキストオブジェクトはテクスチャリッチな平面パッチとしてモデル化され、セマンティックな意味が抽出され、リアルタイムで更新され、データアソシエーションが向上する。 テキストオブジェクトの局所的な平面的特徴と意味的意味の完全な探索により、SLAMシステムは、画像のぼやけ、大きな視点の変化、重要な照明変化(昼夜)といった困難な条件下でも、より正確で堅牢になる。 地上真理データを用いて様々な場面で実験を行った。 その結果,テクスチャ機能を統合することで,日夜の画像にマッチするSLAMシステムを実現することができた。 再構成されたセマンティック3dテキストマップは、ロボットと混合現実アプリケーションにおけるナビゲーションとシーン理解に有用である。 プロジェクトページ:https://github.com/SJTU-ViSYS/TextSLAM。

We propose a novel visual SLAM method that integrates text objects tightly by treating them as semantic features via fully exploring their geometric and semantic prior. The text object is modeled as a texture-rich planar patch whose semantic meaning is extracted and updated on the fly for better data association. With the full exploration of locally planar characteristics and semantic meaning of text objects, the SLAM system becomes more accurate and robust even under challenging conditions such as image blurring, large viewpoint changes, and significant illumination variations (day and night). We tested our method in various scenes with the ground truth data. The results show that integrating texture features leads to a more superior SLAM system that can match images across day and night. The reconstructed semantic 3D text map could be useful for navigation and scene understanding in robotic and mixed reality applications. Our project page: https://github.com/SJTU-ViSYS/TextSLAM .
翻訳日:2023-05-18 16:55:13 公開日:2023-05-17
# T1-MRIを用いた階層型プロトタイプ埋め込みGCNによる動的構造脳ネットワークの構築

Dynamic Structural Brain Network Construction by Hierarchical Prototype Embedding GCN using T1-MRI ( http://arxiv.org/abs/2305.10077v1 )

ライセンス: Link先を確認
Yilin Leng, Wenju Cui, Chen Bai, Zheng Yanyan, Jian Zheng(参考訳) T1強調磁気共鳴画像(T1-MRI)を用いた構造脳ネットワークの構築は、直接の地域接続情報がないために大きな課題となる。 t1-mriの現在の手法は、個別の特異性を無視する萎縮性領域を得るために、事前定義された領域または分離された事前訓練された位置モジュールに依存している。 さらに,本研究では,T1-MRIに基づく新しい動的構造脳ネットワーク構築手法を提案する。これにより,重要な領域を動的に局所化し,それらの階層分布を制約し,動的構造脳ネットワークを構築することができる。 具体的には,まず空間相関チャネルをクラスタ化し,いくつかの重要な脳領域をプロトタイプとして生成する。 さらに,階層型脳意味構造を潜在空間に組み込むプロトタイプの分布を制限するために,対照的な損失関数を導入する。 次に、自己注意とGCNを使用して、脳ネットワークの臨界領域の階層的相関を動的に構築し、相関を探索する。 本手法は, 軽度認知障害 (MCI) 変換予測のためのADNI-1 と ADNI-2 データベースを用いて評価し, 最先端 (SOTA) の性能向上を図る。 ソースコードはhttp://github.com/*******で公開されています。

Constructing structural brain networks using T1-weighted magnetic resonance imaging (T1-MRI) presents a significant challenge due to the lack of direct regional connectivity information. Current methods with T1-MRI rely on predefined regions or isolated pretrained location modules to obtain atrophic regions, which neglects individual specificity. Besides, existing methods capture global structural context only on the whole-image-level, which weaken correlation between regions and the hierarchical distribution nature of brain connectivity.We hereby propose a novel dynamic structural brain network construction method based on T1-MRI, which can dynamically localize critical regions and constrain the hierarchical distribution among them for constructing dynamic structural brain network. Specifically, we first cluster spatially-correlated channel and generate several critical brain regions as prototypes. Further, we introduce a contrastive loss function to constrain the prototypes distribution, which embed the hierarchical brain semantic structure into the latent space. Self-attention and GCN are then used to dynamically construct hierarchical correlations of critical regions for brain network and explore the correlation, respectively. Our method is evaluated on ADNI-1 and ADNI-2 databases for mild cognitive impairment (MCI) conversion prediction, and acheive the state-of-the-art (SOTA) performance. Our source code is available at http://github.com/*******.
翻訳日:2023-05-18 16:47:53 公開日:2023-05-17
# cold paws: 教師なしのクラス発見とコールドスタート問題

Cold PAWS: Unsupervised class discovery and the cold-start problem ( http://arxiv.org/abs/2305.10071v1 )

ライセンス: Link先を確認
Evelyn J. Mannix, Howard D. Bondell(参考訳) 多くの機械学習アプリケーションでは、データセットのラベル付けは困難で時間がかかる。 半教師付き学習技術はコンピュータビジョンの分野では非常に少ないラベルで高い精度を達成できることが研究で示されているが、データセット内の画像がラベル付けのためにどのように選択されるべきかはあまり注目されていない。 本稿では,この課題を解決するために,自己教師あり学習,クラスタリング,多様体学習に基づく新しい手法を提案する。 我々は、CIFAR10、Imagenette、DeepWeeds、EuroSATなどの公開データセットを用いてアプローチを検証し、ランダムサンプリングと比較してラベル選択戦略を使用する場合、教師付き学習戦略と半教師付き学習戦略の両方で改善されたパフォーマンスを観察する。 また,文献の他の手法に比べてはるかに単純なアプローチで検討したデータセットの性能も向上した。

In many machine learning applications, labeling datasets can be an arduous and time-consuming task. Although research has shown that semi-supervised learning techniques can achieve high accuracy with very few labels within the field of computer vision, little attention has been given to how images within a dataset should be selected for labeling. In this paper, we propose a novel approach based on well-established self-supervised learning, clustering, and manifold learning techniques that address this challenge of selecting an informative image subset to label in the first instance, which is known as the cold-start or unsupervised selective labelling problem. We test our approach using several publicly available datasets, namely CIFAR10, Imagenette, DeepWeeds, and EuroSAT, and observe improved performance with both supervised and semi-supervised learning strategies when our label selection strategy is used, in comparison to random sampling. We also obtain superior performance for the datasets considered with a much simpler approach compared to other methods in the literature.
翻訳日:2023-05-18 16:47:29 公開日:2023-05-17
# 雇用性における対実的説明の可能性を明らかにする

Unveiling the Potential of Counterfactuals Explanations in Employability ( http://arxiv.org/abs/2305.10069v1 )

ライセンス: Link先を確認
Raphael Mazzine Barbosa de Oliveira, Sofie Goethals, Dieter Brughmans, and David Martens(参考訳) eXplainable Artificial Intelligence (XAI)では、カウンターファクトの説明は複雑なモデル決定に対して単純で短く、理解しやすい正当化を与えることが知られている。 しかし、現実のケースに応用される研究は、まだ多くは見受けられていない。 このギャップを埋めるため,本研究では,複雑な機械学習アルゴリズムを含む活用可能性に関わる問題に対して,反事実がいかに適用されるかを示す。 これらの場合、ベルギーの公共雇用機関(VDAB)から取得した実データを利用する。 提示されたユースケースは、意思決定支援の強化、法的要件の遵守、規制された変更のガイド、新しい洞察の分析など、単なる説明としての反事実の適用以上のものだ。

In eXplainable Artificial Intelligence (XAI), counterfactual explanations are known to give simple, short, and comprehensible justifications for complex model decisions. However, we are yet to see more applied studies in which they are applied in real-world cases. To fill this gap, this study focuses on showing how counterfactuals are applied to employability-related problems which involve complex machine learning algorithms. For these use cases, we use real data obtained from a public Belgian employment institution (VDAB). The use cases presented go beyond the mere application of counterfactuals as explanations, showing how they can enhance decision support, comply with legal requirements, guide controlled changes, and analyze novel insights.
翻訳日:2023-05-18 16:47:09 公開日:2023-05-17
# 量子シリコンフォトニクスにおいて、異なる種類の光子対光源が同じ相違点を持つか?

Have different kinds of photon-pair sources the same indistinguishability in quantum silicon photonics? ( http://arxiv.org/abs/2305.10066v1 )

ライセンス: Link先を確認
Jong-Moo Lee, Alessio Baldazzi, Matteo Sanna, Stefano Azzini, Joon Tae Ahn, Myung Lae Lee, Young-Ik Sohn, and Lorenzo Pavesi(参考訳) 同じシリコンフォトニック集積回路では、香港・ウーマンデル干渉実験(HOM)を用いて2種類の縮退光子対光源(マイクロ共振器または導波管)を比較した。 2つの名目上同一のマイクロリング共振器は、マッハ・ツェンダー干渉計の腕を形成する2つの名目上同一の導波路に結合される。 これは2つの異なる波長の2つのレーザーによって励起され、自然発生の4波長混合光子対によって生成される。 特に、マイクロリング共振器をポンプ波長と共振して熱的に調整することができるので、マイクロリング共振器または導波管をそれぞれ光子ペア光源として選択することができる。 これにより、マイクロリング共振器で94%、直線導波路で99%のオンチップhom可視性が測定される。 実験結果と合同スペクトル強度と縮退光子対の純度に関する理論的シミュレーションとの比較を行った。 両光源が生成する光子対の共振スペクトル振幅(JSA)の重なりによって定量化することができる。 JSAと導波路の重なりは98%,マイクロリング共振器の89%と推定した。

In the same silicon photonic integrated circuit, we compare two types of integrated degenerate photon-pair sources (microring resonators or waveguides) by means of Hong-Ou-Mandel (HOM) interference experiments. Two nominally identical microring resonators are coupled to two nominally identical waveguides which form the arms of a Mach-Zehnder interferometer. This is pumped by two lasers at two different wavelengths to generate by spontaneous four-wave mixing degenerate photon pairs. In particular, the microring resonators can be thermally tuned in or out of resonance with the pump wavelengths, thus choosing either the microring resonators or the waveguides as photon-pair sources, respectively. In this way, an on-chip HOM visibility of 94% with microring resonators and 99% with straight waveguides is measured. We compare our experimental results with theoretical simulations of the joint spectral intensity and the purity of the degenerate photon pairs. We verify that the visibility is connected to the sources' indistinguishability, which can be quantified by the overlap between the joint spectral amplitudes (JSA) of the photon pairs generated by the two sources. We estimate a JSA overlap of 98% with waveguides and 89% with microring resonators.
翻訳日:2023-05-18 16:46:56 公開日:2023-05-17
# オブジェクト指向物体検出における境界不連続問題の再考

Rethinking Boundary Discontinuity Problem for Oriented Object Detection ( http://arxiv.org/abs/2305.10061v1 )

ライセンス: Link先を確認
Hang Xu, Xinyuan Liu, Haonan Xu, Yike Ma, Zunjie Zhu, Chenggang Yan, Feng Dai(参考訳) オブジェクト指向物体検出はここ数年で急速に発展し、回転同変は検出器が回転する境界ボックスを予測するために不可欠である。 この予測は, 物体が回転するときに対応する回転を維持することができるが, 物体が境界角付近で回転する際には, 厳密な変異が観察されることがある。 この問題は、訓練中の角界の急激な損失増加に起因すると考えられており、広く使用されているIoU様の損失は、一般的に損失平滑化によってこの問題に対処する。 しかし、現在最先端のIoUライクな手法でさえ、実際にこの問題を解くことはできない。 さらなる分析では、問題の本質的な原因は、不連続な損失だけでなく、不連続な角の真実(ボックス)にある。 連続モデルと不連続な角の接地構造の間には常に不可分なギャップが存在するため、ブレークポイント付近の角の予測は非常に不安定になり、IoUのような方法での損失平滑化だけでは除去できない。 そこで本研究では,極座標分解に基づく簡易かつ効果的な角度補正モジュール(ACM)を提案する。 ACMは、角度予測を修復するために、オブジェクト指向物体検出器のワークフローに簡単に接続できる。 モデル出力の滑らかな値をソートゥースの角値に変換し、IoUライクな損失はそのポテンシャルを完全に解放することができる。 複数のデータセットに対する大規模な実験により、ガウス法とSkewIoU法がAP50とAP75と同じ性能に改善され、ACMが強化された。

Oriented object detection has been developed rapidly in the past few years, where rotation equivariant is crucial for detectors to predict rotated bounding boxes. It is expected that the prediction can maintain the corresponding rotation when objects rotate, but severe mutational in angular prediction is sometimes observed when objects rotate near the boundary angle, which is well-known boundary discontinuity problem. The problem has been long believed to be caused by the sharp loss increase at the angular boundary during training, and widely used IoU-like loss generally deal with this problem by loss-smoothing. However, we experimentally find that even state-of-the-art IoU-like methods do not actually solve the problem. On further analysis, we find the essential cause of the problem lies at discontinuous angular ground-truth(box), not just discontinuous loss. There always exists an irreparable gap between continuous model ouput and discontinuous angular ground-truth, so angular prediction near the breakpoints becomes highly unstable, which cannot be eliminated just by loss-smoothing in IoU-like methods. To thoroughly solve this problem, we propose a simple and effective Angle Correct Module (ACM) based on polar coordinate decomposition. ACM can be easily plugged into the workflow of oriented object detectors to repair angular prediction. It converts the smooth value of the model output into sawtooth angular value, and then IoU-like loss can fully release their potential. Extensive experiments on multiple datasets show that whether Gaussian-based or SkewIoU methods are improved to the same performance of AP50 and AP75 with the enhancement of ACM.
翻訳日:2023-05-18 16:46:36 公開日:2023-05-17
# 無線スペクトルの自己監視クラスタリングのためのXAI

XAI for Self-supervised Clustering of Wireless Spectrum Activity ( http://arxiv.org/abs/2305.10060v1 )

ライセンス: Link先を確認
Ljupcho Milosheski, Gregor Cerar, Bla\v{z} Bertalani\v{c}, Carolina Fortuna and Mihael Mohor\v{c}i\v{c}(参考訳) いわゆるblack-box deep learning(dl)モデルは、無線通信ドメインを含む多くの科学分野の分類タスクでますます使われている。 この傾向において、教師付きDLモデルはドメイン関連分類問題に対する最も一般的な解決策として現れる。 適合しないパフォーマンスであることが証明されているが、大きなラベル付きトレーニングデータと難解な推論の必要性は、2つの大きな欠点として、その使用を制限している。 自己管理型アーキテクチャは、必要なラベル付きデータのサイズを減らすための有望なソリューションとして登場したが、説明可能性の問題はまだ残っている。 本稿では,畳み込みニューラルネットワーク(CNN)とクラスタリング部に基づく表現学習部で構成される,深層クラスタリング,自己教師型学習アーキテクチャを説明する手法を提案する。 芸術表現学習部では,入力データの関心領域を解釈するために指導バックプロパゲーションを用いる。 クラスタリング部分については、最適化された深さ決定木を使用してクラスタリング結果を説明するために、Shallow Treesに依存している。 最後に、データ固有可視化部は、各クラスタが関連する特徴を入力データに接続できるようにする。 我々は、CNNベースのディープクラスタリングアーキテクチャの理由を、無線スペクトル活動クラスタリングのユースケースについて説明する。

The so-called black-box deep learning (DL) models are increasingly used in classification tasks across many scientific disciplines, including wireless communications domain. In this trend, supervised DL models appear as most commonly proposed solutions to domain-related classification problems. Although they are proven to have unmatched performance, the necessity for large labeled training data and their intractable reasoning, as two major drawbacks, are constraining their usage. The self-supervised architectures emerged as a promising solution that reduces the size of the needed labeled data, but the explainability problem remains. In this paper, we propose a methodology for explaining deep clustering, self-supervised learning architectures comprised of a representation learning part based on a Convolutional Neural Network (CNN) and a clustering part. For the state of the art representation learning part, our methodology employs Guided Backpropagation to interpret the regions of interest of the input data. For the clustering part, the methodology relies on Shallow Trees to explain the clustering result using optimized depth decision tree. Finally, a data-specific visualizations part enables connection for each of the clusters to the input data trough the relevant features. We explain on a use case of wireless spectrum activity clustering how the CNN-based, deep clustering architecture reasons.
翻訳日:2023-05-18 16:46:07 公開日:2023-05-17
# イベントログデータを用いたATM故障予測のための畳み込みカーネルに基づくハイブリッド特徴学習手法

A hybrid feature learning approach based on convolutional kernels for ATM fault prediction using event-log data ( http://arxiv.org/abs/2305.10059v1 )

ライセンス: Link先を確認
V\'ictor Manuel Vargas, Riccardo Rosati, C\'esar Herv\'as-Mart\'inez, Adriano Mancini, Luca Romeo, Pedro Antonio Guti\'errez(参考訳) 予測保守法(PdM)は設備故障前の保守作業のスケジューリングを容易にすることを目的としている。 このような状況下では,atm(automated teller machine)の早期障害検出は,さまざまな予測不能な障害に影響を受けやすいため,ますます重要になっている。 ATMは、障害イベントとは無関係なシステムメッセージを集める巨大なイベントログデータを生成することで、実行状況を追跡する。 イベントログに基づくマシン障害の予測は、主に差し迫った障害を示すイベントのシーケンスを表す可能性のある機能を抽出する上で、さらなる課題を引き起こす。 したがって、pdmでは、最小処理されたセンサデータから情報的特徴を自動的に学習する機能学習アプローチが使用されている。 しかしながら、イベントログベースのデータから関連する機能を引き出すためにこれらのアプローチをどのように活用するかについては、まだギャップがある。 このギャップを埋めるために、元のイベントログデータから特徴を抽出する畳み込みカーネル(MiniROCKETとHYDRA)と、学習した特徴に基づいてサンプルを分類する線形分類器に基づく予測モデルを提案する。 提案手法は実世界の重要な収集データセットに適用される。 実験の結果、提案された畳み込みカーネルの1つ(HYDRA)が最高の分類性能(精度0.759、AUC0.693)を示した。 さらに統計解析により,HYDRAモデルとMiniROCKETモデルが時系列分類(InceptionTime)において確立された最先端手法の1つと,文献からの3つの非時間ML手法を著しく上回っていることが明らかとなった。 予測モデルは、ATMのタイムリーなメンテナンスにおいてオペレータをサポートするコンテナベースの意思決定支援システムに統合された。

Predictive Maintenance (PdM) methods aim to facilitate the scheduling of maintenance work before equipment failure. In this context, detecting early faults in automated teller machines (ATMs) has become increasingly important since these machines are susceptible to various types of unpredictable failures. ATMs track execution status by generating massive event-log data that collect system messages unrelated to the failure event. Predicting machine failure based on event logs poses additional challenges, mainly in extracting features that might represent sequences of events indicating impending failures. Accordingly, feature learning approaches are currently being used in PdM, where informative features are learned automatically from minimally processed sensor data. However, a gap remains to be seen on how these approaches can be exploited for deriving relevant features from event-log-based data. To fill this gap, we present a predictive model based on a convolutional kernel (MiniROCKET and HYDRA) to extract features from the original event-log data and a linear classifier to classify the sample based on the learned features. The proposed methodology is applied to a significant real-world collected dataset. Experimental results demonstrated how one of the proposed convolutional kernels (i.e. HYDRA) exhibited the best classification performance (accuracy of 0.759 and AUC of 0.693). In addition, statistical analysis revealed that the HYDRA and MiniROCKET models significantly overcome one of the established state-of-the-art approaches in time series classification (InceptionTime), and three non-temporal ML methods from the literature. The predictive model was integrated into a container-based decision support system to support operators in the timely maintenance of ATMs.
翻訳日:2023-05-18 16:45:48 公開日:2023-05-17
# 物理駆動型機械学習によるコロナ質量放出の走行時間予測

Physics-driven machine learning for the prediction of coronal mass ejections' travel times ( http://arxiv.org/abs/2305.10057v1 )

ライセンス: Link先を確認
Sabrina Guastavino, Valentina Candiani, Alessandro Bemporad, Francesco Marchetti, Federico Benvenuto, Anna Maria Massone, Roberto Susino, Daniele Telloni, Silvano Fineschi, Michele Piana(参考訳) コロナ質量放出(CME)は、太陽コロナからヘリウム圏へのプラズマと磁場の劇的な放出に対応する。 CMEは、活動的な太陽を特徴づける物理的メカニズムに関与しているため、科学的に関係がある。 しかし、近年のCMEは、地磁気嵐と相関し、太陽エネルギー粒子の流れを発生させるため、宇宙気象への影響について注目されている。 本稿では,CMEの走行時間を予測するための物理駆動型人工知能(AI)アプローチを提案する。このモデルを用いて,リモートセンシングとインサイトデータの両方で入力された2つのニューラルネットワークのカスケードのトレーニングフェーズを改善する。 本研究では,aiアーキテクチャにおける物理情報の利用により,移動時間予測の正確性とロバスト性が大幅に向上することを示す。

Coronal Mass Ejections (CMEs) correspond to dramatic expulsions of plasma and magnetic field from the solar corona into the heliosphere. CMEs are scientifically relevant because they are involved in the physical mechanisms characterizing the active Sun. However, more recently CMEs have attracted attention for their impact on space weather, as they are correlated to geomagnetic storms and may induce the generation of Solar Energetic Particles streams. In this space weather framework, the present paper introduces a physics-driven artificial intelligence (AI) approach to the prediction of CMEs travel time, in which the deterministic drag-based model is exploited to improve the training phase of a cascade of two neural networks fed with both remote sensing and in-situ data. This study shows that the use of physical information in the AI architecture significantly improves both the accuracy and the robustness of the travel time prediction.
翻訳日:2023-05-18 16:45:16 公開日:2023-05-17
# ベイズネットワークにおけるパラメータの$\epsilon$-close変数の探索

Finding an $\epsilon$-close Variation of Parameters in Bayesian Networks ( http://arxiv.org/abs/2305.10051v1 )

ライセンス: Link先を確認
Bahare Salmani and Joost-Pieter Katoen(参考訳) 本稿では、ベイズネットワーク(bns)に対する$\epsilon$-closeパラメータチューニング問題に対処する。 与えられた条件付き確率表のセットにおける最小$\epsilon$-closeの確率エントリの修正を、与えられたbnの量的制約を有効にする。 パラメトリックマルコフ連鎖に対する最先端の「領域検証」技術に基づいて,既存の手法を超越したアルゴリズムを提案する。 実験の結果,最大8パラメータの大規模bnベンチマークの$\epsilon$-closeチューニングが可能であった。 特に、許可することで (i)複数のCPTおよび各種パラメータ (II)CPTパラメータ間の依存関係は,これまで注目されてきたパラメトリックBNのサブクラスを扱う。

This paper addresses the $\epsilon$-close parameter tuning problem for Bayesian Networks (BNs): find a minimal $\epsilon$-close amendment of probability entries in a given set of (rows in) conditional probability tables that make a given quantitative constraint on the BN valid. Based on the state-of-the-art "region verification" techniques for parametric Markov chains, we propose an algorithm whose capabilities go beyond any existing techniques. Our experiments show that $\epsilon$-close tuning of large BN benchmarks with up to 8 parameters is feasible. In particular, by allowing (i) varied parameters in multiple CPTs and (ii) inter-CPT parameter dependencies, we treat subclasses of parametric BNs that have received scant attention so far.
翻訳日:2023-05-18 16:45:02 公開日:2023-05-17
# 多施設臨床研究における欠測データによる因果発見

Causal Discovery with Missing Data in a Multicentric Clinical Study ( http://arxiv.org/abs/2305.10050v1 )

ライセンス: Link先を確認
Alessio Zanga, Alice Bernasconi, Peter J.F. Lucas, Hanny Pijnenborg, Casper Reijnen, Marco Scutari, Fabio Stella(参考訳) 観察データから臨床仮説をテストする因果推論は、基礎となるデータ生成モデルと関連する因果グラフが一般に利用できないため、多くの困難をもたらす。 さらに、観察データには欠落した値が含まれ、因果発見アルゴリズムによる因果グラフの回復に影響を与える可能性がある。 本研究では, 子宮内膜癌に対する多施設共同研究から得られたデータを用いて, 回復した因果グラフに対する異なる欠損機構の影響を解析する。 これは、最先端の因果発見アルゴリズムを拡張して、理論的な健全性を犠牲にすることなく専門家の知識を活用することで達成される。 専門医による回復グラフの検証を行い,本手法が臨床関連ソリューションを見いだすことを示す。 最後に,グラフの適合性とその整合性について,画像分離を用いた臨床的意思決定の観点から検討し,因果経路の検証を行った。

Causal inference for testing clinical hypotheses from observational data presents many difficulties because the underlying data-generating model and the associated causal graph are not usually available. Furthermore, observational data may contain missing values, which impact the recovery of the causal graph by causal discovery algorithms: a crucial issue often ignored in clinical studies. In this work, we use data from a multi-centric study on endometrial cancer to analyze the impact of different missingness mechanisms on the recovered causal graph. This is achieved by extending state-of-the-art causal discovery algorithms to exploit expert knowledge without sacrificing theoretical soundness. We validate the recovered graph with expert physicians, showing that our approach finds clinically-relevant solutions. Finally, we discuss the goodness of fit of our graph and its consistency from a clinical decision-making perspective using graphical separation to validate causal pathways.
翻訳日:2023-05-18 16:44:45 公開日:2023-05-17
# グループ同変畳み込みニューラルネットワークのためのモンテカルロ拡張分解フィルタの適応アグリゲーション

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network ( http://arxiv.org/abs/2305.10110v1 )

ライセンス: Link先を確認
Wenzhao Zhao, Barbara D. Wichtmann, Steffen Albert, Angelika Maurer, Frank G. Z\"ollner, Ulrike Attenberger and J\"urgen Hesser(参考訳) フィルタ分解に基づくグループ等価畳み込みニューラルネットワーク(G-CNN)は、CNNのデータ効率を向上し、CNNモデルの解釈可能性と制御性の向上に寄与する。 しかし, フィルタ分解に基づくアフィンG-CNN法は, 高パラメータ効率を実現し, 計算負荷の重いパラメータ共有に頼っている。 それらはまた、限られた数の変換を使い、特にアプリケーションにおけるせん断変換を無視する。 本稿では,変換の多様性の重要性を強調することで,これらの問題に対処する。 重み付きフィルタワイズモンテカルロサンプリングに基づく柔軟かつ効率的な戦略を提案する。 さらに,自然画像のスパース表現に対処するために,せん断等変CNNを導入する。 提案手法は本質的に従来のCNNの効率的な一般化であり,グループ同変の観点からResNet,ResNext,ConvNeXtといった既存の最先端CNNモデルで使用されているボトルネックアーキテクチャの利点を説明する。 画像分類と画像復号化タスクの実験により,適切なフィルタに基づく手法により,データ効率の高い標準CNNよりも優れた性能が得られることが示された。 コードはhttps://github.com/ZhaoWenzhao/MCG_CNNで入手できる。

Filter-decomposition-based group-equivariant convolutional neural networks (G-CNN) have been demonstrated to increase CNN's data efficiency and contribute to better interpretability and controllability of CNN models. However, so far filter-decomposition-based affine G-CNN methods rely on parameter sharing for achieving high parameter efficiency and suffer from a heavy computational burden. They also use a limited number of transformations and in particular ignore the shear transform in the application. In this paper, we address these problems by emphasizing the importance of the diversity of transformations. We propose a flexible and efficient strategy based on weighted filter-wise Monte Carlo sampling. In addition, we introduce shear equivariant CNN to address the highly sparse representations of natural images. We demonstrate that the proposed methods are intrinsically an efficient generalization of traditional CNNs, and we explain the advantage of bottleneck architectures used in the existing state-of-the-art CNN models such as ResNet, ResNext, and ConvNeXt from the group-equivariant perspective. Experiments on image classification and image denoising tasks show that with a set of suitable filter basis, our methods achieve superior performance to standard CNN with high data efficiency. The code will be available at https://github.com/ZhaoWenzhao/MCG_CNN.
翻訳日:2023-05-18 16:39:01 公開日:2023-05-17
# グラフニューラルネットワークによるツイートエンゲージメント予測

Predicting Tweet Engagement with Graph Neural Networks ( http://arxiv.org/abs/2305.10103v1 )

ライセンス: Link先を確認
Marco Arazzi, Marco Cotogni, Antonino Nocera, Luca Virgili(参考訳) ソーシャルネットワークは、世界規模のオーディエンスでコンテンツを共有する上で最も重要なオンラインソースの1つだ。 この文脈では、記事がエンゲージメントの観点から何らかの影響を与えるかどうかを予測することは、これらのメディアの収益化を促進する上で非常に重要である。 文献では、この記事の直接的特徴(典型的にはテキストの内容とそれを公開するユーザに関連する)を活用してこの問題に対処する研究がいくつかある。 本稿では,エンゲージメントの高まりが,ソーシャルメディア上のユーザによる投稿のセマンティックな関連性である他の重要な要素にも関係している,と論じる。 そこで本稿では,投稿間の関係を表す新しいグラフベースモデルに基づいて,ユーザエンゲージメントを予測するためのグラフニューラルネットワークであるTweetGageを提案する。 提案を検証するため,我々はtwitterプラットフォームに着目し,その品質のエビデンスを提供する徹底的な実験キャンペーンを行う。

Social Networks represent one of the most important online sources to share content across a world-scale audience. In this context, predicting whether a post will have any impact in terms of engagement is of crucial importance to drive the profitable exploitation of these media. In the literature, several studies address this issue by leveraging direct features of the posts, typically related to the textual content and the user publishing it. In this paper, we argue that the rise of engagement is also related to another key component, which is the semantic connection among posts published by users in social media. Hence, we propose TweetGage, a Graph Neural Network solution to predict the user engagement based on a novel graph-based model that represents the relationships among posts. To validate our proposal, we focus on the Twitter platform and perform a thorough experimental campaign providing evidence of its quality.
翻訳日:2023-05-18 16:38:38 公開日:2023-05-17
# margolus-levitin量子速度限界に対する$\boldsymbol{\alpha_{>}(\epsilon) = \alpha_{<}(\epsilon)}$

$\boldsymbol{\alpha_{>}(\epsilon) = \alpha_{<}(\epsilon)}$ For The Margolus-Levitin Quantum Speed Limit Bound ( http://arxiv.org/abs/2305.10101v1 )

ライセンス: Link先を確認
H. F. Chau(参考訳) Margolus-Levitin (ML) バウンダリは、ある量子状態から別の量子状態へ進化するのに必要な時間は少なくとも$\pi \alpha(\epsilon) / (2 \langle E-E_0 \rangle)$であり、$\langle E-E_0 \rangle$はハミルトニアン基底状態に対する系の期待エネルギーであり、$\alpha(\epsilon)$は2つの状態の間の忠実度$\epsilon$の関数であると述べている。 それでも、上界の $\alpha_{>}(\epsilon)$ と下界の $\alpha_{<}(\epsilon)$ のみが現在までに知られているが、それらは少なくとも7つの重要な数字に一致する。 ML境界の新たな証明を与えることによって、$\alpha_{>}(\epsilon)$が実際に$\alpha_{<}(\epsilon)$と等しいことを示し、なぜこれがそうであるのかを説明し、この長年続くギャップを埋める。 また、$\alpha_{>}(\epsilon)$計算における数値安定性の問題も指摘し、効率的に正確に評価するための簡単な方法を報告します。

The Margolus-Levitin (ML) bound says that for any time-independent Hamiltonian, the time needed to evolve from one quantum state to another is at least $\pi \alpha(\epsilon) / (2 \langle E-E_0 \rangle)$, where $\langle E-E_0 \rangle$ is the expected energy of the system relative to the ground state of the Hamiltonian and $\alpha(\epsilon)$ is a function of the fidelity $\epsilon$ between the two state. Nonetheless, only a upper bound $\alpha_{>}(\epsilon)$ and lower bound $\alpha_{<}(\epsilon)$ are known to date although they agree up to at least seven significant figures. By giving a new proof of the ML bound, I show that $\alpha_{>}(\epsilon)$ is indeed equal to $\alpha_{<}(\epsilon)$ and explain why this is the case, thereby filling in this longstanding gap. I also point out a numerical stability issue in computing $\alpha_{>}(\epsilon)$ and report a simple way to evaluate it efficiently and accurately.
翻訳日:2023-05-18 16:38:24 公開日:2023-05-17
# 交感神経応答成分の分類法を用いた神経チャットボットの共感制御と解釈

Use of a Taxonomy of Empathetic Response Intents to Control and Interpret Empathy in Neural Chatbots ( http://arxiv.org/abs/2305.10096v1 )

ライセンス: Link先を確認
Anuradha Welivita and Pearl Pu(参考訳) オープンドメインの会話エージェントの領域における近年のトレンドは、感情的なプロンプトに共感的に会話できるようにすることである。 現在のアプローチでは、エンドツーエンドのアプローチに従うか、同様の感情ラベルに応答を条件付けして共感的な反応を生成する。 しかし共感とは、他者の観察された経験に対する個人の認知的および感情的な反応を指す広い概念であり、感情の単なる模倣よりも複雑である。 したがって、チャットボットの共感応答能力を制御し、解釈するために、複雑な人間の会話戦略とダイナミクスを特定することが必要である。 本研究では,共感応答を制御可能かつ解釈可能な方法で生成可能な対話応答生成モデルを構築する際に,感情カテゴリーに加えて8つの共感応答意図の分類を用いる。 2つのモジュールから構成される。 1)反応感情/意図予測モジュール、及び 2)応答生成モジュール。 我々は,次の応答の感情/意図を予測し,これらの予測された感情/意図に基づいて応答を生成するためのルールベースおよびニューラルアプローチを提案する。 自動的および人的評価の結果は、エンド・ツー・エンドモデルよりも多様で共感的により適切な応答を生成する上で、共感的反応意図の分類学的利用の重要性を強調した。

A recent trend in the domain of open-domain conversational agents is enabling them to converse empathetically to emotional prompts. Current approaches either follow an end-to-end approach or condition the responses on similar emotion labels to generate empathetic responses. But empathy is a broad concept that refers to the cognitive and emotional reactions of an individual to the observed experiences of another and it is more complex than mere mimicry of emotion. Hence, it requires identifying complex human conversational strategies and dynamics in addition to generic emotions to control and interpret empathetic responding capabilities of chatbots. In this work, we make use of a taxonomy of eight empathetic response intents in addition to generic emotion categories in building a dialogue response generation model capable of generating empathetic responses in a controllable and interpretable manner. It consists of two modules: 1) a response emotion/intent prediction module; and 2) a response generation module. We propose several rule-based and neural approaches to predict the next response's emotion/intent and generate responses conditioned on these predicted emotions/intents. Automatic and human evaluation results emphasize the importance of the use of the taxonomy of empathetic response intents in producing more diverse and empathetically more appropriate responses than end-to-end models.
翻訳日:2023-05-18 16:37:46 公開日:2023-05-17
# マルチエージェント強化学習:手法,応用,展望,課題

Multi-Agent Reinforcement Learning: Methods, Applications, Visionary Prospects, and Challenges ( http://arxiv.org/abs/2305.10091v1 )

ライセンス: Link先を確認
Ziyuan Zhou, Guanjun Liu, Ying Tang(参考訳) マルチエージェント強化学習(MARL)は、広く使われている人工知能(AI)技術である。 しかし、現在の研究とアプリケーションはスケーラビリティ、非定常性、信頼性に対処する必要がある。 本研究の目的は,今後10年間の研究動向と展望を概説することである。 本稿ではまず,MARLの基本手法と応用シナリオについて概説する。 第二に,marlの実用的応用において対処すべき安全性,堅牢性,一般化,倫理的制約について,対応する研究方法と限界について概説する。 特に、今後10年で信頼性の高いmarlがホットな研究テーマになると信じています。 また,様々な社会におけるMARLの実用化には,人間との相互作用を考えることが不可欠であることが示唆された。 そこで本研究では,MARLが人間と機械の相互作用に適用されている際の課題についても分析する。

Multi-agent reinforcement learning (MARL) is a widely used Artificial Intelligence (AI) technique. However, current studies and applications need to address its scalability, non-stationarity, and trustworthiness. This paper aims to review methods and applications and point out research trends and visionary prospects for the next decade. First, this paper summarizes the basic methods and application scenarios of MARL. Second, this paper outlines the corresponding research methods and their limitations on safety, robustness, generalization, and ethical constraints that need to be addressed in the practical applications of MARL. In particular, we believe that trustworthy MARL will become a hot research topic in the next decade. In addition, we suggest that considering human interaction is essential for the practical application of MARL in various societies. Therefore, this paper also analyzes the challenges while MARL is applied to human-machine interaction.
翻訳日:2023-05-18 16:37:24 公開日:2023-05-17
# 大腸内視鏡検査の半監督的品質評価

Semi-supervised Quality Evaluation of Colonoscopy Procedures ( http://arxiv.org/abs/2305.10090v1 )

ライセンス: Link先を確認
Idan Kligvasser, George Leifman, Roman Goldenberg, Ehud Rivlin and Michael Elad(参考訳) 大腸内視鏡は大腸癌予防のためのポリープの検出と除去のための医療技術標準である。 それでも、胃腸科医(GI)は、大腸内視鏡検査で通常、約25%のポリープを欠いている。 これらのミスは、医師のスキル、経験、警戒、疲労に影響され、非常にオペレータに依存します。 退院時間や盲腸挿管率などの標準的品質指標は腺腫検出率(adr)とよく相関していることが示されている。 しかし、これらの指標は特定の手順の質を評価する能力に限られており、試験のスタイルや技法に関連する品質面には対処していない。 本研究では,mlモデルが教師なしの方法で学習した視覚的外観品質基準に基づいて,オンラインおよびオフライン品質指標を設計する。 さらに, 既存のポリプを品質関数として検出する可能性を評価し, 提案手法とポリプ検出感度との高い相関性を示す。 提案するオンライン品質指標は、実行中のgiにリアルタイムの品質フィードバックを提供するために使用できる。 退避フェーズに局所的なメトリクスを統合することで,グローバルなオフライン品質指標を構築し,PPC(Polyp Per Colonoscopy)の品質基準と高い相関性を示す。

Colonoscopy is the standard of care technique for detecting and removing polyps for the prevention of colorectal cancer. Nevertheless, gastroenterologists (GI) routinely miss approximately 25% of polyps during colonoscopies. These misses are highly operator dependent, influenced by the physician skills, experience, vigilance, and fatigue. Standard quality metrics, such as Withdrawal Time or Cecal Intubation Rate, have been shown to be well correlated with Adenoma Detection Rate (ADR). However, those metrics are limited in their ability to assess the quality of a specific procedure, and they do not address quality aspects related to the style or technique of the examination. In this work we design novel online and offline quality metrics, based on visual appearance quality criteria learned by an ML model in an unsupervised way. Furthermore, we evaluate the likelihood of detecting an existing polyp as a function of quality and use it to demonstrate high correlation of the proposed metric to polyp detection sensitivity. The proposed online quality metric can be used to provide real time quality feedback to the performing GI. By integrating the local metric over the withdrawal phase, we build a global, offline quality metric, which is shown to be highly correlated to the standard Polyp Per Colonoscopy (PPC) quality metric.
翻訳日:2023-05-18 16:37:13 公開日:2023-05-17
# 多目的最適化のためのwasserstein逆強化学習の模倣の証明

A proof of imitation of Wasserstein inverse reinforcement learning for multi-objective optimization ( http://arxiv.org/abs/2305.10089v1 )

ライセンス: Link先を確認
Akira Kitaoka, Riki Eto(参考訳) 本研究では,多目的最適化のための有限イテレーションにおいて,学習者の報酬値が専門家の報酬値を模倣できることを示す。 さらに,wasserstein逆強化学習により,学習者の最適解が,辞書順による多目的最適化のための専門家の最適解を模倣できることを示した。

We prove Wasserstein inverse reinforcement learning enables the learner's reward values to imitate the expert's reward values in a finite iteration for multi-objective optimizations. Moreover, we prove Wasserstein inverse reinforcement learning enables the learner's optimal solutions to imitate the expert's optimal solutions for multi-objective optimizations with lexicographic order.
翻訳日:2023-05-18 16:36:54 公開日:2023-05-17
# CWD30:精密農業における雑草認識のための包括的・全体的データセット

CWD30: A Comprehensive and Holistic Dataset for Crop Weed Recognition in Precision Agriculture ( http://arxiv.org/abs/2305.10084v1 )

ライセンス: Link先を確認
Talha Ilyas, Dewa Made Sri Arsa, Khubaib Ahmad, Yong Chae Jeong, Okjae Won, Jong Hoon Lee, Hyongsuk Kim(参考訳) 精密農業への需要は、効率的かつ正確な作物雑草認識と分類システムを必要とする。 現在のデータセットは、農地の作物や雑草を識別するための堅牢なディープラーニングモデルを開発するために必要なサンプルサイズ、多様性、階層構造を欠いていることが多い。 さらに、作物や雑草の同様の外部構造と表現は、認識タスクを複雑にする。 これらの問題に対処するため、精密農業における作物雑草認識タスクに適した大規模で多様で包括的で階層的なデータセットであるCWD30データセットを提示する。 CWD30は20種の雑草と10種の高解像度画像を219,770枚以上、様々な成長段階、複数の視角、環境条件を含む。 画像は、さまざまな地理的場所と季節にわたる多様な農業地帯から収集され、代表的データセットが確保された。 データセットの階層分類は、きめ細かい分類を可能にし、より正確で堅牢で一般化可能なディープラーニングモデルの開発を促進する。 CWD30データセットの有効性を検証するため,広範なベースライン実験を行った。 実験の結果,データセットはクラス内変異,クラス間の類似性,データ不均衡などによって大きな課題を生じていることがわかった。 さらに,cwd30をプリトレーニングしたバックボーンを使用するようなマイナーなトレーニング変更は,モデルパフォーマンスを著しく向上させ,収束時間を短縮し,いくつかのダウンストリームタスクでトレーニングリソースを節約できることを実証する。 これらの課題は、作物雑草認識における将来の研究に貴重な洞察と機会を提供する。 cwd30データセットは、作物雑草認識アルゴリズムの評価、精密農業の進歩の促進、この分野の研究者間のコラボレーションの促進のためのベンチマークとして機能すると信じている。

The growing demand for precision agriculture necessitates efficient and accurate crop-weed recognition and classification systems. Current datasets often lack the sample size, diversity, and hierarchical structure needed to develop robust deep learning models for discriminating crops and weeds in agricultural fields. Moreover, the similar external structure and phenomics of crops and weeds complicate recognition tasks. To address these issues, we present the CWD30 dataset, a large-scale, diverse, holistic, and hierarchical dataset tailored for crop-weed recognition tasks in precision agriculture. CWD30 comprises over 219,770 high-resolution images of 20 weed species and 10 crop species, encompassing various growth stages, multiple viewing angles, and environmental conditions. The images were collected from diverse agricultural fields across different geographic locations and seasons, ensuring a representative dataset. The dataset's hierarchical taxonomy enables fine-grained classification and facilitates the development of more accurate, robust, and generalizable deep learning models. We conduct extensive baseline experiments to validate the efficacy of the CWD30 dataset. Our experiments reveal that the dataset poses significant challenges due to intra-class variations, inter-class similarities, and data imbalance. Additionally, we demonstrate that minor training modifications like using CWD30 pretrained backbones can significantly enhance model performance and reduce convergence time, saving training resources on several downstream tasks. These challenges provide valuable insights and opportunities for future research in crop-weed recognition. We believe that the CWD30 dataset will serve as a benchmark for evaluating crop-weed recognition algorithms, promoting advancements in precision agriculture, and fostering collaboration among researchers in the field.
翻訳日:2023-05-18 16:36:48 公開日:2023-05-17
# 不均衡航空機データ異常検出

Imbalanced Aircraft Data Anomaly Detection ( http://arxiv.org/abs/2305.10082v1 )

ライセンス: Link先を確認
Hao Yang, Junyu Gao, Yuan Yuan and Xuelong Li(参考訳) 航空シナリオにおけるセンサーからの時間データの異常検出は実用的だが難しい課題だ。 1) 時系列データは,時間的相関による文脈情報の抽出が困難である。 2) 異常データは時系列では稀であり, 異常検出における正常/異常不均衡の原因となり, 検出器分類が劣化または失敗する。 上記の問題を解決するために,GTDA(Graphical Temporal Data Analysis)フレームワークを提案する。 series-to-image (s2i) と呼ばれる3つのモジュールで構成され、ユークリッド距離 (crd) と分散ベース損失 (vbl) を用いたクラスタベースの再サンプリングアプローチである。 具体的には、センサから時間データのグローバル情報をよりよく抽出するために、S2Iはデータを曲線画像に変換し、データの変化の異常を示す。 CRDとVBLは、クラスの不等分布を軽減するために分類のバランスをとる。 CRDは、多数サンプルに類似した特徴を持つ少数サンプルをクラスタリングし、オーバーサンプリングすることで抽出する。 そしてVBLは、ネットワークの適合度を各クラスにバランスさせて決定境界を微調整する。 Flightsデータセットのアブレーション実験は、それぞれ精度とリコールにおけるCRDとVBLの有効性を示している。 大規模な実験では、F1スコアと他の3つの時間データセットに対するCRDとVBLの相乗効果が示されている。

Anomaly detection in temporal data from sensors under aviation scenarios is a practical but challenging task: 1) long temporal data is difficult to extract contextual information with temporal correlation; 2) the anomalous data are rare in time series, causing normal/abnormal imbalance in anomaly detection, making the detector classification degenerate or even fail. To remedy the aforementioned problems, we propose a Graphical Temporal Data Analysis (GTDA) framework. It consists three modules, named Series-to-Image (S2I), Cluster-based Resampling Approach using Euclidean Distance (CRD) and Variance-Based Loss (VBL). Specifically, for better extracts global information in temporal data from sensors, S2I converts the data to curve images to demonstrate abnormalities in data changes. CRD and VBL balance the classification to mitigate the unequal distribution of classes. CRD extracts minority samples with similar features to majority samples by clustering and over-samples them. And VBL fine-tunes the decision boundary by balancing the fitting degree of the network to each class. Ablation experiments on the Flights dataset indicate the effectiveness of CRD and VBL on precision and recall, respectively. Extensive experiments demonstrate the synergistic advantages of CRD and VBL on F1-score on Flights and three other temporal datasets.
翻訳日:2023-05-18 16:36:21 公開日:2023-05-17
# 合成顔データを用いた顔認識

Face Recognition Using Synthetic Face Data ( http://arxiv.org/abs/2305.10079v1 )

ライセンス: Link先を確認
Omer Granoviter, Alexey Gruzdev, Vladimir Loginov, Max Kogan, Orly Zvitia(参考訳) 顔認識に適用されるディープラーニングの分野では、高精度で信頼性の高い結果を得るためには、大規模で高品質なデータセットの確保が不可欠である。 しかし、大量の高品質な実データを集めることは、時間制限、財務上の負担、プライバシー問題などのハードルに直面している。 さらに、一般的なデータセットは、しばしば人種バイアスやアノテーションの不正確さによって損なわれる。 本稿では,複数のベンチマークデータセットにまたがる合成データに関する最先端技術と競合する結果を達成するために,コンピュータグラフィックスパイプラインによるデジタル顔のレンダリングによって生成された合成データの有望な応用を強調する。 モデルを微調整することで、数十万の実画像(lfw [1] で98.7%)でトレーニングした結果に匹敵する結果が得られる。 さらに,クラス内分散因子(化粧,アクセサリー,散髪など)がモデル性能に与える影響についても検討した。 最後に,我々のプラットフォームにおける粒度制御機能を活用し,顔の特定の部分を交互に処理するための事前学習された顔認識モデルの感度を明らかにする。

In the field of deep learning applied to face recognition, securing large-scale, high-quality datasets is vital for attaining precise and reliable results. However, amassing significant volumes of high-quality real data faces hurdles such as time limitations, financial burdens, and privacy issues. Furthermore, prevalent datasets are often impaired by racial biases and annotation inaccuracies. In this paper, we underscore the promising application of synthetic data, generated through rendering digital faces via our computer graphics pipeline, in achieving competitive results with the state-of-the-art on synthetic data across multiple benchmark datasets. By finetuning the model,we obtain results that rival those achieved when training with hundreds of thousands of real images (98.7% on LFW [1]). We further investigate the contribution of adding intra-class variance factors (e.g., makeup, accessories, haircuts) on model performance. Finally, we reveal the sensitivity of pre-trained face recognition models to alternating specific parts of the face by leveraging the granular control capability in our platform.
翻訳日:2023-05-18 16:36:02 公開日:2023-05-17
# Fusion-S2iGan: 音声画像生成のための効率的かつ効果的な単一ステージフレームワーク

Fusion-S2iGan: An Efficient and Effective Single-Stage Framework for Speech-to-Image Generation ( http://arxiv.org/abs/2305.10126v1 )

ライセンス: Link先を確認
Zhenxing Zhang and Lambert Schomaker(参考訳) 音声から画像への変換の目的は、音声信号から直接写実画像を生成することである。 近年,様々な研究がこの課題に焦点を合わせ,有望な成果を上げている。 しかし、現在の音声から画像へのアプローチは、以下の3つの重大な問題に悩まされる、積み重ねられたモジュラーフレームワークに基づいている。 1) 個別のネットワークの訓練には時間を要するだけでなく、非効率であり、最終生成モデルの収束は、以前のジェネレータに強く依存する。 2) 前駆体画像の品質は,このアーキテクチャにより無視される。 3) 複数の識別ネットワークを訓練する必要がある。 そこで本研究では,所定の音声記述に基づいて知覚的・意味的に一貫性のある画像サンプルを生成するために,fusion-s2iganと呼ばれる効率的かつ効果的な一段階フレームワークを提案する。 Fusion-S2iGanは、音声エンコーダからの音声埋め込みをジェネレータに注入し、合成画像の品質を改善しつつ、画素アテンションモジュール(PAM)、音声変調モジュール(SMM)、重み付き融合モジュール(WFM)で構築されたビジュアル+音声融合モジュール(VSFM)を導入する。 Fusion-S2iGanは、ジェネレータネットワークの全層にバイモーダル情報を分散し、アーキテクチャの様々な階層レベルで視覚特徴マップを強化する。 我々は、cub birds、oxford-102、flickr8k、places-subsetの4つのベンチマークデータセットで一連の実験を行っている。 実験結果は,多段階アーキテクチャと従来のテキストから画像へのアプローチに近いパフォーマンスレベルを持つ最先端モデルと比較して,fusion-s2iganが優れていることを示した。

The goal of a speech-to-image transform is to produce a photo-realistic picture directly from a speech signal. Recently, various studies have focused on this task and have achieved promising performance. However, current speech-to-image approaches are based on a stacked modular framework that suffers from three vital issues: 1) Training separate networks is time-consuming as well as inefficient and the convergence of the final generative model strongly depends on the previous generators; 2) The quality of precursor images is ignored by this architecture; 3) Multiple discriminator networks are required to be trained. To this end, we propose an efficient and effective single-stage framework called Fusion-S2iGan to yield perceptually plausible and semantically consistent image samples on the basis of given spoken descriptions. Fusion-S2iGan introduces a visual+speech fusion module (VSFM), constructed with a pixel-attention module (PAM), a speech-modulation module (SMM) and a weighted-fusion module (WFM), to inject the speech embedding from a speech encoder into the generator while improving the quality of synthesized pictures. Fusion-S2iGan spreads the bimodal information over all layers of the generator network to reinforce the visual feature maps at various hierarchical levels in the architecture. We conduct a series of experiments on four benchmark data sets, i.e., CUB birds, Oxford-102, Flickr8k and Places-subset. The experimental results demonstrate the superiority of the presented Fusion-S2iGan compared to the state-of-the-art models with a multi-stage architecture and a performance level that is close to traditional text-to-image approaches.
翻訳日:2023-05-18 16:28:00 公開日:2023-05-17
# 画像復元問題に対する空間相関による主不確かさの定量化

Principal Uncertainty Quantification with Spatial Correlation for Image Restoration Problems ( http://arxiv.org/abs/2305.10124v1 )

ライセンス: Link先を確認
Omer Belhasin, Yaniv Romano, Daniel Freedman, Ehud Rivlin, Michael Elad(参考訳) 近年,画像の逆問題に対する不確かさの定量化が注目されている。 この課題に対する既存のアプローチでは、ピクセル当たりの確率値に基づいて不確かさ領域を定義するが、画像内の空間的相関は無視し、不確実性が誇張される。 本稿では,画像内の空間的関係を考慮した新しい定義とそれに対応する不確かさ領域の解析を行うPUQ(Principal Uncertainity Quantification)を提案する。 確率的生成モデルの最近の進歩を用いて,経験的後方分布の主成分周辺の不確かさ間隔を導出し,真の未知値とユーザの信頼確率との包含を保証する曖昧性領域を形成する。 計算効率と解釈性を向上させるため,数個の主方向のみを用いて真の未知値の回復を保証し,最終的にはより有意義な不確実領域となる。 提案手法は,画像の着色,超解像,塗布実験により検証され,その有効性はベースライン法との比較により示され,より厳密な不確実性領域を示す。

Uncertainty quantification for inverse problems in imaging has drawn much attention lately. Existing approaches towards this task define uncertainty regions based on probable values per pixel, while ignoring spatial correlations within the image, resulting in an exaggerated volume of uncertainty. In this paper, we propose PUQ (Principal Uncertainty Quantification) -- a novel definition and corresponding analysis of uncertainty regions that takes into account spatial relationships within the image, thus providing reduced volume regions. Using recent advancements in stochastic generative models, we derive uncertainty intervals around principal components of the empirical posterior distribution, forming an ambiguity region that guarantees the inclusion of true unseen values with a user confidence probability. To improve computational efficiency and interpretability, we also guarantee the recovery of true unseen values using only a few principal directions, resulting in ultimately more informative uncertainty regions. Our approach is verified through experiments on image colorization, super-resolution, and inpainting; its effectiveness is shown through comparison to baseline methods, demonstrating significantly tighter uncertainty regions.
翻訳日:2023-05-18 16:27:28 公開日:2023-05-17
# コンカニの口腔・鼻母音の実験的解析

Empirical Analysis of Oral and Nasal Vowels of Konkani ( http://arxiv.org/abs/2305.10122v1 )

ライセンス: Link先を確認
Swapnil Fadte, Edna Vaz, Atul Kr. Ojha, Ramdas Karmali, Jyoti D. Pawar(参考訳) コンカニ語(Konkani)は、インド・アーリア語に特有の言語である。 本研究では,コンカニオーラル母音と鼻母音の音響音響特性について検討した。 本研究では,6人の話者(男性3名,女性3名)の音声サンプルを収集した。 口頭母音と鼻母音はそれぞれ37語, 計74語が記録書の一部として用いられた。 最後のデータセットは1135の母音音素からなる。 コンカニオーラル母音と鼻母音の比較F1-F2プロットについて実験結果とホルマント解析を行った。 平均F1、F2、F3の値は、すべての鼻母音と口母音の実験を通して初めて報告される。 本研究は,コンカニ語固有の母音と音声合成システムに関する言語学的研究に有用である。

Konkani is a highly nasalised language which makes it unique among Indo-Aryan languages. This work investigates the acoustic-phonetic properties of Konkani oral and nasal vowels. For this study, speech samples from six speakers (3 male and 3 female) were collected. A total of 74 unique sentences were used as a part of the recording script, 37 each for oral and nasal vowels, respectively. The final data set consisted of 1135 vowel phonemes. A comparative F1-F2 plot of Konkani oral and nasal vowels is presented with an experimental result and formant analysis. The average F1, F2 and F3 values are also reported for the first time through experimentation for all nasal and oral vowels. This study can be helpful for the linguistic research on vowels and speech synthesis systems specific to the Konkani language.
翻訳日:2023-05-18 16:27:09 公開日:2023-05-17
# FICNN: 深層畳み込みニューラルネットワークの解釈のためのフレームワーク

FICNN: A Framework for the Interpretation of Deep Convolutional Neural Networks ( http://arxiv.org/abs/2305.10121v1 )

ライセンス: Link先を確認
Hamed Behzadi-Khormouji and Jos\'e Oramas(参考訳) 畳み込みニューラルネットワーク(CNN)の継続的な開発に伴い、それらが内部的にエンコードする表現に関する懸念が高まっている。 これらの内部表現を分析することをモデル解釈と呼ぶ。 モデル解釈の課題は、そのようなモデルの予測を正当化するものであるが、モデル解釈の課題は、あまり注目されていない。 本研究の目的は,視覚データから学習したCNNモデルを対象とした解釈手法の枠組みを提案することである。 より具体的には、文献においてよく同一視される解釈課題と説明課題の相違を最初に特定する。 次に,解釈法の特徴付けに使用できる6つの特定の因子の集合を定義する。 第3に,先行する因子に基づき,解釈手法の位置決めのための枠組みを提案する。 我々のフレームワークは、提案する要素とそれらの組み合わせのごく一部しか研究されていないことを強調する。 その結果、重要な地域は未探検のままとなった。 提案する枠組みに従えば,既存の解釈手法について議論し,評価プロトコルに注意を払って検証する。 最後に,解釈を可能にするためのフィードバック作成手法の能力を強調し,フレームワークから生じる研究上の課題を提案する。

With the continue development of Convolutional Neural Networks (CNNs), there is a growing concern regarding representations that they encode internally. Analyzing these internal representations is referred to as model interpretation. While the task of model explanation, justifying the predictions of such models, has been studied extensively; the task of model interpretation has received less attention. The aim of this paper is to propose a framework for the study of interpretation methods designed for CNN models trained from visual data. More specifically, we first specify the difference between the interpretation and explanation tasks which are often considered the same in the literature. Then, we define a set of six specific factors that can be used to characterize interpretation methods. Third, based on the previous factors, we propose a framework for the positioning of interpretation methods. Our framework highlights that just a very small amount of the suggested factors, and combinations thereof, have been actually studied. Consequently, leaving significant areas unexplored. Following the proposed framework, we discuss existing interpretation methods and give some attention to the evaluation protocols followed to validate them. Finally, the paper highlights capabilities of the methods in producing feedback for enabling interpretation and proposes possible research problems arising from the framework.
翻訳日:2023-05-18 16:26:59 公開日:2023-05-17
# Selective Amnesia: 深層生成モデル構築のための継続的な学習アプローチ

Selective Amnesia: A Continual Learning Approach to Forgetting in Deep Generative Models ( http://arxiv.org/abs/2305.10120v1 )

ライセンス: Link先を確認
Alvin Heng, Harold Soh(参考訳) 近年の大規模テキストから画像へのモデルの普及により、有害で誤解を招く、不適切なコンテンツを生み出すために誤用される可能性があるという懸念が高まっている。 本稿では,事前学習した深層生成モデルの概念を選択的に忘れるために,連続学習に触発されたテクニックを導出する。 本手法は選択的記憶喪失と呼ばれ,ユーザがどのように概念を忘れるべきかを制御可能とする。 選択的アムネシアは、変分オートエンコーダや大規模テキストから画像への拡散モデルなど、様々な一般的な深層生成フレームワークを含む条件付き変分確率モデルに適用することができる。 異なるモデルによる実験により、標準データセットのクラス全体からテキストから画像へのモデルのセレブやヌードのプロンプトまで、さまざまな概念の忘れが引き起こされることが示された。 私たちのコードはhttps://github.com/clear-nus/selective-amnesiaで公開されています。

The recent proliferation of large-scale text-to-image models has led to growing concerns that such models may be misused to generate harmful, misleading, and inappropriate content. Motivated by this issue, we derive a technique inspired by continual learning to selectively forget concepts in pretrained deep generative models. Our method, dubbed Selective Amnesia, enables controllable forgetting where a user can specify how a concept should be forgotten. Selective Amnesia can be applied to conditional variational likelihood models, which encompass a variety of popular deep generative frameworks, including variational autoencoders and large-scale text-to-image diffusion models. Experiments across different models demonstrate that our approach induces forgetting on a variety of concepts, from entire classes in standard datasets to celebrity and nudity prompts in text-to-image models. Our code is publicly available at https://github.com/clear-nus/selective-amnesia.
翻訳日:2023-05-18 16:26:43 公開日:2023-05-17
# ギャップの橋渡し:ポストプロセッシング技術による合成データの有用性の向上

Bridging the Gap: Enhancing the Utility of Synthetic Data via Post-Processing Techniques ( http://arxiv.org/abs/2305.10118v1 )

ライセンス: Link先を確認
Andrea Lampis, Eugenio Lomurno, Matteo Matteucci(参考訳) ディープラーニングモデルのトレーニングに適したデータセットの取得とアノテートが難しい。 これはしばしば、研究の進歩を妨げる退屈で時間のかかる努力をもたらす。 しかし、生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして現れてきた。 それにもかかわらず、合成データの有効性は、実世界のデータの複雑さと多様性を完全に捉えることができないために制限されている。 この問題に対処するために,実世界画像上で評価された分類器を訓練するための合成データセットを生成するために,生成型逆ネットワークの利用を検討する。 合成データセットの品質と多様性を改善するために,動的サンプルフィルタリング,動的データセットリサイクル,拡張トリックという3つの新しい後処理手法を提案する。 さらに,Gap Filler (GaFi) と呼ばれるパイプラインを導入し,実世界のデータの分類精度を最大化するために,これらの手法を最適かつ協調的に適用する。 実精度スコアとのギャップをFashion-MNIST, CIFAR-10, CIFAR-100データセットで2.03%, 1.78%, 3.99%とした。 これらの結果は, 分類精度スコアの新たな水準を示し, 合成データセットの品質向上における後処理技術の有効性を強調するものである。

Acquiring and annotating suitable datasets for training deep learning models is challenging. This often results in tedious and time-consuming efforts that can hinder research progress. However, generative models have emerged as a promising solution for generating synthetic datasets that can replace or augment real-world data. Despite this, the effectiveness of synthetic data is limited by their inability to fully capture the complexity and diversity of real-world data. To address this issue, we explore the use of Generative Adversarial Networks to generate synthetic datasets for training classifiers that are subsequently evaluated on real-world images. To improve the quality and diversity of the synthetic dataset, we propose three novel post-processing techniques: Dynamic Sample Filtering, Dynamic Dataset Recycle, and Expansion Trick. In addition, we introduce a pipeline called Gap Filler (GaFi), which applies these techniques in an optimal and coordinated manner to maximise classification accuracy on real-world data. Our experiments show that GaFi effectively reduces the gap with real-accuracy scores to an error of 2.03%, 1.78%, and 3.99% on the Fashion-MNIST, CIFAR-10, and CIFAR-100 datasets, respectively. These results represent a new state of the art in Classification Accuracy Score and highlight the effectiveness of post-processing techniques in improving the quality of synthetic datasets.
翻訳日:2023-05-18 16:26:25 公開日:2023-05-17
# 深層学習は胸部x線上の異常パターンを確実に認識できるか? 日常放射線臨床における1ヶ月のAI実践に関するマルチリーダー研究

Can Deep Learning Reliably Recognize Abnormality Patterns on Chest X-rays? A Multi-Reader Study Examining One Month of AI Implementation in Everyday Radiology Clinical Practice ( http://arxiv.org/abs/2305.10116v1 )

ライセンス: Link先を確認
Daniel Kvak, Anna Chromcov\'a, Petra Ovesn\'a, Jakub Dand\'ar, Marek Biro\v{s}, Robert Hrub\'y, Daniel Dufek, Marija Pajdakovi\'c(参考訳) 本研究では,胸部x線上の7つの特定の放射線学的所見(atelectasis (ate), 圧密 (con), 胸水 (eff), 肺病変 (les), 皮下気腫 (sce),cardiomegaly (cmg), pneumothorax (pno)) を検出・局在化するための, ディープラーニングに基づく自動検出アルゴリズム (dlad, carebot ai cxr) を開発した。 956個のCXRを採取し, 当院で画像評価を行った6名の放射線科医とDLADの成績を比較した。 The proposed DLAD achieved high sensitivity (ATE 1.000 (0.624-1.000), CON 0.864 (0.671-0.956), EFF 0.953 (0.887-0.983), LES 0.905 (0.715-0.978), SCE 1.000 (0.366-1.000), CMG 0.837 (0.711-0.917), PNO 0.875 (0.538-0.986)), even when compared to the radiologists (LOWEST: ATE 0.000 (0.000-0.376), CON 0.182 (0.070-0.382), EFF 0.400 (0.302-0.506), LES 0.238 (0.103-0.448), SCE 0.000 (0.000-0.634), CMG 0.347 (0.228-0.486), PNO 0.375 (0.134-0.691), HIGHEST: ATE 1.000 (0.624-1.000), CON 0.864 (0.671-0.956), EFF 0.953 (0.887-0.983), LES 0.667 (0.456-0.830), SCE 1.000 (0.366-1.000), CMG 0.980 (0.896-0.999), PNO 0.875 (0.538-0.986)). 本研究の結果から,DLADは診断支援システムとして日常的な臨床実践に統合される可能性があり,中・中等放射線科医の偽陰性率を効果的に軽減することが示唆された。

In this study, we developed a deep-learning-based automatic detection algorithm (DLAD, Carebot AI CXR) to detect and localize seven specific radiological findings (atelectasis (ATE), consolidation (CON), pleural effusion (EFF), pulmonary lesion (LES), subcutaneous emphysema (SCE), cardiomegaly (CMG), pneumothorax (PNO)) on chest X-rays (CXR). We collected 956 CXRs and compared the performance of the DLAD with that of six individual radiologists who assessed the images in a hospital setting. The proposed DLAD achieved high sensitivity (ATE 1.000 (0.624-1.000), CON 0.864 (0.671-0.956), EFF 0.953 (0.887-0.983), LES 0.905 (0.715-0.978), SCE 1.000 (0.366-1.000), CMG 0.837 (0.711-0.917), PNO 0.875 (0.538-0.986)), even when compared to the radiologists (LOWEST: ATE 0.000 (0.000-0.376), CON 0.182 (0.070-0.382), EFF 0.400 (0.302-0.506), LES 0.238 (0.103-0.448), SCE 0.000 (0.000-0.634), CMG 0.347 (0.228-0.486), PNO 0.375 (0.134-0.691), HIGHEST: ATE 1.000 (0.624-1.000), CON 0.864 (0.671-0.956), EFF 0.953 (0.887-0.983), LES 0.667 (0.456-0.830), SCE 1.000 (0.366-1.000), CMG 0.980 (0.896-0.999), PNO 0.875 (0.538-0.986)). The findings of the study demonstrate that the suggested DLAD holds potential for integration into everyday clinical practice as a decision support system, effectively mitigating the false negative rate associated with junior and intermediate radiologists.
翻訳日:2023-05-18 16:26:02 公開日:2023-05-17
# 胸部CTスキャンを用いた新型コロナウイルス重症度予測のための深層学習手法

An Ensemble Deep Learning Approach for COVID-19 Severity Prediction Using Chest CT Scans ( http://arxiv.org/abs/2305.10115v1 )

ライセンス: Link先を確認
Sidra Aleem, Mayug Maniparambil, Suzanne Little, Noel O'Connor and Kevin McGuinness(参考訳) 胸部X線は、新型コロナウイルススクリーニングに広く用いられているが、CT(3D Computed Tomography)はより効果的なモダリティである。 STOICデータセットを用いた胸部CTによる重症度予測について検討した。 我々は複数のニューラルネットワークを組み込んで予測を改善するアンサンブル深層学習モデルを開発した。 データの不均衡に対処するために、スライシング機能とデータ拡張を用いた。 さらに,テスト時間データ拡張による性能改善を行った。 強力なテスト時間拡張を備えた、単純かつ効果的なディープラーニングベースのモデルを用いたアプローチは、より複雑な方法に匹敵する結果を達成し、stic2021のcovid-19 aiチャレンジで4番目のポジションを確保した。 at: https://github.com/aleemsidra/stoic2021-baseline-finalphase-main.com/stoic2021- コードはオンラインで利用可能です。

Chest X-rays have been widely used for COVID-19 screening; however, 3D computed tomography (CT) is a more effective modality. We present our findings on COVID-19 severity prediction from chest CT scans using the STOIC dataset. We developed an ensemble deep learning based model that incorporates multiple neural networks to improve predictions. To address data imbalance, we used slicing functions and data augmentation. We further improved performance using test time data augmentation. Our approach which employs a simple yet effective ensemble of deep learning-based models with strong test time augmentations, achieved results comparable to more complex methods and secured the fourth position in the STOIC2021 COVID-19 AI Challenge. Our code is available on online: at: https://github.com/aleemsidra/stoic2021- baseline-finalphase-main.
翻訳日:2023-05-18 16:25:34 公開日:2023-05-17
# スパースマトリックスファクトリゼーションにおけるハイパーパラメータ自動チューニング

Automatic Hyperparameter Tuning in Sparse Matrix Factorization ( http://arxiv.org/abs/2305.10114v1 )

ライセンス: Link先を確認
Ryota Kawasumi, Koujin Takeda(参考訳) ベイズフレームワーク下でのスパース行列分解におけるハイパーパラメータチューニングの問題点について検討する。 先行研究では,ラプラス前駆によるスパース行列分解の解析解を,いくつかの近似の下で変分ベイズ法により求めた。 そこで本研究では,スパース行列における正規化係数のゼロ点を評価することで,新しいパラメータ調整法を提案する。 また,本手法は,スパース主成分分析の広範に用いられているアルゴリズムと比較することにより,地中スパースマトリックス再構成に優れた性能を示すことを検証した。

We study the problem of hyperparameter tuning in sparse matrix factorization under Bayesian framework. In the prior work, an analytical solution of sparse matrix factorization with Laplace prior was obtained by variational Bayes method under several approximations. Based on this solution, we propose a novel numerical method of hyperparameter tuning by evaluating the zero point of normalization factor in sparse matrix prior. We also verify that our method shows excellent performance for ground-truth sparse matrix reconstruction by comparing it with the widely-used algorithm of sparse principal component analysis.
翻訳日:2023-05-18 16:25:20 公開日:2023-05-17
# 電気制御パネルのコンプライアンスチェックのためのニューロシンボリックAI

Neuro-Symbolic AI for Compliance Checking of Electrical Control Panels ( http://arxiv.org/abs/2305.10113v1 )

ライセンス: Link先を確認
Vito Barbara (1), Massimo Guarascio (2), Nicola Leone (1), Giuseppe Manco (2), Alessandro Quarta (3), Francesco Ricca (1), Ettore Ritacco (4) ((1) University of Calabria, (2) ICAR-CNR, (3) Sapienza University of Rome, (4) University of Udine)(参考訳) 人工知能は、ドメインの専門家が手動で行うさまざまなタスクの自動化を可能にすることで、スマート製造と産業4.0のサポートと改善に重要な役割を果たしている。 特に、相対的なスキーマによる製品のコンプライアンスの評価は、時間のかかる、エラーのやすいプロセスです。 本稿では,この問題を特定の産業シナリオで解決する。 特に,電気制御パネルのコンプライアンス検証を自動化するためのニューロシンボリックアプローチを定義する。 我々のアプローチは、ディープラーニング技術とAnswer Set Programming(ASP)の組み合わせに基づいており、非常に限られたトレーニングデータがある場合でも、最終製品で起こりうる異常やエラーを特定することができる。 電気制御パネル製造に携わるイタリアの企業による実テストケースで実施した実験は,提案手法の有効性を示すものである。

Artificial Intelligence plays a main role in supporting and improving smart manufacturing and Industry 4.0, by enabling the automation of different types of tasks manually performed by domain experts. In particular, assessing the compliance of a product with the relative schematic is a time-consuming and prone-to-error process. In this paper, we address this problem in a specific industrial scenario. In particular, we define a Neuro-Symbolic approach for automating the compliance verification of the electrical control panels. Our approach is based on the combination of Deep Learning techniques with Answer Set Programming (ASP), and allows for identifying possible anomalies and errors in the final product even when a very limited amount of training data is available. The experiments conducted on a real test case provided by an Italian Company operating in electrical control panel production demonstrate the effectiveness of the proposed approach.
翻訳日:2023-05-18 16:25:11 公開日:2023-05-17
# 量子積状態の和グラフと識別可能性

Chordal Graphs and Distinguishability of Quantum Product States ( http://arxiv.org/abs/2305.10153v1 )

ライセンス: Link先を確認
Comfort Mintah, David W. Kribs, Michael Nathanson, Rajesh Pereira(参考訳) 局所演算と古典通信(LOCC)と呼ばれる基本量子通信フレームワークにおける量子積状態の識別問題に対するグラフ理論的アプローチについて検討する。 和声性は一方向loccにおける識別性を駆動するキーグラフ構造と同定し、行列完備の理論との接続を確立する和声グラフに対する一方向locc特性を導出する。 また、状態の区別不可能性の判定を可能にするグラフパラメータの最小条件も導出する。 これらの結果を基にしたアプリケーションや例をいくつか紹介する。

We investigate a graph-theoretic approach to the problem of distinguishing quantum product states in the fundamental quantum communication framework called local operations and classical communication (LOCC). We identify chordality as the key graph structure that drives distinguishability in one-way LOCC, and we derive a one-way LOCC characterization for chordal graphs that establishes a connection with the theory of matrix completions. We also derive minimality conditions on graph parameters that allow for the determination of indistinguishability of states. We present a number of applications and examples built on these results.
翻訳日:2023-05-18 16:20:13 公開日:2023-05-17
# エンドツーエンドタスク指向対話のための多段階知識検索

Multi-Grained Knowledge Retrieval for End-to-End Task-Oriented Dialog ( http://arxiv.org/abs/2305.10149v1 )

ライセンス: Link先を確認
Fanqi Wan, Weizhou Shen, Ke Yang, Xiaojun Quan and Wei Bi(参考訳) 外部データベースから適切なドメイン知識を取得することは、情報応答を生成するためにエンドツーエンドのタスク指向の対話システムの中心にある。 既存のシステムの多くは、知識検索と応答生成を融合させ、参照応答からの直接監督で最適化することで、知識ベースが大規模になると、最適下界検索性能が向上する。 そこで本研究では、応答生成から知識検索を分離し、関連するエンティティを検索するエンティティセレクタと、無関係な属性をフィルタリングする属性セレクタを含む多粒度知識検索器(MAKER)を提案する。 回収機を訓練するために, 応答発生器からの監視信号を導出する新しい蒸留目的を提案する。 小規模および大規模の知識ベースを用いた3つの標準ベンチマークによる実験により,既存の手法よりも効果的な知識検索が可能となった。 私たちのコードは公開されています。 \footnote{https://github.com/18907305772/MAKER}

Retrieving proper domain knowledge from an external database lies at the heart of end-to-end task-oriented dialog systems to generate informative responses. Most existing systems blend knowledge retrieval with response generation and optimize them with direct supervision from reference responses, leading to suboptimal retrieval performance when the knowledge base becomes large-scale. To address this, we propose to decouple knowledge retrieval from response generation and introduce a multi-grained knowledge retriever (MAKER) that includes an entity selector to search for relevant entities and an attribute selector to filter out irrelevant attributes. To train the retriever, we propose a novel distillation objective that derives supervision signals from the response generator. Experiments conducted on three standard benchmarks with both small and large-scale knowledge bases demonstrate that our retriever performs knowledge retrieval more effectively than existing methods. Our code has been made publicly available.\footnote{https://github.com/18907305772/MAKER}
翻訳日:2023-05-18 16:20:03 公開日:2023-05-17
# cs-pcn: 画像デノイジングのためのコンテキスト空間プログレッシブ協調ネットワーク

CS-PCN: Context-Space Progressive Collaborative Network for Image Denoising ( http://arxiv.org/abs/2305.10146v1 )

ライセンス: Link先を確認
Yuqi Jiang, Chune Zhang, Jiao Liu(参考訳) 現在、深層学習に基づく画像認識手法は、文脈意味情報や空間的詳細を適切に理解できない。 本稿では,これらの情報最適化を考慮に入れながら,画像記述のためのコンテキスト空間進行協調ネットワーク(CS-PCN)を提案する。 CS-PCNは、コンテキストマイニングのシアムサブネットワーク(CM2S)と空間合成のサブネットワーク(3S)からなる多段階階層アーキテクチャである。 CM2Sは、セマンティック情報前処理のための多層機能プロセッサ(MLFP)、マルチスケール情報のためのアテンションエンコーダデコーダ(AED)、教師付き特徴融合のためのマルチコンブアテンションコントローラ(MCAC)を順次接続することで、リッチなマルチスケールコンテキスト情報を抽出することを目的としている。 3SはMLFPと単一スケールのカスケードブロックを並列処理して画像の詳細を学習する。 実験の結果,cs-pcnは合成および実世界のノイズ除去において有意な性能向上を達成した。

Currently, image-denoising methods based on deep learning cannot adequately reconcile contextual semantic information and spatial details. To take these information optimizations into consideration, in this paper, we propose a Context-Space Progressive Collaborative Network (CS-PCN) for image denoising. CS-PCN is a multi-stage hierarchical architecture composed of a context mining siamese sub-network (CM2S) and a space synthesis sub-network (3S). CM2S aims at extracting rich multi-scale contextual information by sequentially connecting multi-layer feature processors (MLFP) for semantic information pre-processing, attention encoder-decoders (AED) for multi-scale information, and multi-conv attention controllers (MCAC) for supervised feature fusion. 3S parallels MLFP and a single-scale cascading block to learn image details, which not only maintains the contextual information but also emphasizes the complementary spatial ones. Experimental results show that CS-PCN achieves significant performance improvement in synthetic and real-world noise removal.
翻訳日:2023-05-18 16:19:45 公開日:2023-05-17
# 視覚質問応答における言語モーダルに関する経験的研究

An Empirical Study on the Language Modal in Visual Question Answering ( http://arxiv.org/abs/2305.10143v1 )

ライセンス: Link先を確認
Daowan Peng, Wei Wei, Xian-Ling Mao, Yuanyuan Fu, Dangyang Chen(参考訳) ドメイン内エクスペリエンスを越えた分散データへの一般化は、aiドメインにおいて最も重要な意味を持つ。 vqa(state-of-the-art visual question answering)モデルは、言語がバイアスを優先していることもあって、ドメイン内データで印象的なパフォーマンスを示しているが、実際には一般化能力を妨げる。 本稿では,言語モダリティがVQAパフォーマンスに与える影響について,実証的研究の観点から新たな知見を提供する。 これを実現するために、6つのモデルで一連の実験を行った。 これらの実験の結果、 1) 質問タイプによる先行バイアスとは別に、修正後のバイアスがバイアスの誘発に顕著な影響がある。 2) 単語系列に関連した変種質問によるvqaモデルの訓練は, 分散ベンチマークの性能向上を実証し, lxmertはデバイアス手法を用いずに10点のゲインを達成した。 これらの実験結果の背後にある根本的な理由を掘り下げて、モデルの言語前の依存性を減らすための簡単な提案を行った。 実験の結果,提案手法が分散ベンチマークであるvqa-cpv2の性能向上に有効であることが示された。 この研究がバイアス還元アプローチの設計に関する今後の研究に新たな洞察をもたらすことを期待している。

Generalization beyond in-domain experience to out-of-distribution data is of paramount significance in the AI domain. Of late, state-of-the-art Visual Question Answering (VQA) models have shown impressive performance on in-domain data, partially due to the language priors bias which, however, hinders the generalization ability in practice. This paper attempts to provide new insights into the influence of language modality on VQA performance from an empirical study perspective. To achieve this, we conducted a series of experiments on six models. The results of these experiments revealed that, 1) apart from prior bias caused by question types, there is a notable influence of postfix-related bias in inducing biases, and 2) training VQA models with word-sequence-related variant questions demonstrated improved performance on the out-of-distribution benchmark, and the LXMERT even achieved a 10-point gain without adopting any debiasing methods. We delved into the underlying reasons behind these experimental results and put forward some simple proposals to reduce the models' dependency on language priors. The experimental results demonstrated the effectiveness of our proposed method in improving performance on the out-of-distribution benchmark, VQA-CPv2. We hope this study can inspire novel insights for future research on designing bias-reduction approaches.
翻訳日:2023-05-18 16:19:07 公開日:2023-05-17
# AIフィードバックによる自己学習と文脈学習による言語モデルネゴシエーションの改善

Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback ( http://arxiv.org/abs/2305.10142v1 )

ライセンス: Link先を確認
Yao Fu, Hao Peng, Tushar Khot, Mirella Lapata(参考訳) 交渉ゲームにおいて,複数大言語モデル(LLM)が,遊び,振り返り,批判によって自律的に互いに改善できるかどうかを検討する。 LLMが互いに改善できたら、人間の介入を最小限に抑えた強力なAIエージェントを作る可能性が示唆されるからです。 我々は2つのLLMにそれぞれ買い手と売り手の役割を演じる交渉を依頼する。 彼らは、低い価格と高い価格を目標とする買い手と取引することを目指している。 批評家を演じる第3の言語モデルは、プレイヤーの交渉戦略を改善するためにプレイヤーにフィードバックを提供する。 我々は、モデルの交渉戦略を反復的に改善するために、過去の交渉履歴とAIフィードバックをコンテキスト内デモとして使用して、2つのエージェントを複数ラウンドでプレイさせる。 異なる役割に異なるLLM(GPTとClaude)を使用し、評価指標として取引価格を使用します。 実験の結果,(1)aiのフィードバックから自己再生可能な言語モデルのサブセットのみが取引価格を改善し,弱いモデルはゲームのルールを理解していないか,あるいはさらなる改善のためにaiのフィードバックを取り入れられないか,という,複数の興味深い発見が明らかになった。 2) モデルがフィードバックから学ぶ能力は,異なる役割を演じる際に異なる。 例えば、Claude-Instantは売り手よりも買い手として改善することが難しい。 (3) ゲームが複数ラウンドに展開されると、より強力なエージェントは、過去の経験と反復的なAIフィードバックを有意義に利用することで、パフォーマンスを継続的に改善できるが、取引を破るリスクが高い。 私たちの研究は、モデルをゲームプレイとAIフィードバックで自律的に改善する、洞察に富んだ最初の調査を提供してくれることを願っています。

We study whether multiple large language models (LLMs) can autonomously improve each other in a negotiation game by playing, reflecting, and criticizing. We are interested in this question because if LLMs were able to improve each other, it would imply the possibility of creating strong AI agents with minimal human intervention. We ask two LLMs to negotiate with each other, playing the roles of a buyer and a seller, respectively. They aim to reach a deal with the buyer targeting a lower price and the seller a higher one. A third language model, playing the critic, provides feedback to a player to improve the player's negotiation strategies. We let the two agents play multiple rounds, using previous negotiation history and AI feedback as in-context demonstrations to improve the model's negotiation strategy iteratively. We use different LLMs (GPT and Claude) for different roles and use the deal price as the evaluation metric. Our experiments reveal multiple intriguing findings: (1) Only a subset of the language models we consider can self-play and improve the deal price from AI feedback, weaker models either do not understand the game's rules or cannot incorporate AI feedback for further improvement. (2) Models' abilities to learn from the feedback differ when playing different roles. For example, it is harder for Claude-instant to improve as the buyer than as the seller. (3) When unrolling the game to multiple rounds, stronger agents can consistently improve their performance by meaningfully using previous experiences and iterative AI feedback, yet have a higher risk of breaking the deal. We hope our work provides insightful initial explorations of having models autonomously improve each other with game playing and AI feedback.
翻訳日:2023-05-18 16:18:29 公開日:2023-05-17
# 量子相対エントロピーの一般連続性境界

General Continuity Bounds for Quantum Relative Entropies ( http://arxiv.org/abs/2305.10140v1 )

ライセンス: Link先を確認
Andreas Bluhm, \'Angela Capel, Paul Gondolf, Antonio P\'erez-Hern\'andez(参考訳) 本稿では、Alicki, Fannes, Winterによる証明手法を一般化し、異なる量子相対エントロピーから導かれるエントロピー量の連続性境界を証明する方法を提案する。 梅垣相対エントロピーについては、ほぼ最適境界がほとんどであるが、Belavkin-Staszewski相対エントロピーの場合、我々の境界は新しいものである。 最後に、これらの連続性境界を用いて、新しいエントロピーの不確実性関係を導出する。

In this article, we generalize a proof technique by Alicki, Fannes and Winter and introduce a method to prove continuity bounds for entropic quantities derived from different quantum relative entropies. For the Umegaki relative entropy, we mostly recover known almost optimal bounds, whereas, for the Belavkin-Staszewski relative entropy, our bounds are new. Finally, we use these continuity bounds to derive a new entropic uncertainty relation.
翻訳日:2023-05-18 16:17:54 公開日:2023-05-17
# 付加的マニフェスト分解: 政党位置決定を理解するためのポリシードメイン認識手法

Additive manifesto decomposition: A policy domain aware method for understanding party positioning ( http://arxiv.org/abs/2305.10136v1 )

ライセンス: Link先を確認
Tanise Ceron, Dmitry Nikolaev, Sebastian Pad\'o(参考訳) 政党(dis)の自動抽出 政党の選挙宣言や議会演説のようなテキストからの類似性は、計算政治科学においてますます役割を担っている。 しかしながら、既存のアプローチは基本的に、グローバルパーティ(dis)-類似性のみを対象としているだけに限られている。 全ての政策分野(例えば、健康または外交政策)を集約する際には、各分野の当事者が同意するか、同意するかに関する質的な洞察は提供されない。 本稿では,この制限を克服するポリシードメインの類似性を推定するためのワークフローを提案する。 ワークフローのカバー a) 適切な政策領域の定義 (b)手動ラベルがない場合は、ドメインの自動ラベリング (c)グローバルレベルでのドメインレベルの類似性及び集約の計算 (d)多次元スケーリングによる主要政策軸上の解釈可能な政党位置の抽出 我々はドイツ連邦選挙からマニフェストのワークフローを評価する。 私たちの方法は a)グローバルレベルでの党の類似性を予測した場合、高い相関性が得られる b) 自動的にラベル付けされたポリシードメインであっても、正確なパーティ固有のポジションを提供する。

Automatic extraction of party (dis)similarities from texts such as party election manifestos or parliamentary speeches plays an increasing role in computational political science. However, existing approaches are fundamentally limited to targeting only global party (dis)-similarity: they condense the relationship between a pair of parties into a single figure, their similarity. In aggregating over all policy domains (e.g., health or foreign policy), they do not provide any qualitative insights into which domains parties agree or disagree on. This paper proposes a workflow for estimating policy domain aware party similarity that overcomes this limitation. The workflow covers (a) definition of suitable policy domains; (b) automatic labeling of domains, if no manual labels are available; (c) computation of domain-level similarities and aggregation at a global level; (d) extraction of interpretable party positions on major policy axes via multidimensional scaling. We evaluate our workflow on manifestos from the German federal elections. We find that our method (a) yields high correlation when predicting party similarity at a global level and (b) provides accurate party-specific positions, even with automatically labelled policy domains.
翻訳日:2023-05-18 16:17:34 公開日:2023-05-17
# 制御可能なマインド視覚拡散モデル

Controllable Mind Visual Diffusion Model ( http://arxiv.org/abs/2305.10135v1 )

ライセンス: Link先を確認
Bohan Zeng, Shanglin Li, Xuhui Liu, Sicheng Gao, Xiaolong Jiang, Xu Tang, Yao Hu, Jianzhuang Liu, Baochang Zhang(参考訳) 脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。 拡散モデルでは、機能的磁気共鳴イメージング(fmri)データの解析において、元の視覚刺激と一致した高品質画像の再構成が期待されているが、脳信号から意味的およびシルエットな情報を抽出できる精度は限られている。 本研究では,制御可能な心の視覚拡散モデル(cmvdm)と呼ばれる新しいアプローチを提案する。 CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。 さらに、残余ブロックが組み込まれて、セマンティックおよびシルエット機能以外の情報をキャプチャする。 そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。 広汎な実験により,CMVDMは定性的かつ定量的に既存の最先端手法よりも優れていることを示した。

Brain signal visualization has emerged as an active research area, serving as a critical interface between the human visual system and computer vision models. Although diffusion models have shown promise in analyzing functional magnetic resonance imaging (fMRI) data, including reconstructing high-quality images consistent with original visual stimuli, their accuracy in extracting semantic and silhouette information from brain signals remains limited. In this regard, we propose a novel approach, referred to as Controllable Mind Visual Diffusion Model (CMVDM). CMVDM extracts semantic and silhouette information from fMRI data using attribute alignment and assistant networks. Additionally, a residual block is incorporated to capture information beyond semantic and silhouette features. We then leverage a control model to fully exploit the extracted information for image synthesis, resulting in generated images that closely resemble the visual stimuli in terms of semantics and silhouette. Through extensive experimentation, we demonstrate that CMVDM outperforms existing state-of-the-art methods both qualitatively and quantitatively.
翻訳日:2023-05-18 16:17:21 公開日:2023-05-17
# lingo3dmol:言語モデルを用いたポケット型3d分子の生成

Lingo3DMol: Generation of a Pocket-based 3D Molecule using a Language Model ( http://arxiv.org/abs/2305.10133v1 )

ライセンス: Link先を確認
Lvwei Wang (1), Zaiyun Lin (1), Yanhao Zhu (1), Rong Bai (1), Wei Feng (1), Huting Wang (1), Jielong Zhou (1), Wei Peng (2), Bo Huang (1), Wenbiao Zhou (1) ((1) Beijing StoneWise Technology Co Ltd (2) Innovation Center for Pathogen Research Guangzhou Laboratory)(参考訳) 近年, 深部生成モデルによる構造的薬物設計が研究の関心を集めている。 言語モデルは2次元構造において有効な分子を生成するための堅牢な能力を示し、幾何学的深層学習に基づく手法は正確な3次元座標を持つ分子を直接生成することができる。 本稿では,両手法に着想を得て,言語モデルを利用して3次元座標を生成可能なポケット型3次元分子生成法を提案する。 高品質なタンパク質リガンド複合体データは不十分であるため、大量の小分子データを活用できる摂動・修復事前訓練タスクが設計されている。 局所的および大域的な座標を持つフラグメントに基づく新しい分子表現も提示され、言語モデルが分子トポロジー構造と空間的位置情報を効果的に学習することができる。 最終的に、CrossDockedとDUD-Eデータセットが評価に使用され、追加のメトリクスが導入される。 この手法は, 結合パターン, 薬物様特性, 合理的なコンフォーメーション, 推論速度など, ほぼすべての指標において最先端のパフォーマンスを実現する。 我々のモデルは sw3dmg.stonewise.cn を通じて学術ユーザー向けのオンラインサービスとして利用可能である。

Structure-based drug design powered by deep generative models have attracted increasing research interest in recent years. Language models have demonstrated a robust capacity for generating valid molecules in 2D structures, while methods based on geometric deep learning can directly produce molecules with accurate 3D coordinates. Inspired by both methods, this article proposes a pocket-based 3D molecule generation method that leverages the language model with the ability to generate 3D coordinates. High quality protein-ligand complex data are insufficient; hence, a perturbation and restoration pre-training task is designed that can utilize vast amounts of small-molecule data. A new molecular representation, a fragment-based SMILES with local and global coordinates, is also presented, enabling the language model to learn molecular topological structures and spatial position information effectively. Ultimately, CrossDocked and DUD-E dataset is employed for evaluation and additional metrics are introduced. This method achieves state-of-the-art performance in nearly all metrics, notably in terms of binding patterns, drug-like properties, rational conformations, and inference speed. Our model is available as an online service to academic users via sw3dmg.stonewise.cn
翻訳日:2023-05-18 16:17:02 公開日:2023-05-17
# 2次元投影画像を用いた歯科用cbctおよび顔スキャンデータの3次元自動登録

Automatic 3D Registration of Dental CBCT and Face Scan Data using 2D Projection images ( http://arxiv.org/abs/2305.10132v1 )

ライセンス: Link先を確認
Hyoung Suk Park and Chang Min Hyun and Sang-Hwy Lee and Jin Keun Seo and Kiwan Jeon(参考訳) 本稿では,歯科用コーンビームCT(CBCT)と顔スキャンデータの完全自動登録法を提案する。 3Dデジタル治療計画や矯正手術など、様々な用途で3D顎顔面モデルのデジタルプラットフォームとして使用できる。 顔スキャンとCBCT画像の正確な融合の困難は、異なる画像取得方法と2つの顔表面の対応範囲の制限によるものである。 また、放射線被曝を伴う顔関連3d医療データを用いるため、機械学習技術を使うことは困難であり、訓練には入手が困難である。 提案手法は,既存の機械学習に基づく2Dランドマーク検出アルゴリズムをオープンソースライブラリに再利用し,対応する2Dランドマークの知識からペア化された3Dランドマークを識別する新しい数学的アルゴリズムを開発した。 本研究の主な貢献は,様々な2次元顔画像モデルに頑健で一般化された顔ランドマーク検出アルゴリズムを用いて,顔ランドマークの注釈付きトレーニングデータを必要としないことである。 これにより、2つの異なる投影角度から生成された2次元投影画像上で対応するランドマークを識別する2次元問題に3次元ランドマーク検出問題を還元する。 登録対象の3次元ランドマークは,cbctおよび顔スキャン環境下での幾何変化の少ないサブサーフェスから選択した。 最終微調整には3次元ランドマーク周辺の幾何学的情報を利用する反復クローズトポイント法が適用された。 実験の結果,提案手法は3組のcbctおよびface scanデータセットにおいて平均0.74mmの面距離誤差を達成した。

This paper presents a fully automatic registration method of dental cone-beam computed tomography (CBCT) and face scan data. It can be used for a digital platform of 3D jaw-teeth-face models in a variety of applications, including 3D digital treatment planning and orthognathic surgery. Difficulties in accurately merging facial scans and CBCT images are due to the different image acquisition methods and limited area of correspondence between the two facial surfaces. In addition, it is difficult to use machine learning techniques because they use face-related 3D medical data with radiation exposure, which are difficult to obtain for training. The proposed method addresses these problems by reusing an existing machine-learning-based 2D landmark detection algorithm in an open-source library and developing a novel mathematical algorithm that identifies paired 3D landmarks from knowledge of the corresponding 2D landmarks. A main contribution of this study is that the proposed method does not require annotated training data of facial landmarks because it uses a pre-trained facial landmark detection algorithm that is known to be robust and generalized to various 2D face image models. Note that this reduces a 3D landmark detection problem to a 2D problem of identifying the corresponding landmarks on two 2D projection images generated from two different projection angles. Here, the 3D landmarks for registration were selected from the sub-surfaces with the least geometric change under the CBCT and face scan environments. For the final fine-tuning of the registration, the Iterative Closest Point method was applied, which utilizes geometrical information around the 3D landmarks. The experimental results show that the proposed method achieved an averaged surface distance error of 0.74 mm for three pairs of CBCT and face scan datasets.
翻訳日:2023-05-18 16:16:42 公開日:2023-05-17
# 感情支援対話のための知識強調混合開始対話システム

Knowledge-enhanced Mixed-initiative Dialogue System for Emotional Support Conversations ( http://arxiv.org/abs/2305.10172v1 )

ライセンス: Link先を確認
Yang Deng, Wenxuan Zhang, Yifei Yuan, Wai Lam(参考訳) 共感的対話とは異なり、情緒的支援会話(ESC)のシステムは、ヘルプシーカーを慰めることに対する共感を伝えるだけでなく、会話中の問題の探索と解決を積極的に支援することが期待されている。 本研究では,ユーザとシステムが対話の主導権を握ることができる混合開始型ESCの問題について検討する。 具体的には、発話を話者の役割とイニシアチブの異なるタイプに分割するテーラー設計スキーマを用いて、混合開始型ESCシステムに関する新しい分析を行う。 混合開始性相互作用を評価するために,4つの感情的支援指標を提案する。 この分析は混合開始型ESCシステムの構築の必要性と課題を明らかにする。 そこで本研究では,大規模メンタルヘルス知識グラフから実例知識を抽出し,混合開始応答を生成する,知識強化型ESC用混合開始型フレームワーク(KEMI)を提案する。 2つのESCデータセットの実験結果は、コンテンツ保存評価と混合イニシアチブ関連分析の両方において、KEMIの優位性を示している。

Unlike empathetic dialogues, the system in emotional support conversations (ESC) is expected to not only convey empathy for comforting the help-seeker, but also proactively assist in exploring and addressing their problems during the conversation. In this work, we study the problem of mixed-initiative ESC where the user and system can both take the initiative in leading the conversation. Specifically, we conduct a novel analysis on mixed-initiative ESC systems with a tailor-designed schema that divides utterances into different types with speaker roles and initiative types. Four emotional support metrics are proposed to evaluate the mixed-initiative interactions. The analysis reveals the necessity and challenges of building mixed-initiative ESC systems. In the light of this, we propose a knowledge-enhanced mixed-initiative framework (KEMI) for ESC, which retrieves actual case knowledge from a large-scale mental health knowledge graph for generating mixed-initiative responses. Experimental results on two ESC datasets show the superiority of KEMI in both content-preserving evaluation and mixed initiative related analyses.
翻訳日:2023-05-18 16:09:15 公開日:2023-05-17
# 準ゴール予測を用いたゴールコンディション型教師付き学習

Goal-Conditioned Supervised Learning with Sub-Goal Prediction ( http://arxiv.org/abs/2305.10171v1 )

ライセンス: Link先を確認
Tom Jurgenson and Aviv Tamar(参考訳) 近年,目標条件付き強化学習(GCSL)に対処するために,目標条件付き教師学習(GCSL)という単純なアルゴリズムが提案されている。 GCSLは、事前に実行された軌道で訪れた状態を観察し、それらを達成目標として扱い、GCSLは教師付き学習を通じて対応する行動を学ぶ。 しかし、GCSLはゴール条件付きポリシーのみを学び、プロセス内で他の情報を捨てる。 私たちの洞察では、同じ後見原理を使って、同じ軌道からゴール条件のサブゴールを予測することができる。 この考え方に基づき,gcslの拡張であるtrail(travel iterative learner)を提案し,これを用いて動作とサブゴールの両方を予測する。 その結果,gcslと全く同じデータを用いて,gcslの実際の目標を予測されたパスサブゴールに置き換えることで,gcslと全く同じデータを用いて,エージェントがより多くの目標状態に到達することが可能となり,全体的なパフォーマンスが向上することがわかった。

Recently, a simple yet effective algorithm -- goal-conditioned supervised-learning (GCSL) -- was proposed to tackle goal-conditioned reinforcement-learning. GCSL is based on the principle of hindsight learning: by observing states visited in previously executed trajectories and treating them as attained goals, GCSL learns the corresponding actions via supervised learning. However, GCSL only learns a goal-conditioned policy, discarding other information in the process. Our insight is that the same hindsight principle can be used to learn to predict goal-conditioned sub-goals from the same trajectory. Based on this idea, we propose Trajectory Iterative Learner (TraIL), an extension of GCSL that further exploits the information in a trajectory, and uses it for learning to predict both actions and sub-goals. We investigate the settings in which TraIL can make better use of the data, and discover that for several popular problem settings, replacing real goals in GCSL with predicted TraIL sub-goals allows the agent to reach a greater set of goal states using the exact same data as GCSL, thereby improving its overall performance.
翻訳日:2023-05-18 16:08:55 公開日:2023-05-17
# 構造化信号ゲームにおける実用的推論

Pragmatic Reasoning in Structured Signaling Games ( http://arxiv.org/abs/2305.10167v1 )

ライセンス: Link先を確認
Emil Carlsson and Devdatt Dubhashi(参考訳) 本研究では,構造化領域における現実的推論のための構造化RSA(Structured-RSA)フレームワークの変種とともに,文脈における意味間の類似構造を持つ古典的シグナリングゲームの拡張である構造化シグナリングゲームを紹介する。 色領域におけるsRSAの挙動を調査し,ワールドカラーサーベイから派生した意味表現の上にsRSAを用いた実用的エージェントが,1~2段階の再帰の後に情報理論の限界に非常に近い効率を得ることを示す。 また,多エージェント強化学習フレームワークにおける実践的推論と学習の相互作用についても検討する。 以上の結果から,SRSAを用いた人工エージェントは,RSAを用いたエージェントや単に強化学習よりも情報理論フロンティアに近いコミュニケーションを発達させることが示唆された。 また,実践的エージェントが学習中に相互に深い推論を行うことで,意味表現のあいまいさが増大することがわかった。

In this work we introduce a structured signaling game, an extension of the classical signaling game with a similarity structure between meanings in the context, along with a variant of the Rational Speech Act (RSA) framework which we call structured-RSA (sRSA) for pragmatic reasoning in structured domains. We explore the behavior of the sRSA in the domain of color and show that pragmatic agents using sRSA on top of semantic representations, derived from the World Color Survey, attain efficiency very close to the information theoretic limit after only 1 or 2 levels of recursion. We also explore the interaction between pragmatic reasoning and learning in multi-agent reinforcement learning framework. Our results illustrate that artificial agents using sRSA develop communication closer to the information theoretic frontier compared to agents using RSA and just reinforcement learning. We also find that the ambiguity of the semantic representation increases as the pragmatic agents are allowed to perform deeper reasoning about each other during learning.
翻訳日:2023-05-18 16:08:36 公開日:2023-05-17
# 知識強化型生成前訓練モデルによる中国医学免許試験

Qualifying Chinese Medical Licensing Examination with Knowledge Enhanced Generative Pre-training Model ( http://arxiv.org/abs/2305.10163v1 )

ライセンス: Link先を確認
Jiageng Wu, Xian Wu, Zhaopeng Qiu, Minghui Li, Yefeng Zheng, and Jie Yang(参考訳) ChatGPTのような生成前訓練(GPT)モデルは、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示している。 chatgptは、多くの領域で効率を高めるためにワークフロー全体に統合されているが、微調整プロセスの柔軟性の欠如は、医療のような広範なドメイン専門知識とセマンティック知識を必要とする分野のアプリケーションを妨げる。 本稿では,中国国立医学ライセンス試験(CNMLE)におけるChatGPTの評価を行い,医学領域の知識の統合と少数ショット学習の実現という2つの観点からChatGPTを改善する新しいアプローチを提案する。 シンプルだが効果的な検索手法を用いて、ChatGPTの推論を導く意味的指示として医学的背景知識を抽出する。 同様に、関連する医療質問が特定され、ChatGPTのデモンストレーションとして提供される。 実験の結果、chatgptを直接適用しても、スコア51のcnmleの資格が得られないことが示されている(つまり、質問の51\%しか正しく答えられていない)。 知識向上モデルでは, CNMLE-2022では70点を達成できるが, 資格を合格するだけでなく, 人間の平均スコア(61。 本研究は、よりアクセスしやすく、ユーザフレンドリーで、適応可能な方法で現実世界の医療問題を分析できる、多用途な医療アシスタントとして機能する知識エンハンスドチャットgptの可能性を示す。

Generative Pre-Training (GPT) models like ChatGPT have demonstrated exceptional performance in various Natural Language Processing (NLP) tasks. Although ChatGPT has been integrated into the overall workflow to boost efficiency in many domains, the lack of flexibility in the finetuning process hinders its applications in areas that demand extensive domain expertise and semantic knowledge, such as healthcare. In this paper, we evaluate ChatGPT on the China National Medical Licensing Examination (CNMLE) and propose a novel approach to improve ChatGPT from two perspectives: integrating medical domain knowledge and enabling few-shot learning. By using a simple but effective retrieval method, medical background knowledge is extracted as semantic instructions to guide the inference of ChatGPT. Similarly, relevant medical questions are identified and fed as demonstrations to ChatGPT. Experimental results show that directly applying ChatGPT fails to qualify the CNMLE at a score of 51 (i.e., only 51\% of questions are answered correctly). While our knowledge-enhanced model achieves a high score of 70 on CNMLE-2022 which not only passes the qualification but also surpasses the average score of humans (61). This research demonstrates the potential of knowledge-enhanced ChatGPT to serve as versatile medical assistants, capable of analyzing real-world medical problems in a more accessible, user-friendly, and adaptable manner.
翻訳日:2023-05-18 16:08:19 公開日:2023-05-17
# 階層的コミュニケーション・マルチエージェント・近距離政策最適化に基づく大規模風力発電の多変量出力制御

Collective Large-scale Wind Farm Multivariate Power Output Control Based on Hierarchical Communication Multi-Agent Proximal Policy Optimization ( http://arxiv.org/abs/2305.10161v1 )

ライセンス: Link先を確認
Yubao Zhang, Xin Chen, Sumei Gong, Haojie Chen(参考訳) 風力発電は世界中の再生可能エネルギーの重要な供給源になりつつある。 しかし、風力発電の電力管理は、これらの農場に固有の高系統の複雑さのために大きな課題に直面している。 この課題に対処し, 出力を最大化するために, 大規模風力発電の多変量制御を学習する新しいコミュニケーション型マルチエージェント深部強化手法を提案する。 風力タービン(wts)ウェイクが電力に与える影響を研究するため,風力発電用多変量発電モデルを提案した。 多変量モデルは、軸方向誘導係数、ヨー角および傾き角制御可能な変数を含む。 多変量大規模風力発電の連続制御を協調するために,階層型通信多重エージェントポリシー最適化(HCMAPPO)アルゴリズムを提案する。 大規模風力発電所は、複数の風力タービン集約機(wtas)に分割され、隣接するwtaは階層的通信を通じて情報を交換し、風力発電所の出力を最大化することができる。 シミュレーションの結果,提案する多変量hcmappoは,従来のpid制御,協調モデルに基づく予測制御,マルチエージェントの深い決定論的政策勾配アルゴリズムと比較して,風力発電量を大幅に増加させることができることがわかった。 特にhcmappoアルゴリズムは、13基のタービン風力農場に基づいて環境を訓練し、より大きな風力発電所に効果的に適用することができる。 同時に、風力発電の規模が大きくなるにつれて、ウェイク制御による風車ブレードの疲労損傷は顕著に増加しない。 多変量HCMAPPO制御は、大規模な風力発電の最大出力を実現することができる。

Wind power is becoming an increasingly important source of renewable energy worldwide. However, wind farm power control faces significant challenges due to the high system complexity inherent in these farms. A novel communication-based multi-agent deep reinforcement learning large-scale wind farm multivariate control is proposed to handle this challenge and maximize power output. A wind farm multivariate power model is proposed to study the influence of wind turbines (WTs) wake on power. The multivariate model includes axial induction factor, yaw angle, and tilt angle controllable variables. The hierarchical communication multi-agent proximal policy optimization (HCMAPPO) algorithm is proposed to coordinate the multivariate large-scale wind farm continuous controls. The large-scale wind farm is divided into multiple wind turbine aggregators (WTAs), and neighboring WTAs can exchange information through hierarchical communication to maximize the wind farm power output. Simulation results demonstrate that the proposed multivariate HCMAPPO can significantly increase wind farm power output compared to the traditional PID control, coordinated model-based predictive control, and multi-agent deep deterministic policy gradient algorithm. Particularly, the HCMAPPO algorithm can be trained with the environment based on the thirteen-turbine wind farm and effectively applied to larger wind farms. At the same time, there is no significant increase in the fatigue damage of the wind turbine blade from the wake control as the wind farm scale increases. The multivariate HCMAPPO control can realize the collective large-scale wind farm maximum power output.
翻訳日:2023-05-18 16:07:52 公開日:2023-05-17
# テストデータを平文にアップロードするのをやめよう:評価ベンチマークによるデータ汚染の軽減のための実践的戦略

Stop Uploading Test Data in Plain Text: Practical Strategies for Mitigating Data Contamination by Evaluation Benchmarks ( http://arxiv.org/abs/2305.10160v1 )

ライセンス: Link先を確認
Alon Jacovi, Avi Caciularu, Omer Goldman, Yoav Goldberg(参考訳) データ汚染は、非常に大きく、自動クロールされたコーパスで事前訓練されたモデルの台頭によって、特に普及し、困難になっている。 クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても、特定のテストインスタンスが侵害されたかどうかを確認することは容易ではない。 隠れた回答を持つライブのリーダーボードや、見当たらないと保証されたテストデータの使用といった戦略は高価であり、時間とともに脆弱になる。 すべてのアクターがクリーンなテストデータを評価し、データの汚染を軽減するために協力すると仮定すれば、何ができるか? そこで我々は,(1)公開するテストデータを公開鍵で暗号化し,デリバティブな配布を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的制御を許可する,(2)要求が満たされるまで評価を拒む,テストデータを保護する,(3)インターネットテキストに基づくテストデータの場合,インターネット上のソリューションで現れるデータを避け,そのデータとともにインターネット由来のデータコンテキストを解放する,という3つの方法を提案する。 これらの戦略は実用的であり、データの汚染を防止し、モデルの能力の信頼できる評価を可能にする。

Data contamination has become especially prevalent and challenging with the rise of models pretrained on very large, automatically-crawled corpora. For closed models, the training data becomes a trade secret, and even for open models, it is not trivial to ascertain whether a particular test instance has been compromised. Strategies such as live leaderboards with hidden answers, or using test data which is guaranteed to be unseen, are expensive and become fragile with time. Assuming that all relevant actors value clean test data and will cooperate to mitigate data contamination, what can be done? We propose three strategies that can make a difference: (1) Test data made public should be encrypted with a public key and licensed to disallow derivative distribution; (2) demand training exclusion controls from closed API holders, and protect your test data by refusing to evaluate until demands are met; (3) in case of test data based on internet text, avoid data which appears with its solution on the internet, and release the context of internet-derived data along with the data. These strategies are practical and can be effective in preventing data contamination and allowing trustworthy evaluation of models' capabilities.
翻訳日:2023-05-18 16:07:30 公開日:2023-05-17
# 大規模ガウス過程モデリングのためのグローバルローカル近似フレームワーク

A Global-Local Approximation Framework for Large-Scale Gaussian Process Modeling ( http://arxiv.org/abs/2305.10158v1 )

ライセンス: Link先を確認
Akhil Vakayil and Roshan Joseph(参考訳) 本研究では,大規模ガウス過程(GP)モデリングのための新しいフレームワークを提案する。 GPモデリングによる計算ボトルネックに対処するために文献で提案されているグローバルな局所近似とは対照的に,近似の構築にはグローバルなアプローチが併用されている。 我々のフレームワークは、データ内のグローバルなトレンドを捉えるために設計されたグローバルなポイントの集合と、テスト場所に関するローカルなトレンドをキャプチャするために、所定のテストロケーションに特有のローカルなポイントの集合を結合したデータサブセットアプローチを使用する。 相関関数は、グローバルカーネルとローカルカーネルの組み合わせとしてもモデル化される。 TwinGPと呼ぶ我々のフレームワークの性能は、その計算コストのごく一部で最先端のGPモデリング手法と同等かそれ以上である。

In this work, we propose a novel framework for large-scale Gaussian process (GP) modeling. Contrary to the global, and local approximations proposed in the literature to address the computational bottleneck with exact GP modeling, we employ a combined global-local approach in building the approximation. Our framework uses a subset-of-data approach where the subset is a union of a set of global points designed to capture the global trend in the data, and a set of local points specific to a given testing location to capture the local trend around the testing location. The correlation function is also modeled as a combination of a global, and a local kernel. The performance of our framework, which we refer to as TwinGP, is on par or better than the state-of-the-art GP modeling methods at a fraction of their computational cost.
翻訳日:2023-05-18 16:07:05 公開日:2023-05-17
# おそらく正しい物理インフォームドニューラルネットワーク

Provably Correct Physics-Informed Neural Networks ( http://arxiv.org/abs/2305.10157v1 )

ライセンス: Link先を確認
Francisco Eiras, Adel Bibi, Rudy Bunel, Krishnamurthy Dj Dvijotham, Philip Torr, M. Pawan Kumar(参考訳) 最近の研究は、物理情報ニューラルネットワーク(PINN)が偏微分方程式(PDE)を効率的に解くことができるという有望な証拠を提供している。 しかし、従来の研究では、時空間領域におけるPINNの最悪の残差(数値解法の耐性に類似した尺度)を保証できなかった。 実世界のアプリケーションでは、異なるセットでパフォーマンスが著しく悪化する可能性があるため、有限個の点からなるテストが配置の十分な根拠であると考えることはできない。 この問題を軽減するため,我々は入力領域全体のピンに対する耐性に基づく正しさ条件を確立する。 彼らが持つ範囲を検証するために、$\partial$-crown:バウンドpinn残差エラーに対して、汎用的で効率的でスケーラブルなポストトレーニングフレームワークを紹介します。 本稿では,古典的に研究されている2つのPDE – Burgers' と Schr\odinger' の方程式 – と,Allan-Cahn と Diffusion-Sorption の2つの実世界の応用 – に応用することで,厳密な証明を得ることの有効性を示す。

Recent work provides promising evidence that Physics-informed neural networks (PINN) can efficiently solve partial differential equations (PDE). However, previous works have failed to provide guarantees on the worst-case residual error of a PINN across the spatio-temporal domain - a measure akin to the tolerance of numerical solvers - focusing instead on point-wise comparisons between their solution and the ones obtained by a solver on a set of inputs. In real-world applications, one cannot consider tests on a finite set of points to be sufficient grounds for deployment, as the performance could be substantially worse on a different set. To alleviate this issue, we establish tolerance-based correctness conditions for PINNs over the entire input domain. To verify the extent to which they hold, we introduce $\partial$-CROWN: a general, efficient and scalable post-training framework to bound PINN residual errors. We demonstrate its effectiveness in obtaining tight certificates by applying it to two classically studied PDEs - Burgers' and Schr\"odinger's equations -, and two more challenging ones with real-world applications - the Allan-Cahn and Diffusion-Sorption equations.
翻訳日:2023-05-18 16:06:50 公開日:2023-05-17
# 読書中の架空の人物の性格理解

Personality Understanding of Fictional Characters during Book Reading ( http://arxiv.org/abs/2305.10156v1 )

ライセンス: Link先を確認
Mo Yu, Jiangnan Li, Shunyu Yao, Wenjie Pang, Xiaochen Zhou, Zhou Xiao, Fandong Meng and Jie Zhou(参考訳) 登場人物の性格の理解は、物語を読む上で重要な側面である。 読者が物語に携わるにつれて、キャラクターに対する理解は新たな出来事や情報に基づいて進化し、パーソナリティの複数の細かい側面が認識される。 これは、位置と細かなパーソナリティ理解の自然な問題につながる。 この問題は、本を読む過程を模倣する適切なデータセットがないため、nlpの分野では研究されていない。 この問題に対する最初のラベル付きデータセットPersoNetを提示する。 新しいアノテーション戦略は、オンライン読書アプリからユーザーノートをオリジナルの書籍の代理としてアノテートすることを含む。 実験と人間の研究は、データセットの構築が効率的かつ正確であることを示し、我々のタスクは、機械と人間の両方の正確な予測を達成するために、長期的なコンテキストに大きく依存している。 データセットはhttps://github.com/gorov/personet_acl23で入手できる。

Comprehending characters' personalities is a crucial aspect of story reading. As readers engage with a story, their understanding of a character evolves based on new events and information; and multiple fine-grained aspects of personalities can be perceived. This leads to a natural problem of situated and fine-grained personality understanding. The problem has not been studied in the NLP field, primarily due to the lack of appropriate datasets mimicking the process of book reading. We present the first labeled dataset PersoNet for this problem. Our novel annotation strategy involves annotating user notes from online reading apps as a proxy for the original books. Experiments and human studies indicate that our dataset construction is both efficient and accurate; and our task heavily relies on long-term context to achieve accurate predictions for both machines and humans. The dataset is available at https://github.com/Gorov/personet_acl23.
翻訳日:2023-05-18 16:06:24 公開日:2023-05-17
# 反復学習とコミュニケーションによるカラーネーミングの効率化

Iterated learning and communication jointly explain efficient color naming systems ( http://arxiv.org/abs/2305.10154v1 )

ライセンス: Link先を確認
Emil Carlsson and Devdatt Dubhashi and Terry Regier(参考訳) セマンティックシステムは効率のプレッシャーを反映していると論じられ、このパターンを生み出す文化進化過程に関する議論が現在行われている。 我々は,情報ボトルネック(ib)原則と反復学習とコミュニケーションを組み合わせた文化進化のモデルにおいて,効率性はインスタンス化されていると考える。 ニューラルネットワークでインスタンス化されたこのモデルは、ibの意味で効率的で、人間の色命名システムと類似した色命名システムに収束する。 また,反復学習とコミュニケーションだけでは,同じ結果が得られないことも示している。

It has been argued that semantic systems reflect pressure for efficiency, and a current debate concerns the cultural evolutionary process that produces this pattern. We consider efficiency as instantiated in the Information Bottleneck (IB) principle, and a model of cultural evolution that combines iterated learning and communication. We show that this model, instantiated in neural networks, converges to color naming systems that are efficient in the IB sense and similar to human color naming systems. We also show that iterated learning alone, and communication alone, do not yield the same outcome as clearly.
翻訳日:2023-05-18 16:06:11 公開日:2023-05-17
# IDO-VFI:イベントによるビデオフレーム補間のための光フロー誘導によるダイナミクスの同定

IDO-VFI: Identifying Dynamics via Optical Flow Guidance for Video Frame Interpolation with Events ( http://arxiv.org/abs/2305.10198v1 )

ライセンス: Link先を確認
Chenyang Shi, Hanxiao Liu, Jing Jin, Wenzhuo Li, Yuzhen Li, Boyi Wei, Yibo Zhang(参考訳) ビデオフレーム補間(VFI)は、再構成フレームを2つの連続フレームに挿入することで、ビデオフレームレートを増加させる。 通常のカメラの固定フレームレートの限界により、フレームのみのフレーム補間法は、連続するフレーム間の間隔のダイナミクスを必然的に失われる。 フレーム間情報の欠如を補うために、運動モデルはよく用いられるが、それらのモデルは実際の動きを説明できない。 イベントカメラはバイオインスパイアされた視覚センサーであり、それぞれのピクセルは独立して光強度の相対的な変化を認識し、エンコードする。 イベントカメラはフレームではなくイベントのスパース、非同期ストリームを出力し、高時間分解能、高ダイナミクス、低消費電力の利点がある。 イベントは通常、タプルe=(x,y,p,t)で表されるので、タイムスタンプtでは、ピクセル(x,y)で極性のあるイベントが生成される。 正極性は、週間から強度への光強度の変化が閾値を超え、負極性は正反対であることを示している。 イベントカメラは時間分解能が最大マイクロ秒であるため、フレーム間の完全な変化や動きを捉えることができる。 イベントフローはフレーム間の変更の具体化である。 したがって、事象から推定される光の流れは、本質的に非線形であるような運動モデルを取り付ける必要がない。 イベントには強度情報がないため、フレームベースの光フローはイベントベースの光フローを補完する。 これら2種類の光流を組み合わせることにより、より正確な推定結果が得られる。 一方、実際のフレーム間ダイナミクスがキャプチャされるため、任意のタイムスタンプで高品質なキーフレームを再構築することができる。

Video frame interpolation (VFI) increases the video frame rate by inserting a reconstruction frame into two consecutive frames. Due to the limitation of the fixed frame rate of ordinary camera, the frame-only video frame interpolation methods inevitably lose the dynamics in the interval between consecutive frames. In order to compensate for the lack of inter-frame information, motion models are often used, but those models cannot account for the real motions. Event cameras are bio-inspired vision sensor, each pixel of which independently perceives and encodes relative changes in light intensity. Event cameras output sparse, asynchronous streams of events instead of frames, with advantages of high temporal resolution, high dynamics, and low power consumption. An event is usually expressed as a tuple e=(x,y,p,t), which means that at timestamp t, an event with polarity is generated at the pixel (x,y). Positive polarity indicates that the change of light intensity from week to strong is beyond the threshold, while negative polarity is just the opposite. Because an event camera has high temporal resolution up to microseconds, it can capture complete changes or motion between frames. The event flow is the embodiment of inter-frame changes. Therefore, the optical flow estimated from the events does not require any motion model to be fitted, which can be inherently nonlinear. Since events lack intensity information, frame-based optical flow is complementary to event-based optical flow. By combining these two kinds of optical flow, more accurate estimation results can be obtained. Meanwhile, it is possible to reconstruct high-quality keyframes at any timestamp, since real inter-frame dynamics are captured.
翻訳日:2023-05-18 16:00:32 公開日:2023-05-17
# 深部および高速な近似順序独立透明性

Deep and Fast Approximate Order Independent Transparency ( http://arxiv.org/abs/2305.10197v1 )

ライセンス: Link先を確認
Grigoris Tsopouridis, Andreas-Alexandros Vasilakis, Ioannis Fudos(参考訳) 注文独立透明性(OIT)を効率的に計算するための機械学習手法を提案する。 提案手法は高速で,メモリ容量が一定であり(三角形や透明層の数に依存せず,画面解像度にのみ依存する),従来の近似手法よりも精度が高く,セットアップなしですべてのシーンで動作し,コモディティGPUでも動作するすべてのプラットフォームに移植可能である。 本手法では,事前学習したニューラルネットワークを用いてoitピクセル全体の色を予測するために使用されるすべての特徴を描画パスで抽出する。 実験を再現するためのすべての方法について,比較実験評価とシェーダソースコードを提供する。

We present a machine learning approach for efficiently computing order independent transparency (OIT). Our method is fast, requires a small constant amount of memory (depends only on the screen resolution and not on the number of triangles or transparent layers), is more accurate as compared to previous approximate methods, works for every scene without setup and is portable to all platforms running even with commodity GPUs. Our method requires a rendering pass to extract all features that are subsequently used to predict the overall OIT pixel color with a pre-trained neural network. We provide a comparative experimental evaluation and shader source code of all methods for reproduction of the experiments.
翻訳日:2023-05-18 16:00:04 公開日:2023-05-17
# ゼロ代名詞翻訳に関する調査研究

A Survey on Zero Pronoun Translation ( http://arxiv.org/abs/2305.10196v1 )

ライセンス: Link先を確認
Longyue Wang, Siyou Liu, Mingzhou Xu, Linfeng Song, Shuming Shi, Zhaopeng Tu(参考訳) ゼロ代名詞(ZP)はプロドロップ言語(中国語、ハンガリー語、ヒンディー語など)では省略されることが多いが、非プロドロップ言語(英語など)ではリコールされるべきである。 この現象は機械翻訳(MT)において広く研究されており、代名詞の正しい先行詞を決定するのが困難であるため、MTシステムにとって大きな課題となっている。 本研究は, 神経革命後のゼロ代名詞翻訳(ZPT)における主要な研究成果を取り上げ, その現状と今後の方向性を研究者が認識できるようにした。 我々は、進化、データセット、方法、評価に基づく文学の組織を提供する。 さらに、異なるベンチマークで競合するモデルと評価指標を比較し分析する。 私たちは次のような洞察に富んだ発見をたくさん発見した。 1) ZPTは, 大規模言語モデルの発展傾向と一致している。 2 データ制限は、言語及びドメインの学習バイアスを引き起こす。 3) パフォーマンス改善は単一のベンチマークで報告されることが多いが、高度なメソッドは実際の使用には程遠い。 4) 汎用メトリクスは、ZPTのニュアンスや複雑さに頼らず、対象メトリクスの必要性を強調している。 5) 一般的に語られる誤りとは別に、ZPは性バイアスのリスクを引き起こす。

Zero pronouns (ZPs) are frequently omitted in pro-drop languages (e.g. Chinese, Hungarian, and Hindi), but should be recalled in non-pro-drop languages (e.g. English). This phenomenon has been studied extensively in machine translation (MT), as it poses a significant challenge for MT systems due to the difficulty in determining the correct antecedent for the pronoun. This survey paper highlights the major works that have been undertaken in zero pronoun translation (ZPT) after the neural revolution, so that researchers can recognise the current state and future directions of this field. We provide an organisation of the literature based on evolution, dataset, method and evaluation. In addition, we compare and analyze competing models and evaluation metrics on different benchmarks. We uncover a number of insightful findings such as: 1) ZPT is in line with the development trend of large language model; 2) data limitation causes learning bias in languages and domains; 3) performance improvements are often reported on single benchmarks, but advanced methods are still far from real-world use; 4) general-purpose metrics are not reliable on nuances and complexities of ZPT, emphasizing the necessity of targeted metrics; 5) apart from commonly-cited errors, ZPs will cause risks of gender bias.
翻訳日:2023-05-18 15:59:53 公開日:2023-05-17
# モチベーション型面接戦略による苦難支援対話応答の促進

Boosting Distress Support Dialogue Responses with Motivational Interviewing Strategy ( http://arxiv.org/abs/2305.10195v1 )

ライセンス: Link先を確認
Anuradha Welivita and Pearl Pu(参考訳) AI駆動のチャットボットは、心理的苦痛に対処する新たなソリューションになりつつある。 精神療法データがないため、研究者たちはオンラインのピアサポートフォーラムから抽出した対話を使ってトレーニングする。 しかし、そのようなプラットフォームの応答は専門家によって与えられていないため、適合する応答と非整合応答の両方を含んでいる。 本稿では,モチベーション・インタビュー処理完全性(miti)コードという,確立された行動コーディング手法から適応したラベルを用いて,オンラインの苦難支援対話に存在するこれらの適合性や非適合性を考慮した応答型を認識し,チャットボット応答がmi戦略に適合することを可能にするような,よりmi密着型の応答型をどのように再現できるかを示す。 概念実証として、Blender と GPT3 を微調整し、MI の非従属な "Advise without permission" 応答を "Advise with permission" に書き換える。 擬似並列コーパスの構築により、人的労働のコストを回避できることを示す。 自動的, 人的評価により, より少ないトレーニングデータの存在下では, プロンプトやデータ拡張といった手法を用いて, 意図したスタイルを反映し, オリジナルテキストの内容を保存した, 極めて優れた表現を生成できることが示される。

AI-driven chatbots have become an emerging solution to address psychological distress. Due to the lack of psychotherapeutic data, researchers use dialogues scraped from online peer support forums to train them. But since the responses in such platforms are not given by professionals, they contain both conforming and non-conforming responses. In this work, we attempt to recognize these conforming and non-conforming response types present in online distress-support dialogues using labels adapted from a well-established behavioral coding scheme named Motivational Interviewing Treatment Integrity (MITI) code and show how some response types could be rephrased into a more MI adherent form that can, in turn, enable chatbot responses to be more compliant with the MI strategy. As a proof of concept, we build several rephrasers by fine-tuning Blender and GPT3 to rephrase MI non-adherent "Advise without permission" responses into "Advise with permission". We show how this can be achieved with the construction of pseudo-parallel corpora avoiding costs for human labor. Through automatic and human evaluation we show that in the presence of less training data, techniques such as prompting and data augmentation can be used to produce substantially good rephrasings that reflect the intended style and preserve the content of the original text.
翻訳日:2023-05-18 15:59:36 公開日:2023-05-17
# 強化学習を用いた求人スケジューリングにおけるカリキュラム学習

Curriculum Learning in Job Shop Scheduling using Reinforcement Learning ( http://arxiv.org/abs/2305.10192v1 )

ライセンス: Link先を確認
Constantin Waubert de Puiseau, Hasan Tercan, Tobias Meisen(参考訳) 優先順位ディスパッチルールのような固定戦略によるジョブショップスケジューリング問題(jssp)の解決は、いくつかの問題例で十分な結果をもたらすが、それでも他のケースでは不十分である。 この単一戦略の観点から、特定のJSSPに対するほぼ最適解を見つけることは、たとえマシンの設定が同じであっても困難である。 難易度に対処するための近年,集中的に研究され,有望な手法として深層強化学習(DRL, Deep Reinforcement Learning)があり,これは訓練中だけでなく,新たな状況に適用する場合にも,エージェントの計画戦略を動的に調整するものである。 本稿では,同じ問題の大きさの難易度を学習プロセスの設計に積極的に組み込むことにより,基礎的手法としてのDLRをさらに改良する。 我々は、DRLとグラフニューラルネットワークの埋め込みを用いてJSSPを解く最先端の方法論に基づくアプローチを提案する。 本研究は,学習中に提示される問題事例を,問題事例の難易度の新しい尺度でランク付けするカリキュラム学習戦略によって,エージェントのトレーニングルーチンを補完するものである。 以上の結果から,DRLソリューションの性能は極めて良好であることが示唆された。 これらのカリキュラムで訓練されたエージェントは、ランダムに分散したトレーニングデータで訓練されたエージェントの最高パフォーマンスを破り、平均メイクパンを3.2%短縮した。

Solving job shop scheduling problems (JSSPs) with a fixed strategy, such as a priority dispatching rule, may yield satisfactory results for several problem instances but, nevertheless, insufficient results for others. From this single-strategy perspective finding a near optimal solution to a specific JSSP varies in difficulty even if the machine setup remains the same. A recent intensively researched and promising method to deal with difficulty variability is Deep Reinforcement Learning (DRL), which dynamically adjusts an agent's planning strategy in response to difficult instances not only during training, but also when applied to new situations. In this paper, we further improve DLR as an underlying method by actively incorporating the variability of difficulty within the same problem size into the design of the learning process. We base our approach on a state-of-the-art methodology that solves JSSP by means of DRL and graph neural network embeddings. Our work supplements the training routine of the agent by a curriculum learning strategy that ranks the problem instances shown during training by a new metric of problem instance difficulty. Our results show that certain curricula lead to significantly better performances of the DRL solutions. Agents trained on these curricula beat the top performance of those trained on randomly distributed training data, reaching 3.2% shorter average makespans.
翻訳日:2023-05-18 15:59:09 公開日:2023-05-17
# ゼロショットニューラルマシン翻訳のための可変長ニューラルインターリングア表現

Variable-length Neural Interlingua Representations for Zero-shot Neural Machine Translation ( http://arxiv.org/abs/2305.10190v1 )

ライセンス: Link先を確認
Zhuoyuan Mao, Haiyue Song, Raj Dabre, Chenhui Chu, Sadao Kurohashi(参考訳) 多言語ニューラルマシン翻訳(mnmt)モデルにおける符号化表現の言語依存は、ゼロショット翻訳における一般化能力に不可欠である。 ニューラルインターリングア表現は、これを達成する効果的な方法として示されている。 しかし、以前の研究で導入された固定長神経インターリングア表現は、その柔軟性と表現能力を制限することができる。 本研究では,その長さを可変にすることで,固定長のニューラルインターリングア表現の制約を克服し,ニューラルインターリングア表現を強化する新しい手法を提案する。 OPUS, IWSLT, Europarlデータセットを用いたゼロショット翻訳実験の結果, 固定長神経インターリングア表現と比較して安定なモデル収束と優れたゼロショット翻訳結果が得られた。 しかし,本研究は,提案手法の欠陥モデル要素を特定できる,特定のソース言語への翻訳における最善の手法の有効性を明らかにするものである。

The language-independency of encoded representations within multilingual neural machine translation (MNMT) models is crucial for their generalization ability on zero-shot translation. Neural interlingua representations have been shown as an effective method for achieving this. However, fixed-length neural interlingua representations introduced in previous work can limit its flexibility and representation ability. In this study, we introduce a novel method to enhance neural interlingua representations by making their length variable, thereby overcoming the constraint of fixed-length neural interlingua representations. Our empirical results on zero-shot translation on OPUS, IWSLT, and Europarl datasets demonstrate stable model convergence and superior zero-shot translation results compared to fixed-length neural interlingua representations. However, our analysis reveals the suboptimal efficacy of our approach in translating from certain source languages, wherein we pinpoint the defective model component in our proposed method.
翻訳日:2023-05-18 15:58:45 公開日:2023-05-17
# ライドシェアリングにおける動的条件量子処理効果の評価

Evaluating Dynamic Conditional Quantile Treatment Effects with Applications in Ridesharing ( http://arxiv.org/abs/2305.10187v1 )

ライセンス: Link先を確認
Ting Li, Chengchun Shi, Zhaohua Lu, Yi Li and Hongtu Zhu(参考訳) google、uber、didiなど現代の多くのテクノロジー企業は、オンライン実験(a/bテストとも呼ばれる)を使用して、既存のものに対する新しいポリシーを評価している。 ほとんどの研究は平均的な治療効果に重点を置いているが、歪んだ結果の分布と重み付けされた結果の分布は、量子化のような代替基準の恩恵を受ける可能性がある。 しかし、特に時間と空間にわたる連続的な意思決定を伴う配車プラットフォームのデータを扱う場合、動的質的治療効果(qte)の評価は依然として課題である。 本稿では, 治療に依存しない特徴に基づくQTE条件を定式化するための枠組みを確立する。 特定のモデル仮定の下では, 累積報酬の条件性は必ずしも個々の報酬の条件性分数に等しいとは限らないが, 動的条件量qte (cqte) は時間の経過とともに個々のcqteの総和に等しいことを示す。 この重要な洞察は、目標因果推定の見積もりと推論プロセスを著しく合理化する。 次に、2つの可変係数決定プロセス(VCDP)モデルを導入し、動的CQTEをテストする革新的な方法を提案する。 さらに、時空間依存実験のデータに適応するアプローチを拡張し、条件付き量子的直接的および間接的効果について検討する。 本手法の実用性を実証するため,配車プラットフォームから実世界の3つのデータセットに適用した。 理論的知見と包括的シミュレーション研究は,提案をさらに裏付けるものである。

Many modern tech companies, such as Google, Uber, and Didi, utilize online experiments (also known as A/B testing) to evaluate new policies against existing ones. While most studies concentrate on average treatment effects, situations with skewed and heavy-tailed outcome distributions may benefit from alternative criteria, such as quantiles. However, assessing dynamic quantile treatment effects (QTE) remains a challenge, particularly when dealing with data from ride-sourcing platforms that involve sequential decision-making across time and space. In this paper, we establish a formal framework to calculate QTE conditional on characteristics independent of the treatment. Under specific model assumptions, we demonstrate that the dynamic conditional QTE (CQTE) equals the sum of individual CQTEs across time, even though the conditional quantile of cumulative rewards may not necessarily equate to the sum of conditional quantiles of individual rewards. This crucial insight significantly streamlines the estimation and inference processes for our target causal estimand. We then introduce two varying coefficient decision process (VCDP) models and devise an innovative method to test the dynamic CQTE. Moreover, we expand our approach to accommodate data from spatiotemporal dependent experiments and examine both conditional quantile direct and indirect effects. To showcase the practical utility of our method, we apply it to three real-world datasets from a ride-sourcing platform. Theoretical findings and comprehensive simulation studies further substantiate our proposal.
翻訳日:2023-05-18 15:58:31 公開日:2023-05-17
# 整数計画を用いたブール行列分解のアルゴリズム

Algorithms for Boolean Matrix Factorization using Integer Programming ( http://arxiv.org/abs/2305.10185v1 )

ライセンス: Link先を確認
Christos Kolomvakis, Arnaud Vandaele, Nicolas Gillis(参考訳) ブール行列分解(BMF)は、2つのより小さな二項係数の積として与えられた二項入力行列を近似する。 標準的な算術を使用するバイナリ行列分解とは対照的に、BMFはBoolean OR と Boolean AND 演算を使用して行列生成を行う。 BMFはNPハード問題である。 本稿では,まず整数型プログラム(ip)を用いて,bmfの一因子行列における部分問題を解く交互最適化(ao)戦略を提案する。 また、AO内の因子を初期化する2つの方法も提供します。 そして,他のIPを用いてBMFの複数の解を最適に組み合わせる方法を示す。 これにより、AOを使って複数のソリューションを生成し、それらを最適な方法で組み合わせることで、新しいアルゴリズムを思いつくことができます。 実験の結果,我々のアルゴリズム(gitlabで利用可能)は,中規模問題における技術状況よりも優れていた。

Boolean matrix factorization (BMF) approximates a given binary input matrix as the product of two smaller binary factors. As opposed to binary matrix factorization which uses standard arithmetic, BMF uses the Boolean OR and Boolean AND operations to perform matrix products, which leads to lower reconstruction errors. BMF is an NP-hard problem. In this paper, we first propose an alternating optimization (AO) strategy that solves the subproblem in one factor matrix in BMF using an integer program (IP). We also provide two ways to initialize the factors within AO. Then, we show how several solutions of BMF can be combined optimally using another IP. This allows us to come up with a new algorithm: it generates several solutions using AO and then combines them in an optimal way. Experiments show that our algorithms (available on gitlab) outperform the state of the art on medium-scale problems.
翻訳日:2023-05-18 15:58:06 公開日:2023-05-17
# ラショモン集合における特徴的相互作用点のクラウド探索

Exploring the cloud of feature interaction scores in a Rashomon set ( http://arxiv.org/abs/2305.10181v1 )

ライセンス: Link先を確認
Sichao Li, Rong Wang, Quanling Deng, Amanda Barnard(参考訳) 機能間の相互作用は、機械学習モデルの振る舞いを理解する中心である。 近年の研究では、単一予測モデルにおける特徴的相互作用の検出と定量化に大きく貢献している。 十分に訓練された予測モデルは、真の特徴的相互作用を保たないかもしれないし、特徴的相互作用の強さが異なる複数の優れた予測モデルが存在する。 そこで我々は,ほぼ同じ精度の予測モデルを用いたモデルクラスにおける特徴的相互作用強度の探索を推奨する。 そこで本研究では,Rashomon 集合のコンテキストにおける特徴相互作用スコア (FIS) を導入し,与えられたタスクに類似した精度のモデル集合を表現した。 モデルクラスのfisを計算するための汎用的かつ実用的なアルゴリズムを提案する。 合成データを用いてfisの特性を実証し,他の統計分野との接続性を示す。 さらに,高次元空間における特徴相互作用の分散を可視化するHaloプロットと,ラショモン集合におけるFISを解析するためのSwarmプロットを導入する。 回帰予測と画像分類による実験は、同様の精度の予測モデルにおいて、機能相互作用が劇的に重要であることを示す。 提案するfisは,機械学習モデルにおける特徴的相互作用の性質に関する貴重な洞察を与えることができることが示唆された。

Interactions among features are central to understanding the behavior of machine learning models. Recent research has made significant strides in detecting and quantifying feature interactions in single predictive models. However, we argue that the feature interactions extracted from a single pre-specified model may not be trustworthy since: a well-trained predictive model may not preserve the true feature interactions and there exist multiple well-performing predictive models that differ in feature interaction strengths. Thus, we recommend exploring feature interaction strengths in a model class of approximately equally accurate predictive models. In this work, we introduce the feature interaction score (FIS) in the context of a Rashomon set, representing a collection of models that achieve similar accuracy on a given task. We propose a general and practical algorithm to calculate the FIS in the model class. We demonstrate the properties of the FIS via synthetic data and draw connections to other areas of statistics. Additionally, we introduce a Halo plot for visualizing the feature interaction variance in high-dimensional space and a swarm plot for analyzing FIS in a Rashomon set. Experiments with recidivism prediction and image classification illustrate how feature interactions can vary dramatically in importance for similarly accurate predictive models. Our results suggest that the proposed FIS can provide valuable insights into the nature of feature interactions in machine learning models.
翻訳日:2023-05-18 15:57:52 公開日:2023-05-17
# 選択公理のない量子理論とレフシェッツ量子物理学

Quantum theory without the Axiom of choice, and Lefschetz Quantum Physics ( http://arxiv.org/abs/2305.10173v1 )

ライセンス: Link先を確認
Koen Thas(参考訳) 本稿では、有名な選択公理を使わない量子形式論について議論する。 また、量子論の k{\o}benhavn 解釈において複素数をヒルベルト空間の基底体とする(in)誤りに対処する基礎的な問題を考えるとともに、この問題に対する新しいアプローチを提案する(レフシェッツの原理に基づく)。 本稿では,理論-証明-論文ではなく,基礎レベルに関する2つの新しい研究プログラムについて述べる。

In this conceptual paper, we discuss quantum formalisms which do not use the famous Axiom of Choice. We also consider the fundamental problem which addresses the (in)correctness of having the complex numbers as the base field for Hilbert spaces in the K{\o}benhavn interpretation of quantum theory, and propose a new approach to this problem (based on the Lefschetz principle). Rather than a Theorem--Proof--paper, this paper describes two new research programs on the foundational level, and focuses on fundamental open questions in these programs which come along the way.
翻訳日:2023-05-18 15:57:30 公開日:2023-05-17
# WISE赤外線データに基づく深層学習応用:星・銀河・クエーサーの分類

Deep Learning Applications Based on WISE Infrared Data: Classification of Stars, Galaxies and Quasars ( http://arxiv.org/abs/2305.10217v1 )

ライセンス: Link先を確認
Guiyu Zhao, Bo Qiu, A-Li Luo, Xiaoyu Guo, Lin Yao, Kun Wang and Yuanbo Liu(参考訳) ワイドフィールド赤外線サーベイエクスプローラー(WISE)は、上空で数十億のソースを検出しました。 しかし、WISE多色空間の縮退と2つの長い波長帯域における検出レベルが低いため、それらを確実に分類することは大きな課題である。 本稿では,ディープラーニング分類ネットワーク iicnet (infrared image classification network) を用いて,より正確な分類目標を達成するために,賢明な画像からソースを分類する。 IICnetはWISEソースの特徴抽出に優れた能力を示す。 IICnetの分類結果は、銀河の96.2%の精度、クエーサーの97.9%の精度、恒星の96.4%の精度、IICnet分類器のエリア・アンダー・カーブ(AUC)は99%以上に達した。 さらに, vgg16, googlenet, resnet34, mobilenet, efficientnetv2, repvgg-fewerパラメータと高速な推論において, 赤外線画像処理におけるiicnetの優位性が実証されている。 以上より,IICnetは赤外光源の分類に有効な方法であることが示された。

The Wide-field Infrared Survey Explorer (WISE) has detected hundreds of millions of sources over the entire sky. However, classifying them reliably is a great challenge due to degeneracies in WISE multicolor space and low detection levels in its two longest-wavelength bandpasses. In this paper, the deep learning classification network, IICnet (Infrared Image Classification network), is designed to classify sources from WISE images to achieve a more accurate classification goal. IICnet shows good ability on the feature extraction of the WISE sources. Experiments demonstrates that the classification results of IICnet are superior to some other methods; it has obtained 96.2% accuracy for galaxies, 97.9% accuracy for quasars, and 96.4% accuracy for stars, and the Area Under Curve (AUC) of the IICnet classifier can reach more than 99%. In addition, the superiority of IICnet in processing infrared images has been demonstrated in the comparisons with VGG16, GoogleNet, ResNet34, MobileNet, EfficientNetV2, and RepVGG-fewer parameters and faster inference. The above proves that IICnet is an effective method to classify infrared sources.
翻訳日:2023-05-18 15:50:24 公開日:2023-05-17
# CHMMOTv1-心・肝マルチエコー(T2*)MRI像とタラセミア患者の鉄過負荷に対する臨床的データセット

CHMMOTv1 -- Cardiac and Hepatic Multi-Echo (T2*) MRI Images and Clinical Dataset for Iron Overload on Thalassemia Patients ( http://arxiv.org/abs/2305.10216v1 )

ライセンス: Link先を確認
Iraj Abedi, Maryam Zamanian, Hamidreza Bolhasani, Milad Jalilian(参考訳) バイオプシーやフェリチンを含む他の検査の侵襲性や低精度のため、磁気共鳴画像(T2およびT2*-MRI)がタラセミア(THM)患者の標準検査として検討されている。 医療科学における深層学習ネットワークについて, 診断・治療目的の改善と, 最小限のリソースの存在について検討し, 心臓および肝臓器の磁気共鳴画像のセットを提供することを決定した。 データセットは124名(女性67名、男性57名)で、thm年齢は5-52歳であった。 また, 経過観察期間は約5~6カ月, 経過観察期間は1~5回, 経過観察期間は1~5回であった。 また、t2*およびr2*値、心・肝レポート(正常、軽度、中等度、重度、極めて重度)の結果、およびフェリチン、ビリルビン(d,t)、ast、alt、alp値などの検査結果がexcelファイルとして提供された。 このデータセット CHMMOTv1 は Mendeley Dataverse で公開されており,Web を通じて http://databiox.com でアクセス可能である。

Owing to the invasiveness and low accuracy of other tests, including biopsy and ferritin levels, magnetic resonance imaging (T2 and T2*-MRI) has been considered the standard test for patients with thalassemia (THM). Regarding deep learning networks in medical sciences for improving diagnosis and treatment purposes and the existence of minimal resources for them, we decided to provide a set of magnetic resonance images of the cardiac and hepatic organs. The dataset included 124 patients (67 women and 57 men) with a THM age range of (5-52) years. In addition, patients were divided into two groups: with follow-up (1-5 times) at time intervals of about (5-6) months and without follow-up. Also, T2* and, R2* values, the results of the cardiac and hepatic report (normal, mild, moderate, severe, and very severe), and laboratory tests including Ferritin, Bilirubin (D, and T), AST, ALT, and ALP levels were provided as an Excel file. This dataset CHMMOTv1) has been published in Mendeley Dataverse and is accessible through the web at: http://databiox.com.
翻訳日:2023-05-18 15:50:03 公開日:2023-05-17
# 量子機械学習にインスパイアされた新しい確率型LSTMモデル

A Novel Stochastic LSTM Model Inspired by Quantum Machine Learning ( http://arxiv.org/abs/2305.10212v1 )

ライセンス: Link先を確認
Joseph Lindsay, Ramtin Zand(参考訳) 過去数年間の量子機械学習(QML)の研究は、QMLアルゴリズムが従来のアルゴリズムと同様に機能し、場合によっては性能も向上していることを示している。 最近の研究のコーパスの中で、多くのQMLモデルは変分量子アルゴリズム(VQA)回路を利用しており、そのスケールは典型的にはNISQデバイスと互換性があり、回路パラメータを最適化するための自動微分法は機械学習(ML)に精通している。 量子マシンがアクセスしやすい時代にとって、この結果は興味深い約束だが、もしも量子以外の方法で同様の結果が得られるなら、実践者にとってより短期的な利点があるかもしれない。 この目的のために,長寿命メモリ(LSTM)モデルの変分量子バージョンにインスパイアされた確率的手法の利用について検討し,性能と迅速な収束の報告にアプローチすることを目的とする。 古典的・確率的・量子的手法の性能を解析することにより、この研究は、古典機械におけるQMLの主な利点を、その確率性の側面を取り入れることで達成できるかどうかを解明することを目的としている。

Works in quantum machine learning (QML) over the past few years indicate that QML algorithms can function just as well as their classical counterparts, and even outperform them in some cases. Among the corpus of recent work, many current QML models take advantage of variational quantum algorithm (VQA) circuits, given that their scale is typically small enough to be compatible with NISQ devices and the method of automatic differentiation for optimizing circuit parameters is familiar to machine learning (ML). While the results bear interesting promise for an era when quantum machines are more readily accessible, if one can achieve similar results through non-quantum methods then there may be a more near-term advantage available to practitioners. To this end, the nature of this work is to investigate the utilization of stochastic methods inspired by a variational quantum version of the long short-term memory (LSTM) model in an attempt to approach the reported successes in performance and rapid convergence. By analyzing the performance of classical, stochastic, and quantum methods, this work aims to elucidate if it is possible to achieve some of QML's major reported benefits on classical machines by incorporating aspects of its stochasticity.
翻訳日:2023-05-18 15:49:39 公開日:2023-05-17
# 3次元MOTのための点雲からの物体再同定に向けて

Towards Object Re-Identification from Point Clouds for 3D MOT ( http://arxiv.org/abs/2305.10210v1 )

ライセンス: Link先を確認
Benjamin Th\'erien, Chengjie Huang, Adrian Chow, Krzysztof Czarnecki(参考訳) 本研究では,3次元多対象追跡(MOT)コンテキストにおけるオブジェクト再識別(ReID)の問題について,収穫したオブジェクトのペア(例えば予測された3次元境界ボックス)の点雲観測を学習することによって検討する。 しかし、3D MOTのSOTAパフォーマンスには関心がありません。 現実的な追跡検出のコンテキストでは、ポイントクラウドからのオブジェクトReIDは、画像からのReIDと比較してどのように機能しますか? このような研究を可能にするために,任意の集合やシーケンス処理バックボーン(PointNetやViTなど)に結合可能な軽量なマッチングヘッドを提案する。 提案するポイントクラウドReIDネットワークは,シアム方式で実行することで,リアルタイム(10hz)で数千のペア比較を行うことができる。 以上の結果より, センサの高分解能化と画像ReIDの高密度化による性能向上が示唆された。 さらに,3次元マルチオブジェクトトラッキング(MOT)を向上するネットワークの能力について検討し,強力なモーションベースのトラッカーをエラーに導くオブジェクトの識別に成功していることを示す。 我々の知る限り、我々は3次元多目的追跡コンテキストにおける点雲からのリアルタイム物体再同定を初めて研究している。

In this work, we study the problem of object re-identification (ReID) in a 3D multi-object tracking (MOT) context, by learning to match pairs of objects from cropped (e.g., using their predicted 3D bounding boxes) point cloud observations. We are not concerned with SOTA performance for 3D MOT, however. Instead, we seek to answer the following question: In a realistic tracking by-detection context, how does object ReID from point clouds perform relative to ReID from images? To enable such a study, we propose a lightweight matching head that can be concatenated to any set or sequence processing backbone (e.g., PointNet or ViT), creating a family of comparable object ReID networks for both modalities. Run in siamese style, our proposed point-cloud ReID networks can make thousands of pairwise comparisons in real-time (10 hz). Our findings demonstrate that their performance increases with higher sensor resolution and approaches that of image ReID when observations are sufficiently dense. Additionally, we investigate our network's ability to enhance 3D multi-object tracking (MOT), showing that our point-cloud ReID networks can successfully re-identify objects which led a strong motion-based tracker into error. To our knowledge, we are the first to study real-time object re-identification from point clouds in a 3D multi-object tracking context.
翻訳日:2023-05-18 15:49:17 公開日:2023-05-17
# 集団スピン系における測定誘起マルチパーティタイト・エンタングルメントレジーム

Measurement-induced multipartite-entanglement regimes in collective spin systems ( http://arxiv.org/abs/2305.10209v1 )

ライセンス: Link先を確認
Pablo M. Poggi, Manuel H. Mu\~noz-Arias(参考訳) 量子軌道のレベルでスピン1/2粒子のアンサンブルのダイナミクスにおける集団的一般化測定と相互作用誘起スクランブルの競合効果について検討した。 この設定は、量子回路における測定誘起遷移につながるものと類似していると考えられる。 本研究は,集合的ユニタリダイナミクスと測定値の相互作用が,モニタリング強度の関数として,多部交絡の証となる平均量子漁業情報(QFI)の3つの状態につながることを示す。 弱い測定と強い測定の両方が広範囲のqfi密度(すなわち個々の量子軌道はハイゼンベルクスケーリングを示す状態を与える)をもたらすのに対して、古典的様状態の中間配置が出現し、そこでは測定はスクランブルグダイナミクスと効果的に競合し、量子相関の発展を阻害し、サブハイゼンベルク制限状態につながる。 我々は,これらのレジームとそれらの間の遷移を数値的および解析的ツールを用いて特徴付け,観察された多体系における絡み合い相,量子から古典的遷移との関係について論じる。

We study the competing effects of collective generalized measurements and interaction-induced scrambling in the dynamics of an ensemble of spin-1/2 particles at the level of quantum trajectories. This setup can be considered as analogous to the one leading to measurement-induced transitions in quantum circuits. We show that the interplay between collective unitary dynamics and measurements leads to three regimes of the average Quantum Fisher Information (QFI), which is a witness of multipartite entanglement, as a function of the monitoring strength. While both weak and strong measurements lead to extensive QFI density (i.e., individual quantum trajectories yield states displaying Heisenberg scaling), an intermediate regime of classical-like states emerges for all system sizes where the measurement effectively competes with the scrambling dynamics and precludes the development of quantum correlations, leading to sub-Heisenberg-limited states. We characterize these regimes and the transitions between them using numerical and analytical tools, and discuss the connections between our findings, entanglement phases in monitored many-body systems, and the quantum-to-classical transition.
翻訳日:2023-05-18 15:48:52 公開日:2023-05-17
# 量子力学の6つの計測問題

Six Measurement Problems of Quantum Mechanics ( http://arxiv.org/abs/2305.10206v1 )

ライセンス: Link先を確認
F.A. Muller(参考訳) 悪名高い「測定問題」は、その始まりから約1世紀にわたって量子力学の周りを動き回り、それを回避しようとする量子力学の様々な「解釈」を生み出してきた。 我々は6つ以上の問題を区別する必要があると論じ、そのうちのいくつかは異なるタイプの問題を分類している。 その1つは、伝統的に「測定問題」と呼ばれるもの(以下、測定結果の現実問題)である。 そのうちの1つは測定とは無関係であるが、深遠なメタ物理問題である。 また、Maudlin (1995) の「3つの測定問題」の有名な記述と、Brown (1986) と Stein (1997) の6つの測定問題のうちの1つに対する見解の衝突を、いわゆる可溶性定理に関する批判的に分析した。 最後に, ほとんど無視されているが, 明確には認められていないような, 一つの測定問題に対する解を要約する。

The notorious `measurement problem' has been roving around quantum mechanics for nearly a century since its inception, and has given rise to a variety of `interpretations' of quantum mechanics, which are meant to evade it. We argue that no less than six problems need to be distinguished, and that several of them classify as different types of problems. One of them is what traditionally is called `the measurement problem' (here: the Reality Problem of Measurement Outcomes). Another of them has nothing to do with measurements but is a profound metaphysical problem. We also analyse critically Maudlin's (1995) well-known statement of `three measurements problems', and the clash of the views of Brown (1986) and Stein (1997) on one of the six measurement problems, concerning so-called Insolubility Theorems. Finally, we summarise a solution to one measurement problem which has been largely ignored but tacitly if not explicitly acknowledged.
翻訳日:2023-05-18 15:48:30 公開日:2023-05-17
# シールド表現:反復的勾配ベース投影による感性属性の保護

Shielded Representations: Protecting Sensitive Attributes Through Iterative Gradient-Based Projection ( http://arxiv.org/abs/2305.10204v1 )

ライセンス: Link先を確認
Shadi Iskander, Kira Radinsky, Yonatan Belinkov(参考訳) 自然言語処理モデルは、データに存在する社会的バイアスを学習し、エンコードする傾向がある。 このようなバイアスに対処するための一般的なアプローチは、モデルの表現から符号化された情報を排除することである。 しかし、現在の方法は線形符号化された情報のみを削除することに制限されている。 本研究では,ニューラル表現から非線形符号化概念を除去する新しい手法であるIGBP(Iterative Gradient-Based Projection)を提案する。 提案手法は, ニューラル分類器を反復的に訓練して, 排除しようとする特定の属性を予測し, 続いて超曲面上の表現の投影を行い, 対象属性に無関心になるようにした。 我々は,性別や人種情報の削除作業における手法の有効性を,センシティブな属性として評価した。 以上の結果から, IGBPは本態性および外因性評価によるバイアス軽減に有効であり, 下流タスク精度への影響は最小限であった。

Natural language processing models tend to learn and encode social biases present in the data. One popular approach for addressing such biases is to eliminate encoded information from the model's representations. However, current methods are restricted to removing only linearly encoded information. In this work, we propose Iterative Gradient-Based Projection (IGBP), a novel method for removing non-linear encoded concepts from neural representations. Our method consists of iteratively training neural classifiers to predict a particular attribute we seek to eliminate, followed by a projection of the representation on a hypersurface, such that the classifiers become oblivious to the target attribute. We evaluate the effectiveness of our method on the task of removing gender and race information as sensitive attributes. Our results demonstrate that IGBP is effective in mitigating bias through intrinsic and extrinsic evaluations, with minimal impact on downstream task accuracy.
翻訳日:2023-05-18 15:48:12 公開日:2023-05-17
# キーバリュークエリーモデルの空間を意図した探索

Exploring the Space of Key-Value-Query Models with Intention ( http://arxiv.org/abs/2305.10203v1 )

ライセンス: Link先を確認
Marta Garnelo, Wojciech Marian Czarnecki(参考訳) 注意に基づくモデルは、ディープラーニングにおける最近の多くのブレークスルーの重要な要素である。 Attentionの2つの重要なコンポーネントは、入力の構造(キー、値、クエリで構成される)と、これら3つを組み合わせる計算である。 本稿では、入力構造を共有するが、注意の計算に制限されないモデルの空間について検討する。 この空間をkvq(keys-values-queries)空間と呼ぶ。 我々の目標は、kvq空間に、注意を効率的に近似できない他のスタック可能なモデルがあるか、現在のディープラーニングツールボックスで実装可能か、コミュニティにとって興味深い問題を解決するかを決定することです。 おそらく、標準最小二乗問題の解はこれらの性質を満たす。 この解を計算可能なニューラルネットワークモジュールは、ニューラルネットワークが表現できる計算の集合を豊かにするだけでなく、線形注意の厳密な一般化も実現可能である。 さらに驚くべきことに、このモジュールの計算上の複雑さは、Attentionの計算量とまったく同じであり、置換に適している。 古典的機械学習(Last Squares)と近代的ディープラーニング(Attention)の新たな結びつきにより、我々は、通常の注意を同じ方法で一般化するモデルのバリエーションを正当化する。 どちらのモジュールも、実世界の適用性を確認するための、最小限の学習からポリシー蒸留まで、幅広いタスクをテストに投入される。

Attention-based models have been a key element of many recent breakthroughs in deep learning. Two key components of Attention are the structure of its input (which consists of keys, values and queries) and the computations by which these three are combined. In this paper we explore the space of models that share said input structure but are not restricted to the computations of Attention. We refer to this space as Keys-Values-Queries (KVQ) Space. Our goal is to determine whether there are any other stackable models in KVQ Space that Attention cannot efficiently approximate, which we can implement with our current deep learning toolbox and that solve problems that are interesting to the community. Maybe surprisingly, the solution to the standard least squares problem satisfies these properties. A neural network module that is able to compute this solution not only enriches the set of computations that a neural network can represent but is also provably a strict generalisation of Linear Attention. Even more surprisingly the computational complexity of this module is exactly the same as that of Attention, making it a suitable drop in replacement. With this novel connection between classical machine learning (least squares) and modern deep learning (Attention) established we justify a variation of our model which generalises regular Attention in the same way. Both new modules are put to the test an a wide spectrum of tasks ranging from few-shot learning to policy distillation that confirm their real-worlds applicability.
翻訳日:2023-05-18 15:47:55 公開日:2023-05-17
# 講演とAIリスニング - EHRにおける言語のスティグマティクスがAIのパフォーマンスに与える影響

People Talking and AI Listening: How Stigmatizing Language in EHR Notes Affect AI Performance ( http://arxiv.org/abs/2305.10201v1 )

ライセンス: Link先を確認
Yizhi Liu, Weiguang Wang, Guodong (Gordon) Gao, Ritu Agarwal(参考訳) EHR(Electronic Health Record)は、医療におけるAI(AI)主導の変革に必要なデータソースとして機能する。 しかし、EHRノートに反映された臨床バイアスは、これらのバイアスを継承し増幅し、健康格差を持続させるAIモデルにつながる可能性がある。 本研究では,変圧器を用いた深層学習モデルと説明可能なAI(XAI)技術を用いた死亡予測における音声合成言語(SL)の影響について検討した。 以上の結果から,臨床医が作成したSLは,特に黒人患者に対して,AIモデル開発における人種格差の源泉として,AIのパフォーマンスに悪影響を及ぼすことが明らかとなった。 SLの効果を緩和するための運用的に効率的な方法を探るため,臨床医の協調ネットワークを通じてSLの生成パターンを調査し,AIモデルにおける人種格差に強い影響を与えると認識した。 中央臨床医によるSLの除去は,全データのSLを除去するよりも,より効率的なバイアス低減戦略であることがわかった。 本研究は,責任あるai開発に有効な洞察を提供し,臨床行動の理解と,ehr note writing in healthcareに寄与する。

Electronic health records (EHRs) serve as an essential data source for the envisioned artificial intelligence (AI)-driven transformation in healthcare. However, clinician biases reflected in EHR notes can lead to AI models inheriting and amplifying these biases, perpetuating health disparities. This study investigates the impact of stigmatizing language (SL) in EHR notes on mortality prediction using a Transformer-based deep learning model and explainable AI (XAI) techniques. Our findings demonstrate that SL written by clinicians adversely affects AI performance, particularly so for black patients, highlighting SL as a source of racial disparity in AI model development. To explore an operationally efficient way to mitigate SL's impact, we investigate patterns in the generation of SL through a clinicians' collaborative network, identifying central clinicians as having a stronger impact on racial disparity in the AI model. We find that removing SL written by central clinicians is a more efficient bias reduction strategy than eliminating all SL in the entire corpus of data. This study provides actionable insights for responsible AI development and contributes to understanding clinician behavior and EHR note writing in healthcare.
翻訳日:2023-05-18 15:47:32 公開日:2023-05-17
# 3つ以上の頂点を持つ木における完全状態移動

No perfect state transfer in trees with more than 3 vertices ( http://arxiv.org/abs/2305.10199v1 )

ライセンス: Link先を確認
Gabriel Coutinho, Emanuel Juliano, Thom\'as Jung Spier(参考訳) 隣接行列モデルによる完全状態移動を許容する木は、$P_2$と$P_3$のみであることを示す。 これは2012年にGodsilが最初に質問した質問に答え、2015年からCoutinhoとLiuによる予想を証明する。

We prove that the only trees that admit perfect state transfer according to the adjacency matrix model are $P_2$ and $P_3$. This answers a question first asked by Godsil in 2012 and proves a conjecture by Coutinho and Liu from 2015.
翻訳日:2023-05-18 15:47:10 公開日:2023-05-17
# 難解度推定のためのNLP手法の定量的研究

A quantitative study of NLP approaches to question difficulty estimation ( http://arxiv.org/abs/2305.10236v1 )

ライセンス: Link先を確認
Luca Benedetto(参考訳) 近年,自然言語処理(nlp)技術を用いたテキストqdetによる質問難易度推定課題の研究が増加し,従来の質問校正手法の限界を目標としている。 しかし、以前の研究のほとんど全体が単一のサイロにフォーカスしており、異なるモデル間や異なる教育領域のデータセット間の定量的比較は行わなかった。 本研究では,このギャップを埋めることを目的として,従来の研究で提案されたいくつかのアプローチを定量的に分析し,異なる教育領域の異なるタイプの質問を含む3つの公開現実データセット上での性能を比較する。 具体的には,多重選択問題(mcqs),科学mqs,数学問題を読むことを検討する。 私たちはTransformerベースのモデルが、DistilBERTとBERTとほぼ同等の性能を持ち、より小さなデータセットでも他のアプローチよりも優れていることを発見しました。 他のモデルでは、ハイブリットは単一のタイプの特徴に基づくものよりも優れており、言語的特徴に基づくものは理解された質問を読み取るのに優れ、周波数ベースの特徴(TF-IDF)と単語埋め込み(word2vec)はドメイン知識の評価において優れている。

Recent years witnessed an increase in the amount of research on the task of Question Difficulty Estimation from Text QDET with Natural Language Processing (NLP) techniques, with the goal of targeting the limitations of traditional approaches to question calibration. However, almost the entirety of previous research focused on single silos, without performing quantitative comparisons between different models or across datasets from different educational domains. In this work, we aim at filling this gap, by quantitatively analyzing several approaches proposed in previous research, and comparing their performance on three publicly available real world datasets containing questions of different types from different educational domains. Specifically, we consider reading comprehension Multiple Choice Questions (MCQs), science MCQs, and math questions. We find that Transformer based models are the best performing across different educational domains, with DistilBERT performing almost as well as BERT, and that they outperform other approaches even on smaller datasets. As for the other models, the hybrid ones often outperform the ones based on a single type of features, the ones based on linguistic features perform well on reading comprehension questions, while frequency based features (TF-IDF) and word embeddings (word2vec) perform better in domain knowledge assessment.
翻訳日:2023-05-18 15:41:49 公開日:2023-05-17
# データ駆動開発のための高価値データセット決定に向けて:体系的文献レビュー

Towards High-Value Datasets determination for data-driven development: a systematic literature review ( http://arxiv.org/abs/2305.10234v1 )

ライセンス: Link先を確認
Anastasija Nikiforova, Nina Rizun, Magdalena Ciesielska, Charalampos Alexopoulos, Andrea Mileti\v{c}(参考訳) OGDは、市民の関与を促進し、公共生活の様々な分野における公共セクターの革新を促進することを約束する政治的・社会経済的現象と見なされている。 期待される利益をもたらすためには、データを再利用し、付加価値製品やサービスに変換する必要があります。 これにより、オープンデータ原則に準拠するだけでなく、エンドユーザによる再利用への関心も高まると期待されるデータに対する別の前提条件が設定される。 これは2022年に欧州データポータルがOGD地域の重要なトレンドとして認識した「高価値データセット(HVD)」の概念を指す。 この方向は、例えばopen data directive、inclのように進歩している。 6つの主要なカテゴリ、hvdのリスト、出版と再使用のためのアレンジを識別することは、より成熟したogdイニシアチブの開発に寄与し、公共セクターデータの相互運用性を高い優先度で高めることを目的とした'core'/'base'データセットと見なすことができる。 地域や国の特質 - 地理的位置、社会、環境、経済問題、文化的特徴、(下)開発分野と市場特異性 - によって、特定の国にとって、より多くのデータセットが高い価値として認識される。 しかし、これには最高データ責任者を支援するための標準化されたアプローチは存在しない。 本稿では,このプロセスの初期知識基盤となることが期待されるHVD決定に関する既存の文献を体系的にレビューする。 それら、データ、利害関係者を決定するために 手法と指標を使いました

The OGD is seen as a political and socio-economic phenomenon that promises to promote civic engagement and stimulate public sector innovations in various areas of public life. To bring the expected benefits, data must be reused and transformed into value-added products or services. This, in turn, sets another precondition for data that are expected to not only be available and comply with open data principles, but also be of value, i.e., of interest for reuse by the end-user. This refers to the notion of 'high-value dataset' (HVD), recognized by the European Data Portal as a key trend in the OGD area in 2022. While there is a progress in this direction, e.g., the Open Data Directive, incl. identifying 6 key categories, a list of HVDs and arrangements for their publication and re-use, they can be seen as 'core' / 'base' datasets aimed at increasing interoperability of public sector data with a high priority, contributing to the development of a more mature OGD initiative. Depending on the specifics of a region and country - geographical location, social, environmental, economic issues, cultural characteristics, (under)developed sectors and market specificities, more datasets can be recognized as of high value for a particular country. However, there is no standardized approach to assist chief data officers in this. In this paper, we present a systematic review of existing literature on the HVD determination, which is expected to form an initial knowledge base for this process, incl. used approaches and indicators to determine them, data, stakeholders.
翻訳日:2023-05-18 15:40:58 公開日:2023-05-17
# openslu: 音声言語理解のための統合、モジュール化、拡張可能なツールキット

OpenSLU: A Unified, Modularized, and Extensible Toolkit for Spoken Language Understanding ( http://arxiv.org/abs/2305.10231v1 )

ライセンス: Link先を確認
Libo Qin, Qiguang Chen, Xiao Xu, Yunlong Feng, Wanxiang Che(参考訳) Spoken Language Understanding (SLU) はタスク指向対話システムの中核となるコンポーネントの一つで、ユーザクエリの意味(インテントやスロットなど)を抽出することを目的としている。 本稿では,言語理解のための統一的でモジュール化された拡張可能なツールキットを提供するオープンソースツールキットOpenSLUを紹介する。 具体的には、OpenSLUはシングルインテントとマルチインテントの両方のシナリオで10のSLUモデルを統合する。 さらに、OpenSLUはモデルアーキテクチャ、推論、学習プロセスを再利用可能なモジュールに分解することで、高度にモジュール化され拡張可能である。 OpenSLUはPyTorchに基づいて実装され、 \url{https://github.com/LightChen233/OpenSLU}でリリースされた。

Spoken Language Understanding (SLU) is one of the core components of a task-oriented dialogue system, which aims to extract the semantic meaning of user queries (e.g., intents and slots). In this work, we introduce OpenSLU, an open-source toolkit to provide a unified, modularized, and extensible toolkit for spoken language understanding. Specifically, OpenSLU unifies 10 SLU models for both single-intent and multi-intent scenarios, which support both non-pretrained and pretrained models simultaneously. Additionally, OpenSLU is highly modularized and extensible by decomposing the model architecture, inference, and learning process into reusable modules, which allows researchers to quickly set up SLU experiments with highly flexible configurations. OpenSLU is implemented based on PyTorch, and released at \url{https://github.com/LightChen233/OpenSLU}.
翻訳日:2023-05-18 15:40:31 公開日:2023-05-17
# コントラスト学習における帰納的バイアスの探索:クラスタリングの視点から

Exploring Inductive Biases in Contrastive Learning: A Clustering Perspective ( http://arxiv.org/abs/2305.10229v1 )

ライセンス: Link先を確認
Yunzhe Zhang, Yao Lu, Lei Xu, Kunlin Yang, Hui Tang, Shuyuan Ye, Qi Xuan(参考訳) 本稿では, 局所的な密集クラスタの概念に着目し, コントラスト学習法と教師あり学習法の違いについて検討する。 クラスタ内の局所密度を定量的に測定する新しい計量RLD(Relative Local Density)を導入する。 視覚的な例は、局所的な密集クラスタとグローバルな密集クラスタの区別を強調するために提供される。 コントラスト学習と教師付き学習を比較した結果,コントラスト学習は局所的に高密度なクラスタを生成できるが,教師付き学習は局所密度と大域密度の両方のクラスタを生成できることがわかった。 さらに,グラフ畳み込みネットワーク(GCN)分類器を,局所的に密集クラスタを扱うための線形分類器の代替として利用する方法について検討する。 最後に,t-sne可視化を用いて,比較学習法と教師付き学習法の違いを明らかにする。 最後に,コントラスト学習に適した効率的な分類器の開発や,革新的な拡張アルゴリズムの開発など,今後の研究の方向性を提案する。

This paper investigates the differences in data organization between contrastive and supervised learning methods, focusing on the concept of locally dense clusters. We introduce a novel metric, Relative Local Density (RLD), to quantitatively measure local density within clusters. Visual examples are provided to highlight the distinctions between locally dense clusters and globally dense ones. By comparing the clusters formed by contrastive and supervised learning, we reveal that contrastive learning generates locally dense clusters without global density, while supervised learning creates clusters with both local and global density. We further explore the use of a Graph Convolutional Network (GCN) classifier as an alternative to linear classifiers for handling locally dense clusters. Finally, we utilize t-SNE visualizations to substantiate the differences between the features generated by contrastive and supervised learning methods. We conclude by proposing future research directions, including the development of efficient classifiers tailored to contrastive learning and the creation of innovative augmentation algorithms.
翻訳日:2023-05-18 15:40:15 公開日:2023-05-17
# ノード破壊下の確率ブロックモデルにおけるケステン・スティグアム閾値に達する

Reaching Kesten-Stigum Threshold in the Stochastic Block Model under Node Corruptions ( http://arxiv.org/abs/2305.10227v1 )

ライセンス: Link先を確認
Jingqiu Ding, Tommaso d'Orsi, Yiding Hua, David Steurer(参考訳) 我々は,ノード分割確率ブロックモデルの文脈において,すべてのエッジインシデントをn$頂点のごく一部に任意に修正できるロバストなコミュニティ検出法について検討した。 本稿では,ケステン・スティグラムしきい値において,破壊ノードの定数が小さい場合においても弱回復を実現する最初の多項式時間アルゴリズムを提案する。 この研究の前には、最先端のロバストアルゴリズムでさえ、ケステン・スティグムしきい値に近づくと、そのようなノード破壊の敵に破られることが知られていた。 さらに,本手法を$z_2$同期問題にまで拡張し,類似の強い逆摂動が存在する場合に最適回復しきい値に達する。 本アルゴリズムの重要な要素は,主行列のGrothendieckノルムの押し出し効果を利用した新しい識別可能性証明である。

We study robust community detection in the context of node-corrupted stochastic block model, where an adversary can arbitrarily modify all the edges incident to a fraction of the $n$ vertices. We present the first polynomial-time algorithm that achieves weak recovery at the Kesten-Stigum threshold even in the presence of a small constant fraction of corrupted nodes. Prior to this work, even state-of-the-art robust algorithms were known to break under such node corruption adversaries, when close to the Kesten-Stigum threshold. We further extend our techniques to the $Z_2$ synchronization problem, where our algorithm reaches the optimal recovery threshold in the presence of similar strong adversarial perturbations. The key ingredient of our algorithm is a novel identifiability proof that leverages the push-out effect of the Grothendieck norm of principal submatrices.
翻訳日:2023-05-18 15:39:57 公開日:2023-05-17
# マルチキュービット構成の文脈性次数に関する新しい改良された境界

New and improved bounds on the contextuality degree of multi-qubit configurations ( http://arxiv.org/abs/2305.10225v1 )

ライセンス: Link先を確認
Axel Muller, Metod Saniga, Alain Giorgetti, Henri de Boutray, Fr\'ed\'eric Holweck(参考訳) 我々は、量子文脈性を決定するアルゴリズムとCコードを示し、小さいランクの2次シンプレクティック極空間に位置する様々な点線ジオメトリの文脈性度(文脈性を定量化する方法)を評価する。 このコードでは、de boutray et al(j. phys. a: math. theor. 55 475301, 2022)による最近の論文の結果をより効率的に回復するだけでなく、多くの注目すべき結果に到達しました。 論文はまずアルゴリズムとcのコードを記述した。 次に、階数が 2 から 7 までの範囲のシンプレクティック極空間の多くの部分空間にその力を示す。 最も興味深い新しい結果は以下のとおりである。 i) 文脈が次元2以上の部分空間である構成の非文脈性 (ii)次元3以上の負部分空間が存在しないこと。 (iii) 次数 4 の楕円四次および双曲四次数の文脈次数と、その文脈がこの空間の線である3量子空間の特定の部分幾何学に対する境界を大幅に改善した。 (iv)ペプセットの文脈的でないことの証明、そして最後には、 (v) 2-スプレッドと呼ばれるマルチキュービットの有界な部分幾何学の文脈的性質と、その文脈的度合いの計算。

We present algorithms and a C code to decide quantum contextuality and evaluate the contextuality degree (a way to quantify contextuality) for a variety of point-line geometries located in binary symplectic polar spaces of small rank. With this code we were not only able to recover, in a more efficient way, all the results of a recent paper by de Boutray et al (J. Phys. A: Math. Theor. 55 475301, 2022), but also arrived at a bunch of new noteworthy results. The paper first describes the algorithms and the C code. Then it illustrates its power on a number of subspaces of symplectic polar spaces whose rank ranges from two to seven. The most interesting new results include: (i) non-contextuality of configurations whose contexts are subspaces of dimension two and higher, (ii) non-existence of negative subspaces of dimension three and higher, (iii) considerably improved bounds for the contextuality degree of both elliptic and hyperbolic quadrics for ranks four, as well as for a particular subgeometry of the three-qubit space whose contexts are the lines of this space, (iv) proof for the non-contextuality of perpsets and, last but not least, (v) contextual nature of a distinguished subgeometry of a multi-qubit doily, called a two-spread, and computation of its contextuality degree.
翻訳日:2023-05-18 15:39:39 公開日:2023-05-17
# nfi$_2$:教師なし低光度画像強調のための学習ノイズフリー照明補間器

NFI$_2$: Learning Noise-Free Illuminance-Interpolator for Unsupervised Low-Light Image Enhancement ( http://arxiv.org/abs/2305.10223v1 )

ライセンス: Link先を確認
Xiaofeng Liu, Jiaxin Gao, Ziyu Yue, Xin Fan and Risheng Liu(参考訳) 低照度の状況は、消費者写真における美的品質の追求を厳しく制限する。 多くの努力はヒューリスティックスの設計に費やされているが、一般には複雑なネットワークアーキテクチャや経験的戦略を積み重ねるなど、テジウムの浅い渦巻きに陥る。 照明補償の本質的な物理原理をいかに掘り下げるかは無視されている。 本論文は,複雑さを単純化する手法に倣って,シンプルで効率的なノイズフリーイルミネーション補間器(NFI$_2$)を提案する。 限られたダイナミックレンジにおける照度と反射率の制約原理に基づき、回復過程における先行知識として、学習可能な照度補間器を構築し、非均一照明の補償を行う。 そこで,アノテートデータを用いず,ノイズのない低光度画像を得るため,固有画像特性を持つ自己共役デノイーザを設計した。 自然画像多様体の性質から始まり、より自然で現実的な反射率マップを促進する方法として自己正規化回復損失が導入された。 モデルアーキテクチャとトレーニングの損失は、事前の知識によって導かれ、相互に補完し、利益をもたらし、教師なしの強力なフレームワークを形成します。 包括的実験により,提案アルゴリズムは未知の実世界のシナリオにおいて良好な一般化能力を保ちながら,競争的な質的,定量的な結果が得られることを示した。

Low-light situations severely restrict the pursuit of aesthetic quality in consumer photography. Although many efforts are devoted to designing heuristics, it is generally mired in a shallow spiral of tedium, such as piling up complex network architectures and empirical strategies. How to delve into the essential physical principles of illumination compensation has been neglected. Following the way of simplifying the complexity, this paper innovatively proposes a simple and efficient Noise-Free Illumination Interpolator (NFI$_2$). According to the constraint principle of illuminance and reflectance within a limited dynamic range, as a prior knowledge in the recovery process, we construct a learnable illuminance interpolator and thereby compensating for non-uniform lighting. With the intention of adapting denoising without annotated data, we design a self-calibrated denoiser with the intrinsic image properties to acquire noise-free low-light images. Starting from the properties of natural image manifolds, a self-regularized recovery loss is introduced as a way to encourage more natural and realistic reflectance map. The model architecture and training losses, guided by prior knowledge, complement and benefit each other, forming a powerful unsupervised leaning framework. Comprehensive experiments demonstrate that the proposed algorithm produces competitive qualitative and quantitative results while maintaining favorable generalization capability in unknown real-world scenarios.
翻訳日:2023-05-18 15:39:16 公開日:2023-05-17
# rWISDM:人間の活動認識のための公開データセットWISDMの修復

rWISDM: Repaired WISDM, a Public Dataset for Human Activity Recognition ( http://arxiv.org/abs/2305.10222v1 )

ライセンス: Link先を確認
Mohammadreza Heydarian and Thomas E. Doyle(参考訳) HAR(Human Activity Recognition)は、医療、運動競技、スマートシティ、スマートホームといった様々な分野に応用されているため、近年の科学的研究において注目されている。 研究者はデータ処理の方法論に重点を置いているが、ユーザは、HARに使用される人工知能(AI)メソッドが信頼できるかどうか疑問に思う。 信頼は主にシステムの信頼性や堅牢性に依存する。 harシステムのロバスト性を調べるために,現在の公開データセットのいくつかを分析し,深層学習手法の検討のためにwisdmを選択した。 WISDMの仕様は我々の基本的な要件(例えば、大規模でバランスの取れたマルチハードウェア)と一致したが、分析の過程でいくつかの隠れた問題が見つかった。 これらの問題は、分類器の性能と全体の信頼を低下させる。 問題を特定し、データセットを修復することで、分類器の性能が向上した。 本稿では,他の研究者が公開データセットで類似した問題を識別し,修正できる手法を提案する。 問題データセットの正確性を改善することで、トレーニングされたHARシステムの全体的な信頼性が向上する。

Human Activity Recognition (HAR) has become a spotlight in recent scientific research because of its applications in various domains such as healthcare, athletic competitions, smart cities, and smart home. While researchers focus on the methodology of processing data, users wonder if the Artificial Intelligence (AI) methods used for HAR can be trusted. Trust depends mainly on the reliability or robustness of the system. To investigate the robustness of HAR systems, we analyzed several suitable current public datasets and selected WISDM for our investigation of Deep Learning approaches. While the published specification of WISDM matched our fundamental requirements (e.g., large, balanced, multi-hardware), several hidden issues were found in the course of our analysis. These issues reduce the performance and the overall trust of the classifier. By identifying the problems and repairing the dataset, the performance of the classifier was increased. This paper presents the methods by which other researchers may identify and correct similar problems in public datasets. By fixing the issues dataset veracity is improved, which increases the overall trust in the trained HAR system.
翻訳日:2023-05-18 15:38:54 公開日:2023-05-17
# 分離性と分散性(s&s)比に基づく効率的なsvm正規化パラメータ、カーネルおよびカーネルパラメータ選択

Separability and Scatteredness (S&S) Ratio-Based Efficient SVM Regularization Parameter, Kernel, and Kernel Parameter Selection ( http://arxiv.org/abs/2305.10219v1 )

ライセンス: Link先を確認
Mahdi Shamsi and Soosan Beheshti(参考訳) Support Vector Machine (SVM)は、分類、回帰、外れ値検出に広く応用された堅牢な機械学習アルゴリズムである。 SVMはモデルキャパシティと一般化性能を制御する正規化パラメータ(RP)をチューニングする必要がある。 従来、最適RPは、Cross-Validation (CV) 手順による値の範囲の比較によって見つかる。 さらに、非線形分離可能なデータに対しては、SVMはカーネルの集合、それぞれがカーネルのグリッドとして表されるパラメータの集合が考慮されるカーネルを使用する。 RPとカーネルのグリッドの最適選択は、CVのグリッド探索によって行われる。 正規化パラメータの挙動を統計的に解析することにより、SVMの性能をデータの分離性と分散性(S&S)の関数としてモデル化できることを示す。 分離性はクラス間の距離の尺度であり、散在性はデータポイントの拡散の比率である。 特に、ヒンジ損失コスト関数に対して、S&S比に基づくテーブルは最適なRPを提供する。 S&S比は、SVMアルゴリズムを使用する前に線形または非線形分離性を自動的に検出できる強力な値である。 提供されるS&S比に基づくテーブルは、SVMアルゴリズムを使用する前に最適なカーネルとそのパラメータを提供することもできる。 これにより、CVグリッド探索の計算複雑性はSVMの1回のみに削減される。 実データセット上でのシミュレーション結果から,グリッド探索CV法よりも計算複雑性の点で,提案手法の優位性と効率性が確認された。

Support Vector Machine (SVM) is a robust machine learning algorithm with broad applications in classification, regression, and outlier detection. SVM requires tuning the regularization parameter (RP) which controls the model capacity and the generalization performance. Conventionally, the optimum RP is found by comparison of a range of values through the Cross-Validation (CV) procedure. In addition, for non-linearly separable data, the SVM uses kernels where a set of kernels, each with a set of parameters, denoted as a grid of kernels, are considered. The optimal choice of RP and the grid of kernels is through the grid-search of CV. By stochastically analyzing the behavior of the regularization parameter, this work shows that the SVM performance can be modeled as a function of separability and scatteredness (S&S) of the data. Separability is a measure of the distance between classes, and scatteredness is the ratio of the spread of data points. In particular, for the hinge loss cost function, an S&S ratio-based table provides the optimum RP. The S&S ratio is a powerful value that can automatically detect linear or non-linear separability before using the SVM algorithm. The provided S&S ratio-based table can also provide the optimum kernel and its parameters before using the SVM algorithm. Consequently, the computational complexity of the CV grid-search is reduced to only one time use of the SVM. The simulation results on the real dataset confirm the superiority and efficiency of the proposed approach in the sense of computational complexity over the grid-search CV method.
翻訳日:2023-05-18 15:38:36 公開日:2023-05-17
# 養鶏科学のためのSAM

SAM for Poultry Science ( http://arxiv.org/abs/2305.10254v1 )

ライセンス: Link先を確認
Xiao Yang, Haixing Dai, Zihao Wu, Ramesh Bist, Sachin Subedi, Jin Sun, Guoyu Lu, Changying Li, Tianming Liu, Lilong Chai(参考訳) 近年、農業産業は人工知能(AI)の大幅な進歩、特に大規模基盤モデルの開発を目にしている。 これらの基礎モデルの中で、Meta AI Researchによって導入されたSegment Anything Model(SAM)は、オブジェクトセグメンテーションタスクの画期的なソリューションとして際立っている。 SAMは様々な農業用途で成功しているが、養鶏業、特にケージフリーの鶏の文脈におけるそのポテンシャルは、いまだに明らかにされていない。 本研究は, 代表的ニワトリセグメンテーションタスクにおけるSAMのゼロショットセグメンテーション性能を評価することを目的として, パートベースセグメンテーションや赤外線サーマル画像の利用, および, SAMをセグメンテーションツールとして利用してチキン追跡タスクの探索を目的とする。 以上の結果から,SegFormerやSETRに比べ,全鶏の分節化および分節化におけるSAMの優れた性能が示された。 SAMに基づく物体追跡は、ブロイラー鳥類の行動と運動パターンに関する貴重なデータも提供する。 本研究は, 養鶏科学におけるSAMの可能性についてより深く理解し, ニワトリの分節化と追跡の今後の発展の基礎を築いた。

In recent years, the agricultural industry has witnessed significant advancements in artificial intelligence (AI), particularly with the development of large-scale foundational models. Among these foundation models, the Segment Anything Model (SAM), introduced by Meta AI Research, stands out as a groundbreaking solution for object segmentation tasks. While SAM has shown success in various agricultural applications, its potential in the poultry industry, specifically in the context of cage-free hens, remains relatively unexplored. This study aims to assess the zero-shot segmentation performance of SAM on representative chicken segmentation tasks, including part-based segmentation and the use of infrared thermal images, and to explore chicken-tracking tasks by using SAM as a segmentation tool. The results demonstrate SAM's superior performance compared to SegFormer and SETR in both whole and part-based chicken segmentation. SAM-based object tracking also provides valuable data on the behavior and movement patterns of broiler birds. The findings of this study contribute to a better understanding of SAM's potential in poultry science and lay the foundation for future advancements in chicken segmentation and tracking.
翻訳日:2023-05-18 15:31:50 公開日:2023-05-17
# シャープネスとシフトアウェア自己教師付き学習

Sharpness & Shift-Aware Self-Supervised Learning ( http://arxiv.org/abs/2305.10252v1 )

ライセンス: Link先を確認
Ngoc N. Tran, Son Duong, Hoang Phan, Tung Pham, Dinh Phung, Trung Le(参考訳) 自己教師付き学習は、ラベルのないデータから意味のある特徴を抽出することを目的としている。 本稿では,第2相における分類を下流課題とみなし,この分類課題の一般損失に暗黙的に影響を及ぼす要因を実現するための厳密な理論を考案する。 我々の理論は, 鋭さを考慮した特徴抽出器が第2相の分類タスクと, 理想(理論開発で使用される理想)と実用(実装で使用される実践的)の間の既存のデータシフトの恩恵を享受し, 正のペアを生成することが, この分類タスクに著しく影響を与えることを示唆している。 さらに,これらの理論的な知見を抽出し,特徴抽出器のシャープネスを最小化し,正のペアを生成する分布のデータシフトを緩和し,シャープネスとシフトアウェアのコントラスト学習(ssa-clr)に到達させる新しいフーリエベースデータ拡張手法を提案する。 我々は,我々の理論的な知見を検証し,シャープネスとシフトアウェアなコントラスト学習が性能を著しく向上させるとともに,ベースラインと比較してより堅牢な抽出特徴を得ることができることを示す。

Self-supervised learning aims to extract meaningful features from unlabeled data for further downstream tasks. In this paper, we consider classification as a downstream task in phase 2 and develop rigorous theories to realize the factors that implicitly influence the general loss of this classification task. Our theories signify that sharpness-aware feature extractors benefit the classification task in phase 2 and the existing data shift between the ideal (i.e., the ideal one used in theory development) and practical (i.e., the practical one used in implementation) distributions to generate positive pairs also remarkably affects this classification task. Further harvesting these theoretical findings, we propose to minimize the sharpness of the feature extractor and a new Fourier-based data augmentation technique to relieve the data shift in the distributions generating positive pairs, reaching Sharpness & Shift-Aware Contrastive Learning (SSA-CLR). We conduct extensive experiments to verify our theoretical findings and demonstrate that sharpness & shift-aware contrastive learning can remarkably boost the performance as well as obtaining more robust extracted features compared with the baselines.
翻訳日:2023-05-18 15:31:29 公開日:2023-05-17
# MemoryBank: 長期記憶による大規模言語モデルの強化

MemoryBank: Enhancing Large Language Models with Long-Term Memory ( http://arxiv.org/abs/2305.10250v1 )

ライセンス: Link先を確認
Wanjun Zhong, Lianghong Guo, Qiqi Gao, Yanlin Wang(参考訳) 大規模言語モデルの革命的進歩は、人工知能システムとのインタラクションを大きく変えました。 それにもかかわらず、これらのモデルにおける長期記憶機構の欠如という顕著な障害は残る。 この不足は、パーソナル・コンパニオン・システムや心理的カウンセリングなど、持続的な相互作用を必要とする状況においてますます顕著になる。 そこで本研究では,LLMに適したメモリ機構であるMemoryBankを提案する。 memorybankでは、モデルが関連するメモリを呼び出し、継続的なメモリ更新を通じて継続的に進化させ、過去のインタラクションからの情報を合成することで、ユーザパーソナリティに適応することができる。 擬人化行動を模倣し、メモリを選択的に保存するために、メモリバンクは、ebbinghaus forgetting curve理論にインスパイアされたメモリ更新機構を組み込んでいる。 MemoryBankは、ChatGPTのようなクローズドソースモデルとChatGLMのようなオープンソースモデルの両方を利用できる。 我々は、長期AIコンパニオンシナリオにおいて、LLMベースのSiliconFriendというチャットボットを作成することにより、MemoryBankの応用を実証する。 心理学的ダイアログによってさらに調整されたSiliconFriendは、対話における共感を高める。 実験には、現実世界のユーザダイアログによる質的分析と、シミュレーションダイアログによる定量的分析の両方が含まれる。 後者では、chatgptは多様な特徴を持つユーザとして動作し、幅広いトピックをカバーする長期的な対話コンテキストを生成する。 分析の結果,siliconfriendは,メモリバンク機能を備えており,長期的対応や関連する記憶のリコール,ユーザパーソナリティの理解が容易であることが明らかとなった。

Revolutionary advancements in Large Language Models have drastically reshaped our interactions with artificial intelligence systems. Despite this, a notable hindrance remains-the deficiency of a long-term memory mechanism within these models. This shortfall becomes increasingly evident in situations demanding sustained interaction, such as personal companion systems and psychological counseling. Therefore, we propose MemoryBank, a novel memory mechanism tailored for LLMs. MemoryBank enables the models to summon relevant memories, continually evolve through continuous memory updates, comprehend, and adapt to a user personality by synthesizing information from past interactions. To mimic anthropomorphic behaviors and selectively preserve memory, MemoryBank incorporates a memory updating mechanism, inspired by the Ebbinghaus Forgetting Curve theory, which permits the AI to forget and reinforce memory based on time elapsed and the relative significance of the memory, thereby offering a human-like memory mechanism. MemoryBank is versatile in accommodating both closed-source models like ChatGPT and open-source models like ChatGLM. We exemplify application of MemoryBank through the creation of an LLM-based chatbot named SiliconFriend in a long-term AI Companion scenario. Further tuned with psychological dialogs, SiliconFriend displays heightened empathy in its interactions. Experiment involves both qualitative analysis with real-world user dialogs and quantitative analysis with simulated dialogs. In the latter, ChatGPT acts as users with diverse characteristics and generates long-term dialog contexts covering a wide array of topics. The results of our analysis reveal that SiliconFriend, equipped with MemoryBank, exhibits a strong capability for long-term companionship as it can provide emphatic response, recall relevant memories and understand user personality.
翻訳日:2023-05-18 15:31:08 公開日:2023-05-17
# 連続可変量子情報のための明るい絞り真空の周波数領域工学

Frequency-domain engineering of bright squeezed vacuum for continuous-variable quantum information ( http://arxiv.org/abs/2305.10248v1 )

ライセンス: Link先を確認
Inbar Hurvitz, Aviv Karnieli, Ady Arie(参考訳) 多重モード励起真空は、マクロ光子番号をホストする光の古典的でない状態であり、そのスペクトル自由度で量子情報を符号化する有望な能力を提供する。 本研究では,高利得状態におけるパラメトリック逆変換の高精度モデルを採用し,非線形ホログラフィを用いて周波数領域における明るい真空の量子相関を設計する。 超高速時間スケールでの連続変数クラスタ状態生成への道を開くため,全可視制御された2次元格子ジオメトリ上の量子相関の設計を提案する。 具体的には、周波数領域における正方形クラスター状態の生成について検討し、その共分散行列と量子零化器の不確実性を計算する。

Multimode bright squeezed vacuum is a non-classical state of light hosting a macroscopic photon number while offering promising capacity for encoding quantum information in its spectral degree of freedom. Here, we employ an accurate model for parametric downconversion in the high-gain regime and use nonlinear holography to design quantum correlations of bright squeezed vacuum in the frequency domain. We propose the design of quantum correlations over two-dimensional lattice geometries that are all-optically controlled, paving the way toward continuous-variable cluster state generation on an ultrafast timescale. Specifically, we investigate the generation of a square cluster state in the frequency domain and calculate its covariance matrix and the quantum nullifier uncertainties, that exhibit squeezing below the vacuum noise level.
翻訳日:2023-05-18 15:30:41 公開日:2023-05-17
# deep network balance copy-move forgery detection and distinguishment(深層ネットワークバランス)は可能か?

Can Deep Network Balance Copy-Move Forgery Detection and Distinguishment? ( http://arxiv.org/abs/2305.10247v1 )

ライセンス: Link先を確認
Shizhen Chang(参考訳) コピー・ムーブの偽造検出は、画像内のオブジェクトを複製して異なる場所に配置するインスタンスを特定することに焦点を当てており、デジタル画像鑑定において重要な研究領域である。 このような偽造の検出は、悪意のある目的のために悪用できる状況において特に重要である。 近年、コピー・モーブの偽造品におけるオリジナルと複製されたオブジェクトの区別への関心が高まり、この作業を容易にするために大規模なデータセットの開発が進められている。 しかし、既存のコピー・モーブの偽造検出とソース/ターゲットの区別には、2つのステップまたは各タスクのための個別のエンドツーエンドネットワークの設計が含まれることが多い。 本稿では,エンド・ツー・エンドのディープニューラルネットワークにおいてトランスフォーマーアーキテクチャを用いた革新的な手法を提案する。 本手法は,ソースとターゲット領域を同時にローカライズしながら,コピーモーブ偽造のインスタンスを検出することを目的としている。 このアプローチを利用することで、マルチオブジェクトコピーモーブシナリオによって生じる課題に対処し、検出タスクと差別化タスクのバランスがあるかどうかを報告する。 提案するネットワークの性能を評価するために、2つの公開コピー-ムーブデータセットの実験を行った。 結果と分析は,学習したモデルをフィールド内の異なるデータセットに転送し,検出と識別結果のバランスをとることに重点を置く潜在的意義を示すことを目的としている。

Copy-move forgery detection is a crucial research area within digital image forensics, as it focuses on identifying instances where objects in an image are duplicated and placed in different locations. The detection of such forgeries is particularly important in contexts where they can be exploited for malicious purposes. Recent years have witnessed an increased interest in distinguishing between the original and duplicated objects in copy-move forgeries, accompanied by the development of larger-scale datasets to facilitate this task. However, existing approaches to copy-move forgery detection and source/target differentiation often involve two separate steps or the design of individual end-to-end networks for each task. In this paper, we propose an innovative method that employs the transformer architecture in an end-to-end deep neural network. Our method aims to detect instances of copy-move forgery while simultaneously localizing the source and target regions. By utilizing this approach, we address the challenges posed by multi-object copy-move scenarios and report if there is a balance between the detection and differentiation tasks. To evaluate the performance of our proposed network, we conducted experiments on two publicly available copy-move datasets. The results and analysis aims to show the potential significance of our focus in balancing detection and distinguishment result and transferring the trained model in different datasets in the field.
翻訳日:2023-05-18 15:30:25 公開日:2023-05-17
# SGAD:アテンション・スコーディング・デコーディングによる生成的敵ネットワークのスパイキング

SGAD: Spiking Generative Adversarial Network with Attention Scoring Decoding ( http://arxiv.org/abs/2305.10246v1 )

ライセンス: Link先を確認
Linghao Feng, Dongcheng Zhao, Yi Zeng(参考訳) ニューラルネットワークに基づく生成モデルは、ディープラーニングにおいて大きな課題となる。 現状では、そのようなモデルは主に人工ニューラルネットワークの領域に限られている。 第3世代のニューラルネットワークであるスパイクニューラルネットワークは、豊かな時空間ダイナミクスのため、脳のような処理により近い近似を提供する。 しかし、スパイクニューラルネットワークに基づく生成モデルは十分に研究されていない。 本研究では,複雑な画像を扱うことができるスパイク生成対向ネットワークの構築を開拓した。 最初の課題は、生成的敵ネットワークに固有の領域外不整合と時間的不整合の問題を識別することであった。 我々は,これらの問題に対して,土間距離と注意重み付き復号法を組み込んで対処し,複数のデータセットにまたがるアルゴリズムの性能を著しく向上させた。 実験の結果,本手法はMNIST,FashionMNIST,CIFAR10,CelebAデータセットの既存手法よりも優れていることがわかった。 さらに,識別器が人工アナログニューラルネットワークであるハイブリッドスパイキング生成対向ネットワークと比較して,本手法はマウスにおける情報処理パターンと密に一致していることを示す。

Generative models based on neural networks present a substantial challenge within deep learning. As it stands, such models are primarily limited to the domain of artificial neural networks. Spiking neural networks, as the third generation of neural networks, offer a closer approximation to brain-like processing due to their rich spatiotemporal dynamics. However, generative models based on spiking neural networks are not well studied. In this work, we pioneer constructing a spiking generative adversarial network capable of handling complex images. Our first task was to identify the problems of out-of-domain inconsistency and temporal inconsistency inherent in spiking generative adversarial networks. We addressed these issues by incorporating the Earth-Mover distance and an attention-based weighted decoding method, significantly enhancing the performance of our algorithm across several datasets. Experimental results reveal that our approach outperforms existing methods on the MNIST, FashionMNIST, CIFAR10, and CelebA datasets. Moreover, compared with hybrid spiking generative adversarial networks, where the discriminator is an artificial analog neural network, our methodology demonstrates closer alignment with the information processing patterns observed in the mouse.
翻訳日:2023-05-18 15:30:02 公開日:2023-05-17
# 可積分系における量子クエンチ後の負三成分情報

Negative tripartite information after quantum quenches in integrable systems ( http://arxiv.org/abs/2305.10245v1 )

ライセンス: Link先を確認
Fabio Caceffo, Vincenzo Alba(参考訳) 我々は、自由フェルミオン理論にマッピングできるスピン鎖の量子クエンチの後に三成分相互情報(tmi)の準粒子像を構築する。 非ゼロのTMI(等しくトポロジカルエントロピー)は、量子多体系の3つの領域間の量子相関を信号する。 tmiは2つ以上の準粒子の絡み合い多重に敏感であり、標準準粒子画像の絡み合いペアパラダイムを超えている。 驚くべきことに、いくつかの非自明な絡み合った多重数に対して、TMIは中間時間において負である。 これは、相互情報はホログラフィック理論と同様に単ガムであることを意味する。 反対に、「古典的に」絡み合っている多重対に対して、TMIは正である。 重要なことに、負のTMIは、多重項の絡み合いの内容が、ポストクエンチ定常状態を記述する一般化ギブズアンサンブル(GGE)に直接関連していないことを反映している。 したがって、TMIは絡み合いと熱力学の関係の弱みを観察する理想的なレンズである。 我々は、この結果をXX連鎖と横フィールドIsing鎖でベンチマークする。 長周期および大間隔の流体力学的限界において、その比が固定された正確な格子結果は準粒子像と一致する。

We build the quasiparticle picture for the tripartite mutual information (TMI) after quantum quenches in spin chains that can be mapped onto free-fermion theories. A nonzero TMI (equivalently, topological entropy) signals quantum correlations between three regions of a quantum many-body system. The TMI is sensitive to entangled multiplets of more than two quasiparticles, i.e., beyond the entangled-pair paradigm of the standard quasiparticle picture. Surprisingly, for some nontrivially entangled multiplets the TMI is negative at intermediate times. This means that the mutual information is monogamous, similar to holographic theories. Oppositely, for multiplets that are "classically" entangled, the TMI is positive. Crucially, a negative TMI reflects that the entanglement content of the multiplets is not directly related to the Generalized Gibbs Ensemble (GGE) that describes the post-quench steady state. Thus, the TMI is the ideal lens to observe the weakening of the relationship between entanglement and thermodynamics. We benchmark our results in the XX chain and in the transverse field Ising chain. In the hydrodynamic limit of long times and large intervals, with their ratio fixed, exact lattice results are in agreement with the quasiparticle picture.
翻訳日:2023-05-18 15:29:42 公開日:2023-05-17
# 単一イオン非線形発振器によるゼプトニュートン力の増幅

Amplifying a zeptonewton force with a single-ion nonlinear oscillator ( http://arxiv.org/abs/2305.10241v1 )

ライセンス: Link先を確認
Bo Deng, Moritz G\"ob, Benjamin A. Stickler, Max Masuhr, Kilian Singer, and Daqing Wang(参考訳) 非線形メカニカル共振器は、リッチで複雑なダイナミクスを示し、基礎および応用科学の多くの分野において重要である。 本稿では, ファンネル形状のポテンシャルに閉じ込められた粒子が, 半径運動と軸運動の結合によりダッフィング型非線形性を示すことを示す。 イオントラッププラットフォームを用いて、放射圧によって駆動される単一カルシウムイオンの非線形振動、分岐、ヒステリシスを研究する。 この原子発振器のビスタビリティを利用して, 振動共振の効果により, ツェプトニュートン・マグニチュード高調波力からの信号の20倍のエンハンスメントを実証する。 我々の発見は、量子状態に近い機械振動子の非線形現象を制御・活用するための様々な可能性を開く。

Nonlinear mechanical resonators display rich and complex dynamics and are important in many areas of fundamental and applied sciences. In this letter, we show that a particle confined in a funnel-shaped potential features a Duffing-type nonlinearity due to the coupling between its radial and axial motion. Employing an ion trap platform, we study the nonlinear oscillation, bifurcation and hysteresis of a single calcium ion driven by radiation pressure. Harnessing the bistability of this atomic oscillator, we demonstrate a 20-fold enhancement of the signal from a zeptonewton-magnitude harmonic force through the effect of vibrational resonance. Our findings open up a range of possibilities for controlling and exploiting nonlinear phenomena of mechanical oscillators close to the quantum regime.
翻訳日:2023-05-18 15:29:24 公開日:2023-05-17
# 量子測定結果に対する財務クレーム成分の評価

Valuation of a Financial Claim Contingent on the Outcome of a Quantum Measurement ( http://arxiv.org/abs/2305.10239v1 )

ライセンス: Link先を確認
Lane P. Hughston and Leandro S\'anchez-Betancourt(参考訳) 有理エージェントは、時として$0$が金銭的契約に入り、その支払いは、ある時点において$T>0$で量子測定によって決定される。 量子系の状態は既知の密度行列 $\hat p$ によって与えられる。 エージェントは、その契約に参加するのに、その時点で0ドルの支払いを喜んでどのくらいしますか? 有限次元ヒルベルト空間の場合、それぞれのクレームは観測可能な $\hat x_t$ で表現され、ここでは$\hat x_t$ の固有値が測定結果が得られたときに支払われる金額を決定する。 妥当な公理の下では、価格関数 $\Pi_{0T}$ が $\Pi_{0T}(\hat X_T) = P_{0T}\,{\rm tr} ( \hat q \hat X_T) $ を任意のクレーム $\hat X_T$ に対して取るような null 空間上の物理的状態 $\hat p$ と等価な価格状態 $\hat q$ が存在することを証明している。 すなわち、任意の$|\xi \rangle \in \mathcal h$ 1 に対して、$\langle \bar \xi | \hat p | \xi \rangle = 0$ であることと、$\langle \bar \xi | \hat q | \xi \rangle = 0$ であることは同値である。 最適化問題の種類を導入し,所定の測定値に基づいてクレームに対する最適契約支払構造を解く。 次に,そのような条件下でのコーチェン・スペックルの定理の意義を考察し,契約のポートフォリオ形成の問題について考察する。

We consider a rational agent who at time $0$ enters into a financial contract for which the payout is determined by a quantum measurement at some time $T>0$. The state of the quantum system is given by a known density matrix $\hat p$. How much will the agent be willing to pay at time $0$ to enter into such a contract? In the case of a finite dimensional Hilbert space, each such claim is represented by an observable $\hat X_T$ where the eigenvalues of $\hat X_T$ determine the amount paid if the corresponding outcome is obtained in the measurement. We prove, under reasonable axioms, that there exists a pricing state $\hat q$ which is equivalent to the physical state $\hat p$ on null spaces such that the pricing function $\Pi_{0T}$ takes the form $\Pi_{0T}(\hat X_T) = P_{0T}\,{\rm tr} ( \hat q \hat X_T) $ for any claim $\hat X_T$, where $P_{0T}$ is the one-period discount factor. By "equivalent" we mean that $\hat p$ and $\hat q$ share the same null space: thus, for any $|\xi \rangle \in \mathcal H$ one has $\langle \bar \xi | \hat p | \xi \rangle = 0$ if and only if $\langle \bar \xi | \hat q | \xi \rangle = 0$. We introduce a class of optimization problems and solve for the optimal contract payout structure for a claim based on a given measurement. Then we consider the implications of the Kochen-Specker theorem in such a setting and we look at the problem of forming portfolios of such contracts.
翻訳日:2023-05-18 15:29:08 公開日:2023-05-17
# 近似安定化器ランクの下位境界-確率論的アプローチ

Lower bounds on the Approximate Stabilizer Rank: A Probabilistic Approach ( http://arxiv.org/abs/2305.10277v1 )

ライセンス: Link先を確認
Saeed Mehraban and Mehrdad Tahmasbi(参考訳) 量子状態の近似安定化器ランクは、その状態の任意の近似分解における最小の項数である。 Bravyi と Gosset は、$|T\rangle^{\otimes n}$ のようないわゆる「魔術的」状態の近似安定化ランクは、多項式因子まで、クリフォードゲートと$n$$$T$ゲートを持つ任意の量子回路をシミュレートするのに必要となる古典的な演算の回数の上限であることを示した。 その結果、この量に対する指数関数的な下限は避けられないように思える。 この直観にもかかわらず、様々な技法を使ったいくつかの試みは、状態を正確に生成する分解の最小サイズである$|t\rangle^{\otimes n}$の「実」ランクの線形下限よりも良い結果をもたらすことができなかった。 しかし、「近似」ランクは、正確なランクが誤差に対して堅牢ではないため、量子回路をシミュレートするコストとより現実的に関連している。 $\tilde \Omega(\sqrt n)$よりも低い境界は、近似ランクで知られている。 本稿では,近似パラメータの広い範囲に対して,この下限を$\tilde \Omega (n)$に改善する。 本手法は、ハール測度からサンプリングされた量子状態の近似ランクの強い下限と、ハール測度からサンプルするためのマジック状態テレポーテーションプロトコルの近似ランクのステップ・バイ・ステップ解析に基づいている。

The approximate stabilizer rank of a quantum state is the minimum number of terms in any approximate decomposition of that state into stabilizer states. Bravyi and Gosset showed that the approximate stabilizer rank of a so-called "magic" state like $|T\rangle^{\otimes n}$, up to polynomial factors, is an upper bound on the number of classical operations required to simulate an arbitrary quantum circuit with Clifford gates and $n$ number of $T$ gates. As a result, an exponential lower bound on this quantity seems inevitable. Despite this intuition, several attempts using various techniques could not lead to a better than a linear lower bound on the "exact" rank of $|T\rangle^{\otimes n}$, meaning the minimal size of a decomposition that exactly produces the state. However, an "approximate" rank is more realistically related to the cost of simulating quantum circuits because exact rank is not robust to errors; there are quantum states with exponentially large exact ranks but constant approximate ranks even with arbitrarily small approximation parameters. No lower bound better than $\tilde \Omega(\sqrt n)$ has been known for the approximate rank. In this paper, we improve this lower bound to $\tilde \Omega (n)$ for a wide range of the approximation parameters. Our approach is based on a strong lower bound on the approximate rank of a quantum state sampled from the Haar measure and a step-by-step analysis of the approximate rank of a magic-state teleportation protocol to sample from the Haar measure.
翻訳日:2023-05-18 15:23:34 公開日:2023-05-17
# 大規模ランガウジモデルにおけるシンボリック・プロンプト・エリシット計画

Chain-of-Symbol Prompting Elicits Planning in Large Langauge Models ( http://arxiv.org/abs/2305.10276v1 )

ライセンス: Link先を確認
Hanxu Hu, Hongyuan Lu, Huajian Zhang, Wai Lam, Yue Zhang(参考訳) 本稿では,LLMが自然言語でシミュレートされた仮想空間環境を理解し,テキストで行動するために必要な複雑な計画課題におけるLLMの性能について検討する。 我々は,Brick World,NLVRベースのマニピュレーション,自然言語ナビゲーションといった新しいタスクからなる自然言語計画(NLP)というベンチマークを提案する。 現在の一般的なLLMであるChatGPTは、複雑な計画にはまだ能力がないことがわかった。 LLMは自然言語で記述された環境をよく理解しているのか、それとも記号表現のような他の代替手段はよりきれいで、LLMで理解しやすいのか? そこで本研究では,シンボリック空間表現が凝縮した複雑な環境を表現する新しい手法であるcos(chain-of-symbol prompting)を提案する。 CoSは使いやすく、LLMに関する追加のトレーニングは必要ありません。 大規模な実験の結果,CoT は ChatGPT と InstructGPT の CoT と比較して,入力に使用するトークンがさらに少ない3つの計画タスクにおいて,CoT プロンプトの性能を明らかに上回っていることがわかった。 Brick World for ChatGPTでは60.8%(31.8%から92.6%)の精度でパフォーマンスが向上した。 CoSはまた、ブリック・ワールドでのデモから中間段階のトークン(407から139まで)の65.8%まで、プロンプト内のトークンの数を明らかに削減している。

In this paper, we take the initiative to investigate the performance of LLMs on complex planning tasks that require LLMs to understand a virtual spatial environment simulated via natural language and act correspondingly in text. We propose a benchmark named Natural Language Planning (NLP) composed of a set of novel tasks: Brick World, NLVR-based Manipulations, and Natural Language Navigation. We found that current popular LLMs such as ChatGPT still lack abilities in complex planning. This arises a question -- do the LLMs have a good understanding of the environments described in natural language, or maybe other alternatives such as symbolic representations are neater and hence better to be understood by LLMs? To this end, we propose a novel method called CoS (Chain-of-Symbol Prompting) that represents the complex environments with condensed symbolic spatial representations during the chained intermediate thinking steps. CoS is easy to use and does not need additional training on LLMs. Extensive experiments indicate that CoS clearly surpasses the performance of the Chain-of-Thought (CoT) Prompting in all three planning tasks with even fewer tokens used in the inputs compared with CoT on ChatGPT and InstructGPT. The performance gain is strong, by up to 60.8% accuracy (from 31.8% to 92.6%) on Brick World for ChatGPT. CoS also reduces the number of tokens in the prompt obviously, by up to 65.8% of the tokens (from 407 to 139) for the intermediate steps from demonstrations on Brick World.
翻訳日:2023-05-18 15:23:04 公開日:2023-05-17
# ピック成功の学習指標による大規模パッケージ操作

Large-Scale Package Manipulation via Learned Metrics of Pick Success ( http://arxiv.org/abs/2305.10272v1 )

ライセンス: Link先を確認
Shuai Li, Azarakhsh Keipour, Kevin Jamieson, Nicolas Hudson, Charles Swan, Kostas Bekris(参考訳) 倉庫業務の自動化は、物流のオーバーヘッドコストを削減し、最終的に消費者の最終的な価格を下げ、配達のスピードを高め、労働力の変動に対する回復力を高める。 過去数年間、このような繰り返しタスクを自動化することへの関心が高まってきたが、主に制御された設定であった。 構造化されていない、散らばった山からオブジェクトを拾うといったタスクは、人間の介入を最小限に抑えた大規模デプロイメントに十分頑丈になったばかりである。 本稿では,amazon roboticsのロボットインダクション(robin)フリートにおいて,実生産データに基づいて訓練されたピック成功予測器を用いた,非構造な積み重ねによる大規模パッケージ操作を実証する。 具体的には、システムは394K以上のピックで訓練された。 1日5~100万パッケージまでを歌い、本論文の評価期間中に200~200万パッケージ以上を操作した。 学習した選別品質尺度は、様々な選別選択肢をリアルタイムでランク付けし、実行に最も有望な選別基準を優先順位付けする。 ピック成功予測器は、部分的に知られている特性を持つ変形性および剛性のある物体を含む散在したシーンにおいて、展開された産業用ロボットアームによる所望のピックの成功確率を事前の経験から推定することを目的としている。 これは浅い機械学習モデルであり、どの機能が予測に最も重要であるかを評価することができる。 オンラインのピックランチャーは、学習した成功予測器を利用して、ロボットアームの最も有望なピックを優先し、衝突回避のために評価される。 この学習されたランキングプロセスは、制限を克服し、手作業によるエンジニアリングとヒューリスティックな代替品のパフォーマンスを上回ります。 本稿では,実運用システムにおいて,学習したピック品質推定手法を大規模に展開する最初の方法を提案する。

Automating warehouse operations can reduce logistics overhead costs, ultimately driving down the final price for consumers, increasing the speed of delivery, and enhancing the resiliency to workforce fluctuations. The past few years have seen increased interest in automating such repeated tasks but mostly in controlled settings. Tasks such as picking objects from unstructured, cluttered piles have only recently become robust enough for large-scale deployment with minimal human intervention. This paper demonstrates a large-scale package manipulation from unstructured piles in Amazon Robotics' Robot Induction (Robin) fleet, which utilizes a pick success predictor trained on real production data. Specifically, the system was trained on over 394K picks. It is used for singulating up to 5~million packages per day and has manipulated over 200~million packages during this paper's evaluation period. The developed learned pick quality measure ranks various pick alternatives in real-time and prioritizes the most promising ones for execution. The pick success predictor aims to estimate from prior experience the success probability of a desired pick by the deployed industrial robotic arms in cluttered scenes containing deformable and rigid objects with partially known properties. It is a shallow machine learning model, which allows us to evaluate which features are most important for the prediction. An online pick ranker leverages the learned success predictor to prioritize the most promising picks for the robotic arm, which are then assessed for collision avoidance. This learned ranking process is demonstrated to overcome the limitations and outperform the performance of manually engineered and heuristic alternatives. To the best of the authors' knowledge, this paper presents the first large-scale deployment of learned pick quality estimation methods in a real production system.
翻訳日:2023-05-18 15:22:40 公開日:2023-05-17
# 局所スペクトル時間特性の音声解析への応用

Boosting Local Spectro-Temporal Features for Speech Analysis ( http://arxiv.org/abs/2305.10270v1 )

ライセンス: Link先を確認
Michael Guerzhoy(参考訳) 本稿では,音声認識の文脈における電話分類の問題を紹介し,電話分類に使用できる局所分光時間特徴の組について検討する。 特に,物体検出によく用いられる2種類の特徴を用いた音声分類の予備的結果について述べる:Hear特徴とHandientsのSVM分類ヒストグラム(HoG)

We introduce the problem of phone classification in the context of speech recognition, and explore several sets of local spectro-temporal features that can be used for phone classification. In particular, we present some preliminary results for phone classification using two sets of features that are commonly used for object detection: Haar features and SVM-classified Histograms of Gradients (HoG)
翻訳日:2023-05-18 15:22:11 公開日:2023-05-17
# 非平衡アトラスを用いた状態表現学習

State Representation Learning Using an Unbalanced Atlas ( http://arxiv.org/abs/2305.10267v1 )

ライセンス: Link先を確認
Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad(参考訳) 多様体仮説は、高次元データはしばしば低次元多様体上にあり、この多様体を対象空間として利用するとより効率的な表現が得られると仮定する。 多くの伝統的な多様体に基づく手法が次元の減少のために存在するが、自己教師あり学習への応用は遅い進歩を目撃している。 最近のMSIMCLR法は、SimCLRと多様体符号化を組み合わせるが、その適用性を制限するために非常に低い目標符号化寸法を必要とする。 本稿では,最先端の自己教師付き学習アプローチを超越するアンバランス・アトラス(ua)を用いた新しい学習パラダイムを提案する。 提案するUAパラダイムと整合する時空間DeepInfomax(ST-DIM)フレームワークを体系的に適用し,そのプロセスを通じて厳密な科学的方法論を用いて,DeepInfomaxを非平衡アトラス(DIM-UA)手法で綿密に検討・設計した。 DIM-UAの有効性はAtari Annotated RAM Interface (AtariARI)ベンチマークのトレーニングと評価を通じて実証される。 uaパラダイムは、対象の符号化次元が増加すると既存のアルゴリズムを大幅に改善する。 例えば、DIM-UAのカテゴリの平均F1スコアは16384の隠れユニットを使用すると、ST-DIMの70%に比べて75%程度である。

The manifold hypothesis posits that high-dimensional data often lies on a lower-dimensional manifold and that utilizing this manifold as the target space yields more efficient representations. While numerous traditional manifold-based techniques exist for dimensionality reduction, their application in self-supervised learning has witnessed slow progress. The recent MSIMCLR method combines manifold encoding with SimCLR but requires extremely low target encoding dimensions to outperform SimCLR, limiting its applicability. This paper introduces a novel learning paradigm using an unbalanced atlas (UA), capable of surpassing state-of-the-art self-supervised learning approaches. We meticulously investigated and engineered the DeepInfomax with an unbalanced atlas (DIM-UA) method by systematically adapting the Spatiotemporal DeepInfomax (ST-DIM) framework to align with our proposed UA paradigm, employing rigorous scientific methodologies throughout the process. The efficacy of DIM-UA is demonstrated through training and evaluation on the Atari Annotated RAM Interface (AtariARI) benchmark, a modified version of the Atari 2600 framework that produces annotated image samples for representation learning. The UA paradigm improves the existing algorithm significantly when the number of target encoding dimensions grows. For instance, the mean F1 score averaged over categories of DIM-UA is ~75% compared to ~70% of ST-DIM when using 16384 hidden units.
翻訳日:2023-05-18 15:22:04 公開日:2023-05-17
# ヘイスタックにおける針の探索 : PaLM翻訳能力における偶発的バイリンガル主義の役割について

Searching for Needles in a Haystack: On the Role of Incidental Bilingualism in PaLM's Translation Capability ( http://arxiv.org/abs/2305.10266v1 )

ライセンス: Link先を確認
Eleftheria Briakou, Colin Cherry, George Foster(参考訳) 大規模な多言語言語モデルは、典型的なニューラル翻訳システムに意図的に含まれる翻訳例を見たことがないにもかかわらず、驚くほど優れたゼロまたは少数ショットの機械翻訳能力を示す。 本研究では,多言語モデルの翻訳能力を説明するために,多言語モデル (PaLM) をケーススタディとして用いながら,二重言語信号の意図しない消費(翻訳例を含む)の役割について検討する。 我々は、大規模に付随するバイリンガル主義を計測し理解するための混合手法を導入する。 PaLMは少なくとも44言語で3000万以上の翻訳ペアに公開されています。 さらに、副次的二言語コンテンツの量は、非英語言語の単言語内コンテンツ量と高い相関関係にある。 本稿では、インシデントバイリンガルコンテンツをゼロショットプロンプトに関連付け、新しいプロンプトをマイニングして、英語のゼロショット翻訳品質を改善することができることを示す。 最後に、一連の小さなアブレーションにおいて、その存在が翻訳能力に大きな影響を与えることが示されているが、この影響はモデルスケールによって減少する。

Large, multilingual language models exhibit surprisingly good zero- or few-shot machine translation capabilities, despite having never seen the intentionally-included translation examples provided to typical neural translation systems. We investigate the role of incidental bilingualism -- the unintentional consumption of bilingual signals, including translation examples -- in explaining the translation capabilities of large language models, taking the Pathways Language Model (PaLM) as a case study. We introduce a mixed-method approach to measure and understand incidental bilingualism at scale. We show that PaLM is exposed to over 30 million translation pairs across at least 44 languages. Furthermore, the amount of incidental bilingual content is highly correlated with the amount of monolingual in-language content for non-English languages. We relate incidental bilingual content to zero-shot prompts and show that it can be used to mine new prompts to improve PaLM's out-of-English zero-shot translation quality. Finally, in a series of small-scale ablations, we show that its presence has a substantial impact on translation capabilities, although this impact diminishes with model scale.
翻訳日:2023-05-18 15:21:37 公開日:2023-05-17
# m3ke - 中国語大規模言語モデルのための大規模マルチサブジェクト知識評価ベンチマーク

M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models ( http://arxiv.org/abs/2305.10263v1 )

ライセンス: Link先を確認
Chuang Liu, Renren Jin, Yuqi Ren, Linhao Yu, Tianyu Dong, Xiaohan Peng, Shuting Zhang, Jianxiang Peng, Peiyi Zhang, Qingqing Lyu, Xiaowen Su, Qun Liu, Deyi Xiong(参考訳) 大規模言語モデルは、最近、クロスタスクの一般化、次の命令など、様々な面で大きな進歩を遂げた。 複数のタスクにおける大規模言語モデルの能力の包括的評価は非常に重要である。 本稿では,中国の大規模言語モデルが獲得する知識をゼロショットと少数ショットの設定でマルチタスク精度をテストするために開発した,大規模マルチサブジェクト知識評価ベンチマークであるm3keを提案する。 71のタスクから20,477の質問を集めました。 私たちの選択は、小学校から大学まで、また人文科学、歴史、政治、法律、教育、心理学、科学、技術、芸術、宗教を含む幅広い分野を含む、中国の教育システムの全ての主要なレベルをカバーしている。 すべての質問は4つの選択肢を持つ複数の質問であり、標準化され統一された評価プロセスを保証する。 提案ベンチマークでは,最先端のオープンソース中国語大言語モデルをいくつか評価した。 これらのモデルのサイズは335Mから130Bまで様々である。 実験の結果, GPT-3.5の精度はM3KEで約48%に低下した。 データセットはhttps://github.com/tjunlp-lab/m3keで入手できる。

Large language models have recently made tremendous progress in a variety of aspects, e.g., cross-task generalization, instruction following. Comprehensively evaluating the capability of large language models in multiple tasks is of great importance. In this paper, we propose M3KE, a Massive Multi-Level Multi-Subject Knowledge Evaluation benchmark, which is developed to measure knowledge acquired by Chinese large language models by testing their multitask accuracy in zero- and few-shot settings. We have collected 20,477 questions from 71 tasks. Our selection covers all major levels of Chinese education system, ranging from the primary school to college, as well as a wide variety of subjects, including humanities, history, politics, law, education, psychology, science, technology, art and religion. All questions are multiple-choice questions with four options, hence guaranteeing a standardized and unified assessment process. We've assessed a number of state-of-the-art open-source Chinese large language models on the proposed benchmark. The size of these models varies from 335M to 130B parameters. Experiment results demonstrate that they perform significantly worse than GPT-3.5 that reaches an accuracy of ~ 48% on M3KE. The dataset is available at https://github.com/tjunlp-lab/M3KE.
翻訳日:2023-05-18 15:21:17 公開日:2023-05-17
# 地域からパッチ: ファイングレード・ファッション検索のためのフォアグラウンド・コントラスト学習

From Region to Patch: Attribute-Aware Foreground-Background Contrastive Learning for Fine-Grained Fashion Retrieval ( http://arxiv.org/abs/2305.10260v1 )

ライセンス: Link先を確認
Jianfeng Dong, Xiaoman Peng, Zhe Ma, Daizong Liu, Xiaoye Qu, Xun Yang, Jixiang Zhu, Baolong Liu(参考訳) 属性特化ファッション検索(ASFR)は,近年注目を集めている,難易度の高い情報検索課題である。 全体的な類似度を最適化することに集中する伝統的なファッション検索とは異なり、ASFRタスクは属性固有の類似性に集中し、よりきめ細やかで解釈可能な検索結果をもたらす。 属性固有の類似性は通常、画像の特定の微妙な領域に対応するため、領域対応のブランチとパッチ対応のブランチからなる領域間パッチフレームワーク(RPF)を提案し、詳細な属性関連視覚特徴を粗い方法で抽出する。 特に、リージョンアウェアブランチは、与えられた属性の意味に関する潜在的な領域を見つけるために最初に使用される。 そして、位置領域が粗く、なおも背景の視覚的内容を含んでいることを考慮し、パッチ対応ブランチを提案し、以前の増幅領域からパッチワイド属性関連の詳細をキャプチャする。 このようなハイブリッドアーキテクチャは、領域のローカライゼーションと特徴抽出の適切なバランスをとる。 また,属性関連前景の視覚的特徴を識別することのみに焦点を絞った従来の作品と異なり,属性関連背景特徴は,詳細な視覚的文脈を対照的に区別するためにも重要であると論じている。 そこで,前景と背景表現に基づく新たなE-InfoNCE損失が提案され,属性固有表現の識別が向上した。 3つのデータセットに対する大規模な実験は,提案手法の有効性を示すとともに,ドメイン外のファッションイメージに対するRPFの適切な一般化を示す。 ソースコードはhttps://github.com/huiguanlab/rpfで入手できます。

Attribute-specific fashion retrieval (ASFR) is a challenging information retrieval task, which has attracted increasing attention in recent years. Different from traditional fashion retrieval which mainly focuses on optimizing holistic similarity, the ASFR task concentrates on attribute-specific similarity, resulting in more fine-grained and interpretable retrieval results. As the attribute-specific similarity typically corresponds to the specific subtle regions of images, we propose a Region-to-Patch Framework (RPF) that consists of a region-aware branch and a patch-aware branch to extract fine-grained attribute-related visual features for precise retrieval in a coarse-to-fine manner. In particular, the region-aware branch is first to be utilized to locate the potential regions related to the semantic of the given attribute. Then, considering that the located region is coarse and still contains the background visual contents, the patch-aware branch is proposed to capture patch-wise attribute-related details from the previous amplified region. Such a hybrid architecture strikes a proper balance between region localization and feature extraction. Besides, different from previous works that solely focus on discriminating the attribute-relevant foreground visual features, we argue that the attribute-irrelevant background features are also crucial for distinguishing the detailed visual contexts in a contrastive manner. Therefore, a novel E-InfoNCE loss based on the foreground and background representations is further proposed to improve the discrimination of attribute-specific representation. Extensive experiments on three datasets demonstrate the effectiveness of our proposed framework, and also show a decent generalization of our RPF on out-of-domain fashion images. Our source code is available at https://github.com/HuiGuanLab/RPF.
翻訳日:2023-05-18 15:20:54 公開日:2023-05-17
# 雑音下における多目的進化アルゴリズムの実行時解析

Runtime Analyses of Multi-Objective Evolutionary Algorithms in the Presence of Noise ( http://arxiv.org/abs/2305.10259v1 )

ライセンス: Link先を確認
Matthieu Dinot, Benjamin Doerr, Ulysse Hennebelle, Sebastian Will(参考訳) 単一目的最適化では、さらなる調整を伴わない進化的アルゴリズムが、目的関数の評価において一定のノイズを許容できることがよく知られている。 対照的に、この問題は多目的最適化では理解されていない。 本研究では,目的関数に雑音が存在する場合の古典的ベンチマークにおいて,単純な多目的進化アルゴリズム(MOEA)の数学的実行時解析を行う。 適切な定数として$p \le \alpha/n$, $\alpha$ がある場合、ノイズに対処するための調整を伴わない \emph{simple Evolution Multi-objective Optimizationr} (SEMO) は、ノイズのない場合と同様に、時間で$O(n^2\log n)$ の OneMinMax ベンチマークの Pareto フロントを見つける。 ここでの問題は、パレートフロントを目撃する$n+1$の個人からなる集団に到達することであり、これは驚くほど強いノイズに対する強靭性である(例えば、単純な進化アルゴリズムは、$p = \omega(\log(n)/n)$の多項式時間で単目的のOneMax問題を最適化することはできない)。 我々の証明は、MOEAの強い堅牢性は、パレートフロント全体をカバーする人口を計算するために設計された暗黙の多様性メカニズムに由来することを示唆している。 興味深いことに、この結果は、解の客観的値が1回だけ決定される場合にのみ成立し、その時点からのアルゴリズムは、おそらくは騒がしい客観的値を扱う。 すべての解が各反復で再評価されると、任意のノイズレート$p = \omega(\log(n)/n^2)$が超多項式ランタイムにつながることが証明される。 これは、1つの目的の最適化とは大きく異なり、一般的に、適合性が重要であれば解を再評価することが望ましい。

In single-objective optimization, it is well known that evolutionary algorithms also without further adjustments can tolerate a certain amount of noise in the evaluation of the objective function. In contrast, this question is not at all understood for multi-objective optimization. In this work, we conduct the first mathematical runtime analysis of a simple multi-objective evolutionary algorithm (MOEA) on a classic benchmark in the presence of noise in the objective functions. We prove that when bit-wise prior noise with rate $p \le \alpha/n$, $\alpha$ a suitable constant, is present, the \emph{simple evolutionary multi-objective optimizer} (SEMO) without any adjustments to cope with noise finds the Pareto front of the OneMinMax benchmark in time $O(n^2\log n)$, just as in the case without noise. Given that the problem here is to arrive at a population consisting of $n+1$ individuals witnessing the Pareto front, this is a surprisingly strong robustness to noise (comparably simple evolutionary algorithms cannot optimize the single-objective OneMax problem in polynomial time when $p = \omega(\log(n)/n)$). Our proofs suggest that the strong robustness of the MOEA stems from its implicit diversity mechanism designed to enable it to compute a population covering the whole Pareto front. Interestingly this result only holds when the objective value of a solution is determined only once and the algorithm from that point on works with this, possibly noisy, objective value. We prove that when all solutions are reevaluated in each iteration, then any noise rate $p = \omega(\log(n)/n^2)$ leads to a super-polynomial runtime. This is very different from single-objective optimization, where it is generally preferred to reevaluate solutions whenever their fitness is important and where examples are known such that not reevaluating solutions can lead to catastrophic performance losses.
翻訳日:2023-05-18 15:20:20 公開日:2023-05-17
# 局所的およびグローバル的特徴を用いたソーシャルネットワークにおけるリンク予測の改善:クラスタリングに基づくアプローチ

Improving Link Prediction in Social Networks Using Local and Global Features: A Clustering-based Approach ( http://arxiv.org/abs/2305.10257v1 )

ライセンス: Link先を確認
Safiye Ghasemi, and Amin Zarei(参考訳) リンク予測問題は, ソーシャルネットワーク分析, バイオインフォマティクス実験, 交通ネットワーク, 刑事捜査など多くの領域で注目されている。 リンク予測問題に対する様々な手法が開発され, 分類されている 1)類似したノードを抽出する一連の特徴を研究する類似性に基づくアプローチ 2) 入力データからパターンを抽出する学習に基づくアプローチ 3) パラメータの集合を最適化して生成確率を最適に計算できるモデルを確立する確率論的統計的アプローチ。 しかし、既存の文献には、より生産的なアプローチを実現するために、それぞれのアプローチの強みを利用するアプローチが欠けている。 リンク予測問題に対処するため,本研究では,第1グループ法と第2グループ法の組み合わせに基づくアプローチを提案する。 まず,二相法を用いてノードの位置と動的挙動に関する新たな特徴を判定し,そのアプローチを単なる尺度によるアプローチよりも効率良く実施する。 次に,クラスタの強度を区別する計算類似度尺度に基づいて,サブスペースクラスタリングアルゴリズムを適用した。基本的に,局所的および大域的指標とクラスタリング情報の利用は,リンク予測プロセスにおいて重要な役割を担っている。 facebookやbrightkite,hepthなど,実際のデータセットで行った広範な実験は,提案手法の優れた性能を示している。 さらに,この分野の先行技術を用いて,我々の優位を証明するためのアプローチを実験的に検証した。

Link prediction problem has increasingly become prominent in many domains such as social network analyses, bioinformatics experiments, transportation networks, criminal investigations and so forth. A variety of techniques has been developed for link prediction problem, categorized into 1) similarity based approaches which study a set of features to extract similar nodes; 2) learning based approaches which extract patterns from the input data; 3) probabilistic statistical approaches which optimize a set of parameters to establish a model which can best compute formation probability. However, existing literatures lack approaches which utilize strength of each approach by integrating them to achieve a much more productive one. To tackle the link prediction problem, we propose an approach based on the combination of first and second group methods; the existing studied works use just one of these categories. Our two-phase developed method firstly determines new features related to the position and dynamic behavior of nodes, which enforce the approach more efficiency compared to approaches using mere measures. Then, a subspace clustering algorithm is applied to group social objects based on the computed similarity measures which differentiate the strength of clusters; basically, the usage of local and global indices and the clustering information plays an imperative role in our link prediction process. Some extensive experiments held on real datasets including Facebook, Brightkite and HepTh indicate good performances of our proposal method. Besides, we have experimentally verified our approach with some previous techniques in the area to prove the supremacy of ours.
翻訳日:2023-05-18 15:19:37 公開日:2023-05-17
# PromptUNet: インタラクティブな医用画像セグメンテーションを目指して

PromptUNet: Toward Interactive Medical Image Segmentation ( http://arxiv.org/abs/2305.10300v1 )

ライセンス: Link先を確認
Junde Wu(参考訳) インタラクティブセグメンテーションとしても知られるプロンプトベースのセグメンテーションは、近年、画像セグメンテーションにおける一般的なアプローチとなっている。 うまく設計されたプロンプトベースのモデルであるsegment anything model(sam)は、幅広い自然画像をセグメント化できることを実証し、コミュニティで多くの議論を巻き起こした。 しかし、近年の研究ではサムは医療画像で成績が悪いことが示されている。 これにより、医用画像分割に特化した新しいプロンプトベースセグメンテーションモデルを設計する動機となった。 本稿では,医用画像のセグメンテーションのためのwidlyが認識したアーキテクチャであるunetとプロンプトに基づくセグメンテーションパラダイムを組み合わせる。 結果のモデル PromptUNet を命名しました。 実世界の臨床利用に適応するために,SAMの既存のプロンプトタイプを拡張し,新規なサポートプロンプトとエンフェイスプロンプトを含むようにした。 今回我々は、ct, mri, 超音波, 眼底, 皮膚鏡などの様々な画像特徴を用いて、19の医用画像分割課題における迅速性の評価を行った。 以上の結果から, PromptUNetは, nnUNet, TransUNet, UNetr, MedSegDiff, MSAなど, 最先端(SOTA)の医療画像セグメンテーション手法よりも優れていることがわかった。 コードは、https://github.com/WuJunde/PromptUNet.comでリリースされる。

Prompt-based segmentation, also known as interactive segmentation, has recently become a popular approach in image segmentation. A well-designed prompt-based model called Segment Anything Model (SAM) has demonstrated its ability to segment a wide range of natural images, which has sparked a lot of discussion in the community. However, recent studies have shown that SAM performs poorly on medical images. This has motivated us to design a new prompt-based segmentation model specifically for medical image segmentation. In this paper, we combine the prompted-based segmentation paradigm with UNet, which is a widly-recognized successful architecture for medical image segmentation. We have named the resulting model PromptUNet. In order to adapt the real-world clinical use, we expand the existing prompt types in SAM to include novel Supportive Prompts and En-face Prompts. We have evaluated the capabilities of PromptUNet on 19 medical image segmentation tasks using a variety of image modalities, including CT, MRI, ultrasound, fundus, and dermoscopic images. Our results show that PromptUNet outperforms a wide range of state-of-the-art (SOTA) medical image segmentation methods, including nnUNet, TransUNet, UNetr, MedSegDiff, and MSA. Code will be released at: https://github.com/WuJunde/PromptUNet.
翻訳日:2023-05-18 15:12:42 公開日:2023-05-17
# バイナリ化スペクトル圧縮イメージング

Binarized Spectral Compressive Imaging ( http://arxiv.org/abs/2305.10299v1 )

ライセンス: Link先を確認
Yuanhao Cai, Yuxin Zheng, Jing Lin, Haoqian Wang, Xin Yuan, Yulun Zhang(参考訳) ハイパースペクトル画像(hsi)再構成のための既存のディープラーニングモデルは優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。 したがって、これらの方法はリソース制限のあるモバイルデバイスにはほとんどデプロイできない。 本稿では, 圧縮圧縮画像(SCI)システムにおいて, 圧縮計測からHSIを効率よく, 実用的に復元する新しい手法であるBiSRNetを提案する。 まず、小型で展開が容易なベースモデルを再設計し、バイナライズする。 次に、基本単位、二元化スペクトル再分配畳み込み(bisr-conv)を示す。 BiSR-Conv はバイナライズアクティベーション前に HSI 表現を適応的に再分割し、拡張性のある双曲型タンジェント関数を用いてバックプロパゲーションにおいて符号関数を近似する。 BiSR-Convに基づいて、4つの二項化畳み込みモジュールをカスタマイズし、次元ミスマッチに対処し、ネットワーク全体の全精度情報を伝達する。 最後に、bisrnet はベースモデルを二元化するために提案手法を用いて導出する。 包括的定量的および定性的な実験により,提案したBiSRNetは最先端のバイナライゼーション手法より優れ,完全精度のアルゴリズムで同等の性能を発揮することが示された。 コードとモデルはhttps://github.com/caiyuanhao1998/BiSCIとhttps://github.com/caiyuanhao1998/MSTでリリースされる。

Existing deep learning models for hyperspectral image (HSI) reconstruction achieve good performance but require powerful hardwares with enormous memory and computational resources. Consequently, these methods can hardly be deployed on resource-limited mobile devices. In this paper, we propose a novel method, Binarized Spectral-Redistribution Network (BiSRNet), for efficient and practical HSI restoration from compressed measurement in snapshot compressive imaging (SCI) systems. Firstly, we redesign a compact and easy-to-deploy base model to be binarized. Then we present the basic unit, Binarized Spectral-Redistribution Convolution (BiSR-Conv). BiSR-Conv can adaptively redistribute the HSI representations before binarizing activation and uses a scalable hyperbolic tangent function to closer approximate the Sign function in backpropagation. Based on our BiSR-Conv, we customize four binarized convolutional modules to address the dimension mismatch and propagate full-precision information throughout the whole network. Finally, our BiSRNet is derived by using the proposed techniques to binarize the base model. Comprehensive quantitative and qualitative experiments manifest that our proposed BiSRNet outperforms state-of-the-art binarization methods and achieves comparable performance with full-precision algorithms. Code and models will be released at https://github.com/caiyuanhao1998/BiSCI and https://github.com/caiyuanhao1998/MST
翻訳日:2023-05-18 15:12:17 公開日:2023-05-17
# リチウムイオン電池の余寿命とSOHの推定(EV車両用)

Estimation of Remaining Useful Life and SOH of Lithium Ion Batteries (For EV Vehicles) ( http://arxiv.org/abs/2305.10298v1 )

ライセンス: Link先を確認
Ganesh Kumar(参考訳) リチウムイオン電池は携帯用電子機器、電気自動車、再生可能エネルギー貯蔵システムなど様々な用途で広く使われている。 これらの電池の残存寿命を正確に推定することは、その最適性能の確保、予期せぬ故障の防止、メンテナンスコストの削減に不可欠である。 本稿では,データ駆動方式,物理モデル,ハイブリッド手法など,リチウムイオン電池の残存寿命を推定するための既存手法の包括的レビューを行う。 また,リチウムイオン電池の有効寿命を正確に予測するための機械学習技術に基づく新しい手法を提案する。 提案手法では,電圧,電流,温度などの様々なバッテリ性能パラメータを用いて,バッテリの有効寿命を正確に推定する予測モデルをトレーニングする。 リチウムイオン電池サイクルのデータセットに対するアプローチの有効性を評価し,他の最先端手法と比較した。 その結果, リチウムイオン電池の有効寿命を正確に推定する手法の有効性が示された。

Lithium-ion batteries are widely used in various applications, including portable electronic devices, electric vehicles, and renewable energy storage systems. Accurately estimating the remaining useful life of these batteries is crucial for ensuring their optimal performance, preventing unexpected failures, and reducing maintenance costs. In this paper, we present a comprehensive review of the existing approaches for estimating the remaining useful life of lithium-ion batteries, including data-driven methods, physics-based models, and hybrid approaches. We also propose a novel approach based on machine learning techniques for accurately predicting the remaining useful life of lithium-ion batteries. Our approach utilizes various battery performance parameters, including voltage, current, and temperature, to train a predictive model that can accurately estimate the remaining useful life of the battery. We evaluate the performance of our approach on a dataset of lithium-ion battery cycles and compare it with other state-of-the-art methods. The results demonstrate the effectiveness of our proposed approach in accurately estimating the remaining useful life of lithium-ion batteries.
翻訳日:2023-05-18 15:11:50 公開日:2023-05-17
# DualFL: 汎用凸レジームにおける通信加速度を用いた双対学習アルゴリズム

DualFL: A Duality-based Federated Learning Algorithm with Communication Acceleration in the General Convex Regime ( http://arxiv.org/abs/2305.10294v1 )

ライセンス: Link先を確認
Jongho Park and Jinchao Xu(参考訳) 本論文では,分散最適化問題を解くために,dualfl(dualized federated learning)と呼ばれる新しい学習アルゴリズムを提案する。 このアプローチは、連合学習問題の特定の二重定式化に基づいている。 DualFLは、問題の滑らかさと強い凸性について様々な設定で通信促進を実現する。 さらに、不正確な局所解法の使用を理論的に保証し、不正確な局所解であっても最適な通信複雑性を保っている。 DualFLは、コスト関数が非滑らかか非強凸であっても、通信加速を達成する最初のフェデレーション学習アルゴリズムである。 数値計算により、dualflの実用性能は最先端のフェデレーション学習アルゴリズムに匹敵するものであることが示され、ハイパーパラメータチューニングに関して堅牢である。

We propose a novel training algorithm called DualFL (Dualized Federated Learning), for solving a distributed optimization problem in federated learning. Our approach is based on a specific dual formulation of the federated learning problem. DualFL achieves communication acceleration under various settings on smoothness and strong convexity of the problem. Moreover, it theoretically guarantees the use of inexact local solvers, preserving its optimal communication complexity even with inexact local solutions. DualFL is the first federated learning algorithm that achieves communication acceleration, even when the cost function is either nonsmooth or non-strongly convex. Numerical results demonstrate that the practical performance of DualFL is comparable to those of state-of-the-art federated learning algorithms, and it is robust with respect to hyperparameter tuning.
翻訳日:2023-05-18 15:11:33 公開日:2023-05-17
# 無限クラスミックスアップ

Infinite Class Mixup ( http://arxiv.org/abs/2305.10293v1 )

ライセンス: Link先を確認
Thomas Mensink, Pascal Mettes(参考訳) mixupはディープネットワークのトレーニングに広く採用されている戦略であり、入力とトレーニングペアのラベルを補間することで追加のサンプルを追加する。 mixupは分類性能、ネットワークキャリブレーション、分散一般化を改善している。 効果的ではあるが、ネットワークがクラス間の線形動作パターンを学習するミックスアップの基盤は、出力補間が確率レベルで行われるため、間接的にのみ強制される。 本稿では,各混合ペアのラベルを混合するのではなく,分類器を直接混合することで,この制限に対処する。 本稿では,各拡張サンプルのターゲットを,入力ペアの分類器ベクトルの線形補間をパラメータとする,一意に新しい分類器として定義する。 すべての可能な分類器の空間は連続であり、分類器対の間のすべての補間にまたがる。 そこで我々は、混合対の分類器と、他の混合対の予測出力の両方をバッチで比較する、二重競合無限クラス混合損失を提案する。 Infinite Class Mixupは本質的に汎用的で、Mixupの多くの変種に適用できる。 実験的な結果から,RegMixupやRemixなどの標準ミックスアップや,バランスの取れた,長い尾の長い,データ制約のあるベンチマークにおいて,その適用性を強調した。

Mixup is a widely adopted strategy for training deep networks, where additional samples are augmented by interpolating inputs and labels of training pairs. Mixup has shown to improve classification performance, network calibration, and out-of-distribution generalisation. While effective, a cornerstone of Mixup, namely that networks learn linear behaviour patterns between classes, is only indirectly enforced since the output interpolation is performed at the probability level. This paper seeks to address this limitation by mixing the classifiers directly instead of mixing the labels for each mixed pair. We propose to define the target of each augmented sample as a uniquely new classifier, whose parameters are a linear interpolation of the classifier vectors of the input pair. The space of all possible classifiers is continuous and spans all interpolations between classifier pairs. To make optimisation tractable, we propose a dual-contrastive Infinite Class Mixup loss, where we contrast the classifier of a mixed pair to both the classifiers and the predicted outputs of other mixed pairs in a batch. Infinite Class Mixup is generic in nature and applies to many variants of Mixup. Empirically, we show that it outperforms standard Mixup and variants such as RegMixup and Remix on balanced, long-tailed, and data-constrained benchmarks, highlighting its broad applicability.
翻訳日:2023-05-18 15:11:18 公開日:2023-05-17
# Knapsack制約下での非単調部分モジュラ最大化に対する線形クエリ近似アルゴリズム

Linear Query Approximation Algorithms for Non-monotone Submodular Maximization under Knapsack Constraint ( http://arxiv.org/abs/2305.10292v1 )

ライセンス: Link先を確認
Canh V. Pham, Tan D. Tran, Dung T.K. Ha, My T. Thai(参考訳) この研究は、初めて2つの定数因子近似アルゴリズムを導入し、非単調部分モジュラー最大化に対する線形クエリの複雑さを、クナップサック制約に従えば$n$、$\mathsf{dla}$および$\mathsf{rla}$という基底集合に対して導入した。 $\mathsf{DLA}$は6+\epsilon$の近似係数を提供する決定論的アルゴリズムであり、$\mathsf{RLA}$は4+\epsilon$の近似係数を持つランダム化アルゴリズムである。 どちらも$O(n \log(1/\epsilon)/\epsilon)$クエリの複雑さで実行される。 1) 基底集合を2つの適切な部分集合に分割することで、これらの部分集合上の最適に近い解を線形なクエリで見つけること、(2) しきい値のグリーディと2つの不一致集合の性質を組み合わせること、または解の品質を改善するためにランダムな選択プロセスである。 理論的解析に加えて,提案手法を収益最大化,画像要約,最大重み付きカットの3つのアプリケーションを用いて評価し,我々のアルゴリズムが比較結果を最先端のアルゴリズムに返却するだけでなく,クエリを著しく少なくすることを示した。

This work, for the first time, introduces two constant factor approximation algorithms with linear query complexity for non-monotone submodular maximization over a ground set of size $n$ subject to a knapsack constraint, $\mathsf{DLA}$ and $\mathsf{RLA}$. $\mathsf{DLA}$ is a deterministic algorithm that provides an approximation factor of $6+\epsilon$ while $\mathsf{RLA}$ is a randomized algorithm with an approximation factor of $4+\epsilon$. Both run in $O(n \log(1/\epsilon)/\epsilon)$ query complexity. The key idea to obtain a constant approximation ratio with linear query lies in: (1) dividing the ground set into two appropriate subsets to find the near-optimal solution over these subsets with linear queries, and (2) combining a threshold greedy with properties of two disjoint sets or a random selection process to improve solution quality. In addition to the theoretical analysis, we have evaluated our proposed solutions with three applications: Revenue Maximization, Image Summarization, and Maximum Weighted Cut, showing that our algorithms not only return comparative results to state-of-the-art algorithms but also require significantly fewer queries.
翻訳日:2023-05-18 15:10:56 公開日:2023-05-17
# あらゆる概念を説明する: セグメンテーションは概念に基づく説明を満たす

Explain Any Concept: Segment Anything Meets Concept-Based Explanation ( http://arxiv.org/abs/2305.10289v1 )

ライセンス: Link先を確認
Ao Sun, Pingchuan Ma, Yuanyuan Yuan, Shuai Wang(参考訳) 説明可能なAI(XAI)は、ブラックボックスの内部からディープニューラルネットワーク(DNN)の人間の理解を改善するために不可欠なトピックである。 コンピュータビジョンタスクでは、メインストリームのピクセルベースのXAIメソッドが重要なピクセルを特定してDNNの決定を説明し、新しいコンセプトベースのXAIは概念(例えば画像のヘッド)で説明を形成する。 しかしながら、ピクセルは一般にxai法のインプレシションに対する解釈や敏感さが難しいが、以前の作品の「概念」は人間の注釈を必要とするか、あるいは事前に定義された概念セットに限定されている。 一方で、大規模な事前トレーニングによって、segment anything model(sam)は、所定のイメージから概念セットの自動作成を可能にする、正確で包括的なインスタンスセグメンテーションを実行するための強力で予測可能なフレームワークとして実証されている。 本稿では、SAMを用いたコンセプトベースXAIの強化を初めて検討する。 提案手法は, 有効かつ柔軟な概念に基づく説明手法である Explain Any Concept (EAC) を提供し, 任意の概念でDNNの決定を説明する。 SAMは非常に効果的で、"out-of-the-box"インスタンスセグメンテーションを提供するが、デファクトのXAIパイプラインに統合されるとコストがかかる。 そこで我々は,Surrogateモデルによる効率的な説明を可能にする軽量なPIE方式を提案する。 画像NetとCOCOの2つの一般的なデータセットに対する評価は、一般的に使用されるXAI手法よりも、ERCの高度に促進された性能を示している。

EXplainable AI (XAI) is an essential topic to improve human understanding of deep neural networks (DNNs) given their black-box internals. For computer vision tasks, mainstream pixel-based XAI methods explain DNN decisions by identifying important pixels, and emerging concept-based XAI explore forming explanations with concepts (e.g., a head in an image). However, pixels are generally hard to interpret and sensitive to the imprecision of XAI methods, whereas "concepts" in prior works require human annotation or are limited to pre-defined concept sets. On the other hand, driven by large-scale pre-training, Segment Anything Model (SAM) has been demonstrated as a powerful and promotable framework for performing precise and comprehensive instance segmentation, enabling automatic preparation of concept sets from a given image. This paper for the first time explores using SAM to augment concept-based XAI. We offer an effective and flexible concept-based explanation method, namely Explain Any Concept (EAC), which explains DNN decisions with any concept. While SAM is highly effective and offers an "out-of-the-box" instance segmentation, it is costly when being integrated into defacto XAI pipelines. We thus propose a lightweight per-input equivalent (PIE) scheme, enabling efficient explanation with a surrogate model. Our evaluation over two popular datasets (ImageNet and COCO) illustrate the highly encouraging performance of EAC over commonly-used XAI methods.
翻訳日:2023-05-18 15:10:32 公開日:2023-05-17
# 監視された非断熱およびコヒーレント制御量子ユニタリ熱エンジン:最初の4つの累積

Monitored non-adiabatic and coherent-controlled quantum unital Otto heat engines: First four cumulants ( http://arxiv.org/abs/2305.10285v1 )

ライセンス: Link先を確認
Abdelkader El Makouri, Abdallah Slaoui and Rachid Ahl Laamara(参考訳) 近年, 量子熱力学の分野において, 測定に基づく量子熱機械が注目されている。 しかし、以前の量子オットー熱エンジンの結果は、浴場の特別な単位チャネルと非単位チャネルに制限されたり、ワークストロークの特定の駆動プロトコルに制限されたり、サイクルが時間反転対称(例えば$V^{\dagger}=U$(または$V=U$)であると仮定されたりした。 本稿では,1つのスピン1/2量子オットー熱エンジンについて検討し,まず熱浴の1つを任意のユニタリチャネルに置き換え,次に熱と仕事の累積成分が出現する特性関数の正確な解析式を与える。 モニタリングの影響下では、$\nu_{2}>\nu_{1}$ は対称または非対称駆動のオットーサイクルにおいて、正の作業に必要な条件であることが証明される。 我々はこれを、射影測定の負の役割に遡る。 任意のユニタリマップを考えると、効率と抽出作業が向上することがわかった。 そして、このシステムが冷蔵庫として動かないことを証明する。 これは熱力学の第2法則によって禁止されている。 さらに, 平均値を超えると, 熱機関として働く場合, 作業と熱の変動の割合が低く, 上向きになることを示す。 しかし,本研究の文献では,前回の結果と異なり,スキューネスとクルトシスも検討・分析した。 以上の結果から,アディバティック・レシエーションにおいては,スキューネスは任意であり,カルトーシスは-2。 最後に, 熱浴の役割を担う特定のユニタリマップを協調的に重畳した方法で適用することを検討するとともに, 制御キュービットの初期コヒーレンスが作業の効率および最初の4つの累積量に与える影響を示す。 非断熱的な体制では...

Recently, measurement-based quantum thermal machines draw more attention in the field of quantum thermodynamics. However, the previous results on quantum Otto heat engines were either limited to special unital and non-unital channels in the bath stages, or a specific driving protocol at the work strokes and assuming the cycle being time-reversal symmetric i.e. $V^{\dagger}=U$ (or $V=U$). In this paper, we consider a single spin-1/2 quantum Otto heat engine, by first replacing one of the heat baths by an arbitrary unital channel and then we give the exact analytical expression of the characteristic function from which all the cumulants of heat and work emerge. We prove that under the effect of monitoring, $\nu_{2}>\nu_{1}$ is a necessary condition for positive work, either for a symmetric or asymmetric-driven Otto cycle. We trace this back to the negative role of projective measurement. We found that considering an arbitrary unital map would enhance the efficiency and the extracted work. Then we prove the system can never work as a refrigerator. This is forbidden by the second law of thermodynamics. Furthermore, going beyond the average we show that the ratio of the fluctuations of work and heat is lower and upper-bounded when the system is working as a heat engine. However, differently from the previous results in the literature we consider and analyze, skewness and kurtosis as well. We show that in the adiabatic regime, the skewness can be arbitrary and that kurtosis can not be below -2. Finally, we consider applying a specific unital map that plays the role of a heat bath in a coherently superposed manner and we show the role of the initial coherence of the control qubit on efficiency and the first four cumulants of work. In the non-adiabatic regime,...
翻訳日:2023-05-18 15:10:05 公開日:2023-05-17
# よりロバストなNLPシステム評価に向けて - ベンチマークにおけるミススコア処理

Towards More Robust NLP System Evaluation: Handling Missing Scores in Benchmarks ( http://arxiv.org/abs/2305.10284v1 )

ライセンス: Link先を確認
Anas Himmi and Ekhine Irurozki and Nathan Noiry and Stephan Clemencon and Pierre Colombo(参考訳) 自然言語処理(NLP)システムの評価は分野の進展に不可欠であるが、現在のベンチマーク手法では、全てのシステムが全てのタスクに利用可能なスコアを持っていると仮定することが多い。 実際、ベースラインの実行コスト、プライベートシステム、計算制限、不完全なデータといったいくつかの要因は、タスク全体においてシステムの評価を妨げうる。 本稿では,NLP研究における既存の問題として,タスク中にシステムスコアが欠落している場合のベンチマークを定式化し,それに対応する新しいアプローチを提案する。 提案手法は互換性のある部分ランク付け手法を用いて欠落データをインプットし,ボルダカウント法を用いて集計する。 タスクレベルまたはインスタンスレベルのスコアが利用可能なシナリオ用に特別に設計された2つの改善が含まれている。 また、既存のベンチマークよりも桁違いに大きい1億3100万以上のスコアを含む拡張ベンチマークも導入しています。 提案手法を検証し,タスク全体におけるシステム評価の欠如という課題に対処し,その効果を実証する。 この作業は、タスク全体においてすべてのシステムが評価されるわけではない実世界のシナリオを処理できる、より包括的なベンチマークアプローチの必要性を強調します。

The evaluation of natural language processing (NLP) systems is crucial for advancing the field, but current benchmarking approaches often assume that all systems have scores available for all tasks, which is not always practical. In reality, several factors such as the cost of running baseline, private systems, computational limitations, or incomplete data may prevent some systems from being evaluated on entire tasks. This paper formalize an existing problem in NLP research: benchmarking when some systems scores are missing on the task, and proposes a novel approach to address it. Our method utilizes a compatible partial ranking approach to impute missing data, which is then aggregated using the Borda count method. It includes two refinements designed specifically for scenarios where either task-level or instance-level scores are available. We also introduce an extended benchmark, which contains over 131 million scores, an order of magnitude larger than existing benchmarks. We validate our methods and demonstrate their effectiveness in addressing the challenge of missing system evaluation on an entire task. This work highlights the need for more comprehensive benchmarking approaches that can handle real-world scenarios where not all systems are evaluated on the entire task.
翻訳日:2023-05-18 15:09:32 公開日:2023-05-17
# Reward-Agnostic Fine-tuning: ハイブリッド強化学習の統計的有用性

Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid Reinforcement Learning ( http://arxiv.org/abs/2305.10282v1 )

ライセンス: Link先を確認
Gen Li, Wenhao Zhan, Jason D. Lee, Yuejie Chi, Yuxin Chen(参考訳) 本稿では,オフラインデータセットと未知環境とのオンラインインタラクションの両方へのアクセスを前提としたハイブリッド環境における表型強化学習(rl)について述べる。 中心となる質問は、オフラインデータセットを強化し補完し、効果的なポリシーの微調整を可能にするために、オンラインデータ収集を効率的に利用する方法についてである。 報酬に依存しない探索とモデルベースのオフラインRLの最近の進歩を活用して、サンプルの複雑さの観点から、両方の世界の最高の – 純粋なオフラインRLと純粋なオンラインRL – を打ち負かす3段階のハイブリッドRLアルゴリズムを設計します。 提案アルゴリズムは,データ収集時に報酬情報を必要としない。 この理論は、分散ミスマッチと誤発見のトレードオフを捉え、オフラインとオンラインデータ間の相互作用を導く、単一政治部分集中という新しい概念に基づいて開発されている。

This paper studies tabular reinforcement learning (RL) in the hybrid setting, which assumes access to both an offline dataset and online interactions with the unknown environment. A central question boils down to how to efficiently utilize online data collection to strengthen and complement the offline dataset and enable effective policy fine-tuning. Leveraging recent advances in reward-agnostic exploration and model-based offline RL, we design a three-stage hybrid RL algorithm that beats the best of both worlds -- pure offline RL and pure online RL -- in terms of sample complexities. The proposed algorithm does not require any reward information during data collection. Our theory is developed based on a new notion called single-policy partial concentrability, which captures the trade-off between distribution mismatch and miscoverage and guides the interplay between offline and online data.
翻訳日:2023-05-18 15:09:12 公開日:2023-05-17
# 大規模言語モデルを用いた表現型TSの話し方制御

Using a Large Language Model to Control Speaking Style for Expressive TTS ( http://arxiv.org/abs/2305.10321v1 )

ライセンス: Link先を確認
Atli Thor Sigurgeirsson, Simon King(参考訳) 音声コミュニケーションの成功には適切な韻律が不可欠である。 文脈単語の埋め込みは韻律を予測するのに有用であることが証明されているが、もっともらしい韻律の相互選択はできない。 参照に基づくttsモデルは、参照音声サンプル上の条件付き音声生成によってこの問題に対処しようとする。 これらのモデルは表現型音声を生成することができるが、適切な参照を見つける必要がある。 十分大規模な生成言語モデルが様々な言語関連タスクの解決に使われてきた。 このようなモデルを用いて, 表現型TSの適切な韻律を提案できるかどうかを検討する。 非表現的コーパス上でTSモデルをトレーニングし、その後、ピッチ、エネルギー、持続時間の変化を言語モデルに提案する。 プロンプトは任意のタスク用に設計でき、ターゲットの発話スタイルと対話コンテキストに基づいてモデルに提案するように促します。 提案手法はベースラインモデルの31.0\%に対して49.9\%の場合に最も適している。

Appropriate prosody is critical for successful spoken communication. Contextual word embeddings are proven to be helpful in predicting prosody but do not allow for choosing between plausible prosodic renditions. Reference-based TTS models attempt to address this by conditioning speech generation on a reference speech sample. These models can generate expressive speech but this requires finding an appropriate reference. Sufficiently large generative language models have been used to solve various language-related tasks. We explore whether such models can be used to suggest appropriate prosody for expressive TTS. We train a TTS model on a non-expressive corpus and then prompt the language model to suggest changes to pitch, energy and duration. The prompt can be designed for any task and we prompt the model to make suggestions based on target speaking style and dialogue context. The proposed method is rated most appropriate in 49.9\% of cases compared to 31.0\% for a baseline model.
翻訳日:2023-05-18 15:04:33 公開日:2023-05-17
# マルチビューステレオにおけるコストアグリゲーションのためのコストフォーマ:コストトランスフォーマ

CostFormer:Cost Transformer for Cost Aggregation in Multi-view Stereo ( http://arxiv.org/abs/2305.10320v1 )

ライセンス: Link先を確認
Weitao Chen, Hongbin Xu, Zhipeng Zhou, Yang Liu, Baigui Sun, Wenxiong Kang, Xuansong Xie(参考訳) Multi-view Stereo(MVS)のコアは、参照ピクセルとソースピクセルのマッチングプロセスである。 コストアグリゲーションはこのプロセスで重要な役割を果たすが、以前の手法ではcnnで処理することに集中している。 これはCNNの自然な制限を継承し、限定された局所受容場のために反復的または誤マッチを識別できない。 この問題に対処するため、我々はtransformerをコスト集約に巻き込むことを目指している。 しかし、トランスフォーマーに起因する二次的な計算複雑性が増大し、メモリオーバーフローと推論遅延が発生するため、別の問題が発生する可能性がある。 本稿では,これらの制限を,効率的なTransformerベースのコスト集約ネットワーク,すなわちCostFormerで克服する。 奥行き・空間次元に沿った自己認識機構を用いて, コスト容積の長期的特徴を集約するために, RDACT(Residual Depth-Aware Cost Transformer)を提案する。 さらに,空間的注意力を高めるためにResidual Regression Transformer(RRT)を提案する。 提案手法は学習に基づくMVS法を改善する汎用的なプラグインである。

The core of Multi-view Stereo(MVS) is the matching process among reference and source pixels. Cost aggregation plays a significant role in this process, while previous methods focus on handling it via CNNs. This may inherit the natural limitation of CNNs that fail to discriminate repetitive or incorrect matches due to limited local receptive fields. To handle the issue, we aim to involve Transformer into cost aggregation. However, another problem may occur due to the quadratically growing computational complexity caused by Transformer, resulting in memory overflow and inference latency. In this paper, we overcome these limits with an efficient Transformer-based cost aggregation network, namely CostFormer. The Residual Depth-Aware Cost Transformer(RDACT) is proposed to aggregate long-range features on cost volume via self-attention mechanisms along the depth and spatial dimensions. Furthermore, Residual Regression Transformer(RRT) is proposed to enhance spatial attention. The proposed method is a universal plug-in to improve learning-based MVS methods.
翻訳日:2023-05-18 15:04:09 公開日:2023-05-17
# 畳み込みニューラルネットワークを用いた自動光配向検出

Automatic Photo Orientation Detection with Convolutional Neural Networks ( http://arxiv.org/abs/2305.10319v1 )

ライセンス: Link先を確認
Michael Guerzhoy, Ujash Joshi(参考訳) 畳み込みニューラルネットワーク(cnn)を,消費者写真の正しい方向(0,90,180,270度)を決定する文脈における像方位検出問題に適用する。 この問題は特にアナログ写真のデジタル化に重要である。 我々は、標準データセットの1つのパフォーマンスの観点から、公開技術の公開状況を大幅に改善し、より難しい消費者写真の大規模データセットでシステムをテストします。 我々はガイドバックプロパゲーションを用いて、CNNが写真方向を検出する方法の洞察を得、その誤りを説明する。

We apply convolutional neural networks (CNN) to the problem of image orientation detection in the context of determining the correct orientation (from 0, 90, 180, and 270 degrees) of a consumer photo. The problem is especially important for digitazing analog photographs. We substantially improve on the published state of the art in terms of the performance on one of the standard datasets, and test our system on a more difficult large dataset of consumer photos. We use Guided Backpropagation to obtain insights into how our CNN detects photo orientation, and to explain its mistakes.
翻訳日:2023-05-18 15:03:45 公開日:2023-05-17
# LeTI: テキストインタラクションから生成する学習

LeTI: Learning to Generate from Textual Interactions ( http://arxiv.org/abs/2305.10314v1 )

ライセンス: Link先を確認
Xingyao Wang, Hao Peng, Reyhaneh Jabbarvand, Heng Ji(参考訳) 訓練済み言語モデル(LM)の微調整により、モデルの能力が向上する。 先行技術は、入力出力ペア(例えば、命令の微調整)で事前訓練されたLMを微調整するか、あるいは出力の品質(例えば、人間のフィードバックからの強化学習)を測定する数値的な報酬を持つ。 本稿では,テキストインタラクション(LeTI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックによって出力中のエラーをピンポイントし,説明する。 私たちの調査は、モデルが自然言語命令に応答してコードピースを生成するコード生成タスクに焦点を当てています。 この設定では、Pythonインタプリタを使用したコード実行からエラーメッセージとスタックトレースという、テキストフィードバックを取得する自然なスケーラブルな方法が紹介されている。 LeTIは、LMの目的を用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいてモデルを反復的に微調整する。 この微調整テキストに先立って、バイナリ報酬トークンを使用して、正しいソリューションとバギーソリューションを区別する。 コード生成データセットMBPPでは、LeTIは異なるスケールの2つのベースLMの性能を大幅に改善する。 LeTIは、トレーニングに地味な出力は必要とせず、微調整されたベースラインよりも優れています。 LeTIの強力なパフォーマンスは他のデータセットに一般化される。 MBPPで訓練され、HumanEvalの見当たらない問題に対して、基本のLMと同等または優れた性能を達成する。 さらに,バイナリフィードバックと比較して,テキストフィードバックが生成品質の向上とサンプル効率の向上につながり,グラデーションステップの半分以下で同じ性能を達成することを観察した。 LeTIは、イベント引数抽出で実証的に検証したコード生成として定式化できる自然言語タスクにも等しく適用可能である。

Finetuning pre-trained language models (LMs) enhances the models' capabilities. Prior techniques fine-tune a pre-trained LM on input-output pairs (e.g., instruction fine-tuning), or with numerical rewards that gauge the quality of its outputs (e.g., reinforcement learning from human feedback). We explore LMs' potential to learn from textual interactions (LeTI) that not only check their correctness with binary labels, but also pinpoint and explain errors in their outputs through textual feedback. Our investigation focuses on the code generation task, where the model produces code pieces in response to natural language instructions. This setting invites a natural and scalable way to acquire the textual feedback: the error messages and stack traces from code execution using a Python interpreter. LeTI iteratively fine-tunes the model, using the LM objective, on a concatenation of natural language instructions, LM-generated programs, and textual feedback, which is only provided when the generated program fails to solve the task. Prepended to this fine-tuning text, a binary reward token is used to differentiate correct and buggy solutions. On MBPP, a code generation dataset, LeTI substantially improves the performance of two base LMs of different scales. LeTI requires no ground-truth outputs for training and even outperforms a fine-tuned baseline that does. LeTI's strong performance generalizes to other datasets. Trained on MBPP, it achieves comparable or better performance than the base LMs on unseen problems in HumanEval. Furthermore, compared to binary feedback, we observe that textual feedback leads to improved generation quality and sample efficiency, achieving the same performance with fewer than half of the gradient steps. LeTI is equally applicable in natural language tasks when they can be formulated as code generation, which we empirically verified on event argument extraction.
翻訳日:2023-05-18 15:03:28 公開日:2023-05-17
# Raphanus sativus と Avena sativa の30 km h$^{-1}$ における画像に基づく落葉雑草検出性能の調査

Investigating image-based fallow weed detection performance on Raphanus sativus and Avena sativa at speeds up to 30 km h$^{-1}$ ( http://arxiv.org/abs/2305.10311v1 )

ライセンス: Link先を確認
Guy R. Y. Coleman, Angus Macintyre, Michael J. Walsh, William T. Salter(参考訳) sswc(site-specific weed control)は、除草コストと除草剤の使用量を大幅に削減することができる。 sswcシステムにおける機械ビジョンの約束と雑草防除効果における地上速度の重要性にもかかわらず、雑草検出性能における地上速度とカメラ特性の役割についてはほとんど調査されていない。 ここでは,オープンソースのOpenWeedLocatorプラットフォームを用いた4つのカメラ/ソフトウェアの組み合わせのパフォーマンスを比較する。(1)Raspberry Pi HQカメラのデフォルト設定,(2)HQカメラのソフトウェア設定の最適化,(3)Raspberry Pi v2カメラのソフトウェア設定の最適化,(4)グローバルシャッターArducam AR0234カメラ - 5 km h$^{-1}$から30 km h$^{-1}$のスピードで比較する。 葉緑植物 (Raphanus sativus) と飼料用オオギ (Avena sativa) を代表的な広葉樹および草雑草として用いて, 葉緑植物 (ExG) と葉緑植物 (Saturation, Value, HSV) の併用試験を行った。 ARDはカメラシステムの中で最も高いリコールを示し、95.7%の雑草は5 km h$^{-1}$で、85.7%は30 km h$^{-1}$で検出された。 HQ1とV2カメラのリコール率は31.1%と26.0%でそれぞれ30 km h$^{-1}$であった。 全てのカメラは速度が上がるにつれてリコールが減った。 hq1では,1.12%,1kmh$^{-1}ごとに0.90%の速度低下が観察された。 p<0.05) は, 全カメラの広葉樹のダイコンより有意に低かった。 リコールのバリエーションにもかかわらず、HQ1、HQ2、V2はテストされた全ての速度でほぼ完全な精度を維持した。 草と広葉樹雑草の検出性能に対する地上速度とカメラシステムの可変効果は,sswcシステムの開発において注意深いハードウェアとソフトウェアを考慮しなければならないことを示している。

Site-specific weed control (SSWC) can provide considerable reductions in weed control costs and herbicide usage. Despite the promise of machine vision for SSWC systems and the importance of ground speed in weed control efficacy, there has been little investigation of the role of ground speed and camera characteristics on weed detection performance. Here, we compare the performance of four camera-software combinations using the open-source OpenWeedLocator platform - (1) default settings on a Raspberry Pi HQ camera, (2) optimised software settings on a HQ camera, (3) optimised software settings on the Raspberry Pi v2 camera, and (4) a global shutter Arducam AR0234 camera - at speeds ranging from 5 km h$^{-1}$ to 30 km h$^{-1}$. A combined excess green (ExG) and hue, saturation, value (HSV) thresholding algorithm was used for testing under fallow conditions using tillage radish (Raphanus sativus) and forage oats (Avena sativa) as representative broadleaf and grass weeds, respectively. ARD demonstrated the highest recall among camera systems, with up to 95.7% of weeds detected at 5 km h$^{-1}$ and 85.7% at 30 km h$^{-1}$. HQ1 and V2 cameras had the lowest recall of 31.1% and 26.0% at 30 km h$^{-1}$, respectively. All cameras experienced a decrease in recall as speed increased. The highest rate of decrease was observed for HQ1 with 1.12% and 0.90% reductions in recall for every km h$^{-1}$ increase in speed for tillage radish and forage oats, respectively. Detection of the grassy forage oats was worse (P<0.05) than the broadleaved tillage radish for all cameras. Despite the variations in recall, HQ1, HQ2, and V2 maintained near-perfect precision at all tested speeds. The variable effect of ground speed and camera system on detection performance of grass and broadleaf weeds, indicates that careful hardware and software considerations must be made when developing SSWC systems.
翻訳日:2023-05-18 15:02:46 公開日:2023-05-17
# QRAM: 調査と批判

QRAM: A Survey and Critique ( http://arxiv.org/abs/2305.10310v1 )

ライセンス: Link先を確認
Samuel Jaques, Arthur G. Rattew(参考訳) 量子ランダムアクセスメモリ(英: quantum random-access memory、qram)は、量子状態であるアドレスに基づいてデータ(量子または古典)にアクセスする機構である。 qramには長く物議を醸している歴史があり、ここで議論と構造を調査、拡張します。 各QRAMクエリに対して外部介入と制御を必要とするアクティブ(例えば、誤り訂正回路モデル)と、クエリ開始時に外部入力やエネルギを必要としないパッシブ(受動的)の2つの主要なカテゴリを使用する。 多くのアプリケーションでは、qram(あるいはqubits自体)内のqubitsの制御ハードウェアを再利用して、非常に並列な古典的なアルゴリズムを実行し、同じ結果を達成することができます。 これらの制約を逃れるためには、受動的メモリを用いた弾道計算が必要である。 これらの詳細を考慮すると、すべての非循環QRAM提案は、いずれかの面で不足しています。 我々はこれらの議論を量子線型代数に詳細に適用し、ほとんどの漸近的量子優位がQRAMシステムによって消失することを証明する。 要約すると、私たちが強調する基本的な制限のため、安価で漸近的にスケーラブルなQRAMは既存の提案では不可能である。 われわれの結果は、これらの制限を回避または緩和しようとするQRAM技術の研究をガイドする助けになることを期待している。 最後に、回路ベースのQRAMは依然として多くのアプリケーションに役立つため、QRAMを用いたアルゴリズム設計者のためのリソースとして最先端技術の調査も行う。

Quantum random-access memory (QRAM) is a mechanism to access data (quantum or classical) based on addresses which are themselves a quantum state. QRAM has a long and controversial history, and here we survey and expand arguments and constructions for and against. We use two primary categories of QRAM from the literature: (1) active, which requires external intervention and control for each QRAM query (e.g. the error-corrected circuit model), and (2) passive, which requires no external input or energy once the query is initiated. In the active model, there is a powerful opportunity cost argument: in many applications, one could repurpose the control hardware for the qubits in the QRAM (or the qubits themselves) to run an extremely parallel classical algorithm to achieve the same results just as fast. Escaping these constraints requires ballistic computation with passive memory, which creates an array of dubious physical assumptions, which we examine in detail. Considering these details, in everything we could find, all non-circuit QRAM proposals fall short in one aspect or another. We apply these arguments in detail to quantum linear algebra and prove that most asymptotic quantum advantage disappears with active QRAM systems, with some nuance related to the architectural assumptions. In summary, we conclude that cheap, asymptotically scalable passive QRAM is unlikely with existing proposals, due to fundamental limitations that we highlight. We hope that our results will help guide research into QRAM technologies that attempt to circumvent or mitigate these limitations. Finally, circuit-based QRAM still helps in many applications, and so we additionally provide a survey of state-of-the-art techniques as a resource for algorithm designers using QRAM.
翻訳日:2023-05-18 15:01:49 公開日:2023-05-17
# メタモミュレーション:少ないタスクによるFew-Shot学習のための変分特徴階層学習

MetaModulation: Learning Variational Feature Hierarchies for Few-Shot Learning with Fewer Tasks ( http://arxiv.org/abs/2305.10309v1 )

ライセンス: Link先を確認
Wenfang Sun, Yingjun Du, Xiantong Zhen, Fan Wang, Ling Wang, Cees G.M. Snoek(参考訳) メタ学習アルゴリズムは、以前に学習した知識を使って新しいタスクを学習することができるが、容易には利用できない大量のメタ学習タスクを必要とすることが多い。 この問題に対処するために,我々はメタモジュレーションと呼ぶ少ないタスクで,数発学習する手法を提案する。 キーとなるアイデアは、ニューラルネットワークを使用して、メタトレーニング中のバッチ正規化パラメータを変調することで、メタトレーニングタスクの密度を高めることだ。 さらに、タスクの多様性を高めるために、単一の層ではなく、さまざまなネットワークレベルでパラメータを変更します。 限られた訓練作業によって生じる不確実性を考慮するため,変調パラメータを潜時変数として扱う変分メタ変調を提案する。 また,全ての階層における特徴を変調し,タスクの不確実性を考慮し,より多様なタスクを生成する変分メタ変調による学習的特徴階層も導入する。 アブレーション研究は、異なるレベルで学習可能なタスク変調を利用することの利点を示し、少数タスクメタラーニングにおける確率的変種の導入の利点を示す。 私たちのMetaModulationとその変分変異は、4つの数タスクメタラーニングベンチマークにおいて、最先端の代替よりも一貫して優れています。

Meta-learning algorithms are able to learn a new task using previously learned knowledge, but they often require a large number of meta-training tasks which may not be readily available. To address this issue, we propose a method for few-shot learning with fewer tasks, which we call MetaModulation. The key idea is to use a neural network to increase the density of the meta-training tasks by modulating batch normalization parameters during meta-training. Additionally, we modify parameters at various network levels, rather than just a single layer, to increase task diversity. To account for the uncertainty caused by the limited training tasks, we propose a variational MetaModulation where the modulation parameters are treated as latent variables. We also introduce learning variational feature hierarchies by the variational MetaModulation, which modulates features at all layers and can consider task uncertainty and generate more diverse tasks. The ablation studies illustrate the advantages of utilizing a learnable task modulation at different levels and demonstrate the benefit of incorporating probabilistic variants in few-task meta-learning. Our MetaModulation and its variational variants consistently outperform state-of-the-art alternatives on four few-task meta-learning benchmarks.
翻訳日:2023-05-18 15:01:19 公開日:2023-05-17
# 深層学習における表データ拡張の再考

Rethinking Data Augmentation for Tabular Data in Deep Learning ( http://arxiv.org/abs/2305.10308v1 )

ライセンス: Link先を確認
Soma Onishi and Shoya Meguro(参考訳) タブラルデータは機械学習(ML)で最も広く使われているデータフォーマットである。 最近の文献では、ツリーベース手法はDLベースの学習法より優れているが、トランスフォーマーベースのモデルを用いた自己教師型学習は、ツリーベース手法より優れていると報告されている。 表データに対する自己教師あり学習に関する既存の文献では,コントラスト学習が主流である。 対照的に、データ拡張は異なるビューを生成するために重要である。 しかし,表データの一意な構造と複雑性のため,表データに対するデータ拡張は困難であった。 さらに、モデル構造、自己教師付き学習方法、データ拡張という3つの要素を既存手法で組み合わせて提案する。 したがって、これらのコンポーネントを包括的に考慮せずにパフォーマンスを比較し、各コンポーネントが実際のパフォーマンスにどのように影響するかは明らかになっていない。 本研究では,これらの課題に対処するために,データ拡張に注目する。 マスクトークンを各トークン列の一部に置き換える新しいデータ拡張法である$\textbf{M}$ask $\textbf{T}$oken $\textbf{R}$eplacement ($\texttt{MTR}$)を提案する。 教師付きおよび自己教師付き学習シナリオにおける13の多様な公開データセットを用いた実験を通じて、$\texttt{mtr}$が既存のデータ拡張手法に対する競合性能を達成し、モデルパフォーマンスを向上させることを示した。 さらに、$\texttt{MTR}$が最も効果的である特定のシナリオについて議論し、アプリケーションのスコープを特定します。 コードはhttps://github.com/somaonishi/MTR/で入手できる。

Tabular data is the most widely used data format in machine learning (ML). While tree-based methods outperform DL-based methods in supervised learning, recent literature reports that self-supervised learning with Transformer-based models outperforms tree-based methods. In the existing literature on self-supervised learning for tabular data, contrastive learning is the predominant method. In contrastive learning, data augmentation is important to generate different views. However, data augmentation for tabular data has been difficult due to the unique structure and high complexity of tabular data. In addition, three main components are proposed together in existing methods: model structure, self-supervised learning methods, and data augmentation. Therefore, previous works have compared the performance without comprehensively considering these components, and it is not clear how each component affects the actual performance. In this study, we focus on data augmentation to address these issues. We propose a novel data augmentation method, $\textbf{M}$ask $\textbf{T}$oken $\textbf{R}$eplacement ($\texttt{MTR}$), which replaces the mask token with a portion of each tokenized column; $\texttt{MTR}$ takes advantage of the properties of Transformer, which is becoming the predominant DL-based architecture for tabular data, to perform data augmentation for each column embedding. Through experiments with 13 diverse public datasets in both supervised and self-supervised learning scenarios, we show that $\texttt{MTR}$ achieves competitive performance against existing data augmentation methods and improves model performance. In addition, we discuss specific scenarios in which $\texttt{MTR}$ is most effective and identify the scope of its application. The code is available at https://github.com/somaonishi/MTR/.
翻訳日:2023-05-18 15:00:59 公開日:2023-05-17
# FACE: クロスエントロピーのフーリエ解析による自然言語生成の評価

FACE: Evaluating Natural Language Generation with Fourier Analysis of Cross-Entropy ( http://arxiv.org/abs/2305.10307v1 )

ライセンス: Link先を確認
Zuhao Yang, Yingfang Yuan, Yang Xu, Shuo Zhan, Huajun Bai, Kefan Chen(参考訳) 機械生成と人間の言語間の距離を測定することは、決定的なオープン問題である。 言語におけるエントロピーの周期性に関する心理言語学からの実証的知見に触発されて,モデル生成言語と人文言語の類似性を測定するために,推定された言語交叉エントロピーのフーリエ解析に基づく一連の指標であるfaceを提案する。 アンオープン化された生成タスクと過去の研究からの実験データに基づいて、FACEは人間のモデルギャップを効果的に識別し、モデル化し、デコードのための異なるサンプリング手法の結果を反映し、他の評価指標と相関し、人間の判断スコアと相関することを示した。 FACEは計算的に効率的で直感的な解釈を提供する。

Measuring the distance between machine-produced and human language is acritical open problem. Inspired by empirical findings from psycholinguistics on theperiodicity of entropy in language, we propose FACE, a set of metrics based onFourier Analysis of the estimated Cross-Entropy of language, for measuring thesimilarity between model-generated and human-written languages. Based on anopen-ended generation task and the experimental data from previous studies, weind that FACE can effectively identify the human-model gap, scales with modelsize, reflects the outcomes of different sampling methods for decoding, correlateswell with other evaluation metrics and with human judgment scores. FACE iscomputationally efficient and provides intuitive interpretations.
翻訳日:2023-05-18 15:00:22 公開日:2023-05-17
# UniEX: Span-Exptractive Perspectiveによる統合情報抽出のための効率的かつ効率的なフレームワーク

UniEX: An Effective and Efficient Framework for Unified Information Extraction via a Span-extractive Perspective ( http://arxiv.org/abs/2305.10306v1 )

ライセンス: Link先を確認
Junyu Lu, Ping Yang, Ruyi Gan, Junjie Wang, Yuxiang Zhang, Jiaxing Zhang, Pingjian Zhang(参考訳) 本稿では,任意のスキーマ形式に準拠し,名前付きエンティティ認識,関係抽出,イベント抽出,感情分析などのieタスクの一覧に適用可能な汎用情報抽出(ie)の新しいパラダイムを提案する。 提案手法は,すべての抽出対象を統一的に統合スパン検出,分類,関連付け問題,すなわちuniexに分解するトークンペア問題として,テキストベースのieタスクを変換する。 UniEXはスキーマベースのプロンプトとテキスト情報を同期的にエンコードし、オートエンコーダ言語モデルを使用して事前定義された情報から一般化された知識を協調的に学習することができる。 我々は,タスク,ラベル,内部トークンを含む異種因子を統合するトラフィン注意機構を開発し,スコアリング行列を用いて抽出対象を抽出する。 実験の結果、uniexは14ドルのベンチマークieデータセットのパフォーマンスと推論速度の点で、ジェネレーティブなユニバーサルieモデルよりも優れていることがわかった。 低リソースシナリオにおける最先端性能は、Unixの転送可能性と有効性も検証する。

We propose a new paradigm for universal information extraction (IE) that is compatible with any schema format and applicable to a list of IE tasks, such as named entity recognition, relation extraction, event extraction and sentiment analysis. Our approach converts the text-based IE tasks as the token-pair problem, which uniformly disassembles all extraction targets into joint span detection, classification and association problems with a unified extractive framework, namely UniEX. UniEX can synchronously encode schema-based prompt and textual information, and collaboratively learn the generalized knowledge from pre-defined information using the auto-encoder language models. We develop a traffine attention mechanism to integrate heterogeneous factors including tasks, labels and inside tokens, and obtain the extraction target via a scoring matrix. Experiment results show that UniEX can outperform generative universal IE models in terms of performance and inference-speed on $14$ benchmarks IE datasets with the supervised setting. The state-of-the-art performance in low-resource scenarios also verifies the transferability and effectiveness of UniEX.
翻訳日:2023-05-18 15:00:09 公開日:2023-05-17
# 相互作用するマヨラナフェルミオンの不規則鎖に対するレジリエント無限ランダム性臨界性

Resilient infinite randomness criticality for a disordered chain of interacting Majorana fermions ( http://arxiv.org/abs/2305.10363v1 )

ライセンス: Link先を確認
Natalia Chepiga, Nicolas Laflorencie(参考訳) 相互作用するフェルミオンの存在下での量子臨界特性は、まだ完全には理解されていない。 ディラックフェルミオンに対しては、相互作用が非相互作用的無限ランダム性固定点(IRFP)とは無関係であることはよく知られているが、マヨラナフェルミオンの場合はよりリッチな乱れのない位相図が示される。 ここでは,DMRGシミュレーションの限界を推し進め,障害と相互作用の両面でマヨナ鎖の基底状態について慎重に検討する。 適切な境界条件と、絡み合い、エネルギーギャップ、相関などの重要な観測値に基づいて、相互作用しないマヨラナIRFPは、以前の主張とは対照的に、有限相互作用に対して非常に安定である。

The quantum critical properties of interacting fermions in the presence of disorder are still not fully understood. While it is well known that for Dirac fermions, interactions are irrelevant to the non-interacting infinite randomness fixed point (IRFP), the problem remains largely open in the case of Majorana fermions which further display a much richer disorder-free phase diagram. Here, pushing the limits of DMRG simulations, we carefully examine the ground-state of a Majorana chain with both disorder and interactions. Building on appropriate boundary conditions and key observables such as entanglement, energy gap, and correlations, we strikingly find that the non-interacting Majorana IRFP is very stable against finite interactions, in contrast with previous claims.
翻訳日:2023-05-18 14:52:49 公開日:2023-05-17
# 非協調ゲームにおける人選予測:シミュレーションに基づくオフポリティ評価

Human Choice Prediction in Non-Cooperative Games: Simulation-based Off-Policy Evaluation ( http://arxiv.org/abs/2305.10361v1 )

ライセンス: Link先を確認
Eilam Shapira, Reut Apel, Moshe Tennenholtz, Roi Reichart(参考訳) 説得ゲームは経済学やAI研究において基本的であり、重要な実践的応用がある。 この分野の最近の研究は、従来のスタイル化されたメッセージ設定を超えて、自然言語を取り入れ始めた。 しかし、これまでの研究では、トレインデータとテストデータが同じ分布を持つオンポリシー予測に重点を置いてきた。 本稿では,言語に基づく説得ゲームにおけるオフ政治評価(OPE)の課題に対処する。 本研究では,本セットアップにおける人間のデータ収集の難しさに対処するため,実データとシミュレーションデータを組み合わせた新しい手法を提案する。 我々のシミュレーションデータは、意思決定者(DM)がランダムな行動と決定論的行動の混合から始まり、時間とともに改善するという、外因性モデルによって生成される。 本稿では,実際のインタラクションとシミュレーションデータを効果的に統合し,インタラクションデータのみをトレーニングするモデルよりも大幅に改善するディープラーニングトレーニングアルゴリズムを提案する。 本研究は,OPEの高コストかつスケーラブルな解法として,実対話とシミュレーションの混在の可能性を示すものである。 footnote{our code and the large dataset we collect and generated は補足資料として提出され、受理次第公開されます。

Persuasion games have been fundamental in economics and AI research, and have significant practical applications. Recent works in this area have started to incorporate natural language, moving beyond the traditional stylized message setting. However, previous research has focused on on-policy prediction, where the train and test data have the same distribution, which is not representative of real-life scenarios. In this paper, we tackle the challenging problem of off-policy evaluation (OPE) in language-based persuasion games. To address the inherent difficulty of human data collection in this setup, we propose a novel approach which combines real and simulated human-bot interaction data. Our simulated data is created by an exogenous model assuming decision makers (DMs) start with a mixture of random and decision-theoretic based behaviors and improve over time. We present a deep learning training algorithm that effectively integrates real interaction and simulated data, substantially improving over models that train only with interaction data. Our results demonstrate the potential of real interaction and simulation mixtures as a cost-effective and scalable solution for OPE in language-based persuasion games.\footnote{Our code and the large dataset we collected and generated are submitted as supplementary material and will be made publicly available upon acceptance.
翻訳日:2023-05-18 14:52:31 公開日:2023-05-17
# 大規模視覚言語モデルにおける物体幻覚の評価

Evaluating Object Hallucination in Large Vision-Language Models ( http://arxiv.org/abs/2305.10355v1 )

ライセンス: Link先を確認
Yifan Li, Yifan Du, Kun Zhou, Jinpeng Wang, Wayne Xin Zhao and Ji-Rong Wen(参考訳) 大規模言語モデル(LLM)の優れた言語能力に触発されて、大規模視覚言語モデル(LVLM)は、複雑なマルチモーダルタスクの性能向上のために強力なLLMを統合することで近年研究されている。 lvlmsの有望な進歩にもかかわらず、lvlmsは幻覚の問題、すなわち記述のターゲット画像と矛盾するオブジェクトを生成する傾向がある。 本研究は,LVLMの物体幻覚に関する最初の体系的研究である。 いくつかの代表的LVLMに対して評価実験を行い, 主に重度物体幻覚障害に悩まされていることを示す。 さらに視覚的指示が幻覚に影響を及ぼす可能性についても議論し、視覚的指示に頻繁に発生する物体や、画像オブジェクトと共起する物体は明らかにLVLMによって幻覚される傾向にあることを示した。 また,既存の評価手法はLVLMの入力命令や生成スタイルに影響される可能性がある。 そこで本稿では, ポーリングに基づく検索手法である \emph{POPE} を提案することで, オブジェクト幻覚評価の精度向上を図る。 実験の結果,POPEはより安定かつ柔軟な方法で物体幻覚を評価することができることがわかった。 私たちのコードとデータはhttps://github.com/RUCAIBox/POPEで公開されています。

Inspired by the superior language abilities of large language models (LLM), large vision-language models (LVLM) have been recently explored by integrating powerful LLMs for improving the performance on complex multimodal tasks. Despite the promising progress on LVLMs, we find that LVLMs suffer from the hallucination problem, i.e. they tend to generate objects that are inconsistent with the target images in the descriptions. To investigate it, this work presents the first systematic study on object hallucination of LVLMs. We conduct the evaluation experiments on several representative LVLMs, and show that they mostly suffer from severe object hallucination issue. We further discuss that the visual instructions may influence the hallucination, and find that: objects that frequently occur in the visual instructions or co-occur with the image objects, are obviously prone to be hallucinated by LVLMs. Besides, we find that existing evaluation methods might be affected by the input instructions and generation styles of LVLMs. Thus, we further design an improved evaluation method for object hallucination by proposing a polling-based query method called \emph{POPE}. Experiment results demonstrate that our POPE can evaluate the object hallucination in a more stable and flexible way. Our codes and data are publicly available at https://github.com/RUCAIBox/POPE.
翻訳日:2023-05-18 14:51:45 公開日:2023-05-17
# GPTを用いた対話型階層型タスクの対話学習

Interactive Learning of Hierarchical Tasks from Dialog with GPT ( http://arxiv.org/abs/2305.10349v1 )

ライセンス: Link先を確認
Lane Lawley and Christopher J. MacLellan(参考訳) 本稿では,対話型フロントエンドとしてGPTモデルを用いた対話型対話型タスク学習システムを提案する。 学習されたタスクは、スコープ変数引数を持つ述語-代用構造の階層的分解として表現される。 gptモデルを用いて対話的な対話を意味表現に変換し、未知のステップの定義を再帰的に要求することで、階層的タスク知識を自然かつ無拘束な会話環境において獲得し、再使用することができることを示す。 より従来型のパーサを用いて,システムと類似したアーキテクチャを比較し,より広範な言語的分散を許容することを示す。

We present a system for interpretable, symbolic, interactive task learning from dialog using a GPT model as a conversational front-end. The learned tasks are represented as hierarchical decompositions of predicate-argument structures with scoped variable arguments. By using a GPT model to convert interactive dialog into a semantic representation, and then recursively asking for definitions of unknown steps, we show that hierarchical task knowledge can be acquired and re-used in a natural and unrestrained conversational environment. We compare our system to a similar architecture using a more conventional parser and show that our system tolerates a much wider variety of linguistic variance.
翻訳日:2023-05-18 14:51:23 公開日:2023-05-17
# 土地被覆分類における信頼指導型半教師あり学習

Confidence-Guided Semi-supervised Learning in Land Cover Classification ( http://arxiv.org/abs/2305.10344v1 )

ライセンス: Link先を確認
Wanli Ma, Oktay Karakus, Paul L. Rosin(参考訳) 半教師付き学習は、大量の未ラベルデータを活用することで、手動ラベリングのコスト削減に有効である。 特に土地被覆分類の適用においては,大規模画像におけるピクセルレベルの手動ラベリングは労働集約的で高価である。 しかし、既存の半教師付き学習手法は、ネットワークを監督しながら擬似ラベルの品質に限定的な注意を払っている。 それにもかかわらず、ネットワーク性能を決定する重要な要因の1つです。 このギャップを埋めるために,信頼度に基づく半教師付き学習(cgssl)手法を開発し,信頼性の高い擬似ラベルを活用し,土地被覆分類ネットワークの訓練における低信頼学習の悪影響を低減した。 一方,提案手法では,複数のネットワークアーキテクチャを用いて擬似ラベルの多様性を向上させる。 提案手法は,コンピュータビジョンにおける従来の半教師付き学習手法と比較して,土地被覆分類の性能を著しく向上させるとともに,ベンチマークポツダム土地被覆データセットのラベル付き画像の完全なセットで完全に教師付き学習を上回ります。

Semi-supervised learning has been well developed to help reduce the cost of manual labelling by exploiting a large quantity of unlabelled data. Especially in the application of land cover classification, pixel-level manual labelling in large-scale imagery is labour-intensive and expensive. However, the existing semi-supervised learning methods pay limited attention to the quality of pseudo-labels whilst supervising the network. That is, nevertheless, one of the critical factors determining network performance. In order to fill this gap, we develop a confidence-guided semi-supervised learning (CGSSL) approach to make use of high-confidence pseudo labels and reduce the negative effect of low-confidence ones on training the land cover classification network. Meanwhile, the proposed semi-supervised learning approach uses multiple network architectures to increase pseudo-label diversity. The proposed semi-supervised learning approach significantly improves the performance of land cover classification compared to the classical semi-supervised learning methods in computer vision and even outperforms fully supervised learning with a complete set of labelled imagery of the benchmark Potsdam land cover data set.
翻訳日:2023-05-18 14:51:11 公開日:2023-05-17
# 非剛性形状マッチングのための辞書からの関数表現の抽出

Extracting a functional representation from a dictionary for non-rigid shape matching ( http://arxiv.org/abs/2305.10332v1 )

ライセンス: Link先を確認
Michele Colombo, Giacomo Boracchi, Simone Melzi(参考訳) 形状マッチングは多くのアプリケーションでコンピュータグラフィックスの基本的な問題である。 関数マップは、ポイントワイズ形状マッチング問題をその機能的対応に変換し、過去10年間に多くのソリューションに影響を与えてきた。 函数写像に基づくほとんど全ての解は、曲面上で定義される函数空間を記述するためにラプラス・ベルトラミ作用素(LB)の固有函数に依存し、関数対応を点対応に変換する。 しかし、この最終段階はしばしば誤差を起こし、LBのエネルギーが表面を均一に覆わない小さな領域や突起では不正確な。 このような本質的な制限に対処するために,辞書(pcd)の機能基本コンポーネントを提案する。 PCDは、その形状上で定義された関数の辞書の主成分分析(PCA)から正規直交基底を構成する。 これらの辞書は、エネルギーのさらなる拡散を達成するなど、最終基底の特定の特性をターゲットにすることができる。 実験では,確立したベンチマークで7種類の辞書を比較し,pcdが異なる形状マッチングシナリオに適していることを示し,同一パイプラインで使用する場合のlbベースよりも精度の高いポイントワイズマップを作成した。 この証拠は、関数写像のパワーと柔軟性を確かめ、対応推定を改善するための有望な代替手段を提供する。

Shape matching is a fundamental problem in computer graphics with many applications. Functional maps translate the point-wise shape-matching problem into its functional counterpart and have inspired numerous solutions over the last decade. Nearly all the solutions based on functional maps rely on the eigenfunctions of the Laplace-Beltrami Operator (LB) to describe the functional spaces defined on the surfaces and then convert the functional correspondences into point-wise correspondences. However, this final step is often error-prone and inaccurate in tiny regions and protrusions, where the energy of LB does not uniformly cover the surface. We propose a new functional basis Principal Components of a Dictionary (PCD) to address such intrinsic limitation. PCD constructs an orthonormal basis from the Principal Component Analysis (PCA) of a dictionary of functions defined over the shape. These dictionaries can target specific properties of the final basis, such as achieving an even spreading of energy. Our experimental evaluation compares seven different dictionaries on established benchmarks, showing that PCD is suited to target different shape-matching scenarios, resulting in more accurate point-wise maps than the LB basis when used in the same pipeline. This evidence provides a promising alternative for improving correspondence estimation, confirming the power and flexibility of functional maps.
翻訳日:2023-05-18 14:50:53 公開日:2023-05-17
# g-adapter:グラフトランスフォーマーネットワークのための構造認識パラメータ効率の高い転送学習に向けて

G-Adapter: Towards Structure-Aware Parameter-Efficient Transfer Learning for Graph Transformer Networks ( http://arxiv.org/abs/2305.10329v1 )

ライセンス: Link先を確認
Anchun Gui, Jinqiang Ye and Han Xiao(参考訳) 大規模事前訓練されたモデルの知識を、モデルパラメータ全体を微調整することで、様々な下流タスクに伝達する一般的なパラダイムとなっている。 しかし、モデルスケールの増加と下流タスクの増加に伴い、このパラダイムは計算消費とメモリフットプリントの問題において必然的に課題を満たしている。 近年、PEFT(Adapter, LoRA, BitFit)はパラメータの一部を更新することでこれらの問題を緩和する有望なパラダイムを示している。 これらのPEFTは自然言語処理において良好な性能を示したが、グラフトランスフォーマーネットワーク(GTN)を用いてグラフベースのタスクに変換できるかどうかについては、まだ未定である。 そこで本稿では,従来のPEFTを用いて,グラフベースのダウンストリームタスクの広範なベンチマークを提供することにより,このギャップを埋める。 本稿では,機能分散シフトの問題から,既存のPEFTをグラフベースタスクへ直接移行することが最適であることを示す。 この問題に対処するために,グラフ畳み込み操作を利用してグラフ構造(グラフ隣接行列など)を帰納バイアスとして導入し,更新プロセスを導出する新しい構造対応PEFT手法G-Adapterを提案する。 さらに,Bregman近点最適化により,モデルのアグレッシブアップデートを防止し,特徴分布シフトを緩和する。 G-Adapterは2つの事前学習されたGTNに基づいて,9つのグラフベンチマークデータセットと比較すると,最先端の性能が得られ,従来のパラダイムに比べてメモリフットプリント効率が大幅に向上することを示した。

It has become a popular paradigm to transfer the knowledge of large-scale pre-trained models to various downstream tasks via fine-tuning the entire model parameters. However, with the growth of model scale and the rising number of downstream tasks, this paradigm inevitably meets the challenges in terms of computation consumption and memory footprint issues. Recently, Parameter-Efficient Fine-Tuning (PEFT) (e.g., Adapter, LoRA, BitFit) shows a promising paradigm to alleviate these concerns by updating only a portion of parameters. Despite these PEFTs having demonstrated satisfactory performance in natural language processing, it remains under-explored for the question of whether these techniques could be transferred to graph-based tasks with Graph Transformer Networks (GTNs). Therefore, in this paper, we fill this gap by providing extensive benchmarks with traditional PEFTs on a range of graph-based downstream tasks. Our empirical study shows that it is sub-optimal to directly transfer existing PEFTs to graph-based tasks due to the issue of feature distribution shift. To address this issue, we propose a novel structure-aware PEFT approach, named G-Adapter, which leverages graph convolution operation to introduce graph structure (e.g., graph adjacent matrix) as an inductive bias to guide the updating process. Besides, we propose Bregman proximal point optimization to further alleviate feature distribution shift by preventing the model from aggressive update. Extensive experiments demonstrate that G-Adapter obtains the state-of-the-art performance compared to the counterparts on nine graph benchmark datasets based on two pre-trained GTNs, and delivers tremendous memory footprint efficiency compared to the conventional paradigm.
翻訳日:2023-05-18 14:50:31 公開日:2023-05-17
# 適応データ一貫性を有するデュアルドメイン反復ネットワークを用いた低用量心筋SPECTの関節脱調とFew-angle再構成

Joint Denoising and Few-angle Reconstruction for Low-dose Cardiac SPECT Using a Dual-domain Iterative Network with Adaptive Data Consistency ( http://arxiv.org/abs/2305.10328v1 )

ライセンス: Link先を確認
Xiongchao Chen, Bo Zhou, Huidong Xie, Xueqi Guo, Qiong Liu, Albert J. Sinusas, and Chi Liu(参考訳) 単光子線CT(SPECT)による心筋血流イメージング(MPI)が心血管疾患の診断に広く応用されている。 注射トレーサの線量を減らすことは、患者の放射線被曝を減少させるのに不可欠であるが、画像ノイズの増加につながる。 さらに、最新の心筋SPECTスキャナーは、ハードウェアコストを減らすために少ない検出器を使用して、より少ない角度で投影する。 これらの課題を克服するために、心筋SPECTの低線量および少数角投影からエンド・ツー・エンドの関節装飾と再建のための二重ドメイン反復ネットワークを提案する。 画像ドメインネットワークは、投影ドメインネットワークの事前推定を提供する。 プロジェクションドメインプライマリと補助モジュールは、プログレッシブなデノイジングと少ないアングル再構成のために相互接続される。 Adaptive Data Consistency (ADC)モジュールは、プライマリおよび補助モジュールの出力を効率的に融合することにより、予測精度を向上させる。 臨床mpiデータを用いた実験では,提案手法が既存の画像投影法,投影法,二重ドメイン法よりも優れており,より正確な投影と再構成が得られた。 画像領域事前推定とADCモジュールのネットワーク性能向上における意義について検討した。

Myocardial perfusion imaging (MPI) by single-photon emission computed tomography (SPECT) is widely applied for the diagnosis of cardiovascular diseases. Reducing the dose of the injected tracer is essential for lowering the patient's radiation exposure, but it will lead to increased image noise. Additionally, the latest dedicated cardiac SPECT scanners typically acquire projections in fewer angles using fewer detectors to reduce hardware expenses, potentially resulting in lower reconstruction accuracy. To overcome these challenges, we propose a dual-domain iterative network for end-to-end joint denoising and reconstruction from low-dose and few-angle projections of cardiac SPECT. The image-domain network provides a prior estimate for the projection-domain networks. The projection-domain primary and auxiliary modules are interconnected for progressive denoising and few-angle reconstruction. Adaptive Data Consistency (ADC) modules improve prediction accuracy by efficiently fusing the outputs of the primary and auxiliary modules. Experiments using clinical MPI data show that our proposed method outperforms existing image-, projection-, and dual-domain techniques, producing more accurate projections and reconstructions. Ablation studies confirm the significance of the image-domain prior estimate and ADC modules in enhancing network performance.
翻訳日:2023-05-18 14:50:00 公開日:2023-05-17
# 低用量心筋SPECTの同時デノイング・リミテッドアングル再構成・減衰補正のためのクロスドメイン反復ネットワーク

Cross-domain Iterative Network for Simultaneous Denoising, Limited-angle Reconstruction, and Attenuation Correction of Low-dose Cardiac SPECT ( http://arxiv.org/abs/2305.10326v1 )

ライセンス: Link先を確認
Xiongchao Chen, Bo Zhou, Huidong Xie, Xueqi Guo, Qiong Liu, Albert J. Sinusas, and Chi Liu(参考訳) 虚血性心疾患の診断にはSPECT(Single-Photon Emission Computed Tomography)が広く用いられている。 低線量(LD)SPECTは放射線照射を最小限にすることを目的としているが、画像ノイズの増加につながる。 制限アングル(la)spectは、より高速な走査とハードウェアコストの削減を可能にするが、再構成精度は低下する。 さらに、SPECT減衰補正(AC)にはCT(CT)由来の減衰マップ(\mu$-maps)が一般的に使用されるが、余分な放射露光やSPECT-CTの誤調整を引き起こす。 さらに、市場にあるほとんどのSPECTスキャナーは、ハイブリッドSPECT/CTスキャナーではない。 これらの制限を個別に解決するために様々なディープラーニング手法が導入されたが、これらの課題に同時に対処するための解決策はいまだに過小評価され難解である。 そこで本研究では,心臓spectで同時除音,la再構成,ctフリー交流を行うクロスドメイン反復ネットワーク(cdi-net)を提案する。 cdi-netでは、ペアプロジェクションとイメージドメインネットワークがエンドツーエンドで接続され、ドメインとイテレーション間でエミッションと解剖情報を融合する。 Adaptive Weight Recalibrators (AWR) は、予測精度を高めるためにマルチチャネル入力機能を調整する。 臨床データを用いた実験により,CDI-Netは各課題に個別に対処した既存手法と比較して,より正確な$\mu$-maps,プロジェクション,再構成が得られた。 AWRと同様にクロスドメインおよびクロスイテレーション接続が再建性能を向上させる上で重要であることを示した。

Single-Photon Emission Computed Tomography (SPECT) is widely applied for the diagnosis of ischemic heart diseases. Low-dose (LD) SPECT aims to minimize radiation exposure but leads to increased image noise. Limited-angle (LA) SPECT enables faster scanning and reduced hardware costs but results in lower reconstruction accuracy. Additionally, computed tomography (CT)-derived attenuation maps ($\mu$-maps) are commonly used for SPECT attenuation correction (AC), but it will cause extra radiation exposure and SPECT-CT misalignments. In addition, the majority of SPECT scanners in the market are not hybrid SPECT/CT scanners. Although various deep learning methods have been introduced to separately address these limitations, the solution for simultaneously addressing these challenges still remains highly under-explored and challenging. To this end, we propose a Cross-domain Iterative Network (CDI-Net) for simultaneous denoising, LA reconstruction, and CT-free AC in cardiac SPECT. In CDI-Net, paired projection- and image-domain networks are end-to-end connected to fuse the emission and anatomical information across domains and iterations. Adaptive Weight Recalibrators (AWR) adjust the multi-channel input features to enhance prediction accuracy. Our experiments using clinical data showed that CDI-Net produced more accurate $\mu$-maps, projections, and reconstructions compared to existing approaches that addressed each task separately. Ablation studies demonstrated the significance of cross-domain and cross-iteration connections, as well as AWR, in improving the reconstruction performance.
翻訳日:2023-05-18 14:49:39 公開日:2023-05-17
# スパースグラフに対するメッセージパッシングアーキテクチャの最適性

Optimality of Message-Passing Architectures for Sparse Graphs ( http://arxiv.org/abs/2305.10391v1 )

ライセンス: Link先を確認
Aseem Baranwal and Aukosh Jagannath and Kimon Fountoulakis(参考訳) 本研究では,ノード数に対するノードの期待度が$o(1)$である場合,スパース設定における特徴分割グラフのノード分類問題について検討する。 このようなグラフは通常、木のような局所的に知られている。 本稿では,ノード分類タスクにおけるベイズ最適性の概念を漸近的ベイズ最適性(asymptotic local bayes optimality)と呼び,ノード特徴とエッジ接続の任意の分布を持つ比較的一般的な統計データモデルに対するこの基準に従って最適分類器を計算する。 最適な分類器は、メッセージパスグラフニューラルネットワークアーキテクチャを用いて実装可能である。 次に,この分類器の一般化誤差を計算し,データ中の自然同定可能な信号対雑音比 (snrs) とよく検討された統計モデルを用いて,既存の学習法との比較を行った。 メッセージパッシングの最適なアーキテクチャは、低グラフ信号のレジームにおける標準mlpと高グラフ信号のレジームにおける典型的な畳み込みの間で補間される。 さらに,非漸近的な結果を示す。

We study the node classification problem on feature-decorated graphs in the sparse setting, i.e., when the expected degree of a node is $O(1)$ in the number of nodes. Such graphs are typically known to be locally tree-like. We introduce a notion of Bayes optimality for node classification tasks, called asymptotic local Bayes optimality, and compute the optimal classifier according to this criterion for a fairly general statistical data model with arbitrary distributions of the node features and edge connectivity. The optimal classifier is implementable using a message-passing graph neural network architecture. We then compute the generalization error of this classifier and compare its performance against existing learning methods theoretically on a well-studied statistical model with naturally identifiable signal-to-noise ratios (SNRs) in the data. We find that the optimal message-passing architecture interpolates between a standard MLP in the regime of low graph signal and a typical convolution in the regime of high graph signal. Furthermore, we prove a corresponding non-asymptotic result.
翻訳日:2023-05-18 14:43:48 公開日:2023-05-17
# 拡散モデルによる対向ロバスト性認定バーのライジング

Raising the Bar for Certified Adversarial Robustness with Diffusion Models ( http://arxiv.org/abs/2305.10388v1 )

ライセンス: Link先を確認
Thomas Altstidl, David Dobre, Bj\"orn Eskofier, Gauthier Gidel, Leo Schwinn(参考訳) 敵の攻撃に対する認証された防御は、モデルの堅牢性に関する正式な保証を提供するため、敵の訓練のような経験的手法よりも信頼性が高い。 それでも、現在達成可能な限定された認定堅牢性は、実用的採用のボトルネックとなっている。 gowalらとwangらは、最先端の拡散モデルを使って追加のトレーニングデータを生成することで、敵のトレーニングのロバスト性を大幅に改善できることを示した。 本研究では,同様のアプローチが決定論的証明された防御を著しく改善できることを実証する。 さらに、認定トレーニングアプローチの堅牢性を高めるための推奨事項のリストも提供します。 私たちの大きな洞察の1つは、一般化ギャップ、すなわち、元のモデルのトレーニングとテスト精度の差が、追加生成されたデータを使用する際のロバスト性改善の大きさのよい予測要因であるということです。 提案手法は, CIFAR-10 における $\ell_2$$\epsilon = 36/255$) と $\ell_\infty$$$\epsilon = 8/255$) の脅威モデルに対して, CIFAR-10 の最先端決定論的堅牢性証明を達成し, それぞれ$+3.95\%$ と$+1.39\%$ を達成している。 さらに,CIFAR-100についても同様の改善が報告されている。

Certified defenses against adversarial attacks offer formal guarantees on the robustness of a model, making them more reliable than empirical methods such as adversarial training, whose effectiveness is often later reduced by unseen attacks. Still, the limited certified robustness that is currently achievable has been a bottleneck for their practical adoption. Gowal et al. and Wang et al. have shown that generating additional training data using state-of-the-art diffusion models can considerably improve the robustness of adversarial training. In this work, we demonstrate that a similar approach can substantially improve deterministic certified defenses. In addition, we provide a list of recommendations to scale the robustness of certified training approaches. One of our main insights is that the generalization gap, i.e., the difference between the training and test accuracy of the original model, is a good predictor of the magnitude of the robustness improvement when using additional generated data. Our approach achieves state-of-the-art deterministic robustness certificates on CIFAR-10 for the $\ell_2$ ($\epsilon = 36/255$) and $\ell_\infty$ ($\epsilon = 8/255$) threat models, outperforming the previous best results by $+3.95\%$ and $+1.39\%$, respectively. Furthermore, we report similar improvements for CIFAR-100.
翻訳日:2023-05-18 14:43:31 公開日:2023-05-17
# 議論中の暗黙の質問としての包括的単純化

Elaborative Simplification as Implicit Questions Under Discussion ( http://arxiv.org/abs/2305.10387v1 )

ライセンス: Link先を確認
Yating Wu, William Sheffield, Kyle Mahowald and Junyi Jessy Li(参考訳) 自動テキスト簡易化(automated text simplification)は、子供や創発的なバイリンガルなどの人々にとって、テキストをより使いやすくするための技術であり、複雑な文からエンコーダ・デコーダモデルを用いた簡易文への単言語翻訳タスクとしてよく考えられている。 このビューは、単純化されたテキストに新しい情報が加えられる詳細化の考慮に失敗している。 本稿では,議論中の問題(qud)フレームワークのレンズを通して,説明の簡略化を考察し,著者が何を精巧に扱っているのか,どのように精巧化が談話の文脈にどのように適合するかを,暗黙的な問いに対する明示的な答えとして捉えて検討する。 我々は,これらの現象を研究するために,暗黙のQUDを伴う1.3KのelabQUDを紹介する。 質問生成による)qudを明示的にモデル化することで、説明の単純化と他の談話とどのように結びつくかという本質的な理解がもたらされるだけでなく、説明生成の質が大幅に向上することを示す。

Automated text simplification, a technique useful for making text more accessible to people such as children and emergent bilinguals, is often thought of as a monolingual translation task from complex sentences to simplified sentences using encoder-decoder models. This view fails to account for elaborative simplification, where new information is added into the simplified text. This paper proposes to view elaborative simplification through the lens of the Question Under Discussion (QUD) framework, providing a robust way to investigate what writers elaborate upon, how they elaborate, and how elaborations fit into the discourse context by viewing elaborations as explicit answers to implicit questions. We introduce ElabQUD, consisting of 1.3K elaborations accompanied with implicit QUDs, to study these phenomena. We show that explicitly modeling QUD (via question generation) not only provides essential understanding of elaborative simplification and how the elaborations connect with the rest of the discourse, but also substantially improves the quality of elaboration generation.
翻訳日:2023-05-18 14:43:01 公開日:2023-05-17
# ロバスト自己回帰配列不確かさに対するロジト型アンサンブル分散蒸留法

Logit-Based Ensemble Distribution Distillation for Robust Autoregressive Sequence Uncertainties ( http://arxiv.org/abs/2305.10384v1 )

ライセンス: Link先を確認
Yassir Fathullah, Guoxuan Xia, Mark Gales(参考訳) 効率的かつ確実に不確実性を推定することは、ディープラーニングの重要な目的である。 特に、トレーニングと推論のコストが通常非常に高い自己回帰的なシーケンスタスクに関係している。 しかし、既存の研究は主に画像分類などの静的データを用いたタスクに焦点を当てている。 本研究では,大規模自然言語シーケンスからシーケンスデータへのエンサンブル分散蒸留(EDD)の適用について検討する。 EDDは、高価な(教師)アンサンブルの優れた不確実性を、より安価な(学生)シングルモデルに圧縮することを目的としている。 重要なことは、知識(現状)とデータの不確実性を分離する能力を維持することである。 しかし、既存の確率空間アプローチは大きな語彙に拡張することは困難である。 大規模翻訳タスクにおける現代のトランスフォーマーアーキテクチャでは,ソフトマックスの確率ではなくアンサンブルロジットをモデル化することで,学生が大幅に向上することを示す。 さらに、学生は、分布外検出において最大10%のAUROCでDeep Ensemblesを驚くほど上回り、分布内翻訳でそれらをマッチングする。

Efficiently and reliably estimating uncertainty is an important objective in deep learning. It is especially pertinent to autoregressive sequence tasks, where training and inference costs are typically very high. However, existing research has predominantly focused on tasks with static data such as image classification. In this work, we investigate Ensemble Distribution Distillation (EDD) applied to large-scale natural language sequence-to-sequence data. EDD aims to compress the superior uncertainty performance of an expensive (teacher) ensemble into a cheaper (student) single model. Importantly, the ability to separate knowledge (epistemic) and data (aleatoric) uncertainty is retained. Existing probability-space approaches to EDD, however, are difficult to scale to large vocabularies. We show, for modern transformer architectures on large-scale translation tasks, that modelling the ensemble logits, instead of softmax probabilities, leads to significantly better students. Moreover, the students surprisingly even outperform Deep Ensembles by up to ~10% AUROC on out-of-distribution detection, whilst matching them at in-distribution translation.
翻訳日:2023-05-18 14:42:41 公開日:2023-05-17
# 生成言語モデルを用いた大規模テキスト分析:AI特許における公開価値表現の発見を事例として

Large-Scale Text Analysis Using Generative Language Models: A Case Study in Discovering Public Value Expressions in AI Patents ( http://arxiv.org/abs/2305.10383v1 )

ライセンス: Link先を確認
Sergio Pelaez, Gaurav Verma, Barbara Ribeiro, Philip Shapira(参考訳) データのラベリングはテキスト分類器のトレーニングには不可欠であるが、特に複雑で抽象的な概念において、正確に達成することがしばしば困難である。 改良手法として,生成言語モデル(GPT-4)を用いて,大規模テキスト解析のためのラベルと合理性を生成する手法を提案する。 このアプローチを,米国AI特許における公開価値表現の発見に応用する。 InnovationQ+に送信された高度なBooleanクエリを用いて、154,934件の特許文書からなるデータベースを収集する。 結果はUSPTOの完全な特許文書とマージされ、540万の文が得られた。 我々は、これらのAI特許文中の公開価値表現を識別し、ラベル付けするためのフレームワークを設計する。 GPT-4のプロンプトは、テキスト分類のための定義、ガイドライン、例、合理性を含む。 bleuスコアとトピックモデリングを用いて,gpt-4が生成するラベルの品質と合理性を評価し,正確性,多様性,忠実性を見出す。 これらの理論的根拠は、モデルの連鎖、人間の検証のための透過的なメカニズム、認知的限界を克服するための人間のアノテーションのサポートとしても機能する。 我々は、gpt-4が、我々のフレームワークから高いレベルの公開価値理論の認識を達成していると結論づけた。 GPT-4 で作成したラベルを用いて,BERT ベースの分類器を訓練し,データベース全体の文を予測し,高い F1 スコアを3クラス (0.85) と2クラス (0.91) のタスクに対して達成する。 本稿では,複雑で抽象的な概念を用いて大規模テキスト解析を行う手法の意義について考察し,注意深いフレームワーク設計と対話型人間の監視により,生成言語モデルが品質において有意な利点と,ラベルや合理性の生成に要する時間とコストを削減できることを示す。

Labeling data is essential for training text classifiers but is often difficult to accomplish accurately, especially for complex and abstract concepts. Seeking an improved method, this paper employs a novel approach using a generative language model (GPT-4) to produce labels and rationales for large-scale text analysis. We apply this approach to the task of discovering public value expressions in US AI patents. We collect a database comprising 154,934 patent documents using an advanced Boolean query submitted to InnovationQ+. The results are merged with full patent text from the USPTO, resulting in 5.4 million sentences. We design a framework for identifying and labeling public value expressions in these AI patent sentences. A prompt for GPT-4 is developed which includes definitions, guidelines, examples, and rationales for text classification. We evaluate the quality of the labels and rationales produced by GPT-4 using BLEU scores and topic modeling and find that they are accurate, diverse, and faithful. These rationales also serve as a chain-of-thought for the model, a transparent mechanism for human verification, and support for human annotators to overcome cognitive limitations. We conclude that GPT-4 achieved a high-level of recognition of public value theory from our framework, which it also uses to discover unseen public value expressions. We use the labels produced by GPT-4 to train BERT-based classifiers and predict sentences on the entire database, achieving high F1 scores for the 3-class (0.85) and 2-class classification (0.91) tasks. We discuss the implications of our approach for conducting large-scale text analyses with complex and abstract concepts and suggest that, with careful framework design and interactive human oversight, generative language models can offer significant advantages in quality and in reduced time and costs for producing labels and rationales.
翻訳日:2023-05-18 14:42:26 公開日:2023-05-17
# 身体制約を伴う記号的回帰能力のアクティブラーニング

Active Learning in Symbolic Regression Performance with Physical Constraints ( http://arxiv.org/abs/2305.10379v1 )

ライセンス: Link先を確認
Jorge Medina, Andrew D. White(参考訳) 進化的記号回帰(SR)は記号方程式をデータに適合させ、簡潔な解釈可能なモデルを与える。 物理制約のあるアクティブラーニング環境で収集するデータを提案する手法としてsrを用いた。 アクティブラーニングを持つsrは、次に行うべき実験を提案する。 アクティブラーニングは委員会によるクエリで行われ、パレート方程式のフロンティアは委員会である。 物理的制約は、非常に低いデータ設定で提案された方程式を改善する。 これらのアプローチにより、SRに必要なデータが少なくなり、既知の方程式を再発見するために必要なデータが得られる。

Evolutionary symbolic regression (SR) fits a symbolic equation to data, which gives a concise interpretable model. We explore using SR as a method to propose which data to gather in an active learning setting with physical constraints. SR with active learning proposes which experiments to do next. Active learning is done with query by committee, where the Pareto frontier of equations is the committee. The physical constraints improve proposed equations in very low data settings. These approaches reduce the data required for SR and achieves state of the art results in data required to rediscover known equations.
翻訳日:2023-05-18 14:41:51 公開日:2023-05-17
# 時間的問合せのための説明可能なマルチエージェント強化学習

Explainable Multi-Agent Reinforcement Learning for Temporal Queries ( http://arxiv.org/abs/2305.10378v1 )

ライセンス: Link先を確認
Kayla Boggess, Sarit Kraus, and Lu Feng(参考訳) マルチエージェント強化学習 (MARL) システムは, 社会全体に普及しているため, 複雑な環境下でのMARLエージェントの創発的行動を理解することは困難である。 本研究は,エージェントが処理可能なタスクのシーケンスを規定した時間的ユーザクエリにmarlが答えるために,ポリシーレベルのコントラスト的説明を生成する手法を提案する。 提案手法は,PCTL論理式として時間的クエリを符号化し,確率的モデル検査によって所定のMARLポリシーの下でクエリが実現可能かどうかをチェックする。 このような説明は、実際のマルチエージェント動作と予測されたマルチエージェント動作の相違を解消するのに役立つ。 提案手法は,ユーザクエリが実現不可能である理由を特定するための,正確かつ完全な説明も生成する。 提案手法を4つのベンチマークMARLドメイン(1つのドメインで最大9エージェント)に適用した。 さらに, ユーザ調査の結果から, 生成した説明がユーザパフォーマンスと満足度を著しく向上させることが示された。

As multi-agent reinforcement learning (MARL) systems are increasingly deployed throughout society, it is imperative yet challenging for users to understand the emergent behaviors of MARL agents in complex environments. This work presents an approach for generating policy-level contrastive explanations for MARL to answer a temporal user query, which specifies a sequence of tasks completed by agents with possible cooperation. The proposed approach encodes the temporal query as a PCTL logic formula and checks if the query is feasible under a given MARL policy via probabilistic model checking. Such explanations can help reconcile discrepancies between the actual and anticipated multi-agent behaviors. The proposed approach also generates correct and complete explanations to pinpoint reasons that make a user query infeasible. We have successfully applied the proposed approach to four benchmark MARL domains (up to 9 agents in one domain). Moreover, the results of a user study show that the generated explanations significantly improve user performance and satisfaction.
翻訳日:2023-05-18 14:41:45 公開日:2023-05-17
# エンタングル一般化コヒーレント状態を用いたフォトニック量子メトロロジー

Using Entangled Generalized Coherent States for Photonic Quantum Metrology ( http://arxiv.org/abs/2305.10377v1 )

ライセンス: Link先を確認
Madhura Ghosh Dastidar, Aprameyan Desikan and Vidya Praveen Bhallamudi(参考訳) 量子メトロロジーは、量子資源を利用して未知のパラメータを測定することで、性能を向上させることを目的としている。 したがって、量子力学は量子技術の重要な応用である。 フォトニックシステムは、より簡単な実験手法でこれらのメトロロジータスクを実装できる。 本稿では,光子量子メトロロジーにエンタングル一般化コヒーレント状態(egcs)を導入することにより,パラメータ推定を改善する手法を提案する。 これらの状態は古典的およびハイゼンベルク極限を超える感度を高め、絡み合ったコヒーレント状態やNOON状態と比較して有利であることを示す。 さらに, ある絡み合った一般化されたコヒーレント状態と現在の技術とを実験的に生成する手法を提案する。

Quantum metrology aims at achieving enhanced performance in measuring unknown parameters by utilizing quantum resources. Thus, quantum metrology is an important application of quantum technologies. Photonic systems can implement these metrological tasks with simpler experimental techniques. We present a scheme for improved parameter estimation by introducing entangled generalized coherent states (EGCS) for photonic quantum metrology. These states show enhanced sensitivity beyond the classical and Heisenberg limits and prove to be advantageous as compared to the entangled coherent and NOON states. Further, we also propose a scheme for experimentally generating certain entangled generalized coherent states with current technology.
翻訳日:2023-05-18 14:41:25 公開日:2023-05-17
# 分散クランクラベリング関係の一方向強通信複雑性における非有界量子優位

Unbounded Quantum Advantage in One-Way Strong Communication Complexity of a Distributed Clique Labelling Relation ( http://arxiv.org/abs/2305.10372v1 )

ライセンス: Link先を確認
Sumit Rout, Nitica Sakharwade, Some Sankar Bhattacharya, Ravishankar Ramanathan, Pawe{\l} Horodecki(参考訳) 分散クリフラベル問題により誘導される関係のクラスに対する一方向ゼロエラー古典的および量子的通信複雑性について検討する。 2つの変種を考えます 1) 受信者は、関係を満足する回答 - 従来の関係の通信複雑性(ccr) - を出力し、 2)レシーバは、関係を満たすすべての有効な回答を出力する非ゼロ確率(つまり、関係を完全に再構築することができる)を持ち、関係の強い通信複雑性を示す(s-ccr)。 プレイヤーがリソースを共有しない場合、ここで考慮される特定の関係クラスに対して、任意のグラフに対するccrタスクに量子的な利点がないことを証明します。 一方、S-CCRタスクにおける一方方向の古典的および量子的コミュニケーションの分離がグラフの順序で成長するグラフのクラスが存在することを示し、特に、量子複雑性は$O(1)$であり、古典的複雑性は$\Omega(\log m)$である。 第二に、固定された制限された通信のシナリオにおける分離を克服するために必要な共有ランダム性の量に対する下界(傾きの数で線型)を証明し、直交配列の存在に接続する。 最後に,この課題を半デバイス非依存次元の目撃や,相互に偏りのない基底の検出に応用する。

We investigate the one-way zero-error classical and quantum communication complexities for a class of relations induced by a distributed clique labelling problem. We consider two variants: 1) the receiver outputs an answer satisfying the relation - the traditional communication complexity of relations (CCR) and 2) the receiver has non-zero probabilities of outputting every valid answer satisfying the relation (equivalently, the relation can be fully reconstructed), that we denote the strong communication complexity of the relation (S-CCR). We prove that for the specific class of relations considered here when the players do not share any resources, there is no quantum advantage in the CCR task for any graph. On the other hand, we show that there exist, classes of graphs for which the separation between one-way classical and quantum communication in the S-CCR task grow with the order of the graph, specifically, the quantum complexity is $O(1)$ while the classical complexity is $\Omega(\log m)$. Secondly, we prove a lower bound (that is linear in the number of cliques) on the amount of shared randomness necessary to overcome the separation in the scenario of fixed restricted communication and connect this to the existence of Orthogonal Arrays. Finally, we highlight some applications of this task to semi-device-independent dimension witnessing as well as to the detection of Mutually Unbiased Bases.
翻訳日:2023-05-18 14:41:13 公開日:2023-05-17
# コンピュータ教育における持続可能性 : 体系的文献レビュー

Sustainability in Computing Education: A Systematic Literature Review ( http://arxiv.org/abs/2305.10369v1 )

ライセンス: Link先を確認
A.-K. Peters, R. Capilla, V. C. Coroam\u{a}, R. Heldal, P. Lago, O. Leifler, A. Moreira, J. P. Fernandes, B. Penzenstadler, J. Porras, C. C. Venters(参考訳) 研究によると、現在組織されている世界社会は、現在の技術と経済システムでは維持が不可能である。 我々は、高度に工業化された国々における人間の活動がいくつかの惑星境界のオーバーシュートに責任を負う時代である人類新世に住んでいる。 同時に、技術と経済の利益は社会全体に平等な機会を与え、生活の質を向上させるのに失敗している。 本稿では,持続可能性問題へのコンピュータ教育のアプローチについて述べる。 コンピュータ教育における持続可能性に関する文献の体系的レビューの結果を示す。 6つの大きなデジタルライブラリーとスノーボールから抽出した572の出版物から,90の関連研究を蒸留,分析した。 帰納的・帰納的テーマ分析を用いた研究 1)持続可能性・計算・教育の概念 2【計算教育における持続可能性の実現】 3) 計算教育における持続可能性に関する研究 本稿では,コンピュータ教育における学習目標と成果と,持続可能性の教育的手法について述べる。 これらの結果は、将来の作業において既存の標準やカリキュラムにマッピングできる。 コンピュータと教育に関するまったく新しい理解とともに、急激な体系的な変化を求めるような課題に関わる記事はごくわずかである。 今後の研究は、フェミニストの科学・技術理論のような批判理論の実質的な実体と結びつくべきであると示唆する。 計算教育における持続可能性に関する既存の研究は、記事の大部分が経験報告であり、限定的な実証研究であると考えられる。

Research shows that the global society as organized today, with our current technological and economic system, is impossible to sustain. We are living in the Anthropocene, an era in which human activities in highly industrialized countries are responsible for overshooting several planetary boundaries, with poorer communities contributing least to the problems but being impacted the most. At the same time, technical and economic gains fail to provide society at large with equal opportunities and improved quality of life. This paper describes approaches taken in computing education to address the issue of sustainability. It presents results of a systematic review of literature on sustainability in computing education. From a set of 572 publications extracted from six large digital libraries plus snowballing, we distilled and analyzed the 90 relevant primary studies. Using an inductive and deductive thematic analysis, we study 1) conceptions of sustainability, computing, and education, 2) implementations of sustainability in computing education, and 3) research on sustainability in computing education. We present a framework capturing learning objectives and outcomes as well as pedagogical methods for sustainability in computing education. These results can be mapped to existing standards and curricula in future work. We find that only a few of the articles engage with the challenges as calling for drastic systemic change, along with radically new understandings of computing and education. We suggest that future research should connect to the substantial body of critical theory such as feminist theory of science and technology. Existing research on sustainability in computing education may be considered as rather immature as the majority of articles are experience reports with limited empirical research.
翻訳日:2023-05-18 14:40:48 公開日:2023-05-17
# PMC-VQA: 医用視覚質問応答のための視覚指導チューニング

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering ( http://arxiv.org/abs/2305.10415v1 )

ライセンス: Link先を確認
Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Weixiong Lin, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 本稿では, 医用視覚質問応答(medvqa)の問題に焦点をあて, 臨床関連情報を含む医用画像の効率的な解釈に不可欠である。 まず、人間と機械の相互作用を自然に追従する生成タスクとしてMedVQAの問題を再構成し、トレーニング済み視覚エンコーダからの視覚情報を大きな言語モデルに整合させることにより、医用視覚理解のための生成モデルを提案する。 第2に,さまざまな形態や疾患をカバーする227kのvqa対の149k画像を含む,pmc-vqaという,大規模医療用視覚的質問応答データセットを構築するためのスケーラブルなパイプラインを構築した。 第3に、提案したモデルを PMC-VQA 上で事前トレーニングし、VQA-RAD や SLAKE といった複数の公開ベンチマークで微調整し、既存の作業よりも大きなマージンで性能を向上させる。 さらに,手作業による検証を行うテストセットを提案する。

In this paper, we focus on the problem of Medical Visual Question Answering (MedVQA), which is crucial in efficiently interpreting medical images with vital clinic-relevant information. Firstly, we reframe the problem of MedVQA as a generation task that naturally follows the human-machine interaction, we propose a generative-based model for medical visual understanding by aligning visual information from a pre-trained vision encoder with a large language model. Secondly, we establish a scalable pipeline to construct a large-scale medical visual question-answering dataset, named PMC-VQA, which contains 227k VQA pairs of 149k images that cover various modalities or diseases. Thirdly, we pre-train our proposed model on PMC-VQA and then fine-tune it on multiple public benchmarks, e.g., VQA-RAD and SLAKE, outperforming existing work by a large margin. Additionally, we propose a test set that has undergone manual verification, which is significantly more challenging, even the best models struggle to solve.
翻訳日:2023-05-18 14:32:50 公開日:2023-05-17
# Lassoを用いた署名の一貫性について

On Consistency of Signatures Using Lasso ( http://arxiv.org/abs/2305.10413v1 )

ライセンス: Link先を確認
Xin Guo, Ruixun Zhang, Chaoyi Zhao(参考訳) シグネチャ変換は連続および離散時間時系列データの反復経路積分であり、それらの普遍非線形性は特徴選択の問題を線形化する。 本稿では,シグネチャ変換のラッソ回帰の整合性問題を理論的および数値的に再検討する。 本研究は, ブラウン運動に近い過程やランダムウォークにおいて, ラスソ回帰は, it\^o積分で定義されるそれらのシグネチャに対してより一貫性があり, 平均反転過程と時系列では, ストラトノヴィッチ積分で定義されるシグネチャがラスソ回帰においてより一貫性を持つことを示す。 本研究は,統計的推論と機械学習において,シグネチャと確率モデルの適切な定義を選択することの重要性を強調した。

Signature transforms are iterated path integrals of continuous and discrete-time time series data, and their universal nonlinearity linearizes the problem of feature selection. This paper revisits the consistency issue of Lasso regression for the signature transform, both theoretically and numerically. Our study shows that, for processes and time series that are closer to Brownian motion or random walk with weaker inter-dimensional correlations, the Lasso regression is more consistent for their signatures defined by It\^o integrals; for mean reverting processes and time series, their signatures defined by Stratonovich integrals have more consistency in the Lasso regression. Our findings highlight the importance of choosing appropriate definitions of signatures and stochastic models in statistical inference and machine learning.
翻訳日:2023-05-18 14:32:29 公開日:2023-05-17
# AI Friends: 若者のためのAIによる創造的プログラミングのための設計フレームワーク

AI Friends: A Design Framework for AI-Powered Creative Programming for Youth ( http://arxiv.org/abs/2305.10412v1 )

ライセンス: Link先を確認
Stefania Druga and Amy J. Ko(参考訳) 家族による創造的なコーディングを支援し、制約する上で、AIはどんな役割を果たすのか? これらの質問を調査するために、私たちは、研究者が操作するAI Friendと協力して、家族が創造的なコーディングに従事するのを支援する、Wizard of Ozプラットフォームを構築しました。 10人の子供、7歳から12歳、そして9人の親と3週間のプログラミング活動をデザインしました。 AI Friendは、AI Friendが役に立たないとき、より複雑なプログラミングタスクで子供たちを指導する上でユニークな役割を担い、子どもたちはAIフレンドの助けを借りて、新しいアイデアのためのコードを書くことをより奨励された。 これらの結果は、AIがサポートしているプラットフォームは、子どものエージェンシーと創造的な自己効力性に焦点を当てたユニークなファミリーAIインタラクションを強調するべきであることを示唆している。

What role can AI play in supporting and constraining creative coding by families? To investigate these questions, we built a Wizard of Oz platform to help families engage in creative coding in partnership with a researcher-operated AI Friend. We designed a 3 week series of programming activities with ten children, 7 to 12 years old, and nine parents. Using a creative self efficacy lens, we observe that families found it easier to generate game ideas when prompted with questions by AI Friend; parents played a unique role in guiding children in more complex programming tasks when the AI Friend failed to help, and children were more encouraged to write code for novel ideas using the AI friend help. These findings suggest that AI supported platforms should highlight unique family AI interactions focused on children's agency and creative self-efficacy.
翻訳日:2023-05-18 14:32:12 公開日:2023-05-17
# ガウス混合政策最適化のためのワッサーシュタイン勾配流

Wasserstein Gradient Flows for Optimizing Gaussian Mixture Policies ( http://arxiv.org/abs/2305.10411v1 )

ライセンス: Link先を確認
Hanna Ziesche and Leonel Rozo(参考訳) ロボットはしばしば、様々な複雑なタスクを実行するために、前述した動きポリシーのレパートリーに依存する。 目立たないタスク条件に直面したり、新たなタスク要求が発生した場合、ロボットはそれに応じて動作ポリシーを適用する必要がある。 この文脈では、ポリシー最適化はタスク固有の目的の関数としてロボットのポリシーを適用するための \emph{de facto}パラダイムである。 ほとんどの一般的なモーションポリシーは、ポリシー最適化アルゴリズムでしばしば見過ごされる特定の構造を持っている。 代わりに,政策最適化を最適輸送問題として位置づけることで,確率的政策の構造を活用することを提案する。 具体的には,ガウス混合モデル(GMM)に基づくロボット動作ポリシーに注目し,GMM空間上のワッサーテイン勾配流としてポリシー最適化を定式化する。 これにより、GMM間の$L^2$-Wasserstein距離を通じてポリシー更新を制約し、ポリシー最適化プロセスの安定性を高めることができる。 さらに、ビューズ・ワッサーシュタイン多様体の幾何学を利用して、リーマン最適化によるGMMポリシーのガウス分布を最適化する。 我々は,一般的なロボットの動作,衝突回避行動,マルチゴール作業に対するアプローチを評価した。 提案手法は,タスク成功率と低分散解の点で,共通政策最適化基準よりも優れていることを示す。

Robots often rely on a repertoire of previously-learned motion policies for performing tasks of diverse complexities. When facing unseen task conditions or when new task requirements arise, robots must adapt their motion policies accordingly. In this context, policy optimization is the \emph{de facto} paradigm to adapt robot policies as a function of task-specific objectives. Most commonly-used motion policies carry particular structures that are often overlooked in policy optimization algorithms. We instead propose to leverage the structure of probabilistic policies by casting the policy optimization as an optimal transport problem. Specifically, we focus on robot motion policies that build on Gaussian mixture models (GMMs) and formulate the policy optimization as a Wassertein gradient flow over the GMMs space. This naturally allows us to constrain the policy updates via the $L^2$-Wasserstein distance between GMMs to enhance the stability of the policy optimization process. Furthermore, we leverage the geometry of the Bures-Wasserstein manifold to optimize the Gaussian distributions of the GMM policy via Riemannian optimization. We evaluate our approach on common robotic settings: Reaching motions, collision-avoidance behaviors, and multi-goal tasks. Our results show that our method outperforms common policy optimization baselines in terms of task success rate and low-variance solutions.
翻訳日:2023-05-18 14:31:55 公開日:2023-05-17
# BAD:候補検定における大規模言語モデルのBiAs検出

BAD: BiAs Detection for Large Language Models in the context of candidate screening ( http://arxiv.org/abs/2305.10407v1 )

ライセンス: Link先を確認
Nam Ho Koh, Joseph Plata, Joyce Chai(参考訳) アプリケーショントラッキングシステム(ats)は、タレントマネージャー、リクルーター、大学入学者委員会が大量の候補アプリケーションを効率的に処理することを可能にした。 伝統的に、このスクリーニングプロセスは手動で行われ、アプリケーションの数と人間のバイアスの多さによる大きなボトルネックを生み出した。 ChatGPTのような大規模言語モデル(LLM)の出現と、現在の自動アプリケーションのスクリーニングにメソッドを採用する可能性により、さらにバイアスと公平性の問題に対処しなければならない。 本稿では,ChatGPTや他のOpenAI LLMにおける社会的偏見の事例を候補検定の文脈で特定し,定量化し,これらのモデルが採用プロセスにおける既存のバイアスや不平等をいかに持続させるかを示す。

Application Tracking Systems (ATS) have allowed talent managers, recruiters, and college admissions committees to process large volumes of potential candidate applications efficiently. Traditionally, this screening process was conducted manually, creating major bottlenecks due to the quantity of applications and introducing many instances of human bias. The advent of large language models (LLMs) such as ChatGPT and the potential of adopting methods to current automated application screening raises additional bias and fairness issues that must be addressed. In this project, we wish to identify and quantify the instances of social bias in ChatGPT and other OpenAI LLMs in the context of candidate screening in order to demonstrate how the use of these models could perpetuate existing biases and inequalities in the hiring process.
翻訳日:2023-05-18 14:31:34 公開日:2023-05-17
# 変分分類

Variational Classification ( http://arxiv.org/abs/2305.10406v1 )

ライセンス: Link先を確認
Shehzaad Dhuliawala, Mrinmaya Sachan, Carl Allen(参考訳) 本稿では,従来のニューラルネットワークによる分類タスクの新たな拡張について述べる。 変分オートエンコーダと従来のオートエンコーダの関係に類似した潜在変数モデリングを組み込むことにより、敵のアプローチを用いて最適化されたエビデンスローバウンド(ELBO)に基づくトレーニング目標を導出する。 当社のVCモデルは、既成のソフトマックス分類器における暗黙の仮定に代えて、設計選択、特にクラス条件の潜在する事前選択において、よりフレキシブルな柔軟性を実現する。 画像とテキストの分類データセットの実証評価は、ドメイン外データに適用しても、キャリブレーションや対向ロバスト性などの他の望ましい特性を改善しつつ、予測精度を維持することによるアプローチの有効性を示す。

We present a novel extension of the traditional neural network approach to classification tasks, referred to as variational classification (VC). By incorporating latent variable modeling, akin to the relationship between variational autoencoders and traditional autoencoders, we derive a training objective based on the evidence lower bound (ELBO), optimized using an adversarial approach. Our VC model allows for more flexibility in design choices, in particular class-conditional latent priors, in place of the implicit assumptions made in off-the-shelf softmax classifiers. Empirical evaluation on image and text classification datasets demonstrates the effectiveness of our approach in terms of maintaining prediction accuracy while improving other desirable properties such as calibration and adversarial robustness, even when applied to out-of-domain data.
翻訳日:2023-05-18 14:31:19 公開日:2023-05-17
# PaLM 2テクニカルレポート

PaLM 2 Technical Report ( http://arxiv.org/abs/2305.10403v1 )

ライセンス: Link先を確認
Rohan Anil, Andrew M. Dai, Orhan Firat, Melvin Johnson, Dmitry Lepikhin, Alexandre Passos, Siamak Shakeri, Emanuel Taropa, Paige Bailey, Zhifeng Chen, Eric Chu, Jonathan H. Clark, Laurent El Shafey, Yanping Huang, Kathy Meier-Hellstern, Gaurav Mishra, Erica Moreira, Mark Omernick, Kevin Robinson, Sebastian Ruder, Yi Tay, Kefan Xiao, Yuanzhong Xu, Yujing Zhang, Gustavo Hernandez Abrego, Junwhan Ahn, Jacob Austin, Paul Barham, Jan Botha, James Bradbury, Siddhartha Brahma, Kevin Brooks, Michele Catasta, Yong Cheng, Colin Cherry, Christopher A. Choquette-Choo, Aakanksha Chowdhery, Cl\'ement Crepy, Shachi Dave, Mostafa Dehghani, Sunipa Dev, Jacob Devlin, Mark D\'iaz, Nan Du, Ethan Dyer, Vlad Feinberg, Fangxiaoyu Feng, Vlad Fienber, Markus Freitag, Xavier Garcia, Sebastian Gehrmann, Lucas Gonzalez, Guy Gur-Ari, Steven Hand, Hadi Hashemi, Le Hou, Joshua Howland, Andrea Hu, Jeffrey Hui, Jeremy Hurwitz, Michael Isard, Abe Ittycheriah, Matthew Jagielski, Wenhao Jia, Kathleen Kenealy, Maxim Krikun, Sneha Kudugunta, Chang Lan, Katherine Lee, Benjamin Lee, Eric Li, Music Li, Wei Li, YaGuang Li, Jian Li, Hyeontaek Lim, Hanzhao Lin, Zhongtao Liu, Frederick Liu, Marcello Maggioni, Aroma Mahendru, Joshua Maynez, Vedant Misra, Maysam Moussalem, Zachary Nado, John Nham, Eric Ni, Andrew Nystrom, Alicia Parrish, Marie Pellat, Martin Polacek, Alex Polozov, Reiner Pope, Siyuan Qiao, Emily Reif, Bryan Richter, Parker Riley, Alex Castro Ros, Aurko Roy, Brennan Saeta, Rajkumar Samuel, Renee Shelby, Ambrose Slone, Daniel Smilkov, David R. So, Daniel Sohn, Simon Tokumine, Dasha Valter, Vijay Vasudevan, Kiran Vodrahalli, Xuezhi Wang, Pidong Wang, Zirui Wang, Tao Wang, John Wieting, Yuhuai Wu, Kelvin Xu, Yunhan Xu, Linting Xue, Pengcheng Yin, Jiahui Yu, Qiao Zhang, Steven Zheng, Ce Zheng, Weikang Zhou, Denny Zhou, Slav Petrov, Yonghui Wu(参考訳) マルチ言語と推論能力が向上し,従来のPaLMよりも計算効率がよい,最先端の言語モデルであるPaLM 2を紹介する。 PaLM 2はトランスフォーマーベースのモデルであり、目的の混合を用いて訓練されている。 英語と多言語言語に関する広範囲な評価と推論タスクを通じて、PaLM 2は、異なるモデルサイズで下流タスクの品質を大幅に向上し、同時に、PaLMと比較してより高速かつ効率的に推論できることを示した。 この改善された効率により、より広範なデプロイメントが可能になると同時に、モデルがより自然なインタラクションのペースで、より高速に応答できるようになる。 PaLM 2は、BIG-Benchや他の推論タスク上でのPaLMに対する大幅な改善によって実証された堅牢な推論機能を示している。 PaLM 2は、責任あるAI評価スイート上で安定したパフォーマンスを示し、追加のオーバーヘッドや他の機能への影響なしに毒性に対する推論時間制御を可能にする。 全体として、PaLM 2は様々なタスクと能力のセットで最先端のパフォーマンスを達成する。 PaLM 2ファミリーを論じる際には、(様々なサイズの)事前訓練されたモデルと、これらのモデルの微調整されたバリエーションと、これらのモデルを使用するユーザ向け製品とを区別することが重要である。 特に、ユーザー向け製品には、通常、前処理と後処理のステップが追加される。 さらに、基礎となるモデルは時間とともに進化する可能性がある。 したがって、このレポートで報告された結果に正確に適合するユーザ向け製品の性能を期待するべきではない。

We introduce PaLM 2, a new state-of-the-art language model that has better multilingual and reasoning capabilities and is more compute-efficient than its predecessor PaLM. PaLM 2 is a Transformer-based model trained using a mixture of objectives. Through extensive evaluations on English and multilingual language, and reasoning tasks, we demonstrate that PaLM 2 has significantly improved quality on downstream tasks across different model sizes, while simultaneously exhibiting faster and more efficient inference compared to PaLM. This improved efficiency enables broader deployment while also allowing the model to respond faster, for a more natural pace of interaction. PaLM 2 demonstrates robust reasoning capabilities exemplified by large improvements over PaLM on BIG-Bench and other reasoning tasks. PaLM 2 exhibits stable performance on a suite of responsible AI evaluations, and enables inference-time control over toxicity without additional overhead or impact on other capabilities. Overall, PaLM 2 achieves state-of-the-art performance across a diverse set of tasks and capabilities. When discussing the PaLM 2 family, it is important to distinguish between pre-trained models (of various sizes), fine-tuned variants of these models, and the user-facing products that use these models. In particular, user-facing products typically include additional pre- and post-processing steps. Additionally, the underlying models may evolve over time. Therefore, one should not expect the performance of user-facing products to exactly match the results reported in this report.
翻訳日:2023-05-18 14:31:02 公開日:2023-05-17
# 何を見るか、何を読むか? テキスト画像アライメント評価の改善

What You See is What You Read? Improving Text-Image Alignment Evaluation ( http://arxiv.org/abs/2305.10400v1 )

ライセンス: Link先を確認
Michal Yarom, Yonatan Bitton, Soravit Changpinyo, Roee Aharoni, Jonathan Herzig, Oran Lang, Eran Ofek, Idan Szpektor(参考訳) テキストと対応する画像が意味的に一致しているかを自動的に判断することは、視覚言語モデルにとって大きな課題であり、画像から画像への生成や画像からテキストへのタスクに応用されている。 本研究では,テキスト画像アライメントの自動評価手法について検討する。 テキスト・ツー・イメージと画像・ツー・テキストの生成タスクから複数のデータセットにまたがる総合的な評価セットである SeeTRUE をまず紹介する。 次に、アライメントを決定するための2つの自動手法について説明する。まず、質問生成モデルと視覚的質問応答モデルに基づくパイプラインと、マルチモーダル事前学習モデルの微調整によるエンドツーエンド分類手法を用いる。 どちらの手法も、複雑な合成や不自然な画像を含む難解なケースにおいて、様々なテキストイメージアライメントタスクにおいて、従来のアプローチを超越している。 最後に、画像とテキスト間の特定の不一致をローカライズする方法と、テキスト・ツー・イメージ・ジェネレーションにおける候補を自動的にランク付けする方法を示す。

Automatically determining whether a text and a corresponding image are semantically aligned is a significant challenge for vision-language models, with applications in generative text-to-image and image-to-text tasks. In this work, we study methods for automatic text-image alignment evaluation. We first introduce SeeTRUE: a comprehensive evaluation set, spanning multiple datasets from both text-to-image and image-to-text generation tasks, with human judgements for whether a given text-image pair is semantically aligned. We then describe two automatic methods to determine alignment: the first involving a pipeline based on question generation and visual question answering models, and the second employing an end-to-end classification approach by finetuning multimodal pretrained models. Both methods surpass prior approaches in various text-image alignment tasks, with significant improvements in challenging cases that involve complex composition or unnatural images. Finally, we demonstrate how our approaches can localize specific misalignments between an image and a given text, and how they can be used to automatically re-rank candidates in text-to-image generation.
翻訳日:2023-05-18 14:30:40 公開日:2023-05-17
# 高エネルギー物理における逆問題に対する終端変分拡散モデル

End-To-End Latent Variational Diffusion Models for Inverse Problems in High Energy Physics ( http://arxiv.org/abs/2305.10399v1 )

ライセンス: Link先を確認
Alexander Shmakov, Kevin Greif, Michael Fenton, Aishik Ghosh, Pierre Baldi, Daniel Whiteson(参考訳) 大型ハドロン衝突型加速器(LHC)の高エネルギー衝突は、素粒子物理学におけるオープンな問題に対する貴重な洞察を与える。 しかし、測定が他の検出器からの特定の理論的な予測や測定と比較される前に、検出器効果を補正する必要がある。 検出器の観測を基礎衝突の理論量にマッピングするこの \textit{inverse problem} を解く方法は、lhcにおける多くの物理学解析の重要な部分である。 この逆写像を近似するために,様々な生成的深層学習法を調査し,比較した。 本稿では,最先端生成技術アプローチの潜時学習とエンドツーエンドの変分フレームワークを組み合わせた新しい統合アーキテクチャ,潜時変分拡散モデルを提案する。 本稿では,理論力学量の大域的分布の再構築と,学習後の分布の既知物理学的制約への付着性の確保に本手法の有効性を実証する。 統一アプローチは,非相対状態のベースラインよりも20 倍以上,従来の潜在拡散モデルより3 倍小さく,真の分布フリーな距離を実現する。

High-energy collisions at the Large Hadron Collider (LHC) provide valuable insights into open questions in particle physics. However, detector effects must be corrected before measurements can be compared to certain theoretical predictions or measurements from other detectors. Methods to solve this \textit{inverse problem} of mapping detector observations to theoretical quantities of the underlying collision are essential parts of many physics analyses at the LHC. We investigate and compare various generative deep learning methods to approximate this inverse mapping. We introduce a novel unified architecture, termed latent variation diffusion models, which combines the latent learning of cutting-edge generative art approaches with an end-to-end variational framework. We demonstrate the effectiveness of this approach for reconstructing global distributions of theoretical kinematic quantities, as well as for ensuring the adherence of the learned posterior distributions to known physics constraints. Our unified approach achieves a distribution-free distance to the truth of over 20 times less than non-latent state-of-the-art baseline and 3 times less than traditional latent diffusion models.
翻訳日:2023-05-18 14:30:19 公開日:2023-05-17
# RelationMatch: 半教師付き学習におけるバッチ内関係のマッチング

RelationMatch: Matching In-batch Relationships for Semi-supervised Learning ( http://arxiv.org/abs/2305.10397v1 )

ライセンス: Link先を確認
Yifan Zhang, Jingqin Yang, Zhiquan Tan, Yang Yuan(参考訳) 半教師付き学習は、ラベル付きデータをほとんど利用せず、ラベルなしデータから得られる豊富な情報を活用することで顕著な成功を収めた。 しかし、既存のアルゴリズムは通常、同一ソースから拡張されたペアデータポイントの予測の整合に重点を置いており、各バッチ内のポイント間の関係を見落としている。 本稿では,行列クロスエントロピー(mce)損失関数を用いたバッチ内関係を利用する新しい手法であるrelationmatchを提案する。 MCEの適用を通じて,提案手法はさまざまなビジョンデータセットに対して,FixMatchやFlexMatchといった最先端手法の性能を一貫して上回っている。 特に,STL-10データセットでは,40ラベルのみを用いて,FlexMatchよりも精度が15.21%向上した。 さらに,MCEを教師付き学習シナリオに適用し,一貫した改善も観察する。

Semi-supervised learning has achieved notable success by leveraging very few labeled data and exploiting the wealth of information derived from unlabeled data. However, existing algorithms usually focus on aligning predictions on paired data points augmented from an identical source, and overlook the inter-point relationships within each batch. This paper introduces a novel method, RelationMatch, which exploits in-batch relationships with a matrix cross-entropy (MCE) loss function. Through the application of MCE, our proposed method consistently surpasses the performance of established state-of-the-art methods, such as FixMatch and FlexMatch, across a variety of vision datasets. Notably, we observed a substantial enhancement of 15.21% in accuracy over FlexMatch on the STL-10 dataset using only 40 labels. Moreover, we apply MCE to supervised learning scenarios, and observe consistent improvements as well.
翻訳日:2023-05-18 14:30:00 公開日:2023-05-17
# FastComposer: 局所的注意を伴うチューニング不要なマルチオブジェクト画像生成

FastComposer: Tuning-Free Multi-Subject Image Generation with Localized Attention ( http://arxiv.org/abs/2305.10431v1 )

ライセンス: Link先を確認
Guangxuan Xiao, Tianwei Yin, William T. Freeman, Fr\'edo Durand, Song Han(参考訳) 拡散モデルは、特にパーソナライズされた画像の主題駆動生成において、テキストから画像への生成に優れている。 しかし、既存の手法は計算集約性が高く、効率的な配置を阻害する主題固有の微調整のため、非効率である。 また,既存の手法では,被写体間の特徴をブレンドすることが多いため,マルチサブジェクト生成に支障をきたす。 本稿では,テキストから画像への効率良く,パーソナライズされたテキスト対画像生成を実現するfastcomposerを提案する。 FastComposerは、画像エンコーダによって抽出された被写体埋め込みを使用して、拡散モデルにおける一般的なテキスト条件付けを強化する。 マルチオブジェクト生成におけるアイデンティティブレンディング問題に対処するため、FastComposerはトレーニング中に、対象画像内の正しい領域にローカライズされた参照対象の注意を集中させることにより、クロスアテンションなローカライゼーション監視を提案する。 被写体埋め込みのネイティブコンディショニングは被写体オーバーフィットをもたらす。 FastComposerは、被写体駆動画像生成におけるアイデンティティと編集性の両方を維持するために、遅延した被写体条件付けを提案する。 FastComposerは、異なるスタイル、アクション、コンテキストを持つ複数の見えない個人のイメージを生成する。 300$\times$-2500$\times$ speedupを微調整ベースの方法と比較して達成し、新しい被験者には追加ストレージを必要としない。 FastComposerは、効率的でパーソナライズされ、高品質なマルチオブジェクト画像作成の道を開く。 コード、モデル、データセットはhttps://github.com/mit-han-lab/fastcomposerで利用可能である。

Diffusion models excel at text-to-image generation, especially in subject-driven generation for personalized images. However, existing methods are inefficient due to the subject-specific fine-tuning, which is computationally intensive and hampers efficient deployment. Moreover, existing methods struggle with multi-subject generation as they often blend features among subjects. We present FastComposer which enables efficient, personalized, multi-subject text-to-image generation without fine-tuning. FastComposer uses subject embeddings extracted by an image encoder to augment the generic text conditioning in diffusion models, enabling personalized image generation based on subject images and textual instructions with only forward passes. To address the identity blending problem in the multi-subject generation, FastComposer proposes cross-attention localization supervision during training, enforcing the attention of reference subjects localized to the correct regions in the target images. Naively conditioning on subject embeddings results in subject overfitting. FastComposer proposes delayed subject conditioning in the denoising step to maintain both identity and editability in subject-driven image generation. FastComposer generates images of multiple unseen individuals with different styles, actions, and contexts. It achieves 300$\times$-2500$\times$ speedup compared to fine-tuning-based methods and requires zero extra storage for new subjects. FastComposer paves the way for efficient, personalized, and high-quality multi-subject image creation. Code, model, and dataset are available at https://github.com/mit-han-lab/fastcomposer.
翻訳日:2023-05-18 14:24:48 公開日:2023-05-17
# エンド・ツー・エンド自動運転のオープンループ評価の再検討

Rethinking the Open-Loop Evaluation of End-to-End Autonomous Driving in nuScenes ( http://arxiv.org/abs/2305.10430v1 )

ライセンス: Link先を確認
Jiang-Tian Zhai, Ze Feng, Jinhao Du, Yongqiang Mao, Jiang-Jiang Liu, Zichang Tan, Yifu Zhang, Xiaoqing Ye, Jingdong Wang(参考訳) 現代の自動運転システムは通常、知覚、予測、計画という3つの主なタスクに分けられる。 計画作業は、内部意図及び外部環境からの入力に基づいて、自走車の軌道を予測し、それに応じて車両を操作することを含む。 既存の研究の多くは、予測された軌道と地上の真実との衝突率とL2誤差を用いて、nuScenesデータセットの性能を評価する。 本稿では,既存の評価指標を再評価し,異なる手法の優越性を正確に測定するかどうかを検討する。 具体的には、カメラ画像やライダーなどの知覚情報や予測情報を使わずに、生のセンサデータ(例えば過去の軌道、速度など)を入力として、ego車両の将来の軌道を直接出力するmlpベースの方法を設計する。 驚いたことに、このような単純な手法はnuScenesデータセット上で最先端のエンドツーエンドプランニング性能を実現し、平均L2エラーを約30%削減する。 さらに詳細な分析を行い,nuscenesデータセットにおける計画タスクの成功に不可欠な要因について新たな知見を提供する。 我々はまた, ニューScenesにおけるエンドツーエンド自動運転の現在のオープンループ評価手法を再考する必要があることを示唆している。 コードはhttps://github.com/E2E-AD/AD-MLP.comで入手できる。

Modern autonomous driving systems are typically divided into three main tasks: perception, prediction, and planning. The planning task involves predicting the trajectory of the ego vehicle based on inputs from both internal intention and the external environment, and manipulating the vehicle accordingly. Most existing works evaluate their performance on the nuScenes dataset using the L2 error and collision rate between the predicted trajectories and the ground truth. In this paper, we reevaluate these existing evaluation metrics and explore whether they accurately measure the superiority of different methods. Specifically, we design an MLP-based method that takes raw sensor data (e.g., past trajectory, velocity, etc.) as input and directly outputs the future trajectory of the ego vehicle, without using any perception or prediction information such as camera images or LiDAR. Surprisingly, such a simple method achieves state-of-the-art end-to-end planning performance on the nuScenes dataset, reducing the average L2 error by about 30%. We further conduct in-depth analysis and provide new insights into the factors that are critical for the success of the planning task on nuScenes dataset. Our observation also indicates that we need to rethink the current open-loop evaluation scheme of end-to-end autonomous driving in nuScenes. Codes are available at https://github.com/E2E-AD/AD-MLP.
翻訳日:2023-05-18 14:24:24 公開日:2023-05-17
# DoReMi: データ混合の最適化が言語モデルの事前トレーニングを高速化

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining ( http://arxiv.org/abs/2305.10429v1 )

ライセンス: Link先を確認
Sang Michael Xie, Hieu Pham, Xuanyi Dong, Nan Du, Hanxiao Liu, Yifeng Lu, Percy Liang, Quoc V. Le, Tengyu Ma, Adams Wei Yu(参考訳) 事前学習データドメイン(wikipedia、書籍、webテキストなど)の混合比率は、言語モデル(lm)の性能に大きく影響する。 本稿では,minimax optimization (doremi) によるドメインの重み付けを提案する。これはまず,グループ分散ロバスト最適化 (group distributionally robust optimization, group dro) を用いた小さなプロキシモデルを,ダウンストリームタスクを知らずにドメインの重み付け (mixture proportions) を生成する。 次に、これらのドメインウェイトでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。 実験では、280Mパラメータのプロキシモデル上でDoReMiを使用して、8Bパラメータモデル(30倍大きい)をより効率的にトレーニングするためのドメイン重みを求める。 The Pileでは、DoReMiはドメインをダウンウェイトしても、すべてのドメインのパープレキシティを改善します。 DoReMiは、The Pileのデフォルトドメインウェイトを使用してトレーニングされたベースラインモデルに対して平均的な数ショットダウンストリーム精度を6.5%改善し、トレーニングステップの2.6倍の精度でベースライン精度に達する。 GLaMデータセットでは、下流タスクの知識がないDoReMiが、下流タスクにチューニングされたドメインウェイトの使用パフォーマンスにマッチする。

The mixture proportions of pretraining data domains (e.g., Wikipedia, books, web text) greatly affect language model (LM) performance. In this paper, we propose Domain Reweighting with Minimax Optimization (DoReMi), which first trains a small proxy model using group distributionally robust optimization (Group DRO) over domains to produce domain weights (mixture proportions) without knowledge of downstream tasks. We then resample a dataset with these domain weights and train a larger, full-sized model. In our experiments, we use DoReMi on a 280M-parameter proxy model to find domain weights for training an 8B-parameter model (30x larger) more efficiently. On The Pile, DoReMi improves perplexity across all domains, even when it downweights a domain. DoReMi improves average few-shot downstream accuracy by 6.5% over a baseline model trained using The Pile's default domain weights and reaches the baseline accuracy with 2.6x fewer training steps. On the GLaM dataset, DoReMi, which has no knowledge of downstream tasks, even matches the performance of using domain weights tuned on downstream tasks.
翻訳日:2023-05-18 14:24:00 公開日:2023-05-17
# 並列デコードによるトランスフォーマ推論の高速化

Accelerating Transformer Inference for Translation via Parallel Decoding ( http://arxiv.org/abs/2305.10427v1 )

ライセンス: Link先を確認
Andrea Santilli, Silvio Severino, Emilian Postolache, Valentino Maiorca, Michele Mancusi, Riccardo Marin, Emanuele Rodol\`a(参考訳) 自動回帰復号は機械翻訳(MT)の変換器の効率を制限する。 コミュニティは、この問題を解決するための特定のネットワークアーキテクチャと学習ベースの手法を提案し、それは高価でMTモデルの変更を必要とし、翻訳品質のコストで推論速度を取引する。 本稿では,この問題を復号化アルゴリズムの観点から,より探索的ではなく,むしろ説得力のある方向として扱うことを提案する。 そこで本研究では,mtの標準自己回帰復号法をjacobi法とgauss-seidel固定点反復法を併用した並列定式化法で再構成し,高速化する。 この定式化により、翻訳品質を維持しながら、トレーニングや修正なしに既存のモデルを高速化することができる。 我々は3つの並列復号アルゴリズムを示し、異なる言語やモデル上でそれらをテストし、並列化が標準の自己回帰復号法である38%w.r.tに高速化をもたらすことを示す。 最後に、デコード依存グラフ可視化(DDGviz)を導入し、トークン間の条件依存をモデルがどのように学習したかを確認し、デコード手順を検査する。

Autoregressive decoding limits the efficiency of transformers for Machine Translation (MT). The community proposed specific network architectures and learning-based methods to solve this issue, which are expensive and require changes to the MT model, trading inference speed at the cost of the translation quality. In this paper, we propose to address the problem from the point of view of decoding algorithms, as a less explored but rather compelling direction. We propose to reframe the standard greedy autoregressive decoding of MT with a parallel formulation leveraging Jacobi and Gauss-Seidel fixed-point iteration methods for fast inference. This formulation allows to speed up existing models without training or modifications while retaining translation quality. We present three parallel decoding algorithms and test them on different languages and models showing how the parallelization introduces a speedup up to 38% w.r.t. the standard autoregressive decoding and nearly 2x when scaling the method on parallel resources. Finally, we introduce a decoding dependency graph visualizer (DDGviz) that let us see how the model has learned the conditional dependence between tokens and inspect the decoding procedure.
翻訳日:2023-05-18 14:23:36 公開日:2023-05-17
# SLiC-HF:ヒトフィードバックを用いたシーケンス類似校正

SLiC-HF: Sequence Likelihood Calibration with Human Feedback ( http://arxiv.org/abs/2305.10425v1 )

ライセンス: Link先を確認
Yao Zhao, Rishabh Joshi, Tianqi Liu, Misha Khalman, Mohammad Saleh, Peter J. Liu(参考訳) 人間のフィードバックから学ぶことは、言語モデルを人間の好みに合わせるのに効果的であることが示されている。 RLHF(Reinforcement Learning from Human Feedback)は、人間の嗜好データに基づいてトレーニングされた報酬モデルから割り当てられた報酬スコアを使用して、言語モデルを最適化する。 本研究では、最近導入されたSequence Likelihood Calibration(SLiC)を用いて、人間の嗜好(SLiC-HF)を効果的に学習する方法を示す。 さらに、これは、オフラインのRLデータと同様に、異なるモデルのために収集された人間のフィードバックデータで実現可能であることを実証する。 TL;DR要約タスクの自動評価実験により、SLiC-HFは教師付き微調整ベースラインを大幅に改善することが示された。 さらに、SLiC-HFは、過去の作業で使われたPPO RLHFの実装に対抗して、実装がずっと簡単で、チューニングが容易で、実際により計算的に効率的である。

Learning from human feedback has been shown to be effective at aligning language models with human preferences. Past work has often relied on Reinforcement Learning from Human Feedback (RLHF), which optimizes the language model using reward scores assigned from a reward model trained on human preference data. In this work we show how the recently introduced Sequence Likelihood Calibration (SLiC), can also be used to effectively learn from human preferences (SLiC-HF). Furthermore, we demonstrate this can be done with human feedback data collected for a different model, similar to off-policy, offline RL data. Automatic and human evaluation experiments on the TL;DR summarization task show that SLiC-HF significantly improves supervised fine-tuning baselines. Furthermore, SLiC-HF presents a competitive alternative to the PPO RLHF implementation used in past work while being much simpler to implement, easier to tune and more computationally efficient in practice.
翻訳日:2023-05-18 14:23:16 公開日:2023-05-17
# ZeroFlow: 蒸留による高速ゼロラベルシーンフロー

ZeroFlow: Fast Zero Label Scene Flow via Distillation ( http://arxiv.org/abs/2305.10424v1 )

ライセンス: Link先を確認
Kyle Vedder, Neehar Peri, Nathaniel Chodosh, Ishan Khatri, Eric Eaton, Dinesh Jayaraman, Yang Liu, Deva Ramanan, James Hays(参考訳) シーンフロー推定は、時間的に連続する点雲間の3次元運動場を記述するタスクである。 State-of-the-artメソッドは強力な事前処理とテストタイム最適化技術を使用するが、大規模ポイントクラウドでは数十秒の順序を必要とするため、オープンワールドオブジェクト検出のようなリアルタイムアプリケーションではコンピュータビジョンプリミティブとして使用できない。 フィードフォワード法はかなり高速で、大規模なポイントクラウドでは数十から数百ミリ秒の順序で実行されるが、高価な人的監督が必要である。 両制約に対処するため,ラベルなし最適化手法を用いて,フィードフォワードモデルを監督する擬似ラベルを生成する簡易蒸留フレームワークであるScene Flow via Distillationを提案する。 このフレームワークのインスタンス化であるZeroFlowは、ゼロヒューマンラベルを使用しながら、最先端の手法と競合する大規模ポイントクラウド上で、リアルタイムにシーンフロー推定を生成する。 特に、テスト時にZeroFlowは、大規模なポイントクラウド上のラベルのない最先端の最適化ベースのメソッドよりも1000$\times$高速で、そのデータの人的アノテーションのコストと比較してラベル付きデータでトレーニングするコストが1000$\times$以上である。 研究の再利用を容易にするため、Argoverse 2とWaymo Openデータセット用のコード、トレーニング済みモデルウェイト、高品質な擬似ラベルをリリースしました。

Scene flow estimation is the task of describing the 3D motion field between temporally successive point clouds. State-of-the-art methods use strong priors and test-time optimization techniques, but require on the order of tens of seconds for large-scale point clouds, making them unusable as computer vision primitives for real-time applications such as open world object detection. Feed forward methods are considerably faster, running on the order of tens to hundreds of milliseconds for large-scale point clouds, but require expensive human supervision. To address both limitations, we propose Scene Flow via Distillation, a simple distillation framework that uses a label-free optimization method to produce pseudo-labels to supervise a feed forward model. Our instantiation of this framework, ZeroFlow, produces scene flow estimates in real-time on large-scale point clouds at quality competitive with state-of-the-art methods while using zero human labels. Notably, at test-time ZeroFlow is over 1000$\times$ faster than label-free state-of-the-art optimization-based methods on large-scale point clouds and over 1000$\times$ cheaper to train on unlabeled data compared to the cost of human annotation of that data. To facilitate research reuse, we release our code, trained model weights, and high quality pseudo-labels for the Argoverse 2 and Waymo Open datasets.
翻訳日:2023-05-18 14:22:57 公開日:2023-05-17
# 胸部X線画像を用いたマルチクラスコビッド19分類のための塚本神経ファジィモデルの進化

Evolving Tsukamoto Neuro Fuzzy Model for Multiclass Covid 19 Classification with Chest X Ray Images ( http://arxiv.org/abs/2305.10421v1 )

ライセンス: Link先を確認
Marziyeh Rezaei, Sevda Molani, Negar Firoozeh, Hossein Abbasi, Farzan Vahedifard, Maysam Orouskhani(参考訳) 急速な人口増加と迅速な意思決定のための人工知能の使用の必要性のため、機械学習に基づく疾患検出モデルと異常識別システムの開発は、新型コロナウイルスが世界で最も重篤な疾患の1つとなったため、医療診断のレベルを大幅に改善した。 本稿では,Covid 19の検出のためのマシンリアニングに基づくフレームワークを提案する。 提案モデルでは, ツカモト神経ファジィ推論ネットワークを用いてコビッド19病と正常例, 肺炎例の鑑別と鑑別を行う。 従来のトレーニング手法では、勾配に基づくアルゴリズムと再帰最小二乗法によりニューロファジィモデルのパラメータをチューニングするが、進化に基づく最適化であるCat Swarmアルゴリズムを用いてパラメータを更新する。 また、胸部x線画像から抽出した6つのテクスチャ特徴をモデル入力としてnを与える。 最後に,胸部X線データを用いてCovid 19の検出を行った。 シミュレーションの結果,提案モデルの精度は98.51%,感度は98.35%,特異性は98.08%,F1スコアは98.17%であった。

Du e to rapid population growth and the need to use artificial intelligence to make quick decisions, developing a machine learning-based disease detection model and abnormality identification system has greatly improved the level of medical diagnosis Since COVID-19 has become one of the most severe diseases in the world, developing an automatic COVID-19 detection framework helps medical doctors in the diagnostic process of disease and provides correct and fast results. In this paper, we propose a machine lear ning based framework for the detection of Covid 19. The proposed model employs a Tsukamoto Neuro Fuzzy Inference network to identify and distinguish Covid 19 disease from normal and pneumonia cases. While the traditional training methods tune the parameters of the neuro-fuzzy model by gradient-based algorithms and recursive least square method, we use an evolutionary-based optimization, the Cat swarm algorithm to update the parameters. In addition, six texture features extracted from chest X-ray images are give n as input to the model. Finally, the proposed model is conducted on the chest X-ray dataset to detect Covid 19. The simulation results indicate that the proposed model achieves an accuracy of 98.51%, sensitivity of 98.35%, specificity of 98.08%, and F1 score of 98.17%.
翻訳日:2023-05-18 14:22:31 公開日:2023-05-17
# CLIP-GCD: 単純な言語ガイドによる一般化カテゴリディスカバリ

CLIP-GCD: Simple Language Guided Generalized Category Discovery ( http://arxiv.org/abs/2305.10420v1 )

ライセンス: Link先を確認
Rabah Ouldnoughi, Chia-Wen Kuo, Zsolt Kira(参考訳) 一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。 従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、さらに単純なクラスタリング手法を用いた。 本稿では,これらの手法は,まだ流通外のカテゴリーでは性能が劣る傾向にあり,重要な要素であるオブジェクトカテゴリ間の意味的関係を生かしていないことを示唆する。 そこで我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。 まず,ユニモーダル機能をクリップに置き換えることで,ゼロショット性能にインスパイアされた強力なベースラインを確立する。 第2に、ラベル付きおよびラベルなし集合のためのテキストコーパスからテキスト記述をマイニングすることにより、CLIPの対応した視覚言語表現を活用する新しい検索機構を提案する。 画像の視覚的エンコーディングとコーパスのテキストエンコーディングのアライメントを用いて、トップkのテキストを検索し、埋め込みを組み込んで、共同画像+テキスト半教師付きクラスタリングを行う。 我々は、厳密な実験とアブレーションを行い(どこから取り出すか、どのくらい取り出すか、どのように情報を結合するかを含む)、分散領域を含むいくつかのデータセットで結果を検証する。

Generalized Category Discovery (GCD) requires a model to both classify known categories and cluster unknown categories in unlabeled data. Prior methods leveraged self-supervised pre-training combined with supervised fine-tuning on the labeled data, followed by simple clustering methods. In this paper, we posit that such methods are still prone to poor performance on out-of-distribution categories, and do not leverage a key ingredient: Semantic relationships between object categories. We therefore propose to leverage multi-modal (vision and language) models, in two complementary ways. First, we establish a strong baseline by replacing uni-modal features with CLIP, inspired by its zero-shot performance. Second, we propose a novel retrieval-based mechanism that leverages CLIP's aligned vision-language representations by mining text descriptions from a text corpus for the labeled and unlabeled set. We specifically use the alignment between CLIP's visual encoding of the image and textual encoding of the corpus to retrieve top-k relevant pieces of text and incorporate their embeddings to perform joint image+text semi-supervised clustering. We perform rigorous experimentation and ablations (including on where to retrieve from, how much to retrieve, and how to combine information), and validate our results on several datasets including out-of-distribution domains, demonstrating state-of-art results.
翻訳日:2023-05-18 14:22:06 公開日:2023-05-17
# 多層3Dガーメントアニメーションを目指して

Towards Multi-Layered 3D Garments Animation ( http://arxiv.org/abs/2305.10418v1 )

ライセンス: Link先を確認
Yidi Shao, Chen Change Loy, Bo Dai(参考訳) 3次元衣料アニメーションの現実的なダイナミクスを模倣することは、多層衣料の複雑な性質と様々な外力によって難しい課題である。 既存のアプローチは主に、人間の体だけによって駆動され、一般的なシナリオを扱うのに苦労する単層衣服に焦点を当てている。 本稿では,マイクロ物理システムにおいて,衣服レベルのアニメーションを粒子間相互作用としてモデル化する新しいデータ駆動方式 layernet を提案する。 布地を2段階構造階層のパッチレベル粒子として表現することでシミュレーション効率を向上する。 さらに, 物理系の回転不変性と付加性を利用して外力のモデル化を行う新しい回転等価変換法を提案する。 提案手法の有効性を検証し,実験環境と実世界のシナリオのギャップを埋めるために,人体とランダムにサンプリングされた風の両方によって駆動される多層衣服の4,900種類の動的組み合わせの700Kフレームを含む,新しい挑戦的データセットD-LAYERSを導入する。 実験の結果,layernetは定量的にも質的にも優れた性能を発揮することがわかった。 データセットとコードはhttps://mmlab-ntu.github.io/project/layersnet/index.htmlで公開します。

Mimicking realistic dynamics in 3D garment animations is a challenging task due to the complex nature of multi-layered garments and the variety of outer forces involved. Existing approaches mostly focus on single-layered garments driven by only human bodies and struggle to handle general scenarios. In this paper, we propose a novel data-driven method, called LayersNet, to model garment-level animations as particle-wise interactions in a micro physics system. We improve simulation efficiency by representing garments as patch-level particles in a two-level structural hierarchy. Moreover, we introduce a novel Rotation Equivalent Transformation that leverages the rotation invariance and additivity of physics systems to better model outer forces. To verify the effectiveness of our approach and bridge the gap between experimental environments and real-world scenarios, we introduce a new challenging dataset, D-LAYERS, containing 700K frames of dynamics of 4,900 different combinations of multi-layered garments driven by both human bodies and randomly sampled wind. Our experiments show that LayersNet achieves superior performance both quantitatively and qualitatively. We will make the dataset and code publicly available at https://mmlab-ntu.github.io/project/layersnet/index.html .
翻訳日:2023-05-18 14:21:40 公開日:2023-05-17
# scratch copilot evaluation: 家族のためのai支援クリエイティブコーディングの評価

Scratch Copilot Evaluation: Assessing AI-Assisted Creative Coding for Families ( http://arxiv.org/abs/2305.10417v1 )

ライセンス: Link先を確認
Stefania Druga and Nancy Otero(参考訳) AIは家族のための創造的なコーディング体験をどのように強化するか? 本研究では,Scratch を用いた家族の創造的コーディングを支援するための大規模言語モデル (LLM) の可能性を探る。 プロトタイプAIアシスタントを含むこれまでのユーザ調査に基づいて、3つの評価シナリオを考案し、LLMが家族がゲームコードを理解し、プログラムをデバッグし、将来のプロジェクトのための新しいアイデアを生成するのに役立つかどうかを判断した。 シナリオ毎に22のScratchプロジェクトを利用して,LLMから実行タスクと不要なレスポンスを生成し,120のクリエイティブコーディングサポートシナリオデータセットを作成した。 さらに, 著者らは, 精度, 教育的価値, 年齢に応じた言語を独立に評価した。 以上の結果から,LLMはタスクや評価基準の相違により,全体の成功率を80%以上達成できた。 この研究は、創造的なファミリーコーディングにLLMを使うことに関する貴重な情報を提供し、将来のAI支援コーディングアプリケーションの設計ガイドラインを提示する。 評価フレームワークはラベル付き評価データとともに公開されています。

How can AI enhance creative coding experiences for families? This study explores the potential of large language models (LLMs) in helping families with creative coding using Scratch. Based on our previous user study involving a prototype AI assistant, we devised three evaluation scenarios to determine if LLMs could help families comprehend game code, debug programs, and generate new ideas for future projects. We utilized 22 Scratch projects for each scenario and generated responses from LLMs with and without practice tasks, resulting in 120 creative coding support scenario datasets. In addition, the authors independently evaluated their precision, pedagogical value, and age-appropriate language. Our findings show that LLMs achieved an overall success rate of more than 80\% on the different tasks and evaluation criteria. This research offers valuable information on using LLMs for creative family coding and presents design guidelines for future AI-supported coding applications. Our evaluation framework, together with our labeled evaluation data, is publicly available.
翻訳日:2023-05-18 14:21:16 公開日:2023-05-17
# 中性子干渉法における位相渦格子

Phase Vortex Lattices in Neutron Interferometry ( http://arxiv.org/abs/2205.00536v3 )

ライセンス: Link先を確認
Niels Geerits and Hartmut Lemmel and Anna-Sophie Berger and Stephan Sponar(参考訳) ネストループ干渉計に挿入されたアルミニウムプリズムの組み合わせを用いて、軌道角運動量l_z=0.35の中性子位相渦格子を220ミクロンの長さスケールで生成し、伝播方向を横切る。 本手法は,最近開発された磁気的手法の一般化であり,強い核相互作用を活用できる。 これらのプリズムの強いポテンシャルにより、より強い格子が生成される。 中性子化合物光学およびスプリット結晶干渉計の最近の進歩と組み合わせることで、本手法は固有の中性子軌道角運動量状態の生成に適用できる。 最後に、現在の状態では、我々の設定は異方性極小角中性子散乱に直接適用可能であると断言する。

A combination of aluminium prisms inserted into a nested loop interferometer is used to generate a neutron phase vortex lattice with significant extrinsic orbital angular momentum, L_z=0.35, on a length scale of 220 microns, transverse to the propagation direction. Our method is a generalization of recently developed magnetic methods, such that we can exploit the strong nuclear interaction. The stronger potential of these prisms allows for the generation of a tighter lattice. Combined with recent advances in neutron compound optics and split crystal interferometry our method may be applied to the generation of intrinsic neutron orbital angular momentum states. Finally, we assert that, in its current state, our setup is directly applicable to anisotropic ultra small angle neutron scattering.
翻訳日:2023-05-18 12:01:54 公開日:2023-05-17
# 凸制約による最適化問題に対するDNNソリューションの実現とその直流最適潮流問題への応用

Ensuring DNN Solution Feasibility for Optimization Problems with Convex Constraints and Its Application to DC Optimal Power Flow Problems ( http://arxiv.org/abs/2112.08091v3 )

ライセンス: Link先を確認
Tianyu Zhao, Xiang Pan, Minghua Chen, and Steven H. Low(参考訳) ソリューションの実現性を保証することは、制約付き最適化問題を解決するためのDeep Neural Network (DNN) スキームを開発する上で重要な課題である。 本稿では,制約キャリブレーションの軽度条件を満たす上で,コンベックス制約や一般目的関数といった問題に対するDNNソリューションの実現性を保証するための「予防学習」フレームワークを提案する。 一般性を失うことなく、不平等な制約だけの問題に焦点を合わせます。 DNNトレーニングで使用される不等式制約を体系的に校正し、予測誤差を予測し、結果の解決が可能であることを保証する。 キャリブレーションサイズとDNNサイズを特徴付けることで,汎用性を確保する。 実現可能性保証を犠牲にすることなく,dnnの最適性性能を向上させるための新しいadversarial-sample aware trainingアルゴリズムを提案する。 全体として、フレームワークは2つのDNNを提供する。 十分なDNNサイズを特徴付けることによる1つは、普遍的実現性を保証する一方で、提案したトレーニングアルゴリズムのもう1つは、最適化をさらに改善し、DNNの普遍的実現性を同時に維持する。 本稿では,グリッド動作における直流最適潮流問題の解法として,DeepOPF+を開発した。 IEEEテストケースでのシミュレーション結果から、100%の実現性と一貫性のある最適性損失($0.19%)と(最大$\times$228)を、最先端の解決器と比較すると、既存の強力なDNNベースラインを上回っていることが分かる。 また,このフレームワークを非凸問題に適用し,既存のスキームに対する性能上の優位性を示す。

Ensuring solution feasibility is a key challenge in developing Deep Neural Network (DNN) schemes for solving constrained optimization problems, due to inherent DNN prediction errors. In this paper, we propose a ``preventive learning'' framework to guarantee DNN solution feasibility for problems with convex constraints and general objective functions without post-processing, upon satisfying a mild condition on constraint calibration. Without loss of generality, we focus on problems with only inequality constraints. We systematically calibrate inequality constraints used in DNN training, thereby anticipating prediction errors and ensuring the resulting solutions remain feasible. We characterize the calibration magnitudes and the DNN size sufficient for ensuring universal feasibility. We propose a new Adversarial-Sample Aware training algorithm to improve DNN's optimality performance without sacrificing feasibility guarantee. Overall, the framework provides two DNNs. The first one from characterizing the sufficient DNN size can guarantee universal feasibility while the other from the proposed training algorithm further improves optimality and maintains DNN's universal feasibility simultaneously. We apply the framework to develop DeepOPF+ for solving essential DC optimal power flow problems in grid operation. Simulation results over IEEE test cases show that it outperforms existing strong DNN baselines in ensuring 100% feasibility and attaining consistent optimality loss ($<$0.19%) and speedup (up to $\times$228) in both light-load and heavy-load regimes, as compared to a state-of-the-art solver. We also apply our framework to a non-convex problem and show its performance advantage over existing schemes.
翻訳日:2023-05-18 12:01:42 公開日:2023-05-17
# カオスにおける直交多項式近似と拡張動的モード分解

Orthogonal polynomial approximation and Extended Dynamic Mode Decomposition in chaos ( http://arxiv.org/abs/2305.08074v2 )

ライセンス: Link先を確認
Caroline L. Wormell(参考訳) extended dynamic mode decomposition (edmd) は、物理科学において広く取り上げられている、ダイナミクスの予測とモデル還元のためのデータ駆動ツールである。 この手法は概念的には単純であるが、決定論的カオスでは、その性質が何であるか、何に収束するかは明らかではない。 特に、EDMDの最小二乗近似がカオス力学を理解するのに必要な正規関数のクラスをどのように扱うかは明らかではない。 本稿では、カオス写像の最も単純な例である円の膨張写像を解析する、EDMDの厳密な一般理論を開発する。 これを実現するために、単位円(OPUC)上の直交多項式の理論において新しい結果を証明し、転送作用素理論から方法を適用する。 無限データ極限において、最小二乗射影は三角多項式可観測辞書に対して指数関数的に効率的であることを示す。 その結果,edmdを用いて生成された予測データとクープマンスペクトルデータは,辞書のサイズが指数関数的に速く,物理的に有意な限界に収束することが示された。 これは、比較的小さな多項式辞書だけでは、サンプリング測度が均一でない場合でも、EDMDは非常に効果的であることを示す。 さらに, OPUCの結果から, データに基づく最小二乗予測が極めて効果的な近似手法である可能性が示唆された。

Extended Dynamic Mode Decomposition (EDMD) is a data-driven tool for forecasting and model reduction of dynamics, which has been extensively taken up in the physical sciences. While the method is conceptually simple, in deterministic chaos it is unclear what its properties are or even what it converges to. In particular, it is not clear how EDMD's least-squares approximation treats the classes of regular functions needed to make sense of chaotic dynamics. In this paper we develop a general, rigorous theory of EDMD on the simplest examples of chaotic maps: analytic expanding maps of the circle. To do this, we prove a new result in the theory of orthogonal polynomials on the unit circle (OPUC) and apply methods from transfer operator theory. We show that in the infinite-data limit, the least-squares projection is exponentially efficient for trigonometric polynomial observable dictionaries. As a result, we show that the forecasts and Koopman spectral data produced using EDMD in this setting converge to the physically meaningful limits, exponentially quickly in the size of the dictionary. This demonstrates that with only a relatively small polynomial dictionary, EDMD can be very effective, even when the sampling measure is not uniform. Furthermore, our OPUC result suggests that data-based least-squares projections may be a very effective approximation strategy.
翻訳日:2023-05-18 11:54:00 公開日:2023-05-17
# 対角情報を用いた連続視覚言語表現学習

Continual Vision-Language Representation Learning with Off-Diagonal Information ( http://arxiv.org/abs/2305.07437v4 )

ライセンス: Link先を確認
Zixuan Ni and Longhui Wei and Siliang Tang and Yueting Zhuang and Qi Tian(参考訳) CLIPのような大規模なマルチモーダルなコントラスト学習フレームワークは、トレーニングに大量の画像テキストサンプルを必要とする。 しかし、これらのサンプルは常に実際のシナリオで継続的に収集される。 本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。 純粋画像の自己教師型学習法に基づく連続学習とは違って,CLIPの性能劣化は重要で無視できない。 空間幾何学的視点から連続的CLIPトレーニングにおけるモデル表現空間の変化を分析することにより、これらの空間変動を空間障害(SD)として探索・要約し、モーダル内回転とモーダル間偏差に分割することができる。 さらに,SDがCLIPのクロスモーダル検索タスクの性能低下につながることを実証的,理論的に実証した。 SDを緩和するために,新たな視覚言語表現学習フレームワークMod-Xを提案する。 コントラスト行列のオフ対角情報分布を選択的に整列させることにより、mod-xは、新しいトレーニングデータ領域を連続的に適合させる間、旧データ領域のマルチモーダル表現空間アライメントを維持してマルチモーダルモデルの能力を向上させる。 スケールやスコープの異なるデータセットを用いた実験により,提案手法の有効性が実証された。

Large-scale multi-modal contrastive learning frameworks like CLIP typically require a large amount of image-text samples for training. However, these samples are always collected continuously in real scenarios. This paper discusses the feasibility of continual CLIP training using streaming data. Unlike continual learning based on self-supervised learning methods for pure images, which is empirically robust against catastrophic forgetting, CLIP's performance degeneration in the continual setting is significant and non-neglectable. By analyzing the changes in the model's representation space during continual CLIP training from a spatial geometry perspective, we explore and summarize these spatial variations as Spatial Disorder (SD), which can be divided into Intra-modal Rotation and Inter-modal Deviation. Moreover, we empirically and theoretically demonstrate how SD leads to a performance decline for CLIP on cross-modal retrieval tasks. To alleviate SD, we propose a new continual vision-language representation learning framework Mod-X: Maintain off-diagonal information-matriX. By selectively aligning the off-diagonal information distribution of contrastive matrices, the Mod-X improves the capability of the multi-modal model by maintaining the multi-modal representation space alignment on the old data domain during continuously fitting the new training data domain. Experiments on commonly used datasets with different scales and scopes have demonstrated the effectiveness of our method.
翻訳日:2023-05-18 11:53:11 公開日:2023-05-17
# 深層学習に基づく単分子宇宙空間の推定に関する調査:現状,限界,展望

A Survey on Deep Learning-Based Monocular Spacecraft Pose Estimation: Current State, Limitations and Prospects ( http://arxiv.org/abs/2305.07348v3 )

ライセンス: Link先を確認
Leo Pauly, Wassim Rharbaoui, Carl Shneider, Arunkumar Rathinam, Vincent Gaudilliere, Djamila Aouada(参考訳) 非協力的な宇宙船の姿勢を推定することは、軌道上への自動ビジョンベースのシステムの導入を可能にする重要なコンピュータビジョンの問題である。 コンピュータビジョンの一般的な傾向に続き、この問題を解決するためにディープラーニング(DL)手法を活用する研究がますます増えている。 しかし、有望な研究段階の結果にもかかわらず、そのような方法が現実のミッションで使われるのを防ぐ大きな課題が今も残っている。 特に、そのような計算集約アルゴリズムの展開はまだ検討されていないが、実際の画像の合成とテストのトレーニングではパフォーマンスが低下している。 本調査の主な目的は、現在のDLベースの宇宙船のポーズ推定手法を包括的に記述することである。 第二の目標は、信頼性の高い自律視覚ベースのアプリケーションに対して、DLベースの宇宙船の効果的な配置に対する制限を定義することである。 この目的のために、調査はまず、ハイブリッドなモジュラーパイプラインとエンドツーエンドの直接回帰メソッドという2つのアプローチに従って、既存のアルゴリズムをまとめる。 アルゴリズムの比較は、ポーズの精度だけでなく、ネットワークアーキテクチャやモデルのサイズにも焦点をあてることで、潜在的な展開を念頭に置いている。 次に、現在の単分子宇宙船がこれらの手法を訓練・試験するために使用する推定データセットについて述べる。 データ生成方法:シミュレータとテストベッド、ドメインギャップ、合成生成画像とラボ/スペース収集画像と潜在的なソリューション間のパフォーマンス低下についても論じる。 最後に、この分野におけるオープンな研究課題と今後の方向性を提示し、他のコンピュータビジョンアプリケーションと平行に描画する。

Estimating the pose of an uncooperative spacecraft is an important computer vision problem for enabling the deployment of automatic vision-based systems in orbit, with applications ranging from on-orbit servicing to space debris removal. Following the general trend in computer vision, more and more works have been focusing on leveraging Deep Learning (DL) methods to address this problem. However and despite promising research-stage results, major challenges preventing the use of such methods in real-life missions still stand in the way. In particular, the deployment of such computation-intensive algorithms is still under-investigated, while the performance drop when training on synthetic and testing on real images remains to mitigate. The primary goal of this survey is to describe the current DL-based methods for spacecraft pose estimation in a comprehensive manner. The secondary goal is to help define the limitations towards the effective deployment of DL-based spacecraft pose estimation solutions for reliable autonomous vision-based applications. To this end, the survey first summarises the existing algorithms according to two approaches: hybrid modular pipelines and direct end-to-end regression methods. A comparison of algorithms is presented not only in terms of pose accuracy but also with a focus on network architectures and models' sizes keeping potential deployment in mind. Then, current monocular spacecraft pose estimation datasets used to train and test these methods are discussed. The data generation methods: simulators and testbeds, the domain gap and the performance drop between synthetically generated and lab/space collected images and the potential solutions are also discussed. Finally, the paper presents open research questions and future directions in the field, drawing parallels with other computer vision applications.
翻訳日:2023-05-18 11:52:46 公開日:2023-05-17
# 準二次元量子異常に対する着飾った分子理論

The dressed molecules theory for the quasi-two-dimensional quantum anomaly ( http://arxiv.org/abs/2305.07210v3 )

ライセンス: Link先を確認
Fan Wu, Jian-shen Hu and Lianyi He(参考訳) この研究において、服を着た分子理論は、最近の実験系における呼吸モードの2次元量子異常を記述するために用いられる。 平均場、ガウス対ゆらぎ理論の助けを借りて、我々は、アキシャル励起状態とフェシュバッハ分子状態を特徴づけるために服を着た分子状態を使用し、完全な低エネルギー効果理論を提案する。 バーディーン=クーパー=シュリーファー(BCS)超流動からボース=アインシュタイン凝縮体(BEC)へのクロスオーバー全体において、我々は低エネルギー領域における2次元実験系を正確に記述できることを示した。 呼吸モードの周波数が期待より小さくなる実験結果について, 完璧に解説する。 擬似低次元量子系における共形異常を理解するためには、2次元フェルミオンの着衣分子理論の確立が不可欠である。

In this work, the dressed molecules theory is used to describe the two-dimensional quantum anomaly of breathing mode in the recent experimental system\cite{Holten2018,Peppler2018}. With the aid of a beyond mean-field, Gaussian pair fluctuation theory, we employ the dressed molecules states to characterize the axial excited states and the Feshbach molecular states, and propose a complete low energy effective theory. We show that, in the whole crossover from a Bardeen-Cooper-Schrieffer (BCS) superfluid to a Bose-Einstein condensate (BEC), our theory can describe the two-dimensional experimental systems precisely in low energe region. We explain the the puzzling experimental observations of the smaller than expected breathing mode frequency perfectly. Our establishment of the dressed molecules theory for 2D fermions is crucial to understand the conformal anomaly in the quasi low-dimensional quantum systems.
翻訳日:2023-05-18 11:52:19 公開日:2023-05-17
# k-unimorph:韓国ユニバーサルモルフォロジーとその特徴スキーマ

K-UniMorph: Korean Universal Morphology and its Feature Schema ( http://arxiv.org/abs/2305.06335v3 )

ライセンス: Link先を確認
Eunkyul Leah Jo and Kyuwon Kim and Xihan Wu and KyungTae Lim and Jungyeul Park and Chulwoo Park(参考訳) 本稿では,韓国語のための新しいユニバーサルモルフォロジーデータセットを提案する。 以前は、韓国語は数百の多種多様な世界言語の中で形態学的パラダイムの分野で過小評価されていた。 そこで本稿では,韓国語に対するこの普遍形態学パラダイムを提案する。 K-UniMorphデータセットでは、各文法的基準を言語終末について詳細に概説し、屈折形を抽出する方法を明らかにし、形態的スキーマをどのように生成するかを示す。 本データセットは,韓国語におけるSylak-Glassman et al. (2015) とSylak-Glassman (2016) による形態的特徴スキーマを採用し,Sejong morphologically analysis corpus から入力動詞を抽出した。 データ作成中,本手法ではsejongコーパスからの変換の正確性についても検討する。 さらに,韓国語の3つの単語形式(文字,音節,形態素)を用いて屈折処理を行う。 最後に,韓国の形態的パラダイムとデータセットの今後の展望について論じる。

We present in this work a new Universal Morphology dataset for Korean. Previously, the Korean language has been underrepresented in the field of morphological paradigms amongst hundreds of diverse world languages. Hence, we propose this Universal Morphological paradigms for the Korean language that preserve its distinct characteristics. For our K-UniMorph dataset, we outline each grammatical criterion in detail for the verbal endings, clarify how to extract inflected forms, and demonstrate how we generate the morphological schemata. This dataset adopts morphological feature schema from Sylak-Glassman et al. (2015) and Sylak-Glassman (2016) for the Korean language as we extract inflected verb forms from the Sejong morphologically analyzed corpus that is one of the largest annotated corpora for Korean. During the data creation, our methodology also includes investigating the correctness of the conversion from the Sejong corpus. Furthermore, we carry out the inflection task using three different Korean word forms: letters, syllables and morphemes. Finally, we discuss and describe future perspectives on Korean morphological paradigms and the dataset.
翻訳日:2023-05-18 11:51:43 公開日:2023-05-17
# シナジー関数の分散: 機械学習説明可能性のためのゲーム理論的相互作用手法の統合

Distributing Synergy Functions: Unifying Game-Theoretic Interaction Methods for Machine-Learning Explainability ( http://arxiv.org/abs/2305.03100v3 )

ライセンス: Link先を確認
Daniel Lundstrom and Meisam Razaviyayn(参考訳) ディープラーニングはコンピュータビジョンから自然言語処理まで、機械学習の多くの領域に革命をもたらしたが、これらの高性能モデルは一般に「ブラックボックス」である。 このようなモデルを説明することで、AIによる意思決定に対する透明性と信頼が向上し、堅牢性や公正性といった他の実践的なニーズを理解する上で必要となる。 モデルの透明性を高める一般的な手段は、個々の入力がモデル出力(属性と呼ばれる)と入力のグループ間の相互作用の大きさにどのように貢献するかを定量化することである。 これらの手法はゲーム理論から概念や結果をインポートし、属性や相互作用を生成する。 本研究は,ゲーム理論に触発された帰属と$k^\text{th}$-orderインタラクションの統一フレームワークを提案する。 連続的な入力設定では、モデム的な仮定により、相乗効果と呼ばれる特徴間の相互作用の完全な説明が可能であることを示す。 相乗効果を分配する政策によって,様々な手法がどう特徴づけられるかを明らかにする。 また,相乗関数の一種であるモノミアルに対する作用が勾配ベース手法の特徴であることを示し,特異な勾配ベース手法を導入する。 様々な基準の組み合わせは、属性/相互作用法を一意に定義する。 したがって、コミュニティは属性とインタラクションメソッドを開発し、採用する際に、目標とコンテキストを特定する必要がある。

Deep learning has revolutionized many areas of machine learning, from computer vision to natural language processing, but these high-performance models are generally "black box." Explaining such models would improve transparency and trust in AI-powered decision making and is necessary for understanding other practical needs such as robustness and fairness. A popular means of enhancing model transparency is to quantify how individual inputs contribute to model outputs (called attributions) and the magnitude of interactions between groups of inputs. A growing number of these methods import concepts and results from game theory to produce attributions and interactions. This work presents a unifying framework for game-theory-inspired attribution and $k^\text{th}$-order interaction methods. We show that, given modest assumptions, a unique full account of interactions between features, called synergies, is possible in the continuous input setting. We identify how various methods are characterized by their policy of distributing synergies. We also demonstrate that gradient-based methods are characterized by their actions on monomials, a type of synergy function, and introduce unique gradient-based methods. We show that the combination of various criteria uniquely defines the attribution/interaction methods. Thus, the community needs to identify goals and contexts when developing and employing attribution and interaction methods.
翻訳日:2023-05-18 11:51:24 公開日:2023-05-17
# 球面画像からの3次元再構成:技術・応用・展望のレビュー

3D reconstruction from spherical images: A review of techniques, applications, and prospects ( http://arxiv.org/abs/2302.04495v3 )

ライセンス: Link先を確認
San Jiang, Yaxin Li, Duojie Weng, Kan You, Wu Chen(参考訳) 3次元再構成は、現代のフォトグラムシステムにおいてますます重要な役割を担っている。 従来の衛星や空中リモートセンシング(RS)プラットフォームは、大規模な地形や都市の3D再構成に必要なデータソースを提供することができる。 低高度のuav(無人航空機)でも、都市キャニオンや屋内シーンなどの複雑な状況下での3d再構成は、カメラフレーム間の頻繁なトラッキング障害と高いデータ収集コストのために困難である。 近年,球面画像は1台のカメラから周囲の環境を撮影する能力から広く利用されている。 視野画像がFOV(Field of View)に制限されているのとは対照的に、球面画像は全シーンを水平および垂直のFOVでカバーし、これらの複雑なシーンにおけるカメラトラッキングとデータ取得を容易にする。 プロ用および消費者向けの球面カメラの急速な進化と広範囲な利用により、球面画像は都市・屋内シーンの3Dモデリングに大きな可能性を示している。 しかし、古典的な3dリコンストラクションパイプラインは、球面画像に直接使用することはできない。 さらに、球面画像の3d再構成のために設計されたソフトウェアパッケージも少なくない。 そこで本研究では,データ取得,特徴検出とマッチング,画像配向,高密度マッチングといった観点で,球面画像の3次元再構成技術の現状を徹底的に調査するとともに,有望な応用例を示し,今後の可能性について議論する。 本研究は今後の研究を導く手がかりとなるだろう。

3D reconstruction plays an increasingly important role in modern photogrammetric systems. Conventional satellite or aerial-based remote sensing (RS) platforms can provide the necessary data sources for the 3D reconstruction of large-scale landforms and cities. Even with low-altitude UAVs (Unmanned Aerial Vehicles), 3D reconstruction in complicated situations, such as urban canyons and indoor scenes, is challenging due to frequent tracking failures between camera frames and high data collection costs. Recently, spherical images have been extensively used due to the capability of recording surrounding environments from one camera exposure. In contrast to perspective images with limited FOV (Field of View), spherical images can cover the whole scene with full horizontal and vertical FOV and facilitate camera tracking and data acquisition in these complex scenes. With the rapid evolution and extensive use of professional and consumer-grade spherical cameras, spherical images show great potential for the 3D modeling of urban and indoor scenes. Classical 3D reconstruction pipelines, however, cannot be directly used for spherical images. Besides, there exist few software packages that are designed for the 3D reconstruction of spherical images. As a result, this research provides a thorough survey of the state-of-the-art for 3D reconstruction of spherical images in terms of data acquisition, feature detection and matching, image orientation, and dense matching as well as presenting promising applications and discussing potential prospects. We anticipate that this study offers insightful clues to direct future research.
翻訳日:2023-05-18 11:51:03 公開日:2023-05-17
# オンライン学習を改善するためのデモの活用 - 品質上の問題

Leveraging Demonstrations to Improve Online Learning: Quality Matters ( http://arxiv.org/abs/2302.03319v4 )

ライセンス: Link先を確認
Botao Hao, Rahul Jain, Tor Lattimore, Benjamin Van Roy, Zheng Wen(参考訳) オフラインデモデータがオンライン学習をいかに改善できるかを検討する。 改善を期待するのは当然ですが、問題なのは、どのように、そしてどの程度で? 改善の度合いは実演データの品質に左右されることが示されている。 ポータブルな洞察を生み出すために,多腕バンディットに適用したトンプソンサンプリング (ts) に着目し,オンライン学習アルゴリズムとモデルを開発した。 デモデータは、与えられた能力レベル、つまり導入する概念を持つ専門家によって生成される。 本稿では,ベイズの規則を通したコヒーレントな方法で実演データを活用し,事前依存ベイズ後悔境界を導出するインフォームドtsアルゴリズムを提案する。 これにより、事前トレーニングがオンラインパフォーマンスを大幅に向上させる方法と、専門家の能力レベルによって改善の度合いが向上する方法についての洞察が得られる。 また,実用的で近似的なtsアルゴリズムをベイズブートストラップを用いて開発し,実験による経験的後悔の軽減を示す。

We investigate the extent to which offline demonstration data can improve online learning. It is natural to expect some improvement, but the question is how, and by how much? We show that the degree of improvement must depend on the quality of the demonstration data. To generate portable insights, we focus on Thompson sampling (TS) applied to a multi-armed bandit as a prototypical online learning algorithm and model. The demonstration data is generated by an expert with a given competence level, a notion we introduce. We propose an informed TS algorithm that utilizes the demonstration data in a coherent way through Bayes' rule and derive a prior-dependent Bayesian regret bound. This offers insight into how pretraining can greatly improve online performance and how the degree of improvement increases with the expert's competence level. We also develop a practical, approximate informed TS algorithm through Bayesian bootstrapping and show substantial empirical regret reduction through experiments.
翻訳日:2023-05-18 11:50:38 公開日:2023-05-17
# 任意の潜在的な障壁に対する「バリア横断時間」と「量子トンネル時間」

`Barrier traversal time' and `quantum tunneling time' for arbitrary potential barriers ( http://arxiv.org/abs/2305.09260v2 )

ライセンス: Link先を確認
Philip Caesar M. Flores, Dean Alvin L. Pablico, and Eric A. Galapon(参考訳) 本研究では,TOA(量子時間)の演算子に基づく理論が,計測されたトンネル時間に関する一見矛盾する報告をどう解釈するかを示す。 これは、バリアの存在と不在において、対応するTOA演算子の期待値の差としてバリアトラバース時間を定義することで実現される。 任意の形状のポテンシャル障壁に対して、入射波束の運動量分布 $\tilde{\psi}(k)$ とバリアの形状との関係によって決定されるフルトンネル、部分トンネル、非トンネルプロセスに対応する3つのトラバーサル時間レジームが存在することを示す。 完全なトンネルプロセスは、$\tilde{\psi}(k)$ の支持がバリアの最小高さ以下であるときに起こり、瞬時にトンネル時間が発生する。 部分チューニングプロセスは、$\tilde{\psi}(k)$のサポートまたはサポートのセグメントが障壁の最小高さと最大高さの間にあるときに発生する。 この場合、粒子は障壁系全体を通して「完全に」トンネルを通らず、非ゼロの軌道時間となる。 非トンネル状態は、$\tilde{\psi}(k)$ の支持がバリアシステムの最大高さを超えているときに起こり、古典的な境界横断時間に繋がる。 異なる実時間実験で測定されたゼロと非ゼロのトンネル時間は、それぞれフルトンネルと部分トンネルのプロセスに対応している。

We demonstrate how an operator-based theory of quantum time-of-arrival (TOA) reconciles the seemingly conflicting reports on the measured tunneling times. This is done by defining the barrier traversal time as the difference of the expectation values of the corresponding TOA-operators in the presence and absence of the barrier. We show that for an arbitrarily shaped potential barrier, there exists three traversal time regimes corresponding to full-tunneling, partial-tunneling, and \non-tunneling processes, which are determined by the relation between the the support of the incident wavepacket's momentum distribution $\tilde{\psi}(k)$, and shape of the barrier. The full-tunneling process occurs when the support of $\tilde{\psi}(k)$ is below the minimum height of the barrier, resulting to an instantaneous tunneling time. The partial-tunneling process occurs when the support or a segment of the support of $\tilde{\psi}(k)$ lies between the minimum and maximum height of the barrier. For this case, the particle does not "fully" tunnel through the entire barrier system resulting to a non-zero traversal time. The non-tunneling regime occurs when the support of $\tilde{\psi}(k)$ is above the maximum height of the barrier system, leading to a classical above-barrier traversal time. We argue that the zero and non-zero tunneling times measured in different attoclock experiments correspond to the full-tunneling and partial-tunneling processes, respectively.
翻訳日:2023-05-18 11:43:31 公開日:2023-05-17
# 境界センサを用いた半弾性繊維のタッチセンシング

Touch Sensing on Semi-Elastic Textiles with Border-Based Sensors ( http://arxiv.org/abs/2305.09222v2 )

ライセンス: Link先を確認
Samuel Z\"uhlke, Andreas St\"ockl, David C. Schedl(参考訳) 本研究は, 布地の境界に位置するセンサに頼る代わりに, センシング領域にセンサを追加配置する必要のない, 半弾性繊維表面を用いた新しいタッチセンシング手法を提案する。 提案手法は、弾性ジャージーファブリックと様々な機械学習モデルを含む実験を通して実証される。 特定の境界に基づくセンサ設計の性能を深く評価する。 視覚マーカーを用いることで、最も優れた視覚センサ配置は、125mm×125mmの領域で平均2乗誤差1.36mmの単一タッチポイントを予測する。 我々は、タッチを3つのインデントレベル(0,15,20mm)で82.85%の精度で分類できる繊維のみのプロトタイプを構築した。 この手法はウェアラブル技術やスマートテキスタイルに応用できる可能性が示唆され,これらの分野のさらなる探索の道筋となる。

This study presents a novel approach for touch sensing using semi-elastic textile surfaces that does not require the placement of additional sensors in the sensing area, instead relying on sensors located on the border of the textile. The proposed approach is demonstrated through experiments involving an elastic Jersey fabric and a variety of machine-learning models. The performance of one particular border-based sensor design is evaluated in depth. By using visual markers, the best-performing visual sensor arrangement predicts a single touch point with a mean squared error of 1.36 mm on an area of 125mm by 125mm. We built a textile only prototype that is able to classify touch at three indent levels (0, 15, and 20 mm) with an accuracy of 82.85%. Our results suggest that this approach has potential applications in wearable technology and smart textiles, making it a promising avenue for further exploration in these fields.
翻訳日:2023-05-18 11:43:09 公開日:2023-05-17
# SuSana Distanciaが必要なのは、距離に基づく2つの新しい損失関数による距離学習におけるクラス分離可能性の強化

SuSana Distancia is all you need: Enforcing class separability in metric learning via two novel distance-based loss functions for few-shot image classification ( http://arxiv.org/abs/2305.09062v2 )

ライセンス: Link先を確認
Mauricio Mendez-Ruiza, Jorge Gonzalez-Zapatab, Ivan Reyes-Amezcuab, Daniel Flores-Araizaa, Francisco Lopez-Tiroa, Andres Mendez-Vazquezb, and Gilberto Ochoa-Ruiz(参考訳) 少数ショット学習は、いくつかのラベル付きデータサンプルだけで新しい概念を学ぶことを目的とした、困難な研究分野である。 メトリック学習アプローチに基づく最近の研究は、サポート(トレーニング)とクエリセット(テスト)を使用して、それらのセット間の類似性比較メトリックを学習する、エピソディクスタスクを包含するメタラーニングアプローチを活用している。 データ不足のため、埋め込みネットワークの学習プロセスは、数発のタスクの重要な部分となる。 これまでの研究では、メトリック学習のアプローチを用いてこの問題に対処していたが、基礎となる潜在空間の性質と差分クラスの分離性は完全に強制されたわけではない。 本研究では,少数のデータ間のクラス内距離とクラス間距離に着目し,組込みベクトルの重要性を考慮した2つの異なる損失関数を提案する。 最初の損失関数はプロト三重項損失(proto-triplet loss)である。 ICNNの損失を補う第2の損失関数は、訓練されたネットワークから得られる埋め込みの質を評価するのに役立つ、クラス内およびクラス内隣人のスコアに基づいている。 実験で得られた結果から,miniimagennetベンチマークの精度は,他のメトリックベースのマイノリティ学習法に比べて2%向上し,ネットワークがこれまで認識されていなかったクラスに汎用化できるように,損失関数の能力が実証された。 実験では,Caltech CUB, Dogs, Carsといった他のドメインに対して,最先端技術と比較して競合的な一般化能力を実証した。

Few-shot learning is a challenging area of research that aims to learn new concepts with only a few labeled samples of data. Recent works based on metric-learning approaches leverage the meta-learning approach, which is encompassed by episodic tasks that make use a support (training) and query set (test) with the objective of learning a similarity comparison metric between those sets. Due to the lack of data, the learning process of the embedding network becomes an important part of the few-shot task. Previous works have addressed this problem using metric learning approaches, but the properties of the underlying latent space and the separability of the difference classes on it was not entirely enforced. In this work, we propose two different loss functions which consider the importance of the embedding vectors by looking at the intra-class and inter-class distance between the few data. The first loss function is the Proto-Triplet Loss, which is based on the original triplet loss with the modifications needed to better work on few-shot scenarios. The second loss function, which we dub ICNN loss is based on an inter and intra class nearest neighbors score, which help us to assess the quality of embeddings obtained from the trained network. Our results, obtained from a extensive experimental setup show a significant improvement in accuracy in the miniImagenNet benchmark compared to other metric-based few-shot learning methods by a margin of 2%, demonstrating the capability of these loss functions to allow the network to generalize better to previously unseen classes. In our experiments, we demonstrate competitive generalization capabilities to other domains, such as the Caltech CUB, Dogs and Cars datasets compared with the state of the art.
翻訳日:2023-05-18 11:42:54 公開日:2023-05-17
# モジュラーモーションプログラムによるモーション質問応答

Motion Question Answering via Modular Motion Programs ( http://arxiv.org/abs/2305.08953v2 )

ライセンス: Link先を確認
Mark Endo, Joy Hsu, Jiaman Li, Jiajun Wu(参考訳) 現実世界で人間の行動を知覚し推論できる人工知能システムを構築するためには、まず、動きのシーケンス上で複雑な時空間推論を行うモデルを設計する必要がある。 この目標に向けて、長文の人間の動き列上でのモデルの複雑な多段階推論能力を評価するためのHumanMotionQAタスクを提案する。 我々は,運動列の小さな部分における運動キューの検出,事象の発生時期の時間的推論,特定の動作属性のクエリを必要とする質問応答対のデータセットを生成する。 さらに, 動作概念の学習, 属性・ニューラル演算, 時間的関係などを通じて, 記号的推論とモジュラー設計を用いて, 動作をグラウンド化するためのニューロシンボリック手法であるNSPoseを提案する。 我々は,NSPoseのHumanMotionQAタスクに対する適合性を実証し,すべてのベースライン手法より優れていることを示す。

In order to build artificial intelligence systems that can perceive and reason with human behavior in the real world, we must first design models that conduct complex spatio-temporal reasoning over motion sequences. Moving towards this goal, we propose the HumanMotionQA task to evaluate complex, multi-step reasoning abilities of models on long-form human motion sequences. We generate a dataset of question-answer pairs that require detecting motor cues in small portions of motion sequences, reasoning temporally about when events occur, and querying specific motion attributes. In addition, we propose NSPose, a neuro-symbolic method for this task that uses symbolic reasoning and a modular design to ground motion through learning motion concepts, attribute neural operators, and temporal relations. We demonstrate the suitability of NSPose for the HumanMotionQA task, outperforming all baseline methods.
翻訳日:2023-05-18 11:42:18 公開日:2023-05-17
# 相関解析を超えたnlg評価指標:経験的メトリック選好チェックリスト

NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric Preference Checklist ( http://arxiv.org/abs/2305.08566v2 )

ライセンス: Link先を確認
Iftitahu Ni'mah and Meng Fang and Vlado Menkovski and Mykola Pechenizkiy(参考訳) 本研究では,人間の評価的側面を文脈や目的として用いたかどうかに基づいて,NLG自動メトリクスを分析する。 (i)タスク非依存及び (ii)人間化。 Perplexity、BLEU、BERTScoreといったタスク非依存のメトリクスは、費用対効果が高く、多様なNLGタスクに適応できるが、人間との相関は弱い。 ヒューマンアライメントメトリクス(CTC、CtrlEval、UniEval)は、望ましい人間的な品質をトレーニング目的として取り入れることで、相関レベルを改善する。 しかし、システムレベルの性能とシステム出力の質を識別する効果は未だ不明である。 テキスト要約,対話応答生成,制御生成の3つのタスクにおいて,自動メトリクスの識別能力を評価するためのフレームワークとして,計量選好チェックリストを提案する。 マルチアスペクト・ヒューマンアライメント・メトリック(UniEval)は,人間アライメント・メトリクス(CTC,CtrlEval)とタスクアライメント・メトリクス(BLEU,BERTScore)に必ずしも支配的ではない。 また、システムレベルの性能を識別する上で、自動メトリクスが人間よりも優れたガイダンスを提供するユースケースを示す。 提案するフレームワークは: 一 自動測度が人間の嗜好に忠実であるか否かを、人間との相関関係によらず検証すること (II)NLGシステムの強度と限界を精査するためには,評価スコアの基準平均化法がしばしば用いていない。

In this study, we analyze NLG automatic metrics based on whether human evaluation aspect is used as context or objective to compute the metrics: (i) Task-agnostic and (ii) Human-aligned. Task-agnostic metrics, such as Perplexity, BLEU, BERTScore, are cost-effective and highly adaptable to diverse NLG tasks, yet they have a weak correlation with human. Human-aligned metrics (CTC, CtrlEval, UniEval) improves correlation level by incorporating desirable human-like qualities as training objective. However, their effectiveness at discerning system-level performance and quality of system outputs remains unclear. We present metric preference checklist as a framework to assess the discriminative power of automatic metrics in three NLG tasks: Text Summarization, Dialogue Response Generation, and Controlled Generation. We show that multi-aspect human-aligned metric (UniEval) is not necessarily dominant over single-aspect human-aligned metrics (CTC, CtrlEval) and task-agnostic metrics (BLEU, BERTScore), particularly when a disagreement between human evaluation aspects is present. We also show particular use cases in which automatic metrics provide a better guidance than human on discriminating system-level performance. Our proposed framework provides access: (i) for verifying whether automatic metrics are faithful to human preference, regardless their correlation level to human; and (ii) for scrutinizing the strengths and limitations of NLG systems, which are often obscured by a standard averaging method of evaluation scores.
翻訳日:2023-05-18 11:41:43 公開日:2023-05-17
# 児童データ保護規則と保護ガイドラインによるandroidアプリケーションの適合性について

On the conformance of Android applications with children's data protection regulations and safeguarding guidelines ( http://arxiv.org/abs/2305.08492v2 )

ライセンス: Link先を確認
Ricardo Lopes and Vinh Thong Ta and Ioannis Korkontzelos(参考訳) オンライン技術が急速に発展し、子どもの間で携帯電話の普及が進み、インターネットの安全を守ることが不可欠である。 一部の研究では、オンライン虐待とインシデントが子供のメンタルヘルスと発達に悪影響を及ぼすと報告されている。 本稿では,eu一般データ保護規則(gdpr)および英国及びeu児童オンライン保護ガイドラインにおいて,子どものデータ保護に関する規則をandroidアプリケーションが遵守する方法について検討する。 調査の結果,非準拠アプリの数はまだ大きいことがわかった。 子ども向けのアプリでさえ、必ずしも法律やガイダンスに準拠していない。 このコンプライアンスの欠如は、子供に身体的または精神的な危害をもたらす道を作るのに寄与する。 次に,コンプライアンス検証とオンライン安全リスクアセスメントの自動化について,オープン質問,課題,可能なアプローチ,指示を含む妥当性について論じる。

With the rapid development of online technologies and the widespread usage of mobile phones among children, it is crucial to protect their online safety. Some studies reported that online abuse and incidents negatively affect children's mental health and development. In this paper, we examine how Android applications follow the rules related to children's data protection in the EU General Data Protection Regulation (GDPR) and the UK and EU children's online safeguarding guidelines. Our findings show that the number of non-compliant apps is still significant. Even the apps designed for children do not always comply with legislation or guidance. This lack of compliance could contribute to creating a path to causing physical or mental harm to children. We then discuss the relevance of automating the compliance verification and online safety risk assessment, including open questions, challenges, possible approaches, and directions.
翻訳日:2023-05-18 11:41:11 公開日:2023-05-17
# C-Eval: ファンデーションモデルのためのマルチレベル中国語評価スイート

C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models ( http://arxiv.org/abs/2305.08322v2 )

ライセンス: Link先を確認
Yuzhen Huang, Yuzhuo Bai, Zhihao Zhu, Junlei Zhang, Jinghan Zhang, Tangjun Su, Junteng Liu, Chuancheng Lv, Yikai Zhang, Jiayi Lei, Yao Fu, Maosong Sun, Junxian He(参考訳) 新しいNLPベンチマークは、大規模言語モデル(LLM)の急速な開発に合わせて緊急に必要である。 基礎モデルの高度な知識と推論能力を評価するための,中国初の総合評価スイートであるc-evalを提案する。 C-Evalは、中学、高校、大学、専門職の4つの困難レベルにまたがる複数の質問を含んでいる。 質問は、人文科学から科学、工学まで、52の異なる分野にまたがる。 C-EvalにはC-Eval Hardが伴い、C-Evalの高度な推論能力を必要とする非常に困難な課題のサブセットである。 英語と中国語の両方のモデルを含む、c-evalにおける最も先進的なllmを包括的に評価する。 その結果、gpt-4のみが平均精度60%以上を達成できたことが示され、現在のllmの改善の余地が依然として残っていることが示唆された。 c-evalはファンデーションモデルの重要な強みと欠点を分析し、中国ユーザーの開発と成長を促進するのに役立つと予測している。

New NLP benchmarks are urgently needed to align with the rapid development of large language models (LLMs). We present C-Eval, the first comprehensive Chinese evaluation suite designed to assess advanced knowledge and reasoning abilities of foundation models in a Chinese context. C-Eval comprises multiple-choice questions across four difficulty levels: middle school, high school, college, and professional. The questions span 52 diverse disciplines, ranging from humanities to science and engineering. C-Eval is accompanied by C-Eval Hard, a subset of very challenging subjects in C-Eval that requires advanced reasoning abilities to solve. We conduct a comprehensive evaluation of the most advanced LLMs on C-Eval, including both English- and Chinese-oriented models. Results indicate that only GPT-4 could achieve an average accuracy of over 60%, suggesting that there is still significant room for improvement for current LLMs. We anticipate C-Eval will help analyze important strengths and shortcomings of foundation models, and foster their development and growth for Chinese users.
翻訳日:2023-05-18 11:40:56 公開日:2023-05-17
# 宣言型プロンプトを用いた満足度支援言語モデル

Satisfiability-Aided Language Models Using Declarative Prompting ( http://arxiv.org/abs/2305.09656v2 )

ライセンス: Link先を確認
Xi Ye, Qiaochu Chen, Isil Dillig, Greg Durrett(参考訳) これまでの研究は、大規模言語モデル(LLM)におけるチェーン・オブ・シークレットとプログラム表現を組み合わせることで、効果的で透明な推論を実現してきた。 このようなアプローチは、前方推論のみを必要とするタスク(例:単純算術)ではうまく機能するが、より洗練された計画と探索を必要とする問題の制約にはあまり効果がない。 本稿では,LLMの推論能力を向上させるためのSATLMアプローチを提案する。 我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明を利用して最終解を導出する。 このアプローチには2つの大きな利点がある。 宣言的な仕様は推論ステップよりも問題記述に近いので、LCMは記述からより正確に解析することができる。 さらに、自動定理証明器に実際の推論タスクをオフロードすることにより、解析された仕様に対する回答の正しさを保証し、解法における計画誤差を回避することができる。 我々はSATLMを6つの異なるデータセット上で評価し、プログラム支援されたLMを命令的パラダイムで一貫して上回ることを示す。 特にSATLMは、GSM算術推論データセットの挑戦的なサブセットでプログラム支援LMを23%上回り、SATLMはLSAT上の新しいSoTAも達成し、フルトレーニングセットでトレーニングされた以前のモデルを上回っている。

Prior work has combined chain-of-thought prompting in large language models (LLMs) with programmatic representations to perform effective and transparent reasoning. While such an approach works very well for tasks that only require forward reasoning (e.g., straightforward arithmetic), it is less effective for constraint solving problems that require more sophisticated planning and search. In this paper, we propose a new satisfiability-aided language modeling (SATLM) approach for improving the reasoning capabilities of LLMs. We use an LLM to generate a declarative task specification rather than an imperative program and leverage an off-the-shelf automated theorem prover to derive the final answer. This approach has two key advantages. The declarative specification is closer to the problem description than the reasoning steps are, so the LLM can parse it out of the description more accurately. Furthermore, by offloading the actual reasoning task to an automated theorem prover, our approach can guarantee the correctness of the answer with respect to the parsed specification and avoid planning errors in the solving process. We evaluate SATLM on 6 different datasets and show that it consistently outperforms program-aided LMs in an imperative paradigm. In particular, SATLM outperforms program-aided LMs by 23% on a challenging subset of the GSM arithmetic reasoning dataset; SATLM also achieves a new SoTA on LSAT, surpassing previous models that are trained on the full training set.
翻訳日:2023-05-18 11:34:33 公開日:2023-05-17
# ユニバーサル量子コンピュータにおけるRNA二次構造予測

Predicting RNA Secondary Structure on Universal Quantum Computer ( http://arxiv.org/abs/2305.09561v2 )

ライセンス: Link先を確認
Ji Jiang, Qipeng Yan, Ye Li, Min Lu, Ziwei Cui, Menghan Dou, Qingchun Wang, Yu-Chun Wu and Guo-Ping Guo(参考訳) RNA構造が塩基配列からどのように折り畳み、その二次構造がどのように形成されるかを知るための最初のステップである。 従来のエネルギーベースのアルゴリズムは、特に非ネストシーケンスでは精度が低いが、学習ベースのアルゴリズムは高品質なトレーニングデータを取得する上で困難に直面している。 近年、量子アニールは二次構造の折り畳みを急速に予測し、量子コンピューティングがこの問題に対する有望な解決策であることを強調している。 しかし、普遍量子コンピューティングのためのゲートモデルアルゴリズムは利用できない。 本稿では,ゲート型量子アルゴリズムについて述べる。これは高い柔軟性を持ち,様々な物理デバイスに適用できる。 二次構造を二次ハミルトニアン状態にマッピングすると、すべての折り畳み過程は二次非制約二元最適化モデルとして記述される。 その後、量子近似最適化アルゴリズムによりモデルを解くことができる。 数値シミュレーションと実験的実現の両方で性能を実証する。 ベンチマークデータセット全体を通して、シミュレーションの結果から、我々の量子アプローチは古典的手法に匹敵する精度を示している。 非ネステッドシーケンスでは、量子アプローチは古典的なエネルギーベースの手法よりも優れている。 また, 実験結果から, 現在のノイズの多いデバイスでは頑健な手法であることが示唆された。 これはRNAの折りたたみ問題に対処するために使われる普遍量子アルゴリズムの最初の例であり、我々の研究はRNAの折りたたみ問題を解決するために普遍量子コンピュータを利用する貴重なモデルを提供する。

It is the first step for understanding how RNA structure folds from base sequences that to know how its secondary structure is formed. Traditional energy-based algorithms are short of precision, particularly for non-nested sequences, while learning-based algorithms face challenges in obtaining high-quality training data. Recently, quantum annealer has rapidly predicted the folding of the secondary structure, highlighting that quantum computing is a promising solution to this problem. However, gate model algorithms for universal quantum computing are not available. In this paper, gate-based quantum algorithms will be presented, which are highly flexible and can be applied to various physical devices. Mapped all possible secondary structure to the state of a quadratic Hamiltonian, the whole folding process is described as a quadratic unconstrained binary optimization model. Then the model can be solved through quantum approximation optimization algorithm. We demonstrate the performance with both numerical simulation and experimental realization. Throughout our benchmark dataset, simulation results suggest that our quantum approach is comparable in accuracy to classical methods. For non-nested sequences, our quantum approach outperforms classical energy-based methods. Experimental results also indicate our method is robust in current noisy devices. It is the first instance of universal quantum algorithms being employed to tackle RNA folding problems, and our work provides a valuable model for utilizing universal quantum computers in solving RNA folding problems.
翻訳日:2023-05-18 11:34:08 公開日:2023-05-17
# PIIの寿命 -PII難燃変換器-

Life of PII -- A PII Obfuscation Transformer ( http://arxiv.org/abs/2305.09550v2 )

ライセンス: Link先を確認
Ajinkya Deshmukh, Saumya Banthia, Anantha Sharma(参考訳) センシティブな情報を保護することは、今日の大規模言語モデル(LLM)とデータ駆動サービスにとって非常に重要です。 プライバシーを守るために使われる一般的な方法は、統計的および意味的特性を維持しながら、(機密性の高い)個人識別情報(PII)データの過剰な利用を減らすためにデータ摂動技術を使用することである。 データ摂動法は、しばしば重大な情報損失をもたらすため、使用には実用的でない。 本稿では,PIIをFaux-PIIに変換するための新しい難読化トランスフォーマフレームワークである"Life of PII"を提案する。 提案手法には,与えられた文書と対話するAPI,設定ベースのオブファスケータ,および自然言語処理タスクやLLMにおいて高いコンテキスト保存と性能を示すTransformerアーキテクチャに基づくモデルが含まれる。 我々のTransformerベースのアプローチは、元のPIIと変換されたfaux-PII表現の間のマッピングを学習する。 提案手法であるlife of piiは,従来のデータ摂動技術よりもユーティリティ保護とプライバシ保護の両面で優れていることを実証した。 本手法は,プライバシ保護とデータユーティリティ間のトレードオフの柔軟性を高めるとともに,元の情報を保存しながら,効果的にユーティリティ損失を低減できることを示す。 我々の研究は、様々な現実世界のアプリケーションでPIIを保護するソリューションを提供する。

Protecting sensitive information is crucial in today's world of Large Language Models (LLMs) and data-driven services. One common method used to preserve privacy is by using data perturbation techniques to reduce overreaching utility of (sensitive) Personal Identifiable Information (PII) data while maintaining its statistical and semantic properties. Data perturbation methods often result in significant information loss, making them impractical for use. In this paper, we propose 'Life of PII', a novel Obfuscation Transformer framework for transforming PII into faux-PII while preserving the original information, intent, and context as much as possible. Our approach includes an API to interface with the given document, a configuration-based obfuscator, and a model based on the Transformer architecture, which has shown high context preservation and performance in natural language processing tasks and LLMs. Our Transformer-based approach learns mapping between the original PII and its transformed faux-PII representation, which we call "obfuscated" data. Our experiments demonstrate that our method, called Life of PII, outperforms traditional data perturbation techniques in terms of both utility preservation and privacy protection. We show that our approach can effectively reduce utility loss while preserving the original information, offering greater flexibility in the trade-off between privacy protection and data utility. Our work provides a solution for protecting PII in various real-world applications.
翻訳日:2023-05-18 11:33:46 公開日:2023-05-17
# 拡散モデルを用いた半監督超音波画像分割のための多レベルグローバルコンテキスト交差一貫性モデル

Multi-Level Global Context Cross Consistency Model for Semi-Supervised Ultrasound Image Segmentation with Diffusion Model ( http://arxiv.org/abs/2305.09447v2 )

ライセンス: Link先を確認
Fenghe Tang, Jianrui Ding, Lingtao Wang, Min Xian, Chunping Ning(参考訳) 医用画像分割はコンピュータ支援診断において重要なステップであり、畳み込みニューラルネットワークは現在では一般的なセグメンテーションネットワークである。 しかし, 局所手術の特徴は, 異なる位置, 形状, 大きさの病変のグローバルな文脈情報に焦点を合わせることが困難である。 半教師付き学習はラベル付きサンプルとラベルなしサンプルの両方から学ぶことができ、手動ラベリングの負担を軽減することができる。 しかし、医療シナリオにおいて多数のラベルのない画像を得ることは依然として困難である。 そこで本研究では,遅延拡散モデル(ldm)が生成する画像を半教師あり学習のためのラベルなし画像として利用する多レベルグローバルコンテキスト・クロスコンシスタンス(mgcc)フレームワークを提案する。 フレームワークは2つのステージから構成される。 第1段階では、ldmを使用して合成医療画像を生成し、データアノテーションのワークロードを削減し、医療データ収集に関連するプライバシ上の懸念に対処する。 第2段階では、補助デコーダの入力に、グローバルコンテキストノイズの変動レベルを追加し、デコーダ間の出力一貫性を維持して表現能力を向上させる。 オープンソース乳房超音波および民間甲状腺超音波データを用いた実験により,医療画像の確率分布と意味表現の橋渡しにおける枠組みの有効性が示された。 本稿では,確率分布知識をセグメント化ネットワークへ効果的に伝達することにより,セグメント化精度の向上を図る。 コードはhttps://github.com/FengheTan9/Multi-Level-Global-Context-Cross-Consistencyで公開されている。

Medical image segmentation is a critical step in computer-aided diagnosis, and convolutional neural networks are popular segmentation networks nowadays. However, the inherent local operation characteristics make it difficult to focus on the global contextual information of lesions with different positions, shapes, and sizes. Semi-supervised learning can be used to learn from both labeled and unlabeled samples, alleviating the burden of manual labeling. However, obtaining a large number of unlabeled images in medical scenarios remains challenging. To address these issues, we propose a Multi-level Global Context Cross-consistency (MGCC) framework that uses images generated by a Latent Diffusion Model (LDM) as unlabeled images for semi-supervised learning. The framework involves of two stages. In the first stage, a LDM is used to generate synthetic medical images, which reduces the workload of data annotation and addresses privacy concerns associated with collecting medical data. In the second stage, varying levels of global context noise perturbation are added to the input of the auxiliary decoder, and output consistency is maintained between decoders to improve the representation ability. Experiments conducted on open-source breast ultrasound and private thyroid ultrasound datasets demonstrate the effectiveness of our framework in bridging the probability distribution and the semantic representation of the medical image. Our approach enables the effective transfer of probability distribution knowledge to the segmentation network, resulting in improved segmentation accuracy. The code is available at https://github.com/FengheTan9/Multi-Level-Global-Context-Cross-Consistency.
翻訳日:2023-05-18 11:33:23 公開日:2023-05-17
# SHAP特徴重要度とファジィ認知地図を用いたインシシットバイアスの測定

Measuring Implicit Bias Using SHAP Feature Importance and Fuzzy Cognitive Maps ( http://arxiv.org/abs/2305.09399v2 )

ライセンス: Link先を確認
Isel Grau, Gonzalo N\'apoles, Fabian Hoitsma, Lisa Koutsoviti Koumeri, Koen Vanhoof(参考訳) 本稿では,特徴の重要度の概念と暗黙のバイアスをパターン分類の文脈で統合する。 これは3段階の方法論によって行われます。 (i)分類器を構築し、そのハイパーパラメータをチューニングすること。 (ii)暗黙のバイアスを定量化できるファジィ認知地図モデルの構築、 3)SHAPの特徴は,シミュレーションを行う際の神経概念の活性化に重要である。 公平性研究に関する実例研究を用いた結果は、我々の2つの仮説を支持する。 また, 特徴重要度法を絶対的ツールとして使用することで, 暗黙的バイアスを計測するリスクを示す。 一方,保護された特徴に対する偏見の量は,その特徴が数値的か分類的に符号化されているかによって異なる可能性がある。

In this paper, we integrate the concepts of feature importance with implicit bias in the context of pattern classification. This is done by means of a three-step methodology that involves (i) building a classifier and tuning its hyperparameters, (ii) building a Fuzzy Cognitive Map model able to quantify implicit bias, and (iii) using the SHAP feature importance to active the neural concepts when performing simulations. The results using a real case study concerning fairness research support our two-fold hypothesis. On the one hand, it is illustrated the risks of using a feature importance method as an absolute tool to measure implicit bias. On the other hand, it is concluded that the amount of bias towards protected features might differ depending on whether the features are numerically or categorically encoded.
翻訳日:2023-05-18 11:32:54 公開日:2023-05-17
# 多チャンネル電気インピーダンスに基づく血行動態モニタリングにおける教師なしシーケンス・ツー・シーケンス学習による信号品質自動評価

Unsupervised sequence-to-sequence learning for automatic signal quality assessment in multi-channel electrical impedance-based hemodynamic monitoring ( http://arxiv.org/abs/2305.09368v2 )

ライセンス: Link先を確認
Chang Min Hyun, Tae-Geun Kim, Kyounghun Lee(参考訳) 本研究では,多チャンネル電気インピーダンスに基づく血行動態モニタリングにおいて,運動誘発心容積信号(cvs)の信頼性低下を自動的に評価する教師なしシーケンス・トゥ・シーケンス学習手法を提案する。 提案手法は,CVSの文脈変化下での動作誘発異常を実現するための明示的なメカニズムが欠如しているなど,既存の学習に基づく評価手法の欠点に対処する試みである。 長短項メモリと変分オートエンコーダ構造を利用して、エンコーダ−デコーダモデルを訓練してcvsの入力シーケンスを自己生成するだけでなく、未来を並列的に推定する。 これにより、時系列全体にわたる一般的な関係を探索するために規則化しながら、時間的CVSシーケンスに横たわる文脈的知識を捉えることができる。 トレーニングセット上の親指の2シグマ規則から決定されるカットオフ値で入力シーケンスとその神経表現間の残差に基づいて、低品質の動作影響CVSを検出する。 我々の実験観測は2つの主張を検証した。 (i)ラベル理解の学習環境においては、監督設定に対する競争レベルで評価性能が達成可能であり、 (2)CVSの時系列にわたる文脈情報は、信号振幅と形態の運動による非現実的歪みを効果的に実現するのに有利である。 また,動作誘発異常の強い候補を事前に提示することにより,人為的なアノテーションを最小化するための擬似ラベルツールとしての能力についても検討した。 実証的な証拠は、機械誘導アノテーションが手動による評価中に避けられないヒューマンエラーを軽減し、煩雑で時間のかかるプロセスを最小化できることを示している。

This study proposes an unsupervised sequence-to-sequence learning approach that automatically assesses the motion-induced reliability degradation of the cardiac volume signal (CVS) in multi-channel electrical impedance-based hemodynamic monitoring. The proposed method attempts to tackle shortcomings in existing learning-based assessment approaches, such as the requirement of manual annotation for motion influence and the lack of explicit mechanisms for realizing motion-induced abnormalities under contextual variations in CVS over time. By utilizing long-short term memory and variational auto-encoder structures, an encoder--decoder model is trained not only to self-reproduce an input sequence of the CVS but also to extrapolate the future in a parallel fashion. By doing so, the model can capture contextual knowledge lying in a temporal CVS sequence while being regularized to explore a general relationship over the entire time-series. A motion-influenced CVS of low-quality is detected, based on the residual between the input sequence and its neural representation with a cut--off value determined from the two-sigma rule of thumb over the training set. Our experimental observations validated two claims: (i) in the learning environment of label-absence, assessment performance is achievable at a competitive level to the supervised setting, and (ii) the contextual information across a time series of CVS is advantageous for effectively realizing motion-induced unrealistic distortions in signal amplitude and morphology. We also investigated the capability as a pseudo-labeling tool to minimize human-craft annotation by preemptively providing strong candidates for motion-induced anomalies. Empirical evidence has shown that machine-guided annotation can reduce inevitable human-errors during manual assessment while minimizing cumbersome and time-consuming processes.
翻訳日:2023-05-18 11:32:44 公開日:2023-05-17
# GIFT:多人数会話理解のためのグラフ誘発微調整

GIFT: Graph-Induced Fine-Tuning for Multi-Party Conversation Understanding ( http://arxiv.org/abs/2305.09360v2 )

ライセンス: Link先を確認
Jia-Chen Gu, Zhen-Hua Ling, Quan Liu, Cong Liu, Guoping Hu(参考訳) マルチパーティ会話(MPC)で誰に何を言ったかという問題に、最近多くの研究が注目されている。 しかしながら、mpc理解の既存の手法では、通常、インターロカクタや発話を逐次情報フローに埋め込むか、mpcの固有グラフ構造の表面のみを利用する。 そこで本研究では,汎用MPC理解のためのトランスフォーマーベース事前学習言語モデル(PLM)に適応可能な,グラフ誘発微調整(GIFT)という,プラグアンドプレイで軽量な手法を提案する。 詳しくは、正規トランスフォーマーにおける発話間の完全かつ等価な接続は、mpcにおける発話のばらばらだが独特の依存を無視する。 発話間の異なる関係を区別するために、4種類のエッジがグラフ誘起信号を注意機構に統合し、もともとシーケンシャルテキストを処理するために設計されたPLMを洗練するように設計されている。 ギフトを3つのplmに実装して評価し,入力者認識,話者識別,応答選択という3つの下流タスクのパフォーマンスをテストした。 実験の結果,3つの下流タスクにおける3つのPLMと2つのベンチマークにおいて,符号化層当たり4つのパラメータしか持たない結果が得られた。

Addressing the issues of who saying what to whom in multi-party conversations (MPCs) has recently attracted a lot of research attention. However, existing methods on MPC understanding typically embed interlocutors and utterances into sequential information flows, or utilize only the superficial of inherent graph structures in MPCs. To this end, we present a plug-and-play and lightweight method named graph-induced fine-tuning (GIFT) which can adapt various Transformer-based pre-trained language models (PLMs) for universal MPC understanding. In detail, the full and equivalent connections among utterances in regular Transformer ignore the sparse but distinctive dependency of an utterance on another in MPCs. To distinguish different relationships between utterances, four types of edges are designed to integrate graph-induced signals into attention mechanisms to refine PLMs originally designed for processing sequential texts. We evaluate GIFT by implementing it into three PLMs, and test the performance on three downstream tasks including addressee recognition, speaker identification and response selection. Experimental results show that GIFT can significantly improve the performance of three PLMs on three downstream tasks and two benchmarks with only 4 additional parameters per encoding layer, achieving new state-of-the-art performance on MPC understanding.
翻訳日:2023-05-18 11:32:15 公開日:2023-05-17
# BERTTM:ニューラルネットワークモデリングのための事前学習言語モデルからの文脈付き単語埋め込みの活用

BERTTM: Leveraging Contextualized Word Embeddings from Pre-trained Language Models for Neural Topic Modeling ( http://arxiv.org/abs/2305.09329v2 )

ライセンス: Link先を確認
Zheng Fang, Yulan He and Rob Procter(参考訳) 近年のニューラルトピックモデルの発展に伴い、トピックモデリングは自然言語理解においてますます重要な役割を担っている。 しかしながら、既存のトピックモデルのほとんどは、トレーニング入力やトレーニングターゲットとして、Backer-of-words (BoW)情報に依存している。 これにより、文書内の単語の順序情報をキャプチャする能力が制限され、語彙外問題(OOV)に悩まされる。 事前学習された言語モデルからの文脈的単語埋め込みは、単語感覚の曖昧さの能力において優位性を示し、OOV語を扱うのに有効であることを示す。 本研究では,事前学習した言語モデルBERTの文脈的単語埋め込みを組み合わせたニューラルトピックモデルを開発した。 モデルは、BoW情報を使わずに文書のトピック分布を推測することができる。 さらに、文脈化された単語埋め込みから直接文書内の各単語の話題分布を推測することができる。 いくつかのデータセットに対する実験により,本モデルは文書分類とトピックコヒーレンス指標の両方の観点から既存のトピックモデルよりも優れており,新たに到着した文書から目に見えない単語を収容できることがわかった。 また,NERデータセットを用いた実験により,高品質な単語トピック表現を生成できることを示した。

With the development of neural topic models in recent years, topic modelling is playing an increasingly important role in natural language understanding. However, most existing topic models still rely on bag-of-words (BoW) information, either as training input or training target. This limits their ability to capture word order information in documents and causes them to suffer from the out-of-vocabulary (OOV) issue, i.e. they cannot handle unobserved words in new documents. Contextualized word embeddings from pre-trained language models show superiority in the ability of word sense disambiguation and prove to be effective in dealing with OOV words. In this work, we developed a novel neural topic model combining contextualized word embeddings from the pre-trained language model BERT. The model can infer the topic distribution of a document without using any BoW information. In addition, the model can infer the topic distribution of each word in a document directly from the contextualized word embeddings. Experiments on several datasets show that our model outperforms existing topic models in terms of both document classification and topic coherence metrics and can accommodate unseen words from newly arrived documents. Experiments on the NER dataset also show that our model can produce high-quality word topic representations.
翻訳日:2023-05-18 11:31:51 公開日:2023-05-17
# 二重縦モードキャビティ光学系に基づく多成分絡み合い状態の生成

Generation of multipartite entangled states based on double-longitudinal-mode cavity optomechanial system ( http://arxiv.org/abs/2305.09311v2 )

ライセンス: Link先を確認
Xiaomin Liu, RongGuo Yang, Jing Zhang, and Tiancai Zhang(参考訳) オプトメカニカルシステムは量子ネットワークの異なる音符を接続するための有望なプラットフォームであるため、そこから生じる絡み合いも非常に重要である。 本稿では,2次元モード共振器オプティメカルシステムから発生する光学的・光学的エンタングルメントのパラメータ依存性を考察し,そのようなシステムに基づく2つの四角形エンタングルメント生成手法を提案する。 さらに、2Nまたは4N粒子の絡み合い状態は、N粒子とN-1ビームスプリッター(BS)を結合することで得ることができ、これらのスキームは、絡み合いの数を増やすためにスケーラブルである。 ある種のラダーや線形構造は最終的に得られた絡み合い構造に含まれており、将来量子コンピューティングや量子ネットワークにも応用できる。

Optomechanical system is a promising platform to connect different notes of quantum networks, therefore, entanglement generated from it is also of great importance. In this paper, the parameter dependence of optomechanical and optical-optical entanglements generated from the double-longitudinal-mode cavity optomechanical system are discussed and two quadrapartite entanglement generation schemes based on such a system are proposed. Furthermore, 2N or 4N-partite entangled states can be obtained by coupling N cavities with N-1 beamsplitter(BS)s, and these schemes are scalable in increasing the partite number of entanglement. Certain ladder or linear structures are contained in the finally obtained entanglement structure, which can be applied in quantum computing or quantum networks in the future.
翻訳日:2023-05-18 11:31:30 公開日:2023-05-17
# 入力勾配蒸留によるl_{\infty}$-adversarial trainingにおける不等式現象の放出

Releasing Inequality Phenomena in $L_{\infty}$-Adversarial Training via Input Gradient Distillation ( http://arxiv.org/abs/2305.09305v2 )

ライセンス: Link先を確認
Junxi Chen, Junhao Dong, Xiaohua Xie(参考訳) 敵の例が出現し, DNNにたらされた破滅的な劣化を示すことから, 多くの敵の防御法が考案され, 敵の訓練が最も効果的と考えられる。 しかし、最近の研究は、$l_{\infty}$-adversarial trainingにおける不等式現象を示し、$l_{\infty}$-adversarially trained modelは、いくつかの重要なピクセルがノイズや閉塞によって乱されるときに脆弱であることを示した。 本稿では,l_{\infty}$-adversarial trainingにおける不等式現象を解放する,IGD (Input Gradient Distillation) と呼ばれる簡易かつ効果的な手法を提案する。 実験により、PGDATと比較して、モデルの対向ロバスト性を維持する一方で、IGDは$l_{\infty}$-adversariallyトレーニングされたモデルの誤差率を最大60\%と16.53\%に下げ、Imagenet-Cのノイズ画像は最大21.11\%に下げることが示された。 さらに,モデルの正当性マップの等しさがこのような堅牢性を向上させる理由を正式に説明する。

Since adversarial examples appeared and showed the catastrophic degradation they brought to DNN, many adversarial defense methods have been devised, among which adversarial training is considered the most effective. However, a recent work showed the inequality phenomena in $l_{\infty}$-adversarial training and revealed that the $l_{\infty}$-adversarially trained model is vulnerable when a few important pixels are perturbed by i.i.d. noise or occluded. In this paper, we propose a simple yet effective method called Input Gradient Distillation (IGD) to release the inequality phenomena in $l_{\infty}$-adversarial training. Experiments show that while preserving the model's adversarial robustness, compared to PGDAT, IGD decreases the $l_{\infty}$-adversarially trained model's error rate to inductive noise and inductive occlusion by up to 60\% and 16.53\%, and to noisy images in Imagenet-C by up to 21.11\%. Moreover, we formally explain why the equality of the model's saliency map can improve such robustness.
翻訳日:2023-05-18 11:31:15 公開日:2023-05-17