このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230510となっている論文です。

PDF登録状況(公開日: 20230510)

TitleAuthorsAbstract論文公表日・翻訳日
# autoupdate: androidアプリのコード更新を自動推奨する

AutoUpdate: Automatically Recommend Code Updates for Android Apps ( http://arxiv.org/abs/2209.07048v2 )

ライセンス: Link先を確認
Yue Liu and Chakkrit Tantithamthavorn and Yonghui Liu and Patanamon Thongtanunam and Li Li(参考訳) Androidはスマートフォンオペレーティングシステムの主流となり、アプリの開発者は、品質、セキュリティ、互換性を維持するために頻繁にアプリをアップデートする必要がある。 ディープラーニングは、自動コード更新を含むさまざまなソフトウェアエンジニアリングタスクで大きな進歩を遂げているが、既存のメソッドはandroidアプリ向けに特別に調整されていない。 本稿では,Androidアプリケーションのコード更新を推奨するために,CodeT5,CodeBERT,CodeGPT,UniXcoderを含む最先端のCodeLMを包括的に評価する。 この評価を容易にするために、2008年から2022年にかけて、google playで公開され、githubでホストされた3,195のandroidアプリから、ペアで更新されたメソッドのユニークなデータセットをキュレートした。 その結果,事前学習したCodeLMは従来の手法よりも優れており,現実的な時間的評価シナリオ下では190%から385%の精度が得られた。 CodeLMの中で、CodeT5は、ほとんどのコード更新タイプで、一貫して優れたパフォーマンスを示している。 さらに,更新タイプ,評価シナリオ,メソッドサイズ,更新サイズが codelms の性能に与える影響について検討し,時間適応性と一般化能力を改善するための今後の研究領域を明らかにする。

Android has become the predominant smartphone operating system, with a rapidly evolving ecosystem that requires app developers to frequently update their apps to maintain quality, security, and compatibility. While deep learning has made significant strides in various software engineering tasks, including automated code updates, existing methods are not specifically tailored for Android apps, and the potential of pre-trained Language Models of Code (CodeLMs) for updating Android app code remains unexplored. In this paper, we present the first comprehensive evaluation of state-of-the-art CodeLMs, including CodeT5, CodeBERT, CodeGPT, and UniXcoder, for recommending code updates in Android applications. To facilitate this evaluation, we curate a unique dataset of paired updated methods from 3,195 Android apps published on Google Play and hosted on GitHub between 2008 and 2022. Our findings demonstrate that pre-trained CodeLMs outperform traditional approaches, achieving a higher accuracy ranging from 190% to 385% under a realistic time-wise evaluation scenario. Among the CodeLMs, CodeT5 consistently exhibits superior performance across most code update types. Furthermore, we examine the impact of update types, evaluation scenarios, method size, and update size on the performance of CodeLMs, revealing areas for future research to improve temporal adaptability and generalization capabilities.
翻訳日:2023-10-24 14:55:14 公開日:2023-05-10
# オブジェクト指向要件: 仕様、シナリオ、テストのための統一フレームワーク

Object-Oriented Requirements: a Unified Framework for Specifications, Scenarios and Tests ( http://arxiv.org/abs/2209.02189v3 )

ライセンス: Link先を確認
Maria Naumcheva, Sophie Ebersold, Alexandr Naumchev, Jean-Michel Bruel, Florian Galinier, Bertrand Meyer(参考訳) 業界で支配的な要件仕様のパラドックスは、オブジェクト指向(OO)であると主張することが多いが、主に手続き的(非OO)技術に依存している。 ユースケースとユーザストーリーは、オブジェクトタイプではなく、機能フローを記述する。 オブジェクト技術(拡張性、再利用性、信頼性など)によって提供される利益を得るためには、要求はOO設計やOOプログラムと同じデータ抽象化の概念(クラス、継承、情報隠蔽)を利用するべきです。 多くの人が、コンセプトの単純さと実用性のために、ユースケースやユーザストーリーをアピールしています。 要件をオブジェクト指向の原則と調和させ、両方の世界を最大限に活用できるだろうか? この記事では統一フレームワークを提案する。 クラスの概念は、狭義の"オブジェクト"だけでなく、ユースケースやユーザストーリなどのシナリオや、テストケースやオーラクルといった重要なアーティファクトを記述するのに十分な一般性を示している。 ひとつのフレームワークを持つことは,両方のアプローチのメリットを享受する要件への道を開く – ユースケースやユーザストーリのように,ステークホルダの現実的な見解を反映している。

A paradox of requirements specifications as dominantly practiced in the industry is that they often claim to be object-oriented (OO) but largely rely on procedural (non-OO) techniques. Use cases and user stories describe functional flows, not object types. To gain the benefits provided by object technology (such as extendibility, reusability, reliability), requirements should instead take advantage of the same data abstraction concepts - classes, inheritance, information hiding - as OO design and OO programs. Many people find use cases and user stories appealing because of the simplicity and practicality of the concepts. Can we reconcile requirements with object-oriented principles and get the best of both worlds? This article proposes a unified framework. It shows that the concept of class is general enough to describe not only "objects" in a narrow sense but also scenarios such as use cases and user stories and other important artifacts such as test cases and oracles. Having a single framework opens the way to requirements that enjoy the benefits of both approaches: like use cases and user stories, they reflect the practical views of stakeholders; like object-oriented requirements, they lend themselves to evolution and reuse.
翻訳日:2023-10-24 14:54:31 公開日:2023-05-10
# StILL ArOUND": ベテランの女性ソフトウェア開発者の経験と生存戦略

"STILL AROUND": Experiences and Survival Strategies of Veteran Women Software Developers ( http://arxiv.org/abs/2302.03723v2 )

ライセンス: Link先を確認
Sterre van Breukelen, Ann Barcomb, Sebastian Baltes, Alexander Serebrenik(参考訳) 年齢差別と性差別の交わりは、辺境化した性別に属するベテランソフトウェア開発者にとって敵対的な環境を生み出すことができる。 本研究では,この分野に留まるために採用した戦略を明らかにするために,この交差点における人々の経験,主に女性について,14の面接を行った。 283のコードを識別し,戦略,経験,知覚の3つのカテゴリに分類した。 例えば、(Deliberately) Not Trying to Look Youngerのようないくつかの戦略は、以前ソフトウェア工学の文献で説明されていなかった。 一部の企業では、年配の女性開発者は特定の価値を持っていると認識されており、労働力における多様性の既知のメリットをさらに強化している。 経験と戦略に基づいて、ベテラン女性ソフトウェア開発者を採用するメリットを検討するために、ソフトウェア開発者を採用する組織を提案する。 例えば、企業は、同様の人口統計から顧客のニーズをよりよく理解するために、年配の女性開発者の生活経験を引き出すことができる。 研究参加者が採用する戦略の多くはシステム的な問題に対する対応であると認識していますが、短期的には、このような問題を経験している開発者には、これらの戦略を説明するメリットがあると考えています。

The intersection of ageism and sexism can create a hostile environment for veteran software developers belonging to marginalized genders. In this study, we conducted 14 interviews to examine the experiences of people at this intersection, primarily women, in order to discover the strategies they employed in order to successfully remain in the field. We identified 283 codes, which fell into three main categories: Strategies, Experiences, and Perception. Several strategies we identified, such as (Deliberately) Not Trying to Look Younger, were not previously described in the software engineering literature. We found that, in some companies, older women developers are recognized as having particular value, further strengthening the known benefits of diversity in the workforce. Based on the experiences and strategies, we suggest organizations employing software developers to consider the benefits of hiring veteran women software developers. For example, companies can draw upon the life experiences of older women developers in order to better understand the needs of customers from a similar demographic. While we recognize that many of the strategies employed by our study participants are a response to systemic issues, we still consider that, in the short-term, there is benefit in describing these strategies for developers who are experiencing such issues today.
翻訳日:2023-10-24 13:28:41 公開日:2023-05-10
# ディープコード検索に関する調査

A Survey of Deep Code Search ( http://arxiv.org/abs/2305.05959v1 )

ライセンス: Link先を確認
Yutao Xie, Jiayi Lin, Hande Dong, Lei Zhang, Zhonghai Wu(参考訳) コード記述は反復的で予測可能で、さまざまなコードインテリジェンス技術の開発に刺激を与えます。 この調査は、クエリとコード間の意味的類似性を効果的に捉えて、与えられたクエリにマッチするコードを取得するためのコード検索に焦点を当てている。 複雑なセマンティクス情報を抽出可能なディープラーニングは、この分野で大きな成功を収めています。 近年,グラフニューラルネットワークや事前学習モデルなどのディープラーニング手法が,大きな進歩を遂げたコード探索に応用されている。 ディープラーニングは現在、コード検索の主要なパラダイムです。 本稿では,深層学習に基づくコード検索の包括的概要について述べる。 本稿では、クエリ/コードをベクトルにマッピングし、類似度を測定する、既存のディープラーニングベースのコード検索フレームワークについて検討する。 さらに,質問文セマンティクスモデリング,コードセマンティクスモデリング,深層学習モデルトレーニングを含むマッチングモデリングという,最先端のディープラーニングベースのコード検索を3段階のプロセスで記述する新たな分類法を提案する。 最後に、この将来的な分野における今後の研究への道のりを提案する。

Code writing is repetitive and predictable, inspiring us to develop various code intelligence techniques. This survey focuses on code search, that is, to retrieve code that matches a given query by effectively capturing the semantic similarity between the query and code. Deep learning, being able to extract complex semantics information, has achieved great success in this field. Recently, various deep learning methods, such as graph neural networks and pretraining models, have been applied to code search with significant progress. Deep learning is now the leading paradigm for code search. In this survey, we provide a comprehensive overview of deep learning-based code search. We review the existing deep learning-based code search framework which maps query/code to vectors and measures their similarity. Furthermore, we propose a new taxonomy to illustrate the state-of-the-art deep learning-based code search in a three-steps process: query semantics modeling, code semantics modeling, and matching modeling which involves the deep learning model training. Finally, we suggest potential avenues for future research in this promising field.
翻訳日:2023-10-24 09:16:27 公開日:2023-05-10
# Python用のスケーラブルな需要駆動型コールグラフ生成

Scalable Demand-Driven Call Graph Generation for Python ( http://arxiv.org/abs/2305.05949v1 )

ライセンス: Link先を確認
Yixuan Yan, Kaifeng Huang, Bihuan Chen, Zixin Tao, Xin Peng(参考訳) コールグラフ生成はプロセス間静的解析の基礎である。 PyCGはPythonプログラムのコールグラフを生成するための最先端のアプローチである。 残念ながら、依存するライブラリも分析される全プログラム解析に適応した場合、pycgは大規模プログラムにはスケールしない。 さらに、PyCGは、与えられたエントリ関数からの到達可能な関数のみを解析する要求駆動分析をサポートしない。 さらに、PyCGはフローに敏感であり、Pythonの機能を完全にサポートしていない。 これらの欠点を克服するために,Pythonプログラムのコールグラフを生成するスケーラブルな需要駆動アプローチを提案し,プロトタイプツールであるJarvisとして実装する。 jarvisはプログラムの各関数に対する割り当てグラフ(プログラム識別子間のポイントツーリレーション)を維持して、再利用とスケーラビリティの向上を実現している。 要求として一連のエントリ関数が与えられた場合、Jarvis氏は、フローセンシティブなプロセス内分析とプロセス間解析を交互に行う、オンザフライのコールグラフを生成する。 135個のPythonプログラムのマイクロベンチマークと6個の実世界のPythonアプリケーションのマクロベンチマークによる評価により、JarvisはPyCGを少なくとも67%高速化し、精度は84%向上し、リコールでは少なくとも10%向上することを示した。

Call graph generation is the foundation of inter-procedural static analysis. PyCG is the state-of-the-art approach for generating call graphs for Python programs. Unfortunately, PyCG does not scale to large programs when adapted to whole-program analysis where dependent libraries are also analyzed. Further, PyCG does not support demand-driven analysis where only the reachable functions from given entry functions are analyzed. Moreover, PyCG is flow-insensitive and does not fully support Python's features, hindering its accuracy. To overcome these drawbacks, we propose a scalable demand-driven approach for generating call graphs for Python programs, and implement it as a prototype tool Jarvis. Jarvis maintains an assignment graph (i.e., points-to relations between program identifiers) for each function in a program to allow reuse and improve scalability. Given a set of entry functions as the demands, Jarvis generates the call graph on-the-fly, where flow-sensitive intra-procedural analysis and inter-procedural analysis are conducted in turn. Our evaluation on a micro-benchmark of 135 small Python programs and a macro-benchmark of 6 real-world Python applications has demonstrated that Jarvis can significantly improve PyCG by at least 67% faster in time, 84% higher in precision, and at least 10% higher in recall.
翻訳日:2023-10-24 09:16:08 公開日:2023-05-10
# 公共行政におけるデジタルトランスフォーメーション : コンピュータ科学者のためのガイドツアー

Digital Transformation in the Public Administrations: a Guided Tour For Computer Scientists ( http://arxiv.org/abs/2305.05551v2 )

ライセンス: Link先を確認
Paolo Ciancarini, Raffaele Giancarlo, Gennaro Grimaudo(参考訳) デジタルトランスフォーメーション(デジタルトランスフォーメーション、Digital Transformation, DT)は、デジタル技術とソリューションを、公的であれプライベートであれ、組織の活動に統合するプロセスである。 本稿では,革新的なデジタルソリューションのターゲットが市民か行政機関か,あるいはその両方である公共セクター組織のDTに焦点を当てる。 公共部門のデジタルトランスフォーメーションには,単なる技術利用以上の意味があるため,本稿はコンピュータ科学者のためのガイドツアーである。 技術革新はデジタルトランスフォーメーションの重要な要素であるが、それ自体では不十分である。 代わりにDTは、公共セクター組織がユーザを運用し、関連づける方法で、文化的、組織的、技術的に変化することを必要とし、組織内で、彼らが運営し、市民と関係する方法で、最も速く、最良の、最も革新的な方法で、あらゆる機会を最大限に活用する能力を作成します。 本チュートリアルは,コンピュータ科学者によく知られたデジタル図書館で利用可能な科学文献の分析として実施した調査の結果を基にしている。 このようなチュートリアルでは、(オープン)データ、ICT技術、市民と公共管理者のデジタルスキル、新しいデジタルサービスや製品を開発するためのアジャイルプロセスの4つの重要な柱を特定しました。 チュートリアルではこれらの柱の相互作用について論じ、DTの第一の柱としてのデータの重要性を強調している。 我々はこれらの柱間の基本的な関係を示すグラフモデルとして概念マップを開発した。 技術のみに制限されたDTのレンダリングから生じる潜在的な負のバイアスを回避することを目的とした4つの柱間の関係について論じる。 我々はまた、イラストレーションの例を提供し、最先端技術から出現する関連トレンドを強調します。

Digital Transformation (DT) is the process of integrating digital technologies and solutions into the activities of an organization, whether public or private. This paper focuses on the DT of public sector organizations, where the targets of innovative digital solutions are either the citizens or the administrative bodies or both. This paper is a guided tour for Computer Scientists, as the digital transformation of the public sector involves more than just the use of technology. While technological innovation is a crucial component of any digital transformation, it is not sufficient on its own. Instead, DT requires a cultural, organizational, and technological shift in the way public sector organizations operate and relate to their users, creating the capabilities within the organization to take full advantage of any opportunity in the fastest, best, and most innovative manner in the ways they operate and relate to the citizens. Our tutorial is based on the results of a survey that we performed as an analysis of scientific literature available in some digital libraries well known to Computer Scientists. Such tutorial let us to identify four key pillars that sustain a successful DT: (open) data, ICT technologies, digital skills of citizens and public administrators, and agile processes for developing new digital services and products. The tutorial discusses the interaction of these pillars and highlights the importance of data as the first and foremost pillar of any DT. We have developed a conceptual map in the form of a graph model to show some basic relationships among these pillars. We discuss the relationships among the four pillars aiming at avoiding the potential negative bias that may arise from a rendering of DT restricted to technology only. We also provide illustrative examples and highlight relevant trends emerging from the current state of the art.
翻訳日:2023-10-24 09:14:19 公開日:2023-05-10
# GitHub Copilotで生成されたコードの実行時パフォーマンスを測定する

Measuring the Runtime Performance of Code Produced with GitHub Copilot ( http://arxiv.org/abs/2305.06439v1 )

ライセンス: Link先を確認
Daniel Erhabor, Sreeharsha Udayashankar, Meiyappan Nagappan, Samer Al-Kiswany(参考訳) github copilotは、多くの開発者が使っている人工知能によるプログラミングアシスタントである。 copilotを使用する際のセキュリティリスクを評価した研究はいくつかあるが、実行時のパフォーマンスが向上したコードを生成するのに役立つかどうかを示す調査は行われていない。 開発者がgithub copilotを使用する場合とそうでない場合のランタイムパフォーマンスを評価します。 そこで,被験者32名を対象に,copilotとcopilotを併用した2つのc++プログラミング問題を解いたユーザ調査を行い,テストデータに対する参加者のソリューションのランタイム性能を測定した。 結果から,Copilotは実行時のパフォーマンスが著しく遅いコードを生成する可能性が示唆された。

GitHub Copilot is an artificially intelligent programming assistant used by many developers. While a few studies have evaluated the security risks of using Copilot, there has not been any study to show if it aids developers in producing code with better runtime performance. We evaluate the runtime performance of code produced when developers use GitHub Copilot versus when they do not. To this end, we conducted a user study with 32 participants where each participant solved two C++ programming problems, one with Copilot and the other without it and measured the runtime performance of the participants' solutions on our test data. Our results suggest that using Copilot may produce code with a significantly slower runtime performance.
翻訳日:2023-10-24 09:03:22 公開日:2023-05-10
# Suggestion Bot: コードレビューにおける自動変更の影響の分析

Suggestion Bot: Analyzing the Impact of Automated Suggested Changes on Code Reviews ( http://arxiv.org/abs/2305.06328v1 )

ライセンス: Link先を確認
Nivishree Palvannan and Chris Brown(参考訳) ピアコードレビューは、ソフトウェアリポジトリのコードの品質を維持するために不可欠です。 開発者はコードレビュープロセスを支援するソフトウェアボットをいくつか導入した。 コードレビュータスクを自動化するメリットがあるにも関わらず、多くの開発者は、非包括的なフィードバックと破壊的な通知のために、これらのボットと対話する課題に直面しています。 本稿では,ソフトウェア開発サイクルにボットを組み込むことで,プルリクエストのターンアラウンド時間を削減する方法について分析する。 この問題を解決するために、githubのsuggested changes機能を使ってコードベースを自動的にレビューするために、suggested botというボットを作成しました。 本研究は,本ボットの利用と手作業によるレビュー手順に関する予備的な比較実験も行った。 我々は、レビュー時間への影響についてSUGGESTION BOTを評価し、ボットが提供するコメントがユーザにとって明確で有用かどうかを分析する。 この結果は,今後のシステム設計や,コードレビューのためのヒューマンボットインタラクションの改善に寄与する。

Peer code reviews are crucial for maintaining the quality of the code in software repositories. Developers have introduced a number of software bots to help with the code review process. Despite the benefits of automating code review tasks, many developers face challenges interacting with these bots due to non-comprehensive feedback and disruptive notifications. In this paper, we analyze how incorporating a bot in software development cycle will decrease turnaround time of pull request. We created a bot called SUGGESTION BOT to automatically review the code base using GitHub's suggested changes functionality in order to solve this issue. A preliminary comparative empirical investigation between the utilization of this bot and manual review procedures was also conducted in this study. We evaluate SUGGESTION BOT concerning its impact on review time and also analyze whether the comments given by the bot are clear and useful for users. Our results provide implications for the design of future systems and improving human-bot interactions for code review.
翻訳日:2023-10-24 09:03:09 公開日:2023-05-10
# コードリファクタリングはマージ作業に影響を与えるか?

Do code refactorings influence the merge effort? ( http://arxiv.org/abs/2305.06129v1 )

ライセンス: Link先を確認
Andre Oliveira, Vania Neves, Alexandre Plastino, Ana Carla Bibiano, Alessandro Garcia, Leonardo Murta(参考訳) 共同ソフトウェア開発では、複数のコントリビュータがソースコードを並行して変更し、新機能を実装し、バグを修正し、既存のコードをリファクタリングし、他の変更を加える。 これらの同時変更は、ソースコードの同じバージョンにマージする必要がある。 しかしマージ操作は失敗する可能性があり、コンフリクトを解決するには開発者による介入が必要である。 文献の研究によると、マージの試みの10%から20%は、プロセスを完成させるために手動開発者による介入を必要とする衝突を引き起こす。 本稿では、ソースコードの構造に影響を与え、マージの労力を増加させる可能性のある、特定のタイプの変更について懸念する。 リファクタリングの発生とマージ作業の関係を分析します。 そこで我々は,アソシエーションルール抽出と呼ばれるデータマイニング手法を適用し,リファクタリングがマージ作業に与える影響を分析するための行動パターンの探索を行った。 実験では,28のオープンソースプロジェクトで発生した40,248件のマージコミットから関連ルールを抽出した。 結果は次のように示しています。 (i)リファクタリングの発生は、マージ努力の機会を増加させる。 (ii)リファクタリングが多ければ多いほど、努力の機会が増えます。 (iii)リファクタリングが多ければ多いほど、努力は大きくなる。 (iv)並列リファクタリングは、努力の機会を増すだけでなく、その強度も増す。 得られた結果は、開発者チームによるリファクタリングの実装方法の振る舞いの変化を示唆するかもしれない。 さらに、コードのマージをサポートするツールとリファクタリングを推奨するツールの改善方法を示すこともできる。

In collaborative software development, multiple contributors frequently change the source code in parallel to implement new features, fix bugs, refactor existing code, and make other changes. These simultaneous changes need to be merged into the same version of the source code. However, the merge operation can fail, and developer intervention is required to resolve the conflicts. Studies in the literature show that 10 to 20 percent of all merge attempts result in conflicts, which require the manual developer's intervention to complete the process. In this paper, we concern about a specific type of change that affects the structure of the source code and has the potential to increase the merge effort: code refactorings. We analyze the relationship between the occurrence of refactorings and the merge effort. To do so, we applied a data mining technique called association rule extraction to find patterns of behavior that allow us to analyze the influence of refactorings on the merge effort. Our experiments extracted association rules from 40,248 merge commits that occurred in 28 popular open-source projects. The results indicate that: (i) the occurrence of refactorings increases the chances of having merge effort; (ii) the more refactorings, the greater the chances of effort; (iii) the more refactorings, the greater the effort; and (iv) parallel refactorings increase even more the chances of having effort, as well as the intensity of it. The results obtained may suggest behavioral changes in the way refactorings are implemented by developer teams. In addition, they can indicate possible ways to improve tools that support code merging and those that recommend refactorings, considering the number of refactorings and merge effort attributes.
翻訳日:2023-10-24 09:02:55 公開日:2023-05-10
# it/ot統合を実現するビジネスプロセスのデジタル双生児

Digital Twins of Business Processes as Enablers for IT / OT Integration ( http://arxiv.org/abs/2305.06001v1 )

ライセンス: Link先を確認
Hannes Waclawek, Georg Sch\"afer, Christoph Binder, Eduard Hirsch, Stefan Huber(参考訳) industry 4.0のビジョンは、運用技術(ot)システムに新しい要件を導入する。 これらの要件に対するソリューションは、IT(Information Technology)の世界にすでに存在しているが、両方の世界の異なる特性のため、OTの世界では直接利用できないことが多い。 そこで我々は産業的ビジネスプロセス双生児(ibpt)を提案し,一方の世界の方法を直接ではなく,他方の世界と双方向の交換にある表現に適用することを可能にする。 提案されたIBPTエンティティは仲介者として機能し、ITとOTの世界を分離することで、異なるメーカーやプラットフォームのITとOTコンポーネントの統合を可能にします。 このアプローチを用いて,9人のメンズ・モリスをプレイするゲーミフィケーション4.0のシナリオに基づいて,情報透明性,技術援助,相互接続,分散化決定の4つの重要な設計原則を実証する。 このシナリオはエージェントベースの人工知能(AI)の研究と教育に有効である。 我々は,Open Platform Communications Unified Architecture (OPC UA) 情報・通信モデルを開発し,参照アーキテクチャモデル産業 4.0 (RAMI4.0) の異なる視点に対するIBPTコンポーネントの評価を行った。

The vision of Industry 4.0 introduces new requirements to Operational Technology (OT) systems. Solutions for these requirements already exist in the Information Technology (IT) world, however, due to the different characteristics of both worlds, these solutions often cannot be directly used in the world of OT. We therefore propose an Industrial Business Process Twin (IBPT), allowing to apply methods of one world to another not directly but, instead, to a representation, that is in bidirectional exchange with the other world. The proposed IBPT entity acts as an intermediary, decoupling the worlds of IT and OT, thus allowing for an integration of IT and OT components of different manufacturers and platforms. Using this approach, we demonstrate the four essential Industry 4.0 design principles information transparency, technical assistance, interconnection and decentralized decisions based on the gamified Industry 4.0 scenario of playing the game of Nine Men's Morris. This scenario serves well for agent based Artificial Intelligence (AI)-research and education. We develop an Open Platform Communications Unified Architecture (OPC UA) information and communication model and then evaluate the IBPT component with respect to the different views of the Reference Architecture Model Industry 4.0 (RAMI4.0).
翻訳日:2023-10-24 09:02:11 公開日:2023-05-10
# GPTモデルとロボット応用:協調学習チャットシステム

GPT Models Meet Robotic Applications: Co-Speech Gesturing Chat System ( http://arxiv.org/abs/2306.01741v1 )

ライセンス: Link先を確認
Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi(参考訳) 本稿では,GPT-3やChatGPTといった大規模言語モデル(LLM)の最近の進歩を利用したチャットロボットシステムを提案する。 本システムは,音声の概念的意味に基づいて適切なジェスチャーを選択する音声合成システムと統合されている。 我々のモチベーションは、チャットボットとLLMの両方の開発に役立つ実用ロボットアプリケーションにおけるLLMの最近の進歩を活用する方法を探ることである。 具体的には、LLMを活用して高応答性チャットボットシステムの開発を可能にし、付加価値としてLLMのユーザインタフェースに視覚効果を加える。 システムのソースコードは、当社の社内ロボット(https://github.com/microsoft/LabanotationSuite/tree/MSRAbotChatSimulation)とToyota HSR(https://github.com/microsoft/GPT-Enabled-HSR-CoSpeechGestures)でGitHubで入手できる。

This technical paper introduces a chatting robot system that utilizes recent advancements in large-scale language models (LLMs) such as GPT-3 and ChatGPT. The system is integrated with a co-speech gesture generation system, which selects appropriate gestures based on the conceptual meaning of speech. Our motivation is to explore ways of utilizing the recent progress in LLMs for practical robotic applications, which benefits the development of both chatbots and LLMs. Specifically, it enables the development of highly responsive chatbot systems by leveraging LLMs and adds visual effects to the user interface of LLMs as an additional value. The source code for the system is available on GitHub for our in-house robot (https://github.com/microsoft/LabanotationSuite/tree/master/MSRAbotChatSimulation) and GitHub for Toyota HSR (https://github.com/microsoft/GPT-Enabled-HSR-CoSpeechGestures).
翻訳日:2023-10-24 04:33:42 公開日:2023-05-10
# QuanAnts Machine:バイオマーカー発見のための量子アルゴリズム

QuanAnts Machine: A Quantum Algorithm for Biomarker Discovery ( http://arxiv.org/abs/2309.00001v1 )

ライセンス: Link先を確認
Phuong-Nam Nguyen(参考訳) 標的経路に対するバイオマーカーセットの発見は、生物医学における困難な問題であり、膨大な探索空間のため古典的アルゴリズムでは計算的に禁止されている。 ここでは,タスクに対処する量子化機械という量子アルゴリズムを提案する。 提案アルゴリズムは古典的アントコロニー最適化(ACO)の量子アナログである。 本研究では,ヒトゲノムのマルチモダリティからバイオマーカーの探索を可能にするために,遺伝子ネットワークからマルチドメインの混合を表現論的に作成する。 提案モデルは一般化できるが,本研究におけるras-mutational activationについて検討する。 最終的にQuantAnts Machineは、COL5A1、COL5A2、CCT5、MTSS1、NCAPD2を含むRAS活性化経路の臨床的関連ドメインにおいて、ほとんど知られていないバイオマーカーを発見する。 また、JUP、CD9、CD34、CD74などの治療標的も提案している。

The discovery of biomarker sets for a targeted pathway is a challenging problem in biomedical medicine, which is computationally prohibited on classical algorithms due to the massive search space. Here, I present a quantum algorithm named QuantAnts Machine to address the task. The proposed algorithm is a quantum analog of the classical Ant Colony Optimization (ACO). We create the mixture of multi-domain from genetic networks by representation theory, enabling the search of biomarkers from the multi-modality of the human genome. Although the proposed model can be generalized, we investigate the RAS-mutational activation in this work. To the end, QuantAnts Machine discovers rarely-known biomarkers in clinical-associated domain for RAS-activation pathway, including COL5A1, COL5A2, CCT5, MTSS1 and NCAPD2. Besides, the model also suggests several therapeutic-targets such as JUP, CD9, CD34 and CD74.
翻訳日:2023-10-23 11:44:26 公開日:2023-05-10
# ネガティビティを超えて:ホープ音声検出における再分析とフォローアップ実験

Beyond Negativity: Re-Analysis and Follow-Up Experiments on Hope Speech Detection ( http://arxiv.org/abs/2306.01742v1 )

ライセンス: Link先を確認
Neemesh Yadav, Mohammad Aflah Khan, Diksha Sethi and Raghav Sahni(参考訳) 健康の専門家は、希望は個人の身体的および精神的な健康の向上、回復の促進、回復の促進に重要な役割を果たしていると主張している。 hope speechは、コメント、投稿、その他のソーシャルメディアメッセージで、サポート、安心感、提案、インスピレーション、洞察を提供する。 ホープ音声の検出は、人々のポジティブな感情を誘発するメッセージの識別を目的として、そのようなテキストコンテンツの分析を伴う。 本研究は, 希望音声検出のための計算効率が高く, 同等かつ優れた手法を見つけることを目的とする。 また、コードベースをhttps://github.com/aflah02/Hope_Speech_Detectionで公開しています。

Health experts assert that hope plays a crucial role in enhancing individuals' physical and mental well-being, facilitating their recovery, and promoting restoration. Hope speech refers to comments, posts and other social media messages that offer support, reassurance, suggestions, inspiration, and insight. The detection of hope speech involves the analysis of such textual content, with the aim of identifying messages that invoke positive emotions in people. Our study aims to find computationally efficient yet comparable/superior methods for hope speech detection. We also make our codebase public at https://github.com/aflah02/Hope_Speech_Detection
翻訳日:2023-06-11 14:13:51 公開日:2023-05-10
# バイオメディカル自然言語処理における大規模言語モデル--ベンチマーク,ベースライン,レコメンデーション

Large language models in biomedical natural language processing: benchmarks, baselines, and recommendations ( http://arxiv.org/abs/2305.16326v1 )

ライセンス: Link先を確認
Qingyu Chen, Jingcheng Du, Yan Hu, Vipina Kuttichi Keloth, Xueqing Peng, Kalpana Raja, Rui Zhang, Zhiyong Lu, Hua Xu(参考訳) 医学文献は急速に成長しており、手作業による知識の収集が困難になっている。 バイオメディカル自然言語処理(BioNLP)技術は、バイオメディカル文献から情報を自動的に抽出することで、この負担を軽減する。 近年, GPT-3 や GPT-4 などの大規模言語モデル (LLM) が注目されている。 しかし、bionlpタスクの有効性やメソッド開発や下流ユーザへの影響は未検討のままである。 This pilot study (1) establishes the baseline performance of GPT-3 and GPT-4 at both zero-shot and one-shot settings in eight BioNLP datasets across four applications: named entity recognition, relation extraction, multi-label document classification, and semantic similarity and reasoning, (2) examines the errors produced by the LLMs and categorized the errors into three types: missingness, inconsistencies, and unwanted artificial content, and (3) provides suggestions for using LLMs in BioNLP applications. データセット、ベースライン、結果はhttps://github.com/qingyu-qc/gpt_bionlp_benchmarkでコミュニティに公開しています。

Biomedical literature is growing rapidly, making it challenging to curate and extract knowledge manually. Biomedical natural language processing (BioNLP) techniques that can automatically extract information from biomedical literature help alleviate this burden. Recently, large Language Models (LLMs), such as GPT-3 and GPT-4, have gained significant attention for their impressive performance. However, their effectiveness in BioNLP tasks and impact on method development and downstream users remain understudied. This pilot study (1) establishes the baseline performance of GPT-3 and GPT-4 at both zero-shot and one-shot settings in eight BioNLP datasets across four applications: named entity recognition, relation extraction, multi-label document classification, and semantic similarity and reasoning, (2) examines the errors produced by the LLMs and categorized the errors into three types: missingness, inconsistencies, and unwanted artificial content, and (3) provides suggestions for using LLMs in BioNLP applications. We make the datasets, baselines, and results publicly available to the community via https://github.com/qingyu-qc/gpt_bionlp_benchmark.
翻訳日:2023-06-04 12:06:29 公開日:2023-05-10
# エネルギーと力のキャリブレーションされたアレエータ型およびエピステム型不確実性を持つグラフニューラルネットワークの原子間ポテンシャルアンサンブル

Graph Neural Network Interatomic Potential Ensembles with Calibrated Aleatoric and Epistemic Uncertainty on Energy and Forces ( http://arxiv.org/abs/2305.16325v1 )

ライセンス: Link先を確認
Jonas Busk, Mikkel N. Schmidt, Ole Winther, Tejs Vegge and Peter Bj{\o}rn J{\o}rgensen(参考訳) 原子間力の反復予測と適用により、材料の構造最適化と分子動力学シミュレーションを高速化するために、不特定機械学習ポテンシャルがますます利用されている。 これらの設定では、誤った結果や誤解を招く結果を避けるために予測が信頼できないことを検出することが不可欠である。 ここでは、エネルギーと力の正確な予測をキャリブレーションされた不確実性推定で生成するために、グラフニューラルネットワークアンサンブルモデルのトレーニングと再検討のための完全なフレームワークを提案する。 提案手法は, 予測精度を損なうことなく, 既往のデータのキャリブレーションを良好に行うために, 非線形スケーリング関数を用いて, エピステミックとアレタリックの両不確実性を考慮した。 この手法は、ANI-1x (Smith et al.) とTransition1x (Schreiner et al.) の2つの困難かつ公開なデータセット上で実証され、評価される。 予測性能と不確実性校正の詳細な分析を提供する。 全ての実験において,提案手法は予測誤差が低く,不確かさのキャリブレーションが良好であった。 そこで本研究では,ML電位におけるエネルギーと力の両面において,校正されたてんかんおよびアレータリック不確実性を予測するための完全な枠組みを初めて検討した。

Inexpensive machine learning potentials are increasingly being used to speed up structural optimization and molecular dynamics simulations of materials by iteratively predicting and applying interatomic forces. In these settings, it is crucial to detect when predictions are unreliable to avoid wrong or misleading results. Here, we present a complete framework for training and recalibrating graph neural network ensemble models to produce accurate predictions of energy and forces with calibrated uncertainty estimates. The proposed method considers both epistemic and aleatoric uncertainty and the total uncertainties are recalibrated post hoc using a nonlinear scaling function to achieve good calibration on previously unseen data, without loss of predictive accuracy. The method is demonstrated and evaluated on two challenging, publicly available datasets, ANI-1x (Smith et al.) and Transition1x (Schreiner et al.), both containing diverse conformations far from equilibrium. A detailed analysis of the predictive performance and uncertainty calibration is provided. In all experiments, the proposed method achieved low prediction error and good uncertainty calibration, with predicted uncertainty correlating with expected error, on energy and forces. To the best of our knowledge, the method presented in this paper is the first to consider a complete framework for obtaining calibrated epistemic and aleatoric uncertainty predictions on both energy and forces in ML potentials.
翻訳日:2023-06-04 12:06:14 公開日:2023-05-10
# 機械との対話:創発対話システムに関する包括的調査

Talking with Machines: A Comprehensive Survey of Emergent Dialogue Systems ( http://arxiv.org/abs/2305.16324v1 )

ライセンス: Link先を確認
William Tholke(参考訳) 20世紀初期の実験から大規模言語モデルやトランスフォーマーの利用に至るまで、対話システムの研究は発展を続け、多くの分野で重要な役割を担っている。 本稿では,これらのシステムの包括的レビューを行い,その歴史的展開を追跡し,基本的な運用について考察する。 従来のシステムや高度な機械学習手法を含む対話システム研究における重要な貢献をトレーニングし、調査するために、人気データセットや新興データセットを分析した。 最後に, 従来型および変圧器型評価指標を考察し, 現場における課題と今後の展望について概説する。

From the earliest experiments in the 20th century to the utilization of large language models and transformers, dialogue systems research has continued to evolve, playing crucial roles in numerous fields. This paper offers a comprehensive review of these systems, tracing their historical development and examining their fundamental operations. We analyze popular and emerging datasets for training and survey key contributions in dialogue systems research, including traditional systems and advanced machine learning methods. Finally, we consider conventional and transformer-based evaluation metrics, followed by a short discussion of prevailing challenges and future prospects in the field.
翻訳日:2023-06-04 12:05:40 公開日:2023-05-10
# アフリカの医療における人工知能は

What We Know So Far: Artificial Intelligence in African Healthcare ( http://arxiv.org/abs/2305.18302v1 )

ライセンス: Link先を確認
Naome Etori, Ebasa Temesgen, and Maria Gini(参考訳) アフリカの医療は貧困、インフラの欠如、資金不足など多くの要因に影響される複雑な問題である。 しかし、ai(artificial intelligence)は、診断の正確性と効率を改善し、病気の早期発見を可能にし、パーソナライズされた医療の提供をサポートすることで、アフリカの医療を変革する可能性を秘めている。 本稿では,診断,治療,疾患モニタリングにおけるaiアルゴリズムの利用の現状と,低リソース環境としてアフリカにおける医療へのアクセスを改善するためのaiの利用方法についてレビューするとともに,その採用に向けた重要な課題と機会について論じる。 そのため、アフリカ医療システムのユニークなニーズを満たす持続可能なaiソリューションを作成するために、政府、民間部門、医療提供者、国際組織による、十分に調整された努力が必要である。

Healthcare in Africa is a complex issue influenced by many factors including poverty, lack of infrastructure, and inadequate funding. However, Artificial intelligence (AI) applied to healthcare, has the potential to transform healthcare in Africa by improving the accuracy and efficiency of diagnosis, enabling earlier detection of diseases, and supporting the delivery of personalized medicine. This paper reviews the current state of how AI Algorithms can be used to improve diagnostics, treatment, and disease monitoring, as well as how AI can be used to improve access to healthcare in Africa as a low-resource setting and discusses some of the critical challenges and opportunities for its adoption. As such, there is a need for a well-coordinated effort by the governments, private sector, healthcare providers, and international organizations to create sustainable AI solutions that meet the unique needs of the African healthcare system.
翻訳日:2023-06-04 11:39:12 公開日:2023-05-10
# 3次元流れ場分割と分類のための新しい深層学習法

Novel deep learning methods for 3D flow field segmentation and classification ( http://arxiv.org/abs/2305.11884v1 )

ライセンス: Link先を確認
Xiaorui Bai, Wenyong Wang, Jun Zhang, Yueqing Wang, Yu Xiang(参考訳) 流れ場のセグメンテーションと分類は、渦の構造や乱流を理解するのに役立つ。 グローバル情報に基づく既存の深層学習手法 : 2次元状況に着目して 流れ場理論に基づいて,3次元空間における新しい流れ場セグメンテーションとディープラーニングの分類法を提案する。 本研究では,局所速度情報と渦流と渦流の関係に基づく分類基準に基づいてセグメンテーション基準を構築し,3次元流れ場の渦構造を同定し,渦流のタイプを正確にかつ迅速に分類する。 シミュレーション実験の結果, 従来の手法と比較して, 分節法では渦面積をより正確に識別でき, 時間消費は50%以上減少し, 分節法では同じ分類精度を維持しながら, 時間消費を90%以上削減できることがわかった。

Flow field segmentation and classification help researchers to understand vortex structure and thus turbulent flow. Existing deep learning methods mainly based on global information and focused on 2D circumstance. Based on flow field theory, we propose novel flow field segmentation and classification deep learning methods in three-dimensional space. We construct segmentation criterion based on local velocity information and classification criterion based on the relationship between local vorticity and vortex wake, to identify vortex structure in 3D flow field, and further classify the type of vortex wakes accurately and rapidly. Simulation experiment results showed that, compared with existing methods, our segmentation method can identify the vortex area more accurately, while the time consumption is reduced more than 50\%; our classification method can reduce the time consumption by more than 90\% while maintaining the same classification accuracy level.
翻訳日:2023-05-28 05:29:45 公開日:2023-05-10
# augmented memory:experience replayを活かしてde novo分子設計を加速する

Augmented Memory: Capitalizing on Experience Replay to Accelerate De Novo Molecular Design ( http://arxiv.org/abs/2305.16160v1 )

ライセンス: Link先を確認
Jeff Guo, Philippe Schwaller(参考訳) サンプル効率は、de novo分子設計における根本的な課題である。 理想的には、分子生成モデルは、最小のオラクル評価(計算予測またはウェットラブ実験)の下で、望ましい目的を満たすために学習すべきである。 この問題は、予測精度が向上するが、かなりのコストを課すオラクルを使用すると明らかになる。 そのため、実際の予算で直接最適化することはできない。 分子生成モデルでは、実用的な分子最適化(pmo)ベンチマークで示されているように、強化学習と組み合わせることで顕著なサンプル効率を示した。 本稿では,データ拡張と体験再生を組み合わせたAugmented Memoryという新しいアルゴリズムを提案する。 オラクルコールから得られたスコアを再利用してモデルを複数回更新できることを示す。 提案するアルゴリズムと拡張メモリを比較し,エクスプロイションタスクと探索とエクスプロイトの両方を必要とする薬物発見事例スタディにおいて,サンプル効率が著しく向上したことを示す。 提案手法はPMOベンチマークにおいて,計算予算を強制し,従来の19/23タスクの最高性能を達成している。

Sample efficiency is a fundamental challenge in de novo molecular design. Ideally, molecular generative models should learn to satisfy a desired objective under minimal oracle evaluations (computational prediction or wet-lab experiment). This problem becomes more apparent when using oracles that can provide increased predictive accuracy but impose a significant cost. Consequently, these oracles cannot be directly optimized under a practical budget. Molecular generative models have shown remarkable sample efficiency when coupled with reinforcement learning, as demonstrated in the Practical Molecular Optimization (PMO) benchmark. Here, we propose a novel algorithm called Augmented Memory that combines data augmentation with experience replay. We show that scores obtained from oracle calls can be reused to update the model multiple times. We compare Augmented Memory to previously proposed algorithms and show significantly enhanced sample efficiency in an exploitation task and a drug discovery case study requiring both exploration and exploitation. Our method achieves a new state-of-the-art in the PMO benchmark which enforces a computational budget, outperforming the previous best performing method on 19/23 tasks.
翻訳日:2023-05-28 04:31:35 公開日:2023-05-10
# Davinci the Dualist : 大きな言語モデルと人間の学習者における心身分割

Davinci the Dualist: the mind-body divide in large language models and in human learners ( http://arxiv.org/abs/2305.07667v1 )

ライセンス: Link先を確認
Iris Berent, Alexzander Sansiveri(参考訳) 大きな文献では、人々は直感的な双対主義者であることを示唆している。 過去の研究は、デュアラリズムが学習を通して現れることも示している(例えば、Barlev & Shtulman, 2021)。 しかし、人間の学習者からの証拠は、人間は一般の学習能力だけでなく、コアとなる知識能力も与えられているため、この疑問に答えている。 そして最近の結果は、コア知識が双対性(berent, theodore & valencia, 2021; berent, 2023)をもたらすことを示唆している。 学習の役割を評価するために,本研究は,本研究のコア知識を欠く大規模言語モデル(llm)のdavinciにおける心身分断について検討する。 ダヴィンチは依然として双対主義に傾き、このバイアスは学習者の帰納的ポテンシャルとともに体系的に増加する。 したがって、davinci(GPT-3モデル)は緩やかなデュアル傾向を示し、その子孫であるtext-davinci-003(GPT-3.5モデル)は完全なバイアスを示す。 思考(感情状態)を身体(脳内)に現れることはありそうにないが、その不在(死後)には現れない、と選択的に考える。 ダヴィンチのパフォーマンスは構文上の制限によって制限され、人間とは異なるが、双対バイアスは頑健である。 これらの結果は、心の分裂が経験から部分的に学べることを示しており、LLMが人間の物語に触れるにつれて、人間の知識だけでなく人間のバイアスも引き起こすことを示す。

A large literature suggests that people are intuitive Dualists--they consider the mind ethereal, distinct from the body. Past research also shows that Dualism emerges, in part, via learning (e.g., Barlev & Shtulman, 2021). But whether learning is sufficient to give rise to Dualism is unknown.The evidence from human learners does address this question because humans are endowed not only with general learning capacities but also with core knowledge capacities. And recent results suggest that core knowledge begets Dualism (Berent, Theodore & Valencia, 2021; Berent, 2023). To evaluate the role of learning, here, we probe for a mind-body divide in Davinci--a large language model (LLM) that is devoid of any innate core knowledge. We show that Davinci still leans towards Dualism, and that this bias increases systematically with the learner's inductive potential. Thus, davinci (a GPT-3 model) exhibits mild Dualist tendencies, whereas its descendent, text-davinci-003 (a GPT-3.5 model), shows a full-blown bias. It selectively considers thoughts (epistemic states) as disembodied--as unlikely to show up in the body (in the brain), but not in its absence (after death). While Davinci's performance is constrained by its syntactic limitations, and it differs from humans, its Dualist bias is robust. These results demonstrate that the mind-body divide is partly learnable from experience.They also show how, as LLM's are exposed to human narratives, they induce not only human knowledge but also human biases.
翻訳日:2023-05-21 11:15:51 公開日:2023-05-10
# 時間空間結晶構造を用いた8次元トポロジーシステム

Eight-dimensional topological systems simulated using time-space crystalline structures ( http://arxiv.org/abs/2305.07668v1 )

ライセンス: Link先を確認
Yakov Braver, Egidijus Anisimovas, Krzysztof Sacha(参考訳) 時間空間結晶構造を用いて,2次元しか持たない8次元系をシミュレートする可能性を示す。 システムパラメータの適切な選択により、ガッピングエネルギースペクトルを得ることができ、トポロジカル効果が関連づけられる。 系の非自明なトポロジーは、時間的および空間的結晶的な方向に沿って汲み上げられる断熱状態を考慮することで得られる。 システムの解析は、ハミルトニアン系をタイトな結合形式に書き換えることで容易であり、空間、時間、付加的な合成次元を等しい足場に配置する。

We demonstrate the possibility of using time-space crystalline structures to simulate eight-dimensional systems based on only two physical dimensions. A suitable choice of system parameters allows us to obtain a gapped energy spectrum, making topological effects become relevant. The nontrivial topology of the system is evinced by considering the adiabatic state pumping along temporal and spatial crystalline directions. Analysis of the system is facilitated by rewriting the system Hamiltonian in a tight-binding form, thereby putting space, time, and the additional synthetic dimensions on an equal footing.
翻訳日:2023-05-21 11:02:24 公開日:2023-05-10
# 超低周波スマートメータ時系列を用いたアプライアンス検出

Appliance Detection Using Very Low-Frequency Smart Meter Time Series ( http://arxiv.org/abs/2305.10352v1 )

ライセンス: Link先を確認
Adrien Petralia and Philippe Charpentier and Paul Boniol and Themis Palpanas(参考訳) 近年、スマートグリッドシステムの管理を改善するため、電力供給業者によってスマートメーターが広く採用されている。 これらのメーターは通常、非常に低い周波数(30分毎に)でエネルギー消費データを収集し、ユーティリティーはより正確に顧客を請求することができる。 よりパーソナライズされたレコメンデーションを提供するための次のステップは、顧客が所有するアプライアンスを検出することだ。 家電検知問題は時系列分類問題として考えられるが,本論文ではそのような分類器が多数提案されているが,本問題を適用・比較する研究は行われていない。 本稿では,超低周波スマートメーターデータにおける多種多様なアプライアンスの存在/存在を検出するために,最先端の時系列分類器の詳細な評価と比較を行った。 5つの実際のデータセットで結果を報告する。 まず,30分間のサンプルデータを用いて,13種類の異なる機器の検知品質の影響について検討し,その後,高い測定周波数を用いて検出性能向上の可能性について分析した。 その結果,現在の時系列分類器の性能は著しく変化した。 それらのいくつか、すなわちディープラーニングベースの分類器は、30分のサンプルデータを使用しても、正確性(特に特定のアプライアンス)の面で有望な結果を提供し、電力供給者が現在利用できる大規模なスマートメータ時系列データコレクションにスケーラブルである。 しかし,本研究は,提案手法の精度をさらに高めるためには,より多くの作業が必要であることを示す。 この論文はE-Energy '23で受け入れられた。

In recent years, smart meters have been widely adopted by electricity suppliers to improve the management of the smart grid system. These meters usually collect energy consumption data at a very low frequency (every 30min), enabling utilities to bill customers more accurately. To provide more personalized recommendations, the next step is to detect the appliances owned by customers, which is a challenging problem, due to the very-low meter reading frequency. Even though the appliance detection problem can be cast as a time series classification problem, with many such classifiers having been proposed in the literature, no study has applied and compared them on this specific problem. This paper presents an in-depth evaluation and comparison of state-of-the-art time series classifiers applied to detecting the presence/absence of diverse appliances in very low-frequency smart meter data. We report results with five real datasets. We first study the impact of the detection quality of 13 different appliances using 30min sampled data, and we subsequently propose an analysis of the possible detection performance gain by using a higher meter reading frequency. The results indicate that the performance of current time series classifiers varies significantly. Some of them, namely deep learning-based classifiers, provide promising results in terms of accuracy (especially for certain appliances), even using 30min sampled data, and are scalable to the large smart meter time series collections of energy consumption data currently available to electricity suppliers. Nevertheless, our study shows that more work is needed in this area to further improve the accuracy of the proposed solutions. This paper was accepted in e-Energy '23.
翻訳日:2023-05-21 10:46:15 公開日:2023-05-10
# BIOT: 野生でのクロスデータバイオシグナル学習

BIOT: Cross-data Biosignal Learning in the Wild ( http://arxiv.org/abs/2305.10351v1 )

ライセンス: Link先を確認
Chaoqi Yang, M. Brandon Westover, Jimeng Sun(参考訳) 脳波(EEG)などの生体信号は多くの臨床応用において重要な役割を担い、多様なデータフォーマットと品質プロファイルを示す。 現在の生体信号のためのディープラーニングモデルは、特定のデータセットや臨床設定に特化しており、適用範囲が限られている。 テキスト処理における大規模言語モデルの成功に動機づけられ、複数のデータソースからトレーニングされ、異なる下流のバイオシグナリングタスクで微調整可能な基礎モデルの開発を探求する。 ミスマッチチャネル,可変サンプル長,一般的な欠落値など,様々な形式の生体信号に関するユニークな課題を克服するために,生体信号トランスフォーマ(\method)を提案する。 提案した<method>モデルは,多様な生体記号を統一された「生体記号文」にトークン化することにより,ミスマッチチャネル,可変長,欠落値を用いたクロスデータ学習を可能にする。 具体的には,各チャネルを局所的な信号特徴を含む固定長セグメントにトークン化し,一貫した「文」を形成する。 時空間的特徴を保存するためにチャネル埋め込みと位置埋め込みが追加される。 \methodモデルは汎用的で、より大きなモデルのための共同事前トレーニングを含む、さまざまなデータセットにわたる様々な生体信号学習設定に適用できる。 脳波、心電図(ECG)、人間の活動感覚信号に関する総合的な評価は、Shamethodが共通の設定で堅牢なベースラインを上回り、異なるフォーマットで複数のデータセットをまたがる学習を容易にすることを示す。 chb-mitの入力検出タスクを例にとると、バニラの\methodモデルでは、ベースラインに対してバランスのとれた精度で3\%の改善を示し、事前トレーニングされた \methodモデル(他のデータソースから最適化された)により、さらに4\%の改善が得られます。

Biological signals, such as electroencephalograms (EEG), play a crucial role in numerous clinical applications, exhibiting diverse data formats and quality profiles. Current deep learning models for biosignals are typically specialized for specific datasets and clinical settings, limiting their broader applicability. Motivated by the success of large language models in text processing, we explore the development of foundational models that are trained from multiple data sources and can be fine-tuned on different downstream biosignal tasks. To overcome the unique challenges associated with biosignals of various formats, such as mismatched channels, variable sample lengths, and prevalent missing values, we propose a Biosignal Transformer (\method). The proposed \method model can enable cross-data learning with mismatched channels, variable lengths, and missing values by tokenizing diverse biosignals into unified "biosignal sentences". Specifically, we tokenize each channel into fixed-length segments containing local signal features, flattening them to form consistent "sentences". Channel embeddings and {\em relative} position embeddings are added to preserve spatio-temporal features. The \method model is versatile and applicable to various biosignal learning settings across different datasets, including joint pre-training for larger models. Comprehensive evaluations on EEG, electrocardiogram (ECG), and human activity sensory signals demonstrate that \method outperforms robust baselines in common settings and facilitates learning across multiple datasets with different formats. Use CHB-MIT seizure detection task as an example, our vanilla \method model shows 3\% improvement over baselines in balanced accuracy, and the pre-trained \method models (optimized from other data sources) can further bring up to 4\% improvements.
翻訳日:2023-05-21 10:45:48 公開日:2023-05-10
# マルチバース・アット・ザ・エッジ:ワイヤレスビームフォーミングのためのリアルワールドとデジタルツインの相互作用

Multiverse at the Edge: Interacting Real World and Digital Twins for Wireless Beamforming ( http://arxiv.org/abs/2305.10350v1 )

ライセンス: Link先を確認
Batool Salehi, Utku Demir, Debashri Roy, Suyash Pradhan, Jennifer Dy, Stratis Ioannidis, Kaushik Chowdhury(参考訳) 多くの複雑な相互作用と結果で現実世界を忠実に模倣するデジタル世界を作ることは、今日の高度なエミュレーションソフトウェアとユビキタスコンピューティングパワーによって可能である。 このようなソフトウェアベースの実世界に存在する実体のエミュレーションを「デジタル双生児」と呼ぶ。 本稿では,車両に搭載された無線ミリ波帯無線の双対について考察し,移動環境における指向性ビーム選択の高速化について述べる。 これを実現するために、我々は単一の双子のインスタンス化を超えて、「マルチバース」パラダイムを提案し、いくつかのデジタルツインが現実世界を異なるレベルの忠実度で捉えようとしている。 この目標に向けて,本稿は述べる。 一 計算及びレイテンシの制限により、どの双子を使わなければならないかを判断する車両における決定戦略 (ii)多元誘導ビーム結果を用いて実世界におけるdlに基づく意思決定を時間とともに強化する自己学習方式。 まず、私たちは自動運転車から収集した公開利用可能なrfデータセットを使用して、異なる双子を作ります。 第2に,実世界と実世界の多元的双生児との相互作用を連続的に行うフレームワークを,実展開前に完了した1回エミュレーションとは対照的に提示する。 その結果、Multiverse は LOS と NLOS のシナリオでそれぞれ 79.43% と 85.22% のビーム選択精度を提供することがわかった。 さらに, 52.72-85.07%のビーム選択時間を802.11ad標準と比較した。

Creating a digital world that closely mimics the real world with its many complex interactions and outcomes is possible today through advanced emulation software and ubiquitous computing power. Such a software-based emulation of an entity that exists in the real world is called a 'digital twin'. In this paper, we consider a twin of a wireless millimeter-wave band radio that is mounted on a vehicle and show how it speeds up directional beam selection in mobile environments. To achieve this, we go beyond instantiating a single twin and propose the 'Multiverse' paradigm, with several possible digital twins attempting to capture the real world at different levels of fidelity. Towards this goal, this paper describes (i) a decision strategy at the vehicle that determines which twin must be used given the computational and latency limitations, and (ii) a self-learning scheme that uses the Multiverse-guided beam outcomes to enhance DL-based decision-making in the real world over time. Our work is distinguished from prior works as follows: First, we use a publicly available RF dataset collected from an autonomous car for creating different twins. Second, we present a framework with continuous interaction between the real world and Multiverse of twins at the edge, as opposed to a one-time emulation that is completed prior to actual deployment. Results reveal that Multiverse offers up to 79.43% and 85.22% top-10 beam selection accuracy for LOS and NLOS scenarios, respectively. Moreover, we observe 52.72-85.07% improvement in beam selection time compared to 802.11ad standard.
翻訳日:2023-05-21 10:45:12 公開日:2023-05-10
# テキストデータの理解を深めるグラフベースの文脈情報を用いた言語モデルの構築

Enriching language models with graph-based context information to better understand textual data ( http://arxiv.org/abs/2305.11070v1 )

ライセンス: Link先を確認
Albert Roethel, Maria Ganzha, Anna Wr\'oblewska(参考訳) 毎日かなりの数のテキストが何らかの形で相互に関連している。 例えば、ウィキペディアの記事はハイパーリンクを介して他の記事を参照し、科学論文は引用や(共)著者を介して他の記事に関連する。 したがって、グラフのような構造は既存の接続を表現でき、テキストの"コンテキスト"をキャプチャすると見なすことができる。 したがって、そのようなコンテキスト情報を言語モデルに抽出して統合することで、テキストの自動理解がより容易になるかどうかが問題となる。 本研究では,グラフに基づくコンテキスト化をbertモデルに組み込むことで,分類タスクの例においてその性能が向上することを示す。 具体的には、pubmedデータセットではエラーが8.51%から7.96%に減少し、パラメータ数は1.6%増加した。 ソースコード: https://github.com/tryptofanik/gc-bert

A considerable number of texts encountered daily are somehow connected with each other. For example, Wikipedia articles refer to other articles via hyperlinks, scientific papers relate to others via citations or (co)authors, while tweets relate via users that follow each other or reshare content. Hence, a graph-like structure can represent existing connections and be seen as capturing the "context" of the texts. The question thus arises if extracting and integrating such context information into a language model might help facilitate a better automated understanding of the text. In this study, we experimentally demonstrate that incorporating graph-based contextualization into BERT model enhances its performance on an example of a classification task. Specifically, on Pubmed dataset, we observed a reduction in error from 8.51% to 7.96%, while increasing the number of parameters just by 1.6%. Our source code: https://github.com/tryptofanik/gc-bert
翻訳日:2023-05-21 10:26:57 公開日:2023-05-10
# ORKG-Leaderboards: ナレッジグラフとしてリーダボードをマイニングするためのシステムワークフロー

ORKG-Leaderboards: A Systematic Workflow for Mining Leaderboards as a Knowledge Graph ( http://arxiv.org/abs/2305.11068v1 )

ライセンス: Link先を確認
Salomon Kabongo, Jennifer D'Souza and S\"oren Auer(参考訳) 本研究の目的は,人工知能(AI)における実証研究論文の大規模なコレクションから,タスクデータセット・メトリックタプルとして定義されたリーダボードを自動抽出するOrkg-Leaderboardソフトウェアを記述することである。 このソフトウェアは学術出版の主要なワークフロー、すなわちラテックスファイルやpdfファイルの両方をサポートすることができる。 さらに、このシステムは、学術的な研究成果の機械処理可能な公開を促進するOpen Research Knowledge Graph (ORKG)プラットフォームと統合されている。 したがって、orkgがサポートするセマンティックwebインフラストラクチャに統合された場合、web上でマシン操作可能な'リソース'を表現することができる。 1) 広く、世界中の研究者の実証結果の統合により、実証研究の透明性が実現され、出版物の基盤となるデータソース(s)に対する完全な帰属も可能となる。 2)特に、研究者は、最も一般的なaiタスクと対応するデータセット全体にわたる最先端(sota)の概要を、マシン操作可能なデータのテーブルと視覚化チャートを活用した動的orkgフロントエンドビューを通じて、aiの進捗を追跡することができる。 われわれのベストモデルでは,textit{ Leaderboard} 抽出タスクにおいて F1 の90% 以上の性能を実現している。 ある意味でOrkg-Leaderboardsは、リーダーボード抽出タスクを自動化されたデジタル化タスクに変換する。

The purpose of this work is to describe the Orkg-Leaderboard software designed to extract leaderboards defined as Task-Dataset-Metric tuples automatically from large collections of empirical research papers in Artificial Intelligence (AI). The software can support both the main workflows of scholarly publishing, viz. as LaTeX files or as PDF files. Furthermore, the system is integrated with the Open Research Knowledge Graph (ORKG) platform, which fosters the machine-actionable publishing of scholarly findings. Thus the system output, when integrated within the ORKG's supported Semantic Web infrastructure of representing machine-actionable 'resources' on the Web, enables: 1) broadly, the integration of empirical results of researchers across the world, thus enabling transparency in empirical research with the potential to also being complete contingent on the underlying data source(s) of publications; and 2) specifically, enables researchers to track the progress in AI with an overview of the state-of-the-art (SOTA) across the most common AI tasks and their corresponding datasets via dynamic ORKG frontend views leveraging tables and visualization charts over the machine-actionable data. Our best model achieves performances above 90% F1 on the \textit{leaderboard} extraction task, thus proving Orkg-Leaderboards a practically viable tool for real-world usage. Going forward, in a sense, Orkg-Leaderboards transforms the leaderboard extraction task to an automated digitalization task, which has been, for a long time in the community, a crowdsourced endeavor.
翻訳日:2023-05-21 10:26:40 公開日:2023-05-10
# Grass: GPTはすでにWhitmanのように書く方法を知っていますか?

Bits of Grass: Does GPT already know how to write like Whitman? ( http://arxiv.org/abs/2305.11064v1 )

ライセンス: Link先を確認
Piotr Sawicki, Marek Grzes, Fabricio Goes, Dan Brown, Max Peeperkorn, Aisha Khatun(参考訳) 本研究では, GPT-3.5, GPT-3.5-turbo (ChatGPT) および GPT-4 モデルを用いて, ゼロショットプロンプトと多ショットプロンプト(最大コンテクスト長8192トークン)を用いて, 特定の著者のスタイルで詩を生成する能力について検討した。 自動評価により、特定の著者のスタイルで詩を生成するために微調整されていないモデルの性能を評価する。 本研究は,17例 (8192トークン) の最大数をプロンプトに与えても, 微調整がなければ, これらのモデルが所望の様式で詩を生成できないことを示す。

This study examines the ability of GPT-3.5, GPT-3.5-turbo (ChatGPT) and GPT-4 models to generate poems in the style of specific authors using zero-shot and many-shot prompts (which use the maximum context length of 8192 tokens). We assess the performance of models that are not fine-tuned for generating poetry in the style of specific authors, via automated evaluation. Our findings indicate that without fine-tuning, even when provided with the maximum number of 17 poem examples (8192 tokens) in the prompt, these models do not generate poetry in the desired style.
翻訳日:2023-05-21 10:26:15 公開日:2023-05-10
# SPSQL: テキストからSQL生成のためのステップバイステップ解析ベースのフレームワーク

SPSQL: Step-by-step Parsing Based Framework for Text-to-SQL Generation ( http://arxiv.org/abs/2305.11061v1 )

ライセンス: Link先を確認
Ran Shen, Gang Sun, Hao Shen, Yiling Li, Liangfeng Jin and Han Jiang(参考訳) テキストを構造化クエリ言語(Text2SQL)に変換することは、自然言語処理(NLP)分野におけるホットスポットであり、幅広い応用可能性を持っている。 ビッグデータの時代において、データベースの使用は、収集されたデータが大規模で多種多様で、範囲が広い、データクエリが煩雑で非効率になり、Text2SQLモデルのより高い要求を推し進める、あらゆる生活の歩みを浸透させてきた。 実用的なアプリケーションでは、現在のメインストリームのend-to-end text2sqlモデルは、複雑な構造とトレーニングデータに対する高い要件のため構築が困難であるだけでなく、巨大なパラメータによる調整も困難である。 さらに、モデルの精度は、望ましい結果を達成するのが困難である。 そこで本稿では,パイプライン化されたtext2sqlメソッドspsqlを提案する。 この方法は、Text2SQLタスクをテーブル選択、列選択、SQL生成、値フィリングの4つのサブタスクに分解し、テキスト分類問題、シーケンスラベリング問題、および2つのテキスト生成問題に変換する。 そして,既存のデータに基づいて異なるサブタスクのデータフォーマットを構築し,各サブモデルの精度を向上させることにより,全体モデルの精度を向上させる。 モデル全体の最適化には、名前付きエンティティ認識モジュールとデータ拡張も使用しています。 我々は,中国のステートグリッドコーポレーションのマーケティングビジネスデータに基づくデータセットを構築した。 実験により,提案手法はエンド・ツー・エンド法および他のパイプライン法と比較して最高の性能を示す。

Converting text into the structured query language (Text2SQL) is a research hotspot in the field of natural language processing (NLP), which has broad application prospects. In the era of big data, the use of databases has penetrated all walks of life, in which the collected data is large in scale, diverse in variety, and wide in scope, making the data query cumbersome and inefficient, and putting forward higher requirements for the Text2SQL model. In practical applications, the current mainstream end-to-end Text2SQL model is not only difficult to build due to its complex structure and high requirements for training data, but also difficult to adjust due to massive parameters. In addition, the accuracy of the model is hard to achieve the desired result. Based on this, this paper proposes a pipelined Text2SQL method: SPSQL. This method disassembles the Text2SQL task into four subtasks--table selection, column selection, SQL generation, and value filling, which can be converted into a text classification problem, a sequence labeling problem, and two text generation problems, respectively. Then, we construct data formats of different subtasks based on existing data and improve the accuracy of the overall model by improving the accuracy of each submodel. We also use the named entity recognition module and data augmentation to optimize the overall model. We construct the dataset based on the marketing business data of the State Grid Corporation of China. Experiments demonstrate our proposed method achieves the best performance compared with the end-to-end method and other pipeline methods.
翻訳日:2023-05-21 10:25:33 公開日:2023-05-10
# シーッ! クランドステイン手術の論理

Shhh! The Logic of Clandestine Operations ( http://arxiv.org/abs/2305.07035v1 )

ライセンス: Link先を確認
Pavel Naumov, Oliver Orejola(参考訳) 操作が実行されているという事実が隠蔽されている場合、その操作はアクターのアイデンティティを隠蔽する場合はcovertと呼ばれ、clangdestineと呼ばれる。 本論文は, 秘密操作の形式的意味論を提案し, 分散知識のモダリティと, 秘密操作を行う連立力を捕獲するモダリティとの相互作用を記述した, 健全で完全な論理体系を提案する。

An operation is called covert if it conceals the identity of the actor; it is called clandestine if the very fact that the operation is conducted is concealed. The paper proposes a formal semantics of clandestine operations and introduces a sound and complete logical system that describes the interplay between the distributed knowledge modality and a modality capturing coalition power to conduct clandestine operations.
翻訳日:2023-05-15 15:05:30 公開日:2023-05-10
# エンド・ツー・エンド深層学習によるクランチリテーション認識

Quran Recitation Recognition using End-to-End Deep Learning ( http://arxiv.org/abs/2305.07034v1 )

ライセンス: Link先を確認
Ahmad Al Harere, Khloud Al Jallad(参考訳) クルランはイスラム教の聖典であり、その引用は宗教の重要な側面である。 聖クルアーンの朗読を自動で認識することは、通常の話し言葉には適用されない独特の規則のために難しい課題である。 この領域では多くの研究が行われてきたが、これまでの研究では、リサイクリングエラーを分類タスクや従来の自動音声認識(ASR)として検出してきた。 本稿では,神聖クレーンの朗読を認識できる新しいエンド・ツー・エンド深層学習モデルを提案する。 提案方式は,CTCを目的関数とするCNN-Bidirectional GRUエンコーダと,ビームサーチデコーダである文字ベースのデコーダである。 さらに、以前の全ての作品は、短い詩と聖クラーンのいくつかの章からなる小さな私的なデータセットでなされた。 プライベートデータセットを使用した結果、比較は行われなかった。 この問題を解決するために、我々は最近公開されたパブリックデータセット(Ar-DAD)を使用し、30のリサイターによって暗唱された約37の章を含む。 提案モデルの性能は,音声認識,単語誤り率(WER),文字誤り率(CER)において最も一般的な評価指標を用いて評価した。 結果は8.34% WERと2.42% CERであった。 この研究が、このパブリックな新しいデータセット(Ar-DAD)に関する将来の研究と比較するためのベースラインになることを願っている。

The Quran is the holy scripture of Islam, and its recitation is an important aspect of the religion. Recognizing the recitation of the Holy Quran automatically is a challenging task due to its unique rules that are not applied in normal speaking speeches. A lot of research has been done in this domain, but previous works have detected recitation errors as a classification task or used traditional automatic speech recognition (ASR). In this paper, we proposed a novel end-to-end deep learning model for recognizing the recitation of the Holy Quran. The proposed model is a CNN-Bidirectional GRU encoder that uses CTC as an objective function, and a character-based decoder which is a beam search decoder. Moreover, all previous works were done on small private datasets consisting of short verses and a few chapters of the Holy Quran. As a result of using private datasets, no comparisons were done. To overcome this issue, we used a public dataset that has recently been published (Ar-DAD) and contains about 37 chapters that were recited by 30 reciters, with different recitation speeds and different types of pronunciation rules. The proposed model performance was evaluated using the most common evaluation metrics in speech recognition, word error rate (WER), and character error rate (CER). The results were 8.34% WER and 2.42% CER. We hope this research will be a baseline for comparisons with future research on this public new dataset (Ar-DAD).
翻訳日:2023-05-15 15:05:22 公開日:2023-05-10
# 駆動散逸多体系におけるRydbergクラスターからのエルゴディディティ破壊

Ergodicity breaking from Rydberg clusters in a driven-dissipative many-body system ( http://arxiv.org/abs/2305.07032v1 )

ライセンス: Link先を確認
Dong-Sheng Ding and Zhengyang Bai and Zong-Kai Liu and Bao-Sen Shi and Guang-Can Guo and Weibin Li and C. Stuard. Adams(参考訳) 散逸がコヒーレントカップリングと分散二体相互作用から生じる量子コヒーレンスを必然的に損なうとき、量子多体系のエルゴディク性破れの傾向を調べることは困難である。 ライドバーグ原子は、エキゾチックな多体相と非エルゴード力学を検出するための試験ベッドを提供し、強いライドバーグ原子相互作用は室温でも発散効果を克服する。 ここでは, 誘導散逸性Rydberg原子気体中のエルゴードからエルゴード破壊ダイナミクスへの遷移の実験的証拠を報告する。 壊れたエルゴード性は、リドベルク励起クラスターの極限周期における形成に起因する長時間の位相発振によって特徴付けられる。 限界周期の破れ対称性は多体相互作用の直接的顕現であり,実験における原子密度のチューニングによって検証される。 報告された結果は、リミットサイクルのようなエルゴーディティの破れダイナミクスを探究し、非平衡相転移のベンチマークを可能にする有望な候補であることを示した。

It is challenging to probe ergodicity breaking trends of a quantum many-body system when dissipation inevitably damages quantum coherence originated from coherent coupling and dispersive two-body interactions. Rydberg atoms provide a test bed to detect emergent exotic many-body phases and non-ergodic dynamics where the strong Rydberg atom interaction competes with and overtakes dissipative effects even at room temperature. Here we report experimental evidence of a transition from ergodic towards ergodic breaking dynamics in driven-dissipative Rydberg atomic gases. The broken ergodicity is featured by the long-time phase oscillation, which is attributed from the formation of Rydberg excitation clusters in limit cycle phases. The broken symmetry in the limit cycle is a direct manifestation of many-body interactions, which is verified by tuning atomic densities in our experiment. The reported result reveals that Rydberg many-body systems are a promising candidate to probe ergodicity breaking dynamics, such as limit cycles, and enable the benchmark of non-equilibrium phase transition.
翻訳日:2023-05-15 15:04:57 公開日:2023-05-10
# 単純な進化的アイデアを用いたグラディエントに基づく強化学習

Supplementing Gradient-Based Reinforcement Learning with Simple Evolutionary Ideas ( http://arxiv.org/abs/2305.07571v1 )

ライセンス: Link先を確認
Harshad Khadilkar(参考訳) 本稿では,進化演算子を用いた強化学習(rl)において,大規模かつ有向な学習手順を導入するための簡易でサンプル効率の良いアルゴリズムを提案する。 この手法では、共通経験バッファを持つRLエージェントの集団を用いて、ポリシー空間を効率的に探索するために、エージェントのクロスオーバーと突然変異を行う。 進化的探索(es)とrlを組み合わせる以前の文献とは異なり、この研究は共通の平均と共分散行列からエージェントの分布を生成しない。 同時に、各段階における政策全体の評価も必要としない。 その代わり、私たちはあらゆる政策(個別)の生涯を通して勾配に基づくトレーニングに重点を置いています。 結果のアルゴリズムはハイパーパラメータの変動に対して堅牢であることが示されている。 驚くべき結論として、複数のRLエージェントを(さらなる進化的更新なしに)共有メモリで初期化し、訓練するだけで、いくつかの標準RLベースラインを上回っていることを示す。

We present a simple, sample-efficient algorithm for introducing large but directed learning steps in reinforcement learning (RL), through the use of evolutionary operators. The methodology uses a population of RL agents training with a common experience buffer, with occasional crossovers and mutations of the agents in order to search efficiently through the policy space. Unlike prior literature on combining evolutionary search (ES) with RL, this work does not generate a distribution of agents from a common mean and covariance matrix. Neither does it require the evaluation of the entire population of policies at every time step. Instead, we focus on gradient-based training throughout the life of every policy (individual), with a sparse amount of evolutionary exploration. The resulting algorithm is shown to be robust to hyperparameter variations. As a surprising corollary, we show that simply initialising and training multiple RL agents with a common memory (with no further evolutionary updates) outperforms several standard RL baselines.
翻訳日:2023-05-15 12:20:20 公開日:2023-05-10
# 異常パターン検出によるランダム化実験における不均一な量子処理効果の効率的な発見

Efficient Discovery of Heterogeneous Quantile Treatment Effects in Randomized Experiments via Anomalous Pattern Detection ( http://arxiv.org/abs/1803.09159v3 )

ライセンス: Link先を確認
Edward McFowland III, Sriram Somanchi, Daniel B. Neill(参考訳) 近年の異種治療効果の推定に関する文献において,提案手法は,介入の効果と,どのサブポピュレーションを明示的に推定すべきかについて,それぞれに限定的な仮定を定めている。 さらに、文献の大半は、どのサブポピュレーションが最も影響を受けるかを特定するメカニズムを提供しておらず、また、手動検査以外に、特定されたサブポピュレーションの正しさをほとんど保証していない。 そこで本稿では,ランダム化実験におけるサブポピュレーションが治療に最も影響される新しい方法である,治療効果サブセットスキャン(TESS)を提案する。 我々はこの課題を,非パラメトリックスキャン統計量(条件量的処理効果の尺度)をサブポピュレーションに対して効率的に最大化するパターン検出問題として捉えた。 さらに,介入の結果として最大の分布変化を経験するサブ集団を特定し,介入の効果や基盤となるデータ生成過程について最小限の仮定を行う。 このアルゴリズムに加えて、治療効果がないという鋭いヌル仮説の下では、漸近型I型とII型のエラーを制御でき、影響したサブポピュレーションの正確な同定を行うのに十分な条件を提供する。 最後に,シミュレーションおよび実世界データにおける不均一な処理効果をよく知られたプログラム評価研究から発見し,本手法の有効性を検証した。

In the recent literature on estimating heterogeneous treatment effects, each proposed method makes its own set of restrictive assumptions about the intervention's effects and which subpopulations to explicitly estimate. Moreover, the majority of the literature provides no mechanism to identify which subpopulations are the most affected--beyond manual inspection--and provides little guarantee on the correctness of the identified subpopulations. Therefore, we propose Treatment Effect Subset Scan (TESS), a new method for discovering which subpopulation in a randomized experiment is most significantly affected by a treatment. We frame this challenge as a pattern detection problem where we efficiently maximize a nonparametric scan statistic (a measure of the conditional quantile treatment effect) over subpopulations. Furthermore, we identify the subpopulation which experiences the largest distributional change as a result of the intervention, while making minimal assumptions about the intervention's effects or the underlying data generating process. In addition to the algorithm, we demonstrate that under the sharp null hypothesis of no treatment effect, the asymptotic Type I and II error can be controlled, and provide sufficient conditions for detection consistency--i.e., exact identification of the affected subpopulation. Finally, we validate the efficacy of the method by discovering heterogeneous treatment effects in simulations and in real-world data from a well-known program evaluation study.
翻訳日:2023-05-12 20:18:32 公開日:2023-05-10
# 学術ピアレビューのためのオークションとピア予測

Auctions and Peer Prediction for Academic Peer Review ( http://arxiv.org/abs/2109.00923v2 )

ライセンス: Link先を確認
Siddarth Srinivasan, Jamie Morgenstern(参考訳) 査読された出版物は、研究コミュニティが価値あると考えるアイデアを認定し、広める際の金の基準と考えられている。 しかし,本システムの主な欠点は,(1)大量の提出によるレビュアーの圧倒的需要,(2)レビュアーが参加するインセンティブの欠如,および質の高いレビューを提供するために必要な努力の欠如である。 本研究では,論文の提出とレビューのプロセスをまとめ,高品質な提出とレビューのインセンティブを同時に付与し,ピアレビュープロセスの改善を提案するメカニズム設計アプローチを採用する。 提出段階では、著者は論文を提出してレビュースロットのVCGオークションに参加し、論文をレビューする際の期待値を示す入札を行う。 レビュー段階では,情報引用文学における近年の研究に基づく新たなピア予測機構 (H-DIPP) を提案する。 提出段階のオークションで得られた収益は、レビュー段階におけるレビューの品質に基づいてレビュー者に支払われる。

Peer reviewed publications are considered the gold standard in certifying and disseminating ideas that a research community considers valuable. However, we identify two major drawbacks of the current system: (1) the overwhelming demand for reviewers due to a large volume of submissions, and (2) the lack of incentives for reviewers to participate and expend the necessary effort to provide high-quality reviews. In this work, we adopt a mechanism-design approach to propose improvements to the peer review process, tying together the paper submission and review processes and simultaneously incentivizing high-quality submissions and reviews. In the submission stage, authors participate in a VCG auction for review slots by submitting their papers along with a bid that represents their expected value for having their paper reviewed. For the reviewing stage, we propose a novel peer prediction mechanism (H-DIPP) building on recent work in the information elicitation literature, which incentivizes participating reviewers to provide honest and effortful reviews. The revenue raised in the submission stage auction is used to pay reviewers based on the quality of their reviews in the reviewing stage.
翻訳日:2023-05-12 19:25:48 公開日:2023-05-10
# 電力グリッドにおける偽データインジェクション攻撃検出のための敵対的レジリエント深層ニューラルネットワーク

Towards Adversarial-Resilient Deep Neural Networks for False Data Injection Attack Detection in Power Grids ( http://arxiv.org/abs/2102.09057v2 )

ライセンス: Link先を確認
Jiangnan Li, Yingyuan Yang, Jinyuan Stella Sun, Kevin Tomsovic, Hairong Qi(参考訳) 偽データインジェクション攻撃(FDIA)は、電力システムの状態推定に重大なセキュリティ上の脅威をもたらす。 このような攻撃を検出するため、最近の研究では機械学習(ML)技術、特にディープニューラルネットワーク(DNN)を提案している。 しかし、これらの手法のほとんどは、さまざまなMLアプリケーションにおけるDNNの信頼性を損なう可能性のある、逆測によるリスクを考慮できない。 本稿では,DNNに基づくFDIA検出手法を提案する。 まず,コンピュータビジョンで使用される敵防御機構を解析し,fdia検出に固有の限界を示す。 次に,FDIAの学習と推論の両フェーズにランダムな入力パディングを組み込んだ逆応答型DNN検出フレームワークを提案する。 本手法は, IEEE標準電力システムに基づくシミュレーションにより, DNNの検出性能に悪影響を及ぼすことなく, 敵攻撃の有効性を著しく低減することを示した。

False data injection attacks (FDIAs) pose a significant security threat to power system state estimation. To detect such attacks, recent studies have proposed machine learning (ML) techniques, particularly deep neural networks (DNNs). However, most of these methods fail to account for the risk posed by adversarial measurements, which can compromise the reliability of DNNs in various ML applications. In this paper, we present a DNN-based FDIA detection approach that is resilient to adversarial attacks. We first analyze several adversarial defense mechanisms used in computer vision and show their inherent limitations in FDIA detection. We then propose an adversarial-resilient DNN detection framework for FDIA that incorporates random input padding in both the training and inference phases. Our simulations, based on an IEEE standard power system, demonstrate that this framework significantly reduces the effectiveness of adversarial attacks while having a negligible impact on the DNNs' detection performance.
翻訳日:2023-05-12 19:24:43 公開日:2023-05-10
# 多成分偶数と奇数jスピンコヒーレント状態を用いた任意の重ね合わせコヒーレント状態の確率的量子テレポーテーション効率の向上

Improving the probabilistic quantum teleportation efficiency of arbitrary superposed coherent state using multipartite even and odd j-spin coherent states as resource ( http://arxiv.org/abs/2202.08591v2 )

ライセンス: Link先を確認
Meryem El Kirdi, Abdallah Slaoui, Hanane El Hadfi and Mohammed Daoud(参考訳) 量子テレポーテーションは、量子情報セキュア伝送において最も重要な技術の一つである。 量子テレポーテーションは、多くの量子情報タスクの基本的な鍵として設計され、量子技術、特に量子通信において顕著に機能する。 本研究では,alice (sender) と bob (receiver) を接続する絡み合った資源として,多成分偶数と奇数の$j$-spinコヒーレント状態を用いて任意の重ね合わせコヒーレント状態に対する確率的テレポーテーションスキームを提案する。 ここで、アリスは偶数と奇数の両方のスピンコヒーレント状態を持ち、未知のスピン状態の1ドルと2つのコヒーレントスピン状態の1ドルからなる一対のスピン上で繰り返しGHZ状態測定(GHZSMs)を行い、最大平均忠実度で量子テレポーテーションに達するまで交互に行う。 共起によって定量化された共有状態の絡み合い量と、テレポーテーション忠実度と、テレポーテーションされた対象状態の成功確率との関係を、n^{\rm th}$の繰り返し試行まで提供する。 本研究では,非最大絡み合った状態でも完全量子テレポーテーションが可能であることを示す。 さらに、この繰り返しGHZSM試行プロセスは、テレポートされた状態の平均忠実度と確率的プロトコルの実行が成功する確率の両方を著しく増大させる。 また,j$-spin数,ターゲット状態パラメータ,およびコヒーレント状態の重なりはテレポーテーション効率を最大化するために調整可能な重要な追加制御パラメータを提供することを示した。

Quantum teleportation is one of the most important techniques for quantum information secure transmission. Using preshared entanglement, quantum teleportation is designed as a basic key in many quantum information tasks and features prominently in quantum technologies, especially in quantum communication. In this work, we provide a new probabilistic teleportation scheme for arbitrary superposed coherent states by employing the multipartite even and odd $j$-spin coherent states as the entangled resource connecting Alice (sender) and Bob (receiver). Here, Alice possesses both even and odd spin coherent states and makes repeated GHZ states measurements (GHZSMs) on the pair of spins, consisting of ($1$) the unknown spin state and ($2$) one of the two coherent spin states, taken alternately, until reaching a quantum teleportation with maximal average fidelity. We provide the relationship between the entanglement amount of the shared state, quantified by the concurrence, with the teleportation fidelity and the success probability of the teleported target state up to the $n^{\rm th}$ repeated attempt. In this scheme, we show that the perfect quantum teleportation can be done even with a non-maximally entangled state. Furthermore, this repeated GHZSMs attempt process significantly increases both the average fidelity of the teleported state and the probability of a successful run of the probabilistic protocol. Also on our results, we show that the $j$-spin number, the target state parameter and the overlap between coherent states provide important additional control parameters that can be adjusted to maximize the teleportation efficiency.
翻訳日:2023-05-12 19:17:53 公開日:2023-05-10
# 混合交通におけるスケーラブルな自律性スーパービジョンの連携

Cooperation for Scalable Supervision of Autonomy in Mixed Traffic ( http://arxiv.org/abs/2112.07569v2 )

ライセンス: Link先を確認
Cameron Hickert, Sirui Li, Cathy Wu(参考訳) 自律性の進歩は多くのドメインで劇的なポジティブな結果をもたらす可能性がありますが、安全なデプロイメントを可能にすることは依然としてオープンな問題です。 安全クリティカルな設定では、1人の人間が常に1台のマシンを監督する必要性を回避できますか? この研究は、遠隔地にいる人間の監督官を考慮し、自律的なエージェントが安全を達成するためにどのように協力できるかを調べることで、このスケーラブルな監視問題を公式化した。 本稿は、自動運転車(AV)がAVと人間ドライバーの混在する交通に合流する際の安全クリティカルな状況に焦点を当てる。 分析は、人間の監督要件に対する高い信頼性の上限を確立する。 さらに、AV協力は、桁違いの順序で監督信頼性を向上させることができ、より多くのAVを採用するため、監督者(AV当たり)を少なくする。 これらの分析結果は、キュー理論解析、順序統計、そして保守的で到達可能性に基づくアプローチを活用する。 重要なポイントは、大規模な自律性の実現における協力の潜在的な価値である。 この作業はavに焦点を当てているが、スケーラブルな監視フレームワークは、幅広い自律制御の課題に対して独立した関心を持っているかもしれない。

Advances in autonomy offer the potential for dramatic positive outcomes in a number of domains, yet enabling their safe deployment remains an open problem. This work's motivating question is: In safety-critical settings, can we avoid the need to have one human supervise one machine at all times? The work formalizes this scalable supervision problem by considering remotely located human supervisors and investigating how autonomous agents can cooperate to achieve safety. This article focuses on the safety-critical context of autonomous vehicles (AVs) merging into traffic consisting of a mixture of AVs and human drivers. The analysis establishes high reliability upper bounds on human supervision requirements. It further shows that AV cooperation can improve supervision reliability by orders of magnitude and counterintuitively requires fewer supervisors (per AV) as more AVs are adopted. These analytical results leverage queuing-theoretic analysis, order statistics, and a conservative, reachability-based approach. A key takeaway is the potential value of cooperation in enabling the deployment of autonomy at scale. While this work focuses on AVs, the scalable supervision framework may be of independent interest to a broader array of autonomous control challenges.
翻訳日:2023-05-12 19:16:00 公開日:2023-05-10
# 深層強化学習によるLoRa局所化支援因子の展開

Spreading Factor assisted LoRa Localization with Deep Reinforcement Learning ( http://arxiv.org/abs/2205.11428v2 )

ライセンス: Link先を確認
Yaya Etiabi, Mohammed JOUHARI, Andreas Burg, El Mehdi Amhoud(参考訳) 開発されたローカライゼーションソリューションのほとんどはRSSIフィンガープリントに依存している。 しかし、loraネットワークでは、ネットワーク設定における拡散係数(sf)のため、従来のフィンガープリントでは無線地図の表現性が欠如しており、位置推定が不正確である。 そこで本研究では,SFを考慮した新しいLoRa RSSIフィンガープリント手法を提案する。 性能評価の結果,最先端手法と比較して局所化精度が最大6.67%向上したため,提案手法の有効性が示された。 評価は、ベースラインとして完全に接続されたディープニューラルネットワーク(DNN)セットを用いて行われた。 ローカライゼーションの精度をさらに向上するため,LoRaネットワークの複雑さの増大を捉え,スケーラビリティに対処する深層強化学習モデルを提案する。 その結果,ベースラインDNNモデルと比較して,局所化精度が48.10%向上した。

Most of the developed localization solutions rely on RSSI fingerprinting. However, in the LoRa networks, due to the spreading factor (SF) in the network setting, traditional fingerprinting may lack representativeness of the radio map, leading to inaccurate position estimates. As such, in this work, we propose a novel LoRa RSSI fingerprinting approach that takes into account the SF. The performance evaluation shows the prominence of our proposed approach since we achieved an improvement in localization accuracy by up to 6.67% compared to the state-of-the-art methods. The evaluation has been done using a fully connected deep neural network (DNN) set as the baseline. To further improve the localization accuracy, we propose a deep reinforcement learning model that captures the ever-growing complexity of LoRa networks and copes with their scalability. The obtained results show an improvement of 48.10% in the localization accuracy compared to the baseline DNN model.
翻訳日:2023-05-12 19:06:57 公開日:2023-05-10
# 新型コロナウイルスパンデミックでLGBTQオンラインコミュニティが経験したマイノリティストレス

Minority Stress Experienced by LGBTQ Online Communities during the COVID-19 Pandemic ( http://arxiv.org/abs/2205.09511v3 )

ライセンス: Link先を確認
Yunhao Yuan, Gaurav Verma, Barbara Keller, Talayeh Aledavood(参考訳) 新型コロナウイルスのパンデミックは、既存の社会的不利益や健康格差のためにLGBTQコミュニティ(レズビアン、ゲイ、バイセクシャル、トランスジェンダー、クイア)のメンバーなどマイノリティの生活に大きな影響を与えている。 新型コロナウイルスのパンデミックが一般住民の生活の様々な側面に与える影響について広範な研究がなされているが、LGBTQ人口に焦点を当てた研究はほとんどない。 本稿では,前パンデミックと中パンデミックの2つのデータセットを用いて,少数派ストレスを呈するtwitter投稿を識別する機械学習分類器を開発し,評価する。 我々は,最強のプレパンデミックモデルと中パンデミックモデルが,少数派のストレスを含むポストを検出する上で,強力で安定した性能を示すことを示した。 パンデミック期およびパンデミック期における少数ストレスポストの言語的差異について検討した。 新型コロナウイルス(covid-19)のパンデミックでは、怒りの言葉は少数派のストレスと強く関連している。 本研究では,パンデミックがLGBTQ人口の感情状態に与える影響を,妥当性スコアに基づくマッチングを用いて因果分析を行う。 その結果、lgbtq集団は認知語の使用率が高く、ポジティブ感情語の使用における観察可能な属性が、パンデミック以前の行動特性を持つ一般集団よりも悪化していることが示された。 今後,公共衛生領域や政策立案者が,特に精神保健に関する適切な支援をLGBTQ人口に与えていくことが示唆された。

The COVID-19 pandemic has disproportionately impacted the lives of minorities, such as members of the LGBTQ community (lesbian, gay, bisexual, transgender, and queer) due to pre-existing social disadvantages and health disparities. Although extensive research has been carried out on the impact of the COVID-19 pandemic on different aspects of the general population's lives, few studies are focused on the LGBTQ population. In this paper, we develop and evaluate two sets of machine learning classifiers using a pre-pandemic and a during-pandemic dataset to identify Twitter posts exhibiting minority stress, which is a unique pressure faced by the members of the LGBTQ population due to their sexual and gender identities. We demonstrate that our best pre- and during-pandemic models show strong and stable performance for detecting posts that contain minority stress. We investigate the linguistic differences in minority stress posts across pre- and during-pandemic periods. We find that anger words are strongly associated with minority stress during the COVID-19 pandemic. We explore the impact of the pandemic on the emotional states of the LGBTQ population by adopting propensity score-based matching to perform a causal analysis. The results show that the LGBTQ population have a greater increase in the usage of cognitive words and worsened observable attribute in the usage of positive emotion words than the group of the general population with similar pre-pandemic behavioral attributes. Our findings have implications for the public health domain and policy-makers to provide adequate support, especially with respect to mental health, to the LGBTQ population during future crises.
翻訳日:2023-05-12 19:06:43 公開日:2023-05-10
# ホワイトボックス言語モデルのパーソナリティの推定

Estimating the Personality of White-Box Language Models ( http://arxiv.org/abs/2204.12000v2 )

ライセンス: Link先を確認
Saketh Reddy Karra, Son The Nguyen, Theja Tulabandhula(参考訳) 人工知能の重要な応用であるオープンエンド言語生成技術は、近年大きく進歩している。 大規模な言語モデルは大量のテキストで訓練されており、バーチャルアシスタントから会話型ボットまで、さまざまなアプリケーションで使われている。 これらの言語モデルは流れるテキストを出力するが、既存の研究によれば、これらのモデルが人間のバイアスを捉えることができる。 こうした偏見の多くは、特に危害をもたらす可能性のあるものは、よく調査されている。 一方で、これらのモデルによって受け継がれた人格特性を推測し、変化させる研究は少ないか、存在しない。 我々の研究は、オープンエンドテキスト生成用に設計された大規模言語モデルの性格特性と、それらの訓練に使用されるデータセットを探索することによって、このギャップに対処することを目指している。 人気の高いBig Five因子に基づいて、これらのモデルとその基盤となるデータセットのパーソナリティ特性を定量化する堅牢な手法を開発します。 特に,パーソナリティアセスメント用に設計されたアンケートを用いてモデルを起動し,ゼロショット分類器を用いてテキスト応答を定量化可能な特徴に分類した。 我々の推定手法は、そのようなAIモデルに見られる重要な人為的要素に光を当て、利害関係者がどのように適用されるべきか、そして社会がそれらをどう知覚するかを決定するのに役立つ。 さらに、これらのパーソナリティを変えるためのアプローチを調査し、aiモデルを特定のコンテキストに適用する方法の理解を深めました。

Technology for open-ended language generation, a key application of artificial intelligence, has advanced to a great extent in recent years. Large-scale language models, which are trained on large corpora of text, are being used in a wide range of applications everywhere, from virtual assistants to conversational bots. While these language models output fluent text, existing research shows that these models can and do capture human biases. Many of these biases, especially those that could potentially cause harm, are being well-investigated. On the other hand, studies that infer and change human personality traits inherited by these models have been scarce or non-existent. Our work seeks to address this gap by exploring the personality traits of several large-scale language models designed for open-ended text generation and the datasets used for training them. We build on the popular Big Five factors and develop robust methods that quantify the personality traits of these models and their underlying datasets. In particular, we trigger the models with a questionnaire designed for personality assessment and subsequently classify the text responses into quantifiable traits using a Zero-shot classifier. Our estimation scheme sheds light on an important anthropomorphic element found in such AI models and can help stakeholders decide how they should be applied as well as how society could perceive them. Additionally, we examined approaches to alter these personalities, adding to our understanding of how AI models can be adapted to specific contexts.
翻訳日:2023-05-12 19:06:15 公開日:2023-05-10
# SkeletonMAE:自己教師型骨格行動認識のための時空間マスケ自動エンコーダ

SkeletonMAE: Spatial-Temporal Masked Autoencoders for Self-supervised Skeleton Action Recognition ( http://arxiv.org/abs/2209.02399v2 )

ライセンス: Link先を確認
Wenhan Wu, Yilei Hua, Ce Zheng, Shiqian Wu, Chen Chen, Aidong Lu(参考訳) 完全な教師付きスケルトンベースのアクション認識は、ディープラーニング技術の出現によって大きな進歩を遂げている。 しかし、これらの手法は容易には得られない十分なラベル付きデータを必要とする。 対照的に、自己監督型骨格に基づく行動認識はより注目を集めている。 ラベルなしデータを利用することで、オーバーフィッティング問題を緩和し、大量のラベル付きトレーニングデータの需要を減らすために、より一般化可能な特徴を学ぶことができる。 MAEにインスパイアされた自己教師型3次元骨格に基づく行動認識(SkeletonMAE)のための空間時間マスク付きオートエンコーダフレームワークを提案する。 MAEのマスキングおよび再構成パイプラインに続いて,スケルトンに基づくエンコーダデコーダトランスアーキテクチャを用いて,マスクされたスケルトン配列を再構成する。 骨格配列の結合レベルとフレームレベルの両方の観点から,空間的マスキングと呼ばれる新しいマスキング戦略を導入する。 この事前学習戦略は、エンコーダ出力を空間的および時間的依存関係を持つ一般化可能なスケルトン特徴にする。 未マスクのスケルトンシーケンスが与えられると、エンコーダはアクション認識タスクのために微調整される。 我々のSkeletonMAEは、NTU RGB+DおよびNTU RGB+D 120データセットの最先端手法よりも優れた性能を示す。

Fully supervised skeleton-based action recognition has achieved great progress with the blooming of deep learning techniques. However, these methods require sufficient labeled data which is not easy to obtain. In contrast, self-supervised skeleton-based action recognition has attracted more attention. With utilizing the unlabeled data, more generalizable features can be learned to alleviate the overfitting problem and reduce the demand of massive labeled training data. Inspired by the MAE, we propose a spatial-temporal masked autoencoder framework for self-supervised 3D skeleton-based action recognition (SkeletonMAE). Following MAE's masking and reconstruction pipeline, we utilize a skeleton-based encoder-decoder transformer architecture to reconstruct the masked skeleton sequences. A novel masking strategy, named Spatial-Temporal Masking, is introduced in terms of both joint-level and frame-level for the skeleton sequence. This pre-training strategy makes the encoder output generalizable skeleton features with spatial and temporal dependencies. Given the unmasked skeleton sequence, the encoder is fine-tuned for the action recognition task. Extensive experiments show that our SkeletonMAE achieves remarkable performance and outperforms the state-of-the-art methods on both NTU RGB+D and NTU RGB+D 120 datasets.
翻訳日:2023-05-12 18:58:33 公開日:2023-05-10
# PointConvFormer: Pointベースの畳み込みの回避

PointConvFormer: Revenge of the Point-based Convolution ( http://arxiv.org/abs/2208.02879v3 )

ライセンス: Link先を確認
Wenxuan Wu, Li Fuxin, Qi Shan(参考訳) 我々は、ポイントクラウドベースのディープネットワークアーキテクチャのための新しいビルディングブロックであるpointconvformerを紹介する。 一般化理論にインスパイアされたPointConvFormerは、フィルタ重みが相対的な位置のみに基づく点畳み込みと、特徴に基づく注意力を利用する変換器を組み合わせた。 PointConvFormerでは、各点の畳み込み重みを変更するために、近傍の点間の特徴差から計算された注意が使用される。 したがって、我々は点の畳み込みから不変性を保ち、一方注意は近傍の関連する点を選択するのに役立つ。 PointConvFormerは、セグメンテーションやシーンフロー推定タスクなど、ポイントレベルで詳細を必要とする複数のタスクに適している。 ScanNet、SemanticKitti、FlyingThings3D、KITTIといった複数のデータセットを使って、両方のタスクを実験する。 以上の結果から,pointconvformerは従来の畳み込みや正規トランスフォーマ,voxelized sparse 畳み込みよりも精度の高いトレードオフを提供することがわかった。 可視化により、PointConvFormerは平坦な領域での畳み込みと同様に機能し、一方、近傍の選択効果はオブジェクト境界において強く、両方の世界で最高のものを得たことを示している。

We introduce PointConvFormer, a novel building block for point cloud based deep network architectures. Inspired by generalization theory, PointConvFormer combines ideas from point convolution, where filter weights are only based on relative position, and Transformers which utilize feature-based attention. In PointConvFormer, attention computed from feature difference between points in the neighborhood is used to modify the convolutional weights at each point. Hence, we preserved the invariances from point convolution, whereas attention helps to select relevant points in the neighborhood for convolution. PointConvFormer is suitable for multiple tasks that require details at the point level, such as segmentation and scene flow estimation tasks. We experiment on both tasks with multiple datasets including ScanNet, SemanticKitti, FlyingThings3D and KITTI. Our results show that PointConvFormer offers a better accuracy-speed tradeoff than classic convolutions, regular transformers, and voxelized sparse convolution approaches. Visualizations show that PointConvFormer performs similarly to convolution on flat areas, whereas the neighborhood selection effect is stronger on object boundaries, showing that it has got the best of both worlds.
翻訳日:2023-05-12 18:57:17 公開日:2023-05-10
# 行列補完のための深い線形ネットワーク-無限深さ限界

Deep Linear Networks for Matrix Completion -- An Infinite Depth Limit ( http://arxiv.org/abs/2210.12497v2 )

ライセンス: Link先を確認
Nadav Cohen, Govind Menon, Zsolt Veraszto(参考訳) ディープリニアネットワーク(dln)は、過パラメータ学習アーキテクチャの勾配に基づく最適化における暗黙の正則化のモデルである。 DLNのトレーニングはリーマン勾配の流れに対応し、リーマン計量はネットワークのアーキテクチャによって定義され、損失関数は学習タスクによって定義される。 この幾何学的枠組みを拡張し、ネットワークが無限の深さを持つ場合を含め、体積形式の明示的な表現を得る。 厳密な解析と数値による行列完備化のためのリーマン幾何学とトレーニング漸近の関連について検討する。 暗黙的正則化は高状態空間体積に対するバイアスの結果である。

The deep linear network (DLN) is a model for implicit regularization in gradient based optimization of overparametrized learning architectures. Training the DLN corresponds to a Riemannian gradient flow, where the Riemannian metric is defined by the architecture of the network and the loss function is defined by the learning task. We extend this geometric framework, obtaining explicit expressions for the volume form, including the case when the network has infinite depth. We investigate the link between the Riemannian geometry and the training asymptotics for matrix completion with rigorous analysis and numerics. We propose that implicit regularization is a result of bias towards high state space volume.
翻訳日:2023-05-12 18:49:18 公開日:2023-05-10
# ベイズ帯域の連続時間制限

Continuous-in-time Limit for Bayesian Bandits ( http://arxiv.org/abs/2210.07513v2 )

ライセンス: Link先を確認
Yuhua Zhu, Zachary Izzo, Lexing Ying(参考訳) 本稿ではベイズ設定における盗賊問題を再考する。 ベイジアンアプローチは、バンディット問題を最適化問題として定式化し、ベイジアン後悔を最小限に抑える最適なポリシーを見つけることが目的である。 ベイズ的アプローチに直面する主な課題の1つは、最適ポリシーの計算がしばしば難解であることであり、特に問題水平線の長さや武器の数が大きい場合である。 本稿では、まず適切な再スケーリングの下で、ベイジアン・バンディット問題は連続ハミルトン・ヤコビ・ベルマン方程式(HJB)に収束することを示す。 制限HJB方程式の最適ポリシは、いくつかの共通バンディット問題に対して明示的に得ることができ、明示的な解が得られない場合に、HJB方程式を解く数値的な方法を与える。 これらの結果に基づき,ベイズ帯域幅が広いベイズ帯域幅の問題を解くための近似ベイズ最適政策を提案する。 本手法は地平線が大きくなるにつれて計算コストが増大しないという付加的な利点を有する。

This paper revisits the bandit problem in the Bayesian setting. The Bayesian approach formulates the bandit problem as an optimization problem, and the goal is to find the optimal policy which minimizes the Bayesian regret. One of the main challenges facing the Bayesian approach is that computation of the optimal policy is often intractable, especially when the length of the problem horizon or the number of arms is large. In this paper, we first show that under a suitable rescaling, the Bayesian bandit problem converges toward a continuous Hamilton-Jacobi-Bellman (HJB) equation. The optimal policy for the limiting HJB equation can be explicitly obtained for several common bandit problems, and we give numerical methods to solve the HJB equation when an explicit solution is not available. Based on these results, we propose an approximate Bayes-optimal policy for solving Bayesian bandit problems with large horizons. Our method has the added benefit that its computational cost does not increase as the horizon increases.
翻訳日:2023-05-12 18:48:49 公開日:2023-05-10
# NeRF:3Dビジョンにおけるニューラル・ラジアンス・フィールドの総合的レビュー

NeRF: Neural Radiance Field in 3D Vision, A Comprehensive Review ( http://arxiv.org/abs/2210.00379v4 )

ライセンス: Link先を確認
Kyle Gao, Yina Gao, Hongjie He, Dening Lu, Linlin Xu and Jonathan Li(参考訳) 暗黙的なシーン表現を備えた新しいビュー合成であるNeRF(Neural Radiance Field)が,嵐によるコンピュータビジョンの分野に進出した。 新規なビュー合成と3D再構成手法として、NeRFモデルはロボット工学、都市マッピング、自律ナビゲーション、仮想現実/拡張現実などに適用できる。 mildenhallらによる最初の論文以降、250以上のプレプリントが出版され、最終的に100以上のプレプリントがtier one computer vision conferenceで受け入れられた。 nerfの人気と現在の研究領域への関心を考えると、我々は過去2年間のnerf論文の包括的な調査を、アーキテクチャとアプリケーションに基づく分類の両方にまとめる必要があると考えています。 また,NeRFを用いた新規ビュー合成理論の紹介と,鍵となるNeRFモデルの性能と速度のベンチマーク比較を行った。 この調査を作成することで、新しい研究者をNeRFに紹介し、この分野における影響力のある研究の参考となるとともに、今後の研究方向性を議論節で動機付けることを期待する。

Neural Radiance Field (NeRF), a new novel view synthesis with implicit scene representation has taken the field of Computer Vision by storm. As a novel view synthesis and 3D reconstruction method, NeRF models find applications in robotics, urban mapping, autonomous navigation, virtual reality/augmented reality, and more. Since the original paper by Mildenhall et al., more than 250 preprints were published, with more than 100 eventually being accepted in tier one Computer Vision Conferences. Given NeRF popularity and the current interest in this research area, we believe it necessary to compile a comprehensive survey of NeRF papers from the past two years, which we organized into both architecture, and application based taxonomies. We also provide an introduction to the theory of NeRF based novel view synthesis, and a benchmark comparison of the performance and speed of key NeRF models. By creating this survey, we hope to introduce new researchers to NeRF, provide a helpful reference for influential works in this field, as well as motivate future research directions with our discussion section.
翻訳日:2023-05-12 18:47:38 公開日:2023-05-10
# 認識型ニューラルネットワークによる微調整言語モデル

Fine-Tuning Language Models via Epistemic Neural Networks ( http://arxiv.org/abs/2211.01568v2 )

ライセンス: Link先を確認
Ian Osband, Seyed Mohammad Asghari, Benjamin Van Roy, Nat McAleese, John Aslanides, Geoffrey Irving(参考訳) 言語モデルは、しばしば大きな教師なしテキストコーパスで事前トレーニングされ、追加のタスク固有のデータで微調整される。 しかし、典型的な微調整スキームは、チューニングした例を優先しない。 情報的トレーニングデータを優先順位付けできるならば、ラベルを減らしながらパフォーマンスを向上できることが示されます。 モデルの不確かさを推定し、 \textit{epistemic neural network} (enn) を形成するのに役立つ小さな追加のネットワークである。 ennは、彼らが知らないことを理解できるニューラルネットワークです。 epinetを使って不確かなデータを優先順位付けすることで、優先順位付けせずにトレーニングよりも2倍少ないデータを使用しながら、タスクを同じパフォーマンスに微調整することができる。 また,理解を構築するために設計された合成ニューラルネットワーク生成モデルの性能について検討する。 それぞれの設定において、エピネットの使用はヒューリスティックなアクティブラーニングスキームより優れている。

Language models often pre-train on large unsupervised text corpora, then fine-tune on additional task-specific data. However, typical fine-tuning schemes do not prioritize the examples that they tune on. We show that, if you can prioritize informative training data, you can achieve better performance while using fewer labels. To do this we augment a language model with an epinet: a small additional network that helps to estimate model uncertainty and forms an \textit{epistemic neural network} (ENN). ENNs are neural networks that can know what they don't know. Using an epinet to prioritize uncertain data, we can fine-tune BERT on GLUE tasks to the same performance while using 2x less data than training without prioritization. We also investigate performance in synthetic neural network generative models designed to build understanding. In each setting, using an epinet outperforms heuristic active learning schemes.
翻訳日:2023-05-12 18:40:15 公開日:2023-05-10
# 観測可能な完全平衡

Observable Perfect Equilibrium ( http://arxiv.org/abs/2210.16506v6 )

ライセンス: Link先を確認
Sam Ganzfried(参考訳) ナッシュ均衡はゲーム理論の中心的な概念として現れてきたが、多くの重要なゲームにはナッシュ均衡がいくつか含まれており、実際の戦略エージェントを作成するためにそれらの間の選択方法を決定する必要がある。 いくつかのナッシュ均衡改善の概念が提案され、シーケンシャル不完全情報ゲームのために研究され、最も顕著なのはトレムリングハンド完全均衡、準完全均衡、そして最近の片側準完全均衡である。 これらの概念は、任意の小さな誤りに対して頑健であり、常に存在することが保証されているが、不完全な情報の連続的なゲームにおいて強力なエージェントを開発するための正しい概念ではないと主張する。 我々は、可観測完全均衡(observable perfect equilibrium)と呼ばれる拡張形式のゲームに対して、解が公然と観測可能な作用確率(相手プレイヤーによって観測できないかもしれない全ての作用確率)の反動に対して頑健であるような新しい平衡改善概念を定義する。 可観測完全均衡(Observable perfect equilibrium)は、相手が観測された誤りに対して可能な限り合理的にプレイしているという仮定を正しく捉える(ただし、以前の解の概念はそうではない)。 我々は観測可能な完全平衡が常に存在することを証明し、それが以前の無制限ポーカーの広範囲な改良とは異なる解決策をもたらすことを証明している。 観測可能な完全均衡は、人工知能に興味を持つ多くの重要な不完全情報ゲームをモデリングするための有用な均衡洗練概念であることを期待している。

While Nash equilibrium has emerged as the central game-theoretic solution concept, many important games contain several Nash equilibria and we must determine how to select between them in order to create real strategic agents. Several Nash equilibrium refinement concepts have been proposed and studied for sequential imperfect-information games, the most prominent being trembling-hand perfect equilibrium, quasi-perfect equilibrium, and recently one-sided quasi-perfect equilibrium. These concepts are robust to certain arbitrarily small mistakes, and are guaranteed to always exist; however, we argue that neither of these is the correct concept for developing strong agents in sequential games of imperfect information. We define a new equilibrium refinement concept for extensive-form games called observable perfect equilibrium in which the solution is robust over trembles in publicly-observable action probabilities (not necessarily over all action probabilities that may not be observable by opposing players). Observable perfect equilibrium correctly captures the assumption that the opponent is playing as rationally as possible given mistakes that have been observed (while previous solution concepts do not). We prove that observable perfect equilibrium is always guaranteed to exist, and demonstrate that it leads to a different solution than the prior extensive-form refinements in no-limit poker. We expect observable perfect equilibrium to be a useful equilibrium refinement concept for modeling many important imperfect-information games of interest in artificial intelligence.
翻訳日:2023-05-12 18:39:34 公開日:2023-05-10
# 共同分類と複数明示的検出クラスによる対向ロバスト性の改善

Improving Adversarial Robustness via Joint Classification and Multiple Explicit Detection Classes ( http://arxiv.org/abs/2210.14410v2 )

ライセンス: Link先を確認
Sina Baharlouei, Fatemeh Sheikholeslami, Meisam Razaviyayn, Zico Kolter(参考訳) この研究は、敵の攻撃に対して確実に堅牢なディープネットワークの開発に関するものである。 共同頑健な分類検出は、最近認証された防御機構として導入され、敵の例は正しく分類されるか、"存在"クラスに割り当てられる。 本稿では,複数の明示的な抽象クラスを持つネットワークへの拡張によって,そのような証明可能なフレームワークがメリットを享受できることを示す。 そこで本研究では,複数のabstainクラスを付加することで「モデル縮退」につながることを示すとともに,複数のabstainクラスをフル活用することにより,この縮退に対応するための正規化手法とトレーニング手法を提案する。 実験の結果,提案手法は頑健な検証精度のトレードオフに対して常に有利な基準を満たしており,アブスタンクラス数の選択において最先端アルゴリズムよりも優れていることがわかった。

This work concerns the development of deep networks that are certifiably robust to adversarial attacks. Joint robust classification-detection was recently introduced as a certified defense mechanism, where adversarial examples are either correctly classified or assigned to the "abstain" class. In this work, we show that such a provable framework can benefit by extension to networks with multiple explicit abstain classes, where the adversarial examples are adaptively assigned to those. We show that naively adding multiple abstain classes can lead to "model degeneracy", then we propose a regularization approach and a training method to counter this degeneracy by promoting full use of the multiple abstain classes. Our experiments demonstrate that the proposed approach consistently achieves favorable standard vs. robust verified accuracy tradeoffs, outperforming state-of-the-art algorithms for various choices of number of abstain classes.
翻訳日:2023-05-12 18:38:39 公開日:2023-05-10
# 量子回路最適化器の合成

Synthesizing Quantum-Circuit Optimizers ( http://arxiv.org/abs/2211.09691v3 )

ライセンス: Link先を確認
Amanda Xu, Abtin Molavi, Lauren Pick, Swamit Tannu, Aws Albarghouthi(参考訳) 短期量子コンピュータは、各操作がノイズを抱え、エラー訂正を行わない環境で動作することが期待されている。 したがって、量子回路オプティマイザを適用してノイズの少ない演算を最小化する。 現在、物理学者は新しい装置やアーキテクチャを常に実験している。 新しい物理基板と量子コンピュータのあらゆる修正のためには、オプティマイザの主要部分を修正または書き換えて実験を成功させる必要があります。 本稿では,量子回路オプティマイザを自動的に合成する効率的な手法であるquesoを提案する。 例えば1.2分で、QUESOは様々なベンチマークスイートの回路の大部分(85%)において、IBMのQiskitやTKETのような主要なコンパイラを著しく上回っているIBMコンピュータに対して高い確率の正当性を保証するオプティマイザを合成できる。 QUESO:(1)書き換え規則とその意味論を表現する代数的アプローチ。 これにより、既存のテクニックの範囲を超えた複雑なシンボリックリライトルールの推論が容易になる。 2) 多項式同一性テストの特殊な形式に問題を縮小することにより, 量子回路の等価性を確率的に検証するための高速アプローチ。 (3) 書き直し規則を効率的に合成するための新しい確率的データ構造である多項式等式フィルタ(PIF)。 (4) 合成記号書き換え規則を量子回路の最適化に効率的に適用するビーム探索に基づくアルゴリズム。

Near-term quantum computers are expected to work in an environment where each operation is noisy, with no error correction. Therefore, quantum-circuit optimizers are applied to minimize the number of noisy operations. Today, physicists are constantly experimenting with novel devices and architectures. For every new physical substrate and for every modification of a quantum computer, we need to modify or rewrite major pieces of the optimizer to run successful experiments. In this paper, we present QUESO, an efficient approach for automatically synthesizing a quantum-circuit optimizer for a given quantum device. For instance, in 1.2 minutes, QUESO can synthesize an optimizer with high-probability correctness guarantees for IBM computers that significantly outperforms leading compilers, such as IBM's Qiskit and TKET, on the majority (85%) of the circuits in a diverse benchmark suite. A number of theoretical and algorithmic insights underlie QUESO: (1) An algebraic approach for representing rewrite rules and their semantics. This facilitates reasoning about complex symbolic rewrite rules that are beyond the scope of existing techniques. (2) A fast approach for probabilistically verifying equivalence of quantum circuits by reducing the problem to a special form of polynomial identity testing. (3) A novel probabilistic data structure, called a polynomial identity filter (PIF), for efficiently synthesizing rewrite rules. (4) A beam-search-based algorithm that efficiently applies the synthesized symbolic rewrite rules to optimize quantum circuits.
翻訳日:2023-05-12 18:29:50 公開日:2023-05-10
# 表現学習とドメイン適応によるドメイン間Few-Shot関係抽出

Cross-Domain Few-Shot Relation Extraction via Representation Learning and Domain Adaptation ( http://arxiv.org/abs/2212.02560v2 )

ライセンス: Link先を確認
Zhongju Yuan, Zhenkun Wang and Genghui Li(参考訳) 短いショット関係抽出は、各関係にラベル付き文がほとんどない新しい関係を認識することを目的としている。 従来のメトリックに基づくマイノリティ抽出アルゴリズムでは,少数のラベル付き文が生成したプロトタイプと,トレーニングされたメトリック関数を用いたクエリ文の埋め込みを比較して関係を識別している。 しかし、これらのドメインは常にトレーニングデータセットと大きく異なるため、多くのドメインにおける目に見えない関係に対するこれらのアプローチの一般化能力は限られている。 潜在空間における実体間の関係を得るためには,プロトタイプが必要となるので,先行知識と関係の固有意味論からより解釈可能かつ効率的なプロトタイプを学習し,様々な領域における新しい関係をより効果的に抽出することを提案する。 先行情報を用いた関係関係の探索により,関係のプロトタイプ表現を効果的に改善する。 対照的な学習を用いて文埋め込み間の分類マージンをより明確にすることで、プロトタイプの幾何学的解釈性が向上する。 さらに、クロスドメイン問題に対するトランスファーラーニングアプローチを利用することで、プロトタイプの生成プロセスが他のドメイン間のギャップを考慮し、プロトタイプをより堅牢にし、複数のドメインをまたいだアソシエーションのより良い抽出を可能にする。 ベンチマークの fewrel データセットにおける実験の結果は、いくつかの最先端のアプローチに対して提案手法の利点を示している。

Few-shot relation extraction aims to recognize novel relations with few labeled sentences in each relation. Previous metric-based few-shot relation extraction algorithms identify relationships by comparing the prototypes generated by the few labeled sentences embedding with the embeddings of the query sentences using a trained metric function. However, as these domains always have considerable differences from those in the training dataset, the generalization ability of these approaches on unseen relations in many domains is limited. Since the prototype is necessary for obtaining relationships between entities in the latent space, we suggest learning more interpretable and efficient prototypes from prior knowledge and the intrinsic semantics of relations to extract new relations in various domains more effectively. By exploring the relationships between relations using prior information, we effectively improve the prototype representation of relations. By using contrastive learning to make the classification margins between sentence embedding more distinct, the prototype's geometric interpretability is enhanced. Additionally, utilizing a transfer learning approach for the cross-domain problem allows the generation process of the prototype to account for the gap between other domains, making the prototype more robust and enabling the better extraction of associations across multiple domains. The experiment results on the benchmark FewRel dataset demonstrate the advantages of the suggested method over some state-of-the-art approaches.
翻訳日:2023-05-12 18:19:45 公開日:2023-05-10
# 生成言語モデルによるタスク知識のオートマトン表現

Automaton-Based Representations of Task Knowledge from Generative Language Models ( http://arxiv.org/abs/2212.01944v4 )

ライセンス: Link先を確認
Yunhao Yang, Jean-Rapha\"el Gaglione, Cyrus Neary, Ufuk Topcu(参考訳) タスク知識のオートマトンに基づく表現は、シーケンシャルな意思決定問題の制御と計画において重要な役割を果たす。 しかし、このようなオートマトンを構築するのに必要な高度なタスク知識を得ることは、しばしば困難である。 一方、大規模生成言語モデル(GLM)は、関連するタスク知識を自動的に生成することができる。 しかし、GLMからのテキスト出力は正式な検証やシーケンシャルな意思決定には使用できない。 本稿では,タスク目標の簡単な自然言語記述から高レベルタスク知識を符号化する有限状態オートマトン(FSA)を構築する,GLM2FSAという新しいアルゴリズムを提案する。 GLM2FSAはまずGLMにクエリを送り、テキスト形式でタスク知識を抽出し、次にこのテキストベースの知識を表現するためのFSAを構築する。 提案アルゴリズムは,自然言語によるタスク記述とオートマトンに基づく表現のギャップを埋めるものであり,構築されたFSAはユーザ定義仕様に対して形式的に検証可能である。 そこで本研究では,検証の結果に基づいて,glmへのクエリを反復的に洗練する手法を提案する。 我々はglm2fsaの日常タスク(例えば道路横断)のオートマトンベース表現の構築と洗練、そして高度に専門化された知識を必要とするタスク(例えば、安全なマルチパーティ計算の実行)の能力を示す。

Automaton-based representations of task knowledge play an important role in control and planning for sequential decision-making problems. However, obtaining the high-level task knowledge required to build such automata is often difficult. Meanwhile, large-scale generative language models (GLMs) can automatically generate relevant task knowledge. However, the textual outputs from GLMs cannot be formally verified or used for sequential decision-making. We propose a novel algorithm named GLM2FSA, which constructs a finite state automaton (FSA) encoding high-level task knowledge from a brief natural-language description of the task goal. GLM2FSA first sends queries to a GLM to extract task knowledge in textual form, and then it builds an FSA to represent this text-based knowledge. The proposed algorithm thus fills the gap between natural-language task descriptions and automaton-based representations, and the constructed FSA can be formally verified against user-defined specifications. We accordingly propose a method to iteratively refine the queries to the GLM based on the outcomes, e.g., counter-examples, from verification. We demonstrate GLM2FSA's ability to build and refine automaton-based representations of everyday tasks (e.g., crossing a road), and also of tasks that require highly-specialized knowledge (e.g., executing secure multi-party computation).
翻訳日:2023-05-12 18:19:21 公開日:2023-05-10
# 望ましいものの理論

A theory of desirable things ( http://arxiv.org/abs/2302.07412v3 )

ライセンス: Link先を確認
Jasper De Bock(参考訳) 不正確な確率の分野で不確実性をモデル化するために用いられる望ましいギャンブルの理論に触発されて、私は望ましいものの理論を示す。 目的は、対象が望ましいものについての信念をモデル化することである。 物事が何であるかは重要ではなく、彼らが望ましいということでもない。 ギャンブルに当てはまり、被験者がそれを受け入れた場合には望ましいが、ピザにも当てはまるし、友人のアーサーが食べるのが好きなら望ましいと言うこともできる。 この理論を応用できる他の有用な例としては、命題、馬の宝くじ、または上記のいずれかの間の選好がある。 考慮される特定のものにかかわらず、推論規則は抽象閉包演算子によって課され、これらの規則に従うモデルはコヒーレント(coherent)と呼ばれる。 私は2つのタイプのモデルを考えます。それぞれが、望ましいもの、望ましいもの、望ましいもの、望ましいもの、という、対象の信念を捉えることができます。 重要な結果として、後者の型は前者のセットで表現できる。

Inspired by the theory of desirable gambles that is used to model uncertainty in the field of imprecise probabilities, I present a theory of desirable things. Its aim is to model a subject's beliefs about which things are desirable. What the things are is not important, nor is what it means for them to be desirable. It can be applied to gambles, calling them desirable if a subject accepts them, but it can just as well be applied to pizzas, calling them desirable if my friend Arthur likes to eat them. Other useful examples of things one might apply this theory to are propositions, horse lotteries, or preferences between any of the above. Regardless of the particular things that are considered, inference rules are imposed by means of an abstract closure operator, and models that adhere to these rules are called coherent. I consider two types of models, each of which can capture a subject's beliefs about which things are desirable: sets of desirable things and sets of desirable sets of things. A crucial result is that the latter type can be represented by a set of the former.
翻訳日:2023-05-12 18:11:14 公開日:2023-05-10
# gpt-3は法定推論を実行できるか?

Can GPT-3 Perform Statutory Reasoning? ( http://arxiv.org/abs/2302.06100v2 )

ライセンス: Link先を確認
Andrew Blair-Stanek, Nils Holzenberger, Benjamin Van Durme(参考訳) 法令推論は、立法府によって自然言語で書かれた規則である事実や法令を推論する作業である。 基本的な法的技能である。 本稿では,最も有能な GPT-3 モデルである text-davinci-003 について,SARA と呼ばれる定式化データセットを用いて検討する。 動的少ショットプロンプト、チェーンオブ思想プロンプト、ゼロショットプロンプトなど、さまざまなアプローチを検討します。 GPT-3で得られた結果は、これまでの最良な結果よりも優れているが、いくつかの明確な誤りも特定できる。 これらの誤りがなぜ起こるのか調べる。 我々は, GPT-3 が SARA を基盤とする実際の米国法令の事前知識に不完全なことを発見した。 さらに重要なことは、GPT-3がトレーニング中に見られないことを保証する単純な合成法則を作成することである。 GPT-3はこれらの単純な合成法則に関する簡単な質問に答えるには不十分である。

Statutory reasoning is the task of reasoning with facts and statutes, which are rules written in natural language by a legislature. It is a basic legal skill. In this paper we explore the capabilities of the most capable GPT-3 model, text-davinci-003, on an established statutory-reasoning dataset called SARA. We consider a variety of approaches, including dynamic few-shot prompting, chain-of-thought prompting, and zero-shot prompting. While we achieve results with GPT-3 that are better than the previous best published results, we also identify several types of clear errors it makes. We investigate why these errors happen. We discover that GPT-3 has imperfect prior knowledge of the actual U.S. statutes on which SARA is based. More importantly, we create simple synthetic statutes, which GPT-3 is guaranteed not to have seen during training. We find GPT-3 performs poorly at answering straightforward questions about these simple synthetic statutes.
翻訳日:2023-05-12 18:10:58 公開日:2023-05-10
# VAEによる潜伏変数の学習:Cryo-EMの応用に関する観察

Using VAEs to Learn Latent Variables: Observations on Applications in cryo-EM ( http://arxiv.org/abs/2303.07487v2 )

ライセンス: Link先を確認
Daniel G. Edelberg, Roy R. Lederman(参考訳) 変分オートエンコーダ(VAE)は分布を近似する一般的な生成モデルである。 vaeのエンコーダ部分は、潜在変数の償却学習に使われ、データサンプルの潜在表現を生成する。 近年、VAEは物理的および生物学的システムの特徴付けに使われている。 本稿では,生物応用におけるVAEのアモータイズ特性について質的に検討する。 このアプリケーションでは、エンコーダはより伝統的な潜在変数の明示的な表現と質的な類似性を持つ。

Variational autoencoders (VAEs) are a popular generative model used to approximate distributions. The encoder part of the VAE is used in amortized learning of latent variables, producing a latent representation for data samples. Recently, VAEs have been used to characterize physical and biological systems. In this case study, we qualitatively examine the amortization properties of a VAE used in biological applications. We find that in this application the encoder bears a qualitative resemblance to more traditional explicit representation of latent variables.
翻訳日:2023-05-12 18:02:21 公開日:2023-05-10
# 経済ABMの校正における探索手法の組み合わせによる強化学習

Reinforcement Learning for Combining Search Methods in the Calibration of Economic ABMs ( http://arxiv.org/abs/2302.11835v2 )

ライセンス: Link先を確認
Aldo Glielmo, Marco Favorito, Debmallya Chanda and Domenico Delli Gatti(参考訳) 経済学と金融学におけるエージェントベースモデル(ABM)の校正は通常、非常に大きなパラメータ空間における微分自由探索を伴う。 本研究では、実データ上でよく知られたマクロ経済ABMの校正における多くの探索手法をベンチマークし、異なる手法を組み合わせた「混合戦略」の性能を更に評価する。 ランダム・フォレスト・サロゲートに基づく手法は特に効率的であり, 探索手法の組み合わせは, 一つの手法のバイアスが軽減されるため, 一般に性能が向上することがわかった。 これらの観察から,キャリブレーション実行中の探索手法を自動的に選択し,結合する強化学習(rl)方式を提案する。 RLエージェントは、それが正常に動作し続ける限りのみ、特定のメソッドを利用し続けるが、特定のメソッドがパフォーマンス高原に達すると、新しい戦略を探索する。 その結果得られるrl検索方式は、テストされた他の方法やメソッドの組み合わせよりも優れており、事前の情報や試行やエラー手順に依存しない。

Calibrating agent-based models (ABMs) in economics and finance typically involves a derivative-free search in a very large parameter space. In this work, we benchmark a number of search methods in the calibration of a well-known macroeconomic ABM on real data, and further assess the performance of "mixed strategies" made by combining different methods. We find that methods based on random-forest surrogates are particularly efficient, and that combining search methods generally increases performance since the biases of any single method are mitigated. Moving from these observations, we propose a reinforcement learning (RL) scheme to automatically select and combine search methods on-the-fly during a calibration run. The RL agent keeps exploiting a specific method only as long as this keeps performing well, but explores new strategies when the specific method reaches a performance plateau. The resulting RL search scheme outperforms any other method or method combination tested, and does not rely on any prior information or trial and error procedure.
翻訳日:2023-05-12 18:00:31 公開日:2023-05-10
# 不正確なベイズニューラルネットワーク

Imprecise Bayesian Neural Networks ( http://arxiv.org/abs/2302.09656v2 )

ライセンス: Link先を確認
Michele Caprio, Souradeep Dutta, Kuk Jin Jang, Vivian Lin, Radoslav Ivanov, Oleg Sokolsky, Insup Lee(参考訳) 不確かさの定量化と分散シフトへの堅牢性は、機械学習と人工知能の重要な目標である。 ベイズニューラルネットワーク(BNN)は予測の不確実性を評価することができるが、異なる不確実性源は区別できない。 我々は不正確なベイズニューラルネットワーク(IBNN)を提案し、標準BNNの欠点を一般化し克服する。 後者は1つの事前分布と可能性分布を用いて訓練されるのに対し、IBNNは震源と可能性集合を用いて訓練される。 失語症とてんかんの不確かさを区別し、それらを定量化する。 さらに、IBNNはベイズ感度分析の点で堅牢であり、分布シフトに対してBNNよりも堅牢である。 また、PACのような性質を享受する結果の集合を計算するためにも使用できる。 IBNNを2つのケーススタディに適用する。 1つは、人工膵臓制御のための血糖値とインスリン動態のモデル化、2つは、自律運転シナリオにおける運動予測である。 IBNNsは,BNNsベンチマークのアンサンブルよりも性能がよいことを示す。

Uncertainty quantification and robustness to distribution shifts are important goals in machine learning and artificial intelligence. Although Bayesian neural networks (BNNs) allow for uncertainty in the predictions to be assessed, different sources of uncertainty are indistinguishable. We present imprecise Bayesian neural networks (IBNNs); they generalize and overcome some of the drawbacks of standard BNNs. These latter are trained using a single prior and likelihood distributions, whereas IBNNs are trained using credal prior and likelihood sets. They allow to distinguish between aleatoric and epistemic uncertainties, and to quantify them. In addition, IBNNs are robust in the sense of Bayesian sensitivity analysis, and are more robust than BNNs to distribution shift. They can also be used to compute sets of outcomes that enjoy PAC-like properties. We apply IBNNs to two case studies. One, to model blood glucose and insulin dynamics for artificial pancreas control, and two, for motion prediction in autonomous driving scenarios. We show that IBNNs performs better when compared to an ensemble of BNNs benchmark.
翻訳日:2023-05-12 18:00:13 公開日:2023-05-10
# 信頼できる自律システムにおけるプライバシ保護ビジョンの必要性

The Need for Inherently Privacy-Preserving Vision in Trustworthy Autonomous Systems ( http://arxiv.org/abs/2303.16408v2 )

ライセンス: Link先を確認
Adam K. Taras, Niko Suenderhauf, Peter Corke and Donald G. Dansereau(参考訳) 視覚はロボット工学にとって人気があり効果的なセンサーであり、そこから環境に関する豊富な情報を得ることができる:シーンの幾何学と意味論、そしてそのシーンの中の人間の年齢、性別、アイデンティティ、活動、さらには感情的な状態。 これにより、この情報のリーチ、寿命、潜在的な誤用に関する重要な疑問が提起される。 本論文は,ロボットビジョンの文脈において,プライバシを考慮すべき行動である。 本稿では,リモートアクセスが完全である場合でも,画像がキャプチャされず,あるいは攻撃者が再構築できる特定の形態のプライバシー保護を提案する。 本稿では,そのようなシステムを設計できる一連の原則を提示する。ローカライゼーションにおけるケーススタディを通じて,本質的なプライバシ保護方式で重要なロボット機能を実現するための,特定の実装をシミュレーションで実証する。 これは第一歩であり、視認されたロボットシステムに開放されるアプリケーションの範囲を広げる今後の取り組みに刺激を与えたいと思っています。

Vision is a popular and effective sensor for robotics from which we can derive rich information about the environment: the geometry and semantics of the scene, as well as the age, gender, identity, activity and even emotional state of humans within that scene. This raises important questions about the reach, lifespan, and potential misuse of this information. This paper is a call to action to consider privacy in the context of robotic vision. We propose a specific form privacy preservation in which no images are captured or could be reconstructed by an attacker even with full remote access. We present a set of principles by which such systems can be designed, and through a case study in localisation demonstrate in simulation a specific implementation that delivers an important robotic capability in an inherently privacy-preserving manner. This is a first step, and we hope to inspire future works that expand the range of applications open to sighted robotic systems.
翻訳日:2023-05-12 17:53:32 公開日:2023-05-10
# スパイキング時空間変圧器によるイベントベースヒューマンポーズ追跡

Event-based Human Pose Tracking by Spiking Spatiotemporal Transformer ( http://arxiv.org/abs/2303.09681v3 )

ライセンス: Link先を確認
Shihao Zou, Yuxuan Mu, Xinxin Zuo, Sen Wang, Li Cheng(参考訳) イベントカメラは、動きのダイナミクスを捉えるための生物学的にインスパイアされた視覚センサーとして登場し、3Dのポーズトラッキングやビデオベースの人間のポーズ推定の新しい可能性を示す。 しかし、ポーズトラッキングにおける既存の作業では、確固とした開始姿勢を確立するために、追加のグレースケールイメージが必要か、イベントストリームのセグメントを分解して静的なイベントフレームを形成することで、一時的な依存関係を全て無視するかのどちらかである。 一方、多くのイベントベースタスクにおいて、ニューラルネットワーク(ANN)の有効性が示されてきたが、ANNの使用は、高密度フレームベースの画像シーケンスと比較して、イベントカメラからのイベントの発生が時空間的にはるかに小さいという事実を無視する傾向にある。 上記の課題に触発されて、イベントベースのポーズトラッキングのための、エンドツーエンドのスパース深層学習アプローチを提案する。 1) 当社の知る限りでは,3次元人物ポーズ追跡がイベントのみから得られるのはこれが初めてであり,入力の一部としてフレームベースの画像にアクセスする必要がなくなる。 2)本手法はスパイク要素ワイズ(SEW)ResNetとスパイク時空間変換器からなるスパイクニューラルネットワーク(SNN)の枠組みに基づいている。 3) 大規模合成データセットを構築し, 広範かつ多種多様なアノテートされた3次元動作と, SynEventHPD と呼ばれる長時間のイベントストリームデータを特徴付ける。 実験により,SOTA(State-of-the-art (SOTA) ANN) よりも優れた性能を示すとともに,FLOPSの80%の計算量削減を実現している。 さらに,提案手法は,人間のポーズトラッキングの回帰タスクにおいて,SOTA SNNよりも優れていた。 私たちの実装はhttps://github.com/JimmyZou/HumanPoseTracking_SNNで公開されています。

Event camera, as an emerging biologically-inspired vision sensor for capturing motion dynamics, presents new potential for 3D human pose tracking, or video-based 3D human pose estimation. However, existing works in pose tracking either require the presence of additional gray-scale images to establish a solid starting pose, or ignore the temporal dependencies all together by collapsing segments of event streams to form static event frames. Meanwhile, although the effectiveness of Artificial Neural Networks (ANNs, a.k.a. dense deep learning) has been showcased in many event-based tasks, the use of ANNs tends to neglect the fact that compared to the dense frame-based image sequences, the occurrence of events from an event camera is spatiotemporally much sparser. Motivated by the above mentioned issues, we present in this paper a dedicated end-to-end sparse deep learning approach for event-based pose tracking: 1) to our knowledge this is the first time that 3D human pose tracking is obtained from events only, thus eliminating the need of accessing to any frame-based images as part of input; 2) our approach is based entirely upon the framework of Spiking Neural Networks (SNNs), which consists of Spike-Element-Wise (SEW) ResNet and a novel Spiking Spatiotemporal Transformer; 3) a large-scale synthetic dataset is constructed that features a broad and diverse set of annotated 3D human motions, as well as longer hours of event stream data, named SynEventHPD. Empirical experiments demonstrate that, with superior performance over the state-of-the-art (SOTA) ANNs counterparts, our approach also achieves a significant computation reduction of 80% in FLOPS. Furthermore, our proposed method also outperforms SOTA SNNs in the regression task of human pose tracking. Our implementation is available at https://github.com/JimmyZou/HumanPoseTracking_SNN and dataset will be released upon paper acceptance.
翻訳日:2023-05-12 17:50:49 公開日:2023-05-10
# 量子重ね合わせ観測におけるノーゴー結果

A no-go result on observing quantum superpositions ( http://arxiv.org/abs/2304.03336v3 )

ライセンス: Link先を確認
Guang Ping He(参考訳) 可逆過程が一旦関与すると、射影測定のクラスは不可能であることを示す一般的な証明を与える。 このノーゴーの結果をシュレーディンガーの猫パラドックスに適用すると、もし何かが本物のシュレーディンガーの猫であると主張されたら、物理的に実装可能なプロセスにおいて、通常の猫の自明な混合物とそれとの計測可能な違いは存在しない。 他の同様のマクロ量子重ね合わせは、非可換な測定基準が欠如しているために観測できない。 我々の証明は量子解釈理論と仮説を一切含まない。

We give a general proof showing that once irreversible processes are involved, a class of projective measurements is impossible. Applying this no-go result to the Schroedinger's cat paradox implies that if something is claimed to be a real Schroedinger's cat, there will be no measurable difference between it and a trivial classical mixture of ordinary cats in any physically implementable process, otherwise raising the dead will become reality. Other similar macroscopic quantum superpositions cannot be observed either due to the lack of non-commuting measurement bases. Our proof does not involve any quantum interpretation theory and hypothesis.
翻訳日:2023-05-12 17:43:02 公開日:2023-05-10
# 新興技術の組織的ガバナンス - 医療におけるAI導入

Organizational Governance of Emerging Technologies: AI Adoption in Healthcare ( http://arxiv.org/abs/2304.13081v2 )

ライセンス: Link先を確認
Jee Young Kim, William Boag, Freya Gulamali, Alifia Hasan, Henry David Jeffry Hogg, Mark Lifson, Deirdre Mulligan, Manesh Patel, Inioluwa Deborah Raji, Ajai Sehgal, Keo Shaw, Danny Tobey, Alexandra Valladares, David Vidal, Suresh Balu, Mark Sendak(参考訳) 民間および公共セクターの構造と規範は、新しい技術が実際にどのように使われているかを洗練している。 医療分野では、AIの採用が急増しているにもかかわらず、その利用と統合を取り巻く組織ガバナンスはしばしば理解されていない。 この研究でHealth AI Partnership(HAIP)が目指すのは、医療設定におけるAIシステムの適切な組織的ガバナンスの要件をより適切に定義し、ヘルスシステムリーダを支援して、AIの採用に関するより詳細な決定を行うことだ。 この理解に向けて、私たちはまず、医療におけるAI採用の標準をどのように設計して、簡単かつ効率的に使用できるかを特定する。 次に、特定医療システムにおけるAI技術の実践的導入に関わる、正確な決定ポイントを図示する。 実際に、米国の主要医療機関のリーダーと関連する分野の重要情報提供者との複数組織的なコラボレーションを通じて、これを達成します。 コンサルタントのIDEO [dot] orgを使って、医療やAI倫理の専門家とユーザビリティテストのセッションを実行しました。 ユーザビリティ分析では、組織リーダが技術導入にアプローチする方法に合わせて、モックの重要な決定ポイントを中心に構成されたプロトタイプが明らかになった。 同時に,医療関連分野の専門家89人と半構造化インタビューを行った。 修正された基盤理論アプローチを使用して、AI導入ライフサイクルを通じて8つの重要な決定ポイントと包括的な手順を特定できた。 これは、米国の医療システムによるAI導入に関わる、現在のガバナンス構造とプロセスに関する、最も詳細な定性的な分析の1つである。 これらの発見が、医療における新興テクノロジーの安全で効果的で責任ある採用を促進する能力を構築するための将来の取り組みを知らせてくれることを期待している。

Private and public sector structures and norms refine how emerging technology is used in practice. In healthcare, despite a proliferation of AI adoption, the organizational governance surrounding its use and integration is often poorly understood. What the Health AI Partnership (HAIP) aims to do in this research is to better define the requirements for adequate organizational governance of AI systems in healthcare settings and support health system leaders to make more informed decisions around AI adoption. To work towards this understanding, we first identify how the standards for the AI adoption in healthcare may be designed to be used easily and efficiently. Then, we map out the precise decision points involved in the practical institutional adoption of AI technology within specific health systems. Practically, we achieve this through a multi-organizational collaboration with leaders from major health systems across the United States and key informants from related fields. Working with the consultancy IDEO [dot] org, we were able to conduct usability-testing sessions with healthcare and AI ethics professionals. Usability analysis revealed a prototype structured around mock key decision points that align with how organizational leaders approach technology adoption. Concurrently, we conducted semi-structured interviews with 89 professionals in healthcare and other relevant fields. Using a modified grounded theory approach, we were able to identify 8 key decision points and comprehensive procedures throughout the AI adoption lifecycle. This is one of the most detailed qualitative analyses to date of the current governance structures and processes involved in AI adoption by health systems in the United States. We hope these findings can inform future efforts to build capabilities to promote the safe, effective, and responsible adoption of emerging technologies in healthcare.
翻訳日:2023-05-12 17:32:07 公開日:2023-05-10
# spin-$s$$$$\mathrm{u}(1)$ 量子シミュレータ上の動的物質を含む量子リンクモデル

Spin-$S$ $\mathrm{U}(1)$ Quantum Link Models with Dynamical Matter on a Quantum Simulator ( http://arxiv.org/abs/2305.06368v1 )

ライセンス: Link先を確認
Jesse Osborne, Bing Yang, Ian P. McCulloch, Philipp Hauke, Jad C. Halimeh(参考訳) 量子リンクモデル(QLM)は、現代の量子シミュレーターに格子量子電磁力学(QED)を実践するための現実的な展望を与え、量子多体物理学に関連する様々な非エルゴード現象を探索する場を提供する。 これらのモデルでは、ゲージと電場はスピン$s$演算子によって表される。 これまでのところ、QLMの大規模実現は$S=1/2$表現に制限されているが、格子-QED極限は$S\to\infty$に近づいている。 ここでは、任意の大値のスピン=S$演算子を用いたゲージおよび電場表現のためのボソニック写像について述べる。 このマッピングに基づいて、光学超格子におけるスピンレスボソンを用いた大規模スピン-$1$$\mathrm{U}(1)$ QLMの実現のための実験的スキームを提案する。 摂動理論と熱力学の極限で直接作用する無限行列積状態計算を用いて、あらゆる到達可能な進化時間を通してゲージ不変量の写像と安定性の忠実性を示す。 さらに,電子-ポジトロン対の(de)結合をゲージ結合をチューニングすることにより,関連する高エネルギー物理学に対処する量子シミュレータの可能性を実証する。 我々の研究は、量子場理論極限におけるゲージ理論量子シミュレーターへの重要なステップを提供する。

Quantum link models (QLMs) offer the realistic prospect for the practical implementation of lattice quantum electrodynamics (QED) on modern quantum simulators, and they provide a venue for exploring various nonergodic phenomena relevant to quantum many-body physics. In these models, gauge and electric fields are represented by spin-$S$ operators. So far, large-scale realizations of QLMs have been restricted to $S=1/2$ representations, whereas the lattice-QED limit is approached at $S\to\infty$. Here, we present a bosonic mapping for the representation of gauge and electric fields with effective spin-$S$ operators for arbitrarily large values of $S$. Based on this mapping, we then propose an experimental scheme for the realization of a large-scale spin-$1$ $\mathrm{U}(1)$ QLM using spinless bosons in an optical superlattice. Using perturbation theory and infinite matrix product state calculations, which work directly in the thermodynamic limit, we demonstrate the faithfulness of the mapping and stability of gauge invariance throughout all accessible evolution times. We further demonstrate the potential of our proposed quantum simulator to address relevant high-energy physics by probing the (de)confinement of an electron--positron pair by tuning the gauge coupling. Our work provides an essential step towards gauge-theory quantum simulators in the quantum-field-theory limit.
翻訳日:2023-05-12 17:15:17 公開日:2023-05-10
# リフティングトポロジカルコード:二次元エノンモデルからの3次元サブシステムコード

Lifting topological codes: Three-dimensional subsystem codes from two-dimensional anyon models ( http://arxiv.org/abs/2305.06365v1 )

ライセンス: Link先を確認
Jacob C. Bridgeman, Aleksander Kubica, Michael Vasmer(参考訳) 3次元のトポロジカルサブシステム符号は、測定ノイズが存在する場合でも、時間オーバーヘッドのない量子誤差補正を可能にする。 この単発特性の物理的起源は、部分的には既知のモデルが不足しているため、解明され続けている。 この課題に対処するために、アーベル量子二重モデルから構築された3次元の位相サブシステムのクラスを1次元未満で体系的に構築する。 提案手法は,最近導入されたサブシステム toric code (kubica and vasmer, nat. commun. 13, 6272 (2022)) を一般化するだけでなく,ゲージフラックスのガウス則の起源やコードファミリーの境界条件など,元のモデルのいくつかの側面に対する新たな視点を提供する。 次に,このクラスの最初の数個の符号を現象ノイズに対して数値的に解析し,その単発特性を検証する。 最後に、これらの符号に自然に関連づけられたハミルトニアンについて議論し、それらにはギャップがないかもしれないと論じる。

Topological subsystem codes in three spatial dimensions allow for quantum error correction with no time overhead, even in the presence of measurement noise. The physical origins of this single-shot property remain elusive, in part due to the scarcity of known models. To address this challenge, we provide a systematic construction of a class of topological subsystem codes in three dimensions built from abelian quantum double models in one fewer dimension. Our construction not only generalizes the recently introduced subsystem toric code [Kubica and Vasmer, Nat. Commun. 13, 6272 (2022)] but also provides a new perspective on several aspects of the original model, including the origin of the Gauss law for gauge flux, and boundary conditions for the code family. We then numerically study the performance of the first few codes in this class against phenomenological noise to verify their single-shot property. Lastly, we discuss Hamiltonians naturally associated with these codes, and argue that they may be gapless.
翻訳日:2023-05-12 17:14:54 公開日:2023-05-10
# マルチアームバンドを用いたマルチタスクニューラルソルバの効率的なトレーニング

Efficient Training of Multi-task Neural Solver with Multi-armed Bandits ( http://arxiv.org/abs/2305.06361v1 )

ライセンス: Link先を確認
Chenguang Wang, Tianshu Yu(参考訳) 様々な組合せ最適化問題(COP)に対するマルチタスクニューラルソルバの効率的なトレーニングは、これまであまり研究されていない。 本稿では,マルチタスク・ニューラル・ソルバを実現するために,マルチアーム・バンディットに基づく汎用的かつ効率的なトレーニングパラダイムを提案する。 このために、エンコーダ・デコーダ・フレームワークの下での複数のタスクの理論的損失分解に頼り、タスク内インフルエンサ・マトリックスを介して、適切なバンディット・タスクサンプリングアルゴリズムによるより効率的なトレーニングを可能にする。 本手法は,他のマルチタスク大規模モデルの効率的なトレーニングを推奨できる標準トレーニングスケジュールと比較して,限られたトレーニング予算と同一のトレーニングエポックのいずれにおいても,総合的なパフォーマンスを実現する。 さらに、影響行列は、学習の最適化分野におけるいくつかの一般的な実践の実証的な証拠を提供することができ、それによって、我々のアプローチの有効性が裏付けられる。

Efficiently training a multi-task neural solver for various combinatorial optimization problems (COPs) has been less studied so far. In this paper, we propose a general and efficient training paradigm based on multi-armed bandits to deliver a unified multi-task neural solver. To this end, we resort to the theoretical loss decomposition for multiple tasks under an encoder-decoder framework, which enables more efficient training via proper bandit task-sampling algorithms through an intra-task influence matrix. Our method achieves much higher overall performance with either limited training budgets or the same training epochs, compared to standard training schedules, which can be promising for advising efficient training of other multi-task large models. Additionally, the influence matrix can provide empirical evidence of some common practices in the area of learning to optimize, which in turn supports the validity of our approach.
翻訳日:2023-05-12 17:14:32 公開日:2023-05-10
# 機械学習の景観を探る : 調査と分類学

Exploring the Landscape of Machine Unlearning: A Survey and Taxonomy ( http://arxiv.org/abs/2305.06360v1 )

ライセンス: Link先を確認
Thanveer Shaik, Xiaohui Tao, Haoran Xie, Lin Li, Xiaofeng Zhu, and Qing Li(参考訳) 機械学習(MU)は、機械学習(ML)モデルによる予測を削除または修正する必要があるため、注目を集めている分野である。 トレーニングモデルはより効率的で正確になっていますが、未学習の情報の重要性は、プライバシやセキュリティ、公正といった分野でますます重要になっています。 本稿では,データ削除,摂動,モデル更新など,現在の最先端技術とアプローチを包括的に調査する。 また、一般的なメトリクスやデータセットも提示される。 また、攻撃の高度化、標準化、転送可能性、解釈可能性、トレーニングデータ、リソース制約など、対処すべき課題を強調している。 本稿では,MUの潜在的なメリットと,自然言語処理,コンピュータビジョン,レコメンダシステムにおける今後の方向性について論じる。 さらに、機械学習モデルがユーザの信頼を維持しながら変化する状況に適応できるように、研究者や実践者が未学習の技術を探求し、改善し続ける必要性を強調した。 アンラーニングの重要性はさらに強調され、人工知能(AI)をより信頼性が高く透明なものにすること、特に大量の個人データを含むさまざまな領域におけるAIの重要性が増している。

Machine unlearning (MU) is a field that is gaining increasing attention due to the need to remove or modify predictions made by machine learning (ML) models. While training models have become more efficient and accurate, the importance of unlearning previously learned information has become increasingly significant in fields such as privacy, security, and fairness. This paper presents a comprehensive survey of MU, covering current state-of-the-art techniques and approaches, including data deletion, perturbation, and model updates. In addition, commonly used metrics and datasets are also presented. The paper also highlights the challenges that need to be addressed, including attack sophistication, standardization, transferability, interpretability, training data, and resource constraints. The contributions of this paper include discussions about the potential benefits of MU and its future directions in Natural Language Processing, Computer vision, and Recommender Systems. Additionally, the paper emphasizes the need for researchers and practitioners to continue exploring and refining unlearning techniques to ensure that ML models can adapt to changing circumstances while maintaining user trust. The importance of unlearning is further highlighted in making Artificial Intelligence (AI) more trustworthy and transparent, especially with the increasing importance of AI in various domains that involve large amounts of personal user data
翻訳日:2023-05-12 17:14:15 公開日:2023-05-10
# 教師なし表現学習のためのヒュービアン可塑性を持つスパイキングニューラルネットワーク

Spiking neural networks with Hebbian plasticity for unsupervised representation learning ( http://arxiv.org/abs/2305.03866v2 )

ライセンス: Link先を確認
Naresh Ravichandran, Anders Lansner, Pawel Herman(参考訳) 教師なしの手順でデータから分散内部表現を学習するための新しいスパイクニューラルネットワークモデルを提案する。 本研究では,BCPNNを用いた非スパイキングフィードフォワード型ベイズ信頼伝播ニューラルネットワーク(BCPNN)モデルを用いて,前述したように表現学習を行うヘビアン・ベイズ学習再生機構を用いて,ポアソン統計と生体内皮質錐体ニューロンに匹敵する発火速度の低いスパイキングニューラルネットワークに変換した。 我々は,線形分類器を用いてスパイキングモデルで学習した表現を評価し,非スパイキングBCPNNに近い性能を示し,MNISTおよびF-MNIST機械学習ベンチマークでトレーニングしたヘビアンベースのスパイキングネットワークと競合することを示した。

We introduce a novel spiking neural network model for learning distributed internal representations from data in an unsupervised procedure. We achieved this by transforming the non-spiking feedforward Bayesian Confidence Propagation Neural Network (BCPNN) model, employing an online correlation-based Hebbian-Bayesian learning and rewiring mechanism, shown previously to perform representation learning, into a spiking neural network with Poisson statistics and low firing rate comparable to in vivo cortical pyramidal neurons. We evaluated the representations learned by our spiking model using a linear classifier and show performance close to the non-spiking BCPNN, and competitive with other Hebbian-based spiking networks when trained on MNIST and F-MNIST machine learning benchmarks.
翻訳日:2023-05-12 17:11:59 公開日:2023-05-10
# ACTC:コールドスタート知識グラフ補完のためのアクティブ閾値校正

ACTC: Active Threshold Calibration for Cold-Start Knowledge Graph Completion ( http://arxiv.org/abs/2305.06395v1 )

ライセンス: Link先を確認
Anastasiia Sedova, Benjamin Roth(参考訳) 自己教師付き知識グラフ補完(KGC)は、例えば初期知識グラフを埋め込むことで、スコアリングモデル(エンタリティ、関係性、実体)-タプルを推定することに依存する。 評価モデルの校正により予測品質を向上させることができ、通常は手動で注釈付き例を用いて予測しきい値を調整する。 本稿では,KGCの冷間開始校正を初めて試みるが,最初は校正のための注記例は存在せず,注釈のためのタプルは限られている。 提案手法は, 注釈付きタプルの限られたセットに基づいて, 良好な相関しきい値を求める。 いくつかの注釈付きタプルに加えて、ACTCはロジスティック回帰やガウスプロセスの分類器でその正しさを推定することで、ラベルのないタプルも活用している。 また、アノテーションの候補タプルを選択する方法として、密度ベースとランダム選択がある。 5つのスコアリングモデルと1つのオラクルアノテータを用いた実験では,10タプルの注釈予算による挑戦的な設定でACTCを使用する場合,7%のポイントが改善され,平均4%のポイントが異なる予算で改善された。

Self-supervised knowledge-graph completion (KGC) relies on estimating a scoring model over (entity, relation, entity)-tuples, for example, by embedding an initial knowledge graph. Prediction quality can be improved by calibrating the scoring model, typically by adjusting the prediction thresholds using manually annotated examples. In this paper, we attempt for the first time cold-start calibration for KGC, where no annotated examples exist initially for calibration, and only a limited number of tuples can be selected for annotation. Our new method ACTC finds good per-relation thresholds efficiently based on a limited set of annotated tuples. Additionally to a few annotated tuples, ACTC also leverages unlabeled tuples by estimating their correctness with Logistic Regression or Gaussian Process classifiers. We also experiment with different methods for selecting candidate tuples for annotation: density-based and random selection. Experiments with five scoring models and an oracle annotator show an improvement of 7% points when using ACTC in the challenging setting with an annotation budget of only 10 tuples, and an average improvement of 4% points over different budgets.
翻訳日:2023-05-12 17:06:29 公開日:2023-05-10
# 局所領域間マッピングに基づく人工物体の分類

Local Region-to-Region Mapping-based Approach to Classify Articulated Objects ( http://arxiv.org/abs/2305.06394v1 )

ライセンス: Link先を確認
Ayush Aggarwal, Rustam Stolkin, Naresh Marturi(参考訳) 現実の環境で動作する自律ロボットは、自然界において剛性と関節性を兼ね備えたさまざまな物体に遭遇する。 これらの特定のオブジェクト特性に関する知識を持つことは、適切な操作戦略を設計するのに役立つだけでなく、多くのロボットや視覚アプリケーションのための信頼性の高いトラッキングやポーズ推定手法の開発にも役立つ。 本稿では,対象をarticulated か rigid かのいずれかに分類するための登録ベース局所領域間マッピング手法を提案する。 対象物体の点雲を用いて,観測された物体の動き列上の点雲間の一意的な局所的変換を推定することで分類を行う。 提案手法の重要な利点は,任意の調音対象を分類でき,特定の調音に制限されない制約のないアプローチである点である。 さらに、学習コンポーネントのないモデルフリーのアプローチであり、オブジェクトモデルやラベル付きデータの必要なしに、オブジェクトがarticulatedかどうかを分類することができる。 提案手法の性能を2つの公開ベンチマーク・データセットで解析し,定性オブジェクトと剛性オブジェクトの組み合わせを用いて解析した。 提案手法は, 明瞭な物体と剛性の物体を精度良く分類することができる。

Autonomous robots operating in real-world environments encounter a variety of objects that can be both rigid and articulated in nature. Having knowledge of these specific object properties not only helps in designing appropriate manipulation strategies but also aids in developing reliable tracking and pose estimation techniques for many robotic and vision applications. In this context, this paper presents a registration-based local region-to-region mapping approach to classify an object as either articulated or rigid. Using the point clouds of the intended object, the proposed method performs classification by estimating unique local transformations between point clouds over the observed sequence of movements of the object. The significant advantage of the proposed method is that it is a constraint-free approach that can classify any articulated object and is not limited to a specific type of articulation. Additionally, it is a model-free approach with no learning components, which means it can classify whether an object is articulated without requiring any object models or labelled data. We analyze the performance of the proposed method on two publicly available benchmark datasets with a combination of articulated and rigid objects. It is observed that the proposed method can classify articulated and rigid objects with good accuracy.
翻訳日:2023-05-12 17:06:07 公開日:2023-05-10
# 三次元サブシステムトーリック符号の位相図

Phase diagram of the three-dimensional subsystem toric code ( http://arxiv.org/abs/2305.06389v1 )

ライセンス: Link先を確認
Yaodong Li, C. W. von Keyserlingk, Guanyu Zhu, Tomas Jochym-O'Connor(参考訳) サブシステム 量子誤り訂正符号は通常、非可換パリティチェック演算子のシーケンスを測定する。 それらは、通勤チェックを使用する従来のサブスペースコードよりも耐障害性を示すことがある。 しかし、部分空間符号とは異なり、サブシステム符号(特にそれらの利点)が物理的ハミルトニアンの基底状態特性の観点から理解できるかどうかは不明である。 本稿では,kubica と vasmer [nat. comm. 13, 6272(2022)] が最近構築した3次元サブシステム toric コード (3d stc) について,ssec (single-shot error correction) を示す問題に対処する。 SSECと熱安定性の予想の関係により、関連する非可換ハミルトニアンの零および有限温度位相を研究する。 ハミルトン模型を運動論的制約によって結合された一対の3d z_2ゲージ理論にマッピングすることにより、ゼロ温度の様々な相を見いだすことができ、全て一階遷移によって分離される: バルクに点状励起の3dトーリック符号様相と、適切な境界条件が選択された場合に表面に2dトーリック符号をサポートする閉じ込められたバルクをもつ相が存在する。 後者は3D STCに存在する表面トポロジカル秩序に類似している。 しかし、3D STCにおけるSSECと閉じ込められた位相の類似性は部分的であり、それらは同じ自由度を持つが、異なる動的規則によって支配される。 代わりに、ssecのプロセスは、ssecを可能にする代替的な測定シーケンスを刺激する視点であるゼロ温度位相図の(点ではなく)経路とより好適に関連付けることができると主張する。 さらに、上記の相はいずれも非ゼロ温度で残らないため、符号のSSECは関連するハミルトニアン相の熱安定性を示唆しない。

Subsystem quantum error-correcting codes typically involve measuring a sequence of non-commuting parity check operators. They can sometimes exhibit greater fault-tolerance than conventional subspace codes, which use commuting checks. However, unlike subspace codes, it is unclear if subsystem codes -- in particular their advantages -- can be understood in terms of ground state properties of a physical Hamiltonian. In this paper, we address this question for the three-dimensional subsystem toric code (3D STC), as recently constructed by Kubica and Vasmer [Nat. Comm. 13, 6272(2022)], which exhibits single-shot error correction (SSEC). Motivated by a conjectured relation between SSEC and thermal stability, we study the zero and finite temperature phases of an associated non-commuting Hamiltonian. By mapping the Hamiltonian model to a pair of 3D Z_2 gauge theories coupled by a kinetic constraint, we find various phases at zero temperature, all separated by first-order transitions: there are 3D toric code-like phases with deconfined point-like excitations in the bulk, and there are phases with a confined bulk supporting a 2D toric code on the surface when appropriate boundary conditions are chosen. The latter is similar to the surface topological order present in 3D STC. However, the similarities between the SSEC in 3D STC and the confined phases are only partial: they share the same sets of degrees of freedom, but they are governed by different dynamical rules. Instead, we argue that the process of SSEC can more suitably be associated with a path (rather than a point) in the zero-temperature phase diagram, a perspective which inspires alternative measurement sequences enabling SSEC. Moreover, since none of the above-mentioned phases survives at nonzero temperature, SSEC of the code does not imply thermal stability of the associated Hamiltonian phase.
翻訳日:2023-05-12 17:05:49 公開日:2023-05-10
# 真空場ゆらぎと宇宙と時間での光源放射を分離する方法

How to Separately Probe Vacuum Field Fluctuations and Source Radiation in Space and Time ( http://arxiv.org/abs/2305.06387v1 )

ライセンス: Link先を確認
Frieder Lindel, Alexa Herter, J\'er\^ome Faist, Stefan Yoshi Buhmann(参考訳) 自然放出やラムシフトやカシミール力といった過程において、放射源(放射反応)と真空場ゆらぎは2つの分離不可能な寄与と見なすことができる。 本稿では,電気光学サンプリング実験において,個別に観測し,その時空構造を明らかにする方法を提案する。 これにより、単一光子レベルで因果関係を実験的に研究し、量子真空における空間的および時間的相関を明らかにすることができる。 時間領域変動散逸定理への接続も行う。

In processes such as spontaneous emission, the Lamb shift or the Casimir force, source radiation (radiation reaction) and vacuum-field fluctuations can be seen as two inseparable contributions. Here, we propose how they can be individually probed and their space-time structure revealed in electro-optic sampling experiments. This allows to experimentally study causality at the single photon level and to reveal space- and time-like correlations in the quantum vacuum. A connection to the time-domain fluctuation-dissipation theorem is also made.
翻訳日:2023-05-12 17:05:17 公開日:2023-05-10
# クロスモデルアライメントによるテキスト・トゥ・コンセプション(とバック)

Text-To-Concept (and Back) via Cross-Model Alignment ( http://arxiv.org/abs/2305.06386v1 )

ライセンス: Link先を確認
Mazda Moayeri, Keivan Rezaei, Maziar Sanjabi, Soheil Feizi(参考訳) 一方のモデルにおける画像の表現と他方のモデルにおける表現とのマッピングは、多種多様なモデルであっても、ただの線形層で驚くほどよく学習できる。 この観測に基づいて、固定事前訓練されたモデルの機能をCLIP空間に線形に整列させる$\textit{text-to-concept}$を提案し、CLIPのテキストエンコーダからのテキスト埋め込みを、その整列された機能と直接比較する。 テキスト・トゥ・コンセプトでは、固定されたオフ・ザ・シェルフ・ビジョン・エンコーダを驚くほど強力なゼロショット分類器に無償で変換します。 概念のボトルネックモデルの構築,人間の概念による分布変化の診断,テキストに基づく制約を満たす画像の検索など,テキストから概念への直接的な利用例を示す。 最後に、$\textit{concept-to-text}$の実現可能性を示す。ここでは、gptベースの生成モデルに供給される前に、まずクリップにアライメントすることで、モデルの機能空間内のベクトルをデコードする。 我々の研究は、おそらく多様なアーキテクチャとトレーニングを持つ既存の深層モデルが、比較的類似した入力サンプルを表現し、モデル表現空間と人間への(言語を介して)双方向通信が実現可能であることを示唆している。

We observe that the mapping between an image's representation in one model to its representation in another can be learned surprisingly well with just a linear layer, even across diverse models. Building on this observation, we propose $\textit{text-to-concept}$, where features from a fixed pretrained model are aligned linearly to the CLIP space, so that text embeddings from CLIP's text encoder become directly comparable to the aligned features. With text-to-concept, we convert fixed off-the-shelf vision encoders to surprisingly strong zero-shot classifiers for free, with accuracy at times even surpassing that of CLIP, despite being much smaller models and trained on a small fraction of the data compared to CLIP. We show other immediate use-cases of text-to-concept, like building concept bottleneck models with no concept supervision, diagnosing distribution shifts in terms of human concepts, and retrieving images satisfying a set of text-based constraints. Lastly, we demonstrate the feasibility of $\textit{concept-to-text}$, where vectors in a model's feature space are decoded by first aligning to the CLIP before being fed to a GPT-based generative model. Our work suggests existing deep models, with presumably diverse architectures and training, represent input samples relatively similarly, and a two-way communication across model representation spaces and to humans (through language) is viable.
翻訳日:2023-05-12 17:05:06 公開日:2023-05-10
# HyperE2VID: Hypernetworksによるイベントベースのビデオ再構成の改善

HyperE2VID: Improving Event-Based Video Reconstruction via Hypernetworks ( http://arxiv.org/abs/2305.06382v1 )

ライセンス: Link先を確認
Burak Ercan, Onur Eker, Canberk Saglam, Aykut Erdem, Erkut Erdem(参考訳) イベントベースのカメラは、低レイテンシと高ダイナミックレンジで高速な動きを捉えることで、ますます人気が高まっている。 しかし,イベントデータの性質が乏しいため,イベントからの動画生成は依然として困難である。 そこで本研究では,イベントベースビデオ再構成のための動的ニューラルネットワークアーキテクチャhypere2vidを提案する。 提案手法はハイパーネットワークと動的畳み込みを用いて,イベントボクセルグリッドからの情報と以前再構成されたインテンシティ画像を組み合わせたコンテキスト融合モジュールによって導かれる画素ごとの適応フィルタを生成する。 ネットワークをより堅牢にトレーニングするためのカリキュラム学習戦略も採用しています。 実験結果から,HyperE2VIDは最新の手法よりも少ないパラメータと高速な推論時間で再現精度が向上することが示された。

Event-based cameras are becoming increasingly popular for their ability to capture high-speed motion with low latency and high dynamic range. However, generating videos from events remains challenging due to the highly sparse and varying nature of event data. To address this, in this study, we propose HyperE2VID, a dynamic neural network architecture for event-based video reconstruction. Our approach uses hypernetworks and dynamic convolutions to generate per-pixel adaptive filters guided by a context fusion module that combines information from event voxel grids and previously reconstructed intensity images. We also employ a curriculum learning strategy to train the network more robustly. Experimental results demonstrate that HyperE2VID achieves better reconstruction quality with fewer parameters and faster inference time than the state-of-the-art methods.
翻訳日:2023-05-12 17:04:39 公開日:2023-05-10
# 強化学習による最適量子誤り訂正符号の発見

Discovery of Optimal Quantum Error Correcting Codes via Reinforcement Learning ( http://arxiv.org/abs/2305.06378v1 )

ライセンス: Link先を確認
Vincent Paul Su, ChunJun Cao, Hong-Ye Hu, Yariv Yanay, Charles Tahan, Brian Swingle(参考訳) 最近導入されたQuantum Legoフレームワークは、単純なものから複雑な量子エラー訂正コード(QECC)を生成する強力な方法を提供する。 我々はこのプロセスをゲーミフィケーションし、強化学習(RL)を用いたコード設計と発見のための新たな道を開く。 RL の利点の1つは、最適化されるコードの \textit{arbitrary} プロパティを指定できることです。 我々は、コード距離を最大化し、偏りのあるパウリ雑音の下で論理誤差の確率を最小化する2つの特性を訓練する。 まず、訓練されたエージェントが13キュービットのcssコードに対する線形プログラミングバウンドを飽和させることで、ナイーブな結合を超えたコード距離を増加させる方法を示す。 バイアス付きPauliノイズ下での論理的エラー確率を最小限に抑えるために、このタスクで最もよく知られているCSSコードは$\lesssim 20$ qubitsである。 Surface、XZZX、および2D Colorなどの他の(ローカルに変形した)CSSコードと比較すると、[[[17,1,3]]$コード構築は実際には \textit{lower} の逆距離を持ち、論理情報をよりよく保護し、QECC desiderataの重要性を強調します。 最後に、このRLフレームワークを物理量子デバイスと組み合わせて、ノイズモデルの明示的な特徴を伴わずにコードを調整する方法についてコメントする。

The recently introduced Quantum Lego framework provides a powerful method for generating complex quantum error correcting codes (QECCs) out of simple ones. We gamify this process and unlock a new avenue for code design and discovery using reinforcement learning (RL). One benefit of RL is that we can specify \textit{arbitrary} properties of the code to be optimized. We train on two such properties, maximizing the code distance, and minimizing the probability of logical error under biased Pauli noise. For the first, we show that the trained agent identifies ways to increase code distance beyond naive concatenation, saturating the linear programming bound for CSS codes on 13 qubits. With a learning objective to minimize the logical error probability under biased Pauli noise, we find the best known CSS code at this task for $\lesssim 20$ qubits. Compared to other (locally deformed) CSS codes, including Surface, XZZX, and 2D Color codes, our $[[17,1,3]]$ code construction actually has \textit{lower} adversarial distance, yet better protects the logical information, highlighting the importance of QECC desiderata. Lastly, we comment on how this RL framework can be used in conjunction with physical quantum devices to tailor a code without explicit characterization of the noise model.
翻訳日:2023-05-12 17:04:25 公開日:2023-05-10
# 量子スピン鎖におけるヒルベルト空間戻り確率と実空間自己相関の関係

The connection between Hilbert-space return probability and real-space autocorrelations in quantum spin chains ( http://arxiv.org/abs/2305.06374v1 )

ライセンス: Link先を確認
Bikram Pain, Kritika Khanwal, and Sthitadhi Roy(参考訳) 相互作用する量子多体系のダイナミクスは、一見異なるが基本的な面が2つある。 1つ目は、実空間の局所観測器のダイナミクスであり、その熱的性質と方法である。 2つ目は、ヒルベルト空間グラフ上の虚粒子として多体状態の力学を解釈することである。 本研究では、この2つのダイナミクスの側面の間に明確な関係を導出する。 乱れた量子スピンチェーンにおける自己相関の時間的減衰は、ヒルベルト空間上の帰納確率が後期飽和にどのように近づくかによって明示的に符号化される。 このように、後者は自己相関の崩壊と同じ時間の関数形式を持つが、再正規化パラメータを持つ。 解析的な処理はヒルベルト空間グラフ上の時間発展状態のモルフォロジーの理解に根ざしており、正確な数値計算結果によって裏付けられている。

The dynamics of interacting quantum many-body systems has two seemingly disparate but fundamental facets. The first is the dynamics of real-space local observables, and if and how they thermalise. The second is to interpret the dynamics of the many-body state as that of a fictitious particle on the underlying Hilbert-space graph. In this work, we derive an explicit connection between these two aspects of the dynamics. We show that the temporal decay of the autocorrelation in a disordered quantum spin chain is explicitly encoded in how the return probability on Hilbert space approaches its late-time saturation. As such, the latter has the same functional form in time as the decay of autocorrelations but with renormalised parameters. Our analytical treatment is rooted in an understanding of the morphology of the time-evolving state on the Hilbert-space graph, and corroborated by exact numerical results.
翻訳日:2023-05-12 17:03:57 公開日:2023-05-10
# スピン交換可能な大規模非アベリアゲージ理論のための量子シミュレータ

Spin exchange-enabled quantum simulator for large-scale non-Abelian gauge theories ( http://arxiv.org/abs/2305.06373v1 )

ライセンス: Link先を確認
Jad C. Halimeh, Lukas Homeier, Annabelle Bohrdt, Fabian Grusdt(参考訳) 量子シミュレーターにおける大規模格子ゲージ理論(LGT)の忠実な実装のための中心的な要件は、基礎となるゲージ対称性の保護である。 大規模lgtの実験的実現の最近の進歩は印象的であるが、ほとんどはアーベルゲージ群に限られている。 ゲージ保護のためのこの要件により、局所創発的なゲージ対称性安定化項を具現化するスピン交換相互作用により、d+1$Dの動的物質を持つ大規模非アベリアの$\mathrm{SU}(N)$および$\mathrm{U}(N)$ LGTを実装する実験可能なアプローチを提案する。 2+1$d$\mathrm{su}(2)$と$\mathrm{u}(2)$lgtsの具体的な提案を2つ提示し,現在の超古分子および次世代超古原子プラットフォームで容易に実装できる。 実験的にアクセス可能なダイナミクスを示す数値ベンチマークを提供し、基礎となる非アベリアゲージ不変性の安定性を示す。 関連する磁気プラーペットと最小ゲージマッター結合項を特徴とする効果的なゲージ不変量モデルを得る手法を開発した。 提案手法は,アナログ量子シミュレータにおける大規模非アベリア量子リンクモデルの短期実現への道を開くものである。

A central requirement for the faithful implementation of large-scale lattice gauge theories (LGTs) on quantum simulators is the protection of the underlying gauge symmetry. Recent advancements in the experimental realizations of large-scale LGTs have been impressive, albeit mostly restricted to Abelian gauge groups. Guided by this requirement for gauge protection, we propose an experimentally feasible approach to implement large-scale non-Abelian $\mathrm{SU}(N)$ and $\mathrm{U}(N)$ LGTs with dynamical matter in $d+1$D, enabled by two-body spin-exchange interactions realizing local emergent gauge-symmetry stabilizer terms. We present two concrete proposals for $2+1$D $\mathrm{SU}(2)$ and $\mathrm{U}(2)$ LGTs, including dynamical matter and induced plaquette terms, that can be readily implemented in current ultracold-molecule and next-generation ultracold-atom platforms. We provide numerical benchmarks showcasing experimentally accessible dynamics, and demonstrate the stability of the underlying non-Abelian gauge invariance. We develop a method to obtain the effective gauge-invariant model featuring the relevant magnetic plaquette and minimal gauge-matter coupling terms. Our approach paves the way towards near-term realizations of large-scale non-Abelian quantum link models in analog quantum simulators.
翻訳日:2023-05-12 17:03:44 公開日:2023-05-10
# 量子ゼノダイナミクスによるヒルベルト空間断片化の保護

Protecting Hilbert space fragmentation through quantum Zeno dynamics ( http://arxiv.org/abs/2305.06371v1 )

ライセンス: Link先を確認
Pranay Patil, Ayushi Singhania, and Jad C. Halimeh(参考訳) ヒルベルト空間のフラグメンテーションは、量子多体系と量子情報技術への応用の間の相互作用におけるエルゴード性の破れの興味深いパラダイムであるが、通常摂動の存在下では悪影響を受ける。 本研究では,量子ゼノダイナミクスの概念を用いて,ミラー対称性とヒルベルト空間のフラグメンテーションの組み合わせによって生じる制約付きダイナミクスの保護を実証する。 我々は、慎重に選択された量子ゆらぎを持つイジングスピンはしごに焦点を合わせ、理想の場合、多くの初期条件に対してハミルトン力学の下での完全非絡み合いを保証する。 これはヒルベルト空間の断片化とミラー対称性の相互作用の結果であることが知られており、後者を破る効果を数値的に示す。 この完全不等角化の力を浮き彫りにするために, 微調整モデル周りの一般的な摂動の効果を考察し, はしごのラング上で局所的なイジング相互作用を用いて, 絡み合いエントロピーの望ましくない成長から保護できることを示した。 これにより、rung相互作用の強さを制御することによって、 \textit{arbitrarily} の長い時間に対する小さな値である \textit{arbitrarily} への絡み合いエントロピーを抑制することができる。 我々の研究は、量子情報の熱化に対する保護における量子ゼノダイナミクスの実験的実現可能性を示す。

Hilbert space fragmentation is an intriguing paradigm of ergodicity breaking in interacting quantum many-body systems with applications to quantum information technology, but it is usually adversely compromised in the presence of perturbations. In this work, we demonstrate the protection of constrained dynamics arising due to a combination of mirror symmetry and Hilbert space fragmentation by employing the concept of quantum Zeno dynamics. We focus on an Ising spin ladder with carefully chosen quantum fluctuations, which in the ideal case guarantee a perfect disentanglement under Hamiltonian dynamics for a large class of initial conditions. This is known to be a consequence of the interplay of Hilbert space fragmentation with a mirror symmetry, and we show numerically the effect of breaking the latter. To evince the power of this perfect disentanglement, we study the effect of generic perturbations around the fine-tuned model, and show that we can protect against the undesirable growth of entanglement entropy by using a local Ising interaction on the rungs of the ladder. This allows us to suppress the entanglement entropy to an \textit{arbitrarily} small value for an \textit{arbitrarily} long time by controlling the strength of the rung interaction. Our work demonstrates the experimentally feasible viability of quantum Zeno dynamics in the protection of quantum information against thermalization.
翻訳日:2023-05-12 17:03:17 公開日:2023-05-10
# ボットか人間か? 単一質問によるChatGPTインポスタの検出

Bot or Human? Detecting ChatGPT Imposters with A Single Question ( http://arxiv.org/abs/2305.06424v1 )

ライセンス: Link先を確認
Hong Wang, Xuan Luo, Weizhi Wang, Xifeng Yan(参考訳) ChatGPTのような大規模言語モデルは、最近、自然言語の理解と生成において印象的な能力を実証し、翻訳、エッセイの執筆、チャットなど様々なアプリケーションを可能にした。 しかし、不正やサービス拒否攻撃など、悪意のある目的で悪用される可能性があるという懸念もある。 したがって、会話にかかわる相手がボットか人間かを検出する方法を開発することが重要である。 本稿では,会話型ボットをオンラインで検出するために,単一の問合せと応答で大規模言語モデルの有効性を探索するフレームワーク flair を提案する。 具体的には、人間のユーザーとボットを効果的に区別できる単一の質問シナリオをターゲットにしている。 質問は、人間にとって簡単だがボットにとって難しいもの(カウント、置換、位置決め、ノイズフィルタリング、ASCIIアートなど)と、ロボットにとって簡単だが人間にとっては難しいもの(記憶や計算など)に分けられる。 弊社のアプローチは、これらの質問の長所をその有効性で示し、オンラインサービスプロバイダが悪質な活動から身を守るための新しい方法を提供する。 私たちはデータセットをhttps://github.com/hongwang600/FLAIRでオープンソース化しました。

Large language models like ChatGPT have recently demonstrated impressive capabilities in natural language understanding and generation, enabling various applications including translation, essay writing, and chit-chatting. However, there is a concern that they can be misused for malicious purposes, such as fraud or denial-of-service attacks. Therefore, it is crucial to develop methods for detecting whether the party involved in a conversation is a bot or a human. In this paper, we propose a framework named FLAIR, Finding Large language model Authenticity via a single Inquiry and Response, to detect conversational bots in an online manner. Specifically, we target a single question scenario that can effectively differentiate human users from bots. The questions are divided into two categories: those that are easy for humans but difficult for bots (e.g., counting, substitution, positioning, noise filtering, and ASCII art), and those that are easy for bots but difficult for humans (e.g., memorization and computation). Our approach shows different strengths of these questions in their effectiveness, providing a new way for online service providers to protect themselves against nefarious activities and ensure that they are serving real users. We open-sourced our dataset on https://github.com/hongwang600/FLAIR and welcome contributions from the community to enrich such detection datasets.
翻訳日:2023-05-12 16:55:36 公開日:2023-05-10
# Segment Anything Model(SAM)のロバスト性に関する実証的研究

An Empirical Study on the Robustness of the Segment Anything Model (SAM) ( http://arxiv.org/abs/2305.06422v1 )

ライセンス: Link先を確認
Yuqing Wang, Yun Zhao, Linda Petzold(参考訳) Segment Anything Model (SAM) は一般的な画像分割の基礎モデルである。 主に自然画像に印象的な性能を示すが、様々な画像摂動や領域に対する堅牢性を理解することは、そのような課題が頻繁に発生する現実世界のアプリケーションにとって重要である。 本研究では,多様な実環境下でSAMの包括的ロバストネス調査を行う。 我々の実験は幅広い画像摂動を包含している。 実験結果から,samの性能は画像の摂動によって低下し,異なる摂動にまたがる脆弱性の程度が異なることが明らかとなった。 プロンプトテクニックをカスタマイズし、各データセットのユニークな特性に基づいてドメイン知識を活用することで、これらの摂動に対するモデルのレジリエンスを高め、データセット固有の課題に対処することができる。 この研究は、現実世界のアプリケーションにおけるSAMの限界と強みに光を当て、より堅牢で汎用的な画像分割ソリューションの開発を促進する。

The Segment Anything Model (SAM) is a foundation model for general image segmentation. Although it exhibits impressive performance predominantly on natural images, understanding its robustness against various image perturbations and domains is critical for real-world applications where such challenges frequently arise. In this study we conduct a comprehensive robustness investigation of SAM under diverse real-world conditions. Our experiments encompass a wide range of image perturbations. Our experimental results demonstrate that SAM's performance generally declines under perturbed images, with varying degrees of vulnerability across different perturbations. By customizing prompting techniques and leveraging domain knowledge based on the unique characteristics of each dataset, the model's resilience to these perturbations can be enhanced, addressing dataset-specific challenges. This work sheds light on the limitations and strengths of SAM in real-world applications, promoting the development of more robust and versatile image segmentation solutions.
翻訳日:2023-05-12 16:55:14 公開日:2023-05-10
# 神経科領域における退院要領の自動化

A Method to Automate the Discharge Summary Hospital Course for Neurology Patients ( http://arxiv.org/abs/2305.06416v1 )

ライセンス: Link先を確認
Vince C. Hartman, Sanika S. Bapat, Mark G. Weiner, Babak B. Navi, Evan T. Sholle, and Thomas R. Campion, Jr(参考訳) 医師のバーンアウトを緩和するための戦略として、自動臨床ノートの作成が提案されている。 特に,患者の入院状況の自動要約は,電子健康記録(EHR)システムで患者医師が記録した退院要領の病院コースセクションを補完する可能性がある。 本研究では,エンコーダ・デコーダ・シーケンス・トゥ・シーケンス変圧器モデルを用いて,病院のコースセクションを要約する自動手法を開発し,評価した。 我々はBERTとBARTモデルを微調整し、ビームサーチの制約により現実性に最適化し、学術医療センターの神経学部門に入院した患者のERHデータを用いて訓練および試験を行った。 この手法は13.76のR-2で良いROUGEスコアを示した。 盲点評価では, 自動サマリーの62%がケア基準を満たしており, この方法が臨床的に有用である可能性が示唆された。 本研究は,医師が書ける内容の品質レベルに近づいた退院要領を自動生成する方法を最初に示す方法の一つである。

Generation of automated clinical notes have been posited as a strategy to mitigate physician burnout. In particular, an automated narrative summary of a patient's hospital stay could supplement the hospital course section of the discharge summary that inpatient physicians document in electronic health record (EHR) systems. In the current study, we developed and evaluated an automated method for summarizing the hospital course section using encoder-decoder sequence-to-sequence transformer models. We fine tuned BERT and BART models and optimized for factuality through constraining beam search, which we trained and tested using EHR data from patients admitted to the neurology unit of an academic medical center. The approach demonstrated good ROUGE scores with an R-2 of 13.76. In a blind evaluation, two board-certified physicians rated 62% of the automated summaries as meeting the standard of care, which suggests the method may be useful clinically. To our knowledge, this study is among the first to demonstrate an automated method for generating a discharge summary hospital course that approaches a quality level of what a physician would write.
翻訳日:2023-05-12 16:54:57 公開日:2023-05-10
# WEIRD FAccTs: 西洋、教育、工業化、富、民主はFAccTか?

WEIRD FAccTs: How Western, Educated, Industrialized, Rich, and Democratic is FAccT? ( http://arxiv.org/abs/2305.06415v1 )

ライセンス: Link先を確認
Ali Akbar Septiandri, Marios Constantinides, Mohammad Tahaei, Daniele Quercia(参考訳) 西欧、教育、工業化、富裕、民主(WEIRD)に関する研究は、世界の人口の非典型的と考えられており、人間の行動を正確に表現していない。 本研究では,人工知能(ai)システムの公平性,説明責任性,透明性を探求する主要な会場であるacm facctカンファレンスが,奇妙なサンプルに依存する程度を定量化することを目的とする。 2018年から2022年の間に発行された128の論文を収集・分析し、当時facctで発行された論文全体の30.8%を占めた(人間による研究や参加者への明確な帰属のない要約、チュートリアル、論文を除く)。 分析された論文の84%は、欧米の参加者のみに基づいており、特にアメリカからのものである(63%)。 インタビューや調査を通じて地元の参加者に関するデータを収集する努力を行った研究者だけが、米国中心の科学観に多様性を加えた。 そこで本研究では,非表現人口からのデータを収集し,包括的世界観を得る方法を提案する。 この目標を達成するために、科学コミュニティはそのような集団からのデータ収集を擁護し、データのバイアスを透過的に報告する必要がある。

Studies conducted on Western, Educated, Industrialized, Rich, and Democratic (WEIRD) samples are considered atypical of the world's population and may not accurately represent human behavior. In this study, we aim to quantify the extent to which the ACM FAccT conference, the leading venue in exploring Artificial Intelligence (AI) systems' fairness, accountability, and transparency, relies on WEIRD samples. We collected and analyzed 128 papers published between 2018 and 2022, accounting for 30.8% of the overall proceedings published at FAccT in those years (excluding abstracts, tutorials, and papers without human-subject studies or clear country attribution for the participants). We found that 84% of the analyzed papers were exclusively based on participants from Western countries, particularly exclusively from the U.S. (63%). Only researchers who undertook the effort to collect data about local participants through interviews or surveys added diversity to an otherwise U.S.-centric view of science. Therefore, we suggest that researchers collect data from under-represented populations to obtain an inclusive worldview. To achieve this goal, scientific communities should champion data collection from such populations and enforce transparent reporting of data biases.
翻訳日:2023-05-12 16:54:41 公開日:2023-05-10
# 原子N量子系におけるエンタングゲートの時空間制御

Spatiotemporal control of entangling gates on atomic N-qubit systems ( http://arxiv.org/abs/2305.06409v1 )

ライセンス: Link先を確認
Ignacio R. Sola and Seokmin Shin and Bo Y. Chang(参考訳) 我々は、n量子ビット系における絡み合うゲートを準備するために、閉じ込められた中性原子の配列に作用するパルスの時間的および空間的パラメータを含む新しい最適化手順を用いる。 時空間制御により、各パルスがキュービットのサブセットに作用する原子のより密度の高い配列を処理でき、リドベルク状態間の双極子遮断を増強することにより、ゲート操作を2桁の速度で高速化することができる。 異なる制約下でのアルゴリズムの成功率について検討し、原子の近接の影響を間接的に評価し、3および4量子ビット系における配列の幾何学的役割と、最小のエネルギー要件と、このエネルギーが異なる量子ビット間でどのように使用されるかを評価する。 最後に、量子経路解析を用いて、ゲートのメカニズムに従って全ての最適プロトコルを特徴付け、分類する。

We use a novel optimization procedure that includes the temporal and spatial parameters of the pulses acting on arrays of trapped neutral atoms, to prepare entangling gates in N-qubits systems. The spatio-temporal control allows treating a denser array of atoms, where each pulse acts on a subset of the qubits, potentially allowing to speed the gate operation by two orders of magnitude by boosting the dipole-blockade between the Rydberg states. Studying the rate of success of the algorithm under different constraints, we evaluate the impact of the proximity of the atoms and, indirectly, the role of the geometry of the arrays in 3 and 4-qubit systems, as well as the minimal energy requirements and how this energy is used among the different qubits. Finally, we characterize and classify all optimal protocols according to the mechanism of the gate, using a quantum pathways analysis.
翻訳日:2023-05-12 16:54:17 公開日:2023-05-10
# 連続学習技術を用いたバッチアクティブ学習の高速化

Accelerating Batch Active Learning Using Continual Learning Techniques ( http://arxiv.org/abs/2305.06408v1 )

ライセンス: Link先を確認
Arnav Das, Gantavya Bhatt, Megh Bhalerao, Vianne Gao, Rui Yang, Jeff Bilmes(参考訳) Active Learning(AL)の大きな問題は、クエリラウンド毎にモデルがスクラッチから再トレーニングされるため、トレーニングコストが高いことだ。 まず、ウォームスタート障害のあるニューラルネットワークの標準alをデモし、トレーニングを加速し、alクエリラウンドを微調整するときに壊滅的な忘れるのを避けることから始める。 次に,従来ラベル付き集合に対するさらなるトレーニングをバイアスすることで,この問題を回避する新しい手法を開発した。 我々は,新旧の学習に有効であり,特に進化する分布から来るデータに対して,新旧の学習に有効な,既存のリプレイ型連続学習(cl)アルゴリズムを採用し,これを実現している。 このパラダイムを連続アクティブ学習(cal)と呼びます。 CALは, モデル蒸留を多用し, 歴史から多種多様な不確実点を選択するリプレイ方式を用いて, 大幅な高速化を実現していることを示す。 自然言語、ビジョン、医用画像、計算生物学など、さまざまなデータ領域に対して、それぞれ異なるニューラルネットワークアーキテクチャとデータセットサイズで実験を行います。 CALは、パフォーマンスを維持しながら、トレーニング時間の3倍の短縮を提供する。

A major problem with Active Learning (AL) is high training costs since models are typically retrained from scratch after every query round. We start by demonstrating that standard AL on neural networks with warm starting fails, both to accelerate training and to avoid catastrophic forgetting when using fine-tuning over AL query rounds. We then develop a new class of techniques, circumventing this problem, by biasing further training towards previously labeled sets. We accomplish this by employing existing, and developing novel, replay-based Continual Learning (CL) algorithms that are effective at quickly learning the new without forgetting the old, especially when data comes from an evolving distribution. We call this paradigm Continual Active Learning (CAL). We show CAL achieves significant speedups using a plethora of replay schemes that use model distillation and that select diverse, uncertain points from the history. We conduct experiments across many data domains, including natural language, vision, medical imaging, and computational biology, each with different neural architectures and dataset sizes. CAL consistently provides a 3x reduction in training time, while retaining performance.
翻訳日:2023-05-12 16:54:01 公開日:2023-05-10
# 外部知識VQAの思考と観察のコンボ

Combo of Thinking and Observing for Outside-Knowledge VQA ( http://arxiv.org/abs/2305.06407v1 )

ライセンス: Link先を確認
Qingyi Si, Yuchen Mo, Zheng Lin, Huishan Ji, Weiping Wang(参考訳) 外部知識による視覚的質問応答は、オープンエンドな実世界の知識の獲得と使用の両方を必要とする困難なタスクである。 既存のソリューションは、外部の知識をモダリティ空間に引き込み、自然言語空間におけるはるかに広大なテキスト知識を見渡す一方で、画像をテキストに変換することで、テキスト知識を自然言語空間に融合させ、視覚的特徴の使用を完全に放棄するものもある。 本稿では, 視覚的特徴を直接保存する自然言語空間の空間に, クロスモダリティ空間を拘束することに着想を得ており, モデルはまだ自然言語空間における膨大な知識の恩恵を受けている。 そこで本研究では,マルチモーダルエンコーダ,テキストエンコーダ,応答デコーダからなる新しいフレームワークを提案する。 このような構造によって、明示的および暗黙的なマルチモーダルおよびテキスト的知識を含む、より多くのタイプの知識を導入することができる。 広範な実験により、最先端の精度を6.17%向上させる提案手法の優位性が検証された。 また,各成分の包括的アブレーションを行い,各種知識の役割を体系的に研究した。 コードと知識データはhttps://github.com/phoebussi/thinking-while-observingで見ることができる。

Outside-knowledge visual question answering is a challenging task that requires both the acquisition and the use of open-ended real-world knowledge. Some existing solutions draw external knowledge into the cross-modality space which overlooks the much vaster textual knowledge in natural-language space, while others transform the image into a text that further fuses with the textual knowledge into the natural-language space and completely abandons the use of visual features. In this paper, we are inspired to constrain the cross-modality space into the same space of natural-language space which makes the visual features preserved directly, and the model still benefits from the vast knowledge in natural-language space. To this end, we propose a novel framework consisting of a multimodal encoder, a textual encoder and an answer decoder. Such structure allows us to introduce more types of knowledge including explicit and implicit multimodal and textual knowledge. Extensive experiments validate the superiority of the proposed method which outperforms the state-of-the-art by 6.17% accuracy. We also conduct comprehensive ablations of each component, and systematically study the roles of varying types of knowledge. Codes and knowledge data can be found at https://github.com/PhoebusSi/Thinking-while-Observing.
翻訳日:2023-05-12 16:53:40 公開日:2023-05-10
# LACoS-BLOOM:8ビットのSiamese-BLOOMにおける相対目標を用いた低ランク適応

LACoS-BLOOM: Low-rank Adaptation with Contrastive objective on 8 bits Siamese-BLOOM ( http://arxiv.org/abs/2305.06404v1 )

ライセンス: Link先を確認
Wen-Yu Hua and Brian Williams and Davood Shamsi(参考訳) テキスト埋め込みは、文の類似性、テキストクラスタリング、セマンティック検索など、いくつかのNLPアプリケーションで有用な機能である。 本稿では,意味的に意味のある単語埋め込みを生成するために最適化された多言語大言語モデルである8ビットシアームブロム上で,対照的な目的を持つ低ランク適応を提案する。 イノベーションは3倍です。 まず、BLOOM重みを8ビット値にキャストした。 第2に,文類似度分類のためのスケーラブルアダプタ(LoRA)と8ビットAdamオプティマイザを用いてBLOOMを微調整する。 第3に,複数言語でラベル付けされたデータ不足を緩和するために,コントラスト目的のBLOOMモデルにSiameseアーキテクチャを適用した。 実験の結果,LACoS-BLOOMからの学習した埋め込みの質は,モデルパラメータの数とラベルなしトレーニングデータの量に比例することがわかった。 パラメータ効率の良い微調整設計により、32GBメモリを持つ1台のGPUマシンでBLOOM 7.10億のパラメータをエンドツーエンドで実行することができる。 従来のSentence-BERTに比べて、英語と多言語STSのタスクにおいて大幅な改善が達成されている。

Text embeddings are useful features for several NLP applications, such as sentence similarity, text clustering, and semantic search. In this paper, we present a Low-rank Adaptation with a Contrastive objective on top of 8-bit Siamese-BLOOM, a multilingual large language model optimized to produce semantically meaningful word embeddings. The innovation is threefold. First, we cast BLOOM weights to 8-bit values. Second, we fine-tune BLOOM with a scalable adapter (LoRA) and 8-bit Adam optimizer for sentence similarity classification. Third, we apply a Siamese architecture on BLOOM model with a contrastive objective to ease the multi-lingual labeled data scarcity. The experiment results show the quality of learned embeddings from LACoS-BLOOM is proportional to the number of model parameters and the amount of unlabeled training data. With the parameter efficient fine-tuning design, we are able to run BLOOM 7.1 billion parameters end-to-end on a single GPU machine with 32GB memory. Compared to previous solution Sentence-BERT, we achieve significant improvement on both English and multi-lingual STS tasks.
翻訳日:2023-05-12 16:53:22 公開日:2023-05-10
# 拡散型顔生成モデルにおけるバイアスの解析

Analyzing Bias in Diffusion-based Face Generation Models ( http://arxiv.org/abs/2305.06402v1 )

ライセンス: Link先を確認
Malsha V. Perera and Vishal M. Patel(参考訳) 拡散モデルは、合成データ生成や画像編集アプリケーションで人気が高まっている。 しかし、これらのモデルは既存のバイアスを増幅し、下流アプリケーションへ伝播することができる。 そのため、出力のバイアス源を理解することが不可欠である。 本稿では,性別,人種,年齢といった属性に関して,拡散に基づく顔生成モデルにおけるバイアスの存在について検討する。 さらに,データセットのサイズが,様々な属性クラスにおける拡散とGANに基づく顔生成モデルの両方の属性組成と知覚品質に与える影響について検討した。 実験結果から,拡散モデルが各種属性のトレーニングデータの分布バイアスを悪化させる傾向にあり,データセットのサイズに大きく影響することが示唆された。 逆に、バランスのとれたデータセットに基づいてトレーニングされたganモデルは、多くのサンプルで異なる属性に対するバイアスが少ない。

Diffusion models are becoming increasingly popular in synthetic data generation and image editing applications. However, these models can amplify existing biases and propagate them to downstream applications. Therefore, it is crucial to understand the sources of bias in their outputs. In this paper, we investigate the presence of bias in diffusion-based face generation models with respect to attributes such as gender, race, and age. Moreover, we examine how dataset size affects the attribute composition and perceptual quality of both diffusion and Generative Adversarial Network (GAN) based face generation models across various attribute classes. Our findings suggest that diffusion models tend to worsen distribution bias in the training data for various attributes, which is heavily influenced by the size of the dataset. Conversely, GAN models trained on balanced datasets with a larger number of samples show less bias across different attributes.
翻訳日:2023-05-12 16:53:02 公開日:2023-05-10
# グラフニューラルネットワークと強化学習によるスケーラブル適応学習に向けて

Towards Scalable Adaptive Learning with Graph Neural Networks and Reinforcement Learning ( http://arxiv.org/abs/2305.06398v1 )

ライセンス: Link先を確認
Jean Vassoyan, Jill-J\^enn Vie, Pirmin Lemberger(参考訳) アダプティブ・ラーニング(Adaptive Learning)は、各学習者のユニークなニーズに対処するパーソナライズされた学習体験を提供する教育技術分野である。 適応学習の重要な分野は学習経路のパーソナライズであり、学習成果を最大化するために教育活動のシーケンスを推奨するシステムを設計することを目的としている。 多くの機械学習アプローチは、学習パスのパーソナライゼーションに関連するさまざまなコンテキストにおいて、すでに重要な結果を示している。 しかし、そのほとんどは特別な設定のために設計されており、あまり再利用されていない。 これは、特定の教育資源で訓練された後に新しい要素を統合することができない非スケーリングモデルにしばしば依存しているという事実によって強調される。 本稿では,学習経路のパーソナライズ問題に対するフレキシブルでスケーラブルなアプローチを導入し,強化学習問題として定式化する。 本モデルは,グラフニューラルネットワークに基づく逐次レコメンダシステムであり,シミュレーション学習者の集団について評価する。 以上の結果から,小規模データ体制における適切なレコメンデーションを学習できることが示唆された。

Adaptive learning is an area of educational technology that consists in delivering personalized learning experiences to address the unique needs of each learner. An important subfield of adaptive learning is learning path personalization: it aims at designing systems that recommend sequences of educational activities to maximize students' learning outcomes. Many machine learning approaches have already demonstrated significant results in a variety of contexts related to learning path personalization. However, most of them were designed for very specific settings and are not very reusable. This is accentuated by the fact that they often rely on non-scalable models, which are unable to integrate new elements after being trained on a specific set of educational resources. In this paper, we introduce a flexible and scalable approach towards the problem of learning path personalization, which we formalize as a reinforcement learning problem. Our model is a sequential recommender system based on a graph neural network, which we evaluate on a population of simulated learners. Our results demonstrate that it can learn to make good recommendations in the small-data regime.
翻訳日:2023-05-12 16:52:52 公開日:2023-05-10
# フォノン-光子相互作用を利用した量子場熱エンジン

Quantum field heat engine powered by phonon-photon interactions ( http://arxiv.org/abs/2305.06445v1 )

ライセンス: Link先を確認
Alessandro Ferreri, Vincenzo Macr\`i, Frank K. Wilhelm, Franco Nori, David Edward Bruschi(参考訳) 量子場を動作物質として定義する2つの振動ミラーを持つキャビティに基づく量子熱エンジンを提案する。 エンジンは、壁とフィールドモードが非線形ハミルトニアンを介して相互作用するオットーサイクルを実行する。 キャビティモードの周波数と壁の間の共鳴は、フォノンとフォトニックの励起の変換を利用して熱と冷たい浴から熱を伝達することができる。 システムの時間的進化について検討し,全サイクルでネットワークを抽出可能であることを示す。 我々はプロセスの効率を評価する。

We present a quantum heat engine based on a cavity with two oscillating mirrors that confine a quantum field as the working substance. The engine performs an Otto cycle during which the walls and a field mode interact via a nonlinear Hamiltonian. Resonances between the frequencies of the cavity mode and the walls allow to transfer heat from the hot and the cold bath by exploiting the conversion between phononic and photonic excitations. We study the time evolution of the system and show that net work can be extracted after a full cycle. We evaluate the efficiency of the process.
翻訳日:2023-05-12 16:47:26 公開日:2023-05-10
# データ,木,森林 ---k-12教育における決定木学習

Data, Trees, and Forests -- Decision Tree Learning in K-12 Education ( http://arxiv.org/abs/2305.06442v1 )

ライセンス: Link先を確認
Tilman Michaeli and Stefan Seegerer and Lennard Kerber and Ralf Romeike(参考訳) 機械学習が私たちの生活に与える影響の増大に伴い、誰もが対応する現象を理解する能力だけでなく、私たちの世界を形作り、社会への影響について情報的な決定を行う能力も必要です。 したがって、k-12教育では、学生は機械学習の核となるアイデアと原則を学ぶ必要がある。 しかし、この目標グループにとって、上記すべての目標を達成することは大きな課題となる。 そこで,本稿では,概念理解に焦点をあて,学生に積極的に機械学習手法を適用させ,社会への影響を反映させ,決定木学習を基盤とした,遊び心に満ちた無プラグの授業概念を提案する。

As a consequence of the increasing influence of machine learning on our lives, everyone needs competencies to understand corresponding phenomena, but also to get involved in shaping our world and making informed decisions regarding the influences on our society. Therefore, in K-12 education, students need to learn about core ideas and principles of machine learning. However, for this target group, achieving all of the aforementioned goals presents an enormous challenge. To this end, we present a teaching concept that combines a playful and accessible unplugged approach focusing on conceptual understanding with empowering students to actively apply machine learning methods and reflect their influence on society, building upon decision tree learning.
翻訳日:2023-05-12 16:47:17 公開日:2023-05-10
# 潜時ナビゲーションによる自己監督型映像表現学習

Self-Supervised Video Representation Learning via Latent Time Navigation ( http://arxiv.org/abs/2305.06437v1 )

ライセンス: Link先を確認
Di Yang, Yaohui Wang, Quan Kong, Antitza Dantcheva, Lorenzo Garattoni, Gianpiero Francesca, Francois Bremond(参考訳) 自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的とした。 これにより、時間的関係に関連する関連する情報が失われ、'enter' や `leave' のようなアクションは区別がつかない。 この制限を緩和するために、細かな動きを捉えるために合理化される時間パラメータ化されたコントラスト学習戦略であるLTNを提案する。 具体的には, 時間的変化を表す直交基底を含む潜在表現コードの部分空間に沿って時間的認識を維持しながら, 映像の異なるセグメント間の表現類似性を最大化する。 LTNによるビデオ表現の学習は、細粒度および人為的タスク(トヨタスマートホームデータセットなど)における動作分類の性能を一貫して改善することを示す。 さらに,本稿では,Kinetics-400で事前トレーニングを行った場合,実世界のビデオベンチマークデータセットであるUCF101とHMDB51によく対応し,動作認識における最先端性能を実現する。

Self-supervised video representation learning aimed at maximizing similarity between different temporal segments of one video, in order to enforce feature persistence over time. This leads to loss of pertinent information related to temporal relationships, rendering actions such as `enter' and `leave' to be indistinguishable. To mitigate this limitation, we propose Latent Time Navigation (LTN), a time-parameterized contrastive learning strategy that is streamlined to capture fine-grained motions. Specifically, we maximize the representation similarity between different video segments from one video, while maintaining their representations time-aware along a subspace of the latent representation code including an orthogonal basis to represent temporal changes. Our extensive experimental analysis suggests that learning video representations by LTN consistently improves performance of action classification in fine-grained and human-oriented tasks (e.g., on Toyota Smarthome dataset). In addition, we demonstrate that our proposed model, when pre-trained on Kinetics-400, generalizes well onto the unseen real world video benchmark datasets UCF101 and HMDB51, achieving state-of-the-art performance in action recognition.
翻訳日:2023-05-12 16:47:02 公開日:2023-05-10
# 自動倉庫のマルチロボットコーディネーションとレイアウト設計

Multi-Robot Coordination and Layout Design for Automated Warehousing ( http://arxiv.org/abs/2305.06436v1 )

ライセンス: Link先を確認
Yulun Zhang, Matthew C. Fontaine, Varun Bhatt, Stefanos Nikolaidis, Jiaoyang Li(参考訳) MAPF(Multi-Agent Path Finding)の急速な進歩により、大規模な自動倉庫で何百ものロボットを協調させるMAPFアルゴリズムをどのように展開するかが研究されている。 ほとんどの研究はMAPFアルゴリズムを改良して倉庫のスループットを向上させるが、倉庫のレイアウトを最適化することでスループットを改善することに重点を置いている。 最先端のMAPFアルゴリズムであっても、人間設計のレイアウトは、多数のロボットを持つ倉庫の混雑を招き、スケーラビリティが制限されることが示されている。 我々は,既存の自動シナリオ生成手法を拡張し,倉庫レイアウトを最適化する。 その結果,(1)交通渋滞を低減しスループットを向上させること,(2)ロボット数を2倍にすることで自動倉庫のスケーラビリティを向上させること,(3)ユーザが特定した多様性対策でレイアウトを生成できることがわかった。 ソースコードは以下の通り: \url{https://github.com/lunjohnzhang/warehouse_env_gen_public}

With the rapid progress in Multi-Agent Path Finding (MAPF), researchers have studied how MAPF algorithms can be deployed to coordinate hundreds of robots in large automated warehouses. While most works try to improve the throughput of such warehouses by developing better MAPF algorithms, we focus on improving the throughput by optimizing the warehouse layout. We show that, even with state-of-the-art MAPF algorithms, commonly used human-designed layouts can lead to congestion for warehouses with large numbers of robots and thus have limited scalability. We extend existing automatic scenario generation methods to optimize warehouse layouts. Results show that our optimized warehouse layouts (1) reduce traffic congestion and thus improve throughput, (2) improve the scalability of the automated warehouses by doubling the number of robots in some cases, and (3) are capable of generating layouts with user-specified diversity measures. We include the source code at: \url{https://github.com/lunjohnzhang/warehouse_env_gen_public}
翻訳日:2023-05-12 16:46:41 公開日:2023-05-10
# 疎密ニューラルネットワークにおけるミニバッチサイズの相転移

Phase transitions in the mini-batch size for sparse and dense neural networks ( http://arxiv.org/abs/2305.06435v1 )

ライセンス: Link先を確認
Raffaele Marino and Federico Ricci-Tersenghi(参考訳) ニューラルネットワークのトレーニングにおけるデータのミニバッチの使用は、現在非常に一般的である。 広く使われているにもかかわらず、最適なミニバッチサイズがどの程度大きいか小さいかを定量的に説明する理論は欠落している。 本研究は,二層ニューラルネットワークの学習におけるミニバッチサイズの役割を体系的に理解する試みである。 教師-学生のシナリオで、スパース教師と働き、異なる複雑さのタスクに焦点を当て、ミニバッチサイズを$m$で変更する効果を定量化する。 学生の一般化性能は、しばしば$m$に強く依存しており、臨界値$m_c$に対して$m<m_c$が失敗し、$m>m_c$が完全に学習するか、非常によく一般化されるような急激な位相遷移を行う可能性がある。 相転移は、最初に統計力学で発見され、後に科学の多くの分野で観測された集団現象によって引き起こされる。 ミニバッチサイズを変化させる相転移を見つけることは、これまで見過ごされてきたハイパーパラメータの役割に関するいくつかの重要な疑問を引き起こす。

The use of mini-batches of data in training artificial neural networks is nowadays very common. Despite its broad usage, theories explaining quantitatively how large or small the optimal mini-batch size should be are missing. This work presents a systematic attempt at understanding the role of the mini-batch size in training two-layer neural networks. Working in the teacher-student scenario, with a sparse teacher, and focusing on tasks of different complexity, we quantify the effects of changing the mini-batch size $m$. We find that often the generalization performances of the student strongly depend on $m$ and may undergo sharp phase transitions at a critical value $m_c$, such that for $m<m_c$ the training process fails, while for $m>m_c$ the student learns perfectly or generalizes very well the teacher. Phase transitions are induced by collective phenomena firstly discovered in statistical mechanics and later observed in many fields of science. Finding a phase transition varying the mini-batch size raises several important questions on the role of a hyperparameter which have been somehow overlooked until now.
翻訳日:2023-05-12 16:46:25 公開日:2023-05-10
# 単語接地グラフ畳み込みネットワーク

Word Grounded Graph Convolutional Network ( http://arxiv.org/abs/2305.06434v1 )

ライセンス: Link先を確認
Zhibin Lu, Qianqian Xie, Benyou Wang, Jian-yun Nie(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフ構造データ(例えば、文献引用ネットワーク)のモデル化における表現力から、テキスト分類などの様々なタスクにおけるテキスト表現の学習において、高いパフォーマンスを示している。 既存のgcnのほとんどは、事前に定義されたグラフに含まれるドキュメントを扱うために制限されている。 この問題に対処するため,文書依存グラフを用いて文書グラフをワードグラフに変換し,データサンプル(トレーニングおよびテストセットにおける文書)とGCNモデルを分離することを提案する。 このような単語レベルのGCNは、自然に文書を帰納的に推測することができる。 提案したWord-level Graph(WGraph)は、コーパスで一般的に使われている単語共起による単語表現を暗黙的に学習するだけでなく、文書間関係(例えば文献引用)から派生した追加のグローバルな意味的依存も含んでいる。 WGraphに基づく単語と文書の表現を教師付きで学習するために,誘導型Word-grounded Graph Convolutional Network (WGCN)を提案する。 引用ネットワークと非引用ネットワークを用いたテキスト分類実験は、提案したWGCNモデルは、有効性と効率の点で既存の手法よりも優れていることを示す。

Graph Convolutional Networks (GCNs) have shown strong performance in learning text representations for various tasks such as text classification, due to its expressive power in modeling graph structure data (e.g., a literature citation network). Most existing GCNs are limited to deal with documents included in a pre-defined graph, i.e., it cannot be generalized to out-of-graph documents. To address this issue, we propose to transform the document graph into a word graph, to decouple data samples (i.e., documents in training and test sets) and a GCN model by using a document-independent graph. Such word-level GCN could therefore naturally inference out-of-graph documents in an inductive way. The proposed Word-level Graph (WGraph) can not only implicitly learning word presentation with commonly-used word co-occurrences in corpora, but also incorporate extra global semantic dependency derived from inter-document relationships (e.g., literature citations). An inductive Word-grounded Graph Convolutional Network (WGCN) is proposed to learn word and document representations based on WGraph in a supervised manner. Experiments on text classification with and without citation networks evidence that the proposed WGCN model outperforms existing methods in terms of effectiveness and efficiency.
翻訳日:2023-05-12 16:46:04 公開日:2023-05-10
# リスク確率推定のための一般化物理形学習フレームワーク

A Generalizable Physics-informed Learning Framework for Risk Probability Estimation ( http://arxiv.org/abs/2305.06432v1 )

ライセンス: Link先を確認
Zhuoyuan Wang, Yorie Nakahira(参考訳) 長期リスク確率とその勾配の正確な推定は、多くの確率的安全な制御法において重要である。 しかし、そのようなリスク確率をリアルタイムで計算したり、見当たらない環境や変化する環境で計算することは困難である。 モンテカルロ法(MC)はサンプリングノイズを増幅できる無限小因子として確率とその勾配を正確に評価することはできない。 本稿では,長期的リスクの確率とその勾配を評価するための効率的な手法を開発する。 提案手法は,確率間の近接関係を特徴付けるある偏微分方程式(PDE)を長期的リスク確率で満たすという事実を利用して,MC法と物理インフォームドニューラルネットワークを統合する。 トレーニング構成の特定の選択により推定誤差を理論的に保証する。 数値計算の結果,提案手法はサンプル効率が良く,未検出領域によく一般化でき,パラメータが変化するシステムに適用できることがわかった。 提案手法は,リスク確率の勾配を正確に推定し,リスク確率の1次・2次手法を学習・制御に使用することができる。

Accurate estimates of long-term risk probabilities and their gradients are critical for many stochastic safe control methods. However, computing such risk probabilities in real-time and in unseen or changing environments is challenging. Monte Carlo (MC) methods cannot accurately evaluate the probabilities and their gradients as an infinitesimal devisor can amplify the sampling noise. In this paper, we develop an efficient method to evaluate the probabilities of long-term risk and their gradients. The proposed method exploits the fact that long-term risk probability satisfies certain partial differential equations (PDEs), which characterize the neighboring relations between the probabilities, to integrate MC methods and physics-informed neural networks. We provide theoretical guarantees of the estimation error given certain choices of training configurations. Numerical results show the proposed method has better sample efficiency, generalizes well to unseen regions, and can adapt to systems with changing parameters. The proposed method can also accurately estimate the gradients of risk probabilities, which enables first- and second-order techniques on risk probabilities to be used for learning and control.
翻訳日:2023-05-12 16:45:40 公開日:2023-05-10
# HoneyIoT: 強化学習によるIoTデバイスのための適応型ハイインタラクションHoneypot

HoneyIoT: Adaptive High-Interaction Honeypot for IoT Devices Through Reinforcement Learning ( http://arxiv.org/abs/2305.06430v1 )

ライセンス: Link先を確認
Chongqi Guan, Heting Liu, Guohong Cao, Sencun Zhu, Thomas La Porta(参考訳) IoTデバイスが広くデプロイされるにつれて、その固有の脆弱性のため、IoTベースのシステムには多くの脅威がある。 IoTセキュリティを改善するための効果的なアプローチの1つは、攻撃情報を収集し、攻撃者が使用する方法と戦略を明らかにすることができるIoTハニーポットシステムのデプロイである。 しかし、IoTデバイスの異質性のため、ハイインタラクションなIoTハニーポットの構築は難しい。 IoTデバイスの脆弱性は通常、特定のデバイスタイプやファームウェアバージョンに依存するため、攻撃者は攻撃を開始する前にデバイス情報を収集するための事前攻撃チェックを実行することができる。 さらに、従来のハニーポットは、その応答ロジックが模倣しようとするIoTデバイスと異なるため、容易に検出できる。 これらの問題に対処するため,HoneyIoTと呼ばれるIoTデバイス用の適応型ハイインタラクションハニーポットを開発した。 まず、攻撃者がIoTデバイスと対話する方法を学ぶために、実際のデバイスベースの攻撃トレース収集システムを構築します。 次に,マルコフ決定プロセスを通じて攻撃行動をモデル化し,強化学習技術を用いて攻撃追跡に基づいて攻撃者を交戦させる最善の反応を学習する。 また,高忠実度応答を生成するために,異なる解析手法を用いて応答値を変化させる。 HoneyIoTはパブリックインターネットにデプロイされている。 実験の結果、HoneyIoTは攻撃前のチェックを効果的にバイパスし、攻撃者をマルウェアのアップロードに誤解させることができた。 さらに、HoneyIoTは、広く使われている偵察およびハニーポット検出ツールに対してカバーされている。

As IoT devices are becoming widely deployed, there exist many threats to IoT-based systems due to their inherent vulnerabilities. One effective approach to improving IoT security is to deploy IoT honeypot systems, which can collect attack information and reveal the methods and strategies used by attackers. However, building high-interaction IoT honeypots is challenging due to the heterogeneity of IoT devices. Vulnerabilities in IoT devices typically depend on specific device types or firmware versions, which encourages attackers to perform pre-attack checks to gather device information before launching attacks. Moreover, conventional honeypots are easily detected because their replying logic differs from that of the IoT devices they try to mimic. To address these problems, we develop an adaptive high-interaction honeypot for IoT devices, called HoneyIoT. We first build a real device based attack trace collection system to learn how attackers interact with IoT devices. We then model the attack behavior through markov decision process and leverage reinforcement learning techniques to learn the best responses to engage attackers based on the attack trace. We also use differential analysis techniques to mutate response values in some fields to generate high-fidelity responses. HoneyIoT has been deployed on the public Internet. Experimental results show that HoneyIoT can effectively bypass the pre-attack checks and mislead the attackers into uploading malware. Furthermore, HoneyIoT is covert against widely used reconnaissance and honeypot detection tools.
翻訳日:2023-05-12 16:45:22 公開日:2023-05-10
# 深層学習による基本キュラニック暗唱規則の誤読検出

Mispronunciation Detection of Basic Quranic Recitation Rules using Deep Learning ( http://arxiv.org/abs/2305.06429v1 )

ライセンス: Link先を確認
Ahmad Al Harere , Khloud Al Jallad(参考訳) イスラム教では、天使ジブラエルが預言者ムハンマド(Muhammad)に教えたのと同じように、読み手はタジュウェド(Tajweed)と呼ばれる一連の発音規則を適用する必要がある。 これらの規則の正しい適用を学ぶ伝統的なプロセスは、誤用を検出するためにライセンスと優れた経験を必要とする人間を必要とする。 世界中のムスリムが増えているため、タジュウェドの教師の数は、現在、すべてのムスリムにとって毎日のリサイクリングの練習には不十分である。 そのため、読者が従来の学習方法よりも簡単で短い時間でQuranを正しく引用するのを助けるために、自動的なTajweedルールの誤発音検出のために多くの作業がなされている。 以前の作品には3つの共通点がある。 まず、そのほとんどが機械学習アルゴリズムのみに焦点を当てた。 次に、ベンチマークなしでプライベートデータセットを使用した。 第3に、音声信号は時系列であるが、入力データのシーケンスを最適に考慮しなかった。 これらの問題を克服するため,我々は,Mel-Frequency Cepstral Coefficient (MFCC) と,時系列を用いたLong Short-Term Memory (LSTM) ニューラルネットワークを組み合わせた解を提案し,Tajweedルールの誤発音を検出する。 さらに,公開データセットであるQDATデータセットを用いて,3つのTajweed規則(分離ストレッチ,タイト・ヌーン,ディープ)の正しい,不正確なリサイクリングの1500以上の音声を含む実験を行った。 我々の知る限りでは、QDATデータセットは研究論文ではまだ使われていない。 提案するLSTMモデルの性能を,SoTAで使用される従来の機械学習アルゴリズムと比較した。 時系列を用いたLSTMモデルは、従来の機械学習よりも明らかな優位性を示した。 qdatデータセット上でlstmによって達成された精度は、それぞれ96%、95%、96%であった(分離されたストレッチング、タイトな正午、隠れ)。

In Islam, readers must apply a set of pronunciation rules called Tajweed rules to recite the Quran in the same way that the angel Jibrael taught the Prophet, Muhammad. The traditional process of learning the correct application of these rules requires a human who must have a license and great experience to detect mispronunciation. Due to the increasing number of Muslims around the world, the number of Tajweed teachers is not enough nowadays for daily recitation practice for every Muslim. Therefore, lots of work has been done for automatic Tajweed rules' mispronunciation detection to help readers recite Quran correctly in an easier way and shorter time than traditional learning ways. All previous works have three common problems. First, most of them focused on machine learning algorithms only. Second, they used private datasets with no benchmark to compare with. Third, they did not take into consideration the sequence of input data optimally, although the speech signal is time series. To overcome these problems, we proposed a solution that consists of Mel-Frequency Cepstral Coefficient (MFCC) features with Long Short-Term Memory (LSTM) neural networks which use the time series, to detect mispronunciation in Tajweed rules. In addition, our experiments were performed on a public dataset, the QDAT dataset, which contains more than 1500 voices of the correct and incorrect recitation of three Tajweed rules (Separate stretching , Tight Noon , and Hide ). To the best of our knowledge, the QDAT dataset has not been used by any research paper yet. We compared the performance of the proposed LSTM model with traditional machine learning algorithms used in SoTA. The LSTM model with time series showed clear superiority over traditional machine learning. The accuracy achieved by LSTM on the QDAT dataset was 96%, 95%, and 96% for the three rules (Separate stretching, Tight Noon, and Hide), respectively.
翻訳日:2023-05-12 16:44:58 公開日:2023-05-10
# 低所得国と中所得国における糖尿病治療への地域的アプローチの最適化

Planning a Community Approach to Diabetes Care in Low- and Middle-Income Countries Using Optimization ( http://arxiv.org/abs/2305.06426v1 )

ライセンス: Link先を確認
Katherine B. Adams, Justin J. Boutilier, Sarang Deo, Yonatan Mintz(参考訳) 糖尿病は世界的な健康の優先事項であり、特に低所得国や中所得国では、早死の50%以上が高血糖によるものである。 いくつかの研究は、コミュニティヘルスワーカー(CHW)プログラムを使用して、糖尿病の早期発見と管理のために安価で文化的に調整されたソリューションを提供することの可能性を示した。 しかし,CHWプログラムの設計と実装のためのスケーラブルなモデルが提案されていない。 コミュニティレベルでのグリセミック制御を最大化するパーソナライズされたCHW訪問を決定するための最適化フレームワークを導入する。 当フレームワークは,新規患者のスクリーニングと,すでに入院している患者への管理訪問のトレードオフを明示的にモデル化する。 患者のモチベーションの状態を考慮し,治療開始や退院の決定に影響を及ぼし,介入の有効性を考察した。 患者をユーティリティ最大化エージェントとしてモデル化することで、これらの決定を、近似動的プログラミングを用いて解決するバイレベルプロバイダ問題に組み込む。 患者の健康状態とモチベーション状態を推定することにより,治療開始時に患者のトレードオフを考慮した訪問計画を構築し,退院率の低減と資源配分の改善を図った。 我々は,インド都市部の低所得地域を対象としたソーシャル企業からの運用データを用いて,chw訪問計画の作成に本手法を適用した。 広範なシミュレーション実験により,我々のフレームワークは,血糖コントロールの観点から同じ性能を達成するのに,最善のナイーブポリシーよりも最大73.4%少ない容量を必要とすることがわかった。 また,提案手法は,同一のCHW容量で最大124.5%向上できることを示した。

Diabetes is a global health priority, especially in low- and-middle-income countries, where over 50% of premature deaths are attributed to high blood glucose. Several studies have demonstrated the feasibility of using Community Health Worker (CHW) programs to provide affordable and culturally tailored solutions for early detection and management of diabetes. Yet, scalable models to design and implement CHW programs while accounting for screening, management, and patient enrollment decisions have not been proposed. We introduce an optimization framework to determine personalized CHW visits that maximize glycemic control at a community-level. Our framework explicitly models the trade-off between screening new patients and providing management visits to individuals who are already enrolled in treatment. We account for patients' motivational states, which affect their decisions to enroll or drop out of treatment and, therefore, the effectiveness of the intervention. We incorporate these decisions by modeling patients as utility-maximizing agents within a bi-level provider problem that we solve using approximate dynamic programming. By estimating patients' health and motivational states, our model builds visit plans that account for patients' tradeoffs when deciding to enroll in treatment, leading to reduced dropout rates and improved resource allocation. We apply our approach to generate CHW visit plans using operational data from a social enterprise serving low-income neighborhoods in urban areas of India. Through extensive simulation experiments, we find that our framework requires up to 73.4% less capacity than the best naive policy to achieve the same performance in terms of glycemic control. Our experiments also show that our solution algorithm can improve upon naive policies by up to 124.5% using the same CHW capacity.
翻訳日:2023-05-12 16:44:21 公開日:2023-05-10
# SENDD: 組織追跡における神経深度と変形

SENDD: Sparse Efficient Neural Depth and Deformation for Tissue Tracking ( http://arxiv.org/abs/2305.06477v1 )

ライセンス: Link先を確認
Adam Schmidt, Omid Mohareri, Simon DiMaio, Septimiu E. Salcudean(参考訳) 3次元組織運動の変形追跡とリアルタイム推定は、ロボット支援手術における自動化と画像誘導の応用を可能にするために不可欠である。 SENDD(Sparse Efficient Neural Depth and deformation)モデルでは,従来の2次元追跡作業を拡張して3次元空間内の流れを推定する。 SENDDは、学習された検出の新たなコントリビューションを導入し、ポイント毎の深さと3Dフローの推定を、すべて50万パラメータ未満で行う。 SENDDは、スパースキーポイントマッチのグラフニューラルネットワークを使用して、深さと3Dフローの両方を推定する。 包括的にラベル付けされた組織データセット上でSENDDを定量化し、ベンチマークし、2Dフローモデルと比較する。 SENDDは2次元フローができないアプリケーションを実現しながら、コンパラブルに動作します。 senddは1280のトラック(クエリ)ポイントに対してnvidia rtx 4000で10fpsでポイントを追跡し、そのコストはポイント数の増加/減少とともに線形にスケールする。 SENDDは3Dモーション推定を必要とする複数の下流アプリケーションを可能にする。

Deformable tracking and real-time estimation of 3D tissue motion is essential to enable automation and image guidance applications in robotically assisted surgery. Our model, Sparse Efficient Neural Depth and Deformation (SENDD), extends prior 2D tracking work to estimate flow in 3D space. SENDD introduces novel contributions of learned detection, and sparse per-point depth and 3D flow estimation, all with less than half a million parameters. SENDD does this by using graph neural networks of sparse keypoint matches to estimate both depth and 3D flow. We quantify and benchmark SENDD on a comprehensively labelled tissue dataset, and compare it to an equivalent 2D flow model. SENDD performs comparably while enabling applications that 2D flow cannot. SENDD can track points and estimate depth at 10fps on an NVIDIA RTX 4000 for 1280 tracked (query) points and its cost scales linearly with an increasing/decreasing number of points. SENDD enables multiple downstream applications that require 3D motion estimation.
翻訳日:2023-05-12 16:38:57 公開日:2023-05-10
# LLMはユーザの嗜好を理解しているか? ユーザレーティング予測に基づくLCMの評価

Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction ( http://arxiv.org/abs/2305.06474v1 )

ライセンス: Link先を確認
Wang-Cheng Kang, Jianmo Ni, Nikhil Mehta, Maheswaran Sathiamoorthy, Lichan Hong, Ed Chi, Derek Zhiyuan Cheng(参考訳) 大きな言語モデル(LLM)は、ゼロショットまたは少数ショットの方法で新しいタスクに一般化する際、例外的な機能を示した。 しかし、LCMが以前の行動に基づいてユーザーの好みを理解できる範囲は、いまだに未解明な研究課題である。 伝統的に、コラボレーティブ・フィルタリング(CF)はこれらのタスクに最も効果的な手法であり、主に大量のレーティングデータに依存している。 対照的に、llmは通常、映画や製品といった各項目に関する徹底した知識を維持しながら、はるかに少ないデータを要求する。 本稿では,過去の評価に基づいて候補項目に対するユーザの評価を予測することを含む,ユーザレーティング予測の古典的なタスクの中で,cfとllmsの両方について徹底的に検討する。 250mから540bのパラメータを含む様々なサイズのllmを調査し、ゼロショット、少数ショット、微調整のシナリオでその性能を評価した。 我々は、LLMと強力なCF法の比較を包括的に分析し、ユーザインタラクションデータにアクセス可能な従来のレコメンデータモデルよりもゼロショットのLLMが遅れていることを発見し、ユーザインタラクションデータの重要性を示している。 しかし、微調整により、LLMはトレーニングデータのごく一部で同等またはそれ以上の性能を達成し、データ効率を通じてその可能性を示す。

Large Language Models (LLMs) have demonstrated exceptional capabilities in generalizing to new tasks in a zero-shot or few-shot manner. However, the extent to which LLMs can comprehend user preferences based on their previous behavior remains an emerging and still unclear research question. Traditionally, Collaborative Filtering (CF) has been the most effective method for these tasks, predominantly relying on the extensive volume of rating data. In contrast, LLMs typically demand considerably less data while maintaining an exhaustive world knowledge about each item, such as movies or products. In this paper, we conduct a thorough examination of both CF and LLMs within the classic task of user rating prediction, which involves predicting a user's rating for a candidate item based on their past ratings. We investigate various LLMs in different sizes, ranging from 250M to 540B parameters and evaluate their performance in zero-shot, few-shot, and fine-tuning scenarios. We conduct comprehensive analysis to compare between LLMs and strong CF methods, and find that zero-shot LLMs lag behind traditional recommender models that have the access to user interaction data, indicating the importance of user interaction data. However, through fine-tuning, LLMs achieve comparable or even better performance with only a small fraction of the training data, demonstrating their potential through data efficiency.
翻訳日:2023-05-12 16:38:36 公開日:2023-05-10
# グラディエントリーク脅威に対する分散SGDの確保

Securing Distributed SGD against Gradient Leakage Threats ( http://arxiv.org/abs/2305.06473v1 )

ライセンス: Link先を確認
Wenqi Wei, Ling Liu, Jingya Zhou, Ka-Ho Chow, and Yanzhao Wu(参考訳) 本稿では,SGD (Stochastic Gradient Descent) の勾配リーク耐性に対する総合的アプローチを提案する。 まず,プライバシエンハンスド・フェデレーション学習における2つの戦略について分析する。 (i)ランダム選択または低ランクフィルタリングによる勾配プルーニング (ii)付加的ランダムノイズまたは差動プライバシノイズによる勾配摂動。 これらのアプローチの本質的な制限と、プライバシ保証、モデルの正確性、攻撃レジリエンスへの影響を分析します。 次に、差分プライバシー制御ノイズをツールとして、分散SGDをフェデレート学習で確保するための勾配リーク耐性アプローチを提案する。 従来のクライアント毎のフェデレーションノイズインジェクションと固定ノイズパラメータ戦略とは異なり,本手法ではサンプル毎の勾配更新の傾向を追跡する。 適応ノイズ注入は、連合モデルトレーニング全体を通して密に調整される。 最後に,提案手法のプライバシ保証,モデルユーティリティ,攻撃レジリエンスに関する実証的プライバシー分析を行う。 5つのベンチマークデータセットを用いた広範囲な評価により、我々の勾配リーク耐性アプローチは、競合精度、強力な差分プライバシー保証、勾配リーク攻撃に対する高いレジリエンスで最先端の手法より優れていることが示される。 この論文に関連するコードは、https://github.com/git-disl/fed-alphacdp。

This paper presents a holistic approach to gradient leakage resilient distributed Stochastic Gradient Descent (SGD). First, we analyze two types of strategies for privacy-enhanced federated learning: (i) gradient pruning with random selection or low-rank filtering and (ii) gradient perturbation with additive random noise or differential privacy noise. We analyze the inherent limitations of these approaches and their underlying impact on privacy guarantee, model accuracy, and attack resilience. Next, we present a gradient leakage resilient approach to securing distributed SGD in federated learning, with differential privacy controlled noise as the tool. Unlike conventional methods with the per-client federated noise injection and fixed noise parameter strategy, our approach keeps track of the trend of per-example gradient updates. It makes adaptive noise injection closely aligned throughout the federated model training. Finally, we provide an empirical privacy analysis on the privacy guarantee, model utility, and attack resilience of the proposed approach. Extensive evaluation using five benchmark datasets demonstrates that our gradient leakage resilient approach can outperform the state-of-the-art methods with competitive accuracy performance, strong differential privacy guarantee, and high resilience against gradient leakage attacks. The code associated with this paper can be found: https://github.com/git-disl/Fed-alphaCDP.
翻訳日:2023-05-12 16:37:56 公開日:2023-05-10
# 診断・健康管理のためのChatGPTのような大規模基礎モデル:調査とロードマップ

ChatGPT-Like Large-Scale Foundation Models for Prognostics and Health Management: A Survey and Roadmaps ( http://arxiv.org/abs/2305.06472v1 )

ライセンス: Link先を確認
Yan-Fu Li, Huan Wang, Muxia Sun(参考訳) phm(prognostics and health management)技術は、機器の故障や損傷を識別し予測することにより、生産コストとダウンタイムを低減しつつ機器の寿命と信頼性を向上させるために必要な保守措置を講じることにより、産業生産と機器のメンテナンスにおいて重要な役割を果たす。 近年,人工知能(AI)に基づくPHM技術は産業用IoTやビッグデータの文脈において顕著な成果を上げており,鉄道,エネルギー,航空などの様々な産業で状況監視,故障予測,健康管理に広く利用されている。 chatgptやdalle-eのような大規模基礎モデル(lsf-models)の出現は、ai-1.0からai-2.0の新しい時代へのaiの参入を意味し、深層モデルは、シングルモーダル、シングルタスク、限定データの研究パラダイムから、マルチモーダル、マルチタスク、大規模データ、超大規模モデルパラダイムへと急速に進化してきた。 ChatGPTは、この研究パラダイムにおける画期的な成果であり、その高度にインテリジェントな自然言語理解能力のために、汎用人工知能への希望を提供する。 しかし、PHM分野には、このAI分野の重大な変化に対応する方法に関するコンセンサスがなく、今後の開発方向性を解明するためには、体系的なレビューとロードマップが必要である。 このギャップを埋めるために,本稿では,LSFモデルの主要なコンポーネントと最新の開発状況を体系的に解説する。 そこで我々は,PHM タスクに適用可能な LSF-Model の構築方法について体系的に回答し,この研究パラダイムの課題と今後の開発ロードマップを概説した。

Prognostics and health management (PHM) technology plays a critical role in industrial production and equipment maintenance by identifying and predicting possible equipment failures and damages, thereby allowing necessary maintenance measures to be taken to enhance equipment service life and reliability while reducing production costs and downtime. In recent years, PHM technology based on artificial intelligence (AI) has made remarkable achievements in the context of the industrial IoT and big data, and it is widely used in various industries, such as railway, energy, and aviation, for condition monitoring, fault prediction, and health management. The emergence of large-scale foundation models (LSF-Models) such as ChatGPT and DALLE-E marks the entry of AI into a new era of AI-2.0 from AI-1.0, where deep models have rapidly evolved from a research paradigm of single-modal, single-task, and limited-data to a multi-modal, multi-task, massive data, and super-large model paradigm. ChatGPT represents a landmark achievement in this research paradigm, offering hope for general artificial intelligence due to its highly intelligent natural language understanding ability. However, the PHM field lacks a consensus on how to respond to this significant change in the AI field, and a systematic review and roadmap is required to elucidate future development directions. To fill this gap, this paper systematically expounds on the key components and latest developments of LSF-Models. Then, we systematically answered how to build the LSF-Model applicable to PHM tasks and outlined the challenges and future development roadmaps for this research paradigm.
翻訳日:2023-05-12 16:37:18 公開日:2023-05-10
# 実時間シミュレーションアバターのヒューマノイド制御

Perpetual Humanoid Control for Real-time Simulated Avatars ( http://arxiv.org/abs/2305.06456v1 )

ライセンス: Link先を確認
Zhengyi Luo, Jinkun Cao, Alexander Winkler, Kris Kitani, Weipeng Xu(参考訳) 本稿では,ノイズ入力(映像からのポーズ推定や言語からの生成など)や予期せぬ転倒の有無で,忠実な動作模倣とフォールトトレラントな動作を実現する物理ベースのヒューマノイドコントローラを提案する。 制御器は外部の安定化力を使わずに1万本のモーションクリップを学習し、自然に故障状態から回復する。 参照動作が与えられた場合、コントローラはリセットを必要とせずにシミュレートされたアバターを永久に制御できる。 その中核として,新しいネットワーク容量を動的に割り当てて,より困難で難しい動作シーケンスを学習するプログレッシブ乗法制御ポリシー(PMCP)を提案する。 pmcpは大規模なモーションデータベースから学習するための効率的なスケーリングを可能にし、破滅的な忘れることなくフェイルステートリカバリなどの新しいタスクを追加できる。 実時間および実時間多人数アバターのユースケースにおいて,映像ベースポーズ推定器と言語ベースモーションジェネレータのノイズポーズを模倣して,コントローラの有効性を実証する。

We present a physics-based humanoid controller that achieves high-fidelity motion imitation and fault-tolerant behavior in the presence of noisy input (e.g. pose estimates from video or generated from language) and unexpected falls. Our controller scales up to learning ten thousand motion clips without using any external stabilizing forces and learns to naturally recover from fail-state. Given reference motion, our controller can perpetually control simulated avatars without requiring resets. At its core, we propose the progressive multiplicative control policy (PMCP), which dynamically allocates new network capacity to learn harder and harder motion sequences. PMCP allows efficient scaling for learning from large-scale motion databases and adding new tasks, such as fail-state recovery, without catastrophic forgetting. We demonstrate the effectiveness of our controller by using it to imitate noisy poses from video-based pose estimators and language-based motion generators in a live and real-time multi-person avatar use case.
翻訳日:2023-05-12 16:36:32 公開日:2023-05-10
# 自律型GIS:次世代AI搭載GIS

Autonomous GIS: the next-generation AI-powered GIS ( http://arxiv.org/abs/2305.06453v1 )

ライセンス: Link先を確認
Zhenlong Li, Huan Ning(参考訳) ChatGPTのような大規模言語モデル(LLM)は、人間の自然言語を強く理解し、推論、創造的記述、コード生成、翻訳、情報検索など様々な分野で研究され、応用されてきた。 llmを推論コアとして採用することにより,自然言語理解,推論,コーディングにおけるllmの一般的な能力を活用した,自動空間データ収集,解析,可視化を行う自律型地理情報システム(gis)を提案する。 自律的なGISは、自己生成、自己組織化、自己検証、自己実行、自己成長を含む5つの自律的な目標を達成する必要があると期待する。 我々は,これらの5つの自律目標を達成するための自律GISの設計原則を,情報充足性,LLM能力,エージェントアーキテクチャの観点から紹介する。 我々は,Python 環境で GPT-4 API を用いた LLM-Geo というプロトタイプシステムを開発した。 両方のケーススタディにおいて、LLM-Geoは、集計数、グラフ、マップを含む正確な結果の返却に成功した。 ロギングやコードテストなどの重要なモジュールがまだいくつか欠けているが、LLM-Geoは、次世代AIによるGISへの潜在的な道筋を示している。 我々は,GIScienceコミュニティに対して,自律型GISの研究・開発により多くの努力を払って,空間分析をより容易に,より早く,よりアクセスしやすいものにすることを提唱する。

Large Language Models (LLMs), such as ChatGPT, demonstrate a strong understanding of human natural language and have been explored and applied in various fields, including reasoning, creative writing, code generation, translation, and information retrieval. By adopting LLM as the reasoning core, we propose Autonomous GIS, an AI-powered geographic information system (GIS) that leverages the LLM's general abilities in natural language understanding, reasoning and coding for addressing spatial problems with automatic spatial data collection, analysis and visualization. We envision that autonomous GIS will need to achieve five autonomous goals including self-generating, self-organizing, self-verifying, self-executing, and self-growing. We introduce the design principles of autonomous GIS to achieve these five autonomous goals from the aspects of information sufficiency, LLM ability, and agent architecture. We developed a prototype system called LLM-Geo using GPT-4 API in a Python environment, demonstrating what an autonomous GIS looks like and how it delivers expected results without human intervention using two case studies. For both case studies, LLM-Geo successfully returned accurate results, including aggregated numbers, graphs, and maps, significantly reducing manual operation time. Although still lacking several important modules such as logging and code testing, LLM-Geo demonstrates a potential path towards next-generation AI-powered GIS. We advocate for the GIScience community to dedicate more effort to the research and development of autonomous GIS, making spatial analysis easier, faster, and more accessible to a broader audience.
翻訳日:2023-05-12 16:36:15 公開日:2023-05-10
# 人工知能について学ぶこと--K-12コンピューティング教育への提言

What Students Can Learn About Artificial Intelligence -- Recommendations for K-12 Computing Education ( http://arxiv.org/abs/2305.06450v1 )

ライセンス: Link先を確認
Tilman Michaeli and Stefan Seegerer and Ralf Romeike(参考訳) デジタルトランスフォーメーションの文脈における技術進歩は、人工知能(AI)分野における急速な発展の基礎である。 AIはコンピュータサイエンス(CS)では新しい話題ではないが、最近の発展は日常生活や社会に大きな影響を与えている。 その結果、すべての人は、自分の生活や社会に対する人工知能の影響、機会、限界を適切に分析し、議論し、形作る能力を必要とします。 結果として、AIのトピックを含むようにCSキュリキュラの数が増えている。 しかし、既存のCSカリキュラムにAIを統合するためには、学生がAIの文脈で学べるものを明確にする必要がある。 これまでのところ、aiの中心的な概念と原則に関するcsの教育研究には十分な詳細化が欠けているため、これは特に難しいことが証明されている。 そこで本稿では,デジタルリテラシー,特に社会的な視点を扱う学習目標のカリキュラムを提案する。 学習目的は、カリキュラムを包括的に設計するだけでなく、現在のカリキュラムや教材を分析し、AIの中心概念とそれに対応する能力に関する洞察を提供することもできる。

Technological advances in the context of digital transformation are the basis for rapid developments in the field of artificial intelligence (AI). Although AI is not a new topic in computer science (CS), recent developments are having an immense impact on everyday life and society. In consequence, everyone needs competencies to be able to adequately and competently analyze, discuss and help shape the impact, opportunities, and limits of artificial intelligence on their personal lives and our society. As a result, an increasing number of CS curricula are being extended to include the topic of AI. However, in order to integrate AI into existing CS curricula, what students can and should learn in the context of AI needs to be clarified. This has proven to be particularly difficult, considering that so far CS education research on central concepts and principles of AI lacks sufficient elaboration. Therefore, in this paper, we present a curriculum of learning objectives that addresses digital literacy and the societal perspective in particular. The learning objectives can be used to comprehensively design curricula, but also allow for analyzing current curricula and teaching materials and provide insights into the central concepts and corresponding competencies of AI.
翻訳日:2023-05-12 16:35:46 公開日:2023-05-10
# 連続的な表情認識:ベンチマーク

Continual Facial Expression Recognition: A Benchmark ( http://arxiv.org/abs/2305.06448v1 )

ライセンス: Link先を確認
Nikhil Churamani, Tolga Dimlioglu, German I. Parisi and Hatice Gunes(参考訳) 人間の感情的行動を理解すること、特に現実世界の設定の力学において、表情認識(FER)モデルは、ユーザ表現、文脈属性、環境の個人差に継続的に適応する必要がある。 現状(ディープ) 機械学習(ML)ベースのFERアプローチ ベンチマークデータセット上で事前訓練された個別のアプローチでは、対話中にエージェントやロボットが取得したデータしか利用できない実世界のインタラクションのニュアンスをキャプチャできない。 新しい学習は以前の知識のコストがかかるため、破滅的な忘れることになる。 一方、生涯学習または連続学習(CL)は、データ分布の変更に敏感であり、学習前の知識に干渉することなく新たな情報を統合することにより、エージェントの適応性を実現する。 本研究は、FERの効果的な学習パラダイムとしてCLを仮定し、FERタスク上で人気のCL技術を評価するContinuous Facial Expression Recognition (ConFER)ベンチマークを示す。 CK+、RAF-DB、AffectNetといった一般的なFERデータセットに対するCLベースのアプローチの比較分析を行い、ConFER for Affective Computing (AC)研究を成功させるための戦略を示す。 CL技術は、異なる学習環境下で、複数のデータセットにわたる最先端(SOTA)のパフォーマンスを達成することが示されており、特に表情から、人間の行動理解にCL原則を適用することの利点と、それに関連する課題に関する議論の動機となっている。

Understanding human affective behaviour, especially in the dynamics of real-world settings, requires Facial Expression Recognition (FER) models to continuously adapt to individual differences in user expression, contextual attributions, and the environment. Current (deep) Machine Learning (ML)-based FER approaches pre-trained in isolation on benchmark datasets fail to capture the nuances of real-world interactions where data is available only incrementally, acquired by the agent or robot during interactions. New learning comes at the cost of previous knowledge, resulting in catastrophic forgetting. Lifelong or Continual Learning (CL), on the other hand, enables adaptability in agents by being sensitive to changing data distributions, integrating new information without interfering with previously learnt knowledge. Positing CL as an effective learning paradigm for FER, this work presents the Continual Facial Expression Recognition (ConFER) benchmark that evaluates popular CL techniques on FER tasks. It presents a comparative analysis of several CL-based approaches on popular FER datasets such as CK+, RAF-DB, and AffectNet and present strategies for a successful implementation of ConFER for Affective Computing (AC) research. CL techniques, under different learning settings, are shown to achieve state-of-the-art (SOTA) performance across several datasets, thus motivating a discussion on the benefits of applying CL principles towards human behaviour understanding, particularly from facial expressions, as well the challenges entailed.
翻訳日:2023-05-12 16:35:28 公開日:2023-05-10
# 変圧器を用いた抑うつスクリーニングのための動的グラフ表現学習

Dynamic Graph Representation Learning for Depression Screening with Transformer ( http://arxiv.org/abs/2305.06447v1 )

ライセンス: Link先を確認
Ai-Te Kuo, Haiquan Chen, Yu-Hsuan Kuo, Wei-Shinn Ku(参考訳) 精神障害の早期発見は、迅速な介入と治療を可能にするため不可欠であり、精神疾患の緩和に苦しむ個人にとって、成果を大きく改善することができる。 ソーシャルメディアプラットフォーム上でのメンタルヘルスに関する議論の高まりは、メンタルヘルスを調査し、精神疾患の事例を検出する研究機会を提供する。 しかし,既存の抑うつ検出法は,(1)特徴工学への依存,(2)時間変化要因に対する考慮の欠如という2つの大きな制約により制約されている。 具体的には、これらの方法には広範な機能工学とドメイン知識が必要であり、ユーザー生成コンテンツの量、品質、タイプに大きく依存している。 さらに、これらの手法は、ソーシャルメディア上での言語パターンのダイナミクスや対人的対話行動(リプライ、言及、引用ツイートなど)など、うつ病検出における時間変化要因の重要な影響を無視している。 これらの制約に対処するために,con contrastegoでは,各ユーザを動的時間発展型属性グラフ (ego-network) として扱うとともに,教師付きコントラスト学習を用いて異なるスケールでのユーザ表現の一致を最大化するとともに,ユーザ表現の一致を最小化し,抑うつとコントロールグループを区別する。 ContrastEgoは,(1)ユーザの異種対話グラフの構築,(2)グラフニューラルネットワークを用いたユーザのインタラクションスナップショットの表現抽出,(3)注意機構を用いたスナップショットのシーケンスのモデル化,(4)コントラスト学習を用いた抑うつ検出の4つのモジュールを包含する。 twitterのデータによる広範囲な実験は、con contrastegoがさまざまな実験環境でのすべての有効性指標において最先端のメソッドを著しく上回っていることを示している。

Early detection of mental disorder is crucial as it enables prompt intervention and treatment, which can greatly improve outcomes for individuals suffering from debilitating mental affliction. The recent proliferation of mental health discussions on social media platforms presents research opportunities to investigate mental health and potentially detect instances of mental illness. However, existing depression detection methods are constrained due to two major limitations: (1) the reliance on feature engineering and (2) the lack of consideration for time-varying factors. Specifically, these methods require extensive feature engineering and domain knowledge, which heavily rely on the amount, quality, and type of user-generated content. Moreover, these methods ignore the important impact of time-varying factors on depression detection, such as the dynamics of linguistic patterns and interpersonal interactive behaviors over time on social media (e.g., replies, mentions, and quote-tweets). To tackle these limitations, we propose an early depression detection framework, ContrastEgo treats each user as a dynamic time-evolving attributed graph (ego-network) and leverages supervised contrastive learning to maximize the agreement of users' representations at different scales while minimizing the agreement of users' representations to differentiate between depressed and control groups. ContrastEgo embraces four modules, (1) constructing users' heterogeneous interactive graphs, (2) extracting the representations of users' interaction snapshots using graph neural networks, (3) modeling the sequences of snapshots using attention mechanism, and (4) depression detection using contrastive learning. Extensive experiments on Twitter data demonstrate that ContrastEgo significantly outperforms the state-of-the-art methods in terms of all the effectiveness metrics in various experimental settings.
翻訳日:2023-05-12 16:35:01 公開日:2023-05-10
# マルチエージェント強化学習:非同期通信と線形関数近似

Multi-agent Reinforcement Learning: Asynchronous Communication and Linear Function Approximation ( http://arxiv.org/abs/2305.06446v1 )

ライセンス: Link先を確認
Yifei Min, Jiafan He, Tianhao Wang, Quanquan Gu(参考訳) 本研究では,複数のエージェントが中央サーバを介して通信を介して協調するエピソディックマルコフ決定プロセスの設定において,マルチエージェント強化学習について検討する。 本稿では,低通信オーバヘッドによる協調の利点を確保しつつ,非同期通信を可能にする価値反復に基づく効率の良いアルゴリズムを提案する。 線形関数近似により、このアルゴリズムが$\tilde{\mathcal{o}}(d^{3/2}h^2\sqrt{k})$ regret with $\tilde{\mathcal{o}}(dhm^2)$ 通信複雑性を享受できることが証明される。 また、最小の$\Omega(dM)$通信の複雑さがコラボレーションによるパフォーマンス向上に必要であることを示す低いバウンダリも提供します。

We study multi-agent reinforcement learning in the setting of episodic Markov decision processes, where multiple agents cooperate via communication through a central server. We propose a provably efficient algorithm based on value iteration that enable asynchronous communication while ensuring the advantage of cooperation with low communication overhead. With linear function approximation, we prove that our algorithm enjoys an $\tilde{\mathcal{O}}(d^{3/2}H^2\sqrt{K})$ regret with $\tilde{\mathcal{O}}(dHM^2)$ communication complexity, where $d$ is the feature dimension, $H$ is the horizon length, $M$ is the total number of agents, and $K$ is the total number of episodes. We also provide a lower bound showing that a minimal $\Omega(dM)$ communication complexity is required to improve the performance through collaboration.
翻訳日:2023-05-12 16:34:29 公開日:2023-05-10
# 宝物:ディープニューラルネットワークの類似性を利用した効率的なビデオ処理

Treasure What You Have: Exploiting Similarity in Deep Neural Networks for Efficient Video Processing ( http://arxiv.org/abs/2305.06492v1 )

ライセンス: Link先を確認
Hadjer Benmeziane, Halima Bouzidi, Hamza Ouarnoughi, Ozcan Ozturk and Smail Niar(参考訳) ディープラーニングによって、さまざまなモノのインターネット(IoT)アプリケーションが実現された。 それでも、特にリアルタイムビデオ処理アプリケーションにおいて、高精度で計算効率の高いモデルの設計は重要な課題である。 このような応用はフレーム間の高い冗長性を示し、さらなる改善を可能にする。 本稿では,ビデオフレームにおけるデータ冗長性を利用した類似性認識学習手法を提案する。 本手法では, トレーニング時の重みの類似性を高めることにより, 計算再利用の促進を図る。 本手法は,車線検出とシーン解析という2つの重要なリアルタイムアプリケーション上で検証する。 同じ精度を維持しながら,各モデルの平均圧縮比が約50%,速度アップが0sim 1.5xであった。

Deep learning has enabled various Internet of Things (IoT) applications. Still, designing models with high accuracy and computational efficiency remains a significant challenge, especially in real-time video processing applications. Such applications exhibit high inter- and intra-frame redundancy, allowing further improvement. This paper proposes a similarity-aware training methodology that exploits data redundancy in video frames for efficient processing. Our approach introduces a per-layer regularization that enhances computation reuse by increasing the similarity of weights during training. We validate our methodology on two critical real-time applications, lane detection and scene parsing. We observe an average compression ratio of approximately 50% and a speedup of \sim 1.5x for different models while maintaining the same accuracy.
翻訳日:2023-05-12 16:26:35 公開日:2023-05-10
# タスク完了のためのマルチモーダルコンテクスト化計画予測

Multimodal Contextualized Plan Prediction for Embodied Task Completion ( http://arxiv.org/abs/2305.06485v1 )

ライセンス: Link先を確認
Mert \.Inan, Aishwarya Padmakumar, Spandana Gella, Patrick Lange, Dilek Hakkani-Tur(参考訳) タスクプランニングは従来のロボットシステムにおいて重要なコンポーネントであり、ロボットがより複雑なタスクを実行するためのきめ細かいスキルを組み立てることができる。 近年, 自然言語をタスク完了のための実行可能なアクションに翻訳する作業ビルディングシステムは, ロボットが直接実行可能な低レベルのアクションシーケンスを直接予測することに焦点を当てている。 本研究は,自然言語による高レベル計画予測技術が,物理ロボットシステムにより伝達可能であることを前提として,そのような具体化されたタスク完了データセット - TEACh の高レベル計画表現の予測に焦点をあてる。 我々は,マルチモーダル・コンテキストを用いてより良い計画を予測することができ,計画予測と計画実行モジュールは相互に依存する可能性が高く,それらを完全に分離することが理想的ではないことを実証する。 さらに,計画予測モデルの改善範囲を定量化するために,オラクル計画の実行をベンチマークする。

Task planning is an important component of traditional robotics systems enabling robots to compose fine grained skills to perform more complex tasks. Recent work building systems for translating natural language to executable actions for task completion in simulated embodied agents is focused on directly predicting low level action sequences that would be expected to be directly executable by a physical robot. In this work, we instead focus on predicting a higher level plan representation for one such embodied task completion dataset - TEACh, under the assumption that techniques for high-level plan prediction from natural language are expected to be more transferable to physical robot systems. We demonstrate that better plans can be predicted using multimodal context, and that plan prediction and plan execution modules are likely dependent on each other and hence it may not be ideal to fully decouple them. Further, we benchmark execution of oracle plans to quantify the scope for improvement in plan prediction models.
翻訳日:2023-05-12 16:26:24 公開日:2023-05-10
# 離散変調CVQKDプロトコルの収束状態分布

Converging State Distributions for Discrete Modulated CVQKD Protocols ( http://arxiv.org/abs/2305.06484v1 )

ライセンス: Link先を確認
Micael Andrade Dias and Francisco Marcos de Assis(参考訳) 量子チャネル上で秘密鍵を分配するために有限個のコヒーレント状態を使う問題を考える。 このシナリオにおける正確な秘密鍵レートの計算はヒルベルト空間の無限次元性のため難解であり、通常、プロトコルの絡み合ったバージョンでガウス等価な二成分状態を用いて下限を計算することは、セキュリティのために秘密鍵を生成する実際のプロトコル能力の過小評価につながる。 ここで、qkdプロトコルの非ガウス性(non-gaussianity)を定義し、非ガウス変調を用いた場合のガウスモデルの仮定によって失われた秘密鍵レートの量を定量化する関数である。 awgnチャネル容量に近づく確率変数によってコヒーレント状態の集合が引き起こされると、プロトコルの非ガウス性は消滅し、秘密鍵レートに縛られるガウスモデルを用いて秘密鍵レートが失われることはない。 その結果,gauss-hermite形状を持つ256-qamを使用することで,秘密鍵レートの損失は,距離が大きくなるにつれて急速に10^{-5}$以下となることがわかった。

Consider the problem of using a finite set of coherent states to distribute secret keys over a quantum channel. It is known that computing the exact secret key rate in this scenario is intractable due to the infinite dimensionality of the Hilbert spaces and usually one computes a lower bound using a Gaussian equivalent bipartite state in the entangled based version of the protocol, which leads to underestimating the actual protocol capability of generating secret keys for the sake of security. Here, we define the QKD protocol's non-Gaussianity, a function quantifying the amount of secret key rate lost due to assuming a Gaussian model when a non-Gaussian modulation was used, and develop relevant properties for it. We show that if the set of coherent states is induced by a random variable approaching the AWGN channel capacity, then the protocol's non-Gaussianity vanishes, meaning that there is no loss of secret key rate due to the use of a Gaussian model for computing bound on the secret key rate. The numerical results show that by using a 256-QAM with Gauss-Hermite shaping, the loss of secret key rate quickly falls below $10^{-5}$ as the distance increases.
翻訳日:2023-05-12 16:26:07 公開日:2023-05-10
# 樹木復元のためのL-System Captioningに向けて

Towards L-System Captioning for Tree Reconstruction ( http://arxiv.org/abs/2305.06483v1 )

ライセンス: Link先を確認
Jannes S. Magnusson, Anna Hilsmann, Peter Eisert(参考訳) 本研究は,画像データからlindenmayer-system (l-system) ワード表現を直接推定し,画像キャプション手法を用いて木と植物を再構築する新しい概念を提案する。 与えられた画像をL-System語に変換できるモデルエンドツーエンドを,表示されたツリーの記述としてトレーニングする。 この概念を証明するため、2d木トポロジーの適用性を示す。 実際の画像データに転送されるこの新しいアイデアは、エラーが発生しやすい点雲の抽出を使わずに、より効率的で正確で意味的に有意な木と植物の再構築に繋がる可能性がある。 さらに、この手法は、事前に定義されたL-システム文法の必要性を回避し、生物学的知識のない種特異的L-システム推論を可能にする。

This work proposes a novel concept for tree and plant reconstruction by directly inferring a Lindenmayer-System (L-System) word representation from image data in an image captioning approach. We train a model end-to-end which is able to translate given images into L-System words as a description of the displayed tree. To prove this concept, we demonstrate the applicability on 2D tree topologies. Transferred to real image data, this novel idea could lead to more efficient, accurate and semantically meaningful tree and plant reconstruction without using error-prone point cloud extraction, and other processes usually utilized in tree reconstruction. Furthermore, this approach bypasses the need for a predefined L-System grammar and enables species-specific L-System inference without biological knowledge.
翻訳日:2023-05-12 16:25:44 公開日:2023-05-10
# ST-GIN:時空間グラフアテンションと双方向再帰型ニューラルネットを用いた交通データインプットの不確かさ定量化手法

ST-GIN: An Uncertainty Quantification Approach in Traffic Data Imputation with Spatio-temporal Graph Attention and Bidirectional Recurrent United Neural Networks ( http://arxiv.org/abs/2305.06480v1 )

ライセンス: Link先を確認
Zepu Wang, Dingyi Zhuang, Yankai Li, Jinhua Zhao, Peng Sun(参考訳) 交通データは、インテリジェント交通システムにおける研究と応用の両方において、基本的な要素となっている。 しかし、ループ検出器や類似のソースから収集された実世界の輸送データは、しばしば、関連するアプリケーションや研究に悪影響を及ぼすような欠落値(MV)を含んでいる。 この不完全なデータを破棄する代わりに、数値統計、テンソル分解、深層学習技術を通じて、これらの欠落した値を復元しようと試みてきた。 本稿では,欠落データに対する革新的な深層学習手法を提案する。 トラフィックデータに存在する空間的相関を捉えるためにグラフアテンションアーキテクチャを用い、双方向ニューラルネットワークを用いて時間的情報を学ぶ。 実験の結果,提案手法は他のベンチマーク手法よりも優れており,その有効性が示された。

Traffic data serves as a fundamental component in both research and applications within intelligent transportation systems. However, real-world transportation data, collected from loop detectors or similar sources, often contain missing values (MVs), which can adversely impact associated applications and research. Instead of discarding this incomplete data, researchers have sought to recover these missing values through numerical statistics, tensor decomposition, and deep learning techniques. In this paper, we propose an innovative deep-learning approach for imputing missing data. A graph attention architecture is employed to capture the spatial correlations present in traffic data, while a bidirectional neural network is utilized to learn temporal information. Experimental results indicate that our proposed method outperforms all other benchmark techniques, thus demonstrating its effectiveness.
翻訳日:2023-05-12 16:25:30 公開日:2023-05-10
# 有限ホリゾン半マルコフ決定過程における後悔最小化アルゴリズムのオプション依存解析

An Option-Dependent Analysis of Regret Minimization Algorithms in Finite-Horizon Semi-Markov Decision Processes ( http://arxiv.org/abs/2305.06936v1 )

ライセンス: Link先を確認
Gianluca Drappo, Alberto Maria Metelli, Marcello Restelli(参考訳) 現実世界の強化学習(RL)タスクは、エンドツーエンド(あるいはフラット)アプローチをほとんど適用できない、あるいは実現不可能にする複雑で異質な構造によって特徴づけられる。 階層的強化学習(hrl)は、タスクの便利でマルチレベルな分解によって、これらの問題を解決する一般的なソリューションを提供する。 実際にしばしば用いられるが、この結果を効果的に正当化する理論的な保証を提供する作品はほとんどない。 したがって、そのようなアプローチが標準平坦なアプローチよりもいつ好まれるかは、まだ明らかになっていない。 本研究では,有限ホライズン問題における後悔最小化アルゴリズムに苦しむ後悔に対して,オプション依存の上限を与える。 性能改善は,階層構造によって強制される時間的抽象化によって引き起こされる計画的地平線低減によるものである。 次に、HRLアプローチ、オプションフレームワークのサブセットに焦点を当て、利用可能なオプションの平均的な持続時間が計画の地平線にどのように影響するかを強調し、その結果、後悔そのものを取り上げます。 最後に、特定の状況において、スクラッチから階層的に学習することが、標準アプローチを使用するよりも望ましいことを示すために、事前訓練されたオプションを持つことの仮定を緩和する。

A large variety of real-world Reinforcement Learning (RL) tasks is characterized by a complex and heterogeneous structure that makes end-to-end (or flat) approaches hardly applicable or even infeasible. Hierarchical Reinforcement Learning (HRL) provides general solutions to address these problems thanks to a convenient multi-level decomposition of the tasks, making their solution accessible. Although often used in practice, few works provide theoretical guarantees to justify this outcome effectively. Thus, it is not yet clear when to prefer such approaches compared to standard flat ones. In this work, we provide an option-dependent upper bound to the regret suffered by regret minimization algorithms in finite-horizon problems. We illustrate that the performance improvement derives from the planning horizon reduction induced by the temporal abstraction enforced by the hierarchical structure. Then, focusing on a sub-setting of HRL approaches, the options framework, we highlight how the average duration of the available options affects the planning horizon and, consequently, the regret itself. Finally, we relax the assumption of having pre-trained options to show how in particular situations, learning hierarchically from scratch could be preferable to using a standard approach.
翻訳日:2023-05-12 14:04:54 公開日:2023-05-10
# 人間は今でもchatgptより優れている:ieeextremeコンペティションのケース

Humans are Still Better than ChatGPT: Case of the IEEEXtreme Competition ( http://arxiv.org/abs/2305.06934v1 )

ライセンス: Link先を確認
Anis Koubaa, Basit Qureshi, Adel Ammar, Zahid Khan, Wadii Boulila, Lahouari Ghouti(参考訳) chatgptがリリースされて以来、多くの研究が、さまざまなタスクやドメインで人間の能力に匹敵する、あるいは超えているchatgptの驚くべき性能を強調してきた。 しかし,本論文では,ChatGPTに適したタスク,特にコンピュータプログラミングの分野において,人間のパフォーマンスが卓越する事例を示すことによって,対照的な視点を示す。 我々はIEEExtreme Challengeコンペティションを、さまざまな複雑さの幅広い問題を含む、毎年恒例の国際プログラミングコンテストであるベンチマークとして利用しています。 徹底的な評価を行うため、python、java、c++の3つの主要なプログラミング言語を使用して、5つの異なるieeextremeエディションから引き出された、さまざまな102の課題を選択し、実行しました。 私たちの経験的分析は、一般的な信念に反して、人間のプログラマがChatGPTに対して、プログラミングコンテキストにおける問題解決の特定の側面において、競争力のあるエッジを維持していることを示す。 実際、ieeextremeプログラミング問題のセットでchatgptによって得られた平均スコアは、プログラミング言語によって、平均人間のスコアの3.9倍から5.8倍低いことがわかった。 本稿では、ChatGPTのようなAIベースの言語モデルの限界と潜在的な改善領域に関する重要な洞察を提供する。

Since the release of ChatGPT, numerous studies have highlighted the remarkable performance of ChatGPT, which often rivals or even surpasses human capabilities in various tasks and domains. However, this paper presents a contrasting perspective by demonstrating an instance where human performance excels in typical tasks suited for ChatGPT, specifically in the domain of computer programming. We utilize the IEEExtreme Challenge competition as a benchmark, a prestigious, annual international programming contest encompassing a wide range of problems with different complexities. To conduct a thorough evaluation, we selected and executed a diverse set of 102 challenges, drawn from five distinct IEEExtreme editions, using three major programming languages: Python, Java, and C++. Our empirical analysis provides evidence that contrary to popular belief, human programmers maintain a competitive edge over ChatGPT in certain aspects of problem-solving within the programming context. In fact, we found that the average score obtained by ChatGPT on the set of IEEExtreme programming problems is 3.9 to 5.8 times lower than the average human score, depending on the programming language. This paper elaborates on these findings, offering critical insights into the limitations and potential areas of improvement for AI-based language models like ChatGPT.
翻訳日:2023-05-12 14:04:35 公開日:2023-05-10
# 長鎖周波数におけるMarshall-Olkin電力線分布

Marshall-Olkin Power-Law Distributions in Length-Frequency of Entities ( http://arxiv.org/abs/1811.03325v4 )

ライセンス: Link先を確認
Xiaoshi Zhong and Xiang Yu and Erik Cambria and Jagath C. Rajapakse(参考訳) 実体は具体的な意味を持つ重要な概念を含み、多くの言語課題において重要な役割を果たす。 エンティティは異なるタスクで異なるフォームを持ち、研究者はそれらのフォームを異なる概念として扱う。 本稿では,これらの異なる形態の実体をつなぐ共通的な特徴が存在するかどうかを知りたい。 具体的には、異なる型や異なる言語からのエンティティの基盤となる分布を調べ、それらの多様なエンティティの背後にある共通の特性を解明しようとする。 異なるタイプのエンティティに関する12のデータセットと、異なる言語のエンティティに関する18のデータセットから、これらのエンティティは様々な点で劇的に多様であるが、その長さ周波数はMarshall-Olkin Power-law(MOPL)分布によって特徴付けられる。 実験の結果、全ての実体が同じ集団から引き出されるわけではないが、同じタイプの実体は同じ分布から引き出される傾向にあることがわかった。 我々の実験では、マーシャル・オルキン・パワーローモデルが純粋なパワーローモデルや対数正規モデルよりも、エンティティの長さ-頻度を特徴付けることも示しています。

Entities involve important concepts with concrete meanings and play important roles in numerous linguistic tasks. Entities have different forms in different tasks and researchers treat those forms as different concepts. In this paper, we are curious to know whether there are some common characteristics connecting those different forms of entities. Specifically, we investigate the underlying distributions of entities from different types and different languages, trying to figure out some common properties behind those diverse entities. We find from twelve datasets about different types of entities and eighteen datasets about different languages of entities that although these entities are dramatically diverse from each in many aspects, their length-frequencies can be well characterized by Marshall-Olkin power-law (MOPL) distributions, and these distributions possess defined means and finite variances. Our experiments show that while not all the entities are drawn from the same underlying population, those entities under same types tend to be drawn from the same distribution. Our experiments also show that Marshall-Olkin power-law models characterize the length-frequencies of entities much better than pure power-law models and log-normal models.
翻訳日:2023-05-11 18:39:22 公開日:2023-05-10
# BBB-Voting:1対1のブロックチェーンベースのボードルーム投票

BBB-Voting: 1-out-of-k Blockchain-Based Boardroom Voting ( http://arxiv.org/abs/2010.09112v4 )

ライセンス: Link先を確認
Sarad Venugopalan, Ivan Homoliak, Zengpeng Li, Pawel Szalachowski(参考訳) 投票は利用可能な選択肢(例えば候補者)に基づいた集団決定に同意する手段であり、参加者は結果に従うことに同意する。 電子投票のいくつかの機能を改善するために、分散化されたブロックチェーンベースのソリューションを採用することができる。ブロックチェーンは、集中型掲示板とは対照的に、極めて高可用性、検閲耐性、正しいコード実行を提供する公開掲示板を表す。 ブロックチェーンは、投票システム内のすべてのエンティティが、不変性と追加のみの機能のため、他のエンティティによるアクションと同じビューを持つことを保証する。 既存のリモートブロックチェーンベースのボードルーム投票ソリューションであるOpen Voting Network(OVN)は、投票のプライバシ、普遍性とエンドツーエンドの検証性、完璧な投票秘密を提供する。 BBB-VotingはOVNのような分散型投票に等価なブロックチェーンベースのアプローチであるが、それとは対照的に、BBB-Votingは1-out-of-k$の選択をサポートし、停滞する参加者からのリカバリを可能にする堅牢性を提供する。 我々はEthereum Enterprise Alliance標準を尊重するEthereumベースの環境を用いてコスト最適化実装を行い、OVNと比較し、通常のガス消費の13.5%のコスト削減を実現した。 最後に、BBB-Votingは、権威と計算能力によって支払われる費用によって制限された参加者数をサポートするためにどのように拡張できるかを示す。

Voting is a means to agree on a collective decision based on available choices (e.g., candidates), where participants agree to abide by their outcome. To improve some features of e-voting, decentralized blockchain-based solutions can be employed, where the blockchain represents a public bulletin board that in contrast to a centralized bulletin board provides extremely high availability, censorship resistance, and correct code execution. A blockchain ensures that all entities in the voting system have the same view of the actions made by others due to its immutability and append-only features. The existing remote blockchain-based boardroom voting solution called Open Voting Network (OVN) provides the privacy of votes, universal & End-to-End verifiability, and perfect ballot secrecy; however, it supports only two choices and lacks robustness enabling recovery from stalling participants. We present BBB-Voting, an equivalent blockchain-based approach for decentralized voting such as OVN, but in contrast to it, BBB-Voting supports 1-out-of-$k$ choices and provides robustness that enables recovery from stalling participants. We make a cost-optimized implementation using an Ethereum-based environment respecting Ethereum Enterprise Alliance standards, which we compare with OVN and show that our work decreases the costs for voters by 13.5% in normalized gas consumption. Finally, we show how BBB-Voting can be extended to support the number of participants limited only by the expenses paid by the authority and the computing power to obtain the tally.
翻訳日:2023-05-11 18:15:32 公開日:2023-05-10
# スピン交換衝突下でのスピンスクイーズ状態の秒間観察

Observing spin-squeezed states under spin-exchange collisions for a second ( http://arxiv.org/abs/2007.01964v3 )

ライセンス: Link先を確認
Meng-Zi Huang, Jose Alberto de la Paz, Tommaso Mazzoni, Konstantin Ott, Peter Rosenbusch, Alice Sinatra, Carlos L. Garrido Alzar and Jakob Reichel(参考訳) チップ上に閉じ込められた原子時計のプラットフォームを用いて、超低温ルビジウム原子におけるスピン配列超微細構造の時間発展を1 sまでの時間スケールで観察する。 スピン自由度は0.6秒後に圧縮され続け、これは粒子損失による制限と一致し、最先端のマイクロ波時計における典型的なラムゼー時間と互換性がある。 結果はまた、スピンと外部自由度の間の相関によって空洞に基づくスピン測定を増幅する驚くべきスピン交換相互作用効果も明らかにした。 これらの結果は、メロジカルな状態にあるスクイージングの原子時計の視点を開き、スピンスクイージングの現実的な応用におけるスピン相互作用の重要性を強調する。

Using the platform of a trapped-atom clock on a chip, we observe the time evolution of spin-squeezed hyperfine clock states in ultracold rubidium atoms on previously inaccessible timescales up to 1 s. The spin degree-of-freedom remains squeezed after 0.6 s, which is consistent with the limit imposed by particle loss and is compatible with typical Ramsey times in state-of-the-art microwave clocks. The results also reveal a surprising spin-exchange interaction effect that amplifies the cavity-based spin measurement via a correlation between spin and external degrees of freedom. These results open up perspectives for squeezing-enhanced atomic clocks in a metrologically relevant regime and highlight the importance of spin interactions in real-life applications of spin squeezing.
翻訳日:2023-05-11 18:13:55 公開日:2023-05-10
# スピン交換衝突下でのスピンスクイーズ状態の秒間観察

Observing spin-squeezed states under spin-exchange collisions for a second ( http://arxiv.org/abs/2007.01964v2 )

ライセンス: Link先を確認
Meng-Zi Huang, Jose Alberto de la Paz, Tommaso Mazzoni, Konstantin Ott, Peter Rosenbusch, Alice Sinatra, Carlos L. Garrido Alzar and Jakob Reichel(参考訳) チップ上に閉じ込められた原子時計のプラットフォームを用いて、超低温ルビジウム原子におけるスピン配列超微細構造の時間発展を1 sまでの時間スケールで観察する。 スピン自由度は0.6秒後に圧縮され続け、これは粒子損失による制限と一致し、最先端のマイクロ波時計における典型的なラムゼー時間と互換性がある。 結果はまた、スピンと外部自由度の間の相関によって空洞に基づくスピン測定を増幅する驚くべきスピン交換相互作用効果も明らかにした。 これらの結果は、メロジカルな状態にあるスクイージングの原子時計の視点を開き、スピンスクイージングの現実的な応用におけるスピン相互作用の重要性を強調する。

Using the platform of a trapped-atom clock on a chip, we observe the time evolution of spin-squeezed hyperfine clock states in ultracold rubidium atoms on previously inaccessible timescales up to 1 s. The spin degree-of-freedom remains squeezed after 0.6 s, which is consistent with the limit imposed by particle loss and is compatible with typical Ramsey times in state-of-the-art microwave clocks. The results also reveal a surprising spin-exchange interaction effect that amplifies the cavity-based spin measurement via a correlation between spin and external degrees of freedom. These results open up perspectives for squeezing-enhanced atomic clocks in a metrologically relevant regime and highlight the importance of spin interactions in real-life applications of spin squeezing.
翻訳日:2023-05-11 18:13:40 公開日:2023-05-10
# 二段階最適化におけるサドル点の効率的なエスケープ

Efficiently Escaping Saddle Points in Bilevel Optimization ( http://arxiv.org/abs/2202.03684v2 )

ライセンス: Link先を確認
Minhui Huang, Xuxing Chen, Kaiyi Ji, Shiqian Ma and Lifeng Lai(参考訳) バイレベル最適化は、機械学習と最適化における根本的な問題の1つである。 両レベル最適化の最近の理論的発展は、非凸-強凸の場合の1次定常点の発見に焦点を当てている。 本稿では,非凸凸二値最適化において,サドル点を回避できるアルゴリズムを解析する。 具体的には、温かい開始戦略を持つ摂動的擬似微分(AID)は、高い確率で$\tilde{O}(\epsilon^{-2})$反復において、局所的な二レベル最適化の$\epsilon$-approximateの最小値を求める。 さらに, サドル点を回避し, 確率的二値最適化の局所最小値を求める純粋一階アルゴリズムであるineon(inexact negative-curvature-originated-from-noise algorithm)を提案する。 副産物として、ミニマックス問題に対して局所ミニマックス点に収束する摂動多段勾配勾配上昇(GDmax)アルゴリズムの最初の漸近解析を行う。

Bilevel optimization is one of the fundamental problems in machine learning and optimization. Recent theoretical developments in bilevel optimization focus on finding the first-order stationary points for nonconvex-strongly-convex cases. In this paper, we analyze algorithms that can escape saddle points in nonconvex-strongly-convex bilevel optimization. Specifically, we show that the perturbed approximate implicit differentiation (AID) with a warm start strategy finds $\epsilon$-approximate local minimum of bilevel optimization in $\tilde{O}(\epsilon^{-2})$ iterations with high probability. Moreover, we propose an inexact NEgative-curvature-Originated-from-Noise Algorithm (iNEON), a pure first-order algorithm that can escape saddle point and find local minimum of stochastic bilevel optimization. As a by-product, we provide the first nonasymptotic analysis of perturbed multi-step gradient descent ascent (GDmax) algorithm that converges to local minimax point for minimax problems.
翻訳日:2023-05-11 18:07:30 公開日:2023-05-10
# GAP-Gen: ガイド付きPythonコード生成

GAP-Gen: Guided Automatic Python Code Generation ( http://arxiv.org/abs/2201.08810v2 )

ライセンス: Link先を確認
Junchen Zhao, Yurun Song, Junlin Wang, Ian G. Harris(参考訳) 自然言語記述からの自動コード生成は、ソフトウェア開発の過程で非常に有益である。 本稿では,Pythonの構文制約と意味制約に基づくガイド付きPythonコード生成手法であるGAP-Genを提案する。 我々はまず、抽象構文木(AST)の簡易版であるSyntax-Flowという形でPython構文制約を導入し、抽象構文木のサイズと複雑さを低減し、Pythonコードの重要な構文情報を維持する。 Syntax-Flowに加えて、変数と関数名を一貫したコードを通じて抽象化する可変フローを導入します。 そこで本研究では,Pythonの自動コード生成タスクにおいて,高速な処理性能を保ちながら,計算要求を低減したファインタニングプロセスの修正に重点を置いている。 GAP-Genは、CodeSearchNet、CodeSearchNet AdvTest、EdinburghNLPのCode-Docstring Corpusを使用して、トランスフォーマーベースの言語モデルT5とCodeT5を微調整する。 実験の結果,GAP-GenはPythonの自動コード生成タスクにおいて,従来の作業よりも優れた結果が得られることがわかった。

Automatic code generation from natural language descriptions can be highly beneficial during the process of software development. In this work, we propose GAP-Gen, a Guided Automatic Python Code Generation method based on Python syntactic constraints and semantic constraints. We first introduce Python syntactic constraints in the form of Syntax-Flow, which is a simplified version of Abstract Syntax Tree (AST) reducing the size and high complexity of Abstract Syntax Tree but maintaining crucial syntactic information of Python code. In addition to Syntax-Flow, we introduce Variable-Flow which abstracts variable and function names consistently through out the code. In our work, rather than pretraining, we focus on modifying the finetuning process which reduces computational requirements but retains high generation performance on automatic Python code generation task. GAP-Gen fine-tunes the transformer based language models T5 and CodeT5 using the Code-to-Docstring datasets CodeSearchNet, CodeSearchNet AdvTest and Code-Docstring Corpus from EdinburghNLP. Our experiments show that GAP-Gen achieves better results on automatic Python code generation task than previous works.
翻訳日:2023-05-11 18:06:22 公開日:2023-05-10
# more is less: 過剰パラメータによるスパーシティの誘発

More is Less: Inducing Sparsity via Overparameterization ( http://arxiv.org/abs/2112.11027v5 )

ライセンス: Link先を確認
Hung-Hsu Chou, Johannes Maly, Holger Rauhut(参考訳) ディープラーニングでは、トレーニングサンプルよりも多くのパラメータを使用するニューラルネットワークの過剰パラメータ化が一般的です。 確率的な)勾配降下によるニューラルネットワークのトレーニングは、非常によく一般化されるモデルにつながり、古典的な統計では過剰フィットが示唆される。 この暗黙のバイアス現象を理解するために,本研究では,単独で関心のあるスパースリカバリ(圧縮センシング)の特別な事例について検討する。 より正確には、ベクトルを過度に決定された線形測度から再構成するために、対応する過パラメータ化二乗損失関数を導入し、再構成するベクトルをいくつかのベクトルに深く分解する。 正確な解が存在する場合、過パラメータ化された損失関数に対するバニラ勾配流は、最小の$\ell_1$-normの解のよい近似に収束する。 後者はスパースソリューションを促進することでよく知られている。 副産物として, 先行研究から得られた過パラメータモデルにおいて, 勾配流/減光による圧縮センシングの試料複雑性を著しく改善した。 この理論は数値実験の回収率を正確に予測する。 我々の証明は、流れのあるブレグマンの発散を分析することに依存している。 これは非凸性による障害を回避し、独立した関心を持つべきである。

In deep learning it is common to overparameterize neural networks, that is, to use more parameters than training samples. Quite surprisingly training the neural network via (stochastic) gradient descent leads to models that generalize very well, while classical statistics would suggest overfitting. In order to gain understanding of this implicit bias phenomenon we study the special case of sparse recovery (compressed sensing) which is of interest on its own. More precisely, in order to reconstruct a vector from underdetermined linear measurements, we introduce a corresponding overparameterized square loss functional, where the vector to be reconstructed is deeply factorized into several vectors. We show that, if there exists an exact solution, vanilla gradient flow for the overparameterized loss functional converges to a good approximation of the solution of minimal $\ell_1$-norm. The latter is well-known to promote sparse solutions. As a by-product, our results significantly improve the sample complexity for compressed sensing via gradient flow/descent on overparameterized models derived in previous works. The theory accurately predicts the recovery rate in numerical experiments. Our proof relies on analyzing a certain Bregman divergence of the flow. This bypasses the obstacles caused by non-convexity and should be of independent interest.
翻訳日:2023-05-11 18:06:01 公開日:2023-05-10
# 生物学的刺激による活性化関数は、生体と人工ニューロンのパフォーマンスギャップを橋渡しできる

Biologically Inspired Oscillating Activation Functions Can Bridge the Performance Gap between Biological and Artificial Neurons ( http://arxiv.org/abs/2111.04020v4 )

ライセンス: Link先を確認
Matthew Mithra Noel, Shubham Bharadwaj, Venkataraman Muthiah-Nakarajan, Praneet Dutta, Geraldine Bessie Amali(参考訳) XOR関数を個別に学習できるヒト新皮質錐体ニューロンの最近の発見は、生物学的および人工ニューロン間の顕著なパフォーマンスギャップを強調している。 これらの錐体ニューロンの出力は、入力によって最大まで増加し、その後減少する。 同様の特性を持つ人工ニューロンは振動活性化関数で設計することができる。 振動活性化関数は複数のゼロを持ち、単一ニューロンが決定境界に複数の超平面を持つことができる。 これにより、単一ニューロンでもXOR関数を学習することができる。 本稿では、XOR関数を個別に学習できる、ヒト錐体ニューロンにインスパイアされた4つの新しい振動活性化関数を提案する。 振動活性化関数は、一般的なアクティベーション関数とは異なり、全ての入力に対して非飽和であり、勾配流の改善とより高速な収束をもたらす。 一般的なモノトニックや非モノトニックなシングルゼロアクティベーション関数の代わりに発振活性化関数を使用すると、ニューラルネットワークはより速くトレーニングし、少ない層で分類問題を解くことができる。 CIFAR10, CIFAR100, Imagentteベンチマークにおける23個のアクティベーション関数の広範囲な比較を行い, 本論文で提案する発振アクティベーション関数は, 広く知られているアクティベーション関数よりも優れていることを示す。

The recent discovery of special human neocortical pyramidal neurons that can individually learn the XOR function highlights the significant performance gap between biological and artificial neurons. The output of these pyramidal neurons first increases to a maximum with input and then decreases. Artificial neurons with similar characteristics can be designed with oscillating activation functions. Oscillating activation functions have multiple zeros allowing single neurons to have multiple hyper-planes in their decision boundary. This enables even single neurons to learn the XOR function. This paper proposes four new oscillating activation functions inspired by human pyramidal neurons that can also individually learn the XOR function. Oscillating activation functions are non-saturating for all inputs unlike popular activation functions, leading to improved gradient flow and faster convergence. Using oscillating activation functions instead of popular monotonic or non-monotonic single-zero activation functions enables neural networks to train faster and solve classification problems with fewer layers. An extensive comparison of 23 activation functions on CIFAR 10, CIFAR 100, and Imagentte benchmarks is presented and the oscillating activation functions proposed in this paper are shown to outperform all known popular activation functions.
翻訳日:2023-05-11 18:05:43 公開日:2023-05-10
# ファウショット学習のためのスパース空間変換器

Sparse Spatial Transformers for Few-Shot Learning ( http://arxiv.org/abs/2109.12932v3 )

ライセンス: Link先を確認
Haoxing Chen and Huaxiong Li and Yaohui Li and Chunlin Chen(参考訳) 限られたデータから学ぶことは、データの不足がトレーニングされたモデルの一般化を損なうため、難しい。 古典的グローバルプール表現はおそらく有用なローカル情報を失うだろう。 近年,この課題に対して深層記述子を用いて画素レベルのメトリクスを学習する手法が数多く提案されている。 しかし、ディープディスクリプタを特徴表現として使うと、画像のコンテキスト情報を失う可能性がある。 さらに、これらのメソッドのほとんどは、個別にサポートセットの各クラスに対処し、判別情報とタスク固有の埋め込みを十分に使用できない。 本稿では,Sparse Space Transformers (SSFormers) と呼ばれる新しいトランスフォーマー型ニューラルネットワークアーキテクチャを提案する。 特に,各入力画像を異なる大きさの複数の画像パッチに分割し,局所的な特徴を密集させる。 これらの特徴は、ローカル情報を表現しながらコンテキスト情報を保持する。 次に,タスク関連画像パッチを選択し,タスク関連画像パッチを抑制するために,クエリ画像とフルサポートセットの空間対応を見つけるために,スパース空間トランスフォーマー層を提案する。 最後に,画像パッチマッチングモジュールを用いて局所表現間の距離を計算し,問合せ画像がどのカテゴリに属しているかを決定する。 一般的な数ショット学習ベンチマークに対する大規模な実験は、最先端の手法よりも提案手法が優れていることを示す。 ソースコードは \url{https://github.com/chenhaoxing/ssformers} で利用可能です。

Learning from limited data is challenging because data scarcity leads to a poor generalization of the trained model. A classical global pooled representation will probably lose useful local information. Many few-shot learning methods have recently addressed this challenge using deep descriptors and learning a pixel-level metric. However, using deep descriptors as feature representations may lose image contextual information. Moreover, most of these methods independently address each class in the support set, which cannot sufficiently use discriminative information and task-specific embeddings. In this paper, we propose a novel transformer-based neural network architecture called sparse spatial transformers (SSFormers), which finds task-relevant features and suppresses task-irrelevant features. Particularly, we first divide each input image into several image patches of different sizes to obtain dense local features. These features retain contextual information while expressing local information. Then, a sparse spatial transformer layer is proposed to find spatial correspondence between the query image and the full support set to select task-relevant image patches and suppress task-irrelevant image patches. Finally, we propose using an image patch-matching module to calculate the distance between dense local representations, thus determining which category the query image belongs to in the support set. Extensive experiments on popular few-shot learning benchmarks demonstrate the superiority of our method over state-of-the-art methods. Our source code is available at \url{https://github.com/chenhaoxing/ssformers}.
翻訳日:2023-05-11 18:05:23 公開日:2023-05-10
# オープンソースリポジトリの修正コミットへの脆弱性アドバイザリの自動マッピング

Automated Mapping of Vulnerability Advisories onto their Fix Commits in Open Source Repositories ( http://arxiv.org/abs/2103.13375v2 )

ライセンス: Link先を確認
Daan Hommersom, Antonino Sabetta, Bonaventura Coppola, Dario Di Nucci, Damian A. Tamburri(参考訳) 正確な脆弱性データソースの欠如は、ソフトウェアの脆弱性(とその修正)を調査および理解するための重要な障害である。 本稿では,実践経験から生じるヒューリスティックスと,機械学習(ML)特有の自然言語処理(NLP)を組み合わせることで,この問題に対処する手法を提案する。 本手法は3段階からなる。 まず、脆弱性に関する重要な情報を含むアドバイザリ記録をアドバイザリ(自然言語で表現)から抽出する。 第二に、ヒューリスティックスを用いることで、影響を受けるプロジェクトのソースコードリポジトリから、そのタスクに関係のないコミットをフィルタリングすることで、候補となる修正コミットのサブセットを取得する。 最後に, 提案手法は, 各候補コミットに対して, それぞれのコミットの特徴を反映した数値的特徴ベクトルを構築する。 フィーチャーベクターは、最終ランク付けされたコミット修正候補リストを構築するために利用される。 MLモデルによる各機能に対するスコアはユーザによって表示され、予測を解釈することができる。 1,248の公開脆弱性アドバイザリに対応する2,391の既知の修正コミットを含む手作業によるデータセット上で,fixfinderというプロトタイプ実装を用いてアプローチを評価した。 ランク付けされた結果の上位10のコミットを考慮すると、我々の実装では、脆弱性の84.03%(脆弱性の65.06%が修正コミットである)に対して、少なくとも1つの修正コミットを特定できた。 結論として,既知の脆弱性を修正するコミットのOSSレポジトリの検索に要する労力を大幅に削減する。

The lack of comprehensive sources of accurate vulnerability data represents a critical obstacle to studying and understanding software vulnerabilities (and their corrections). In this paper, we present an approach that combines heuristics stemming from practical experience and machine-learning (ML) - specifically, natural language processing (NLP) - to address this problem. Our method consists of three phases. First, an advisory record containing key information about a vulnerability is extracted from an advisory (expressed in natural language). Second, using heuristics, a subset of candidate fix commits is obtained from the source code repository of the affected project by filtering out commits that are known to be irrelevant for the task at hand. Finally, for each such candidate commit, our method builds a numerical feature vector reflecting the characteristics of the commit that are relevant to predicting its match with the advisory at hand. The feature vectors are then exploited for building a final ranked list of candidate fixing commits. The score attributed by the ML model to each feature is kept visible to the users, allowing them to interpret the predictions. We evaluated our approach using a prototype implementation named FixFinder on a manually curated data set that comprises 2,391 known fix commits corresponding to 1,248 public vulnerability advisories. When considering the top-10 commits in the ranked results, our implementation could successfully identify at least one fix commit for up to 84.03% of the vulnerabilities (with a fix commit on the first position for 65.06% of the vulnerabilities). In conclusion, our method reduces considerably the effort needed to search OSS repositories for the commits that fix known vulnerabilities.
翻訳日:2023-05-11 18:04:49 公開日:2023-05-10
# 圧縮サブ層を有する高効率変圧器デコーダ

An Efficient Transformer Decoder with Compressed Sub-layers ( http://arxiv.org/abs/2101.00542v3 )

ライセンス: Link先を確認
Yanyang Li, Ye Lin, Tong Xiao, Jingbo Zhu(参考訳) 大規模な注意に基づくエンコーダ・デコーダネットワーク(transformer)が最近普及している。 しかし、そのデコーダの計算の複雑さは非効率な問題を引き起こす。 復号器の数学的定式化を検討することにより, 若干の穏やかな条件下で, トランスフォーマーの基本構造であるサブ層を圧縮することにより, アーキテクチャを単純化し, 高い並列性を実現することを示す。 そこで本研究では,デコーダ層が3層ではなく1層のみからなる圧縮アテンションネットワークを提案する。 14のWMT機械翻訳タスクに対する大規模な実験により、我々のモデルは1.42倍高速であり、性能は強いベースラインと同等であることがわかった。 この強力なベースラインは、パフォーマンスを損なうことなく、広く使われている標準ベースラインよりも2倍高速である。

The large attention-based encoder-decoder network (Transformer) has become prevailing recently due to its effectiveness. But the high computation complexity of its decoder raises the inefficiency issue. By examining the mathematic formulation of the decoder, we show that under some mild conditions, the architecture could be simplified by compressing its sub-layers, the basic building block of Transformer, and achieves a higher parallelism. We thereby propose Compressed Attention Network, whose decoder layer consists of only one sub-layer instead of three. Extensive experiments on 14 WMT machine translation tasks show that our model is 1.42x faster with performance on par with a strong baseline. This strong baseline is already 2x faster than the widely used standard baseline without loss in performance.
翻訳日:2023-05-11 18:04:23 公開日:2023-05-10
# インスタンス依存型部分ラベル学習のためのプログレッシブ・パーフィケーション

Progressive Purification for Instance-Dependent Partial Label Learning ( http://arxiv.org/abs/2206.00830v2 )

ライセンス: Link先を確認
Ning Xu, Biao Liu, Jiaqi Lv, Congyu Qiao, and Xin Geng(参考訳) 部分ラベル学習 (PLL) は、固定だが未知の候補ラベルが正しい候補ラベルのセットで注釈付けされた例から多クラス分類器を訓練することを目的としている。 ここ数年, PLL における理論的な進歩を基礎として, 候補ラベルのインスタンスに依存しない生成プロセスが広く研究されてきた。 それでも、候補ラベルは常にインスタンス依存であり、インスタンス依存のPLL例で訓練されたモデルが理想的なモデルに収束できるという理論的保証はない。 本稿では,POP(PrOgressive Purification for instance-dependent partial label learning)という理論的基礎と実用的なアプローチを提案する。 具体的には、POPは学習モデルを更新し、各エポックに設定された候補ラベルを徐々に浄化する。 理論的には、POPはモデルが信頼できる領域を適切に拡大し、最終的にベイズ最適分類器を穏やかな仮定で近似する。 技術的には、POPは任意のPLL損失に柔軟であり、インスタンス依存の場合の以前のPLL損失のパフォーマンスを向上させることができる。 ベンチマークデータセットと実世界のデータセットに関する実験は、提案手法の有効性を検証する。

Partial label learning (PLL) aims to train multiclass classifiers from the examples each annotated with a set of candidate labels where a fixed but unknown candidate label is correct. In the last few years, the instance-independent generation process of candidate labels has been extensively studied, on the basis of which many theoretical advances have been made in PLL. Nevertheless, the candidate labels are always instance-dependent in practice and there is no theoretical guarantee that the model trained on the instance-dependent PLL examples can converge to an ideal one. In this paper, a theoretically grounded and practically effective approach named POP, i.e. PrOgressive Purification for instance-dependent partial label learning, is proposed. Specifically, POP updates the learning model and purifies each candidate label set progressively in every epoch. Theoretically, we prove that POP enlarges the region appropriately fast where the model is reliable, and eventually approximates the Bayes optimal classifier with mild assumptions. Technically, POP is flexible with arbitrary PLL losses and could improve the performance of the previous PLL losses in the instance-dependent case. Experiments on the benchmark datasets and the real-world datasets validate the effectiveness of the proposed method.
翻訳日:2023-05-11 17:57:32 公開日:2023-05-10
# qampari: 複数の段落から多くの回答を持つ質問に対するオープンドメイン質問応答ベンチマーク

QAMPARI: An Open-domain Question Answering Benchmark for Questions with Many Answers from Multiple Paragraphs ( http://arxiv.org/abs/2205.12665v3 )

ライセンス: Link先を確認
Samuel Joseph Amouyal, Tomer Wolfson, Ohad Rubin, Ori Yoran, Jonathan Herzig, Jonathan Berant(参考訳) オープンドメイン質問応答(ODQA)の既存のベンチマークは、通常、1段落から回答を抽出できる質問に焦点を当てる。 対照的に、「ブルックリン・ネッツによってどの選手がドラフトされたか」のような多くの自然な質問は回答のリストを持っている。 このような質問に答えるには、大きなコーパスで、多くの節から検索し、読み取る必要がある。 本稿では,質問応答がエンティティのリストであるODQAベンチマークであるQAMPARIを紹介する。 私たちはQAMPARIを作りました。 (a)ウィキペディアの知識グラフと表から複数の回答で質問を生成する。 b) ウィキペディアの段落において,回答と証拠とを自動でペアリングし, (c) 質問を手動で言い換えて各回答を検証する。 我々は、検索・読解系からODQAモデルを訓練し、QAMPARIは経路検索と解答生成の両方の観点から困難であり、F1スコアが32.8に達する。 この結果から,単問,複数問,多問など幅広い質問タイプを扱うODQAモデルの開発の必要性が示唆された。

Existing benchmarks for open-domain question answering (ODQA) typically focus on questions whose answers can be extracted from a single paragraph. By contrast, many natural questions, such as "What players were drafted by the Brooklyn Nets?" have a list of answers. Answering such questions requires retrieving and reading from many passages, in a large corpus. We introduce QAMPARI, an ODQA benchmark, where question answers are lists of entities, spread across many paragraphs. We created QAMPARI by (a) generating questions with multiple answers from Wikipedia's knowledge graph and tables, (b) automatically pairing answers with supporting evidence in Wikipedia paragraphs, and (c) manually paraphrasing questions and validating each answer. We train ODQA models from the retrieve-and-read family and find that QAMPARI is challenging in terms of both passage retrieval and answer generation, reaching an F1 score of 32.8 at best. Our results highlight the need for developing ODQA models that handle a broad range of question types, including single and multi-answer questions.
翻訳日:2023-05-11 17:56:54 公開日:2023-05-10
# スーパービジョントランス

Super Vision Transformer ( http://arxiv.org/abs/2205.11397v4 )

ライセンス: Link先を確認
Mingbao Lin, Mengzhao Chen, Yuxin Zhang, Chunhua Shen, Rongrong Ji, Liujuan Cao(参考訳) トークン数において2次的に増加する視覚変換器(ViT)の計算コストを削減しようとする。 本稿では,一度に1つのViTモデルのみを訓練する新しい訓練パラダイムを提案するが,様々な計算コストで画像認識性能を向上させることができる。 ここで、訓練されたvitモデルはsuper vision transformer(supervit)と呼ばれ、複数のサイズの入ってくるパッチを解決し、複数の保持率(トークンの保持率)を持つ情報トークンを保存し、利用可能なハードウェアリソースが時折変化することを考慮し、推論のための優れたハードウェア効率を達成する能力を備えている。 ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。 例えば、DeiT-Sの2倍FLOPを減少させ、Top-1の精度を0.2%、1.5倍の精度で0.7%向上させる。 また、我々のSuperViTは、効率的な視覚変換器に関する既存の研究を著しく上回っている。 例えば、同じ量のFLOPを消費する場合、SuperViTはDeiT-Sをバックボーンとして使用する場合、最近のSOTA(State-of-the-art) EViTを1.1%上回る。 この作業のプロジェクトはhttps://github.com/lmbxmu/supervit.comで公開されている。

We attempt to reduce the computational costs in vision transformers (ViTs), which increase quadratically in the token number. We present a novel training paradigm that trains only one ViT model at a time, but is capable of providing improved image recognition performance with various computational costs. Here, the trained ViT model, termed super vision transformer (SuperViT), is empowered with the versatile ability to solve incoming patches of multiple sizes as well as preserve informative tokens with multiple keeping rates (the ratio of keeping tokens) to achieve good hardware efficiency for inference, given that the available hardware resources often change from time to time. Experimental results on ImageNet demonstrate that our SuperViT can considerably reduce the computational costs of ViT models with even performance increase. For example, we reduce 2x FLOPs of DeiT-S while increasing the Top-1 accuracy by 0.2% and 0.7% for 1.5x reduction. Also, our SuperViT significantly outperforms existing studies on efficient vision transformers. For example, when consuming the same amount of FLOPs, our SuperViT surpasses the recent state-of-the-art (SOTA) EViT by 1.1% when using DeiT-S as their backbones. The project of this work is made publicly available at https://github.com/lmbxmu/SuperViT.
翻訳日:2023-05-11 17:56:21 公開日:2023-05-10
# リニアオーバーパラメータ化によるプレナードネットワークのブースティング

Boosting Pruned Networks with Linear Over-parameterization ( http://arxiv.org/abs/2204.11444v2 )

ライセンス: Link先を確認
Yu Qian, Siyuan Pan, Jie Zhang, Xiaoshuang Li, Liang Hou, Kaibin Qiu, Xiaobing Tu(参考訳) 構造化プルーニングは、高速な推論のためのチャネル(フィルタ)を減らし、実行時にフットプリントを低くすることでニューラルネットワークを圧縮する。 プルーニング後の精度を回復するため、細調整は通常、プルーニングネットワークに適用される。 しかし、刈り取られたネットワークに残されているパラメータが少なすぎると、精度を回復するための微調整が困難になる。 この課題に対処するため,我々は,まず,刈り込みネットワーク内のコンパクト層を線形に過度にパラメータ化して,微調整パラメータの数を拡大し,さらに微調整後に元の層に再パラメータ化する手法を提案する。 具体的には、現在の出力特徴写像を変更しない連続的な畳み込み/直線層を複数有する畳み込み/直線層を等価に拡張する。 さらに, 類似性保存知識蒸留を利用して, 過パラメータ化ブロックが対応する高密度層の即時データ-データ類似性を学習し, 特徴学習能力を維持する。 提案手法は,CIFAR-10とImageNetで総合的に評価され,バニラ微調整戦略,特に大きな刈り取り率に優れていた。

Structured pruning compresses neural networks by reducing channels (filters) for fast inference and low footprint at run-time. To restore accuracy after pruning, fine-tuning is usually applied to pruned networks. However, too few remaining parameters in pruned networks inevitably bring a great challenge to fine-tuning to restore accuracy. To address this challenge, we propose a novel method that first linearly over-parameterizes the compact layers in pruned networks to enlarge the number of fine-tuning parameters and then re-parameterizes them to the original layers after fine-tuning. Specifically, we equivalently expand the convolution/linear layer with several consecutive convolution/linear layers that do not alter the current output feature maps. Furthermore, we utilize similarity-preserving knowledge distillation that encourages the over-parameterized block to learn the immediate data-to-data similarities of the corresponding dense layer to maintain its feature learning ability. The proposed method is comprehensively evaluated on CIFAR-10 and ImageNet which significantly outperforms the vanilla fine-tuning strategy, especially for large pruning ratio.
翻訳日:2023-05-11 17:55:57 公開日:2023-05-10
# 2次元ドリフト解析:2つの関数を同時に最適化することは難しい

Two-Dimensional Drift Analysis: Optimizing Two Functions Simultaneously Can Be Hard ( http://arxiv.org/abs/2203.14547v2 )

ライセンス: Link先を確認
Duri Janett, Johannes Lengler(参考訳) 本稿では,2つの確率変数$X_1,X_2$のとき,行列$A$に対して$A\cdot (X_1,X_2)^T$で近似的にドリフトが与えられるとき,ドリフト解析の使い方を示す。 非自明な場合、$X_1$と$X_2$は互いの進行を妨げ、この場合の完全な特徴を与える。 適用例として、困難である動的環境の最小例であるTwoLinearを開発し、分析する。 環境は2つの線形関数 $f_1$ と $f_2$ で構成され、正の重みは $$ と $n$ である。 それらは、重さが1ドルと$n$の位置にのみ異なる。 突然変異率$\chi/n$の$(1+1)$-EAはTwoLinear上の小さな$\chi$に対して効率的であるが、大きな$\chi$の多項式時間における共有最適化は見つからない。

In this paper we show how to use drift analysis in the case of two random variables $X_1, X_2$, when the drift is approximatively given by $A\cdot (X_1,X_2)^T$ for a matrix $A$. The non-trivial case is that $X_1$ and $X_2$ impede each other's progress, and we give a full characterization of this case. As application, we develop and analyze a minimal example TwoLinear of a dynamic environment that can be hard. The environment consists of two linear function $f_1$ and $f_2$ with positive weights $1$ and $n$, and in each generation selection is based on one of them at random. They only differ in the set of positions that have weight $1$ and $n$. We show that the $(1+1)$-EA with mutation rate $\chi/n$ is efficient for small $\chi$ on TwoLinear, but does not find the shared optimum in polynomial time for large $\chi$.
翻訳日:2023-05-11 17:55:15 公開日:2023-05-10
# 量子資源を含まない非最大エンタングルチャネルを用いた非古典的決定論的遠隔状態生成

Nontraditional Deterministic Remote State Preparation Using a Non-Maximally Entangled Channel without Additional Quantum Resources ( http://arxiv.org/abs/2203.08474v2 )

ライセンス: Link先を確認
Xuanxuan Xin and Yongxing Li and Shiwen He and Chong Li(参考訳) 本稿では、確率的量子通信プロトコルを再検討し、非最大エンタングルチャネルを用いて、量子状態に符号化された情報を決定的に転送する非伝統的な遠隔状態準備プロトコルを開発した。 補助粒子及び簡易な測定方法により、絡み合い浄化等の量子チャネルを改善するために、追加の量子リソースを使わずにd次元量子状態を作成する成功確率を1に増加させる。 さらに,偏光符号化された光子を一般化された絡み合い状態を用いてある位置から別の場所に輸送する決定論的パラダイムを実証するために,実現可能な実験手法を考案した。 このアプローチは、実際の量子通信におけるデコヒーレンスと環境ノイズに対処する実用的な方法を提供する。

In this paper, we have reinvestigated probabilistic quantum communication protocols and developed a nontraditional remote state preparation protocol that allows for deterministically transferring information encoded in quantum states using a non-maximally entangled channel. With an auxiliary particle and a simple measurement method, the success probability of preparing a d-dimensional quantum state is increased to 1 without spending additional quantum resources in advance to improve quantum channels, such as entanglement purification. Furthermore, we have designed a feasible experimental scheme to demonstrate the deterministic paradigm of transporting a polarization-encoded photon from one location to another using a generalized entangled state. This approach provides a practical method to address decoherence and environmental noises in actual quantum communication.
翻訳日:2023-05-11 17:54:53 公開日:2023-05-10
# AugESC:感情支援会話のための大規模言語モデルによる対話強化

AugESC: Dialogue Augmentation with Large Language Models for Emotional Support Conversation ( http://arxiv.org/abs/2202.13047v2 )

ライセンス: Link先を確認
Chujie Zheng, Sahand Sabour, Jiaxin Wen, Zheng Zhang, Minlie Huang(参考訳) クラウドソースによる対話コーパスは通常、データキュレーションのコストがかかるため、規模やトピックのカバレッジが制限される。 これにより、ダウンストリーム対話モデルのオープンドメイントピックへの一般化が妨げられる。 本研究では,感情支援会話(ESC)の課題において,対話強化のための大規模言語モデルを活用する。 対話強化を対話完了タスクとして扱うことにより、様々なトピックの利用可能な対話投稿から完全な対話を完遂するよう、微調整言語モデルに促す。 このアプローチを適用して,クラウドソース型ESConvコーパスのスケールとトピックカバレッジを大きく拡張した,ESCタスク用の拡張データセットであるAugESCを構築した。 包括的人間評価を通じて,本手法は対話強化の強力なベースラインよりも優れており,augescはクラウドソースコーパスと同等の対話品質を有することを示す。 また,人間の対話的評価を行い,augesc上での学習が,下流対話モデルのオープンドメイントピックへの一般化能力を向上させることを証明した。 これらの結果は、AugESCの有用性を示唆し、データスカース対話タスクの改善における大規模言語モデルの可能性を強調している。

Crowdsourced dialogue corpora are usually limited in scale and topic coverage due to the expensive cost of data curation. This would hinder the generalization of downstream dialogue models to open-domain topics. In this work, we leverage large language models for dialogue augmentation in the task of emotional support conversation (ESC). By treating dialogue augmentation as a dialogue completion task, we prompt a fine-tuned language model to complete full dialogues from available dialogue posts of various topics, which are then postprocessed based on heuristics. Applying this approach, we construct AugESC, an augmented dataset for the ESC task, which largely extends the scale and topic coverage of the crowdsourced ESConv corpus. Through comprehensive human evaluation, we demonstrate that our approach is superior to strong baselines of dialogue augmentation and that AugESC has comparable dialogue quality to the crowdsourced corpus. We also conduct human interactive evaluation and prove that post-training on AugESC improves downstream dialogue models' generalization ability to open-domain topics. These results suggest the utility of AugESC and highlight the potential of large language models in improving data-scarce dialogue generation tasks.
翻訳日:2023-05-11 17:54:38 公開日:2023-05-10
# ユニバーサル適応データ拡張

Universal Adaptive Data Augmentation ( http://arxiv.org/abs/2207.06658v2 )

ライセンス: Link先を確認
Xiaogang Xu, Hengshuang Zhao(参考訳) 既存のDA(Automatic Data Augmentation)メソッドは、トレーニング中にターゲットモデルの状態に応じてDAのパラメータの更新を無視するか、あるいは不十分な更新戦略を採用する。 本研究では,UADA(Universal Adaptive Data Augmentation)と呼ばれる新しいデータ拡張戦略を設計する。 既存の手法と異なり,UADAは,トレーニング中のDAの勾配情報に基づいてDAのパラメータを適応的に更新する。事前定義されたDA操作セットが与えられた場合,トレーニング中のデータバッチ毎にDA操作の種類と大きさをランダムに決定し,DAのパラメータに関する損失の勾配方向に沿ってDAのパラメータを適応的に更新する。 このようにして、uadaはターゲットネットワークのトレーニング損失を増加させ、ターゲットネットワークはより難しいサンプルから機能を学び、一般化を改善する。 さらに、uadaは非常に一般的であり、画像分類、セマンティックセグメンテーション、オブジェクト検出など、多くのタスクで利用可能である。 CIFAR-10, CIFAR-100, ImageNet, little-ImageNet, Cityscapes, VOC07+12 で多種多様なモデルによる大規模な実験を行い, UADA による大幅な性能向上を実証した。

Existing automatic data augmentation (DA) methods either ignore updating DA's parameters according to the target model's state during training or adopt update strategies that are not effective enough. In this work, we design a novel data augmentation strategy called "Universal Adaptive Data Augmentation" (UADA). Different from existing methods, UADA would adaptively update DA's parameters according to the target model's gradient information during training: given a pre-defined set of DA operations, we randomly decide types and magnitudes of DA operations for every data batch during training, and adaptively update DA's parameters along the gradient direction of the loss concerning DA's parameters. In this way, UADA can increase the training loss of the target networks, and the target networks would learn features from harder samples to improve the generalization. Moreover, UADA is very general and can be utilized in numerous tasks, e.g., image classification, semantic segmentation and object detection. Extensive experiments with various models are conducted on CIFAR-10, CIFAR-100, ImageNet, tiny-ImageNet, Cityscapes, and VOC07+12 to prove the significant performance improvements brought by UADA.
翻訳日:2023-05-11 17:47:58 公開日:2023-05-10
# FreeREA: 学習自由進化に基づくアーキテクチャ検索

FreeREA: Training-Free Evolution-based Architecture Search ( http://arxiv.org/abs/2207.05135v2 )

ライセンス: Link先を確認
Niccol\`o Cavagnero, Luca Robbiano, Barbara Caputo and Giuseppe Averta(参考訳) 過去10年間、機械学習のほとんどの研究は、さまざまなタスクのソリューションのためにニューラルネットワークのパフォーマンスを向上させることを目的として、既存のモデルの改善に貢献した。 しかし、そのような進歩は、しばしばモデルメモリと計算要求の増加のコストがかかる。 これは、コスト、エネルギー消費、およびフレームワークの複雑さが重要な役割を果たす現実的な環境での、研究成果のデプロイ可能性に対する重要な制限である。 この問題を解決するためにデザイナは、フットプリントを制限しながらパフォーマンスを最大化するモデルを探す必要がある。 この目標を達成するための典型的なアプローチは、最終的な設計の最適性を保証できない手作業の手順や、極めて高い計算時間を犠牲にしてプロセスを自動化するニューラルネットワーク探索アルゴリズムに依存する。 本稿では,小型デバイスに典型的なサイズと計算制約を保ちながら,モデル精度を最大化するニューラルネットワークの高速同定方法を提案する。 当社のアプローチはFreeREAと名づけられた独自のセルベースの進化型NASアルゴリズムで,検索中にアーキテクチャをランク付けするためにトレーニング不要なメトリクスの最適化の組み合わせを利用する。 nas-bench-101 と nats-bench の共通ベンチマークで行った実験は 一 フリーレAは、モデル自動設計の迅速かつ効率的かつ効果的な探索方法である。 二 検討されたすべてのデータセット及びベンチマークにおいて、技術訓練ベース及びトレーニングフリー技術の現状を上回っていること、及び iii) 制約付きシナリオに容易に一般化することができ、汎用的制約付きアプリケーションにおける高速ニューラルネットワーク探索の競合ソリューションを表している。 コードは \url{https://github.com/niccolocavagnero/freerea} で入手できる。

In the last decade, most research in Machine Learning contributed to the improvement of existing models, with the aim of increasing the performance of neural networks for the solution of a variety of different tasks. However, such advancements often come at the cost of an increase of model memory and computational requirements. This represents a significant limitation for the deployability of research output in realistic settings, where the cost, the energy consumption, and the complexity of the framework play a crucial role. To solve this issue, the designer should search for models that maximise the performance while limiting its footprint. Typical approaches to reach this goal rely either on manual procedures, which cannot guarantee the optimality of the final design, or upon Neural Architecture Search algorithms to automatise the process, at the expenses of extremely high computational time. This paper provides a solution for the fast identification of a neural network that maximises the model accuracy while preserving size and computational constraints typical of tiny devices. Our approach, named FreeREA, is a custom cell-based evolution NAS algorithm that exploits an optimised combination of training-free metrics to rank architectures during the search, thus without need of model training. Our experiments, carried out on the common benchmarks NAS-Bench-101 and NATS-Bench, demonstrate that i) FreeREA is a fast, efficient, and effective search method for models automatic design; ii) it outperforms State of the Art training-based and training-free techniques in all the datasets and benchmarks considered, and iii) it can easily generalise to constrained scenarios, representing a competitive solution for fast Neural Architecture Search in generic constrained applications. The code is available at \url{https://github.com/NiccoloCavagnero/FreeREA}.
翻訳日:2023-05-11 17:47:35 公開日:2023-05-10
# 最小記述長と構造安定性によるスパイクニューラルネットワークの一般化について

On the Generalization of Spiking Neural Networks via Minimum Description Length and Structural Stability ( http://arxiv.org/abs/2207.04876v2 )

ライセンス: Link先を確認
Shao-Qun Zhang, Jin-Hui Wu, Gao Zhang, Huan Xiong, Bin Gu, Zhi-Hua Zhou(参考訳) 過去数十年間、時間に依存したデータモデリングの可能性から、ニューラルネットワークのスパイクへの関心が高まってきた。 多くの経験的アルゴリズムと技術が開発されている。 しかし、理論上は、訓練されたスパイクニューラルネットワークが、未知のデータに対してどの程度うまく機能するかは、まだ不明である。 この研究は、最小記述長の原理を利用して、この方向への一歩を踏み出し、ニューラルネットワークをスパイクするための明示的な一般化を示す。 さらに,SNN の構造安定性による記述長を実装し,安定分岐解の最大値の下限と上限を指定することにより,SNN の構造安定性を定量的な性質を持つ数学的問題に変換する。

The past decades have witnessed an increasing interest in spiking neural networks due to their great potential of modeling time-dependent data. Many empirical algorithms and techniques have been developed. However, theoretically, it remains unknown whether and to what extent a trained spiking neural network performs well on unseen data. This work takes one step in this direction by exploiting the minimum description length principle and thus, presents an explicit generalization bound for spiking neural networks. Further, we implement the description length of SNNs through structural stability and specify the lower and upper bounds of the maximum number of stable bifurcation solutions, which convert the challenge of qualifying structural stability in SNNs into a mathematical problem with quantitative properties.
翻訳日:2023-05-11 17:47:09 公開日:2023-05-10
# 分別エンタングルメント拡散解析としてのクエンチプローブのセットアップ

Quench-Probe Setup as Analyzer of Fractionalized Entanglement Spreading ( http://arxiv.org/abs/2207.04833v3 )

ライセンス: Link先を確認
Nicolas P. Bauer, Jan Carl Budich, Bj\"orn Trauzettel, Alessio Calzona(参考訳) エンタングルメントダイナミクスにおけるクエンチ誘起分数化励起の空間的不均質な構成を提案する。 このクエンチプローブ設定では、量子クエンチを受ける領域は静的領域にトンネル結合され、プローブは、プローブに伝達される励起の波長可変サブセットの時間依存性の絡み合いシグネチャをエネルギー選択性によって監視する。 我々は、ポストクエンチハミルトニアンにおける孤立マヨラナ零モードの存在に関連するユニークな動的シグネチャを同定することによって、この一般的なアプローチのパワーを実証する。 この場合、系の位相的部分から放出される励起は、プローブの絡み合いエントロピーにおいて$\log(2)/2$の分数化ジャンプを引き起こす。 この動的効果はマヨラナ・ゼロモードの局所的性質に非常に敏感であるが、位相的初期状態の準備は必要ない。

We propose a novel spatially inhomogeneous setup for revealing quench-induced fractionalized excitations in entanglement dynamics. In this quench-probe setting, the region undergoing a quantum quench is tunnel-coupled to a static region, the probe.Subsequently, the time-dependent entanglement signatures of a tunable subset of excitations propagating to the probe are monitored by energy selectivity. We exemplify the power of this generic approach by identifying a unique dynamical signature associated with the presence of an isolated Majorana zero mode in the post-quench Hamiltonian. In this case excitations emitted from the topological part of the system give rise to a fractionalized jump of $\log(2)/2$ in the entanglement entropy of the probe. This dynamical effect is highly sensitive to the localized nature of the Majorana zero mode, but does not require the preparation of a topological initial state.
翻訳日:2023-05-11 17:46:58 公開日:2023-05-10
# 空間過程の不均一性探索のための局所化アルゴリズムの拡張

Extending regionalization algorithms to explore spatial process heterogeneity ( http://arxiv.org/abs/2206.09429v3 )

ライセンス: Link先を確認
Hao Guo, Andre Python, Yu Liu(参考訳) 空間回帰モデルでは、空間的不均一性は連続的あるいは離散的仕様で考えることができる。 後者は、変数間の均質な関係を持つ空間的連結領域(空間的レジーム)のデライン化に関連している。 空間分析の分野では様々な地域化アルゴリズムが提案され研究されているが、空間構造を最適化する手法はほとんど研究されていない。 本稿では,2段階のKモデルと2段階のKモデルという,空間状態のデライン化のための2つの新しいアルゴリズムを提案する。 また,従来の自動造形法を空間回帰文脈に拡張する。 提案アルゴリズムは、一連の合成データセットと2つの実世界のデータセットに適用される。 以上の結果から,3つのアルゴリズムは既存の手法よりも優れている,あるいは同等な性能を達成し,K-Modelsアルゴリズムはモデルフィッティングや領域再構成,係数推定といった既存手法よりも優れていたことが示唆された。 我々の研究は空間解析ツールボックスを充実させ、空間異質過程を探索する。

In spatial regression models, spatial heterogeneity may be considered with either continuous or discrete specifications. The latter is related to delineation of spatially connected regions with homogeneous relationships between variables (spatial regimes). Although various regionalization algorithms have been proposed and studied in the field of spatial analytics, methods to optimize spatial regimes have been largely unexplored. In this paper, we propose two new algorithms for spatial regime delineation, two-stage K-Models and Regional-K-Models. We also extend the classic Automatic Zoning Procedure to spatial regression context. The proposed algorithms are applied to a series of synthetic datasets and two real-world datasets. Results indicate that all three algorithms achieve superior or comparable performance to existing approaches, while the two-stage K-Models algorithm largely outperforms existing approaches on model fitting, region reconstruction, and coefficient estimation. Our work enriches the spatial analytics toolbox to explore spatial heterogeneous processes.
翻訳日:2023-05-11 17:46:41 公開日:2023-05-10
# モバイルデバイスにおけるリアルタイムモーション増幅

Real-time motion amplification on mobile devices ( http://arxiv.org/abs/2206.08422v2 )

ライセンス: Link先を確認
Henning U. Voss(参考訳) スマートフォンを含むモバイルデバイス上のリアルタイムアプリケーションに適したシンプルなモーション増幅アルゴリズムを提案する。 動画ストリームの時間的ハイパスフィルタである移動平均差分法(MEMAD)による運動強調に基づく。 MEMADは小さな動く物体を増幅したり、大きな物体の微妙な動きを増幅することができる。 スマートフォンでリアルタイムに実装するのは、計算上十分簡単である。 特定のAndroid電話アプリとしての実装において、MEMADは、工学、生物学、医学の応用を動機付けるために選ばれた例で示される。

A simple motion amplification algorithm suitable for real-time applications on mobile devices, including smartphones, is presented. It is based on motion enhancement by moving average differencing (MEMAD), a temporal high-pass filter for video streams. MEMAD can amplify small moving objects or subtle motion in larger objects. It is computationally sufficiently simple to be implemented in real time on smartphones. In the specific implementation as an Android phone app, MEMAD is demonstrated on examples chosen such as to motivate applications in the engineering, biological, and medical sciences.
翻訳日:2023-05-11 17:46:26 公開日:2023-05-10
# トランスフォーマーを用いたマルチモーダルラーニング:サーベイ

Multimodal Learning with Transformers: A Survey ( http://arxiv.org/abs/2206.06488v2 )

ライセンス: Link先を確認
Peng Xu, Xiatian Zhu, and David A. Clifton(参考訳) Transformerは有望なニューラルネットワーク学習者であり、さまざまな機械学習タスクで大きな成功を収めている。 近年のマルチモーダルアプリケーションとビッグデータの普及により、トランスフォーマーベースのマルチモーダル学習はAI研究においてホットなトピックとなっている。 本稿では,マルチモーダルデータ指向の変圧器技術に関する包括的調査を行う。 The main contents of this survey include: (1) a background of multimodal learning, Transformer ecosystem, and the multimodal big data era, (2) a theoretical review of Vanilla Transformer, Vision Transformer, and multimodal Transformers, from a geometrically topological perspective, (3) a review of multimodal Transformer applications, via two important paradigms, i.e., for multimodal pretraining and for specific multimodal tasks, (4) a summary of the common challenges and designs shared by the multimodal Transformer models and applications, and (5) a discussion of open problems and potential research directions for the community.

Transformer is a promising neural network learner, and has achieved great success in various machine learning tasks. Thanks to the recent prevalence of multimodal applications and big data, Transformer-based multimodal learning has become a hot topic in AI research. This paper presents a comprehensive survey of Transformer techniques oriented at multimodal data. The main contents of this survey include: (1) a background of multimodal learning, Transformer ecosystem, and the multimodal big data era, (2) a theoretical review of Vanilla Transformer, Vision Transformer, and multimodal Transformers, from a geometrically topological perspective, (3) a review of multimodal Transformer applications, via two important paradigms, i.e., for multimodal pretraining and for specific multimodal tasks, (4) a summary of the common challenges and designs shared by the multimodal Transformer models and applications, and (5) a discussion of open problems and potential research directions for the community.
翻訳日:2023-05-11 17:45:50 公開日:2023-05-10
# 振幅推定とグローバー探索による量子政策反復 -強化学習への量子優位に向けて-

Quantum Policy Iteration via Amplitude Estimation and Grover Search -- Towards Quantum Advantage for Reinforcement Learning ( http://arxiv.org/abs/2206.04741v2 )

ライセンス: Link先を確認
Simon Wiedemann, Daniel Hein, Steffen Udluft, Christian Mendl(参考訳) 本稿では,新しい量子強化学習手法の完全な実装とシミュレーションを行う。 私たちの研究は、強化学習問題を解決するために量子アルゴリズムをどのように利用するかに関する詳細かつ形式的な概念実証であり、エージェントと環境のエラーのない効率的な量子実現にアクセスすれば、量子メソッドは、サンプル複雑性の観点から、古典的なモンテカルロベースの方法よりも証明可能な改善をもたらすことができることを示します。 提案手法では, 振幅推定とGrover検索を併用して, 政策評価と改善手法を提案する。 まず,量子政策評価法(qpe)を開発し,従来のモンテカルロ推定法に比べて2次的に効率的であり,有限マルコフ決定過程(mdp)の量子力学的実現に基づいている。 QPE上に構築された量子ポリシーは,最適化に到達するまでGrover検索を用いて初期ポリシーを繰り返し改善する。 最後に,2本腕のバンディットMDPに対するアルゴリズムの実装を提案し,シミュレーションを行った。

We present a full implementation and simulation of a novel quantum reinforcement learning method. Our work is a detailed and formal proof of concept for how quantum algorithms can be used to solve reinforcement learning problems and shows that, given access to error-free, efficient quantum realizations of the agent and environment, quantum methods can yield provable improvements over classical Monte-Carlo based methods in terms of sample complexity. Our approach shows in detail how to combine amplitude estimation and Grover search into a policy evaluation and improvement scheme. We first develop quantum policy evaluation (QPE) which is quadratically more efficient compared to an analogous classical Monte Carlo estimation and is based on a quantum mechanical realization of a finite Markov decision process (MDP). Building on QPE, we derive a quantum policy iteration that repeatedly improves an initial policy using Grover search until the optimum is reached. Finally, we present an implementation of our algorithm for a two-armed bandit MDP which we then simulate.
翻訳日:2023-05-11 17:45:38 公開日:2023-05-10
# Jaynes-Cummings-HubbardモデルとDickeモデルにおけるクエンチダイナミクス

Quench dynamics in the Jaynes-Cummings-Hubbard and Dicke models ( http://arxiv.org/abs/2210.01355v2 )

ライセンス: Link先を確認
Andrew R. Hogan and Andy M. Martin(参考訳) Jaynes-Cummings-Hubbard (JCH) モデルとDickeモデルの両方は、量子バッテリーの理想的なモデルと考えることができる。 本稿では,両モデルの帯電特性について数値解析を行った。 2つのモデルは、キャビティに含まれる2レベルシステムが異なる。 ディックモデルでは、$N$2レベルのシステムは単一の空洞に含まれ、JCHモデルでは、それぞれがそれぞれの空洞を持ち、それらの間に光子を渡すことができる。 それぞれのモデルにおいて、2レベル系が基底状態から開始し、光子と2レベル系の結合パラメータがクエンチされるシナリオを考える。 これらのモデルはそれぞれ、最大充電電力を表示し、バッテリーサイズはn$で、スーパー充電は見つからなかった。 充電電力は、両方のモデルで2レベルシステム$m$当たりの平均光子の平方根でスケールする。 最後に、JCHモデルにおいて、パワーは光子空洞結合の平方根と逆向きに充電されることが判明した。

Both the Jaynes-Cummings-Hubbard (JCH) and Dicke models can be thought of as idealised models of a quantum battery. In this paper we numerically investigate the charging properties of both of these models. The two models differ in how the two-level systems are contained in cavities. In the Dicke model, the $N$ two-level systems are contained in a single cavity, while in the JCH model the two-level systems each have their own cavity and are able to pass photons between them. In each of these models we consider a scenario where the two-level systems start in the ground state and the coupling parameter between the photon and the two-level systems is quenched. Each of these models display a maximum charging power that scales with the size of the battery $N$ and no super charging was found. Charging power also scales with the square root of the average number of photons per two-level system $m$ for both models. Finally, in the JCH model, the power was found to charge inversely with the square root of the photon-cavity coupling $\kappa$.
翻訳日:2023-05-11 17:38:00 公開日:2023-05-10
# 量子信号処理による摂動理論

Perturbation theory with quantum signal processing ( http://arxiv.org/abs/2210.00718v3 )

ライセンス: Link先を確認
Kosuke Mitarai, Kiichiro Toyoizumi, Wataru Mizukami(参考訳) 摂動理論は計算コストを削減し、古典的なコンピュータで量子システムをシミュレートする物理的洞察を提供するための重要な技術である。 本稿では,量子コンピュータ上で摂動エネルギーを得る量子アルゴリズムを提案する。 量子コンピュータを使用する利点は、古典的に解くのが難しいハミルトニアンから摂動を開始することができることである。 提案アルゴリズムはこの目的を達成するために量子信号処理(QSP)を用いる。 摂動理論と並行して, 計算コスト解析の詳細な基礎状態作成手法を構築し, 独立な関心を持つことができる。 また,水クラスターやポリアセン分子などの単純な化学系に対するアルゴリズムの粗い計算コストを推定した。 我々の知る限りでは、これはQSPの実用化のための最初の評価である。 残念なことに、提案アルゴリズムは、少なくとも現在の形式では、従来の量子アルゴリズムと比較してQSPの効率性に拘わらず、実用的な数値を示さない。 しかし、摂動理論自体が物理的解釈可能性のために探索する上で魅力的な方向であり、相互作用がシステムの特性に重要な貢献をもたらすかについての洞察を提供する。 これは、エネルギーの値しか得られない量子位相推定アルゴリズムに基づく従来のアプローチとは対照的である。 この側面から、この研究は、フォールトトレラント量子コンピュータ上の‘説明可能’量子シミュレーションへの第一歩である。

Perturbation theory is an important technique for reducing computational cost and providing physical insights in simulating quantum systems with classical computers. Here, we provide a quantum algorithm to obtain perturbative energies on quantum computers. The benefit of using quantum computers is that we can start the perturbation from a Hamiltonian that is classically hard to solve. The proposed algorithm uses quantum signal processing (QSP) to achieve this goal. Along with the perturbation theory, we construct a technique for ground state preparation with detailed computational cost analysis, which can be of independent interest. We also estimate a rough computational cost of the algorithm for simple chemical systems such as water clusters and polyacene molecules. To the best of our knowledge, this is the first of such estimates for practical applications of QSP. Unfortunately, we find that the proposed algorithm, at least in its current form, does not exhibit practical numbers despite of the efficiency of QSP compared to conventional quantum algorithms. However, perturbation theory itself is an attractive direction to explore because of its physical interpretability; it provides us insights about what interaction gives an important contribution to the properties of systems. This is in sharp contrast to the conventional approaches based on the quantum phase estimation algorithm, where we can only obtain values of energy. From this aspect, this work is a first step towards ``explainable'' quantum simulation on fault-tolerant quantum computers.
翻訳日:2023-05-11 17:37:43 公開日:2023-05-10
# 軌道サンプリングによるニューラルネットワークアンサンブルの訓練

Training neural network ensembles via trajectory sampling ( http://arxiv.org/abs/2209.11116v2 )

ライセンス: Link先を確認
Jamie F. Mair, Dominic C. Rose, Juan P. Garrahan(参考訳) 機械学習では、ニューラルネットワークアンサンブル(nnes)への新たな関心があり、予測は単一の大きなモデルではなく、さまざまな小さなモデルの集合から得られる。 ここでは,確率系における希少な軌跡の研究から,NNEの定義と訓練方法を示す。 モデルパラメータの軌跡を,単純かつ離散的な時間で定義し,これらの軌跡を時間分解損失に偏らし,過度パラメータとして作用する適切なカウントフィールドによって制御することにより,NNEを訓練する。 簡単な教師付き学習課題に対して,本手法の有効性を実証する。 従来の勾配法と比較して,軌道サンプリング手法の潜在的な利点について考察する。

In machine learning, there is renewed interest in neural network ensembles (NNEs), whereby predictions are obtained as an aggregate from a diverse set of smaller models, rather than from a single larger model. Here, we show how to define and train a NNE using techniques from the study of rare trajectories in stochastic systems. We define an NNE in terms of the trajectory of the model parameters under a simple, and discrete in time, diffusive dynamics, and train the NNE by biasing these trajectories towards a small time-integrated loss, as controlled by appropriate counting fields which act as hyperparameters. We demonstrate the viability of this technique on a range of simple supervised learning tasks. We discuss potential advantages of our trajectory sampling approach compared with more conventional gradient based methods.
翻訳日:2023-05-11 17:37:24 公開日:2023-05-10
# 経験過程に対するインスタンス依存一様尾辺

Instance-dependent uniform tail bounds for empirical processes ( http://arxiv.org/abs/2209.10053v3 )

ライセンス: Link先を確認
Sohail Bahmani(参考訳) 検討されたクラスにおける最悪のケース偏差ではなく、関数の個々の偏差の観点から、関数のクラスによってインデックス付けされた経験的過程の均一なテールを定式化する。 テール境界は、標準のジェネリック連鎖引数に最初の「定義」ステップを導入することによって確立される。 結果として得られるテールバウンドは、主な複雑性成分であり、拡張された関数クラスに対するtalagrandの$\gamma$ functionalの変形であり、適切なノルムの適切なスケールバージョンによって測定されるインスタンス依存の偏差項を持つ。 これらの用語は、関連する累積生成関数に基づいて定式化された係数を用いて表される。 また、関数クラスが与えられた(指数型)オルリッツ空間にあるとき、上記の係数についてより明示的な近似を与える。

We formulate a uniform tail bound for empirical processes indexed by a class of functions, in terms of the individual deviations of the functions rather than the worst-case deviation in the considered class. The tail bound is established by introducing an initial "deflation" step to the standard generic chaining argument. The resulting tail bound has a main complexity component, a variant of Talagrand's $\gamma$ functional for the deflated function class, as well as an instance-dependent deviation term, measured by an appropriately scaled version of a suitable norm. Both of these terms are expressed using certain coefficients formulated based on the relevant cumulant generating functions. We also provide more explicit approximations for the mentioned coefficients, when the function class lies in a given (exponential type) Orlicz space.
翻訳日:2023-05-11 17:37:10 公開日:2023-05-10
# 二核金属錯体を用いた量子スターリングエンジン

Quantum Stirling engine based on dinuclear metal complexes ( http://arxiv.org/abs/2208.14548v2 )

ライセンス: Link先を確認
Clebson Cruz, Hamid-Reza Rastegar-Sedehi, Maron F. Anka, Thiago R. de Oliveira and Mario Reis(参考訳) 低次元金属錯体は、調節可能な物理的および化学的性質を持つ多用途材料であり、これらのシステムはカロリー用途のプラットフォームを約束する。 この文脈において、この研究は二核金属錯体を作用物質とする量子スターリングサイクルを提案する。 その結果, 物質磁気結合と貯留層温度の変化を考慮した場合, 量子サイクル動作モードの管理が可能であることがわかった。 さらに、磁気感受性は各サイクルステップの熱交換の特徴付けに利用することができ、その性能も向上する。 概念実証として、熱機関の効率は実験的な感受性データから得られる。 これらの結果は、金属錯体を用いて量子熱力学サイクルを研究するための扉を開き、これらの先端材料に基づく新しい量子技術の開発をさらに進めた。

Low-dimensional metal complexes are versatile materials with tunable physical and chemical properties that make these systems promising platforms for caloric applications. In this context, this work proposes a quantum Stirling cycle based on a dinuclear metal complex as a working substance. The results show that the quantum cycle operational modes can be managed when considering the change in the magnetic coupling of the material and the temperature of the reservoirs. Moreover, magnetic susceptibility can be used to characterize the heat exchanges of each cycle step and, therefore, its performance. As a proof of concept, the efficiency of the heat engine is obtained from experimental susceptibility data. These results open doors for studying quantum thermodynamic cycles by using metal complexes; and further the development of emerging quantum technologies based on these advanced materials.
翻訳日:2023-05-11 17:36:35 公開日:2023-05-10
# 量子相関における非局所性蒸留

Distilling nonlocality in quantum correlations ( http://arxiv.org/abs/2208.13976v3 )

ライセンス: Link先を確認
Sahil Gopalkrishna Naik, Govind Lal Sidhardh, Samrat Sen, Arup Roy, Ashutosh Rai, Manik Banik(参考訳) セミナルベルの定理によって確立された非局所性は、分離事象のような空間に存在する相関の最も顕著な特徴であると考えられている。 デバイスに依存しないプロトコル、例えば、セキュアな鍵分布、ランダム性認証などにおける実用的応用。 量子世界で観測された相関関係の同定と増幅を要求する。 本文では,非局所性蒸留の展望を考察し,弱非局所系の多くのコピーに自然集合の自由操作(配線と呼ばれる)を適用することにより,高い非局所強度の相関関係を生成することを目的とする。 最も単純なベルシナリオでは、非局所性が任意に弱い量子非局所相関からかなり高い程度に分散できるプロトコル、すなわち論理的な or-and wiring を同定する。 私たちのプロトコルにはいくつかの興味深い側面があります。 i)全8次元相関空間において、蒸留可能な量子相関の集合がゼロ測度を持たないことを示す。 (ii)その構造を維持して量子ハーディ相関を分離することができる。 3) 局所決定論点に十分近い(非局所的な)量子相関は、かなりの量で蒸留可能であることを示す。 最後に, ポスト量子相関の検出における蒸留プロトコルの有効性を実証する。

Nonlocality, as established by seminal Bell's theorem, is considered to be the most striking feature of correlations present in space like separated events. Its practical application in device independent protocols, such as, secure key distribution, randomness certification {\it etc.}, demands identification and amplification of such correlations observed in quantum world. In this letter we study the prospect of nonlocality distillation, wherein, by applying a natural set of free operations (called wirings) on many copies of weakly nonlocal systems, one aims to generate correlations of higher nonlocal strength. In the simplest Bell scenario, we identify a protocol, namely logical OR-AND wiring, that can distil nonlocality to significantly high degree starting from arbitrarily weak quantum nonlocal correlations. As it turns out, our protocol has several interesting facets: (i) it demonstrates that set of distillable quantum correlations has non zero measure in the full eight dimensional correlation space, (ii) it can distil quantum Hardy correlations by preserving its structure, (iii) it shows that (nonlocal) quantum correlations sufficiently close to the local deterministic points can be distilled by a significant amount. Finally, we also demonstrate efficacy of the considered distillation protocol in detecting post quantum correlations.
翻訳日:2023-05-11 17:36:23 公開日:2023-05-10
# マルチモーダル要約のためのパラグラフレベル視覚言語セマンティックアライメントのモデル化

Modeling Paragraph-Level Vision-Language Semantic Alignment for Multi-Modal Summarization ( http://arxiv.org/abs/2208.11303v3 )

ライセンス: Link先を確認
Chenhao Cui, Xinnian Liang, Shuangzhi Wu, Zhoujun Li(参考訳) 現行のマルチモーダル要約法では,まず外装オブジェクト検出器を用いて視覚的特徴を抽出し,これらの特徴を言語表現と融合させてエンコーダ・デコーダモデルを用いて要約を生成する。 カスケードされた方法では、正確な要約に不可欠である画像と段落間の意味的アライメントをキャプチャできない。 本稿では, ViL-Sum を用いて, 段落レベル textbf{Vi}sion-\textbf{L}anguage Semantic Alignment と Multi-Modal \textbf{Sum}marization を共同でモデル化する。 ViL-Sumのコアは、よく設計された2つのタスク、画像の並べ替えと画像選択を備えたマルチモーダルエンコーダである。 ジョイントマルチモーダルエンコーダはモダリティ間の相互作用をキャプチャし、再順序付けタスクがモデルに段落レベルの意味的アライメントを学習させ、選択タスクが最終要約で選択された要約関連画像にモデルをガイドする。 実験結果から,提案したViL-Sumは最先端手法よりも優れていた。 さらに,2つのよく設計されたタスクと共同マルチモーダルエンコーダが,合理的な段落関係と要約関係を学習するために効果的にモデルを導出できることを見出した。

Most current multi-modal summarization methods follow a cascaded manner, where an off-the-shelf object detector is first used to extract visual features, then these features are fused with language representations to generate the summary with an encoder-decoder model. The cascaded way cannot capture the semantic alignments between images and paragraphs, which are crucial to a precise summary. In this paper, we propose ViL-Sum to jointly model paragraph-level \textbf{Vi}sion-\textbf{L}anguage Semantic Alignment and Multi-Modal \textbf{Sum}marization. The core of ViL-Sum is a joint multi-modal encoder with two well-designed tasks, image reordering and image selection. The joint multi-modal encoder captures the interactions between modalities, where the reordering task guides the model to learn paragraph-level semantic alignment and the selection task guides the model to selected summary-related images in the final summary. Experimental results show that our proposed ViL-Sum significantly outperforms current state-of-the-art methods. In further analysis, we find that two well-designed tasks and joint multi-modal encoder can effectively guide the model to learn reasonable paragraphs-images and summary-images relations.
翻訳日:2023-05-11 17:36:05 公開日:2023-05-10
# 量子メトロポリス法による重力波のパラメータ推定

Parameter Estimation of Gravitational Waves with a Quantum Metropolis Algorithm ( http://arxiv.org/abs/2208.05506v2 )

ライセンス: Link先を確認
Gabriel Escrig, Roberto Campos, Pablo A. M. Casares and M. A. Martin-Delgado(参考訳) 2015年に重力波が初めて観測された後、この宇宙を観察する革新的な方法によって達成された成功の数は増えなくなった。 しかし、このタイプの事象を分析する現在の技術は、高い計算能力を必要とするため深刻なボトルネックをもたらす。 本稿では,近年の量子アルゴリズムに基づく手法がこの障害を克服する方法について検討する。 そこで本研究では,メトロポリス・ハスティングス法に応用したよく知られた量子ウォークス法に基づいて,重力波パラメータの推算に用いる古典的アルゴリズムの量子化を提案する。 最後に,古典的ハードウェア上で量子環境を構築し,量子アルゴリズムと古典的アルゴリズムを公平に比較するためのメトリクスを実装した。 さらに、最初の検出期間 GWTC-1 の全ての事象のパラメータ集合の実際の推論においてこれらの発達を検証し、量子アルゴリズムにおける多項式の優位性を見つけ、将来のアルゴリズムに最初の出発点を設定する。

After the first detection of a gravitational wave in 2015, the number of successes achieved by this innovative way of looking through the universe has not stopped growing. However, the current techniques for analyzing this type of events present a serious bottleneck due to the high computational power they require. In this article we explore how recent techniques based on quantum algorithms could surpass this obstacle. For this purpose, we propose a quantization of the classical algorithms used in the literature for the inference of gravitational wave parameters based on the well-known Quantum Walks technique applied to a Metropolis-Hastings algorithm. Finally, we develop a quantum environment on classical hardware, implementing a metric to compare quantum versus classical algorithms in a fair way. We further test all these developments in the real inference of several sets of parameters of all the events of the first detection period GWTC-1 and we find a polynomial advantage in the quantum algorithms, thus setting a first starting point for future algorithms.
翻訳日:2023-05-11 17:35:38 公開日:2023-05-10
# BLEUの概要:コード生成モデルの品質を評価するにはどうすればいいのか?

Out of the BLEU: how should we assess quality of the Code Generation models? ( http://arxiv.org/abs/2208.03133v2 )

ライセンス: Link先を確認
Mikhail Evtikhiev, Egor Bogomolov, Yaroslav Sokolov, Timofey Bryksin(参考訳) 近年、研究者は多数のコード生成モデルを作成し、導入している。 新しいモデル版の人間による評価は不可能であるため、コミュニティは人的判断の結果を近似するためにBLEUのような自動評価指標を採用した。 これらのメトリクスは、機械翻訳ドメインに由来するものであり、コード生成タスクに適用可能かどうか、また、このタスクにおける人間の評価にどの程度の精度で一致しているかは定かではない。 ソースコードの特性を考慮に入れて、コードの類似性を評価するために開発された他のメトリクス、codebleuとrubyもある。 しかし、これらの指標について、人的評価との合意についての研究はほとんどない。 それにもかかわらず、いくつかのコード生成モデルが他よりも優れていると主張するために、最近の論文でメートル法スコアのわずかな差が使われてきた。 本稿では,コード生成モデル評価のための6つのメトリクス(BLEU, ROUGE-L, METEOR, ChrF, CodeBLEU, RUBY)の適用性について検討する。 2つの異なるコード生成データセットの研究を行い、人間のアノテータを使用して、これらのデータセット上で実行されるすべてのモデルの品質を評価する。 その結果,Python ワンライナーの CoNaLa データセットでは,モデルスコアの差が 5 点未満であれば,どのモデルがよいのかを 95% の確証で正確に評価することはできないことがわかった。 特定の構造のクラスからなるhearthstoneデータセットの場合、少なくとも2点のモデルスコアの差は、一方のモデルが他方よりも優れていると主張するのに十分である。 以上の結果から,ChrF測定値が一般的なBLEUやCodeBLEUよりもコード生成モデルに適していることが示唆された。 しかし、人間と密接に一致するコード生成のメトリクスを見つけるには、追加の作業が必要です。

In recent years, researchers have created and introduced a significant number of various code generation models. As human evaluation of every new model version is unfeasible, the community adopted automatic evaluation metrics such as BLEU to approximate the results of human judgement. These metrics originate from the machine translation domain and it is unclear whether they are applicable for the code generation tasks and how well they agree with the human evaluation on this task. There are also other metrics, CodeBLEU and RUBY, developed to estimate the similarity of code, that take into account the properties of source code. However, for these metrics there are hardly any studies on their agreement with the human evaluation. Despite all that, minimal differences in the metric scores have been used in recent papers to claim superiority of some code generation models over the others. In this paper, we present a study on the applicability of six metrics -- BLEU, ROUGE-L, METEOR, ChrF, CodeBLEU, and RUBY -- for evaluation of code generation models. We conduct a study on two different code generation datasets and use human annotators to assess the quality of all models run on these datasets. The results indicate that for the CoNaLa dataset of Python one-liners, none of the metrics can correctly emulate human judgement on which model is better with >95% certainty if the difference in model scores is less than 5 points. For the HearthStone dataset, which consists of classes of a particular structure, a difference in model scores of at least 2 points is enough to claim the superiority of one model over the other. Our findings suggest that the ChrF metric is a better fit for the evaluation of code generation models than the commonly used BLEU and CodeBLEU. Yet, finding a metric for code generation that closely agrees with humans requires additional work.
翻訳日:2023-05-11 17:35:25 公開日:2023-05-10
# 市民科学データのための二重機械学習トレンドモデル

A Double Machine Learning Trend Model for Citizen Science Data ( http://arxiv.org/abs/2210.15524v2 )

ライセンス: Link先を確認
Daniel Fink (1), Alison Johnston (2), Matt Strimas-Mackey (1), Tom Auer (1), Wesley M. Hochachka (1), Shawn Ligocki (1), Lauren Oldham Jaromczyk (1), Orin Robinson (1), Chris Wood (1), Steve Kelling (1), and Amanda D. Rodewald (1) ((1) Cornell Lab of Ornithology, Cornell University, USA (2) Centre for Research into Ecological and Environmental Modelling, School of Maths and Statistics, University of St Andrews, St Andrews, UK)(参考訳) 1. 市民と地域科学(CS)データセットは, 毎年収集される大量のデータから, 人口変動の経年変化パターンを推定する大きな可能性を秘めている。 しかし、多くのCSプロジェクトが大量のデータを収集できる柔軟なプロトコルは、通常、何年もにわたって一貫したサンプリングを維持するのに必要な構造を欠いている。 経時的観察過程の変化は種の個体群の大きさの変化と合致するので、これは年々合体する。 ここでは, 市民科学データに共通する大陸間共生を制御しつつ, 種数傾向を推定するための新しいモデリング手法について述べる。 このアプローチはDouble Machine Learningに基づいており、このフレームワークは、機械学習手法を使って人口変化を推定し、データに見いだされたコンバウンディングの調整に使用される確率スコアを推定する。 さらに,正規度スコアが欠落した残差の同定と調整を行うシミュレーション手法を開発した。 この新しい手法により,市民科学データから空間的詳細な傾向推定を作成できる。 アプローチを説明するため,CSプロジェクトeBirdのデータを用いて種の傾向を推定した。 本研究は,実世界のコンファウンディングに直面する空間的変動傾向を推定する手法の能力を評価するために,シミュレーションスタディを用いて行った。 その結果,27kmの解像度で空間定数と空間変動の傾向を区別できる傾向が得られた。 人口変動の予測方向(増加/減少)には誤り率が低く,推定規模には高い相関が認められた。 4. 市民科学データに埋もれながら空間的明らかな傾向を推定する能力は、重要な情報ギャップを埋める可能性があり、厳密なモニタリングデータなしで種・地域・季節の人口動向を推定するのに役立つ。

1. Citizen and community-science (CS) datasets have great potential for estimating interannual patterns of population change given the large volumes of data collected globally every year. Yet, the flexible protocols that enable many CS projects to collect large volumes of data typically lack the structure necessary to keep consistent sampling across years. This leads to interannual confounding, as changes to the observation process over time are confounded with changes in species population sizes. 2. Here we describe a novel modeling approach designed to estimate species population trends while controlling for the interannual confounding common in citizen science data. The approach is based on Double Machine Learning, a statistical framework that uses machine learning methods to estimate population change and the propensity scores used to adjust for confounding discovered in the data. Additionally, we develop a simulation method to identify and adjust for residual confounding missed by the propensity scores. Using this new method, we can produce spatially detailed trend estimates from citizen science data. 3. To illustrate the approach, we estimated species trends using data from the CS project eBird. We used a simulation study to assess the ability of the method to estimate spatially varying trends in the face of real-world confounding. Results showed that the trend estimates distinguished between spatially constant and spatially varying trends at a 27km resolution. There were low error rates on the estimated direction of population change (increasing/decreasing) and high correlations on the estimated magnitude. 4. The ability to estimate spatially explicit trends while accounting for confounding in citizen science data has the potential to fill important information gaps, helping to estimate population trends for species, regions, or seasons without rigorous monitoring data.
翻訳日:2023-05-11 17:30:04 公開日:2023-05-10
# 演算子の一般化期待値を測定する量子回路とその非エルミート巻数への応用

Quantum circuit for measuring an operator's generalized expectation values and its applications to non-Hermitian winding numbers ( http://arxiv.org/abs/2210.12732v2 )

ライセンス: Link先を確認
Ze-Hao Huang, Peng He, Li-Jun Lang, Shi-Liang Zhu(参考訳) 2つの量子状態に対して、任意の演算子の$a$の量である$\langle \psi_1 | a | \psi_2 \rangle$を測定するためのスワップテストに基づく一般量子回路を提案する。 この量は、多くの物理学分野においてしばしば遭遇し、従来の予想の2状態一般化として一般化された予想を導いた。 非エルミート物理学の分野において、この回路を与えられた非エルミート的ハミルトニアンの左右固有状態に対する一般化された期待値の測定に適用する。 一般回路への入力として、左右の固有状態を効率的に作成するために、複素平面においてハミルトニアン対$(h,-h^\dagger)$を効果的に回転させることにより量子回路を開発する。 適用例として,Blochと非Blochのスピンテクスチャと,周期的および開境界条件下での対応する巻数を測定することで,非相反ホッピングを持つSu-Schrieffer-Heegerモデルにおけるこれらの回路の有効性を示す。 数値シミュレーションにより、これらの巻線数を構成する非エルミートスピンテクスチャーは、高い忠実度でうまく捕捉でき、PBCとOBCの異なる位相相転移が明確に特徴づけられることが示された。 非エルミート的チャーン数のような非エルミート的スピンテクスチャからなる他の非エルミート的トポロジー不変量や、他の物理学の分野における有意な一般化された期待も、我々の一般回路によって測定され、非エルミート的および他のキュービット系で実現された物理学の新たな性質を研究するための異なる視点を提供するであろう。

We propose a general quantum circuit based on the swap test for measuring the quantity $\langle \psi_1 | A | \psi_2 \rangle$ of an arbitrary operator $A$ with respect to two quantum states $|\psi_{1,2}\rangle$. This quantity is frequently encountered in many fields of physics, and we dub it the generalized expectation as a two-state generalization of the conventional expectation. We apply the circuit, in the field of non-Hermitian physics, to the measurement of generalized expectations with respect to left and right eigenstates of a given non-Hermitian Hamiltonian. To efficiently prepare the left and right eigenstates as the input to the general circuit, we also develop a quantum circuit via effectively rotating the Hamiltonian pair $(H,-H^\dagger)$ in the complex plane. As applications, we demonstrate the validity of these circuits in the prototypical Su-Schrieffer-Heeger model with nonreciprocal hopping by measuring the Bloch and non-Bloch spin textures and the corresponding winding numbers under periodic and open boundary conditions (PBCs and OBCs), respectively. The numerical simulation shows that non-Hermitian spin textures building up these winding numbers can be well captured with high fidelity, and the distinct topological phase transitions between PBCs and OBCs are clearly characterized. We may expect that other non-Hermitian topological invariants composed of non-Hermitian spin textures, such as non-Hermitian Chern numbers, and even significant generalized expectations in other branches of physics would also be measured by our general circuit, providing a different perspective to study novel properties in non-Hermitian as well as other physics realized in qubit systems.
翻訳日:2023-05-11 17:28:55 公開日:2023-05-10
# 文化的コモンセンス知識の抽出

Extracting Cultural Commonsense Knowledge at Scale ( http://arxiv.org/abs/2210.07763v3 )

ライセンス: Link先を確認
Tuan-Phong Nguyen, Simon Razniewski, Aparna Varde, Gerhard Weikum(参考訳) 構造化知識は多くのAIアプリケーションにとって重要である。 堅牢な人間中心のaiに不可欠な常識知識は、少数の構造化知識プロジェクトによってカバーされている。 しかし、それらは社会文化的文脈に基づく人間の特性や行動に関する知識を欠いている。 本稿では,高品質な文化常識知識(CCSK)を大規模に抽出するためのエンドツーエンド手法であるCANDLEを提案する。 CANDLEは巨大なウェブコーパスからCSKアサーションを抽出し、これらを3つの領域の主題(地理学、宗教、職業)といくつかの文化的ファセット(食品、飲み物、衣服、伝統、儀式、行動)の一貫性のあるクラスタにまとめる。 CANDLEは、分類に基づくフィルタリングと興味深いスコア付けのための司法手法を含んでいる。 実験により, CANDLE CCSKコレクションは先行研究よりも優れており, GPT-3言語モデルに対する CCSK の利点が実証されている。 コードとデータはhttps://candle.mpi-inf.mpg.de/でアクセスできる。

Structured knowledge is important for many AI applications. Commonsense knowledge, which is crucial for robust human-centric AI, is covered by a small number of structured knowledge projects. However, they lack knowledge about human traits and behaviors conditioned on socio-cultural contexts, which is crucial for situative AI. This paper presents CANDLE, an end-to-end methodology for extracting high-quality cultural commonsense knowledge (CCSK) at scale. CANDLE extracts CCSK assertions from a huge web corpus and organizes them into coherent clusters, for 3 domains of subjects (geography, religion, occupation) and several cultural facets (food, drinks, clothing, traditions, rituals, behaviors). CANDLE includes judicious techniques for classification-based filtering and scoring of interestingness. Experimental evaluations show the superiority of the CANDLE CCSK collection over prior works, and an extrinsic use case demonstrates the benefits of CCSK for the GPT-3 language model. Code and data can be accessed at https://candle.mpi-inf.mpg.de/.
翻訳日:2023-05-11 17:28:20 公開日:2023-05-10
# 構造保存ニューラルネットワークによる近周期シンプレクティックマップの近似

Approximation of nearly-periodic symplectic maps via structure-preserving neural networks ( http://arxiv.org/abs/2210.05087v2 )

ライセンス: Link先を確認
Valentin Duruisseaux, Joshua W. Burby, Qi Tang(参考訳) パラメータ $\varepsilon$ を持つ連続時間力学系は、すべての軌跡が周期的であり、$\varepsilon$ が 0 に近づくと、どこにもない角周波数を持つ。 概周期写像は、概周期系の離散時間類似物であり、円運動に沿った回転に制限されるパラメータ依存微分同相写像として定義され、制限回転が非共振であるとき、すべての順序に対して形式的$u(1)$対称性を認める。 厳密な漸近多様体上のハミルトン的近周期写像に対して、公式な u(1)$ 対称性は離散時間断熱不変量をもたらす。 本稿では,ほぼ周期的なシンプレクティックマップを近似する構造保存ニューラルネットワークを構築する。 シンプレクティック・ジャイロセプトロンと呼ばれるこのニューラルネットワークアーキテクチャは、結果として得られるサロゲートマップがほぼ周期的かつシンプレクティックであり、離散的な時間的断熱不変性と長期間の安定性をもたらすことを保証します。 この新しい構造保存ニューラルネットワークは、急激な不安定性を導入することなく、短時間のスケールで自動的にステップする非散逸動的システムのサロゲートモデリングのための有望なアーキテクチャを提供する。

A continuous-time dynamical system with parameter $\varepsilon$ is nearly-periodic if all its trajectories are periodic with nowhere-vanishing angular frequency as $\varepsilon$ approaches 0. Nearly-periodic maps are discrete-time analogues of nearly-periodic systems, defined as parameter-dependent diffeomorphisms that limit to rotations along a circle action, and they admit formal $U(1)$ symmetries to all orders when the limiting rotation is non-resonant. For Hamiltonian nearly-periodic maps on exact presymplectic manifolds, the formal $U(1)$ symmetry gives rise to a discrete-time adiabatic invariant. In this paper, we construct a novel structure-preserving neural network to approximate nearly-periodic symplectic maps. This neural network architecture, which we call symplectic gyroceptron, ensures that the resulting surrogate map is nearly-periodic and symplectic, and that it gives rise to a discrete-time adiabatic invariant and a long-time stability. This new structure-preserving neural network provides a promising architecture for surrogate modeling of non-dissipative dynamical systems that automatically steps over short timescales without introducing spurious instabilities.
翻訳日:2023-05-11 17:28:00 公開日:2023-05-10
# NerfAcc: 一般的なNeRF加速ツールボックス

NerfAcc: A General NeRF Acceleration Toolbox ( http://arxiv.org/abs/2210.04847v3 )

ライセンス: Link先を確認
Ruilong Li, Matthew Tancik and Angjoo Kanazawa(参考訳) 放射場の効率的なボリュームレンダリングのためのツールボックスであるNerfAccを提案する。 我々は、Instant-NGPで提案された技術に基づいて、これらの技術を拡張して、境界付静的シーンだけでなく、動的シーンや非境界付シーンもサポートする。 NerfAccにはユーザフレンドリーなPython APIが付属しており、ほとんどのNeRFのプラグアンドプレイアクセラレーションの準備が整っている。 このツールボックスの使い方を示す様々な例が提供されている。 コードは、https://github.com/KAIR-BAIR/nerfacc.com/で参照できる。 この書き込みはNerfAcc v0.3.5と一致している。 NerfAccの最新機能については、arXiv:2305.04966の最近の記事を参照してほしい。

We propose NerfAcc, a toolbox for efficient volumetric rendering of radiance fields. We build on the techniques proposed in Instant-NGP, and extend these techniques to not only support bounded static scenes, but also for dynamic scenes and unbounded scenes. NerfAcc comes with a user-friendly Python API, and is ready for plug-and-play acceleration of most NeRFs. Various examples are provided to show how to use this toolbox. Code can be found here: https://github.com/KAIR-BAIR/nerfacc. Note this write-up matches with NerfAcc v0.3.5. For the latest features in NerfAcc, please check out our more recent write-up at arXiv:2305.04966
翻訳日:2023-05-11 17:27:37 公開日:2023-05-10
# ラーニングウェア:小さなモデルは大きい

Learnware: Small Models Do Big ( http://arxiv.org/abs/2210.03647v2 )

ライセンス: Link先を確認
Zhi-Hua Zhou, Zhi-Hao Tan(参考訳) 現在の機械学習技術には、大量のトレーニングデータと熟練したトレーニングスキルの必要性、継続的な学習の難しさ、壊滅的な忘れのリスク、データのプライバシ/プライバシの漏洩など、不満がある。 ほとんどの研究は、関連する問題の1つに別々に焦点を合わせており、ほとんどの問題が実際に絡まっているという事実に注意を払っていない。 自然言語処理やコンピュータビジョンの応用で目覚ましい成果を上げてきた、一般的なビッグモデルパラダイムは、これらの問題にまだ対応していないが、炭素排出量の深刻な源となっている。 本稿では,機械学習モデルをスクラッチから構築する必要がないことをユーザが実現しようとする学習ウェアのパラダイムの概要を紹介する。このパラダイムは,従来の目的を超えて,小さなモデルを再利用して物事を行おうとする試みであり,トレーニングされたモデルを適切に識別し,モデルについて事前に何も知らない将来のユーザの要求に応じて再利用できるようにするための重要な要素である。

There are complaints about current machine learning techniques such as the requirement of a huge amount of training data and proficient training skills, the difficulty of continual learning, the risk of catastrophic forgetting, the leaking of data privacy/proprietary, etc. Most research efforts have been focusing on one of those concerned issues separately, paying less attention to the fact that most issues are entangled in practice. The prevailing big model paradigm, which has achieved impressive results in natural language processing and computer vision applications, has not yet addressed those issues, whereas becoming a serious source of carbon emissions. This article offers an overview of the learnware paradigm, which attempts to enable users not need to build machine learning models from scratch, with the hope of reusing small models to do things even beyond their original purposes, where the key ingredient is the specification which enables a trained model to be adequately identified to reuse according to the requirement of future users who know nothing about the model in advance.
翻訳日:2023-05-11 17:27:27 公開日:2023-05-10
# pandasトピックに関する開発者の議論に関する実証的研究

An Empirical Study on How the Developers Discussed about Pandas Topics ( http://arxiv.org/abs/2210.03519v2 )

ライセンス: Link先を確認
Sajib Kumar Saha Joy, Farzad Ahmed, Al Hasib Mahamud, and Nibir Chandra Mandal(参考訳) PandasはPythonプログラミング言語のデータ分析に使用されるソフトウェアライブラリとして定義されている。 pandasは高速で簡単でオープンソースのデータ分析ツールであるため、ソフトウェア開発、機械学習、コンピュータビジョン、自然言語処理、ロボット工学など、さまざまなソフトウェアエンジニアリングプロジェクトで急速に利用されている。 だから、pandasに関するソフトウェア開発者に大きな関心が示され、stack overflow(so)のようなオンライン開発者フォーラムで、多くの議論が支配的になっている。 このような議論はpandasライブラリの人気を理解するのに役立ち、pandasトピックの重要性、普及率、困難さを理解するのにも役立ちます。 本研究の目的は,パンダのトピックの人気と難しさを明らかにすることである。 この点に関して、pandasトピックに関する議論に関連する投稿が収集される。 トピックモデリングは、投稿のテキスト内容に基づいて行われる。 26のトピックを,さらに5つのボードカテゴリに分類した。 開発者は、エラーや処理、可視化、外部サポート、データフレーム、最適化を除いて、SOにおける様々なパンダトピックについて議論する。 また、予め定義された時系列におけるトピックの議論に応じてトレンドチャートを生成する。 この論文の発見は、開発者、教育者、学習者を支援する道を提供する。 例えば初心者の開発者は,任意のモデルを開発する上で不可欠な,pandasの最も重要なトピックを学ぶことができる。 教育者は、学習者にとって難しいトピックを理解し、パンダのトピックを理解できるようにするための異なるチュートリアルを構築することができる。 この実証研究から,SOポストを処理することで,パンダトピックにおける開発者の好みを理解することができる。

Pandas is defined as a software library which is used for data analysis in Python programming language. As pandas is a fast, easy and open source data analysis tool, it is rapidly used in different software engineering projects like software development, machine learning, computer vision, natural language processing, robotics, and others. So a huge interests are shown in software developers regarding pandas and a huge number of discussions are now becoming dominant in online developer forums, like Stack Overflow (SO). Such discussions can help to understand the popularity of pandas library and also can help to understand the importance, prevalence, difficulties of pandas topics. The main aim of this research paper is to find the popularity and difficulty of pandas topics. For this regard, SO posts are collected which are related to pandas topic discussions. Topic modeling are done on the textual contents of the posts. We found 26 topics which we further categorized into 5 board categories. We observed that developers discuss variety of pandas topics in SO related to error and excepting handling, visualization, External support, dataframe, and optimization. In addition, a trend chart is generated according to the discussion of topics in a predefined time series. The finding of this paper can provide a path to help the developers, educators and learners. For example, beginner developers can learn most important topics in pandas which are essential for develop any model. Educators can understand the topics which seem hard to learners and can build different tutorials which can make that pandas topic understandable. From this empirical study it is possible to understand the preferences of developers in pandas topic by processing their SO posts
翻訳日:2023-05-11 17:26:49 公開日:2023-05-10
# 無線スペクトルのクラスタリングのための自己教師付き学習

Self-supervised Learning for Clustering of Wireless Spectrum Activity ( http://arxiv.org/abs/2210.02899v2 )

ライセンス: Link先を確認
Ljupcho Milosheski, Gregor Cerar, Bla\v{z} Bertalani\v{c}, Carolina Fortuna and Mihael Mohor\v{c}i\v{c}(参考訳) 近年, 異常検出, 変調分類, 技術分類, デバイスフィンガープリントなど, 認知無線ネットワークにおける領域関連問題における機械学習技術を含む無線スペクトルデータの処理に関する研究が盛んに行われている。 ほとんどのソリューションはラベル付きデータに基づいており、制御された方法で作成され、教師付き学習アプローチで処理される。 しかしながら、実世界の環境で測定されたスペクトルデータは極めて非決定的であり、そのラベル付けは困難で高価なプロセスであり、ドメインの専門知識を必要とするため、このドメインにおける教師付き学習アプローチの使用の主な欠点の1つとなっている。 本稿では,実世界の未ラベルデータにおけるスペクトル活動の探索に自己教師付き学習(SSL)を用いることを検討する。 特に、参照DeepClusterアーキテクチャに基づくSSLモデルと、スペクトル活動の識別とクラスタリングに適応したSSLモデルと、K平均クラスタリングアルゴリズムに基づくベースラインモデルの比較を行った。 抽出した特徴量やクラスタリング性能に関して,SSLモデルにより優れた性能が得られることを示す。 SSLモデルでは、特徴ベクトルのサイズを2桁に縮小するとともに、視覚的評価によって支援された評価指標の2~2.5倍の性能向上を実現しています。 さらに,参照SSLアーキテクチャのドメインデータへの適応により,クラスタリング性能の維持や改善を図りながら,モデルの複雑性を1桁のスケールで低減できることを示す。

In recent years, much work has been done on processing of wireless spectrum data involving machine learning techniques in domain-related problems for cognitive radio networks, such as anomaly detection, modulation classification, technology classification and device fingerprinting. Most of the solutions are based on labeled data, created in a controlled manner and processed with supervised learning approaches. However, spectrum data measured in real-world environment is highly nondeterministic, making its labeling a laborious and expensive process, requiring domain expertise, thus being one of the main drawbacks of using supervised learning approaches in this domain. In this paper, we investigate the use of self-supervised learning (SSL) for exploring spectrum activities in a real-world unlabeled data. In particular, we compare the performance of two SSL models, one based on a reference DeepCluster architecture and one adapted for spectrum activity identification and clustering, and a baseline model based on K-means clustering algorithm. We show that SSL models achieve superior performance regarding the quality of extracted features and clustering performance. With SSL models we achieve reduction of the feature vectors size by two orders of magnitude, while improving the performance by a factor of 2 to 2.5 across the evaluation metrics, supported by visual assessment. Additionally we show that adaptation of the reference SSL architecture to the domain data provides reduction of model complexity by one order of magnitude, while preserving or even improving the clustering performance.
翻訳日:2023-05-11 17:26:27 公開日:2023-05-10
# 量子スライド上の量子ウォークによる量子コンピューティング

Quantum Computing by Quantum Walk on Quantum Slide ( http://arxiv.org/abs/2211.08659v2 )

ライセンス: Link先を確認
Fan Wang, Bin Cheng, Zi-Wei Cui and Man-Hong Yung(参考訳) 連続時間量子ウォーキング(Continuous-time quantum walk)は、量子ゲートの普遍的な集合がスパースグラフに埋め込まれた特別な構造上に量子ウォーカーを散乱させることによって達成される量子計算の代替手法の1つである。 フェムト秒レーザーによる光導波路の最近の進歩は、量子計算の量子ウォークモデルを実現するための有望な物理プラットフォームである。 しかし、主な課題は、平面波の初期状態を作成する問題である。 従来,NAND木の作用原理(Wang et al. Phy. Rev. 2020)を実証するために,量子スライドの概念が提案され,実験的に実現されてきた。 ここでは、平面波の要求を回避して普遍的な量子計算を実現するために量子スライドをさらに適用する方法を示す。 具体的には、外部フィールドを完全状態転送チェーンに適用し、任意の運動量を持つ移動ガウス波パケットを生成することができる。 フェーズが適切に調整された場合、子の提案におけるユニバーサルゲートセットは、このスキームで実現できる。 さらに,スライドの長さによってゲートの忠実度が増加し,漸近的に一様になることを示す。

Continuous-time quantum walk is one of the alternative approaches to quantum computation, where a universal set of quantum gates can be achieved by scattering a quantum walker on some specially-designed structures embedded in a sparse graph [Childs, Phys. Rev. Lett. 2009]. Recent advances in femtosecond laser-inscribed optical waveguides represent a promising physical platform for realizing this quantum-walk model of quantum computation. However, the major challenge is the problem of preparing a plane-wave initial state. Previously, the idea of quantum slide has been proposed and experimentally realized for demonstrating the working principle of NAND tree [Wang et al. Phy. Rev. Lett. 2020]. Here we show how quantum slide can be further applied to realize universal quantum computation, bypassing the plane-wave requirement. Specifically, we apply an external field to the perfect-state-transfer chain, which can generate a moving Gaussian wave packet with an arbitrary momentum. When the phase is properly tuned, the universal gate set in Childs' proposal can be realized in our scheme. Furthermore, we show that the gate fidelities increase with the length of the slide, and can reach unity asymptotically.
翻訳日:2023-05-11 17:19:44 公開日:2023-05-10
# データインジェクション攻撃によるSwarmインテリジェンス保護への信頼感

Trust-Awareness to Secure Swarm Intelligence from Data Injection Attack ( http://arxiv.org/abs/2211.08407v4 )

ライセンス: Link先を確認
Bin Han, Dennis Krummacker, Qiuheng Zhou, and Hans D. Schotten(参考訳) 新興産業エージェント(IA)技術によって実現されたSwarm Intelligence(SI)は、第6世代(6G)モバイル通信とデジタルツイン(DT)によって形成される将来の産業用モノのインターネット(IIoT)において重要な役割を果たす。 しかし、データインジェクション攻撃に対する脆弱さは、実際のデプロイを阻止する可能性がある。 本稿では,SIのセキュリティ問題に対処する効率的な信頼手法を提案する。

Enabled by the emerging industrial agent (IA) technology, swarm intelligence (SI) is envisaged to play an important role in future industrial Internet of Things (IIoT) that is shaped by Sixth Generation (6G) mobile communications and digital twin (DT). However, its fragility against data injection attack may halt it from practical deployment. In this paper we propose an efficient trust approach to address this security concern for SI.
翻訳日:2023-05-11 17:19:22 公開日:2023-05-10
# 精度・完全・ロバストな容器分割のための親和性特徴強化

Affinity Feature Strengthening for Accurate, Complete and Robust Vessel Segmentation ( http://arxiv.org/abs/2211.06578v2 )

ライセンス: Link先を確認
Tianyi Shi, Xiaohuan Ding, Wei Zhou, Feng Pan, Zengqiang Yan, Xiang Bai and Xin Yang(参考訳) 血管セグメンテーションは、冠動脈狭窄、網膜血管疾患、脳動脈瘤などの多くの医学的応用において重要である。 しかし、高い画素精度、完全なトポロジー構造、様々なコントラスト変動に対する頑健性は批判的かつ困難であり、既存の手法はこれらのうち1つまたは2つしか達成できない。 本稿では, コントラストに敏感なマルチスケールアフィニティアプローチを用いて, 幾何学を融合モデルにし, 画素単位のセグメンテーション特徴を洗練する新たなアプローチ, 親和性特徴強化ネットワーク(AFN)を提案する。 具体的には,各画素に対するマルチスケールアフィニティフィールドを計算し,予測されたマスク画像中の隣接画素とのセマンティックな関係を捉える。 このフィールドは、異なる大きさの容器セグメントの局所形状を表しており、血管の特徴を強化するために、空間的およびスケール対応適応重みを学習できる。 X-ray angiography coronary vessel dataset (XCAD), portal vein dataset (PV), digital subtraction angiography cerebrovascular vessel dataset (DSA) およびRetinal vessel dataset (DRIVE) の4種類の血管データセットを用いてAFNを評価した。 実験の結果,AFNは高い精度とトポロジカルな測定値の両方で最先端の手法よりも優れており,コントラストの変化に対してより堅牢であることがわかった。 この作業のソースコードはhttps://github.com/TY-Shi/AFN.comで公開されている。

Vessel segmentation is crucial in many medical image applications, such as detecting coronary stenoses, retinal vessel diseases and brain aneurysms. However, achieving high pixel-wise accuracy, complete topology structure and robustness to various contrast variations are critical and challenging, and most existing methods focus only on achieving one or two of these aspects. In this paper, we present a novel approach, the affinity feature strengthening network (AFN), which jointly models geometry and refines pixel-wise segmentation features using a contrast-insensitive, multiscale affinity approach. Specifically, we compute a multiscale affinity field for each pixel, capturing its semantic relationships with neighboring pixels in the predicted mask image. This field represents the local geometry of vessel segments of different sizes, allowing us to learn spatial- and scale-aware adaptive weights to strengthen vessel features. We evaluate our AFN on four different types of vascular datasets: X-ray angiography coronary vessel dataset (XCAD), portal vein dataset (PV), digital subtraction angiography cerebrovascular vessel dataset (DSA) and retinal vessel dataset (DRIVE). Extensive experimental results demonstrate that our AFN outperforms the state-of-the-art methods in terms of both higher accuracy and topological metrics, while also being more robust to various contrast changes. The source code of this work is available at https://github.com/TY-Shi/AFN.
翻訳日:2023-05-11 17:19:12 公開日:2023-05-10
# 複数の可変デジネレータを持つ量子超伝導回路

A driven quantum superconducting circuit with multiple tunable degeneracies ( http://arxiv.org/abs/2211.04605v2 )

ライセンス: Link先を確認
Jayameenakshi Venkatraman, Rodrigo G. Cortinas, Nicholas E. Frattini, Xu Xiao, Michel H. Devoret(参考訳) 本稿では、スキューズ駆動を受けるKerr発振器のスペクトルにおける多重同時退化の実験的発見を示す。 このスクイージングはカー相互作用と組み合わせて、正弦波駆動力の半分の周波数で回転するフレームの効果的な静的2ウェル電位を生成する。 注目すべきは、これらの退化は需要に応じてオン・アンド・オフでき、その数は調整可能であることだ。 発振器の周波数と駆動の特性周波数の間で$\delta$がカー係数$k$、$\delta/k = 2m$の偶数倍に等しい場合、発振器は、駆動振幅に影響を受けない、正確にパリティ保護されたスペクトルの縮退を示す。 この退化は、実験をモデル化する2つの有効ポテンシャルの古典的に禁止された領域におけるトンネル経路の異常な破壊的干渉に由来する。 この干渉を生かして、我々の発振器の基底状態多様体に超保護された猫キュービットを生成するために、一貫性のない寿命のピークな向上を測定する。 我々の結果は,量子システムにおける縮退とノイズ保護の関係を示す。

We present the experimental discovery of multiple simultaneous degeneracies in the spectrum of a Kerr oscillator subjected to a squeezing drive. This squeezing, in combination with the Kerr interaction creates an effective static two-well potential in the frame rotating at half the frequency of the sinusoidal driving force. Remarkably, these degeneracies can be turned on-and-off on demand, and their number is tunable. We find that when the detuning $\Delta$ between the frequency of the oscillator and characteristic frequency of the drive equals an even multiple of the Kerr coefficient $K$, $\Delta/K = 2m$, the oscillator displays $m + 1$ exact, parity-protected, spectral degeneracies, insensitive to the drive amplitude. The degeneracies stem from the unusual destructive interference of tunnel paths in the classically forbidden region of the double well static effective potential that models our experiment. Exploiting this interference, we measure a peaked enhancement of the incoherent well-switching lifetime creating a super-protected cat qubit in the ground state manifold of our oscillator. {Our results demonstrate the relationship between degeneracies and noise protection in quantum systems.
翻訳日:2023-05-11 17:18:42 公開日:2023-05-10
# SMAuC - The Scientific Multi-Authorship Corpus

SMAuC -- The Scientific Multi-Authorship Corpus ( http://arxiv.org/abs/2211.02477v2 )

ライセンス: Link先を確認
Janek Bevendorff, Philipp Sauer, Lukas Gienapp, Wolfgang Kircheis, Erik K\"orner, Benno Stein, Martin Potthast(参考訳) 科学出版物の急増は、文書の著者を1人以上の著者と分析する方法の研究に興味深い課題をもたらす。 しかし、既存のデータセットのほとんどは、新しい実験やテストケースを構築するために必要な科学的文書やメタデータを欠いている。 我々はSMAuCを紹介した。SMAuCは科学的オーサシップ分析に適した包括的でメタデータに富んだコーパスである。 SMAuCは500万人以上の著者による様々な分野の300万以上の出版物で構成されており、この目的のために公開されている最大のコーパスである。 人文科学や自然科学の科学的なテキストを包含し、不明瞭な著者idを含む広範囲に収集されたメタデータを伴っている。 smaucは科学文献における著者分析の分野を飛躍的に発展させることを目指している。

The rapidly growing volume of scientific publications offers an interesting challenge for research on methods for analyzing the authorship of documents with one or more authors. However, most existing datasets lack scientific documents or the necessary metadata for constructing new experiments and test cases. We introduce SMAuC, a comprehensive, metadata-rich corpus tailored to scientific authorship analysis. Comprising over 3 million publications across various disciplines from over 5 million authors, SMAuC is the largest openly accessible corpus for this purpose. It encompasses scientific texts from humanities and natural sciences, accompanied by extensive, curated metadata, including unambiguous author IDs. SMAuC aims to significantly advance the domain of authorship analysis in scientific texts.
翻訳日:2023-05-11 17:18:05 公開日:2023-05-10
# 2 \times 2$ zero-sum gamesのコミットメントと騒がしい観察

$2 \times 2$ Zero-Sum Games with Commitments and Noisy Observations ( http://arxiv.org/abs/2211.01703v2 )

ライセンス: Link先を確認
Ke Sun, Samir M. Perlaza, and Alain Jean-Marie(参考訳) この論文では、2\times2$ zero-sumゲームについて、1人のプレイヤー(リーダー)が与えられた確率測度(戦略)をサンプリングしてそのアクションを選択することをコミットする、$(2)$ the leaderが2つのチャンネルを通じて相手(従者)が観察するアクションをアナウンスする、$(3)$ the followerはリーダーの戦略の知識とリーダーの行動のノイズの観察に基づいてその戦略を選択する、という仮定で研究する。 これらの条件下では、平衡は常に存在することが示される。 興味深いことに、リーダーの行動を観察するノイズでさえ、フォロワーにとって有益か非物質的であることが示される。 より具体的には、このゲームの均衡における報酬は、純粋な戦略におけるスタックルベルク均衡(se)での給与によって上限され、混合戦略においてseと同値であるナッシュ平衡での給与によって下限となる。 また、平衡における給与がその上限値と等しくなるための十分な条件も提示される。

In this paper, $2\times2$ zero-sum games are studied under the following assumptions: $(1)$ One of the players (the leader) commits to choose its actions by sampling a given probability measure (strategy); $(2)$ The leader announces its action, which is observed by its opponent (the follower) through a binary channel; and $(3)$ the follower chooses its strategy based on the knowledge of the leader's strategy and the noisy observation of the leader's action. Under these conditions, the equilibrium is shown to always exist. Interestingly, even subject to noise, observing the actions of the leader is shown to be either beneficial or immaterial for the follower. More specifically, the payoff at the equilibrium of this game is upper bounded by the payoff at the Stackelberg equilibrium (SE) in pure strategies; and lower bounded by the payoff at the Nash equilibrium, which is equivalent to the SE in mixed strategies.Finally, necessary and sufficient conditions for observing the payoff at equilibrium to be equal to its lower bound are presented. Sufficient conditions for the payoff at equilibrium to be equal to its upper bound are also presented.
翻訳日:2023-05-11 17:17:55 公開日:2023-05-10
# QuaLA-MiniLM:量子長適応型ミニフィルム

QuaLA-MiniLM: a Quantized Length Adaptive MiniLM ( http://arxiv.org/abs/2210.17114v3 )

ライセンス: Link先を確認
Shira Guskin, Moshe Wasserblat, Chang Wang, Haihao Shen(参考訳) 限られた計算予算は、しばしば変圧器が生産に使用され、高い精度で使用されることを妨げている。 知識蒸留法では、BERTを自己蒸留し、より少ない層と少ない内部埋め込みを持つより小さなトランス表現に変換する。 しかし、これらのモデルの性能はレイヤー数を減らし、特にスパン質問応答のような高度なNLPタスクでは低下する。 さらに、異なる計算予算を持つ推論シナリオごとに、別のモデルを訓練する必要がある。 Dynamic-TinyBERTは、Longth Adaptive Transformer (LAT) 技術をTinyBERTに部分的に実装し、最小限の精度でBERTベース上でx3スピードアップする。 本研究では、より効率的なモデルを生成するために、Dynamic-TinyBERTアプローチを拡張した。 我々は,LAT法と併用してMiniLM蒸留を行い,低ビット量子化を適用して効率を向上させる。 我々の量子化長適応ミニLMモデル(QuaLA-MiniLM)は1回だけ訓練され、推論シナリオに動的に適合し、SQuAD1.1データセット上の任意の計算予算に対して、他の効率的なアプローチよりも優れた精度と効率のトレードオフを達成する。 この作品を再現するコードはgithubで公開されている。

Limited computational budgets often prevent transformers from being used in production and from having their high accuracy utilized. A knowledge distillation approach addresses the computational efficiency by self-distilling BERT into a smaller transformer representation having fewer layers and smaller internal embedding. However, the performance of these models drops as we reduce the number of layers, notably in advanced NLP tasks such as span question answering. In addition, a separate model must be trained for each inference scenario with its distinct computational budget. Dynamic-TinyBERT tackles both limitations by partially implementing the Length Adaptive Transformer (LAT) technique onto TinyBERT, achieving x3 speedup over BERT-base with minimal accuracy loss. In this work, we expand the Dynamic-TinyBERT approach to generate a much more highly efficient model. We use MiniLM distillation jointly with the LAT method, and we further enhance the efficiency by applying low-bit quantization. Our quantized length-adaptive MiniLM model (QuaLA-MiniLM) is trained only once, dynamically fits any inference scenario, and achieves an accuracy-efficiency trade-off superior to any other efficient approaches per any computational budget on the SQuAD1.1 dataset (up to x8.8 speedup with <1% accuracy loss). The code to reproduce this work is publicly available on Github.
翻訳日:2023-05-11 17:16:54 公開日:2023-05-10
# tarvis: ターゲットベースのビデオセグメンテーションのための統一アプローチ

TarViS: A Unified Approach for Target-based Video Segmentation ( http://arxiv.org/abs/2301.02657v2 )

ライセンス: Link先を確認
Ali Athar, Alexander Hermans, Jonathon Luiten, Deva Ramanan, Bastian Leibe(参考訳) ビデオセグメンテーションの一般的なドメインは、現在複数のベンチマークにまたがる異なるタスクに断片化されている。 最先端技術の急速な進歩にもかかわらず、現在の手法は圧倒的にタスク固有であり、概念的には他のタスクに一般化できない。 マルチタスク機能を備えた最近のアプローチにインスパイアされたTarViSは、ビデオ内の任意に定義された「ターゲット」の集合をセグメント化する必要のあるタスクに適用可能な、新しく統一されたネットワークアーキテクチャである。 我々のアプローチは、タスクがこれらのターゲットをどのように定義するかに関して柔軟であり、後者を抽象的な「クエリ」としてモデル化し、ピクセル精度の高いターゲットマスクを予測するのに使用される。 単一のTarViSモデルは、異なるタスクにまたがるデータセットのコレクションを共同でトレーニングすることができ、タスク固有のリトレーニングなしで、推論中にタスク間のホットスワップを行うことができる。 有効性を示すために,ビデオインスタンスセグメンテーション(VIS),ビデオパノプティクスセグメンテーション(VPS),ビデオオブジェクトセグメンテーション(VOS),ポイントインテンプラ誘導トラッキング(PET)の4つのタスクにTarViSを適用した。 これら4つのタスクにまたがる5/7ベンチマークの最先端性能と,残りの2つのタスクの競合性能を実現する。 コードとモデルの重み付けはhttps://github.com/ali2500/tarvis

The general domain of video segmentation is currently fragmented into different tasks spanning multiple benchmarks. Despite rapid progress in the state-of-the-art, current methods are overwhelmingly task-specific and cannot conceptually generalize to other tasks. Inspired by recent approaches with multi-task capability, we propose TarViS: a novel, unified network architecture that can be applied to any task that requires segmenting a set of arbitrarily defined 'targets' in video. Our approach is flexible with respect to how tasks define these targets, since it models the latter as abstract 'queries' which are then used to predict pixel-precise target masks. A single TarViS model can be trained jointly on a collection of datasets spanning different tasks, and can hot-swap between tasks during inference without any task-specific retraining. To demonstrate its effectiveness, we apply TarViS to four different tasks, namely Video Instance Segmentation (VIS), Video Panoptic Segmentation (VPS), Video Object Segmentation (VOS) and Point Exemplar-guided Tracking (PET). Our unified, jointly trained model achieves state-of-the-art performance on 5/7 benchmarks spanning these four tasks, and competitive performance on the remaining two. Code and model weights are available at: https://github.com/Ali2500/TarViS
翻訳日:2023-05-11 17:10:45 公開日:2023-05-10
# 自律移動型オンデマンドシステムのためのハイブリッド多エージェント深層強化学習

Hybrid Multi-agent Deep Reinforcement Learning for Autonomous Mobility on Demand Systems ( http://arxiv.org/abs/2212.07313v2 )

ライセンス: Link先を確認
Tobias Enders, James Harrison, Marco Pavone, Maximilian Schiffer(参考訳) 本稿では,自律移動型オンデマンドシステムの利益最大化運用者に対して,積極的な要求割り当てと拒否決定を行うことによる意思決定の逐次問題を考える。 本稿では,マルコフ決定過程としてこの問題を定式化し,マルチエージェント・ソフト・アクタ・クリティックと重み付き2部マッチングの新たな組み合わせを提案する。 これにより、演算子の難解な動作空間を分解するが、それでもグローバルに協調した決定が得られる。 実世界のタクシーデータに基づく実験により,我々の手法は,性能,安定性,計算的トラクタビリティに関して,技術ベンチマークの状態を上回ります。

We consider the sequential decision-making problem of making proactive request assignment and rejection decisions for a profit-maximizing operator of an autonomous mobility on demand system. We formalize this problem as a Markov decision process and propose a novel combination of multi-agent Soft Actor-Critic and weighted bipartite matching to obtain an anticipative control policy. Thereby, we factorize the operator's otherwise intractable action space, but still obtain a globally coordinated decision. Experiments based on real-world taxi data show that our method outperforms state of the art benchmarks with respect to performance, stability, and computational tractability.
翻訳日:2023-05-11 17:10:18 公開日:2023-05-10
# 混合トンネル、多クローントンネル、量子重力のための経路積分

Path Integral for Mixed Tunneling, Polychronic Tunneling and Quantum Gravity ( http://arxiv.org/abs/2212.06774v3 )

ライセンス: Link先を確認
Yutaro Shoji(参考訳) 多体系における量子トンネルは、単体系よりもはるかに非自明である。 最も特徴的な現象は混合トンネルであり、何十年もの間多くの分野で研究されてきた。 例えば、2つの結合粒子が存在し、そのうちの1つだけが潜在的な障壁を感じているシステムを考える。 そのような系の量子トンネルはユークリッドやローレンツの時間発展によって説明されず、WKB波動関数の指数は複雑になる。 近年、準安定真空の減衰速度を何桁も大きくする量子重力理論において、同様の現象である多クローントンネルが提案されている。 本稿では,そのようなシステムに適用可能な経路積分形式を提案する。 形式論は直接量子重力に拡張することができ、量子重力における時間の問題にいくつかの影響がある。 また,従来の経路積分との関係についても論じる。

Quantum tunneling in a many-body system is much more non-trivial than that in a one-body system. The most characteristic phenomenon is the mixed tunneling, which has been studied in many fields for decades. For instance, let us consider a system where there are two coupled particles and only one of them feels a potential barrier. Quantum tunneling of such a system is not described by either Euclidean or Lorentzian time evolution and the exponent of the WKB wave function becomes complex. Recently, a similar phenomenon, polychronic tunneling, has been proposed in quantum gravity, which enhances the decay rate of a meta-stable vacuum by many orders of magnitude. In this paper, we present path integral formalism that is applicable to such systems. The formalism can be directly extended to quantum gravity and has some implications on the problem of time in quantum gravity. We also discuss a possible relation to the conventional path integral.
翻訳日:2023-05-11 17:10:04 公開日:2023-05-10
# 一元的$t$設計による条件付き後処理手順による量子統計効果

Quantum statistical effect induced through conditioned post-processing procedures with unitary $t$-designs ( http://arxiv.org/abs/2212.04162v2 )

ライセンス: Link先を確認
Hideaki Hakoshima and Tsubasa Ichikawa(参考訳) 本稿では,確率的状態の準備と測定を行い,条件付き後処理を施した数体量子現象を提案する。 これらの現象を既存の量子コンピュータで実装するための2つの実験プロトコルを示し,シミュレーションを用いてその実現可能性を検討する。 シミュレーション結果から, 状態準備と測定を約3千倍の3量子系に繰り返すと, 実験実験が可能であることが示唆された。

We propose a few-body quantum phenomenon, which manifests itself through stochastic state preparations and measurements followed by a conditioned post-processing procedure. We show two experimental protocols to implement these phenomena with existing quantum computers, and examine their feasibility by using simulations. Our simulation results suggest that the experimental demonstration is feasible if we repeat the state preparations and measurements about thirty thousand times to three-qubit systems.
翻訳日:2023-05-11 17:09:52 公開日:2023-05-10
# 絡み合った2色Hong-Ou-Mandel顕微鏡によるサブ{\mu}m軸方向精密イメージング

Sub-{\mu}m axial precision depth imaging with entangled two-colour Hong-Ou-Mandel microscopy ( http://arxiv.org/abs/2212.02990v2 )

ライセンス: Link先を確認
Cyril Torre, Alex McMillan, Jorge Monroy-Ruz and Jonathan C.F. Matthews(参考訳) ビームスプリッターで重なる2つの波長交叉光子の量子干渉は振動干渉パターンをもたらす。 ビートノートの周波数は、絡み合った光子の波長分離に依存するが、標準干渉計の実用性を制限する波長スケールの摂動に頑健である。 ここでは, 半透明試料の厚さ変化を2次元ラスタスキャンと組み合わせて評価するために, 2色エンタングルメント干渉計を用いた。 絡み合った光子対の波長分離を調整することにより、顕微鏡の軸精度とダイナミックレンジを積極的に制御する。 サブ$\mu m$精度は最大12.3~nm$、検出された光子対$\sim10^4$を用いて報告される。

The quantum interference of two wavelength-entangled photons overlapping at a beamsplitter results in an oscillating interference pattern. The frequency of the beat note is dependent on the wavelength separation of the entangled photons but is robust to wavelength scale perturbations that can limit the practicality of standard interferometry. Here we use two-colour entanglement interferometry to evaluate the variation in thickness of a semi-transparent sample in combination with two-dimensional raster scanning. The axial precision and the dynamic range of the microscope are actively controlled by adjusting the wavelength separation of the entangled photon pairs. Sub-$\mu m$ precision is reported using up to $12.3~nm$ of detuning and $\sim10^4$ detected photon pairs.
翻訳日:2023-05-11 17:09:44 公開日:2023-05-10
# ヒト精子追跡データセットVISEM-Tracking

VISEM-Tracking, a human spermatozoa tracking dataset ( http://arxiv.org/abs/2212.02842v5 )

ライセンス: Link先を確認
Vajira Thambawita, Steven A. Hicks, Andrea M. Stor{\aa}s, Thu Nguyen, Jorunn M. Andersen, Oliwia Witczak, Trine B. Haugen, Hugo L. Hammer, P{\aa}l Halvorsen, Michael A. Riegler(参考訳) 精子運動を手動で評価するには顕微鏡観察が必要であり、視野の速い精子の観察が困難である。 正確な結果を得るためには、手動による評価には広範な訓練が必要である。 そのため、コンピュータ支援精子分析(CASA)はクリニックでの利用が増えている。 それにもかかわらず、精子運動と運動学の評価の精度と信頼性を向上させるために、教師付き機械学習アプローチの訓練にはより多くのデータが必要である。 そこで本研究では,濡れた精子の30秒間(29,196フレームを含む)のビデオ記録を手動で注釈付き拘束箱座標で記録するVISEM-Tracking(VISEM-Tracking)というデータセットと,その領域の専門家が分析した精子特性のセットを提供する。 注釈付きデータに加えて,自己教師なし学習などの手法により,データへのアクセスと分析が容易なラベル付きビデオクリップを提供する。 本稿では,VISEM-Trackingデータセットを用いて学習したYOLOv5ディープラーニング(DL)モデルを用いた精子検出性能について述べる。 その結果、データセットは複雑なdlモデルの訓練と精子の分析に使用できることが示された。

A manual assessment of sperm motility requires microscopy observation, which is challenging due to the fast-moving spermatozoa in the field of view. To obtain correct results, manual evaluation requires extensive training. Therefore, computer-assisted sperm analysis (CASA) has become increasingly used in clinics. Despite this, more data is needed to train supervised machine learning approaches in order to improve accuracy and reliability in the assessment of sperm motility and kinematics. In this regard, we provide a dataset called VISEM-Tracking with 20 video recordings of 30 seconds (comprising 29,196 frames) of wet sperm preparations with manually annotated bounding-box coordinates and a set of sperm characteristics analyzed by experts in the domain. In addition to the annotated data, we provide unlabeled video clips for easy-to-use access and analysis of the data via methods such as self- or unsupervised learning. As part of this paper, we present baseline sperm detection performances using the YOLOv5 deep learning (DL) model trained on the VISEM-Tracking dataset. As a result, we show that the dataset can be used to train complex DL models to analyze spermatozoa.
翻訳日:2023-05-11 17:09:31 公開日:2023-05-10
# 非凸強凸ミニマックス最適化のための単純かつ効率的な確率的アルゴリズム

A Simple and Efficient Stochastic Algorithm for Decentralized Nonconvex-Strongly-Concave Minimax Optimization ( http://arxiv.org/abs/2212.02387v2 )

ライセンス: Link先を確認
Lesi Chen, Haishan Ye, Luo Luo(参考訳) 本稿では,非凸強凸ミニマックス問題に対する確率的最適化について検討する。 そこで本研究では,初等関数の$\epsilon$-stationary pointを求めるための最もよく知られた理論的保証を実現する,分散再帰的漸進降降降法(\textt{dream})と呼ばれる,単純かつ効率的なアルゴリズムを提案する。 オンラインの設定には、$\mathcal{o}(\kappa^3\epsilon^{-3})$ 確率的一階 oracle (sfo) コールと$\mathcal{o}\big(\kappa^2\epsilon^{-2}/\sqrt{1-\lambda_2(w)}\,\big)$ の通信ラウンドが必要であり、$\kappa$ は条件番号、$\lambda_2(w)$ は gosip行列の2番目に大きい固有値である。 完全に$N$のコンポーネント関数を持つオフライン設定では、提案手法は$\mathcal{O}\big(\kappa^2 \sqrt{N} \epsilon^{-2}\big)$ SFO呼び出しとオンライン設定と同じ通信複雑性を必要とする。

This paper studies the stochastic optimization for decentralized nonconvex-strongly-concave minimax problem. We propose a simple and efficient algorithm, called Decentralized Recursive-gradient descEnt Ascent Method (\texttt{DREAM}), which achieves the best-known theoretical guarantee for finding the $\epsilon$-stationary point of the primal function. For the online setting, the proposed method requires $\mathcal{O}(\kappa^3\epsilon^{-3})$ stochastic first-order oracle (SFO) calls and $\mathcal{O}\big(\kappa^2\epsilon^{-2}/\sqrt{1-\lambda_2(W)}\,\big)$ communication rounds to find an $\epsilon$-stationary point, where $\kappa$ is the condition number and $\lambda_2(W)$ is the second-largest eigenvalue of the gossip matrix~$W$. For the offline setting with totally $N$ component functions, the proposed method requires $\mathcal{O}\big(\kappa^2 \sqrt{N} \epsilon^{-2}\big)$ SFO calls and the same communication complexity as the online setting.
翻訳日:2023-05-11 17:09:12 公開日:2023-05-10
# マルチモーダル知識グラフ上のマルチモーダルパス融合を用いたクエリ駆動知識ベース補完

Query-Driven Knowledge Base Completion using Multimodal Path Fusion over Multimodal Knowledge Graph ( http://arxiv.org/abs/2212.01923v3 )

ライセンス: Link先を確認
Yang Peng and Daisy Zhe Wang(参考訳) 過去数年間、大量の知識を蓄積する大規模な知識基盤が構築されてきた。 しかし、これらの知識ベースは非常に不完全であり、例えば、freebaseの70%以上の人は出生地を知らない。 そこで本研究では,非構造化情報と構造化情報のマルチモーダル融合による問合せ型知識ベース補完システムを提案する。 構造化されていない情報をwebと知識ベースに効果的に融合し、優れた性能を実現するため、本システムは質問応答と規則推論に基づくマルチモーダル知識グラフを構築する。 本稿では,マルチモーダル知識グラフの異なる経路に基づいて候補回答をランク付けし,質問応答,ルール推論,ベースライン融合アルゴリズムよりも優れた性能を実現するマルチモーダルパス融合アルゴリズムを提案する。 システム効率を向上させるために,クエリ駆動技術を用いてシステムの実行時間を短縮し,ユーザクエリに対する迅速な応答を提供する。 システムの有効性と効率を実証する大規模な実験が実施されている。

Over the past few years, large knowledge bases have been constructed to store massive amounts of knowledge. However, these knowledge bases are highly incomplete, for example, over 70% of people in Freebase have no known place of birth. To solve this problem, we propose a query-driven knowledge base completion system with multimodal fusion of unstructured and structured information. To effectively fuse unstructured information from the Web and structured information in knowledge bases to achieve good performance, our system builds multimodal knowledge graphs based on question answering and rule inference. We propose a multimodal path fusion algorithm to rank candidate answers based on different paths in the multimodal knowledge graphs, achieving much better performance than question answering, rule inference and a baseline fusion algorithm. To improve system efficiency, query-driven techniques are utilized to reduce the runtime of our system, providing fast responses to user queries. Extensive experiments have been conducted to demonstrate the effectiveness and efficiency of our system.
翻訳日:2023-05-11 17:08:34 公開日:2023-05-10
# 平均治療効果に対する二重ロバストベイズ推定

Double Robust Bayesian Inference on Average Treatment Effects ( http://arxiv.org/abs/2211.16298v3 )

ライセンス: Link先を確認
Christoph Breunig, Ruixuan Liu, Zhengfei Yu(参考訳) 平均治療効果 (ate) に対する二重ロバストベイズ推定法について検討した。 まず、条件平均関数の事前分布の補正を行い、次に、結果のATEの後方分布に関する最近の項を導入する。 我々は、新しい半パラメトリックBernstein-von Mises定理を二重ロバスト性の下で確立することにより、ベイズ推定器と二重ロバストな頻繁な推定器の漸近同値性を証明する。 その結果、ベイズ点推定器はバイアス補正を頻繁な2倍頑健な推定器として内部化し、ベイズ集合は漸近的に正確なカバレッジ確率で信頼区間を形成する。 シミュレーションでは、この頑健なベイズ法は、特に共変量の次元がサンプルサイズに対して大きく、基礎関数が複雑になるとき、点推定のかなりのバイアス低減と信頼区間の正確なカバレッジをもたらす。 本手法は,全国支援労働デモテーションへの適用例を示す。

We study a double robust Bayesian inference procedure on the average treatment effect (ATE) under unconfoundedness. Our robust Bayesian approach involves two adjustment steps: first, we make a correction for prior distributions of the conditional mean function; second, we introduce a recentering term on the posterior distribution of the resulting ATE. We prove asymptotic equivalence of our Bayesian estimator and double robust frequentist estimators by establishing a new semiparametric Bernstein-von Mises theorem under double robustness; i.e., the lack of smoothness of conditional mean functions can be compensated by high regularity of the propensity score and vice versa. Consequently, the resulting Bayesian point estimator internalizes the bias correction as the frequentist-type doubly robust estimator, and the Bayesian credible sets form confidence intervals with asymptotically exact coverage probability. In simulations, we find that this robust Bayesian procedure leads to significant bias reduction of point estimation and accurate coverage of confidence intervals, especially when the dimensionality of covariates is large relative to the sample size and the underlying functions become complex. We illustrate our method in an application to the National Supported Work Demonstration.
翻訳日:2023-05-11 17:08:18 公開日:2023-05-10
# 動的トリガーを用いた視覚的バックドア攻撃

Invisible Backdoor Attack with Dynamic Triggers against Person Re-identification ( http://arxiv.org/abs/2211.10933v2 )

ライセンス: Link先を確認
Wenli Sun, Xinyang Jiang, Shuguang Dou, Dongsheng Li, Duoqian Miao, Cheng Deng, Cairong Zhao(参考訳) 近年、人物再識別(ReID)は広範囲の現実世界の応用で急速に進展しているが、敵攻撃の重大なリスクも生じている。 本稿では,深層ReIDモデルに対するバックドア攻撃に着目した。 既存のバックドアアタックメソッドは、テストセットのすべてのターゲットクラスがすでにトレーニングセットで見られる、オールツーワンまたはオールツーオールのアタックシナリオに従っている。 しかし、ReIDはより複雑な粒度のオープンセット認識問題であり、テストセットのIDはトレーニングセットに含まれない。 したがって、ReIDには分類のための以前のバックドアアタック手法は適用できない。 この問題を改善するため,我々はdeep reidに対して,dynamic triggers invisible backdoor attack (dt-iba)と呼ばれる,未知の新たなシナリオによる新しいバックドア攻撃を提案する。 トレーニングセットからターゲットクラスの固定トリガを学ぶ代わりに、DT-IBAは未知のIDに対して動的に新しいトリガを生成することができる。 具体的には、まず基準画像からターゲット識別情報を抽出し、画像ステガノグラフィーにより良画像に注入するアイデンティティハッシュネットワークを提案する。 我々は,提案するベンチマークデータセットに対する攻撃の有効性とステルス性を広範囲に検証し,攻撃に対する複数の防御手法の有効性を評価した。

In recent years, person Re-identification (ReID) has rapidly progressed with wide real-world applications, but also poses significant risks of adversarial attacks. In this paper, we focus on the backdoor attack on deep ReID models. Existing backdoor attack methods follow an all-to-one or all-to-all attack scenario, where all the target classes in the test set have already been seen in the training set. However, ReID is a much more complex fine-grained open-set recognition problem, where the identities in the test set are not contained in the training set. Thus, previous backdoor attack methods for classification are not applicable for ReID. To ameliorate this issue, we propose a novel backdoor attack on deep ReID under a new all-to-unknown scenario, called Dynamic Triggers Invisible Backdoor Attack (DT-IBA). Instead of learning fixed triggers for the target classes from the training set, DT-IBA can dynamically generate new triggers for any unknown identities. Specifically, an identity hashing network is proposed to first extract target identity information from a reference image, which is then injected into the benign images by image steganography. We extensively validate the effectiveness and stealthiness of the proposed attack on benchmark datasets, and evaluate the effectiveness of several defense methods against our attack.
翻訳日:2023-05-11 17:07:53 公開日:2023-05-10
# 圧縮量子誤差緩和

Compressed quantum error mitigation ( http://arxiv.org/abs/2302.05457v2 )

ライセンス: Link先を確認
Maurits S. J. Tepaske, David J. Luitz(参考訳) 本稿では,量子回路の適用時に蓄積した誤差を除去するために,確率的誤差消去に基づく量子誤差軽減手法を提案する。 提案手法はノイズ回路の動作後に最適な「デノイザー」を適用することに基づいており、任意の数のゲートで実行することができる。 デノイザーは準確率分布で分布する回路のアンサンブルによって与えられる。 単純なノイズモデルでは,効率良く局所的なデノイザが発見できることを示すとともに,単純なスピンチェーンの時間発展のディジタル量子シミュレーションの有効性を示す。

We introduce a quantum error mitigation technique based on probabilistic error cancellation to eliminate errors which have accumulated during the application of a quantum circuit. Our approach is based on applying an optimal "denoiser" after the action of a noisy circuit and can be performed with an arbitrary number of extra gates. The denoiser is given by an ensemble of circuits distributed with a quasiprobability distribution. For a simple noise model, we show that efficient, local denoisers can be found, and we demonstrate their effectiveness for the digital quantum simulation of the time evolution of simple spin chains.
翻訳日:2023-05-11 17:00:19 公開日:2023-05-10
# LHCbシリコン画素検出器におけるリアルタイムクラスタ検出のためのFPGAアーキテクチャ

A FPGA-based architecture for real-time cluster finding in the LHCb silicon pixel detector ( http://arxiv.org/abs/2302.03972v2 )

ライセンス: Link先を確認
G. Bassi, L. Giambastiani, K. Hennessy, F. Lazzari, M. J. Morello, T. Pajero, A. Fernandez Prieto, G. Punzi(参考訳) 本稿では、LHCb Upgradeの一部である新しい頂点画素検出器(VELO)のヒット位置を再構築するための2次元クラスタファインダーアーキテクチャのカスタムVHDLファームウェアの実装について述べる。 このファームウェアは、DAQシステムのさらなる強化として、VELOの読み出しを行う既存のFPGAカードにデプロイされ、LHC衝突速度でVELOがオンザフライで座標を打つ物理データ取得、再構成の間、リアルタイムに実行される。 この前処理により、第1レベルのソフトウェアトリガーが11%以上のイベントを受信できるようになり、既製のヒット座標がトラックの再構築を加速し、電力消費量が大幅に減少する。 さらに、生のピクセルデータを読み出しレベルに落として、DAQ帯域幅の約14%を節約できる。 詳細なシミュレーション研究により、このリアルタイムクラスタ発見の使用は、本格的なソフトウェア実装と比較してトラッキング性能の劣化を生じさせないことが示されている。 この作業は、HEP実験のリアルタイム処理能力を向上するために、データ取得チェーンの初期段階にデプロイされた専用コンピューティングアクセラレーターに集中的なタスクを委譲することを目的としている。

This article describes a custom VHDL firmware implementation of a two-dimensional cluster-finder architecture for reconstructing hit positions in the new vertex pixel detector (VELO) that is part of the LHCb Upgrade. This firmware has been deployed to the existing FPGA cards that perform the readout of the VELO, as a further enhancement of the DAQ system, and will run in real time during physics data taking, reconstructing VELO hits coordinates on-the-fly at the LHC collision rate. This pre-processing allows the first level of the software trigger to accept a 11% higher rate of events, as the ready-made hits coordinates accelerate the track reconstruction and consumes significantly less electrical power. It additionally allows the raw pixel data to be dropped at the readout level, thus saving approximately 14% of the DAQ bandwidth. Detailed simulation studies have shown that the use of this real-time cluster finding does not introduce any appreciable degradation in the tracking performance in comparison to a full-fledged software implementation. This work is part of a wider effort aimed at boosting the real-time processing capability of HEP experiments by delegating intensive tasks to dedicated computing accelerators deployed at the earliest stages of the data acquisition chain.
翻訳日:2023-05-11 17:00:11 公開日:2023-05-10
# GA4QCO:量子回路最適化のための遺伝的アルゴリズム

GA4QCO: Genetic Algorithm for Quantum Circuit Optimization ( http://arxiv.org/abs/2302.01303v2 )

ライセンス: Link先を確認
Leo S\"unkel, Darya Martyniuk, Denny Mattern, Johannes Jung, Adrian Paschke(参考訳) 量子回路の設計は、例えば特定のパターンや規則に従うことによって、しばしば手作業で行われる。 このアプローチは、いくつかの問題に対してうまく機能するかもしれないが、退屈な作業であり、他の状況では、かなり困難である。 単純な分類問題のために回路のアーキテクチャを設計することは比較的簡単な作業であるが、より複雑な問題に対する回路の作成や、特定の既知の問題(例えば、バレンプラトー、トレーニング容易性など)に対する耐性は異なる問題である。 さらに、ほとんどのアルゴリズムでは、低深さの効率的な状態準備や回路が重要である。 回路設計のプロセスを自動化する試みでは、遺伝的アルゴリズムや強化学習など、長年にわたり異なるアプローチが提案されてきた。 本稿では,ユーザ定義特性を示す量子回路の自動探索に遺伝的アルゴリズムを適用したGA4QCOフレームワークを提案する。 このフレームワークでは、例えば、深さを最小に保ち、忠実度を最大化しながら、特定のターゲット状態を生成する回路など、どの種類の回路を作成すべきかを適合関数を通じて指定します。 私たちのフレームワークは、ユーザがカスタムデザインのフィットネス機能を簡単に統合できるように設計されています。 本稿では,提案手法の有効性を示すためのフレームワークと実行実験について述べる。

The design of quantum circuits is often still done manually, for instance by following certain patterns or rule of thumb. While this approach may work well for some problems, it can be a tedious task and present quite the challenge in other situations. Designing the architecture of a circuit for a simple classification problem may be relatively straightforward task, however, creating circuits for more complex problems or that are resilient to certain known problems (e.g. barren plateaus, trainability, etc.) is a different issue. Moreover, efficient state preparation or circuits with low depth are important for virtually most algorithms. In attempts to automate the process of designing circuits, different approaches have been suggested over the years, including genetic algorithms and reinforcement learning. We propose our GA4QCO framework that applies a genetic algorithm to automatically search for quantum circuits that exhibit user-defined properties. With our framework, the user specifies through a fitness function what type of circuit should be created, for instance circuits that prepare a specific target state while keeping depth at a minimum and maximizing fidelity. Our framework is designed in such a way that the user can easily integrate a custom designed fitness function. In this paper, we introduce our framework and run experiments to show the validity of the approach.
翻訳日:2023-05-11 16:59:49 公開日:2023-05-10
# マトリックス生成物状態からの非エルミート親ハミルトニアンの構築

Construction of Non-Hermitian Parent Hamiltonian from Matrix Product States ( http://arxiv.org/abs/2301.12448v2 )

ライセンス: Link先を確認
Ruohan Shen, Yuchen Guo, Shuo Yang(参考訳) 非エルミート系には様々な研究戦略があり、通常は既存のエルミート系ハミルトン系に非エルミート系用語を導入する。 エルミート系にはないユニークな特徴を示す非エルミート多体モデルを直接設計することは困難である。 本稿では,親ハミルトニアン法を非ヘルミト系に一般化し,非ヘルミト多体系を構築する新しい方法を提案する。 これにより、与えられた行列積状態をその左右の基底状態として用いる局所ハミルトニアンを構築することができる。 キラル次数と対称性が保護された位相次数の両方を保持する非対称アフレック・ケネディ・リーブ・タサキ(aklt)状態から非エルミートスピン-$モデルを構築することにより,本手法を実証する。 提案手法は,非エルミート多体系を体系的に構築・研究するための新しいパラダイムを開き,非エルミート物理学における新しい性質や現象を探求するための指針となる。

There are various research strategies used for non-Hermitian systems, which typically involve introducing non-Hermitian terms to pre-existing Hermitian Hamiltonians. It can be challenging to directly design non-Hermitian many-body models that exhibit unique features not found in Hermitian systems. In this Letter, we propose a new method to construct non-Hermitian many-body systems by generalizing the parent Hamiltonian method into non-Hermitian regimes. This allows us to build a local Hamiltonian using given matrix product states as its left and right ground states. We demonstrate this method by constructing a non-Hermitian spin-$1$ model from the asymmetric Affleck-Kennedy-Lieb-Tasaki (AKLT) state, which preserves both chiral order and symmetry-protected topological order. Our approach opens up a new paradigm for systematically constructing and studying non-Hermitian many-body systems, providing guiding principles to explore new properties and phenomena in non-Hermitian physics.
翻訳日:2023-05-11 16:59:06 公開日:2023-05-10
# 自由度推定のための最大平均差の最適重み付け推定器

Optimally-Weighted Estimators of the Maximum Mean Discrepancy for Likelihood-Free Inference ( http://arxiv.org/abs/2301.11674v4 )

ライセンス: Link先を確認
Ayush Bharti, Masha Naslidnyk, Oscar Key, Samuel Kaski, Fran\c{c}ois-Xavier Briol(参考訳) Likelihood-free推論手法は典型的にはシミュレーションデータと実データの間の距離を利用する。 一般的な例として、最大平均誤差(MMD)があり、これはベイズ近似計算、最小距離推定、一般化ベイズ推論、および非パラメトリック学習フレームワーク内で使われている。 MMDは一般にルート$m$と見積もられており、$m$は模擬サンプルの数である。 これは、正確な推定を得るために大きな$m$を必要とするため、重要な計算上の課題につながる可能性がある。 本稿では,サンプルの複雑さを大幅に改善したMDDの新しい推定器を提案する。 この推定器は、低次元から中次元の入力を持つ計算コストの高い滑らかなシミュレータに特に適している。 この主張は、理論的な結果とベンチマークシミュレータに関する広範なシミュレーション研究の両方を通して支持されている。

Likelihood-free inference methods typically make use of a distance between simulated and real data. A common example is the maximum mean discrepancy (MMD), which has previously been used for approximate Bayesian computation, minimum distance estimation, generalised Bayesian inference, and within the nonparametric learning framework. The MMD is commonly estimated at a root-$m$ rate, where $m$ is the number of simulated samples. This can lead to significant computational challenges since a large $m$ is required to obtain an accurate estimate, which is crucial for parameter estimation. In this paper, we propose a novel estimator for the MMD with significantly improved sample complexity. The estimator is particularly well suited for computationally expensive smooth simulators with low- to mid-dimensional inputs. This claim is supported through both theoretical results and an extensive simulation study on benchmark simulators.
翻訳日:2023-05-11 16:58:45 公開日:2023-05-10
# SNeRL:強化学習のための意味認識型ニューラルネットワーク

SNeRL: Semantic-aware Neural Radiance Fields for Reinforcement Learning ( http://arxiv.org/abs/2301.11520v2 )

ライセンス: Link先を確認
Dongseok Shim, Seungjae Lee, H. Jin Kim(参考訳) 従来の強化学習の表現は、3D環境に対する人間の直感的な理解を効果的に組み込むことができないため、それらは通常、準最適性能に悩まされる。 本稿では,意味認識型ニューラルラディアンスフィールド(NeRF)と畳み込みエンコーダを併用して,多視点画像から3次元認識型ニューラルラディアンスフィールドを学習するセマンティック認識型ニューラルラディアンスフィールド(SNeRL)を提案する。 我々は,NeRFにおけるRGB放射場と平行な3次元意味と蒸留特徴場を導入し,強化学習のための意味と対象中心表現を学習する。 SNeRLは、以前のピクセルベース表現だけでなく、モデルフリーとモデルベース強化学習の両方において、最近の3D対応表現よりも優れている。

As previous representations for reinforcement learning cannot effectively incorporate a human-intuitive understanding of the 3D environment, they usually suffer from sub-optimal performances. In this paper, we present Semantic-aware Neural Radiance Fields for Reinforcement Learning (SNeRL), which jointly optimizes semantic-aware neural radiance fields (NeRF) with a convolutional encoder to learn 3D-aware neural implicit representation from multi-view images. We introduce 3D semantic and distilled feature fields in parallel to the RGB radiance fields in NeRF to learn semantic and object-centric representation for reinforcement learning. SNeRL outperforms not only previous pixel-based representations but also recent 3D-aware representations both in model-free and model-based reinforcement learning.
翻訳日:2023-05-11 16:58:34 公開日:2023-05-10
# 近所で何が起きてるの? ローカルニュースを検出するための弱い監視手法

What's happening in your neighborhood? A Weakly Supervised Approach to Detect Local News ( http://arxiv.org/abs/2301.08146v2 )

ライセンス: Link先を確認
Deven Santosh Shah, Shiying He, Gosuddin Kamaruddin Siddiqi, Radhika Bansal(参考訳) ローカルニュース記事(英: local news articles)は、都市、郡、州などの地理的地域におけるユーザーに影響を与えるニュースのサブセットである。 ローカルニュースの検出(ステップ) 1)その地理的位置と衝突半径を決定する(ステップ) 2) 正確な地域ニュースレコメンデーションに向けた重要なステップは2つある。 ニュースタイトルから市名を検出するようなルールに基づくナイーブな手法は、ニュース内容の理解の欠如により誤った結果をもたらす傾向にある。 自然言語処理の最新開発の力を借りて,ローカルニュースの自動検出とコンテンツベースのローカルニュースレコメンデーションを可能にする統合パイプラインを開発した。 本稿では,(1)ドメイン知識と自動データ処理を組み込んだ弱教師付きフレームワーク,(2)多言語設定への拡張性について述べる。 スタンフォード大学のCoreNLP NERモデルと比較して、パイプラインの精度は高く、実世界および人間ラベル付きデータセットで評価される。 このパイプラインは、より正確なローカルニュースをユーザーに提供し、ローカルビジネスがより露出しやすくし、近隣の安全に関する情報を提供する可能性がある。

Local news articles are a subset of news that impact users in a geographical area, such as a city, county, or state. Detecting local news (Step 1) and subsequently deciding its geographical location as well as radius of impact (Step 2) are two important steps towards accurate local news recommendation. Naive rule-based methods, such as detecting city names from the news title, tend to give erroneous results due to lack of understanding of the news content. Empowered by the latest development in natural language processing, we develop an integrated pipeline that enables automatic local news detection and content-based local news recommendations. In this paper, we focus on Step 1 of the pipeline, which highlights: (1) a weakly supervised framework incorporated with domain knowledge and auto data processing, and (2) scalability to multi-lingual settings. Compared with Stanford CoreNLP NER model, our pipeline has higher precision and recall evaluated on a real-world and human-labeled dataset. This pipeline has potential to more precise local news to users, helps local businesses get more exposure, and gives people more information about their neighborhood safety.
翻訳日:2023-05-11 16:58:18 公開日:2023-05-10
# スピン量子ビット環境における深層学習によるノイズスペクトロスコピー

Deep learning enhanced noise spectroscopy of a spin qubit environment ( http://arxiv.org/abs/2301.05079v2 )

ライセンス: Link先を確認
Stefano Martina, Santiago Hern\'andez-G\'omez, Stefano Gherardini, Filippo Caruso, Nicole Fabbri(参考訳) 量子系と環境との望ましくない相互作用は、一般に時間における重ね合わせ状態のコヒーレンス崩壊を引き起こす。 環境によって引き起こされる雑音のスペクトル成分の正確な知識は、量子ビットコヒーレンスを保護し、量子デバイス応用におけるその雇用を最適化するために重要である。 本研究では, ダイヤモンド中の窒素空孔(nv)中心付近の炭素不純物のアンサンブルを特徴付けるパワースペクトル密度を再構成することにより, ニューラルネットワークの利用によりノイズスペクトルの精度が高まることを実験的に示す。 ニューラルネットワークは、異なるカーパーセル配列のnv中心のスピンコヒーレンス関数に基づいて訓練され、典型的には動的デカップリング(dd)に用いられる。 その結果, 標準ddノイズスペクトロメトリー法よりも, はるかに少ないdd系列を必要とすることで, 深層学習モデルの方が精度が高いことが判明した。

The undesired interaction of a quantum system with its environment generally leads to a coherence decay of superposition states in time. A precise knowledge of the spectral content of the noise induced by the environment is crucial to protect qubit coherence and optimize its employment in quantum device applications. We experimentally show that the use of neural networks can highly increase the accuracy of noise spectroscopy, by reconstructing the power spectral density that characterizes an ensemble of carbon impurities around a nitrogen-vacancy (NV) center in diamond. Neural networks are trained over spin coherence functions of the NV center subjected to different Carr-Purcell sequences, typically used for dynamical decoupling (DD). As a result, we determine that deep learning models can be more accurate than standard DD noise-spectroscopy techniques, by requiring at the same time a much smaller number of DD sequences.
翻訳日:2023-05-11 16:58:01 公開日:2023-05-10
# 回帰ニューラルネットワークにおけるデータフリー知識蒸留のための合成データ生成法

Synthetic data generation method for data-free knowledge distillation in regression neural networks ( http://arxiv.org/abs/2301.04338v2 )

ライセンス: Link先を確認
Tianxun Zhou, Keng-Hwee Chiam(参考訳) 知識蒸留(英: knowledge distillation)は、教師として知られるより大きなニューラルネットワークを、学生と呼ばれるより小さなニューラルネットワークに圧縮する技術である。 既存の知識蒸留の方法は、主に分類作業に当てはまる。 それらの多くは、教師モデルのトレーニングに使用されるデータへのアクセスも必要です。 従来の学習データのない回帰作業における知識蒸留の課題に対処するため, 学生モデルに逆らって学習したジェネレータモデルを用いて, 合成データを生成可能なデータフリー知識蒸留法を提案した。 これらの合成データとその教師モデルによって予測されるラベルは、学生モデルのトレーニングに使用される。 本研究では,様々な合成データ生成手法の振る舞いを調査し,生徒と教師のモデル間の大きくて限定的な差を直接最適化する新しい合成データ生成戦略を提案する。 ベンチマークおよびケーススタディ実験の結果から,提案手法により,生徒モデルがより良く学び,教師モデルのパフォーマンスをよりよくエミュレートできることが示されている。

Knowledge distillation is the technique of compressing a larger neural network, known as the teacher, into a smaller neural network, known as the student, while still trying to maintain the performance of the larger neural network as much as possible. Existing methods of knowledge distillation are mostly applicable for classification tasks. Many of them also require access to the data used to train the teacher model. To address the problem of knowledge distillation for regression tasks under the absence of original training data, previous work has proposed a data-free knowledge distillation method where synthetic data are generated using a generator model trained adversarially against the student model. These synthetic data and their labels predicted by the teacher model are then used to train the student model. In this study, we investigate the behavior of various synthetic data generation methods and propose a new synthetic data generation strategy that directly optimizes for a large but bounded difference between the student and teacher model. Our results on benchmark and case study experiments demonstrate that the proposed strategy allows the student model to learn better and emulate the performance of the teacher model more closely.
翻訳日:2023-05-11 16:57:40 公開日:2023-05-10
# 再パラメータ化ボリュームサンプリングによる微分レンダリング

Differentiable Rendering with Reparameterized Volume Sampling ( http://arxiv.org/abs/2302.10970v2 )

ライセンス: Link先を確認
Nikita Morozov, Denis Rakitin, Oleg Desheulin, Dmitry Vetrov, Kirill Struminsky(参考訳) ビュー合成において、ニューラルネットワークは、シーン画像のスパースセットに基づいて、基礎となる密度と放射場を近似する。 新規なビューの画素を生成するには、画素を通して光線を移動させ、高濃度の光点から放射される放射率の重み付け和を計算する。 このレンダリングアルゴリズムは完全に微分可能で、勾配に基づくフィールドの最適化が容易である。 しかし、実際には、光線の小さな不透明な部分だけが、光度の大部分を合計に寄与している。 逆変換サンプリングに基づく単純なエンドツーエンドの微分可能サンプリングアルゴリズムを提案する。 密度場によって引き起こされる確率分布に従ってサンプルを生成し、光線上の非透過点を選択する。 我々はこのアルゴリズムを2つの方法で活用する。 まず,モンテカルロ推定に基づく新しいレンダリング手法を提案する。 このアプローチは、光線当たり数回の放射フィールド呼び出しで、ニューラルネットワークの放射フィールドの評価と最適化を可能にする。 第二に、サンプリングアルゴリズムを用いて、元のNeRF研究で提案された階層的スキームを変更する。 提案手法を改良することにより,階層型モデルの再構築品質が向上すると同時に,補助的提案ネットワーク損失の回避によるトレーニング手順の簡素化が図られる。

In view synthesis, a neural radiance field approximates underlying density and radiance fields based on a sparse set of scene pictures. To generate a pixel of a novel view, it marches a ray through the pixel and computes a weighted sum of radiance emitted from a dense set of ray points. This rendering algorithm is fully differentiable and facilitates gradient-based optimization of the fields. However, in practice, only a tiny opaque portion of the ray contributes most of the radiance to the sum. We propose a simple end-to-end differentiable sampling algorithm based on inverse transform sampling. It generates samples according to the probability distribution induced by the density field and picks non-transparent points on the ray. We utilize the algorithm in two ways. First, we propose a novel rendering approach based on Monte Carlo estimates. This approach allows for evaluating and optimizing a neural radiance field with just a few radiance field calls per ray. Second, we use the sampling algorithm to modify the hierarchical scheme proposed in the original NeRF work. We show that our modification improves reconstruction quality of hierarchical models, at the same time simplifying the training procedure by removing the need for auxiliary proposal network losses.
翻訳日:2023-05-11 16:51:31 公開日:2023-05-10
# AttentionMixer: プロセス監視のための正確で解釈可能なフレームワーク

AttentionMixer: An Accurate and Interpretable Framework for Process Monitoring ( http://arxiv.org/abs/2302.10426v2 )

ライセンス: Link先を確認
Hao Wang, Zhiyu Wang, Yunlong Niu, Zhaoran Liu, Haozhe Li, Yilin Liao, Yuxin Huang, Xinggao Liu(参考訳) 極端作業条件下で稼働する高効率エネルギー変換プラントの安全性には,正確かつ説明可能な自動監視システムが重要である。 それでも、現在利用可能なデータ駆動監視システムは、高い正確性または解釈可能性の要件を満たすために不足することが多い。 この制限を克服するために、エネルギー変換プラントのための正確で解釈可能な放射線モニタリングフレームワークを確立することを目的として、一般的なメッセージパッシングフレームワークの下でデータ駆動アプローチである attentionmixer が提案されている。 モデル精度を向上させるために、第1の技術的貢献は、空間的および時間的適応的なメッセージパッシングブロックの開発であり、それぞれが空間的および時間的相関を捕捉し、2つのブロックは混合演算子を介してカスケードされる。 モデル解釈性を高めるために、第2の技術的貢献はスパースメッセージパッシング正規化器の実装である。 AttentionMixerアプローチの有効性は、原子力発電所の国家放射線監視ネットワークから収集したモニタリングベンチマークで広範囲に評価することで検証され、その結果、監視精度と解釈可能性が向上した。

An accurate and explainable automatic monitoring system is critical for the safety of high efficiency energy conversion plants that operate under extreme working condition. Nonetheless, currently available data-driven monitoring systems often fall short in meeting the requirements for either high-accuracy or interpretability, which hinders their application in practice. To overcome this limitation, a data-driven approach, AttentionMixer, is proposed under a generalized message passing framework, with the goal of establishing an accurate and interpretable radiation monitoring framework for energy conversion plants. To improve the model accuracy, the first technical contribution involves the development of spatial and temporal adaptive message passing blocks, which enable the capture of spatial and temporal correlations, respectively; the two blocks are cascaded through a mixing operator. To enhance the model interpretability, the second technical contribution involves the implementation of a sparse message passing regularizer, which eliminates spurious and noisy message passing routes. The effectiveness of the AttentionMixer approach is validated through extensive evaluations on a monitoring benchmark collected from the national radiation monitoring network for nuclear power plants, resulting in enhanced monitoring accuracy and interpretability in practice.
翻訳日:2023-05-11 16:50:40 公開日:2023-05-10
# 磁気キャビティにおける1次光子凝縮:2脚ラダーモデル

First-order photon condensation in magnetic cavities: A two-leg ladder model ( http://arxiv.org/abs/2302.09901v3 )

ライセンス: Link先を確認
Zeno Bacciconi, Gian Marcello Andolina, Titas Chanda, Giuliano Chiriac\`o, Marco Schir\'o, Marcello Dalmonte(参考訳) ピエルス置換により非一様キャビティモードに結合したラダー幾何学における自由フェルミオンのモデルを考える。 キャビティモードは磁場を生成するため、自発的光子凝縮に関するno-go定理は適用されず、有限循環電流によって特徴づけられる光子凝縮相への位相遷移を観察する。 正方形および三角形のはしご幾何学を考察し、系のエネルギー構造、光物質絡み、光子モードの特性、キラル電流の研究により遷移を特徴づける。 遷移は1次であり、フェルミ点の数だけでなくフェルミイオンバンド構造の急激な変化に対応する。 擬1次元幾何学により,大規模密度行列再正規化群シミュレーションに対するキャビティ・マッター分離の精度を検証した。 有限サイズでの物質特性の補正と正しい光子状態の記述には,光物質の絡み合いが不可欠であることがわかった。 後者は、通常相と光子凝縮相の両方で熱力学的極限においてガウス的のままである。

We consider a model of free fermions in a ladder geometry coupled to a nonuniform cavity mode via Peierls substitution. Since the cavity mode generates a magnetic field, no-go theorems on spontaneous photon condensation do not apply, and we indeed observe a phase transition to a photon condensed phase characterized by finite circulating currents, alternatively referred to as the equilibrium superradiant phase. We consider both square and triangular ladder geometries, and characterize the transition by studying the energy structure of the system, light-matter entanglement, the properties of the photon mode, and chiral currents. The transition is of first order and corresponds to a sudden change in the fermionic band structure as well as the number of its Fermi points. Thanks to the quasi-one dimensional geometry we scrutinize the accuracy of (mean field) cavity-matter decoupling against large scale density-matrix renormalization group simulations. We find that light-matter entanglement is essential for capturing corrections to matter properties at finite sizes and for the description of the correct photon state. The latter remains Gaussian in the the thermodynamic limit both in the normal and photon condensed phases.
翻訳日:2023-05-11 16:49:47 公開日:2023-05-10
# 多世界理論の複雑化

A Complication for the Many Worlds Theory ( http://arxiv.org/abs/2302.07649v4 )

ライセンス: Link先を確認
Samuel Epstein(参考訳) 多世界理論と独立命題は、多数の電子のスピンを測定する有限実験の存在を通して示されるように、対立している。 実験の後、独立性の仮定を破る禁止配列を含む正の確率の分岐が存在する。

The Many Worlds Theory and the Independence Postulate are in conflict, as shown through the existence of a finite experiment that measures the spin of a large number of electrons. After the experiment there are branches of positive probability which contain forbidden sequences that break the Independence Postulate.
翻訳日:2023-05-11 16:49:16 公開日:2023-05-10
# 文脈内学習における識別性校正

Distinguishability Calibration to In-Context Learning ( http://arxiv.org/abs/2302.06198v3 )

ライセンス: Link先を確認
Hongjing Li, Hanqi Yan, Yanran Li, Li Qian, Yulan He, Lin Gui(参考訳) 近年、いくつかのアノテーション付きインスタンスでモデルをトレーニングできるプロンプトベースの学習への関心が高まっており、低リソース環境では適している。 テキスト分類にプロンプトベースの学習を使用する場合、事前学習された言語モデル(plm)を使用して、入力テキストが与えられた事前定義されたテンプレートで欠落したトークンを予測し、クラスラベルにマッピングする。 しかし、トランスアーキテクチャ上に構築されたPLMは、同様の出力埋め込みを生成する傾向があるため、異なるクラスラベルの区別が難しい。 この問題は、多くのきめ細かいクラスラベルを含む分類タスクを扱う際にさらに悪化する。 本研究では、この情報拡散問題、すなわち、複数の自己保持層をトランスフォーマーに積み重ねた後に、異なるトークンが同様の情報を共有することを緩和するために、回転とスケーリングを通じて特徴変換に基づいて構築されたキャリブレーション手法を提案し、その結果の埋め込みの識別性を保証するために、PLM符号化埋め込みを新しい距離空間にマッピングする。 さらに,ハイパーボリックな埋め込みの利点を生かし,粒度の細かいクラス関連トークンの階層的関係を粗いメトリック学習戦略によって捉え,学習した出力埋め込みの識別性を高める。 様々な環境下での3つのデータセットに対する大規模な実験は、我々のアプローチの有効性を示す。 私たちのコードはhttps://github.com/donttal/taraにあります。

Recent years have witnessed increasing interests in prompt-based learning in which models can be trained on only a few annotated instances, making them suitable in low-resource settings. When using prompt-based learning for text classification, the goal is to use a pre-trained language model (PLM) to predict a missing token in a pre-defined template given an input text, which can be mapped to a class label. However, PLMs built on the transformer architecture tend to generate similar output embeddings, making it difficult to discriminate between different class labels. The problem is further exacerbated when dealing with classification tasks involving many fine-grained class labels. In this work, we alleviate this information diffusion issue, i.e., different tokens share a large proportion of similar information after going through stacked multiple self-attention layers in a transformer, by proposing a calibration method built on feature transformations through rotation and scaling to map a PLM-encoded embedding into a new metric space to guarantee the distinguishability of the resulting embeddings. Furthermore, we take the advantage of hyperbolic embeddings to capture the hierarchical relations among fine-grained class-associated token embedding by a coarse-to-fine metric learning strategy to enhance the distinguishability of the learned output embeddings. Extensive experiments on the three datasets under various settings demonstrate the effectiveness of our approach. Our code can be found at https://github.com/donttal/TARA.
翻訳日:2023-05-11 16:49:12 公開日:2023-05-10
# テキストによる電子健康記録の符号化におけるCNNの妥当性の再検討

Rediscovery of CNN's Versatility for Text-based Encoding of Raw Electronic Health Records ( http://arxiv.org/abs/2303.08290v2 )

ライセンス: Link先を確認
Eunbyeol Cho, Min Jae Lee, Kyunghoon Hur, Jiyoun Kim, Jinsung Yoon, Edward Choi(参考訳) 電子健康記録(EHR)に豊富な情報を最大限に活用することは、医療分野において急速に重要なトピックになりつつある。 最近の研究は、フォームや医療コード標準に関係なく、すべての機能を生のEHRデータに組み込む有望なフレームワークを提示した。 しかし、このフレームワークは、最小限の事前処理で EHR を符号化することのみに焦点を当てており、計算とメモリ使用量の観点から効率的な EHR 表現の学習方法を考えることができない。 本稿では,大容量データを管理可能なサイズに縮小するだけでなく,多種多様な臨床業務を行う患者の中核情報を適切に保存する多目的エンコーダを探索する。 階層的に構成された畳み込みニューラルネットワーク(cnn)は,パラメータが少なく,トレーニング時間が短い場合でも,再構成や予測,生成といったさまざまなタスクにおいて,最先端のモデルを上回ることが多かった。 さらに, EHRデータ固有の階層構造を利用することで, バックボーンモデルや臨床作業のパフォーマンスが向上することが判明した。 本研究の成果を実世界の実践に一般化するための具体的な証拠を提示する。 我々は、多くの設定を探索しながら得られた研究結果に基づいて、エンコーダを構築するための明確なガイドラインを示す。

Making the most use of abundant information in electronic health records (EHR) is rapidly becoming an important topic in the medical domain. Recent work presented a promising framework that embeds entire features in raw EHR data regardless of its form and medical code standards. The framework, however, only focuses on encoding EHR with minimal preprocessing and fails to consider how to learn efficient EHR representation in terms of computation and memory usage. In this paper, we search for a versatile encoder not only reducing the large data into a manageable size but also well preserving the core information of patients to perform diverse clinical tasks. We found that hierarchically structured Convolutional Neural Network (CNN) often outperforms the state-of-the-art model on diverse tasks such as reconstruction, prediction, and generation, even with fewer parameters and less training time. Moreover, it turns out that making use of the inherent hierarchy of EHR data can boost the performance of any kind of backbone models and clinical tasks performed. Through extensive experiments, we present concrete evidence to generalize our research findings into real-world practice. We give a clear guideline on building the encoder based on the research findings captured while exploring numerous settings.
翻訳日:2023-05-11 16:42:04 公開日:2023-05-10
# パラメータがすべてではない:3Dポイントクラウド分析のための非パラメトリックネットワークから始める

Parameter is Not All You Need: Starting from Non-Parametric Networks for 3D Point Cloud Analysis ( http://arxiv.org/abs/2303.08134v2 )

ライセンス: Link先を確認
Renrui Zhang, Liuhui Wang, Ziyu Guo, Yali Wang, Peng Gao, Hongsheng Li, Jianbo Shi(参考訳) 本稿では,3次元点クラウド解析のための非パラメトリックネットワークであるpoint-nnについて述べる。これは,最も遠い点サンプリング(fps),k-nearest近傍(k-nn),および三角関数を持つプール操作である。 驚くべきことに、さまざまな3Dタスクでうまく機能し、パラメータやトレーニングを必要とせず、既存の完全に訓練されたモデルを超えています。 この基本的非パラメトリックモデルから、2つの拡張を提案する。 まず、Point-NNは、単に線形レイヤを上部に挿入することでパラメトリックネットワークを構築するための基盤となるアーキテクチャフレームワークとして機能する。 優れた非パラメトリック基盤が与えられた場合、派生したPoint-PNは、学習可能なパラメータがほんのわずかしかない高いパフォーマンス効率のトレードオフを示す。 第二に、Point-NNは推論中に既に訓練された3Dモデルのプラグアンドプレイモジュールと見なすことができる。 Point-NNは、相補的な幾何学的知識を捉え、異なる3Dベンチマークのための既存の方法を強化する。 私たちは、パラメトリックでない方法で3Dポイントクラウドを理解するために、コミュニティに光を当てることを願っています。 コードはhttps://github.com/ZrrSkywalker/Point-NNで入手できる。

We present a Non-parametric Network for 3D point cloud analysis, Point-NN, which consists of purely non-learnable components: farthest point sampling (FPS), k-nearest neighbors (k-NN), and pooling operations, with trigonometric functions. Surprisingly, it performs well on various 3D tasks, requiring no parameters or training, and even surpasses existing fully trained models. Starting from this basic non-parametric model, we propose two extensions. First, Point-NN can serve as a base architectural framework to construct Parametric Networks by simply inserting linear layers on top. Given the superior non-parametric foundation, the derived Point-PN exhibits a high performance-efficiency trade-off with only a few learnable parameters. Second, Point-NN can be regarded as a plug-and-play module for the already trained 3D models during inference. Point-NN captures the complementary geometric knowledge and enhances existing methods for different 3D benchmarks without re-training. We hope our work may cast a light on the community for understanding 3D point clouds with non-parametric methods. Code is available at https://github.com/ZrrSkywalker/Point-NN.
翻訳日:2023-05-11 16:41:41 公開日:2023-05-10
# 確率的拡散モデルのための一般化スケール空間特性

Generalised Scale-Space Properties for Probabilistic Diffusion Models ( http://arxiv.org/abs/2303.07900v3 )

ライセンス: Link先を確認
Pascal Peter(参考訳) 確率的拡散モデルは、ディープラーニングコミュニティで人気が高まっている。 応用分野の広い入力画像の学習分布から説得力のあるサンプルを生成する。 もともとこれらのアプローチはドリフト拡散過程から動機づけられていたが、これらの起源は近年の実践指向の出版物ではあまり注目されなかった。 確率的拡散モデルについて, スケール空間研究の観点から検討し, 進化する確率分布のスケール空間特性を一般化した。 さらに,深層学習とモデルに基づく世界におけるドリフト拡散の物理コア概念の解釈の類似性と相違について論じる。 そこで本研究では,オサムシスフィルタと確率拡散の関係について検討する。

Probabilistic diffusion models enjoy increasing popularity in the deep learning community. They generate convincing samples from a learned distribution of input images with a wide field of practical applications. Originally, these approaches were motivated from drift-diffusion processes, but these origins find less attention in recent, practice-oriented publications. We investigate probabilistic diffusion models from the viewpoint of scale-space research and show that they fulfil generalised scale-space properties on evolving probability distributions. Moreover, we discuss similarities and differences between interpretations of the physical core concept of drift-diffusion in the deep learning and model-based world. To this end, we examine relations of probabilistic diffusion to osmosis filters.
翻訳日:2023-05-11 16:41:23 公開日:2023-05-10
# 線形QAOAに基づく分解アルゴリズムの落とし穴

Pitfalls of the sublinear QAOA-based factorization algorithm ( http://arxiv.org/abs/2303.04656v2 )

ライセンス: Link先を確認
S.V. Grebnev, M.A. Gavreev, E.O. Kiktenko, A.P. Guglya, K.V. Kuchkin, A.R. Efimov, A.K. Fedorov(参考訳) 量子コンピューティングデバイスは、広く普及している公開鍵暗号ツールの中心である素因数分解問題を解決する上で強力であると考えられている。 しかし、Shorの量子因数分解アルゴリズムの実装には、数値サイズと線形にスケールする重要なリソースが必要であり、量子エラー補正に必要なオーバーヘッドを考慮すると、2048ビットのRSA鍵を8時間で分解するには2000万の物理量子ビットが必要である。 yanらによる最近の提案 al.は、部分線形量子資源を用いて因子分解問題を解決する可能性を主張する。 我々の研究で示すように、この提案はシュノーラーの格子に基づくアプローチを利用するアルゴリズムの古典的な部分の計算複雑性の体系的な解析を欠いている。 提案する量子分解アルゴリズムに対する追加資源分析の必要性を示すいくつかの例を示す。

Quantum computing devices are believed to be powerful in solving the prime factorization problem, which is at the heart of widely deployed public-key cryptographic tools. However, the implementation of Shor's quantum factorization algorithm requires significant resources scaling linearly with the number size; taking into account an overhead that is required for quantum error correction the estimation is that 20 millions of (noisy) physical qubits are required for factoring 2048-bit RSA key in 8 hours. Recent proposal by Yan et. al. claims a possibility of solving the factorization problem with sublinear quantum resources. As we demonstrate in our work, this proposal lacks systematic analysis of the computational complexity of the classical part of the algorithm, which exploits the Schnorr's lattice-based approach. We provide several examples illustrating the need in additional resource analysis for the proposed quantum factorization algorithm.
翻訳日:2023-05-11 16:40:55 公開日:2023-05-10
# 定常密度汎関数理論による多端子量子熱機械の熱電効率

Thermoelectric efficiency in multiterminal quantum thermal machines from steady-state density functional theory ( http://arxiv.org/abs/2303.01355v2 )

ライセンス: Link先を確認
Nahual Sobrino, Roberto D'Agosta, Stefan Kurth(参考訳) 電子・熱輸送(iq-DFT)の記述のための定常密度汎関数理論の多項一般化について述べる。 フレームワークの線形応答機構は、多体輸送係数と熱電効率の正確な表現を、フレームワークにアクセスできる量の観点から純粋に導き出す。 この理論は、交換相関カーネル行列の正確なパラメトリゼーションが与えられるクーロン遮断系における多端子相互作用量子ドットに適用される。 多端子系の熱電効率と出力パワーについて検討した。 驚くべきことに、これらの量の強い相互作用限界は、相互作用しないものの観点から理解することができる。

The multi-terminal generalization of the steady-state density functional theory for the description of electronic and thermal transport (iq-DFT) is presented. The linear response regime of the framework is developed leading to exact expressions for the many-body transport coefficients and thermoelectric efficiency purely in terms of quantities accessible to the framework. The theory is applied to a multi-terminal interacting quantum dot in the Coulomb blockade regime for which accurate parametrizations of the exchange-correlation kernel matrix are given. The thermoelectric efficiency and output power of the multi-terminal system are studied. Surprisingly, the strong-interaction limit of these quantities can be understood in terms of the non-interacting one.
翻訳日:2023-05-11 16:39:58 公開日:2023-05-10
# 短期量子コンピューティングアルゴリズムにおける励起電子状態の測定最適化手法

Measurement optimization techniques for excited electronic states in near-term quantum computing algorithms ( http://arxiv.org/abs/2302.11421v2 )

ライセンス: Link先を確認
Seonghoon Choi and Artur F. Izmaylov(参考訳) 変分量子固有解法(VQE)は、電子構造問題を解くための最も一般的な短期量子アルゴリズムの1つである。 しかし、その実用性において、克服する主な課題は量子測定効率を改善することである。 近年、多くの量子計測技術が開発されているが、これらの最先端の計測技術が、励起電子状態を得るためにVQEの拡張でどのように機能するかは不明である。 励起状態 vqe における測定手法の性能評価は、電子ハミルトニアンに加えて複数の観測器の期待値を測定する必要があるため、これらの拡張における測定要求が通常従来の vqe よりもはるかに大きいため重要である。 ここでは、多状態収縮と量子部分空間展開という2つの広く使われている励起状態VQEアルゴリズムに様々な測定手法を適用する。 そして、各測定手法の測定要件を数値的に比較する。 多状態収縮の最良の方法は、測定回数を最小限に抑えるためにハミルトンデータと波動関数情報を利用する方法である。 対照的に、ランダム化測定技術は量子部分空間の膨張に適しており、測定するエネルギースケールがかなり異なる観測可能なものが多い。 それにもかかわらず、各励起状態VQEアルゴリズムの最良の測定手法を考えると、量子部分空間展開よりも多状態収縮において測定が著しく少ない。

The variational quantum eigensolver (VQE) remains one of the most popular near-term quantum algorithms for solving the electronic structure problem. Yet, for its practicality, the main challenge to overcome is improving the quantum measurement efficiency. Numerous quantum measurement techniques have been developed recently, but it is unclear how these state-of-the-art measurement techniques will perform in extensions of VQE for obtaining excited electronic states. Assessing the measurement techniques' performance in the excited state VQE is crucial because the measurement requirements in these extensions are typically much greater than in conventional VQE, as one must measure the expectation value of multiple observables in addition to that of the electronic Hamiltonian. Here, we adapt various measurement techniques to two widely used excited state VQE algorithms: multi-state contraction and quantum subspace expansion. Then, the measurement requirements of each measurement technique are numerically compared. We find that the best methods for multi-state contraction are ones utilizing Hamiltonian data and wavefunction information to minimize the number of measurements. In contrast, randomized measurement techniques are more appropriate for quantum subspace expansion, with many more observables of vastly different energy scales to measure. Nevertheless, when the best possible measurement technique for each excited state VQE algorithm is considered, significantly fewer measurements are required in multi-state contraction than in quantum subspace expansion.
翻訳日:2023-05-11 16:38:45 公開日:2023-05-10
# モンテカルロ木探索による深部生成的記号回帰

Deep Generative Symbolic Regression with Monte-Carlo-Tree-Search ( http://arxiv.org/abs/2302.11223v2 )

ライセンス: Link先を確認
Pierre-Alexandre Kamienny, Guillaume Lample, Sylvain Lamprier, Marco Virgolin(参考訳) 記号回帰(SR)は、数値データから記号表現を学習する問題である。 近年、手続き的に生成された合成データセットで訓練されたディープニューラルモデルは、より古典的な遺伝的プログラミング(gp)アルゴリズムと比較して競合性能を示した。 gpと異なり、これらのニューラルアプローチは、コンテキストとして与えられたデータセットから式を生成するように訓練される。 これにより、テスト時に単一のフォワードパスで正確な式を生成することができる。 しかし、通常は検索能力の恩恵を受けないため、アウト・オブ・ディストリビューションデータセットのGPに比べてパフォーマンスは低い。 本稿では,先天的な変異を学習するために事前学習されたコンテキスト認識型ニューラルミュータントモデルを用いて,モンテカルロ木探索法に基づき,両世界のベストを提供する新しい手法を提案し,オンライン形式での成功経験からさらに洗練する。 このアプローチは、有名な \texttt{srbench}ベンチマークで最先端のパフォーマンスを示している。

Symbolic regression (SR) is the problem of learning a symbolic expression from numerical data. Recently, deep neural models trained on procedurally-generated synthetic datasets showed competitive performance compared to more classical Genetic Programming (GP) algorithms. Unlike their GP counterparts, these neural approaches are trained to generate expressions from datasets given as context. This allows them to produce accurate expressions in a single forward pass at test time. However, they usually do not benefit from search abilities, which result in low performance compared to GP on out-of-distribution datasets. In this paper, we propose a novel method which provides the best of both worlds, based on a Monte-Carlo Tree Search procedure using a context-aware neural mutation model, which is initially pre-trained to learn promising mutations, and further refined from successful experiences in an online fashion. The approach demonstrates state-of-the-art performance on the well-known \texttt{SRBench} benchmark.
翻訳日:2023-05-11 16:38:21 公開日:2023-05-10
# すべてのキーポイント:トリプル、ハイ、ロングジャンプ選手の身体上の任意のキーポイントを検出する

All Keypoints You Need: Detecting Arbitrary Keypoints on the Body of Triple, High, and Long Jump Athletes ( http://arxiv.org/abs/2304.02939v2 )

ライセンス: Link先を確認
Katja Ludwig, Julian Lorenz, Robin Sch\"on, Rainer Lienhart(参考訳) ビデオに基づくパフォーマンス分析は、様々なスポーツ分野のアスリートのコーチによって一般的に使用される。 個々のスポーツにおいて、これらの分析は主に体格を構成する。 本稿では,運動選手の身体の微細な位置を必要とする三段跳躍,高段跳躍,長段跳躍の規律に焦点を当てた。 典型的な人間のポーズ推定データセットは非常に限られたキーポイントのみを提供するが、この場合は不十分である。 そこで本研究では,選手の身体全体における任意のキーポイントを検出するために,注釈付きキーポイントと自動生成セグメンテーションマスクの限定セットを活用する手法を提案する。 評価の結果, 屈曲した肘や膝を含む頭部, 胴体, 手, 足, 腕, 足のキーポイントを検出することができることがわかった。 モデルの入力とトランスフォーマーバックボーンへの埋め込みとして所望のキーポイントをエンコードする様々な手法を分析し比較する。

Performance analyses based on videos are commonly used by coaches of athletes in various sports disciplines. In individual sports, these analyses mainly comprise the body posture. This paper focuses on the disciplines of triple, high, and long jump, which require fine-grained locations of the athlete's body. Typical human pose estimation datasets provide only a very limited set of keypoints, which is not sufficient in this case. Therefore, we propose a method to detect arbitrary keypoints on the whole body of the athlete by leveraging the limited set of annotated keypoints and auto-generated segmentation masks of body parts. Evaluations show that our model is capable of detecting keypoints on the head, torso, hands, feet, arms, and legs, including also bent elbows and knees. We analyze and compare different techniques to encode desired keypoints as the model's input and their embedding for the Transformer backbone.
翻訳日:2023-05-11 16:31:47 公開日:2023-05-10
# 自己改善によるコードの言語モデルの改善

Better Language Models of Code through Self-Improvement ( http://arxiv.org/abs/2304.01228v2 )

ライセンス: Link先を確認
Hung Quoc To, Nghi D. Q. Bui, Jin Guo, Tien N. Nguyen(参考訳) 近年,コードのための事前学習言語モデル (PLMC) が注目されている。 これらのモデルは、マルチモーダルな目的を用いて、大規模データセット上で事前訓練される。 しかしながら、細かなチューニングには広範な監視が必要であり、提供されるデータセットのサイズによって制限される。 我々は、単純なデータ拡張フレームワークを提案し、この問題を改善することを目指している。 本フレームワークは,事前学習と微調整の段階で得られた知識を利用して擬似データを生成し,次のステップのトレーニングデータとして利用する。 私たちはこのフレームワークを、CodeT5、CodeBERT、UnixCoderといった最先端の言語モデルに組み入れています。 その結果,コード要約やコード生成などのコード関連シーケンス生成タスクにおけるPLMCの性能は,CodeXGLUEベンチマークで大幅に向上した。

Pre-trained language models for code (PLMCs) have gained attention in recent research. These models are pre-trained on large-scale datasets using multi-modal objectives. However, fine-tuning them requires extensive supervision and is limited by the size of the dataset provided. We aim to improve this issue by proposing a simple data augmentation framework. Our framework utilizes knowledge gained during the pre-training and fine-tuning stage to generate pseudo data, which is then used as training data for the next step. We incorporate this framework into the state-of-the-art language models, such as CodeT5, CodeBERT, and UnixCoder. The results show that our framework significantly improves PLMCs' performance in code-related sequence generation tasks, such as code summarization and code generation in the CodeXGLUE benchmark.
翻訳日:2023-05-11 16:31:30 公開日:2023-05-10
# モジュールベース正規化によるノイズデータ観測時のガウスグラフィカルモデルの改善

Module-based regularization improves Gaussian graphical models when observing noisy data ( http://arxiv.org/abs/2303.16796v3 )

ライセンス: Link先を確認
Magnus Neuman, Joaqu\'in Calatayud, Viktor Tasselius, Martin Rosvall(参考訳) 相関データから関係を推測することで、科学の研究者が変数間の複雑な関係を解明し、基礎となるメカニズムを理解することができる。 研究者はしばしばガウスのグラフィカルモデルを用いて推測された関係を表現し、モデルをスパーシフィケーションするために正規化を必要とする。 推定されたネットワークのモジュラ構造がしばしば研究されることを認め、モジュールベースの正規化をアンダーフィッティングとオーバーフィッティングのバランスをとるように提案する。 gaussian log-likelihoodを用いた正規化強度推定の標準的なアプローチであるグラフィカルラッソと比較して、このアプローチは、ノイズの多い合成データと実データにおいてモジュラー構造をより良く復元し、推定する。 モジュールベースの正規化技術は、ガウスのグラフィカルモデルが採用されている多くのアプリケーションにおいて有用性を向上させる。

Inferring relations from correlational data allows researchers across the sciences to uncover complex connections between variables for insights into the underlying mechanisms. The researchers often represent inferred relations using Gaussian graphical models, requiring regularization to sparsify the models. Acknowledging that the modular structure of the inferred network is often studied, we suggest module-based regularization to balance under- and overfitting. Compared with the graphical lasso, a standard approach using the Gaussian log-likelihood for estimating the regularization strength, this approach better recovers and infers modular structure in noisy synthetic and real data. The module-based regularization technique improves the usefulness of Gaussian graphical models in the many applications where they are employed.
翻訳日:2023-05-11 16:31:17 公開日:2023-05-10
# 古典的な紡糸粒子のクーロン問題

Coulomb problem for classical spinning particle ( http://arxiv.org/abs/2303.16614v2 )

ライセンス: Link先を確認
Dmitry S. Kaparulin and Nikita A. Sinelnikov(参考訳) 我々は古典力学の観点から中央ポテンシャル $e/r$ の任意のスピンを持つ弱相対論的荷電粒子の運動を考える。 スピン軌道と軌道の相互作用は、全角運動量ベクトルの周りの軌道面の傾きを引き起こすことを示した。 偏差の角速度は、中心からの粒子の距離に依存する。 面内運動の有効ポテンシャルは中心であり、スピン-軌道相互作用による項のクーロン補正を行う。 量子粒子の軌道はボーア・ソマーフェルト量子化則によって決定される。 運動方程式の数値積分によって得られた、小さな量子数に対応する軌道の例を示す。 静止状態のエネルギーはスピン軌道相互作用によって決定される。

We consider a motion of a weakly relativistic charged particle with an arbitrary spin in central potential $e/r$ in terms of classical mechanics. We show that the spin-orbital interaction causes the precession of the plane of orbit around the vector of total angular momentum. The angular velocity of precession depends on the distance of the particle from the center. The effective potential for in-plane motion is central, with the corrections to Coulomb terms coming from spin-orbital interaction. The possible orbits of a quantum particle are determined by the Bohr-Sommerfeld quantization rule. We give examples of orbits corresponding to small quantum numbers, which were obtained by numerical integration of equations of motion. The energies of stationary states are determined by spin-orbital interaction.
翻訳日:2023-05-11 16:31:03 公開日:2023-05-10
# GestureDiffuCLIP:CLIP潜伏剤を用いたジェスチャ拡散モデル

GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents ( http://arxiv.org/abs/2303.14613v3 )

ライセンス: Link先を確認
Tenglong Ao, Zeyi Zhang, Libin Liu(参考訳) 近年,スタイリングされた共同音声ジェスチャーの自動生成が注目されている。 従来のシステムでは,事前に定義されたテキストラベルやモーションクリップによるスタイルコントロールが可能で,ユーザの意図を正確に伝えるには柔軟性に欠けることが多い。 本稿では,フレキシブルなスタイル制御による,リアルでスタイリッシュなコスピーチジェスチャを合成するニューラルネットワークフレームワークであるjuicediffuclipを提案する。 本稿では,CLIP(Contrastive-Language-Image-Pre-Training)モデルのパワーを活用し,テキストやモーションクリップ,ビデオなどの複数の入力モードから,効率的なスタイル表現を抽出する新しいCLIP誘導機構を提案する。 我々のシステムは,高品質なジェスチャを生成するために潜時拡散モデルを学び,適応インスタンス正規化(AdaIN)層を介してスタイルのCLIP表現をジェネレータに注入する。 さらに、コントラスト学習に基づく意味論的に正しいジェスチャー生成を可能にするジェスチャー記述アライメント機構を考案する。 我々のシステムは、個々の身体部分のきめ細かいスタイル制御を可能にするよう拡張することもできる。 我々は、様々なスタイル記述に対するモデルの柔軟性と一般化性を示す、広範な例を示します。 ユーザ・スタディにおいて,本システムは,人間の類似性,適切性,スタイル正確性に関する最先端のアプローチを上回っていることを示す。

The automatic generation of stylized co-speech gestures has recently received increasing attention. Previous systems typically allow style control via predefined text labels or example motion clips, which are often not flexible enough to convey user intent accurately. In this work, we present GestureDiffuCLIP, a neural network framework for synthesizing realistic, stylized co-speech gestures with flexible style control. We leverage the power of the large-scale Contrastive-Language-Image-Pre-training (CLIP) model and present a novel CLIP-guided mechanism that extracts efficient style representations from multiple input modalities, such as a piece of text, an example motion clip, or a video. Our system learns a latent diffusion model to generate high-quality gestures and infuses the CLIP representations of style into the generator via an adaptive instance normalization (AdaIN) layer. We further devise a gesture-transcript alignment mechanism that ensures a semantically correct gesture generation based on contrastive learning. Our system can also be extended to allow fine-grained style control of individual body parts. We demonstrate an extensive set of examples showing the flexibility and generalizability of our model to a variety of style descriptions. In a user study, we show that our system outperforms the state-of-the-art approaches regarding human likeness, appropriateness, and style correctness.
翻訳日:2023-05-11 16:30:55 公開日:2023-05-10
# ゼロショットノイズ2noise:データなしの効率的な画像デノージング

Zero-Shot Noise2Noise: Efficient Image Denoising without any Data ( http://arxiv.org/abs/2303.11253v3 )

ライセンス: Link先を確認
Youssef Mansour and Reinhard Heckel(参考訳) 近年,自己教師付きニューラルネットワークは画像の雑音化性能に優れている。 しかし、現在のデータセットフリーメソッドは計算コストが高く、ノイズモデルを必要とするか、画像の品質が不十分である。 本研究では,簡単な2層ネットワークをトレーニングデータやノイズ分布の知識を使わずに,低計算コストで高品質な画像をデノナイズできることを示す。 noise2noise と neighbor2neighbor に動機づけられ,ピクセル単位の独立ノイズの除去に有効である。 ZS-N2N (Zero Shot Noise2Noise) と呼ばれる人工的, 現実的なカメラ, 顕微鏡的ノイズによる実験により, 既存のデータセットフリー手法よりも少ないコストで性能を向上し, 少ないデータ可用性と限られた計算資源のユースケースに適していることがわかった。 私たちのコードとハイパーパラメータを含む実装のデモは、以下のコラボノートで見ることができる。

Recently, self-supervised neural networks have shown excellent image denoising performance. However, current dataset free methods are either computationally expensive, require a noise model, or have inadequate image quality. In this work we show that a simple 2-layer network, without any training data or knowledge of the noise distribution, can enable high-quality image denoising at low computational cost. Our approach is motivated by Noise2Noise and Neighbor2Neighbor and works well for denoising pixel-wise independent noise. Our experiments on artificial, real-world camera, and microscope noise show that our method termed ZS-N2N (Zero Shot Noise2Noise) often outperforms existing dataset-free methods at a reduced cost, making it suitable for use cases with scarce data availability and limited computational resources. A demo of our implementation including our code and hyperparameters can be found in the following colab notebook: https://colab.research.google.com/drive/1i82nyizTdszyHkaHBuKPbWnTzao8HF9b
翻訳日:2023-05-11 16:30:32 公開日:2023-05-10
# 滑らかな確率凸最適化におけるGDとSGDの低次一般化境界

Lower Generalization Bounds for GD and SGD in Smooth Stochastic Convex Optimization ( http://arxiv.org/abs/2303.10758v2 )

ライセンス: Link先を確認
Peiyuan Zhang, Jiaye Teng, Jingzhao Zhang(参考訳) 本研究は勾配法の一般化誤差を考察する。 より具体的には、smoous stochastic convex optimization (sco)問題における一般化に、トレーニングステップ$t$とステップサイズ$\eta$がどのように影響するかに注目します。 まず、一般の非実現可能な滑らかなSCO設定の下で、グラディエント・ディクエント・ディクエント(GD)と確率グラディエント・ディクエント・ディクエント・ディクエント(SGD)に対して厳密な過大なリスク低いバウンダリを提供し、既存の安定性解析がステップサイズおよびイテレーション依存性において厳密であり、オーバーフィッティングが確実に起こることを示唆する。 次に、損失が実現可能な場合、すなわち最適解がすべてのデータポイントを最小化する場合について検討する。 近年の作業は、より良い速度で達成できるが、トレーニング時間が長い場合には改善が減少する。 本稿では,GD と SGD の過剰なリスク低境界を2つの実現可能な設定で提供することにより,この観測を検証した。 1) $\eta T = \bigO{n}$, and (2) $\eta T = \bigOmega{n}$ ここで$n$はデータセットのサイズである。 最初の場合、$\eta t = \bigomega{n}$ では、下限は密に一致し、各上限を証明します。 しかし、$\eta T = \bigOmega{n}$ の場合、解析は下界と上界の間のギャップを示している。 2つの特別なシナリオの分析によって支持される上界を改善することでギャップを閉じることができるという予想が提案されている。

This work studies the generalization error of gradient methods. More specifically, we focus on how training steps $T$ and step-size $\eta$ might affect generalization in smooth stochastic convex optimization (SCO) problems. We first provide tight excess risk lower bounds for Gradient Descent (GD) and Stochastic Gradient Descent (SGD) under the general non-realizable smooth SCO setting, suggesting that existing stability analyses are tight in step-size and iteration dependence, and that overfitting provably happens. Next, we study the case when the loss is realizable, i.e. an optimal solution minimizes all the data points. Recent works show better rates can be attained but the improvement is reduced when training time is long. Our paper examines this observation by providing excess risk lower bounds for GD and SGD in two realizable settings: 1) $\eta T = \bigO{n}$, and (2) $\eta T = \bigOmega{n}$, where $n$ is the size of dataset. In the first case $\eta T = \bigOmega{n}$, our lower bounds tightly match and certify the respective upper bounds. However, for the case $\eta T = \bigOmega{n}$, our analysis indicates a gap between the lower and upper bounds. A conjecture is proposed that the gap can be closed by improving upper bounds, supported by analyses in two special scenarios.
翻訳日:2023-05-11 16:30:14 公開日:2023-05-10
# 自動運転のためのモーションプランニング:技術の現状と今後の展望

Motion Planning for Autonomous Driving: The State of the Art and Future Perspectives ( http://arxiv.org/abs/2303.09824v4 )

ライセンス: Link先を確認
Siyu Teng, Xuemin Hu, Peng Deng, Bai Li, Yuchen Li, Dongsheng Yang, Yunfeng Ai, Lingxi Li, Zhe Xuanyuan, Fenghua Zhu, Long Chen(参考訳) インテリジェント車(IV)は、利便性、安全性、潜在的な商業的価値のために世界中で注目を集めている。 2025年の商業展開の予測にもかかわらず、実装は小さな検証に限られており、正確なトラッキングコントローラとモーションプランナーはIVにとって必須の前提条件である。 本稿では,パイプライン計画やエンドツーエンド計画など,IVの最先端動作計画手法についてレビューする。 本研究では,パイプライン方式における選択,拡張,最適化操作について検討し,エンドツーエンド方式におけるタスク実行のためのトレーニングアプローチと検証シナリオについて検討した。 実験プラットフォームは、読者が適切なトレーニングと検証戦略を選択するのを助けるためにレビューされる。 これらの手法を並べて比較し,その強みと限界を強調し,システムレベルの設計選択を支援する。 本調査では,現在の課題と今後の展望についても述べる。

Intelligent vehicles (IVs) have gained worldwide attention due to their increased convenience, safety advantages, and potential commercial value. Despite predictions of commercial deployment by 2025, implementation remains limited to small-scale validation, with precise tracking controllers and motion planners being essential prerequisites for IVs. This paper reviews state-of-the-art motion planning methods for IVs, including pipeline planning and end-to-end planning methods. The study examines the selection, expansion, and optimization operations in a pipeline method, while it investigates training approaches and validation scenarios for driving tasks in end-to-end methods. Experimental platforms are reviewed to assist readers in choosing suitable training and validation strategies. A side-by-side comparison of the methods is provided to highlight their strengths and limitations, aiding system-level design choices. Current challenges and future perspectives are also discussed in this survey.
翻訳日:2023-05-11 16:29:42 公開日:2023-05-10
# 階層型変圧器力学vaeによる音声モデリング

Speech Modeling with a Hierarchical Transformer Dynamical VAE ( http://arxiv.org/abs/2303.09404v2 )

ライセンス: Link先を確認
Xiaoyu Lin, Xiaoyu Bie, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda(参考訳) 動的変分オートエンコーダ(DVAEs)は、VAEを拡張して観測データのシーケンスとそれに対応する潜時ベクトルのシーケンスをモデル化する潜時可変深部生成モデルのファミリーである。 文献のほとんど全てのDVAEにおいて、各シーケンスと2つのシーケンス間の時間的依存関係は、繰り返しニューラルネットワークでモデル化される。 本稿では,2段階の潜在変数(列方向とフレーム方向)を持つdvaeである階層的トランスフォーマーdvae(hit-dvae)を用いて音声信号のモデル化を行い,その時間依存性をトランスフォーマーアーキテクチャで実装することを提案する。 我々は,HT-DVAEが音声スペクトログラムモデリングにおける他のDVAEよりも優れており,より簡単な訓練手順を実現し,音声強調などの低レベル音声処理タスクの低レベル化の可能性を明らかにした。

The dynamical variational autoencoders (DVAEs) are a family of latent-variable deep generative models that extends the VAE to model a sequence of observed data and a corresponding sequence of latent vectors. In almost all the DVAEs of the literature, the temporal dependencies within each sequence and across the two sequences are modeled with recurrent neural networks. In this paper, we propose to model speech signals with the Hierarchical Transformer DVAE (HiT-DVAE), which is a DVAE with two levels of latent variable (sequence-wise and frame-wise) and in which the temporal dependencies are implemented with the Transformer architecture. We show that HiT-DVAE outperforms several other DVAEs for speech spectrogram modeling, while enabling a simpler training procedure, revealing its high potential for downstream low-level speech processing tasks such as speech enhancement.
翻訳日:2023-05-11 16:29:29 公開日:2023-05-10
# 円形社会のスケーラブルな地盤形成のための技術枠組み

A technological framework for scalable ground-up formation of Circular Societies ( http://arxiv.org/abs/2304.14921v2 )

ライセンス: Link先を確認
Anant Sujatanagarjuna(参考訳) 循環経済(CE)は環境危機の解決策と見なされている。 しかし、主流のCEは経済成長の倫理に挑戦し、社会的影響を見落とし、総消費を減少させるような過小評価のソリューションを提示する。 循環社会(CS)はこの倫理に挑戦することでこれらの懸念に対処する。 彼らは社会再編成の基盤を強調し、不十分な戦略を通じて過剰消費に対処し、自然、社会、技術間の複雑な相互依存を地域、地域、グローバルレベルで考慮する必要があることを強調する。 しかし、CSを形成するための青写真は存在しない。 私の論文の最初の目的は、既存の社会ネットワークオントロジーを探求し、CSの広範囲に適用可能なモデルを開発することである。 地域・地域・グローバルレベルでの社会的再編成はネットワークの複雑度に複合的な影響を与えるため、これらの相互依存をデジタル化する技術的枠組みが必要である。 最後に、透明性と民主化というcsの原則に固執し、ネットワーク状態の協調的なコンセンサスを達成するためには信頼のシステムが必要である。

The Circular Economy (CE) is regarded as a solution to the environmental crisis. However, mainstream CE measures skirt around challenging the ethos of ever-increasing economic growth, overlooking social impacts and under-representing solutions such as reducing overall consumption. Circular Societies (CS) address these concerns by challenging this ethos. They emphasize ground-up social reorganization,address over-consumption through sufficiency strategies, and highlight the need for considering the complex inter-dependencies between nature, society, and technology on local, regional and global levels. However, no blueprint exists for forming CSs. An initial objective of my thesis is exploring existing social-network ontologies and developing a broadly applicable model for CSs. Since ground-up social reorganization on local, regional, and global levels has compounding effects on network complexities,a technological framework digitizing these inter-dependencies is necessary. Finally, adhering to CS principles of transparency and democratization, a system of trust is necessary to achieve collaborative consensus of the network state.
翻訳日:2023-05-11 16:21:58 公開日:2023-05-10
# データ言語のための名目トポロジー

Nominal Topology for Data Languages ( http://arxiv.org/abs/2304.13337v2 )

ライセンス: Link先を確認
Fabian Birkmann, Stefan Milius and Henning Urbat(参考訳) 軌道有限の名目モノイドによって認識されるデータ言語に関する新しい位相的視点を提案する。 この目的のために、軌道-有限公称位相空間を導入する。 グローバルな有界なサポートサイズを仮定すると、それらは名目ストーン空間と一致し、名目ブール代数の部分圏と双対同値であることが示される。 認識可能なデータ言語は、軌道寄りの単語の位相的に閉ざされた集合として特徴づけられる。 さらに、Reitermanの擬変量定理の命名的なバージョンを確立することで、軌道上有限方程式の表現力を探る。

We propose a novel topological perspective on data languages recognizable by orbit-finite nominal monoids. For this purpose, we introduce pro-orbit-finite nominal topological spaces. Assuming globally bounded support sizes, they coincide with nominal Stone spaces and are shown to be dually equivalent to a subcategory of nominal boolean algebras. Recognizable data languages are characterized as topologically clopen sets of pro-orbit-finite words. In addition, we explore the expressive power of pro-orbit-finite equations by establishing a nominal version of Reiterman's pseudovariety theorem.
翻訳日:2023-05-11 16:21:28 公開日:2023-05-10
# AdaNPC:テスト時間適応のための非パラメトリック分類器の探索

AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation ( http://arxiv.org/abs/2304.12566v2 )

ライセンス: Link先を確認
Yi-Fan Zhang, Xue Wang, Kexin Jin, Kun Yuan, Zhang Zhang, Liang Wang, Rong Jin, Tieniu Tan(参考訳) 最近の機械学習タスクの多くは、未認識分布に一般化できるモデルの開発に重点を置いている。 ドメイン一般化(DG)は、様々な分野において重要なトピックの一つとなっている。 いくつかの文献では、DGはターゲットのドメイン情報を利用せずに任意に困難であることを示している。 この問題に対処するため,テスト時適応(TTA)手法を提案する。 既存のTTA手法では、推論段階でオフラインのターゲットデータや高度な最適化手順が必要となる。 本研究では,テスト時間適応(AdaNPC)を実行するために非パラメトリック分類を用いる。 特に、トレーニングドメインの特徴とラベルペアを含むメモリを構築します。 推論中、テストインスタンスが与えられた場合、AdaNPCはまずメモリからK個のクローズドサンプルをリコールして予測を投票し、次にテスト機能と予測ラベルをメモリに追加する。 このように、メモリ内のサンプル分布は、トレーニング分布からテスト分布へと徐々に変化し、余分な計算コストが少なくなる。 提案手法の背後にある合理性を理論的に正当化する。 さらに,広範な数値実験でモデルをテストする。 AdaNPCは様々なDGベンチマークの競争ベースラインを大幅に上回っている。 特に、適応ターゲットが一連のドメインである場合、AdaNPCの適応精度は高度なTTA法よりも50%高い。 コードはhttps://github.com/yfzhang114/AdaNPCで入手できる。

Many recent machine learning tasks focus to develop models that can generalize to unseen distributions. Domain generalization (DG) has become one of the key topics in various fields. Several literatures show that DG can be arbitrarily hard without exploiting target domain information. To address this issue, test-time adaptive (TTA) methods are proposed. Existing TTA methods require offline target data or extra sophisticated optimization procedures during the inference stage. In this work, we adopt Non-Parametric Classifier to perform the test-time Adaptation (AdaNPC). In particular, we construct a memory that contains the feature and label pairs from training domains. During inference, given a test instance, AdaNPC first recalls K closed samples from the memory to vote for the prediction, and then the test feature and predicted label are added to the memory. In this way, the sample distribution in the memory can be gradually changed from the training distribution towards the test distribution with very little extra computation cost. We theoretically justify the rationality behind the proposed method. Besides, we test our model on extensive numerical experiments. AdaNPC significantly outperforms competitive baselines on various DG benchmarks. In particular, when the adaptation target is a series of domains, the adaptation accuracy of AdaNPC is 50% higher than advanced TTA methods. The code is available at https://github.com/yfzhang114/AdaNPC.
翻訳日:2023-05-11 16:21:19 公開日:2023-05-10
# 並列ブートストラップに基づく連続流制御用オンライン深部強化学習

Parallel bootstrap-based on-policy deep reinforcement learning for continuous flow control applications ( http://arxiv.org/abs/2304.12330v2 )

ライセンス: Link先を確認
J. Viquerat and E. Hachem(参考訳) 近年, 深部強化学習と数値流制御問題との結合が注目され, 画期的な結果が得られ, ドメインに対する新たな視点が開かれた。 流体力学ソルバの計算コストが通常高いため、学習過程における並列環境の使用は、合理的な時間で効率的な制御を実現するための重要な要素である。 しかし、フロー制御のための深層強化学習文献のほとんどは、超並列トランジッションコレクションが理論上の前提を破り、サブ最適制御モデルに繋がるオンポリシーアルゴリズムに依存している。 この問題を克服するため,我々は,戻りブートストラップステップで終了する部分トラックバッファに依存する並列化パターンを提案し,更新のオンポリシティを維持しつつ,並列環境を柔軟に利用できるようにする。 このアプローチは、文献からのCPU集約型連続フロー制御問題に説明される。

The coupling of deep reinforcement learning to numerical flow control problems has recently received a considerable attention, leading to groundbreaking results and opening new perspectives for the domain. Due to the usually high computational cost of fluid dynamics solvers, the use of parallel environments during the learning process represents an essential ingredient to attain efficient control in a reasonable time. Yet, most of the deep reinforcement learning literature for flow control relies on on-policy algorithms, for which the massively parallel transition collection may break theoretical assumptions and lead to suboptimal control models. To overcome this issue, we propose a parallelism pattern relying on partial-trajectory buffers terminated by a return bootstrapping step, allowing a flexible use of parallel environments while preserving the on-policiness of the updates. This approach is illustrated on a CPU-intensive continuous flow control problem from the literature.
翻訳日:2023-05-11 16:21:01 公開日:2023-05-10
# Pylogik を用いた医用画像の識別・洗浄・圧縮

Medical Image Deidentification, Cleaning and Compression Using Pylogik ( http://arxiv.org/abs/2304.12322v5 )

ライセンス: Link先を確認
Adrienne Kline, Vinesh Appadurai, Yuan Luo, Sanjiv Shah(参考訳) ビッグデータと機械学習の時代における医療記録情報を活用するには、データがきれいにされ、特定されなければならないという注意が必要だ。 保護された健康情報(PHI)が画像メタデータに含まれる場合,多施設連携のためのデータ共有と調和は特に困難である。 我々は,pylogikと呼ばれるpythonフレームワークの新しいライブラリを提案し,超音波画像に対するこの問題を軽減する。 PyLogikは、一連のテキスト検出/抽出、フィルタリング、しきい値、形態と輪郭の比較を通じて画像ボリュームを処理する。 この手法は、画像の識別を解除し、ファイルサイズを減らし、ディープラーニングおよびデータ共有アプリケーションのための画像ボリュームを作成する。 超音波データ処理におけるその有効性を評価するため,PyLogikを用いて50個の心エコー(心エコー)のランダムサンプルを処理し,専門家による手動セグメンテーションと比較した。 2つのアプローチのDice係数は0.976の平均値を達成した。 次に,アルゴリズムを用いて得られた情報圧縮の程度を確認するために調査を行った。 結果、pylogikによる処理後、平均で72%小さくなることがわかった。 以上の結果から,pylogikはデータクリーニング,非同定,roi決定,ファイル圧縮の有効な手法であり,超音波データの効率的な保存,使用,普及が容易であることが示唆された。 パイプラインの変種は、他の医療画像データタイプと併用するためにも作成されている。

Leveraging medical record information in the era of big data and machine learning comes with the caveat that data must be cleaned and de-identified. Facilitating data sharing and harmonization for multi-center collaborations are particularly difficult when protected health information (PHI) is contained or embedded in image meta-data. We propose a novel library in the Python framework, called PyLogik, to help alleviate this issue for ultrasound images, which are particularly challenging because of the frequent inclusion of PHI directly on the images. PyLogik processes the image volumes through a series of text detection/extraction, filtering, thresholding, morphological and contour comparisons. This methodology de-identifies the images, reduces file sizes, and prepares image volumes for applications in deep learning and data sharing. To evaluate its effectiveness in processing ultrasound data, a random sample of 50 cardiac ultrasounds (echocardiograms) were processed through PyLogik, and the outputs were compared with the manual segmentations by an expert user. The Dice coefficient of the two approaches achieved an average value of 0.976. Next, an investigation was conducted to ascertain the degree of information compression achieved using the algorithm. Resultant data was found to be on average ~72% smaller after processing by PyLogik. Our results suggest that PyLogik is a viable methodology for data cleaning and de-identification, determining ROI, and file compression which will facilitate efficient storage, use, and dissemination of ultrasound data. Variants of the pipeline have also been created for use with other medical imaging data types.
翻訳日:2023-05-11 16:20:46 公開日:2023-05-10
# 拡散型生成aiによる2次元分子グラフからの遷移状態の探索

Diffusion-based Generative AI for Exploring Transition States from 2D Molecular Graphs ( http://arxiv.org/abs/2304.12233v2 )

ライセンス: Link先を確認
Seonghwan Kim, Jeheon Woo, Woo Youn Kim(参考訳) 遷移状態(TS)の探索は化学反応機構を解明し、その速度論をモデル化するために重要である。 近年,機械学習(ml)モデルがtsジオメトリの予測において顕著な性能を示している。 しかし、反応物と生成物の3次元配座を入力として適切な向きにする必要があるため、かなりの努力と計算コストが要求される。 本稿では,2次元分子グラフからのみTS測地を予測するための確率拡散法,すなわち TSDiff に基づく生成的アプローチを提案する。 TSDiffは、精度と効率の両面で既存のMLモデルよりも3Dジオメトリで優れていた。 さらに、様々なTS配座のサンプル化を可能にし、トレーニングにおいて様々な反応のためにTSジオメトリーの分布を学習した。 したがって、TSDiffは基準データベースよりもバリア高さの低い反応経路をより良好に見つけることができた。 これらの結果から, TSDiffは効率的かつ信頼性の高いTS探査の可能性を示した。

The exploration of transition state (TS) geometries is crucial for elucidating chemical reaction mechanisms and modeling their kinetics. Recently, machine learning (ML) models have shown remarkable performance for prediction of TS geometries. However, they require 3D conformations of reactants and products often with their appropriate orientations as input, which demands substantial efforts and computational cost. Here, we propose a generative approach based on the stochastic diffusion method, namely TSDiff, for prediction of TS geometries just from 2D molecular graphs. TSDiff outperformed the existing ML models with 3D geometries in terms of both accuracy and efficiency. Moreover, it enables to sample various TS conformations, because it learned the distribution of TS geometries for diverse reactions in training. Thus, TSDiff was able to find more favorable reaction pathways with lower barrier heights than those in the reference database. These results demonstrate that TSDiff shows promising potential for an efficient and reliable TS exploration.
翻訳日:2023-05-11 16:20:20 公開日:2023-05-10
# ファウショット学習のためのクラスタ・パッチ要素接続

Clustered-patch Element Connection for Few-shot Learning ( http://arxiv.org/abs/2304.10093v2 )

ライセンス: Link先を確認
Jinxiang Lai, Siqian Yang, Junhong Zhou, Wenlong Wu, Xiaochen Chen, Jun Liu, Bin-Bin Gao, Chengjie Wang(参考訳) 弱い特徴表現問題は、長い間、数発の分類タスクの性能に影響を与えてきた。 この問題を軽減するため、最近の研究者は、パッチ機能を組み込んで識別表現を生成することで、サポートとクエリインスタンス間の接続を構築している。 しかし,対象オブジェクトの位置やサイズが固定されていないため,局所パッチには意味的ミスマッチ(前景/背景)が存在することを確認した。 さらに悪いことに、これらのミスマッチは信頼できない類似性信頼をもたらし、複雑な密接な接続は問題を悪化させる。 そこで本研究では,ミスマッチ問題を修正するために,クラスタ化パッチ要素接続(CEC)層を提案する。 cec層はパッチクラスタとエレメント接続操作を利用して、高い類似性を持つ信頼性の高い接続をそれぞれ収集し確立する。 さらに,CEC層に基づくアテンションモジュールと距離メートル法を含むCECNetを提案する。 前者はグローバルクラスタ・パッチの特徴からより差別的な表現を生成するために利用され、後者はペア・フィーチャー間の類似性を確実に測定するために導入される。 我々のCECNetは、分類ベンチマークで最先端の手法よりも優れています。 さらに,cecアプローチを数ショットセグメンテーションと検出タスクに拡張することで,競合性能を実現する。

Weak feature representation problem has influenced the performance of few-shot classification task for a long time. To alleviate this problem, recent researchers build connections between support and query instances through embedding patch features to generate discriminative representations. However, we observe that there exists semantic mismatches (foreground/ background) among these local patches, because the location and size of the target object are not fixed. What is worse, these mismatches result in unreliable similarity confidences, and complex dense connection exacerbates the problem. According to this, we propose a novel Clustered-patch Element Connection (CEC) layer to correct the mismatch problem. The CEC layer leverages Patch Cluster and Element Connection operations to collect and establish reliable connections with high similarity patch features, respectively. Moreover, we propose a CECNet, including CEC layer based attention module and distance metric. The former is utilized to generate a more discriminative representation benefiting from the global clustered-patch features, and the latter is introduced to reliably measure the similarity between pair-features. Extensive experiments demonstrate that our CECNet outperforms the state-of-the-art methods on classification benchmark. Furthermore, our CEC approach can be extended into few-shot segmentation and detection tasks, which achieves competitive performances.
翻訳日:2023-05-11 16:19:48 公開日:2023-05-10
# 幾何学的変換感性アーキテクチャを用いた非対象中心画像からの自己教師付き学習

Self-Supervised Learning from Non-Object Centric Images with a Geometric Transformation Sensitive Architecture ( http://arxiv.org/abs/2304.08014v5 )

ライセンス: Link先を確認
Taeho Kim, Jong-Min Lee(参考訳) ほとんどの不変性に基づく自己教師付き手法は、幾何学的変換から不変な特徴を事前学習するために単一のオブジェクト中心の画像(例えばimagenetイメージ)に依存する。 しかし、画像がオブジェクト中心でない場合、画像のセマンティクスは切り欠きによって著しく変化する可能性がある。 さらに、モデルが幾何学的変換に敏感になるにつれて、位置情報を捉えるのに苦労する可能性がある。 そこで我々は,4次元回転,ランダム作物,マルチクロップに着目し,幾何学的変換に敏感な幾何学的変換センシティブなアーキテクチャを提案する。 本手法は,教師特徴マップのプーリングと回転を通じて,その変換によって変化する目標を用いて,生徒の自転を予測し,センシティブ化を促す。 さらに、パッチ対応損失を利用して、類似した特徴を持つパッチ間の対応を促進する。 このアプローチは、学習がマルチクロップに敏感でない場合に発生する局所的対グローバル対応を奨励することで、長期的な依存関係を捉えるよりも適切な方法で長期的な依存関係を捉えることができます。 提案手法は,非対象中心の画像を事前学習データとして使用する場合,幾何学的変換に敏感であるようにモデルを訓練する他の方法と比較して,性能向上を示す。 DINO[\citet{caron2021emerging}]ベースラインをイメージ分類、セマンティックセグメンテーション、検出、インスタンスセグメンテーションといったタスクで上回り、4.9$Top-1 Acc$、3.3 $mIoU$、3.4 $AP^b$、2.7 $AP^m$の改善がある。 コードおよび事前訓練されたモデルは、以下の通り公開されている。

Most invariance-based self-supervised methods rely on single object-centric images (e.g., ImageNet images) for pretraining, learning invariant features from geometric transformations. However, when images are not object-centric, the semantics of the image can be significantly altered due to cropping. Furthermore, as the model becomes insensitive to geometric transformations, it may struggle to capture location information. For this reason, we propose a Geometric Transformation Sensitive Architecture designed to be sensitive to geometric transformations, specifically focusing on four-fold rotation, random crop, and multi-crop. Our method encourages the student to be sensitive by predicting rotation and using targets that vary with those transformations through pooling and rotating the teacher feature map. Additionally, we use patch correspondence loss to encourage correspondence between patches with similar features. This approach allows us to capture long-term dependencies in a more appropriate way than capturing long-term dependencies by encouraging local-to-global correspondence, which occurs when learning to be insensitive to multi-crop. Our approach demonstrates improved performance when using non-object-centric images as pretraining data compared to other methods that train the model to be insensitive to geometric transformation. We surpass DINO[\citet{caron2021emerging}] baseline in tasks including image classification, semantic segmentation, detection, and instance segmentation with improvements of 4.9 $Top-1 Acc$, 3.3 $mIoU$, 3.4 $AP^b$, and 2.7 $AP^m$. Code and pretrained models are publicly available at: \url{https://github.com/bok3948/GTSA}
翻訳日:2023-05-11 16:19:29 公開日:2023-05-10
# コード分類のための抽象構文木(AST)上の不均一方向ハイパーグラフニューラルネットワーク

Heterogeneous Directed Hypergraph Neural Network over abstract syntax tree (AST) for Code Classification ( http://arxiv.org/abs/2305.04228v2 )

ライセンス: Link先を確認
Guang Yang, Tiancheng Jin, Liang Dou(参考訳) コード分類は、プログラム理解と自動コーディングにおいて難しい問題である。 プログラムの構文と複雑な意味論のため、既存の研究の多くは抽象構文木(AST)とグラフニューラルネットワーク(GNN)に基づいてコード分類のためのコード表現を作成する。 これらの手法は、コードの構造と意味情報を利用するが、それらはペアの関連を考慮に入れ、AST内のノード間で既に存在する高次相関を無視するだけであり、コード構造情報が失われる可能性がある。 一方、一般的なハイパーグラフは高次データ相関を符号化できるが、ASTをモデル化する際には、ノードタイプ、エッジタイプ、子ノードと親ノード間の方向といった意味的および構造的な情報が欠如する。 本研究では,ヘテロジニアス指向ハイパーグラフ (HDHG) としてASTを表現し,コード分類のためのヘテロジニアス指向ハイパーグラフニューラルネットワーク (HDHGN) によるグラフ処理を提案する。 提案手法はコード理解を改良し,ペア間相互作用以外の高次データ相関を表現できる。 我々は,Python と Java プログラムの公開データセットからヘテロジニアス指向のハイパーグラフニューラルネットワーク (HDHGN) を評価する。 提案手法は従来のAST法およびGNN法よりも優れており,本モデルの有効性を示す。

Code classification is a difficult issue in program understanding and automatic coding. Due to the elusive syntax and complicated semantics in programs, most existing studies use techniques based on abstract syntax tree (AST) and graph neural network (GNN) to create code representations for code classification. These techniques utilize the structure and semantic information of the code, but they only take into account pairwise associations and neglect the high-order correlations that already exist between nodes in the AST, which may result in the loss of code structural information. On the other hand, while a general hypergraph can encode high-order data correlations, it is homogeneous and undirected which will result in a lack of semantic and structural information such as node types, edge types, and directions between child nodes and parent nodes when modeling AST. In this study, we propose to represent AST as a heterogeneous directed hypergraph (HDHG) and process the graph by heterogeneous directed hypergraph neural network (HDHGN) for code classification. Our method improves code understanding and can represent high-order data correlations beyond paired interactions. We assess heterogeneous directed hypergraph neural network (HDHGN) on public datasets of Python and Java programs. Our method outperforms previous AST-based and GNN-based methods, which demonstrates the capability of our model.
翻訳日:2023-05-11 16:13:40 公開日:2023-05-10
# 制御可能な画像生成によるロバスト画像規則回帰

Robust Image Ordinal Regression with Controllable Image Generation ( http://arxiv.org/abs/2305.04213v2 )

ライセンス: Link先を確認
Yi Cheng, Haochao Ying, Renjun Hu, Jinhong Wang, Wenhao Zheng, Xiao Zhang, Danny Chen and Jian Wu(参考訳) 画像の順序回帰は、主にカテゴリの順序を生かして研究されている。 しかし、序列回帰において非常に一般的なクラス不均衡とカテゴリー重複の問題はほとんど見過ごされた。 その結果、少数派でのパフォーマンスは不満足な場合が多い。 本稿では,これら2つの問題に直接対処するための,制御可能な画像生成に基づくCIGと呼ばれる新しいフレームワークを提案する。 我々の考えは、カテゴリ境界付近で特定のラベルを持つ追加のトレーニングサンプルを生成することであり、サンプル生成は、表現の少ないカテゴリに偏っている。 制御可能な画像生成を実現するために,画像の構造的類似性,カテゴリ的類似性,再構成制約に基づいて,画像の構造的およびカテゴリー的情報を分離する。 我々は3つの異なる画像順序回帰シナリオにおける新しいCIGアプローチの有効性を評価する。 その結果,CIGを市販画像エンコーダや順序回帰モデルと柔軟に統合して改善を達成できること,そしてマイノリティカテゴリにおいて改善がより重要であることが示された。

Image ordinal regression has been mainly studied along the line of exploiting the order of categories. However, the issues of class imbalance and category overlap that are very common in ordinal regression were largely overlooked. As a result, the performance on minority categories is often unsatisfactory. In this paper, we propose a novel framework called CIG based on controllable image generation to directly tackle these two issues. Our main idea is to generate extra training samples with specific labels near category boundaries, and the sample generation is biased toward the less-represented categories. To achieve controllable image generation, we seek to separate structural and categorical information of images based on structural similarity, categorical similarity, and reconstruction constraints. We evaluate the effectiveness of our new CIG approach in three different image ordinal regression scenarios. The results demonstrate that CIG can be flexibly integrated with off-the-shelf image encoders or ordinal regression models to achieve improvement, and further, the improvement is more significant for minority categories.
翻訳日:2023-05-11 16:13:19 公開日:2023-05-10
# X-LLM:マルチモーダルを外国語として扱うことで高度な大規模言語モデルをブートストラップする

X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages ( http://arxiv.org/abs/2305.04160v2 )

ライセンス: Link先を確認
Feilong Chen, Minglun Han, Haozhi Zhao, Qingyang Zhang, Jing Shi, Shuang Xu, Bo Xu(参考訳) 大規模言語モデル(LLM)は顕著な言語能力を示している。 GPT-4は先進的なLLMに基づいており、従来の視覚言語モデルを超える素晴らしいマルチモーダル機能を示している。 従来のマルチモーダルモデルと比較して,より高度なllmの使用が特徴である。 残念ながら、GPT-4のモデルアーキテクチャとトレーニング戦略は不明である。 マルチモーダル機能を持つLLMを実現するために,X-LLMを提案する。X2Lインタフェースを用いて,マルチモーダル(画像,音声,ビデオ)を外国語に変換し,大きな言語モデル(ChatGLM)に入力する。 具体的には、X-LLMは複数のフリーズシングルモーダルエンコーダと、X2Lインタフェースを用いたフリーズLDMを整列させ、そこで ``X'' は画像、音声、ビデオなどのマルチモーダル、 ``L'' は言語を表す。 X-LLMのトレーニングは以下の3つの段階から構成される: 1) マルチモーダル情報変換 1段目は各X2Lインタフェースを訓練し、それぞれのシングルモーダルエンコーダと個別に調整し、マルチモーダル情報を言語に変換する。 2) X2L の表現を LLM にアライメントする: 単一モードエンコーダは X2L インターフェースを介して独立して LLM にアライメントされる。 (3)マルチモーダル性の統合: すべてのシングルモーダルエンコーダは、マルチモーダル機能をLLMに統合するために、X2Lインタフェースを介してLLMと整列する。 実験の結果,X-LLM は印象的なマルチモデルチャット能力を示し,時には画像や命令に対するマルチモーダル GPT-4 の挙動を示し,合成マルチモーダル 命令追従データセットにおける GPT-4 と比較すると 84.5 % のスコアが得られた。 また,LLMによる音声認識の時代の進展を期待して,ALRとマルチモーダルASRのLLMを用いた定量的検査を行った。

Large language models (LLMs) have demonstrated remarkable language abilities. GPT-4, based on advanced LLMs, exhibits extraordinary multimodal capabilities beyond previous visual language models. We attribute this to the use of more advanced LLMs compared with previous multimodal models. Unfortunately, the model architecture and training strategies of GPT-4 are unknown. To endow LLMs with multimodal capabilities, we propose X-LLM, which converts Multi-modalities (images, speech, videos) into foreign languages using X2L interfaces and inputs them into a large Language model (ChatGLM). Specifically, X-LLM aligns multiple frozen single-modal encoders and a frozen LLM using X2L interfaces, where ``X'' denotes multi-modalities such as image, speech, and videos, and ``L'' denotes languages. X-LLM's training consists of three stages: (1) Converting Multimodal Information: The first stage trains each X2L interface to align with its respective single-modal encoder separately to convert multimodal information into languages. (2) Aligning X2L representations with the LLM: single-modal encoders are aligned with the LLM through X2L interfaces independently. (3) Integrating multiple modalities: all single-modal encoders are aligned with the LLM through X2L interfaces to integrate multimodal capabilities into the LLM. Our experiments show that X-LLM demonstrates impressive multimodel chat abilities, sometimes exhibiting the behaviors of multimodal GPT-4 on unseen images/instructions, and yields a 84.5\% relative score compared with GPT-4 on a synthetic multimodal instruction-following dataset. And we also conduct quantitative tests on using LLM for ASR and multimodal ASR, hoping to promote the era of LLM-based speech recognition.
翻訳日:2023-05-11 16:13:03 公開日:2023-05-10
# 分類器を用いたコーパスのキュレート:オンラインクリーンエネルギー感情の事例研究

Curating corpora with classifiers: A case study of clean energy sentiment online ( http://arxiv.org/abs/2305.03092v2 )

ライセンス: Link先を確認
Michael V. Arnold, Peter Sheridan Dodds, Christopher M. Danforth(参考訳) 広く世論を広めた大規模なソーシャルメディア投稿のコーパスは、従来の調査を補完する代替データソースを提供する。 調査は代表サンプルの収集に有効であり、高い精度を達成することができるが、数日ないし数週間で、実行や世論の遅れは高くつく。 これらの欠点は、リアルタイムで高ボリュームなデータストリームと高速な分析パイプラインで克服することができる。 このようなデータパイプラインを編成する上での課題は、分析のために関連ドキュメントの最高のコーパスを迅速に選択する効果的な方法を考案することである。 キーワードのみを問合せすると、バグ・オブ・ワードの自然言語処理手法と容易に区別できない無関係な文書がしばしば含まれる。 本稿では,手書きツイートの2進分類タスクを微調整したトランスフォーマーモデルを用いて,無関係なツイートをフィルタリングするコーパスキュレーション手法を検討する。 F1スコアは最大0.95まで達成できます。 このようなモデルの低コストで高性能な微調整は,コーパス境界が不明なソーシャルメディアデータセットの前処理ステップとして,幅広いメリットがある可能性が示唆されている。

Well curated, large-scale corpora of social media posts containing broad public opinion offer an alternative data source to complement traditional surveys. While surveys are effective at collecting representative samples and are capable of achieving high accuracy, they can be both expensive to run and lag public opinion by days or weeks. Both of these drawbacks could be overcome with a real-time, high volume data stream and fast analysis pipeline. A central challenge in orchestrating such a data pipeline is devising an effective method for rapidly selecting the best corpus of relevant documents for analysis. Querying with keywords alone often includes irrelevant documents that are not easily disambiguated with bag-of-words natural language processing methods. Here, we explore methods of corpus curation to filter irrelevant tweets using pre-trained transformer-based models, fine-tuned for our binary classification task on hand-labeled tweets. We are able to achieve F1 scores of up to 0.95. The low cost and high performance of fine-tuning such a model suggests that our approach could be of broad benefit as a pre-processing step for social media datasets with uncertain corpus boundaries.
翻訳日:2023-05-11 16:12:05 公開日:2023-05-10
# TUVF: 汎用テクスチャUV放射場を学習する

TUVF: Learning Generalizable Texture UV Radiance Fields ( http://arxiv.org/abs/2305.03040v2 )

ライセンス: Link先を確認
An-Chieh Cheng, Xueting Li, Sifei Liu, Xiaolong Wang(参考訳) テクスチャは視覚的に魅力的でリアルな3Dモデルを作る上で重要な要素だ。 本稿では, 汎用的な3次元形状モデリングと比較して, 比較的研究が進んでいない3次元アセットの高忠実度テクスチャ生成問題について検討する。 我々のゴールは、制御可能なテクスチャ生成プロセスの促進であり、一つのテクスチャコードがカテゴリの入力形状に依存しない特定の外観スタイルに対応できるようにすることである。 3d形状ではなく,学習可能なuv球面空間でテクスチャを生成するテクスチャuv放射場(tuvf)を導入する。 これにより、テクスチャは下層の形状から切り離され、同じUV空間、すなわち同じカテゴリから同じUV空間を共有する他の形状に転送できる。 我々は、紫外線球面空間を放射場と統合し、従来のテクスチャマップよりも効率的で正確なテクスチャ表現を提供する。 実世界のオブジェクトデータセットで実験を行い、現実的な合成だけでなく、テクスチャ制御と編集に関する最先端技術よりも大幅に改善した。 プロジェクトページ: https://www.anjiecheng.me/TUVF

Textures are a vital aspect of creating visually appealing and realistic 3D models. In this paper, we study the problem of generating high-fidelity texture given shapes of 3D assets, which has been relatively less explored compared with generic 3D shape modeling. Our goal is to facilitate a controllable texture generation process, such that one texture code can correspond to a particular appearance style independent of any input shapes from a category. We introduce Texture UV Radiance Fields (TUVF) that generate textures in a learnable UV sphere space rather than directly on the 3D shape. This allows the texture to be disentangled from the underlying shape and transferable to other shapes that share the same UV space, i.e., from the same category. We integrate the UV sphere space with the radiance field, which provides a more efficient and accurate representation of textures than traditional texture maps. We perform our experiments on real-world object datasets where we achieve not only realistic synthesis but also substantial improvements over state-of-the-arts on texture controlling and editing. Project Page: https://www.anjiecheng.me/TUVF
翻訳日:2023-05-11 16:11:46 公開日:2023-05-10
# 知識誘導型プロンプティングに基づく因果認識概念抽出

Causality-aware Concept Extraction based on Knowledge-guided Prompting ( http://arxiv.org/abs/2305.01876v4 )

ライセンス: Link先を確認
Siyu Yuan, Deqing Yang, Jinxi Liu, Shuyu Tian, Jiaqing Liang, Yanghua Xiao, Rui Xie(参考訳) 概念は自然言語理解に役立つが、既存の知識グラフ(kgs)では完璧ではない。 近年,テキストベース概念抽出(CE)において,事前学習言語モデル (PLM) が広く用いられている。 しかし、plmはトークン間の本当の因果効果ではなく、事前学習された知識として大量のコーパスから共起関係を掘り出す傾向がある。 その結果、事前学習された知識はPLMを組み合わさり、素早い共起相関に基づく偏りのある概念を抽出し、必然的に低い精度をもたらす。 本稿では, 構造因果モデル (SCM) のレンズを用いて, 概念バイアスを軽減するため, 知識誘導型プロンプトを用いたPLM抽出器を提案する。 このプロンプトは、与えられた実体のトピックを既存のKGの知識から採用し、実体と偏見のある概念の間の急激な共起相関を緩和する。 代表的多言語KGデータセットに関する広範な実験により,提案するプロンプトが概念バイアスを効果的に緩和し,PLMベースのCEモデルの性能を向上させることが確認された。

Concepts benefit natural language understanding but are far from complete in existing knowledge graphs (KGs). Recently, pre-trained language models (PLMs) have been widely used in text-based concept extraction (CE). However, PLMs tend to mine the co-occurrence associations from massive corpus as pre-trained knowledge rather than the real causal effect between tokens. As a result, the pre-trained knowledge confounds PLMs to extract biased concepts based on spurious co-occurrence correlations, inevitably resulting in low precision. In this paper, through the lens of a Structural Causal Model (SCM), we propose equipping the PLM-based extractor with a knowledge-guided prompt as an intervention to alleviate concept bias. The prompt adopts the topic of the given entity from the existing knowledge in KGs to mitigate the spurious co-occurrence correlations between entities and biased concepts. Our extensive experiments on representative multilingual KG datasets justify that our proposed prompt can effectively alleviate concept bias and improve the performance of PLM-based CE models.The code has been released on https://github.com/siyuyuan/KPCE.
翻訳日:2023-05-11 16:11:28 公開日:2023-05-10
# flowchartをダイアログに変換する:低リソースのflowchart-grounded troubleshootingダイアログのための計画ベースのデータ拡張

Turning Flowchart into Dialog: Plan-based Data Augmentation for Low-Resource Flowchart-grounded Troubleshooting Dialogs ( http://arxiv.org/abs/2305.01323v2 )

ライセンス: Link先を確認
Haolan Zhan and Sameen Maruf and Lizhen Qu and Yufei Wang and Ingrid Zukerman and Gholamreza Haffari(参考訳) 近年,特定の領域(車,ノートパソコンなど)におけるユーザの問題を診断するためのフローチャートの指示に従うフローチャート型トラブルシューティング対話(FTD)システムの研究が注目されている。 しかし,フローチャートに自然に根ざした十分な対話の収集にはコストがかかるため,FTDシステムは訓練データ不足に悩まされる。 そこで本研究では,簡潔なフローチャートを対話に変換し,多種多様な合成ダイアログデータを生成するプランベースデータ拡張(planda)手法を提案する。 具体的には、その生成モデルは、グローバルおよびローカルの潜在計画変数を含む階層的計画戦略を持つ変分ベースフレームワークを採用している。 フロディアルデータセットを用いた実験では,plandaが生成する合成対話により,フローチャートパス検索や応答生成などの下流タスク,特にフローチャート外設定のパフォーマンスが向上することが示された。 さらに、さらなる分析により、現在のサンプル対話やカバーされていないパスでカバーされるパスにおいて、plandaが生成する合成データの品質が示される。

Flowchart-grounded troubleshooting dialogue (FTD) systems, which follow the instructions of a flowchart to diagnose users' problems in specific domains (eg., vehicle, laptop), have been gaining research interest in recent years. However, collecting sufficient dialogues that are naturally grounded on flowcharts is costly, thus FTD systems are impeded by scarce training data. To mitigate the data sparsity issue, we propose a plan-based data augmentation (PlanDA) approach that generates diverse synthetic dialog data at scale by transforming concise flowchart into dialogues. Specifically, its generative model employs a variational-base framework with a hierarchical planning strategy that includes global and local latent planning variables. Experiments on the FloDial dataset show that synthetic dialogue produced by PlanDA improves the performance of downstream tasks, including flowchart path retrieval and response generation, in particular on the Out-of-Flowchart settings. In addition, further analysis demonstrate the quality of synthetic data generated by PlanDA in paths that are covered by current sample dialogues and paths that are not covered.
翻訳日:2023-05-11 16:11:09 公開日:2023-05-10
# オンライン適応軽量時系列異常検出におけるディープラーニングライブラリの影響

Impact of Deep Learning Libraries on Online Adaptive Lightweight Time Series Anomaly Detection ( http://arxiv.org/abs/2305.00595v2 )

ライセンス: Link先を確認
Ming-Chang Lee and Jia-Chun Lin(参考訳) 人間の介入やドメイン知識なしに、オンライン適応型軽量時系列異常検出を提供することは、非常に貴重である。 近年,このような異常検出手法がいくつか導入されているが,これらはすべて1つのディープラーニングライブラリに実装されている。 ディープラーニングライブラリの開発により、このような評価が得られないので、ディープラーニングライブラリがこれらの異常検出アプローチに与える影響は明らかでない。 異常検出アプローチを実装するためにディープラーニングライブラリをランダムに選択することは、そのアプローチの真のパフォーマンスを示すことができないかもしれない。 また、あるアプローチが他のアプローチより優れていると信じているユーザーを誤解させる可能性がある。 そこで本稿では, ディープラーニングライブラリがオンライン適応型軽量時系列異常検出に与える影響を, 3つのよく知られたディープラーニングライブラリに2つの最先端異常検出アプローチを実装し, これら2つのアプローチが3つのディープラーニングライブラリによって個別に影響を受けるかを評価する。 4つの実世界のオープンソース時系列データセットに基づく一連の実験を行った。 その結果,オンライン適応型軽量異常検出のための適切な深層学習ライブラリを選択するための参考となる。

Providing online adaptive lightweight time series anomaly detection without human intervention and domain knowledge is highly valuable. Several such anomaly detection approaches have been introduced in the past years, but all of them were only implemented in one deep learning library. With the development of deep learning libraries, it is unclear how different deep learning libraries impact these anomaly detection approaches since there is no such evaluation available. Randomly choosing a deep learning library to implement an anomaly detection approach might not be able to show the true performance of the approach. It might also mislead users in believing one approach is better than another. Therefore, in this paper, we investigate the impact of deep learning libraries on online adaptive lightweight time series anomaly detection by implementing two state-of-the-art anomaly detection approaches in three well-known deep learning libraries and evaluating how these two approaches are individually affected by the three deep learning libraries. A series of experiments based on four real-world open-source time series datasets were conducted. The results provide a good reference to select an appropriate deep learning library for online adaptive lightweight anomaly detection.
翻訳日:2023-05-11 16:10:45 公開日:2023-05-10
# 時空間モビリティ応用のためのフェデレーション学習モデルの検討

Survey of Federated Learning Models for Spatial-Temporal Mobility Applications ( http://arxiv.org/abs/2305.05257v2 )

ライセンス: Link先を確認
Yacine Belal and Sonia Ben Mokhtar, Hamed Haddadi, Jaron Wang and Afra Mashhadi(参考訳) 連合学習は、トレーニングデータをローカルに保持するように、携帯電話などのエッジデバイス上で統計モデルをトレーニングする。 フェデレートラーニング(FL)は、高度に敏感な位置情報のプライバシーを維持しながら、不均一で潜在的に膨大な数の参加者に依存する空間的時間モデルを訓練するための理想的な候補として機能する。 しかし、既存の時空間モデルから分散学習への移行にはユニークな課題がある。 本稿では,人体移動,交通予測,コミュニティ検出,位置ベースレコメンデーションシステム,その他の時空間的タスクを予測するためのFLモデルを提案する既存文献について概説する。 これらの研究が使用しているメトリクスとデータセットを説明し、集中的な設定と比較して、これらのアプローチのベースラインを作成します。 最後に,分散環境で空間-時間モデルを適用することの課題について論じ,文献のギャップを強調することで,研究コミュニティにロードマップと機会を提供する。

Federated learning involves training statistical models over edge devices such as mobile phones such that the training data is kept local. Federated Learning (FL) can serve as an ideal candidate for training spatial temporal models that rely on heterogeneous and potentially massive numbers of participants while preserving the privacy of highly sensitive location data. However, there are unique challenges involved with transitioning existing spatial temporal models to decentralized learning. In this survey paper, we review the existing literature that has proposed FL-based models for predicting human mobility, traffic prediction, community detection, location-based recommendation systems, and other spatial-temporal tasks. We describe the metrics and datasets these works have been using and create a baseline of these approaches in comparison to the centralized settings. Finally, we discuss the challenges of applying spatial-temporal models in a decentralized setting and by highlighting the gaps in the literature we provide a road map and opportunities for the research community.
翻訳日:2023-05-11 16:03:31 公開日:2023-05-10
# 制約言語計画のための大規模言語モデルからのスクリプト知識の蒸留

Distilling Script Knowledge from Large Language Models for Constrained Language Planning ( http://arxiv.org/abs/2305.05252v2 )

ライセンス: Link先を確認
Siyu Yuan, Jiangjie Chen, Ziquan Fu, Xuyang Ge, Soham Shah, Charles Robert Jankowski, Deqing Yang, Yanghua Xiao(参考訳) 日常生活において、人間はしばしば目標指向のスクリプトの形でステップバイステップの指示に従うことで行動計画を行う。 以前の研究では、言語モデル(lms)を利用して立体的活動の抽象的な目標(例:「ケーキを作る」)を計画しているが、マルチフェイスの制約の下でより具体的な目標(例:「糖尿病のためのケーキを作る」)を残している。 本稿では,制約付き言語計画のタスクを初めて定義する。 我々は,このタスクで大規模言語モデル(llms)を改善し,55,000のスクリプトからなる新しい制約付き言語計画データセットであるcoscriptを蒸留するために,過剰に生成する手法を提案する。 実験結果から,LLMの制約言語計画能力,特に制約忠実性において,本手法が著しく向上することが示された。 さらに、CoScriptは制約のある言語計画能力を持つ小さなLMを実現するのに非常に効果的であることが示されている。

In everyday life, humans often plan their actions by following step-by-step instructions in the form of goal-oriented scripts. Previous work has exploited language models (LMs) to plan for abstract goals of stereotypical activities (e.g., "make a cake"), but leaves more specific goals with multi-facet constraints understudied (e.g., "make a cake for diabetics"). In this paper, we define the task of constrained language planning for the first time. We propose an overgenerate-then-filter approach to improve large language models (LLMs) on this task, and use it to distill a novel constrained language planning dataset, CoScript, which consists of 55,000 scripts. Empirical results demonstrate that our method significantly improves the constrained language planning ability of LLMs, especially on constraint faithfulness. Furthermore, CoScript is demonstrated to be quite effective in endowing smaller LMs with constrained language planning ability.
翻訳日:2023-05-11 16:03:15 公開日:2023-05-10
# テキスト画像翻訳のためのマルチ教師知識蒸留

Multi-Teacher Knowledge Distillation For Text Image Machine Translation ( http://arxiv.org/abs/2305.05226v2 )

ライセンス: Link先を確認
Cong Ma, Yaping Zhang, Mei Tu, Yang Zhao, Yu Zhou, Chengqing Zong(参考訳) テキスト画像機械翻訳(TIMT)は様々な実世界のアプリケーションで広く使われており、画像中のソースコードを別のターゲット言語文に変換する。 既存のTIMTの手法は主に認識翻訳パイプラインモデルとエンドツーエンドモデルという2つのカテゴリに分けられる。 しかし、パイプラインモデルからエンドツーエンドモデルへの知識の転送方法は未解決の問題である。 本稿では,パイプラインモデルからエンド・ツー・エンドのTIMTモデルに知識を効果的に蒸留するための,MTKD(Multi-Teacher Knowledge Distillation)手法を提案する。 具体的には,3人の教師が,エンドツーエンドのTIMTモデルの性能向上に活用されている。 エンドツーエンドのTIMTモデルにおける画像エンコーダは、認識教師エンコーダからの知識蒸留誘導に最適化され、シーケンシャルエンコーダとデコーダは、翻訳シーケンシャルおよびデコーダ教師モデルからの知識を伝達することにより改善される。 さらに、翻訳性能を向上させるために、トークンと文レベルの知識蒸留が組み込まれている。 提案したMTKDは,テキスト画像変換性能を向上し,パラメータが少なく,復号時間が少なく,既存のエンドツーエンドモデルやパイプラインモデルよりも優れた性能を発揮することを示す。

Text image machine translation (TIMT) has been widely used in various real-world applications, which translates source language texts in images into another target language sentence. Existing methods on TIMT are mainly divided into two categories: the recognition-then-translation pipeline model and the end-to-end model. However, how to transfer knowledge from the pipeline model into the end-to-end model remains an unsolved problem. In this paper, we propose a novel Multi-Teacher Knowledge Distillation (MTKD) method to effectively distillate knowledge into the end-to-end TIMT model from the pipeline model. Specifically, three teachers are utilized to improve the performance of the end-to-end TIMT model. The image encoder in the end-to-end TIMT model is optimized with the knowledge distillation guidance from the recognition teacher encoder, while the sequential encoder and decoder are improved by transferring knowledge from the translation sequential and decoder teacher models. Furthermore, both token and sentence-level knowledge distillations are incorporated to better boost the translation performance. Extensive experimental results show that our proposed MTKD effectively improves the text image translation performance and outperforms existing end-to-end and pipeline models with fewer parameters and less decoding time, illustrating that MTKD can take advantage of both pipeline and end-to-end models.
翻訳日:2023-05-11 16:02:56 公開日:2023-05-10
# E2TIMT:テキスト画像翻訳のための効率よく効果的なモーダルアダプタ

E2TIMT: Efficient and Effective Modal Adapter for Text Image Machine Translation ( http://arxiv.org/abs/2305.05166v2 )

ライセンス: Link先を確認
Cong Ma, Yaping Zhang, Mei Tu, Yang Zhao, Yu Zhou, Chengqing Zong(参考訳) テキスト画像機械翻訳(TIMT)は、画像に埋め込まれたテキストをあるソース言語から別のターゲット言語に翻訳することを目的としている。 2段階カスケードと1段階のエンドツーエンドアーキテクチャの両方の既存のメソッドは、異なる問題を抱えている。 カスケードモデルは、大規模光学文字認識(ocr)とmtデータセットの恩恵を受けるが、2段階アーキテクチャは冗長である。 エンドツーエンドモデルは効率的だが、トレーニングデータ不足に苦しむ。 そこで本稿では,既存のocrおよびmtデータセットの知識を十分に活用し,効率的かつ効率的なフレームワークを追求する,エンドツーエンドのtimtモデルを提案する。 具体的には、OCRエンコーダとMTデコーダを効果的にブリッジする新しいモーダルアダプタを構築する。 OCRタスクとMTタスクの特徴分布を整合させるために、エンドツーエンドのTIMT損失とクロスモーダルのコントラスト損失を併用する。 広範な実験により,提案手法が従来の2段カスケードモデルや1段のエンドツーエンドモデルよりも軽量で高速なアーキテクチャで優れていることが示された。 さらに,提案手法はocrモデルとmtモデルの橋渡しに有効であるため,アブレーション研究により一般化が検証された。

Text image machine translation (TIMT) aims to translate texts embedded in images from one source language to another target language. Existing methods, both two-stage cascade and one-stage end-to-end architectures, suffer from different issues. The cascade models can benefit from the large-scale optical character recognition (OCR) and MT datasets but the two-stage architecture is redundant. The end-to-end models are efficient but suffer from training data deficiency. To this end, in our paper, we propose an end-to-end TIMT model fully making use of the knowledge from existing OCR and MT datasets to pursue both an effective and efficient framework. More specifically, we build a novel modal adapter effectively bridging the OCR encoder and MT decoder. End-to-end TIMT loss and cross-modal contrastive loss are utilized jointly to align the feature distribution of the OCR and MT tasks. Extensive experiments show that the proposed method outperforms the existing two-stage cascade models and one-stage end-to-end models with a lighter and faster architecture. Furthermore, the ablation studies verify the generalization of our method, where the proposed modal adapter is effective to bridge various OCR and MT models.
翻訳日:2023-05-11 16:02:32 公開日:2023-05-10
# 言語的 more: 効率的かつ正確なシーンテキスト認識へのさらなる一歩を踏み出す

Linguistic More: Taking a Further Step toward Efficient and Accurate Scene Text Recognition ( http://arxiv.org/abs/2305.05140v2 )

ライセンス: Link先を確認
Boqiang Zhang, Hongtao Xie, Yuxin Wang, Jianjun Xu, Yongdong Zhang(参考訳) Scene Text Recognition(STR)タスクの単純さと効率性から,視覚モデルへの注目が高まっている。 しかし、言語知識や情報に対する認識が欠如しているため、近年の視覚モデルは2つの問題に悩まされている。(1)純粋な視覚に基づく問合せは注意のドリフトをもたらすが、これは一般的に認識不良を引き起こし、言語的不感なドリフト(LID)問題として要約される。 2)視覚障害のある場合(例えば、咬合など)では、視覚特徴が認識に準最適である。 これらの問題に対処するために、正確なテキスト認識のための視覚モデルの言語的能力を探求する$\textbf{L}$inguistic $\textbf{P}$erception $\textbf{V}$ision model (LPV)を提案する。 LID問題を緩和するために,ステップワイズ最適化と言語情報マイニングにより高品質で正確な注意マップを得るカスケード位置注意(CPA)機構を導入する。 さらに,グローバル言語再構築モジュール (GLRM) は視覚空間の言語情報を知覚することで視覚的特徴の表現を改善するために提案されている。 従来の方法と異なり,低複雑性(92.4%の精度で8.11mのパラメータしか持たない)を維持しつつsota結果を得る。 コードはhttps://github.com/CyrilSterling/LPVで入手できる。

Vision model have gained increasing attention due to their simplicity and efficiency in Scene Text Recognition (STR) task. However, due to lacking the perception of linguistic knowledge and information, recent vision models suffer from two problems: (1) the pure vision-based query results in attention drift, which usually causes poor recognition and is summarized as linguistic insensitive drift (LID) problem in this paper. (2) the visual feature is suboptimal for the recognition in some vision-missing cases (e.g. occlusion, etc.). To address these issues, we propose a $\textbf{L}$inguistic $\textbf{P}$erception $\textbf{V}$ision model (LPV), which explores the linguistic capability of vision model for accurate text recognition. To alleviate the LID problem, we introduce a Cascade Position Attention (CPA) mechanism that obtains high-quality and accurate attention maps through step-wise optimization and linguistic information mining. Furthermore, a Global Linguistic Reconstruction Module (GLRM) is proposed to improve the representation of visual features by perceiving the linguistic information in the visual space, which gradually converts visual features into semantically rich ones during the cascade process. Different from previous methods, our method obtains SOTA results while keeping low complexity (92.4% accuracy with only 8.11M parameters). Code is available at https://github.com/CyrilSterling/LPV.
翻訳日:2023-05-11 16:02:11 公開日:2023-05-10
# 教師なし深部FCDDを用いた農村鉄道診断のための木製スリーパーの劣化検出

Wooden Sleeper Decayed Detection for Rural Railway Prognostics Using Unsupervised Deeper FCDDs ( http://arxiv.org/abs/2305.05103v2 )

ライセンス: Link先を確認
Takato Yasuno, Masahiro Okano, and Junichiro Fujii(参考訳) 日々の運行中に利用者の安全を確保するためには、鉄道管理者が高い基準を維持することが重要である。 トップビューまたはサイドビューカメラとGPS測位システムにより、欠陥点検の定期的な自動化と、鉄道部品の劣化状況の評価が可能となった。 時間的発生が極端に不均衡であるため、しばしば、劣化した状態データ制約を収集し、繰り返しデータ取得を行う。 監視された学習アプローチには、欠陥のある生画像と注釈付きラベルの数千のデータセットが必要である。 しかし、一方のクラス分類アプローチは、正規および異常な特徴をトレーニングするためのパラメータを最適化できるイメージが少ないというメリットがある。 同時に、視覚的な熱マップの説明により、局所的な損傷の特徴を識別することができる。 本稿では,欠陥鉄道部品に対する一級損傷分類を自動化するための識別器パイプラインを提案する。 また,前訓練ネットワーク(ベースラインCNN27,VGG16,ResNet101,Inception Networks)を用いた畳み込みニューラルネットワーク(CNN)に基づくバックボーンと受容野に対する感度解析を行った。 また, トランスポーズしたガウスアンアップサンプリングを用いて, 欠陥鉄道の特徴を説明する。 鉄道部品のオープンアクセスデータセットにおける鉄道検査の応用と、地方鉄道における木製スリーパー劣化について示す。 ヒートマップは非常に重要で、ハザードマークは運行遅延、緊急検査、そして旅客の鉄道検査における予期せぬ事故を引き起こす可能性がある。 さらに, 鉄道システムの予測保守における, 予測監視と鉄道部品検査の今後の課題について述べる。

It is critical for railway managers to maintain a high standard to ensure user safety during daily operations. Top-view or side-view cameras and GPS positioning system have enabled progress toward automating the periodic inspection of defective features and assessing the deteriorated status of the railway components. Frequently, collecting deteriorated status data constraints time consuming and repeated data acquisition, because the temporal occurrence is extremely imbalanced. Supervised learning approach requires thousands of paired dataset of defective raw images and annotated labels. However, one-class classification approach has a merit that fewer images enables us to optimize the parameters for training normal and anomalous feature. Simultaneously, the visual heat map explanation enables us to discriminate the localized damage feature. In this paper, we propose a prognostic discriminator pipeline to automate one-class damage classification towards defective railway components. We also sensitivity analyze toward the backbone and the receptive field based on convolutional neural networks (CNNs) using pretrained networks: baseline CNN27, VGG16, ResNet101, and Inception Networks. We also visualize the explanation of the defective railway feature using a transposed Gaussian upsampling. We demonstrate our application for railway inspection in an open-accessed dataset of defective railway components, and wooden sleeper deterioration in rural railway. The heatmap is so important that the hazard-marks could cause an operational delay, an urgent inspection, and unexpected accident to passenger impact in railway inspection. Furthermore, we mention its usability for prognostic monitoring and future works for railway components inspection in the predictive maintenance of railway systems.
翻訳日:2023-05-11 16:01:42 公開日:2023-05-10
# 大規模言語モデルの知識蒸留によるWebコンテンツフィルタリング

Web Content Filtering through knowledge distillation of Large Language Models ( http://arxiv.org/abs/2305.05027v2 )

ライセンス: Link先を確認
Tam\'as V\"or\"os, Sean Paul Bergeron, Konstantin Berlin(参考訳) 本稿では,Large Language Models(LLMs)の能力を活用して,Webコンテンツフィルタリングの主な目的である,リスクの高いWebサイトへのアクセスの制限,安全で専門的な作業環境の育成といった,URL分類の最先端のアプローチを紹介する。 提案手法では, LLMを用いて正確な分類を行い, 既存の知識蒸留技術を用いて, Webコンテンツフィルタリングに適したより小型で専門的な学生モデルを作成する。 蒸留の結果、大手セキュリティベンダーが収集した顧客のテレメトリデータから抽出したウェブサイトの分類精度が9%向上した学生モデルが、urlに基づいて30の異なるコンテンツカテゴリに分類され、現在の最先端のアプローチを上回った。 我々の学生モデルは、教師のLLMのパフォーマンスを175倍のパラメータで一致させ、大量のURLをインラインでスキャンするためにモデルを使用できるようにし、現在の最先端のアプローチよりも手動でラベル付けされたトレーニングデータを3桁も少なくする。 特定のユースケースによっては、我々のアプローチによって生成された出力を直接返却するか、WebサイトイメージやHTMLを含むよりリソース集約的な操作のためのプリフィルタとして使用できる。

We introduce a state-of-the-art approach for URL categorization that leverages the power of Large Language Models (LLMs) to address the primary objectives of web content filtering: safeguarding organizations from legal and ethical risks, limiting access to high-risk or suspicious websites, and fostering a secure and professional work environment. Our method utilizes LLMs to generate accurate classifications and then employs established knowledge distillation techniques to create smaller, more specialized student models tailored for web content filtering. Distillation results in a student model with a 9% accuracy rate improvement in classifying websites, sourced from customer telemetry data collected by a large security vendor, into 30 distinct content categories based on their URLs, surpassing the current state-of-the-art approach. Our student model matches the performance of the teacher LLM with 175 times less parameters, allowing the model to be used for in-line scanning of large volumes of URLs, and requires 3 orders of magnitude less manually labeled training data than the current state-of-the-art approach. Depending on the specific use case, the output generated by our approach can either be directly returned or employed as a pre-filter for more resource-intensive operations involving website images or HTML.
翻訳日:2023-05-11 16:01:15 公開日:2023-05-10
# CAT:Commonsense Reasoningのためのコンテキスト化概念化と検証フレームワーク

CAT: A Contextualized Conceptualization and Instantiation Framework for Commonsense Reasoning ( http://arxiv.org/abs/2305.04808v2 )

ライセンス: Link先を確認
Weiqi Wang, Tianqing Fang, Baixuan Xu, Chun Yi Louis Bo, Yangqiu Song, Lei Chen(参考訳) 人間のような状況予測能力を持つ機械をエンドウイングすることを目的としたコモンセンス推論は、一般化するのが極めて困難である。 歌」についてほとんど知識がないものの、「歌」についてほとんど知識がない人に対しては、「歌」を「楽しませる」という既存の知識から「楽しませる」と推測し、その出来事を「楽しませる出来事」として概念化して「楽しませる」ことができる。 このプロセスは概念的帰納的帰納的推論(conceptual induction and deduction)と呼ばれ、コモンセンスモデリングを強化するためのラベル付きデータと方法論の両方を欠いている。 このような研究のギャップを埋めるために,cat(contextualized conceptization and instantiation)という,イベント概念化とインスタンス化を統合した半教師付き学習フレームワークを提案する。 広範な実験により,2つの概念化タスクにおいて最先端のパフォーマンスを達成し,得られた抽象コモンセンス知識により,コモンセンス推論モデルを大幅に改善できることを示した。 私たちのコード、データ、微調整されたモデルはhttps://github.com/HKUST-KnowComp/CAT.comで公開されています。

Commonsense reasoning, aiming at endowing machines with a human-like ability to make situational presumptions, is extremely challenging to generalize. For someone who barely knows about "meditation," while is knowledgeable about "singing," he can still infer that "meditation makes people relaxed" from the existing knowledge that "singing makes people relaxed" by first conceptualizing "singing" as a "relaxing event" and then instantiating that event to "meditation." This process, known as conceptual induction and deduction, is fundamental to commonsense reasoning while lacking both labeled data and methodologies to enhance commonsense modeling. To fill such a research gap, we propose CAT (Contextualized ConceptuAlization and InsTantiation), a semi-supervised learning framework that integrates event conceptualization and instantiation to conceptualize commonsense knowledge bases at scale. Extensive experiments show that our framework achieves state-of-the-art performances on two conceptualization tasks, and the acquired abstract commonsense knowledge can significantly improve commonsense inference modeling. Our code, data, and fine-tuned models are publicly available at https://github.com/HKUST-KnowComp/CAT.
翻訳日:2023-05-11 16:00:34 公開日:2023-05-10
# FedZKP: ゼロ知識証明によるフェデレーションモデルオーナシップ検証

FedZKP: Federated Model Ownership Verification with Zero-knowledge Proof ( http://arxiv.org/abs/2305.04507v2 )

ライセンス: Link先を確認
Wenyuan Yang, Yuguo Yin, Gongxi Zhu, Hanlin Gu, Lixin Fan, Xiaochun Cao, Qiang Yang(参考訳) フェデレートラーニング(Federated Learning, FL)は、複数のパーティが互いにプライベートデータを共有することなく、協調的にフェデレーションモデルの学習を可能にする。 このようなフェデレーションモデルの盗用や誤用から保護することの必要性から,FedZKP というゼロ知識証明を用いた証明可能なモデル所有検証手法を提案する動機がある。 認証情報を開示しないFedZKPスキームは、様々な既存および潜在的攻撃を打ち負かすことが保証されている。 理論的分析と実証的研究は、攻撃者が提案されたFedZKPに侵入する確率が無視可能であるという意味で、FedZKPの安全性を実証している。 さらに,本手法の信頼性とロバスト性についても広範な実験結果が得られた。

Federated learning (FL) allows multiple parties to cooperatively learn a federated model without sharing private data with each other. The need of protecting such federated models from being plagiarized or misused, therefore, motivates us to propose a provable secure model ownership verification scheme using zero-knowledge proof, named FedZKP. It is shown that the FedZKP scheme without disclosing credentials is guaranteed to defeat a variety of existing and potential attacks. Both theoretical analysis and empirical studies demonstrate the security of FedZKP in the sense that the probability for attackers to breach the proposed FedZKP is negligible. Moreover, extensive experimental results confirm the fidelity and robustness of our scheme.
翻訳日:2023-05-11 16:00:09 公開日:2023-05-10
# InternChat: 言語以外のチャットボットとのインタラクションによる視覚中心タスクの解決

InternChat: Solving Vision-Centric Tasks by Interacting with Chatbots Beyond Language ( http://arxiv.org/abs/2305.05662v2 )

ライセンス: Link先を確認
Zhaoyang Liu, Yinan He, Wenhai Wang, Weiyun Wang, Yi Wang, Shoufa Chen, Qinglong Zhang, Yang Yang, Qingyun Li, Jiashuo Yu, Kunchang Li, Zhe Chen, Xue Yang, Xizhou Zhu, Yali Wang, Limin Wang, Ping Luo, Jifeng Dai, Yu Qiao(参考訳) InternChat または iChat という,インタラクティブなビジュアルフレームワークを提案する。 このフレームワークは、chatgptのような計画や推論機能を備えたチャットボットと、画面上の画像やビデオを直接操作できるポインティングのような非言語命令を統合する。 ポインティング(ジェスチャー、カーソルなどを含む)の動きは、細かい制御、編集、視覚コンテンツの生成を必要とする視覚中心のタスクの実行において、より柔軟性と精度を提供する。 InternChatという名前は、対話、非言語、チャットボットを意味する。 純粋言語に依存している既存の対話システムとは違って,提案したiChatでは,ユーザとチャットボット間の通信効率が向上し,特にオブジェクト数が2より多い複雑な視覚シナリオにおいて,チャットボットの精度が向上する。 さらに、iChatでは、LLMの制御能力を向上するために補助制御機構が使用され、Huskyと呼ばれる大きな視覚言語モデルが高品質な多モード対話のために微調整されている(ChatGPT-3.5-turboを93.89%のGPT-4品質で圧縮する)。 この研究が将来のインタラクティブなビジュアルシステムに新たなアイデアと方向性をもたらすことを願っている。 コードをhttps://github.com/opengvlab/internchatでご覧ください。

We present an interactive visual framework named InternChat, or iChat for short. The framework integrates chatbots that have planning and reasoning capabilities, such as ChatGPT, with non-verbal instructions like pointing movements that enable users to directly manipulate images or videos on the screen. Pointing (including gestures, cursors, etc.) movements can provide more flexibility and precision in performing vision-centric tasks that require fine-grained control, editing, and generation of visual content. The name InternChat stands for interaction, nonverbal, and chatbots. Different from existing interactive systems that rely on pure language, by incorporating pointing instructions, the proposed iChat significantly improves the efficiency of communication between users and chatbots, as well as the accuracy of chatbots in vision-centric tasks, especially in complicated visual scenarios where the number of objects is greater than 2. Additionally, in iChat, an auxiliary control mechanism is used to improve the control capability of LLM, and a large vision-language model termed Husky is fine-tuned for high-quality multi-modal dialogue (impressing ChatGPT-3.5-turbo with 93.89% GPT-4 Quality). We hope this work can spark new ideas and directions for future interactive visual systems. Welcome to watch the code at https://github.com/OpenGVLab/InternChat.
翻訳日:2023-05-11 15:54:17 公開日:2023-05-10
# 個人やエンティティ中心の知識グラフのための表現学習:医療への応用

Representation Learning for Person or Entity-centric Knowledge Graphs: An Application in Healthcare ( http://arxiv.org/abs/2305.05640v2 )

ライセンス: Link先を確認
Christos Theodoropoulos, Natasha Mulligan, Thaddeus Stappenbeck, Joao Bettencourt-Silva(参考訳) 知識グラフ(KG)はオントロジーやスキーマに基づいて情報を整理する一般的な方法であり、検索からレコメンデーションまでさまざまなシナリオで使用されている。 KGの進歩にも拘わらず、知識の表現は産業間での非自明な作業であり、エンティティ間の複雑な相互依存関係、異質性、標準化の欠如、データのスパース性などにより、医療分野や医療分野において特に困難である。 KGは、疾患に関連する遺伝子の診断や優先順位付けに使用されるが、それらはしばしば、ノードや人のような関心のあるエンティティを中心としていないスキーマに依存する。 エンティティ中心のkgは比較的探索的ではないが、中央ノードに接続された重要なファセットを表現し、グラフ埋め込みの生成や、幅広い予測タスクのためのグラフニューラルネットワークのトレーニングなど、グラフのトラバーサルや推論を越えて下流タスクをアンロックする。 本稿では、構造化データと非構造化データからエンティティ中心のKGを抽出するエンドツーエンド表現学習フレームワークを提案する。 我々は、人の複数の面を表す星形オントロジーを導入し、それをKG生成のガイドに利用する。 グラフのコンパクト表現はグラフニューラルネットワークを利用して作成され、異質性や明示性の異なるレベルを用いて実験が行われる。 提案するフレームワークの結果を評価するために,可読性予測タスクを用いて,ベースラインの機械学習分類器よりも優れた安定なシステムと,欠落データに対する堅牢性を示す。 このアプローチにはいくつかの潜在的なアプリケーションがあり、オープンソースであることを強調します。 最後に、我々は、実際にフレームワークを採用するための教訓、挑戦、そして次のステップについて話し合う。

Knowledge graphs (KGs) are a popular way to organise information based on ontologies or schemas and have been used across a variety of scenarios from search to recommendation. Despite advances in KGs, representing knowledge remains a non-trivial task across industries and it is especially challenging in the biomedical and healthcare domains due to complex interdependent relations between entities, heterogeneity, lack of standardization, and sparseness of data. KGs are used to discover diagnoses or prioritize genes relevant to disease, but they often rely on schemas that are not centred around a node or entity of interest, such as a person. Entity-centric KGs are relatively unexplored but hold promise in representing important facets connected to a central node and unlocking downstream tasks beyond graph traversal and reasoning, such as generating graph embeddings and training graph neural networks for a wide range of predictive tasks. This paper presents an end-to-end representation learning framework to extract entity-centric KGs from structured and unstructured data. We introduce a star-shaped ontology to represent the multiple facets of a person and use it to guide KG creation. Compact representations of the graphs are created leveraging graph neural networks and experiments are conducted using different levels of heterogeneity or explicitness. A readmission prediction task is used to evaluate the results of the proposed framework, showing a stable system, robust to missing data, that outperforms a range of baseline machine learning classifiers. We highlight that this approach has several potential applications across domains and is open-sourced. Lastly, we discuss lessons learned, challenges, and next steps for the adoption of the framework in practice.
翻訳日:2023-05-11 15:53:53 公開日:2023-05-10
# フリップチップ構造における超伝導共振器の高速解析と数値設計

Fast analytic and numerical design of superconducting resonators in flip-chip architectures ( http://arxiv.org/abs/2305.05502v2 )

ライセンス: Link先を確認
Hang-Xi Li, Daryoush Shiri, Sandoko Kosen, Marcus Rommel, Lert Chayanun, Andreas Nylander, Robert Rehammer, Giovanna Tancredi, Marco Caputo, Kestutis Grigoras, Leif Gr\"onberg, Joonas Govenius, Jonas Bylander(参考訳) 超伝導量子プロセッサでは、多くの研究所が3D集積アーキテクチャでシステムをより大きなサイズにスケールアップするにつれて、デバイスパラメータの予測可能性の重要性が増している。 特に超伝導共振器の特性は、量子ビットの高忠実度多重読み出しを保証するために適切に制御されなければならない。 本稿では,共形写像法に基づく2次元断面から共振器のパラメータを直接予測する手法を提案する。 本手法は,3次元有限要素法シミュレーションおよびフリップチップ集積構造における15個の共振器の測定により,計算された共振器周波数と結合品質係数を比較して妥当性を示す。 6GHz共振器における設計周波数と測定周波数の差は2%未満である。 また,チップ間間隔の変動に対する共振周波数の感度を低減させる設計法を提案する。

In superconducting quantum processors, the predictability of device parameters is of increasing importance as many labs scale up their systems to larger sizes in a 3D-integrated architecture. In particular, the properties of superconducting resonators must be controlled well to ensure high-fidelity multiplexed readout of qubits. Here we present a method, based on conformal mapping techniques, to predict a resonator's parameters directly from its 2D cross-section, without computationally heavy simulation. We demonstrate the method's validity by comparing the calculated resonator frequency and coupling quality factor with those obtained through 3D finite-element-method simulation and by measurement of 15 resonators in a flip-chip-integrated architecture. We achieve a discrepancy of less than 2% between designed and measured frequencies, for 6-GHz resonators. We also propose a design method that reduces the sensitivity of the resonant frequency to variations in the inter-chip spacing.
翻訳日:2023-05-11 15:53:24 公開日:2023-05-10
# 一般化deutsch問題を解くための不定因果順序アルゴリズムの実験的証明

Experimentally demonstrating indefinite causal order algorithms to solve the generalized Deutsch's problem ( http://arxiv.org/abs/2305.05416v2 )

ライセンス: Link先を確認
Wen-Qiang Liu, Zhe Meng, Bo-Wen Song, Jian Li, Qing-Yuan Wu, Xiao-Xiao Chen, Jin-Yang Hong, An-Ning Zhang, and Zhang-qi Yin(参考訳) Deutschのアルゴリズムは、古典的アルゴリズムよりも優位性を示す最初の量子アルゴリズムである。 ここでは、deutschの問題をn$関数に一般化し、この問題を解決するために不定因果順序を持つ新しい量子アルゴリズムを提案する。 新しいアルゴリズムは、古典的なアルゴリズムよりもブラックボックスへのクエリの数を半分に減らすだけでなく、deutschのアルゴリズムよりも必要な量子ゲートの数を大幅に減らす。 我々は, 安定なサニャックループ干渉計において, 位相不安定性とマッハ・ツェンダー干渉計の低忠実性の両方の障害を克服する実験を行った。 実験の結果、超高速かつロバストな成功確率である$\sim 99.7\%$が示された。 我々の研究は、無限のカジュアルオーダー量子回路で現実的な問題を解決するための新しい道を開く。

Deutsch's algorithm is the first quantum algorithm to show the advantage over the classical algorithm. Here we generalize Deutsch's problem to $n$ functions and propose a new quantum algorithm with indefinite causal order to solve this problem. The new algorithm not only reduces the number of queries to the black-box by half over the classical algorithm, but also significantly reduces the number of required quantum gates over the Deutsch's algorithm. We experimentally demonstrate the algorithm in a stable Sagnac loop interferometer with common path, which overcomes the obstacles of both phase instability and low fidelity of Mach-Zehnder interferometer. The experimental results have shown both an ultra-high and robust success probability $\sim 99.7\%$. Our work opens up a new path towards solving the practical problems with indefinite casual order quantum circuits.
翻訳日:2023-05-11 15:52:56 公開日:2023-05-10
# 医療会話QAにおける大規模言語モデル

Large Language Models Need Holistically Thought in Medical Conversational QA ( http://arxiv.org/abs/2305.05410v2 )

ライセンス: Link先を確認
Yixuan Weng, Bin Li, Fei Xia, Minjun Zhu, Bin Sun, Shizhu He, Kang Liu, Jun Zhao(参考訳) cqa(medical conversational question answering)システムは、医療の効率を改善するための専門的な医療サービスを提供することを目的としている。 数学、論理学、コモンセンスQAなど、様々な分野における複雑な推論タスクにおいて、大きな言語モデル(LLM)の成功にもかかわらず、医療分野の複雑さと特殊化を増大させることで改善する必要がある。 これは、医学的CQAタスクが強い医学的推論だけでなく、広く深く考える能力を必要とするためである。 本稿では,多くの面から考慮し,理解する必要がある医療用CQAタスクにおけるこれらの課題に対処するために,LLMを指導し,高品質な医療応答を生み出すための拡散的,集中的な思考を行うよう設計したHolistically Thought(HoT)手法を提案する。 提案手法は, 英語と中国語を含む3種類の医療用cqaデータセットにおいて, 自動的および手作業による評価を行った。 実験結果から,本手法は複数のSOTA法よりも正確性,専門性,思考的回答が得られ,その有効性が示された。 私たちのコードはhttps://github.com/WENGSYX/HoT。

The medical conversational question answering (CQA) system aims at providing a series of professional medical services to improve the efficiency of medical care. Despite the success of large language models (LLMs) in complex reasoning tasks in various fields, such as mathematics, logic, and commonsense QA, they still need to improve with the increased complexity and specialization of the medical field. This is because medical CQA tasks require not only strong medical reasoning, but also the ability to think broadly and deeply. In this paper, to address these challenges in medical CQA tasks that need to be considered and understood in many aspects, we propose the Holistically Thought (HoT) method, which is designed to guide the LLMs to perform the diffused and focused thinking for generating high-quality medical responses. The proposed HoT method has been evaluated through automated and manual assessments in three different medical CQA datasets containing the English and Chinese languages. The extensive experimental results show that our method can produce more correctness, professional, and considerate answers than several state-of-the-art (SOTA) methods, manifesting its effectiveness. Our code in https://github.com/WENGSYX/HoT.
翻訳日:2023-05-11 15:52:41 公開日:2023-05-10
# TASTY: 空間と時間の複雑さに対するトランスフォーマーベースのアプローチ

TASTY: A Transformer based Approach to Space and Time complexity ( http://arxiv.org/abs/2305.05379v2 )

ライセンス: Link先を確認
Kaushik Moudgalya, Ankit Ramakrishnan, Vamsikrishna Chemudupati, and Xing Han Lu(参考訳) コードベース言語モデル(LM)は、コード洗練、コード補完、生成といったアプリケーションによるソフトウェア工学の分野で非常に有望な結果を示している。 しかし、コードからの時間と空間の複雑さの分類は、データセットの欠如のために広範囲に検討されておらず、以前の取り組みはjavaに限定されている。 このプロジェクトでは、複数の言語にまたがるコードスニペットのラベル付きデータセット(PythonとC++のデータセットは現在、C、C#、JavaScriptのデータセットが間もなくリリースされる)を作成することで、これらのギャップに対処することを目指している。 既存の時間複雑性計算ライブラリやツールは、限られた数のユースケースにしか適用できません。 明確に定義されたルールベースのシステムがないことが、最近提案されたコードベースのlmsの適用動機となっている。 デッドコード除去の有効性を実証し,LMの最大シーケンス長を増大させる。 時間の複雑さに加えて、コードから空間の複雑さを見つけるためにLMを使うことを提案しています。 さらに,一方の言語でLMを微調整し,他方の言語で推論を行うクロスランゲージトランスファーと呼ばれる新しいコード理解タスクを導入する。 最後に,Non- negative Matrix Factorization (NMF) を用いて,LMのアテンションフィード分類ヘッドの活性化を可視化し,その結果を解釈する。

Code based Language Models (LMs) have shown very promising results in the field of software engineering with applications such as code refinement, code completion and generation. However, the task of time and space complexity classification from code has not been extensively explored due to a lack of datasets, with prior endeavors being limited to Java. In this project, we aim to address these gaps by creating a labelled dataset of code snippets spanning multiple languages (Python and C++ datasets currently, with C, C#, and JavaScript datasets being released shortly). We find that existing time complexity calculation libraries and tools only apply to a limited number of use-cases. The lack of a well-defined rule based system motivates the application of several recently proposed code-based LMs. We demonstrate the effectiveness of dead code elimination and increasing the maximum sequence length of LMs. In addition to time complexity, we propose to use LMs to find space complexities from code, and to the best of our knowledge, this is the first attempt to do so. Furthermore, we introduce a novel code comprehension task, called cross-language transfer, where we fine-tune the LM on one language and run inference on another. Finally, we visualize the activation of the attention fed classification head of our LMs using Non-negative Matrix Factorization (NMF) to interpret our results.
翻訳日:2023-05-11 15:52:19 公開日:2023-05-10
# Pedicle Screwの術中計画のための安全な深部RL

Safe Deep RL for Intraoperative Planning of Pedicle Screw Placement ( http://arxiv.org/abs/2305.05354v2 )

ライセンス: Link先を確認
Yunke Ao, Hooman Esfandiari, Fabio Carrillo, Yarden As, Mazda Farshad, Benjamin F. Grewe, Andreas Krause, and Philipp Fuernstahl(参考訳) 脊椎固定術ではペプシクルスクリューインプラントを高精度に移植する必要があるが、解剖学的に限定した重要な構造に重要な近接で行う必要がある。 ロボット手術システムは, 手術計画のリアルタイム再計算を行なわずに, 従来の手術計画や術中登録といった概念に従うため, オープンループアプローチの限界に悩まされている。 本稿では,安全な深部強化学習(DRL)に基づくドリルパス計画において,リアルタイムな観察を生かしたロボット脊椎手術の術中計画手法を提案する。 提案手法の主な貢献は,(1)不確実性を考慮した距離ベース安全フィルタの導入による安全行動の確保,(2)不完全な術中解剖情報を補う能力,(2)高忠実度解剖モデルに基づくネットワークによる解剖構造に関するアプリオリ知識を符号化することである。 計画品質は,金本位制 (gs) ドリル計画との比較により評価した。 実磁気共鳴画像(MRI)データから得られた5つのモデルを用いた実験では,観察や運動の不確実性の下でも,安全要件を満たしつつ,GSに対して90%の骨貫通を達成できた。 我々の知る限り、我々のアプローチは整形外科手術に焦点を当てた初めての安全なDRLアプローチである。

Spinal fusion surgery requires highly accurate implantation of pedicle screw implants, which must be conducted in critical proximity to vital structures with a limited view of anatomy. Robotic surgery systems have been proposed to improve placement accuracy, however, state-of-the-art systems suffer from the limitations of open-loop approaches, as they follow traditional concepts of preoperative planning and intraoperative registration, without real-time recalculation of the surgical plan. In this paper, we propose an intraoperative planning approach for robotic spine surgery that leverages real-time observation for drill path planning based on Safe Deep Reinforcement Learning (DRL). The main contributions of our method are (1) the capability to guarantee safe actions by introducing an uncertainty-aware distance-based safety filter; and (2) the ability to compensate for incomplete intraoperative anatomical information, by encoding a-priori knowledge about anatomical structures with a network pre-trained on high-fidelity anatomical models. Planning quality was assessed by quantitative comparison with the gold standard (GS) drill planning. In experiments with 5 models derived from real magnetic resonance imaging (MRI) data, our approach was capable of achieving 90% bone penetration with respect to the GS while satisfying safety requirements, even under observation and motion uncertainty. To the best of our knowledge, our approach is the first safe DRL approach focusing on orthopedic surgeries.
翻訳日:2023-05-11 15:51:59 公開日:2023-05-10
# 客の買い物意図に基づく推薦のパーソナライズを学ぶ

Learning to Personalize Recommendation based on Customers' Shopping Intents ( http://arxiv.org/abs/2305.05279v2 )

ライセンス: Link先を確認
Xin Shen, Jiaying Shi, Sungro Yoon, Jon Katzur, Hanbo Wang, Jim Chan, Jin Li(参考訳) キャンプや誕生日パーティーなど、顧客の高いレベルのショッピング意欲を理解することは、Eコマースプラットフォームにとって極めて重要であり、より関連性の高い説明可能な多様なレコメンデーションを提供することで、ショッピング体験の質を高めるのに役立つ。 しかし、こうした高級ショッピングの意図は、実用上の課題から、業界では見過ごされている。 本研究では,各顧客の高レベルの買い物意図を識別・活用し,レコメンデーションをパーソナライズするamazonの新しいシステムを紹介する。 我々は,アマゾンの顧客が追求する「キャンプに行く」「ビーチパーティーの準備」など,さまざまなハイレベルな目標を自動的に識別する手法を開発した。 私たちのソリューションはスケーラブルな方法で(21カ国14言語で)います。 次に、深層学習モデルは、各顧客のオンライン行動、例えば製品検索や個々のアイテムエンゲージメントを、高いレベルのショッピング意図のサブセットにマッピングする。 最後に、リアルタイムのランク付け者は、識別された意図と、パーソナライズされた意図を認識するレコメンデーションを示すためのきめ細かいエンゲージメントの両方を考慮する。 大規模なオフライン分析により、新たな推奨事項の正確性と関連性が保証され、ビジネスメトリクスの10%の改善がさらに観察される。 このシステムは、現在amazon.comでオンライントラフィックを提供しており、いくつかの生産機能を動かしている。

Understanding the customers' high level shopping intent, such as their desire to go camping or hold a birthday party, is critically important for an E-commerce platform; it can help boost the quality of shopping experience by enabling provision of more relevant, explainable, and diversified recommendations. However, such high level shopping intent has been overlooked in the industry due to practical challenges. In this work, we introduce Amazon's new system that explicitly identifies and utilizes each customer's high level shopping intents for personalizing recommendations. We develop a novel technique that automatically identifies various high level goals being pursued by the Amazon customers, such as "go camping", and "preparing for a beach party". Our solution is in a scalable fashion (in 14 languages across 21 countries). Then a deep learning model maps each customer's online behavior, e.g. product search and individual item engagements, into a subset of high level shopping intents. Finally, a realtime ranker considers both the identified intents as well as the granular engagements to present personalized intent-aware recommendations. Extensive offline analysis ensures accuracy and relevance of the new recommendations and we further observe an 10% improvement in the business metrics. This system is currently serving online traffic at amazon.com, powering several production features, driving significant business impacts
翻訳日:2023-05-11 15:51:36 公開日:2023-05-10
# Webアンカーによる教師なしDense Retrieval Training

Unsupervised Dense Retrieval Training with Web Anchors ( http://arxiv.org/abs/2305.05834v1 )

ライセンス: Link先を確認
Yiqing Xie, Xiao Liu, Chenyan Xiong(参考訳) 本研究では,Webアンカー上でのコントラスト学習を用いた教師なし検索手法を提案する。 アンカーテキストは、リンクされたページから参照されるコンテンツを記述する。 これは、関連するドキュメントから関連する情報を検索することを目的とした検索クエリと類似性を示す。 それらの共通性に基づいて,アンカーテキストとリンクされた文書にマッチするコントラスト学習タスクを用いて,教師なしの密集したレトリバーであるanchor-drを訓練する。 非定型アンカー(`homepage'' などの関数型アンカー)をフィルタリングするために,検索クエリとして類似した情報を含むアンカーを選択できる新しいフィルタリング手法を提案する。 実験によれば、アンカーdrは非教師なしの密検索において最先端の手法よりも大きなマージン(例えばmsmarcoでは5.3%のndcg@10)で勝っている。 本手法の利得は,検索および質問応答タスクにおいて特に重要である。 解析により,アンカー文書対のパターンが検索クエリ文書対のパターンと類似していることが明らかになった。 コードはhttps://github.com/veronicium/anchordr。

In this work, we present an unsupervised retrieval method with contrastive learning on web anchors. The anchor text describes the content that is referenced from the linked page. This shows similarities to search queries that aim to retrieve pertinent information from relevant documents. Based on their commonalities, we train an unsupervised dense retriever, Anchor-DR, with a contrastive learning task that matches the anchor text and the linked document. To filter out uninformative anchors (such as ``homepage'' or other functional anchors), we present a novel filtering technique to only select anchors that contain similar types of information as search queries. Experiments show that Anchor-DR outperforms state-of-the-art methods on unsupervised dense retrieval by a large margin (e.g., by 5.3% NDCG@10 on MSMARCO). The gain of our method is especially significant for search and question answering tasks. Our analysis further reveals that the pattern of anchor-document pairs is similar to that of search query-document pairs. Code available at https://github.com/Veronicium/AnchorDR.
翻訳日:2023-05-11 14:58:32 公開日:2023-05-10
# 因果情報分割:分散シフトへのロバストネスのためのエンジニアリングプロキシ機能

Causal Information Splitting: Engineering Proxy Features for Robustness to Distribution Shifts ( http://arxiv.org/abs/2305.05832v1 )

ライセンス: Link先を確認
Bijan Mazaheri, Atalanti Mastakouri, Dominik Janzing, Mila Hardt(参考訳) 統計的予測モデルは、しばしば、最終的なユースケースと異なる確率分布から引き出されるデータに基づいて訓練される。 これらのシフトを積極的に準備する一つのアプローチは、因果メカニズムは環境間で不変であるべきだという直観を利用する。 ここでは、ターゲットの因果変数と反因果変数が観測されない困難な設定に焦点を当てる。 情報理論に基づいて、プロキシとして機能する観測下流変数の特徴選択と工学的手法を開発する。 安定モデル構築に役立つプロキシを特定し、補助的なトレーニングタスクを使用して、プロキシから安定性向上情報を抽出する。 合成データおよび実データに対する本手法の有効性を実証する。

Statistical prediction models are often trained on data that is drawn from different probability distributions than their eventual use cases. One approach to proactively prepare for these shifts harnesses the intuition that causal mechanisms should remain invariant between environments. Here we focus on a challenging setting in which the causal and anticausal variables of the target are unobserved. Leaning on information theory, we develop feature selection and engineering techniques for the observed downstream variables that act as proxies. We identify proxies that help to build stable models and moreover utilize auxiliary training tasks to extract stability-enhancing information from proxies. We demonstrate the effectiveness of our techniques on synthetic and real data.
翻訳日:2023-05-11 14:58:14 公開日:2023-05-10
# KL不等式下における正規写像に基づく Prox-SGD 法の収束性

Convergence of a Normal Map-based Prox-SGD Method under the KL Inequality ( http://arxiv.org/abs/2305.05828v1 )

ライセンス: Link先を確認
Andre Milzarek and Junwen Qiu(参考訳) 本稿では,非凸複合型最適化問題に対する確率正規写像に基づく新しいアルゴリズム(\mathsf{norM}\text{-}\mathsf{SGD}$)を提案し,その収束性について議論する。 時間窓に基づく戦略を用いて、まず$\mathsf{norm}\text{-}\mathsf{sgd}$のグローバル収束挙動を解析し、生成されたイテレート列の蓄積点が$\{\boldsymbol{x}^k\}_k$ はほぼ確実に期待された意味で定常点に対応することを示す。 得られた結果は標準仮定のもとで保たれ、基本近位確率勾配法のより限定的な収束保証を拡張する。 さらに、よく知られたKurtyka-{\L}ojasiewicz (KL) 分析フレームワークに基づいて、イテレート $\{\boldsymbol{x}^k\}_k$ に対する新しい点収束結果と、基礎となる KL 指数 $\boldsymbol{\theta}$ とステップサイズ力学 $\{\alpha_k\}_k$ に依存する導出収束率を提供する。 具体的には、一般的なステップサイズスキーム $\alpha_k=\mathcal{O}(1/k^\gamma)$, $\gamma \in (\frac23,1]$, (ほぼ確実に) $\|\boldsymbol{x}^k-\boldsymbol{x}^*\| = \mathcal{O}(1/k^p)$, $p \in (0,\frac12)$ が成立する。 得られたレートは、$\mathsf{SGD}$の関連および既存の収束速度よりも速く、$\mathsf{norM}\text{-}\mathsf{SGD}$の非漸近複雑性境界を改善する。

In this paper, we present a novel stochastic normal map-based algorithm ($\mathsf{norM}\text{-}\mathsf{SGD}$) for nonconvex composite-type optimization problems and discuss its convergence properties. Using a time window-based strategy, we first analyze the global convergence behavior of $\mathsf{norM}\text{-}\mathsf{SGD}$ and it is shown that every accumulation point of the generated sequence of iterates $\{\boldsymbol{x}^k\}_k$ corresponds to a stationary point almost surely and in an expectation sense. The obtained results hold under standard assumptions and extend the more limited convergence guarantees of the basic proximal stochastic gradient method. In addition, based on the well-known Kurdyka-{\L}ojasiewicz (KL) analysis framework, we provide novel point-wise convergence results for the iterates $\{\boldsymbol{x}^k\}_k$ and derive convergence rates that depend on the underlying KL exponent $\boldsymbol{\theta}$ and the step size dynamics $\{\alpha_k\}_k$. Specifically, for the popular step size scheme $\alpha_k=\mathcal{O}(1/k^\gamma)$, $\gamma \in (\frac23,1]$, (almost sure) rates of the form $\|\boldsymbol{x}^k-\boldsymbol{x}^*\| = \mathcal{O}(1/k^p)$, $p \in (0,\frac12)$, can be established. The obtained rates are faster than related and existing convergence rates for $\mathsf{SGD}$ and improve on the non-asymptotic complexity bounds for $\mathsf{norM}\text{-}\mathsf{SGD}$.
翻訳日:2023-05-11 14:58:03 公開日:2023-05-10
# コントラスト学習とドメイン適応による包括的フィンテック融資

Inclusive FinTech Lending via Contrastive Learning and Domain Adaptation ( http://arxiv.org/abs/2305.05827v1 )

ライセンス: Link先を確認
Xiyang Hu, Yan Huang, Beibei Li, Tian Lu(参考訳) フィンテック融資(マイクロレンディングなど)は、金融の包摂を促進する上で重要な役割を担ってきた。 処理時間とコストが削減され、ユーザエクスペリエンスが向上し、従来の貸し手からクレジットを受け取れない可能性のあるローンが手に入るようになった。 しかし、ローンスクリーニング中のアルゴリズム的意思決定の偏りが懸念されている。 クレジット品質を評価するために使用される機械学習アルゴリズムは、認証されたローン申請のデフォルト結果ラベルのみにアクセスできるため、トレーニングデータの表現バイアスに影響される可能性がある。 この場合、ラベル付きデータで訓練されたモデルは、歴史的に認められた人口でうまく機能するが、低い社会経済的背景の借主にはうまく一般化しない。 本稿では,現実のFinTech貸付プラットフォームにおける貸付審査における表現バイアスの問題について検討する。 そこで本研究では,自己教師付きコントラスト学習とドメイン適応を用いた新しい逐次ローンスクリーニングモデルを提案する。 コントラスト学習を用いて、未承認(ラベルなし)のローンアプリケーションで特徴抽出器を訓練し、ドメイン適応を用いてラベル予測器の性能を一般化する。 実世界のマイクロレンディング環境での広範な実験を通して,本モデルの有効性を実証する。 以上の結果から,本モデルは融資決定の包括性を著しく促進するとともに,ローンスクリーニングの精度と利益をそれぞれ7.10%,8.95%向上させた。 また,テストデータをコントラスト学習やドメイン適応に組み込んで,少数のテストデータにラベル付けすることで,さらなるモデル性能の向上が期待できることを示した。

FinTech lending (e.g., micro-lending) has played a significant role in facilitating financial inclusion. It has reduced processing times and costs, enhanced the user experience, and made it possible for people to obtain loans who may not have qualified for credit from traditional lenders. However, there are concerns about the potentially biased algorithmic decision-making during loan screening. Machine learning algorithms used to evaluate credit quality can be influenced by representation bias in the training data, as we only have access to the default outcome labels of approved loan applications, for which the borrowers' socioeconomic characteristics are better than those of rejected ones. In this case, the model trained on the labeled data performs well on the historically approved population, but does not generalize well to borrowers of low socioeconomic background. In this paper, we investigate the problem of representation bias in loan screening for a real-world FinTech lending platform. We propose a new Transformer-based sequential loan screening model with self-supervised contrastive learning and domain adaptation to tackle this challenging issue. We use contrastive learning to train our feature extractor on unapproved (unlabeled) loan applications and use domain adaptation to generalize the performance of our label predictor. We demonstrate the effectiveness of our model through extensive experimentation in the real-world micro-lending setting. Our results show that our model significantly promotes the inclusiveness of funding decisions, while also improving loan screening accuracy and profit by 7.10% and 8.95%, respectively. We also show that incorporating the test data into contrastive learning and domain adaptation and labeling a small ratio of test data can further boost model performance.
翻訳日:2023-05-11 14:57:14 公開日:2023-05-10
# how-to定理としてのhaag

Haag as a How-To Theorem ( http://arxiv.org/abs/2305.05824v1 )

ライセンス: Link先を確認
David Freeborn and Marian Gilton and Chris Mitsch(参考訳) ハーグの定理は古典的なノーゴー定理である。 これは、量子場理論(QFT)において最も広く使われているモデリングツールの1つである相互作用図(IP)に論理的な問題があることを厳密に示している。 qft における ip の使用に対する定理の意義は長期にわたる議論の対象となり、`'worried'' の扱いに焦点が当てられている。 本稿では,ハグの定理に対する代替的,反対的な見解を論じ,モデル発展に対するノーゴーの定理の影響を強調するために,'Worry'フレーミングを拒絶する。

Haag's theorem is a classic no-go theorem. It rigorously demonstrates there is a logical problem with the interaction picture (IP), one of the most widely used modeling tools in quantum field theory (QFT). The significance of the theorem for the use of the IP in QFT has been the subject of long-running debate, focused around how ``worried'' we should be. In this paper, we argue for an alternative and opposite perspective on Haag's theorem, rejecting the `worry' framing in favor of emphasizing the no-go theorem's implications for model development.
翻訳日:2023-05-11 14:56:49 公開日:2023-05-10
# 環境制約下におけるコンテキスト依存コミュニケーション

Context-dependent communication under environmental constraints ( http://arxiv.org/abs/2305.05821v1 )

ライセンス: Link先を確認
Krzysztof G{\l}\'owka, Julian Zubek and Joanna R\k{a}czaszek-Leonardi(参考訳) 実世界のコミュニケーションは、文脈に依存しない意味を持つ送信信号に還元できないという重要な証拠がある。 本研究では、古典的なルイス(1969)信号モデルの変種に基づいて、位置するシナリオにおける文脈依存通信の出現条件について検討する。 特に,語彙サイズを最小化する圧力は,このような出現に十分であることを示す。 同時に,シンボル意味の文脈的曖昧さを解消する環境条件と認知能力について検討した。 本研究では,受信者の参照選択に対する環境制約を,受信者の端の曖昧さを伴わずに一方的に利用可能であることを示す。 一般的な仮定と一致して、送信者のコンテキストに対する認識は、コンテキストコミュニケーションに必要であると考えられる。 コンテキスト依存通信は多層化現象であり,文脈分布などの環境特性の影響を強く受けている。 この研究で開発されたモデルは、信号が文脈から曖昧になり得るが、通信精度がほぼ完璧であることを示すものである。

There is significant evidence that real-world communication cannot be reduced to sending signals with context-independent meaning. In this work, based on a variant of the classical Lewis (1969) signaling model, we explore the conditions for the emergence of context-dependent communication in a situated scenario. In particular, we demonstrate that pressure to minimise the vocabulary size is sufficient for such emergence. At the same time, we study the environmental conditions and cognitive capabilities that enable contextual disambiguation of symbol meanings. We show that environmental constraints on the receiver's referent choice can be unilaterally exploited by the sender, without disambiguation capabilities on the receiver's end. Consistent with common assumptions, the sender's awareness of the context appears to be required for contextual communication. We suggest that context-dependent communication is a situated multilayered phenomenon, crucially influenced by environment properties such as distribution of contexts. The model developed in this work is a demonstration of how signals may be ambiguous out of context, but still allow for near-perfect communication accuracy.
翻訳日:2023-05-11 14:56:38 公開日:2023-05-10
# ベストエフォート適応

Best-Effort Adaptation ( http://arxiv.org/abs/2305.05816v1 )

ライセンス: Link先を確認
Pranjal Awasthi, Corinna Cortes, Mehryar Mohri(参考訳) 対象ドメインの正確な予測器を決定するために,ラベル付きサンプルが適度に利用可能であり,さらにラベル付きサンプルがかなり多い別のドメインからの情報を活用することを目的とした,いくつかのアプリケーションや考慮によるベストエフォート適応の問題について検討する。 本稿では, 標本再重み付け法に関する新しい, 一般の相違に基づく理論解析について述べる。 これらの境界が、我々が詳細に議論する学習アルゴリズムの設計を導く方法を示す。 さらに、学習保証とアルゴリズムは、標準領域適応問題に対する改善ソリューションを提供しており、対象領域から利用可能なラベル付きデータはほとんどないことを示した。 最終的に、我々の最善適応アルゴリズムとドメイン適応アルゴリズムの有効性を実証する一連の実験結果と、いくつかのベースラインとの比較結果を報告した。 また、我々の分析が微調整のための原理的ソリューションの設計にどう役立つかについても論じる。

We study a problem of best-effort adaptation motivated by several applications and considerations, which consists of determining an accurate predictor for a target domain, for which a moderate amount of labeled samples are available, while leveraging information from another domain for which substantially more labeled samples are at one's disposal. We present a new and general discrepancy-based theoretical analysis of sample reweighting methods, including bounds holding uniformly over the weights. We show how these bounds can guide the design of learning algorithms that we discuss in detail. We further show that our learning guarantees and algorithms provide improved solutions for standard domain adaptation problems, for which few labeled data or none are available from the target domain. We finally report the results of a series of experiments demonstrating the effectiveness of our best-effort adaptation and domain adaptation algorithms, as well as comparisons with several baselines. We also discuss how our analysis can benefit the design of principled solutions for fine-tuning.
翻訳日:2023-05-11 14:56:06 公開日:2023-05-10
# マルチループ増幅による非アベリアゲージ場の測定

Measurement of non-Abelian gauge fields using multi-loop amplification ( http://arxiv.org/abs/2305.05849v1 )

ライセンス: Link先を確認
Qing-Xian Lv, Hong-Zhi Liu, Yan-Xiong Du, Lin-Qing Chen, Meng Wang, Jia-Hao Liang, Zhao-Xin Fu, Zi-Yuan Chen, Hui Yan, and Shi-Liang Zhu(参考訳) 非アベリアゲージ場(NAGF)は物理学における幾何学的および位相的現象を理解する上で中心的な役割を果たす。 ここでは、double-$\Lambda$ 4レベル原子系の退化固有部分空間におけるNAGFを実験的に誘導する。 ゲージ場の非アベリア的性質は、2つの連続進化ループの非可換性の測定によって検出される。 そこで我々は,多ループ進化とロバストなホロノミック量子ゲートを通じてNAGFを測定する新しい手法を理論的に提案し,実験的に実証した。 実演方式は、マルチループ進化によるNAGFの増幅による検出の利点を提供する。 本研究は,高分解能かつ高精度なゲージ場計測を実現するための実験的アプローチの道を開くものである。

Non-Abelian gauge field (NAGF) plays a central role in understanding the geometrical and topological phenomena in physics. Here we experimentally induce a NAGF in the degenerate eigen subspace of a double-$\Lambda$ four-level atomic system. The non-Abelian nature of the gauge field is detected through the measurement of the non-commutativity of two successive evolution loops. Then we theoretically propose and experimentally demonstrate a novel scheme to measure the NAGF through multi-loop evolution and robust holonomic quantum gates. The demonstrated scheme offers the advantage of detecting the NAGF with amplification through multi-loop evolution. Our results pave the way for an experimentally-feasible approach to achieving high-resolution and high-precision measurements of the gauge fields.
翻訳日:2023-05-11 14:47:33 公開日:2023-05-10
# セッションベース新項目推薦のためのデュアルインテント強化グラフニューラルネットワーク

Dual Intent Enhanced Graph Neural Network for Session-based New Item Recommendation ( http://arxiv.org/abs/2305.05848v1 )

ライセンス: Link先を確認
Di Jin, Luzhi Wang, Yizhen Zheng, Guojie Song, Fei Jiang, Xiang Li, Wei Lin, Shirui Pan(参考訳) 推薦システムは、eコマース、eラーニング、ストリーミングメディアなど、さまざまな分野に不可欠である。 現在、セッションベースのレコメンデーションのためのグラフニューラルネットワーク(GNN)は、通常、ユーザの過去のセッションに存在する項目のみを推奨できる。 結果として、これらのGNNは、ユーザーが一度も関わったことのないアイテム(新しいアイテム)を推薦することが困難であり、情報コクーンの現象につながる。 したがって、ユーザに新しいアイテムを推薦する必要がある。 新たな項目とユーザ間のインタラクションがないため,GNNセッションベースレコメンデータシステムのためのセッショングラフを構築する際には,新たな項目を含めることはできない。 したがって、GNNベースの手法を使用する場合、ユーザに新しい項目を推薦することは困難である。 我々はこの課題を '\textbf{G}NN \textbf{S}ession-based \textbf{N}ew \textbf{I}tem \textbf{R}ecommendation (GSNIR)' とみなしている。 この問題を解決するために,デュアルインテント拡張グラフニューラルネットワークを提案する。 新たな項目が過去のセッションと結びついていないため,ユーザの意図を予測することは困難である。 我々は,注目機構と履歴データの分布からユーザ意図を学習するデュアルインテントネットワークを設計し,新しい項目と対話する際のユーザの意思決定過程をシミュレートする。 ゼロショット学習(ZSL)にインスパイアされたGNNでは新しい項目を学習できないという課題を解決するために,その属性を用いて,GNN空間における新しい項目表現を推論する。 対応する項目の推薦スコアを含む新項目確率を出力することにより、より高いスコアを持つ新項目をユーザに推奨する。 2つの代表的な実世界のデータセットに対する実験により,提案手法の優位性を示した。 実世界のケーススタディは、デュアルインテントモジュールと新しいアイテム推論モジュールがもたらす解釈可能性の利点を検証する。 コードはgithubで入手できる: https://github.com/ee1s/nirgnn

Recommender systems are essential to various fields, e.g., e-commerce, e-learning, and streaming media. At present, graph neural networks (GNNs) for session-based recommendations normally can only recommend items existing in users' historical sessions. As a result, these GNNs have difficulty recommending items that users have never interacted with (new items), which leads to a phenomenon of information cocoon. Therefore, it is necessary to recommend new items to users. As there is no interaction between new items and users, we cannot include new items when building session graphs for GNN session-based recommender systems. Thus, it is challenging to recommend new items for users when using GNN-based methods. We regard this challenge as '\textbf{G}NN \textbf{S}ession-based \textbf{N}ew \textbf{I}tem \textbf{R}ecommendation (GSNIR)'. To solve this problem, we propose a dual-intent enhanced graph neural network for it. Due to the fact that new items are not tied to historical sessions, the users' intent is difficult to predict. We design a dual-intent network to learn user intent from an attention mechanism and the distribution of historical data respectively, which can simulate users' decision-making process in interacting with a new item. To solve the challenge that new items cannot be learned by GNNs, inspired by zero-shot learning (ZSL), we infer the new item representation in GNN space by using their attributes. By outputting new item probabilities, which contain recommendation scores of the corresponding items, the new items with higher scores are recommended to users. Experiments on two representative real-world datasets show the superiority of our proposed method. The case study from the real-world verifies interpretability benefits brought by the dual-intent module and the new item reasoning module. The code is available at Github: https://github.com/Ee1s/NirGNN
翻訳日:2023-05-11 14:47:22 公開日:2023-05-10
# Sketching the Future (STF): テキスト・ビデオモデルへの条件制御技術の適用

Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models ( http://arxiv.org/abs/2305.05845v1 )

ライセンス: Link先を確認
Rohan Dhesikan, Vignesh Rajmohan(参考訳) ビデオコンテンツの増殖は、新しいビデオコンテンツを生成するための効率的で柔軟なニューラルネットワークに基づくアプローチを必要とする。 本稿では,ゼロショットテキスト・ビデオ・ジェネレーションとControlNetを組み合わせることで,これらのモデルの出力を改善する手法を提案する。 提案手法では,複数のスケッチフレームを入力として,これらのフレームの流れにマッチする映像出力を生成し,テキスト対ビデオのゼロアーキテクチャ上に構築し,追加の入力条件を実現するためのコントロールネットを組み込む。 まず、入力されたスケッチ間でフレームを補間し、新たな補間フレーム映像を制御技術としてテキスト対ビデオゼロを実行することにより、ゼロショットテキスト対ビデオ生成とコントロールネットが提供するロバスト制御の両方の利点を享受する。 実験により,提案手法は,映像中の対象者の意図した動作とより正確に一致した高品質で極めて一貫性のある映像コンテンツの制作に優れていることを実証した。 提案手法のさらなる研究と応用を促進するために,デモビデオ,プロジェクト web サイト,オープンソース github リポジトリ,colab プレイグラウンドなどを含む包括的なリソースパッケージを提供する。

The proliferation of video content demands efficient and flexible neural network based approaches for generating new video content. In this paper, we propose a novel approach that combines zero-shot text-to-video generation with ControlNet to improve the output of these models. Our method takes multiple sketched frames as input and generates video output that matches the flow of these frames, building upon the Text-to-Video Zero architecture and incorporating ControlNet to enable additional input conditions. By first interpolating frames between the inputted sketches and then running Text-to-Video Zero using the new interpolated frames video as the control technique, we leverage the benefits of both zero-shot text-to-video generation and the robust control provided by ControlNet. Experiments demonstrate that our method excels at producing high-quality and remarkably consistent video content that more accurately aligns with the user's intended motion for the subject within the video. We provide a comprehensive resource package, including a demo video, project website, open-source GitHub repository, and a Colab playground to foster further research and application of our proposed method.
翻訳日:2023-05-11 14:46:52 公開日:2023-05-10
# moca: マルチテナント深層ニューラルネットワークのためのメモリ中心で適応的な実行

MoCA: Memory-Centric, Adaptive Execution for Multi-Tenant Deep Neural Networks ( http://arxiv.org/abs/2305.05843v1 )

ライセンス: Link先を確認
Seah Kim, Hasan Genc, Vadim Vadimovich Nikiforov, Krste Asanovi\'c, Borivoje Nikoli\'c, Yakun Sophia Shao(参考訳) 異なるアプリケーションドメインにわたるディープニューラルネットワーク(dnn)の広範な採用により、複数のdnnが同じハードウェア上に同時にデプロイされるマルチテナント実行が提案され、システム全体の利用性を改善しながら、異なるアプリケーションのレイテンシ要件を満たす。 しかし、マルチテナンシの実行は望ましくないシステムレベルのリソース競合を引き起こし、レイテンシクリティカルなアプリケーションのqos(quality-of-service)低下を引き起こす可能性がある。 そこで本研究では,DNNアクセラレータのための適応型マルチテナンシシステムであるMoCAを提案する。 計算リソースのパーティションにフォーカスする既存のソリューションとは異なり、MoCAはQoSターゲットを満たすために、共同配置されたアプリケーションの共有メモリリソースを動的に管理する。 具体的には、mocaはdnnオペレータとアクセラレータの両方の正規性を利用して、レイテンシのターゲットとユーザ定義の優先度に基づいて、メモリアクセス率を動的に調整する。 我々は,サービスレベル合意(SLA)の満足度を3.9倍(平均1.8倍)、システムスループットを2.3倍(平均1.7倍)、公正度を1.3倍(平均1.2倍)に改善することを示した。

Driven by the wide adoption of deep neural networks (DNNs) across different application domains, multi-tenancy execution, where multiple DNNs are deployed simultaneously on the same hardware, has been proposed to satisfy the latency requirements of different applications while improving the overall system utilization. However, multi-tenancy execution could lead to undesired system-level resource contention, causing quality-of-service (QoS) degradation for latency-critical applications. To address this challenge, we propose MoCA, an adaptive multi-tenancy system for DNN accelerators. Unlike existing solutions that focus on compute resource partition, MoCA dynamically manages shared memory resources of co-located applications to meet their QoS targets. Specifically, MoCA leverages the regularities in both DNN operators and accelerators to dynamically modulate memory access rates based on their latency targets and user-defined priorities so that co-located applications get the resources they demand without significantly starving their co-runners. We demonstrate that MoCA improves the satisfaction rate of the service level agreement (SLA) up to 3.9x (1.8x average), system throughput by 2.3x (1.7x average), and fairness by 1.3x (1.2x average), compared to prior work.
翻訳日:2023-05-11 14:46:30 公開日:2023-05-10
# D-Net:自己注意点探索と学習可能な特徴融合による特定点雲の学習

D-Net: Learning for Distinctive Point Clouds by Self-Attentive Point Searching and Learnable Feature Fusion ( http://arxiv.org/abs/2305.05842v1 )

ライセンス: Link先を確認
Xinhai Liu, Zhizhong Han, Sanghuk Lee, Yan-Pei Cao, Yu-Shen Liu(参考訳) ポイントクラウドにおける重要なポイントの学習と選択は、さまざまなアプリケーションにおけるポイントクラウド理解に不可欠である。 初期の手法では、各形状の内在的な幾何学的性質を分析して3次元形状の重要な点を選んだが、他のクラスの物体、すなわち点の区別と形状を区別する点の重要性を捉えられなかった。 この問題に対処するために,自己注意点探索と学習可能な特徴融合に基づいて特徴点雲を学習するD-Netを提案する。 具体的には, 自己注意点探索において, まず各点の識別スコアを学習し, 点雲の識別分布を明らかにする。 学習した区別スコアをランク付けした後、点雲を高次点集合と低次点集合に分類し、微細な点雲構造を豊かにする。 各特徴点集合に対してコンパクトな特徴表現を生成するために,その特徴を抽出するために,積み重ねられた自己ゲート畳み込みを提案する。 最後に,複数の特徴をチャネルワイドアグリゲーション方式でグローバルポイントクラウド表現に集約する,学習可能な機能融合機構についても紹介する。 また,ポイントクラウドの学習された識別分布は,同一クラスのオブジェクトと高度に一致し,他のクラスのオブジェクトと異なることを示した。 ModelNetやShapeNetのパートデータセットなど、公開データセットに関する大規模な実験は、特定のポイントクラウドを学ぶ能力を示している。

Learning and selecting important points on a point cloud is crucial for point cloud understanding in various applications. Most of early methods selected the important points on 3D shapes by analyzing the intrinsic geometric properties of every single shape, which fails to capture the importance of points that distinguishes a shape from objects of other classes, i.e., the distinction of points. To address this problem, we propose D-Net (Distinctive Network) to learn for distinctive point clouds based on a self-attentive point searching and a learnable feature fusion. Specifically, in the self-attentive point searching, we first learn the distinction score for each point to reveal the distinction distribution of the point cloud. After ranking the learned distinction scores, we group a point cloud into a high distinctive point set and a low distinctive one to enrich the fine-grained point cloud structure. To generate a compact feature representation for each distinctive point set, a stacked self-gated convolution is proposed to extract the distinctive features. Finally, we further introduce a learnable feature fusion mechanism to aggregate multiple distinctive features into a global point cloud representation in a channel-wise aggregation manner. The results also show that the learned distinction distribution of a point cloud is highly consistent with objects of the same class and different from objects of other classes. Extensive experiments on public datasets, including ModelNet and ShapeNet part dataset, demonstrate the ability to learn for distinctive point clouds, which helps to achieve the state-of-the-art performance in some shape understanding applications.
翻訳日:2023-05-11 14:46:05 公開日:2023-05-10
# 弱教師付きセマンティクスセグメンテーションのためのマルチスケールアテンション融合に基づく自己学習フレームワーク

A Self-Training Framework Based on Multi-Scale Attention Fusion for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2305.05841v1 )

ライセンス: Link先を確認
Guoqing Yang, Chuang Zhu, Yu Zhang(参考訳) 画像レベルラベルに基づくwsss(weakly supervised semantic segmentation)は,完全な意味領域を得ることが難しいため,困難である。 この問題に対処するために,融合型クラス対応アテンションマップを用いた自己学習手法を提案する。 我々の観察では、特に大型・小型の物体に対して、異なるスケールの注意マップは豊富な相補的な情報を含んでいる。 そこで,様々なスケールのアテンションマップから情報を集め,マルチスケールアテンションマップを得る。 次に, 電位領域を増大させ, 雑音領域を減少させるために, 消音・再活性化戦略を適用した。 最後に,注意度マップを用いてネットワークの再トレーニングを行う。 実験により,マルチスケール画像からリッチな意味情報を抽出し,PASCAL VOC 2012バリデーションとテストセットで72.4%のmIouスコアを得ることができた。 コードはhttps://bupt-ai-cz.github.io/smafで入手できる。

Weakly supervised semantic segmentation (WSSS) based on image-level labels is challenging since it is hard to obtain complete semantic regions. To address this issue, we propose a self-training method that utilizes fused multi-scale class-aware attention maps. Our observation is that attention maps of different scales contain rich complementary information, especially for large and small objects. Therefore, we collect information from attention maps of different scales and obtain multi-scale attention maps. We then apply denoising and reactivation strategies to enhance the potential regions and reduce noisy areas. Finally, we use the refined attention maps to retrain the network. Experiments showthat our method enables the model to extract rich semantic information from multi-scale images and achieves 72.4% mIou scores on both the PASCAL VOC 2012 validation and test sets. The code is available at https://bupt-ai-cz.github.io/SMAF.
翻訳日:2023-05-11 14:45:36 公開日:2023-05-10
# 対実的説明における多様性の獲得 : レビューと議論

Achieving Diversity in Counterfactual Explanations: a Review and Discussion ( http://arxiv.org/abs/2305.05840v1 )

ライセンス: Link先を確認
Thibault Laugel, Adulam Jeyasothy, Marie-Jeanne Lesot, Christophe Marsala, Marcin Detyniecki(参考訳) 説明可能な人工知能(XAI: Explainable Artificial Intelligence)の分野では、ユーザに対して、トレーニングされた決定モデルの予測を、関連する予測を変更するためにインスタンスに行う変更を示すことによって説明する。 これらの反実例は、一般的に、コスト関数がデシデラタの定量化基準を組み合わさった最適化問題の解として定義される。 ユーザのニーズが一般的に不明であり、ユーザによって異なるため、このようなプロパティは多種多様であり、その選択と形式化は困難である。 この問題を回避するために、いくつかのアプローチでは、予測を説明するための様々な偽例のセットを単一のものではなく、生成することを提案する。 本稿では、この多様性の概念のために提案された、しばしば矛盾する多くの定義の見直しを提案する。 それらの基本的な原則と、それらが依存するユーザのニーズに関する仮説を議論し、それらをいくつかの次元(明示と暗黙の宇宙、それらが定義され、適用されるレベル)に沿って分類することを提案し、このトピックに関するさらなる研究課題の特定に繋がる。

In the field of Explainable Artificial Intelligence (XAI), counterfactual examples explain to a user the predictions of a trained decision model by indicating the modifications to be made to the instance so as to change its associated prediction. These counterfactual examples are generally defined as solutions to an optimization problem whose cost function combines several criteria that quantify desiderata for a good explanation meeting user needs. A large variety of such appropriate properties can be considered, as the user needs are generally unknown and differ from one user to another; their selection and formalization is difficult. To circumvent this issue, several approaches propose to generate, rather than a single one, a set of diverse counterfactual examples to explain a prediction. This paper proposes a review of the numerous, sometimes conflicting, definitions that have been proposed for this notion of diversity. It discusses their underlying principles as well as the hypotheses on the user needs they rely on and proposes to categorize them along several dimensions (explicit vs implicit, universe in which they are defined, level at which they apply), leading to the identification of further research challenges on this topic.
翻訳日:2023-05-11 14:45:18 公開日:2023-05-10
# 構造モデリングと誘導による低照度画像強調

Low-Light Image Enhancement via Structure Modeling and Guidance ( http://arxiv.org/abs/2305.05839v1 )

ライセンス: Link先を確認
Xiaogang Xu, Ruixing Wang, Jiangbo Lu(参考訳) 本稿では,視認と構造モデリングを同時に行うことにより,低光度画像強調のための新しい枠組みを提案する。 外観の強化を導くために構造的特徴を使用し、鋭く現実的な結果をもたらす。 低照度画像におけるエッジ検出として,本フレームワークにおける構造モデリングを実装した。 構造対応の特徴抽出器とジェネレータを設計することで、改良された生成モデルで実現される。 検出されたエッジマップは、重要な構造情報を正確に強調することができ、エッジ予測は暗い領域のノイズに対して堅牢である。 さらに、簡単なu-netで実装した外観モデリングを改善するために、構造誘導特徴合成層を用いて新しい構造誘導強調モジュールを提案する。 外観モデリング、エッジ検出器、エンハンスメントモジュールをエンドツーエンドでトレーニングすることができる。 実験は代表的データセット(sRGBとRAWドメイン)で行われ、我々のモデルは同一アーキテクチャの全てのデータセット上で一貫してSOTA性能を達成することを示す。

This paper proposes a new framework for low-light image enhancement by simultaneously conducting the appearance as well as structure modeling. It employs the structural feature to guide the appearance enhancement, leading to sharp and realistic results. The structure modeling in our framework is implemented as the edge detection in low-light images. It is achieved with a modified generative model via designing a structure-aware feature extractor and generator. The detected edge maps can accurately emphasize the essential structural information, and the edge prediction is robust towards the noises in dark areas. Moreover, to improve the appearance modeling, which is implemented with a simple U-Net, a novel structure-guided enhancement module is proposed with structure-guided feature synthesis layers. The appearance modeling, edge detector, and enhancement module can be trained end-to-end. The experiments are conducted on representative datasets (sRGB and RAW domains), showing that our model consistently achieves SOTA performance on all datasets with the same architecture.
翻訳日:2023-05-11 14:44:58 公開日:2023-05-10
# 生成性ステガノグラフィーフロー

Generative Steganographic Flow ( http://arxiv.org/abs/2305.05838v1 )

ライセンス: Link先を確認
Ping Wei, Ge Luo, Qi Song, Xinpeng Zhang, Zhenxing Qian, Sheng Li(参考訳) generative steganography (gs) はシークレットデータからstegoメディアを直接生成する新しいデータ隠蔽手法である。 既存のGSメソッドは、パフォーマンスが劣るとして一般的に批判されている。 本稿では,新しいフローベースGS手法であるジェネレーティブ・ステガノグラフィー・フロー(GSF)を提案する。 我々は、stego画像生成とシークレットデータ復元プロセスを可逆変換とし、入力シークレットデータと生成されたstego画像間の可逆的全射マッピングを構築する。 フォワードマッピングでは、秘密データをGlowモデルの入力潜時中に隠してステゴ画像を生成する。 マッピングを反転することで、生成されたstegoイメージから正確に隠れたデータを抽出することができる。 さらに,ステゴ画像の忠実性を向上させるための新しい潜在最適化手法を提案する。 実験の結果,提案したGSFはSOTAよりも優れた性能を示した。

Generative steganography (GS) is a new data hiding manner, featuring direct generation of stego media from secret data. Existing GS methods are generally criticized for their poor performances. In this paper, we propose a novel flow based GS approach -- Generative Steganographic Flow (GSF), which provides direct generation of stego images without cover image. We take the stego image generation and secret data recovery process as an invertible transformation, and build a reversible bijective mapping between input secret data and generated stego images. In the forward mapping, secret data is hidden in the input latent of Glow model to generate stego images. By reversing the mapping, hidden data can be extracted exactly from generated stego images. Furthermore, we propose a novel latent optimization strategy to improve the fidelity of stego images. Experimental results show our proposed GSF has far better performances than SOTA works.
翻訳日:2023-05-11 14:44:43 公開日:2023-05-10
# 学習可能なテクスチャ生成による参照型OCTアンギオグラム超解像

Reference-based OCT Angiogram Super-resolution with Learnable Texture Generation ( http://arxiv.org/abs/2305.05835v1 )

ライセンス: Link先を確認
Yuyan Ruan, Dawei Yang, Ziqi Tang, An Ran Ran, Carol Y. Cheung and Hao Chen(参考訳) 光コヒーレンストモグラフィー(OCTA)は、網膜微小血管を可視化する新しい画像モダリティであり、クリニックで容易に採用されている。 高分解能OCT血管造影は、網膜疾患に対する潜在的なバイオマーカーを質的かつ定量的に同定する上で重要である。 しかし、OCTAの大きな問題は、一定の取得時間で視野を拡大する際の解決の必然的減少である。 そこで本研究では,OCTアンギオグラムの解像度を走査面積を増大させながら保存する新しい参照ベース超解像(RefSR)フレームワークを提案する。 具体的には、通常のRefSRパイプラインからのテクスチャを使用して、入力に応じてテクスチャを生成するように設計された学習可能なテクスチャジェネレータ(LTG)をトレーニングする。 提案手法と従来のRefSRモデルの主な違いは、単一の参照画像から検索するのではなく、LTGによって推論時に使用されるテクスチャが生成されることである。 LTGはトレーニングプロセス全体を通して最適化されているため、利用可能なテクスチャ空間は大幅に拡大され、単一の参照画像に制限されず、トレーニングサンプルに含まれるすべてのテクスチャにまで拡張される。 さらに,提案するLTGNetは推論フェーズで参照画像を必要としないため,参照画像の選択には不適当となる。 実験と視覚の両方の結果から、LTGNetは最先端の手法よりも優れた性能と堅牢性を示し、実際のデプロイメントにおける信頼性と将来性を示している。 ソースコードは受理次第公開される予定だ。

Optical coherence tomography angiography (OCTA) is a new imaging modality to visualize retinal microvasculature and has been readily adopted in clinics. High-resolution OCT angiograms are important to qualitatively and quantitatively identify potential biomarkers for different retinal diseases accurately. However, one significant problem of OCTA is the inevitable decrease in resolution when increasing the field-of-view given a fixed acquisition time. To address this issue, we propose a novel reference-based super-resolution (RefSR) framework to preserve the resolution of the OCT angiograms while increasing the scanning area. Specifically, textures from the normal RefSR pipeline are used to train a learnable texture generator (LTG), which is designed to generate textures according to the input. The key difference between the proposed method and traditional RefSR models is that the textures used during inference are generated by the LTG instead of being searched from a single reference image. Since the LTG is optimized throughout the whole training process, the available texture space is significantly enlarged and no longer limited to a single reference image, but extends to all textures contained in the training samples. Moreover, our proposed LTGNet does not require a reference image at the inference phase, thereby becoming invulnerable to the selection of the reference image. Both experimental and visual results show that LTGNet has superior performance and robustness over state-of-the-art methods, indicating good reliability and promise in real-life deployment. The source code will be made available upon acceptance.
翻訳日:2023-05-11 14:44:29 公開日:2023-05-10
# 並列並列ハイブリッド量子古典機械学習によるカーネル化時系列分類

Massively parallel hybrid quantum-classical machine learning for kernelized time-series classification ( http://arxiv.org/abs/2305.05881v1 )

ライセンス: Link先を確認
Jack S. Baker, Gilchan Park, Kwangmin Yu, Ara Ghukasyan, Oktay Goktas and Santosh Kumar Radha(参考訳) 時系列分類の監督は、金融、天文学、バイオセンサーなど幅広い分野に適用可能であることから、広く関心を集めている。 本研究では,時系列ハミルトニアンカーネル(TSHK)を用いて時系列インスタンス間の時間的一対関係を導出する,ハイブリッド量子古典機械学習を用いてこの問題に取り組む。 TSHKは、パラメータ化された時間進化演算子を用いて進化した量子状態によって生成される内部積の和で構成される。 この和は、複数のカーネル学習に由来する手法を用いて最適に重み付けされる。 カーネル重み付けステップを微分凸最適化問題として扱うため、この手法は、サポートベクトルマシン(SVM)のようなカーネル化された機械学習技術で使用するのに適したデータセット一般化カーネル関数である、エンドツーエンドで学習可能なハイブリッド量子-古典-凸ニューラルネットワーク(QCC-net)とみなすことができる。 SVMへの入力としてTSHKを用いて、量子回路シミュレータを用いて一変量および多変量時系列を分類し、量子マルチプログラミングを用いて127量子ビット超伝導量子プロセッサへのアルゴリズムの効率的な並列展開を実証する。

Supervised time-series classification garners widespread interest because of its applicability throughout a broad application domain including finance, astronomy, biosensors, and many others. In this work, we tackle this problem with hybrid quantum-classical machine learning, deducing pairwise temporal relationships between time-series instances using a time-series Hamiltonian kernel (TSHK). A TSHK is constructed with a sum of inner products generated by quantum states evolved using a parameterized time evolution operator. This sum is then optimally weighted using techniques derived from multiple kernel learning. Because we treat the kernel weighting step as a differentiable convex optimization problem, our method can be regarded as an end-to-end learnable hybrid quantum-classical-convex neural network, or QCC-net, whose output is a data set-generalized kernel function suitable for use in any kernelized machine learning technique such as the support vector machine (SVM). Using our TSHK as input to a SVM, we classify univariate and multivariate time-series using quantum circuit simulators and demonstrate the efficient parallel deployment of the algorithm to 127-qubit superconducting quantum processors using quantum multi-programming.
翻訳日:2023-05-11 14:38:50 公開日:2023-05-10
# 階層情報に基づくアドレスマッチング

Address Matching Based On Hierarchical Information ( http://arxiv.org/abs/2305.05874v1 )

ライセンス: Link先を確認
Chengxian Zhang, Jintao Tang, Ting Wang, Shasha Li(参考訳) 急行配達やオンラインショッピングなど、多くの分野でアドレスマッチングが重要な役割を担っているという証拠がある。 addressは非構造化テキストとは対照的に階層構造を持ち、アドレスマッチングに有用な情報を提供する。 そこで本研究では,既存の不規則なアドレスを扱う手法の能力を向上させるだけでなく,アドレスの特定部分に注意を払うことが可能な,深層学習手法における階層情報を活用する新しい手法を提案する。 実験の結果,提案手法は現在のアプローチを3.2%改善することがわかった。

There is evidence that address matching plays a crucial role in many areas such as express delivery, online shopping and so on. Address has a hierarchical structure, in contrast to unstructured texts, which can contribute valuable information for address matching. Based on this idea, this paper proposes a novel method to leverage the hierarchical information in deep learning method that not only improves the ability of existing methods to handle irregular address, but also can pay closer attention to the special part of address. Experimental findings demonstrate that the proposed method improves the current approach by 3.2% points.
翻訳日:2023-05-11 14:38:31 公開日:2023-05-10
# SHS-Net: 点雲の正規分布推定のための符号付きハイパー曲面の学習

SHS-Net: Learning Signed Hyper Surfaces for Oriented Normal Estimation of Point Clouds ( http://arxiv.org/abs/2305.05873v1 )

ライセンス: Link先を確認
Qing Li, Huifang Feng, Kanle Shi, Yue Gao, Yi Fang, Yu-Shen Liu, Zhizhong Han(参考訳) 本研究では, 符号付き超曲面を学習することで, 様々な点群から大域的一貫した向きで正規性を正確に予測できる, SHS-Net という新しい手法を提案する。 既存の手法のほとんど全てが2段階のパイプライン、すなわち非向きの正規推定と正規向きを推定し、各ステップは別個のアルゴリズムによって実装される。 しかし、以前の手法はパラメータ設定に敏感であり、ノイズ、密度変動、複雑なジオメトリを伴う点雲の結果は貧弱である。 本研究では,多層パーセプトロン(MLP)層によってパラメータ化される符号付きハイパーサーフェス(SHS)を導入し,点雲から端から端までの方向の正規性を推定する。 符号付き超曲面は局所的および大域的な情報を集約した高次元特徴空間において暗黙的に学習される。 具体的には、3Dポイントクラウドをローカルの潜伏コードとグローバルな潜伏コードにエンコードするパッチ符号化モジュールと形状符号化モジュールを導入する。 次に、注意重み付き正規予測モジュールをデコーダとして提案し、局所的およびグローバルな潜在符号を入力として向き付けられた正規予測を行う。 実験の結果,shs-netは,広く使用されているベンチマークの非指向的および指向的正規推定において最先端の手法よりも優れていることがわかった。 コード、データ、事前訓練されたモデルは公開されている。

We propose a novel method called SHS-Net for oriented normal estimation of point clouds by learning signed hyper surfaces, which can accurately predict normals with global consistent orientation from various point clouds. Almost all existing methods estimate oriented normals through a two-stage pipeline, i.e., unoriented normal estimation and normal orientation, and each step is implemented by a separate algorithm. However, previous methods are sensitive to parameter settings, resulting in poor results from point clouds with noise, density variations and complex geometries. In this work, we introduce signed hyper surfaces (SHS), which are parameterized by multi-layer perceptron (MLP) layers, to learn to estimate oriented normals from point clouds in an end-to-end manner. The signed hyper surfaces are implicitly learned in a high-dimensional feature space where the local and global information is aggregated. Specifically, we introduce a patch encoding module and a shape encoding module to encode a 3D point cloud into a local latent code and a global latent code, respectively. Then, an attention-weighted normal prediction module is proposed as a decoder, which takes the local and global latent codes as input to predict oriented normals. Experimental results show that our SHS-Net outperforms the state-of-the-art methods in both unoriented and oriented normal estimation on the widely used benchmarks. The code, data and pretrained models are publicly available.
翻訳日:2023-05-11 14:38:22 公開日:2023-05-10
# 医用監視マスク付きオートエンコーダ:医用画像分類のためのより良いマスキング戦略と効率的な微調整スケジュールの作成

Medical supervised masked autoencoders: Crafting a better masking strategy and efficient fine-tuning schedule for medical image classification ( http://arxiv.org/abs/2305.05871v1 )

ライセンス: Link先を確認
Jiawei Mao, Shujian Guo, Yuanqi Chang, Xuesong Yin and Binling Nie(参考訳) マスケードオートエンコーダ(MAE)は,昨年,医用画像の分類とセマンティックセグメンテーションにおいて有意な可能性を示した。 ヒトの組織の類似度が高いため、医療画像のわずかな変化でも疾患組織を表現でき、疾患組織を特定できる細かな検査が必要となる。 MAEsのランダムマスキング戦略は、モデルによって見落とされた病変の領域をもたらす可能性が高い。 同時に、前訓練相と微調整相の不一致は、医用画像分類におけるmaeの性能と効率を阻害する。 本稿では,これらの課題に対処するために,医療用マスク付きオートエンコーダ(MSMAE)を提案する。 プレトレーニング段階では、msmaeは、教師付きトレーニングから得られた注意マップを介して医療画像を正確にマスクし、病変領域におけるヒト組織の表現学習に寄与する。 微調整の段階では、MSMAEは医療画像の正確なマスキングにも注意を払っている。 これにより、MSMAEの計算効率が向上し、微調整の難しさが増し、MSMAE診断の品質が間接的に向上する。 広範囲な実験により、MSMAEは様々な疾患の3つの公式医療データセットで最先端のパフォーマンスを達成することが示されている。 一方、msmaeの転送学習は、医療用セマンティクスセグメンテーションタスクに対する我々のアプローチの素晴らしい可能性を示しています。 さらに、MSMAEは微調整フェーズにおける推論時間を11.2%短縮し、従来のMAEと比較して浮動小数点演算(FLOP)の数を74.08%削減する。

Masked autoencoders (MAEs) have displayed significant potential in the classification and semantic segmentation of medical images in the last year. Due to the high similarity of human tissues, even slight changes in medical images may represent diseased tissues, necessitating fine-grained inspection to pinpoint diseased tissues. The random masking strategy of MAEs is likely to result in areas of lesions being overlooked by the model. At the same time, inconsistencies between the pre-training and fine-tuning phases impede the performance and efficiency of MAE in medical image classification. To address these issues, we propose a medical supervised masked autoencoder (MSMAE) in this paper. In the pre-training phase, MSMAE precisely masks medical images via the attention maps obtained from supervised training, contributing to the representation learning of human tissue in the lesion area. During the fine-tuning phase, MSMAE is also driven by attention to the accurate masking of medical images. This improves the computational efficiency of the MSMAE while increasing the difficulty of fine-tuning, which indirectly improves the quality of MSMAE medical diagnosis. Extensive experiments demonstrate that MSMAE achieves state-of-the-art performance in case with three official medical datasets for various diseases. Meanwhile, transfer learning for MSMAE also demonstrates the great potential of our approach for medical semantic segmentation tasks. Moreover, the MSMAE accelerates the inference time in the fine-tuning phase by 11.2% and reduces the number of floating-point operations (FLOPs) by 74.08% compared to a traditional MAE.
翻訳日:2023-05-11 14:37:56 公開日:2023-05-10
# 法医学的調査によるMLブラックボックスの意味分布の探索

Finding Meaningful Distributions of ML Black-boxes under Forensic Investigation ( http://arxiv.org/abs/2305.05869v1 )

ライセンス: Link先を確認
Jiyi Zhang, Han Fang, Hwee Kuan Lee, Ee-Chien Chang(参考訳) ドキュメンテーションの不十分なニューラルネットワークモデルを考えると、モデルのデータドメイン(例えば、顔画像や交通標識など)を知りたがっている法医学研究者の視点を捉えます。 メンバーシップ推論やモデルインバージョンといった既存のメソッドは、未知のモデルに関する情報を明らかにするのに使うことができるが、データドメインに関する知識が必要である。 本稿では,imagenet のような包括的コーパスを用いて,学習分布に近い有意義な分布を選択でき,追従調査において高い性能が得られるような問題を解くことを提案する。 コーパスは、サンプルの大きなデータセットと階層構造のようなメタ情報とサンプルに関するテキスト情報という2つのコンポーネントから構成される。 私たちのゴールは、与えられたモデルのコーパスからサンプルのセットを選択することです。 本手法の核心は,選択したサンプルの2つの基準,すなわちモデル機能特性(データセット由来)と意味論(メタデータ由来)を考慮した客観的関数である。 また、対象関数の全ての可能な部分集合の大きな空間を効率的に探索するアルゴリズムを与える。 実験の結果,提案手法の有効性が示された。 例えば、Caltech 101を使って与えられたモデルのクローン(元々はCIFAR-10で訓練されていた)は45.5%の精度が得られる。 提案手法で選択したデータセットを用いて精度を72.0%に向上する。

Given a poorly documented neural network model, we take the perspective of a forensic investigator who wants to find out the model's data domain (e.g. whether on face images or traffic signs). Although existing methods such as membership inference and model inversion can be used to uncover some information about an unknown model, they still require knowledge of the data domain to start with. In this paper, we propose solving this problem by leveraging on comprehensive corpus such as ImageNet to select a meaningful distribution that is close to the original training distribution and leads to high performance in follow-up investigations. The corpus comprises two components, a large dataset of samples and meta information such as hierarchical structure and textual information on the samples. Our goal is to select a set of samples from the corpus for the given model. The core of our method is an objective function that considers two criteria on the selected samples: the model functional properties (derived from the dataset), and semantics (derived from the metadata). We also give an algorithm to efficiently search the large space of all possible subsets w.r.t. the objective function. Experimentation results show that the proposed method is effective. For example, cloning a given model (originally trained with CIFAR-10) by using Caltech 101 can achieve 45.5% accuracy. By using datasets selected by our method, the accuracy is improved to 72.0%.
翻訳日:2023-05-11 14:37:27 公開日:2023-05-10
# イメージングシミュレーションによる後処理における光収差補正

Optical Aberration Correction in Postprocessing using Imaging Simulation ( http://arxiv.org/abs/2305.05867v1 )

ライセンス: Link先を確認
Shiqi Chen, Huajun Feng, Dexin Pan, Zhihai Xu, Qi Li, Yueting Chen(参考訳) モバイル写真の人気が高まるにつれて、劣化した画像の復元に多大な労力が費やされている。 レンズ設計の過程では避けられない光学収差の空間的変化のため、近年の商用カメラでは、これらの補正作業のいくつかを光学設計からポストプロセッシングシステムへ移行させている。 しかし, 光学パラメータに係わることなく, 収差補正は限定的であり, 本研究では, 光収差による劣化を回復するための実用的な方法を提案する。 具体的には,提案した光点拡散関数モデルに基づく画像シミュレーションシステムを構築する。 カメラの光学パラメータを考えると、これらの特定のデバイスの撮像結果を生成する。 本研究では,画像シミュレーションシステムによって生成された合成データ対の空間適応型ネットワークモデルを設計し,大量の撮影・登録によるトレーニングデータのキャプチャのオーバーヘッドを解消する。 さらに,提案手法をシミュレーションにおいて総合的に評価し,デジタル一眼レフカメラレンズとHUAWEI HONOR20を用いて実験を行った。 実験により,空間的に変化するぼやけや色分散の除去に成功した。 最先端のデブラル法と比較すると,提案手法は計算オーバーヘッドを低減し,より良い結果が得られる。 また, 再現技術は人工的なテクスチャを導入せず, 現行の商用カメラへの転送に便利である。 プロジェクトページ: \url{https://github.com/tangeego/imagingsimulation}

As the popularity of mobile photography continues to grow, considerable effort is being invested in the reconstruction of degraded images. Due to the spatial variation in optical aberrations, which cannot be avoided during the lens design process, recent commercial cameras have shifted some of these correction tasks from optical design to postprocessing systems. However, without engaging with the optical parameters, these systems only achieve limited correction for aberrations.In this work, we propose a practical method for recovering the degradation caused by optical aberrations. Specifically, we establish an imaging simulation system based on our proposed optical point spread function model. Given the optical parameters of the camera, it generates the imaging results of these specific devices. To perform the restoration, we design a spatial-adaptive network model on synthetic data pairs generated by the imaging simulation system, eliminating the overhead of capturing training data by a large amount of shooting and registration. Moreover, we comprehensively evaluate the proposed method in simulations and experimentally with a customized digital-single-lens-reflex (DSLR) camera lens and HUAWEI HONOR 20, respectively. The experiments demonstrate that our solution successfully removes spatially variant blur and color dispersion. When compared with the state-of-the-art deblur methods, the proposed approach achieves better results with a lower computational overhead. Moreover, the reconstruction technique does not introduce artificial texture and is convenient to transfer to current commercial cameras. Project Page: \url{https://github.com/TanGeeGo/ImagingSimulation}.
翻訳日:2023-05-11 14:37:05 公開日:2023-05-10
# 六方晶窒化ホウ素におけるスピン欠陥の電荷状態制御

Manipulating the Charge State of Spin Defects in Hexagonal Boron Nitride ( http://arxiv.org/abs/2305.05866v1 )

ライセンス: Link先を確認
Angus Gale, Dominic Scognamiglio, Ivan Zhigulin, Benjamin Whitefield, Mehran Kianinia, Igor Aharonovich and Milos Toth(参考訳) 六方晶窒化ホウ素(hBN)の負の電荷を持つホウ素空孔(\small{V_B^-}$)は、最近、層状材料による量子情報処理と量子センシングのスピン欠陥として関心を集めている。 しかし、ホウ素の空孔はhBN格子内の多くの電荷状態に存在するが、-1状態のみがスピン依存のフォトルミネッセンスを持ち、スピン-光子界面として作用する。 ここではレーザーおよび電子ビーム励起下での$\small{V_B}$欠陥の電荷状態切替について検討する。 層状ヘテロ構造デバイスによりhbnに注入された余分な電子または穴によって制御される速度で、 -1 状態と 0 状態の間の可逆的な切り替え(\small{v_b^\rightleftharpoons v_b^0 + e^-}$)を示す。 我々の研究は、$\small{v_b}$のチャージ状態を監視して操作する手段を提供し、欠陥の光スピン操作と読み出しの前提条件である-1状態の安定化を提供する。

Negatively charged boron vacancies ($\small{V_B^-}$) in hexagonal boron nitride (hBN) have recently gained interest as spin defects for quantum information processing and quantum sensing by a layered material. However, the boron vacancy can exist in a number of charge states in the hBN lattice, but only the -1 state has spin-dependent photoluminescence and acts as a spin-photon interface. Here, we investigate charge state switching of $\small{V_B}$ defects under laser and electron beam excitation. We demonstrate deterministic, reversible switching between the -1 and 0 states ($\small{V_B^- \rightleftharpoons V_B^0 + e^-}$), occurring at rates controlled by excess electrons or holes injected into hBN by a layered heterostructure device. Our work provides a means to monitor and manipulate the $\small{V_B}$ charge state, and to stabilize the -1 state which is a prerequisite for optical spin manipulation and readout of the defect.
翻訳日:2023-05-11 14:36:43 公開日:2023-05-10
# chatgptとgpt-4は金融テキスト分析の汎用解法か? いくつかの典型的な課題についての検討

Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? An Examination on Several Typical Tasks ( http://arxiv.org/abs/2305.05862v1 )

ライセンス: Link先を確認
Xianzhi Li, Xiaodan Zhu, Zhiqiang Ma, Xiaomo Liu, Sameena Shah(参考訳) ChatGPTやGPT-4といった最近の大規模言語モデルは、人間の入力に対する高品質な応答を生成できるため、大きな注目を集めている。 汎用テキストコーパス上でのChatGPTとGPT-4の広範なテストにもかかわらず、その優れた能力を示す一方で、財務コーパスに焦点を当てた研究は行われていない。 本研究では,チャットgptとgpt-4をゼロショットまたは少数ショット設定の典型的な金融テキスト解析問題の解法として用いる可能性を検討することで,このギャップを埋めることを目的とする。 具体的には,ファイナンシャルテキストデータセットを5つに分けて,代表的な4つのタスクでその能力を評価する。 予備研究は、ChatGPTとGPT-4が、数値推論タスクに優れながら、ドメイン固有の知識を必要とする金融名実体認識(NER)や感情分析などのタスクに苦労していることを示している。 本稿では,現行のChatGPTとGPT-4の長所と短所をともに報告し,最先端の微調整モデルと事前訓練されたドメイン固有生成モデルとの比較を行った。 我々の実験は質的研究を行い、既存のモデルの能力を理解し、さらなる改善を促進することを望んでいる。

The most recent large language models such as ChatGPT and GPT-4 have garnered significant attention, as they are capable of generating high-quality responses to human input. Despite the extensive testing of ChatGPT and GPT-4 on generic text corpora, showcasing their impressive capabilities, a study focusing on financial corpora has not been conducted. In this study, we aim to bridge this gap by examining the potential of ChatGPT and GPT-4 as a solver for typical financial text analytic problems in the zero-shot or few-shot setting. Specifically, we assess their capabilities on four representative tasks over five distinct financial textual datasets. The preliminary study shows that ChatGPT and GPT-4 struggle on tasks such as financial named entity recognition (NER) and sentiment analysis, where domain-specific knowledge is required, while they excel in numerical reasoning tasks. We report both the strengths and limitations of the current versions of ChatGPT and GPT-4, comparing them to the state-of-the-art finetuned models as well as pretrained domain-specific generative models. Our experiments provide qualitative studies, through which we hope to help understand the capability of the existing models and facilitate further improvements.
翻訳日:2023-05-11 14:36:22 公開日:2023-05-10
# 忠実度に基づく滑らかなMin-Relative Entropy:特性と応用

Fidelity-Based Smooth Min-Relative Entropy: Properties and Applications ( http://arxiv.org/abs/2305.05859v1 )

ライセンス: Link先を確認
Theshani Nuradha and Mark M. Wilde(参考訳) 忠実性に基づく滑らかなミン関係エントロピー(英: fidelity-based smooth min-relative entropy)は、熱力学やコヒーレンスなどの資源理論を含む量子情報に関する先行研究において、様々な文脈で現れる識別性尺度である。 ここでは、この量に関する包括的な研究を行う。 まず、データ処理の不等式を含むいくつかの基本的な性質を満たすことを証明する。 また, 密閉されたr\'enyi相対エントロピーと滑らかなmax-relative entropyを含む, 忠実性に基づく平滑なmin-relative entropyと, 平滑なmin-relative entropyおよび平滑なr\'enyi相対エントロピーとの接続を確立する。 その後、これらの接続を用いて、忠実性に基づく滑らかなミン関係エントロピーと全ての滑らかなサンドイッチされたr\'enyi相対エントロピーの2次漸近性を確立し、一階項が量子相対エントロピー、二階項が量子相対エントロピー分散を含むことを発見した。 また, 得られた特性を利用して, 対象状態が混合された一般資源理論において, 忠実度に基づく滑らかな min-相対エントロピーが, 操作タスクに対して一発のバウンダリを与えることを示す。 上記の観測は、蒸留可能なランダム性に関する上界の2階展開と、特定の古典量子状態の蒸留可能なランダム性の正確な2階漸近をもたらす。 最後に、滑らかなマックス関係エントロピーと滑らかな条件付きミンエントロピーのための半定値プログラムと、フィデリティに基づく滑らかなミン関係エントロピーの双線型プログラムを確立し、最後に1つと1つに関連する境界の密接性を調べるために使用する。

The fidelity-based smooth min-relative entropy is a distinguishability measure that has appeared in a variety of contexts in prior work on quantum information, including resource theories like thermodynamics and coherence. Here we provide a comprehensive study of this quantity. First we prove that it satisfies several basic properties, including the data-processing inequality. We also establish connections between the fidelity-based smooth min-relative entropy and other widely used information-theoretic quantities, including smooth min-relative entropy and smooth sandwiched R\'enyi relative entropy, of which the sandwiched R\'enyi relative entropy and smooth max-relative entropy are special cases. After that, we use these connections to establish the second-order asymptotics of the fidelity-based smooth min-relative entropy and all smooth sandwiched R\'enyi relative entropies, finding that the first-order term is the quantum relative entropy and the second-order term involves the quantum relative entropy variance. Utilizing the properties derived, we also show how the fidelity-based smooth min-relative entropy provides one-shot bounds for operational tasks in general resource theories in which the target state is mixed, with a particular example being randomness distillation. The above observations then lead to second-order expansions of the upper bounds on distillable randomness, as well as the precise second-order asymptotics of the distillable randomness of particular classical-quantum states. Finally, we establish semi-definite programs for smooth max-relative entropy and smooth conditional min-entropy, as well as a bilinear program for the fidelity-based smooth min-relative entropy, which we subsequently use to explore the tightness of a bound relating the last to the first.
翻訳日:2023-05-11 14:36:01 公開日:2023-05-10
# V\=arta: インデックス言語のための大規模見出し生成データセット

V\=arta: A Large-Scale Headline-Generation Dataset for Indic Languages ( http://arxiv.org/abs/2305.05858v1 )

ライセンス: Link先を確認
Rahul Aralikatte, Ziling Cheng, Sumanth Doddapaneni, Jackie Chi Kit Cheung(参考訳) Indic言語における見出し生成のための大規模多言語データセットであるV\=artaを提案する。 このデータセットには、14の異なるIndic言語(および英語)の418万のニュース記事が含まれている。 私たちの知る限りでは、現在利用可能なIndic言語のキュレートされた記事の最大のコレクションです。 我々は、一連の実験で収集されたデータを用いて、Indic NLPと多言語研究に関する重要な質問に答える。 その結果,データ集合は最先端の抽象モデルでも挑戦的であり,抽出ベースラインよりもわずかに優れていることがわかった。 また,そのサイズから,NLUベンチマークとNLGベンチマークの両ベンチマークにおいて,競合ベースラインを上回った強い言語モデルの事前学習に使用できることを示す。

We present V\=arta, a large-scale multilingual dataset for headline generation in Indic languages. This dataset includes 41.8 million news articles in 14 different Indic languages (and English), which come from a variety of high-quality sources. To the best of our knowledge, this is the largest collection of curated articles for Indic languages currently available. We use the data collected in a series of experiments to answer important questions related to Indic NLP and multilinguality research in general. We show that the dataset is challenging even for state-of-the-art abstractive models and that they perform only slightly better than extractive baselines. Owing to its size, we also show that the dataset can be used to pretrain strong language models that outperform competitive baselines in both NLU and NLG benchmarks.
翻訳日:2023-05-11 14:35:22 公開日:2023-05-10
# 事前量子化による移動画像復元

Mobile Image Restoration via Prior Quantization ( http://arxiv.org/abs/2305.05899v1 )

ライセンス: Link先を確認
Shiqi Chen, Jinwen Zhou, Menghao Li, Yueting Chen, Tingting Jiang(参考訳) デジタル画像では、光学収差の性能は多変量分解であり、シーンのスペクトル、レンズの不完全性、視野の領域が共に結果に寄与する。 ハードウェアレベルでの除去に加えて、様々な事前情報を利用した後処理システムは、補正に重要である。 しかし,前者間の内容の差異から,これらの要因を合致するパイプラインは少ない効率と最適化されていない修復率を示す。 本稿では,画像処理システムにおける光収差補正のための事前量子化モデルを提案する。 これらのメッセージを統合するために、様々なプリエントを潜在空間にエンコードし、学習可能なコードブックで定量化する。 量子化後、画像復元枝と先行符号を融合して目標光収差補正を実現する。 包括的実験は,提案手法の柔軟性を実証し,特定のカメラを対象とする復元を実現する可能性を検証する。 さらに,本モデルでは,各種先行技術と機器の光収差の関係を解析し,共同ソフトハードウエア設計に有用であることを示す。

In digital images, the performance of optical aberration is a multivariate degradation, where the spectral of the scene, the lens imperfections, and the field of view together contribute to the results. Besides eliminating it at the hardware level, the post-processing system, which utilizes various prior information, is significant for correction. However, due to the content differences among priors, the pipeline that aligns these factors shows limited efficiency and unoptimized restoration. Here, we propose a prior quantization model to correct the optical aberrations in image processing systems. To integrate these messages, we encode various priors into a latent space and quantify them by the learnable codebooks. After quantization, the prior codes are fused with the image restoration branch to realize targeted optical aberration correction. Comprehensive experiments demonstrate the flexibility of the proposed method and validate its potential to accomplish targeted restoration for a specific camera. Furthermore, our model promises to analyze the correlation between the various priors and the optical aberration of devices, which is helpful for joint soft-hardware design.
翻訳日:2023-05-11 14:28:51 公開日:2023-05-10
# マルチエージェント協調のためのパーソナリティ改善型スパイキングアクターネットワークの混合

Mixture of personality improved Spiking actor network for efficient multi-agent cooperation ( http://arxiv.org/abs/2305.05898v1 )

ライセンス: Link先を確認
Xiyun Li, Ziyi Ni, Jingqing Ruan, Linghui Meng, Jing Shi, Tielin Zhang and Bo Xu(参考訳) 多エージェント強化学習(MARL)の研究領域では、より深いニューラルネットワークの助けを借りて、適応型人間エージェントとエージェントエージェントの協力がますます重要になっている。 しかし、多くの確立されたアルゴリズムは学習パラダイムにおいてのみうまく機能するが、他の未知のパートナーと協力しながらは一般化が不十分である。 認知心理学におけるパーソナリティ理論は、人間は相手の個性を最初に予測し、次に複雑な行動を行うことで、上記の協調課題をうまく扱うことができると述べる。 この2段階の心理学理論に着想を得て,様々な種類の個性の複雑な形成と統合をシミュレートする決定的点法を応用し,より効率的な強化学習のために動的・スパイクニューロンをSANに組み込む,生物学的に妥当なパーソナリティの混合(MoP)改善スパイキングアクタネットワーク(SAN)を提案する。 提案したMoP-SANを試験するために,協調調理の強い要件を含むベンチマークオーバークッキングタスクを選択した。 実験結果から,MoP-SANは学習パラダイムだけでなく,ほとんどのディープアクターネットワークが失敗する一般化テスト(他の未確認エージェントとの協調)パラダイムにおいても高い性能を達成可能であることが示された。 マルチエージェント強化学習においてMoPとSANが有効であるのに対して,DNNは一般化試験において不十分である理由を説明するために,必要なアブレーション実験と可視化分析を行った。

Adaptive human-agent and agent-agent cooperation are becoming more and more critical in the research area of multi-agent reinforcement learning (MARL), where remarked progress has been made with the help of deep neural networks. However, many established algorithms can only perform well during the learning paradigm but exhibit poor generalization during cooperation with other unseen partners. The personality theory in cognitive psychology describes that humans can well handle the above cooperation challenge by predicting others' personalities first and then their complex actions. Inspired by this two-step psychology theory, we propose a biologically plausible mixture of personality (MoP) improved spiking actor network (SAN), whereby a determinantal point process is used to simulate the complex formation and integration of different types of personality in MoP, and dynamic and spiking neurons are incorporated into the SAN for the efficient reinforcement learning. The benchmark Overcooked task, containing a strong requirement for cooperative cooking, is selected to test the proposed MoP-SAN. The experimental results show that the MoP-SAN can achieve both high performances during not only the learning paradigm but also the generalization test (i.e., cooperation with other unseen agents) paradigm where most counterpart deep actor networks failed. Necessary ablation experiments and visualization analyses were conducted to explain why MoP and SAN are effective in multi-agent reinforcement learning scenarios while DNN performs poorly in the generalization test.
翻訳日:2023-05-11 14:28:35 公開日:2023-05-10
# RNNS: コードモデルにおける近隣のブラックボックス攻撃の表現

RNNS: Representation Nearest Neighbor Search Black-Box Attack on Code Models ( http://arxiv.org/abs/2305.05896v1 )

ライセンス: Link先を確認
Jie Zhang, Wei Ma, Qiang Hu, Xiaofei Xie, Yves Le Traon, Yang Liu(参考訳) 事前学習されたコードモデルは、主に分散テストデータを用いて評価される。 モデルの堅牢性、すなわち、ハードな未確認データを扱う能力は、まだ評価を欠いている。 本稿では,事前学習されたplモデルのロバスト性を評価するために,事前学習されたプログラミング言語モデルに対するモデル行動から誘導される,新たな探索型ブラックボックス攻撃法を提案する。 他のブラックボックスの敵攻撃とは異なり、RNNSは実世界のプロジェクトから収集された可変名の空間での探索を誘導するためにモデルチェンジ信号を使用する。 具体的には、RNNSには2つの主要なステップがある。 1)モデルの不確実性に基づいて攻撃すべき変数(攻撃位置)を示し、 2) モデル行動観測に基づいて, 可変リネームに使用する逆トークンを探索する。 6つのコードタスク(クローン検出など)、3つのプログラミング言語(Java、Python、C)、3つの事前訓練されたコードモデル(CodeBERT、GraphCodeBERT、CodeT5)でRNNSを評価する。 その結果、RNNSは攻撃成功率(ASR)とクエリ時間(QT)において最先端のブラックボックス攻撃法(MHMとALERT)よりも優れていた。 RNNSから生成された逆数例の摂動は、置換変数の数や変数長の変化に関して、ベースラインよりも小さい。 我々の実験は、RNNSが防御されたモデルを攻撃するのに効率的であり、敵の訓練に有用であることも示している。

Pre-trained code models are mainly evaluated using the in-distribution test data. The robustness of models, i.e., the ability to handle hard unseen data, still lacks evaluation. In this paper, we propose a novel search-based black-box adversarial attack guided by model behaviours for pre-trained programming language models, named Representation Nearest Neighbor Search(RNNS), to evaluate the robustness of Pre-trained PL models. Unlike other black-box adversarial attacks, RNNS uses the model-change signal to guide the search in the space of the variable names collected from real-world projects. Specifically, RNNS contains two main steps, 1) indicate which variable (attack position location) we should attack based on model uncertainty, and 2) search which adversarial tokens we should use for variable renaming according to the model behaviour observations. We evaluate RNNS on 6 code tasks (e.g., clone detection), 3 programming languages (Java, Python, and C), and 3 pre-trained code models: CodeBERT, GraphCodeBERT, and CodeT5. The results demonstrate that RNNS outperforms the state-of-the-art black-box attacking methods (MHM and ALERT) in terms of attack success rate (ASR) and query times (QT). The perturbation of generated adversarial examples from RNNS is smaller than the baselines with respect to the number of replaced variables and the variable length change. Our experiments also show that RNNS is efficient in attacking the defended models and is useful for adversarial training.
翻訳日:2023-05-11 14:28:06 公開日:2023-05-10
# CUTS+:不規則時系列からの高次元因果発見

CUTS+: High-dimensional Causal Discovery from Irregular Time-series ( http://arxiv.org/abs/2305.05890v1 )

ライセンス: Link先を確認
Yuxiao Cheng, Lianglong Li, Tingxiong Xiao, Zongren Li, Jinli Suo, Kunlun He, Qionghai Dai(参考訳) 時系列における因果発見は、機械学習コミュニティにおける根本的な問題であり、複雑なシナリオにおける因果推論と意思決定を可能にする。 近年、研究者はニューラルネットワークとグレンジャー因果関係を組み合わせることで因果関係の発見に成功したが、その性能は、高度に冗長なネットワーク設計と巨大な因果グラフのため、高次元データに遭遇した場合に大きく低下する。 さらに、観察の欠落した項目は、因果構造学習をさらに阻害する。 このような制限を克服するため,Granger-causality-based causal discovery method CUTSを基盤として,Coarse-to-fine-discovery(C2FD)と呼ばれる手法を導入し,メッセージパスベースのグラフニューラルネットワーク(MPGNN)を活用することによりスケーラビリティを向上させるCUTS+を提案する。 シミュレーション,準実,実データを用いた従来の手法と比較して,cut+は不規則サンプリングの異なる高次元データに対する因果的発見性能が大幅に向上することを示した。

Causal discovery in time-series is a fundamental problem in the machine learning community, enabling causal reasoning and decision-making in complex scenarios. Recently, researchers successfully discover causality by combining neural networks with Granger causality, but their performances degrade largely when encountering high-dimensional data because of the highly redundant network design and huge causal graphs. Moreover, the missing entries in the observations further hamper the causal structural learning. To overcome these limitations, We propose CUTS+, which is built on the Granger-causality-based causal discovery method CUTS and raises the scalability by introducing a technique called Coarse-to-fine-discovery (C2FD) and leveraging a message-passing-based graph neural network (MPGNN). Compared to previous methods on simulated, quasi-real, and real datasets, we show that CUTS+ largely improves the causal discovery performance on high-dimensional data with different types of irregular sampling.
翻訳日:2023-05-11 14:27:36 公開日:2023-05-10
# 視神経テレポーテーションと絡み合い交換の提案

Proposal for optomagnonic teleportation and entanglement swapping ( http://arxiv.org/abs/2305.05889v1 )

ライセンス: Link先を確認
Zhi-Yuan Fan, Xuan Zuo, Hang Qian, Jie Li(参考訳) 光学系における離散変数量子テレポーテーションを実現するプロトコルを提供する。 光パルスを用いて、直交偏光で符号化された任意のフォトニック量子状態が、光学干渉計に配置された2つの巨視的イットリウム鉄ガーネット(YIG)球内の一対のマグノニック振動子の接合状態に移される。 さらに,ベル状態検出機能を備えた拡張デュアル干渉計構成により,オトマグニック・エンタングルメント・スワッピングを実現することができることを示す。 これにより、マグノンベル状態が作成される。 本研究では,マグノンモードの残留熱占有がテレポーテーションおよびエンタングルメント交換プロトコルの忠実度に及ぼす影響を解析した。

A protocol for realizing discrete-variable quantum teleportation in an optomagnonic system is provided. Using optical pulses, an arbitrary photonic qubit state encoded in orthogonal polarizations is transferred onto the joint state of a pair of magnonic oscillators in two macroscopic yttrium-iron-garnet (YIG) spheres that are placed in an optical interferometer. We further show that optomagnonic entanglement swapping can be realized in an extended dual-interferometer configuration with a joint Bell-state detection. Consequently, magnon Bell states are prepared. We analyze the effect of the residual thermal occupation of the magnon modes on the fidelity in both the teleportation and entanglement swapping protocols.
翻訳日:2023-05-11 14:27:15 公開日:2023-05-10
# ポスト量子化超解像ネットワークのための分布フレキシブルサブセット量子化

Distribution-Flexible Subset Quantization for Post-Quantizing Super-Resolution Networks ( http://arxiv.org/abs/2305.05888v1 )

ライセンス: Link先を確認
Yunshan Zhong, Mingbao Lin, Jingjing Xie, Yuxin Zhang, Fei Chao, Rongrong Ji(参考訳) 本稿では,超高分解能ネットワークのためのポストトレーニング量子化手法であるDFSQを提案する。 DFSQを開発する動機は、サンプルやチャネル間で大きなばらつきを示す現在の超解像モデルの特異な活性化分布に基づいている。 この問題に対処するため、DFSQは活性化のチャネルワイド正規化を行い、分散フレキシブルなサブセット量子化(SQ)を適用する。 SQにおける量子化点の選択を高速化するために,K平均クラスタリングを用いた高速量子化点選択戦略を提案する。 一般的な反復的網羅的探索アルゴリズムと比較して、我々の戦略は普遍集合におけるすべての組み合わせの列挙を回避し、時間複雑性を指数関数から線形に減らす。 したがって、普遍集合の大きさに対する時間コストの制約は大幅に緩和される。 様々な超解像モデルに対する広範囲な評価は、DFSQが微調整をせずに効果的に性能を維持することを示す。 例えば、UrbanベンチマークでEDSRx2の量子化を行う場合、DFSQは6ビットと8ビットの量子化で完全精度の量子化に匹敵する性能を達成し、4ビットの量子化では0.1dBのPSNR低下しか発生しない。

This paper introduces Distribution-Flexible Subset Quantization (DFSQ), a post-training quantization method for super-resolution networks. Our motivation for developing DFSQ is based on the distinctive activation distributions of current super-resolution models, which exhibit significant variance across samples and channels. To address this issue, DFSQ conducts channel-wise normalization of the activations and applies distribution-flexible subset quantization (SQ), wherein the quantization points are selected from a universal set consisting of multi-word additive log-scale values. To expedite the selection of quantization points in SQ, we propose a fast quantization points selection strategy that uses K-means clustering to select the quantization points closest to the centroids. Compared to the common iterative exhaustive search algorithm, our strategy avoids the enumeration of all possible combinations in the universal set, reducing the time complexity from exponential to linear. Consequently, the constraint of time costs on the size of the universal set is greatly relaxed. Extensive evaluations of various super-resolution models show that DFSQ effectively retains performance even without fine-tuning. For example, when quantizing EDSRx2 on the Urban benchmark, DFSQ achieves comparable performance to full-precision counterparts on 6- and 8-bit quantization, and incurs only a 0.1 dB PSNR drop on 4-bit quantization.
翻訳日:2023-05-11 14:27:01 公開日:2023-05-10
# リモートセンシング画像のコントラスト学習に基づく弱教師付きROI抽出法

Weakly-supervised ROI extraction method based on contrastive learning for remote sensing images ( http://arxiv.org/abs/2305.05887v1 )

ライセンス: Link先を確認
Lingfeng He and Mengze Xu and Jie Ma(参考訳) ROI抽出は、複雑な地形、複雑な境界、アノテーションの要求により、リモートセンシングにおいて活発だが困難なタスクである。 弱教師付き学習(weakly supervised learning:wsl)は、画像ラベル下の入力画像からピクセル単位の予測へのマッピングを学習することを目的としている。 しかし、ラベルの不正確さのため、WSL法の精度と時間消費は比較的不十分である。 本稿では,契約学習に基づく2段階のROI抽出を提案する。 まず,複数スケールのGrad-CAMを統合することで,適切な境界を持つ擬似画素アノテーションを得る。 そして,疑似アノテーションにおける誤判断のコンパクト化を抑えるために,ROI内の特徴を可能な限り接近させ,背景特徴と前景特徴を分離するコントラスト学習戦略を構築した。 総合的な実験は我々の提案の優越性を実証する。 コードはhttps://github.com/HE-Lingfeng/ROI-Extractionで入手できる。

ROI extraction is an active but challenging task in remote sensing because of the complicated landform, the complex boundaries and the requirement of annotations. Weakly supervised learning (WSL) aims at learning a mapping from input image to pixel-wise prediction under image-wise labels, which can dramatically decrease the labor cost. However, due to the imprecision of labels, the accuracy and time consumption of WSL methods are relatively unsatisfactory. In this paper, we propose a two-step ROI extraction based on contractive learning. Firstly, we present to integrate multiscale Grad-CAM to obtain pseudo pixelwise annotations with well boundaries. Then, to reduce the compact of misjudgments in pseudo annotations, we construct a contrastive learning strategy to encourage the features inside ROI as close as possible and separate background features from foreground features. Comprehensive experiments demonstrate the superiority of our proposal. Code is available at https://github.com/HE-Lingfeng/ROI-Extraction
翻訳日:2023-05-11 14:26:33 公開日:2023-05-10
# 大量生産における移動端末の計算光学

Computational Optics for Mobile Terminals in Mass Production ( http://arxiv.org/abs/2305.05886v1 )

ライセンス: Link先を確認
Shiqi Chen, Ting Lin, Huajun Feng, Zhihai Xu, Qi Li, Yueting Chen(参考訳) 光学収差の補正とカメラの製造偏差は難しい課題である。 容量の制限と大量生産の需要のため、既存の移動端末は光学劣化を是正することはできない。 本研究では,乱れたシステムパラメータと写真から測定した空間周波数応答の関係を説明するために,摂動レンズシステムモデルを構築した。 さらにこの問題に対処するために, このモデルに基づいて, 加工サンプルのSFRからプロキシカメラを構築するための最適化フレームワークを提案する。 プロキシカメラと連動して,光収差とランダムな製造バイアスを符号化したデータペアを合成し,学習に基づくアルゴリズムを学習する。 収差の補正では、最近畳み込みニューラルネットワークで有望な結果が示されているが、確率的加工バイアスに一般化することは困難である。 そこで本研究では,全次元動的畳み込み法を提案し,製造劣化を考慮した後処理で実装する。 2つの代表的なデバイスの複数のサンプルを評価する実験により,提案手法がプロキシカメラを正確に構築することを示す。 そして、動的処理モデルは、異なるカメラの製造偏差によく適応し、完璧な計算写真を実現する。 提案手法は,光設計,システム加工,後処理パイプラインのギャップを埋め,画像信号受信(レンズとセンサ)と画像信号処理の接合部に光を遮蔽することを示す。

Correcting the optical aberrations and the manufacturing deviations of cameras is a challenging task. Due to the limitation on volume and the demand for mass production, existing mobile terminals cannot rectify optical degradation. In this work, we systematically construct the perturbed lens system model to illustrate the relationship between the deviated system parameters and the spatial frequency response measured from photographs. To further address this issue, an optimization framework is proposed based on this model to build proxy cameras from the machining samples' SFRs. Engaging with the proxy cameras, we synthetic data pairs, which encode the optical aberrations and the random manufacturing biases, for training the learning-based algorithms. In correcting aberration, although promising results have been shown recently with convolutional neural networks, they are hard to generalize to stochastic machining biases. Therefore, we propose a dilated Omni-dimensional dynamic convolution and implement it in post-processing to account for the manufacturing degradation. Extensive experiments which evaluate multiple samples of two representative devices demonstrate that the proposed optimization framework accurately constructs the proxy camera. And the dynamic processing model is well-adapted to manufacturing deviations of different cameras, realizing perfect computational photography. The evaluation shows that the proposed method bridges the gap between optical design, system machining, and post-processing pipeline, shedding light on the joint of image signal reception (lens and sensor) and image signal processing.
翻訳日:2023-05-11 14:26:16 公開日:2023-05-10
# ロバストラインセグメント検出のためのレベルラインガイドエッジ描画

Level-line Guided Edge Drawing for Robust Line Segment Detection ( http://arxiv.org/abs/2305.05883v1 )

ライセンス: Link先を確認
Xinyu Lin, Yingjie Zhou, Yipeng Liu, Ce Zhu(参考訳) 線分検出はコンピュータビジョンタスクにおいて基礎的な役割を果たす。 近年提案されている多数の検出手法のうち,エッジ描画に基づく検出効率の良さから注目が集まっている。 しかし, エッジ描画やラインセグメントフィッティングのための画像勾配が不十分なため, 既存の手法では十分に頑健ではない。 本研究は,線分が一貫した座標と水平線情報,すなわち勾配方向に垂直な単位ベクトルの両方でエッジ点に配置すべきという観測に基づいて,剛性線分検出(GEDRLSD)のための水平線ガイドエッジ描画を提案する。 レベルライン情報は、正確なエッジ描画のガイドラインとして機能するエッジトラッキングの潜在的な方向を提供する。 さらに、線分フィッティングにレベルライン情報を融合してロバスト性を向上させる。 数値実験により,提案したGEDRLSDアルゴリズムは最先端手法と比較して優位性を示した。

Line segment detection plays a cornerstone role in computer vision tasks. Among numerous detection methods that have been recently proposed, the ones based on edge drawing attract increasing attention owing to their excellent detection efficiency. However, the existing methods are not robust enough due to the inadequate usage of image gradients for edge drawing and line segment fitting. Based on the observation that the line segments should locate on the edge points with both consistent coordinates and level-line information, i.e., the unit vector perpendicular to the gradient orientation, this paper proposes a level-line guided edge drawing for robust line segment detection (GEDRLSD). The level-line information provides potential directions for edge tracking, which could be served as a guideline for accurate edge drawing. Additionally, the level-line information is fused in line segment fitting to improve the robustness. Numerical experiments show the superiority of the proposed GEDRLSD algorithm compared with state-of-the-art methods.
翻訳日:2023-05-11 14:25:51 公開日:2023-05-10
# グラフの曖昧さを解消した深部部分マルチラベル学習

Deep Partial Multi-Label Learning with Graph Disambiguation ( http://arxiv.org/abs/2305.05882v1 )

ライセンス: Link先を確認
Haobo Wang, Shisong Yang, Gengyu Lyu, Weiwei Liu, Tianlei Hu, Ke Chen, Songhe Feng, Gang Chen(参考訳) 部分的マルチラベル学習(pml)では、各データサンプルは複数の接地ラベルと他の偽陽性ラベルからなる候補ラベルセットを備えている。 近年,pml問題に対処するために,候補ラベルから正確な信頼度スコアを推定できるグラフベース手法が普及している。 しかし,従来のグラフベースのPML手法では線形多重ラベル分類器が一般的であり,優れた性能を達成できなかった。 本研究では,それらを深層モデルに拡張するためのいくつかの障害を取り除き,グラフ曖昧化(plain)を伴う新しい深層部分マルチラベルモデルを提案する。 具体的には、ラベルの信頼性を回復し、ラベルの依存関係を悪用するために、インスタンスレベルとラベルレベルの類似性を導入する。 各トレーニングエポックにおいて、ラベルは比較的正確な擬似ラベルを生成するためにインスタンスとラベルグラフ上に伝播され、数値ラベルに適合するように深層モデルを訓練する。 さらに,提案モデルのロバスト性を保証するため,リスク関数の注意深い解析を行う。 様々な合成データセットと3つの実世界のPMLデータセットに関する大規模な実験により、PLAINは最先端の手法よりもはるかに優れた結果が得られることが示された。

In partial multi-label learning (PML), each data example is equipped with a candidate label set, which consists of multiple ground-truth labels and other false-positive labels. Recently, graph-based methods, which demonstrate a good ability to estimate accurate confidence scores from candidate labels, have been prevalent to deal with PML problems. However, we observe that existing graph-based PML methods typically adopt linear multi-label classifiers and thus fail to achieve superior performance. In this work, we attempt to remove several obstacles for extending them to deep models and propose a novel deep Partial multi-Label model with grAph-disambIguatioN (PLAIN). Specifically, we introduce the instance-level and label-level similarities to recover label confidences as well as exploit label dependencies. At each training epoch, labels are propagated on the instance and label graphs to produce relatively accurate pseudo-labels; then, we train the deep model to fit the numerical labels. Moreover, we provide a careful analysis of the risk functions to guarantee the robustness of the proposed model. Extensive experiments on various synthetic datasets and three real-world PML datasets demonstrate that PLAIN achieves significantly superior results to state-of-the-art methods.
翻訳日:2023-05-11 14:25:39 公開日:2023-05-10
# 側方膝X線写真, デモグラフィーデータ, シンプティック・アセスメントに基づく膝蓋骨関節症の進展予測のための深層学習

Deep Learning for Predicting Progression of Patellofemoral Osteoarthritis Based on Lateral Knee Radiographs, Demographic Data and Symptomatic Assessments ( http://arxiv.org/abs/2305.05927v1 )

ライセンス: Link先を確認
Neslihan Bayramoglu, Martin Englund, Ida K. Haugen, Muneaki Ishijima, Simo Saarakkala(参考訳) 本研究では, 深層学習(DL)と注意機構を用いて, 7年間にわたる膝蓋骨関節症(PFOA)のX線学的進展を予測する枠組みを提案する。 本研究はMOST研究のベースラインから被験者(被験者1832名,膝3276名)を抽出した。 PF関節領域は, 側膝X線上の自動ランドマーク検出ツール(BoneFinder)を用いて同定した。 画像データに基づいてPFOA進行を予測するために, エンドツーエンドのDL法を開発した。 既知リスク要因に基づくベースラインのセットを開発し, 勾配押し上げ機 (GBM) を用いて解析した。 危険因子は, 年齢, 性別, BMI, WOMACスコア, 関節X線学的関節炎ステージ (KLスコア) であった。 最後に,画像および臨床データを用いてアンサンブルモデルを訓練した。 個々のモデルの中で, 深層畳み込みニューラルネットワークのアテンションモデルの性能は, AUCが0.856, APが0.431, 深層学習が0.4, AUC=0.832, AP=0.4, AUC=0.767, AP=0.334) で最高の性能を示した。 画像データと臨床変数をアンサンブルモデルに含めることで、統計的により強力なPFOA進行予測が可能となった(AUC = 0.865, AP=0.447)が、この小さなパフォーマンス向上の臨床的意義はいまだ不明である。 本研究では,画像および臨床変数を用いてPFOAの進行を予測する機械学習モデルの可能性を示した。 これらのモデルは、進行リスクの高い患者を識別し、新しい治療に優先順位を付けるために使用できる。 しかし,MOSTデータセットを用いた研究では,モデル精度は優れていたが,今後は外部の患者コホートを用いて検証する必要がある。

In this study, we propose a novel framework that utilizes deep learning (DL) and attention mechanisms to predict the radiographic progression of patellofemoral osteoarthritis (PFOA) over a period of seven years. This study included subjects (1832 subjects, 3276 knees) from the baseline of the MOST study. PF joint regions-of-interest were identified using an automated landmark detection tool (BoneFinder) on lateral knee X-rays. An end-to-end DL method was developed for predicting PFOA progression based on imaging data in a 5-fold cross-validation setting. A set of baselines based on known risk factors were developed and analyzed using gradient boosting machine (GBM). Risk factors included age, sex, BMI and WOMAC score, and the radiographic osteoarthritis stage of the tibiofemoral joint (KL score). Finally, we trained an ensemble model using both imaging and clinical data. Among the individual models, the performance of our deep convolutional neural network attention model achieved the best performance with an AUC of 0.856 and AP of 0.431; slightly outperforming the deep learning approach without attention (AUC=0.832, AP= 0.4) and the best performing reference GBM model (AUC=0.767, AP= 0.334). The inclusion of imaging data and clinical variables in an ensemble model allowed statistically more powerful prediction of PFOA progression (AUC = 0.865, AP=0.447), although the clinical significance of this minor performance gain remains unknown. This study demonstrated the potential of machine learning models to predict the progression of PFOA using imaging and clinical variables. These models could be used to identify patients who are at high risk of progression and prioritize them for new treatments. However, even though the accuracy of the models were excellent in this study using the MOST dataset, they should be still validated using external patient cohorts in the future.
翻訳日:2023-05-11 14:20:32 公開日:2023-05-10
# Decker: Commonsense Fact Verificationのための不均一な知識による二重チェック

Decker: Double Check with Heterogeneous Knowledge for Commonsense Fact Verification ( http://arxiv.org/abs/2305.05921v1 )

ライセンス: Link先を確認
Anni Zou, Zhuosheng Zhang and Hai Zhao(参考訳) commonsense fact verificationは、commonsense question-answering(qa)の挑戦的な分野として、あるcommonsenseクレームが正しいかどうかを事実を通して検証することを目的としている。 常識的質問に答えるには、様々なレベルの知識の組み合わせが必要である。 しかし、既存の研究は、構造化知識ベースから非構造的証拠または潜在的推論経路の把握に大きく依存しているが、同時に異種知識の利点を活用できなかった。 そこで本研究では,構造化知識と非構造化知識の潜伏関係を明らかにすることで,異種知識をブリッジ可能な共通知識事実検証モデルであるDeckerを提案する。 csqa2.0 と creak の2つの commonsense fact verification benchmark データセットにおける実験結果は、我々のデッカーの有効性を示し、さらなる分析によって推論を通じてより貴重な情報を取得する能力を検証する。

Commonsense fact verification, as a challenging branch of commonsense question-answering (QA), aims to verify through facts whether a given commonsense claim is correct or not. Answering commonsense questions necessitates a combination of knowledge from various levels. However, existing studies primarily rest on grasping either unstructured evidence or potential reasoning paths from structured knowledge bases, yet failing to exploit the benefits of heterogeneous knowledge simultaneously. In light of this, we propose Decker, a commonsense fact verification model that is capable of bridging heterogeneous knowledge by uncovering latent relationships between structured and unstructured knowledge. Experimental results on two commonsense fact verification benchmark datasets, CSQA2.0 and CREAK demonstrate the effectiveness of our Decker and further analysis verifies its capability to seize more precious information through reasoning.
翻訳日:2023-05-11 14:19:49 公開日:2023-05-10
# 大規模言語モデルのための高速分散推論

Fast Distributed Inference Serving for Large Language Models ( http://arxiv.org/abs/2305.05920v1 )

ライセンス: Link先を確認
Bingyang Wu, Yinmin Zhong, Zili Zhang, Gang Huang, Xuanzhe Liu, Xin Jin(参考訳) 大規模言語モデル(LLM)は、ChatGPTで実証された対話型AIアプリケーションの新しい世代のパワーである。 これらのアプリケーションのインタラクティブな性質は、モデル推論に低いジョブ完了時間(JCT)を必要とする。 既存のLLMサービスシステムは、ライン・オブ・ラインのブロッキングと長いJCTに苦しむ推論ジョブに対して、実行時補完処理を使用している。 LLMのための分散推論サービスシステムであるFastServeについて述べる。 FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。 FastServeはプリエンプティブスケジューリングを使用して、新しいスキップ結合マルチレベルフィードバックキュースケジューラでJCTを最小化する。 LLM推論の新たな半情報非依存設定に基づいて、スケジューラは入力長情報を利用して、到着するジョブ毎に適切な初期キューを割り当てる。 結合キューよりも優先度の高いキューは、削除を減らすためにスキップされる。 LLM推論のためのGPUメモリとホストメモリの中間状態を積極的にオフロードし、アップロードする効率的なGPUメモリ管理機構を設計する。 我々はNVIDIA FasterTransformerをベースにFastServeのシステムプロトタイプを構築した。 実験の結果, 最先端解Orcaと比較して, FastServe は平均 JCT を最大 5.1$\times$ と 6.4$\times$ に改善した。

Large language models (LLMs) power a new generation of interactive AI applications exemplified by ChatGPT. The interactive nature of these applications demand low job completion time (JCT) for model inference. Existing LLM serving systems use run-to-completion processing for inference jobs, which suffers from head-of-line blocking and long JCT. We present FastServe, a distributed inference serving system for LLMs. FastServe exploits the autoregressive pattern of LLM inference to enable preemption at the granularity of each output token. FastServe uses preemptive scheduling to minimize JCT with a novel skip-join Multi-Level Feedback Queue scheduler. Based on the new semi information-agnostic setting of LLM inference, the scheduler leverages the input length information to assign an appropriate initial queue for each arrival job to join. The higher priority queues than the joined queue are skipped to reduce demotions. We design an efficient GPU memory management mechanism that proactively offloads and uploads intermediate states between GPU memory and host memory for LLM inference. We build a system prototype of FastServe based on NVIDIA FasterTransformer. Experimental results show that compared to the state-of-the-art solution Orca, FastServe improves the average and tail JCT by up to 5.1$\times$ and 6.4$\times$, respectively.
翻訳日:2023-05-11 14:19:33 公開日:2023-05-10
# ラウンドトリップ型マルチバンド量子アクセスネットワーク

A round-trip multi-band quantum access network ( http://arxiv.org/abs/2305.05919v1 )

ライセンス: Link先を確認
Yuehan Xu, Tao Wang, Huanxi Zhao, Peng Huang and Guihua Zeng(参考訳) 量子ネットワークは、量子状態を利用してデータを送信し、古典的通信に革命をもたらし、いくつかのブレークスルー応用を可能にする。 量子鍵分布(QKD)は量子ネットワークの顕著な応用の一つであり、量子力学によるデータ伝送を保護することができる。 本研究では,ラウンドトリップ構造により,量子状態が円状に移動して情報を運ぶことができる拡張可能で費用対効果の高い量子アクセスネットワークを提案し,マルチユーザアクセスをサポートするためのマルチバンド手法を提案する。 ラウンドトリップ型マルチバンド量子アクセスネットワークに基づいて,連続可変QKD(CV-QKD)プロトコルを用いて,マルチユーザ安全な鍵共有を実現する。 CV-QKDの符号化特性により、異なる周波数帯域の2次成分を使用して、異なるユーザに対してキー情報を送信することができる。 本手法の有効性は包括的雑音解析により確認され,実証実験により検証される。 その結果、30km以下の標準ファイバー伝送では、各ユーザが過大なノイズ抑制と600 bpsレベルのセキュアキー生成を達成できることがわかった。 このようなネットワークは理論上マルチユーザーアクセスが可能であり、単純なモジュールをプラグインすることで拡張することができる。 そのため、短期的な大規模量子セキュアネットワークへの道を開く。

The quantum network makes use of the quantum states to transmit data, which will revolutionize classical communication and allow for some breakthrough applications. The quantum key distribution (QKD) is one prominent application of quantum networks, and can protect the data transmission through quantum mechanics. In this work, we propose an expandable and cost-effective quantum access network, in which the round-trip structure makes quantum states travel in a circle to carry the information, and the multi-band technique is proposed to support multi-user access. Based on the round-trip multi-band quantum access network, we realize multi-user secure key sharing through the continuous-variable QKD (CV-QKD) protocol. Due to the encoding characteristics of CV-QKD, the quadrature components in different frequency bands can be used to transmit key information for different users. The feasibility of this scheme is confirmed by comprehensive noise analysis, and is verified by a proof-of-principle experiment. The results show that each user can achieve excess noise suppression and 600 bps level secure key generation under 30 km standard fiber transmission. Such networks have the ability of multi-user access theoretically and could be expanded by plugging in simple modules. Therefore, it paves the way for near-term large-scale quantum secure networks.
翻訳日:2023-05-11 14:19:10 公開日:2023-05-10
# 雑音性集積・発火ニューロンネットワークに対する同期型マルチスケールソルバ

A synchronization-capturing multi-scale solver to the noisy integrate-and-fire neuron networks ( http://arxiv.org/abs/2305.05915v1 )

ライセンス: Link先を確認
Ziyu Du, Yantong Xie and Zhennan Zhou(参考訳) NLIF(noisy leaky integration-and-fire)モデルは、相互作用する多粒子系を顕微鏡レベルで持つニューロンネットワークの電圧構成を記述する。 大きなサイズのニューロンネットワークをシミュレーションする場合、粗粒平均場フォッカー・プランク方程式を計算し、マクロレベルでネットワークの電圧密度を解くことは、その高効率で信頼性の高い代替手段となる。 しかし、マクロモデルは、アクティブな発火イベントとかなりの同期ネットワークをシミュレートする際に、ネットワークの有効な結果を得ることができない。 本稿では,マクロソルバの低コスト化と顕微鏡ソルバの信頼性向上を両立させたnlifネットワークのためのマルチスケールソルバを提案する。 各時間ステップにおいて、マルチスケールソルバは、シミュレーションネットワークの発火速度が低い場合にはマクロソルバを使用し、発火速度が上昇する傾向がある場合は顕微鏡ソルバに切り替える。 さらに、マクロソルバと顕微鏡ソルバを高精度スイッチングアルゴリズムに統合し、マルチスケールソルバの精度を確保する。 The validity of the multi-scale solver is analyzed from two perspectives: firstly, we provide practically sufficient conditions that guarantee the mean-field approximation of the macroscopic model and present rigorous numerical analysis on simulation errors when coupling the two solvers; secondly, the numerical performance of the multi-scale solver is validated through simulating several large neuron networks, including networks with either instantaneous or periodic input currents which prompt active firing events over a period of time.

The noisy leaky integrate-and-fire (NLIF) model describes the voltage configurations of neuron networks with an interacting many-particles system at a microscopic level. When simulating neuron networks of large sizes, computing a coarse-grained mean-field Fokker-Planck equation solving the voltage densities of the networks at a macroscopic level practically serves as a feasible alternative in its high efficiency and credible accuracy. However, the macroscopic model fails to yield valid results of the networks when simulating considerably synchronous networks with active firing events. In this paper, we propose a multi-scale solver for the NLIF networks, which inherits the low cost of the macroscopic solver and the high reliability of the microscopic solver. For each temporal step, the multi-scale solver uses the macroscopic solver when the firing rate of the simulated network is low, while it switches to the microscopic solver when the firing rate tends to blow up. Moreover, the macroscopic and microscopic solvers are integrated with a high-precision switching algorithm to ensure the accuracy of the multi-scale solver. The validity of the multi-scale solver is analyzed from two perspectives: firstly, we provide practically sufficient conditions that guarantee the mean-field approximation of the macroscopic model and present rigorous numerical analysis on simulation errors when coupling the two solvers; secondly, the numerical performance of the multi-scale solver is validated through simulating several large neuron networks, including networks with either instantaneous or periodic input currents which prompt active firing events over a period of time.
翻訳日:2023-05-11 14:18:50 公開日:2023-05-10
# gaussian-coupled softmax層に基づく生成モデルと識別モデルのハイブリッド

A Hybrid of Generative and Discriminative Models Based on the Gaussian-coupled Softmax Layer ( http://arxiv.org/abs/2305.05912v1 )

ライセンス: Link先を確認
Hideaki Hayashi(参考訳) 生成モデルは、教師なしデータや校正された信頼度などの分類タスクに有利な特性を持つが、判別モデルは、モデル構造と学習アルゴリズムの単純さと、生成型データよりも優れる能力という観点で有利である。 本稿では,2つのモデルの特徴を示す1つのニューラルネットワーク(NN)において,識別モデルと生成モデルのハイブリッドを訓練する方法を提案する。 鍵となるアイデアはガウス結合ソフトマックス層であり、ガウス分布と結合したソフトマックス活性化関数を持つ完全連結層である。 この層をNNベースの分類器に埋め込むことができ、クラス後部分布とクラス条件データ分布の両方を推定することができる。 提案するハイブリッドモデルは,半教師付き学習と信頼度校正に適用可能であることを実証する。

Generative models have advantageous characteristics for classification tasks such as the availability of unsupervised data and calibrated confidence, whereas discriminative models have advantages in terms of the simplicity of their model structures and learning algorithms and their ability to outperform their generative counterparts. In this paper, we propose a method to train a hybrid of discriminative and generative models in a single neural network (NN), which exhibits the characteristics of both models. The key idea is the Gaussian-coupled softmax layer, which is a fully connected layer with a softmax activation function coupled with Gaussian distributions. This layer can be embedded into an NN-based classifier and allows the classifier to estimate both the class posterior distribution and the class-conditional data distribution. We demonstrate that the proposed hybrid model can be applied to semi-supervised learning and confidence calibration.
翻訳日:2023-05-11 14:18:27 公開日:2023-05-10
# 副敵攻撃者の進化的生成によるロバスト多エージェント協調

Robust multi-agent coordination via evolutionary generation of auxiliary adversarial attackers ( http://arxiv.org/abs/2305.05909v1 )

ライセンス: Link先を確認
Lei Yuan, Zi-Qian Zhang, Ke Xue, Hao Yin, Feng Chen, Cong Guan, Li-He Li, Chao Qian, Yang Yu(参考訳) 協調型マルチエージェント強化学習(CMARL)は多くの実世界の応用に有望であることが示されている。 これまでの研究は主に、MARL固有の課題(例えば、非定常性、クレジット割り当て、スケーラビリティ)を解決することで調整能力の改善に重点を置いていたが、異なる環境でのテストではポリシーの摂動問題を無視していた。 この問題は問題定式化や効率的なアルゴリズム設計では考慮されていない。 この問題に対処するために,我々はまず,あるチームのコーディネータが誤って,予測不能な数の悪意あるアクション攻撃に遭遇する可能性のある,限定的な政策反対者Dec-POMDP (LPA-Dec-POMDP) としてこの問題をモデル化する。 そこで我々は,訓練中に多種多種多様な補助的敵攻撃に遭遇し,様々な政策摂動下で高いロバスト多エージェントコーディネートを実現するためのROMANCE(Robust Multi-Agent Coordination)を提案する。 具体的には、特定の攻撃者に過度に適合するegoシステムを避けるために、攻撃者の高い攻撃品質と行動の多様性を保証するために最適化された一連の攻撃者を維持する。 品質の目標は、ego-systemコーディネーション効果を最小化することであり、スパースアクションに基づく新しいダイバーシティ・レギュレータを適用して攻撃者間の行動の多様化を図る。 エゴシステムは、維持された攻撃セットから選ばれた攻撃者の集団とペアになり、常に進化している攻撃者に対して交互に訓練される。 SMAC による複数のシナリオに対する大規模な実験により、ROMANCE は他のベースラインと比べて、同等あるいは優れたロバスト性および一般化能力を提供することが示された。

Cooperative multi-agent reinforcement learning (CMARL) has shown to be promising for many real-world applications. Previous works mainly focus on improving coordination ability via solving MARL-specific challenges (e.g., non-stationarity, credit assignment, scalability), but ignore the policy perturbation issue when testing in a different environment. This issue hasn't been considered in problem formulation or efficient algorithm design. To address this issue, we firstly model the problem as a limited policy adversary Dec-POMDP (LPA-Dec-POMDP), where some coordinators from a team might accidentally and unpredictably encounter a limited number of malicious action attacks, but the regular coordinators still strive for the intended goal. Then, we propose Robust Multi-Agent Coordination via Evolutionary Generation of Auxiliary Adversarial Attackers (ROMANCE), which enables the trained policy to encounter diversified and strong auxiliary adversarial attacks during training, thus achieving high robustness under various policy perturbations. Concretely, to avoid the ego-system overfitting to a specific attacker, we maintain a set of attackers, which is optimized to guarantee the attackers high attacking quality and behavior diversity. The goal of quality is to minimize the ego-system coordination effect, and a novel diversity regularizer based on sparse action is applied to diversify the behaviors among attackers. The ego-system is then paired with a population of attackers selected from the maintained attacker set, and alternately trained against the constantly evolving attackers. Extensive experiments on multiple scenarios from SMAC indicate our ROMANCE provides comparable or better robustness and generalization ability than other baselines.
翻訳日:2023-05-11 14:18:12 公開日:2023-05-10
# Dunhuang Murals inpainting における多段階プログレッシブ推論

Multi-stage Progressive Reasoning for Dunhuang Murals Inpainting ( http://arxiv.org/abs/2305.05902v1 )

ライセンス: Link先を確認
Wenjie Liu, Baokai Liu, Shiqiang Du, Yuqing Shi, Jiacheng Li, and Jianhua Wang(参考訳) ダンフアンの壁画は、破壊、破壊、表面の脆さ、長期の環境侵食の影響を受ける広範囲な剥がれに苦しむ。 画像塗装技術はデジタル壁画塗装の分野で広く用いられている。 一般的には、大きな面積の損傷を伴う壁画の塗装作業では、絵画の塗装方法が困難である。 本稿では,多段階進行的推論ネットワーク (mpr-net) の設計について述べる。 このネットワークは、損傷境界を再帰的に推論し、地域的テクスチャ制約を段階的に強化することができる。 また、壁画の様々な規模で多量の情報を適応的に融合するために、重要特徴の選択能力を高めるために、多機能特徴集約モジュール(mfa)が設計されている。 モデルの実行は、壁画復元装置の工程に類似している(すなわち、損傷した壁画の構造をまずグローバルに塗装し、さらに局所的なテクスチャの詳細を追加する)。 本手法は定性的および定量的な実験により評価され, 画像の塗装方法よりも優れた性能を示した。

Dunhuang murals suffer from fading, breakage, surface brittleness and extensive peeling affected by prolonged environmental erosion. Image inpainting techniques are widely used in the field of digital mural inpainting. Generally speaking, for mural inpainting tasks with large area damage, it is challenging for any image inpainting method. In this paper, we design a multi-stage progressive reasoning network (MPR-Net) containing global to local receptive fields for murals inpainting. This network is capable of recursively inferring the damage boundary and progressively tightening the regional texture constraints. Moreover, to adaptively fuse plentiful information at various scales of murals, a multi-scale feature aggregation module (MFA) is designed to empower the capability to select the significant features. The execution of the model is similar to the process of a mural restorer (i.e., inpainting the structure of the damaged mural globally first and then adding the local texture details further). Our method has been evaluated through both qualitative and quantitative experiments, and the results demonstrate that it outperforms state-of-the-art image inpainting methods.
翻訳日:2023-05-11 14:17:41 公開日:2023-05-10
# テキスト誘導高感度テクスチャモデル

Text-guided High-definition Consistency Texture Model ( http://arxiv.org/abs/2305.05901v1 )

ライセンス: Link先を確認
Zhibin Tang, Tiantong He(参考訳) 奥行き拡散モデルの出現により、テキスト誘導生成、編集、現実的なテクスチャの伝達はもはや困難ではない。 しかし、事前訓練された拡散モデルの限界のため、低解像度で一貫性のないテクスチャしか生成できない。 そこで本稿では,テキストプロンプトに応じて3dメッシュに対して高精細で一貫性のあるテクスチャを生成する新しい手法であるhigh-definition consistency texture model(hctm)を提案する。 本研究では,事前学習した深度画像拡散モデルを利用して,テキストプロンプトと深度マップに基づいて単一視点結果を生成する。 パラメータ効率の良いファインチューニングで拡散モデルを微調整し、生成した結果のスタイルを迅速に学習し、マルチ拡散戦略を適用して、異なる視点から高分解能で一貫した結果を生成する。 さらに,バックプロパゲーションによるテクスチャにノイズが現れるのを防止する戦略を提案する。 提案手法は,3dメッシュに対して高精細で一貫性のあるテクスチャを生成するための有望な成果を,一連の実験で実証した。

With the advent of depth-to-image diffusion models, text-guided generation, editing, and transfer of realistic textures are no longer difficult. However, due to the limitations of pre-trained diffusion models, they can only create low-resolution, inconsistent textures. To address this issue, we present the High-definition Consistency Texture Model (HCTM), a novel method that can generate high-definition and consistent textures for 3D meshes according to the text prompts. We achieve this by leveraging a pre-trained depth-to-image diffusion model to generate single viewpoint results based on the text prompt and a depth map. We fine-tune the diffusion model with Parameter-Efficient Fine-Tuning to quickly learn the style of the generated result, and apply the multi-diffusion strategy to produce high-resolution and consistent results from different viewpoints. Furthermore, we propose a strategy that prevents the appearance of noise on the textures caused by backpropagation. Our proposed approach has demonstrated promising results in generating high-definition and consistent textures for 3D meshes, as demonstrated through a series of experiments.
翻訳日:2023-05-11 14:17:22 公開日:2023-05-10
# DPMLBench: 微分プライベート機械学習の全体的評価

DPMLBench: Holistic Evaluation of Differentially Private Machine Learning ( http://arxiv.org/abs/2305.05900v1 )

ライセンス: Link先を確認
Chengkun Wei, Minghu Zhao, Zhikun Zhang, Min Chen, Wenlong Meng, Bo Liu, Yuan Fan, Wenzhi Chen(参考訳) 差分プライバシー(DP)は、プライバシー漏洩を定量化する厳密な数学的定義として、プライバシー保護の標準として広く受け入れられている。 強力な機械学習技術と組み合わせることで、微分プライベート機械学習(DPML)がますます重要になる。 最も古典的なDPMLアルゴリズムとして、DP-SGDは実用性に大きな損失をもたらし、DPMLの実際の展開を妨げる。 近年,DP-SGDに基づくアルゴリズムの改良が提案されている。 しかし、これらの研究は孤立しており、アルゴリズムで提案される改善の性能を包括的に測定することはできない。 さらに重要なのは、これらのDPMLアルゴリズムの改善を実用性、防御能力、一般化可能性で比較する包括的な研究が欠如していることだ。 このギャップを,画像分類タスクにおけるメンバーシップ推論攻撃(MIA)に対する実用性と防御能力に関する改良DPMLアルゴリズムの総合的な測定によって埋める。 まず,機械学習のライフサイクルにおける改善点の分類について述べる。 分類学に基づいて,改良されたDPMLアルゴリズムの広範な測定を共同で行う。 また,その評価において,最先端ラベル差分プライバシー (label dp) アルゴリズムについても取り上げる。 実験結果によると,DPはMIAに対して効果的に防御でき,サンプルごとの勾配クリッピングなどの感度バウンド技術は防御に重要な役割を担っている。 また、モデルユーティリティをメンテナンスし、miasに対してより効果的に防御できる改善も検討しています。 実験により、ラベルDPアルゴリズムは実用性損失が少なく、MIAに脆弱であることが示された。 我々は,DPMLアルゴリズムのデプロイを可能にするモジュール型再利用可能なソフトウェアDPMLBenchを実装し,研究者や実践者のためのベンチマークツールとして機能する。

Differential privacy (DP), as a rigorous mathematical definition quantifying privacy leakage, has become a well-accepted standard for privacy protection. Combined with powerful machine learning techniques, differentially private machine learning (DPML) is increasingly important. As the most classic DPML algorithm, DP-SGD incurs a significant loss of utility, which hinders DPML's deployment in practice. Many studies have recently proposed improved algorithms based on DP-SGD to mitigate utility loss. However, these studies are isolated and cannot comprehensively measure the performance of improvements proposed in algorithms. More importantly, there is a lack of comprehensive research to compare improvements in these DPML algorithms across utility, defensive capabilities, and generalizability. We fill this gap by performing a holistic measurement of improved DPML algorithms on utility and defense capability against membership inference attacks (MIAs) on image classification tasks. We first present a taxonomy of where improvements are located in the machine learning life cycle. Based on our taxonomy, we jointly perform an extensive measurement study of the improved DPML algorithms. We also cover state-of-the-art label differential privacy (Label DP) algorithms in the evaluation. According to our empirical results, DP can effectively defend against MIAs, and sensitivity-bounding techniques such as per-sample gradient clipping play an important role in defense. We also explore some improvements that can maintain model utility and defend against MIAs more effectively. Experiments show that Label DP algorithms achieve less utility loss but are fragile to MIAs. To support our evaluation, we implement a modular re-usable software, DPMLBench, which enables sensitive data owners to deploy DPML algorithms and serves as a benchmark tool for researchers and practitioners.
翻訳日:2023-05-11 14:17:00 公開日:2023-05-10
# 非可換ゲージ理論におけるハミルトン格子yang-mills理論の弦ネット定式化と量子多体傷

String-net formulation of Hamiltonian lattice Yang-Mills theories and quantum many-body scars in a nonabelian gauge theory ( http://arxiv.org/abs/2305.05950v1 )

ライセンス: Link先を確認
Tomoya Hayata, Yoshimasa Hidaka(参考訳) 我々は、ガウス法則を満たす物理状態を表現するのに有用な基礎を提供するスピンネットワークに基づくハミルトン格子ヤン・ミルズ理論を研究する。 我々は、$(2+1)$次元における$\mathrm{SU}(2)$ Yang-Mills理論に焦点を当てる。 弦ネットモデルに従い、(離散化)$\mathrm{su}(2)$ゲージ対称性を量子群、すなわち$\mathrm{su}(2)_k$として尊重するq$変形に基づく格子yang-mills理論のkogut-susskindハミルトニアンの効率的な正則化を導入し、古典アルゴリズムと量子アルゴリズムの両方で格子yang-mills理論の効率的な実装を可能にする。 正規化ハミルトニアンを用いて、非アーベルゲージ理論における量子スカーを研究する。 量子スカー(quantum scars)は、制約された量子多体系で生じる非熱エネルギー固有状態である。 非アーベルゲージ理論においても、アーベルゲージ理論で発見されているゼロモードからの量子的傷が生じる。 また, SU(2)$_k$ と SU(3)$_k$ の1-プラケットモデルのスペクトルも示し, 定式化のカットオフ依存性を議論するための$q$-deformation に基づく。

We study the Hamiltonian lattice Yang-Mills theory based on spin networks that provide a useful basis to represent the physical states satisfying the Gauss law constraints. We focus on $\mathrm{SU}(2)$ Yang-Mills theory in $(2+1)$ dimensions. Following the string-net model, we introduce an efficient regularization of the Kogut-Susskind Hamiltonian of lattice Yang-Mills theory based on the $q$ deformation, which respects the (discretized) $\mathrm{SU}(2)$ gauge symmetry as quantum group, i.e., $\mathrm{SU}(2)_k$, and enables efficient implementation of the lattice Yang-Mills theory both in classical and quantum algorithms. Using the regularized Hamiltonian, we study quantum scars in a nonabelian gauge theory. Quantum scars are nonthermal energy eigenstates arising in the constrained quantum many-body systems. We find that quantum scars from zero modes, which have been found in abelian gauge theories arise even in a nonabelian gauge theory. We also show the spectrum of a single-plaquette model for SU(2)$_k$ and SU(3)$_k$ with naive cutoff and that based on the $q$-deformation to discuss cutoff dependence of the formulation.
翻訳日:2023-05-11 14:10:09 公開日:2023-05-10
# マルチパス変換器はより優れている:ニューラルマシン翻訳の事例研究

Multi-Path Transformer is Better: A Case Study on Neural Machine Translation ( http://arxiv.org/abs/2305.05948v1 )

ライセンス: Link先を確認
Ye Lin, Shuhan Zhou, Yanyang Li, Anxiang Ma, Tong Xiao, Jingbo Zhu(参考訳) 機械学習におけるモデルパフォーマンスは、長年、モデルサイズと権力-法則関係にあった。 パラメータ効率を考慮に入れた最近の研究は、より優れた性能を達成するために幅よりもモデル深度を増やすことに焦点を当てている。 本稿では,パラメータ効率のよいマルチパス構造を用いてモデル幅がトランスフォーマーモデルに与える影響について検討する。 異なる経路から抽出された特徴を融合させるために,各サブレイヤに,各パスの終端における正規化,より多くの特徴を生成するための安価な操作,および全ての特徴を柔軟に融合させる学習可能な重み付け機構の3つの操作を追加する。 12のwmt機械翻訳タスクに関する広範囲な実験により、同じパラメータ数で、より浅いマルチパスモデルがより深いモデルと同等あるいはそれ以上のパフォーマンスを達成できることが示されている。 マルチパス構造にもっと注意を払うべきであり、より大規模なトランスフォーマーをトレーニングするためには、モデルの深さと幅のバランスを取る必要がある。

For years the model performance in machine learning obeyed a power-law relationship with the model size. For the consideration of parameter efficiency, recent studies focus on increasing model depth rather than width to achieve better performance. In this paper, we study how model width affects the Transformer model through a parameter-efficient multi-path structure. To better fuse features extracted from different paths, we add three additional operations to each sublayer: a normalization at the end of each path, a cheap operation to produce more features, and a learnable weighted mechanism to fuse all features flexibly. Extensive experiments on 12 WMT machine translation tasks show that, with the same number of parameters, the shallower multi-path model can achieve similar or even better performance than the deeper model. It reveals that we should pay more attention to the multi-path structure, and there should be a balance between the model depth and width to train a better large-scale Transformer.
翻訳日:2023-05-11 14:09:41 公開日:2023-05-10
# iEdit:Weak Supervisionでテキストガイド画像の編集をローカル化

iEdit: Localised Text-guided Image Editing with Weak Supervision ( http://arxiv.org/abs/2305.05947v1 )

ライセンス: Link先を確認
Rumeysa Bodur, Erhan Gundogdu, Binod Bhattarai, Tae-Kyun Kim, Michael Donoser, Loris Bazzani(参考訳) 拡散モデル(DM)は,大規模データセットを用いてテキストガイダンスを用いて現実的な画像を生成する。 しかし、生成された画像の出力空間における制御性は限定的である。 本稿では,テキスト誘導画像編集のための新しい学習手法,すなわち,ソース画像に条件付き画像を生成し,テキスト編集プロンプトを提案する。 対象画像を含む完全注釈付きデータセットは存在しないため、従来のアプローチでは、対象画像のない被験者固有の微調整やコントラスト学習を採用しており、ソース画像の忠実さの維持に問題がある。 入力画像とキャプチャ対が与えられた記述的編集プロンプトを持つ擬似目標画像を含むlaion-5bから派生したデータセットを自動構築する。 このデータセットは、編集プロンプトに条件付きソース画像の潜時ノイズから擬似ターゲット画像を生成するために、弱教師付き損失関数を導入する柔軟性を提供する。 画像中の空間構造を局所的に編集・保存・修正することを奨励するために, セグメンテーションマスクを用いて, 任意の推論時に編集をガイドする損失関数を提案する。 我々のモデルは、200Kサンプルと制約付きGPUリソースで構築されたデータセットに基づいて訓練されている。 画像の忠実度、クリップアライメントスコア、そして生成した画像と実際の画像の両方を質的に編集するのに好適な結果を示す。

Diffusion models (DMs) can generate realistic images with text guidance using large-scale datasets. However, they demonstrate limited controllability in the output space of the generated images. We propose a novel learning method for text-guided image editing, namely \texttt{iEdit}, that generates images conditioned on a source image and a textual edit prompt. As a fully-annotated dataset with target images does not exist, previous approaches perform subject-specific fine-tuning at test time or adopt contrastive learning without a target image, leading to issues on preserving the fidelity of the source image. We propose to automatically construct a dataset derived from LAION-5B, containing pseudo-target images with their descriptive edit prompts given input image-caption pairs. This dataset gives us the flexibility of introducing a weakly-supervised loss function to generate the pseudo-target image from the latent noise of the source image conditioned on the edit prompt. To encourage localised editing and preserve or modify spatial structures in the image, we propose a loss function that uses segmentation masks to guide the editing during training and optionally at inference. Our model is trained on the constructed dataset with 200K samples and constrained GPU resources. It shows favourable results against its counterparts in terms of image fidelity, CLIP alignment score and qualitatively for editing both generated and real images.
翻訳日:2023-05-11 14:09:24 公開日:2023-05-10
# Adapter-TST:多属性テキストスタイル転送のためのパラメータ効率向上手法

Adapter-TST: A Parameter Efficient Method for Multiple-Attribute Text Style Transfer ( http://arxiv.org/abs/2305.05945v1 )

ライセンス: Link先を確認
Zhiqiang Hu, Roy Ka-Wei Lee, Nancy F. Chen(参考訳) 大量の計算資源と特定のタスクに必要なラベル付きデータのために、微調整による多属性テキストスタイルの転送に大規模言語モデルを適用することは困難である。 本稿では、事前学習したモデルのパラメータを凍結し、複数属性のテキストスタイル転送モデルの開発を可能にするフレームワークである adaptertst を導入することで、この課題に対処する。 バックボーンモデルとしてBARTを使用することで、Adapter-TSTは異なるニューラルネットワークを使用して、BARTに接続されたプラグインのような異なる属性情報をキャプチャする。 本手法では感情・時制・声などの複数の属性を制御でき、アダプタのアーキテクチャによって属性に敬意を表した複数の出力を生成するか、同じ文で合成編集を行うように構成する。 従来の感情伝達タスクと多属性伝達タスクの両方において提案したモデルを評価する。 実験の結果、Adapter-TSTは、最先端のベースラインをはるかに少ない計算資源で上回ることを示した。 また,各アダプタが特定のスタイル属性を効果的にキャプチャし,構成編集を行うように構成できることを実証的に示した。

Adapting a large language model for multiple-attribute text style transfer via fine-tuning can be challenging due to the significant amount of computational resources and labeled data required for the specific task. In this paper, we address this challenge by introducing AdapterTST, a framework that freezes the pre-trained model's original parameters and enables the development of a multiple-attribute text style transfer model. Using BART as the backbone model, Adapter-TST utilizes different neural adapters to capture different attribute information, like a plug-in connected to BART. Our method allows control over multiple attributes, like sentiment, tense, voice, etc., and configures the adapters' architecture to generate multiple outputs respected to attributes or compositional editing on the same sentence. We evaluate the proposed model on both traditional sentiment transfer and multiple-attribute transfer tasks. The experiment results demonstrate that Adapter-TST outperforms all the state-of-the-art baselines with significantly lesser computational resources. We have also empirically shown that each adapter is able to capture specific stylistic attributes effectively and can be configured to perform compositional editing.
翻訳日:2023-05-11 14:09:04 公開日:2023-05-10
# 多言語LLMは、アライメントを持つ言語間インコンテキスト学習者より優れている

Multilingual LLMs are Better Cross-lingual In-context Learners with Alignment ( http://arxiv.org/abs/2305.05940v1 )

ライセンス: Link先を確認
Eshaan Tanwar, Manish Borthakur, Subhabrata Dutta, Tanmoy Chakraborty(参考訳) インコンテキスト学習(ICL)は、大規模言語モデルが勾配更新なしでいくつかのラベル付きサンプルに条件付きテストラベルを推測できるようになり、展開される。 ICL対応の大規模言語モデルは、低リソース環境での繰り返しアノテーションコストを回避しようとする有望なステップを提供する。 しかし、一握りの過去の研究がiclを言語横断で探究しており、そこでは、ラベル知識を高いリソース言語から低リソース言語に移す必要性が極めて重要である。 このギャップを埋めるため,クロスリンガルテキスト分類のための icl の詳細な解析を行った。 入力空間と出力空間のアライメントが欠如していることから,言語間ICLの場合,プロンプト・コンテキストを構成するためにランダムな入力-ラベルペアを選択する一般的なモードが著しく制限されていることがわかった。 そこで本稿では,新しいプロンプト構築手法であるx-insta(cross-lingual in-context source-target alignment)を提案する。 入力例のセマンティクスにコヒーレンスを注入し、ソース言語とターゲット言語をまたいだタスクベースのアライメントにより、X-InSTAは44の異なる言語対を用いて3つの異なるタスクに対して大きなマージンでランダムなプロンプト選択を上回ります。

In-context learning (ICL) unfolds as large language models become capable of inferring test labels conditioned on a few labeled samples without any gradient update. ICL-enabled large language models provide a promising step forward toward bypassing recurrent annotation costs in a low-resource setting. Yet, only a handful of past studies have explored ICL in a cross-lingual setting, in which the need for transferring label-knowledge from a high-resource language to a low-resource one is immensely crucial. To bridge the gap, we provide the first in-depth analysis of ICL for cross-lingual text classification. We find that the prevalent mode of selecting random input-label pairs to construct the prompt-context is severely limited in the case of cross-lingual ICL, primarily due to the lack of alignment in the input as well as the output spaces. To mitigate this, we propose a novel prompt construction strategy -- Cross-lingual In-context Source-Target Alignment (X-InSTA). With an injected coherence in the semantics of the input examples and a task-based alignment across the source and target languages, X-InSTA is able to outperform random prompt selection by a large margin across three different tasks using 44 different cross-lingual pairs.
翻訳日:2023-05-11 14:08:45 公開日:2023-05-10
# v2x-seq:車両-インフラ協調認識と予測のための大規模シーケンシャルデータセット

V2X-Seq: A Large-Scale Sequential Dataset for Vehicle-Infrastructure Cooperative Perception and Forecasting ( http://arxiv.org/abs/2305.05938v1 )

ライセンス: Link先を確認
Haibao Yu, Wenxian Yang, Hongzhi Ruan, Zhenwei Yang, Yingjuan Tang, Xu Gao, Xin Hao, Yifeng Shi, Yifeng Pan, Ning Sun, Juan Song, Jirui Yuan, Ping Luo, Zaiqing Nie(参考訳) インフラと車両サイドの情報を利用して周囲の交通参加者の行動を追跡し予測することは、自動運転における意思決定と安全性を大幅に改善することができる。 しかし、実世界のシーケンシャルデータセットがないため、この分野の研究は限られている。 この問題に対処するために,v2x-seqというデータフレーム,軌道,ベクトルマップ,自然景観からキャプチャされた交通信号を含む,最初の大規模シーケンシャルデータセットを紹介する。 V2X-Seqは、95のシナリオから15,000フレーム以上をキャプチャしたシーケンシャルな知覚データセットと、約80,000のインフラストラクチャビューシナリオ、80,000の車両ビューシナリオ、28の交差点のエリアからキャプチャされた5万の協調ビューシナリオを含むトラジェクティブな予測データセットの2つで構成されている。 V2X-Seqをベースとして,VIC3Dトラッキング,オンラインVIC予測,オフラインVIC予測という,VIC自動運転のための新しい3つのタスクを紹介した。 導入されたタスクのベンチマークも提供します。 データ、コード、最新の情報は、 \href{https://github.com/AIR-THU/DAIR-V2X-Seq}{https://github.com/AIR-THU/DAIR-V2X-Seq} で見つける。

Utilizing infrastructure and vehicle-side information to track and forecast the behaviors of surrounding traffic participants can significantly improve decision-making and safety in autonomous driving. However, the lack of real-world sequential datasets limits research in this area. To address this issue, we introduce V2X-Seq, the first large-scale sequential V2X dataset, which includes data frames, trajectories, vector maps, and traffic lights captured from natural scenery. V2X-Seq comprises two parts: the sequential perception dataset, which includes more than 15,000 frames captured from 95 scenarios, and the trajectory forecasting dataset, which contains about 80,000 infrastructure-view scenarios, 80,000 vehicle-view scenarios, and 50,000 cooperative-view scenarios captured from 28 intersections' areas, covering 672 hours of data. Based on V2X-Seq, we introduce three new tasks for vehicle-infrastructure cooperative (VIC) autonomous driving: VIC3D Tracking, Online-VIC Forecasting, and Offline-VIC Forecasting. We also provide benchmarks for the introduced tasks. Find data, code, and more up-to-date information at \href{https://github.com/AIR-THU/DAIR-V2X-Seq}{https://github.com/AIR-THU/DAIR-V2X-Seq}.
翻訳日:2023-05-11 14:08:17 公開日:2023-05-10
# Zero-Shot Commonsense Question Answeringのためのマルチホップコモンセンス知識注入フレームワーク

Multi-hop Commonsense Knowledge Injection Framework for Zero-Shot Commonsense Question Answering ( http://arxiv.org/abs/2305.05936v1 )

ライセンス: Link先を確認
Xin Guan, Biwei Cao, Qingqing Gao, Zheng Yin, Bo Liu, Jiuxin Cao(参考訳) commonsense question answering(qa)研究では、機械がcommonsenseの知識に基づいて質問に答える必要がある。 しかし、この研究は研究の基礎としてデータに注釈をつけるのに高価な労力を必要とし、微調整パラダイムに依存するモデルは一般的な常識的推論能力を学ぶのではなく、特定のタスクにのみ適用される。 より堅牢な方法として、ゼロショットコモンセンス質問応答は良い見通しを示している。 現在のゼロショットフレームワークは、コモンセンス知識グラフ(KG)のトリプルを事前訓練されたデータソースとしてQA形式のサンプルに変換し、モデルにコモンセンス知識を組み込もうとしている。 しかし、この手法は、コモンセンス推論において重要な問題であるKGのマルチホップ関係を無視している。 本稿では,新しいコモンセンス知識注入フレームワークを提案する。 具体的には、言語論理に適合するKGにおけるマルチホップ推論パラダイムについて検討し、さらにKGに基づく2つのマルチホップQA生成手法を提案する。 そして,コントラスト学習を用いて合成QAデータセットを用いてモデルを事前学習し,マルチホップコモンセンス知識を注入する。 5つのコモンセンスな質問応答ベンチマークに関する大規模な実験は、我々のフレームワークが最先端のパフォーマンスを達成することを示す。

Commonsense question answering (QA) research requires machines to answer questions based on commonsense knowledge. However, this research requires expensive labor costs to annotate data as the basis of research, and models that rely on fine-tuning paradigms only apply to specific tasks, rather than learn a general commonsense reasoning ability. As a more robust method, zero-shot commonsense question answering shows a good prospect. The current zero-shot framework tries to convert triples in commonsense knowledge graphs (KGs) into QA-form samples as the pre-trained data source to incorporate commonsense knowledge into the model. However, this method ignores the multi-hop relationship in the KG, which is also an important central problem in commonsense reasoning. In this paper, we propose a novel multi-hop commonsense knowledge injection framework. Specifically, it explores multi-hop reasoning paradigm in KGs that conform to linguistic logic, and we further propose two multi-hop QA generation methods based on KGs. Then, we utilize contrastive learning to pre-train the model with the synthetic QA dataset to inject multi-hop commonsense knowledge. Extensive experiments on five commonsense question answering benchmarks demonstrate that our framework achieves state-of-art performance.
翻訳日:2023-05-11 14:07:50 公開日:2023-05-10
# スペクトラム呼吸: 空中フェデレート学習を干渉から守る

Spectrum Breathing: Protecting Over-the-Air Federated Learning Against Interference ( http://arxiv.org/abs/2305.05933v1 )

ライセンス: Link先を確認
Zhanwei Wang, Kaibin Huang, and Yonina C. Eldar(参考訳) Federated Learning(FL)は、分散モバイルデータから人工知能を蒸留するための広く採用されているパラダイムである。 しかし、モバイルネットワークにおけるFLの展開は、近隣の細胞やジャマーからの干渉にさらされることによって損なわれる可能性がある。 既存の干渉緩和技術は、実際には高価であるマルチセル協調または少なくとも干渉チャネル状態情報を必要とする。 一方、干渉をノイズとして扱う電力制御は、限られた電力予算のため効果がなく、この機構は干渉源による対策を誘発する可能性がある。 FLを干渉から保護するための実践的アプローチとして,帯域幅拡大を伴わない干渉を抑制するために,確率的勾配プルーニングとスペクトル拡散をカスケードするスペクトルブリーチングを提案する。 コストは、刈り込みによる学習速度の優雅な劣化を利用することにより、学習遅延を高くする。 2つの操作を同期させて、そのレベルが同じパラメータ、呼吸深さで制御されるようにします。 パラメータを最適に制御するために、スペクトル呼吸を伴う空気上flの収束解析法であるairbreathing flを開発した。 呼吸深度によって制御された勾配プルーニングと干渉誘発誤差のトレードオフを示す。 SIRとモデルサイズが与えられた場合、トレードオフの最適化は、チャネルや学習プロセスに固定または適応可能な呼吸深度を制御するための2つのスキームを与える。 実験で示されるように、従来の空気上flが強い干渉の存在下で収束しないシナリオでは、固定または適応呼吸深さの空気呼吸flは、適応スキームが理想に近い性能を達成する場合に収束する。

Federated Learning (FL) is a widely embraced paradigm for distilling artificial intelligence from distributed mobile data. However, the deployment of FL in mobile networks can be compromised by exposure to interference from neighboring cells or jammers. Existing interference mitigation techniques require multi-cell cooperation or at least interference channel state information, which is expensive in practice. On the other hand, power control that treats interference as noise may not be effective due to limited power budgets, and also that this mechanism can trigger countermeasures by interference sources. As a practical approach for protecting FL against interference, we propose Spectrum Breathing, which cascades stochastic-gradient pruning and spread spectrum to suppress interference without bandwidth expansion. The cost is higher learning latency by exploiting the graceful degradation of learning speed due to pruning. We synchronize the two operations such that their levels are controlled by the same parameter, Breathing Depth. To optimally control the parameter, we develop a martingale-based approach to convergence analysis of Over-the-Air FL with spectrum breathing, termed AirBreathing FL. We show a performance tradeoff between gradient-pruning and interference-induced error as regulated by the breathing depth. Given receive SIR and model size, the optimization of the tradeoff yields two schemes for controlling the breathing depth that can be either fixed or adaptive to channels and the learning process. As shown by experiments, in scenarios where traditional Over-the-Air FL fails to converge in the presence of strong interference, AirBreahing FL with either fixed or adaptive breathing depth can ensure convergence where the adaptive scheme achieves close-to-ideal performance.
翻訳日:2023-05-11 14:07:28 公開日:2023-05-10
# 量子鍵分布実装のためのセキュリティフレームワーク

A security framework for quantum key distribution implementations ( http://arxiv.org/abs/2305.05930v1 )

ライセンス: Link先を確認
Guillermo Curr\'as-Lorenzo, Margarida Pereira, Go Kato, Marcos Curty, Kiyoshi Tamaki(参考訳) 量子鍵分布(QKD)は、理論的には暗号の聖杯、盗聴に対する情報理論のセキュリティを達成できる。 しかし、実際には、セキュリティ証明で仮定される数学的モデルと実装で使用されるデバイスの実際の機能との相違は、この目標を達成するのを妨げている。 測定デバイス非依存のqkdは、任意に欠陥のある受信機によるセキュリティを保証するので、欠落したステップはソースの確保である。 いくつかの証明は特定の情報源の不完全性にのみ適合するが、他の証明はシステムの性能、すなわち通信速度と距離を著しく損なう。 一方、デバイス非依存のqkdは、メモリ攻撃に弱いため、デバイス非依存な方法でユーザデバイスからの情報漏洩を取り込むことができず、その性能は劣っているため、満足のいくソリューションとは程遠い。 本稿では,高パフォーマンスを維持しつつ,すべての実用的情報源の不完全さに対して堅牢なセキュリティ証明を提示することにより,この課題を解決する。 さらに,本証明には最小限の状態キャラクタリゼーションが必要であり,現実の実装への応用が容易である。 これらの利点により、QKDソースの標準化の基盤となると予測している。

Quantum key distribution (QKD) can theoretically achieve the Holy Grail of cryptography, information-theoretic security against eavesdropping. However, in practice, discrepancies between the mathematical models assumed in security proofs and the actual functioning of the devices used in implementations prevent it from reaching this goal. Since measurement-device-independent QKD guarantees security with arbitrarily flawed receivers, the missing step is securing the sources. So far, all efforts in this regard have come at a price; some proofs are suitable only for particular source imperfections, while others severely compromise the system's performance, i.e., its communication speed and distance. Meanwhile, device-independent QKD is far from being a satisfactory solution, as it is vulnerable to memory attacks, it cannot incorporate information leakage from the user devices in a device-independent manner, and its performance is poor. Here, we solve this crucial problem by presenting a security proof that is robust against all practical source imperfections while maintaining high performance. Moreover, our proof requires minimal state characterization, which facilitates its application to real-life implementations. We anticipate that, thanks to these advantages, it will serve as a basis for the standardization of QKD sources.
翻訳日:2023-05-11 14:06:59 公開日:2023-05-10
# WikiSQE: Wikipediaにおける文質評価のための大規模データセット

WikiSQE: A Large-Scale Dataset for Sentence Quality Estimation in Wikipedia ( http://arxiv.org/abs/2305.05928v1 )

ライセンス: Link先を確認
Kenichiro Ando, Satoshi Sekine, Mamoru Komachi(参考訳) wikipediaは誰でも編集できるので、様々な質の高い文章が含まれている。 そのためウィキペディアには質の悪い編集がいくつか含まれており、しばしば他の編集者によってマークアップされる。 編集者のレビューはwikipediaの信頼性を高めるが、すべての編集されたテキストをチェックするのは難しい。 このプロセスを支援することは非常に重要であるが、研究のための大規模で包括的なデータセットは現存していない。 本稿では,ウィキペディアにおける文質推定のための大規模データセットであるWikiSQEを提案する。 それぞれの文はウィキペディアの改訂履歴全体から抽出され、対象の品質ラベルを慎重に調査し、選択した。 WikiSQEには約3.4Mの文と153の品質ラベルがある。 競合する機械学習モデルを用いた自動分類実験では、引用や構文・意味論、命題に問題がある文はより検出が難しいことが判明した。 さらに,データセットの一般化性を評価するためのエッセイ自動評価実験を行った。 WikiSQEでトレーニングされたモデルは、バニラモデルよりも優れた性能を示し、他のドメインでの有用性を示す。 WikiSQEはNLPの他のタスクにとって貴重なリソースであると期待されている。

Wikipedia can be edited by anyone and thus contains various quality sentences. Therefore, Wikipedia includes some poor-quality edits, which are often marked up by other editors. While editors' reviews enhance the credibility of Wikipedia, it is hard to check all edited text. Assisting in this process is very important, but a large and comprehensive dataset for studying it does not currently exist. Here, we propose WikiSQE, the first large-scale dataset for sentence quality estimation in Wikipedia. Each sentence is extracted from the entire revision history of Wikipedia, and the target quality labels were carefully investigated and selected. WikiSQE has about 3.4 M sentences with 153 quality labels. In the experiment with automatic classification using competitive machine learning models, sentences that had problems with citation, syntax/semantics, or propositions were found to be more difficult to detect. In addition, we conducted automated essay scoring experiments to evaluate the generalizability of the dataset. We show that the models trained on WikiSQE perform better than the vanilla model, indicating its potential usefulness in other domains. WikiSQE is expected to be a valuable resource for other tasks in NLP.
翻訳日:2023-05-11 14:06:38 公開日:2023-05-10
# pearson-matthews相関係数による二元および多元分類と仮説検定

Pearson-Matthews correlation coefficients for binary and multinary classification and hypothesis testing ( http://arxiv.org/abs/2305.05974v1 )

ライセンス: Link先を確認
Petre Stoica and Prabhu Babu(参考訳) ピアソン・マシューズ相関係数(英: Pearson-Matthews correlation coefficient, MCC)は、二項分類法や仮説検定法(英: hypothesis testing method)のパフォーマンスにおいて最も有用な指標の1つであると考えられている(簡潔性のため、分類用語を全体にわたって使用するが、論文で論じられた概念や手法は仮説検定にも用いている)。 多重分類タスク (2つ以上のクラスを持つ) に対して、MCCの既存の拡張(一般に $\text{R}_{\text{K}}$ metric と呼ばれる)は、多くのアプリケーションでうまく使われている。 本稿は、MCCの特定の側面に関する入門的な議論から始まる。 次に,本論文の主な焦点である多項分類の話題について論じ,その実用的・理論的重要性にもかかわらず,二項分類の話題よりも開発が進んでいないように思われる。 我々は、$\text{r}_{\text{k}}$に関する議論に続いて、多変量ピアソン相関係数 (mpc) から派生した多重化分類のための他の2つの指標を導入する。 我々は、$\text{r}_{\text{k}}$ と mpc メトリクスの両方が、分類結果の貧弱さを決定的に示さない問題に苦しむことを示し、この問題に苦しむことのない3つの新しい強化指標を導入する。 また,MSCの直接拡張とみなすことのできる,新たなマルチナリー分類指標も提示する。

The Pearson-Matthews correlation coefficient (usually abbreviated MCC) is considered to be one of the most useful metrics for the performance of a binary classification or hypothesis testing method (for the sake of conciseness we will use the classification terminology throughout, but the concepts and methods discussed in the paper apply verbatim to hypothesis testing as well). For multinary classification tasks (with more than two classes) the existing extension of MCC, commonly called the $\text{R}_{\text{K}}$ metric, has also been successfully used in many applications. The present paper begins with an introductory discussion on certain aspects of MCC. Then we go on to discuss the topic of multinary classification that is the main focus of this paper and which, despite its practical and theoretical importance, appears to be less developed than the topic of binary classification. Our discussion of the $\text{R}_{\text{K}}$ is followed by the introduction of two other metrics for multinary classification derived from the multivariate Pearson correlation (MPC) coefficients. We show that both $\text{R}_{\text{K}}$ and the MPC metrics suffer from the problem of not decisively indicating poor classification results when they should, and introduce three new enhanced metrics that do not suffer from this problem. We also present an additional new metric for multinary classification which can be viewed as a direct extension of MCC.
翻訳日:2023-05-11 14:00:44 公開日:2023-05-10
# 微分プライベート大言語モデルを用いた合成クエリ生成によるプライバシ保護レコメンダシステム

Privacy-Preserving Recommender Systems with Synthetic Query Generation using Differentially Private Large Language Models ( http://arxiv.org/abs/2305.05973v1 )

ライセンス: Link先を確認
Aldo Gael Carranza, Rezsa Farahani, Natalia Ponomareva, Alex Kurakin, Matthew Jagielski, Milad Nasr(参考訳) 本稿では,DP学習における課題や制約を克服する,差分プライベート(LLM)大言語モデルを用いたプライバシー保護型大規模レコメンデータシステムの開発手法を提案する。 本手法は,llmに基づくレコメンダシステムの新興分野に特に適しているが,自然言語入力の表現を処理するレコメンダシステムでは容易に適用できる。 提案手法では,DPトレーニング手法を用いて,クエリ生成タスクにおいて,事前学習したLLMを微調整する。 その結果、プライバシコストを増大させることなく、下流の非プライベートレコメンデーショントレーニング手順で自由に共有可能な、オリジナルのクエリを表すプライベート合成クエリを生成することができる。 提案手法は,有効な深層検索モデルをセキュアに訓練する能力について評価し,検索モデルを直接訓練した手法と比較して,クエリレベルのプライバシー保証を損なうことなく,検索品質を著しく向上させる。

We propose a novel approach for developing privacy-preserving large-scale recommender systems using differentially private (DP) large language models (LLMs) which overcomes certain challenges and limitations in DP training these complex systems. Our method is particularly well suited for the emerging area of LLM-based recommender systems, but can be readily employed for any recommender systems that process representations of natural language inputs. Our approach involves using DP training methods to fine-tune a publicly pre-trained LLM on a query generation task. The resulting model can generate private synthetic queries representative of the original queries which can be freely shared for any downstream non-private recommendation training procedures without incurring any additional privacy cost. We evaluate our method on its ability to securely train effective deep retrieval models, and we observe significant improvements in their retrieval quality without compromising query-level privacy guarantees compared to methods where the retrieval models are directly DP trained.
翻訳日:2023-05-11 14:00:18 公開日:2023-05-10
# FusionBooster: 統合された画像融合のパラダイム

FusionBooster: A Unified Image Fusion Boosting Paradigm ( http://arxiv.org/abs/2305.05970v1 )

ライセンス: Link先を確認
Chunyang Cheng, Tianyang Xu, Xiao-Jun Wu, Hui Li, Josef Kittler, and Xi Li(参考訳) 画像融合場における融合規則を設計するための多くのアイデアが生まれている。 基本的に、既存の全ての定式化は、ソース画像によって伝達される様々なレベルの情報を管理し、最良の融合結果を達成する。 本稿では,核融合誘導法であるFusionBoosterの助けを借りて,既存の手法の性能を改善するためのスコープが存在することを論じる。 我々のブースターは情報プローブによって制御される分割・征服戦略に基づいている。 ブースターは、プローブユニット、ブースター層、組み立てモジュールの3つのビルディングブロックから構成されている。 バックボーン法による埋め込みを前提として、プローブユニットはソース画像を評価し、それらの情報内容に応じて分割する。 これは、その回復のステップとして、欠落している情報を特定するのに役立ちます。 核融合誘導と共に劣化した部品の回収がブースター層に埋め込まれる。 最後に、組み立てモジュールは、これらの高度なコンポーネントをまとめて出力する責任を負う。 計算量の増加とともに,簡潔な再構成損失関数と軽量モデルを用いてネットワークを定式化する。 各種核融合タスクおよび下流検出タスクで得られた実験結果は,提案する核融合ブースターの性能が著しく向上することを示した。 私たちのコードはプロジェクトのホームページで公開されます。

Numerous ideas have emerged for designing fusion rules in the image fusion field. Essentially, all the existing formulations try to manage the diverse levels of information communicated by the source images to achieve the best fusion result. We argue that there is a scope for improving the performance of existing methods further with the help of FusionBooster, a fusion guidance method proposed in this paper. Our booster is based on the divide and conquer strategy controlled by an information probe. The booster is composed of three building blocks: the probe units, the booster layer, and the assembling module. Given the embedding produced by a backbone method, the probe units assess the source images and divide them according to their information content. This is instrumental in identifying missing information, as a step to its recovery. The recovery of the degraded components along with the fusion guidance are embedded in the booster layer. Lastly, the assembling module is responsible for piecing these advanced components together to deliver the output. We use concise reconstruction loss functions and lightweight models to formulate the network, with marginal computational increase. The experimental results obtained in various fusion tasks, as well as downstream detection tasks, consistently demonstrate that the proposed FusionBooster significantly improves the performance. Our codes will be publicly available on the project homepage.
翻訳日:2023-05-11 13:59:59 公開日:2023-05-10
# 連続学習による事前学習表現の忘れ方の検討

Investigating Forgetting in Pre-Trained Representations Through Continual Learning ( http://arxiv.org/abs/2305.05968v1 )

ライセンス: Link先を確認
Yun Luo, Zhen Yang, Xuefeng Bai, Fandong Meng, Jie Zhou, Yue Zhang(参考訳) 表現を忘れること(Representation forgetting)とは、連続訓練中の文脈表現の漂流を指す。 直観的には、表現忘れは事前学習された言語モデル(lms)に格納されている一般的な知識に影響を与える可能性があるが、具体的な効果はまだ不明である。 本稿では,事前学習された言語モデルの汎用性,すなわち今後の下流課題に取り組む可能性に対する表現忘れの影響について検討する。 具体的には,総合性破壊(GD),統語的知識忘れ(SynF),意味的知識忘れ(SemF)の3つの指標を設計し,連続学習における一般知識の進化を測定する。 広範な実験により,様々な事前学習されたLMにおいて一般性は破壊され,構文的・意味的知識は連続学習によって忘れられることがわかった。 実験と分析に基づいて、一般的な知識の忘れを和らげるための2つの洞察を得る。 1) 当初一般言語課題の訓練は,一般知識の忘れを軽減できる。 2) ハイブリッド連続学習法は, リハーサルや正規化を考慮すれば, 一般性破壊を緩和し, より一般的な知識を維持できる。

Representation forgetting refers to the drift of contextualized representations during continual training. Intuitively, the representation forgetting can influence the general knowledge stored in pre-trained language models (LMs), but the concrete effect is still unclear. In this paper, we study the effect of representation forgetting on the generality of pre-trained language models, i.e. the potential capability for tackling future downstream tasks. Specifically, we design three metrics, including overall generality destruction (GD), syntactic knowledge forgetting (SynF), and semantic knowledge forgetting (SemF), to measure the evolution of general knowledge in continual learning. With extensive experiments, we find that the generality is destructed in various pre-trained LMs, and syntactic and semantic knowledge is forgotten through continual learning. Based on our experiments and analysis, we further get two insights into alleviating general knowledge forgetting: 1) training on general linguistic tasks at first can mitigate general knowledge forgetting; 2) the hybrid continual learning method can mitigate the generality destruction and maintain more general knowledge compared with those only considering rehearsal or regularization.
翻訳日:2023-05-11 13:59:40 公開日:2023-05-10
# グラフニューラルネットワークと三次元トポロジー

Graph Neural Networks and 3-Dimensional Topology ( http://arxiv.org/abs/2305.05966v1 )

ライセンス: Link先を確認
Pavel Putrov and Song Jin Ri(参考訳) 低次元トポロジーにおける問題に対する幾何学的深層学習の適用効率を,ある簡単な設定で検証する。 具体的には、グラフを配管して記述した3次元多様体のクラスを考察し、グラフのペアが同相な3次元多様体を与えるかどうかを決定する問題にグラフニューラルネットワーク(GNN)を用いる。 我々は教師付き学習を用いて、そのような質問に対する回答を高精度に提供するGNNを訓練する。 さらに,gnnによる強化学習について検討し,回答が正であればグラフの対を関連付けるノイマン運動の列を求める。 この設定は、カービー図形の対が微分同相 3 あるいは 4-多様体を与えるかどうかを決定する問題のおもちゃモデルとして理解することができる。

We test the efficiency of applying Geometric Deep Learning to the problems in low-dimensional topology in a certain simple setting. Specifically, we consider the class of 3-manifolds described by plumbing graphs and use Graph Neural Networks (GNN) for the problem of deciding whether a pair of graphs give homeomorphic 3-manifolds. We use supervised learning to train a GNN that provides the answer to such a question with high accuracy. Moreover, we consider reinforcement learning by a GNN to find a sequence of Neumann moves that relates the pair of graphs if the answer is positive. The setting can be understood as a toy model of the problem of deciding whether a pair of Kirby diagrams give diffeomorphic 3- or 4-manifolds.
翻訳日:2023-05-11 13:59:21 公開日:2023-05-10
# 論理推論を用いた解釈可能なマルチモーダル誤情報検出

Interpretable Multimodal Misinformation Detection with Logic Reasoning ( http://arxiv.org/abs/2305.05964v1 )

ライセンス: Link先を確認
Hui Liu, Wenya Wang, Haoliang Li(参考訳) オンラインソーシャルプラットフォーム上でのマルチモーダル誤報は、従来のテキストのみの情報に比べて、信頼性の向上とマルチメディアコンテンツによる拡散の容易化により、重要な懸念となっている。 既存のマルチモーダル検出手法は高い性能を達成しているが、解釈可能性の欠如はこれらのシステムの信頼性と実用的展開を妨げる。 ニューラルネットワークの学習能力と記号学習の説明可能性を組み合わせたニューラルシンボリックAIに着想を得て,解釈可能な論理節を統合し,目的タスクの推論過程を表現する,多モーダル誤情報検出のための新しい論理モデルを提案する。 学習を効果的にするために,神経表現を用いた記号的論理要素のパラメータ化を行い,意味論理節の自動生成と評価を容易にする。 さらに,様々な誤情報ソースにまたがってフレームワークを一般化するために,異なる相関関係でインスタンス化できる5つのメタ述語を導入する。 Twitter、Weibo、Sarcasmの3つの公開データセットの結果は、我々のモデルの有効性と汎用性を示している。

Multimodal misinformation on online social platforms is becoming a critical concern due to increasing credibility and easier dissemination brought by multimedia content, compared to traditional text-only information. While existing multimodal detection approaches have achieved high performance, the lack of interpretability hinders these systems' reliability and practical deployment. Inspired by NeuralSymbolic AI which combines the learning ability of neural networks with the explainability of symbolic learning, we propose a novel logic-based neural model for multimodal misinformation detection which integrates interpretable logic clauses to express the reasoning process of the target task. To make learning effective, we parameterize symbolic logical elements using neural representations, which facilitate the automatic generation and evaluation of meaningful logic clauses. Additionally, to make our framework generalizable across diverse misinformation sources, we introduce five meta-predicates that can be instantiated with different correlations. Results on three public datasets (Twitter, Weibo, and Sarcasm) demonstrate the feasibility and versatility of our model.
翻訳日:2023-05-11 13:59:08 公開日:2023-05-10
# Fair principal component analysis (PCA): Fair PCA, Fair Robust PCA, Fair Sparse PCAの最小化最適化アルゴリズム

Fair principal component analysis (PCA): minorization-maximization algorithms for Fair PCA, Fair Robust PCA and Fair Sparse PCA ( http://arxiv.org/abs/2305.05963v1 )

ライセンス: Link先を確認
Prabhu Babu and Petre Stoica(参考訳) 本稿では,公平なPCA(FPCA)問題を解決するための反復アルゴリズムを提案する。 当初[1]で提案された最大値PCAの定式化から始まり、最小化最大化(MM)アプローチに基づく単純かつ効率的な反復アルゴリズムを導出する。 提案するアルゴリズムは,アルゴリズムの反復毎に厳密であることが証明された半直交性制約の緩和に依存する。 提案アルゴリズムのバニラバージョンでは各イテレーションで半定値プログラム(SDP)を解く必要があり、サロゲート最大化問題の双対を定式化することによりさらに2次プログラムに単純化することができる。 また,fair pca問題の2つの重要な修正案を提案する。 a) 公正で堅牢なPCA -- データ内の外れ値を処理することができ、 b) フェアスパースPCA -- 推定されたフェアプリンシパルコンポーネントのスパーシティを強制することができる。 提案するアルゴリズムは計算効率が高く,各イテレーションでそれぞれの設計目標を単調に増やす。 提案アルゴリズムの付加的な特徴は、任意のハイパーパラメータの選択を必要としないことである(スパースパラメータを制御するペナルティパラメータをユーザが選択しなければならないフェアスパースPCAの場合を除いて)。 本稿では,提案手法の性能を,合成データセットと実生活データセットの2つの最先端手法と比較する。

In this paper we propose a new iterative algorithm to solve the fair PCA (FPCA) problem. We start with the max-min fair PCA formulation originally proposed in [1] and derive a simple and efficient iterative algorithm which is based on the minorization-maximization (MM) approach. The proposed algorithm relies on the relaxation of a semi-orthogonality constraint which is proved to be tight at every iteration of the algorithm. The vanilla version of the proposed algorithm requires solving a semi-definite program (SDP) at every iteration, which can be further simplified to a quadratic program by formulating the dual of the surrogate maximization problem. We also propose two important reformulations of the fair PCA problem: a) fair robust PCA -- which can handle outliers in the data, and b) fair sparse PCA -- which can enforce sparsity on the estimated fair principal components. The proposed algorithms are computationally efficient and monotonically increase their respective design objectives at every iteration. An added feature of the proposed algorithms is that they do not require the selection of any hyperparameter (except for the fair sparse PCA case where a penalty parameter that controls the sparsity has to be chosen by the user). We numerically compare the performance of the proposed methods with two of the state-of-the-art approaches on synthetic data sets and a real-life data set.
翻訳日:2023-05-11 13:58:52 公開日:2023-05-10
# モバイル・ヘルス・アプリケーションの利用意欲に影響を及ぼす要因の全体像

A Comprehensive Picture of Factors Affecting User Willingness to Use Mobile Health Applications ( http://arxiv.org/abs/2305.05962v1 )

ライセンス: Link先を確認
Shaojing Fan, Ramesh C. Jain, Mohan S. Kankanhalli(参考訳) モバイルヘルス(mHealth)アプリケーションは、予防医療や医療機関の負担軽減において、ますます価値が高まっている。 本研究の目的は,mHealthアプリのユーザ受け入れに影響を与える要因を調査し,ユーザの行動意図を形作る基盤構造を特定することである。 4大陸8カ国から計1,669人の参加者が参加した。 様々な要因がmhealthアプリの使用意欲にどのように寄与するかを定量的に評価するために構造方程式モデリングを用いた。 その結果, 利用者のデジタルリテラシーは, 利用意欲, 個人情報共有のオンライン習慣に最も強い影響を与えていることがわかった。 ユーザーのプライバシーに対する懸念は弱かった。 さらに、居住国、年齢、民族、教育などの利用者の人口統計学的背景は、顕著な緩和効果がある。 アプリデザイナー、医療従事者、政策立案者には影響があります。 データ収集と共有を規制し、mHealthアプリの普及を促進するために、一般市民のデジタルリテラシーを促進する努力が必要である。

Mobile health (mHealth) applications have become increasingly valuable in preventive healthcare and in reducing the burden on healthcare organizations. The aim of this paper is to investigate the factors that influence user acceptance of mHealth apps and identify the underlying structure that shapes users' behavioral intention. An online study that employed factorial survey design with vignettes was conducted, and a total of 1,669 participants from eight countries across four continents were included in the study. Structural equation modeling was employed to quantitatively assess how various factors collectively contribute to users' willingness to use mHealth apps. The results indicate that users' digital literacy has the strongest impact on their willingness to use them, followed by their online habit of sharing personal information. Users' concerns about personal privacy only had a weak impact. Furthermore, users' demographic background, such as their country of residence, age, ethnicity, and education, has a significant moderating effect. Our findings have implications for app designers, healthcare practitioners, and policymakers. Efforts are needed to regulate data collection and sharing and promote digital literacy among the general population to facilitate the widespread adoption of mHealth apps.
翻訳日:2023-05-11 13:58:26 公開日:2023-05-10
# 高精度バックプロパゲーションによるダウンサンプリングの改善によるトランスフォーマーベーススパイクニューラルネットワークの性能向上

Enhancing the Performance of Transformer-based Spiking Neural Networks by Improved Downsampling with Precise Gradient Backpropagation ( http://arxiv.org/abs/2305.05954v1 )

ライセンス: Link先を確認
Chenlin Zhou, Han Zhang, Zhaokun Zhou, Liutao Yu, Zhengyu Ma, Huihui Zhou, Xiaopeng Fan, Yonghong Tian(参考訳) 近年、低消費電力、生物学的合理性、事象駆動性などにより、ディープスパイクニューラルネットワーク(SNN)が注目されている。 しかし、現在最先端の深層SNN(SpikformerやSpikeformerなど)は、不正確な勾配のバックプロパゲーションに関連する重大な課題に悩まされている。 この問題は、これらのネットワークにおけるダウンサンプリングモジュールの不適切な設計から生じ、全体のモデル性能を著しく損なう。 本稿では,CML(ConvBN-MaxPooling-LIF)を提案する。 我々はCMLが理論的観点からの勾配逆伝播の精度を効果的に克服できることを証明した。 さらに、ImageNet, CIFAR10, CIFAR100, CIFAR10-DVS, DVS128-Gestureデータセット上でCMLを評価し、Spikeformerと比較して大幅に性能が向上したこれらのデータセットの最先端性能を示す。 例えば、私たちのモデルはImageNetで77.64$\%、CIFAR10で96.04$\%、CIFAR10-DVSで81.4$\%、ImageNetで+1.79$\%、CIFAR100で+1.54$\%である。

Deep spiking neural networks (SNNs) have drawn much attention in recent years because of their low power consumption, biological rationality and event-driven property. However, state-of-the-art deep SNNs (including Spikformer and Spikingformer) suffer from a critical challenge related to the imprecise gradient backpropagation. This problem arises from the improper design of downsampling modules in these networks, and greatly hampering the overall model performance. In this paper, we propose ConvBN-MaxPooling-LIF (CML), an improved downsampling with precise gradient backpropagation. We prove that CML can effectively overcome the imprecision of gradient backpropagation from a theoretical perspective. In addition, we evaluate CML on ImageNet, CIFAR10, CIFAR100, CIFAR10-DVS, DVS128-Gesture datasets, and show state-of-the-art performance on all these datasets with significantly enhanced performances compared with Spikingformer. For instance, our model achieves 77.64 $\%$ on ImageNet, 96.04 $\%$ on CIFAR10, 81.4$\%$ on CIFAR10-DVS, with + 1.79$\%$ on ImageNet, +1.54$\%$ on CIFAR100 compared with Spikingformer.
翻訳日:2023-05-11 13:58:08 公開日:2023-05-10
# 量子情報処理の新手法と検討

Novel Quantum Information Processing Methods and Investigation ( http://arxiv.org/abs/2305.05953v1 )

ライセンス: Link先を確認
Zhang Ze Yu(参考訳) 量子情報処理とそのサブフィールドである量子画像処理は、量子力学の実用性の向上によって急速に成長している分野である。 本稿では,周波数領域における1次元時系列や2次元画像などの情報処理のための量子アルゴリズムを提案する。 興味の情報は、各基底状態の確率振幅の大きさまたは係数に符号化される。 フィルタ用オラクルはポストセレクション結果に基づいて動作し、その明示的な回路設計を示す。 このオラクルは、ハイパス、ローパス、バンドパス、バンドストップ、その他多くの処理技術を含む、すべての基本的なフィルタリングを実行することができる。 最後に,本稿では行列変換のための2つの新しいスキームを提案する。 類似の符号化規則を用いるが、基本状態の選択に関しては意図的に選択する。 これらのスキームは、エッジ検出などの他の量子情報処理タスクに有用かもしれない。 提案手法はIBM Qiskit量子シミュレータに実装されている。 いくつかの結果が従来の情報処理結果と比較され,その正確性を検証する。

Quantum information processing and its subfield, quantum image processing, are rapidly growing fields as a result of advancements in the practicality of quantum mechanics. In this paper, we propose a quantum algorithm for processing information, such as one-dimensional time series and two-dimensional images, in the frequency domain. The information of interest is encoded into the magnitude of probability amplitude or the coefficient of each basis state. The oracle for filtering operates based on postselection results, and its explicit circuit design is presented. This oracle is versatile enough to perform all basic filtering, including high pass, low pass, band pass, band stop, and many other processing techniques. Finally, we present two novel schemes for transposing matrices in this paper. They use similar encoding rules but with deliberate choices in terms of selecting basis states. These schemes could potentially be useful for other quantum information processing tasks, such as edge detection. The proposed techniques are implemented on the IBM Qiskit quantum simulator. Some results are compared with traditional information processing results to verify their correctness and are presented in this paper.
翻訳日:2023-05-11 13:57:41 公開日:2023-05-10
# InfoMetIC: 参照なし画像キャプチャ評価のためのインフォームティブメトリック

InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation ( http://arxiv.org/abs/2305.06002v1 )

ライセンス: Link先を確認
Anwen Hu, Shizhe Chen, Liang Zhang, Qin Jin(参考訳) 画像キャプションの自動評価は、画像キャプション研究のベンチマークと促進に不可欠である。 既存のメトリクスはキャプションの品質を測定するために1つのスコアしか提供しません。 代わりに、人間はキャプションの問題を、例えば、どの単語が不正確でどのサルトオブジェクトが記述されていないかなど、詳細に特定し、キャプションの品質を評価することができる。 このような情報的フィードバックを支援するため,インフォメーションフリー画像キャプション評価のためのInformative Metricを提案する。 InfoMetICは、画像とキャプションが与えられた場合、不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができ、また、テキスト精度スコア、ビジョンリコールスコア、全体的な品質スコアを粗いレベルで提供することができる。 InfoMetICの粗いスコアは、既存のベンチマークの指標よりも、人間の判断との相関が大幅に向上する。 また,トークンレベルの評価データセットを構築し,詳細な評価におけるinfometicの有効性を示す。 私たちのコードとデータセットはhttps://github.com/HAWLYQ/InfoMetIC.comで公開されています。

Automatic image captioning evaluation is critical for benchmarking and promoting advances in image captioning research. Existing metrics only provide a single score to measure caption qualities, which are less explainable and informative. Instead, we humans can easily identify the problems of captions in details, e.g., which words are inaccurate and which salient objects are not described, and then rate the caption quality. To support such informative feedback, we propose an Informative Metric for Reference-free Image Caption evaluation (InfoMetIC). Given an image and a caption, InfoMetIC is able to report incorrect words and unmentioned image regions at fine-grained level, and also provide a text precision score, a vision recall score and an overall quality score at coarse-grained level. The coarse-grained score of InfoMetIC achieves significantly better correlation with human judgements than existing metrics on multiple benchmarks. We also construct a token-level evaluation dataset and demonstrate the effectiveness of InfoMetIC in fine-grained evaluation. Our code and datasets are publicly available at https://github.com/HAWLYQ/InfoMetIC.
翻訳日:2023-05-11 13:50:31 公開日:2023-05-10
# 偏微分方程式の解法におけるディープガレルキン法とピンズ法の大域収束

Global Convergence of Deep Galerkin and PINNs Methods for Solving Partial Differential Equations ( http://arxiv.org/abs/2305.06000v1 )

ライセンス: Link先を確認
Deqing Jiang, Justin Sirignano, Samuel N. Cohen(参考訳) 高次元偏微分方程式(pdes)を数値解くことは大きな課題である。 従来の方法、例えば有限差分法は、次元の呪いのために高次元PDEを解くことができない。 近年,ニューラルネットワークを用いて解を近似して高次元pdesを解こうとする深層学習法が開発されている。 本稿では,PDEの解法であるDeep Galerkin Method(DGM)の解法として広く使われているディープラーニングアルゴリズムの1つである。 DGMは確率勾配降下を用いてPDEを解決するためにニューラルネットワーク近似器を訓練する。 単一層ネットワーク内の隠れた単位の数が無限大(すなわち「広いネットワーク限界」)になるにつれて、訓練されたニューラルネットワークは無限次元線形常微分方程式(ODE)の解に収束する。 極限近似子の PDE 残差は、訓練時間 $\rightarrow \infty$ として 0 に収束する。 軽度の仮定では、この収束は、ニューラルネットワーク近似器がPDEの解に収束することを意味する。 pdesのための深層学習手法の密接なクラスは、物理学インフォームドニューラルネットワーク(pinns)である。 同じ数学的手法を用いて、pinnニューラルネットワーク近似子に対して同様の大域収束結果が証明できる。 どちらの証明も、リミットニューラルネットワーク近似器の進化を管理するリミットODEのカーネル関数を解析する必要がある。 重要な技術的課題は、PDE演算子とニューラル接カーネル(NTK)演算子の合成であるカーネル関数がスペクトルギャップを欠いているため、その特性を慎重に解析する必要があることである。

Numerically solving high-dimensional partial differential equations (PDEs) is a major challenge. Conventional methods, such as finite difference methods, are unable to solve high-dimensional PDEs due to the curse-of-dimensionality. A variety of deep learning methods have been recently developed to try and solve high-dimensional PDEs by approximating the solution using a neural network. In this paper, we prove global convergence for one of the commonly-used deep learning algorithms for solving PDEs, the Deep Galerkin Method (DGM). DGM trains a neural network approximator to solve the PDE using stochastic gradient descent. We prove that, as the number of hidden units in the single-layer network goes to infinity (i.e., in the ``wide network limit"), the trained neural network converges to the solution of an infinite-dimensional linear ordinary differential equation (ODE). The PDE residual of the limiting approximator converges to zero as the training time $\rightarrow \infty$. Under mild assumptions, this convergence also implies that the neural network approximator converges to the solution of the PDE. A closely related class of deep learning methods for PDEs is Physics Informed Neural Networks (PINNs). Using the same mathematical techniques, we can prove a similar global convergence result for the PINN neural network approximators. Both proofs require analyzing a kernel function in the limit ODE governing the evolution of the limit neural network approximator. A key technical challenge is that the kernel function, which is a composition of the PDE operator and the neural tangent kernel (NTK) operator, lacks a spectral gap, therefore requiring a careful analysis of its properties.
翻訳日:2023-05-11 13:50:10 公開日:2023-05-10
# ANALOGYKB:百万単位の知識ベースを持つ言語モデルの論理推論

ANALOGYKB: Unlocking Analogical Reasoning of Language Models with A Million-scale Knowledge Base ( http://arxiv.org/abs/2305.05994v1 )

ライセンス: Link先を確認
Siyu Yuan, Jiangjie Chen, Changzhi Sun, Jiaqing Liang, Yanghua Xiao, Deqing Yang(参考訳) アナロジー推論は人間の基本的な認知能力である。 しかしながら、現在の言語モデル(LM)は、モデルトレーニングのリソースが不足しているため、アナログ推論タスクにおいて人間のようなパフォーマンスを達成するのに苦慮している。 本研究では,既存の知識グラフ(KGs)から派生した100万の類似知識ベース(KB)であるANALOGYKBを提案する。 analogykbはkgsから2種類のアナロジーを識別する。 1) kgsから直接抽出できる同一の関係の類似性,及び 2) 大規模LM(InstructGPT)によって実現された選択・フィルタリングパイプラインと同一視される類似関係の類推, 続いてデータ品質管理への人的取り組み。 2つの類似推論タスク(アナロジー認識と生成)の一連のデータセットの評価により、ANALOGYKBは従来の最先端手法よりも優れた結果が得られることを示した。

Analogical reasoning is a fundamental cognitive ability of humans. However, current language models (LMs) still struggle to achieve human-like performance in analogical reasoning tasks due to a lack of resources for model training. In this work, we address this gap by proposing ANALOGYKB, a million-scale analogy knowledge base (KB) derived from existing knowledge graphs (KGs). ANALOGYKB identifies two types of analogies from the KGs: 1) analogies of the same relations, which can be directly extracted from the KGs, and 2) analogies of analogous relations, which are identified with a selection and filtering pipeline enabled by large LMs (InstructGPT), followed by minor human efforts for data quality control. Evaluations on a series of datasets of two analogical reasoning tasks (analogy recognition and generation) demonstrate that ANALOGYKB successfully enables LMs to achieve much better results than previous state-of-the-art methods.
翻訳日:2023-05-11 13:49:44 公開日:2023-05-10
# 量子絡み合いを用いたプライベート製品計算

Private Product Computation using Quantum Entanglement ( http://arxiv.org/abs/2305.05993v1 )

ライセンス: Link先を確認
Ren\'e B{\o}dker Christensen and Petar Popovski(参考訳) そこで本研究では, エンタングル量子ビット対を用いて, 製品をプライベートに計算できることを示す。 より正確には、有限体からのプライベート入力を持つ2人の参加者は、共有ベル様の量子状態上で局所演算を行い、これらの量子ビットが後に第3の参加者に送られると、第3の参加者は入力の積を決定することができるが、個々の入力についてより詳しく知ることはない。 素数次任意の有限体に対する積計算を実現するための具体的方法を与える。

In this work, we show that a pair of entangled qubits can be used to compute a product privately. More precisely, two participants with a private input from a finite field can perform local operations on a shared, Bell-like quantum state, and when these qubits are later sent to a third participant, the third participant can determine the product of the inputs, but without learning more about the individual inputs. We give a concrete way to realize this product computation for arbitrary finite fields of prime order.
翻訳日:2023-05-11 13:49:26 公開日:2023-05-10
# MMoT:合成多モード条件画像合成用混合モードトークン変換器

MMoT: Mixture-of-Modality-Tokens Transformer for Composed Multimodal Conditional Image Synthesis ( http://arxiv.org/abs/2305.05992v1 )

ライセンス: Link先を確認
Jianbin Zheng, Daqing Liu, Chaoyue Wang, Minghui Hu, Zuopeng Yang, Changxing Ding, Dacheng Tao(参考訳) 既存のMCIS(Multimodal Conditional Image synthesis)法は、すべてのモダリティの組合せに条件付き画像を生成するが、これら全てを正確に整合させ、合成の制御性を阻害し、クロスモダリティの可能性を未発見のまま残す。 そこで本研究では,マルチモーダル・コンディショナル・イメージ・シンセシス (cmcis) を構成するモダリティが不完全に相補的であるマルチモーダル制御信号の構成に基づく画像を生成することを提案する。 具体的には,CMCISタスクの2つの課題,すなわちモダリティ調整問題とモダリティ不均衡問題について考察する。 これらの課題に対処するために、細粒度マルチモーダル制御信号を適応的に融合するMMOT(Mixture-of-Modality-Tokens Transformer)、各モーダルの最適化を安定化するためのマルチモーダルバランストレーニング損失、各モーダル制御信号の強度のバランスをとるマルチモーダルサンプリングガイダンスを導入する。 総合的な実験結果から、MMoTは複雑なマルチモーダル条件下での高品質で忠実な画像合成を行う一助条件画像合成(UCIS)とMCISタスクの両方において優れた性能を発揮することが示された。 プロジェクトのWebサイトはhttps://jabir-zheng.github.io/MMoT.comで公開されている。

Existing multimodal conditional image synthesis (MCIS) methods generate images conditioned on any combinations of various modalities that require all of them must be exactly conformed, hindering the synthesis controllability and leaving the potential of cross-modality under-exploited. To this end, we propose to generate images conditioned on the compositions of multimodal control signals, where modalities are imperfectly complementary, i.e., composed multimodal conditional image synthesis (CMCIS). Specifically, we observe two challenging issues of the proposed CMCIS task, i.e., the modality coordination problem and the modality imbalance problem. To tackle these issues, we introduce a Mixture-of-Modality-Tokens Transformer (MMoT) that adaptively fuses fine-grained multimodal control signals, a multimodal balanced training loss to stabilize the optimization of each modality, and a multimodal sampling guidance to balance the strength of each modality control signal. Comprehensive experimental results demonstrate that MMoT achieves superior performance on both unimodal conditional image synthesis (UCIS) and MCIS tasks with high-quality and faithful image synthesis on complex multimodal conditions. The project website is available at https://jabir-zheng.github.io/MMoT.
翻訳日:2023-05-11 13:49:14 公開日:2023-05-10
# DMNR:大気中の粒子による点雲の非監視的ノイズ化

DMNR: Unsupervised De-noising of Point Clouds Corrupted by Airborne Particles ( http://arxiv.org/abs/2305.05991v1 )

ライセンス: Link先を確認
Chu Chen, Yanqi Ma, Bingcheng Dong, Junjie Cao(参考訳) LiDARセンサーは、正確な距離測定と照明条件への堅牢性を提供する能力のため、自動運転やロボティクスの応用に欠かせない。 しかし, 霧, 雨, 雪, ダストなどの飛散粒子は, 性能を低下させ, 屋外の無秩序な環境に直面することは避けられない。 セマンティクスセグメンテーションを監督することでそれらを取り除くのは簡単なアプローチでしょう。 しかし、これらの粒子を巧みに注釈するのは非常に手間がかかる。 この問題に対処し、インクリメント条件下での知覚を高めるために、公用WADSおよびDENSEデータセット上のノイズ点とクリーン点の位置分布と強度特性の正確な解析により、動的マルチスレッドノイズ除去(DMNR)とDMNR-Hと呼ばれる2つの動的フィルタリング手法を開発した。 DMNRとDMNR-Hはどちらも2つのデータセットにおいて最先端の非教師付き手法よりも優れており、教師付き深層学習法よりも若干優れている。 さらに,本手法は,降雪や霧など,様々なLiDARセンサや空中粒子に対してより堅牢である。

LiDAR sensors are critical for autonomous driving and robotics applications due to their ability to provide accurate range measurements and their robustness to lighting conditions. However, airborne particles, such as fog, rain, snow, and dust, will degrade its performance and it is inevitable to encounter these inclement environmental conditions outdoors. It would be a straightforward approach to remove them by supervised semantic segmentation. But annotating these particles point wisely is too laborious. To address this problem and enhance the perception under inclement conditions, we develop two dynamic filtering methods called Dynamic Multi-threshold Noise Removal (DMNR) and DMNR-H by accurate analysis of the position distribution and intensity characteristics of noisy points and clean points on publicly available WADS and DENSE datasets. Both DMNR and DMNR-H outperform state-of-the-art unsupervised methods by a significant margin on the two datasets and are slightly better than supervised deep learning-based methods. Furthermore, our methods are more robust to different LiDAR sensors and airborne particles, such as snow and fog.
翻訳日:2023-05-11 13:48:42 公開日:2023-05-10
# 離散時間事象列から因果構造を学ぶ構造的ホークス過程

Structural Hawkes Processes for Learning Causal Structure from Discrete-Time Event Sequences ( http://arxiv.org/abs/2305.05986v1 )

ライセンス: Link先を確認
Jie Qiao, Ruichu Cai, Siyu Wu, Yu Xiang, Keli Zhang, Zhifeng Hao(参考訳) 離散時間イベントシーケンスからイベントタイプ間の因果構造を学ぶことは特に重要だが難しい課題である。 多変量ホークス過程に基づく方法のような既存の手法は、主に、その原因事象が効果事象より前に厳密に起こると仮定するいわゆるグランガー因果関係の学習に沸騰する。 このような仮定は、特に低解像度で離散時間イベントシーケンスを扱う場合、アプリケーションを超えて維持できない場合が多く、典型的な離散的ホークスプロセスは、主に瞬時効果によって引き起こされる識別可能性の問題、すなわち低解像度データによって同時に発生した因果関係は、グランジャー因果性によっては捉えられない。 本研究では,離散時間イベントシーケンスにおけるイベントタイプ間の因果構造学習に即時効果を利用する構造ホークスプロセス(SHP)を提案する。 提案手法は,確率関数の最小化最大化とスパース最適化スキームを特徴とする。 理論的には、即時効果は呪いではなく祝福であり、因果構造は即時効果の存在下で識別可能である。 合成および実世界のデータ実験により,提案手法の有効性が検証された。

Learning causal structure among event types from discrete-time event sequences is a particularly important but challenging task. Existing methods, such as the multivariate Hawkes processes based methods, mostly boil down to learning the so-called Granger causality which assumes that the cause event happens strictly prior to its effect event. Such an assumption is often untenable beyond applications, especially when dealing with discrete-time event sequences in low-resolution; and typical discrete Hawkes processes mainly suffer from identifiability issues raised by the instantaneous effect, i.e., the causal relationship that occurred simultaneously due to the low-resolution data will not be captured by Granger causality. In this work, we propose Structure Hawkes Processes (SHPs) that leverage the instantaneous effect for learning the causal structure among events type in discrete-time event sequence. The proposed method is featured with the minorization-maximization of the likelihood function and a sparse optimization scheme. Theoretical results show that the instantaneous effect is a blessing rather than a curse, and the causal structure is identifiable under the existence of the instantaneous effect. Experiments on synthetic and real-world data verify the effectiveness of the proposed method.
翻訳日:2023-05-11 13:48:19 公開日:2023-05-10
# 前立腺MRI帯分割のための不確実性を考慮した半教師付き学習

Uncertainty-Aware Semi-Supervised Learning for Prostate MRI Zonal Segmentation ( http://arxiv.org/abs/2305.05984v1 )

ライセンス: Link先を確認
Matin Hosseinzadeh, Anindo Saha, Joeran Bosma, Henkjan Huisman(参考訳) 深い畳み込みニューラルネットワークの予測の品質は、トレーニングデータセットのサイズとアノテーションの品質に大きく依存します。 アノテーションの作成、特に3d医療画像のセグメンテーションは時間がかかり、専門家の知識が必要です。 本稿では,比較的少数のアノテーションしか必要とせず,残りのラベルなしデータをモデル性能向上に利用できない,新しい半教師付き学習(ssl)手法を提案する。 近年のディープラーニング不確実性推定モデルを用いた擬似ラベル手法を用いる。 推定不確実性を用いて擬似ラベルをランク付けし,教師付きモデルが生成する最適な擬似注釈を自動的に選択した。 T2強調MRIで前立腺帯分画を行った。 提案モデルは,prostatexデータセットと外部テストセットを用いた実験において,4953事例の完全な収集ではなくラベルなしデータのサブセットのみを活用することで,半教師付きモデルよりも優れていた。 完全教師付きモデルと不確かさ対応半教師付き学習モデル(ussl)では,遷移ゾーンと周辺ゾーンのセグメンテーションサイス類似度係数がそれぞれ0.835,0.727から0.852,0.751に増加した。 usslモデルは、完全なアノテーションを必要とせずに、ディープラーニングモデルを大規模データセットでトレーニングできる可能性を示しています。 私たちのコードはhttps://github.com/DIAGNijmegen/prostateMR-USSLで利用可能です。

Quality of deep convolutional neural network predictions strongly depends on the size of the training dataset and the quality of the annotations. Creating annotations, especially for 3D medical image segmentation, is time-consuming and requires expert knowledge. We propose a novel semi-supervised learning (SSL) approach that requires only a relatively small number of annotations while being able to use the remaining unlabeled data to improve model performance. Our method uses a pseudo-labeling technique that employs recent deep learning uncertainty estimation models. By using the estimated uncertainty, we were able to rank pseudo-labels and automatically select the best pseudo-annotations generated by the supervised model. We applied this to prostate zonal segmentation in T2-weighted MRI scans. Our proposed model outperformed the semi-supervised model in experiments with the ProstateX dataset and an external test set, by leveraging only a subset of unlabeled data rather than the full collection of 4953 cases, our proposed model demonstrated improved performance. The segmentation dice similarity coefficient in the transition zone and peripheral zone increased from 0.835 and 0.727 to 0.852 and 0.751, respectively, for fully supervised model and the uncertainty-aware semi-supervised learning model (USSL). Our USSL model demonstrates the potential to allow deep learning models to be trained on large datasets without requiring full annotation. Our code is available at https://github.com/DIAGNijmegen/prostateMR-USSL.
翻訳日:2023-05-11 13:47:57 公開日:2023-05-10
# 患者と医師の対話の正確な要約を生成する:大規模言語モデルを用いた多段階的アプローチ

Generating medically-accurate summaries of patient-provider dialogue: A multi-stage approach using large language models ( http://arxiv.org/abs/2305.05982v1 )

ライセンス: Link先を確認
Varun Nair, Elliot Schumacher, Anitha Kannan(参考訳) 医療提供者の患者訪問の要約は、臨床意思決定、提供者間のハンドオフの促進、患者への参照など、いくつかの重要な目的を果たす。 効果的な要約は、患者が生成する言語が複雑であるにも拘わらず、対話における医学的関連の全ての情報をコヒーレントかつ正確に捉える必要がある。 訪問サマリーの小さな不正確さ(例えば、発熱があるときに「患者は発熱しない」と要約するなど)でさえ、患者のケアの結果を損なう可能性がある。 本稿では,タスクを連続的に構築した,より小さな対話に基づくタスクに分割することで,医療会話要約の問題に取り組む。 まず、会話の中で医療機関とその肯定を識別し、ビルディングブロックとして機能する。 関連する患者情報をコンディショニングし,実験のバックボーンとしてgpt-3を用い,タスクの少ないプロンプトを動的に構築する。 また,GPTに基づく要約尺度を開発し,参照要約に対する性能を定量的に測定する。 人間による評価と医学的正確さの指標の両方から、このアプローチで生成された要約は臨床的に正確であり、ゼロショットの単一プロパント設定でダイアログを要約するベースラインアプローチよりも優れています。

A medical provider's summary of a patient visit serves several critical purposes, including clinical decision-making, facilitating hand-offs between providers, and as a reference for the patient. An effective summary is required to be coherent and accurately capture all the medically relevant information in the dialogue, despite the complexity of patient-generated language. Even minor inaccuracies in visit summaries (for example, summarizing "patient does not have a fever" when a fever is present) can be detrimental to the outcome of care for the patient. This paper tackles the problem of medical conversation summarization by discretizing the task into several smaller dialogue-understanding tasks that are sequentially built upon. First, we identify medical entities and their affirmations within the conversation to serve as building blocks. We study dynamically constructing few-shot prompts for tasks by conditioning on relevant patient information and use GPT-3 as the backbone for our experiments. We also develop GPT-derived summarization metrics to measure performance against reference summaries quantitatively. Both our human evaluation study and metrics for medical correctness show that summaries generated using this approach are clinically accurate and outperform the baseline approach of summarizing the dialog in a zero-shot, single-prompt setting.
翻訳日:2023-05-11 13:47:33 公開日:2023-05-10
# 何て言うんだ! 大きな言語モデルでは否定的常識の知識が多すぎる

Say What You Mean! Large Language Models Speak Too Positively about Negative Commonsense Knowledge ( http://arxiv.org/abs/2305.05976v1 )

ライセンス: Link先を確認
Jiangjie Chen, Wei Shi, Ziquan Fu, Sijie Cheng, Lei Li, Yanghua Xiao(参考訳) 大規模言語モデル(llm)は、ポジティブな知識を蓄積し活用する能力について広く研究されている。 しかし、「lion don't live in the ocean」のような否定的な知識は世界でもユビキタスであるが、テキストで明示的に言及されることは滅多にない。 LLMは負の知識について何を知っているのか? 本研究は,LLMの負のコモンセンス知識に対する能力について検討する。 制約付きキーワード対文生成タスク(CG)とブール質問回答タスク(QA)を設計し,LLMを探索する。 実験の結果,LLMは負のコモンセンス知識に基づく有効な文の生成に失敗することが多いことがわかった。 我々はこの現象をLLMの信念衝突と呼ぶ。 さらなる分析から,言語モデリングの事前学習による統計的近道と否定報告バイアスが,この衝突の原因となることが示された。

Large language models (LLMs) have been widely studied for their ability to store and utilize positive knowledge. However, negative knowledge, such as "lions don't live in the ocean", is also ubiquitous in the world but rarely mentioned explicitly in the text. What do LLMs know about negative knowledge? This work examines the ability of LLMs to negative commonsense knowledge. We design a constrained keywords-to-sentence generation task (CG) and a Boolean question-answering task (QA) to probe LLMs. Our experiments reveal that LLMs frequently fail to generate valid sentences grounded in negative commonsense knowledge, yet they can correctly answer polar yes-or-no questions. We term this phenomenon the belief conflict of LLMs. Our further analysis shows that statistical shortcuts and negation reporting bias from language modeling pre-training cause this conflict.
翻訳日:2023-05-11 13:47:10 公開日:2023-05-10
# 自然静脈脈拍の合理化評価のための網膜ビデオの自律的安定化

Autonomous Stabilization of Retinal Videos for Streamlining Assessment of Spontaneous Venous Pulsations ( http://arxiv.org/abs/2305.06043v1 )

ライセンス: Link先を確認
Hongwei Sheng, Xin Yu, Feiyu Wang, MD Wahiduzzaman Khan, Hexuan Weng, Sahar Shariflou, S.Mojtaba Golzan(参考訳) 自発性網膜静脈拍動(SVP)は中心網膜静脈の口径のリズミカルな変化であり、網膜の光ディスク領域(ODR)で観察される。 その欠如は、様々な眼または神経学的異常の臨界指標である。 近年のイメージング技術の進歩により、網膜を観察し、SVPを評価する携帯型スマートフォンデバイスの開発が可能となった。 しかし、ノイズや画像ジッティングにより、スマートフォンベースの網膜ビデオの品質が低下することがしばしばあり、その見返りとして、SVPの観察を著しく妨げる可能性がある。 そこで本研究では,様々なモバイルデバイスが取得したSVPの検査を可能にする完全自動網膜ビデオ安定化手法を開発した。 具体的には,ODR-STL(ODR Spatio-Temporal Localization, ODR-STL)モジュールを提案する。 そこで我々は,高品質なビデオセグメントを一定位置で安定させるために,ノイズ対応テンプレートマッチング(NATM)モジュールを導入する。 処理後、SVPは安定したビデオで容易に観察でき、ユーザの観察を著しく促進する。 さらに,本手法は費用対効果が高く,主観評価と客観的評価の両方で検証されている。 どちらの評価も、SVPの観察を容易にする効果を支持している。 これにより、関連疾患のタイムリーな診断と治療が向上し、眼科医にとって貴重なツールとなる。

Spontaneous retinal Venous Pulsations (SVP) are rhythmic changes in the caliber of the central retinal vein and are observed in the optic disc region (ODR) of the retina. Its absence is a critical indicator of various ocular or neurological abnormalities. Recent advances in imaging technology have enabled the development of portable smartphone-based devices for observing the retina and assessment of SVPs. However, the quality of smartphone-based retinal videos is often poor due to noise and image jitting, which in return, can severely obstruct the observation of SVPs. In this work, we developed a fully automated retinal video stabilization method that enables the examination of SVPs captured by various mobile devices. Specifically, we first propose an ODR Spatio-Temporal Localization (ODR-STL) module to localize visible ODR and remove noisy and jittering frames. Then, we introduce a Noise-Aware Template Matching (NATM) module to stabilize high-quality video segments at a fixed position in the field of view. After the processing, the SVPs can be easily observed in the stabilized videos, significantly facilitating user observations. Furthermore, our method is cost-effective and has been tested in both subjective and objective evaluations. Both of the evaluations support its effectiveness in facilitating the observation of SVPs. This can improve the timely diagnosis and treatment of associated diseases, making it a valuable tool for eye health professionals.
翻訳日:2023-05-11 13:40:52 公開日:2023-05-10
# 単調欠落データ計算と次元減少のためのブロックワイド主成分分析

Blockwise Principal Component Analysis for monotone missing data imputation and dimensionality reduction ( http://arxiv.org/abs/2305.06042v1 )

ライセンス: Link先を確認
Tu T. Do, Mai Anh Vu, Hoang Thien Ly, Thu Nguyen, Steven A. Hicks, Michael A. Riegler, P{\aa}l Halvorsen, and Binh T. Nguyen(参考訳) モノトーンデータ欠落はデータ分析において一般的な問題である。 しかし、特にデータセットのサイズが大きくなると、次元削減と組み合わせた計算コストがかかる。 この問題に対処するために,ブロックワイドの主成分分析計算(BPI)フレームワークを提案する。 このフレームワークは、データの各モノトンブロックの観測部分について主成分分析(PCA)を行い、選択された計算手法を用いて得られた主成分をマージする。 BPIは様々な計算手法で動作可能であり, 計算時間を大幅に短縮することができる。 これにより、モノトン欠落データを持つ大規模なデータセットに対して、実用的で効率的なアプローチとなる。 我々の実験はスピードの向上を検証する。 さらに,本実験では,MICE の計算をデータに直接適用しても収束は得られず,BPI をデータに適用すると収束する可能性が示唆された。

Monotone missing data is a common problem in data analysis. However, imputation combined with dimensionality reduction can be computationally expensive, especially with the increasing size of datasets. To address this issue, we propose a Blockwise principal component analysis Imputation (BPI) framework for dimensionality reduction and imputation of monotone missing data. The framework conducts Principal Component Analysis (PCA) on the observed part of each monotone block of the data and then imputes on merging the obtained principal components using a chosen imputation technique. BPI can work with various imputation techniques and can significantly reduce imputation time compared to conducting dimensionality reduction after imputation. This makes it a practical and efficient approach for large datasets with monotone missing data. Our experiments validate the improvement in speed. In addition, our experiments also show that while applying MICE imputation directly on missing data may not yield convergence, applying BPI with MICE for the data may lead to convergence.
翻訳日:2023-05-11 13:40:30 公開日:2023-05-10
# FusionDepth: コストボリュームによる補足型自己監督単分子深さ推定

FusionDepth: Complement Self-Supervised Monocular Depth Estimation with Cost Volume ( http://arxiv.org/abs/2305.06036v1 )

ライセンス: Link先を確認
Zhuofei Huang, Jianlin Liu, Shang Xu, Ying Chen, Yong Liu(参考訳) コストボリュームに基づく多視点ステレオ深度推定は、移動物体や低テクスチャ面を除いて、自監督単分子深度推定よりもうまく機能する。 そこで本研究では,複数回の反復でベイズ融合層を利用して,単分子深度を連続的に改善できる多フレーム深度推定フレームワークを提案する。 モノクラーネットワークとマルチビューネットワークは、深度監視なしでトレーニングすることができる。 また,単眼推定とマルチビューコストボリュームを組み合わせた場合の解釈性も向上する。 詳細な実験により,本手法はKITTIベンチマークにおいて,単フレームまたは複数フレームを用いた最先端の教師なし手法を超えていることが示された。

Multi-view stereo depth estimation based on cost volume usually works better than self-supervised monocular depth estimation except for moving objects and low-textured surfaces. So in this paper, we propose a multi-frame depth estimation framework which monocular depth can be refined continuously by multi-frame sequential constraints, leveraging a Bayesian fusion layer within several iterations. Both monocular and multi-view networks can be trained with no depth supervision. Our method also enhances the interpretability when combining monocular estimation with multi-view cost volume. Detailed experiments show that our method surpasses state-of-the-art unsupervised methods utilizing single or multiple frames at test time on KITTI benchmark.
翻訳日:2023-05-11 13:40:13 公開日:2023-05-10
# UGLE真理の探索:教師なしGNN学習環境の検討

Search for the UGLE Truth: An Investigation into Unsupervised GNN Learning Environments ( http://arxiv.org/abs/2305.06026v1 )

ライセンス: Link先を確認
Will Leeney, Ryan McConville(参考訳) グラフニューラルネットワーク(GNN)は、強力な表現力のあるデータ表現であるグラフ構造上の関数を学習する能力のため、あらゆる機械学習タスクに有効なツールである。 コミュニティの検出や教師なしのタスクは、GNNでますます行われている。 グラフの接続を伴う多次元ノード特徴を用いたグラフ内のノードのクラスタリングは、ソーシャルネットワークからゲノムまで、現実世界のタスクに多くの応用をもたらす。 残念ながら、GNNベースのコミュニティ検出を公平かつ厳格に評価するための十分なベンチマーク環境が確立されていない文献にはギャップがあり、この初期段階の分野での進歩を妨げる可能性がある。 この設定で特に難しいのは、あいまいなハイパーパラメータチューニング環境と、パフォーマンスと評価データセットの矛盾するメトリクスの組み合わせである。 本稿では,GNNを用いたコミュニティ検出アルゴリズムの一貫した比較のためのフレームワークを提案し,評価する。 これにより,gnnの使用やタスクの教師なしの性質といった要因によって悪化する実験環境へのパフォーマンスの強い依存が示され,現場における合同研究を促進するためのフレームワークの使用の動機が明確になる。

Graph Neural Networks (GNNs) are a pertinent tool for any machine learning task due to their ability to learn functions over graph structures, a powerful and expressive data representation. The detection of communities, an unsupervised task has increasingly been performed with GNNs. Clustering nodes in a graph using the multi-dimensionality of node features with the connectivity of the graph has many applications to real world tasks from social networks to genomics. Unfortunately, there is currently a gap in the literature with no established sufficient benchmarking environment for fairly and rigorously evaluating GNN based community detection, thereby potentially impeding progress in this nascent field. We observe the particular difficulties in this setting is the ambiguous hyperparameter tuning environments combined with conflicting metrics of performance and evaluation datasets. In this work, we propose and evaluate frameworks for the consistent comparisons of community detection algorithms using GNNs. With this, we show the strong dependence of the performance to the experimental settings, exacerbated by factors such as the use of GNNs and the unsupervised nature of the task, providing clear motivation for the use of a framework to facilitate congruent research in the field.
翻訳日:2023-05-11 13:40:04 公開日:2023-05-10
# スイニングトランスを用いた脳腫瘍検出

Brain Tumor Detection using Swin Transformers ( http://arxiv.org/abs/2305.06025v1 )

ライセンス: Link先を確認
Prateek A. Meshram, Suraj Joshi, Devarshi Mahajan(参考訳) 最初のMRIスキャンは1978年にESM研究所の研究者によって行われた。 推計によると、2020年に原発性がん脳と中枢神経系腫瘍が原因で約251,329人が死亡した。 様々な医療専門家は、早期の脳腫瘍検出は多くの命を救うのに役立つと推奨している。 放射線技師が脳MRIに対処するたびに、かなり主観的な組織学的サブタイプで診断しようとすると、これが大きな問題となる。 その後、1151人に1人の医師がいるインドのような発展途上国では、放射線医や医師が画像を見るのに効果的な診断が必要である。 本研究は,スウィントランスと深層学習を用いて,特定のmriスキャンにおける腫瘍の大きさの検出,分類,同定,提供を行い,医師や放射線科医の効率向上に役立てることを目的としている。 最終的に、医師はPDF(Portable Document Format)で予測と測定をダウンロードすることができる。 キーワード:脳腫瘍、トランスフォーマー、分類、医学、ディープラーニング、検出

The first MRI scan was done in the year 1978 by researchers at EML Laboratories. As per an estimate, approximately 251,329 people died due to primary cancerous brain and CNS (Central Nervous System) Tumors in the year 2020. It has been recommended by various medical professionals that brain tumor detection at an early stage would help in saving many lives. Whenever radiologists deal with a brain MRI they try to diagnose it with the histological subtype which is quite subjective and here comes the major issue. Upon that, in developing countries like India, where there is 1 doctor for every 1151 people, the need for efficient diagnosis to help radiologists and doctors come into picture. In our approach, we aim to solve the problem using swin transformers and deep learning to detect, classify, locate and provide the size of the tumor in the particular MRI scan which would assist the doctors and radiologists in increasing their efficiency. At the end, the medics would be able to download the predictions and measures in a PDF (Portable Document Format). Keywords: brain tumor, transformers, classification, medical, deep learning, detection
翻訳日:2023-05-11 13:39:47 公開日:2023-05-10
# 共通汚職に対するコンピュータビジョンモデルのロバスト性:調査

The Robustness of Computer Vision Models against Common Corruptions: a Survey ( http://arxiv.org/abs/2305.06024v1 )

ライセンス: Link先を確認
Shunxin Wang, Raymond Veldhuis, Nicola Strisciuglio(参考訳) コンピュータビジョンモデルの性能は、実際のシナリオに展開する際の予期せぬ入力画像の変化に影響を受けやすい。 これらの変化を共通汚職と呼ぶ。 現実のシナリオにおけるコンピュータビジョンモデルの適用性を阻害することができるが、モデル一般化と堅牢性のためのテストベッドとして常に考えられているわけではない。 本稿では,コンピュータビジョンモデルの破壊堅牢性を改善する手法を包括的かつ体系的に概説する。 対向攻撃やラベルノイズに焦点を当てた既存の調査とは違って,コンピュータビジョンモデルの実用的運用時に発生する一般的な腐敗に対するロバスト性の研究を幅広く取り上げている。 画像腐敗の異なるタイプを説明し,腐敗の堅牢性の定義を提供する。 次に、関連する評価指標とベンチマークデータセットを紹介します。 メソッドを4つのグループに分類する。 また,汎用性が向上し,副産物としての腐敗の堅牢性が向上する間接的手法についても紹介する。 文献から収集したベンチマーク結果を報告し,それらを統一的に評価しないことを見出し,比較・分析が困難となる。 これにより、ベンチマークデータセットで直接比較結果を得るための統合ベンチマークフレームワークを構築しました。 さらに,imagenetで事前学習したバックボーンネットワークの評価を行い,コンピュータビジョンタスクに適したバックボーンを選択するための既存モデルの基盤破壊性について概観した。 我々は,広範囲の汚職を処理し,限られたデータと計算資源で効率的に学習する手法の開発が今後の開発に不可欠であることを見出した。 さらに,汚職の堅牢性,OOD一般化,ショートカット学習との関係について,さらなる調査の必要性を強調した。

The performance of computer vision models is susceptible to unexpected changes in input images when deployed in real scenarios. These changes are referred to as common corruptions. While they can hinder the applicability of computer vision models in real-world scenarios, they are not always considered as a testbed for model generalization and robustness. In this survey, we present a comprehensive and systematic overview of methods that improve corruption robustness of computer vision models. Unlike existing surveys that focus on adversarial attacks and label noise, we cover extensively the study of robustness to common corruptions that can occur when deploying computer vision models to work in practical applications. We describe different types of image corruption and provide the definition of corruption robustness. We then introduce relevant evaluation metrics and benchmark datasets. We categorize methods into four groups. We also cover indirect methods that show improvements in generalization and may improve corruption robustness as a byproduct. We report benchmark results collected from the literature and find that they are not evaluated in a unified manner, making it difficult to compare and analyze. We thus built a unified benchmark framework to obtain directly comparable results on benchmark datasets. Furthermore, we evaluate relevant backbone networks pre-trained on ImageNet using our framework, providing an overview of the base corruption robustness of existing models to help choose appropriate backbones for computer vision tasks. We identify that developing methods to handle a wide range of corruptions and efficiently learn with limited data and computational resources is crucial for future development. Additionally, we highlight the need for further investigation into the relationship among corruption robustness, OOD generalization, and shortcut learning.
翻訳日:2023-05-11 13:39:29 公開日:2023-05-10
# ベル実験における重ね合わせ原理と局所性ループホールの解釈

Interpretation of the superposition principle and locality loophole in Bell experiments ( http://arxiv.org/abs/2305.06022v1 )

ライセンス: Link先を確認
Sheng Feng(参考訳) 重ね合わせ原理と局所性の間には関係がある。 重ね合わせ原理の自己一貫した解釈が述べられ、そこから量子力学が局所統計理論である可能性が示されている。 そして、エンタングル粒子の局所性、すなわち、ベルの不等式は局所性と非局所性を区別できない、すなわち局所性ループ(locality loophole)と呼ばれる)を仮定することで、ベルの実験を満足して説明できることを示す。 さらに, 量子力学における局所性を示す既存の実験結果を示し, 局所性ループホールを閉じる新たな実験を提案した。

A connection is revealed between the superposition principle and locality. A self consistent interpretation of the superposition principle is put forth, from which it is shown that quantum mechanics may be a local statistical theory. Then it is shown how Bell experiments can be satisfactorily explained by assuming local nature for entangled particles, i.e., the violation of Bell inequality cannot distinguish between locality and nonlocality, which is referred to as locality loophole. Moreover, existing experimental results are presented indicating locality in quantum mechanics and new experiments are proposed so that the locality loophole may be closed.
翻訳日:2023-05-11 13:39:06 公開日:2023-05-10
# 大型イオン結晶におけるエンタングゲート誤差のスケーリング

Scaling of entangling-gate errors in large ion crystals ( http://arxiv.org/abs/2305.06012v1 )

ライセンス: Link先を確認
Wenhao He, Wenhao Zhang, Xiao Yuan, Yangchao Shen, Xiao-Ming Zhang(参考訳) トラップイオンは量子コンピュータを構築する上で大きな利点を示している。 高忠実度エンタングゲートは、数個のイオンに対して実現されているが、大規模に閉じ込められたイオンに対する高忠実度を維持する方法はまだ未解決の問題であり、任意のスケールのイオン鎖の解析と、最先端実験における主要なエラー源の1つとして報告されている運動関連エラーに焦点をあてる。 理論上、大きなイオン結晶中の2量子エンタングリングゲート不確かさを解析する。 この結果を検証するため,ヒルベルト空間次元の指数的増大を回避できる効率的な数値シミュレーションアルゴリズムを開発した。 動きの加熱誤差については、以前推定された$o(n\gamma\tau)$よりもゲート不忠実な境界が導出され、運動モードの位相空間における軌道から直感的に理解できる。 我々の発見は、非一貫性エラーに対するパルス設計のスキームを刺激し、大きなイオン結晶を持つスケーラブルな量子コンピュータの構築に光を当てるかもしれない。

Trapped-ion has shown great advantages in building quantum computers. While high fidelity entangling-gate has been realized for few ions, how to maintain the high fidelity for large scale trapped-ions still remains an open problem.Here, we present an analysis on arbitrary scale ion chain and focus on motional-related errors, reported as one of the leading error sources in state-of-the-art experiments. We theoretically analyze two-qubit entangling-gate infidelity in a large ion crystal. To verify our result, we develop an efficient numerical simulation algorithm that avoids exponential increases of the Hilbert space dimension. For the motional heating error, We derive a much tighter bound of gate infidelity than previously estimated $O(N\Gamma\tau)$, and we give an intuitive understanding from the trajectories in the phase space of motional modes. Our discoveries may inspire the scheme of pulse design against incoherent errors and shed light on the way toward constructing scalable quantum computers with large ion crystals.
翻訳日:2023-05-11 13:38:55 公開日:2023-05-10
# 複雑な量子系における熱力学による最適化

A thermodynamic approach to optimization in complex quantum systems ( http://arxiv.org/abs/2305.06008v1 )

ライセンス: Link先を確認
Alberto Imparato, Nicholas Chancellor, and Gabriele De Chiara(参考訳) 複素量子ハミルトニアンのエネルギー最小値を求める問題は、低エネルギー状態で調製された非マルコフ浴を用いることによって解決される。 これにより、エネルギー最小化問題は熱力学的冷却プロトコルに変換され、より低温の補助システムとの接触に関心を持つシステムが繰り返し配置される。 浴の内部パラメータをチューニングすることにより,熱力学的限界において浴が量子相転移を示す状態において最適な冷却が得られることを示す。 この結果は熱力学デバイスにおける集団効果の重要性を強調している。 さらに,浴槽との相互作用をエネルギーの尺度と組み合わせた2段階プロトコルを提案する。 このプロトコルは利害関係におけるコヒーレンスを損なうものではないが, 冷却効果をさらに高めることができることを示す。

We consider the problem of finding the energy minimum of a complex quantum Hamiltonian by employing a non-Markovian bath prepared in a low energy state. The energy minimization problem is thus turned into a thermodynamic cooling protocol in which we repeatedly put the system of interest in contact with a colder auxiliary system. By tuning the internal parameters of the bath, we show that the optimal cooling is obtained in a regime where the bath exhibits a quantum phase transition in the thermodynamic limit. This result highlights the importance of collective effects in thermodynamic devices. We furthermore introduce a two-step protocol that combines the interaction with the bath with a measure of its energy. While this protocol does not destroy coherence in the system of interest, we show that it can further enhance the cooling effect.
翻訳日:2023-05-11 13:38:36 公開日:2023-05-10
# 環境不確実性を考慮した安全動作計画

Safe motion planning with environment uncertainty ( http://arxiv.org/abs/2305.06004v1 )

ライセンス: Link先を確認
Antony Thomas, Fulvio Mastrogiovanni, Marco Baglietto(参考訳) 本稿では,ロボットの状態と環境(障害物およびランドマーク位置)の不確実性の下での安全な運動計画手法を提案する。 そこで我々はまず,ロボットのローカライゼーションにおける画期的な不確実性を考慮したアプローチを開発する。 既存の計画手法では、ランドマークの場所はよく知られており、不確実性はほとんどない。 しかし、実際にはそうではないかもしれない。 雑音センサと不完全な動きは、環境特性の推定から生じる誤差と重なる。 さらに、環境内のオクルージョンや動的オブジェクトが不完全なランドマーク推定を行う。 その結果、この不確実性を考慮していないことが、ロボットを誤ってローカライズし、非効率な計画に繋がる。 提案手法はベイズフィルタ推定フレームワークに顕著な不確実性を含む。 また,この不確実性を考慮した場合の効果を分析し,無視できる条件を明らかにする。 第2に,ガウス分布ロボット動作,知覚,障害物位置の不確かさの下での衝突確率の正確な表現を計算し,最先端の手法を拡張する。 衝突確率過程を確率変数の二次形式として定式化する。 ガウス分布の仮定の下では、リアルタイムに計算可能な衝突確率の正確な表現が得られる。 対照的に、既存のアプローチでは、過度に保守的な推定を導き、したがって最適下計画をもたらす上界を用いて衝突確率を近似する。 理論的な例とシミュレーションを用いて,提案手法を実証し,評価する。 また,このアプローチを異なる最先端手法と比較する。

We present an approach for safe motion planning under robot state and environment (obstacle and landmark location) uncertainties. To this end, we first develop an approach that accounts for the landmark uncertainties during robot localization. Existing planning approaches assume that the landmark locations are well known or are known with little uncertainty. However, this might not be true in practice. Noisy sensors and imperfect motions compound to the errors originating from the estimate of environment features. Moreover, possible occlusions and dynamic objects in the environment render imperfect landmark estimation. Consequently, not considering this uncertainty can wrongly localize the robot, leading to inefficient plans. Our approach thus incorporates the landmark uncertainty within the Bayes filter estimation framework. We also analyze the effect of considering this uncertainty and delineate the conditions under which it can be ignored. Second, we extend the state-of-the-art by computing an exact expression for the collision probability under Gaussian distributed robot motion, perception and obstacle location uncertainties. We formulate the collision probability process as a quadratic form in random variables. Under Gaussian distribution assumptions, an exact expression for collision probability is thus obtained which is computable in real-time. In contrast, existing approaches approximate the collision probability using upper-bounds that can lead to overly conservative estimate and thereby suboptimal plans. We demonstrate and evaluate our approach using a theoretical example and simulations. We also present a comparison of our approach to different state-of-the-art methods.
翻訳日:2023-05-11 13:38:24 公開日:2023-05-10
# iLab at SemEval-2023 Task 11 Le-Wi-Di: Modelling Disagreement or Modelling Perspectives?

iLab at SemEval-2023 Task 11 Le-Wi-Di: Modelling Disagreement or Modelling Perspectives? ( http://arxiv.org/abs/2305.06074v1 )

ライセンス: Link先を確認
Nikolas Vitsakis, Amit Parekh, Tanvi Dinkar, Gavin Abercrombie, Ioannis Konstas, Verena Rieser(参考訳) 分散的ソフトラベルアプローチ(このアプローチは、不一致のレベルを捉えることを目的としている)や、個々の注釈家やそのグループのモデリング視点である。 我々は、SEMEVAL Task 11の性能を評価するために、以前モデリングの観点から成功したマルチタスクアーキテクチャを適用します。 両者のアプローチ、すなわち個々の注釈者視点の予測を、注釈者不一致の予測のための暫定的なステップとして組み合わせて行う。 前回の成功にもかかわらず、マルチタスクアプローチは、異なる注釈の意見を含むデータセット上ではうまく動作せず、このアプローチが必ずしもモデリングの観点に適合するとは限らないことを示唆した。 さらに, 分散手法の評価指標では, 強いパースペクティビスト的アプローチは最先端のパフォーマンスを達成できないが, 本手法はデータの個々の視点をより微妙な理解を可能にする。 偏見主義的アプローチが望ましいのは、意思決定者が少数派の見解を増幅できるためであり、この目標を反映するためにメトリクスを再評価することが重要であるからである。

There are two competing approaches for modelling annotator disagreement: distributional soft-labelling approaches (which aim to capture the level of disagreement) or modelling perspectives of individual annotators or groups thereof. We adapt a multi-task architecture -- which has previously shown success in modelling perspectives -- to evaluate its performance on the SEMEVAL Task 11. We do so by combining both approaches, i.e. predicting individual annotator perspectives as an interim step towards predicting annotator disagreement. Despite its previous success, we found that a multi-task approach performed poorly on datasets which contained distinct annotator opinions, suggesting that this approach may not always be suitable when modelling perspectives. Furthermore, our results explain that while strongly perspectivist approaches might not achieve state-of-the-art performance according to evaluation metrics used by distributional approaches, our approach allows for a more nuanced understanding of individual perspectives present in the data. We argue that perspectivist approaches are preferable because they enable decision makers to amplify minority views, and that it is important to re-evaluate metrics to reflect this goal.
翻訳日:2023-05-11 13:31:59 公開日:2023-05-10
# 高周波場を有する光学的$^{171}$Yb$^{+}$クォーディットの連続的動的疎結合

Continuous dynamical decoupling of optical $^{171}$Yb$^{+}$ qudits with radiofrequency fields ( http://arxiv.org/abs/2305.06071v1 )

ライセンス: Link先を確認
Ilia V. Zalivako, Alexander S. Borisenko, Ilya A. Semerikov, Andrey Korolkov, Pavel L. Sidorov, Kristina Galstyan, Nikita V. Semenin, Vasiliy Smirnov, Mikhail A. Aksenov, Aleksey K. Fedorov, Ksenia Yu. Khabarova, Nikolay N. Kolachevsky(参考訳) quditsとしても知られるマルチレベル量子情報キャリアの使用は、量子コンピューティングデバイスのさらなるスケーラビリティのための方法として大きな関心を集めている。 しかしながら、非自明なタスクは、量子アルゴリズムを量子ビットで実現する効率を実験的に達成することであり、なぜなら高いクディット準位は通常、量子ビット状態と比較して比較的短いコヒーレンス時間を持つからである。 ここでは, 捕捉した$^{171}$yb$^{+}$ イオンの光学遷移で符号化されたquditsに対して, $m_f=\pm1$ で磁化状態の連続的動的デカップリングを実現するための2つの方法を提案し, 実験的に実証する。 我々は磁気遮蔽のないマグニチュード(9ミリ秒以上)によるクディットレベルのコヒーレンス時間の改善を実現し、磁場ノイズに対処するための$^{171}$Yb$^{+}$イオンエネルギー構造の対称性の潜在的な利点を明らかにする。 以上の結果は、捕捉イオンを用いたquditに基づくアルゴリズムの実現に向けた一歩である。

The use of multilevel quantum information carriers, also known as qudits, attracts a significant deal of interest as a way for further scalability of quantum computing devices. However, a nontrivial task is to experimentally achieve a gain in the efficiency of realizing quantum algorithms with qudits since higher qudit levels typically have relatively short coherence times compared to qubit states. Here we propose and experimentally demonstrate two approaches for the realization of continuous dynamical decoupling of magnetic-sensitive states with $m_F=\pm1$ for qudits encoded in optical transition of trapped $^{171}$Yb$^{+}$ ions. We achieve improvement in qudit levels coherence time by the order of magnitude (more than 9 ms) without any magnetic shielding, which reveals the potential advantage of the symmetry of the $^{171}$Yb$^{+}$ ion energy structure for counteracting the magnetic field noise. Our results are a step towards the realization of qudit-based algorithms using trapped ions.
翻訳日:2023-05-11 13:31:35 公開日:2023-05-10
# 時間依存量子発振器の厳密解

Exact solution for the time-dependent quantum oscillator ( http://arxiv.org/abs/2305.06069v1 )

ライセンス: Link先を確認
E.E. Perepelkin, B.I. Sadovnikov, N.G. Inozemtseva, A.A. Korepanova(参考訳) 本稿では、時間依存ポテンシャル $U\left(x,t \right)={m\,{{\Omega }^{2}}\left( t \right){{x}^{2}}}/{2}\;$ に対するシュリンガー方程式の正確な解を、周波数 $\Omega \left( t \right)$ が時間の「十分」滑らかな関数であるように構成する。 検討中の量子系について、波動関数の集合と時間依存エネルギー固有値のスペクトルを求める。 時間依存ポテンシャルの挙動は量子系の不安定性に影響を与える。 系の力学はヒル方程式によって記述される。 時間依存ウィグナー関数とその高キネマティック値の位相空間への一般化は、明示的な形で見出される。 量子系のエネルギー「ポンピング」の過程は、その不安定性につながるが、詳細は考慮されている。

In this paper, an exact solution of the Schr\"odinger equation for the time-dependent potential $U\left( x,t \right)={m\,{{\Omega }^{2}}\left( t \right){{x}^{2}}}/{2}\;$ is constructed, where the frequency $\Omega \left( t \right)$ is a "sufficiently" smooth function of time. For the quantum system under consideration, a set of wave functions and a spectrum of time-dependent energy eigenvalues are obtained. The behavior of the time-dependent potential affects the instability of the quantum system. The dynamics of the system is described by the Hill equation. The time-dependent Wigner function and its generalization to the phase space of higher kinematic values are found in an explicit form. The process of energy "pumping" of a quantum system, which leads to its instability, is considered in detail.
翻訳日:2023-05-11 13:31:14 公開日:2023-05-10
# 変分核トレーニングによる量子サポートベクトルマシンの強化

Enhancing Quantum Support Vector Machines through Variational Kernel Training ( http://arxiv.org/abs/2305.06063v1 )

ライセンス: Link先を確認
Nouhaila Innan, Muhammed Al-Zafar Khan, Biswaranjan Panda, and Mohamed Bennai(参考訳) 量子機械学習(QML)は、量子サポートベクターマシン(QSVM)が将来的なモデルとして登場し、近年大きく進歩している。 本稿では,量子カーネルSVM(QK-SVM)と量子変動SVM(QV-SVM)の2つの既存QSVM手法に焦点を当てる。 どちらも印象的な結果を得たが、精度を高めるためにQK-SVMとQV-SVMの強みを相乗化する新しいアプローチを提案する。 提案する量子変分カーネルSVM(QVK-SVM)は,量子カーネルと量子変分アルゴリズムを利用する。 irisデータセットに関する広範な実験を行い、qvk-svmが既存のモデルの精度、損失、および混乱行列の指標よりも優れていることを観測した。 以上の結果から,QVK-SVMはQMLアプリケーションの信頼性と変換ツールとして大きな可能性を秘めている。 したがって、今後のQML研究における採用を推奨する。

Quantum machine learning (QML) has witnessed immense progress recently, with quantum support vector machines (QSVMs) emerging as a promising model. This paper focuses on the two existing QSVM methods: quantum kernel SVM (QK-SVM) and quantum variational SVM (QV-SVM). While both have yielded impressive results, we present a novel approach that synergizes the strengths of QK-SVM and QV-SVM to enhance accuracy. Our proposed model, quantum variational kernel SVM (QVK-SVM), leverages the quantum kernel and quantum variational algorithm. We conducted extensive experiments on the Iris dataset and observed that QVK-SVM outperforms both existing models in terms of accuracy, loss, and confusion matrix indicators. Our results demonstrate that QVK-SVM holds tremendous potential as a reliable and transformative tool for QML applications. Hence, we recommend its adoption in future QML research endeavors.
翻訳日:2023-05-11 13:30:55 公開日:2023-05-10
# 量子秘密共有における新しい量子アドバンテージ

A New Quantum Advantage in Quantum Secret Sharing ( http://arxiv.org/abs/2305.06062v1 )

ライセンス: Link先を確認
Pahulpreet Singh, Indranil Chakrabarty(参考訳) 本稿では,1つのディーラー(アリス)と1つのアシスタント(ボブ)と1つのリコンストラクタ(チャーリー)を備えた,単純な3者シナリオについて考察する。 この枠組みの下で量子秘密を再構築する古典的な限界を見いだす。 興味深いことに、これは2/3である。 共有資源状態のブロッホパラメータを用いて再構成忠実性を表す式を定式化する。 この時点でスコアが2/3を超えるようないかなる資源状態であっても、秘密を再構築するという文脈で量子的な利点を与えるのは必須である。 興味深いことに、この忠実性は三成分相関テンソルだけでなく、ディーラーと再構成器の間の既存の二成分チャネルにも依存する。 ある意味でこの忠実度は、私たちが再構築できる情報の量を測定することができる。 結果として、3つのキュービット資源状態の秘密共有能力に加えて、ディーラーと再構築者の間のチャネルのテレポーテーション能力の寄与も考慮に入れられる。 この研究は、例えば、再構成の忠実性における量子的優位性が、秘密の共有プロセス(3つのパーティの関与が必要な場合)や、サブシステムにおけるテレポーテーション、あるいはその原因によるものである場合についても論じる。 標準的なGHZ状態以外の状態で可能なすべてのシナリオで量子的優位性を示すことができる。 また,三者間の相関テンソルと,ディーラーと再構築者との相関行列に基づいて,必要な条件を求める。 この手紙で我々は、与えられた三国間資源の秘密共有とテレポーテーションの過程で発生する新しい種類の相互運用性を発見する。 この結果は、大規模な量子ネットワークをセットアップしながら、これらのタスクのための3つの量子ビットリソースの識別プロセスをベンチマークする。

In this letter, we consider a simple three-party scenario, with one Dealer (Alice), one Assistant (Bob) and a Reconstructor (Charlie). We find the classical limit of reconstructing the quantum secret under this framework. Interestingly this happens to be 2/3. We formulate the expression for reconstruction fidelity in terms of the Bloch parameters of the shared resource state. It is imperative to say at this point any resource state for which the score is beyond 2/3, gives us a quantum advantage in context of reconstructing the secret. Interestingly, this fidelity not only depends upon the tripartite correlation tensor but also on the existent bipartite channel between the dealer and the reconstructor. This fidelity in a sense is able to measure, the amount of information we are able to reconstruct. As a result of which it also takes into account the contribution of the teleportation capacity of the channel between the dealer and reconstructor in addition to the secret sharing capacity of three qubit resource state. In this work along with example we also discuss the cases when the quantum advantage in the reconstruction fidelity is entirely because of the secret sharing process (where involvement of three party is necessary) or entirely because of the teleportation in subsystem or because of. We are able to show quantum advantages in all possible scenarios with states other than the standard GHZ state. We also obtain necessary conditions based on the correlation tensor between three parties and correlation matrix between the dealer and the reconstructor. In this letter we discover a new kind of interoperability that happens in the process of secret sharing and teleportation for a given tripartite resource. This result benchmarks the identification process of three qubit resources for these tasks while setting up large scale quantum network.
翻訳日:2023-05-11 13:30:35 公開日:2023-05-10
# 視覚チューニング

Visual Tuning ( http://arxiv.org/abs/2305.06061v1 )

ライセンス: Link先を確認
Bruce X.B. Yu and Jianlong Chang and Haixin Wang and Lingbo Liu and Shijie Wang and Zhiyu Wang and Junfan Lin and Lingxi Xie and Haojie Li and Zhouchen Lin and Qi Tian and Chang Wen Chen(参考訳) 微調整ビジュアルモデルは、多くの下流視覚タスクにおいて有望なパフォーマンスを示す。 トレーニング済みの視覚基礎モデルの驚くべき発展により、視覚的なチューニングは、トレーニング済みのモデル全体または完全に接続された層全体を微調整する標準モードのオペラーディから飛び出した。 代わりに、より少ないパラメータを更新することによって、事前学習されたパラメータ全体をフルチューニングするよりも、最近の進歩は優れたパフォーマンスを達成し、エッジデバイスと下流アプリケーションによって、クラウドにデプロイされるますます大きな基盤モデルを再利用できる。 視覚チューニングの全体像と今後の方向性を研究者に提供することを目的として、この調査は、最近の作品の大規模かつ思慮深い選択を特徴付け、既存の作業とモデルの体系的かつ包括的な概要を提供する。 具体的には、視覚チューニングの詳細な背景を提供し、最近の視覚チューニングテクニックをプロンプトチューニング、アダプタチューニング、パラメータチューニング、再マップチューニングの5つのグループに分類する。 一方、前向きな事前トレーニングや視覚的チューニングにおける様々なインタラクションに対して、エキサイティングな研究方向を提供する。

Fine-tuning visual models has been widely shown promising performance on many downstream visual tasks. With the surprising development of pre-trained visual foundation models, visual tuning jumped out of the standard modus operandi that fine-tunes the whole pre-trained model or just the fully connected layer. Instead, recent advances can achieve superior performance than full-tuning the whole pre-trained parameters by updating far fewer parameters, enabling edge devices and downstream applications to reuse the increasingly large foundation models deployed on the cloud. With the aim of helping researchers get the full picture and future directions of visual tuning, this survey characterizes a large and thoughtful selection of recent works, providing a systematic and comprehensive overview of existing work and models. Specifically, it provides a detailed background of visual tuning and categorizes recent visual tuning techniques into five groups: prompt tuning, adapter tuning, parameter tuning, and remapping tuning. Meanwhile, it offers some exciting research directions for prospective pre-training and various interactions in visual tuning.
翻訳日:2023-05-11 13:30:09 公開日:2023-05-10
# 指数的に変動パラメータが少ないテンソルネットワークによるニューラルネットワークの圧縮

Compressing neural network by tensor network with exponentially fewer variational parameters ( http://arxiv.org/abs/2305.06058v1 )

ライセンス: Link先を確認
Yong Qing, Peng-Fei Zhou, Ke Li, Shi-Ju Ran(参考訳) 機械学習タスクに挑戦するために設計されたニューラルネットワーク(NN)は、一般的に大きな変動パラメータを含む非常に非線形なマッピングである。 NNの複雑さは、もし制限されていない場合、過度な適合、一般化力の喪失、ハードウェアの耐え難いコストといった深刻な問題を引き起こす可能性がある。 本研究では,指数関数的な自由パラメータを含む多層テンソルネットワーク(TN)に符号化することで,NNの変動パラメータを著しく低減する汎用圧縮手法を提案する。 提案手法の圧縮性能を,浅いテンソルネットワークに基づく最先端手法を超越した,広く認識されているNN(FC-2, LeNet-5, VGG-16)およびデータセット(MNIST, CIFAR-10)で実証した。 例えば、VGG-16の3つの畳み込み層の約1000万のパラメータは、わずか632ドルのパラメータでTNで圧縮されるが、CIFAR-10のテスト精度は、元のNNで811.14\%から84.36\%まで驚くほど改善されている。 本研究は,単純なマルチウェイアレイよりも圧縮性に優れているnnの変動パラメータを表現するための,非常に効率的な数学的構造としてtnを提案する。

Neural network (NN) designed for challenging machine learning tasks is in general a highly nonlinear mapping that contains massive variational parameters. High complexity of NN, if unbounded or unconstrained, might unpredictably cause severe issues including over-fitting, loss of generalization power, and unbearable cost of hardware. In this work, we propose a general compression scheme that significantly reduces the variational parameters of NN by encoding them to multi-layer tensor networks (TN's) that contain exponentially-fewer free parameters. Superior compression performance of our scheme is demonstrated on several widely-recognized NN's (FC-2, LeNet-5, and VGG-16) and datasets (MNIST and CIFAR-10), surpassing the state-of-the-art method based on shallow tensor networks. For instance, about 10 million parameters in the three convolutional layers of VGG-16 are compressed in TN's with just $632$ parameters, while the testing accuracy on CIFAR-10 is surprisingly improved from $81.14\%$ by the original NN to $84.36\%$ after compression. Our work suggests TN as an exceptionally efficient mathematical structure for representing the variational parameters of NN's, which superiorly exploits the compressibility than the simple multi-way arrays.
翻訳日:2023-05-11 13:29:48 公開日:2023-05-10
# 自動意思決定システムにおけるフィードバックループの分類とバイアスとの関係

A Classification of Feedback Loops and Their Relation to Biases in Automated Decision-Making Systems ( http://arxiv.org/abs/2305.06055v1 )

ライセンス: Link先を確認
Nicol\`o Pagan, Joachim Baumann, Ezzat Elokda, Giulia De Pasquale, Saverio Bolognani, Anik\'o Hann\'ak(参考訳) 様々な分野において,予測に基づく意思決定システムが普及している。 以前の研究では、そのようなシステムは逃走フィードバックループに弱いことが示されており、例えば、警察が犯罪行為の実際の頻度に関わらず、同じ地区に繰り返し送られ、既存のバイアスが悪化する。 実際には、自動決定はシステム自体に動的なフィードバック効果を持ち、時間の経過とともに持続し、短期的な設計選択がシステムの進化を制御するのが困難になる。 研究者は、副作用(例えば特定のグループへの偏見)を防ぐための長期的な解決策を提案し始めたが、これらの介入はアドホックなモデリングの仮定とMLベースの意思決定システムにおけるフィードバックのダイナミクスに関する厳密な理論的理解に大きく依存している。 本稿では、動的挙動を伴うシステムの相互接続の分析を扱う応用数学の一分野である動的システム理論の言語を用いて、MLに基づく意思決定パイプラインにおける異なるタイプのフィードバックループを厳格に分類する。 既存の学術研究をレビューすることにより,アルゴリズムフェアネスコミュニティで議論されている多くの事例を網羅し,フィードバックループを研究するための統一的で原則化された枠組みを提供する。 質的分析とレコメンダシステムのシミュレーション例を用いて,各フィードバックループのタイプによってどのような種類のmlバイアスが影響を受けるかを示す。 MLベースの意思決定パイプラインにおけるフィードバックループの存在は、MLバイアスを永続的に、強化し、あるいは低減することができる。

Prediction-based decision-making systems are becoming increasingly prevalent in various domains. Previous studies have demonstrated that such systems are vulnerable to runaway feedback loops, e.g., when police are repeatedly sent back to the same neighborhoods regardless of the actual rate of criminal activity, which exacerbate existing biases. In practice, the automated decisions have dynamic feedback effects on the system itself that can perpetuate over time, making it difficult for short-sighted design choices to control the system's evolution. While researchers started proposing longer-term solutions to prevent adverse outcomes (such as bias towards certain groups), these interventions largely depend on ad hoc modeling assumptions and a rigorous theoretical understanding of the feedback dynamics in ML-based decision-making systems is currently missing. In this paper, we use the language of dynamical systems theory, a branch of applied mathematics that deals with the analysis of the interconnection of systems with dynamic behaviors, to rigorously classify the different types of feedback loops in the ML-based decision-making pipeline. By reviewing existing scholarly work, we show that this classification covers many examples discussed in the algorithmic fairness community, thereby providing a unifying and principled framework to study feedback loops. By qualitative analysis, and through a simulation example of recommender systems, we show which specific types of ML biases are affected by each type of feedback loop. We find that the existence of feedback loops in the ML-based decision-making pipeline can perpetuate, reinforce, or even reduce ML biases.
翻訳日:2023-05-11 13:29:23 公開日:2023-05-10
# 合成データ生成のためのGANを用いた後学習モデル量子化

Post-training Model Quantization Using GANs for Synthetic Data Generation ( http://arxiv.org/abs/2305.06052v1 )

ライセンス: Link先を確認
Athanasios Masouris, Mansi Sharma, Adrian Boguszewski, Alexander Kozlov, Zhuo Wu, Raymond Lo(参考訳) 量子化は、深層ニューラルネットワークが必要とするメモリと計算資源を減らすために広く採用されている技法である。 しかし、定量化されると、ほとんどのモデルはパフォーマンスを維持するのに適切なキャリブレーションプロセスが必要となり、モデルトレーニングやモデル検証(すなわちキャリブレーションデータセット)で使用されるデータセットのごく一部など、ターゲットドメインからのデータを必要とします。 本研究では, 量子化法における実データを用いたキャリブレーションの代用として合成データを用いることを検討した。 本稿では,モデル量子化ステップに先立ってトレーニングされた生成逆ネットワークに基づくデータ生成手法を提案する。 本稿では,StyleGAN2-ADAで生成されたデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。 本実験の結果は, 量子化過程における校正に合成データを活用する可能性を示すものである。 実験では,選択したモデルの精度劣化率を0.6%以下とし,MobileNetV2(0.05%)で最高の性能を示した。 コードは以下の通り。 https://github.com/ThanosM97/gsoc2022-openvino

Quantization is a widely adopted technique for deep neural networks to reduce the memory and computational resources required. However, when quantized, most models would need a suitable calibration process to keep their performance intact, which requires data from the target domain, such as a fraction of the dataset used in model training and model validation (i.e. calibration dataset). In this study, we investigate the use of synthetic data as a substitute for the calibration with real data for the quantization method. We propose a data generation method based on Generative Adversarial Networks that are trained prior to the model quantization step. We compare the performance of models quantized using data generated by StyleGAN2-ADA and our pre-trained DiStyleGAN, with quantization using real data and an alternative data generation method based on fractal images. Overall, the results of our experiments demonstrate the potential of leveraging synthetic data for calibration during the quantization process. In our experiments, the percentage of accuracy degradation of the selected models was less than 0.6%, with our best performance achieved on MobileNetV2 (0.05%). The code is available at: https://github.com/ThanosM97/gsoc2022-openvino
翻訳日:2023-05-11 13:28:56 公開日:2023-05-10
# 欠落値下の相関の可視化 : インプテーション法と直接パラメータ推定法の比較

Correlation visualization under missing values: a comparison between imputation and direct parameter estimation methods ( http://arxiv.org/abs/2305.06044v1 )

ライセンス: Link先を確認
Nhat-Hao Pham, Khanh-Linh Vo, Mai Anh Vu, Thu Nguyen, Michael A. Riegler, P{\aa}l Halvorsen, Binh T. Nguyen(参考訳) 相関行列の可視化はデータセット内の変数間の関係を理解するのに不可欠であるが、データの欠如は相関係数の推定において大きな課題となる。 本稿では,様々な欠落データ手法が相関プロットに与える影響を比較し,無作為と単調の2つの共通欠落パターンに着目した。 我々は,相関プロットの作成と分析において,研究者や実践者に実践的な戦略と勧告を提供することを目指している。 実験結果から, インプテーションは欠落データに一般的に用いられるが, 相関行列のプロットにインプテーションデータを用いると, 特徴間の関係を著しく誤解させる可能性がある。 実験では, 直接パラメータ推定手法であるDPERを用いて相関行列をプロットすることを推奨する。

Correlation matrix visualization is essential for understanding the relationships between variables in a dataset, but missing data can pose a significant challenge in estimating correlation coefficients. In this paper, we compare the effects of various missing data methods on the correlation plot, focusing on two common missing patterns: random and monotone. We aim to provide practical strategies and recommendations for researchers and practitioners in creating and analyzing the correlation plot. Our experimental results suggest that while imputation is commonly used for missing data, using imputed data for plotting the correlation matrix may lead to a significantly misleading inference of the relation between the features. We recommend using DPER, a direct parameter estimation approach, for plotting the correlation matrix based on its performance in the experiments.
翻訳日:2023-05-11 13:28:36 公開日:2023-05-10
# PAI at SemEval-2023 Task 2: A Universal System for Named Entity Recognition with external Entity Information

PAI at SemEval-2023 Task 2: A Universal System for Named Entity Recognition with External Entity Information ( http://arxiv.org/abs/2305.06099v1 )

ライセンス: Link先を確認
Long Ma, Kai Lu, Tianbo Che, Hailong Huang, Weiguo Gao, Xuan Li(参考訳) MultiCoNER IIタスクは、スペルミスの存在や複数の言語に対するタイプミスといった、低コンテキストの状況やノイズの多いシナリオにおいて、複雑で曖昧できめ細かな名前のエンティティを検出することを目的としている。 このタスクは、コンテキスト情報の不足、エンティティ(最大33クラス)の粒度の高さ、ノイズの多いデータの干渉など、重大な課題を提起する。 これらの問題に対処するため、我々のチームは、外部エンティティ情報を統合してパフォーマンスを向上させる、ユニバーサルな名前付きエンティティ認識(NER)システムを提案する。 具体的には、与えられたテキストの知識ベース(例えばウィキペディア)からプロパティを持つエンティティを検索し、入力文とエンティティ情報を結合し、Transformerベースのモデルに入力する。 最後に、私たちのシステムは、13トラックのうち2つの第1位、第2位、第3位を勝ち取ります。 コードは \url{https://github.com/diqiuzhuanzhuan/semeval-2023} で公開されている。

The MultiCoNER II task aims to detect complex, ambiguous, and fine-grained named entities in low-context situations and noisy scenarios like the presence of spelling mistakes and typos for multiple languages. The task poses significant challenges due to the scarcity of contextual information, the high granularity of the entities(up to 33 classes), and the interference of noisy data. To address these issues, our team {\bf PAI} proposes a universal Named Entity Recognition (NER) system that integrates external entity information to improve performance. Specifically, our system retrieves entities with properties from the knowledge base (i.e. Wikipedia) for a given text, then concatenates entity information with the input sentence and feeds it into Transformer-based models. Finally, our system wins 2 first places, 4 second places, and 1 third place out of 13 tracks. The code is publicly available at \url{https://github.com/diqiuzhuanzhuan/semeval-2023}.
翻訳日:2023-05-11 13:22:46 公開日:2023-05-10
# 一般化された$n$-qubit Werner状態の1ウェイ欠陥とホレボ量

One-Way Deficit and Holevo Quantity of Generalized $n$-qubit Werner State ( http://arxiv.org/abs/2305.06097v1 )

ライセンス: Link先を確認
Yao-Kun Wang, Rui-Xin Chen, Li-Zhu Ge, Shao-Ming Fei, Zhi-Xi Wang(参考訳) 熱浴と結合した量子系のワーク抽出から生まれた量子欠陥は、量子の絡み合いのような重要な量子相関の一種である。 量子熱力学と量子情報を結びつける。 一般化された$n$-qubit Werner状態の一方的欠陥を解析的に計算する。 混合確率$p$が任意の$n$に対して増加すると、一方的な赤字が増加する。 固定の$p$の場合、一方の赤字はn$が増加するにつれて増加する。 任意の$n$に対して、一方的欠陥の最大値が$p=1$に達する。 さらに、大きな$n$ (2^n \rightarrow \infty$) の場合、一方の欠点の曲線と、勾配が1ドルある直線へのアプローチに対する$p$の曲線が証明される。 また、一般化された$n$-qubit Werner状態のホレボ量も計算し、それが 0 であることを示す。

Originated from the work extraction in quantum systems coupled to a heat bath, quantum deficit is a kind of significant quantum correlations like quantum entanglement. It links quantum thermodynamics with quantum information. We analytically calculate the one-way deficit of the generalized $n$-qubit Werner state. We find that the one-way deficit increases as the mixing probability $p$ increases for any $n$. For fixed $p$, we observe that the one-way deficit increases as $n$ increases. For any $n$, the maximum of one-way deficit is attained at $p=1$. Furthermore, for large $n$ ($2^n \rightarrow \infty$), we prove that the curve of one-way deficit versus $p$ approaches to a straight line with slope $1$. We also calculate the Holevo quantity for the generalized $n$-qubit Werner state, and show that it is zero.
翻訳日:2023-05-11 13:22:25 公開日:2023-05-10
# 3相ニュートリノ振動の完全相補性関係

Complete complementarity relations for three-flavor neutrino oscillations ( http://arxiv.org/abs/2305.06095v1 )

ライセンス: Link先を確認
Massimo Blasone, Silvio De Siena, Cristina Matrella(参考訳) 完全相補性関係を利用して3相振動ニュートリノ系で符号化された量子相関を特徴付ける。 特に、2つのフレーバーサブシステムに関連するコントリビューションを分析し、それぞれが特定の内部構造を示す。 我々は,初期電子状態とミューオンニュートリノ状態の両方において,大距離における相関の挙動に注目した。 この解析は、ニュートリノが混合状態で表される波束法に基づいており、その結果、二成分相関は量子ディスコードによって記述される。

We exploit complete complementarity relations to characterize quantum correlations encoded in a three-flavor oscillating neutrino system. In particular, we analyze the contributions associated to the twoflavor subsystems, each of which exhibits a particular internal structure. We focus on the behavior of the correlations at large distances, both for an initial electron and muon neutrino state. Our analysis is based on the wave packet approach in which the neutrino is represented by a mixed state: consequently, the bipartite correlations are described by the Quantum Discord.
翻訳日:2023-05-11 13:22:10 公開日:2023-05-10
# xtab:表型トランスフォーマーのためのクロステーブルプリトレーニング

XTab: Cross-table Pretraining for Tabular Transformers ( http://arxiv.org/abs/2305.06090v1 )

ライセンス: Link先を確認
Bingzhao Zhu, Xingjian Shi, Nick Erickson, Mu Li, George Karypis, Mahsa Shoaran(参考訳) コンピュータビジョンと自然言語処理における自己教師型学習の成功は、表データの事前学習手法を動機付けている。 しかし、既存のテーブル型自己教師付き学習モデルは、複数のデータテーブルにまたがる情報を活用することができず、新しいテーブルに一般化できない。 本稿では,各種ドメインのデータセット上で表型トランスフォーマーのクロステーブル事前トレーニングを行うフレームワークであるXTabを紹介する。 本稿では,テーブル間の一貫性のない列型と量に関する課題を,独立型フェクタと共用学習を用いて共有コンポーネントの事前学習を行うことで解決する。 OpenML-AutoML Benchmark (AMLB) の84の表型予測タスクを試験した結果,(1) XTab は複数の表型変換器の一般化性,学習速度,性能を一貫して向上させ,(2) XTab を介してFT-Transformer を事前訓練することにより,回帰,バイナリ,マルチクラス分類などのタスクにおける他の最先端の表型深層学習モデルよりも優れた性能を実現する。

The success of self-supervised learning in computer vision and natural language processing has motivated pretraining methods on tabular data. However, most existing tabular self-supervised learning models fail to leverage information across multiple data tables and cannot generalize to new tables. In this work, we introduce XTab, a framework for cross-table pretraining of tabular transformers on datasets from various domains. We address the challenge of inconsistent column types and quantities among tables by utilizing independent featurizers and using federated learning to pretrain the shared component. Tested on 84 tabular prediction tasks from the OpenML-AutoML Benchmark (AMLB), we show that (1) XTab consistently boosts the generalizability, learning speed, and performance of multiple tabular transformers, (2) by pretraining FT-Transformer via XTab, we achieve superior performance than other state-of-the-art tabular deep learning models on various tasks such as regression, binary, and multiclass classification.
翻訳日:2023-05-11 13:22:00 公開日:2023-05-10
# 目的駆動型知識グラフとしての相互運用可能な電子健康記録の構築

Building Interoperable Electronic Health Records as Purpose-Driven Knowledge Graphs ( http://arxiv.org/abs/2305.06088v1 )

ライセンス: Link先を確認
Simone Bocca, Alessio Zamboni, Gabor Bella, Yamini Chandrashekar, Mayukh Bagchi, Gabriel Kuper, Paolo Bouquet and Fausto Giunchiglia(参考訳) 新しいアプリケーションを構築する際、既存の知識の再利用と統合の必要性にますます直面しています。 しかし、この先行知識は再利用が事実上不可能であることは事実である。 これは、例えばeHealthのようなドメインにも当てはまり、高品質な標準やFHIR1のような参照オントロジーの開発に多くの努力が注がれている。 本稿では,相互運用可能な電子健康記録(iEHR)の構築に向けて,データと知識の再利用を可能にするiTelosという統合手法を提案する。 重要な直観は、アプリケーションのデータレベルとスキーマレベルは独立して開発されるべきであり、これにより、事前知識の再利用において最大限の柔軟性が確保されるが、全体的なニーズのガイダンスの下では、能力クエリとして形式化される。 この直感は、プリオリを定義する目的の一部として、再利用に関するものを含むすべての要件を体系化して実装され、アプリケーションスキーマとデータが継続的に整列された中間開発プロセスを駆動するために使用される。 提案手法は大規模ケーススタディへの適用を通じて検証されている。

When building a new application we are increasingly confronted with the need of reusing and integrating pre-existing knowledge. Nevertheless, it is a fact that this prior knowledge is virtually impossible to reuse as-is. This is true also in domains, e.g., eHealth, where a lot of effort has been put into developing high-quality standards and reference ontologies, e.g. FHIR1. In this paper, we propose an integrated methodology, called iTelos, which enables data and knowledge reuse towards the construction of Interoperable Electronic Health Records (iEHR). The key intuition is that the data level and the schema level of an application should be developed independently, thus allowing for maximum flexibility in the reuse of the prior knowledge, but under the overall guidance of the needs to be satisfied, formalized as competence queries. This intuition is implemented by codifying all the requirements, including those concerning reuse, as part of a purpose defined a priori, which is then used to drive a middle-out development process where the application schema and data are continuously aligned. The proposed methodology is validated through its application to a large-scale case study.
翻訳日:2023-05-11 13:21:37 公開日:2023-05-10
# ChatGPT能力の進歩とAI研究への影響

A Glimpse in ChatGPT Capabilities and its impact for AI research ( http://arxiv.org/abs/2305.06087v1 )

ライセンス: Link先を確認
Frank Joublin, Antonello Ceravola, Joerg Deigmoeller, Michael Gienger, Mathias Franzius, Julian Eggert(参考訳) Google、Amazon、Facebook、Amazon、Tesla、Apple(GAFA)といった企業が開発に多大な投資をしている。 これらのモデルは大量のデータに基づいて訓練されており、言語翻訳、テキスト生成、質問応答など幅広いタスクに使用できる。 しかし、これらのモデルの訓練と運用に必要な計算リソースは相当量であり、gafaの資金とリソースを持たない研究所では、ハードウェアと電力のコストは禁止される可能性がある。 本稿では,LLMがAI研究に与える影響について検討する。 このようなモデルが生み出されるペースと、網羅される領域の範囲は、公衆だけでなく、現在科学コミュニティも経験している傾向の表れである。 本稿では,gpt3.5/chatgpt3.4とchatgpt4を現状に注目することで,このようなモデルを研究に活用する方法を示す。 このようなモデルを統合するイノベーションは、そうしたAIシステムの成熟とともに拡大し、我々の社会のいくつかの側面に重要な影響を与える予期せぬ応用を示す。

Large language models (LLMs) have recently become a popular topic in the field of Artificial Intelligence (AI) research, with companies such as Google, Amazon, Facebook, Amazon, Tesla, and Apple (GAFA) investing heavily in their development. These models are trained on massive amounts of data and can be used for a wide range of tasks, including language translation, text generation, and question answering. However, the computational resources required to train and run these models are substantial, and the cost of hardware and electricity can be prohibitive for research labs that do not have the funding and resources of the GAFA. In this paper, we will examine the impact of LLMs on AI research. The pace at which such models are generated as well as the range of domains covered is an indication of the trend which not only the public but also the scientific community is currently experiencing. We give some examples on how to use such models in research by focusing on GPT3.5/ChatGPT3.4 and ChatGPT4 at the current state and show that such a range of capabilities in a single system is a strong sign of approaching general intelligence. Innovations integrating such models will also expand along the maturation of such AI systems and exhibit unforeseeable applications that will have important impacts on several aspects of our societies.
翻訳日:2023-05-11 13:21:18 公開日:2023-05-10
# FedSOV: 忘れられない署名によるフェデレーションモデルセキュアなオーナシップ検証

FedSOV: Federated Model Secure Ownership Verification with Unforgeable Signature ( http://arxiv.org/abs/2305.06085v1 )

ライセンス: Link先を確認
Wenyuan Yang, Gongxi Zhu, Yuguo Yin, Hanlin Gu, Lixin Fan, Qiang Yang, Xiaochun Cao(参考訳) フェデレートラーニングにより、複数のパーティがプライベートデータを公開せずにグローバルモデルを学ぶことができる。 トレーニングの高コストとグローバルモデルの重要な価値は、フェデレートされた学習のオーナシップ検証を必要とする。 しかしながら、連合学習における既存のオーナシップ検証スキームには、多数のクライアントの不十分なサポートやあいまいな攻撃に対する脆弱性など、いくつかの制限がある。 これらの制約に対処するため,FedSOVという暗号署名に基づくフェデレート学習モデルのオーナシップ検証手法を提案する。 フェソフは、多くのクライアントが自分の所有権証明書を埋め込んで、忘れられないデジタル署名を使って所有権を検証できる。 このスキームは、署名の忘れがたい曖昧さ攻撃に対する理論的抵抗を提供する。 コンピュータビジョンと自然言語処理タスクの実験結果から、FedSOVは証明可能な暗号セキュリティによって強化された効果的なフェデレーションモデルオーナシップ検証スキームであることが示された。

Federated learning allows multiple parties to collaborate in learning a global model without revealing private data. The high cost of training and the significant value of the global model necessitates the need for ownership verification of federated learning. However, the existing ownership verification schemes in federated learning suffer from several limitations, such as inadequate support for a large number of clients and vulnerability to ambiguity attacks. To address these limitations, we propose a cryptographic signature-based federated learning model ownership verification scheme named FedSOV. FedSOV allows numerous clients to embed their ownership credentials and verify ownership using unforgeable digital signatures. The scheme provides theoretical resistance to ambiguity attacks with the unforgeability of the signature. Experimental results on computer vision and natural language processing tasks demonstrate that FedSOV is an effective federated model ownership verification scheme enhanced with provable cryptographic security.
翻訳日:2023-05-11 13:20:56 公開日:2023-05-10
# 有限精度サンプリングを用いたバンドのベストアーム識別

Best Arm Identification in Bandits with Limited Precision Sampling ( http://arxiv.org/abs/2305.06082v1 )

ライセンス: Link先を確認
Kota Srinivas Reddy, P. N. Karthik, Nikhil Karamchandani and Jayakrishnan Nair(参考訳) 学習者が腕選択の精度に限界がある多腕バンディット問題の変種における最適な腕識別について検討する。 学習者は特定の探索バンドルを通してのみ腕をサンプリングできる。 特に、各サンプリングエポックにおいて、学習者はボックスを選択し、その結果、ボックス固有の確率分布に従って腕を引っ張られる。 抽出したアームとその即時報酬を学習者に明らかにし、予測停止時間を最小化し、エラー確率の上限に照らして最適なアームを見つけることを目標とする。 予測停止時間の漸近的下限を示し,誤差確率が消失するときに保持する。 下限によって提案される最適割り当ては一般には非一様であり、従って追跡することが困難であることを示す。 非一様最適割当を扱うための改良型追従ベースアルゴリズムを提案し,漸近的最適であることを示す。 また,一方のボックスからアクセス可能な腕が他方のボックスと重なり合っていない場合に,停止時間に非漸近的下限と上限を簡単な設定で提示する。

We study best arm identification in a variant of the multi-armed bandit problem where the learner has limited precision in arm selection. The learner can only sample arms via certain exploration bundles, which we refer to as boxes. In particular, at each sampling epoch, the learner selects a box, which in turn causes an arm to get pulled as per a box-specific probability distribution. The pulled arm and its instantaneous reward are revealed to the learner, whose goal is to find the best arm by minimising the expected stopping time, subject to an upper bound on the error probability. We present an asymptotic lower bound on the expected stopping time, which holds as the error probability vanishes. We show that the optimal allocation suggested by the lower bound is, in general, non-unique and therefore challenging to track. We propose a modified tracking-based algorithm to handle non-unique optimal allocations, and demonstrate that it is asymptotically optimal. We also present non-asymptotic lower and upper bounds on the stopping time in the simpler setting when the arms accessible from one box do not overlap with those of others.
翻訳日:2023-05-11 13:20:40 公開日:2023-05-10
# 部分ラベル学習のための効果的な視覚表現に向けて

Towards Effective Visual Representations for Partial-Label Learning ( http://arxiv.org/abs/2305.06080v1 )

ライセンス: Link先を確認
Shiyu Xia, Jiaqi Lv, Ning Xu, Gang Niu, Xin Geng(参考訳) PLL(Partial-label Learning)では、未知の真のラベルを含む曖昧な候補ラベルのセットのみがアクセス可能であるが、コントラスト学習は近年、同じ/異なるエンティティのクラスを対比して学習した表現による視覚タスクにおけるPLLのパフォーマンスを高めている。 真のラベルにアクセスできなければ、正の点は本質的にノイズの多い擬似ラベルを使って予測され、負の点は大きなバッチや運動量エンコーダを必要とし、信頼性の低い類似性情報と高い計算オーバーヘッドをもたらす。 本稿では,PaPi (Partial-label learning with a guided Prototypeal classifier) と呼ばれる単純なフレームワークの設計を刺激し,表現学習の大幅な改善を図り,ラベルの曖昧化に寄与する,最先端のPLL手法であるPiCO[24]を再考する。 PaPiは、同じ特徴エンコーダを共有する線形分類器により、原型分類器の最適化を導くため、カテゴリ間の視覚的類似性を明示的に反映するよう、表現を奨励する。 PaPiは、方向指示の反対でPiCOのいくつかのコンポーネントしか必要とせず、ノイズを導入して計算リソースを消費する対照的な学習モジュールを直接排除している。 画像分類タスクにおいて,PaPiが他のPLL法よりも優れていることを示す。

Under partial-label learning (PLL) where, for each training instance, only a set of ambiguous candidate labels containing the unknown true label is accessible, contrastive learning has recently boosted the performance of PLL on vision tasks, attributed to representations learned by contrasting the same/different classes of entities. Without access to true labels, positive points are predicted using pseudo-labels that are inherently noisy, and negative points often require large batches or momentum encoders, resulting in unreliable similarity information and a high computational overhead. In this paper, we rethink a state-of-the-art contrastive PLL method PiCO[24], inspiring the design of a simple framework termed PaPi (Partial-label learning with a guided Prototypical classifier), which demonstrates significant scope for improvement in representation learning, thus contributing to label disambiguation. PaPi guides the optimization of a prototypical classifier by a linear classifier with which they share the same feature encoder, thus explicitly encouraging the representation to reflect visual similarity between categories. It is also technically appealing, as PaPi requires only a few components in PiCO with the opposite direction of guidance, and directly eliminates the contrastive learning module that would introduce noise and consume computational resources. We empirically demonstrate that PaPi significantly outperforms other PLL methods on various image classification tasks.
翻訳日:2023-05-11 13:20:23 公開日:2023-05-10
# Relightify:拡散モデルによる単一画像からの3D顔の再現性

Relightify: Relightable 3D Faces from a Single Image via Diffusion Models ( http://arxiv.org/abs/2305.06077v1 )

ライセンス: Link先を確認
Foivos Paraperas Papantoniou, Alexandros Lattas, Stylianos Moschoglou, Stefanos Zafeiriou(参考訳) 画像生成における拡散モデルの顕著な成功に続いて、最近の研究は、条件付け入力に基づいてサンプリング過程を適切に制約することにより、教師なしの方法で多くの逆問題に対処できる印象的な能力を示した。 そこで本研究では,1枚の画像から高精度な3次元顔BRDF再構成を行うために,拡散モデルを用いた最初のアプローチを提案する。 まず,自然のRGBテクスチャをシミュレートするために,様々な照明条件下でレンダリングする高品質な顔反射率データセット(拡散およびスペクトルアルベドおよび正規値)を利用し,その上で,合成されたテクスチャと反射率成分の組合わせによる非条件拡散モデルを訓練する。 テスト時には、与えられた画像に3d morphableモデルを適用し、部分的なuvテクスチャで顔を解き放つ。 拡散モデルからサンプリングすることにより、観察されたテクスチャ部を無傷に保ちながら、モデルは、自己閉鎖領域だけでなく、未知の反射成分を1つのデノナイジングステップで塗布する。 既存の手法とは対照的に,観測されたテクスチャを直接入力画像から取得し,より忠実で一貫した反射率推定を行う。 質的,定量的な比較を行い,テクスチャ補完と反射率再構成の両タスクにおいて優れた性能を示す。

Following the remarkable success of diffusion models on image generation, recent works have also demonstrated their impressive ability to address a number of inverse problems in an unsupervised way, by properly constraining the sampling process based on a conditioning input. Motivated by this, in this paper, we present the first approach to use diffusion models as a prior for highly accurate 3D facial BRDF reconstruction from a single image. We start by leveraging a high-quality UV dataset of facial reflectance (diffuse and specular albedo and normals), which we render under varying illumination settings to simulate natural RGB textures and, then, train an unconditional diffusion model on concatenated pairs of rendered textures and reflectance components. At test time, we fit a 3D morphable model to the given image and unwrap the face in a partial UV texture. By sampling from the diffusion model, while retaining the observed texture part intact, the model inpaints not only the self-occluded areas but also the unknown reflectance components, in a single sequence of denoising steps. In contrast to existing methods, we directly acquire the observed texture from the input image, thus, resulting in more faithful and consistent reflectance estimation. Through a series of qualitative and quantitative comparisons, we demonstrate superior performance in both texture completion as well as reflectance reconstruction tasks.
翻訳日:2023-05-11 13:19:56 公開日:2023-05-10
# NeRF$^\textbf{2}$:ニューラルラジオ周波数放射場

NeRF$^\textbf{2}$: Neural Radio-Frequency Radiance Fields ( http://arxiv.org/abs/2305.06118v1 )

ライセンス: Link先を確認
Xiaopeng Zhao, Zhenlin An, Qingrui Pan, Lei Yang(参考訳) マクスウェルは160年前に電磁波の物理法則を発見したが、電気的に大きく複雑な環境でのRF信号の伝播を正確にモデル化する方法は長年の問題のままである。 難しいのは、RF信号と障害物(反射、回折など)の間の複雑な相互作用である。 コンピュータビジョンにおける光場を記述するためにニューラルネットワークを用いた大きな成功に触発され、rf信号の伝搬を意味付ける連続ボリュームシーン関数を表すニューラル無線周波数放射場 nerf$^\textbf{2}$ を提案する。 特に、数回の信号測定でトレーニングした後、nerf$^\textbf{2}$は送信機の位置を知っている任意の位置において、どの信号が受信されたかが分かる。 物理層ニューラルネットワークとして、NeRF$^\textbf{2}$は、学習された統計モデルとレイトレーシングの物理モデルを利用して、アプリケーション層ニューラルネットワーク(ANN)のトレーニング要求を満たす合成データセットを生成することができる。 これにより,実データと合成データセットを混合し,学習の強化を図るターボラーニングによる ann の性能向上が期待できる。 実験の結果, ターボ学習は50%程度向上し, 性能を向上できることがわかった。 また,屋内局所化と5G MIMOにおけるNeRF$^\textbf{2}$のパワーを実証する。

Although Maxwell discovered the physical laws of electromagnetic waves 160 years ago, how to precisely model the propagation of an RF signal in an electrically large and complex environment remains a long-standing problem. The difficulty is in the complex interactions between the RF signal and the obstacles (e.g., reflection, diffraction, etc.). Inspired by the great success of using a neural network to describe the optical field in computer vision, we propose a neural radio-frequency radiance field, NeRF$^\textbf{2}$, which represents a continuous volumetric scene function that makes sense of an RF signal's propagation. Particularly, after training with a few signal measurements, NeRF$^\textbf{2}$ can tell how/what signal is received at any position when it knows the position of a transmitter. As a physical-layer neural network, NeRF$^\textbf{2}$ can take advantage of the learned statistic model plus the physical model of ray tracing to generate a synthetic dataset that meets the training demands of application-layer artificial neural networks (ANNs). Thus, we can boost the performance of ANNs by the proposed turbo-learning, which mixes the true and synthetic datasets to intensify the training. Our experiment results show that turbo-learning can enhance performance with an approximate 50% increase. We also demonstrate the power of NeRF$^\textbf{2}$ in the field of indoor localization and 5G MIMO.
翻訳日:2023-05-11 13:13:23 公開日:2023-05-10
# ポイントクラウド上での3次元ディープラーニングのためのVTPNet

VTPNet for 3D deep learning on point cloud ( http://arxiv.org/abs/2305.06115v1 )

ライセンス: Link先を確認
Wei Zhou, Weiwei Jin, Qian Wang, Yifan Wang, Dekui Wang, Xingxing Hao, Yongxiang Yu(参考訳) 近年,ポイントクラウドラーニングのためのTransformerベースの手法は,さまざまなポイントクラウドラーニングベンチマークで良好な結果を得た。 しかしながら、アテンションメカニズムは、アテンション特徴を計算するためにクエリ、キー、値の3つの特徴ベクトルを生成する必要があるため、既存のTransformerベースのポイントクラウド学習手法のほとんどは、グローバルアテンションを計算する際に、大量の計算時間とメモリリソースを消費する。 この問題に対処するため,Voxel-Transformer-Point(VTP)ブロックを提案し,点雲の局所的特徴とグローバルな特徴を抽出する。 vtpは、voxel-based branch (vブランチ)、point-based transformer branch (ptブランチ)、point-based branch (pブランチ)からなるvoxel-based、point-based、transformer-based methodの利点を組み合わせる。 v分枝は、低ボクセル分解能で点雲の粗粒度を抽出し、pt分枝は、局所近傍の自着率と近距離交叉率を算出し、点雲の細粒度特徴を得る。p分枝は、簡略化されたmlpネットワークを使用して点雲のグローバル位置情報を生成する。 さらに,点雲の局所的な特徴を異なるスケールで高めるため,pt枝のv枝と近傍球スケールのボクセルスケールを1つの大きな1つの小さなボクセルスケールに設定した(大ボクセルスケール \&小近傍球スケールまたは小ボクセルスケール \&大近傍球スケール)。 最後に、VTPを特徴抽出ネットワークとして、ポイントクラウド学習のためのVTPNetを構築し、ModelNet40、ShapeNet Part、S3DISデータセット上で、形状分類、部分分割、セマンティックセグメンテーションタスクを実行する。 実験の結果,VTPNetは3Dポイントのクラウド学習において優れた性能を示した。

Recently, Transformer-based methods for point cloud learning have achieved good results on various point cloud learning benchmarks. However, since the attention mechanism needs to generate three feature vectors of query, key, and value to calculate attention features, most of the existing Transformer-based point cloud learning methods usually consume a large amount of computational time and memory resources when calculating global attention. To address this problem, we propose a Voxel-Transformer-Point (VTP) Block for extracting local and global features of point clouds. VTP combines the advantages of voxel-based, point-based and Transformer-based methods, which consists of Voxel-Based Branch (V branch), Point-Based Transformer Branch (PT branch) and Point-Based Branch (P branch). The V branch extracts the coarse-grained features of the point cloud through low voxel resolution; the PT branch obtains the fine-grained features of the point cloud by calculating the self-attention in the local neighborhood and the inter-neighborhood cross-attention; the P branch uses a simplified MLP network to generate the global location information of the point cloud. In addition, to enrich the local features of point clouds at different scales, we set the voxel scale in the V branch and the neighborhood sphere scale in the PT branch to one large and one small (large voxel scale \& small neighborhood sphere scale or small voxel scale \& large neighborhood sphere scale). Finally, we use VTP as the feature extraction network to construct a VTPNet for point cloud learning, and performs shape classification, part segmentation, and semantic segmentation tasks on the ModelNet40, ShapeNet Part, and S3DIS datasets. The experimental results indicate that VTPNet has good performance in 3D point cloud learning.
翻訳日:2023-05-11 13:13:01 公開日:2023-05-10
# 映像内および映像間情報の最大化によるアクション認識

Few-shot Action Recognition via Intra- and Inter-Video Information Maximization ( http://arxiv.org/abs/2305.06114v1 )

ライセンス: Link先を確認
Huabin Liu, Weiyao Lin, Tieyuan Chen, Yuxi Li, Shuyuan Li, John See(参考訳) 現在のマイノリティ・アクション認識には,1つのビデオクリップ内のフレーム内容によって決定されるビデオ内情報と,ビデオ間の関係(例えば特徴類似性)によって測定されるビデオ間情報という2つの主要な情報が含まれている。 しかし、既存の方法はこれら2つの情報源を不適切に活用している。 ビデオ内情報に関しては、現在の入力ビデオのサンプリング操作はクリティカルアクション情報を省略し、ビデオデータの利用効率を低下させる可能性がある。 映像間情報では,映像間の動作ミスアレーメントにより,正確な関係の計算が困難となる。 さらに、ビデオ間情報と動画内情報の両方を共同検討する方法は、わずかなアクション認識では未検討のままである。 そこで本研究では,ビデオアクション認識のための新しい枠組みであるvim(video information maximization)を提案する。 VIMは、適応的な時空間ビデオサンプリング器と時空間動作アライメントモデルを備え、映像内および映像間情報を最大化する。 ビデオサンプリング装置は、重要なフレームを適応的に選択し、そのタスクに基づいて、入力ビデオ毎に重要な空間領域を増幅する。 これは、データレベルでの干渉を排除しながら、ビデオクリップの情報的部分を保存し、強調する。 アライメントモデルは、時間的および空間的行動アライメントを特徴レベルで順次実行し、ビデオ間の類似性をより正確に測定する。 最後に、これらの目的は、相互情報測定に基づく損失項を付加することにより促進される。 これにより、VIMは、限られた映像データからの映像情報の識別性を最大化する。 限定的行動認識のための公開データセットの広範な実験結果から,このフレームワークの有効性とメリットが証明された。

Current few-shot action recognition involves two primary sources of information for classification:(1) intra-video information, determined by frame content within a single video clip, and (2) inter-video information, measured by relationships (e.g., feature similarity) among videos. However, existing methods inadequately exploit these two information sources. In terms of intra-video information, current sampling operations for input videos may omit critical action information, reducing the utilization efficiency of video data. For the inter-video information, the action misalignment among videos makes it challenging to calculate precise relationships. Moreover, how to jointly consider both inter- and intra-video information remains under-explored for few-shot action recognition. To this end, we propose a novel framework, Video Information Maximization (VIM), for few-shot video action recognition. VIM is equipped with an adaptive spatial-temporal video sampler and a spatiotemporal action alignment model to maximize intra- and inter-video information, respectively. The video sampler adaptively selects important frames and amplifies critical spatial regions for each input video based on the task at hand. This preserves and emphasizes informative parts of video clips while eliminating interference at the data level. The alignment model performs temporal and spatial action alignment sequentially at the feature level, leading to more precise measurements of inter-video similarity. Finally, These goals are facilitated by incorporating additional loss terms based on mutual information measurement. Consequently, VIM acts to maximize the distinctiveness of video information from limited video data. Extensive experimental results on public datasets for few-shot action recognition demonstrate the effectiveness and benefits of our framework.
翻訳日:2023-05-11 13:12:24 公開日:2023-05-10
# 熱質量とトラップイオン量子スピンモデル:$\lambda\!における湯川型相互作用に対する自己整合的アプローチ \phi^4$モデル

Thermal masses and trapped-ion quantum spin models: a self-consistent approach to Yukawa-type interactions in the $\lambda\!\phi^4$ model ( http://arxiv.org/abs/2305.06113v1 )

ライセンス: Link先を確認
Pablo Vi\~nas Mart\'inez, Esperanza L\'opez Manzanares and Alejandro Bermudez Carballo(参考訳) 閉じ込められたイオン系における磁性の量子シミュレーションは、結晶振動を利用してイオンの内部電子状態にエンコードされるスピン間の対方向相互作用を仲介し、リアルタイムダイナミクスを探索する実験で測定する。 これらの相互作用は長い波長の相対論的理論によって説明され、フォノンは粗い粒度のクライン=ゴルドン場 $\phi(x)$ によってキャリアとして作用するスピンに局所的に結合され、ピオンを媒介する湯川相互作用のアナログとなる。 イオン結晶の構造転移の近傍では、Klein-Gordon場を超えて、フォノン-フォノン散乱に責任を持つ$\lambda\phi^4$項を含む必要がある。 これは、この量子場理論(QFT)の根底にある固定点を探索するために用いられる効果である、湯川型のスピン相互作用の範囲を変更するファインマンループ積分によって表現できる量子効果をもたらす。 残念なことに、閉じ込められたイオン結晶の剛性は、クォート結合$\lambda$の臨界点の流れのような真の量子効果の観測を困難にしている。 レーザー冷却によって制御できる熱効果は、相互作用するqftにおける熱質量の出現を通じてこの流れを明らかにすることができる。 我々は、ある種のファインマン図形を再仮定する自己整合計算を行い、さらに平均場理論を超えて、捕捉されたイオンスピン系における測定が$\lambda\phi^4$ QFT の重要な性質をどのように探索するかを予測する。

The quantum simulation of magnetism in trapped-ion systems makes use of the crystal vibrations to mediate pairwise interactions between spins, which are encoded in the internal electronic states of the ions, and measured in experiments that probe the real-time dynamics. These interactions can be accounted for by a long-wavelength relativistic theory, where the phonons are described by a coarse-grained Klein-Gordon field $\phi(x)$ locally coupled to the spins that acts as a carrier, leading to an analogue of pion-mediated Yukawa interactions. In the vicinity of a structural transition of the ion crystal, one must go beyond the Klein-Gordon fields, and include additional $\lambda\phi^4$ terms responsible for phonon-phonon scattering. This leads to quantum effects that can be expressed by Feynman loop integrals that modify the range of the Yukawa-type spin interactions; an effect that could be used to probe the underlying fixed point of this quantum field theory (QFT). Unfortunately, the rigidity of the trapped-ion crystal makes it challenging to observe genuine quantum effects, such as the flow of the critical point with the quartic coupling $\lambda$. We hereby show that thermal effects, which can be controlled by laser cooling, can unveil this flow through the appearance of thermal masses in interacting QFTs. We perform self-consistent calculations that resum certain Feynman diagrams and, additionally, go beyond mean-field theory to predict how measurements on the trapped-ion spin system can probe key properties of the $\lambda\phi^4$ QFT.
翻訳日:2023-05-11 13:11:59 公開日:2023-05-10
# ベイズ推論の組成構造

The Compositional Structure of Bayesian Inference ( http://arxiv.org/abs/2305.06112v1 )

ライセンス: Link先を確認
Dylan Braithwaite, Jules Hedges, Toby St Clere Smithe(参考訳) ベイズの法則は、新しい証拠に照らして信念を更新するために因果プロセスを反転させる方法を教えてくれる。 もしこの過程が複雑な構成構造を持つと信じられているならば、全体の反転は成分過程の観点で区分的に計算できるのである。 この構成規則の構造について検討し,関数型プログラミングにおけるレンズパターンとの関連について考察した。 マルコフ核の圏の好ましく一般的な公理的な表現の中で、ベイズ反転をファイバー圏における状態依存型(英語版)の特定の例と考えることができる。 基礎となるカテゴリの関手として定式化されたこの構成の性質について議論し、統計的推論に対するより型駆動的なアプローチにどのように使用できるかを検討する。

Bayes' rule tells us how to invert a causal process in order to update our beliefs in light of new evidence. If the process is believed to have a complex compositional structure, we may observe that the inversion of the whole can be computed piecewise in terms of the component processes. We study the structure of this compositional rule, noting that it relates to the lens pattern in functional programming. Working in a suitably general axiomatic presentation of a category of Markov kernels, we see how we can think of Bayesian inversion as a particular instance of a state-dependent morphism in a fibred category. We discuss the compositional nature of this, formulated as a functor on the underlying category and explore how this can used for a more type-driven approach to statistical inference.
翻訳日:2023-05-11 13:11:25 公開日:2023-05-10
# Pavlok-Nudge: 原子行動修正のためのフィードバックメカニズム

Pavlok-Nudge: A Feedback Mechanism for Atomic Behaviour Modification ( http://arxiv.org/abs/2305.06110v1 )

ライセンス: Link先を確認
Shreya Ghosh, Rakibul Hasan, Pradyumna Agrawal, Zhixi Cai, Susannah Soon, Abhinav Dhall, Tom Gedeon(参考訳) 本稿では,pavlokデバイスを用いた「悪習慣を壊す」フィードバック機構を提案する。 Pavlokは、ビープ、振動、衝撃を回避技術として利用し、個人が行動修正を行うのを助ける。 このデバイスは、アラームやエクササイズ通知など、日常の特定の状況下では便利だが、その使用を制限する手動操作に依存している。 この目的のために,Pavlokとディープラーニングモデルを統合した自動フィードバック機構を生成するユーザインタフェースを設計し,モバイルやデスクトップアプリケーションなどの統合ユーザインターフェースを通じて特定の動作を検出する。 提案手法は,音声コンテンツがスヌールであるか否かを予測した結果,まず環境から音声を検出するスヌーリングの文脈で実装,検証される。 ディープラーニングモデルの予測に基づいて,pavlokを用いてユーザに対して予防措置を警告する。 このシンプルなソリューションは、人々がアトミックな習慣を変えるのに役立つと信じています。

This paper proposes a feedback mechanism to 'break bad habits' using the Pavlok device. Pavlok utilises beeps, vibration and shocks as a mode of aversion technique to help individuals with behaviour modification. While the device can be useful in certain periodic daily life situations, like alarms and exercise notifications, the device relies on manual operations that limit its usage. To this end, we design a user interface to generate an automatic feedback mechanism that integrates Pavlok and a deep learning based model to detect certain behaviours via an integrated user interface i.e. mobile or desktop application. Our proposed solution is implemented and verified in the context of snoring, which first detects audio from the environment following a prediction of whether the audio content is a snore or not. Based on the prediction of the deep learning model, we use Pavlok to alert users for preventive measures. We believe that this simple solution can help people to change their atomic habits, which may lead to long-term benefits.
翻訳日:2023-05-11 13:11:11 公開日:2023-05-10
# XMI-ICU: 心臓発作患者のICUにおける擬似動的死亡予測のための説明可能な機械学習モデル

XMI-ICU: Explainable Machine Learning Model for Pseudo-Dynamic Prediction of Mortality in the ICU for Heart Attack Patients ( http://arxiv.org/abs/2305.06109v1 )

ライセンス: Link先を確認
Munib Mesinovic, Peter Watkinson, Tingting Zhu(参考訳) 心臓発作は、米国と世界における死亡率の最大の要因の1つである。 心臓発作(心筋梗塞またはMI)と診断された集中治療室(ICU)に入院した患者は死亡リスクが高い。 本研究では,eICUデータベースとMIMIC-IVデータベースから抽出した2つの振り返りコホートを用いて,解釈可能性と臨床リスク分析を備えたICUにおける死亡予測のための新しい擬似力学機械学習フレームワークを開発した。 この方法は、イベントの24時間前までのicu患者の正確な予測と、時間分解された解釈可能性結果を提供する。 このフレームワークの性能は, eICU のホールトアウトテストセットを用いて評価され, 死亡の6時間予測には, AUC が 91.0 の時間分解シャプリー値によって決定される最も重要な特徴を用いてMIMIC-IVコホートで検証された。 本稿では,ICU滞在中の時間的時間的予測問題に重畳することで,時系列の生理的計測をうまく活用し,時間的解釈可能性から臨床的な洞察を得られることを示す。

Heart attack remain one of the greatest contributors to mortality in the United States and globally. Patients admitted to the intensive care unit (ICU) with diagnosed heart attack (myocardial infarction or MI) are at higher risk of death. In this study, we use two retrospective cohorts extracted from the eICU and MIMIC-IV databases, to develop a novel pseudo-dynamic machine learning framework for mortality prediction in the ICU with interpretability and clinical risk analysis. The method provides accurate prediction for ICU patients up to 24 hours before the event and provide time-resolved interpretability results. The performance of the framework relying on extreme gradient boosting was evaluated on a held-out test set from eICU, and externally validated on the MIMIC-IV cohort using the most important features identified by time-resolved Shapley values achieving AUCs of 91.0 (balanced accuracy of 82.3) for 6-hour prediction of mortality respectively. We show that our framework successfully leverages time-series physiological measurements by translating them into stacked static prediction problems to be robustly predictive through time in the ICU stay and can offer clinical insight from time-resolved interpretability
翻訳日:2023-05-11 13:10:56 公開日:2023-05-10
# n-ary事実のマイナショットリンク予測

Few-shot Link Prediction on N-ary Facts ( http://arxiv.org/abs/2305.06104v1 )

ライセンス: Link先を確認
Jiyao Wei, Saiping Guan, Xiaolong Jin, Jiafeng Guo, and Xueqi Cheng(参考訳) 実世界知識グラフ(kgs)では、一次三重項(ヘッドエンティティ、リレーションエンティティ、テールエンティティ)と任意の数の補助属性値ペアからなるn項事実が一般的である。 n-項事実のリンク予測は、n-項事実の欠落要素を予測することである。 これはkgの投入と濃縮に役立ち、さらに多くの下流アプリケーションを促進する。 先行研究は通常、n-ary事実の要素を理解するためにかなりの量の高品質なデータを必要とする。 しかし、これらの研究は、ラベル付きインスタンスが限定されている少数のショットの関係を見落としているが、現実のシナリオでは一般的である。 そこで本稿では,n-ary 事実に対する新しいタスク,n-shot リンク予測を提案する。 ラベル付きインスタンスに制限のあるn-aryファクトで欠落したエンティティを予測することを目的としている。 さらに,N-ary 事実に基づく Few-shot Link prEdict モデルを提案する。FLEN は関係学習,サポート特化調整,クエリ推論モジュールの3つのモジュールから構成される。 flenはリレーショナルメタ情報を限定インスタンスからキャプチャし、クエリインスタンス内の行方不明エンティティを予測する。 FLENの有効性を検証するため,既存のベンチマークデータに基づく3つのデータセットを構築した。 実験の結果, FLEN は n-ary 事実と二項事実の連関予測において, 既存の関連モデルよりも有意に優れていた。

N-ary facts composed of a primary triple (head entity, relation, tail entity) and an arbitrary number of auxiliary attribute-value pairs, are prevalent in real-world knowledge graphs (KGs). Link prediction on n-ary facts is to predict a missing element in an n-ary fact. This helps populate and enrich KGs and further promotes numerous downstream applications. Previous studies usually require a substantial amount of high-quality data to understand the elements in n-ary facts. However, these studies overlook few-shot relations, which have limited labeled instances, yet are common in real-world scenarios. Thus, this paper introduces a new task, few-shot link prediction on n-ary facts. It aims to predict a missing entity in an n-ary fact with limited labeled instances. We further propose a model for Few-shot Link prEdict on N-ary facts, thus called FLEN, which consists of three modules: the relation learning, support-specific adjusting, and query inference modules. FLEN captures relation meta information from limited instances to predict a missing entity in a query instance. To validate the effectiveness of FLEN, we construct three datasets based on existing benchmark data. Our experimental results show that FLEN significantly outperforms existing related models in both few-shot link prediction on n-ary facts and binary facts.
翻訳日:2023-05-11 13:10:33 公開日:2023-05-10
# パラメータ化分解・フィルタリングによるグラフ表現学習の改善に向けて

Towards Better Graph Representation Learning with Parameterized Decomposition & Filtering ( http://arxiv.org/abs/2305.06102v1 )

ライセンス: Link先を確認
Mingqi Yang, Wenjie Feng, Yanming Shen, Bryan Hooi(参考訳) グラフを表現するための効率的で柔軟なマトリックスの提案は、例えばグラフフーリエ変換のフィルタリングなど、複数の視点から検討されてきた基本的な課題である。 本研究では,パラメータ化分解とフィルタリングの観点から,既存のGNNモデルを統一した新しい汎用フレームワークを開発し,既存のモデルの滑らかさと増幅問題を緩和しつつ,GNNの柔軟性を高める方法を示す。 基本的に, 学習可能な多項式フィルタを用いたスペクトルグラフ畳み込みは, この定式化の制約付き変種であり, これらの制約を解除することで, 所望の分解とフィルタリングを同時に表現できることを示す。 この一般化したフレームワークに基づいて,実装は単純だが,様々なグラフ学習タスクにおいて大幅な改善と計算効率を実現するモデルを開発した。 コードはhttps://github.com/qslim/pdfで入手できる。

Proposing an effective and flexible matrix to represent a graph is a fundamental challenge that has been explored from multiple perspectives, e.g., filtering in Graph Fourier Transforms. In this work, we develop a novel and general framework which unifies many existing GNN models from the view of parameterized decomposition and filtering, and show how it helps to enhance the flexibility of GNNs while alleviating the smoothness and amplification issues of existing models. Essentially, we show that the extensively studied spectral graph convolutions with learnable polynomial filters are constrained variants of this formulation, and releasing these constraints enables our model to express the desired decomposition and filtering simultaneously. Based on this generalized framework, we develop models that are simple in implementation but achieve significant improvements and computational efficiency on a variety of graph learning tasks. Code is available at https://github.com/qslim/PDF.
翻訳日:2023-05-11 13:10:09 公開日:2023-05-10
# シュウィンガー対生成に及ぼす空間振動場の影響

Effect of spatially oscillating field on Schwinger pair production ( http://arxiv.org/abs/2305.06100v1 )

ライセンス: Link先を確認
Orkash Amat, Li-Na Hu, Mamat Ali Bake, Melike Mohamedsedik and B. S. Xie(参考訳) 電子-陽電子対生成に対する空間振動場の影響は、電場によるその空間範囲での作用が電子質量の2倍よりも小さい場合、数値的に解析的に研究される。 本研究では,ダイラック真空中の正のエネルギーバンドと負のエネルギーバンド間のトンネル時間,トンネル距離,エネルギーギャップによる位置と運動量分布の特徴についてさらに説明する。 その結果,非振動場における最大粒子数と比較すると,最大減少粒子数は約5倍であることがわかった。 さらに,局所密度近似と解析近似法を用いて,空間振動数が大きい場合,dirac-heisenberg-wigner形式によるペア生成結果も計算できる。 また, 大規模空間場の場合, 生成粒子の位置分布はトンネル時間によって解釈できることがわかった。

Effect of spatially oscillating fields on the electron-positron pair production is studied numerically and analytically when the work done by the electric field over its spatial extent is smaller than twice the electron mass. Under large spatial scale, we further explain the characteristics of the position and momentum distribution via tunneling time, tunneling distance and energy gap between the positive and negative energy bands in the Dirac vacuum. Our results show that the maximum reduced particle number is about five times by comparing to maximum number for non-oscillating field. Moreover, the pair production results via Dirac-Heisenberg-Wigner formalism can be also calculated by using local density approximation and analytical approximation method when spatial oscillating cycle number is large. Moreover, in case of large spatial scale field, the position distribution of created particles could be interpreted by the tunneling time.
翻訳日:2023-05-11 13:09:54 公開日:2023-05-10
# 一般カテゴリー発見のための半教師付きガウス混合モデルの学習

Learning Semi-supervised Gaussian Mixture Models for Generalized Category Discovery ( http://arxiv.org/abs/2305.06144v1 )

ライセンス: Link先を確認
Bingchen Zhao, Xin Wen, Kai Han(参考訳) 本稿では,ラベル付きデータからの情報を活用しつつ,ラベル付きデータの一部がラベル付きで残りが存在しない画像群に対して,ラベル付きデータがラベル付きデータからのイメージを含む場合,ラベル付きデータ群がラベル付きデータ群とラベル付きデータ群を自動クラスタ化する問題に対処する。 GCDは半教師付き学習(SSL)に似ているが、SSLはラベル付き画像と同じクラスに属すると仮定しているため、より現実的で難しい。 また、未ラベルデータのクラス番号が a-priori であるとは仮定せず、GCD 問題をさらに困難にしている。 クラス番号を知らずにGCDの問題に取り組むために,表現学習とクラス数推定を交互に行うEMライクなフレームワークを提案する。 本稿では,ガウス混合モデル(GMM)の半教師付き変種について,クラスタのコンパクト性と分離性を調べてプロトタイプを動的に決定する確率分割・マージ機構を提案する。 これらのプロトタイプでは,ラベル付きデータの制約を受ける部分ラベル付きデータに対する表現学習に,原型的コントラスト学習を利用する。 我々の枠組みは収束するまでこの2つのステップを交互に行う。 エラーのないインスタンスのクラスタ割り当ては、最も近いプロトタイプを識別することで検索できる。 汎用画像分類データセットと細粒度オブジェクト認識データセットの両方に関する枠組みを網羅的に評価し、最先端の性能を達成する。

In this paper, we address the problem of generalized category discovery (GCD), \ie, given a set of images where part of them are labelled and the rest are not, the task is to automatically cluster the images in the unlabelled data, leveraging the information from the labelled data, while the unlabelled data contain images from the labelled classes and also new ones. GCD is similar to semi-supervised learning (SSL) but is more realistic and challenging, as SSL assumes all the unlabelled images are from the same classes as the labelled ones. We also do not assume the class number in the unlabelled data is known a-priori, making the GCD problem even harder. To tackle the problem of GCD without knowing the class number, we propose an EM-like framework that alternates between representation learning and class number estimation. We propose a semi-supervised variant of the Gaussian Mixture Model (GMM) with a stochastic splitting and merging mechanism to dynamically determine the prototypes by examining the cluster compactness and separability. With these prototypes, we leverage prototypical contrastive learning for representation learning on the partially labelled data subject to the constraints imposed by the labelled data. Our framework alternates between these two steps until convergence. The cluster assignment for an unlabelled instance can then be retrieved by identifying its nearest prototype. We comprehensively evaluate our framework on both generic image classification datasets and challenging fine-grained object recognition datasets, achieving state-of-the-art performance.
翻訳日:2023-05-11 13:03:48 公開日:2023-05-10
# グラフニューラルネットワークのための特徴拡張

Feature Expansion for Graph Neural Networks ( http://arxiv.org/abs/2305.06142v1 )

ライセンス: Link先を確認
Jiaqi Sun, Lin Zhang, Guangyi Chen, Kun Zhang, Peng XU, Yujiu Yang(参考訳) グラフニューラルネットワークはグラフ構造化データの表現を学習することを目的としており、特にノード分類において顕著な性能を示す。 近年、最適化目標とスペクトルグラフ理論の観点から、多くの手法がgnnの表現を研究している。 しかし、表現学習を支配する特徴空間はグラフニューラルネットワークにおいて体系的に研究されていない。 本稿では,空間モデルとスペクトルモデルの両方の特徴空間を解析することにより,このギャップを埋めることを提案する。 グラフニューラルネットワークを特徴空間と学習可能な重みに分解し、行列空間解析を用いて特徴空間を明示的に研究する利便性を提供する。 特に、理論的には、特徴空間は繰り返しの集合によって線形に相関する傾向がある。 これらの発見に動機づけられ 1)特徴部分空間の平坦化 2) 機能空間を拡大するための構造主成分。 広範な実験により,提案するより包括的な特徴空間の有効性を検証し,ベースラインに対する推定時間と比較し,その効率的な収束能力を示す。

Graph neural networks aim to learn representations for graph-structured data and show impressive performance, particularly in node classification. Recently, many methods have studied the representations of GNNs from the perspective of optimization goals and spectral graph theory. However, the feature space that dominates representation learning has not been systematically studied in graph neural networks. In this paper, we propose to fill this gap by analyzing the feature space of both spatial and spectral models. We decompose graph neural networks into determined feature spaces and trainable weights, providing the convenience of studying the feature space explicitly using matrix space analysis. In particular, we theoretically find that the feature space tends to be linearly correlated due to repeated aggregations. Motivated by these findings, we propose 1) feature subspaces flattening and 2) structural principal components to expand the feature space. Extensive experiments verify the effectiveness of our proposed more comprehensive feature space, with comparable inference time to the baseline, and demonstrate its efficient convergence capability.
翻訳日:2023-05-11 13:03:22 公開日:2023-05-10
# グラフニューラル埋め込みを用いたアクティブセマンティック定位

Active Semantic Localization with Graph Neural Embedding ( http://arxiv.org/abs/2305.06141v1 )

ライセンス: Link先を確認
Mitsuki Yoshida, Kanji Tanaka, Ryogo Yamamoto, and Daiki Iwata(参考訳) セマンティックローカライゼーション(セマンティックローカライゼーション)、すなわち、セマンティックイメージのモダリティを備えたロボットの自己ローカライゼーションは、ポイントゴールナビゲーション、オブジェクトゴールナビゲーション、ビジョン言語ナビゲーションといった近年出現するAIアプリケーションにおいて重要である。 しかしながら、セマンティックローカライゼーションに関する既存の研究のほとんどは、視点計画なしで受動的視覚タスクに焦点を当てたり、追加の豊富なモダリティ(深さ測定など)に依存している。 したがって、問題はほとんど解決されていない。 本研究では, 軽量で完全cpuベースの, ドメイン適応型セマンティックローカライズフレームワークであるgraph neural localizerについて検討する。このアプローチは, (1) 局地的特徴とグローバル特徴の視点的, 外観的不変性を組み合わせたシーングラフ, (2) グラフデータの直接学習/認識を可能にするgraph neural network (非ベクトルデータ) という,最近の2つの技術から着想を得たものである。 具体的には、グラフ畳み込みニューラルネットワークを受動視覚のためのシーングラフ分類器として訓練し、その知識を能動視覚のための強化学習プランナーに伝達する。 フォトリアリスティック・ハビタットシミュレータを用いて、自己教師あり学習と教師なしドメイン適応の2つのシナリオの実験を行い、提案手法の有効性を検証した。

Semantic localization, i.e., robot self-localization with semantic image modality, is critical in recently emerging embodied AI applications such as point-goal navigation, object-goal navigation and vision language navigation. However, most existing works on semantic localization focus on passive vision tasks without viewpoint planning, or rely on additional rich modalities (e.g., depth measurements). Thus, the problem is largely unsolved. In this work, we explore a lightweight, entirely CPU-based, domain-adaptive semantic localization framework, called graph neural localizer.Our approach is inspired by two recently emerging technologies: (1) Scene graph, which combines the viewpoint- and appearance- invariance of local and global features; (2) Graph neural network, which enables direct learning/recognition of graph data (i.e., non-vector data). Specifically, a graph convolutional neural network is first trained as a scene graph classifier for passive vision, and then its knowledge is transferred to a reinforcement-learning planner for active vision. Experiments on two scenarios, self-supervised learning and unsupervised domain adaptation, using a photo-realistic Habitat simulator validate the effectiveness of the proposed method.
翻訳日:2023-05-11 13:03:08 公開日:2023-05-10
# 原油市場における微調整変圧器に基づく感情分析モデルへの経済理論の適用

CrudeBERT: Applying Economic Theory towards fine-tuning Transformer-based Sentiment Analysis Models to the Crude Oil Market ( http://arxiv.org/abs/2305.06140v1 )

ライセンス: Link先を確認
Himmet Kaplan, Ralf-Peter Mundani, Heiko R\"olke, Albert Weichselbraun(参考訳) ニュースメディアの感情に基づく市場の動きの予測は、データ分析において長い伝統がある。 自然言語処理の進歩により、文脈的に認識された感情分類を可能にするトランスフォーマーアーキテクチャが出現した。 しかし、FinBERTのような一般的な金融市場向けの現在の手法では、資産固有の価値駆動要因を区別することはできない。 本稿では,原油市場の需給に影響を及ぼす事象を,関連ニュース見出しの大きなコーパス内で識別し分類する手法を提案することで,この欠点を解決する。 次に、これらの事象を文脈化・微調整するための新たな感情分析モデルであるCrudeBERTを導入し、原油先物市場に関する見出しの感情分類を改善した。 CrudeBERTは原油の領域において、プロプライエタリおよびオープンソースソリューションよりも優れた性能を示す。

Predicting market movements based on the sentiment of news media has a long tradition in data analysis. With advances in natural language processing, transformer architectures have emerged that enable contextually aware sentiment classification. Nevertheless, current methods built for the general financial market such as FinBERT cannot distinguish asset-specific value-driving factors. This paper addresses this shortcoming by presenting a method that identifies and classifies events that impact supply and demand in the crude oil markets within a large corpus of relevant news headlines. We then introduce CrudeBERT, a new sentiment analysis model that draws upon these events to contextualize and fine-tune FinBERT, thereby yielding improved sentiment classifications for headlines related to the crude oil futures market. An extensive evaluation demonstrates that CrudeBERT outperforms proprietary and open-source solutions in the domain of crude oil.
翻訳日:2023-05-11 13:02:40 公開日:2023-05-10
# 火災伝播の不確かさ推定のためのニューラルエミュレータ

A Neural Emulator for Uncertainty Estimation of Fire Propagation ( http://arxiv.org/abs/2305.06139v1 )

ライセンス: Link先を確認
Andrew Bolt, Conrad Sanderson, Joel Janek Dabrowski, Carolyn Huston, Petra Kuhnert(参考訳) 野火の伝播は、風速や方向といった環境条件の小さな変化が観測される行動に大きな変化をもたらす非常に確率的な過程である。 火災前の進行における不確かさを定量化する伝統的なアプローチは、シミュレーションのアンサンブルを通じて確率写像を生成することである。 しかし、アンサンブルの使用は通常計算コストが高く、不確実性解析の範囲を制限できる。 そこで本稿では,入力パラメータに不確実性がある場合の火災伝播確率を直接推定するために,時空間ニューラルベースモデリング手法を提案する。 この不確実性は、モデルトレーニング中に入力天気予報を意図的に摂動させることによって表される。 計算負荷はモデルトレーニングプロセスに集中しており、デプロイメント中により大きな確率空間を探索することができる。 実証的な評価から、提案モデルは従来のsparkシミュレーションプラットフォームが生成したものと同等の火力限界を達成でき、35の模擬火のセットでjaccardインデックス(類似度スコア)は67.4%であった。 エミュレートされた火災のアンサンブルを介して確率マップを生成するための関連するニューラルネットワーク(エミュレータ)と比較して、提案手法は、ほぼ1桁高速で競合するジャカード類似度スコアを生成する。

Wildfire propagation is a highly stochastic process where small changes in environmental conditions (such as wind speed and direction) can lead to large changes in observed behaviour. A traditional approach to quantify uncertainty in fire-front progression is to generate probability maps via ensembles of simulations. However, use of ensembles is typically computationally expensive, which can limit the scope of uncertainty analysis. To address this, we explore the use of a spatio-temporal neural-based modelling approach to directly estimate the likelihood of fire propagation given uncertainty in input parameters. The uncertainty is represented by deliberately perturbing the input weather forecast during model training. The computational load is concentrated in the model training process, which allows larger probability spaces to be explored during deployment. Empirical evaluations indicate that the proposed model achieves comparable fire boundaries to those produced by the traditional SPARK simulation platform, with an overall Jaccard index (similarity score) of 67.4% on a set of 35 simulated fires. When compared to a related neural model (emulator) which was employed to generate probability maps via ensembles of emulated fires, the proposed approach produces competitive Jaccard similarity scores while being approximately an order of magnitude faster.
翻訳日:2023-05-11 13:02:26 公開日:2023-05-10
# 多目的最適化のための逆強化学習の収束の証明

A proof of convergence of inverse reinforcement learning for multi-objective optimization ( http://arxiv.org/abs/2305.06137v1 )

ライセンス: Link先を確認
Akira Kitaoka, Riki Eto(参考訳) 本稿では,多目的最適化における WIRL と等価な最適化問題の逆問題を定式化することにより,多目的最適化のための WIRL の収束性を示す。 さらに,多目的最適化のための逆強化学習(最大エントロピー逆強化学習,ガイドコスト学習)の射影劣勾配法を用いて収束することを示す。

We show the convergence of Wasserstein inverse reinforcement learning (WIRL) for multi-objective optimizations with the projective subgradient method by formulating an inverse problem of the optimization problem that is equivalent to WIRL for multi-objective optimizations. In addition, we prove convergence of inverse reinforcement learning (maximum entropy inverse reinforcement learning, guid cost learning) for multi-objective optimization with the projective subgradient method.
翻訳日:2023-05-11 13:02:07 公開日:2023-05-10
# コンピュータビジョンのためのChatGPTはいつ登場するのか? 2dから3dへ

When ChatGPT for Computer Vision Will Come? From 2D to 3D ( http://arxiv.org/abs/2305.06133v1 )

ライセンス: Link先を確認
Chenghao Li, Chaoning Zhang(参考訳) ChatGPTとその改良版GPT4は、ほとんどすべてのテキスト関連タスクを1つのモデルで解決し、NLPフィールドに革命をもたらした。 しかし、そのようなコンピュータビジョンのモデルは、特に3Dビジョンでは存在しない。 この記事では、まず、モデルの観点から、テキスト、画像、および3dフィールドにおけるディープラーニングの進歩について、簡単なビューを提供します。 さらに、この研究はAIGCがデータの観点からどのように進化するかをさらに議論する。 それに加えて、この研究はデータの観点から、AIGCを3Dで開発する際の展望を示す。

ChatGPT and its improved variant GPT4 have revolutionized the NLP field with a single model solving almost all text related tasks. However, such a model for computer vision does not exist, especially for 3D vision. This article first provides a brief view on the progress of deep learning in text, image and 3D fields from the model perspective. Moreover, this work further discusses how AIGC evolves from the data perspective. On top of that, this work presents an outlook on the development of AIGC in 3D from the data perspective.
翻訳日:2023-05-11 13:02:00 公開日:2023-05-10
# ジェネレーティブAIが3Dに到達 - AIGC時代のテキストから3Dへ

Generative AI meets 3D: A Survey on Text-to-3D in AIGC Era ( http://arxiv.org/abs/2305.06131v1 )

ライセンス: Link先を確認
Chenghao Li, Chaoning Zhang, Atish Waghwase, Lik-Hang Lee, Francois Rameau, Yang Yang, Sung-Ho Bae, Choong Seon Hong(参考訳) 生成AI(AIGC、別名AI生成コンテンツ)は、ここ数年で顕著な進歩を遂げており、テキスト誘導コンテンツ生成は、人間の命令とAIGCの相互作用を可能にするため、最も実用的なものとなっている。 テキスト・ツー・イメージや3Dモデリング技術(NeRFなど)の発展により、テキスト・トゥ・3Dは新しく生まれたが非常に活発な研究分野となった。 我々の研究は、テキストから3Dへの包括的調査を初めて実施し、読者がこの方向に関心を持ち、その迅速な開発に素早く追いつくのに役立つ。 まず,ユークリッドデータと非ユークリッドデータの両方を含む3次元データ表現を導入する。 さらに, 様々な基礎技術を紹介するとともに, それらの基礎技術を組み合わせて, 良好なテキスト・トゥ・3Dを実現する方法について概説する。 さらに, アバター生成, テクスチャ生成, 形状変換, シーン生成など様々な用途において, テキストから3d技術がどのように使われているかを概説する。

Generative AI (AIGC, a.k.a. AI generated content) has made remarkable progress in the past few years, among which text-guided content generation is the most practical one since it enables the interaction between human instruction and AIGC. Due to the development in text-to-image as well 3D modeling technologies (like NeRF), text-to-3D has become a newly emerging yet highly active research field. Our work conducts the first yet comprehensive survey on text-to-3D to help readers interested in this direction quickly catch up with its fast development. First, we introduce 3D data representations, including both Euclidean data and non-Euclidean data. On top of that, we introduce various foundation technologies as well as summarize how recent works combine those foundation technologies to realize satisfactory text-to-3D. Moreover, we summarize how text-to-3D technology is used in various applications, including avatar generation, texture generation, shape transformation, and scene generation.
翻訳日:2023-05-11 13:01:54 公開日:2023-05-10
# FedDWA: オンライン重み調整による個人化フェデレーション学習

FedDWA: Personalized Federated Learning with Online Weight Adjustment ( http://arxiv.org/abs/2305.06124v1 )

ライセンス: Link先を確認
Jiahao Liu, Jiang Wu, Jinyu Chen, Miao Hu, Yipeng Zhou, Di Wu(参考訳) 従来のフェデレーション学習とは異なり、パーソナライズド・フェデレーション・ラーニング(PFL)は個々のクライアントに対して独自の要求に応じてカスタマイズされたモデルをトレーニングすることができる。 メインストリームのアプローチは、異なるクライアント間の損失値やモデルパラメータによって重み付けが決定されるパーソナライズされたモデルを生成するために、重み付け集約方式の一種を採用することである。 しかし、この種の方法は、クライアントが他人のモデルをダウンロードする必要がある。 通信トラフィックを増加させるだけでなく、データプライバシーを侵害する可能性がある。 本稿では,パラメータサーバ(PS)を利用して,クライアントから収集したモデルに基づいてパーソナライズされたアグリゲーション重みを計算し,その問題に対処するため,新しいPFLアルゴリズムである \emph{FedDWA (Federated Learning with Dynamic Weight Adjustment)} を提案する。 このようにして、FedDWAは通信オーバーヘッドをはるかに少なくしてクライアント間の類似性をキャプチャできる。 具体的には、パーソナライズされたモデルとガイダンスモデルの距離を最小にすることで最適化問題としてPFL問題を定式化し、各クライアントの集約重みをカスタマイズする。 ガイダンスモデルは、個々のクライアントに対する1段階の事前適応によって得られる。 最後に,5つの実データを用いた広範囲な実験を行い,FedDWAが通信トラフィックを大幅に低減し,最先端の手法よりもはるかに高いモデル精度を実現することを示す。

Different from conventional federated learning, personalized federated learning (PFL) is able to train a customized model for each individual client according to its unique requirement. The mainstream approach is to adopt a kind of weighted aggregation method to generate personalized models, in which weights are determined by the loss value or model parameters among different clients. However, such kinds of methods require clients to download others' models. It not only sheer increases communication traffic but also potentially infringes data privacy. In this paper, we propose a new PFL algorithm called \emph{FedDWA (Federated Learning with Dynamic Weight Adjustment)} to address the above problem, which leverages the parameter server (PS) to compute personalized aggregation weights based on collected models from clients. In this way, FedDWA can capture similarities between clients with much less communication overhead. More specifically, we formulate the PFL problem as an optimization problem by minimizing the distance between personalized models and guidance models, so as to customize aggregation weights for each client. Guidance models are obtained by the local one-step ahead adaptation on individual clients. Finally, we conduct extensive experiments using five real datasets and the results demonstrate that FedDWA can significantly reduce the communication traffic and achieve much higher model accuracy than the state-of-the-art approaches.
翻訳日:2023-05-11 13:01:37 公開日:2023-05-10
# 変圧器を用いた単眼視覚オドメトリーモデル : 映像理解によるアプローチ

Transformer-based model for monocular visual odometry: a video understanding approach ( http://arxiv.org/abs/2305.06121v1 )

ライセンス: Link先を確認
Andr\'e O. Fran\c{c}ani and Marcos R. O. A. Maximo(参考訳) カメラのポーズを1台のカメラで推定することは、モバイルロボットや自動運転車の伝統的なタスクである。 この問題は単眼視覚計測と呼ばれ、特定のシナリオにエンジニアリングの努力を必要とする幾何学的アプローチに依存していることが多い。 深層学習法は、適切な訓練とかなりの量のデータを得た後に一般化できることが示されている。 トランスフォーマーベースのアーキテクチャは、自然言語処理や画像やビデオ理解などのコンピュータビジョンタスクにおいて最先端のアーキテクチャを支配してきた。 本研究では,6-DoFカメラのポーズを推定するために,映像理解タスクとしてモノクロ視覚計測を扱う。 映像から特徴を抽出し, 動きをエンドツーエンドで推定するために, 時空間自己着機構に基づくtsformer-voモデルを提案する。 本手法はkittiビジュアルオドメトリデータセット上の幾何ベースおよび深層学習ベースの手法と比較し,視覚オドメトリコミュニティで広く受け入れられているdeepvo実装を上回っている。

Estimating the camera pose given images of a single camera is a traditional task in mobile robots and autonomous vehicles. This problem is called monocular visual odometry and it often relies on geometric approaches that require engineering effort for a specific scenario. Deep learning methods have shown to be generalizable after proper training and a considerable amount of available data. Transformer-based architectures have dominated the state-of-the-art in natural language processing and computer vision tasks, such as image and video understanding. In this work, we deal with the monocular visual odometry as a video understanding task to estimate the 6-DoF camera's pose. We contribute by presenting the TSformer-VO model based on spatio-temporal self-attention mechanisms to extract features from clips and estimate the motions in an end-to-end manner. Our approach achieved competitive state-of-the-art performance compared with geometry-based and deep learning-based methods on the KITTI visual odometry dataset, outperforming the DeepVO implementation highly accepted in the visual odometry community.
翻訳日:2023-05-11 13:01:13 公開日:2023-05-10
# 衣服交換者再識別のための因果介入による衣服不変特徴学習

Clothes-Invariant Feature Learning by Causal Intervention for Clothes-Changing Person Re-identification ( http://arxiv.org/abs/2305.06145v1 )

ライセンス: Link先を確認
Xulin Li, Yan Lu, Bin Liu, Yuenan Hou, Yating Liu, Qi Chu, Wanli Ouyang, Nenghai Yu(参考訳) 衣料変化者再識別(CC-ReID)には衣服不変の特徴抽出が重要である。 差別的アイデンティティ機能を提供し、共同設立者による変更によって生じる悪影響を排除できる。 しかし,衣服と身元には強い相関関係があることを論じ,衣服に関係のない特徴を抽出するために,共通可能性に基づくReID法P(Y|X)を制限している。 本稿では, 因果介入P(Y|do(X))をモデル化し, 衣服不変の特徴学習を実現するために, CCIL(Causal Clothes-Invariant Learning)法を提案する。 この新しい因果関係に基づくモデルは、本質的に共起者に対して因果的視点で不変であり、衣服不変な特徴を達成し、確率的手法が直面する障壁を避けることができる。 PRCC, LTCC, VC-Clothesの3つのCC-ReIDベンチマークによる大規模な実験により, 本手法の有効性が示された。

Clothes-invariant feature extraction is critical to the clothes-changing person re-identification (CC-ReID). It can provide discriminative identity features and eliminate the negative effects caused by the confounder--clothing changes. But we argue that there exists a strong spurious correlation between clothes and human identity, that restricts the common likelihood-based ReID method P(Y|X) to extract clothes-irrelevant features. In this paper, we propose a new Causal Clothes-Invariant Learning (CCIL) method to achieve clothes-invariant feature learning by modeling causal intervention P(Y|do(X)). This new causality-based model is inherently invariant to the confounder in the causal view, which can achieve the clothes-invariant features and avoid the barrier faced by the likelihood-based methods. Extensive experiments on three CC-ReID benchmarks, including PRCC, LTCC, and VC-Clothes, demonstrate the effectiveness of our approach, which achieves a new state of the art.
翻訳日:2023-05-11 12:50:51 公開日:2023-05-10
# 3D Attention-based U-Net を用いたMRI脳腫瘍手術

Multiclass MRI Brain Tumor Segmentation using 3D Attention-based U-Net ( http://arxiv.org/abs/2305.06203v1 )

ライセンス: Link先を確認
Maryann M. Gitonga(参考訳) 本稿では,3つの非ネイティブMRIボリュームを組み合わせたマルチモーダルボリュームを用いた脳腫瘍のマルチリージョンセグメンテーションのための3次元アテンションベースU-Netアーキテクチャを提案する。 u-netのデコーダ側に付加された注意機構は、健全な組織を非強調し、悪性組織を強調することにより、セグメンテーション精度を向上させるのに役立つ。 この方法はBraTS 2021 Task 1データセットでトレーニングされ、評価され、他のアプローチよりも精度の向上が示されている。 提案手法は, マルチモーダルMRIデータを用いて脳腫瘍セグメンテーションを増強し, 脳疾患の理解と診断に寄与する可能性が示唆された。 本研究は,複数の画像モードを組み合わせること,脳腫瘍の分節精度を向上させるための注意機構を組み込むことの重要性を強調する。

This paper proposes a 3D attention-based U-Net architecture for multi-region segmentation of brain tumors using a single stacked multi-modal volume created by combining three non-native MRI volumes. The attention mechanism added to the decoder side of the U-Net helps to improve segmentation accuracy by de-emphasizing healthy tissues and accentuating malignant tissues, resulting in better generalization power and reduced computational resources. The method is trained and evaluated on the BraTS 2021 Task 1 dataset, and demonstrates improvement of accuracy over other approaches. My findings suggest that the proposed approach has potential to enhance brain tumor segmentation using multi-modal MRI data, contributing to better understanding and diagnosis of brain diseases. This work highlights the importance of combining multiple imaging modalities and incorporating attention mechanisms for improved accuracy in brain tumor segmentation.
翻訳日:2023-05-11 12:44:54 公開日:2023-05-10
# 非定常マルチテキスト合成のための単一ドメイン学習

Learning in a Single Domain for Non-Stationary Multi-Texture Synthesis ( http://arxiv.org/abs/2305.06200v1 )

ライセンス: Link先を確認
Xudong Xie, Zijie Wu, Zhiliang Xu, Zhen Zhu(参考訳) 本稿では,複数の非定常テクスチャを1つのモデルで合成する,非定常多テクスチャ合成という新しい世代課題を提案する。 ほとんどの非定常テクスチャは大規模な分散を持ち、1つのモデルでは合成できない。 そこで本研究では,様々なスケールの構造パターンを捕捉し,少ないコストでテクスチャを効果的に合成するマルチスケール発電機を提案する。 しかし,様々なカテゴリーのテクスチャを異なるテクスチャパターンで扱うことは依然として困難である。 そこで本研究では,特定のドメインのテクスチャパターンを学習することに焦点を当てた,カテゴリ固有のトレーニング戦略を提案する。 興味深いことに、一度訓練されたモデルでは、異なるスタイルのモデルを微調整することなく、動的に変化するマルチパターン世代を生成できる。 さらに、テクスチャ展開の質とグローバル構造整合性を評価するための客観的評価指標を設計する。 私たちの知識では、モデル、トレーニング、評価を含む、この挑戦的なタスクの最初のスキームです。 実験により,提案手法が優れた性能と時間効率を実現することを示す。 コードは公開後利用可能になる。

This paper aims for a new generation task: non-stationary multi-texture synthesis, which unifies synthesizing multiple non-stationary textures in a single model. Most non-stationary textures have large scale variance and can hardly be synthesized through one model. To combat this, we propose a multi-scale generator to capture structural patterns of various scales and effectively synthesize textures with a minor cost. However, it is still hard to handle textures of different categories with different texture patterns. Therefore, we present a category-specific training strategy to focus on learning texture pattern of a specific domain. Interestingly, once trained, our model is able to produce multi-pattern generations with dynamic variations without the need to finetune the model for different styles. Moreover, an objective evaluation metric is designed for evaluating the quality of texture expansion and global structure consistency. To our knowledge, ours is the first scheme for this challenging task, including model, training, and evaluation. Experimental results demonstrate the proposed method achieves superior performance and time efficiency. The code will be available after the publication.
翻訳日:2023-05-11 12:44:37 公開日:2023-05-10
# 計算効率と統計的に最適ロバストな高次元線形回帰

Computationally Efficient and Statistically Optimal Robust High-Dimensional Linear Regression ( http://arxiv.org/abs/2305.06199v1 )

ライセンス: Link先を確認
Yinan Shen, Jingyang Li, Jian-Feng Cai, Dong Xia(参考訳) 重み付き雑音や外乱による高次元線形回帰は、計算的・統計的に困難である。 凸アプローチは統計的に最適であることが証明されているが、特にロバスト損失関数は通常スムースではないため計算コストが高い。 より最近では、サブ勾配降下による計算速度の速い非凸アプローチが提案されているが、残念ながらサブガウス雑音下でも統計的に一貫した推定器を提供していない。 本稿では,スパース線形回帰問題と低ランク線形回帰問題の両方に対して,投影された下位勾配降下アルゴリズムを提案する。 このアルゴリズムは線形収束により計算効率が向上するだけでなく、ガウスのノイズや有限の1 + エプシロンモーメントの重み付きなど、統計的に最適である。 収束理論は, 一般的な枠組みとして確立され, 絶対損失, フーバー損失, 量的損失に対する具体的応用が検討されている。 既存の非凸法と比較して, 2相収束の驚くべき現象が明らかになった。 フェーズ1では、アルゴリズムは徐々に減衰するステップを必要とする典型的な非スムース最適化のように振る舞う。 しかし、第1相は、既存の文献で既に観察されている統計的に準最適推定器のみを提供する。 興味深いことに、第2相の間、アルゴリズムは滑らかで強い凸対象関数を最小化するように線形収束するので、一定ステップで十分である。 位相2収束の根底にあるのは、無作為なノイズが近接する領域における非スムースなロバストな損失に対して平滑化効果である。 数値シミュレーションにより理論的な発見を確認し,先行手法よりもアルゴリズムの優越性を示す。

High-dimensional linear regression under heavy-tailed noise or outlier corruption is challenging, both computationally and statistically. Convex approaches have been proven statistically optimal but suffer from high computational costs, especially since the robust loss functions are usually non-smooth. More recently, computationally fast non-convex approaches via sub-gradient descent are proposed, which, unfortunately, fail to deliver a statistically consistent estimator even under sub-Gaussian noise. In this paper, we introduce a projected sub-gradient descent algorithm for both the sparse linear regression and low-rank linear regression problems. The algorithm is not only computationally efficient with linear convergence but also statistically optimal, be the noise Gaussian or heavy-tailed with a finite 1 + epsilon moment. The convergence theory is established for a general framework and its specific applications to absolute loss, Huber loss and quantile loss are investigated. Compared with existing non-convex methods, ours reveals a surprising phenomenon of two-phase convergence. In phase one, the algorithm behaves as in typical non-smooth optimization that requires gradually decaying stepsizes. However, phase one only delivers a statistically sub-optimal estimator, which is already observed in the existing literature. Interestingly, during phase two, the algorithm converges linearly as if minimizing a smooth and strongly convex objective function, and thus a constant stepsize suffices. Underlying the phase-two convergence is the smoothing effect of random noise to the non-smooth robust losses in an area close but not too close to the truth. Numerical simulations confirm our theoretical discovery and showcase the superiority of our algorithm over prior methods.
翻訳日:2023-05-11 12:44:18 公開日:2023-05-10
# シングルモーダル視覚位置分類へのマルチモーダルアプローチ

A Multi-modal Approach to Single-modal Visual Place Classification ( http://arxiv.org/abs/2305.06179v1 )

ライセンス: Link先を確認
Tomoya Iwasaki, Kanji Tanaka, and Kenta Tsukahara(参考訳) 一対一の単眼RGB画像からの視覚的位置分類は、長期ロボットナビゲーションの基本的な問題である。 RGB画像分類器は、季節、天気、照明の違いなどの領域シフトによって、しばしば空間や外観の変化に対して脆弱であり、劣化するという事実から、困難が生じる。 この問題に対処するために、rgbと深度(d)を組み合わせたマルチセンサー融合(lidar、radar、ステレオなど)が近年人気を集めている。 マルチモーダルRGB-D融合におけるこれらの取り組みに触発されて,最近開発された「ドメイン不変」単眼深度推定法を擬似深度モダリティとして用いた擬似深度測定を,擬似マルチモーダルRGB-D分類問題として再検討した。 具体的には、RGBと擬似Dという2つのモダリティを適切に処理し、融合し、分類するための実践的で完全に自己管理されたフレームワークについて述べる。 パブリックNCLTデータセットを用いたクロスドメインシナリオの挑戦実験は、提案フレームワークの有効性を検証する。

Visual place classification from a first-person-view monocular RGB image is a fundamental problem in long-term robot navigation. A difficulty arises from the fact that RGB image classifiers are often vulnerable to spatial and appearance changes and degrade due to domain shifts, such as seasonal, weather, and lighting differences. To address this issue, multi-sensor fusion approaches combining RGB and depth (D) (e.g., LIDAR, radar, stereo) have gained popularity in recent years. Inspired by these efforts in multimodal RGB-D fusion, we explore the use of pseudo-depth measurements from recently-developed techniques of ``domain invariant" monocular depth estimation as an additional pseudo depth modality, by reformulating the single-modal RGB image classification task as a pseudo multi-modal RGB-D classification problem. Specifically, a practical, fully self-supervised framework for training, appropriately processing, fusing, and classifying these two modalities, RGB and pseudo-D, is described. Experiments on challenging cross-domain scenarios using public NCLT datasets validate effectiveness of the proposed framework.
翻訳日:2023-05-11 12:43:53 公開日:2023-05-10
# シーケンス非依存多目的ナビゲーション

Sequence-Agnostic Multi-Object Navigation ( http://arxiv.org/abs/2305.06178v1 )

ライセンス: Link先を確認
Nandiraju Gireesh, Ayush Agrawal, Ahana Datta, Snehasis Banerjee, Mohan Sridharan, Brojeshwar Bhowmick, Madhava Krishna(参考訳) マルチオブジェクトナビゲーション(MultiON)タスクでは、ロボットが複数のオブジェクトクラスのインスタンス(each)をローカライズする必要がある。 家庭や工場における補助ロボットの基本的なタスクである。 既存のmultionのメソッドでは、これはオブジェクトナビゲーション(on)の直接拡張であり、1つのオブジェクトクラスのインスタンスをローカライズするタスクであり、事前シーケンスである。 これは動的変化を特徴とする実用的な応用において強い制限である。 本稿では,アクタークリティカルアーキテクチャと適切な報酬仕様に基づくシーケンス非依存型MultiONのための深層強化学習フレームワークについて述べる。 我々のフレームワークは過去の経験を活用し、複数の対象オブジェクトクラスだけでなく個人に対する進歩に報いる。 ai habitat 3dシミュレーション環境におけるgibsonベンチマークデータセットから得られたフォトリアリスティックなシーンを用いて,本手法が事前シーケンスアプローチやマルチオン拡張手法の最先端技術よりも優れた性能を示す。

The Multi-Object Navigation (MultiON) task requires a robot to localize an instance (each) of multiple object classes. It is a fundamental task for an assistive robot in a home or a factory. Existing methods for MultiON have viewed this as a direct extension of Object Navigation (ON), the task of localising an instance of one object class, and are pre-sequenced, i.e., the sequence in which the object classes are to be explored is provided in advance. This is a strong limitation in practical applications characterized by dynamic changes. This paper describes a deep reinforcement learning framework for sequence-agnostic MultiON based on an actor-critic architecture and a suitable reward specification. Our framework leverages past experiences and seeks to reward progress toward individual as well as multiple target object classes. We use photo-realistic scenes from the Gibson benchmark dataset in the AI Habitat 3D simulation environment to experimentally show that our method performs better than a pre-sequenced approach and a state of the art ON method extended to MultiON.
翻訳日:2023-05-11 12:43:32 公開日:2023-05-10
# 放射線治療 : BEIT と Mask2Former によるセマンティックセグメンテーションにおける歯科放射線学のエニグマの解明

Radious: Unveiling the Enigma of Dental Radiology with BEIT Adaptor and Mask2Former in Semantic Segmentation ( http://arxiv.org/abs/2305.06236v1 )

ライセンス: Link先を確認
Mohammad Mashayekhi, Sara Ahmadi Majd, Arian Amiramjadi, Babak Mashayekhi(参考訳) X線画像は歯科疾患の診断と治療の第一段階である。 したがって、早期診断は口腔疾患や歯科疾患の発生と増加を予防する。 本稿では, BEITアダプタとMask2Formerを用いたセマンティックセグメンテーションアルゴリズムを開発し, 歯髄, 修復, 歯冠, 歯冠, ピン, ブリッジ, 歯髄炎, 矯正治療, 根管嚢胞, 腹腔嚢胞, 嚢胞, インプラント, 骨移植材料をパノラマ, 根尖部, 噛み傷X線画像から検出し, 同定した。 我々は,このアルゴリズムの結果を,Deeplabv3 と Segformer という2つの画像セグメント化アルゴリズムと比較した。 その結果,Radiousは,Deeplabv3+とSegformerのmIoUスコアを9%,Segformerで33%増加させることで,これらのアルゴリズムよりも優れていた。

X-ray images are the first steps for diagnosing and further treating dental problems. So, early diagnosis prevents the development and increase of oral and dental diseases. In this paper, we developed a semantic segmentation algorithm based on BEIT adaptor and Mask2Former to detect and identify teeth, roots, and multiple dental diseases and abnormalities such as pulp chamber, restoration, endodontics, crown, decay, pin, composite, bridge, pulpitis, orthodontics, radicular cyst, periapical cyst, cyst, implant, and bone graft material in panoramic, periapical, and bitewing X-ray images. We compared the result of our algorithm to two state-of-the-art algorithms in image segmentation named: Deeplabv3 and Segformer on our own data set. We discovered that Radious outperformed those algorithms by increasing the mIoU scores by 9% and 33% in Deeplabv3+ and Segformer, respectively.
翻訳日:2023-05-11 12:35:25 公開日:2023-05-10
# 弱い依存下での一般損失関数を有するペナルテッド深層ニューラルネットワーク推定器

Penalized deep neural networks estimator with general loss functions under weak dependence ( http://arxiv.org/abs/2305.06230v1 )

ライセンス: Link先を確認
William Kengne and Modou Wade(参考訳) 本稿では,弱い依存過程を学習するためのスパルスペン化ディープニューラルネットワーク予測器を,幅広い損失関数のクラスで実施する。 我々は、回帰推定、分類、時系列予測、$\cdots$ で$\psi$-weak の依存構造が考慮される一般的なフレームワークを取り扱うとともに、特定の有界観測の場合、$\theta_\infty$-co efficients も使用される。 この場合の$\theta_\infty$-weaklyDependedでは、ディープニューラルネットワーク予測器のクラス内での非漸近一般化が提供される。 $\psi$ と $\theta_\infty$-weakly依存のプロセスの両方を学ぶために、スパースペナルド深層ニューラルネットワークの過剰なリスクに対するオラクルの不平等が確立される。 対象関数が十分に滑らかであれば、これらの過剰なリスクの収束率は$\mathcal{o}(n^{-1/3})$に近い。 いくつかのシミュレーション結果が提供され,Vit\'{o}ria大都市圏における粒子状物質の予測への応用も検討されている。

This paper carries out sparse-penalized deep neural networks predictors for learning weakly dependent processes, with a broad class of loss functions. We deal with a general framework that includes, regression estimation, classification, times series prediction, $\cdots$ The $\psi$-weak dependence structure is considered, and for the specific case of bounded observations, $\theta_\infty$-coefficients are also used. In this case of $\theta_\infty$-weakly dependent, a non asymptotic generalization bound within the class of deep neural networks predictors is provided. For learning both $\psi$ and $\theta_\infty$-weakly dependent processes, oracle inequalities for the excess risk of the sparse-penalized deep neural networks estimators are established. When the target function is sufficiently smooth, the convergence rate of these excess risk is close to $\mathcal{O}(n^{-1/3})$. Some simulation results are provided, and application to the forecast of the particulate matter in the Vit\'{o}ria metropolitan area is also considered.
翻訳日:2023-05-11 12:34:40 公開日:2023-05-10
# DaGAN++: ヘッドビデオ生成のための奥行き対応ネットワーク

DaGAN++: Depth-Aware Generative Adversarial Network for Talking Head Video Generation ( http://arxiv.org/abs/2305.06225v1 )

ライセンス: Link先を確認
Fa-Ting Hong, Li Shen, and Dan Xu(参考訳) 音声頭部生成の手法は、入力された顔画像からの表情や動きを含む2次元情報に大きく依存する。 それでも、画素の深さのような高密度な3次元顔形状は、正確な3次元顔構造の構築と、生成のための複雑な背景雑音の抑制に重要な役割を果たしている。 しかし、顔の動画に対する密集した3dアノテーションは、非常にコストがかかる。 本稿では,まず,カメラパラメータや3次元形状アノテーションを必要とせず,顔映像から密集した3次元顔形状(ie,深度)を学習する新しい自己教師あり手法を提案する。 さらに,幾何学習のためのより信頼性の高い剛体移動画素を知覚するために,画素レベルの不確実性を学習する戦略を提案する。 第2に,移動場を生成するための正確なキーポイントを提供する,効果的な幾何学誘導型顔キーポイント推定モジュールを設計する。 最後に,各生成層に適用可能な3d対応のクロスモーダル(ie,外観,奥行き)注意機構を開発し,顔の形状を粗度から細度まで把握する。 大規模な実験は3つの挑戦的なベンチマーク(VoxCeleb1、VoxCeleb2、HDTF)で実施される。 その結果,提案フレームワークは,これらのベンチマークで新たな最先端性能が確立され,高度にリアルに再現されたトーキングビデオを生成することができることがわかった。 コードとトレーニングされたモデルはgithubプロジェクトのhttps://github.com/harlanhong/cvpr2022-daganで公開されている。

Predominant techniques on talking head generation largely depend on 2D information, including facial appearances and motions from input face images. Nevertheless, dense 3D facial geometry, such as pixel-wise depth, plays a critical role in constructing accurate 3D facial structures and suppressing complex background noises for generation. However, dense 3D annotations for facial videos is prohibitively costly to obtain. In this work, firstly, we present a novel self-supervised method for learning dense 3D facial geometry (ie, depth) from face videos, without requiring camera parameters and 3D geometry annotations in training. We further propose a strategy to learn pixel-level uncertainties to perceive more reliable rigid-motion pixels for geometry learning. Secondly, we design an effective geometry-guided facial keypoint estimation module, providing accurate keypoints for generating motion fields. Lastly, we develop a 3D-aware cross-modal (ie, appearance and depth) attention mechanism, which can be applied to each generation layer, to capture facial geometries in a coarse-to-fine manner. Extensive experiments are conducted on three challenging benchmarks (ie, VoxCeleb1, VoxCeleb2, and HDTF). The results demonstrate that our proposed framework can generate highly realistic-looking reenacted talking videos, with new state-of-the-art performances established on these benchmarks. The codes and trained models are publicly available on the GitHub project page at https://github.com/harlanhong/CVPR2022-DaGAN
翻訳日:2023-05-11 12:34:19 公開日:2023-05-10
# 奥行き分割型クロスモーダル学習によるマルチプロンプト

Multi-Prompt with Depth Partitioned Cross-Modal Learning ( http://arxiv.org/abs/2305.06221v1 )

ライセンス: Link先を確認
Yiqi Wang, Xianda Guo, Zheng Zhu, Yingjie Tian(参考訳) 近年,様々な下流タスクのための大規模視覚言語事前学習モデルにソフトプロンプト学習法が提案されている。 これらのメソッドは通常、学習可能なテキストトークンと、凍ったパラメータを持つモデルの入力としてクラストークンを組み合わせる。 しかし、それらはしばしばクラスコンテキストを記述するために単一のプロンプトを使い、カテゴリの多様な属性を適切に捉えられなかった。 本研究は,学習可能な1つのプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術であるパーティショルド・マルチモーダル・プロンプト(PMPO)を紹介する。 本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,視覚表現の階層的な文脈深度を捉えることができる。 さらに,マルチプロンプト学習の利点を最大化するために,手作業で設計したテンプレートと学習可能なマルチプロンプトからの事前情報を取り込んで,その一般化能力を向上させる。 我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。 例えば,本手法は,11種類の画像認識データセット(+7.62ドル)を平均して79.28ドルという高調波平均を達成し,最先端のプロンプト手法と比較して大きな競争力を示した。

In recent years, soft prompt learning methods have been proposed to fine-tune large-scale vision-language pre-trained models for various downstream tasks. These methods typically combine learnable textual tokens with class tokens as input for models with frozen parameters. However, they often employ a single prompt to describe class contexts, failing to capture categories' diverse attributes adequately. This study introduces the Partitioned Multi-modal Prompt (PMPO), a multi-modal prompting technique that extends the soft prompt from a single learnable prompt to multiple prompts. Our method divides the visual encoder depths and connects learnable prompts to the separated visual depths, enabling different prompts to capture the hierarchical contextual depths of visual representations. Furthermore, to maximize the advantages of multi-prompt learning, we incorporate prior information from manually designed templates and learnable multi-prompts, thus improving the generalization capabilities of our approach. We evaluate the effectiveness of our approach on three challenging tasks: new class generalization, cross-dataset evaluation, and domain generalization. For instance, our method achieves a $79.28$ harmonic mean, averaged over 11 diverse image recognition datasets ($+7.62$ compared to CoOp), demonstrating significant competitiveness compared to state-of-the-art prompting methods.
翻訳日:2023-05-11 12:33:42 公開日:2023-05-10
# 平衡から遠い循環熱機関の幾何学的キャラクタリゼーション

Geometric characterization for cyclic heat engines far from equilibrium ( http://arxiv.org/abs/2305.06219v1 )

ライセンス: Link先を確認
Tan Van Vu and Keiji Saito(参考訳) 理論的にも実験的にも、微視的な熱エンジンに注意が向けられている。 特に、電力と効率に関する基本的な限界は、これら2つの量の間のトレードオフ関係と同様に集中的に研究されている。 この手紙は、任意の速度で動く循環式熱機関の経路に沿った幾何学的長さと、その動力と効率の関係を探求することで、ヒートエンジンの究極の限界にさらに光を当てることを目的としている。 熱機関のパワーは、その幾何学的長さの積とエネルギー統計によって常に上界であることが明らかにされる。 この発見は、高出力を達成するにはエネルギーギャップとエネルギー変動の両方を増大させる必要があることを示唆している。 さらに,熱エンジンの幾何学的長さと時間スケールを用いて,動力と効率のトレードオフ関係を確立する。 本研究は, 循環式熱エンジンの性能に関する総合的な枠組みを提供し, 平衡から遠く離れた古典的および量子的熱エンジンに適用可能である。

Considerable attention has been devoted to microscopic heat engines in both theoretical and experimental aspects. Notably, fundamental limits pertaining to power and efficiency have been intensively studied, as well as trade-off relations between these two quantities. This Letter aims to shed further light on the ultimate limits of heat engines by exploring the relationship between the geometric length along the path of cyclic heat engines operating at arbitrary speeds and their power and efficiency. We reveal that the power of a heat engine is always upper bounded by the product of its geometric length and the statistics of energy. This finding implies that increasing both the energy gap and the energy fluctuation is necessary for achieving high power output. Moreover, we establish a trade-off relation between power and efficiency using the geometric length and the timescale of the heat engine. Our results provide a comprehensive framework for the performance of cyclic heat engines and are universally applicable to both classical and quantum heat engines driven far from equilibrium.
翻訳日:2023-05-11 12:33:16 公開日:2023-05-10
# Patchwork Learning: 多様なバイオメディカルデータソースの統合分析に向けたパラダイム

Patchwork Learning: A Paradigm Towards Integrative Analysis across Diverse Biomedical Data Sources ( http://arxiv.org/abs/2305.06217v1 )

ライセンス: Link先を確認
Suraj Rajendran, Weishen Pan, Mert R. Sabuncu, Jiayu Zhou, Fei Wang(参考訳) 医療における機械学習(ml)は、患者ケア、人口健康、医療提供者のワークフローを強化する多くの機会を提供する。 しかし、データプライバシや異種データソースの課題、複数のデータモダリティを完全に活用できないため、実際の臨床とコストのメリットは依然として限られている。 本稿では,異なるデータモダリティ(クリニカル・フリーテキスト,医用画像,オミクスなど)から構成される異なるデータセットからの情報を統合することにより,これらの制約に対処する新しいパラダイムである"パッチワーク・ラーニング"(PL)を紹介する。 PLはデータのプライバシを保ちながら補完的なデータソースを同時に利用することを可能にし、より包括的で一般化可能なMLモデルの開発を可能にする。 本稿では,パッチワーク学習の概念と医療における現在の実装について紹介し,様々な医療課題に対処するための潜在的機会と適用可能なデータソースについて検討する。 PLは、情報共有と欠落したデータのインプットを容易にするために、サイトをまたいだブリッジングのモダリティや重複する特徴空間を活用し、関連する予測タスクに対処する。 本稿では,PLに関連する課題について論じる。その多くが連合学習とマルチモーダル学習によって共有され,今後の研究への提言を提供する。 医療データ統合に対するより包括的なアプローチを提供することで、パッチワーク学習はMLモデルの臨床的適用性に革命をもたらす可能性がある。 このパラダイムは、パーソナライゼーションと一般化可能性のバランスを保ち、最終的には患者の体験を向上し、人口の健康を改善し、医療提供者のワークフローを最適化することを約束する。

Machine learning (ML) in healthcare presents numerous opportunities for enhancing patient care, population health, and healthcare providers' workflows. However, the real-world clinical and cost benefits remain limited due to challenges in data privacy, heterogeneous data sources, and the inability to fully leverage multiple data modalities. In this perspective paper, we introduce "patchwork learning" (PL), a novel paradigm that addresses these limitations by integrating information from disparate datasets composed of different data modalities (e.g., clinical free-text, medical images, omics) and distributed across separate and secure sites. PL allows the simultaneous utilization of complementary data sources while preserving data privacy, enabling the development of more holistic and generalizable ML models. We present the concept of patchwork learning and its current implementations in healthcare, exploring the potential opportunities and applicable data sources for addressing various healthcare challenges. PL leverages bridging modalities or overlapping feature spaces across sites to facilitate information sharing and impute missing data, thereby addressing related prediction tasks. We discuss the challenges associated with PL, many of which are shared by federated and multimodal learning, and provide recommendations for future research in this field. By offering a more comprehensive approach to healthcare data integration, patchwork learning has the potential to revolutionize the clinical applicability of ML models. This paradigm promises to strike a balance between personalization and generalizability, ultimately enhancing patient experiences, improving population health, and optimizing healthcare providers' workflows.
翻訳日:2023-05-11 12:32:38 公開日:2023-05-10
# 大規模言語モデルサービスのためのプライバシ保護プロンプトチューニング

Privacy-Preserving Prompt Tuning for Large Language Model Services ( http://arxiv.org/abs/2305.06212v1 )

ライセンス: Link先を確認
Yansong Li, Zhixing Tan and Yang Liu(参考訳) プロンプトチューニングは、ユーザが新たなLLMサービスシナリオでプライベートデータでLLM(Large Language Models)をカスタマイズする効率的な方法を提供する。 しかし、プライベートデータの繊細な性質は、LLMサービスのカスタマイズにおけるプライバシー保護の必要性をもたらす。 即時チューニングに基づいて,LLMサービスのプライバシ保証を提供するフレームワークであるプライバシ保護プロンプトチューニング(RAPT)を提案する。 \textsc{rapt}はローカルのプライバシー設定を採用しており、ユーザーはローカルの差分プライバシーでデータをプライベートにすることができる。 民営化データを直接訓練すると、プロンプトチューニングが不十分になるため、下流タスクと共同で訓練された新しい民営化トークン再構築タスクを導入し、LCMがタスク依存表現をより良く学習できるようにする。 フレームワークの単純さにもかかわらず、RAPTは敵に対するプライバシー保証を提供しながら、タスク間での競合性能を実現する。

Prompt tuning provides an efficient way for users to customize Large Language Models (LLMs) with their private data in the emerging LLM service scenario. However, the sensitive nature of private data brings the need for privacy preservation in LLM service customization. Based on prompt tuning, we propose Privacy-Preserving Prompt Tuning (RAPT), a framework that provides privacy guarantees for LLM services. \textsc{rapt} adopts a local privacy setting, allowing users to privatize their data locally with local differential privacy. As prompt tuning performs poorly when directly trained on privatized data, we introduce a novel privatized token reconstruction task that is trained jointly with the downstream task, allowing LLMs to learn better task-dependent representations. Despite the simplicity of our framework, experiments show that RAPT achieves competitive performance across tasks while providing privacy guarantees against adversaries.
翻訳日:2023-05-11 12:31:52 公開日:2023-05-10
# ダイヤモンド中の窒素空孔中心の高感度交流・直流磁気計測

Sensitive AC and DC Magnetometry with Nitrogen-Vacancy Center Ensembles in Diamond ( http://arxiv.org/abs/2305.06269v1 )

ライセンス: Link先を確認
John F. Barry, Matthew H. Steinecker, Scott T. Alsid, Jonah Majumder, Linh M. Pham, Michael F. O'Keefe, Danielle A. Braje(参考訳) 固体スピンを用いた量子センシングは、原子蒸気セルや超伝導デバイスのようなより成熟した量子センシング技術に匹敵する高空間分解能、帯域幅、動的範囲の感度を約束する。 しかし、同等の感度制限にもかかわらず、バルク固体量子センサーの性能は、これらのより成熟した代替技術に遅れを取っている。 最近のレビューから、最も研究されている固体量子センシングプラットフォームであるダイヤモンドの窒素空孔欠陥を利用した磁気センサの性能向上の道がいくつか提案されている。 提案手法をいくつか実装し, これまでに報告された窒素空洞型バルク磁力計の感度を示す。 提案手法は,低ひずみおよび長時間の内因性脱落時間を達成するために,それぞれ2量子ラムゼーとハーンエコーマグネトメトリーをブロードバンドおよび狭帯域マグネトメトリーに使用し,さらに脱落時間を延長するためにP1駆動を併用する。 特に、この装置は、磁場に対するNVの固定応答を保存するフラックス濃縮器を含まない。 磁力計は広帯域の \textcolor{mhsnew}{near-}dc 感度$\sim 460$~ft$\cdot$s$^{1/2}$ と狭帯域のac感度$\sim 210$~ft$\cdot$s$^{1/2}$ を実現する。 実験的な設定を詳細に記述し、今後の改善の道筋を明らかにする。

Quantum sensing with solid-state spins offers the promise of high spatial resolution, bandwidth, and dynamic range at sensitivities comparable to more mature quantum sensing technologies, such as atomic vapor cells and superconducting devices. However, despite comparable theoretical sensitivity limits, the performance of bulk solid-state quantum sensors has so far lagged behind these more mature alternatives. A recent review~\cite{barry2020sensitivity} suggests several paths to improve performance of magnetometers employing nitrogen-vacancy defects in diamond, the most-studied solid-state quantum sensing platform. Implementing several suggested techniques, we demonstrate the most sensitive nitrogen-vacancy-based bulk magnetometer reported to date. Our approach combines tailored diamond growth to achieve low strain and long intrinsic dephasing times, the use of double-quantum Ramsey and Hahn echo magnetometry sequences for broadband and narrowband magnetometry respectively, and P1 driving to further extend dephasing time. Notably, the device does not include a flux concentrator, preserving the fixed response of the NVs to magnetic field. The magnetometer realizes a broadband \textcolor{mhsnew}{near-}DC sensitivity $\sim 460$~fT$\cdot$s$^{1/2}$ and a narrowband AC sensitivity $\sim 210$~fT$\cdot$s$^{1/2}$. We describe the experimental setup in detail and highlight potential paths for future improvement.
翻訳日:2023-05-11 12:25:40 公開日:2023-05-10
# 2d/3d登録のための特定のパラメータ初期化による埋め込み特徴相関最適化

Embedded Feature Correlation Optimization with Specific Parameter Initialization for 2D/3D Registration ( http://arxiv.org/abs/2305.06252v1 )

ライセンス: Link先を確認
Minheng Chen, Zhirun Zhang, Shuheng Gu, Youyong Kong(参考訳) 2d/3d登録のための特定のパラメータ初期化(cospi)を用いた組み込み特徴相関最適化(embedd feature correlation optimization)という,新たなディープラーニングベースのフレームワークを提案する。 設計したフレームワークには、初期化ポーズパラメータを効率よく選択するパラメータ仕様モジュールと、画像を整列する微細登録ネットワークが含まれている。 提案フレームワークは, 特殊な訓練手法を用いた新しい複合接続エンコーダを用いて, マルチスケールの特徴を抽出する。 本手法は,学習に基づく手法と最適化に基づく手法を比較し,さらなる性能評価を行う。 本実験により,本手法は登録性能を向上し,既存の手法よりも精度と実行時間に優れることを示した。 また,初期ポーズ推定器として提案手法の可能性を示す。

We present a novel deep learning-based framework: Embedded Feature Correlation Optimization with Specific Parameter Initialization (COSPI) for 2D/3D registration which is a most challenging problem due to the difficulty such as dimensional mismatch, heavy computation load and lack of golden evaluating standard. The framework we designed includes a parameter specification module to efficiently choose initialization pose parameter and a fine-registration network to align images. The proposed framework takes extracting multi-scale features into consideration using a novel composite connection encoder with special training techniques. The method is compared with both learning-based methods and optimization-based methods to further evaluate the performance. Our experiments demonstrate that the method in this paper has improved the registration performance, and thereby outperforms the existing methods in terms of accuracy and running time. We also show the potential of the proposed method as an initial pose estimator.
翻訳日:2023-05-11 12:25:13 公開日:2023-05-10
# クラウドネイティブ無線ネットワークのための深層強化学習に基づくリソース割り当て

Deep Reinforcement Learning Based Resource Allocation for Cloud Native Wireless Network ( http://arxiv.org/abs/2305.06249v1 )

ライセンス: Link先を確認
Lin Wang, Jiasheng Wu, Yue Gao, Jingjing Zhang(参考訳) クラウドネイティブ技術は、5g beyondと6g通信ネットワークに革命をもたらし、前例のないレベルの運用自動化、柔軟性、適応性を提供している。 しかし、クラウドネイティブなサービスやアプリケーションは、動的クラウドコンピューティング環境のリソース割り当てにおいて、新たな課題をもたらしている。 この課題に対処するために,コンテナベースの仮想化を活用してフレキシブルなサービスデプロイメントを実現する,クラウドネイティブなワイヤレスアーキテクチャを調査した。 次に、ネットワークスライシングとマルチアクセスエッジコンピューティングの2つの代表的なユースケースについて検討する。 これらのシナリオでリソース割り当てを最適化するために、深層強化学習手法を活用し、ネットワーク状態の監視と動的にリソース割り当てポリシーのトレーニングが可能な2つのモデルフリーアルゴリズムを導入する。 Free5gcを用いて開発したテストベッドにおけるアルゴリズムの有効性を検証する。 本研究は,ネットワーク効率の大幅な向上を実証し,クラウドネイティブ無線ネットワークの潜在能力を最大限に活用するための提案手法の可能性を明らかにした。

Cloud native technology has revolutionized 5G beyond and 6G communication networks, offering unprecedented levels of operational automation, flexibility, and adaptability. However, the vast array of cloud native services and applications presents a new challenge in resource allocation for dynamic cloud computing environments. To tackle this challenge, we investigate a cloud native wireless architecture that employs container-based virtualization to enable flexible service deployment. We then study two representative use cases: network slicing and Multi-Access Edge Computing. To optimize resource allocation in these scenarios, we leverage deep reinforcement learning techniques and introduce two model-free algorithms capable of monitoring the network state and dynamically training allocation policies. We validate the effectiveness of our algorithms in a testbed developed using Free5gc. Our findings demonstrate significant improvements in network efficiency, underscoring the potential of our proposed techniques in unlocking the full potential of cloud native wireless networks.
翻訳日:2023-05-11 12:24:59 公開日:2023-05-10
# 事例依存ラベル雑音学習におけるラベルの価値の再考

Rethinking the Value of Labels for Instance-Dependent Label Noise Learning ( http://arxiv.org/abs/2305.06247v1 )

ライセンス: Link先を確認
Hanwen Deng, Weijia Zhang, Min-Ling Zhang(参考訳) ラベルノイズは大規模データセットに広く存在し、ディープラーニングアルゴリズムの性能を著しく劣化させる。 インスタンス依存ノイズ遷移行列の識別不能のため、ほとんどの既存のアルゴリズムは、ノイズラベル生成プロセスがインスタンスの特徴とは独立であると仮定することでこの問題に対処する。 残念ながら、実世界のアプリケーションにおけるノイズの多いラベルは、しばしば真のラベルと機能の両方に依存します。 本研究では,ノイズ遷移行列を明示的にモデル化することを避ける新しい深層生成モデルを用いて,インスタンス依存ラベルノイズに取り組む。 本アルゴリズムは,カジュアル表現学習を活用し,データから高レベルコンテンツとスタイル潜在要因を同時に識別する。 ノイズラベルの監視情報を構造的因果モデルを用いて活用することにより,提案手法が最先端の雑音データよりも大幅に優れていることを示す。

Label noise widely exists in large-scale datasets and significantly degenerates the performances of deep learning algorithms. Due to the non-identifiability of the instance-dependent noise transition matrix, most existing algorithms address the problem by assuming the noisy label generation process to be independent of the instance features. Unfortunately, noisy labels in real-world applications often depend on both the true label and the features. In this work, we tackle instance-dependent label noise with a novel deep generative model that avoids explicitly modeling the noise transition matrix. Our algorithm leverages casual representation learning and simultaneously identifies the high-level content and style latent factors from the data. By exploiting the supervision information of noisy labels with structural causal models, our empirical evaluations on a wide range of synthetic and real-world instance-dependent label noise datasets demonstrate that the proposed algorithm significantly outperforms the state-of-the-art counterparts.
翻訳日:2023-05-11 12:24:44 公開日:2023-05-10
# GOMEAによる効率的なブラックボックスとグレーボックス最適化のためのPython/C++ライブラリ

A Joint Python/C++ Library for Efficient yet Accessible Black-Box and Gray-Box Optimization with GOMEA ( http://arxiv.org/abs/2305.06246v1 )

ライセンス: Link先を確認
Anton Bouter and Peter A.N. Bosman(参考訳) 問題の構造に関する知識を爆発させることは、進化的アルゴリズム(EA)の効率性とスケーラビリティに大きな恩恵をもたらす。 モデルベースEA(MBEA)は、問題構造を明示的にモデル化することで、これを実現できる。 Gene-pool Optimal Mixing Evolutionary Algorithm (GOMEA)は、リンクモデルと最適混合変動演算子を用いることにより、MBEAの最先端技術の一つである。 特に、部分的な評価が可能なグレーボックス最適化(GBO)では、解の部分的な修正を比較的効率的に評価することが知られている。 このようなGBO設定は、GOMEAがうまく適用された様々な現実世界アプリケーションに存在することが知られている。 本稿では,Python を通じて C++ の既存の GOMEA コードをアクセス可能にする GOMEA ライブラリを紹介する。 さらに、必要な(部分的な)評価毎にc++最適化コードから呼び出されるpython内のgbo適合関数と同様に、bboの簡単な定義が可能になる。 本稿では,GOMEAライブラリの構造と使用方法を説明し,その性能をGBOとBlack-Box Optimization(BBO)の両方で示す。

Exploiting knowledge about the structure of a problem can greatly benefit the efficiency and scalability of an Evolutionary Algorithm (EA). Model-Based EAs (MBEAs) are capable of doing this by explicitly modeling the problem structure. The Gene-pool Optimal Mixing Evolutionary Algorithm (GOMEA) is among the state-of-the-art of MBEAs due to its use of a linkage model and the optimal mixing variation operator. Especially in a Gray-Box Optimization (GBO) setting that allows for partial evaluations, i.e., the relatively efficient evaluation of a partial modification of a solution, GOMEA is known to excel. Such GBO settings are known to exist in various real-world applications to which GOMEA has successfully been applied. In this work, we introduce the GOMEA library, making existing GOMEA code in C++ accessible through Python, which serves as a centralized way of maintaining and distributing code of GOMEA for various optimization domains. Moreover, it allows for the straightforward definition of BBO as well as GBO fitness functions within Python, which are called from the C++ optimization code for each required (partial) evaluation. We describe the structure of the GOMEA library and how it can be used, and we show its performance in both GBO and Black-Box Optimization (BBO).
翻訳日:2023-05-11 12:24:32 公開日:2023-05-10
# オンデバイス胸部x線分類のための説明可能な知識蒸留

Explainable Knowledge Distillation for On-device Chest X-Ray Classification ( http://arxiv.org/abs/2305.06244v1 )

ライセンス: Link先を確認
Chakkrit Termritthikun, Ayaz Umer, Suwichaya Suwanwimolkul, Feng Xia, Ivan Lee(参考訳) マルチラベル胸部X線(CXR)画像の自動分類は,高度な深層学習手法を用いて臨床診断において大きな進歩を遂げた。 しかし、ほとんどの深層モデルには高い計算要求があるため、計算能力の低い小型デバイスでは実現不可能である。 本稿では,実時間多ラベルcxr画像分類のためのコンパクトなディープラーニングモデルを作成するための知識蒸留(kd)戦略を提案する。 我々はCNNとトランスフォーメーションの異なる代替手段を教師として研究し、その知識を小学生に抽出する。 次に,kdによって改善されたモデル決定に対する視覚的な説明を提供するために,説明可能な人工知能(xai)を用いた。 3つのベンチマークcxrデータセットの結果から,我々のkd戦略は,コンパクトな学生モデルにおけるパフォーマンスの向上を提供し,多くの限られたハードウェアプラットフォームで実現可能な選択肢であることが示された。 例えば、DenseNet161を教師ネットワークとして使用する場合、EEEA-Net-C2は、ChestX-ray14、CheXpert、PadChestデータセットでそれぞれ83.7%、87.1%、88.7%のAUCを達成した。

Automated multi-label chest X-rays (CXR) image classification has achieved substantial progress in clinical diagnosis via utilizing sophisticated deep learning approaches. However, most deep models have high computational demands, which makes them less feasible for compact devices with low computational requirements. To overcome this problem, we propose a knowledge distillation (KD) strategy to create the compact deep learning model for the real-time multi-label CXR image classification. We study different alternatives of CNNs and Transforms as the teacher to distill the knowledge to a smaller student. Then, we employed explainable artificial intelligence (XAI) to provide the visual explanation for the model decision improved by the KD. Our results on three benchmark CXR datasets show that our KD strategy provides the improved performance on the compact student model, thus being the feasible choice for many limited hardware platforms. For instance, when using DenseNet161 as the teacher network, EEEA-Net-C2 achieved an AUC of 83.7%, 87.1%, and 88.7% on the ChestX-ray14, CheXpert, and PadChest datasets, respectively, with fewer parameters of 4.7 million and computational cost of 0.3 billion FLOPS.
翻訳日:2023-05-11 12:24:09 公開日:2023-05-10
# 運転前に考える:エンドツーエンドの自動運転のためのスケーラブルデコーダを目指して

Think Twice before Driving: Towards Scalable Decoders for End-to-End Autonomous Driving ( http://arxiv.org/abs/2305.06242v1 )

ライセンス: Link先を確認
Xiaosong Jia, Penghao Wu, Li Chen, Jiangwei Xie, Conghui He, Junchi Yan, Hongyang Li(参考訳) 近年、エンドツーエンドの自動運転は目覚ましい進歩を遂げている。 既存の方法はデカップリングエンコーダ-デコーダパラダイムを採用しており、エンコーダは生のセンサーデータから隠れた特徴を抽出し、デコーダはエゴベクトルの将来の軌道や動作を出力する。 このようなパラダイムの下では、エンコーダはegoエージェントの意図した動作にアクセスできず、大量の受容野から安全クリティカルな領域を見つけ出し、将来の状況についてデコーダに推測する責任を負う。 さらに悪いことに、デコーダはいくつかの単純な多層パーセプトロン(MLP)またはGRUで構成され、エンコーダは繊細に設計されている(例えば、重いResNetとTransformerの組み合わせ)。 このような不均衡なリソースタスク分割は、学習プロセスを妨げる。 本研究では,(1)エンコーダの容量を十分に活用すること,(2)デコーダの容量を増やすこと,という2つの原理により,上記の問題を緩和することを目的とする。 具体的には,まずエンコーダの特徴に基づいて粗粒度の将来位置と動作を予測する。 そして、その位置と動作を条件に、将来のシーンを想像して、それに従って運転した場合にその影響を確認する。 また、予測座標の周囲のエンコーダの特徴を検索し、安全臨界領域に関するきめ細かい情報を得る。 最後に, 予測される未来と得られたサルエント特徴に基づいて, 地盤からオフセットを予測し, 粗粒度の位置と動作を洗練する。 上述のリファインメントモジュールはカスケード方式で積み重ねることができるため、デコーダの容量を条件付き未来に関する時空間的事前知識で拡張することができる。 我々はcarlaシミュレータで実験を行い,クローズドループベンチマークで最新性能を実現する。 広範なアブレーション研究により,各モジュールの有効性が示された。

End-to-end autonomous driving has made impressive progress in recent years. Existing methods usually adopt the decoupled encoder-decoder paradigm, where the encoder extracts hidden features from raw sensor data, and the decoder outputs the ego-vehicle's future trajectories or actions. Under such a paradigm, the encoder does not have access to the intended behavior of the ego agent, leaving the burden of finding out safety-critical regions from the massive receptive field and inferring about future situations to the decoder. Even worse, the decoder is usually composed of several simple multi-layer perceptrons (MLP) or GRUs while the encoder is delicately designed (e.g., a combination of heavy ResNets or Transformer). Such an imbalanced resource-task division hampers the learning process. In this work, we aim to alleviate the aforementioned problem by two principles: (1) fully utilizing the capacity of the encoder; (2) increasing the capacity of the decoder. Concretely, we first predict a coarse-grained future position and action based on the encoder features. Then, conditioned on the position and action, the future scene is imagined to check the ramification if we drive accordingly. We also retrieve the encoder features around the predicted coordinate to obtain fine-grained information about the safety-critical region. Finally, based on the predicted future and the retrieved salient feature, we refine the coarse-grained position and action by predicting its offset from ground-truth. The above refinement module could be stacked in a cascaded fashion, which extends the capacity of the decoder with spatial-temporal prior knowledge about the conditioned future. We conduct experiments on the CARLA simulator and achieve state-of-the-art performance in closed-loop benchmarks. Extensive ablation studies demonstrate the effectiveness of each proposed module.
翻訳日:2023-05-11 12:23:44 公開日:2023-05-10
# 高次トポロジカル絶縁体における動的バルク境界対応と動的量子相転移

Dynamical bulk boundary correspondence and dynamical quantum phase transitions in higher order topological insulators ( http://arxiv.org/abs/2305.06241v1 )

ライセンス: Link先を確認
T. Mas{\l}owski and N. Sedlmayr(参考訳) 動的量子相転移は、自由エネルギーの動的アナログであるリターンレートにおいて臨界時に非解析性が生じるとき、動的に進化する量子系において起こる。 位相遷移の概念のこの拡張は、位相遷移が位相不変量の変化によって特徴付けられる位相相転移(英語版)(topological phase transitions)と接触することができる。 量子クエンチ力学に基づく量子相転移は、位相的物質において起こりうるが、既に1次元の位相的絶縁体や2次元のチャーン絶縁体で研究されている事実である。 さらに、1次元系では、ロシミットエコー自体のゼロモードの周期的な出現に関連して、動的バルク境界対応が見られた。 ここでは、これらの概念を、位相的に保護された境界モードがコーナーモードである2次元高次位相物質に拡張する。 2次元トポロジカルバンド構造において、高次トポロジの可能な全ての形式を包含する最小モデルを考える。 dqptは依然として起こりうること、バルクギャップとバウンダリギャップの双方を交差するクエンチでは起こりうる。 さらに、ダイナミックなバルク境界対応も見られ、これは1次元でそれとは異なる形式を取る。

Dynamical quantum phase transitions occur in dynamically evolving quantum systems when non-analyticities occur at critical times in the return rate, a dynamical analogue of the free energy. This extension of the concept of phase transitions can be brought into contact with another, namely that of topological phase transitions in which the phase transition is marked by a change in a topological invariant. Following a quantum quench dynamical quantum phase transitions can happen in topological matter, a fact which has already been explored in one dimensional topological insulators and in two dimensional Chern insulators. Additionally in one dimensional systems a dynamical bulk boundary correspondence has been seen, related to the periodic appearance of zero modes of the Loschmidt echo itself. Here we extend both of these concepts to two dimensional higher order topological matter, in which the topologically protected boundary modes are corner modes. We consider a minimal model which encompasses all possible forms of higher order topology in two dimensional topological band structures. We find that DQPTs can still occur, and can occur for quenches which cross both bulk and boundary gap closings. Furthermore a dynamical bulk boundary correspondence is also found, which takes a different form to that in one dimension.
翻訳日:2023-05-11 12:23:12 公開日:2023-05-10
# 情報検索のための埋め込みAPIの評価

Evaluating Embedding APIs for Information Retrieval ( http://arxiv.org/abs/2305.06300v1 )

ライセンス: Link先を確認
Ehsan Kamalloo, Xinyu Zhang, Odunayo Ogundepo, Nandan Thakur, David Alfonso-Hermelo, Mehdi Rezagholizadeh, Jimmy Lin(参考訳) 言語モデルのサイズが拡大するにつれ、コミュニティへのアクセスが拡大し、多くの企業やスタートアップがAPIを通じて大きな言語モデルにアクセスできるようになる。 密集検索に適した特定のAPIは、あるテキストのベクトル表現を構築するセマンティック埋め込みAPIである。 対象とするAPIの数が増える中で,本論文では,実践者や研究者がニーズに応じて適切なサービスを見つけるのを支援するために,現実的な検索シナリオにセマンティック埋め込みAPIを組み込むことを目標としています。 具体的には、ドメインの一般化と多言語検索における既存のAPIの機能について検討する。 そこで本研究では,BEIRとMIRACLの2つの標準ベンチマークへの埋め込みAPIの評価を行った。 このAPIを用いてBM25の結果を再ランク付けすることは予算に優しいアプローチであり、標準のプラクティスとは対照的に、第一段階のレトリバーとして利用することが最も効果的である。 非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで有効である。 我々は,情報検索において,検索において重要なAPIを徹底的に評価するための基礎を築き上げたい。

The ever-increasing size of language models curtails their widespread access to the community, thereby galvanizing many companies and startups into offering access to large language models through APIs. One particular API, suitable for dense retrieval, is the semantic embedding API that builds vector representations of a given text. With a growing number of APIs at our disposal, in this paper, our goal is to analyze semantic embedding APIs in realistic retrieval scenarios in order to assist practitioners and researchers in finding suitable services according to their needs. Specifically, we wish to investigate the capabilities of existing APIs on domain generalization and multilingual retrieval. For this purpose, we evaluate the embedding APIs on two standard benchmarks, BEIR, and MIRACL. We find that re-ranking BM25 results using the APIs is a budget-friendly approach and is most effective on English, in contrast to the standard practice, i.e., employing them as first-stage retrievers. For non-English retrieval, re-ranking still improves the results, but a hybrid model with BM25 works best albeit at a higher cost. We hope our work lays the groundwork for thoroughly evaluating APIs that are critical in search and more broadly, in information retrieval.
翻訳日:2023-05-11 12:16:12 公開日:2023-05-10
# GPT-3による医療証拠の要約, 簡易化, 合成

Summarizing, Simplifying, and Synthesizing Medical Evidence Using GPT-3 (with Varying Success) ( http://arxiv.org/abs/2305.06299v1 )

ライセンス: Link先を確認
Chantal Shaib, Millicent L. Li, Sebastian Joseph, Iain J. Marshall, Junyi Jessy Li, Byron C. Wallace(参考訳) 大規模言語モデル、特にGPT-3は、いくつかの設定とゼロショット設定で一般的なドメインニュース記事の高品質な要約を生成することができる。 しかし、このようなモデルがバイオメディシンのようなより専門的で高度な領域でも同様に機能するかどうかは不明である。 本稿では,GPT-3が生み出す生物医学的項目の要約を評価するために,ドメインエキスパート(医療実習の個人)を募集する。 シングルドキュメントとマルチドキュメントの両方の設定を検討します。 前者では, GPT-3がランダム化比較試験を記述した記事の規則的, 平易な要約を生成することを任務とし, 後者では, GPT-3が記事の集合中に報告される証拠を「emph{synthesize>」できる程度の評価を行う。 モデル出力を評価するためのアノテーションスキームを設計し,生成した要約の事実的正確性を評価することに着目した。 GPT-3は1つの生物医学的論文を忠実に要約し、単純化することができるが、複数の文書の正確な集計に苦慮している。 この作業で使用されるデータとアノテーションをすべてリリースします。

Large language models, particularly GPT-3, are able to produce high quality summaries of general domain news articles in few- and zero-shot settings. However, it is unclear if such models are similarly capable in more specialized, high-stakes domains such as biomedicine. In this paper, we enlist domain experts (individuals with medical training) to evaluate summaries of biomedical articles generated by GPT-3, given zero supervision. We consider both single- and multi-document settings. In the former, GPT-3 is tasked with generating regular and plain-language summaries of articles describing randomized controlled trials; in the latter, we assess the degree to which GPT-3 is able to \emph{synthesize} evidence reported across a collection of articles. We design an annotation scheme for evaluating model outputs, with an emphasis on assessing the factual accuracy of generated summaries. We find that while GPT-3 is able to summarize and simplify single biomedical articles faithfully, it struggles to provide accurate aggregations of findings over multiple documents. We release all data and annotations used in this work.
翻訳日:2023-05-11 12:15:52 公開日:2023-05-10
# なぜそんなことをしないのか? AI説明とユーザ行動の関連性の概要

Why Don't You Do Something About It? Outlining Connections between AI Explanations and User Actions ( http://arxiv.org/abs/2305.06297v1 )

ライセンス: Link先を確認
Gennie Mansi, Mark Riedl(参考訳) 説明可能なAIシステムの中核的な前提は、説明がユーザーの知っていることを変え、複雑な社会技術的環境の中で行動できるようにすることである。 行動の中心性にもかかわらず、説明はしばしば技術的側面に基づいて整理され、評価される。 以前の作業は、説明で提供された情報と結果のユーザアクションの間の接続で大きく異なります。 評価における行動の中心化における重要な第一歩は、XAIコミュニティが総合的に認識する情報の範囲と、それらに関連する行動を理解することである。 本稿では,説明やユーザ行動で提示される情報について,先行研究を地図化する枠組みを提案し,ユーザに対して提示される情報に関するギャップについて考察する。

A core assumption of explainable AI systems is that explanations change what users know, thereby enabling them to act within their complex socio-technical environments. Despite the centrality of action, explanations are often organized and evaluated based on technical aspects. Prior work varies widely in the connections it traces between information provided in explanations and resulting user actions. An important first step in centering action in evaluations is understanding what the XAI community collectively recognizes as the range of information that explanations can present and what actions are associated with them. In this paper, we present our framework, which maps prior work on information presented in explanations and user action, and we discuss the gaps we uncovered about the information presented to users.
翻訳日:2023-05-11 12:15:31 公開日:2023-05-10
# 深層強化学習を用いた電子健康記録からの診断経路抽出

Extracting Diagnosis Pathways from Electronic Health Records Using Deep Reinforcement Learning ( http://arxiv.org/abs/2305.06295v1 )

ライセンス: Link先を確認
Lillian Muyama, Antoine Neuraz and Adrien Coulet(参考訳) 臨床診断ガイドラインは、診断につながるステップを特定することを目的としている。 ガイドラインは、臨床判断の合理化と正規化を可能にするが、人口の大半をカバーするように構築され、まれな疾患や複数の病理疾患を有する患者の適切な診断に導くのに失敗する可能性があるため、欠点を被る。 さらに、彼らの更新は長くて高価であり、新興のプラクティスには適さない。 ガイドラインに触発されて,逐次的意思決定問題として診断課題を定式化し,電子健康記録(ehrs)で学習した深層強化学習(drl)アルゴリズムを用いて,適切な診断を得るために最適な観察順序を学習する。 DRLアルゴリズムの多種多様さと文脈に対する感受性から,比較したいくつかのアプローチや設定,古典的分類器について検討した。 貧血とそのサブタイプを鑑別的に診断するための合成的かつ現実的なデータセットを実験し,ehlsで頻繁に発生するノイズや欠落データに対する様々なアプローチのロバスト性を評価した。 DRLアルゴリズムでは、DQNを優先順位付き体験再生で、DQNを優先度付き体験再生で、DQNを優先度付き体験再生で、最高の、最も安定したパフォーマンスを示す。 不完全なデータが存在する場合、DRLアルゴリズムは分類器(ランサムフォレストとXGBoost)と比較して競合するが、安定した性能を示す。

Clinical diagnosis guidelines aim at specifying the steps that may lead to a diagnosis. Guidelines enable rationalizing and normalizing clinical decisions but suffer drawbacks as they are built to cover the majority of the population and may fail in guiding to the right diagnosis for patients with uncommon conditions or multiple pathologies. Moreover, their updates are long and expensive, making them unsuitable to emerging practices. Inspired by guidelines, we formulate the task of diagnosis as a sequential decision-making problem and study the use of Deep Reinforcement Learning (DRL) algorithms trained on Electronic Health Records (EHRs) to learn the optimal sequence of observations to perform in order to obtain a correct diagnosis. Because of the variety of DRL algorithms and of their sensitivity to the context, we considered several approaches and settings that we compared to each other, and to classical classifiers. We experimented on a synthetic but realistic dataset to differentially diagnose anemia and its subtypes and particularly evaluated the robustness of various approaches to noise and missing data as those are frequent in EHRs. Within the DRL algorithms, Dueling DQN with Prioritized Experience Replay, and Dueling Double DQN with Prioritized Experience Replay show the best and most stable performances. In the presence of imperfect data, the DRL algorithms show competitive, but less stable performances when compared to the classifiers (Random Forest and XGBoost); although they enable the progressive generation of a pathway to the suggested diagnosis, which can both guide or explain the decision process.
翻訳日:2023-05-11 12:15:18 公開日:2023-05-10
# CADGE: グラフ構造化知識集約による文脈認識対話生成

CADGE: Context-Aware Dialogue Generation Enhanced with Graph-Structured Knowledge Aggregation ( http://arxiv.org/abs/2305.06294v1 )

ライセンス: Link先を確認
Hongbo Zhanga, Chen Tang, Tyler Loakmana, Chenghua Lina and Stefan Goetze(参考訳) 常識知識は多くの自然言語処理タスクに不可欠である。 既存の作品は通常、グラフ知識と従来のグラフニューラルネットワーク(gnn)を組み込んでおり、テキストとグラフ知識のエンコーディングプロセスはシリアルパイプラインで分離される。 これらの異なる表現学習段階は、ニューラルネットワークが入力知識の両タイプに含まれる全体的な文脈を学習するのに最適であるかもしれない。 本稿では,コンテキスト対応の知識集約プロセスに基づいて,関連する知識グラフのグローバルな特徴を効果的に組み込むことのできる,コンテキスト対応グラフアテンションモデルを提案する。 具体的には,グラフ知識のフラット化とテキストの結合という,異質な機能を処理するための新しい表現学習手法を活用した。 我々の知識を最大限に活用するために、コモンセンス対話生成を支援する文脈情報に加えて、連結されたサブグラフにグラフ知識集約を階層的に適用する最初の試みである。 このフレームワークは従来のGNNベースの言語フレームワークと比較して優れたパフォーマンスを示している。 自動評価と人的評価の両方により,提案モデルが最先端のベースラインに対して顕著な性能向上を示した。

Commonsense knowledge is crucial to many natural language processing tasks. Existing works usually incorporate graph knowledge with conventional graph neural networks (GNNs), leading to the text and graph knowledge encoding processes being separated in a serial pipeline. We argue that these separate representation learning stages may be suboptimal for neural networks to learn the overall context contained in both types of input knowledge. In this paper, we propose a novel context-aware graph-attention model (Context-aware GAT), which can effectively incorporate global features of relevant knowledge graphs based on a context-enhanced knowledge aggregation process. Specifically, our framework leverages a novel representation learning approach to process heterogeneous features - combining flattened graph knowledge with text. To the best of our knowledge, this is the first attempt at hierarchically applying graph knowledge aggregation on a connected subgraph in addition to contextual information to support commonsense dialogue generation. This framework shows superior performance compared to conventional GNN-based language frameworks. Both automatic and human evaluation demonstrates that our proposed model has significant performance uplifts over state-of-the-art baselines.
翻訳日:2023-05-11 12:14:50 公開日:2023-05-10
# ねじれた量子状態のユニタリ同値

Unitary equivalence of the twisted quantum states ( http://arxiv.org/abs/2305.06293v1 )

ライセンス: Link先を確認
N. V. Filina and S. S. Baturin(参考訳) 我々は、ねじれた量子状態の時間ダイナミクスを研究する。 我々は、よく知られた定常ランダウ状態と、ハミルトニアンが線形エネルギー散逸を考慮していても、進化するツイスト状態との間の明示的な関係を見出す。 このユニタリ接続を利用して非定常ランダウ状態を分析し,その性質を明らかにした。 古典的エルマコフ方程式と定常ランダウ状態で計算された行列要素の解に基づいて,提案する変換により,進化するツイスト状態の異なる作用素平均値を簡易に評価できることを実証する。 提案する形式主義は解析を著しく単純化し、ツイスト量子波パケットの散逸進化のさらなる理論的発展のための便利なツールとなることを期待する。

We study the time dynamics of the twisted quantum states. We find an explicit connection between the well-known stationary Landau state and an evolving twisted state, even if the Hamiltonian accounts for the linear energy dissipation. Utilizing this unitary connection, we analyze nonstationary Landau states and unveil some of their properties. We demonstrate how the proposed transformation enables simple evaluation of the different operator mean values for the evolving twisted state based on the solution to the classical Ermakov equation and matrix elements calculated on the stationary Landau states. We anticipate that suggested formalism may significantly simplify the analysis and become a convenient tool for the further theoretical development of the dissipative evolution of the twisted quantum wave packet.
翻訳日:2023-05-11 12:14:31 公開日:2023-05-10
# Joint Metrics Matter: トラジェクトリ予測のためのより良い標準

Joint Metrics Matter: A Better Standard for Trajectory Forecasting ( http://arxiv.org/abs/2305.06292v1 )

ライセンス: Link先を確認
Erica Weng, Hana Hoshino, Deva Ramanan, Kris Kitani(参考訳) マルチモーダル軌道予測法は、最小平均変位誤差 (ade) やファイナル変位誤差 (fde) といった、複数の相互作用エージェントのジョイント性能を捉えない単一エージェントメトリック (マージメトリック) を用いて一般に評価される。 余分な指標にのみ注目することは、グループとして明確に一緒に歩いている人々のために、軌跡の衝突や軌跡の分散といった、不自然な予測につながる可能性がある。 その結果, 限界測度に最適化された手法は, 軌道予測研究の進歩に有害な性能を過度に最適化する。 限界メトリクスの限界に対応するため,複数エージェントメトリクス (joint metrics, jade, jfde, および衝突率) に関して,最先端(sota)軌道予測手法の包括的評価を行った。 ETH/UCYデータセットとStanford Droneデータセットから得られた定量的証拠と定性的な例による限界メトリクスとは対照的に,共同測定の重要性を示す。 我々は,SOTAトラジェクトリ予測法に適用した場合,従来のSOTAに対してETH/UCYデータセット上でのJADE/JFDEを7%改善する,新たな損失関数を導入する。 また,共同メトリクスの最適化は,eth/ucyデータセットの平均衝突率を16%減少させることで証明されるように,自然に相互作用モデリングの改善につながることが示唆された。

Multi-modal trajectory forecasting methods commonly evaluate using single-agent metrics (marginal metrics), such as minimum Average Displacement Error (ADE) and Final Displacement Error (FDE), which fail to capture joint performance of multiple interacting agents. Only focusing on marginal metrics can lead to unnatural predictions, such as colliding trajectories or diverging trajectories for people who are clearly walking together as a group. Consequently, methods optimized for marginal metrics lead to overly-optimistic estimations of performance, which is detrimental to progress in trajectory forecasting research. In response to the limitations of marginal metrics, we present the first comprehensive evaluation of state-of-the-art (SOTA) trajectory forecasting methods with respect to multi-agent metrics (joint metrics): JADE, JFDE, and collision rate. We demonstrate the importance of joint metrics as opposed to marginal metrics with quantitative evidence and qualitative examples drawn from the ETH / UCY and Stanford Drone datasets. We introduce a new loss function incorporating joint metrics that, when applied to a SOTA trajectory forecasting method, achieves a 7% improvement in JADE / JFDE on the ETH / UCY datasets with respect to the previous SOTA. Our results also indicate that optimizing for joint metrics naturally leads to an improvement in interaction modeling, as evidenced by a 16% decrease in mean collision rate on the ETH / UCY datasets with respect to the previous SOTA.
翻訳日:2023-05-11 12:14:20 公開日:2023-05-10
# 非知覚操作タスクのためのビデオコンディショニングポリシーの学習

Learning Video-Conditioned Policies for Unseen Manipulation Tasks ( http://arxiv.org/abs/2305.06289v1 )

ライセンス: Link先を確認
Elliot Chane-Sane, Cordelia Schmid, Ivan Laptev(参考訳) 非専門家によってロボットコマンドを指定する能力は、様々なタスクを解くことができる汎用エージェントを構築する上で重要である。 目的とするロボットのゴールを特定するための便利な方法は、目標とするタスクを示す人のビデオである。 従来の作業は通常、ロボット環境で実行される人間のデモを模倣することを目的としていますが、ここでは、自然で多様な人間の環境で記録されたデモにより、より現実的で挑戦的なセットアップに焦点を当てます。 本研究では,これまで認識されていなかったタスクをロボット操作スキルにマッピングする,データ駆動型手法であるvideo-conditioned policy learning (vip)を提案する。 この目的のために,現在のシーンの観察と対象タスクのビデオから適切なアクションを生成するためのポリシーを学習する。 新しいタスクへの一般化を促進するために、トレーニング中の特定のタスクを回避し、ラベルなしのロボットトラジェクタと対応するロボットビデオからポリシーを学ぶ。 ロボットと人間の両方のビデオは、人間のアクション認識のために事前訓練されたビデオ埋め込みによって表現されます。 テスト時には、まず人間ビデオから一般的なビデオ埋め込み空間のロボットビデオに変換し、その結果の埋め込みを使ってポリシーを定めます。 特に,本手法は,訓練中に人間の指示と組み合わせたロボット軌道を使わずに,人間による実演によるロボット制御を可能にする。 われわれは,マルチタスクロボット操作環境の課題と,その技術面における性能を検証した。 また,本手法は,トレーニング中にペアデータを使用しない新たなゼロショットセットアップにおいて,優れた性能を示す。

The ability to specify robot commands by a non-expert user is critical for building generalist agents capable of solving a large variety of tasks. One convenient way to specify the intended robot goal is by a video of a person demonstrating the target task. While prior work typically aims to imitate human demonstrations performed in robot environments, here we focus on a more realistic and challenging setup with demonstrations recorded in natural and diverse human environments. We propose Video-conditioned Policy learning (ViP), a data-driven approach that maps human demonstrations of previously unseen tasks to robot manipulation skills. To this end, we learn our policy to generate appropriate actions given current scene observations and a video of the target task. To encourage generalization to new tasks, we avoid particular tasks during training and learn our policy from unlabelled robot trajectories and corresponding robot videos. Both robot and human videos in our framework are represented by video embeddings pre-trained for human action recognition. At test time we first translate human videos to robot videos in the common video embedding space, and then use resulting embeddings to condition our policies. Notably, our approach enables robot control by human demonstrations in a zero-shot manner, i.e., without using robot trajectories paired with human instructions during training. We validate our approach on a set of challenging multi-task robot manipulation environments and outperform state of the art. Our method also demonstrates excellent performance in a new challenging zero-shot setup where no paired data is used during training.
翻訳日:2023-05-11 12:13:55 公開日:2023-05-10
# トリミングロボットのためのパノラマステレオ画像に基づくマルチモーダルガーデンデータセットとハイブリッド3次元Dense再構成フレームワーク

A Multi-modal Garden Dataset and Hybrid 3D Dense Reconstruction Framework Based on Panoramic Stereo Images for a Trimming Robot ( http://arxiv.org/abs/2305.06278v1 )

ライセンス: Link先を確認
Can Pu, Chuanyu Yang, Jinnian Pu, Radim Tylecek, Robert B. Fisher(参考訳) 屋外環境の表面メッシュの復元は、タスク計画とリモート可視化の間、農業ロボットにとって不可欠である。 提案手法は,新しく設計されたパノラマステレオカメラと,融合モジュールを3つ備えたハイブリッドソフトウェアフレームワークをベースとする。 五角形のパノラマステレオカメラは、5つのステレオビジョンカメラペアで構成され、以下の3つの融合モジュールに対して同期パノラマステレオ画像をストリーミングする。 disparity fusionモジュールでは、直交ステレオ画像が複数のステレオビジョンアルゴリズムを用いて初期不一致マップを生成する。 そして、これらの初期不均一マップと強度画像とを融合ネットワークに入力し、洗練された不均一マップを生成する。 次に、改良された不均等写像は、ポーズ融合モジュールのためのフルビューポイントクラウドまたはシングルビューポイントクラウドに変換される。 ポーズ融合モジュールは、2段階のグローバル粗大な局所的な戦略を採用する。 最初の段階では、各一対のフルビューポイントクラウドがグローバルポイントクラウドマッチングアルゴリズムによって登録され、グローバルポーズグラフのエッジの変換を推定し、ループクロージャを効果的に実装する。 第2段階では、ローカルポイントクラウドマッチングアルゴリズムが、異なるノードの単一ビューポイントクラウドにマッチするために使用される。 次に,グローバルポーズグラフにおけるすべてのエッジのポーズを3つのルールを用いて局所的に洗練し,洗練されたポーズグラフを構築する。 改良されたポーズグラフは、体積融合のためのグローバルなポーズ軌道を生成するために最適化されている。 ボリューム融合モジュールでは、すべてのノードのグローバルなポーズを使用して、単一のビューポイントの雲をボリュームに統合し、庭全体のメッシュを生成する。 提案するフレームワークと3つの融合モジュールは、実際の屋外ガーデンデータセット上でテストされ、パフォーマンスの優位性を示す。

Recovering an outdoor environment's surface mesh is vital for an agricultural robot during task planning and remote visualization. Our proposed solution is based on a newly-designed panoramic stereo camera along with a hybrid novel software framework that consists of three fusion modules. The panoramic stereo camera with a pentagon shape consists of 5 stereo vision camera pairs to stream synchronized panoramic stereo images for the following three fusion modules. In the disparity fusion module, rectified stereo images produce the initial disparity maps using multiple stereo vision algorithms. Then, these initial disparity maps, along with the intensity images, are input into a disparity fusion network to produce refined disparity maps. Next, the refined disparity maps are converted into full-view point clouds or single-view point clouds for the pose fusion module. The pose fusion module adopts a two-stage global-coarse-to-local-fine strategy. In the first stage, each pair of full-view point clouds is registered by a global point cloud matching algorithm to estimate the transformation for a global pose graph's edge, which effectively implements loop closure. In the second stage, a local point cloud matching algorithm is used to match single-view point clouds in different nodes. Next, we locally refine the poses of all corresponding edges in the global pose graph using three proposed rules, thus constructing a refined pose graph. The refined pose graph is optimized to produce a global pose trajectory for volumetric fusion. In the volumetric fusion module, the global poses of all the nodes are used to integrate the single-view point clouds into the volume to produce the mesh of the whole garden. The proposed framework and its three fusion modules are tested on a real outdoor garden dataset to show the superiority of the performance.
翻訳日:2023-05-11 12:13:32 公開日:2023-05-10
# コンテキスト対応ドキュメンテーションの簡略化

Context-Aware Document Simplification ( http://arxiv.org/abs/2305.06274v1 )

ライセンス: Link先を確認
Liam Cripwell, Jo\"el Legrand, Claire Gardent(参考訳) これまで、テキストの単純化に関するほとんどの作業は、文レベルの入力に重点を置いてきた。 文書化の初期の試みは、単に文書の文に対して反復的にこれらのアプローチを適用しただけである。 しかし、これは談話構造をコヒーレントに保存することができず、最適以下の出力品質をもたらす。 近年、文書レベルの計画(文レベルの簡略化操作のシーケンス)を最初に生成し、この計画を用いて文レベルの単純化を下流に導くことにより、文書簡略化に関する最先端の成果を達成するために、制御可能な単純化の戦略が活用されている。 しかし、簡略化モデルは局所的な文間文書コンテキストに直接アクセスできないため、表面実現に悪影響を及ぼす可能性がある。 我々は,より大きなテキスト単位を繰り返すか,あるいは文書コンテキストの高レベル表現に参加するためにシステムアーキテクチャを拡張することによって,簡易化プロセス内で文書コンテキストを使用する様々なシステムについて検討する。 そこで我々は,プランガイダンスに頼らずとも,文書の簡略化作業における最先端のパフォーマンスを実現する。 さらに,システム変種の性能と効率のトレードオフについて検討し,それぞれがいつ好まれるかを提案する。

To date, most work on text simplification has focused on sentence-level inputs. Early attempts at document simplification merely applied these approaches iteratively over the sentences of a document. However, this fails to coherently preserve the discourse structure, leading to suboptimal output quality. Recently, strategies from controllable simplification have been leveraged to achieve state-of-the-art results on document simplification by first generating a document-level plan (a sequence of sentence-level simplification operations) and using this plan to guide sentence-level simplification downstream. However, this is still limited in that the simplification model has no direct access to the local inter-sentence document context, likely having a negative impact on surface realisation. We explore various systems that use document context within the simplification process itself, either by iterating over larger text units or by extending the system architecture to attend over a high-level representation of document context. In doing so, we achieve state-of-the-art performance on the document simplification task, even when not relying on plan-guidance. Further, we investigate the performance and efficiency tradeoffs of system variants and make suggestions of when each should be preferred.
翻訳日:2023-05-11 12:13:02 公開日:2023-05-10
# 言語特徴量に基づく韓国語のエンティティ認識

Korean Named Entity Recognition Based on Language-Specific Features ( http://arxiv.org/abs/2305.06330v1 )

ライセンス: Link先を確認
Yige Chen and KyungTae Lim and Jungyeul Park(参考訳) 本稿では,その言語固有の特徴を用いて,韓国語で名前付きエンティティ認識を改善する新しい手法を提案する。 近年、名前付きエンティティ認識の分野は広く研究されているが、韓国における名前付きエンティティを効率的に認識するメカニズムはほとんど研究されていない。 これは、韓国語が、モデルが最高のパフォーマンスを達成できないような言語特性を持っているためである。 そこで, 韓国語の単語を形態素に分解し, 位置や粒子などの機能的形態素を包含するオリジナルセグメンテーションにおける名前の曖昧さを低減する, CoNLL-U 形式を取り入れた {Korean corpora} のアノテーションスキームを提案する。 本稿では,この形態素ベーススキームにおいて,名前付きエンティティタグが最もよく表現されているかを調査し,単語ベースの{and syllable-based korea corpora} を名前付きエンティティに変換するアルゴリズムを実装した。 統計モデルとニューラルモデルの結果から,提案した形態素ベースの形式が実現可能であることが明らかとなり,様々な言語特化特徴の影響下でのモデルの性能が実証された。 外部条件はまた、元のセグメンテーションや異なるタイプのタグ付け形式を含む、異なるタイプのデータを与えられたモデルの性能のばらつきを観察するためにも考慮された。

In the paper, we propose a novel way of improving named entity recognition in the Korean language using its language-specific features. While the field of named entity recognition has been studied extensively in recent years, the mechanism of efficiently recognizing named entities in Korean has hardly been explored. This is because the Korean language has distinct linguistic properties that prevent models from achieving their best performances. Therefore, an annotation scheme for {Korean corpora} by adopting the CoNLL-U format, which decomposes Korean words into morphemes and reduces the ambiguity of named entities in the original segmentation that may contain functional morphemes such as postpositions and particles, is proposed herein. We investigate how the named entity tags are best represented in this morpheme-based scheme and implement an algorithm to convert word-based {and syllable-based Korean corpora} with named entities into the proposed morpheme-based format. Analyses of the results of {statistical and neural} models reveal that the proposed morpheme-based format is feasible, and the {varied} performances of the models under the influence of various additional language-specific features are demonstrated. Extrinsic conditions were also considered to observe the variance of the performances of the proposed models, given different types of data, including the original segmentation and different types of tagging formats.
翻訳日:2023-05-11 12:07:40 公開日:2023-05-10
# ニューラルネットワークモデルの類似性:機能的および表現的尺度の検討

Similarity of Neural Network Models: A Survey of Functional and Representational Measures ( http://arxiv.org/abs/2305.06329v1 )

ライセンス: Link先を確認
Max Klabunde, Tobias Schumacher, Markus Strohmaier, Florian Lemmerich(参考訳) ニューラルネットワークの類似性を測定することは、ニューラルネットワークの差異を理解し活用する上で、非常に重要かつ研究上の関心事となっている。 ニューラルネットワークの類似性にはいくつかの視点がありますが、特に2つの補完的な視点、すなわち、 (i)中間神経層の活性化がどう異なるかを考える表現的類似性、及び (ii)出力におけるモデルの違いを考慮した機能的類似性。 本稿では,ニューラルネットワークモデルに対する類似度尺度の2つのファミリについて概説する。 既存の対策の詳細な説明に加えて、これらの対策の特性と関係に関する結果を要約し、議論し、オープンな研究課題を指摘する。 さらに,本対策の実践者だけでなく研究者を指導するための実践的勧告も提供する。 私たちの研究が、ニューラルネットワークモデルに対する類似度測定の特性、性質、適用性に関するより体系的な研究を行うための基盤を、コミュニティに築き上げたいと考えています。

Measuring similarity of neural networks has become an issue of great importance and research interest to understand and utilize differences of neural networks. While there are several perspectives on how neural networks can be similar, we specifically focus on two complementing perspectives, i.e., (i) representational similarity, which considers how activations of intermediate neural layers differ, and (ii) functional similarity, which considers how models differ in their outputs. In this survey, we provide a comprehensive overview of these two families of similarity measures for neural network models. In addition to providing detailed descriptions of existing measures, we summarize and discuss results on the properties and relationships of these measures, and point to open research problems. Further, we provide practical recommendations that can guide researchers as well as practitioners in applying the measures. We hope our work lays a foundation for our community to engage in more systematic research on the properties, nature and applicability of similarity measures for neural network models.
翻訳日:2023-05-11 12:07:16 公開日:2023-05-10
# 統合的マルチモーダル知覚のための交互勾配降下とミックス・オブ・エキスパート

Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception ( http://arxiv.org/abs/2305.06324v1 )

ライセンス: Link先を確認
Hassan Akbari, Dan Kondratyuk, Yin Cui, Rachel Hornung, Huisheng Wang, Hartwig Adam(参考訳) Integrated Multimodal Perception (IMP) は、シンプルでスケーラブルなマルチモーダルマルチタスクトレーニングおよびモデリングアプローチである。 IMPは、画像、ビデオ、テキスト、オーディオを含むマルチモーダル入力を、最小限のモダリティ固有のコンポーネントを持つ単一のトランスフォーマーエンコーダに統合する。 IMPは、効率的なモデル \&タスクスケーリングのために、AGD(Alternating Gradient Descent)とMixture-of-Experts(MoE)を組み合わせた新しい設計を採用している。 IMPに関する広範な実証研究を行い、以下の重要な洞察を明らかにします。 1) 多様な不均一なモーダル性, 損失関数, タスクを交互に交互に行い, 入力解像度も変化し, マルチモーダル理解を効率的に改善する。 2) 単一モダリティ非依存エンコーダ上でのMoEによるモデルスペーシ化は,モダリティ固有のエンコーダや追加の融合層を用いた高密度モデルよりも優れ,モダリティ間の衝突を大幅に軽減する。 IMPは、画像分類、ビデオ分類、画像テキスト検索、ビデオテキスト検索など、幅広い下流タスクにおいて、競争性能を達成する。 とくに、ゼロショットビデオ分類における新しい最先端技術を実現するためのビデオタスクに焦点をあてて、スパースIMP-MoE-Lを訓練する。 本研究では,Kineetics-400の77.0%,Kineetics-600の76.8%,Kineetics-700の0ショット分類精度の76.8%を達成し,トレーニングコストの15%しか使用せず,従来の技術水準を+5%,+6.7%,+5.8%改善した。

We present Integrated Multimodal Perception (IMP), a simple and scalable multimodal multi-task training and modeling approach. IMP integrates multimodal inputs including image, video, text, and audio into a single Transformer encoder with minimal modality-specific components. IMP makes use of a novel design that combines Alternating Gradient Descent (AGD) and Mixture-of-Experts (MoE) for efficient model \& task scaling. We conduct extensive empirical studies about IMP and reveal the following key insights: 1) performing gradient descent updates by alternating on diverse heterogeneous modalities, loss functions, and tasks, while also varying input resolutions, efficiently improves multimodal understanding. 2) model sparsification with MoE on a single modality-agnostic encoder substantially improves the performance, outperforming dense models that use modality-specific encoders or additional fusion layers and greatly mitigating the conflicts between modalities. IMP achieves competitive performance on a wide range of downstream tasks including image classification, video classification, image-text, and video-text retrieval. Most notably, we train a sparse IMP-MoE-L focusing on video tasks that achieves new state-of-the-art in zero-shot video classification. Our model achieves 77.0% on Kinetics-400, 76.8% on Kinetics-600, and 76.8% on Kinetics-700 zero-shot classification accuracy, improving the previous state-of-the-art by +5%, +6.7%, and +5.8%, respectively, while using only 15% of their total training computational cost.
翻訳日:2023-05-11 12:07:02 公開日:2023-05-10
# sepmark: ソーストレースとディープフェイク検出のための深い分離可能なウォーターマーキング

SepMark: Deep Separable Watermarking for Unified Source Tracing and Deepfake Detection ( http://arxiv.org/abs/2305.06321v1 )

ライセンス: Link先を確認
Xiaoshuai Wu, Xin Liao, Bo Ou(参考訳) 悪質なディープフェイクは、本物の顔と偽顔の区別をめぐって激しい紛争を引き起こした。 ディープフェイクスの元ポストを検出するために多くの対策が開発されているが、明らかに受動的法医学は、予見可能な操作の前に原始的な顔に対する予防措置を考慮していない。 そこで我々はSepMarkという,ソーストレースとDeepfake検出のための統合されたフレームワークを提供する,プロアクティブなソリューションを提案しました。 SepMarkはエンコーダデコーダベースのディープウォーターマーキングに由来するが、2つの分離可能なデコーダを持つ。 1つのエンコーダが1つのウォーターマークをエレガントに埋め込み、2つのデコーダが異なるレベルのロバスト性で別々のウォーターマークを抽出することができる。 強靭なデコーダは、様々な歪みに抵抗するトレーサと呼ばれ、非常に高い強靭性を持ち、ディープフェイクの前と後の両方で透かしが生き残ることができる。 セミロバスト式1項検出器は悪質な歪みに選択的に敏感であり、ディープフェイク後に透かしが消える。 トレーサと検出器からなるsepmarkのみが、マークされた顔の信頼できるソースを確実に追跡し、マークされてから変化したかどうかを検出することができる。 広範な実験により、顔交換、表情再現、属性編集など、一般的なディープフェイクにおけるsepmarkの有効性が実証された。

Malicious Deepfakes have led to a sharp conflict over distinguishing between genuine and forged faces. Although many countermeasures have been developed to detect Deepfakes ex-post, undoubtedly, passive forensics has not considered any preventive measures for the pristine face before foreseeable manipulations. To complete this forensics ecosystem, we thus put forward the proactive solution dubbed SepMark, which provides a unified framework for source tracing and Deepfake detection. SepMark originates from encoder-decoder-based deep watermarking but with two separable decoders. For the first time the deep separable watermarking, SepMark brings a new paradigm to the established study of deep watermarking, where a single encoder embeds one watermark elegantly, while two decoders can extract the watermark separately at different levels of robustness. The robust decoder termed Tracer that resists various distortions may have an overly high level of robustness, allowing the watermark to survive both before and after Deepfake. The semi-robust one termed Detector is selectively sensitive to malicious distortions, making the watermark disappear after Deepfake. Only SepMark comprising of Tracer and Detector can reliably trace the trusted source of the marked face and detect whether it has been altered since being marked; neither of the two alone can achieve this. Extensive experiments demonstrate the effectiveness of the proposed SepMark on typical Deepfakes, including face swapping, expression reenactment, and attribute editing.
翻訳日:2023-05-11 12:06:27 公開日:2023-05-10
# NervePool: 単純なプールレイヤー

NervePool: A Simplicial Pooling Layer ( http://arxiv.org/abs/2305.06315v1 )

ライセンス: Link先を確認
Sarah McGuire, Elizabeth Munch, Matthew Hirn(参考訳) グラフ構造データに関するディープラーニング問題では,ダウンサンプリングや計算コストの削減,オーバーフィッティングの最小化などにおいて,レイヤのプーリングが重要である。 これは頂点や辺を超えた高次元の単純化を含むグラフの一般化であり、この構造は高次関係のモデリングにおいてより柔軟である。 提案手法は頂点の分割の上に構築され, 単純錯体の階層的な表現を生成でき, 情報を学習方法で折り畳むことができる。 NervePoolは学習した頂点クラスタ割り当てに基づいて構築され、決定論的手法で高次元の単純化を粗くする。 実際には、プール操作は一連の行列演算によって計算されるが、トポロジカルモチベーションは、単純化の星と神経複合体の結合に基づく集合論的な構成である。

For deep learning problems on graph-structured data, pooling layers are important for down sampling, reducing computational cost, and to minimize overfitting. We define a pooling layer, NervePool, for data structured as simplicial complexes, which are generalizations of graphs that include higher-dimensional simplices beyond vertices and edges; this structure allows for greater flexibility in modeling higher-order relationships. The proposed simplicial coarsening scheme is built upon partitions of vertices, which allow us to generate hierarchical representations of simplicial complexes, collapsing information in a learned fashion. NervePool builds on the learned vertex cluster assignments and extends to coarsening of higher dimensional simplices in a deterministic fashion. While in practice, the pooling operations are computed via a series of matrix operations, the topological motivation is a set-theoretic construction based on unions of stars of simplices and the nerve complex
翻訳日:2023-05-11 12:05:59 公開日:2023-05-10
# Scan2LoD3: レイキャストとベイズネットワークを用いたLoD3におけるセマンティック3Dビルディングモデルの構築

Scan2LoD3: Reconstructing semantic 3D building models at LoD3 using ray casting and Bayesian networks ( http://arxiv.org/abs/2305.06314v1 )

ライセンス: Link先を確認
Olaf Wysocki, Yan Xia, Magdalena Wysocki, Eleonora Grilli, Ludwig Hoegner, Daniel Cremers, Uwe Stilla(参考訳) 詳細レベル(lod)3でのセマンティック3dビルディングモデルの再構築は、長年の課題です。 メッシュベースのモデルとは異なり、これらは水密な幾何学と、fa\c{c}adeレベルでのオブジェクトワイドセマンティクスを必要とする。 このようなセマンティックな3D再構成を求める主な課題は、3D入力データのfa\c{c}adeレベルのセマンティックセマンティックセグメンテーションである。 本稿では,fa\c{c}adeレベルのセマンティック3Dセグメンテーションを改良し,セマンティックなLoD3ビルディングモデルを正確に再構築する,Scan2LoD3という新しい手法を提案する。 この目的のために、我々はレーザー物理と3d構築モデルを利用して、モデルの衝突を確率論的に識別する。 それらの最終的な意味論と形状は、衝突の多重モーダル確率的写像、3d点雲、および2d画像を用いてベイズネットワークで推測される。 要求されるLoD3要求を満たすために、推定形状を用いて3Dビルディング先行の開口を切断し、fa\c{c}adeオブジェクトのライブラリからセマンティック3Dオブジェクトを適合させる。 TUMのキャンパスデータセットに対する大規模な実験は、fa\c{c}adeレベルの検出、セマンティックセグメンテーション、LoD3ビルディングモデル再構築における最先端の手法よりも、提案したScan2LoD3の優れた性能を示す。 提案手法は, 高精細化だけでなく, 自律運転や都市シミュレーションなどの様々な応用において, 高精細化が重要となるため, LoD3における確率駆動型セマンティック3次元再構築の開発を促進できると考えている。

Reconstructing semantic 3D building models at the level of detail (LoD) 3 is a long-standing challenge. Unlike mesh-based models, they require watertight geometry and object-wise semantics at the fa\c{c}ade level. The principal challenge of such demanding semantic 3D reconstruction is reliable fa\c{c}ade-level semantic segmentation of 3D input data. We present a novel method, called Scan2LoD3, that accurately reconstructs semantic LoD3 building models by improving fa\c{c}ade-level semantic 3D segmentation. To this end, we leverage laser physics and 3D building model priors to probabilistically identify model conflicts. These probabilistic physical conflicts propose locations of model openings: Their final semantics and shapes are inferred in a Bayesian network fusing multimodal probabilistic maps of conflicts, 3D point clouds, and 2D images. To fulfill demanding LoD3 requirements, we use the estimated shapes to cut openings in 3D building priors and fit semantic 3D objects from a library of fa\c{c}ade objects. Extensive experiments on the TUM city campus datasets demonstrate the superior performance of the proposed Scan2LoD3 over the state-of-the-art methods in fa\c{c}ade-level detection, semantic segmentation, and LoD3 building model reconstruction. We believe our method can foster the development of probability-driven semantic 3D reconstruction at LoD3 since not only the high-definition reconstruction but also reconstruction confidence becomes pivotal for various applications such as autonomous driving and urban simulations.
翻訳日:2023-05-11 12:05:43 公開日:2023-05-10
# lindbladマスター方程式からlangevin dynamicsとbackへ

From Lindblad master equations to Langevin dynamics and back ( http://arxiv.org/abs/2305.06312v1 )

ライセンス: Link先を確認
Michele Coppola, Zoubair Daouma, Malte Henkel(参考訳) マルコフ近似における開量子系の非平衡ダイナミクスのケーススタディは、外部場の単一調和振動子に基づく2つの力学モデルに対して提示される。 オーミック・ダンピングの異なる形式によって特定され、それらの量子ランゲヴィン方程式は、位置と運動量の間の正準可換器、久保公式、ビリアル定理、量子平衡分散から導かれる。 関連するリンドブラッド方程式は導出されるが、そのうちの1つだけが正である。 これらをウィグナー函数のフォッカー・プランク方程式に変換すると、両方のモデルは同じギブス状態へと発展し、消滅する外部場が現れる。 モデル間の現象学的差異は、量子緩和と、相互作用する多体系の平均場近似としての再解釈に由来する相図を通して説明される。

A case study of the non-equilibrium dynamics of open quantum systems in the markovian approximation is presented for two dynamical models based on a single harmonic oscillator in an external field. Specified through distinct forms of ohmic damping, their quantum Langevin equations are derived from an identical set of physical criteria, namely the canonical commutator between position and momentum, the Kubo formula, the virial theorem and the quantum equilibrium variance. The associated Lindblad equations are derived but only one of them is completely positive. Transforming those into Fokker-Planck equations for the Wigner functions, both models are shown to evolve towards the same Gibbs state, for a vanishing external field. The phenomenological differences between the models are illustrated through their quantum relaxations and through the phase diagrammes derived from their re-interpretation as mean-field approximations of an interacting many-body system.
翻訳日:2023-05-11 12:05:11 公開日:2023-05-10
# 大規模言語モデルによる帰属の自動評価

Automatic Evaluation of Attribution by Large Language Models ( http://arxiv.org/abs/2305.06311v1 )

ライセンス: Link先を確認
Xiang Yue, Boshi Wang, Kai Zhang, Ziru Chen, Yu Su and Huan Sun(参考訳) 近年の大規模言語モデル(LLM)開発の焦点は、生成検索エンジンが示すように、外部参照を組み込んで、それらのクレームの生成とサポートを行うことである。 しかし、帰属性、すなわち、生成されたステートメントが実際に参照によって完全にサポートされているかどうかを検証することは、依然として未解決の問題である。 人間の評価は一般的な慣行であるが、費用と時間を要する。 本稿では,LSMによる属性の自動評価について検討する。 まず、帰属の定義を提供することから始め、自動評価のための2つのアプローチを検討します。 微調整データは、質問応答、事実チェック、自然言語推論、要約など、関連するタスクから再利用される。 評価を容易にするため、生成検索エンジンNew Bingから12ドメインをカバーするテスト例を手作業で作成する。 既存のベンチマーク質問から収集したテストセットとシミュレーションテスト例の結果は,有望な信号と帰属の自動評価の課題の両方を強調した。 テストベッド、モデリング方法論、洞察が、この重要な問題に関する将来の研究の基礎となることを願っています。

A recent focus of large language model (LLM) development, as exemplified by generative search engines, is to incorporate external references to generate and support their claims. However, evaluating the attribution, i.e., verifying whether the generated statement is indeed fully supported by the cited reference, remains an open problem. Although human evaluation is common practice, it is costly and time-consuming. In this paper, we investigate the automatic evaluation of attribution by LLMs. We begin by providing a definition of attribution and then explore two approaches for automatic evaluation: prompting LLMs and fine-tuning smaller LMs. The fine-tuning data is repurposed from related tasks, such as question answering, fact-checking, natural language inference, and summarization. To facilitate the evaluation, we manually curate a set of test examples covering 12 domains from a generative search engine, New Bing. Our results on the curated test set and simulated test examples from existing benchmark questions highlight both promising signals as well as remaining challenges for the automatic evaluation of attribution. We hope our testbed, modeling methodology, and insights will help lay the foundation for future studies on this important problem.
翻訳日:2023-05-11 12:04:55 公開日:2023-05-10
# 敵対的画像操作の解析

Analysis of Adversarial Image Manipulations ( http://arxiv.org/abs/2305.06307v1 )

ライセンス: Link先を確認
Ahsi Lo, Gabriella Pangelinan, Michael C. King(参考訳) 仮想的および物理的アイデンティティがますます絡み合うにつれて、オンライン分野におけるプライバシーとセキュリティの重要性が最重要視される。 近年、複数のニュース記事が、プライベート企業がWebコンテンツをスクラップし、データを調査したり売ったりしている。 オンラインでアップロードされた画像は、ユーザーの同意や知識なしに取り除くことができる。 画像がスクラップされたソーシャルメディアプラットフォームのユーザーは、他のアップロードされた画像や現実世界の識別状況で識別される危険性がある。 本稿では,1つのユニークな画像から個人の顔画像の識別において,画像操作技術が顔認識ソフトウェアの精度に与える影響について検討する。

As virtual and physical identity grow increasingly intertwined, the importance of privacy and security in the online sphere becomes paramount. In recent years, multiple news stories have emerged of private companies scraping web content and doing research with or selling the data. Images uploaded online can be scraped without users' consent or knowledge. Users of social media platforms whose images are scraped may be at risk of being identified in other uploaded images or in real-world identification situations. This paper investigates how simple, accessible image manipulation techniques affect the accuracy of facial recognition software in identifying an individual's various face images based on one unique image.
翻訳日:2023-05-11 12:04:36 公開日:2023-05-10
# グラフピングによる自己監督型インスタンスセグメンテーション

Self-Supervised Instance Segmentation by Grasping ( http://arxiv.org/abs/2305.06305v1 )

ライセンス: Link先を確認
YuXuan Liu, Xi Chen, Pieter Abbeel(参考訳) インスタンスセグメンテーションは多くのロボットアプリケーションにとって基本的なスキルである。 本稿では,インスタンスセグメンテーションモデルのセグメンテーション監督を収集するために,把持インタラクションを用いた自己教師あり手法を提案する。 ロボットがアイテムをつかむと、その把握されたアイテムのマスクは、掴む前後のシーンの画像から推測することができる。 この知見を活かして,把握対象を画像の前後から分割するための把握セグメンテーションモデルを学習する。 このようなモデルは、コストのかかる人間のアノテーションなしに、何千もの把持相互作用から把持対象をセグメント化することができる。 セグメント化された把握されたオブジェクトを使用して、元のシーンからオブジェクトを"カット"し、それらを新しいシーンに"ペースト"することで、インスタンスの監視を生成する。 本稿では,従来の画像サブトラクション手法と比較して,グリップ分割モデルにより,グリップオブジェクトのセグメント化時の誤差が5倍になることを示す。 カット・アンド・ペースト(cut-and-paste)生成法と組み合わせたインスタンス分割モデルでは,ラベル付きデータの10倍の精度でトレーニングされたモデルよりも優れた性能が得られる。 実ロボット把持システムにおいて,本事例分割モデルは,画像サブトラクションベースラインと比較して,把持誤り率を3倍以上低減する。

Instance segmentation is a fundamental skill for many robotic applications. We propose a self-supervised method that uses grasp interactions to collect segmentation supervision for an instance segmentation model. When a robot grasps an item, the mask of that grasped item can be inferred from the images of the scene before and after the grasp. Leveraging this insight, we learn a grasp segmentation model to segment the grasped object from before and after grasp images. Such a model can segment grasped objects from thousands of grasp interactions without costly human annotation. Using the segmented grasped objects, we can "cut" objects from their original scenes and "paste" them into new scenes to generate instance supervision. We show that our grasp segmentation model provides a 5x error reduction when segmenting grasped objects compared with traditional image subtraction approaches. Combined with our "cut-and-paste" generation method, instance segmentation models trained with our method achieve better performance than a model trained with 10x the amount of labeled data. On a real robotic grasping system, our instance segmentation model reduces the rate of grasp errors by over 3x compared to an image subtraction baseline.
翻訳日:2023-05-11 12:04:27 公開日:2023-05-10
# HumanRF:人間の運動における高忠実性ニューラルラジアンス場

HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion ( http://arxiv.org/abs/2305.06356v1 )

ライセンス: Link先を確認
Mustafa I\c{s}{\i}k, Martin R\"unz, Markos Georgopoulos, Taras Khakhulin, Jonathan Starck, Lourdes Agapito, Matthias Nie{\ss}ner(参考訳) 高い忠実度で人間のパフォーマンスを表現することは、映画制作、コンピュータゲーム、ビデオ会議など、さまざまなアプリケーションにおいて必須の構成要素である。 プロダクションレベルの品質とのギャップを埋めるために,多視点ビデオ入力から全体像を捉える4次元ダイナミックなニューラルシーン表現であるHumanRFを導入し,新規で見えない視点からの再生を可能にする。 提案手法は, 時空を時間行列ベクトル分解に分解することにより, 高圧縮率で細部をキャプチャする動的ビデオ符号化として機能する。 これにより, 挑戦的動作の文脈においても, 高分解能なディテールを表現しながら, 長時間連続する人間の俳優の時間的コヒーレントな再構成を得ることができる。 ほとんどの研究は4MP以下の解像度での合成に焦点を当てているが、我々は12MPでの運用の課題に対処する。 この目的のために,160台のカメラから12メガピクセルの映像を16のシーケンスで提供し,高忠実度でフレーム毎のメッシュ再構成を行う,新しいマルチビューデータセットである actorhq を紹介する。 このような高解像度データから生じる課題を実証し,新たに導入したhumanrfがこのデータを有効に活用し,製品レベルの新規なビュー合成に向けて大きな一歩を踏み出したことを示す。

Representing human performance at high-fidelity is an essential building block in diverse applications, such as film production, computer games or videoconferencing. To close the gap to production-level quality, we introduce HumanRF, a 4D dynamic neural scene representation that captures full-body appearance in motion from multi-view video input, and enables playback from novel, unseen viewpoints. Our novel representation acts as a dynamic video encoding that captures fine details at high compression rates by factorizing space-time into a temporal matrix-vector decomposition. This allows us to obtain temporally coherent reconstructions of human actors for long sequences, while representing high-resolution details even in the context of challenging motion. While most research focuses on synthesizing at resolutions of 4MP or lower, we address the challenge of operating at 12MP. To this end, we introduce ActorsHQ, a novel multi-view dataset that provides 12MP footage from 160 cameras for 16 sequences with high-fidelity, per-frame mesh reconstructions. We demonstrate challenges that emerge from using such high-resolution data and show that our newly introduced HumanRF effectively leverages this data, making a significant step towards production-level quality novel view synthesis.
翻訳日:2023-05-11 11:58:10 公開日:2023-05-10
# VideoChat: チャット中心のビデオ理解

VideoChat: Chat-Centric Video Understanding ( http://arxiv.org/abs/2305.06355v1 )

ライセンス: Link先を確認
KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, Yu Qiao(参考訳) 本研究では,エンドツーエンドのチャット中心のビデオ理解システムであるVideoChatを導入することで,映像理解の探求を開始する。 学習可能なニューラルネットワークを通じてビデオ基盤モデルと大規模言語モデルを統合し、時空間推論、イベントローカライゼーション、因果関係推論に優れる。 そこで本研究では,何千もの映像と詳細な説明や会話をマッチングした映像中心の命令データセットを提案する。 このデータセットは、時空間的推論と因果関係を強調し、チャット中心のビデオ理解システムのトレーニングに有用な資産を提供する。 予備的定性実験により,幅広いビデオ応用におけるシステムの可能性を明らかにし,今後の研究の基準を定式化する。 https://github.com/OpenGVLab/Ask-Anythingでコードとデータにアクセスする

In this study, we initiate an exploration into video understanding by introducing VideoChat, an end-to-end chat-centric video understanding system. It integrates video foundation models and large language models via a learnable neural interface, excelling in spatiotemporal reasoning, event localization, and causal relationship inference. To instructively tune this system, we propose a video-centric instruction dataset, composed of thousands of videos matched with detailed descriptions and conversations. This dataset emphasizes spatiotemporal reasoning and causal relationships, providing a valuable asset for training chat-centric video understanding systems. Preliminary qualitative experiments reveal our system's potential across a broad spectrum of video applications and set the standard for future research. Access our code and data at https://github.com/OpenGVLab/Ask-Anything
翻訳日:2023-05-11 11:57:45 公開日:2023-05-10
# ビデオからアニマタブルなカテゴリを再構築する

Reconstructing Animatable Categories from Videos ( http://arxiv.org/abs/2305.06351v1 )

ライセンス: Link先を確認
Gengshan Yang and Chaoyang Wang and N Dinesh Reddy and Deva Ramanan(参考訳) アニマタブルな3Dモデルの構築は、3Dスキャン、精巧な登録、手動リギングを必要とするため困難であり、任意のカテゴリにスケールすることが難しい。 近年、微分可能レンダリングは単眼ビデオから高品質な3dモデルを得る経路を提供しているが、これらは厳格なカテゴリや単一インスタンスに限定されている。 本稿では,一眼レフビデオからカテゴリ3Dモデルを構築するRACについて述べる。 この問題を解決するために,(1)最適化によりスケルトンをインスタンスに特殊化すること,(2)インスタンスの詳細を維持しながらカテゴリ間の共有構造を促進する潜在空間正規化法,(3)背景からオブジェクトをアンタングルするために3次元背景モデルを使用する3つの主要なアイデアが紹介されている。 人間、猫、犬の3dモデルが、50~100本のインターネットビデオから学べることを示した。

Building animatable 3D models is challenging due to the need for 3D scans, laborious registration, and manual rigging, which are difficult to scale to arbitrary categories. Recently, differentiable rendering provides a pathway to obtain high-quality 3D models from monocular videos, but these are limited to rigid categories or single instances. We present RAC that builds category 3D models from monocular videos while disentangling variations over instances and motion over time. Three key ideas are introduced to solve this problem: (1) specializing a skeleton to instances via optimization, (2) a method for latent space regularization that encourages shared structure across a category while maintaining instance details, and (3) using 3D background models to disentangle objects from the background. We show that 3D models of humans, cats, and dogs can be learned from 50-100 internet videos.
翻訳日:2023-05-11 11:57:31 公開日:2023-05-10
# Reckoning: 動的知識エンコーディングによる推論

RECKONING: Reasoning through Dynamic Knowledge Encoding ( http://arxiv.org/abs/2305.06349v1 )

ライセンス: Link先を確認
Zeming Chen, Gail Weiss, Eric Mitchell, Asli Celikyilmaz, Antoine Bosselut(参考訳) トランスフォーマティブ言語モデルに関する最近の研究は、文脈(すなわち、文脈内推論)の一部として提供される知識を推論することで、疑問に答えることができることを示している。 しかし、利用可能な知識は特定の質問に対してフィルタされないことが多いので、文脈内推論は、質問と無関係であるが、別の質問(つまり、必ずしもランダムなノイズではない)に関係のある追加のコンテンツに敏感である。 このような状況では、モデルが質問に答えるために必要な知識を区別できないため、散発的な推論とパフォーマンスの低下に繋がる。 この推論の失敗は、事前トレーニング中に記憶したすべての知識と文脈知識を区別するモデルの明らかな能力とは対照的である。 そこで本研究では,与えられた文脈知識をモデルのパラメータに折り畳むことによって,より頑健な推論をモデルに教えることを提案する。 我々の手法であるRECKONINGは、バックプロパゲーションによってパラメトリック知識を更新することで、言語モデルに推論を教える二段階学習アルゴリズムである。 トレーニング中、内部ループはモデル重みのコピーを迅速に適応させ、コンテキスト知識をパラメータにエンコードする。 外ループでは、モデルが更新された重みを使って記憶された知識に関する推論質問を再現し、答えることを学ぶ。 2つのマルチホップ推論データセットに対する実験により、RECKONINGのパフォーマンスは、コンテキスト内推論ベースライン(最大4.5%)よりも向上していることが示された。 また,コンテクスト内推論と比較すると,学習中に認識されない長大な推論チェーンを一般化し,コンテクスト内の邪魔者に対して頑健であり,同じ知識について複数の質問をした場合に計算効率が向上することがわかった。

Recent studies on transformer-based language models show that they can answer questions by reasoning over knowledge provided as part of the context (i.e., in-context reasoning). However, since the available knowledge is often not filtered for a particular question, in-context reasoning can be sensitive to distractor facts, additional content that is irrelevant to a question but that may be relevant for a different question (i.e., not necessarily random noise). In these situations, the model fails to distinguish the knowledge that is necessary to answer the question, leading to spurious reasoning and degraded performance. This reasoning failure contrasts with the model's apparent ability to distinguish its contextual knowledge from all the knowledge it has memorized during pre-training. Following this observation, we propose teaching the model to reason more robustly by folding the provided contextual knowledge into the model's parameters before presenting it with a question. Our method, RECKONING, is a bi-level learning algorithm that teaches language models to reason by updating their parametric knowledge through back-propagation, allowing them to then answer questions using the updated parameters. During training, the inner loop rapidly adapts a copy of the model weights to encode contextual knowledge into its parameters. In the outer loop, the model learns to uses the updated weights to reproduce and answer reasoning questions about the memorized knowledge. Our experiments on two multi-hop reasoning datasets show that RECKONING's performance improves over the in-context reasoning baseline (by up to 4.5%). We also find that compared to in-context reasoning, RECKONING generalizes better to longer reasoning chains unseen during training, is more robust to distractors in the context, and is more computationally efficient when multiple questions are asked about the same knowledge.
翻訳日:2023-05-11 11:57:14 公開日:2023-05-10
# 確率射とカーネル平均埋め込みによる教師付き学習

Supervised learning with probabilistic morphisms and kernel mean embeddings ( http://arxiv.org/abs/2305.06348v1 )

ライセンス: Link先を確認
H\^ong V\^an L\^e(参考訳) 本稿では,実測可能な空間である入力空間 $\mathcal{X}$ とラベル空間 $\mathcal{Y}$ に対する教師付き学習の生成モデルにおける正しい損失関数の概念を提案する。 教師付き学習の生成モデルにおける正しい損失関数は、可能な予測子の仮説空間 $\mathcal{h}$ と、$\mathcal{h}$ に属するかもしれないスーパーバイザ演算子の要素間の不一致を正しく測定しなければならない。 正しい損失関数を定義するために、確率測度 $\mu$ on $\mathcal{x} \times \mathcal{y}$ に対する正規条件付き確率測度 $\mu_{\mathcal{y}|\mathcal{x}}$ を、線型作用素方程式の解として、$\pi_{\mathcal{x}}: \mathcal{x}\times\mathcal{y}\to \mathcal{x}$ に対して特徴づける。 もし$\mathcal{y}$ が分離可能な距離化可能な位相空間で、ボレル $\sigma$-algebra $ \mathcal{b} (\mathcal{y})$ が成り立つなら、正規条件付き確率測度 $\mu_{\mathcal{y}|\mathcal{x}}$ を、マルコフ核の空間上の平均二乗誤差の最小値として、$\mathcal{x}$ から$\mathcal{y}$ に、カーネル平均埋め込みを用いた別の特徴付けを提案する。 これらの結果を用いて、学習アルゴリズムの一般化可能性の定量化に内部測度を用いて、回帰モデルの学習可能性に関するCucker-Smaleによる結果の一般化を条件付き確率推定問題の設定に与える。 また,vapnikの確率的不適切な問題を解く手法の変種を内的尺度を用いて提示し,その応用について考察する。

In this paper I propose a concept of a correct loss function in a generative model of supervised learning for an input space $\mathcal{X}$ and a label space $\mathcal{Y}$, which are measurable spaces. A correct loss function in a generative model of supervised learning must correctly measure the discrepancy between elements of a hypothesis space $\mathcal{H}$ of possible predictors and the supervisor operator, which may not belong to $\mathcal{H}$. To define correct loss functions, I propose a characterization of a regular conditional probability measure $\mu_{\mathcal{Y}|\mathcal{X}}$ for a probability measure $\mu$ on $\mathcal{X} \times \mathcal{Y}$ relative to the projection $\Pi_{\mathcal{X}}: \mathcal{X}\times\mathcal{Y}\to \mathcal{X}$ as a solution of a linear operator equation. If $\mathcal{Y}$ is a separable metrizable topological space with the Borel $\sigma$-algebra $ \mathcal{B} (\mathcal{Y})$, I propose another characterization of a regular conditional probability measure $\mu_{\mathcal{Y}|\mathcal{X}}$ as a minimizer of a mean square error on the space of Markov kernels, called probabilistic morphisms, from $\mathcal{X}$ to $\mathcal{Y}$, using kernel mean embedding. Using these results and using inner measure to quantify generalizability of a learning algorithm, I give a generalization of a result due to Cucker-Smale, which concerns the learnability of a regression model, to a setting of a conditional probability estimation problem. I also give a variant of Vapnik's method of solving stochastic ill-posed problem, using inner measure and discuss its applications.
翻訳日:2023-05-11 11:56:42 公開日:2023-05-10
# CosmoPower-JAX:微分可能な宇宙エミュレータを用いた高次元ベイズ推定

CosmoPower-JAX: high-dimensional Bayesian inference with differentiable cosmological emulators ( http://arxiv.org/abs/2305.06347v1 )

ライセンス: Link先を確認
D. Piras and A. Spurio Mancini(参考訳) 宇宙パワースペクトルのニューラルエミュレータを構築することで、宇宙論的推論を加速する、JAXベースのCosmoPower-JAXを提案する。 本稿では,jaxの自動微分,バッチ評価,ジャスト・イン・タイムコンパイル機能を用い,gpu(graphics processing unit)上で推論パイプラインを実行することで,高度勾配に基づくサンプリング手法を用いてパラメータ推定を桁違いに高速化できることを示す。 これらは次世代の宇宙探査の分析に必要とされるような高次元のパラメータ空間を効率的に探索するのに使うことができる。 シミュレーションステージIVにおけるCosmoPower-JAXの精度と計算効率について述べる。 まず,37のモデルパラメータを包含する宇宙せん断解析を行う1つの調査について考察した。 また,CosmoPower-JAXとハミルトニアンのモンテカルロ試料から得られた輪郭を,ネストしたスライダとエミュレータを使わずに評価し,速度向上係数を$\mathcal{O}(10^3)$とした。 次に、3つのステージivの観測結果を組み合わせて、合計157のモデルパラメータを用いて、それぞれが宇宙せん断と銀河クラスタリング(3x2pt)の合同分析を行う。 このような高次元のパラメータ空間であっても、CosmoPower-JAXは標準法で求められる6年間とは対照的に、収束した後部輪郭を3日間で提供する。 cosmopower-jaxはpythonで完全に書かれており、次世代のサーベイで設定された精度要件を宇宙社会が満たすのに役立つように公開しています。

We present CosmoPower-JAX, a JAX-based implementation of the CosmoPower framework, which accelerates cosmological inference by building neural emulators of cosmological power spectra. We show how, using the automatic differentiation, batch evaluation and just-in-time compilation features of JAX, and running the inference pipeline on graphics processing units (GPUs), parameter estimation can be accelerated by orders of magnitude with advanced gradient-based sampling techniques. These can be used to efficiently explore high-dimensional parameter spaces, such as those needed for the analysis of next-generation cosmological surveys. We showcase the accuracy and computational efficiency of CosmoPower-JAX on two simulated Stage IV configurations. We first consider a single survey performing a cosmic shear analysis totalling 37 model parameters. We validate the contours derived with CosmoPower-JAX and a Hamiltonian Monte Carlo sampler against those derived with a nested sampler and without emulators, obtaining a speed-up factor of $\mathcal{O}(10^3)$. We then consider a combination of three Stage IV surveys, each performing a joint cosmic shear and galaxy clustering (3x2pt) analysis, for a total of 157 model parameters. Even with such a high-dimensional parameter space, CosmoPower-JAX provides converged posterior contours in 3 days, as opposed to the estimated 6 years required by standard methods. CosmoPower-JAX is fully written in Python, and we make it publicly available to help the cosmological community meet the accuracy requirements set by next-generation surveys.
翻訳日:2023-05-11 11:55:47 公開日:2023-05-10
# 非線形力学系同定のための周波数対応ニューラルネットワーク

Frequency-Supported Neural Networks for Nonlinear Dynamical System Identification ( http://arxiv.org/abs/2305.06344v1 )

ライセンス: Link先を確認
Krzysztof Zaj\k{a}c and Pawe{\l} Wachel(参考訳) ニューラルネットワークは、複数の変数間のさまざまな関係を学習できる非常に一般的なモデルである。 そのような関係の例として、特に興味深いのは、多くの応用がある非線形システムの入出力関係である。 このような関係を推定できるモデルの研究は、多くの理論的、実践的な結果を持つ幅広い分野である。 ニューラルネットワークは非常に一般的なものだが、畳み込みニューラルネットワークやリカレントニューラルネットワークなど、画像処理やシーケンス処理といった特定のアプリケーション向けに調整された複数の特殊なケースが存在する。 周波数情報を取り込んで一般ネットワーク構造を調整することにより、非線形システム同定に適したネットワークを構築するという仮説を定式化する。 さらに,この周波数情報を理論的な観点から一般性を失うことなく追加することが可能であることを示す。 この新しい構造周波数支援ニューラルネットワーク(fsnn)と呼び,その特性を実験的に検証する。

Neural networks are a very general type of model capable of learning various relationships between multiple variables. One example of such relationships, particularly interesting in practice, is the input-output relation of nonlinear systems, which has a multitude of applications. Studying models capable of estimating such relation is a broad discipline with numerous theoretical and practical results. Neural networks are very general, but multiple special cases exist, including convolutional neural networks and recurrent neural networks, which are adjusted for specific applications, which are image and sequence processing respectively. We formulate a hypothesis that adjusting general network structure by incorporating frequency information into it should result in a network specifically well suited to nonlinear system identification. Moreover, we show that it is possible to add this frequency information without the loss of generality from a theoretical perspective. We call this new structure Frequency-Supported Neural Network (FSNN) and empirically investigate its properties.
翻訳日:2023-05-11 11:55:15 公開日:2023-05-10
# シーングラフを用いた事前学習型視覚・言語モデルへの構造化表現の導入

Incorporating Structured Representations into Pretrained Vision & Language Models Using Scene Graphs ( http://arxiv.org/abs/2305.06343v1 )

ライセンス: Link先を確認
Roei Herzig, Alon Mendelson, Leonid Karlinsky, Assaf Arbelle, Rogerio Feris, Trevor Darrell, Amir Globerson(参考訳) vision and language (vl) モデルは様々なタスクで顕著なゼロショット性能を示している。 しかし、最近の研究では、最高のVLモデルでさえ、オブジェクト属性、関係性、行動状態といったシーン理解の側面を捉えるのに苦労していることが示されている。 対照的に、これらのモデルを改善するための構造化されたアノテーション、例えばシーングラフ(sgs)を得ることは、時間がかかり、費用がかかり、退屈であり、大規模に使用できない。 ここでは、SGアノテーションを含む小さなデータセットは、VLモデルの構造化された理解を強化するのに十分な情報を提供できるだろうか? 本稿では,特殊なモデルアーキテクチャと新たなトレーニングパラダイムを利用することで,そのようなデータを用いてVLモデルを改善することができることを示す。 本手法は,sgラベルから学習する際に,両コンポーネントを直接監視することにより,視覚およびテキストエンコーダの構造関連情報をキャプチャする。 シーングラフの監視手法を用いて、シーンの異なる構成面を強調した様々なグラフ拡張に基づいて詳細なキャプションを生成するとともに、視覚エンコーダに特別な `<Adaptive SG tokens'' を追加することにより、オープン語彙アプローチを用いてSG情報を予測する。 さらに,ゼロショット機能を維持しつつ,グラフ予測タスクをよりよく学習できるSGトークンに特化して,新たな適応手法を設計する。 本モデルでは,winogroundおよびvl-checklistデータセットにおいて,ゼロショット性能がわずかに低下しただけで強い性能改善を示す。

Vision and Language (VL) models have demonstrated remarkable zero-shot performance in a variety of tasks. However, recent studies have shown that even the best VL models struggle to capture aspects of scene understanding, such as object attributes, relationships, and action states. In contrast, obtaining structured annotations, e.g., scene graphs (SGs) that could improve these models is time-consuming, costly, and tedious, and thus cannot be used on a large scale. Here we ask, can small datasets containing SG annotations provide sufficient information for enhancing structured understanding of VL models? We show that it is indeed possible to improve VL models using such data by utilizing a specialized model architecture and a new training paradigm. Our approach captures structure-related information for both the visual and textual encoders by directly supervising both components when learning from SG labels. We use scene graph supervision to generate fine-grained captions based on various graph augmentations highlighting different compositional aspects of the scene, and to predict SG information using an open vocabulary approach by adding special ``Adaptive SG tokens'' to the visual encoder. Moreover, we design a new adaptation technique tailored specifically to the SG tokens that allows better learning of the graph prediction task while still maintaining zero-shot capabilities. Our model shows strong performance improvements on the Winoground and VL-checklist datasets with only a mild degradation in zero-shot performance.
翻訳日:2023-05-11 11:55:01 公開日:2023-05-10
# k-unimorph:韓国ユニバーサルモルフォロジーとその特徴スキーマ

K-UniMorph: Korean Universal Morphology and its Feature Schema ( http://arxiv.org/abs/2305.06335v1 )

ライセンス: Link先を確認
Eunkyul Leah Jo and Kyuwon Kim and Xihan Wu and KyungTae Lim and Jungyeul Park and Chulwoo Park(参考訳) 本稿では,韓国語のための新しいユニバーサルモルフォロジーデータセットを提案する。 以前は、韓国語は数百の多種多様な世界言語の中で形態学的パラダイムの分野で過小評価されていた。 そこで本稿では,韓国語に対するこの普遍形態学パラダイムを提案する。 K-UniMorphデータセットでは、各文法的基準を言語終末について詳細に概説し、屈折形を抽出する方法を明らかにし、形態的スキーマをどのように生成するかを示す。 本データセットは,韓国語におけるSylak-Glassman et al. (2015) とSylak-Glassman (2016) による形態的特徴スキーマを採用し,Sejong morphologically analysis corpus から入力動詞を抽出した。 データ作成中,本手法ではsejongコーパスからの変換の正確性についても検討する。 さらに,韓国語の3つの単語形式(文字,音節,形態素)を用いて屈折処理を行う。 最後に,韓国の形態的パラダイムとデータセットの今後の展望について論じる。

We present in this work a new Universal Morphology dataset for Korean. Previously, the Korean language has been underrepresented in the field of morphological paradigms amongst hundreds of diverse world languages. Hence, we propose this Universal Morphological paradigms for the Korean language that preserve its distinct characteristics. For our K-UniMorph dataset, we outline each grammatical criterion in detail for the verbal endings, clarify how to extract inflected forms, and demonstrate how we generate the morphological schemata. This dataset adopts morphological feature schema from Sylak-Glassman et al. (2015) and Sylak-Glassman (2016) for the Korean language as we extract inflected verb forms from the Sejong morphologically analyzed corpus that is one of the largest annotated corpora for Korean. During the data creation, our methodology also includes investigating the correctness of the conversion from the Sejong corpus. Furthermore, we carry out the inflection task using three different Korean word forms: letters, syllables and morphemes. Finally, we discuss and describe future perspectives on Korean morphological paradigms and the dataset.
翻訳日:2023-05-11 11:54:36 公開日:2023-05-10
# エピタキシャル量子ドットからガウス様モードへの広帯域単一光子集束用直接波長ポリマーナノワイヤ導波路

Direct-Laser-Written Polymer Nanowire Waveguides for Broadband Single Photon Collection from Epitaxial Quantum Dots into a Gaussian-like Mode ( http://arxiv.org/abs/2305.06333v1 )

ライセンス: Link先を確認
Edgar Perez, Cori Haws, Marcelo Davanco, Jindong Song, Luca Sapienza, and Kartik Srinivasan(参考訳) 単一エピタキシャル量子ドット(qds: single epitaxial quantum dots)は、特に発光を増強するフォトニックデバイスに埋め込まれた場合の量子光発生における主要な技術である。 しかし、この放出を単一モードファイバーのように望ましい光チャネルに結合することはしばしば困難である。 直接レーザーライティング(DLW)は、フォトレジストから3次元サブミクロン機能を作製し、この課題に対処できるマイクロおよびナノスケールデバイスをサポートする。 本研究では、DLWを用いて、QDを収容するGaAs基板に接触して直径1$\mu$mのポリマーナノワイヤ(PNW)を作製し、エピタキシャルに成長したInAs/GaAsQDを直接導波する。 PNWはGaAsデバイス層と直交する高指数コントラスト円筒導波路であり、基礎となるQDからの放射をPNWのHE$_{11}$モードに結合し、単モードファイバへの集電効率を高める。 PNWの製造はQDデバイス層を変えない(例えばエッチング)ため、PNWはQD放出を高める既存のフォトニックジオメトリを増強するのに適している。 我々は、PNWをスタンドアロンデバイスとして、および金属ナノリングとともに研究する。 PNWはDLW照射波長で吸収・反射する基板上に作製されるため, 定在波反射と熱を緩和する方法を報告する。 我々は,PNWのないナノリングシステムにおいて,PNWのない同じシステムに対して,PNWのないナノリングシステムにおいて(3.0 \pm 0.7)\times$改善の要因を数値的に観察し,QD放出を導出し,収集効率を同時に向上するPNWの能力を強調した。 これらの結果は、dlwが既存のトップダウン製造手法と互換性のある方法で量子エミッタフォトニクスに付加的な機能を提供する新しいアプローチを示している。

Single epitaxial quantum dots (QDs) are a leading technology for quantum light generation, particularly when embedded in photonic devices that enhance their emission. However, coupling this emission into a desirable optical channel, like a single mode fiber, is often challenging. Direct laser writing (DLW) enables the fabrication of three-dimensional sub-micron features out of photoresist, supporting micro- and nano- scale devices that can address this challenge. In this study, we use DLW to directly waveguide-couple epitaxially-grown InAs/GaAs QDs by fabricating 1 $\mu$m diameter polymer nanowires (PNWs) in contact with the GaAs substrate housing the QDs. The PNWs are high index contrast cylindrical waveguides perpendicular to the GaAs device layer, which couple the emission from an underlying QD to the HE$_{11}$ mode of the PNW, enhancing the collection efficiency to a single-mode fiber. PNW fabrication does not alter the QD device layer (e.g., via etching), making PNWs well suited for augmenting existing photonic geometries that enhance QD emission. We study PNWs as standalone devices and in conjunction with metallic nanorings -- an already-established geometry for increasing vertical extraction of light from embedded QDs. Since PNWs are fabricated on substrates that abosorb and reflect at the DLW exposure wavelength, we report methods to mitigate standing wave reflections and heat, which otherwise prevent PNW fabrication. We observe a factor of ($3.0 \pm 0.7)\times$ improvement in a nanoring system with a PNW compared to the same system without a PNW, in line with numerical results, highlighting a PNW's ability to waveguide QD emission and increase collection efficiency simultaneously. These results demonstrate a new approach in which DLW can provide additional functionality for quantum emitter photonics, in a manner compatible with existing top-down fabrication approaches.
翻訳日:2023-05-11 11:54:17 公開日:2023-05-10