このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230724となっている論文です。

PDF登録状況(公開日: 20230724)

TitleAuthorsAbstract論文公表日・翻訳日
# 多様なHaskell-IOエクササイズタスクを生成するフレームワーク

A Framework for Generating Diverse Haskell-IO Exercise Tasks ( http://arxiv.org/abs/2008.12751v2 )

ライセンス: Link先を確認
Oliver Westphal(参考訳) 本稿では,Haskell-I/Oプログラミングにおける多種多様なエクササイズタスクを自動的に生成するフレームワークの設計を提案する。 タスクの自動生成は多くの異なる方法で役立ちます。 手作業の作成は時間のかかるプロセスなので、自動化することで教育者にとって貴重な時間を節約できます。 自動評価システムと共に自動タスク生成により、学生は必要に応じて多くのエクササイズタスクを実践できる。 さらに、各生徒はタスクのわずかに異なるバージョンを与えられ、eラーニング環境で自然に発生する盗作に関する問題を軽減できる。 タスク生成は、初期の作業で開発したI/O動作の仕様言語を中心にしています。 HaskellのEDSLであるタスク生成フレームワークは、仕様からプログラムコードを含む様々なアーティファクトを作成するための強力なプリミティブを提供します。 これらのプリミティブの技術的実現については詳しくは述べない。 この記事では、そのようなアーティファクトとフレームワーク全体をいかにして(ランダムに)インスタンス化可能なエクササイズタスクテンプレートを構築することができるかを説明します。

We present the design of a framework to automatically generate a large range of different exercise tasks on Haskell-I/O programming. Automatic task generation is useful in many different ways. Manual task creating is a time consuming process, so automating it saves valuable time for the educator. Together with an automated assessment system automatic task generation allows students to practice with as many exercise tasks as needed. Additionally, each student can be given a slightly different version of a task, reducing issues regarding plagiarism that arise naturally in an e-learning environment. Our task generation is centered around a specification language for I/O behavior that we developed in an earlier work. The task generation framework, an EDSL in Haskell, provides powerful primitives for the creation of various artifacts, including program code, from specifications. We will not go into detail on the technical realization of these primitives. This article instead showcases how such artifacts and the framework as a whole can be used to build exercise tasks templates that can then be (randomly) instantiated.
翻訳日:2023-10-24 16:08:13 公開日:2023-07-24
# TikTokとYouTubeからの要求関連フィードバックを見つけるためのデータ駆動アプローチ

A Data-Driven Approach for Finding Requirements Relevant Feedback from TikTok and YouTube ( http://arxiv.org/abs/2305.01796v4 )

ライセンス: Link先を確認
Manish Sihag, Ze Shi Li, Amanda Dash, Nowshin Nawar Arony, Kezia Devathasan, Neil Ernst, Alexandra Albu, Daniela Damian(参考訳) エンゲージメント、コミュニケーション、コンテンツ作成の媒体としてビデオの重要性が増すことで、組織がユーザフィードバックを検討することが重要である。 しかし、ソーシャルメディアプラットフォーム上で大量のビデオコンテンツを使って要求関連フィードバックを抽出することは困難である。 この研究は、ビデオコンテンツに焦点を当てたソーシャルメディアプラットフォームであるtiktokとyoutubeの可能性を探り、関連するユーザーフィードバックを特定し、その後の要件生成ステップで要件をさらに洗練する可能性がある。 各種産業における20種類の人気商品の6276件のビデオから,音声・ビジュアルテキスト,メタデータ(説明・タイトル)を解析し,ユーザフィードバックの源泉としてビデオの展望を評価した。 最先端のディープラーニングトランスフォーマーモデルを採用し,要求情報からなる3097本の映像を分類した。 そして、関連するビデオを集めて、20の製品ごとに複数の要求に関連するフィードバックテーマを見つけました。 このフィードバックは後に要件アーティファクトに洗練される。 製品評価(機能、設計、パフォーマンス)、バグレポート、使用法チュートリアルがビデオから永続的なテーマであることが分かりました。 TikTokやYouTubeのようなビデオベースのソーシャルメディアは、価値あるユーザーインサイトを提供し、企業が顧客中心の開発を改善するための強力で斬新なリソースとなる。

The increasing importance of videos as a medium for engagement, communication, and content creation makes them critical for organizations to consider for user feedback. However, sifting through vast amounts of video content on social media platforms to extract requirements-relevant feedback is challenging. This study delves into the potential of TikTok and YouTube, two widely used social media platforms that focus on video content, in identifying relevant user feedback that may be further refined into requirements using subsequent requirement generation steps. We evaluated the prospect of videos as a source of user feedback by analyzing audio and visual text, and metadata (i.e., description/title) from 6276 videos of 20 popular products across various industries. We employed state-of-the-art deep learning transformer-based models, and classified 3097 videos consisting of requirements relevant information. We then clustered relevant videos and found multiple requirements relevant feedback themes for each of the 20 products. This feedback can later be refined into requirements artifacts. We found that product ratings (feature, design, performance), bug reports, and usage tutorial are persistent themes from the videos. Video-based social media such as TikTok and YouTube can provide valuable user insights, making them a powerful and novel resource for companies to improve customer-centric development.
翻訳日:2023-10-24 12:12:36 公開日:2023-07-24
# クラスタリングに基づく自動走行システムテストのための臨界解析

Clustering-based Criticality Analysis for Testing of Automated Driving Systems ( http://arxiv.org/abs/2306.12738v2 )

ライセンス: Link先を確認
Barbara Sch\"utt, Stefan Otten, Eric Sax(参考訳) 完全自動走行車の自動運転システム(ADS)のタイプ承認に関する新たなEU規制2022/1426の実装により、シナリオベースのテストは、先進運転支援システムと自動運転システムの性能と安全性を評価する上で重要な意味を持つようになった。 しかし、単一の論理シナリオからの具体的なシナリオの探索と生成は、しばしば同様の、あるいは冗長なシナリオにつながり、テストの目標に寄与しない可能性がある。 本稿では,一つの論理シナリオから具体的なシナリオをクラスタリングすることで,シナリオセットを減らすことを目標とする。 クラスタリング技術を利用することで、冗長で非関心なシナリオを識別および排除することが可能になり、典型的なシナリオセットとなる。 この削減により、より集中的で効率的なテストプロセスが可能になり、リソースを最も重要かつ重要なシナリオに割り当てることが可能になる。 さらに、特定されたクラスタは、シナリオ空間に対する貴重な洞察を提供し、システムの振る舞いに関するパターンや潜在的な問題を明らかにすることができる。

With the implementation of the new EU regulation 2022/1426 regarding the type-approval of the automated driving system (ADS) of fully automated vehicles, scenario-based testing has gained significant importance in evaluating the performance and safety of advanced driver assistance systems and automated driving systems. However, the exploration and generation of concrete scenarios from a single logical scenario can often lead to a number of similar or redundant scenarios, which may not contribute to the testing goals. This paper focuses on the the goal to reduce the scenario set by clustering concrete scenarios from a single logical scenario. By employing clustering techniques, redundant and uninteresting scenarios can be identified and eliminated, resulting in a representative scenario set. This reduction allows for a more focused and efficient testing process, enabling the allocation of resources to the most relevant and critical scenarios. Furthermore, the identified clusters can provide valuable insights into the scenario space, revealing patterns and potential problems with the system's behavior.
翻訳日:2023-10-23 19:06:29 公開日:2023-07-24
# 例によるプログラミングが簡単になった

Programming by Example Made Easy ( http://arxiv.org/abs/2307.07965v2 )

ライセンス: Link先を確認
Jiarong Wu, Lili Wei, Yanyan Jiang, Shing-Chi Cheung, Luyao Ren, Chang Xu(参考訳) PBE(Program by example)は、ユーザが提供する入力出力サンプルによって指定されたプログラムを自動的に合成するプログラミングパラダイムである。 エンドユーザの利便性にもかかわらず、PBEツールの実装は、しばしばプログラミング言語と合成アルゴリズムの専門知識を必要とする。 このような知識のレベルは、ソフトウェア開発者の間では珍しくありません。 これは、業界によるPBEの広範な採用を著しく制限する。 pbe 技術の導入を容易にするために,我々は bee と呼ばれる pbe フレームワークを提案する。このフレームワークはリレーショナル・テーブルに基づく "エンティティ・アクション" モデルを利用して,幅広い領域の pbe 開発を容易にする。 beeを使ったpbeツールの実装は、ドメイン固有データエンティティとユーザーアクションをテーブルに適応するだけで、ドメイン固有言語や効率的な合成アルゴリズムを設計する必要がない。 Beeの合成アルゴリズムは、双方向探索および制約解決技術を利用して、テーブル変換でネストされた値計算の課題に対処する。 3つの異なるドメインの64のpbeタスクに対するbeの有効性とユーザビリティを12人の被験者による人間実験で評価した。 評価の結果,Beeは最先端のPBEフレームワークよりも学習や使用が容易であり,双方向アルゴリズムはドメイン固有に最適化されたシンセサイザーに匹敵する性能を実現する。

Programming by example (PBE) is an emerging programming paradigm that automatically synthesizes programs specified by user-provided input-output examples. Despite the convenience for end-users, implementing PBE tools often requires strong expertise in programming language and synthesis algorithms. Such a level of knowledge is uncommon among software developers. It greatly limits the broad adoption of PBE by the industry. To facilitate the adoption of PBE techniques, we propose a PBE framework called Bee, which leverages an "entity-action" model based on relational tables to ease PBE development for a wide but restrained range of domains. Implementing PBE tools with Bee only requires adapting domain-specific data entities and user actions to tables, with no need to design a domain-specific language or an efficient synthesis algorithm. The synthesis algorithm of Bee exploits bidirectional searching and constraint-solving techniques to address the challenge of value computation nested in table transformation. We evaluated Bee's effectiveness on 64 PBE tasks from three different domains and usability with a human study of 12 participants. Evaluation results show that Bee is easier to learn and use than the state-of-the-art PBE framework, and the bidirectional algorithm achieves comparable performance to domain-specifically optimized synthesizers.
翻訳日:2023-10-23 17:23:44 公開日:2023-07-24
# ChatGPT生成コードの精錬:コード品質問題の特徴と緩和

Refining ChatGPT-Generated Code: Characterizing and Mitigating Code Quality Issues ( http://arxiv.org/abs/2307.12596v1 )

ライセンス: Link先を確認
Yue Liu, Thanh Le-Cong, Ratnadira Widyasari, Chakkrit Tantithamthavorn, Li Li, Xuan-Bach D. Le, David Lo(参考訳) 本稿では,2つのプログラミング言語,すなわち2,033のプログラミングタスクに対して,4,066のchatgpt生成コードの品質を体系的に検討する。 この作品の目標は3つある。 まず、コード生成タスクにおけるChatGPTの正しさを分析し、タスクの難易度、プログラミング言語、タスクが導入された時間、プログラムサイズなど、その効果に影響を与える要因を明らかにする。 第二に、ChatGPT生成コードの品質に関する潜在的な問題を識別し、特徴付ける。 最後に、これらの問題を緩和する方法についての洞察を提供する。 実験の結果、ChatGPTが生成した4,066プログラムのうち、2,757プログラムは正しいと判断され、1,081プログラムは間違った出力を提供し、177プログラムはコンパイルや実行時のエラーを含むことがわかった。 さらに,コードスタイルや保守性といった静的解析ツールを通じて生成したコードの特徴をさらに分析し,1,933個のchatgpt生成コードスニペットが保守性の問題に直面していることを発見した。 その後,chatgptの自己デバッグ機能と静的解析ツールとのインタラクションを調査し,その前のステップで明らかになったエラーを修正する。 実験によると、ChatGPTはこれらの課題に部分的に対処でき、コード品質を20%以上改善できるが、まだ改善の余地と機会がある。 全体として、私たちの研究はChatGPTの現在の限界に関する貴重な洞察を提供し、ChatGPTのようなAIモデルのコード生成能力を強化するための将来の研究と開発のためのロードマップを提供します。

In this paper, we systematically study the quality of 4,066 ChatGPT-generated code implemented in two popular programming languages, i.e., Java and Python, for 2,033 programming tasks. The goal of this work is three folds. First, we analyze the correctness of ChatGPT on code generation tasks and uncover the factors that influence its effectiveness, including task difficulty, programming language, time that tasks are introduced, and program size. Second, we identify and characterize potential issues with the quality of ChatGPT-generated code. Last, we provide insights into how these issues can be mitigated. Experiments highlight that out of 4,066 programs generated by ChatGPT, 2,757 programs are deemed correct, 1,081 programs provide wrong outputs, and 177 programs contain compilation or runtime errors. Additionally, we further analyze other characteristics of the generated code through static analysis tools, such as code style and maintainability, and find that 1,933 ChatGPT-generated code snippets suffer from maintainability issues. Subsequently, we investigate ChatGPT's self-debugging ability and its interaction with static analysis tools to fix the errors uncovered in the previous step. Experiments suggest that ChatGPT can partially address these challenges, improving code quality by more than 20%, but there are still limitations and opportunities for improvement. Overall, our study provides valuable insights into the current limitations of ChatGPT and offers a roadmap for future research and development efforts to enhance the code generation capabilities of AI models like ChatGPT.
翻訳日:2023-10-23 16:33:24 公開日:2023-07-24
# 携帯電話からテレビへの適応型アプリGUIの自動マッピング

Automated Mapping of Adaptive App GUIs from Phones to TVs ( http://arxiv.org/abs/2307.12522v1 )

ライセンス: Link先を確認
Han Hu, Ruiqi Dong, John Grundy, Thai Minh Nguyen, Huaxiao Liu, Chunyang Chen(参考訳) スマートデバイスの相互接続が増加する中、ユーザーはスマートフォンとテレビの両方で同じ映画を見るなど、全く異なるデバイスで同じアプリを同じタスクに採用したいことが多い。 しかし、画面サイズ、アスペクト比、インタラクションスタイルが著しく異なるため、これらのデバイス間でグラフィカルユーザインターフェース(gui)を適合させることは困難である。 google playには何百万ものアプリがあるが、スマートtvディスプレイをサポートするのはほんの数千だ。 既存のモバイルアプリのGUIをテレビにマップする技術は、応答性のあるデザインを採用するか、電話とテレビの間に大きなギャップを埋めるのに苦労する。 携帯電話のGUIを入力として考慮し、テレビをサポートするアプリを開発する代わりに、対応する適応型テレビGUIを生成するための半自動アプローチを提案する。 既存のアプリにおけるテレビと電話のGUIペアに関する実証的研究に基づいて,電話のGUIをグループ化し分類し,テレビGUIに変換し,動的テレビレイアウトとTVディスプレイのソースコードを生成するためのルールのリストを合成する。 当社のツールは、開発者だけでなく、テレビアプリ開発のために生成されたGUIをさらにカスタマイズできるGUIデザイナにとっても有益です。 評価とユーザスタディは、生成したGUIの精度とツールの有用性を実証する。

With the increasing interconnection of smart devices, users often desire to adopt the same app on quite different devices for identical tasks, such as watching the same movies on both their smartphones and TV. However, the significant differences in screen size, aspect ratio, and interaction styles make it challenging to adapt Graphical User Interfaces (GUIs) across these devices. Although there are millions of apps available on Google Play, only a few thousand are designed to support smart TV displays. Existing techniques to map a mobile app GUI to a TV either adopt a responsive design, which struggles to bridge the substantial gap between phone and TV or use mirror apps for improved video display, which requires hardware support and extra engineering efforts. Instead of developing another app for supporting TVs, we propose a semi-automated approach to generate corresponding adaptive TV GUIs, given the phone GUIs as the input. Based on our empirical study of GUI pairs for TV and phone in existing apps, we synthesize a list of rules for grouping and classifying phone GUIs, converting them to TV GUIs, and generating dynamic TV layouts and source code for the TV display. Our tool is not only beneficial to developers but also to GUI designers, who can further customize the generated GUIs for their TV app development. An evaluation and user study demonstrate the accuracy of our generated GUIs and the usefulness of our tool.
翻訳日:2023-10-23 16:32:23 公開日:2023-07-24
# 要件と検証と検証の連携に関する課題と実践--6社を事例として

Challenges and Practices in Aligning Requirements with Verification and Validation: A Case Study of Six Companies ( http://arxiv.org/abs/2307.12489v1 )

ライセンス: Link先を確認
Elizabeth Bjarnason, Per Runeson, Markus Borg, Michael Unterkalmsteiner, Emelie Engstr\"om, Bj\"orn Regnell, Giedre Sabaliauskaite, Annabella Loconsole, Tony Gorschek, Robert Feldt(参考訳) 要件エンジニアリング(RE)と検証と検証(VV)との微妙な整合性は、適切な品質の製品を提供する際に問題を引き起こす可能性がある。 例えば、テスターに対する要件変更の弱いコミュニケーションは、新しい要件の検証の欠如と古い無効な要件の不正な検証を招き、ソフトウェア品質の問題、無駄な労力と遅延につながる可能性がある。 しかし、弱いアライメントの研究と実践が深刻な意味合いを持っているにもかかわらず、両者は両者のアライメントよりもREまたはVVのどちらかに焦点を当てる傾向にある。 ケーススタディのフレキシブルな研究プロセスに10人の研究者が参加し、6つのソフトウェア開発企業から30人の実践者を対象にインタビューを行い、REとVVの整合に関する問題について考察した。 結果として、個々のREやVVアクティビティの品質から、トレースやツールを通じて、戦略や目標、設計レベルで共通の理解を共有することに至るまで、REとVVの整合性に関する現在の業界の課題とプラクティスが説明されます。 この研究は、人間の側面、すなわち協力とコミュニケーションの中心であり、要求工学の実践がアライメントの重要な基盤であることを示した。 さらに、組織のサイズと、トレーサビリティの外部的実施のようなアライメントプラクティスを適用する動機は、アライメントを達成する上で重要な役割を果たしている変化要因である。 私たちの結果は、アライメントの課題に対処するための実践者の改善作業のための戦略的ロードマップを提供します。 さらに、この研究は、REとVVのアライメントを改善するための継続的な研究の基礎を提供する。

Weak alignment of requirements engineering (RE) with verification and validation (VV) may lead to problems in delivering the required products in time with the right quality. For example, weak communication of requirements changes to testers may result in lack of verification of new requirements and incorrect verification of old invalid requirements, leading to software quality problems, wasted effort and delays. However, despite the serious implications of weak alignment research and practice both tend to focus on one or the other of RE or VV rather than on the alignment of the two. We have performed a multi-unit case study to gain insight into issues around aligning RE and VV by interviewing 30 practitioners from 6 software developing companies, involving 10 researchers in a flexible research process for case studies. The results describe current industry challenges and practices in aligning RE with VV, ranging from quality of the individual RE and VV activities, through tracing and tools, to change control and sharing a common understanding at strategy, goal and design level. The study identified that human aspects are central, i.e. cooperation and communication, and that requirements engineering practices are a critical basis for alignment. Further, the size of an organisation and its motivation for applying alignment practices, e.g. external enforcement of traceability, are variation factors that play a key role in achieving alignment. Our results provide a strategic roadmap for practitioners improvement work to address alignment challenges. Furthermore, the study provides a foundation for continued research to improve the alignment of RE with VV.
翻訳日:2023-10-23 16:31:52 公開日:2023-07-24
# ソフトウェアプロセス教育におけるシミュレーションの利用と評価:―ケーススタディ―

Use and evaluation of simulation for software process education: a case study ( http://arxiv.org/abs/2307.12484v1 )

ライセンス: Link先を確認
Nauman bin Ali, Michael Unterkalmsteiner(参考訳) ソフトウェア工学は応用分野であり、概念は理論的なレベルでのみ把握することが困難である。 プロジェクトマネジメントコースの文脈において,我々は,ソフトウェア開発プロセスの理解を改善するためのソフトウェアプロセスシミュレーション(sps)ベースのゲームの導入と評価を行った。 介入の効果は,特定の開発プロセスを選択するための学生の議論を評価することで測定した。 議論は根拠に基づく推論枠組みによって評価され、議論の強さを評価するために拡張された。 その結果, 学生はプロセスモデルの選択に対して強い議論を与えるのに苦労していることがわかった。 評価の結果,SPSゲームの介入が学生の議論に肯定的な影響を及ぼしたことが示唆された。 説明的議論評価アプローチは学生に形式的フィードバックを提供するのに利用できるが、その利用はかなりコストがかかり、従来の評価の代替とは考えられない。

Software Engineering is an applied discipline and concepts are difficult to grasp only at a theoretical level alone. In the context of a project management course, we introduced and evaluated the use of software process simulation (SPS) based games for improving students' understanding of software development processes. The effects of the intervention were measured by evaluating the students' arguments for choosing a particular development process. The arguments were assessed with the Evidence-Based Reasoning framework, which was extended to assess the strength of an argument. The results indicate that students generally have difficulty providing strong arguments for their choice of process models. Nevertheless, the assessment indicates that the intervention of the SPS game had a positive impact on the students' arguments. Even though the illustrated argument assessment approach can be used to provide formative feedback to students, its use is rather costly and cannot be considered a replacement for traditional assessments.
翻訳日:2023-10-23 16:31:22 公開日:2023-07-24
# 要求工学とソフトウェアテストアライメントのための分類法

A Taxonomy for Requirements Engineering and Software Test Alignment ( http://arxiv.org/abs/2307.12477v1 )

ライセンス: Link先を確認
Michael Unterkalmsteiner, Robert Feldt, Tony Gorschek(参考訳) 要件 エンジニアリングとソフトウェアテストは成熟した領域であり、多くの研究が見られます。 それでも、それらの相互作用はトレーサビリティという概念を超えてわずかに研究されている。 このギャップを埋めるために,要求工学とソフトウェアテスト(rest)アライメントの定義,各領域をリンクする手法を特徴付ける分類法,アライメントを評価するプロセスを提案する。 この分類は、研究者が新たな調査の機会を見つけることを支援するだけでなく、アライメント方法の比較とアライメントの評価、あるいはその欠如を支援する。 文献に記載されたアライメント法を分析し,新たに出現する次元を反復的に検証することで,rest分類法を構築した。 情報ダイアドの結果として生じる概念は、アライメントを行うために必要な情報の交換を特徴付ける。 本研究では,5つのケースに適用し,13のアライメント法を用いて分析の角度を図示することにより,分類の活用を実証する。 さらに、業界評価に適用したアセスメントフレームワーク(REST-bench)を開発し、低努力で、RESTアライメントを改善する機会を特定することができることを示した。 我々は分類がさらに洗練されることを期待するが、情報ダイアドはアライメントを理解するための有効かつ有用な構造であると考えている。

Requirements Engineering and Software Testing are mature areas and have seen a lot of research. Nevertheless, their interactions have been sparsely explored beyond the concept of traceability. To fill this gap, we propose a definition of requirements engineering and software test (REST) alignment, a taxonomy that characterizes the methods linking the respective areas, and a process to assess alignment. The taxonomy can support researchers to identify new opportunities for investigation, as well as practitioners to compare alignment methods and evaluate alignment, or lack thereof. We constructed the REST taxonomy by analyzing alignment methods published in literature, iteratively validating the emerging dimensions. The resulting concept of an information dyad characterizes the exchange of information required for any alignment to take place. We demonstrate use of the taxonomy by applying it on five in-depth cases and illustrate angles of analysis on a set of thirteen alignment methods. In addition, we developed an assessment framework (REST-bench), applied it in an industrial assessment, and showed that it, with a low effort, can identify opportunities to improve REST alignment. Although we expect that the taxonomy can be further refined, we believe that the information dyad is a valid and useful construct to understand alignment.
翻訳日:2023-10-23 16:31:08 公開日:2023-07-24
# StaticFixer:静的解析から静的修復へ

StaticFixer: From Static Analysis to Static Repair ( http://arxiv.org/abs/2307.12465v1 )

ライセンス: Link先を確認
Naman Jain, Shubham Gandhi, Atharv Sonwane, Aditya Kanade, Nagarajan Natarajan, Suresh Parthasarathy, Sriram Rajamani, and Rahul Sharma(参考訳) 静的解析ツールは伝統的にプロパティに違反したプログラムの検出とフラグに使用される。 静的解析ツールは、プロパティを満たすプログラムを摂動させ、プロパティに反する変種を構築するためにも使用できることを示す。 この洞察を用いて、安全でないプログラムペアのペアデータセットを構築し、プロパティ違反を自動的に修復する戦略を学ぶことができる。 このアプローチを用いて情報フローの脆弱性を自動的に修復するシステムである。 情報フロー特性は(チェックと修復の両方のために)非ローカルなので、新しいドメイン固有言語(dsl)と非ローカル修復を合成するための戦略学習アルゴリズムも導入している。 当社では,2種類の情報フロー脆弱性の修復戦略,無効な動的呼び出しとクロスサイトスクリプティングを合成するために,‘sysname’を使用して,オープンソースの.sc JavaScript}レポジトリから数百の脆弱性の修復に成功したことを示す。 データセットは \url{http://aka.ms/StaticFixer} からダウンロードできます。

Static analysis tools are traditionally used to detect and flag programs that violate properties. We show that static analysis tools can also be used to perturb programs that satisfy a property to construct variants that violate the property. Using this insight we can construct paired data sets of unsafe-safe program pairs, and learn strategies to automatically repair property violations. We present a system called \sysname, which automatically repairs information flow vulnerabilities using this approach. Since information flow properties are non-local (both to check and repair), \sysname also introduces a novel domain specific language (DSL) and strategy learning algorithms for synthesizing non-local repairs. We use \sysname to synthesize strategies for repairing two types of information flow vulnerabilities, unvalidated dynamic calls and cross-site scripting, and show that \sysname successfully repairs several hundred vulnerabilities from open source {\sc JavaScript} repositories, outperforming neural baselines built using {\sc CodeT5} and {\sc Codex}. Our datasets can be downloaded from \url{http://aka.ms/StaticFixer}.
翻訳日:2023-10-23 16:30:47 公開日:2023-07-24
# ソフトウェアプロセス改善の評価と測定 --体系的文献レビュー-

Evaluation and Measurement of Software Process Improvement -- A Systematic Literature Review ( http://arxiv.org/abs/2307.13143v1 )

ライセンス: Link先を確認
Michael Unterkalmsteiner, Tony Gorschek, A. K. M. Moinul Islam, Chow Kian Cheng, Rahadian Bayu Permadi, Robert Feldt(参考訳) BACKGROUND: ソフトウェアプロセス改善(SPI)は、ソフトウェア開発組織の効率性と効率性を高め、ソフトウェア製品を強化するための体系的なアプローチです。 目的: 異なるspiイニシアチブの影響を評価するために使用される評価戦略と測定を識別・特徴化すること。 Method: 体系的な文献レビューには1991年から2008年の間に出版された148の論文が含まれている。 選択した論文は,SPIイニシアチブ,応用評価戦略,測定視点に基づいて分類した。 改善作業の評価に干渉する潜在的背景因子を評価した。 結果: 7つの異なる評価戦略が特定され, 調査論文の49%に「前比較」が適用された。 品質は最も測定された属性(62%)で、次いでコスト(41%)とスケジュール(18%)が続いた。 測定の観点では、"プロジェクト"が66%を占めています。 結論:spiイニシアチブの評価妥当性は,最も一般的な評価戦略として「前比較」が同定されたことや,評価コンテキストの不正確な説明を考えると,潜在的共起要因の少なさに疑問が持たれている。 SPIイニシアチブの短期的・中期的な影響を評価する尺度が一般的であるが、顧客満足度や投資のリターンの観点からの長期的評価は少ない傾向にある。

BACKGROUND: Software Process Improvement (SPI) is a systematic approach to increase the efficiency and effectiveness of a software development organization and to enhance software products. OBJECTIVE: This paper aims to identify and characterize evaluation strategies and measurements used to assess the impact of different SPI initiatives. METHOD: The systematic literature review includes 148 papers published between 1991 and 2008. The selected papers were classified according to SPI initiative, applied evaluation strategies, and measurement perspectives. Potential confounding factors interfering with the evaluation of the improvement effort were assessed. RESULTS: Seven distinct evaluation strategies were identified, wherein the most common one, "Pre-Post Comparison" was applied in 49 percent of the inspected papers. Quality was the most measured attribute (62 percent), followed by Cost (41 percent), and Schedule (18 percent). Looking at measurement perspectives, "Project" represents the majority with 66 percent. CONCLUSION: The evaluation validity of SPI initiatives is challenged by the scarce consideration of potential confounding factors, particularly given that "Pre-Post Comparison" was identified as the most common evaluation strategy, and the inaccurate descriptions of the evaluation context. Measurements to assess the short and mid-term impact of SPI initiatives prevail, whereas long-term measurements in terms of customer satisfaction and return on investment tend to be less used.
翻訳日:2023-10-23 16:22:31 公開日:2023-07-24
# スタートアップ企業におけるソフトウェア開発: 体系的マッピング研究

Software development in startup companies: A systematic mapping study ( http://arxiv.org/abs/2307.13104v1 )

ライセンス: Link先を確認
Nicol\`o Paternoster, Carmine Giardino, Michael Unterkalmsteiner, Tony Gorschek, Pekka Abrahamsson(参考訳) コンテキスト: ソフトウェアスタートアップは、運用履歴がなく、最先端技術の生産が速い、新しく作られた企業です。 これらの企業は、非常に不確実な条件下でソフトウェアを開発し、急速に成長する市場を資源不足に陥れる。 したがって、ソフトウェアスタートアップは、ソフトウェア開発活動にいくつかの課題をもたらす特徴のユニークな組み合わせを示す。 目的: 本研究の目的は, スタートアップ企業のソフトウェア開発に関する文献を構造化し, 分析することであり, 技術移転の可能性と, 実践者や研究者が報告したソフトウェア開発の実践の特定である。 方法:システマティックマッピング研究を行い,分類スキーマを開発し,その厳密さと妥当性に基づいて選択した一次研究をランク付けし,スタートアップにおけるソフトウェア開発の実践報告を分析した。 結果: スタートアップのソフトウェア開発に関する利用可能な証拠を合成し,43の一次研究が同定され,マッピングされた。 スタートアップにおけるソフトウェア開発を専門とする研究は16件のみであり、そのうち10件は弱い貢献(初心者と影響(6)、教訓(3)、ツール(1))をもたらす。 9つの研究は、管理的および組織的要因に焦点を当てている。 さらに、9つの研究だけが高い科学的厳密さと関連性を示している。 レビューされた初等研究から,213のソフトウェアエンジニアリング作業プラクティスを抽出し,分類し,分析した。 結論: このマッピング研究は、ソフトウェアスタートアップ研究の最先端を初めて体系的に探究するものである。 既存の知識体系は、いくつかの高品質な研究に限られている。 さらに、ソフトウェアエンジニアリングの作業プラクティスは、スタートアップのコンテキストによって課される制約の下で価値を提供するために、機会的に選択され、適応され、設定されます。

Context: Software startups are newly created companies with no operating history and fast in producing cutting-edge technologies. These companies develop software under highly uncertain conditions, tackling fast-growing markets under severe lack of resources. Therefore, software startups present an unique combination of characteristics which pose several challenges to software development activities. Objective: This study aims to structure and analyze the literature on software development in startup companies, determining thereby the potential for technology transfer and identifying software development work practices reported by practitioners and researchers. Method: We conducted a systematic mapping study, developing a classification schema, ranking the selected primary studies according their rigor and relevance, and analyzing reported software development work practices in startups. Results: A total of 43 primary studies were identified and mapped, synthesizing the available evidence on software development in startups. Only 16 studies are entirely dedicated to software development in startups, of which 10 result in a weak contribution (advice and implications (6); lesson learned (3); tool (1)). Nineteen studies focus on managerial and organizational factors. Moreover, only 9 studies exhibit high scientific rigor and relevance. From the reviewed primary studies, 213 software engineering work practices were extracted, categorized and analyzed. Conclusion: This mapping study provides the first systematic exploration of the state-of-art on software startup research. The existing body of knowledge is limited to a few high quality studies. Furthermore, the results indicate that software engineering work practices are chosen opportunistically, adapted and configured to provide value under the constrains imposed by the startup context.
翻訳日:2023-10-23 16:22:04 公開日:2023-07-24
# SPI評価のための概念的枠組み

A conceptual framework for SPI evaluation ( http://arxiv.org/abs/2307.13089v1 )

ライセンス: Link先を確認
Michael Unterkalmsteiner, Tony Gorschek, A. K. M. Moinul Islam, Chow Kian Cheng, Rahadian Bayu Permadi, Robert Feldt(参考訳) ソフトウェアプロセス改善(SPI)は、組織の目標に寄与する重要な領域を改善することを目的として、ソフトウェア開発におけるプロセスの分析と修正を含む。 選択した改善パスがこれらの目標を達成するかどうかを評価するタスクは難しい。 本研究では,SPI測定および評価実践に関する体系的な文献レビューの結果に基づいて,SPI評価の計画と実施を支援するフレームワーク(SPI-MEF)を開発した。 SPI-MEFは、評価のスコーピング、測定、評価の実行において実践者を導く。 SPI-MEFは、プロセス改善の具体的なアプローチを前提とせず、既存の測定プログラムに統合し、改善イニシアティブの結果を評価するための評価を再考する。 16の業界と学術の専門家が、実践者を支援するためのフレームワークのユーザビリティと能力を評価し、フレームワークのアプリケーションガイドラインに組み込まれたさらなる洞察を提供した。

Software Process Improvement (SPI) encompasses the analysis and modification of the processes within software development, aimed at improving key areas that contribute to the organizations' goals. The task of evaluating whether the selected improvement path meets these goals is challenging. On the basis of the results of a systematic literature review on SPI measurement and evaluation practices, we developed a framework (SPI Measurement and Evaluation Framework (SPI-MEF)) that supports the planning and implementation of SPI evaluations. SPI-MEF guides the practitioner in scoping the evaluation, determining measures, and performing the assessment. SPI-MEF does not assume a specific approach to process improvement and can be integrated in existing measurement programs, refocusing the assessment on evaluating the improvement initiative's outcome. Sixteen industry and academic experts evaluated the framework's usability and capability to support practitioners, providing additional insights that were integrated in the application guidelines of the framework.
翻訳日:2023-10-23 16:21:39 公開日:2023-07-24
# ルブリック型自己評価と口頭フィードバックによる学生の改善

Improving Students With Rubric-Based Self-Assessment and Oral Feedback ( http://arxiv.org/abs/2307.12849v1 )

ライセンス: Link先を確認
Sebastian Barney, Mahvish Khurum, Kai Petersen, Michael Unterkalmsteiner, Ronald Jabangwe(参考訳) rubrics と oral feedback は,学生のパフォーマンス向上と学習成果の達成を支援するアプローチである。 しかし、実際の改善に対する効果は決定的ではない。 本稿では,ルーブリックと口頭フィードバックが学生の学習成績に及ぼす影響を評価する。 要件工学のソフトウェア工学のコースで、2つのアプローチをコース割り当てに用いた実験が行われた。 どちらのアプローチも統計的に有意な改善をもたらしたが、物質的改善(すなわち1段階以上の変化)は達成されなかった。 ルーブリックは、学級に関する苦情や質問の数を大幅に減少させた。

Rubrics and oral feedback are approaches to help students improve performance and meet learning outcomes. However, their effect on the actual improvement achieved is inconclusive. This paper evaluates the effect of rubrics and oral feedback on student learning outcomes. An experiment was conducted in a software engineering course on requirements engineering, using the two approaches in course assignments. Both approaches led to statistically significant improvements, though no material improvement (i.e., a change by more than one grade) was achieved. The rubrics led to a significant decrease in the number of complaints and questions regarding grades.
翻訳日:2023-10-23 16:21:25 公開日:2023-07-24
# RISCにおける実行: RISC-Vアプリケーションの静的JOP攻撃

Execution at RISC: Stealth JOP Attacks on RISC-V Applications ( http://arxiv.org/abs/2307.12648v1 )

ライセンス: Link先を確認
Lo\"ic Buckwell and Olivier Gilles and Daniel Gracia P\'erez and Nikolai Kosmatov(参考訳) RISC-Vは、最近開発されたオープンな命令セットアーキテクチャであり、多くの注目を集めている。 これらのシステムに対する永続的なセキュリティと効率的な対策を実現するためには、新規および将来の攻撃に対する脆弱性をよりよく理解する必要がある。 本稿では,RISC-Vが複雑なコード再利用攻撃のクラスであるJump-Oriented Programmingに適していることを示す。 我々は新しいディスパッチ・ガジェットの分析を行い、既存の保護をバイパスしてステルス・アタックを構築するためにどのように一緒に使用できるかを示す。 RISC-V用にコンパイルされた組み込みWebサーバに概念実証攻撃を実装し,脆弱性を導入し,攻撃者がホストマシンから任意のファイルをリモートで読み取ることを可能にする。

RISC-V is a recently developed open instruction set architecture gaining a lot of attention. To achieve a lasting security on these systems and design efficient countermeasures, a better understanding of vulnerabilities to novel and potential future attacks is mandatory. This paper demonstrates that RISC-V is sensible to Jump-Oriented Programming, a class of complex code-reuse attacks. We provide an analysis of new dispatcher gadgets we discovered, and show how they can be used together in order to build a stealth attack, bypassing existing protections. A proof-of-concept attack is implemented on an embedded web server compiled for RISC-V, in which we introduced a vulnerability, allowing an attacker to remotely read an arbitrary file from the host machine.
翻訳日:2023-10-23 16:21:16 公開日:2023-07-24
# Androidライブラリのデータセット

A Dataset of Android Libraries ( http://arxiv.org/abs/2307.12609v1 )

ライセンス: Link先を確認
Jordan Samhi, Marco Alecci, Tegawend\'e F. Bissyand\'e, Jacques Klein(参考訳) androidアプリ開発者はコード再利用を幅広く採用し、多くのサードパーティライブラリをアプリに組み込んでいる。 このような統合は開発者にとっては実用的だが、静的アナライザがそのようなライブラリがアプリケーションコードの大部分を占める場合、スケーラビリティと精度を達成することは困難である。 直接的な結果として、静的解析が実行される場合、開発者コードのみを考慮に入れることが一般的であり、求める問題はライブラリではなく開発者コード内にあると仮定される。 しかし、アナリストは静的解析の有効性を保証するために、androidアプリのライブラリコードと開発者コードを正確に区別する必要がある。 現在、多くの静的解析アプローチはライブラリのホワイトリストに依存している。 しかし、これらのホワイトリストは不正確であり、ほとんど理解できないため信頼できない。 本稿では,サードパーティ製ライブラリの「常に最新のもの」を生産するための包括的で自動化されたソリューションの欠如に対処する新しいアプローチを提案する。 まず、サードパーティ製ライブラリのホワイトリストが引き続き必要であることを示す。 第2に,androlibzooと呼ばれるデータセットの形式で,正確かつ最新のサードパーティライブラリセットを生成するための自動アプローチを提案する。 研究コミュニティが利用できるデータセットには、現在20の162のライブラリが含まれており、進化を意図しています。 第3に,最近のアプリケーションにおけるライブラリのフィルタリングにandrolibzooを使用する意義について述べる。 第4に、AndroLibZooは静的解析を改善するために現在の最先端リストよりも適していることを示す。 最後に,androlibzooの使用によって既存のandroidアプリの静的アナライザのパフォーマンスが向上することを示す。

Android app developers extensively employ code reuse, integrating many third-party libraries into their apps. While such integration is practical for developers, it can be challenging for static analyzers to achieve scalability and precision when such libraries can account for a large part of the app code. As a direct consequence, when a static analysis is performed, it is common practice in the literature to only consider developer code --with the assumption that the sought issues are in developer code rather than in the libraries. However, analysts need to precisely distinguish between library code and developer code in Android apps to ensure the effectiveness of static analysis. Currently, many static analysis approaches rely on white lists of libraries. However, these white lists are unreliable, as they are inaccurate and largely non-comprehensive. In this paper, we propose a new approach to address the lack of comprehensive and automated solutions for the production of accurate and "always up to date" sets of third-party libraries. First, we demonstrate the continued need for a white list of third-party libraries. Second, we propose an automated approach to produce an accurate and up-to-date set of third-party libraries in the form of a dataset called AndroLibZoo. Our dataset, which we make available to the research community, contains to date 20 162 libraries and is meant to evolve. Third, we illustrate the significance of using AndroLibZoo to filter libraries in recent apps. Fourth, we demonstrate that AndroLibZoo is more suitable than the current state-of-the-art list for improved static analysis. Finally, we show how the use of AndroLibZoo can enhance the performance of existing Android app static analyzers.
翻訳日:2023-10-23 16:21:02 公開日:2023-07-24
# スタートアップにおけるソフトウェア開発について何を知っているか?

What do we know about software development in startups? ( http://arxiv.org/abs/2307.13707v1 )

ライセンス: Link先を確認
Carmine Giardino, Michael Unterkalmsteiner, Nicol\`o Paternoster, Tony Gorschek, Pekka Abrahamsson(参考訳) 新しい市場、アクセス可能な技術、ベンチャーキャピタルが成長した結果、毎日印象的な数の新しいスタートアップがローンチされている。 Facebook、Supercell、Linkedin、Spotify、 {WhatsApp}、Dropboxなどの新しいベンチャーは、成功したビジネスに発展したスタートアップの良い例だ。 しかし、多くの成功作にもかかわらず、その大部分は早々に失敗している。 カオス的で急速に進化するドメインで運用することは、スタートアップにとって新たな未知の課題をもたらす。 本研究では,著者らがコンテキストを特徴付け,一般的なソフトウェア開発スタートアップの実践を特定する。

An impressive number of new startups are launched every day as a result of growing new markets, accessible technologies, and venture capital. New ventures such as Facebook, Supercell, Linkedin, Spotify, {WhatsApp}, and Dropbox, to name a few, are good examples of startups that evolved into successful businesses. However, despite many successful stories, the great majority of them fail prematurely. Operating in a chaotic and rapidly evolving domain conveys new uncharted challenges for startuppers. In this study, the authors characterize their context and identify common software development startup practices.
翻訳日:2023-10-23 16:08:58 公開日:2023-07-24
# 古典的原子間ポテンシャルをもつ材料特性予測のための解釈可能なアンサンブル学習:炭素を例として

Interpretable Ensemble Learning for Materials Property Prediction with Classical Interatomic Potentials: Carbon as an Example ( http://arxiv.org/abs/2308.10818v1 )

ライセンス: Link先を確認
Xinyu Jiang, Haofan Sun, Kamal Choudhary, Houlong Zhuang, and Qiong Nian(参考訳) 機械学習(ML)は結晶材料の探索や特性の予測に広く用いられている。 しかし、ディープラーニングモデルではトレーニングは時間がかかり、回帰プロセスは解釈が難しいブラックボックスである。 また、結晶構造を記述子と呼ばれるMLの入力に転送する前処理を慎重に設計する必要がある。 材料の重要特性を効率的に予測するために, 回帰木からなるアンサンブル学習に基づく手法を提案し, 炭素同素体の小規模データセットを例に, 生成エネルギーと弾性定数を予測する。 記述子を使用しなければ、入力は9つの古典的原子間ポテンシャルを持つ分子動力学によって計算される特性である。 全体として、アンサンブル学習の結果は古典的原子間ポテンシャルよりも正確であり、アンサンブル学習は9つの古典的ポテンシャルから比較的正確な特性を最終特性を予測する基準として捉えることができる。

Machine learning (ML) is widely used to explore crystal materials and predict their properties. However, the training is time-consuming for deep-learning models, and the regression process is a black box that is hard to interpret. Also, the preprocess to transfer a crystal structure into the input of ML, called descriptor, needs to be designed carefully. To efficiently predict important properties of materials, we propose an approach based on ensemble learning consisting of regression trees to predict formation energy and elastic constants based on small-size datasets of carbon allotropes as an example. Without using any descriptor, the inputs are the properties calculated by molecular dynamics with 9 different classical interatomic potentials. Overall, the results from ensemble learning are more accurate than those from classical interatomic potentials, and ensemble learning can capture the relatively accurate properties from the 9 classical potentials as criteria for predicting the final properties.
翻訳日:2023-08-27 05:05:40 公開日:2023-07-24
# AI操作の規制:EUAI法の実践性を高めるために行動経済学と心理学からの洞察を適用する

Regulating AI manipulation: Applying Insights from behavioral economics and psychology to enhance the practicality of the EU AI Act ( http://arxiv.org/abs/2308.02041v1 )

ライセンス: Link先を確認
Huixin Zhong(参考訳) EUのAI法第5条は、潜在的な有害な結果を防ぐためにAI操作を規制するように設計されている。 しかし、この法律の実践的実施は、曖昧な用語とマニピュレーティブ・テクニックの不明確さのために困難である。 さらに、第5条は保護効果の不十分を批判している。 本稿では,心理学と行動経済学の知見を統合することにより,用語の明確化と保護効果の向上を図る。 まず, 認知心理学研究を用いて, サブリミナル技法とその関連表現を解明する。 さらに,本論文は,行動経済学からマニピュティブ・テクニックの領域へと変化する行動に刺激を与える一連の思考ショートカットについて,ヒューリスティックスの研究を拡張した。 用語の解明と拡張は、法的条項をより正確に理解するだけでなく、その保護効果を高める。 第2に,従来の5つのヒューリスティックとその関連事例を提案し,AIがそれらのヒューリスティックをいかにしてユーザ行動を変えるかを説明する。 ヒューリスティックスの列挙は、AI開発者、アルゴリズム監査官、ユーザ、法的実践者といったステークホルダーのための実践的なガイドとして機能し、マニピュレータ技術を特定し、対策を実施することができる。 最後に,一般市民および脆弱なグループに対する第5条の保護効果を批判的に評価する。 本稿では,第5条の現行の保護効果が不十分であるとして,第5条第a項,第b項の具体的改訂案を提案する。 この研究は、現在進行中のAI倫理と法規制に関する議論に寄与し、EUのAI法第5条を解釈し適用するための実践的なガイドを提供する。

The EU AI Act Article 5 is designed to regulate AI manipulation to prevent potential harmful consequences. However, the practical implementation of this legislation is challenging due to the ambiguous terminologies and the unclear presentations of manipulative techniques. Moreover, the Article 5 also suffers criticize of inadequate protective efficacy. This paper attempts to clarify terminologies and to enhance the protective efficacy by integrating insights from psychology and behavioral economics. Firstly, this paper employs cognitive psychology research to elucidate the term subliminal techniques and its associated representation. Additionally, this paper extends the study of heuristics: a set of thinking shortcuts which can be aroused for behavior changing from behavior economics to the realm of manipulative techniques. The elucidation and expansion of terminologies not only provide a more accurate understanding of the legal provision but also enhance its protective efficacy. Secondly, this paper proposes five classical heuristics and their associated examples to illustrate how can AI arouse those heuristics to alter users behavior. The enumeration of heuristics serves as a practical guide for stakeholders such as AI developers, algorithm auditors, users, and legal practitioners, enabling them to identify manipulative techniques and implement countermeasures. Finally, this paper critically evaluates the protective efficacy of Article 5 for both the general public and vulnerable groups. This paper argues that the current protective efficacy of Article 5 is insufficient and thus proposes specific revision suggestions to terms a and b in Article 5 to enhance its protective efficacy. This work contributes to the ongoing discourse on AI ethics and legal regulations, providing a practical guide for interpreting and applying the EU AI Act Article 5.
翻訳日:2023-08-14 02:00:16 公開日:2023-07-24
# HOOD:低速度FMCWレーダを用いた実時間ロバスト人間の存在と分布外検出

HOOD: Real-Time Robust Human Presence and Out-of-Distribution Detection with Low-Cost FMCW Radar ( http://arxiv.org/abs/2308.02396v1 )

ライセンス: Link先を確認
Sabri Mustafa Kahya, Muhammet Sami Yavuz, Eckehard Steinbach(参考訳) 室内環境におけるFMCW(ミリ波周波数変調連続波レーダ)を用いた人的存在検出は,室内における移動・定常的クラッタの存在により困難である。 本研究は,60GHz短距離FMCWレーダを有効利用し,実時間ロバストな人間の存在とアウト・オブ・ディストリビューション(OOD)検出手法として「HOOD」を提案する。 我々は,OOD検出問題として存在検出アプリケーションにアプローチし,単一パイプラインを用いて2つの問題を同時に解決する。 我々のソリューションは再構成アーキテクチャに依存し、レーダーマクロとマイクロレンジドップラー画像(RDI)で動作する。 hoodは、移動障害や静止障害の有無において、人間の"presence"を正確に検出することを目的としている。 また、OOD検知器でもあるため、人間の不在時にOODとして移動または静止した乱れを検知し、現在のシーンの出力を「存在しない」と予測することを目的としている。 HOODはアクティビティフリーのアプローチで、さまざまな人間のシナリオでうまく機能します。 60GHzの短距離FMCWレーダで収集したデータセットでは、平均94.36%のAUROCを達成した。 さらに, HOODがSOTA(State-of-the-art (SOTA) OOD検出法より, 一般的なOOD検出指標よりも優れていることを示す。 私たちのリアルタイム実験は、https://muskahya.github.io/hoodで利用可能です。

Human presence detection in indoor environments using millimeter-wave frequency-modulated continuous-wave (FMCW) radar is challenging due to the presence of moving and stationary clutters in indoor places. This work proposes "HOOD" as a real-time robust human presence and out-of-distribution (OOD) detection method by exploiting 60 GHz short-range FMCW radar. We approach the presence detection application as an OOD detection problem and solve the two problems simultaneously using a single pipeline. Our solution relies on a reconstruction-based architecture and works with radar macro and micro range-Doppler images (RDIs). HOOD aims to accurately detect the "presence" of humans in the presence or absence of moving and stationary disturbers. Since it is also an OOD detector, it aims to detect moving or stationary clutters as OOD in humans' absence and predicts the current scene's output as "no presence." HOOD is an activity-free approach that performs well in different human scenarios. On our dataset collected with a 60 GHz short-range FMCW Radar, we achieve an average AUROC of 94.36%. Additionally, our extensive evaluations and experiments demonstrate that HOOD outperforms state-of-the-art (SOTA) OOD detection methods in terms of common OOD detection metrics. Our real-time experiments are available at: https://muskahya.github.io/HOOD
翻訳日:2023-08-14 01:48:04 公開日:2023-07-24
# コンピュータサイエンスディグリープログラムにおける大規模言語モデルの性能

Performance of Large Language Models in a Computer Science Degree Program ( http://arxiv.org/abs/2308.02432v1 )

ライセンス: Link先を確認
Tim Kr\"uger, Michael Gref(参考訳) ChatGPT-3.5やGPT-4.0のような大きな言語モデルはユビキタスであり、現在の話題を支配している。 その変換能力は、私たちが(テキストベースの)情報と対話し、活用する方法のパラダイムシフトをもたらしました。 毎日、これらのモデルの能力を活用する新しい可能性が現れます。 本稿では,応用科学大学コンピュータサイエンス学部プログラムにおいて,異なる大規模言語モデルの性能について述べる。 本研究の目的は,これらのモデルの有効性を教育支援として評価することである。 講義資料,運動課題,過去の試験をモデルに促すことで,各分野のコンピュータサイエンス分野にまたがってその習熟度を評価することを目指す。 このようなプログラムのコンテキスト内で制約や制約を強調しながら,現在の大規模言語モデルの強みを示す。 chatgpt-3.5は10個のテストモジュールで平均スコア79.9%、bingaiは68.4%、llamaは6億のパラメータ変種である20%であった。 これらの説得力のある結果にもかかわらず、GPT-4.0でさえ、数学計算の限界のために学位プログラムに合格しなかった。

Large language models such as ChatGPT-3.5 and GPT-4.0 are ubiquitous and dominate the current discourse. Their transformative capabilities have led to a paradigm shift in how we interact with and utilize (text-based) information. Each day, new possibilities to leverage the capabilities of these models emerge. This paper presents findings on the performance of different large language models in a university of applied sciences' undergraduate computer science degree program. Our primary objective is to assess the effectiveness of these models within the curriculum by employing them as educational aids. By prompting the models with lecture material, exercise tasks, and past exams, we aim to evaluate their proficiency across different computer science domains. We showcase the strong performance of current large language models while highlighting limitations and constraints within the context of such a degree program. We found that ChatGPT-3.5 averaged 79.9% of the total score in 10 tested modules, BingAI achieved 68.4%, and LLaMa, in the 65 billion parameter variant, 20%. Despite these convincing results, even GPT-4.0 would not pass the degree program - due to limitations in mathematical calculations.
翻訳日:2023-08-14 01:39:54 公開日:2023-07-24
# Transformer-based framework を用いた深度情報による画像キャプションの強化

Enhancing image captioning with depth information using a Transformer-based framework ( http://arxiv.org/abs/2308.03767v1 )

ライセンス: Link先を確認
Aya Mahmoud Ahmed, Mohamed Yousef, Khaled F. Hussain, Yousef Bassyouni Mahdy(参考訳) キャプション画像は、コンピュータビジョンと自然言語処理をつなぐ、困難なシーン理解タスクである。 画像キャプションモデルは優れた記述を生成することに成功しているが、この分野は主に2d画像のための単一文生成に焦点を当てている。 本稿では,RGB画像と奥行き情報の統合がキャプションタスクを強化し,より優れた記述を生成することができるかを検討する。 そこで本稿では,3次元シーンのマルチセンテンス記述を生成するためのトランスフォーマベースのエンコーダ・デコーダフレームワークを提案する。 RGB画像とそれに対応する深度マップは我々のフレームワークへの入力として提供され、それらを組み合わせて入力シーンの理解を深める。 深度マップは、基礎的な真実や推定であり、我々のフレームワークはどんなRGBキャプションデータセットにも広く適用できる。 rgbと深度画像の融合について検討した。 実験はNYU-v2データセットとStanford画像パラグラフキャプションデータセットで実施されている。 NYU-v2データセットを用いた研究で、深度情報によるキャプションタスクの強化のメリットを防止できる一貫性のないラベリングを発見した。 結果は、RGB画像のみを使用するよりもさらに酷かった。 その結果、より一貫性があり、情報的なNYU-v2データセットのクリーン化版を提案する。 両データセットの結果から,提案するフレームワークは,真偽や推定値などの深度情報から有効に活用でき,キャプションの精度が向上することが示された。 コード、事前トレーニングされたモデル、NYU-v2データセットのクリーンバージョンが公開されている。

Captioning images is a challenging scene-understanding task that connects computer vision and natural language processing. While image captioning models have been successful in producing excellent descriptions, the field has primarily focused on generating a single sentence for 2D images. This paper investigates whether integrating depth information with RGB images can enhance the captioning task and generate better descriptions. For this purpose, we propose a Transformer-based encoder-decoder framework for generating a multi-sentence description of a 3D scene. The RGB image and its corresponding depth map are provided as inputs to our framework, which combines them to produce a better understanding of the input scene. Depth maps could be ground truth or estimated, which makes our framework widely applicable to any RGB captioning dataset. We explored different fusion approaches to fuse RGB and depth images. The experiments are performed on the NYU-v2 dataset and the Stanford image paragraph captioning dataset. During our work with the NYU-v2 dataset, we found inconsistent labeling that prevents the benefit of using depth information to enhance the captioning task. The results were even worse than using RGB images only. As a result, we propose a cleaned version of the NYU-v2 dataset that is more consistent and informative. Our results on both datasets demonstrate that the proposed framework effectively benefits from depth information, whether it is ground truth or estimated, and generates better captions. Code, pre-trained models, and the cleaned version of the NYU-v2 dataset will be made publically available.
翻訳日:2023-08-14 00:40:22 公開日:2023-07-24
# 生成AIに基づく学術文献の極端要約による一次医療ワークフローの改善

Improving Primary Healthcare Workflow Using Extreme Summarization of Scientific Literature Based on Generative AI ( http://arxiv.org/abs/2307.15715v1 )

ライセンス: Link先を確認
Gregor Stiglic, Leon Kopitar, Lucija Gosak, Primoz Kocbek, Zhe He, Prithwish Chakraborty, Pablo Meyer, Jiang Bian(参考訳) プライマリケアの専門家は、日々の仕事に関連するエビデンスに基づく実践を導く上で重要な最新の科学文献に遅れをとらない。 上記の問題を解決するために,大規模言語モデルに基づく生成型人工知能技術を用いて,科学論文の要約を要約した。 本研究の目的は,実践者が経験する認知負荷を減らし,精神的な努力と負担を軽減する能力を探ることである。 研究参加者は,予防的ケアと行動変化に関連する2つのユースケースを提供し,新たな科学文献の探索をシミュレーションした。 研究対象はスロベニアと米国の113人の大学生で、3つの異なる研究グループにランダム化された。 最初のグループは完全な抽象に割り当てられた。 第2グループは、AIによって生成された短い抽象化に割り当てられた。 第3グループは、AI生成の短縮に加えて、完全な抽象化を選択するオプションを持っていた。 それぞれのケーススタディには10の抜粋が含まれていた。 文献レビューにおける生成AIの利用は効率的かつ効果的であることを示す。 要約の内容に関する質問に回答するのに要する時間は,グループ2,グループ3において,完全な抽象を用いた最初のグループに比べて有意に低かった。 しかし,完全な抽象情報が得られない場合には,抽出知識の精度も著しく低下した。 このような破壊的な技術は、医療専門家が最新の科学文献に追従するのに要する時間を大幅に削減する可能性がある。

Primary care professionals struggle to keep up to date with the latest scientific literature critical in guiding evidence-based practice related to their daily work. To help solve the above-mentioned problem, we employed generative artificial intelligence techniques based on large-scale language models to summarize abstracts of scientific papers. Our objective is to investigate the potential of generative artificial intelligence in diminishing the cognitive load experienced by practitioners, thus exploring its ability to alleviate mental effort and burden. The study participants were provided with two use cases related to preventive care and behavior change, simulating a search for new scientific literature. The study included 113 university students from Slovenia and the United States randomized into three distinct study groups. The first group was assigned to the full abstracts. The second group was assigned to the short abstracts generated by AI. The third group had the option to select a full abstract in addition to the AI-generated short summary. Each use case study included ten retrieved abstracts. Our research demonstrates that the use of generative AI for literature review is efficient and effective. The time needed to answer questions related to the content of abstracts was significantly lower in groups two and three compared to the first group using full abstracts. The results, however, also show significantly lower accuracy in extracted knowledge in cases where full abstract was not available. Such a disruptive technology could significantly reduce the time required for healthcare professionals to keep up with the most recent scientific literature; nevertheless, further developments are needed to help them comprehend the knowledge accurately.
翻訳日:2023-08-06 11:35:29 公開日:2023-07-24
# ニューラルネットワーク間ポテンシャルのための合成事前学習

Synthetic pre-training for neural-network interatomic potentials ( http://arxiv.org/abs/2307.15714v1 )

ライセンス: Link先を確認
John L. A. Gardner and Kathryn T. Baker and Volker L. Deringer(参考訳) 機械学習(ML)に基づく原子間ポテンシャルは、原子論的な物質モデリングの分野を変えた。 しかし、機械学習のポテンシャルはトレーニング対象の量子力学的参照データの品質と量に大きく依存しているため、データセットやトレーニングパイプラインの開発はますます中心的な課題になりつつある。 ML研究の他の分野に共通する「合成」(人工)データの概念を活用することで、既存のMLポテンシャルと大規模に得られる合成原子性データは、ニューラルネットワークによる原子間ポテンシャルモデルのための有用な事前学習タスクであることを示す。 大規模な合成データセットで事前訓練すると、これらのモデルはより小さく、量子力学的に微調整され、計算の練習における数値精度と安定性が向上する。 我々は,炭素に対する一連の等変グラフニューラルネットワークポテンシャルの実現可能性を示し,その限界をテストするための初期実験を行った。

Machine learning (ML) based interatomic potentials have transformed the field of atomistic materials modelling. However, ML potentials depend critically on the quality and quantity of quantum-mechanical reference data with which they are trained, and therefore developing datasets and training pipelines is becoming an increasingly central challenge. Leveraging the idea of "synthetic" (artificial) data that is common in other areas of ML research, we here show that synthetic atomistic data, themselves obtained at scale with an existing ML potential, constitute a useful pre-training task for neural-network interatomic potential models. Once pre-trained with a large synthetic dataset, these models can be fine-tuned on a much smaller, quantum-mechanical one, improving numerical accuracy and stability in computational practice. We demonstrate feasibility for a series of equivariant graph-neural-network potentials for carbon, and we carry out initial experiments to test the limits of the approach.
翻訳日:2023-08-06 11:35:05 公開日:2023-07-24
# 医療現場における薬用GPTおよびチャットGPTLLMの比較分析 : 患者およびHCPコンテキストにおける精度と関連性の評価

Comparative Analysis of Drug-GPT and ChatGPT LLMs for Healthcare Insights: Evaluating Accuracy and Relevance in Patient and HCP Contexts ( http://arxiv.org/abs/2307.16850v1 )

ライセンス: Link先を確認
Giorgos Lysandrou, Roma English Owen, Kirsty Mursec, Grant Le Brun, Elizabeth A. L. Fairley(参考訳) 本研究は、医療応用の文脈において、3つのジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)ソリューションを質問・回答(Q&A)設定で比較分析した。 本研究の目的は,アトピー性皮膚炎 (AD) と糖尿病に関する医療専門家 (HCP) の議論に関連し,どのモデルが最も正確かつ関連性の高い情報を提供するかを決定することである。 以上の結果から,3モデルとも関連性および正確な応答を生成可能である一方で,患者およびHCPソーシャルメディアおよび掲示板投稿のキュレートされたデータセットによって支援されるD薬GPT3とD薬GPT4は,より標的的で詳細な洞察を提供する。 より汎用的なモデルであるchatgptは、より広くより一般的な応答を生成する。これは、トピックの高レベルな理解を求める読者にとって価値があるが、特殊な薬物gptモデルによって生成された回答に見られる深い洞察や個人的な洞察が欠如している可能性がある。 この比較分析は、医療アプリケーションにおける生成情報の有用性を評価する際に、言語モデルの視点、知識の深さ、通貨を考慮することの重要性を強調している。

This study presents a comparative analysis of three Generative Pre-trained Transformer (GPT) solutions in a question and answer (Q&A) setting: Drug-GPT 3, Drug-GPT 4, and ChatGPT, in the context of healthcare applications. The objective is to determine which model delivers the most accurate and relevant information in response to prompts related to patient experiences with atopic dermatitis (AD) and healthcare professional (HCP) discussions about diabetes. The results demonstrate that while all three models are capable of generating relevant and accurate responses, Drug-GPT 3 and Drug-GPT 4, which are supported by curated datasets of patient and HCP social media and message board posts, provide more targeted and in-depth insights. ChatGPT, a more general-purpose model, generates broader and more general responses, which may be valuable for readers seeking a high-level understanding of the topics but may lack the depth and personal insights found in the answers generated by the specialized Drug-GPT models. This comparative analysis highlights the importance of considering the language model's perspective, depth of knowledge, and currency when evaluating the usefulness of generated information in healthcare applications.
翻訳日:2023-08-06 11:22:49 公開日:2023-07-24
# LLM-Rec:大規模言語モデルによるパーソナライズされたレコメンデーション

LLM-Rec: Personalized Recommendation via Prompting Large Language Models ( http://arxiv.org/abs/2307.15780v1 )

ライセンス: Link先を確認
Hanjia Lyu, Song Jiang, Hanqing Zeng, Yinglong Xia, Jiebo Luo(参考訳) 本稿では,大規模言語モデル(LLM)によるパーソナライズされたコンテンツレコメンデーション性能向上のための様々なプロンプト戦略について検討する。 提案手法は,(1)基本プロンプト,(2)レコメンデーション駆動プロンプト,(3)エンゲージメント誘導プロンプト,(4)レコメンデーション駆動+エンゲージメント誘導プロンプトの4つの異なるプロンプト戦略を包含する。 実験の結果,これらのプロンプト戦略を用いてllmが生成した拡張入力テキストとオリジナルコンテンツ記述を組み合わせると,レコメンデーション性能が向上することが示された。 この発見は、パーソナライズされたコンテンツレコメンデーションのための大規模言語モデルによるレコメンデーション機能を強化するために、多様なプロンプトと入力拡張技術を統合することの重要性を強調している。

We investigate various prompting strategies for enhancing personalized content recommendation performance with large language models (LLMs) through input augmentation. Our proposed approach, termed LLM-Rec, encompasses four distinct prompting strategies: (1) basic prompting, (2) recommendation-driven prompting, (3) engagement-guided prompting, and (4) recommendation-driven + engagement-guided prompting. Our empirical experiments show that combining the original content description with the augmented input text generated by LLM using these prompting strategies leads to improved recommendation performance. This finding highlights the importance of incorporating diverse prompts and input augmentation techniques to enhance the recommendation capabilities with large language models for personalized content recommendation.
翻訳日:2023-08-06 11:20:15 公開日:2023-07-24
# AIに魅了される - 大規模言語モデルによる浸透テスト

Getting pwn'd by AI: Penetration Testing with Large Language Models ( http://arxiv.org/abs/2308.00121v1 )

ライセンス: Link先を確認
Andreas Happe, J\"urgen Cito(参考訳) ソフトウェアセキュリティテストの分野、特に浸透テストは、高いレベルの専門知識を必要とし、多くの手動テストと分析ステップを含む活動である。 本稿では,GPT3.5のような大規模言語モデルを用いたAIスパーリングパートナーによる浸透試験の強化について検討する。 セキュリティテストの課題のためのハイレベルなタスクプランニングと、脆弱な仮想マシン内での低レベルな脆弱性ハンティングである。 後者では,脆弱な仮想マシン(SSHを介して接続される)を用いて,LLM生成した低レベルアクション間のクローズドフィードバックループを実装し,脆弱性のマシン状態を解析し,仮想マシン内で自動的に実行される具体的な攻撃ベクトルを提案する。 我々は、有望な初歩的な成果、改善のための詳細な道程、AIベースのスパーリングパートナーを提供する倫理に関する綿密な検討について論じる。

The field of software security testing, more specifically penetration testing, is an activity that requires high levels of expertise and involves many manual testing and analysis steps. This paper explores the potential usage of large-language models, such as GPT3.5, to augment penetration testers with AI sparring partners. We explore the feasibility of supplementing penetration testers with AI models for two distinct use cases: high-level task planning for security testing assignments and low-level vulnerability hunting within a vulnerable virtual machine. For the latter, we implemented a closed-feedback loop between LLM-generated low-level actions with a vulnerable virtual machine (connected through SSH) and allowed the LLM to analyze the machine state for vulnerabilities and suggest concrete attack vectors which were automatically executed within the virtual machine. We discuss promising initial results, detail avenues for improvement, and close deliberating on the ethics of providing AI-based sparring partners.
翻訳日:2023-08-06 11:13:53 公開日:2023-07-24
# 推論による解釈可能なステレオタイプ同定

Interpretable Stereotype Identification through Reasoning ( http://arxiv.org/abs/2308.00071v1 )

ライセンス: Link先を確認
Jacob-Junqi Tian, Omkar Dige, David Emerson, Faiza Khan Khattak(参考訳) 言語モデルは、固有のバイアスを含む可能性のある膨大なデータセットに基づいて訓練されているため、システム的差別を不注意に永続する危険性がある。 したがって、言語モデルにおけるバイアスを調べ、対処することが不可欠となり、公平さを開発に組み込んで、これらのモデルがバイアスから平等かつ自由であることを保証する。 本研究では,ゼロショットステレオタイプ同定におけるvicuna-13b-v1.3に基づく推論の重要性を示す。 我々は,13bから33bへのスケーリングによる精度向上を観察する一方で,推論による性能向上がスケールアップによる利益を大幅に上回っていることを示す。 ステレオタイプ識別などのドメイン外タスクにおいて,LSMがスケーリング法則を反省する上で,推論が重要な要因となる可能性が示唆された。 さらに,選択された推論トレースの質的分析を通じて,推論の正確性だけでなく,判断の解釈性も向上することを示す。

Given that language models are trained on vast datasets that may contain inherent biases, there is a potential danger of inadvertently perpetuating systemic discrimination. Consequently, it becomes essential to examine and address biases in language models, integrating fairness into their development to ensure these models are equitable and free from bias. In this work, we demonstrate the importance of reasoning in zero-shot stereotype identification based on Vicuna-13B-v1.3. While we do observe improved accuracy by scaling from 13B to 33B, we show that the performance gain from reasoning significantly exceeds the gain from scaling up. Our findings suggest that reasoning could be a key factor that enables LLMs to trescend the scaling law on out-of-domain tasks such as stereotype identification. Additionally, through a qualitative analysis of select reasoning traces, we highlight how reasoning enhances not just accuracy but also the interpretability of the decision.
翻訳日:2023-08-06 11:11:53 公開日:2023-07-24
# 購入のためのパーソナライズされたカテゴリー周波数予測

Personalized Category Frequency prediction for Buy It Again recommendations ( http://arxiv.org/abs/2308.01195v1 )

ライセンス: Link先を確認
Amit Pande, Kunal Ghosh, Rankyung Park(参考訳) Buy It Again (BIA)レコメンデーションは、リピート購入パターンに基づいて、顧客が再び購入する可能性のあるアイテムを提案することによって、ユーザーエクスペリエンスとサイトのエンゲージメントを向上させるために、小売業者にとって不可欠である。 既存のBIA研究の多くは、アイテムの粒度で客のパーソナライズされた行動を分析する。 このようなシナリオでは、カテゴリベースのモデルの方が適切かもしれない。 本研究では,カテゴリー内におけるパーソナライズドカテゴリーモデル(pcモデル)とパーソナライズドアイテムモデル(icモデル)からなる階層型pcicモデルと呼ばれる推薦システムを提案する。 PCモデルは、顧客が再び購入する可能性のあるカテゴリのパーソナライズされたリストを生成する。 ICモデルは、ゲストがカテゴリー内で消費する可能性のあるカテゴリにアイテムをランク付けする。 階層型PCICモデルは、生存モデルを用いて製品の一般消費率をキャプチャする。 消費傾向は時系列モデルを用いて把握される。 これらのモデルから派生した特徴は、カテゴリ粒度のニューラルネットワークのトレーニングに使用される。 4つの標準オープンデータセット上で,PCICを既存のベースライン12と比較する。 PCICはNDCGを最大16%改善し、リコールを約2%改善した。 ゲストアウト回数を繰り返す項目を繰り返す,1億件のゲストと3百件の項目からなる大規模なデータセット上で,PCICのスケールアップとトレーニングを8時間以上行うことができたのです。 PCICが配備され、ABは大手小売店のサイトでテストを行い、ゲストエンゲージメントが大幅に向上した。

Buy It Again (BIA) recommendations are crucial to retailers to help improve user experience and site engagement by suggesting items that customers are likely to buy again based on their own repeat purchasing patterns. Most existing BIA studies analyze guests personalized behavior at item granularity. A category-based model may be more appropriate in such scenarios. We propose a recommendation system called a hierarchical PCIC model that consists of a personalized category model (PC model) and a personalized item model within categories (IC model). PC model generates a personalized list of categories that customers are likely to purchase again. IC model ranks items within categories that guests are likely to consume within a category. The hierarchical PCIC model captures the general consumption rate of products using survival models. Trends in consumption are captured using time series models. Features derived from these models are used in training a category-grained neural network. We compare PCIC to twelve existing baselines on four standard open datasets. PCIC improves NDCG up to 16 percent while improving recall by around 2 percent. We were able to scale and train (over 8 hours) PCIC on a large dataset of 100M guests and 3M items where repeat categories of a guest out number repeat items. PCIC was deployed and AB tested on the site of a major retailer, leading to significant gains in guest engagement.
翻訳日:2023-08-06 11:04:07 公開日:2023-07-24
# 注意が必要なのは

Attention Is All You Need ( http://arxiv.org/abs/1706.03762v6 )

ライセンス: Link先を確認
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin(参考訳) 支配的なシーケンストランスダクションモデルは、エンコーダ-デコーダ構成の複雑なリカレントまたは畳み込みニューラルネットワークに基づいている。 最高のパフォーマンスモデルは、注意機構を通じてエンコーダとデコーダを接続する。 本稿では,注意機構のみに基づいて,再帰と畳み込みを完全に不要にする,新しいネットワークアーキテクチャであるtransformerを提案する。 2つの機械翻訳タスクにおける実験により、これらのモデルはより並列性が高く、トレーニングに要する時間が大幅に減る一方で、品質が優れていることが示されている。 我々のモデルは、WMT 2014の英独翻訳タスクにおいて28.4 BLEUを達成し、2 BLEU 以上のアンサンブルを含む既存の最良の結果を改善した。 wmt 2014の英語とフランス語の翻訳タスクにおいて、本モデルは8gpu上で3.5日間トレーニングした後、新しいシングルモデルブレウスコアを41.8で確立する。 提案手法は,大規模かつ限定的な学習データを用いて,英文構文解析に適用することで,他のタスクにもうまく一般化できることを示す。

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 English-to-German translation task, improving over the existing best results, including ensembles by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data.
翻訳日:2023-07-28 21:07:03 公開日:2023-07-24
# ニューラルフィールドを用いた加速心血管MRIの教師なし再建

Unsupervised reconstruction of accelerated cardiac cine MRI using Neural Fields ( http://arxiv.org/abs/2307.14363v1 )

ライセンス: Link先を確認
Tabita Catal\'an, Mat\'ias Courdurier, Axel Osses, Ren\'e Botnar, Francisco Sahli Costabal, Claudia Prieto(参考訳) 心血管MRIは心機能評価のゴールドスタンダードであるが、本質的に遅い取得プロセスは、アンダーサンプル獲得を加速するための再建アプローチの必要性を生じさせる。 空間的時間的冗長性を利用するいくつかの正規化アプローチが、アンサンプ心血管MRIの再構成のために提案されている。 近年, 教師付き深層学習に基づく手法も提案され, さらなる獲得と再構築が進められている。 しかし、これらのテクニックはトレーニングのために通常大きなデータセットに依存しており、必ずしも利用可能ではない。 本研究では, 心血管MRI(NF-cMRI)の暗黙的脳野表現に基づく教師なしアプローチを提案する。 提案手法は,26xおよび52xのアンダーサンプリング因子に対するアンダーアンプアンプアンプアンプアンプアングルラジアルマルチコイル取得において,画像品質が良好であり,空間的および時間的描写性が,最先端の再構築技術と同等であった。

Cardiac cine MRI is the gold standard for cardiac functional assessment, but the inherently slow acquisition process creates the necessity of reconstruction approaches for accelerated undersampled acquisitions. Several regularization approaches that exploit spatial-temporal redundancy have been proposed to reconstruct undersampled cardiac cine MRI. More recently, methods based on supervised deep learning have been also proposed to further accelerate acquisition and reconstruction. However, these techniques rely on usually large dataset for training, which are not always available. In this work, we propose an unsupervised approach based on implicit neural field representations for cardiac cine MRI (so called NF-cMRI). The proposed method was evaluated in in-vivo undersampled golden-angle radial multi-coil acquisitions for undersampling factors of 26x and 52x, achieving good image quality, and comparable spatial and improved temporal depiction than a state-of-the-art reconstruction technique.
翻訳日:2023-07-28 19:12:36 公開日:2023-07-24
# 宇宙推論のための学習可能なウェーブレットニューラルネットワーク

Learnable wavelet neural networks for cosmological inference ( http://arxiv.org/abs/2307.14362v1 )

ライセンス: Link先を確認
Christian Pedersen, Michael Eickenberg, Shirley Ho(参考訳) 畳み込みニューラルネットワーク(cnns)は、宇宙学の分野から従来の2点統計よりも多くの情報を抽出し、天体物理学的効果に対する限界を極めてよく示している。 しかし、CNNには大量のトレーニングデータが必要であるため、高価な宇宙シミュレーションの領域では問題があり、ネットワークを解釈することは困難である。 本研究では、宇宙論的推論と天体物理学的効果の限界化の問題に、訓練可能なウェーブレットをフィルタとして用いる畳み込みニューラルネットワークの一種である学習可能な散乱変換を適用する。 本稿では,散乱変換に基づく2つのモデルについて述べる。1つは性能のために構築され,もう1つは解釈可能性のために構築され,CNNとの比較を行う。 散乱アーキテクチャは、小さなトレーニングデータサンプルの場合において、CNNよりもはるかに優れていることが判明した。 さらに,高度に解釈可能な軽量散乱ネットワークを提案する。

Convolutional neural networks (CNNs) have been shown to both extract more information than the traditional two-point statistics from cosmological fields, and marginalise over astrophysical effects extremely well. However, CNNs require large amounts of training data, which is potentially problematic in the domain of expensive cosmological simulations, and it is difficult to interpret the network. In this work we apply the learnable scattering transform, a kind of convolutional neural network that uses trainable wavelets as filters, to the problem of cosmological inference and marginalisation over astrophysical effects. We present two models based on the scattering transform, one constructed for performance, and one constructed for interpretability, and perform a comparison with a CNN. We find that scattering architectures are able to outperform a CNN, significantly in the case of small training data samples. Additionally we present a lightweight scattering network that is highly interpretable.
翻訳日:2023-07-28 19:12:15 公開日:2023-07-24
# LSTM, BiLSTM, CNN, GRU, GloVeを用いた癌遺伝子変異分類のためのハイブリッド機械学習モデル

A Hybrid Machine Learning Model for Classifying Gene Mutations in Cancer using LSTM, BiLSTM, CNN, GRU, and GloVe ( http://arxiv.org/abs/2307.14361v1 )

ライセンス: Link先を確認
Sanad Aburass, Osama Dorgham and Jamil Al Shaqsi(参考訳) 本研究では、LSTM、BiLSTM、CNN、GRU、GloVeを組み合わせたアンサンブルモデルを用いて、Kaggleのパーソナライズドメディカル:がん治療データセットを再定義する手法を提案する。 その結果,BERT,Electra,Roberta,XLNet,Distilbert,LSTMアンサンブルなどのよく知られたトランスフォーマーと比較した。 我々のモデルは、精度、精度、リコール、f1スコア、平均二乗誤差の点で他の全てのモデルよりも優れていた。 驚くべきことに、トレーニング時間も少なくなり、パフォーマンスと効率の完全な組み合わせになった。 本研究は,遺伝子変異分類などの難しい課題に対するアンサンブルモデルの有用性を示す。

This study presents an ensemble model combining LSTM, BiLSTM, CNN, GRU, and GloVe to classify gene mutations using Kaggle's Personalized Medicine: Redefining Cancer Treatment dataset. The results were compared against well-known transformers like as BERT, Electra, Roberta, XLNet, Distilbert, and their LSTM ensembles. Our model outperformed all other models in terms of accuracy, precision, recall, F1 score, and Mean Squared Error. Surprisingly, it also needed less training time, resulting in a perfect combination of performance and efficiency. This study demonstrates the utility of ensemble models for difficult tasks such as gene mutation classification.
翻訳日:2023-07-28 19:12:01 公開日:2023-07-24
# 新しいデリバティブフリー最適化法:ガウス計算探索

A new derivative-free optimization method: Gaussian Crunching Search ( http://arxiv.org/abs/2307.14359v1 )

ライセンス: Link先を確認
Benny Wong(参考訳) 最適化手法は、様々な領域にわたる複雑な問題の解決に不可欠である。 本稿では,Gaussian Crunching Search (GCS)と呼ばれる新しい最適化手法を提案する。 ガウス分布の粒子の挙動にインスパイアされたGCSは、解空間を効率的に探索し、大域的最適に向かって収束することを目的としている。 我々は,gcの動作機構や潜在的な用途を含む総合的な分析を行う。 既存の最適化手法と比較実験により,GCSの利点と強みを強調した。 本研究は,gaussian crunching searchを新しい有望なアプローチとして開発し,その可能性について考察し,最適化に関心を持つ研究者,実践者,学生にとって貴重な資源となる。

Optimization methods are essential in solving complex problems across various domains. In this research paper, we introduce a novel optimization method called Gaussian Crunching Search (GCS). Inspired by the behaviour of particles in a Gaussian distribution, GCS aims to efficiently explore the solution space and converge towards the global optimum. We present a comprehensive analysis of GCS, including its working mechanism, and potential applications. Through experimental evaluations and comparisons with existing optimization methods, we highlight the advantages and strengths of GCS. This research paper serves as a valuable resource for researchers, practitioners, and students interested in optimization, providing insights into the development and potential of Gaussian Crunching Search as a new and promising approach.
翻訳日:2023-07-28 19:11:46 公開日:2023-07-24
# deep bradley-terry rating: 目立たない項目のメトリクスなしでプロパティを見積もる

Deep Bradley-Terry Rating: Estimate Properties Without Metric of Unseen Items ( http://arxiv.org/abs/2307.13709v1 )

ライセンス: Link先を確認
Satoru Fujii(参考訳) 実世界の多くの特性、例えば競争環境における望ましさや強みは直接観察できないため、評価は困難である。 この困難な問題に対処するために、先行研究は主に、ペア比較データセットにのみ現れる、既知のアイテムの特性、特にスポーツ選手の強さを推定することに焦点を当ててきた。 本稿では、データセットに必ずしも存在しない未知のアイテムの特性を評価するための新しいMLフレームワークであるDeep Bradley-Terry Rating(DBTR)を紹介する。 従来のBradley-Terryモデルとニューラルネットワーク構造をシームレスに統合する。 また,このアーキテクチャを不公平な非対称環境に対してさらに一般化する。 実験分析においてDBTRはこれらの特性の所望の定量化をうまく学習した。

Many properties in real world, such as desirability or strength in competitive environment, can't be directly observed, which makes them difficult to evaluate. To deal with this challenging problem, prior work has primarily focused on estimating those properties of known items, especially the strength of sports players, only of those who appears in paired comparison dataset. In this paper, we introduce Deep Bradley-Terry Rating (DBTR), a novel ML framework to evaluate any properties of unknown items, not necessarily present in dataset. Our method seamlessly integrates traditional Bradley-Terry model with a neural network structure. We also generalizes this architecture further for asymmetric environment with unfairness, which is much more common in real world settings. In our experimental analysis, DBTR successfully learned desired quantification of those properties.
翻訳日:2023-07-27 14:56:16 公開日:2023-07-24
# 自閉症児の感情検出のためのマルチモーダルアノテーションデータセットCALMEDの導入

Introducing CALMED: Multimodal Annotated Dataset for Emotion Detection in Children with Autism ( http://arxiv.org/abs/2307.13706v1 )

ライセンス: Link先を確認
Annanda Sousa (NUI Galway), Karen Young (NUI Galway), Mathieu D'aquin (Data Science, Knowledge, Reasoning and Engineering, LORIA, LORIA - NLPKD), Manel Zarrouk (LIPN), Jennifer Holloway (ASK)(参考訳) 自動感情検出(ED)は、ユーザーの感情を自動的に識別するシステムを構築することを目的としている。 このフィールドはhciを強化する可能性があり、ユーザのための個別化されたエクスペリエンスを生み出す。 しかし、EDシステムは自閉症スペクトラム障害(ASD)の患者にはよくない。 したがって、自閉症の人々が感情を表現する方法に合わせてEDシステムを作成する必要がある。 以前の研究では、asdを持つ子供向けにカスタマイズされたedシステムを作成したが、データセットを共有していなかった。 注釈付きデータセットの共有は、研究コミュニティ内でEDのためのより高度なコンピュータモデルの開発を可能にするために不可欠である。 本稿では,自閉症の診断レベル1の子どもを特徴とするマルチモーダルアノテートデータセットの作成プロセスを構築した経験について述べる。 さらに,8歳から12歳までの自閉症児を対象としたマルチモーダル感情検出データセットであるCALMED(Children, Autism, Multimodal, Emotion, Detection)を紹介する。 CALMEDには、学習セッションの記録ファイルから抽出された音声とビデオの特徴と、両親が4つのターゲットクラスに提供したアノテーションが含まれている。 生成されたデータセットには57,012のサンプルが含まれており、それぞれが200ミリ秒(0.2秒)のタイムウィンドウを表す。 ここで紹介した経験や手法は、データセットの共有とともに、ASDにおける情緒的コンピューティングの将来の研究応用に貢献することを目的としており、これは、ASD患者の生活を改善するシステムを構築する可能性を秘めている。

Automatic Emotion Detection (ED) aims to build systems to identify users' emotions automatically. This field has the potential to enhance HCI, creating an individualised experience for the user. However, ED systems tend to perform poorly on people with Autism Spectrum Disorder (ASD). Hence, the need to create ED systems tailored to how people with autism express emotions. Previous works have created ED systems tailored for children with ASD but did not share the resulting dataset. Sharing annotated datasets is essential to enable the development of more advanced computer models for ED within the research community. In this paper, we describe our experience establishing a process to create a multimodal annotated dataset featuring children with a level 1 diagnosis of autism. In addition, we introduce CALMED (Children, Autism, Multimodal, Emotion, Detection), the resulting multimodal emotion detection dataset featuring children with autism aged 8-12. CALMED includes audio and video features extracted from recording files of study sessions with participants, together with annotations provided by their parents into four target classes. The generated dataset includes a total of 57,012 examples, with each example representing a time window of 200ms (0.2s). Our experience and methods described here, together with the dataset shared, aim to contribute to future research applications of affective computing in ASD, which has the potential to create systems to improve the lives of people with ASD.
翻訳日:2023-07-27 14:56:03 公開日:2023-07-24
# 人工知能アルゴリズムの制御とモニタリング

Control and Monitoring of Artificial Intelligence Algorithms ( http://arxiv.org/abs/2307.13705v1 )

ライセンス: Link先を確認
Carlos Mario Braga Ortu\~no, Blanza Martinez Donoso and Bel\'en Mu\~niz Villanueva(参考訳) 本稿では,トレーニングデータと対照的に,デプロイ後の人工知能モデルを統制し,現在のデータ分布の潜在的変動を監督することの重要性を明らかにする。 データドリフトとコンセプトドリフトの概念は、それぞれの基本分布とともに説明される。 さらに,潜在的な時間変動に関するモデルの性能を精査するために,様々な指標が導入された。

This paper elucidates the importance of governing an artificial intelligence model post-deployment and overseeing potential fluctuations in the distribution of present data in contrast to the training data. The concepts of data drift and concept drift are explicated, along with their respective foundational distributions. Furthermore, a range of metrics is introduced, which can be utilized to scrutinize the model's performance concerning potential temporal variations.
翻訳日:2023-07-27 14:55:22 公開日:2023-07-24
# ソーシャルメディアからの消費者信念文の分類

Classification of Consumer Belief Statements From Social Media ( http://arxiv.org/abs/2106.15498v2 )

ライセンス: Link先を確認
Gerhard Johann Hagerer and Wenbin Le and Hannah Danner and Georg Groh(参考訳) ソーシャルメディアは、顧客の要求を満たすために市場調査を行うための多くの情報を提供している。 この研究の方法の1つは、ドメインの専門家がユーザ生成したコンテンツを複雑できめ細かいクラス構造にまとめて分類することです。 そのような場合、ほとんどデータが複雑なアノテーションを満たさない。 分類にどのように活用できるかは、まだ完全には分かっていない。 専門家ラベルを用いた分類精度について検討する。 a)多くのきめ細かいクラスと b) 抽象クラスが少ない。 シナリオとして b) ドメインエキスパートによる抽象クラスラベルをベースラインとして、および自動階層クラスタリングによって比較する。 これを、クラス構造全体が完全に教師なしのクラスタリングアプローチによって与えられる別のベースラインと比較する。 そうすることで、この研究は、専門家のアノテーションがいかに複雑で有益であるかの例となり、非常に特定のドメインにおける意見マイニングにおいて最も最適な方法で利用することができる。 様々な技術や実験を探索することにより、自動化されたクラス抽象化アプローチ、特に教師なしアプローチが、テキスト分類タスクのドメインエキスパートベースラインに対して著しく優れていることが分かる。 これは、市場研究者を実際に支援し、大規模できめ細かい自動コンテンツ分析を刺激するために、意見マイニングアプリケーションを促進する可能性がある。

Social media offer plenty of information to perform market research in order to meet the requirements of customers. One way how this research is conducted is that a domain expert gathers and categorizes user-generated content into a complex and fine-grained class structure. In many of such cases, little data meets complex annotations. It is not yet fully understood how this can be leveraged successfully for classification. We examine the classification accuracy of expert labels when used with a) many fine-grained classes and b) few abstract classes. For scenario b) we compare abstract class labels given by the domain expert as baseline and by automatic hierarchical clustering. We compare this to another baseline where the entire class structure is given by a completely unsupervised clustering approach. By doing so, this work can serve as an example of how complex expert annotations are potentially beneficial and can be utilized in the most optimal way for opinion mining in highly specific domains. By exploring across a range of techniques and experiments, we find that automated class abstraction approaches in particular the unsupervised approach performs remarkably well against domain expert baseline on text classification tasks. This has the potential to inspire opinion mining applications in order to support market researchers in practice and to inspire fine-grained automated content analysis on a large scale.
翻訳日:2023-07-26 22:10:57 公開日:2023-07-24
# 制約付き分類と政策学習

Constrained Classification and Policy Learning ( http://arxiv.org/abs/2106.12886v2 )

ライセンス: Link先を確認
Toru Kitagawa, Shosei Sakaguchi, and Aleksey Tetenov(参考訳) AdaBoost、サポートベクターマシン、ディープニューラルネットワークを含む最新の機械学習アプローチでは、代理損失技術を使用して、経験的分類リスクを最小限に抑える計算複雑性を回避する。 これらの手法は、個別化処理規則の推定を重み付けされた(コストに敏感な)分類問題とすることができるため、因果ポリシー学習問題にも有用である。 Zhang (2004) と Bartlett et al. (2006) で研究された代理損失アプローチの一貫性は、正しい仕様の仮定に決定的に依存している。 しかし、この仮定は、分類器の集合が解釈可能性や公正性によって制約されている場合、より信頼性が低い。 本稿では,制約付き分類器群の下でのサーロゲート損失手続きの整合性について,正しい仕様を仮定することなく検討する。 制約が分類器の予測セットのみを制限する場合、ヒンジ損失(例えば$\ell_1$- Support vector machine)が第2のベストシナリオにおける一貫性を維持する唯一のサロゲート損失であることを示す。 制約が分類器の機能形式を付加的に制限すると、ヒンジ損失であってもサーロゲート損失アプローチの一貫性は保証されない。 したがって、制約付き分類器の条件を特徴付け、ヒンジリスク最小化分類器の整合性を保証する。 理論結果を生かして,単音分類問題に対するロバストかつ計算上魅力的なヒンジ損失法を開発した。

Modern machine learning approaches to classification, including AdaBoost, support vector machines, and deep neural networks, utilize surrogate loss techniques to circumvent the computational complexity of minimizing empirical classification risk. These techniques are also useful for causal policy learning problems, since estimation of individualized treatment rules can be cast as a weighted (cost-sensitive) classification problem. Consistency of the surrogate loss approaches studied in Zhang (2004) and Bartlett et al. (2006) crucially relies on the assumption of correct specification, meaning that the specified set of classifiers is rich enough to contain a first-best classifier. This assumption is, however, less credible when the set of classifiers is constrained by interpretability or fairness, leaving the applicability of surrogate loss based algorithms unknown in such second-best scenarios. This paper studies consistency of surrogate loss procedures under a constrained set of classifiers without assuming correct specification. We show that in the setting where the constraint restricts the classifier's prediction set only, hinge losses (i.e., $\ell_1$-support vector machines) are the only surrogate losses that preserve consistency in second-best scenarios. If the constraint additionally restricts the functional form of the classifier, consistency of a surrogate loss approach is not guaranteed even with hinge loss. We therefore characterize conditions for the constrained set of classifiers that can guarantee consistency of hinge risk minimizing classifiers. Exploiting our theoretical results, we develop robust and computationally attractive hinge loss based procedures for a monotone classification problem.
翻訳日:2023-07-26 22:10:34 公開日:2023-07-24
# 適度に監督された学習:定義、枠組み、一般性

Moderately Supervised Learning: Definition, Framework and Generality ( http://arxiv.org/abs/2008.11945v5 )

ライセンス: Link先を確認
Yongquan Yang(参考訳) 教師付き学習は多くの人工知能(AI)アプリケーションで顕著な成功を収めた。 現在の文献では、トレーニングデータセットに用意されたラベルの特性を参照することにより、教師あり学習(SL)と弱教師あり学習(WSL)に分類される。 SLは、トレーニングデータセットが理想的な(完全で正確な)ラベルで割り当てられている状況、WSLはトレーニングデータセットが非理想的(不完全、不正確な、不正確な)ラベルで割り当てられている状況に関する。 しかし、SLタスクに対する様々なソリューションは、与えられたラベルが必ずしも習得しやすいとは限らないことを示しており、与えられたラベルから学習が容易なターゲットへの変換は最終SLソリューションの性能に大きな影響を及ぼす可能性がある。 SLの定義は、与えられたラベルから簡単に学習できるターゲットへの変換の性質を考慮せずに、特定のSLタスクの適切なソリューションを構築する上で重要ないくつかの詳細を隠蔽する。 したがって、AIアプリケーション分野のエンジニアには、これらの詳細を体系的に明らかにすることが望ましい。 本稿では、SLの分類を拡大し、与えられたラベルが理想である状況に関するサブタイプの中等教育学習(MSL)を調査することにより、この目標を達成することを試みるが、アノテーションの単純さにより、与えられたラベルを学習しやすいターゲットに変換するには、注意深い設計が必要である。 定義, フレームワーク, 一般性の観点から, MSL を概念化し, MSL タスクを体系的に解析するための基本的基礎を提供する。 その間、mslの概念化と数学者のビジョンの関係を明らかにするとともに、この論文は、数学者のビジョンから解決すべき問題を見るためのaiアプリケーションエンジニアのためのチュートリアルを確立する。

Learning with supervision has achieved remarkable success in numerous artificial intelligence (AI) applications. In the current literature, by referring to the properties of the labels prepared for the training dataset, learning with supervision is categorized as supervised learning (SL) and weakly supervised learning (WSL). SL concerns the situation where the training data set is assigned with ideal (complete, exact and accurate) labels, while WSL concerns the situation where the training data set is assigned with non-ideal (incomplete, inexact or inaccurate) labels. However, various solutions for SL tasks have shown that the given labels are not always easy to learn, and the transformation from the given labels to easy-to-learn targets can significantly affect the performance of the final SL solutions. Without considering the properties of the transformation from the given labels to easy-to-learn targets, the definition of SL conceals some details that can be critical to building the appropriate solutions for specific SL tasks. Thus, for engineers in the AI application field, it is desirable to reveal these details systematically. This article attempts to achieve this goal by expanding the categorization of SL and investigating the sub-type moderately supervised learning (MSL) that concerns the situation where the given labels are ideal, but due to the simplicity in annotation, careful designs are required to transform the given labels into easy-to-learn targets. From the perspectives of the definition, framework and generality, we conceptualize MSL to present a complete fundamental basis to systematically analyse MSL tasks. At meantime, revealing the relation between the conceptualization of MSL and the mathematicians' vision, this paper as well establishes a tutorial for AI application engineers to refer to viewing a problem to be solved from the mathematicians' vision.
翻訳日:2023-07-26 22:09:01 公開日:2023-07-24
# 強化学習におけるテンソルと行列低ランク値関数近似

Tensor and Matrix Low-Rank Value-Function Approximation in Reinforcement Learning ( http://arxiv.org/abs/2201.09736v2 )

ライセンス: Link先を確認
Sergio Rozada, Santiago Paternain, Antonio G. Marques(参考訳) 値関数近似(VF)は強化学習(RL)の中心的な問題である。 古典的な非パラメトリックなvf推定は次元の呪いに苦しむ。 その結果、高次元空間のVFを近似するために擬似パラメトリックモデルが採用され、ほとんどの研究は線形およびニューラルネットワークに基づくアプローチに焦点を当てている。 異なることに、本稿では、オンラインおよびモデルフリーな方法でVF行列を推定するために \emph{parsimonious non-parametric} アプローチを提案する。 さらに,vfsは多次元化される傾向があるので,古典的vf行列表現をテンソル(多方向配列)表現に置き換え,パラファク分解を用いてオンラインモデルフリーテンソル低ランクアルゴリズムを設計することを提案する。 アルゴリズムの異なるバージョンを提案し、その複雑さを分析し、その性能を標準化されたRL環境を用いて数値的に評価する。

Value-function (VF) approximation is a central problem in Reinforcement Learning (RL). Classical non-parametric VF estimation suffers from the curse of dimensionality. As a result, parsimonious parametric models have been adopted to approximate VFs in high-dimensional spaces, with most efforts being focused on linear and neural-network-based approaches. Differently, this paper puts forth a a \emph{parsimonious non-parametric} approach, where we use \emph{stochastic low-rank algorithms} to estimate the VF matrix in an online and model-free fashion. Furthermore, as VFs tend to be multi-dimensional, we propose replacing the classical VF matrix representation with a tensor (multi-way array) representation and, then, use the PARAFAC decomposition to design an online model-free tensor low-rank algorithm. Different versions of the algorithms are proposed, their complexity is analyzed, and their performance is assessed numerically using standardized RL environments.
翻訳日:2023-07-26 22:00:38 公開日:2023-07-24
# ベイジアンベストアーム識別における最適簡易レグレット

Optimal Simple Regret in Bayesian Best Arm Identification ( http://arxiv.org/abs/2111.09885v2 )

ライセンス: Link先を確認
Junpei Komiyama, Kaito Ariu, Masahiro Kato and Chao Qin(参考訳) マルチアームのバンディット問題において,最善のアーム識別を考える。 前者の一定の連続性条件を仮定すると、ベイズ的単純後悔の速度を特徴づける。 ベイズ的後悔最小化(英語版)(Bayesian regret minimization) (Lai, 1987) から派生し、ベイズ的単純後悔の第一項は最適腕と最適腕の間のギャップが$\sqrt{\frac{\log T}{T}}$より小さい地域に由来する。 提案手法は, 計算が容易で, 計算が容易なアルゴリズムであり, その先行項が定数係数までの下限値に一致することを提案する。

We consider best arm identification in the multi-armed bandit problem. Assuming certain continuity conditions of the prior, we characterize the rate of the Bayesian simple regret. Differing from Bayesian regret minimization (Lai, 1987), the leading term in the Bayesian simple regret derives from the region where the gap between optimal and suboptimal arms is smaller than $\sqrt{\frac{\log T}{T}}$. We propose a simple and easy-to-compute algorithm with its leading term matching with the lower bound up to a constant factor; simulation results support our theoretical findings.
翻訳日:2023-07-26 21:59:25 公開日:2023-07-24
# クラウドソーシング単一ラベル感性解析におけるエンド・ツー・エンドアノテータバイアス近似

End-to-End Annotator Bias Approximation on Crowdsourced Single-Label Sentiment Analysis ( http://arxiv.org/abs/2111.02326v2 )

ライセンス: Link先を確認
Gerhard Johann Hagerer, David Szabo, Andreas Koch, Maria Luisa Ripoll Dominguez, Christian Widmer, Maximilian Wich, Hannah Danner, Georg Groh(参考訳) 感性分析は、多くのアノテータから与えられた主観的なラベルをクラウドソーシングする作業であることが多い。 各アノテータのアノテーションバイアスがいかにして最先端の手法で正しくモデル化できるかは、まだ完全には分かっていない。 しかしながら、アノテーションのバイアスを正確かつ確実に解決することは、アノテーションのラベリング動作を理解し、アノテーションタスクに関する個々の誤解や不正をうまく解決するための鍵となる。 私たちの貢献は、正確なニューラル・エンド・ツー・エンドのバイアスモデリングと基底的真理推定のための説明と改善であり、既存の最先端に関して望ましくないミスマッチを低減します。 分類実験により、各サンプルが1つのアノテータでアノテートされた場合にのみ精度が向上する可能性が示された。 我々は、ソースコード全体を公開し、有機食品に関する1万文を含む独自のドメイン固有の感情データセットをリリースする。 これらはソーシャルメディアからクロールされ、10人の専門家以外のアノテータによって単独でラベル付けされる。

Sentiment analysis is often a crowdsourcing task prone to subjective labels given by many annotators. It is not yet fully understood how the annotation bias of each annotator can be modeled correctly with state-of-the-art methods. However, resolving annotator bias precisely and reliably is the key to understand annotators' labeling behavior and to successfully resolve corresponding individual misconceptions and wrongdoings regarding the annotation task. Our contribution is an explanation and improvement for precise neural end-to-end bias modeling and ground truth estimation, which reduces an undesired mismatch in that regard of the existing state-of-the-art. Classification experiments show that it has potential to improve accuracy in cases where each sample is annotated only by one single annotator. We provide the whole source code publicly and release an own domain-specific sentiment dataset containing 10,000 sentences discussing organic food products. These are crawled from social media and are singly labeled by 10 non-expert annotators.
翻訳日:2023-07-26 21:59:11 公開日:2023-07-24
# 単純言語横断的意見マイニングの事例研究と質的分析

A Case Study and Qualitative Analysis of Simple Cross-Lingual Opinion Mining ( http://arxiv.org/abs/2111.02259v3 )

ライセンス: Link先を確認
Gerhard Johann Hagerer, Wing Sheung Leung, Qiaoxi Liu, Hannah Danner, Georg Groh(参考訳) ソーシャルメディアからのユーザ生成コンテンツは多くの言語で作られており、異なる文化や地域にわたってあるドメインから議論されたテーマを比較することは技術的に困難である。 これは、市場調査のようなグローバル化した世界のドメインに関係しており、2つの国と市場の人々が製品に対して異なる要件を持つ可能性がある。 本稿では,自然言語理解のための事前学習された最先端ニューラルネットワークに基づいて,複数の言語を同時にカバー可能な感情分析を用いた単一トピックモデルの構築方法を提案する。 その実現可能性を示すために,本モデルは新聞記事や特定のドメイン,すなわち有機食品および関連する消費行動のユーザコメントに適用する。 テーマは言語間で一致している。 また,安定的かつドメイン関連性の高い話題の比率が高いこと,トピックとそれぞれのテキスト内容の有意義な関係,ソーシャルメディア文書の解釈可能な表現が得られる。 マーケティングは、世界中の異なる市場地域から特定の顧客の興味に対処するための使いやすい手段を提供するので、当社の手法の恩恵を受ける可能性がある。 再現性のために、我々は研究のコード、データ、結果を提供する。

User-generated content from social media is produced in many languages, making it technically challenging to compare the discussed themes from one domain across different cultures and regions. It is relevant for domains in a globalized world, such as market research, where people from two nations and markets might have different requirements for a product. We propose a simple, modern, and effective method for building a single topic model with sentiment analysis capable of covering multiple languages simultanteously, based on a pre-trained state-of-the-art deep neural network for natural language understanding. To demonstrate its feasibility, we apply the model to newspaper articles and user comments of a specific domain, i.e., organic food products and related consumption behavior. The themes match across languages. Additionally, we obtain an high proportion of stable and domain-relevant topics, a meaningful relation between topics and their respective textual contents, and an interpretable representation for social media documents. Marketing can potentially benefit from our method, since it provides an easy-to-use means of addressing specific customer interests from different market regions around the globe. For reproducibility, we provide the code, data, and results of our study.
翻訳日:2023-07-26 21:58:53 公開日:2023-07-24
# オートグルーダ導入前後のプログラミングコース評価の分析

An Analysis of Programming Course Evaluations Before and After the Introduction of an Autograder ( http://arxiv.org/abs/2110.15134v2 )

ライセンス: Link先を確認
Gerhard Johann Hagerer, Laura Lahesoo, Miriam Ansch\"utz, Stephan Krusche, Georg Groh(参考訳) 一般的に、高等教育機関の入門プログラミングコースには、何百人もの学生がプログラムを学びたがっている。 提出されたソースコードをレビューし、フィードバックを提供するための手作業はもはや管理できない。 提出された宿題を手作業でレビューするのは主観的で不公平である。 異なるオートグラファーは、この状況に役立てることができるが、プログラミングクラスや教育に対する学生の全体的な認識に、オートグラファーがどのように影響を与えるかについての知識は乏しい。 これは、学生の増加に対応しながらプログラミングコースを魅力的に保つためのコース主催者や機関にとって重要である。 本稿では,最近自己評価を導入した大規模コンピュータ科学科目における大学評価の標準化に対する回答について検討する。 この介入前後の違いを分析する。 追加の観察を取り入れることで,教師と学生の対話性の向上,コース全体の品質向上,学習成功の改善,使用時間の増加,難易度低減など,データに大きな変化が,自動学習者がどのように貢献したのかを仮定した。 この質的研究は、定量的調査とデータ分析を定義するための仮説を提供することを目的としている。 オートグレーダ技術は、プログラミングコースにおける生徒の満足度を向上させるための教育方法として検証することができる。

Commonly, introductory programming courses in higher education institutions have hundreds of participating students eager to learn to program. The manual effort for reviewing the submitted source code and for providing feedback can no longer be managed. Manually reviewing the submitted homework can be subjective and unfair, particularly if many tutors are responsible for grading. Different autograders can help in this situation; however, there is a lack of knowledge about how autograders can impact students' overall perception of programming classes and teaching. This is relevant for course organizers and institutions to keep their programming courses attractive while coping with increasing students. This paper studies the answers to the standardized university evaluation questionnaires of multiple large-scale foundational computer science courses which recently introduced autograding. The differences before and after this intervention are analyzed. By incorporating additional observations, we hypothesize how the autograder might have contributed to the significant changes in the data, such as, improved interactions between tutors and students, improved overall course quality, improved learning success, increased time spent, and reduced difficulty. This qualitative study aims to provide hypotheses for future research to define and conduct quantitative surveys and data analysis. The autograder technology can be validated as a teaching method to improve student satisfaction with programming courses.
翻訳日:2023-07-26 21:58:34 公開日:2023-07-24
# SocialVisTUM - ソーシャルメディアオピニオンマイニングにおける関連ニューラルトピックモデルのためのインタラクティブ可視化ツールキット

SocialVisTUM: An Interactive Visualization Toolkit for Correlated Neural Topic Models on Social Media Opinion Mining ( http://arxiv.org/abs/2110.10575v2 )

ライセンス: Link先を確認
Gerhard Johann Hagerer, Martin Kirchhoff, Hannah Danner, Robert Pesch, Mainak Ghosh, Archishman Roy, Jiaxi Zhao, Georg Groh(参考訳) 意見マイニングにおける最近の研究は,従来のトピックモデリングに比べて一貫性に優れた単語埋め込みに基づくトピックモデリング手法を提案する。 本稿では,これらの手法を用いてソーシャルビジュアライゼーションツールキットsocialvistumを用いて,ソーシャルメディアのテキストに関連づけられたトピックモデルを表示できることを実証する。 トピックをノードとしてグラフを表示し、相関をエッジとして表示する。 トピックや感情の分布、階層的なトピッククラスタリング、カスタマイズ可能な事前定義されたトピックラベルなど、大きなテキストコレクションの探索を支援するために、さらに詳細がインタラクティブに表示される。 このツールキットは最適なコヒーレンスのためにカスタムデータを自動的に最適化する。 本稿では,有機食品消費に関する英ソーシャルメディアの議論から収集したデータに基づくツールキットの動作例を示す。 ビジュアライゼーションは、質的な消費者調査の結果を確認します。 SocialVisTUMとそのトレーニング手順はオンラインで利用できる。

Recent research in opinion mining proposed word embedding-based topic modeling methods that provide superior coherence compared to traditional topic modeling. In this paper, we demonstrate how these methods can be used to display correlated topic models on social media texts using SocialVisTUM, our proposed interactive visualization toolkit. It displays a graph with topics as nodes and their correlations as edges. Further details are displayed interactively to support the exploration of large text collections, e.g., representative words and sentences of topics, topic and sentiment distributions, hierarchical topic clustering, and customizable, predefined topic labels. The toolkit optimizes automatically on custom data for optimal coherence. We show a working instance of the toolkit on data crawled from English social media discussions about organic food consumption. The visualization confirms findings of a qualitative consumer research study. SocialVisTUM and its training procedures are accessible online.
翻訳日:2023-07-26 21:58:13 公開日:2023-07-24
# 周期信号の非同期イベントベースアルゴリズム

An Asynchronous Event-Based Algorithm for Periodic Signals ( http://arxiv.org/abs/2205.04691v3 )

ライセンス: Link先を確認
David El-Chai Ben-Ezra, Ron Arad, Ayelet Padowicz, Israel Tugendhaft(参考訳) 0\leq\tau_{1}\leq\tau_{2}\leq\cdots\leq\tau_{m}\leq1$ とする。 また、$\epsilon,\delta\in\mathbb{R}$, $d\in\mathbb{N}$とする。 d$以上の隣接する$\tau_{i}$-sペアを持つ確率は、その間の距離が$\delta$で、エラー$\epsilon$となる確率は? 本稿では、イベントカメラの新たな技術を用いて、既知の周波数の信号を検出するための単純な非同期アルゴリズムを分析する動機から、この未処理の理論的確率問題を自然に生み出す方法を示す。

Let $0\leq\tau_{1}\leq\tau_{2}\leq\cdots\leq\tau_{m}\leq1$, originated from a uniform distribution. Let also $\epsilon,\delta\in\mathbb{R}$, and $d\in\mathbb{N}$. What is the probability of having more than $d$ adjacent $\tau_{i}$-s pairs that the distance between them is $\delta$, up to an error $\epsilon$ ? In this paper we are going to show how this untreated theoretical probabilistic problem arises naturally from the motivation of analyzing a simple asynchronous algorithm for detection of signals with a known frequency, using the novel technology of an event camera.
翻訳日:2023-07-26 21:50:58 公開日:2023-07-24
# 時間反転を伴う量子状態伝達と入出力理論

Quantum state transfer and input-output theory with time reversal ( http://arxiv.org/abs/2204.11377v2 )

ライセンス: Link先を確認
Kevin Randles and Steven van Enk(参考訳) 量子状態をあるシステムから別のシステムへ確実に転送できることは、量子ネットワークの開発に不可欠である。 この情報転送を実現する標準的な方法は、中間情報キャリア(例えば、光子)を第1のシステムによって放出され、第2のシステムによって吸収される。 そのようなシナリオに対して、中間自由度を排除し、二つのシステム間の効果的な直接結合をもたらす効果的な記述を開発することができる。 しかし、2つの系のスペクトル特性が異なる場合、光子の時間周波数形状は2番目の系に到達する前に適切に修正する必要がある。 我々は、中間光子を操作する際に生じる効果的な説明をここで研究する。 私たちはユニタリ変換である$u$を調べ、時間反転と周波数変換を行い、光子波パケットを伸長する。 実効的記述に対する同調的な修正は、状態の時間引数の変更により、$\rho(t) = \rho_1(\tilde{t}) \otimes \rho_2(t)$, ここで、$\tilde{t}$は、拡張され、後方に走る最初のシステムの架空の時間である。 この理論を光学キャビティ内の3レベル$\lambda$-systemsに適用し、ユニタリ変換である$u$が量子状態遷移をいかに改善するかを数値的に示す。

Being able to reliably transfer the quantum state from one system to another is crucial to developing quantum networks. A standard way to accomplish this transfer of information is by making use of an intermediate information carrier (e.g., a photon) that is emitted by the first system and absorbed by the second. For such a scenario one can develop an effective description by eliminating the intermediate degrees of freedom, which yields an effective direct coupling between the two systems. If, however, the spectral properties of the two systems are different, the photon's time-frequency shape needs to be appropriately modified before it reaches the second system. We study here the effective description that results when we thus manipulate the intermediate photon. We examine a unitary transformation, $U$, that time reverses, frequency translates, and stretches the photon wave packet. We find that the concomitant modifications to the effective description can best be understood in terms of a change to the state's time argument, $\rho(t) = \rho_1(\tilde{t}) \otimes \rho_2(t)$, where $\tilde{t}$ is a fictitious time for the first system that is stretched and runs backward. We apply this theory to three-level $\Lambda$-systems inside optical cavities, and we numerically illustrate how performing the unitary transformation $U$ results in improved quantum state transfer.
翻訳日:2023-07-26 21:50:46 公開日:2023-07-24
# 大規模レコメンダシステムのためのベイズ非定常線形帯域

Bayesian Non-stationary Linear Bandits for Large-Scale Recommender Systems ( http://arxiv.org/abs/2202.03167v2 )

ライセンス: Link先を確認
Saeed Ghoorchian, Evgenii Kortukov, Setareh Maghsudi(参考訳) コンテキスト情報を活用することで、リコメンダシステムの性能が向上する可能性がある。 ビッグデータの時代において、そのような側情報はしばしばいくつかの次元を持つ。 したがって、そのような高次元コンテキストをリアルタイムに処理するための意思決定アルゴリズムの開発が不可欠である。 これは、意思決定者が推奨すべきさまざまな項目がある場合、特に難しい。 さらに、アイテムの人気やユーザの好みの変化は、環境の分散シフトに対する堅牢性が欠如しているため、デプロイされたレコメンダシステムのパフォーマンスを阻害する可能性がある。 本稿では,この問題を解決するために,線形コンテキスト型マルチアームバンディットフレームワークを構築した。 本研究では,高次元特徴ベクトル,大きなアームセット,非定常報酬生成プロセスを含む線形帯域問題に対する意思決定ポリシーを開発する。 我々のトンプソンサンプリングに基づく政策は、ランダムプロジェクションを用いて特徴ベクトルの次元を減少させ、指数関数的に増加する重みを使って過去の観測の影響を時間とともに減少させる。 提案するリコメンデータシステムは,実行環境を最小化しながら,ユーザの項目嗜好をオンラインで学習する。 我々は、元の次元ではなく縮小次元の因子としてスケールする後悔の境界を証明する。 提案手法を数値的に評価するために,実世界の3つのデータセットに適用する。 理論的および数値的な結果は,提案アルゴリズムが計算複雑性と後悔性能のトレードオフを行う上で,最先端技術と比較して有効であることを示す。

Taking advantage of contextual information can potentially boost the performance of recommender systems. In the era of big data, such side information often has several dimensions. Thus, developing decision-making algorithms to cope with such a high-dimensional context in real time is essential. That is specifically challenging when the decision-maker has a variety of items to recommend. In addition, changes in items' popularity or users' preferences can hinder the performance of the deployed recommender system due to a lack of robustness to distribution shifts in the environment. In this paper, we build upon the linear contextual multi-armed bandit framework to address this problem. We develop a decision-making policy for a linear bandit problem with high-dimensional feature vectors, a large set of arms, and non-stationary reward-generating processes. Our Thompson sampling-based policy reduces the dimension of feature vectors using random projection and uses exponentially increasing weights to decrease the influence of past observations with time. Our proposed recommender system employs this policy to learn the users' item preferences online while minimizing runtime. We prove a regret bound that scales as a factor of the reduced dimension instead of the original one. To evaluate our proposed recommender system numerically, we apply it to three real-world datasets. The theoretical and numerical results demonstrate the effectiveness of our proposed algorithm in making a trade-off between computational complexity and regret performance compared to the state-of-the-art.
翻訳日:2023-07-26 21:48:53 公開日:2023-07-24
# グラフ状態のShor-Laflamme分布と絡み合いのノイズロバスト性

Shor-Laflamme distributions of graph states and noise robustness of entanglement ( http://arxiv.org/abs/2207.07665v2 )

ライセンス: Link先を確認
Daniel Miller, Daniel Loss, Ivano Tavernelli, Hermann Kampermann, Dagmar Bru{\ss}, Nikolai Wyderka(参考訳) 量子状態のショルラフラム分布 (shor-laflamme distribution, sld) は、k$-ボディー相関を定量化する局所ユニタリ不変量の集まりである。 グラフ理論問題を解くことにより,グラフ状態のSLDを導出できることを示す。 このようにして、効率的な計算可能なグラフ特性の単純な関数として、SLDの平均と分散が得られる。 さらに、この定式化により、グラフ状態族に対するSLDの閉式を導出できる。 クラスター状態については、sldが二項分布と非常によく似ていることを観測し、この性質は一般にグラフ状態に対して典型的であると主張する。 最後に,SLDに基づく絡み合い基準を純度基準から導出し,それを用いて絡み合いに対する有意義な雑音閾値を導出する。 我々の新しい絡み合い基準は簡単に使用でき、さらに高次元のquditsの場合にも適用できる。 より大きな視点では,shor-laflamme分布の密接に関連する概念が重要な役割を果たす量子誤り訂正符号と,shor-laflamme分布がセクタ長分布として知られている量子状態の幾何学の両方を理解することを促進する。

The Shor-Laflamme distribution (SLD) of a quantum state is a collection of local unitary invariants that quantify $k$-body correlations. We show that the SLD of graph states can be derived by solving a graph-theoretical problem. In this way, the mean and variance of the SLD are obtained as simple functions of efficiently computable graph properties. Furthermore, this formulation enables us to derive closed expressions of SLDs for some graph state families. For cluster states, we observe that the SLD is very similar to a binomial distribution, and we argue that this property is typical for graph states in general. Finally, we derive an SLD-based entanglement criterion from the purity criterion and apply it to derive meaningful noise thresholds for entanglement. Our new entanglement criterion is easy to use and also applies to the case of higher-dimensional qudits. In the bigger picture, our results foster the understanding both of quantum error-correcting codes, where a closely related notion of Shor-Laflamme distributions plays an important role, and of the geometry of quantum states, where Shor-Laflamme distributions are known as sector length distributions.
翻訳日:2023-07-26 21:40:10 公開日:2023-07-24
# 経路依存型ニューラルジャンプによるジェネリックダイナミクスの最適推定

Optimal Estimation of Generic Dynamics by Path-Dependent Neural Jump ODEs ( http://arxiv.org/abs/2206.14284v4 )

ライセンス: Link先を確認
Florian Krach, Marc N\"ubel, Josef Teichmann(参考訳) 本稿では,ニューラルジャンプODE(NJ-ODE)フレームワークの経路依存拡張を用いた一般確率過程の予測問題について検討する。 NJ-ODE は不規則に観測された時系列の予測のための収束保証を確立する最初のフレームワークであったが、これらの結果は完全な観測を伴う It\^o-diffusion から得られたデータ、特に全ての座標が同時に観測されるマルコフ過程に限られていた。 本研究では、シグネチャ変換の再構成特性を利用して、これらの結果を非マルコフ的あるいは不連続な確率的過程と不完全な観察に一般化する。 これらの理論結果は経験的研究によって支持され、パス依存NJ-ODEは非マルコフデータの場合、元のNJ-ODEフレームワークより優れていることが示されている。 さらに、PD-NJ-ODEは古典的確率的フィルタリング問題や順序帳(LOB)データにうまく適用可能であることを示す。

This paper studies the problem of forecasting general stochastic processes using a path-dependent extension of the Neural Jump ODE (NJ-ODE) framework. While NJ-ODE was the first framework to establish convergence guarantees for the prediction of irregularly observed time series, these results were limited to data stemming from It\^o-diffusions with complete observations, in particular Markov processes where all coordinates are observed simultaneously. In this work, we generalise these results to generic, possibly non-Markovian or discontinuous, stochastic processes with incomplete observations, by utilising the reconstruction properties of the signature transform. These theoretical results are supported by empirical studies, where it is shown that the path-dependent NJ-ODE outperforms the original NJ-ODE framework in the case of non-Markovian data. Moreover, we show that PD-NJ-ODE can be applied successfully to classical stochastic filtering problems and to limit order book (LOB) data.
翻訳日:2023-07-26 21:39:40 公開日:2023-07-24
# 有限ゲージ理論における高群対称性と安定化符号

Higher-group symmetry in finite gauge theory and stabilizer codes ( http://arxiv.org/abs/2211.11764v2 )

ライセンス: Link先を確認
Maissam Barkeshli, Yu-An Chen, Po-Shen Hsin, Ryohei Kobayashi(参考訳) 物質のギャップ位相の大規模なクラスは、トポロジカル有限群ゲージ理論によって記述できる。 本稿では、そのようなゲージ理論がなぜ高群大域対称性を持つのかを示し、これを詳細に研究する。 我々は、非アベリアゲージ群やディクグラーフ・ウィッテンツイストを含む、$(d+1)$時空次元の位相的有限群ゲージ理論に対する$d$群大域対称性とその't Hooft異常を導出する。 低次元ゲージ対称性保護位相位相(spt)相で装飾された可逆的(可換)磁気欠陥と可逆的位相欠陥によって生成される高次対称性に注目した。 ウィッテン効果の一般化と電荷流束アタッチメントにより、磁気欠陥によって生じる1-形式対称性が、他の対称性とより高次に混合することを示す。 このような高群対称性を格子モデルの例で記述する。 一般フェルミオン対称性群に対するフェルミオンSPT相(3+1)Dの分類など、いくつかの応用について論じるとともに、先行研究で現れた$[O_5] \in H^5(BG, U(1))$の単純な公式も導出する。 また,$d$-group対称性がフォールトトレラントな非ポーリ論理ゲートや安定化符号の洗練されたクリフォード階層と関連していることを示す。 3+1)D $\mathbb{Z}_2$トリック符号の制御Zゲートのような$d$-群対称性を用いて安定化器符号の新しい論理ゲートを発見する。

A large class of gapped phases of matter can be described by topological finite group gauge theories. In this paper we show how such gauge theories possess a higher-group global symmetry, which we study in detail. We derive the $d$-group global symmetry and its 't Hooft anomaly for topological finite group gauge theories in $(d+1)$ space-time dimensions, including non-Abelian gauge groups and Dijkgraaf-Witten twists. We focus on the 1-form symmetry generated by invertible (Abelian) magnetic defects and the higher-form symmetries generated by invertible topological defects decorated with lower dimensional gauged symmetry-protected topological (SPT) phases. We show that due to a generalization of the Witten effect and charge-flux attachment, the 1-form symmetry generated by the magnetic defects mixes with other symmetries into a higher group. We describe such higher-group symmetry in various lattice model examples. We discuss several applications, including the classification of fermionic SPT phases in (3+1)D for general fermionic symmetry groups, where we also derive a simpler formula for the $[O_5] \in H^5(BG, U(1))$ obstruction that has appeared in prior work. We also show how the $d$-group symmetry is related to fault-tolerant non-Pauli logical gates and a refined Clifford hierarchy in stabilizer codes. We discover new logical gates in stabilizer codes using the $d$-group symmetry, such as a Controlled-Z gate in (3+1)D $\mathbb{Z}_2$ toric code.
翻訳日:2023-07-26 21:31:54 公開日:2023-07-24
# $k$EPR-pairsを$n$-partyのリソース状態から生成する

Generating $k$ EPR-pairs from an $n$-party resource state ( http://arxiv.org/abs/2211.06497v2 )

ライセンス: Link先を確認
Sergey Bravyi, Yash Sharma, Mario Szegedy, Ronald de Wolf(参考訳) 古典的なチャネル上の量子ネットワークアプリケーションによってモチベーションを得て、LOCCプロトコルが任意の$k$非結合のパーティ間でEPRペアを作成できる$n$のパーティリソース状態の研究を開始する。 我々は、k$ が最適な $n/2$ から遠くないような状態の構成を与えるが、個々のパーティは一定数の qubits を保持する必要がある。 特別な場合、各パーティが1キュービットしか持たない場合、reed-muller符号に基づいて、$k$が$\log n$に比例するn$-キュービット状態のファミリーと、$k=2$と$k=3$の小さな数値的な例を記述します。 例えば、$k=n/2$ ならば、当事者は少なくとも$\Omega(\log\log n)$ qubits を持つ必要がある。

Motivated by quantum network applications over classical channels, we initiate the study of $n$-party resource states from which LOCC protocols can create EPR-pairs between any $k$ disjoint pairs of parties. We give constructions of such states where $k$ is not too far from the optimal $n/2$ while the individual parties need to hold only a constant number of qubits. In the special case when each party holds only one qubit, we describe a family of $n$-qubit states with $k$ proportional to $\log n$ based on Reed-Muller codes, as well as small numerically found examples for $k=2$ and $k=3$. We also prove some lower bounds, for example showing that if $k=n/2$ then the parties must have at least $\Omega(\log\log n)$ qubits each.
翻訳日:2023-07-26 21:30:59 公開日:2023-07-24
# 導波路QEDにおける多体超放射と動的ミラー対称性の破れ

Many-body superradiance and dynamical mirror symmetry breaking in waveguide QED ( http://arxiv.org/abs/2209.12970v4 )

ライセンス: Link先を確認
Silvia Cardenas-Lopez, Stuart J. Masson, Zoe Zager, Ana Asenjo-Garcia(参考訳) 2段階系の拡張集合の多体崩壊は未解決の問題である。 ここでは, 一次元浴に結合したエミッタの配列がDicke超放射能に与える影響を検討する。 これは完全に反転した系が散逸によって相関し、速い光子バーストの形で全てのエネルギーが放出される過程である。 エミッタ数、導波路のキラリティー、および秩序と乱れたアンサンブルの単一エミッタ光学深さの関数としてバーストが発生するための最小条件を導出する。 多体超放射は、放出を誘発する初期揺らぎが崩壊過程を通じて増幅されるため起こる。 1次元の浴槽では、この雪崩のような挙動は自発的なミラー対称性の破れにつながり、左右に放出される光子の数に大きなショット・ツー・ショットの変動が生じる。 したがって、超ラジアントバーストは、エキゾチック量子統計の相関光子状態を生成するための喫煙銃である可能性がある。

The many-body decay of extended collections of two-level systems remains an open problem. Here, we investigate whether an array of emitters coupled to a one-dimensional bath undergoes Dicke superradiance. This is a process whereby a completely inverted system becomes correlated via dissipation, leading to the release of all the energy in the form of a rapid photon burst. We derive the minimal conditions for the burst to happen as a function of the number of emitters, the chirality of the waveguide, and the single-emitter optical depth, both for ordered and disordered ensembles. Many-body superradiance occurs because the initial fluctuation that triggers the emission is amplified throughout the decay process. In one-dimensional baths, this avalanchelike behavior leads to a spontaneous mirror symmetry breaking, with large shot-to-shot fluctuations in the number of photons emitted to the left and right. Superradiant bursts may thus be a smoking gun for the generation of correlated photon states of exotic quantum statistics.
翻訳日:2023-07-26 21:29:25 公開日:2023-07-24
# 超伝導量子ビットの光バス工学

Phononic bath engineering of a superconducting qubit ( http://arxiv.org/abs/2208.07423v3 )

ライセンス: Link先を確認
J. M. Kitzman, J. R. Lane, C. Undershute, P. M. Harrington, N. R. Beysengulov, C. A. Mikolas, K. W. Murch, J. Pollanen(参考訳) 振動エネルギーのユビキタス量子量であるフォノンは、量子技術の性能において重要な役割を果たす。 逆に、フォノンへの意図しない結合は量子ビット性能を低下させ、超伝導量子ビット系における相関エラーを引き起こす。 フォノンが実現可能または削除可能な役割を果たすかどうかは問わないが、通常はスペクトル特性の制御を許さず、また資源として使用するために散逸をエンジニアリングする可能性も認めない。 ここでは, 超伝導量子ビットと圧電弾性表面波フォノンの浴を結合することで, 開量子系を探究する新しいプラットフォームを実現することを示す。 損失面フォノンの浴によるクォービットの損失スペクトルを定式化することにより、駆動と散逸の複合効果による重ね合わせ状態の調製と動的安定化を実証する。 これらの実験は、工学的音波散逸の汎用性を強調し、超伝導量子ビット系における機械的損失の理解を前進させた。

Phonons, the ubiquitous quanta of vibrational energy, play a vital role in the performance of quantum technologies. Conversely, unintended coupling to phonons degrades qubit performance and can lead to correlated errors in superconducting qubit systems. Regardless of whether phonons play an enabling or deleterious role, they do not typically admit control over their spectral properties, nor the possibility of engineering their dissipation to be used as a resource. Here we show that coupling a superconducting qubit to a bath of piezoelectric surface acoustic wave phonons enables a novel platform for investigating open quantum systems. By shaping the loss spectrum of the qubit via the bath of lossy surface phonons, we demonstrate preparation and dynamical stabilization of superposition states through the combined effects of drive and dissipation. These experiments highlight the versatility of engineered phononic dissipation and advance the understanding of mechanical losses in superconducting qubit systems.
翻訳日:2023-07-26 21:29:07 公開日:2023-07-24
# 表面フォノンの量子音響ファノ干渉

Quantum acoustic Fano interference of surface phonons ( http://arxiv.org/abs/2302.01271v2 )

ライセンス: Link先を確認
J.M. Kitzman, J.R. Lane, C. Undershute, N.R. Beysengulov, C.A. Mikolas, K.W. Murch and J. Pollanen(参考訳) 表面またはバルクフォノンと超伝導量子ビットを統合する量子音響システムは、量子構造において音波$interference$および$scattering$プロセスを調べるユニークな機会を提供する。 特に超伝導量子ビットとフォノン振動子の相互作用により、量子ビットは振動子の励起スペクトルと基礎となる干渉効果を感知することができる。 本稿では、超伝導量子ビットに結合したSAW共振器からなるシステムにおいて、表面フォノンの広い連続性を有する共振型圧電面音響波(SAW)モードのファノ干渉を明らかにする。 実験では,量子情報処理において提案されている量子音響アーキテクチャにおいて,さらに弱結合した機械モードの存在と量子-フォノン相互作用への影響に注目し,フォノニック干渉の重要性を強調した。

Quantum acoustic systems, which integrate surface or bulk phonons with superconducting qubits, offer a unique opportunity to investigate phononic $interference$ and $scattering$ processes in the quantum regime. In particular the interaction between a superconducting qubit and a phononic oscillator allows the qubit to sense the oscillator's excitation spectrum and underlying interference effects. Here we present measurements revealing Fano interference of a resonantly trapped piezoelectric surface acoustic wave (SAW) mode with a broad continuum of surface phonons in a system consisting of a SAW resonator coupled to a superconducting qubit. The experiments highlight the existence of additional weakly coupled mechanical modes and their influence on the qubit-phonon interaction and underscore the importance of phononic interference in quantum acoustic architectures that have been proposed for quantum information processing applications.
翻訳日:2023-07-26 21:20:54 公開日:2023-07-24
# out-of-tribution detectionを用いた選択的分類のためのプラグイン推定器

Plugin estimators for selective classification with out-of-distribution detection ( http://arxiv.org/abs/2301.12386v4 )

ライセンス: Link先を確認
Harikrishna Narasimhan, Aditya Krishna Menon, Wittawat Jitkrittum, Sanjiv Kumar(参考訳) 実世界の分類器は、信頼度の低いサンプルの予測を控えるオプションから恩恵を受けることができる。 このような回避は、学習された決定境界に近い、またはトレーニングサンプルに関して外れ値であるサンプルにおいて特に有用である。 これらの設定は、選択分類(SC)とアウト・オブ・ディストリビューション(OOD)の検出文献において広範囲に研究されている。 OOD検出による選択的分類(SCOD)に関する最近の研究は、これらの問題の統一的な研究を議論しているが、この問題の正式な基盤はいまだ初期段階であり、既存の技術は本質的にヒューリスティックである。 本稿では,SC および OOD 検出文献からの既存のアプローチを理論的に基礎づけ,有効かつ一般化した SCOD 用プラグイン推定器を提案する。 解析の過程で,既存のSCおよびOOD検出ベースラインがSCODに不適切である可能性について,na\"{i}"{i} の使用方法を正式に説明する。 両文献のベースラインと比較して,本手法が競合SCおよびOOD検出性能を示すことを示す。

Real-world classifiers can benefit from the option of abstaining from predicting on samples where they have low confidence. Such abstention is particularly useful on samples which are close to the learned decision boundary, or which are outliers with respect to the training sample. These settings have been the subject of extensive but disjoint study in the selective classification (SC) and out-of-distribution (OOD) detection literature. Recent work on selective classification with OOD detection (SCOD) has argued for the unified study of these problems; however, the formal underpinnings of this problem are still nascent, and existing techniques are heuristic in nature. In this paper, we propose new plugin estimators for SCOD that are theoretically grounded, effective, and generalise existing approaches from the SC and OOD detection literature. In the course of our analysis, we formally explicate how na\"{i}ve use of existing SC and OOD detection baselines may be inadequate for SCOD. We empirically demonstrate that our approaches yields competitive SC and OOD detection performance compared to baselines from both literatures.
翻訳日:2023-07-26 21:20:24 公開日:2023-07-24
# 局所量子多体力学の統一理論:固有型熱化定理

Unified theory of local quantum many-body dynamics: Eigenoperator thermalization theorems ( http://arxiv.org/abs/2301.07091v2 )

ライセンス: Link先を確認
Berislav Bu\v{c}a(参考訳) 量子多体力学を説明することは物理学の長年の目標である。 任意の次元の局所相互作用系における力学の厳密な作用素代数理論は、時間依存平衡(ギブズ)アンサンブル(英語版)の観点で与えられる。 この理論は閉かつ開かつ時間に依存した系の力学を説明し、関連する擬局所量を特定することができ、時間依存ギブスアンサンブルは量子非エルゴード系とエルゴード系の幅広いクラスを統一する。 この理論は量子多体傷、連続的、離散的、散逸的時間結晶、ヒルベルト空間の断片化、格子ゲージ理論、無秩序な局所化などに応用される。 プロジェクテッド局所(英: projected-local)とは、ある状態に対してのみ局所的であるが、その局所性は有限個の局所密度と過渡的に表されるものではなく、有限時間緩和力学を規定するものである。 直近の回廊は、ドリューデ重みのマズールの飽和を証明している。 この証明された理論は直観的には弱固有状態熱化仮説の厳密な代数的対応であり、熱力学に深い意味を持つ: 量子多体系「平衡外」は常に任意の自然初期状態の時間依存平衡状態である。 この研究は、新たに特定された傷跡と断片化相転移を例に挙げて、新しい平衡相を設計する可能性を開く。

Explaining quantum many-body dynamics is a long-held goal of physics. A rigorous operator algebraic theory of dynamics in locally interacting systems in any dimension is provided here in terms of time-dependent equilibrium (Gibbs) ensembles. The theory explains dynamics in closed, open and time-dependent systems, provided that relevant pseudolocal quantities can be identified, and time-dependent Gibbs ensembles unify wide classes of quantum non-ergodic and ergodic systems. The theory is applied to quantum many-body scars, continuous, discrete and dissipative time crystals, Hilbert space fragmentation, lattice gauge theories, and disorder-free localization, among other cases. Novel pseudolocal classes of operators are introduced in the process: projected-local, which are local only for some states, crypto-local, whose locality is not manifest in terms of any finite number of local densities and transient ones, that dictate finite-time relaxation dynamics. An immediate corollary is proving saturation of the Mazur bound for the Drude weight. This proven theory is intuitively the rigorous algebraic counterpart of the weak eigenstate thermalization hypothesis and has deep implications for thermodynamics: quantum many-body systems 'out-of-equilibrium' are actually always in a time-dependent equilibrium state for any natural initial state. The work opens the possibility of designing novel out-of-equilibrium phases, with the newly identified scarring and fragmentation phase transitions being examples.
翻訳日:2023-07-26 21:19:47 公開日:2023-07-24
# A$^2$-UAV:エッジ支援UAVシステムのアプリケーション対応コンテンツとネットワーク最適化

A$^2$-UAV: Application-Aware Content and Network Optimization of Edge-Assisted UAV Systems ( http://arxiv.org/abs/2301.06363v2 )

ライセンス: Link先を確認
Andrea Coletta, Flavio Giorgi, Gaia Maselli, Matteo Prata, Domenicomichele Silvestri, Jonathan Ashdown and Francesco Restuccia(参考訳) 先進的な監視を行うには、無人航空機(UAV)はエッジアシストコンピュータビジョン(CV)タスクの実行を必要とする。 マルチホップuavネットワークでは、帯域幅の制約が厳しいため、エッジへのタスクの転送が成功した。 そこで我々は,エッジで正しく実行されるタスク数を最適化する新しいA$^2$-UAVフレームワークを提案する。 既存の技術とは対照的に,我々はアプリケーション・アウェア・アプローチを取り入れ,新たな課題計画問題(A$^2$-TPP)を定式化する。 (i)利用可能なデータセットに基づく興味のあるクラスにおけるディープニューラルネットワーク(dnn)の精度と画像圧縮の関係。 (ii)目標位置 三 それぞれのUAVのルーティング、データ前処理及び目標割り当てを最適化するための現在のUAVのエネルギー/配置 A$^2$-TPPがNP-Hardであることを示し、効率よく解く多項式時間アルゴリズムを提案する。 4機のDJI Mavic Air 2 UAVを用いた実世界の実験により,A$^2$-UAVを広く評価した。 我々は、4つの異なるDNNモデル(DenseNet、ResNet152、ResNet50、MobileNet-V2)による最先端の画像分類タスクと、ImageNetデータセットでトレーニングされたYoloV4を用いたオブジェクト検出タスクを検討する。 その結果,A$^2$-UAVは最先端のタスクよりも平均38%多く達成でき,目標数が大幅に増加すると400%のタスクが達成されることがわかった。 完全な再現性を実現するため、私たちはデータセットとコードを研究コミュニティと共有することを約束します。

To perform advanced surveillance, Unmanned Aerial Vehicles (UAVs) require the execution of edge-assisted computer vision (CV) tasks. In multi-hop UAV networks, the successful transmission of these tasks to the edge is severely challenged due to severe bandwidth constraints. For this reason, we propose a novel A$^2$-UAV framework to optimize the number of correctly executed tasks at the edge. In stark contrast with existing art, we take an application-aware approach and formulate a novel pplication-Aware Task Planning Problem (A$^2$-TPP) that takes into account (i) the relationship between deep neural network (DNN) accuracy and image compression for the classes of interest based on the available dataset, (ii) the target positions, (iii) the current energy/position of the UAVs to optimize routing, data pre-processing and target assignment for each UAV. We demonstrate A$^2$-TPP is NP-Hard and propose a polynomial-time algorithm to solve it efficiently. We extensively evaluate A$^2$-UAV through real-world experiments with a testbed composed by four DJI Mavic Air 2 UAVs. We consider state-of-the-art image classification tasks with four different DNN models (i.e., DenseNet, ResNet152, ResNet50 and MobileNet-V2) and object detection tasks using YoloV4 trained on the ImageNet dataset. Results show that A$^2$-UAV attains on average around 38% more accomplished tasks than the state-of-the-art, with 400% more accomplished tasks when the number of targets increases significantly. To allow full reproducibility, we pledge to share datasets and code with the research community.
翻訳日:2023-07-26 21:19:19 公開日:2023-07-24
# フェデレーション学習におけるローカルディファレンシャルプライバシー下でのアクティブメンバーシップ推論攻撃

Active Membership Inference Attack under Local Differential Privacy in Federated Learning ( http://arxiv.org/abs/2302.12685v2 )

ライセンス: Link先を確認
Truc Nguyen, Phung Lai, Khang Tran, NhatHai Phan, My T. Thai(参考訳) フェデレーション学習(fl)はもともと、コーディネートサーバを介してデータプライバシ保護を備えたクライアント間の協調学習のフレームワークとして考えられていた。 本稿では,flにおける不正サーバによる新たなアクティブメンバシップ推論(ami)攻撃を提案する。 AMI攻撃では、サーバが悪意のあるパラメータをグローバルモデルに組み込んで、ターゲットデータサンプルがクライアントのプライベートトレーニングデータに含まれるかどうかを効果的に推測する。 非線形決定境界を通じてデータ特徴間の相関を利用して、AMI攻撃は、厳密な局所的差分プライバシー(LDP)保護の下で極めて高い成功率を達成することができるため、クライアントのトレーニングデータを重大なプライバシーリスクに晒すことができる。 いくつかのベンチマークデータセットの理論的および実験的結果は、攻撃を防ぐために十分なプライバシ保護ノイズを加えると、FLのモデルの有用性を著しく損なうことを示している。

Federated learning (FL) was originally regarded as a framework for collaborative learning among clients with data privacy protection through a coordinating server. In this paper, we propose a new active membership inference (AMI) attack carried out by a dishonest server in FL. In AMI attacks, the server crafts and embeds malicious parameters into global models to effectively infer whether a target data sample is included in a client's private training data or not. By exploiting the correlation among data features through a non-linear decision boundary, AMI attacks with a certified guarantee of success can achieve severely high success rates under rigorous local differential privacy (LDP) protection; thereby exposing clients' training data to significant privacy risk. Theoretical and experimental results on several benchmark datasets show that adding sufficient privacy-preserving noise to prevent our attack would significantly damage FL's model utility.
翻訳日:2023-07-26 21:11:06 公開日:2023-07-24
# 圧縮指数を用いた眼の瞬目における類似性探索

Similarity search in the blink of an eye with compressed indices ( http://arxiv.org/abs/2304.04759v2 )

ライセンス: Link先を確認
Cecilia Aguerrebere, Ishwar Bhati, Mark Hildebrand, Mariano Tepper, Ted Willke(参考訳) 現在、データはベクトルで表現されている。 与えられたクエリに類似した数百万から数十億のベクトルを検索することは、さまざまなアプリケーションに関連する類似性検索として知られるユビキタスな問題である。 グラフベースのインデックスは、現在10億規模の類似性検索で最高のパフォーマンス技術である。 しかし、ランダムアクセスメモリパターンは、その潜在能力をフルに実現するための課題を提示する。 本稿では,より高速で小さなグラフベースのインデックスを作成するための新しい手法とシステムを提案する。 そこで本研究では,ベクトル毎のスケーリングとスカラー量子化を用いて,メモリフットプリントの削減と精度の低下を図りながら,高速な類似性計算と有効帯域幅の削減により探索性能を向上させるベクトル圧縮手法LVQを提案する。 lvqはグラフベースの類似性検索のための新しい高性能コンピューティングシステムと組み合わせて、パフォーマンスとメモリフットプリントの観点から新しい最先端を確立する。 数十億のベクトルに対して、LVQは、(1)低メモリで最大20.7倍のスループットで最大3倍のメモリフットプリントを削減し、(2)高スループットで5.8倍のメモリを削減した。

Nowadays, data is represented by vectors. Retrieving those vectors, among millions and billions, that are similar to a given query is a ubiquitous problem, known as similarity search, of relevance for a wide range of applications. Graph-based indices are currently the best performing techniques for billion-scale similarity search. However, their random-access memory pattern presents challenges to realize their full potential. In this work, we present new techniques and systems for creating faster and smaller graph-based indices. To this end, we introduce a novel vector compression method, Locally-adaptive Vector Quantization (LVQ), that uses per-vector scaling and scalar quantization to improve search performance with fast similarity computations and a reduced effective bandwidth, while decreasing memory footprint and barely impacting accuracy. LVQ, when combined with a new high-performance computing system for graph-based similarity search, establishes the new state of the art in terms of performance and memory footprint. For billions of vectors, LVQ outcompetes the second-best alternatives: (1) in the low-memory regime, by up to 20.7x in throughput with up to a 3x memory footprint reduction, and (2) in the high-throughput regime by 5.8x with 1.4x less memory.
翻訳日:2023-07-26 21:02:57 公開日:2023-07-24
# ゼノ限界を超えた有効熱分解の限界

Bounds on an effective thermalization beyond the Zeno limit ( http://arxiv.org/abs/2304.05843v2 )

ライセンス: Link先を確認
Guilherme Zambon, Diogo O. Soares-Pinto(参考訳) 量子システムにおける情報保存のためのプロトコルの開発は、現実的な量子計算を実装するための中心的な探求である。 この点において、量子ゼノ効果は量子システムに格納された古典的な情報を保護するために広く利用される技術として現れている。 しかし、この方法に関する既存の結果は、興味のあるシステム上で無限に高速に実行される操作を仮定することが多く、実験装置の時間分解能が本質的に有限である実世界のシナリオの近似としてのみ機能する。 本研究では,この従来の仮定を超越し,操作間の任意の時間間隔における有効ゼノダイナミクスを導出する。 解析では、一般化された振幅減衰チャネルによって記述されるように、量子ビットが熱化されるのに対し、演算は、システムが熱化しているポインタ基底と一致する、あるいは一致しない正規直交基底上の射影からなる。 1次補正をゼノリミットにすることで,多くの介入の限界とごくわずかな介入の限界という2つの重要なシナリオにおいて,所定の時間後にビットの情報を格納する可能性を得ることにより,プロトコルの性能を検証した。 そこで我々は,プロトコルの有効性の限界を確立することによって,プロトコルの性能に関する貴重な知見を提供する。 これらの知見は、量子系に格納された古典的情報保存における量子ゼノ効果の実用的適用可能性の理解を深め、量子情報処理プロトコルの設計と最適化を改善する。

Developing protocols for preserving information in quantum systems is a central quest for implementing realistic quantum computation. In this regard, the quantum Zeno effect has emerged as a widely utilized technique to safeguard classical information stored in quantum systems. However, existing results pertaining to this method often assume operations performed infinitely fast on the system of interest, which only serves as an approximation to real-world scenarios where the temporal resolution of any experimental apparatus is inherently finite. In this study, we go beyond this conventional assumption and derive the effective Zeno dynamics for any time interval between operations. Our analysis considers a qubit undergoing thermalization, as described by a generalized amplitude damping channel, while the operations performed consist of projections onto an orthonormal basis that may or may not coincide with the pointer basis to which the system is thermalizing. By obtaining the probability of successfully storing a bit of information after a given time, we investigate the performance of the protocol in two important scenarios: the limit of many interventions, with a first-order correction to the Zeno limit, and the limit of very few interventions. In doing so, we provide valuable insights into the protocol's performance by establishing bounds on its efficacy. These findings enhance our understanding of the practical applicability of the quantum Zeno effect in preserving classical information stored in quantum systems, allowing for better design and optimization of quantum information processing protocols.
翻訳日:2023-07-26 20:50:28 公開日:2023-07-24
# 説明可能で言語非依存なllmに向けて:大規模言語のシンボリックリバースエンジニアリング

Towards Explainable and Language-Agnostic LLMs: Symbolic Reverse Engineering of Language at Scale ( http://arxiv.org/abs/2306.00017v2 )

ライセンス: Link先を確認
Walid S. Saba(参考訳) 大規模言語モデル(llm)は、undenia-blyが多くの人工知能(ai)に対する信念を変えたマイルストーンを達成した。 しかし、深層ニューラルネットワークの下位アーキテクチャの副産物である真の言語理解に関しては、これらのLLMには多くの制限がある。 さらに、それらのサブシンボリックな性質のため、これらのモデルが言語がどのように機能するかに関する知識は、常に何十億ものマイクロファチュア(重み)に埋もれてしまう。 これらの制約に対処するため、我々は記号表現の強さとLLMの成功の鍵となるもの、すなわち大規模言語におけるボトムアップ・リバースエンジニアリングの成功を組み合わせることを提案する。 このように、我々はボトムアップな言語リバースエンジニアリングをシンボリックな設定で議論する。 このプロジェクトのヒントは、何人かの著者によって提案されており、このプロジェクトをどのように達成できるかについて、いくつかの詳細を議論している。

Large language models (LLMs) have achieved a milestone that undenia-bly changed many held beliefs in artificial intelligence (AI). However, there remains many limitations of these LLMs when it comes to true language understanding, limitations that are a byproduct of the under-lying architecture of deep neural networks. Moreover, and due to their subsymbolic nature, whatever knowledge these models acquire about how language works will always be buried in billions of microfeatures (weights), none of which is meaningful on its own, making such models hopelessly unexplainable. To address these limitations, we suggest com-bining the strength of symbolic representations with what we believe to be the key to the success of LLMs, namely a successful bottom-up re-verse engineering of language at scale. As such we argue for a bottom-up reverse engineering of language in a symbolic setting. Hints on what this project amounts to have been suggested by several authors, and we discuss in some detail here how this project could be accomplished.
翻訳日:2023-07-26 20:42:53 公開日:2023-07-24
# Fourier-DeepONet:精度、一般化性、堅牢性を改善したフルウェーブフォームインバージョンのためのフーリエ強化ディープオペレータネットワーク

Fourier-DeepONet: Fourier-enhanced deep operator networks for full waveform inversion with improved accuracy, generalizability, and robustness ( http://arxiv.org/abs/2305.17289v2 )

ライセンス: Link先を確認
Min Zhu, Shihang Feng, Youzuo Lin, Lu Lu(参考訳) フル波形インバージョン(fwi)は非凸最適化問題を解いて地震波形データから地下構造情報を推定する。 データ駆動型fwiは、精度と計算効率を改善するために、様々なニューラルネットワークアーキテクチャで研究されている。 それでも、事前トレーニングされたニューラルネットワークの適用性は、フィールドサーベイで使用されるソース関数とトレーニング中に使用されるソース関数との潜在的な相違によって厳しく制限されている。 本稿では,震源の周波数や位置を一般化したFWIのためのフーリエ強化深度演算ネットワーク(Fourier-DeepONet)を開発した。 具体的には、DeepONetのデコーダとしてフーリエニューラル演算子を用い、ソースパラメータをFourier-DeepONetの一入力として利用し、可変ソースによるFWIの分解を容易にする。 Fourier-DeepONetをテストするために,FWI-F,FWI-L,FWI-FLの3つの新しいFWIベンチマークデータセットを開発した。 実験により,既存のデータ駆動型FWI法と比較して,Fourier-DeepONetはより高精度な地下構造予測を行うことができた。 さらに,提案手法では,ガウスノイズや欠落したトレースやガウスノイズの音源を扱う場合のロバスト性が向上し,より信頼性が高く正確な地下イメージングが可能となった。

Full waveform inversion (FWI) infers the subsurface structure information from seismic waveform data by solving a non-convex optimization problem. Data-driven FWI has been increasingly studied with various neural network architectures to improve accuracy and computational efficiency. Nevertheless, the applicability of pre-trained neural networks is severely restricted by potential discrepancies between the source function used in the field survey and the one utilized during training. Here, we develop a Fourier-enhanced deep operator network (Fourier-DeepONet) for FWI with the generalization of seismic sources, including the frequencies and locations of sources. Specifically, we employ the Fourier neural operator as the decoder of DeepONet, and we utilize source parameters as one input of Fourier-DeepONet, facilitating the resolution of FWI with variable sources. To test Fourier-DeepONet, we develop three new and realistic FWI benchmark datasets (FWI-F, FWI-L, and FWI-FL) with varying source frequencies, locations, or both. Our experiments demonstrate that compared with existing data-driven FWI methods, Fourier-DeepONet obtains more accurate predictions of subsurface structures in a wide range of source parameters. Moreover, the proposed Fourier-DeepONet exhibits superior robustness when handling data with Gaussian noise or missing traces and sources with Gaussian noise, paving the way for more reliable and accurate subsurface imaging across diverse real conditions.
翻訳日:2023-07-26 20:42:11 公開日:2023-07-24
# NormBank: 状況的社会的ノルムの知識銀行

NormBank: A Knowledge Bank of Situational Social Norms ( http://arxiv.org/abs/2305.17008v2 )

ライセンス: Link先を確認
Caleb Ziems, Jane Dwivedi-Yu, Yi-Chia Wang, Alon Halevy and Diyi Yang(参考訳) 我々は155万の状況規範の知識銀行であるNormBankを紹介します。 このリソースは、インタラクティブで補助的で協調的なAIシステムのための柔軟な規範的推論の基礎として設計されている。 従来のコモンセンスのリソースとは違って、NormBankは、設定(レストランなど)、エージェントの随伴役割(ウェイター、顧客)、属性(年齢、性別)、その他の物理的、社会的、文化的制約(例えば、温度や活動国)を含む、多価の社会文化的枠内で、推論を行う。 NormBankには、ここで導入し反復的に洗練する分類学の制約が63万件含まれている。 制約は異なる組み合わせで社会規範を定めている。 これらの操作では、ノルムはモノトニックではない。フレームを少し更新することで推論をキャンセルすることができる。 それでも、ニューラルモデルがNormBankのスコープとカバレッジを確実に拡張できる証拠を見つける。 さらに, 一連の移動実験により, この資源の有用性を実証する。

We present NormBank, a knowledge bank of 155k situational norms. This resource is designed to ground flexible normative reasoning for interactive, assistive, and collaborative AI systems. Unlike prior commonsense resources, NormBank grounds each inference within a multivalent sociocultural frame, which includes the setting (e.g., restaurant), the agents' contingent roles (waiter, customer), their attributes (age, gender), and other physical, social, and cultural constraints (e.g., the temperature or the country of operation). In total, NormBank contains 63k unique constraints from a taxonomy that we introduce and iteratively refine here. Constraints then apply in different combinations to frame social norms. Under these manipulations, norms are non-monotonic - one can cancel an inference by updating its frame even slightly. Still, we find evidence that neural models can help reliably extend the scope and coverage of NormBank. We further demonstrate the utility of this resource with a series of transfer experiments.
翻訳日:2023-07-26 20:41:43 公開日:2023-07-24
# 確率的疫学モデルの軌道指向最適化

Trajectory-oriented optimization of stochastic epidemiological models ( http://arxiv.org/abs/2305.03926v2 )

ライセンス: Link先を確認
Arindam Fadikar, Mickael Binois, Nicholson Collier, Abby Stevens, Kok Ben Toh, Jonathan Ozik(参考訳) 疫学モデルでは、前方の投射やwhat-ifシナリオの実行など、下流のタスクの真理を判断するために調整する必要がある。 このようなモデルからの出力は一般にアンサンブルまたは分布を介して記述されるため、確率モデルの場合の校正の意味は変化する。 アンサンブルの各メンバーは、通常ランダム数シード(明示的または暗黙的に)にマッピングされる。 入力パラメータの設定だけでなく、基底的真理と一致するランダムな種を見つけることを目的として、トンプソンサンプリングに基づく最適化戦略とともに、ガウス過程(gp)のクラスを提案する。 この軌道指向最適化(TOO)アプローチは、平均シミュレーションの振る舞いが基底真実と一致するパラメータ設定のセットではなく、経験的観測に近い実際の軌道を生成する。

Epidemiological models must be calibrated to ground truth for downstream tasks such as producing forward projections or running what-if scenarios. The meaning of calibration changes in case of a stochastic model since output from such a model is generally described via an ensemble or a distribution. Each member of the ensemble is usually mapped to a random number seed (explicitly or implicitly). With the goal of finding not only the input parameter settings but also the random seeds that are consistent with the ground truth, we propose a class of Gaussian process (GP) surrogates along with an optimization strategy based on Thompson sampling. This Trajectory Oriented Optimization (TOO) approach produces actual trajectories close to the empirical observations instead of a set of parameter settings where only the mean simulation behavior matches with the ground truth.
翻訳日:2023-07-26 20:39:47 公開日:2023-07-24
# リーブ格子のアップダウン対称性のない連続体におけるトロイダル双極子結合状態の融合

Merging toroidal dipole bound states in the continuum without up-down symmetry in Lieb lattice metasurfaces ( http://arxiv.org/abs/2307.06132v2 )

ライセンス: Link先を確認
Guodong Zhu, Sen Yang and Justus C. Ndukaife(参考訳) 連続体(BIC)における境界状態の重要性は、理論上無限の品質因子のポテンシャルにある。 しかし、実際の品質要因は製造の不完全性によって制限され、放射線連続体と結合する。 本研究では,リーブ格子に基づく統合BIC体制を導入することにより,この問題に対処する新しい手法を提案する。 この手法を用いることで, 面外散乱損失を効果的に抑制し, 加工品に対する構造物の堅牢性を高める。 特に、従来のマージシステムとは異なり、我々の設計は準曲面のアップダウン対称性に依存していない。 この特性は、マイクロ流体デバイスのような異なる光学特性を持つ基板や超格子を含む応用において、より柔軟性を与える。 さらに, サイドバンドギャップミラーを設計に組み込んでBIC構造をカプセル化する。 このミラーは、有限サイズ効果による面内放射の抑制に役立ち、品質係数の顕著な10倍の改善をもたらす。 その結果、リーブ格子フォトニック結晶ミラーで囲まれたBIC準曲面は、26.6×26.6の小さなフットプリントを維持しながら、非常に高品質な105を達成できた。 本研究は, コンパクト構造内のBICのトポロジカルな性質を活かした魅力あるプラットフォームを構築した。 このプラットフォームは、光学トラップ、光流体学、高感度バイオ検出など、様々な応用に大いに期待でき、これらの分野で新たな可能性を開く。

The significance of bound states in the continuum (BICs) lies in their potential for theoretically infinite quality factors. However, their actual quality factors are limited by imperfections in fabrication, which lead to coupling with the radiation continuum. In this study, we present a novel approach to address this issue by introducing a merging BIC regime based on a Lieb lattice. By utilizing this approach, we effectively suppress the out-of-plane scattering loss, thereby enhancing the robustness of the structure against fabrication artifacts. Notably, unlike previous merging systems, our design does not rely on the up-down symmetry of metasurfaces. This characteristic grants more flexibility in applications that involve substrates and superstrates with different optical properties, such as microfluidic devices. Furthermore, we incorporate a lateral band gap mirror into the design to encapsulate the BIC structure. This mirror serves to suppress the in-plane radiation resulting from finite-size effects, leading to a remarkable ten-fold improvement in the quality factor. Consequently, our merged BIC metasurface, enclosed by the Lieb lattice photonic crystal mirror, achieves an exceptionally high-quality factor of 105 while maintaining a small footprint of 26.6X26.6 um. Our findings establish an appealing platform that capitalizes on the topological nature of BICs within compact structures. This platform holds great promise for various applications, including optical trapping, optofluidics, and high-sensitivity biodetection, opening up new possibilities in these fields.
翻訳日:2023-07-26 20:22:01 公開日:2023-07-24
# 交通予測モデルにおける不確かさの定量化と一般化性向上のためのベイズ的アプローチ

A Bayesian approach to quantifying uncertainties and improving generalizability in traffic prediction models ( http://arxiv.org/abs/2307.05946v2 )

ライセンス: Link先を確認
Agnimitra Sengupta, Sudeepta Mondal, Adway Das, S. Ilgin Guler(参考訳) 交通データ予測のためのディープラーニングモデルは、多層アーキテクチャを用いた複雑な関数のモデリングにおいて優れた性能を持つ。 しかし、これらのアプローチの大きな欠点は、これらのアプローチのほとんどが不確実性推定による予測を提供していないことである。 不確実性推定がなければ、モデル予測に信頼レベルを付けることは困難であり、過信予測に依存する運用戦略は交通状況の悪化につながる可能性がある。 本研究では,隠れた層にスペクトル正規化を導入することで,より一般化可能な交通予測における不確実性定量化のためのベイズ繰り返しニューラルネットワークフレームワークを提案する。 本稿では,モデルの複雑さを制御し,トレーニングデータへの過剰適合のリスクを低減し,ディープニューラルネットワークのトレーニングプロセスを変化させることを示す。 これにより、アウト・オブ・ディストリビューションデータセット上でのモデルの一般化性能が向上する。 その結果、スペクトル正規化は不確実性推定を改善でき、単段予測地平線の正規化を伴わない層正規化とモデルの両方を著しく上回ることがわかった。 この改良された性能は、摂動下でのデータの特徴空間をよりよくローカライズするスペクトル正規化の能力に起因する。 特に交通管理の分野では,複数地点にわたる交通状況の予測が目的であるが,複数の地点からのトレーニングデータの利用は限られている。 したがって、スペクトル正規化は、位置特化モデルを必要としないトラフィックデータの基本パターンを効果的にキャプチャできる、より一般化可能なアプローチを提供する。

Deep-learning models for traffic data prediction can have superior performance in modeling complex functions using a multi-layer architecture. However, a major drawback of these approaches is that most of these approaches do not offer forecasts with uncertainty estimates, which are essential for traffic operations and control. Without uncertainty estimates, it is difficult to place any level of trust to the model predictions, and operational strategies relying on overconfident predictions can lead to worsening traffic conditions. In this study, we propose a Bayesian recurrent neural network framework for uncertainty quantification in traffic prediction with higher generalizability by introducing spectral normalization to its hidden layers. In our paper, we have shown that normalization alters the training process of deep neural networks by controlling the model's complexity and reducing the risk of overfitting to the training data. This, in turn, helps improve the generalization performance of the model on out-of-distribution datasets. Results demonstrate that spectral normalization improves uncertainty estimates and significantly outperforms both the layer normalization and model without normalization in single-step prediction horizons. This improved performance can be attributed to the ability of spectral normalization to better localize the feature space of the data under perturbations. Our findings are especially relevant to traffic management applications, where predicting traffic conditions across multiple locations is the goal, but the availability of training data from multiple locations is limited. Spectral normalization, therefore, provides a more generalizable approach that can effectively capture the underlying patterns in traffic data without requiring location-specific models.
翻訳日:2023-07-26 20:21:36 公開日:2023-07-24
# マルチスケールmpu-netによる3次元医用画像分割

3D Medical Image Segmentation based on multi-scale MPU-Net ( http://arxiv.org/abs/2307.05799v2 )

ライセンス: Link先を確認
Zeqiu.Yu, Shuo.Han, Ziheng.Song(参考訳) 癌治療率の上昇は医師の診断と治療の正確さと不可分に結びついているため,多くの医療分野において,高精度の腫瘍分画を実現できるモデルが求められている。 誤診率を効果的に下げると同時に、臨床医の負担を大幅に軽減することができる。 しかし, 3次元容積臓器の立体構造が不規則であるため, 全自動目標臓器分割が問題となる。 このクラスの実際のアプリケーションの基本モデルとして、U-Netは優れている。 グローバルな特徴や局所的な特徴を学習できるが、空間的長距離関係や文脈情報を複数のスケールで把握する能力は乏しい。 本稿では,大域的注意機構を持つ Transformer にインスパイアされたCT画像に対する腫瘍分割モデル MPU-Net を提案する。 画像のシリアライゼーションと位置注意モジュールを組み合わせることで、より深いコンテキスト依存を理解し、正確な位置決めを実現する。 デコーダの各レイヤには、マルチスケールモジュールとクロスアテンション機構も備えられている。 異なるレベルにおける特徴抽出と統合の能力が向上し,本研究で開発されたハイブリッド損失関数は,高分解能特性情報をより活用することができる。 さらに, 肝腫瘍分画チャレンジ2017(lits 2017)データセットを用いて, 提案アーキテクチャをテストし, 評価した。 ベンチマークモデルであるU-Netと比較して、MPU-Netは優れたセグメンテーション結果を示す。 最良のモデルのセグメンテーション結果に対するdice、精度、特異度、iou、mccの指標はそれぞれ92.17%、99.08%、91.91%、99.52%、85.91%、そして91.74%である。 さまざまな面で優れた指標は、このフレームワークが自動医療画像セグメンテーションにおける例外的な性能を示している。

The high cure rate of cancer is inextricably linked to physicians' accuracy in diagnosis and treatment, therefore a model that can accomplish high-precision tumor segmentation has become a necessity in many applications of the medical industry. It can effectively lower the rate of misdiagnosis while considerably lessening the burden on clinicians. However, fully automated target organ segmentation is problematic due to the irregular stereo structure of 3D volume organs. As a basic model for this class of real applications, U-Net excels. It can learn certain global and local features, but still lacks the capacity to grasp spatial long-range relationships and contextual information at multiple scales. This paper proposes a tumor segmentation model MPU-Net for patient volume CT images, which is inspired by Transformer with a global attention mechanism. By combining image serialization with the Position Attention Module, the model attempts to comprehend deeper contextual dependencies and accomplish precise positioning. Each layer of the decoder is also equipped with a multi-scale module and a cross-attention mechanism. The capability of feature extraction and integration at different levels has been enhanced, and the hybrid loss function developed in this study can better exploit high-resolution characteristic information. Moreover, the suggested architecture is tested and evaluated on the Liver Tumor Segmentation Challenge 2017 (LiTS 2017) dataset. Compared with the benchmark model U-Net, MPU-Net shows excellent segmentation results. The dice, accuracy, precision, specificity, IOU, and MCC metrics for the best model segmentation results are 92.17%, 99.08%, 91.91%, 99.52%, 85.91%, and 91.74%, respectively. Outstanding indicators in various aspects illustrate the exceptional performance of this framework in automatic medical image segmentation.
翻訳日:2023-07-26 20:21:10 公開日:2023-07-24
# グラディエントグラフラプラシア正規化器を用いたレチネックスベース画像デノイング/コントラスト強調

Retinex-based Image Denoising / Contrast Enhancement using Gradient Graph Laplacian Regularizer ( http://arxiv.org/abs/2307.02625v2 )

ライセンス: Link先を確認
Yeganeh Gharedaghi, Gene Cheung, Xianming Liu(参考訳) 低照度で撮影された画像は、しばしば取得ノイズによって腐敗する。 グラフベース正規化の最近の進歩を生かして,画像の復調とコントラスト向上を行う高速Retinexベースの復元手法を提案する。 具体的には、retinex理論により、まず各ピクセルは反射率と照明成分の乗算であると仮定する。 次に、反射率と照明成分は、それぞれグラフ Laplacian regularizer (GLR) および勾配グラフ Laplacian regularizer (GGLR) を介して復元できる、分割定数 (PWC) および連続片幅平面 (PWP) 信号であると仮定する。 glr と gglr によって正規化された二次目的を定式化し、共役勾配 (cg) を効率的に解いて線形系を解いて収束するまで交互に最小化する。 実験結果から,本アルゴリズムは計算複雑性を著しく低減しつつ,競争力のある画像品質を実現することが示された。

Images captured in poorly lit conditions are often corrupted by acquisition noise. Leveraging recent advances in graph-based regularization, we propose a fast Retinex-based restoration scheme that denoises and contrast-enhances an image. Specifically, by Retinex theory we first assume that each image pixel is a multiplication of its reflectance and illumination components. We next assume that the reflectance and illumination components are piecewise constant (PWC) and continuous piecewise planar (PWP) signals, which can be recovered via graph Laplacian regularizer (GLR) and gradient graph Laplacian regularizer (GGLR) respectively. We formulate quadratic objectives regularized by GLR and GGLR, which are minimized alternately until convergence by solving linear systems -- with improved condition numbers via proposed preconditioners -- via conjugate gradient (CG) efficiently. Experimental results show that our algorithm achieves competitive visual image quality while reducing computation complexity noticeably.
翻訳日:2023-07-26 20:20:16 公開日:2023-07-24
# 深層学習による繊維状材料の顕微鏡像における木材種検出と分類の自動化

Automating Wood Species Detection and Classification in Microscopic Images of Fibrous Materials with Deep Learning ( http://arxiv.org/abs/2307.09588v2 )

ライセンス: Link先を確認
Lars Nieradzik, J\"ordis Sieburg-Rockel, Stephanie Helmling, Janis Keuper, Thomas Weibel, Andrea Olbrich, Henrike Stephani(参考訳) そこで本研究では,9種の硬木属に対する画像データ生成に用いたマセレーテッドウッド参照の大規模画像データセットを体系的に生成する手法を開発した。 これは、深層学習による繊維質材料の顕微鏡像における硬材種の同定を初めて自動化するための、実質的なアプローチの基礎である。 提案手法は,血管要素のアノテーションを容易にする柔軟なパイプラインを含んでいる。 異なるニューラルネットワークアーキテクチャとハイパーパラメータのパフォーマンスを比較する。 提案手法は人間の専門家とよく似ている。 将来的には森林保護のため、グローバルな木繊維製品フローの制御を改善する。

We have developed a methodology for the systematic generation of a large image dataset of macerated wood references, which we used to generate image data for nine hardwood genera. This is the basis for a substantial approach to automate, for the first time, the identification of hardwood species in microscopic images of fibrous materials by deep learning. Our methodology includes a flexible pipeline for easy annotation of vessel elements. We compare the performance of different neural network architectures and hyperparameters. Our proposed method performs similarly well to human experts. In the future, this will improve controls on global wood fiber product flows to protect forests.
翻訳日:2023-07-26 20:13:45 公開日:2023-07-24
# DeepMem: ストレージチャネルとしてのMLモデルとその(ミス)応用

DeepMem: ML Models as storage channels and their (mis-)applications ( http://arxiv.org/abs/2307.08811v2 )

ライセンス: Link先を確認
Md Abdullah Al Mamun, Quazi Mishkatul Alam, Erfan Shaigani, Pedram Zaree, Ihsen Alouani, Nael Abu-Ghazaleh(参考訳) 機械学習(ML)モデルは、一般性をサポートし、過剰適合を避けるために過パラメータ化される。 以前の研究は、これらの追加パラメータが悪意のある(例えば、訓練されたモデル内にモデルを隠蔽する)ことと、有益な(例えば、モデルの透かし)の両方に使用できることを示した。 本稿では, mlモデルについて, 過パラメータ化に伴って増加する容量を有するストレージチャネルとして, 新たな情報理論的な視点を提案する。 具体的には、トレーニング時にモデルに任意の情報を埋め込み、ブラックボックスでデプロイされたモデルにアクセスした受信者によって抽出できる送信者について検討する。 利用可能なパラメータの数に基づいてチャネルの容量の上限を導出する。 次に、攻撃者が許可するプリミティブをブラックボックスで書き読みます。 (i)送信側のトレーニングデータを増強することにより、モデルを最適化した方法でデータを保存すること、及び (ii) モデルがデプロイされた後に問い合わせて読むこと。 また,書き込みプリミティブの検出可能性を分析し,情報記憶の隠ぺいを考慮した新しい問題を考える。 具体的には,書き込みプリミティブに使用されるデータ拡張が,初期(ベースラインタスク)分布による分散シフトを最小限に抑えるように,新たな制約を導入する。 この制約は、最初のタスクと"干渉"のレベルを導入し、チャネルの効果的なキャパシティを制限する。 そこで本研究では,新しいml固有の置換型誤り訂正プロトコルを含むキャパシティ向上のための最適化手法を開発した。 この問題のモデリングはMLの潜在的な脆弱性をよりよく理解し緩和するための新しいツールを提供すると我々は信じている。

Machine learning (ML) models are overparameterized to support generality and avoid overfitting. Prior works have shown that these additional parameters can be used for both malicious (e.g., hiding a model covertly within a trained model) and beneficial purposes (e.g., watermarking a model). In this paper, we propose a novel information theoretic perspective of the problem; we consider the ML model as a storage channel with a capacity that increases with overparameterization. Specifically, we consider a sender that embeds arbitrary information in the model at training time, which can be extracted by a receiver with a black-box access to the deployed model. We derive an upper bound on the capacity of the channel based on the number of available parameters. We then explore black-box write and read primitives that allow the attacker to: (i) store data in an optimized way within the model by augmenting the training data at the transmitter side, and (ii) to read it by querying the model after it is deployed. We also analyze the detectability of the writing primitive and consider a new version of the problem which takes information storage covertness into account. Specifically, to obtain storage covertness, we introduce a new constraint such that the data augmentation used for the write primitives minimizes the distribution shift with the initial (baseline task) distribution. This constraint introduces a level of "interference" with the initial task, thereby limiting the channel's effective capacity. Therefore, we develop optimizations to improve the capacity in this case, including a novel ML-specific substitution based error correction protocol. We believe that the proposed modeling of the problem offers new tools to better understand and mitigate potential vulnerabilities of ML, especially in the context of increasingly large models.
翻訳日:2023-07-26 20:12:56 公開日:2023-07-24
# 複合生物社会対策 : 生活システムとしての地域福祉の評価

Mixbiotic society measures: Assessment of community well-going as living system ( http://arxiv.org/abs/2307.11594v2 )

ライセンス: Link先を確認
Takeshi Kato, Jyunichi Miyakoshi, Tadayuki Matsumura, Ryuji Mine, Hiroyuki Mizuno, Yasuo Deguchi(参考訳) 社会的孤立は共同体の貧困(アトミズム)によって引き起こされ、断片化はグループ内(モビズム)の拡大によって引き起こされる。 これらの問題を解決するため、哲学の世界では、自由と多様な価値を持つ個人が混ざり合って、それぞれの「基礎的無能」を認識し、連帯する「混生社会」の概念が提唱されている。 本研究は, 生体現象をシミュレートする細胞オートマトンと粒子反応拡散の分類を参考に, 動的コミュニケーションパターンを評価するための新しい混合生物社会尺度を提案する。 具体的には、4つのクラスに対応する尺度の仮説を定式化し、コミュニケーションの生成と消失をシミュレーションして仮説を検証する。 その結果, コミュニケーションパターンを多次元ベクトルとして考えると, 「モビズム」のユークリッド距離の平均, 「原子主義」の相対的変化の分散, 「混合主義」のコサイン類似度の平均と分散を乗じる複合尺度, 「混合主義」のほぼゼロの尺度が適していることがわかった。 そして,これらの尺度を用いて7つの実社会データセットを評価した結果,混合性尺度はコミュニケーションの生活性を評価するのに有用であり,複数の尺度に基づいてコミュニティをタイプできることを示した。 本研究で確立された尺度は,動的パターンの評価が可能であり,計算が容易であり,その意味を解釈しやすいという従来の分析よりも優れている。 今後の発展としては、デジタル民主主義とプラットフォーム協力主義の分野において、望ましい社会に向けたミックスバイオティクス社会対策が使われる。

Social isolation is caused by the impoverishment of community (atomism) and fragmentation is caused by the enlargement of in-group (mobism), both of which can be viewed as social problems related to communication. To solve these problems, the philosophical world has proposed the concept of "mixbiotic society," in which individuals with freedom and diverse values mix and mingle to recognize their respective "fundamental incapability" each other and sublimate into solidarity. Based on this concept, this study proposes new mixbiotic society measures to evaluate dynamic communication patterns with reference to classification in cellular automata and particle reaction diffusion that simulate living phenomena. Specifically, the hypothesis of measures corresponding to the four classes was formulated, and the hypothesis was validated by simulating the generation and disappearance of communication. As a result, considering communication patterns as multidimensional vectors, it found that the mean of Euclidean distance for "mobism," the variance of the relative change in distance for "atomism," the composite measure that multiplies the mean and variance of cosine similarity for "mixism," which corresponds to the well-going of mixbiotic society, and the almost zero measures for "nihilism," are suitable. Then, evaluating seven real-society datasets using these measures, we showed that the mixism measure is useful for assessing the livingness of communication, and that it is possible to typify communities based on plural measures. The measures established in this study are superior to conventional analysis in that they can evaluate dynamic patterns, they are simple to calculate, and their meanings are easy to interpret. As a future development, the mixbiotic society measures will be used in the fields of digital democracy and platform cooperativism toward a desirable society.
翻訳日:2023-07-26 20:03:55 公開日:2023-07-24
# 暗黙的内在性下における密度マッチングによる合成制御法

Synthetic Control Methods by Density Matching under Implicit Endogeneity ( http://arxiv.org/abs/2307.11127v2 )

ライセンス: Link先を確認
Masahiro Kato and Akari Ohda and Masaaki Imaizumi and Kenichiro McAlinn(参考訳) 合成制御法(scms)は比較事例研究において因果推論の重要なツールとなっている。 SCMの基本的な考え方は、未処理単位の観測結果の重み付け和を用いて、処理単位の対実結果を評価することである。 合成制御 (SC) の精度は因果効果を推定するために重要であり, SC重量の推定が多くの研究の焦点となっている。 本稿では,まず,既存のscmが非処理単位の結果と反事実的結果のモデルにおける誤差項の相関関係である暗黙的内在性問題に苦しむことを指摘した。 この問題は因果効果推定器にバイアスをもたらすことを示した。 次に,非処理単位の密度(すなわち混合モデル)の重み付け平均値によって処理単位の出力密度を近似できることを仮定して,密度マッチングに基づく新しいscmを提案する。 この仮定に基づき,治療結果のモーメントと未治療結果のモーメントの重み付け和を一致させてsc重みを推定する。 提案手法は既存手法よりも3つの利点がある。 まず, 混合モデルの仮定により, 推定器は漸近的に偏りがない。 第2に,漸近的不偏性により,反事実予測の平均二乗誤差を低減できる。 第3に, 本手法は, 期待値だけでなく, 処理効果の完全な密度を生成し, SCMの適用範囲を広げる。 提案手法の有効性を実証するための実験結果を提供する。

Synthetic control methods (SCMs) have become a crucial tool for causal inference in comparative case studies. The fundamental idea of SCMs is to estimate counterfactual outcomes for a treated unit by using a weighted sum of observed outcomes from untreated units. The accuracy of the synthetic control (SC) is critical for estimating the causal effect, and hence, the estimation of SC weights has been the focus of much research. In this paper, we first point out that existing SCMs suffer from an implicit endogeneity problem, which is the correlation between the outcomes of untreated units and the error term in the model of a counterfactual outcome. We show that this problem yields a bias in the causal effect estimator. We then propose a novel SCM based on density matching, assuming that the density of outcomes of the treated unit can be approximated by a weighted average of the densities of untreated units (i.e., a mixture model). Based on this assumption, we estimate SC weights by matching moments of treated outcomes and the weighted sum of moments of untreated outcomes. Our proposed method has three advantages over existing methods. First, our estimator is asymptotically unbiased under the assumption of the mixture model. Second, due to the asymptotic unbiasedness, we can reduce the mean squared error for counterfactual prediction. Third, our method generates full densities of the treatment effect, not only expected values, which broadens the applicability of SCMs. We provide experimental results to demonstrate the effectiveness of our proposed method.
翻訳日:2023-07-26 20:02:28 公開日:2023-07-24
# ガウス混合系におけるロングテール理論

Long-Tail Theory under Gaussian Mixtures ( http://arxiv.org/abs/2307.10736v2 )

ライセンス: Link先を確認
Arman Bolatov, Maxat Tezekbayev, Igor Melnykov, Artur Pak, Vassilina Nikoulina and Zhenisbek Assylbekov(参考訳) フェルドマンのロングテール理論(2020年)に準拠したデータ生成のための単純なガウス混合モデルを提案する。 線形分類器は,提案モデルの一定レベル以下では一般化誤差を低減できないが,記憶容量を有する非線形分類器は可能である。 これは、長い尾の分布に対して、新しいデータへの最適な一般化のために稀なトレーニング例を考慮しなければならないことを裏付ける。 最後に, 合成データおよび実データ実験により確認されるように, 尾部がサブポピュレーション周波数分布において短くなるにつれて, 線形モデルと非線形モデルの性能ギャップが小さくなることを示す。

We suggest a simple Gaussian mixture model for data generation that complies with Feldman's long tail theory (2020). We demonstrate that a linear classifier cannot decrease the generalization error below a certain level in the proposed model, whereas a nonlinear classifier with a memorization capacity can. This confirms that for long-tailed distributions, rare training examples must be considered for optimal generalization to new data. Finally, we show that the performance gap between linear and nonlinear models can be lessened as the tail becomes shorter in the subpopulation frequency distribution, as confirmed by experiments on synthetic and real data.
翻訳日:2023-07-26 20:01:45 公開日:2023-07-24
# 共同音声と重複検出:複数の音声設定と音声領域のベンチマーク

Joint speech and overlap detection: a benchmark over multiple audio setup and speech domains ( http://arxiv.org/abs/2307.13012v1 )

ライセンス: Link先を確認
Martin Lebourdais (LIUM), Th\'eo Mariotte (LIUM, LAUM), Marie Tahon (LIUM), Anthony Larcher (LIUM), Antoine Laurent (LIUM), Silvio Montresor (LAUM), Sylvain Meignier (LIUM), Jean-Hugh Thomas (LAUM)(参考訳) 話者ダイアリゼーションにおける音声活動と重なり合う音声検出(VADとOSD)は重要な前処理タスクである。 最終的なセグメンテーション性能は、これらのサブタスクの堅牢性に大きく依存している。 近年の研究では、VADとOSDを多クラス分類モデルを用いて共同で訓練できることが示されている。 しかし、これらの作品はしばしば特定の音声領域に限定され、システムの一般化能力に関する情報を欠いている。 本稿では,複数のオーディオ設定(シングル/マルチチャネル)と音声領域(メディア,ミーティングなど)に基づいて,異なるVADモデルとOSDモデルの完全かつ新しいベンチマークを提案する。 我々の2/3クラスシステムは、時間的畳み込みネットワークと設定に適応した音声表現を組み合わせ、最先端の結果より優れている。 これら2つのタスクの共同トレーニングは、トレーニングコストを削減しつつ、F1スコアから2つの専用VADおよびOSDシステムに類似したパフォーマンスを提供することを示す。 このユニークなアーキテクチャは、シングルチャネルおよびマルチチャネル音声処理にも利用できる。

Voice activity and overlapped speech detection (respectively VAD and OSD) are key pre-processing tasks for speaker diarization. The final segmentation performance highly relies on the robustness of these sub-tasks. Recent studies have shown VAD and OSD can be trained jointly using a multi-class classification model. However, these works are often restricted to a specific speech domain, lacking information about the generalization capacities of the systems. This paper proposes a complete and new benchmark of different VAD and OSD models, on multiple audio setups (single/multi-channel) and speech domains (e.g. media, meeting...). Our 2/3-class systems, which combine a Temporal Convolutional Network with speech representations adapted to the setup, outperform state-of-the-art results. We show that the joint training of these two tasks offers similar performances in terms of F1-score to two dedicated VAD and OSD systems while reducing the training cost. This unique architecture can also be used for single and multichannel speech processing.
翻訳日:2023-07-26 19:35:17 公開日:2023-07-24
# グラフニューラルネットワークにおけるプーリングのための最大独立セット

Maximal Independent Sets for Pooling in Graph Neural Networks ( http://arxiv.org/abs/2307.13011v1 )

ライセンス: Link先を確認
Stevan Stanovic (ENSICAEN, UNICAEN), Benoit Ga\"uz\`ere (INSA Rouen Normandie, UNIROUEN, ULH, LITIS), Luc Brun (ENSICAEN, UNICAEN)(参考訳) 畳み込みニューラルネットワーク(cnns)は畳み込みとプールによる画像分類において大きな進歩をもたらした。 特に、イメージプーリングは、接続された離散格子を同じ接続性を持つ縮小格子に変換し、画像中の全てのピクセルを縮小関数で考えることができる。 しかし、グラフのこれらの性質を満たすプールは存在しない。 実際、従来のグラフプーリング手法では、グラフ切断や過剰接続、デシメーション比の低さ、グラフの大きな部分の削除といった、少なくとも1つの欠点に苦しめられている。 本稿では,これらの落とし穴を避けるために,最大独立集合の概念に基づく3つのプーリング手法を提案する。 実験により,グラフプーリングにおける最大独立集合制約の関連性を確認した。

Convolutional Neural Networks (CNNs) have enabled major advances in image classification through convolution and pooling. In particular, image pooling transforms a connected discrete lattice into a reduced lattice with the same connectivity and allows reduction functions to consider all pixels in an image. However, there is no pooling that satisfies these properties for graphs. In fact, traditional graph pooling methods suffer from at least one of the following drawbacks: Graph disconnection or overconnection, low decimation ratio, and deletion of large parts of graphs. In this paper, we present three pooling methods based on the notion of maximal independent sets that avoid these pitfalls. Our experimental results confirm the relevance of maximal independent set constraints for graph pooling.
翻訳日:2023-07-26 19:35:02 公開日:2023-07-24
# ディープニューラルネットワークによる乳癌の多発性リスクスコアの推定の改善

Deep neural network improves the estimation of polygenic risk scores for breast cancer ( http://arxiv.org/abs/2307.13010v1 )

ライセンス: Link先を確認
Adrien Badr\'e, Li Zhang, Wellington Muchero, Justin C. Reynolds, Chongle Pan(参考訳) ポリジェニックリスクスコア(PRS)は、ゲノム全体にわたる多くの遺伝的変異に基づいて、複雑な疾患の個体の遺伝的リスクを推定する。 本研究では,乳がんPRSの推定のための一連の計算モデルを比較した。 ディープニューラルネットワーク(DNN)は、代替機械学習技術を上回っ、BLUP、BayesA、LDpredといった統計アルゴリズムを確立した。 50%の有病率を持つ試験コホートでは、受信機の動作特性であるCurve(AUC)が67.4%、BLUPが64.2%、BayesAが64.5%、LDpredが62.4%であった。 BLUP, BayesA, LPpredはすべてPSSを発生させ, 正常な分布を示した。 しかし、DNNが生成したPSSは、異なる方法で2つの正規分布からなる2モーダル分布に従っていた。 このことから,dnnは,対照群より有意に高い平均prsを持つ高遺伝的リスクケースサブポピュレーションと,対照群に類似した平均prsを持つ正常-ジェネティックリスクケースサブポピュレーションにケース人口を分離することができたことが示唆された。 これにより、dnnは、90%の精度で18.8%のリコールを達成でき、50%のリコール率で、65.4%のリコール率、12%の一般人口で20%のリコール率で外挿することができる。 DNNモデルの解釈では,有意なp値が割り当てられる有能な変種が認められたが,DNN予測には重要であった。 これらの変異は、非線型関係を通して表現型に関連付けられる。

Polygenic risk scores (PRS) estimate the genetic risk of an individual for a complex disease based on many genetic variants across the whole genome. In this study, we compared a series of computational models for estimation of breast cancer PRS. A deep neural network (DNN) was found to outperform alternative machine learning techniques and established statistical algorithms, including BLUP, BayesA and LDpred. In the test cohort with 50% prevalence, the Area Under the receiver operating characteristic Curve (AUC) were 67.4% for DNN, 64.2% for BLUP, 64.5% for BayesA, and 62.4% for LDpred. BLUP, BayesA, and LPpred all generated PRS that followed a normal distribution in the case population. However, the PRS generated by DNN in the case population followed a bi-modal distribution composed of two normal distributions with distinctly different means. This suggests that DNN was able to separate the case population into a high-genetic-risk case sub-population with an average PRS significantly higher than the control population and a normal-genetic-risk case sub-population with an average PRS similar to the control population. This allowed DNN to achieve 18.8% recall at 90% precision in the test cohort with 50% prevalence, which can be extrapolated to 65.4% recall at 20% precision in a general population with 12% prevalence. Interpretation of the DNN model identified salient variants that were assigned insignificant p-values by association studies, but were important for DNN prediction. These variants may be associated with the phenotype through non-linear relationships.
翻訳日:2023-07-26 19:34:51 公開日:2023-07-24
# Whisperモデルの児童音声認識への適用

Adaptation of Whisper models to child speech recognition ( http://arxiv.org/abs/2307.13008v1 )

ライセンス: Link先を確認
Rishabh Jain and Andrei Barcovschi and Mariam Yiwere and Peter Corcoran and Horia Cucu(参考訳) 自動音声認識(asr)システムは、子供にやさしいasrモデルの正確な訓練に必要な大きな音声データセットの欠如により、子供の音声の書き起こしに苦慮することが多い。 しかし、アノテートされたアダルト音声データセットは、whisperのような多言語asrモデルの作成に使われた。 本研究は,これらのモデルが子どものasrを改善するために,子どもの発話に適応できるかどうかを検討することを目的とした。 さらに,wav2vec2 のような微調整された自己教師付きモデルと比較した。 幼児音声におけるWhisperの微調整は、非微調整Whisperモデルと比較して、子供音声におけるASR性能を著しく向上させることを示した。 さらに、子どもの発話で微調整された自己教師型Wav2vec2モデルは、Whisperの微調整よりも優れている。

Automatic Speech Recognition (ASR) systems often struggle with transcribing child speech due to the lack of large child speech datasets required to accurately train child-friendly ASR models. However, there are huge amounts of annotated adult speech datasets which were used to create multilingual ASR models, such as Whisper. Our work aims to explore whether such models can be adapted to child speech to improve ASR for children. In addition, we compare Whisper child-adaptations with finetuned self-supervised models, such as wav2vec2. We demonstrate that finetuning Whisper on child speech yields significant improvements in ASR performance on child speech, compared to non finetuned Whisper models. Additionally, utilizing self-supervised Wav2vec2 models that have been finetuned on child speech outperforms Whisper finetuning.
翻訳日:2023-07-26 19:34:24 公開日:2023-07-24
# スパイク符号化を用いたスパイクニューラルネットワークのスパースフィリング正規化法

Sparse-firing regularization methods for spiking neural networks with time-to-first spike coding ( http://arxiv.org/abs/2307.13007v1 )

ライセンス: Link先を確認
Yusuke Sakemi, Kakei Yamamoto, Takeo Hosomi, Kazuyuki Aihara(参考訳) エラーバックプロパゲーションアルゴリズムを用いた多層スパイキングニューラルネットワーク(SNN)のトレーニングは,近年大きく進歩している。 様々なトレーニングスキームの中で,ニューロンの発火時間を直接使用する誤りバックプロパゲーション法は,理想的な時間的符号化を実現するために注目されている。 この方法では、各ニューロンが最大1回発火するTTFS(time-to-first spike)符号化を用い、発射回数の制限により、非常に低い発火周波数で情報を処理できる。 この低発火周波数は、SNNにおける情報処理のエネルギー効率を高めるが、これは脳の情報処理と似ているだけでなく、工学的な観点からも重要である。 しかし、TTFS符号化SNNには上限しか与えられておらず、低発火周波数でのSNNの情報処理能力は十分に研究されていない。 本稿では,TTFS符号化SNNの発火頻度をさらに低減するために,2つのスパイクタイミングベーススパースファイリング(SSR)正則化手法を提案する。 1つ目は膜電位認識SSR(M-SSR)法であり、これは膜電位値の損失関数の極端な形として導出されている。 2つ目は、点火条件から得られる正則化関数である点火条件対応SSR(F-SSR)法である。 どちらの方法も、発射タイミングと関連する重量に関する情報のみを必要とするという事実が特徴である。 これらの正則化法がMNIST, Fashion-MNIST, CIFAR-10データセットに与える影響を多層パーセプトロンネットワークと畳み込みニューラルネットワーク構造を用いて検討した。

The training of multilayer spiking neural networks (SNNs) using the error backpropagation algorithm has made significant progress in recent years. Among the various training schemes, the error backpropagation method that directly uses the firing time of neurons has attracted considerable attention because it can realize ideal temporal coding. This method uses time-to-first spike (TTFS) coding, in which each neuron fires at most once, and this restriction on the number of firings enables information to be processed at a very low firing frequency. This low firing frequency increases the energy efficiency of information processing in SNNs, which is important not only because of its similarity with information processing in the brain, but also from an engineering point of view. However, only an upper limit has been provided for TTFS-coded SNNs, and the information-processing capability of SNNs at lower firing frequencies has not been fully investigated. In this paper, we propose two spike timing-based sparse-firing (SSR) regularization methods to further reduce the firing frequency of TTFS-coded SNNs. The first is the membrane potential-aware SSR (M-SSR) method, which has been derived as an extreme form of the loss function of the membrane potential value. The second is the firing condition-aware SSR (F-SSR) method, which is a regularization function obtained from the firing conditions. Both methods are characterized by the fact that they only require information about the firing timing and associated weights. The effects of these regularization methods were investigated on the MNIST, Fashion-MNIST, and CIFAR-10 datasets using multilayer perceptron networks and convolutional neural network structures.
翻訳日:2023-07-26 19:34:08 公開日:2023-07-24
# ベルの不等式における量子重力の影

The shadows of quantum gravity on Bell's inequality ( http://arxiv.org/abs/2307.13006v1 )

ライセンス: Link先を確認
H. Moradpour and S. Jalalzadeh(参考訳) 重力の量子的側面の存在下での量子力学的作用素の妥当性は、それらは真を保たず一般化を必要とするため、調査の対象である。 本研究の重要な目的の1つは、そのような一般化が量子力学に固有でベルの不等式に現れる非局所性に与える影響を検討することである。 この研究のもう一つの側面は、確立されたベルの不等式に対して、ゼロでない最小長を導入する結果を分析することである。 この研究の知見は、量子力学と重力の相互作用の理論的理解に寄与することが期待される。

The validity of quantum mechanical operators in the presence of quantum aspects of gravity is a subject of investigation since they may not hold true and require generalization. One of the key objectives of the present study is to examine the impact of such generalizations on the non-locality that is inherent in quantum mechanics and manifests itself in Bell's inequality. Another aspect of the study is to analyze the consequences of introducing a non-zero minimal length for the well-established Bell's inequality. The findings of this research are expected to contribute to the theoretical understanding of the interplay between quantum mechanics and gravity.
翻訳日:2023-07-26 19:33:38 公開日:2023-07-24
# IteraTTA: テキスト音声モデルによる音楽生成におけるテキストプロンプトとオーディオ先行の両方を探索するインターフェース

IteraTTA: An interface for exploring both text prompts and audio priors in generating music with text-to-audio models ( http://arxiv.org/abs/2307.13005v1 )

ライセンス: Link先を確認
Hiromu Yakura and Masataka Goto(参考訳) 近年のテキスト音声生成技術は、初心者が自由に音楽音声を生成できる可能性を持っている。 和音の進行や楽器などの音楽的な知識がなくても、ユーザーは様々なテキストプロンプトを試して音声を生成することができる。 しかし、画像領域と比較して、ユーザが生成したオーディオのバリエーションを同時に聴くことができないため、可能なオーディオの空間を明確に理解することは困難である。 したがって、テキストプロンプトだけでなく、テキストからオーディオへの音楽生成プロセスを制約するオーディオプリミティブの探索を支援する。 この両面探索により、ユーザは異なるテキストプロンプトとオーディオ先行が生成結果に与える影響を反復的に比較することで判別することができる。 開発したインターフェースであるIeraTTAは、ユーザがテキストプロンプトを精細化し、生成したオーディオから好ましいオーディオを選択できるように特別に設計されている。 これにより、ユーザは、考えられる結果の空間を理解し、探索しながら、ゆるやかに特定された目標に到達することができる。 実装と議論は,テキスト音声モデルに特に求められる設計上の考察と,インタラクション技術がそれらの効果にどのように寄与するかを強調する。

Recent text-to-audio generation techniques have the potential to allow novice users to freely generate music audio. Even if they do not have musical knowledge, such as about chord progressions and instruments, users can try various text prompts to generate audio. However, compared to the image domain, gaining a clear understanding of the space of possible music audios is difficult because users cannot listen to the variations of the generated audios simultaneously. We therefore facilitate users in exploring not only text prompts but also audio priors that constrain the text-to-audio music generation process. This dual-sided exploration enables users to discern the impact of different text prompts and audio priors on the generation results through iterative comparison of them. Our developed interface, IteraTTA, is specifically designed to aid users in refining text prompts and selecting favorable audio priors from the generated audios. With this, users can progressively reach their loosely-specified goals while understanding and exploring the space of possible results. Our implementation and discussions highlight design considerations that are specifically required for text-to-audio models and how interaction techniques can contribute to their effectiveness.
翻訳日:2023-07-26 19:33:28 公開日:2023-07-24
# DeepGATGO:タンパク質機能自動予測のための階層型事前学習グラフアテンションモデル

DeepGATGO: A Hierarchical Pretraining-Based Graph-Attention Model for Automatic Protein Function Prediction ( http://arxiv.org/abs/2307.13004v1 )

ライセンス: Link先を確認
Zihao Li, Changkun Jiang, and Jianqiang Li(参考訳) 自動タンパク質機能予測(automatic protein function prediction, afp)は、タンパク質濃縮分析の自動化を目的とした大規模マルチラベル分類問題である。 現在、一般的な方法はタンパク質関連情報と遺伝子オントロジー(GO)用語を組み合わせて最終機能予測を生成する。 例えば、タンパク質配列、構造情報、タンパク質-タンパク質相互作用ネットワークは、GO項の埋め込みと融合し、最終的な予測結果を生成する事前知識として統合される。 しかし、これらの手法は構造情報やネットワークトポロジ情報を得るのが困難であることや、データの正確性によって制限される。 そのため、タンパク質の機能予測にタンパク質配列のみを用いる手法がますます提案され、より信頼性が高く、計算的に安価なアプローチである。 しかし,既存の手法では本質的特徴を十分に考慮していないため,タンパク質配列やラベルデータから特徴情報を完全に抽出できない。 そこで我々は,タンパク質配列とGO項ラベルを階層的に処理し,グラフアテンションネットワーク(GAT)とコントラスト学習を用いてタンパク質機能予測を行う,シーケンスベースの階層的予測手法であるDeepGATGOを提案する。 具体的には,事前学習したモデルを用いてシーケンスおよびラベルデータの埋め込みを計算し,計算コストを削減し,埋め込み精度を向上させる。 次に、gatsを用いて非ユークリッドデータの構造情報を動的に抽出し、正のサンプルと負のサンプルを構築して対比学習によりラベルデータセットの一般特徴を学習する。 実験の結果,大規模データセットのgo項エンリッチメント解析において,提案モデルの方がスケーラビリティが向上することが示された。

Automatic protein function prediction (AFP) is classified as a large-scale multi-label classification problem aimed at automating protein enrichment analysis to eliminate the current reliance on labor-intensive wet-lab methods. Currently, popular methods primarily combine protein-related information and Gene Ontology (GO) terms to generate final functional predictions. For example, protein sequences, structural information, and protein-protein interaction networks are integrated as prior knowledge to fuse with GO term embeddings and generate the ultimate prediction results. However, these methods are limited by the difficulty in obtaining structural information or network topology information, as well as the accuracy of such data. Therefore, more and more methods that only use protein sequences for protein function prediction have been proposed, which is a more reliable and computationally cheaper approach. However, the existing methods fail to fully extract feature information from protein sequences or label data because they do not adequately consider the intrinsic characteristics of the data itself. Therefore, we propose a sequence-based hierarchical prediction method, DeepGATGO, which processes protein sequences and GO term labels hierarchically, and utilizes graph attention networks (GATs) and contrastive learning for protein function prediction. Specifically, we compute embeddings of the sequence and label data using pre-trained models to reduce computational costs and improve the embedding accuracy. Then, we use GATs to dynamically extract the structural information of non-Euclidean data, and learn general features of the label dataset with contrastive learning by constructing positive and negative example samples. Experimental results demonstrate that our proposed model exhibits better scalability in GO term enrichment analysis on large-scale datasets.
翻訳日:2023-07-26 19:33:09 公開日:2023-07-24
# 量子通信におけるrf-光変換用低ノイズ光電気機械変調器

Low Noise Opto-Electro-Mechanical Modulator for RF-to-Optical Transduction in Quantum Communications ( http://arxiv.org/abs/2307.13049v1 )

ライセンス: Link先を確認
Michele Bonaldi, Antonio Borrielli, Giovanni Di Giuseppe, Nicola Malossi, Bruno Morana, Riccardo Natali, Paolo Piergentili, Pasqualina Maria Sarro, Enrico Serra, David Vitali(参考訳) 本研究では,超コヒーレントナノ膜共振器を用いて実現したRF-光伝送用オプト・エレクトロ・メカニカル・モジュレータ(OEMM)を,マイクロファブリケートされたリードアウトからなるrfインジェクション回路に容量的に結合し,電気-オプトメカニカル相互作用を改善する。 この装置構成は、オプト・エレクトロメカニカル相互作用を利用した希釈冷凍機において、LC回路の電磁冷却のためのファブリ・ペロキャビティに埋め込むことができる。 この目的のために、30Vの偏極電圧で380Hzの定常周波数シフトを光学的に測定し、室温で10^6ドル以上の組み立て装置のQドル係数を測定した。 rfスパッタした窒化チタン層を超伝導して効率的な量子変換器を開発することができる。

In this work, we present an Opto-Electro-Mechanical Modulator (OEMM) for RF-to-optical transduction realized via an ultra-coherent nanomembrane resonator capacitively coupled to an rf injection circuit made of a microfabricated read-out able to improve the electro-optomechanical interaction. This device configuration can be embedded in a Fabry-Perot cavity for electromagnetic cooling of the LC circuit in a dilution refrigerator exploiting the opto-electro-mechanical interaction. To this aim, an optically measured steady-state frequency shift of 380 Hz was seen with a polarization voltage of 30 V and a $Q$-factor of the assembled device above $10^6$ at room temperature. The rf-sputtered titanium nitride layer can be made superconductive to develop efficient quantum~transducers.
翻訳日:2023-07-26 19:24:37 公開日:2023-07-24
# 無限置換群と量子力学の起源

Infinite Permutation Groups and the Origin of Quantum Mechanics ( http://arxiv.org/abs/2307.13044v1 )

ライセンス: Link先を確認
Pavlos Kazakopoulos and Georgios Regkas(参考訳) 我々は、ビルホフとフォン・ノイマンの [1] の質問に答え、物理理論の実験的な命題の格子の中での出会いと結合の解釈を提案する。 格子が原子論的であるとき、第一次論理における有限関係構造の定義可能閉集合の格子に同型である。 実験的な命題を原子位相空間の部分集合にマッピングするという意味では、 meet は集合交叉に対応し、join は集合和の定義可能な閉包である。 関係構造は、原子層上の格子自己同型群の作用によって定義される。 この物理理論と無限群作用の対応性を調べると、自己同型群は幾何学的ジョルダン群として知られる置換群の族に属しなければならないことを示す。 次に、ジョーダン群の分類定理を用いて、確率と原子論の組合せ要求は(射影空間が標準的な例である)無限のシュタイナー2-系を、粒子量子力学の格子を生成する唯一の選択肢のクラスとして残すと主張する。

We propose an interpretation for the meets and joins in the lattice of experimental propositions of a physical theory, answering a question of Birkhoff and von Neumann in [1]. When the lattice is atomistic, it is isomorphic to the lattice of definably closed sets of a finitary relational structure in First Order Logic. In terms of mapping experimental propositions to subsets of the atomic phase space, the meet corresponds to set intersection, while the join is the definable closure of set union. The relational structure is defined by the action of the lattice automorphism group on the atomic layer. Examining this correspondence between physical theories and infinite group actions, we show that the automorphism group must belong to a family of permutation groups known as geometric Jordan groups. We then use the classification theorem for Jordan groups to argue that the combined requirements of probability and atomicism leave uncountably infinite Steiner 2-systems (of which projective spaces are standard examples) as the sole class of options for generating the lattice of particle Quantum Mechanics.
翻訳日:2023-07-26 19:24:23 公開日:2023-07-24
# Googleの装飾されたXXZ回路における積分性破壊とバウンド状態

Integrability breaking and bound states in Google's decorated XXZ circuits ( http://arxiv.org/abs/2307.13042v1 )

ライセンス: Link先を確認
Ana Hudomal, Ryan Smith, Andrew Hallam, Zlatko Papi\'c(参考訳) Google [Nature 612, 240 (2022)]による最近の量子シミュレーションは、XXZスピン鎖の量子回路バージョンにおける相互作用する光子の束縛状態の形成を実証した。 そのような境界状態は一次元チェーンの可積分性によって保護されるが、実験では、回路を少なくとも少数の量子ビット (\leq 24$) に対して追加の量子ビットで装飾することで、可積分性が破られると予期せぬほど頑健であることが判明した。 ここでは,実験的なシステムサイズをはるかに超えた最先端の古典的シミュレーションにより,この結果を検証し,大規模回路における今後の研究のベンチマークを提供する。 有限個の光子からなる境界状態は、無限の時間と無限の系の大きさの限界までスケールした後でも、非可積分状態において確かに強固である。 さらに、これらの系は、ランダム行列理論の予測から逸脱するレベル統計を持つ特異なスペクトル特性を持つことを示す。 一方、光子の密度は低いが有限であり、熱化の開始はずっと早く、境界状態の署名は著しく弱くなり、異常なダイナミクスは熱力学的極限における光子の密度がゼロである希薄な系の特性にすぎなくなることを示唆している。 境界状態のロバスト性は、装飾キュービットの数にも影響され、空間配置の規則性にも影響される。

Recent quantum simulation by Google [Nature 612, 240 (2022)] has demonstrated the formation of bound states of interacting photons in a quantum-circuit version of the XXZ spin chain. While such bound states are protected by integrability in a one-dimensional chain, the experiment found the bound states to be unexpectedly robust when integrability was broken by decorating the circuit with additional qubits, at least for small numbers of qubits ($\leq 24$) within the experimental capability. Here we scrutinize this result by state-of-the-art classical simulations, which greatly exceed the experimental system sizes and provide a benchmark for future studies in larger circuits. We find that the bound states consisting of a small and finite number of photons are indeed robust in the non-integrable regime, even after scaling to the infinite time and infinite system size limit. Moreover, we show that such systems possess unusual spectral properties, with level statistics that deviates from the random matrix theory expectation. On the other hand, for low but finite density of photons, we find a much faster onset of thermalization and significantly weaker signatures of bound states, suggesting that anomalous dynamics may only be a property of dilute systems with zero density of photons in the thermodynamic limit. The robustness of the bound states is also influenced by the number of decoration qubits and, to a lesser degree, by the regularity of their spatial arrangement.
翻訳日:2023-07-26 19:24:05 公開日:2023-07-24
# U(1)-Symmetric Hybrid Circuit of Qubitsにおける電荷と絡み合い臨界

Charge and Entanglement Criticality in a U(1)-Symmetric Hybrid Circuit of Qubits ( http://arxiv.org/abs/2307.13038v1 )

ライセンス: Link先を確認
Ahana Chakraborty, Kun Chen, Aidan Zabalo, Justin H. Wilson, J. H. Pixley(参考訳) U(1)保存電荷で進化する非単位量子回路における絡み合いおよび電荷吸収測定誘起相転移の臨界特性について検討した。 多くの臨界特性は一般の非保存ケースとパーコレーションとは区別されるが、臨界特性を絡み合いと電荷強調遷移の両方の混合物として解釈すると、多くの臨界特徴は一般の場合の範囲内にもたらされる。 それでも、絡み合い遷移の多重フラクタル的性質は、U(1)対称性による一意な普遍性クラスを示す対称性を持たない一般の場合とは相変わらず異なる。 我々は,様々なアンシラ測度を用いて絡み合い臨界指数と相関関数を計算し,マルチフラクタリティのための伝達行列を用い,電荷シャープ化に関連する相関関数を計算し,これらの知見を説明する。 これらの相関子を通して、この遷移に対する幅広い批判的ファンを同時に主張するベレジンスキー=コステリッツ=トゥーレス型(堅さの予測された「ジャンプ」を含む)の電荷共有遷移と一致する証拠も見つかる。 結果として、この系における臨界特性を測定する試みは、重なり合う臨界と一致した異常に大きな指数が現れる。

We study critical properties of the entanglement and charge-sharpening measurement-induced phase transitions in a non-unitary quantum circuit evolving with a U(1) conserved charge. Many critical properties appear distinct from the generic non-conserving case and percolation; however, upon interpreting the critical features as mixtures of both entanglement and charge-sharpening transitions, many critical features are brought within range of the generic case. Nonetheless, the multifractal properties of the entanglement transition remain distinct from the generic case without any symmetry, indicating a unique universality class due to the U(1) symmetry. We compute entanglement critical exponents and correlation functions via various ancilla measures, use a transfer matrix for multifractality, and compute correlators associated with charge sharpening to explain these findings. Through these correlators, we also find evidence consistent with the charge-sharpening transition being of the Berezinskii-Kosterlitz-Thouless type (including the predicted "jump" in stiffness), which simultaneously argues for a broad critical fan for this transition. As a result, attempts to measure critical properties in this system will see anomalously large exponents consistent with overlapping criticality.
翻訳日:2023-07-26 19:23:38 公開日:2023-07-24
# 結合量子古典力学シミュレーションのための高精度スケーリングの改善

Improved precision scaling for simulating coupled quantum-classical dynamics ( http://arxiv.org/abs/2307.13033v1 )

ライセンス: Link先を確認
Sophia Simon, Raffaele Santagati, Matthias Degroote, Nikolaj Moll, Michael Streif, Nathan Wiebe(参考訳) 本稿では,古典量子系の量子シミュレーションの高精度スケーリングにおける超多項式改善について述べる。 このような系は例えばボルン=オッペンハイマー近似の分子動力学シミュレーションで見られる。 クープマン・ヴォン・ノイマン形式主義に基づく枠組みを用いて、リウヴィル運動方程式をユニタリ力学として表現し、動的量子シミュレーションから位相キックバックを用いて古典粒子に作用する量子力を計算する。 このアプローチにより、古典的コンピュータ上での勾配の計測や運動方程式の解くオーバーヘッドなしにこれらの粒子の動力学をシミュレートすることができ、空間複雑性の増大に超多項的な利点をもたらす。 これらのシミュレーションは, マイクロカノニカルアンサンブルとカノニカルアンサンブルの両方で行うことができ, 準備された確率密度から熱力学特性を推定できることを示した。

We present a super-polynomial improvement in the precision scaling of quantum simulations for coupled classical-quantum systems in this paper. Such systems are found, for example, in molecular dynamics simulations within the Born-Oppenheimer approximation. By employing a framework based on the Koopman-von Neumann formalism, we express the Liouville equation of motion as unitary dynamics and utilize phase kickback from a dynamical quantum simulation to calculate the quantum forces acting on classical particles. This approach allows us to simulate the dynamics of these particles without the overheads associated with measuring gradients and solving the equations of motion on a classical computer, resulting in a super-polynomial advantage at the price of increased space complexity. We demonstrate that these simulations can be performed in both microcanonical and canonical ensembles, enabling the estimation of thermodynamic properties from the prepared probability density.
翻訳日:2023-07-26 19:23:14 公開日:2023-07-24
# ワンショットホログラフィー

One-shot holography ( http://arxiv.org/abs/2307.13032v1 )

ライセンス: Link先を確認
Chris Akers, Adam Levine, Geoff Penington, Elizabeth Wildenhain(参考訳) 2008.03319] の作業に続いて、境界領域 $B$ の一般共変最大絡み合いウェッジを定義する。 同様に同変のミンエンタングルメントウェッジを定義し、これはバウンダリ状態に$B$で影響を及ぼすバルク領域であると推測する。 この予想に必要となる様々な性質、例えばネスティング、因果的くさびの包含、そして適切な特別な場合における通常の量子極端表面処方の縮小などに従うことが証明される。 これらの証明は、我々が予想する(制限された)量子焦点予想(qfc)のワンショットバージョンに依存している。 この QFC は、一発一般化第二法則(GSL)と量子ブッソ境界を意味する。 さらに、特定の半古典的極限において、代数的手法を用いてこのワンショット GSL を直接証明する。 最後に、結果を引き出すために、ワンショット量子シャノン理論の枠組みと状態特異的な再構成を有限次元フォン・ノイマン代数に拡張し、非自明な中心を可能にする。

Following the work of [2008.03319], we define a generally covariant max-entanglement wedge of a boundary region $B$, which we conjecture to be the bulk region reconstructible from $B$. We similarly define a covariant min-entanglement wedge, which we conjecture to be the bulk region that can influence the boundary state on $B$. We prove that the min- and max-entanglement wedges obey various properties necessary for this conjecture, such as nesting, inclusion of the causal wedge, and a reduction to the usual quantum extremal surface prescription in the appropriate special cases. These proofs rely on one-shot versions of the (restricted) quantum focusing conjecture (QFC) that we conjecture to hold. We argue that this QFC implies a one-shot generalized second law (GSL) and quantum Bousso bound. Moreover, in a particular semiclassical limit we prove this one-shot GSL directly using algebraic techniques. Finally, in order to derive our results, we extend both the frameworks of one-shot quantum Shannon theory and state-specific reconstruction to finite-dimensional von Neumann algebras, allowing nontrivial centers.
翻訳日:2023-07-26 19:22:58 公開日:2023-07-24
# 非ユニタリチャネルによるディジタル量子シミュレーションの改善

Improved Digital Quantum Simulation by Non-Unitary Channels ( http://arxiv.org/abs/2307.13028v1 )

ライセンス: Link先を確認
W. Gong, Yaroslav Kharkov, Minh C. Tran, Przemyslaw Bienias, Alexey V. Gorshkov(参考訳) 量子システムのシミュレーションは、量子コンピュータの計算能力を活用する最も有望な方法の1つである。 しかし、ノイズの多い短期デバイスにおけるハードウェアエラーは、アプリケーションにとって大きな障害である。 スズキ・トロッター積の公式のランダム化に基づくアイデアは、量子シミュレーションの誤差を減らし、ゲート数を減らすための強力なアプローチであることが示されている。 本稿では,非単元シミュレーションチャネルの性能について検討し,一元回路の重み付け平均から構築したチャネルの誤差構造について考察する。 シミュレーション回路を数回上回る平均化は、単一ステップのショートタイムと複数ステップの長時間のシミュレーションにおいて、トロッタライズ誤差を大幅に低減できることを示す。 我々は、平均化のための回路アンサンブルを構築するための2つのアプローチに焦点をあてる。 i) ハミルトニアンおよびハミルトニアンにおける項の順序を置換すること (II)大域対称性変換の集合を適用する。 分析誤差境界を経験的性能と比較し,ほとんどの場合,経験的誤差低減が解析的推定を上回っていることを示す。 最後に、本手法をamazon braketクラウドプラットフォーム経由でアクセスするionqトラップイオン量子コンピュータ上でテストし、平均化手法の性能をベンチマークする。

Simulating quantum systems is one of the most promising avenues to harness the computational power of quantum computers. However, hardware errors in noisy near-term devices remain a major obstacle for applications. Ideas based on the randomization of Suzuki-Trotter product formulas have been shown to be a powerful approach to reducing the errors of quantum simulation and lowering the gate count. In this paper, we study the performance of non-unitary simulation channels and consider the error structure of channels constructed from a weighted average of unitary circuits. We show that averaging over just a few simulation circuits can significantly reduce the Trotterization error for both single-step short-time and multi-step long-time simulations. We focus our analysis on two approaches for constructing circuit ensembles for averaging: (i) permuting the order of the terms in the Hamiltonian and (ii) applying a set of global symmetry transformations. We compare our analytical error bounds to empirical performance and show that empirical error reduction surpasses our analytical estimates in most cases. Finally, we test our method on an IonQ trapped-ion quantum computer accessed via the Amazon Braket cloud platform, and benchmark the performance of the averaging approach.
翻訳日:2023-07-26 19:22:37 公開日:2023-07-24
# 低リソース言語とドメイン固有言語によるコーディングのためのllmの可能性

The potential of LLMs for coding with low-resource and domain-specific programming languages ( http://arxiv.org/abs/2307.13018v1 )

ライセンス: Link先を確認
Artur Tarassow(参考訳) 本稿では,LLM 処理に要するデータ量に欠ける低リソース・ドメイン固有プログラミング言語を用いて,大規模言語モデル (LLM) を用いたコーディングの実現可能性について検討する。 本研究は,オープンソースソフトウェア gretl の hansl という econometric scripting language に着目し,gpt-3.5 に基づいた独自の llm を採用している。 この結果から,LLMは,関数の記述ドクストリングの生成や,抽象的かつ文書的でないエコノメトリコードの正確な説明などを含む,グレトリックコードの記述,理解,改善,文書化に有用なツールであることが示唆された。 LLMはドクストリング・トゥ・コード翻訳の能力を示したが、コードの特定の部分を改善することができないことや正確な単体テストを書くことができないことなど、いくつかの制限も示した。 この研究は、低リソースのプログラミング言語におけるソフトウェア開発を促進するためにLLMのパワーを活用するためのステップであり、最終的には導入の障壁を低くする。

This paper presents a study on the feasibility of using large language models (LLM) for coding with low-resource and domain-specific programming languages that typically lack the amount of data required for effective LLM processing techniques. This study focuses on the econometric scripting language named hansl of the open-source software gretl and employs a proprietary LLM based on GPT-3.5. Our findings suggest that LLMs can be a useful tool for writing, understanding, improving, and documenting gretl code, which includes generating descriptive docstrings for functions and providing precise explanations for abstract and poorly documented econometric code. While the LLM showcased promoting docstring-to-code translation capability, we also identify some limitations, such as its inability to improve certain sections of code and to write accurate unit tests. This study is a step towards leveraging the power of LLMs to facilitate software development in low-resource programming languages and ultimately to lower barriers to entry for their adoption.
翻訳日:2023-07-26 19:22:17 公開日:2023-07-24
# プログラム間の変数マッピングのためのグラフニューラルネットワーク -- 拡張バージョン

Graph Neural Networks For Mapping Variables Between Programs -- Extended Version ( http://arxiv.org/abs/2307.13014v1 )

ライセンス: Link先を確認
Pedro Orvalho and Jelle Piepenbrock and Mikol\'a\v{s} Janota and Vasco Manquinho(参考訳) プログラムの自動解析は、コンピュータ科学の多くの分野、特にフォーマルメソッドと人工知能において重要な研究領域である。 プログラム等価性の問題の不確定性のため、2つのプログラムを比較することは極めて困難である。 通常、2つのプログラムを比較するためには、両方のプログラムの変数セットの関係が必要である。 したがって、2つのプログラム間の変数のマッピングは、プログラム等価性、プログラム解析、プログラム修復、クローン検出などのタスクのパノパリーに有用である。 本研究では,両プログラムの抽象構文木(AST)に基づく2つのプログラム間の変数の集合をグラフニューラルネットワーク(GNN)でマッピングする手法を提案する。 変数マッピングの強みを示すため,初級プログラミング課題(IPAs)において,初心者プログラマの間でよく調査された,繰り返し発生するバグを修正するためのプログラム修復作業に,これらのマッピングのユースケースを3つ提示する。 4166組の不正/訂正プログラムのデータセットにおける実験結果から,評価データセットの83%を正しくマッピングできることがわかった。 また,プログラムの修復に関する現状は,プログラムの構造に大きく依存しているため,不正確なプログラムの約72%しか修復できないことを示した。 対照的に、変数マッピングのみに基づくアプローチでは、約88.5%を修復できる。

Automated program analysis is a pivotal research domain in many areas of Computer Science -- Formal Methods and Artificial Intelligence, in particular. Due to the undecidability of the problem of program equivalence, comparing two programs is highly challenging. Typically, in order to compare two programs, a relation between both programs' sets of variables is required. Thus, mapping variables between two programs is useful for a panoply of tasks such as program equivalence, program analysis, program repair, and clone detection. In this work, we propose using graph neural networks (GNNs) to map the set of variables between two programs based on both programs' abstract syntax trees (ASTs). To demonstrate the strength of variable mappings, we present three use-cases of these mappings on the task of program repair to fix well-studied and recurrent bugs among novice programmers in introductory programming assignments (IPAs). Experimental results on a dataset of 4166 pairs of incorrect/correct programs show that our approach correctly maps 83% of the evaluation dataset. Moreover, our experiments show that the current state-of-the-art on program repair, greatly dependent on the programs' structure, can only repair about 72% of the incorrect programs. In contrast, our approach, which is solely based on variable mappings, can repair around 88.5%.
翻訳日:2023-07-26 19:21:57 公開日:2023-07-24
# 拘束型MOEA/Dハイブリダイゼーションによる方向整合と局所整合の解探索性能の改善

Improved Solution Search Performance of Constrained MOEA/D Hybridizing Directional Mating and Local Mating ( http://arxiv.org/abs/2307.13013v1 )

ライセンス: Link先を確認
Masahiro Kanazaki, Takeharu Toyoda(参考訳) 本研究では,多目的進化アルゴリズムに対する制約処理手法であるdirect mating法の改良を,局所的交配法とハイブリダイズすることにより提案する。 局所交配は、初期選択された親の周りの実現可能な解空間から別の親を選択する。 直接交配方法は、第1の親が選択された後も、目的空間の最適方向に沿って他の親を選択する。 NSGA-IIを結合した制約最適化問題の探索性能が向上するが、最適方向に複数の個人を必要とする。 第1親からの最適方向が支配するより良い解がないため、生成が進むにつれて直接交配が困難になる。 この問題に対処するため,我々は,親が選択した親の近傍から親を選別し,良質な解の多様性を維持し,直接交配プロセスを支援するハイブリッド手法を提案する。 提案手法は, パレート面が一意な3つの数学的問題と, 実世界の2つの応用について評価する。 性能評価基準として,ハイパーボリュームの平均値と標準偏差の生成履歴を用いた。 提案手法は,高い多様性を維持しつつ,既存の手法よりも優れた制約多目的問題を解決できることを示す。

In this study, we propose an improvement to the direct mating method, a constraint handling approach for multi-objective evolutionary algorithms, by hybridizing it with local mating. Local mating selects another parent from the feasible solution space around the initially selected parent. The direct mating method selects the other parent along the optimal direction in the objective space after the first parent is selected, even if it is infeasible. It shows better exploration performance for constraint optimization problems with coupling NSGA-II, but requires several individuals along the optimal direction. Due to the lack of better solutions dominated by the optimal direction from the first parent, direct mating becomes difficult as the generation proceeds. To address this issue, we propose a hybrid method that uses local mating to select another parent from the neighborhood of the first selected parent, maintaining diversity around good solutions and helping the direct mating process. We evaluate the proposed method on three mathematical problems with unique Pareto fronts and two real-world applications. We use the generation histories of the averages and standard deviations of the hypervolumes as the performance evaluation criteria. Our investigation results show that the proposed method can solve constraint multi-objective problems better than existing methods while maintaining high diversity.
翻訳日:2023-07-26 19:21:36 公開日:2023-07-24
# デモグラフィー・スカース・レジームによるフェアネス

Fairness Under Demographic Scarce Regime ( http://arxiv.org/abs/2307.13081v1 )

ライセンス: Link先を確認
Patrik Joslin Kenfack, Samira Ebrahimi Kahou, Ulrich A\"ivodji(参考訳) フェアネスに関する既存の研究のほとんどは、モデルが人口統計情報に完全にアクセスできると仮定している。 しかし、データ収集全体やプライバシー上の理由から記録が維持されていなかったため、人口統計情報が部分的に利用できるシナリオもある。 この設定は人口減少体制として知られている。 以前の研究では、欠落した機密属性(プロキシ)を置き換えるために属性分類器をトレーニングすることが、公平性を改善することが示されている。 しかし、プロキシに敏感な属性を使用することは、真に敏感な属性と比較して公正なトレードオフを悪化させる。 この制限に対処するため、フェアネス・精度のトレードオフを改善する属性分類器を構築するためのフレームワークを提案する。 本手法は属性分類器における不確実性認識を導入し,最も低い不確実性で推定される人口統計情報を用いたサンプルに公平性を付与する。 本研究では,不確実な感度特性を持つ試料に公正性制約を課すことは,公正性と正確性に有害であることを示す。 2つのデータセットに対する実験により,提案手法は古典的属性分類器と比較して,フェアネス・精度のトレードオフが著しく優れたモデルが得られることを示した。 驚いたことに、我々のフレームワークは真に敏感な属性に関する制約で訓練されたモデルよりも優れています。

Most existing works on fairness assume the model has full access to demographic information. However, there exist scenarios where demographic information is partially available because a record was not maintained throughout data collection or due to privacy reasons. This setting is known as demographic scarce regime. Prior research have shown that training an attribute classifier to replace the missing sensitive attributes (proxy) can still improve fairness. However, the use of proxy-sensitive attributes worsens fairness-accuracy trade-offs compared to true sensitive attributes. To address this limitation, we propose a framework to build attribute classifiers that achieve better fairness-accuracy trade-offs. Our method introduces uncertainty awareness in the attribute classifier and enforces fairness on samples with demographic information inferred with the lowest uncertainty. We show empirically that enforcing fairness constraints on samples with uncertain sensitive attributes is detrimental to fairness and accuracy. Our experiments on two datasets showed that the proposed framework yields models with significantly better fairness-accuracy trade-offs compared to classic attribute classifiers. Surprisingly, our framework outperforms models trained with constraints on the true sensitive attributes.
翻訳日:2023-07-26 19:16:26 公開日:2023-07-24
# adaptive certified training: より正確なロバストネストレードオフに向けて

Adaptive Certified Training: Towards Better Accuracy-Robustness Tradeoffs ( http://arxiv.org/abs/2307.13078v1 )

ライセンス: Link先を確認
Zhakshylyk Nurlanov, Frank R. Schmidt, Florian Bernard(参考訳) ディープラーニングモデルは進歩を続け、現実のシステムでますます活用されているため、堅牢性の問題は依然として大きな課題である。 既存の認定トレーニング手法は、特定の摂動レベルにおいて高い堅牢性を保証するモデルを生成する。 しかし、そのようなモデルの主な問題は、クリーンな非摂動データにおける精度という、劇的に低い標準精度である。 本研究では,モデルの強靭性を一定の(高い)標準精度で最大化する,より現実的な視点について考察する。 そこで本研究では,適応型radiiを用いたトレーニングがモデルの正確性と堅牢性の向上に寄与し,最先端の精度・ロバスト性トレードオフが進展することを示す。 提案手法の有効性を,MNIST,CIFAR-10,TinyImageNetデータセットに示す。 特に,CIFAR-10 と TinyImageNet では,テストセットの平均認定半径として測定された最大2倍のロバスト性を持つモデルを,ベースラインアプローチと同等の精度で生成する。

As deep learning models continue to advance and are increasingly utilized in real-world systems, the issue of robustness remains a major challenge. Existing certified training methods produce models that achieve high provable robustness guarantees at certain perturbation levels. However, the main problem of such models is a dramatically low standard accuracy, i.e. accuracy on clean unperturbed data, that makes them impractical. In this work, we consider a more realistic perspective of maximizing the robustness of a model at certain levels of (high) standard accuracy. To this end, we propose a novel certified training method based on a key insight that training with adaptive certified radii helps to improve both the accuracy and robustness of the model, advancing state-of-the-art accuracy-robustness tradeoffs. We demonstrate the effectiveness of the proposed method on MNIST, CIFAR-10, and TinyImageNet datasets. Particularly, on CIFAR-10 and TinyImageNet, our method yields models with up to two times higher robustness, measured as an average certified radius of a test set, at the same levels of standard accuracy compared to baseline approaches.
翻訳日:2023-07-26 19:15:46 公開日:2023-07-24
# 汎用多モードOOD検出フレームワーク

General-Purpose Multi-Modal OOD Detection Framework ( http://arxiv.org/abs/2307.13069v1 )

ライセンス: Link先を確認
Viet Duong, Qiong Wu, Zhengyi Zhou, Eric Zavesky, Jiahe Chen, Xiangzhou Liu, Wen-Ling Hsu, Huajie Shao(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)システムの安全性と信頼性を保証するために重要なトレーニングデータとは異なるテストサンプルを特定する。 単一モードのOODサンプルを検出するために多くの方法が開発されているが、多モードのOOD検出に焦点を当てた例はごくわずかである。 現在の対照的な学習ベース手法は、与えられた画像とその対応するテキスト記述が新しいドメインから来るシナリオにおいて、主にマルチモーダルOOD検出を研究する。 しかし、MLシステムの実際の展開は、センサ障害、悪天候、環境変化など、複数の要因によって引き起こされるより異常なシナリオに直面する可能性がある。 したがって、この研究の目的は、複数の異なるOODシナリオをきめ細かい方法で同時に検出することである。 この目的を達成するために,バイナリ分類器とコントラスト学習コンポーネントを組み合わせて,両者の利点を享受する汎用的な弱教師付きood検出フレームワークwoodを提案する。 In-distriion (ID) および OOD サンプルの潜伏表現をよりよく区別するために, 類似性を制限するために Hinge loss を採用する。 さらに,OODサンプルを識別するための2値分類器とコントラスト学習の両方から予測結果を統合するための新しいスコアリング指標を開発した。 提案したWOODモデルを複数の実世界のデータセット上で評価し、実験結果により、WOODモデルがマルチモーダルOOD検出の最先端手法よりも優れていることを示す。 重要なことは、3つのOODシナリオで同時にOOD検出を高精度に行うことが可能である。 ソースコードは公開時には公開される予定だ。

Out-of-distribution (OOD) detection identifies test samples that differ from the training data, which is critical to ensuring the safety and reliability of machine learning (ML) systems. While a plethora of methods have been developed to detect uni-modal OOD samples, only a few have focused on multi-modal OOD detection. Current contrastive learning-based methods primarily study multi-modal OOD detection in a scenario where both a given image and its corresponding textual description come from a new domain. However, real-world deployments of ML systems may face more anomaly scenarios caused by multiple factors like sensor faults, bad weather, and environmental changes. Hence, the goal of this work is to simultaneously detect from multiple different OOD scenarios in a fine-grained manner. To reach this goal, we propose a general-purpose weakly-supervised OOD detection framework, called WOOD, that combines a binary classifier and a contrastive learning component to reap the benefits of both. In order to better distinguish the latent representations of in-distribution (ID) and OOD samples, we adopt the Hinge loss to constrain their similarity. Furthermore, we develop a new scoring metric to integrate the prediction results from both the binary classifier and contrastive learning for identifying OOD samples. We evaluate the proposed WOOD model on multiple real-world datasets, and the experimental results demonstrate that the WOOD model outperforms the state-of-the-art methods for multi-modal OOD detection. Importantly, our approach is able to achieve high accuracy in OOD detection in three different OOD scenarios simultaneously. The source code will be made publicly available upon publication.
翻訳日:2023-07-26 19:15:03 公開日:2023-07-24
# Identical Label 分布を用いた共通部分木の検出

Detection of Common Subtrees with Identical Label Distribution ( http://arxiv.org/abs/2307.13068v1 )

ライセンス: Link先を確認
Romain Aza\"is and Florian Ingels(参考訳) 頻繁なパターンマイニングは、シーケンス、木、グラフなどの構造化データを分析するための関連する方法である。 データセットの特徴的なサブ構造を識別する。 本稿では、木データに対する新しいタイプのパターン、つまり同一のラベル分布を持つ共通部分木を扱う。 基本となる同型問題はグラフ同型完全であるため、それらの検出は明らかではない。 理論的および数値的な観点から,精巧な探索アルゴリズムを開発し,解析する。 この結果、パターンの列挙はdag-rwと呼ばれる新しい木に対するロスレス圧縮スキームによって行われ、その複雑さも研究されている。 この手法は計算時間と文献からの実際のデータセットの解析の両方において非常に優れた特性を示す。 位相部分木や、同型問題が線形であるラベル付き部分木のような他の部分構造と比較すると、発見されたパターンはデータのより控えめな表現を提供する。

Frequent pattern mining is a relevant method to analyse structured data, like sequences, trees or graphs. It consists in identifying characteristic substructures of a dataset. This paper deals with a new type of patterns for tree data: common subtrees with identical label distribution. Their detection is far from obvious since the underlying isomorphism problem is graph isomorphism complete. An elaborated search algorithm is developed and analysed from both theoretical and numerical perspectives. Based on this, the enumeration of patterns is performed through a new lossless compression scheme for trees, called DAG-RW, whose complexity is investigated as well. The method shows very good properties, both in terms of computation times and analysis of real datasets from the literature. Compared to other substructures like topological subtrees and labelled subtrees for which the isomorphism problem is linear, the patterns found provide a more parsimonious representation of the data.
翻訳日:2023-07-26 19:14:36 公開日:2023-07-24
# 量子アニーリングアーキテクチャの探求:スピングラスの視点から

Exploring Quantum Annealing Architectures: A Spin Glass Perspective ( http://arxiv.org/abs/2307.13065v1 )

ライセンス: Link先を確認
Gabriel Jaum\`a, Juan Jos\'e Garc\'ia-Ripoll, and Manuel Pino(参考訳) 量子アニールに対するいくつかのIsingモデルにおけるスピングラス遷移について検討する。 レプリカ交換モンテカルロにより得られた擬似臨界特性を有限次元系に対して補間することによりスピングラス臨界温度を抽出する。 いくつかのランダム格子(ランダム正則グラフと小世界グラフ)のスピングラス位相は、以前の結果とよく一致している。 しかし,D波アンナール(Chimera,Zephyr,Pegasus)に実装された準2次元グラフの結果は,その擬似臨界温度がより小さい値に向かって流れているため,0温度のスピングラス状態のみを示す。 これは、これらのグラフの低エネルギー構成を見つける漸近的ランタイムは、システムサイズの多項式である可能性が高いが、このスケーリングは、擬臨界温度に関するシミュレーションの計算コストの急激な増加を見る限り、非常に大きなシステムサイズ(既存のアニールよりもはるかに大きい)に対してのみ達成される可能性があることを意味する。 したがって、局所交差を持つ2次元システムは、低エネルギー構成の古典的な方法による探索を不可能にするために十分な複雑さを示すことができる。

We study the spin-glass transition in several Ising models of relevance for quantum annealers. We extract the spin-glass critical temperature by extrapolating the pseudo-critical properties obtained with Replica-Exchange Monte-Carlo for finite-size systems. We find a spin-glass phase for some random lattices (random-regular and small-world graphs) in good agreement with previous results. However, our results for the quasi-two-dimensional graphs implemented in the D-Wave annealers (Chimera, Zephyr, and Pegasus) indicate only a zero-temperature spin-glass state, as their pseudo-critical temperature drifts towards smaller values. This implies that the asymptotic runtime to find the low-energy configuration of those graphs is likely to be polynomial in system size, nevertheless, this scaling may only be reached for very large system sizes -- much larger than existing annealers -- as we observe an abrupt increase in the computational cost of the simulations around the pseudo-critical temperatures. Thus, two-dimensional systems with local crossings can display enough complexity to make unfeasible the search with classical methods of low-energy configurations.
翻訳日:2023-07-26 19:14:22 公開日:2023-07-24
# 有限時間動作した量子スターリング熱エンジン

A quantum Stirling heat engine operating in finite time ( http://arxiv.org/abs/2307.13062v1 )

ライセンス: Link先を確認
Debmalya Das, George Thomas and Andrew N. Jordan(参考訳) 量子スターリング熱エンジンにおいて、作動物質のエネルギー準位を再分配することにより、2つの熱浴で交換される熱を部分的に利用して作業を行う。 有限時間に作動する量子スターリングエンジンの熱力学解析を行う。 我々は, 時間依存ポテンシャル障壁が作用物質のエネルギー準位構造を変化させるモデルを開発した。 このプロセスは、熱浴と一定の相互作用の下で行われる。 さらに,サイクルの遅い動作と低温の動作の限界において,そのようなエンジンの効率がCarnot効率に近づくことを示す。 また, エネルギーレベルに影響を与えるストロークに対する最大出力パワーは, 中間動作速度で得られ, 有限時間解析の重要性が示された。

In a quantum Stirling heat engine, the heat exchanged with two thermal baths is partly utilized for performing work by redistributing the energy levels of the working substance. We analyze the thermodynamics of a quantum Stirling engine operating in finite time. We develop a model in which a time-dependent potential barrier changes the energy-level structure of the working substance. The process takes place under a constant interaction with the thermal bath. We further show that in the limit of slow operation of the cycle and low temperature, the efficiency of such an engine approaches Carnot efficiency. We also show that the maximum output power , for the strokes that affect the energy levels, is obtained at an intermediate operating speed, demonstrating the importance of a finite-time analysis.
翻訳日:2023-07-26 19:14:01 公開日:2023-07-24
# 頭頸部癌予測におけるディープニューラルネットワーク解釈のための特徴勾配フロー

Feature Gradient Flow for Interpreting Deep Neural Networks in Head and Neck Cancer Prediction ( http://arxiv.org/abs/2307.13061v1 )

ライセンス: Link先を確認
Yinzhu Jin, Jonathan C. Garneau, P. Thomas Fletcher(参考訳) 本稿では,人間に理解できる特徴の観点でディープラーニングモデルを解釈する新しい手法である特徴勾配フローについて述べる。 モデルの勾配流れは、モデルが決定に使用する情報を表す入力データ空間内の非線形座標を局所的に定義する。 我々のアイデアは、モデルの勾配流れと解釈可能な特徴の一致を測定することである。 次に,モデルに対する特定の特徴の重要性を評価するために,その特徴の勾配流量測定値とベースラインノイズ特徴量を比較した。 次に、モデル勾配を選択可能な特徴量に合わせるように促す損失関数に正規化項を追加することにより、より解釈しやすいニューラルネットワークを訓練する手法を開発した。 我々は,頭頸部癌遠位転移の畳み込みニューラルネットワーク予測において,癌画像アーカイブのCTデータセットを用いて本手法を検証した。

This paper introduces feature gradient flow, a new technique for interpreting deep learning models in terms of features that are understandable to humans. The gradient flow of a model locally defines nonlinear coordinates in the input data space representing the information the model is using to make its decisions. Our idea is to measure the agreement of interpretable features with the gradient flow of a model. To then evaluate the importance of a particular feature to the model, we compare that feature's gradient flow measure versus that of a baseline noise feature. We then develop a technique for training neural networks to be more interpretable by adding a regularization term to the loss function that encourages the model gradients to align with those of chosen interpretable features. We test our method in a convolutional neural network prediction of distant metastasis of head and neck cancer from a computed tomography dataset from the Cancer Imaging Archive.
翻訳日:2023-07-26 19:13:51 公開日:2023-07-24
# 自然水圧ダンパーの特性について : ヒト半月板組織内の流動挙動をイメージベースで研究するアプローチ

On the characteristics of natural hydraulic dampers: An image-based approach to study the fluid flow behaviour inside the human meniscal tissue ( http://arxiv.org/abs/2307.13060v1 )

ライセンス: Link先を確認
J. Waghorne, F.P. Bonomo, A. Rabbani, D. Bell, O. Barrera(参考訳) 半月組織はコラーゲン含量および配列に影響される様々な特性を有する層状材料である。 構造と特性の関係を理解することは, 疾患管理, 治療開発, 生体材料設計において重要である。 メニスカスの内部層は、流体の流れを案内するコラーゲンチャネルによって、外側の層よりも柔らかく変形しやすくなっている。 本研究では,計算流体力学(CFD)と画像解析(CFD-IA)を組み合わせた新しい手法を提案する。 高分解能3DマイクロCTを用いて,ヒト半月板の内部構造(0.1mm/sから1.6m/s)の流動解析を行った。 統計的相関は, 構造パラメータ(トルク, 接続性, ポーシティ, 孔径)と流動パラメータ(Re数分布, 透水性)の間で観測される。 re値が1.6m/sの入江速度で1400のチャンネルがあり、darcyのレジームから非ダーシアンレジームへの移行は入江速度0.02m/s付近で起こる。 位置依存の透過性は20-32darcyである。 回帰モデルでは, 流速と高流速のトルトゥース性, 低流速のチャネル径との間に強い相関が認められた。 流入速度が高い場合、流路は優先方向から逸脱し、平均0.4の濃度パラメータが減少する。 本研究はメニスカス内の流動挙動とその構造的影響に関する貴重な知見を提供する。

The meniscal tissue is a layered material with varying properties influenced by collagen content and arrangement. Understanding the relationship between structure and properties is crucial for disease management, treatment development, and biomaterial design. The internal layer of the meniscus is softer and more deformable than the outer layers, thanks to interconnected collagen channels that guide fluid flow. To investigate these relationships, we propose a novel approach that combines Computational Fluid Dynamics (CFD) with Image Analysis (CFD-IA). We analyze fluid flow in the internal architecture of the human meniscus across a range of inlet velocities (0.1mm/s to 1.6m/s) using high-resolution 3D micro-computed tomography scans. Statistical correlations are observed between architectural parameters (tortuosity, connectivity, porosity, pore size) and fluid flow parameters (Re number distribution, permeability). Some channels exhibit Re values of 1400 at an inlet velocity of 1.6m/s, and a transition from Darcy's regime to a non-Darcian regime occurs around an inlet velocity of 0.02m/s. Location-dependent permeability ranges from 20-32 Darcy. Regression modelling reveals a strong correlation between fluid velocity and tortuosity at high inlet velocities, as well as with channel diameter at low inlet velocities. At higher inlet velocities, flow paths deviate more from the preferential direction, resulting in a decrease in the concentration parameter by an average of 0.4. This research provides valuable insights into the fluid flow behaviour within the meniscus and its structural influences.
翻訳日:2023-07-26 19:13:39 公開日:2023-07-24
# フェルミオン超流体-絶縁体遷移における仕事統計と絡み合い

Work statistics and Entanglement across the fermionic superfluid-insulator transition ( http://arxiv.org/abs/2307.13059v1 )

ライセンス: Link先を確認
Krissia Zawadzki, Guilherme A. Canella, Vivian V. Fran\c{c}a and Irene D'Amico(参考訳) 多体系における絡み合いは、量子相転移の興味深いシグネチャを示し、同様の性質が仕事のゆらぎの分析に現れ始めている。 ここでは、フェルミオン超流動-絶縁体遷移(SIT)について考察し、その絡み合い特性と仕事分布統計を関連づける。 SITは、ランダムに分散した不純物の存在下で、魅力的なフェルミオンハバードモデルによってモデル化される。 ワーク分布は2つのクエンチプロトコルで計算され、どちらもSITをトリガーする。 第1では、不純物濃度が増加し、第2では、不純物の障害強度が変化する。 その結果, 絡み合いの最小化を誘導する臨界状態は, 平均的な作業量も最大化することを示した。 この状態において、密度ゆらぎは全ての順序で消失するので、作業確率分布の全ての中心モーメントは臨界時にちょうどゼロである。 遷移の前駆体(有限不純物ポテンシャルを持つ短鎖)を行う系では、数値的な結果はこれらの予測を確認し、理想的な結果からさらに高いモーメントを得る。 どちらのプロトコルでも、臨界時には、このシステムは揺らぎの点でほとんどペナルティを課さずに最もエネルギーを吸収する: 最終的にこの機能は量子臨界電池の実装に使用できる。 臨界挙動のこれらのシグネチャに対する温度の影響についても検討し,高い温度での作業抽出が好ましいことを示した。

Entanglement in many-body systems may display interesting signatures of quantum phase transitions and similar properties are starting to be encountered in the analysis of work fluctuations. Here, we consider the fermionic superfluid-to-insulator transition (SIT) and relate its entanglement properties with its work distribution statistics. The SIT is modeled by the attractive fermionic Hubbard model in the presence of randomly distributed impurities. The work distribution is calculated across two quench protocols, both triggering the SIT. In the first, the concentration of impurities is increased; in the second, the impurities' disorder strength is varied. Our results indicate that, the critical state that induces minimization of the entanglement also maximizes the average work. We demonstrate that, for this state, density fluctuations vanish at all orders, hence all central moments of the work probability distribution are exactly zero at criticality. For systems undergoing a precursor to the transition (short chains with finite impurity potential) numerical results confirm these predictions, with higher moments further from the ideal result. For both protocols, at criticality, the system absorbs the most energy with almost no penalty in terms of fluctuations: ultimately this feature could be used to implement a quantum critical battery. The effects of temperature on these signatures of critical behaviour are also investigated and shown to favor work extraction for high enough temperatures.
翻訳日:2023-07-26 19:13:11 公開日:2023-07-24
# MARIO:グラフコントラスト学習におけるOOD一般化のためのモデル非依存レシピ

MARIO: Model Agnostic Recipe for Improving OOD Generalization of Graph Contrastive Learning ( http://arxiv.org/abs/2307.13055v1 )

ライセンス: Link先を確認
Yun Zhu, Haizhou Shi, Zhenshuo Zhang, Siliang Tang(参考訳) 本研究では,教師なし学習法をグラフデータ上で一般化するood(out-of-distribution)の問題について検討する。 グラフニューラルネットワーク(gnn)はラベルが利用可能な場合でも、分布シフトに敏感であることが示されているため、このシナリオは特に難しい。 この課題に対処するために,我々は,unsupervised graph contrastive learning method のununderline{m}odel-\underline{a}gnostic \underline{r}ecipe for \underline{i}mproving \underline{o}od generalizability を提案する。 MARIOは、既存のフレームワークの限界を克服するために、分散シフトロストグラフの対照的な手法を開発するための2つの原則を紹介している。 一 汎用表現を達成するための情報ボトルネック(IB)原則及び (ii)不変表現を得るために逆データ拡張を組み込んだ不変原理。 我々の知る限りでは、これはノードレベルのタスクに特に焦点をあてたグラフ対照的学習のOOD一般化問題を調査する最初の研究である。 実験により,本手法はOODテストセット上での最先端性能を実証し,既存手法と比較した場合の分布内テストセットにおける同等性能を維持する。 私たちのメソッドのソースコードは、https://github.com/ZhuYun97/MARIOで確認できます。

In this work, we investigate the problem of out-of-distribution (OOD) generalization for unsupervised learning methods on graph data. This scenario is particularly challenging because graph neural networks (GNNs) have been shown to be sensitive to distributional shifts, even when labels are available. To address this challenge, we propose a \underline{M}odel-\underline{A}gnostic \underline{R}ecipe for \underline{I}mproving \underline{O}OD generalizability of unsupervised graph contrastive learning methods, which we refer to as MARIO. MARIO introduces two principles aimed at developing distributional-shift-robust graph contrastive methods to overcome the limitations of existing frameworks: (i) Information Bottleneck (IB) principle for achieving generalizable representations and (ii) Invariant principle that incorporates adversarial data augmentation to obtain invariant representations. To the best of our knowledge, this is the first work that investigates the OOD generalization problem of graph contrastive learning, with a specific focus on node-level tasks. Through extensive experiments, we demonstrate that our method achieves state-of-the-art performance on the OOD test set, while maintaining comparable performance on the in-distribution test set when compared to existing approaches. The source code for our method can be found at: https://github.com/ZhuYun97/MARIO
翻訳日:2023-07-26 19:12:46 公開日:2023-07-24
# 周波数収差モデリングのための共形予測

Conformal prediction for frequency-severity modeling ( http://arxiv.org/abs/2307.13124v1 )

ライセンス: Link先を確認
Helton Graziadei, Paulo C. Marques F., Eduardo F. L. de Melo, Rodrigo S. Targino(参考訳) 本稿では,保険請求項の予測間隔を構築するための非パラメトリックモデル非依存フレームワークを提案する。 フレームワークの有効性は、シミュレーションと実際のデータセットで示される。 基礎となる重大度モデルがランダムフォレストである場合,二段階分割等角予測手順を延長し,キャリブレーションセットの必要性をなくし,適応幅の予測間隔を作成できるようにするため,外殻機構をどのように活用できるかを示す。

We present a nonparametric model-agnostic framework for building prediction intervals of insurance claims, with finite sample statistical guarantees, extending the technique of split conformal prediction to the domain of two-stage frequency-severity modeling. The effectiveness of the framework is showcased with simulated and real datasets. When the underlying severity model is a random forest, we extend the two-stage split conformal prediction procedure, showing how the out-of-bag mechanism can be leveraged to eliminate the need for a calibration set and to enable the production of prediction intervals with adaptive width.
翻訳日:2023-07-26 19:04:26 公開日:2023-07-24
# ビデオからの乳幼児呼吸自動推定:ディープフローに基づくアルゴリズムと新しい公開ベンチマーク

Automatic Infant Respiration Estimation from Video: A Deep Flow-based Algorithm and a Novel Public Benchmark ( http://arxiv.org/abs/2307.13110v1 )

ライセンス: Link先を確認
Sai Kumar Reddy Manne, Shaotong Zhu, Sarah Ostadabbas, Michael Wan(参考訳) 呼吸は幼児にとって重要な兆候であり、特に新生児には持続的呼吸モニタリングが重要である。 しかし、新生児は敏感であり、接触型センサーは特に早産児の快適性、衛生性、皮膚の健康に課題がある。 完全自動・連続・接触のない呼吸モニタリングに向けたステップとして,自然環境下での映像から呼吸速度と波形を推定する深層学習法を開発した。 自動乳幼児呼吸流ベースネットワーク(AIRFlowNet)は,乳幼児領域に調整された映像抽出光フロー入力と時空間畳み込み処理を併用する。 幼児の8人の被験者から抽出した125ビデオ(AIR-125)を用いた,最初の公称乳児呼吸データセット(AIR-125)で,ポーズ,照明,カメラ条件を設定した。 手動呼吸アノテーションを含み、新しいスペクトル帯域通過損失関数を用いてAIRFlowNetトレーニングを最適化する。 AIR-125乳児データを用いて訓練, 試験を行ったところ, 呼吸速度推定における他の最先端手法よりも有意に優れ, 平均絶対誤差は1分あたり$\sim$2.9 であり, 成人およびより均一な環境を想定した他の公共モデルでは$\sim$4.7--6.2 である。

Respiration is a critical vital sign for infants, and continuous respiratory monitoring is particularly important for newborns. However, neonates are sensitive and contact-based sensors present challenges in comfort, hygiene, and skin health, especially for preterm babies. As a step toward fully automatic, continuous, and contactless respiratory monitoring, we develop a deep-learning method for estimating respiratory rate and waveform from plain video footage in natural settings. Our automated infant respiration flow-based network (AIRFlowNet) combines video-extracted optical flow input and spatiotemporal convolutional processing tuned to the infant domain. We support our model with the first public annotated infant respiration dataset with 125 videos (AIR-125), drawn from eight infant subjects, set varied pose, lighting, and camera conditions. We include manual respiration annotations and optimize AIRFlowNet training on them using a novel spectral bandpass loss function. When trained and tested on the AIR-125 infant data, our method significantly outperforms other state-of-the-art methods in respiratory rate estimation, achieving a mean absolute error of $\sim$2.9 breaths per minute, compared to $\sim$4.7--6.2 for other public models designed for adult subjects and more uniform environments.
翻訳日:2023-07-26 19:04:15 公開日:2023-07-24
# 歩行障害に関連する機能的ネットワーク同定のための幾何学的重み付けグラフ注意ネットワーク

An Explainable Geometric-Weighted Graph Attention Network for Identifying Functional Networks Associated with Gait Impairment ( http://arxiv.org/abs/2307.13108v1 )

ライセンス: Link先を確認
Favour Nerrise (1), Qingyu Zhao (2), Kathleen L. Poston (3), Kilian M. Pohl (2), Ehsan Adeli (2) ((1) Department of Electrical Engineering, Stanford University, Stanford, CA, USA, (2) Dept. of Psychiatry and Behavioral Sciences, Stanford University, Stanford, CA, USA, (3) Dept. of Neurology and Neurological Sciences, Stanford University, Stanford, CA, USA)(参考訳) パーキンソン病(PD)の徴候の1つは、姿勢反射の進行的な消失であり、最終的には歩行困難とバランスの問題を引き起こす。 歩行障害に伴う脳機能障害の同定は、pd運動の進行の理解を深める上で不可欠であり、それによってより効果的でパーソナライズされた治療法の開発が進められる。 本研究では,MDS統一PDレーティング尺度(MDS-UPDRS)において,PD患者の歩行障害の進行を予測した機能的ネットワークを特定するための,説明可能な,幾何学的,重み付けされた注目ニューラルネットワーク(xGW-GAT)を提案する。 我々の計算とデータ効率のモデルでは、関数コネクトームをリーマン多様体上の対称正定値(SPD)行列として表現し、コネクトーム全体の対相互作用を明示的にエンコードする。 pdを有する個人の安静時機能mri(rs-fmri)データセットに適用し、xgw-gatはpdにおける歩行障害に関連する機能的接続パターンを特定し、運動障害に関連する機能的サブネットワークの解釈可能な説明を提供する。 本モデルは,臨床関連接続パターンを同時に明らかにしつつ,いくつかの既存手法より優れている。 ソースコードはhttps://github.com/favour-nerrise/xGW-GAT で公開されている。

One of the hallmark symptoms of Parkinson's Disease (PD) is the progressive loss of postural reflexes, which eventually leads to gait difficulties and balance problems. Identifying disruptions in brain function associated with gait impairment could be crucial in better understanding PD motor progression, thus advancing the development of more effective and personalized therapeutics. In this work, we present an explainable, geometric, weighted-graph attention neural network (xGW-GAT) to identify functional networks predictive of the progression of gait difficulties in individuals with PD. xGW-GAT predicts the multi-class gait impairment on the MDS Unified PD Rating Scale (MDS-UPDRS). Our computational- and data-efficient model represents functional connectomes as symmetric positive definite (SPD) matrices on a Riemannian manifold to explicitly encode pairwise interactions of entire connectomes, based on which we learn an attention mask yielding individual- and group-level explainability. Applied to our resting-state functional MRI (rs-fMRI) dataset of individuals with PD, xGW-GAT identifies functional connectivity patterns associated with gait impairment in PD and offers interpretable explanations of functional subnetworks associated with motor impairment. Our model successfully outperforms several existing methods while simultaneously revealing clinically-relevant connectivity patterns. The source code is available at https://github.com/favour-nerrise/xGW-GAT .
翻訳日:2023-07-26 19:03:47 公開日:2023-07-24
# LLMのテキスト解析への応用

How to use LLMs for Text Analysis ( http://arxiv.org/abs/2307.13106v1 )

ライセンス: Link先を確認
Petter T\"ornberg(参考訳) 本稿では,社会科学における多目的テキスト分析手法としてLarge Language Models (LLM)を紹介する。 LLMは、テキストアノテーションや分類から感情分析や批判的談話分析まで幅広いテキスト分析タスクに適用できるため、多くの学者はLLMがテキスト解析の方法を変えると考えている。 このハウツーガイドは、プログラミングの経験が限られている学生や研究者を対象とし、自身の研究プロジェクトでLLMをテキスト分析に使用するための簡単な紹介とベストプラクティスに関するアドバイスを提供する。 ソフトウェアをインストールし、apiをセットアップし、データをロードし、分析プロンプトを開発し、テキストを分析し、結果を検証します。 例示として、政治的テキスト中のポピュリズムを識別する困難なタスクを使用し、llmが既存の最先端技術を超えてどのように動くかを示す。

This guide introduces Large Language Models (LLM) as a highly versatile text analysis method within the social sciences. As LLMs are easy-to-use, cheap, fast, and applicable on a broad range of text analysis tasks, ranging from text annotation and classification to sentiment analysis and critical discourse analysis, many scholars believe that LLMs will transform how we do text analysis. This how-to guide is aimed at students and researchers with limited programming experience, and offers a simple introduction to how LLMs can be used for text analysis in your own research project, as well as advice on best practices. We will go through each of the steps of analyzing textual data with LLMs using Python: installing the software, setting up the API, loading the data, developing an analysis prompt, analyzing the text, and validating the results. As an illustrative example, we will use the challenging task of identifying populism in political texts, and show how LLMs move beyond the existing state-of-the-art.
翻訳日:2023-07-26 19:03:20 公開日:2023-07-24
# 比較例に基づく制御

Contrastive Example-Based Control ( http://arxiv.org/abs/2307.13101v1 )

ライセンス: Link先を確認
Kyle Hatch, Benjamin Eysenbach, Rafael Rafailov, Tianhe Yu, Ruslan Salakhutdinov, Sergey Levine, Chelsea Finn(参考訳) 強化学習の恩恵を受ける現実の問題は数多くあるが、これらの問題はMDPの型に当てはまることは稀であり、環境との相互作用は高価であり、報酬関数の指定は困難である。 これらの課題に動機付けられた先行研究は、遷移ダイナミクスと高回帰状態の例から完全なサンプルから学ぶデータ駆動アプローチを開発した。 これらの手法は通常、高リターン状態から報酬関数を学習し、その報酬関数を使って遷移をラベル付けし、オフラインrlアルゴリズムを遷移に適用する。 これらの手法は多くのタスクで良い結果が得られるが、それらは複雑になり、しばしば正規化と時間的差異の更新を必要とする。 本稿では,報酬関数ではなく,多段階遷移の暗黙的モデルを学ぶ,オフラインのサンプルベース制御手法を提案する。 この暗黙的モデルは実例に基づく制御問題のQ値を表すことができる。 さまざまな状態ベースおよび画像ベースのオフライン制御タスクにおいて,本手法は学習報酬関数を使用するベースラインよりも優れており,さらなる実験によってロバスト性が向上し,データセットサイズでのスケーリングが実証されている。

While many real-world problems that might benefit from reinforcement learning, these problems rarely fit into the MDP mold: interacting with the environment is often expensive and specifying reward functions is challenging. Motivated by these challenges, prior work has developed data-driven approaches that learn entirely from samples from the transition dynamics and examples of high-return states. These methods typically learn a reward function from high-return states, use that reward function to label the transitions, and then apply an offline RL algorithm to these transitions. While these methods can achieve good results on many tasks, they can be complex, often requiring regularization and temporal difference updates. In this paper, we propose a method for offline, example-based control that learns an implicit model of multi-step transitions, rather than a reward function. We show that this implicit model can represent the Q-values for the example-based control problem. Across a range of state-based and image-based offline control tasks, our method outperforms baselines that use learned reward functions; additional experiments demonstrate improved robustness and scaling with dataset size.
翻訳日:2023-07-26 19:03:03 公開日:2023-07-24
# ラベルノイズ:訂正の修正

Label Noise: Correcting a Correction ( http://arxiv.org/abs/2307.13100v1 )

ライセンス: Link先を確認
William Toner, Amos Storkey(参考訳) ラベルノイズを伴うデータセット上のニューラルネットワーク分類器のトレーニングは、ノイズラベルにオーバーフィットするリスクをもたらす。 この問題に対処するため、研究者はより堅牢な代替損失関数を探求した。 しかし、これらの代替品の多くは本質的にヒューリスティックであり、過給や過給に弱い。 本研究では,ラベルノイズによるオーバーフィッティングに対するより直接的なアプローチを提案する。 ラベルノイズの存在は,騒音の一般化リスクの上限を低くすることを示す。 本研究は, オーバーフィッティングを軽減すべく, トレーニング中の経験的リスクを低く抑えることを提案する。 我々の主な貢献は、異なる損失関数に対する最小可算ノイズリスクに対して、明示的かつ容易に計算可能な境界を与える理論的結果を提供することです。 実験により,これらのバウンダリを用いることで,計算コストが実質的に増加せず,各種設定での堅牢性が著しく向上することが実証された。

Training neural network classifiers on datasets with label noise poses a risk of overfitting them to the noisy labels. To address this issue, researchers have explored alternative loss functions that aim to be more robust. However, many of these alternatives are heuristic in nature and still vulnerable to overfitting or underfitting. In this work, we propose a more direct approach to tackling overfitting caused by label noise. We observe that the presence of label noise implies a lower bound on the noisy generalised risk. Building upon this observation, we propose imposing a lower bound on the empirical risk during training to mitigate overfitting. Our main contribution is providing theoretical results that yield explicit, easily computable bounds on the minimum achievable noisy risk for different loss functions. We empirically demonstrate that using these bounds significantly enhances robustness in various settings, with virtually no additional computational cost.
翻訳日:2023-07-26 19:02:45 公開日:2023-07-24
# データセンターセキュリティのための量子鍵分布 -- 実現可能性研究

Quantum key distribution for data center security -- a feasibility study ( http://arxiv.org/abs/2307.13098v1 )

ライセンス: Link先を確認
Nitin Jain and Ulrich Hoff and Marco Gambetta and Jesper Rodenberg and Tobias Gehring(参考訳) 現在、データセンターはデジタル世界の基盤と呼ばれている。 量子鍵分布(Quantum key distribution, QKD)は、量子物理学の法則に根ざしたセキュリティにより、2つのエンティティ間で暗号鍵を分散する問題を解決する方法である。 この文書は、データセンターにおけるQKDの活用の必要性と機会を評価します。 QKDの持つ技術的事例と、QKDがデータセンターのような環境にどのように統合できるかについてのインプットとともに、将来的なデータセキュリティによる価値創造と、QKDが暗号アジャイティを通じてテーブルにもたらす市場の可能性についても論じている。 主にデータセンターのオーナー/オペレータに宛てられているが、この文書はデータセンター市場セグメントに多様化を計画するQKDベンダーに知識ベースを提供する。

Data centers are nowadays referred to as the digital world's cornerstone. Quantum key distribution (QKD) is a method that solves the problem of distributing cryptographic keys between two entities, with the security rooted in the laws of quantum physics. This document provides an assessment of the need and opportunity for ushering QKD in data centers. Together with technical examples and inputs on how QKD has and could be integrated into data-center like environments, the document also discusses the creation of value through future-proof data security as well as the market potential that QKD brings on the table through e.g., crypto-agility. While primarily addressed to data center owners/operators, the document also offers a knowledge base to QKD vendors planning to diversify to the data center market segment.
翻訳日:2023-07-26 19:02:30 公開日:2023-07-24
# サブサイクルスケールによる光時間領域量子状態トモグラフィ

Optical time-domain quantum state tomography on a subcycle scale ( http://arxiv.org/abs/2307.13090v1 )

ライセンス: Link先を確認
Emanuel Hubenschmid, Thiago L. M. Guedes, Guido Burkard(参考訳) サブサイクルスケールでの電磁界基底状態の量子揺らぎと超広帯域圧縮状態の検出への電子光学サンプリングの実験的応用の最近の進歩に続いて,広帯域電気光学サンプリングを分光法から全量子トモグラフィ法へ高揚させる手法を提案し,時間領域内で直接広帯域量子状態を再構成する手法を提案する。 量子電子光学サンプリングを理論的に記述する2つの手法を組み合わせることで、試料中赤外パルス状態と超広帯域近赤外ポンプ/プローブパルスとの間の時間遅延の関数として、電気光学信号の光子数分布とサンプル量子状態の変換位相空間準確率分布を解析的に関連付ける。 我々はノイズ源のカタログ化と解析を行い、超広帯域ポンプパルスを用いた量子電気光学サンプリングでは、絡み合いによる熱化を観測できることを示した。 熱化ノイズの緩和は、サブサイクルスケールでそのダイナミクスへのアクセスを許可しながら、広帯域量子状態のトモグラフィー再構成を可能にする。

Following recent progress in the experimental application of electro-optic sampling to the detection of the quantum fluctuations of the electromagnetic-field ground state and ultrabroadband squeezed states on a subcycle scale, we propose an approach to elevate broadband electro-optic sampling from a spectroscopic method to a full quantum tomography scheme, able to reconstruct a broadband quantum state directly in the time-domain. By combining two recently developed methods to theoretically describe quantum electro-optic sampling, we analytically relate the photon-count probability distribution of the electro-optic signal to a transformed phase-space quasiprobability distribution of the sampled quantum state as a function of the time delay between the sampled mid-infrared pulsed state and an ultrabroadband near-infrared pump/probe pulse. We catalog and analyze sources of noise and show that in quantum electro-optic sampling with an ultrabroadband pump pulse one can expect to observe thermalization due to entanglement breaking. Mitigation of the thermalization noise enables a tomographic reconstruction of broadband quantum states while granting access to its dynamics on a subcycle scale.
翻訳日:2023-07-26 19:02:15 公開日:2023-07-24
# 時間領域における電界のフシミq関数の直接測定

Direct measurement of the Husimi-Q function of the electric-field in the time-domain ( http://arxiv.org/abs/2307.13088v1 )

ライセンス: Link先を確認
Sho Onoe, St\'ephane Virally, and Denis V. Seletskiy(参考訳) 時間領域量子トモグラフィ技術を用いて,電子光学サンプリングの促進に必要な理論的ツールを開発した。 提案手法は,伝搬電磁波の電界とヒルベルト変換(量子)の両方の時間変化の検出を実現する。 時間領域では、どちらかの二次の直接検出は厳密には不可能であり、どちらの二次に対する正確なモードマッチングに達すると検出効率がゼロに近づく。 全ての実信号は帯域幅が限られているため、無関係なサンプリング帯域を追跡し、関連する信号の量子情報を保存しながら検出効率を最適化することができる。 振幅変換とヒルベルト変換の2次関数のモード構造を高度に理解し,ゲーティング関数の多重化とモードマッチング演算を提案し,両量について全量子情報を同時に抽出する。 提案されたメソロジーは、時間領域内で直接量子状態トモグラフィと量子分光への新たな道を開くことができる。

We develop the theoretical tools necessary to promote electro-optic sampling to a time-domain quantum tomography technique. Our proposed framework implements detection of the time evolution of both the electric-field of a propagating electromagnetic wave and its Hilbert transform (quadrature). Direct detection of either quadrature is not strictly possible in the time-domain, detection efficiency approaching zero when an exact mode-matching to either quadrature is reached. As all real signals have a limited bandwidth, we can trace out the irrelevant sampling bandwidth to optimize the detection efficiency while preserving quantum information of the relevant signal. Through the developed understanding of the mode structure of the amplitude and Hilbert transform quadratures, we propose multiplexing and mode-matching operations on the gating function to extract full quantum information on both quantities, simultaneously. The proposed methology is poised to open a novel path toward quantum state tomography and quantum spectroscopy directly in the time domain.
翻訳日:2023-07-26 19:01:55 公開日:2023-07-24
# 大規模言語モデルによるメタデータの公平化

Making Metadata More FAIR Using Large Language Models ( http://arxiv.org/abs/2307.13085v1 )

ライセンス: Link先を確認
Sowmya S. Sundaram, Mark A. Musen(参考訳) 実験的なデータアーティファクトの世界的な増加に伴い、それらを統一した方法で利用すると、大きな障害となる。 このギャップを埋めるために、この研究は、メタデータを比較するFAIRMetaTextと呼ばれる自然言語処理(NLP)情報を提供する。 特に、FAIRMetaTextはメタデータの自然言語記述を分析し、2項間の数学的類似度尺度を提供する。 この尺度は、様々なメタデータの分析、コンプライアンス用語の提案、置換可能な用語の識別のための類似用語の分類に利用できる。 アルゴリズムの有効性は、公開可能な研究成果物に対して質的かつ定量的に示され、幅広い言語モデル(LLM)の詳細な研究を通して、メタデータに関連するタスク間で大きな利益を示す。 このソフトウェアは、複数の実験データセットを同じトピックに使用しながら、さまざまな自然言語メタデータをふるいにかける人の労力を大幅に削減することができる。

With the global increase in experimental data artifacts, harnessing them in a unified fashion leads to a major stumbling block - bad metadata. To bridge this gap, this work presents a Natural Language Processing (NLP) informed application, called FAIRMetaText, that compares metadata. Specifically, FAIRMetaText analyzes the natural language descriptions of metadata and provides a mathematical similarity measure between two terms. This measure can then be utilized for analyzing varied metadata, by suggesting terms for compliance or grouping similar terms for identification of replaceable terms. The efficacy of the algorithm is presented qualitatively and quantitatively on publicly available research artifacts and demonstrates large gains across metadata related tasks through an in-depth study of a wide variety of Large Language Models (LLMs). This software can drastically reduce the human effort in sifting through various natural language metadata while employing several experimental datasets on the same topic.
翻訳日:2023-07-26 19:01:38 公開日:2023-07-24
# 衝突回避とハンドオーバアウェアセルアソシエーションを考慮したマルチuav速度制御:アクション分岐を用いたdrl

Multi-UAV Speed Control with Collision Avoidance and Handover-aware Cell Association: DRL with Action Branching ( http://arxiv.org/abs/2307.13158v1 )

ライセンス: Link先を確認
Zijiang Yan, Wael Jaafar, Bassant Selim, Hina Tabassum(参考訳) 本稿では,複数UAVセルアソシエーション決定とその移動速度を3次元高速道路上で最適化するための深層強化学習ソリューションを提案する。 目的は、衝突回避、接続性、ハンドオーバなど、輸送と通信性能の向上である。 この問題は、速度と通信データ率によって定義されたUAVの状態を持つマルコフ決定プロセス(MDP)として定式化される。 本研究では,共有決定モジュールと複数のネットワーク分岐を持つニューラルアーキテクチャを提案する。 この設計は多次元のアクション空間を効率的に処理し、個々のアクション次元の独立性を実現する。 本稿では,BDQ(Branching Dueling Q-Network)とDDQN(Branching Dueling Double Deep Q-Network)の2つのモデルを紹介する。 シミュレーションの結果、既存のベンチマークと比べて18.32%の大幅な改善が見られた。

This paper presents a deep reinforcement learning solution for optimizing multi-UAV cell-association decisions and their moving velocity on a 3D aerial highway. The objective is to enhance transportation and communication performance, including collision avoidance, connectivity, and handovers. The problem is formulated as a Markov decision process (MDP) with UAVs' states defined by velocities and communication data rates. We propose a neural architecture with a shared decision module and multiple network branches, each dedicated to a specific action dimension in a 2D transportation-communication space. This design efficiently handles the multi-dimensional action space, allowing independence for individual action dimensions. We introduce two models, Branching Dueling Q-Network (BDQ) and Branching Dueling Double Deep Q-Network (Dueling DDQN), to demonstrate the approach. Simulation results show a significant improvement of 18.32% compared to existing benchmarks.
翻訳日:2023-07-26 18:56:02 公開日:2023-07-24
# SusTrainable: ソフトウェア開発のトレーニングと教育における基本的要因としてのサステナビリティの促進。 第2教官養成、2023年1月23日-27日、クロアチア、プラー。 改訂講演ノート

SusTrainable: Promoting Sustainability as a Fundamental Driver in Software Development Training and Education. 2nd Teacher Training, January 23-27, 2023, Pula, Croatia. Revised lecture notes ( http://arxiv.org/abs/2307.13156v1 )

ライセンス: Link先を確認
Tihana Galinac Grbac (1), Csaba Szab\'o (2), Jo\~ao Paulo Fernandes (3) ((1) Juraj Dobrila University of Pula, Croatia (2) Technical University of Ko\v{s}ice, Slovakia (3) University of Porto, Portugal)(参考訳) この巻は、2023年1月23日から27日にかけてクロアチアのプラ州ジュラジュ・ドブリラ大学で開催された、ソフトウェア開発トレーニングおよび教育における基本的ドライバとしての持続性向上プロジェクトの一環として組織された第2回教員養成の改訂講義ノートを展示している。 2020-1-PT01-KA203-078646のErasmus+プロジェクトである。 詳細はプロジェクトのWebサイトhttps://sustrainable.github.io/ プロジェクトの最も重要なコントリビューションのひとつが2つのサマースクールだ。 第2SusTrainable Summer School(SusTrainable - 23)は、2023年7月10~14日の週にポルトガルのコインブラ大学で組織される。 夏期学校は、コンピュータ科学と密接に関連する分野の修士と博士課程の学生のための講義と実践的な仕事で構成される。 babe\c{s}-bolyai university, e\"{o}tv\"{o}s lor\'{a}nd university, juraj dobrila university of pula, radboud university nijmegen, roskilde university, technical university of ko\v{s}ice, university of amsterdam, university of coimbra, university of minho, university of plovdiv, university of porto, university of rijekaからのコントリビューションがある。 夏の学校の準備と合理化のために、クロアチアのプラーで教師の訓練を組織した。 これはtihana galinac grbacとneven grbacによって組織された5日間のイベントであった。 ジュラジ・ドブリラ大学は持続可能性問題に非常に関心を持っている。 教育、研究、管理は持続可能性の目標を念頭に行われる。 論文のコントリビューションをレビューし、夏期校における話題の範囲について概観した。 手続きの論文は、非常に建設的で協力的な教師の訓練と同様に、すべての参加者にとって最高の品質と有益なサマースクールを保証する。

This volume exhibits the revised lecture notes of the 2nd teacher training organized as part of the project Promoting Sustainability as a Fundamental Driver in Software Development Training and Education, held at the Juraj Dobrila University of Pula, Croatia, in the week January 23-27, 2023. It is the Erasmus+ project No. 2020-1-PT01-KA203-078646 - Sustrainable. More details can be found at the project web site https://sustrainable.github.io/ One of the most important contributions of the project are two summer schools. The 2nd SusTrainable Summer School (SusTrainable - 23) will be organized at the University of Coimbra, Portugal, in the week July 10-14, 2023. The summer school will consist of lectures and practical work for master and PhD students in computing science and closely related fields. There will be contributions from Babe\c{s}-Bolyai University, E\"{o}tv\"{o}s Lor\'{a}nd University, Juraj Dobrila University of Pula, Radboud University Nijmegen, Roskilde University, Technical University of Ko\v{s}ice, University of Amsterdam, University of Coimbra, University of Minho, University of Plovdiv, University of Porto, University of Rijeka. To prepare and streamline the summer school, the consortium organized a teacher training in Pula, Croatia. This was an event of five full days, organized by Tihana Galinac Grbac and Neven Grbac. The Juraj Dobrila University of Pula is very concerned with the sustainability issues. The education, research and management are conducted with sustainability goals in mind. The contributions in the proceedings were reviewed and provide a good overview of the range of topics that will be covered at the summer school. The papers in the proceedings, as well as the very constructive and cooperative teacher training, guarantee the highest quality and beneficial summer school for all participants.
翻訳日:2023-07-26 18:55:46 公開日:2023-07-24
# ニューラル多項式法による解釈可能な弾塑性モデルの発見と記号回帰

Discovering interpretable elastoplasticity models via the neural polynomial method enabled symbolic regressions ( http://arxiv.org/abs/2307.13149v1 )

ライセンス: Link先を確認
Bahador Bahmani, Hyoung Suk Suh and WaiChing Sun(参考訳) 従来のニューラルネットワークの弾塑性モデルは解釈性に欠けると見なされることが多い。 本稿では,人間の専門家が解釈可能な数学モデルを返す2段階の機械学習手法を提案する。 特に,教師付き学習から得られる一変量特徴写像の集合を用いて,収率曲面を表現した代理モデルを提案する。 その後、後処理ステップを使用して、単変数ニューラルネットワークマッピング関数の集合を記号回帰によって数学的形式に再解釈する。 この分割と分割のアプローチは、いくつかの重要な利点を提供する。 まず、シンボリック回帰アルゴリズムのスケーリング問題を克服できます。 実用の観点からは、異なるプログラミング言語で記述された偏微分方程式解法に対する学習モデルの可搬性を高める。 最後に, モデルの凸性や対称性などの材料特性を, 自動導出や推論によって具体的に把握することを可能にする。 サードパーティによる検証を可能にするオープンソースコードとともに,数値的な例が提供されている。

Conventional neural network elastoplasticity models are often perceived as lacking interpretability. This paper introduces a two-step machine-learning approach that returns mathematical models interpretable by human experts. In particular, we introduce a surrogate model where yield surfaces are expressed in terms of a set of single-variable feature mappings obtained from supervised learning. A postprocessing step is then used to re-interpret the set of single-variable neural network mapping functions into mathematical form through symbolic regression. This divide-and-conquer approach provides several important advantages. First, it enables us to overcome the scaling issue of symbolic regression algorithms. From a practical perspective, it enhances the portability of learned models for partial differential equation solvers written in different programming languages. Finally, it enables us to have a concrete understanding of the attributes of the materials, such as convexity and symmetries of models, through automated derivations and reasoning. Numerical examples have been provided, along with an open-source code to enable third-party validation.
翻訳日:2023-07-26 18:55:07 公開日:2023-07-24
# 経路依存NJ-ODEの雑音観測への拡張と依存観測フレームワーク

Extending Path-Dependent NJ-ODEs to Noisy Observations and a Dependent Observation Framework ( http://arxiv.org/abs/2307.13147v1 )

ライセンス: Link先を確認
William Andersson, Jakob Heiss, Florian Krach, Josef Teichmann(参考訳) Path-Dependent Neural Jump ODE (PD-NJ-ODE) は、不規則かつ不完全な観測で連続時間確率過程を予測するモデルである。 特に、不完全な過去の観測の時系列を不規則にサンプリングした最適な予測を学習する。 これまでのところ、プロセス自体と座標観測時間は独立であり、観測はノイズのないと仮定されていた。 本研究では,これらの制約を緩和し,理論的な保証と実証的な例を与える2つの拡張について論じる。

The Path-Dependent Neural Jump ODE (PD-NJ-ODE) is a model for predicting continuous-time stochastic processes with irregular and incomplete observations. In particular, the method learns optimal forecasts given irregularly sampled time series of incomplete past observations. So far the process itself and the coordinate-wise observation times were assumed to be independent and observations were assumed to be noiseless. In this work we discuss two extensions to lift these restrictions and provide theoretical guarantees as well as empirical examples for them.
翻訳日:2023-07-26 18:54:55 公開日:2023-07-24
# オブジェクト認識ベンチマークの進歩は現実世界の一般化を改善するか?

Does Progress On Object Recognition Benchmarks Improve Real-World Generalization? ( http://arxiv.org/abs/2307.13136v1 )

ライセンス: Link先を確認
Megan Richards, Polina Kirichenko, Diane Bouchacourt, Mark Ibrahim(参考訳) 研究者は10年以上にわたって、ImageNet-A、-C、-Rといった画像ネットベースの一般化ベンチマークでオブジェクト認識の進歩を測定してきた。 膨大なデータに基づいて訓練された基礎モデルの最近の進歩は、これらの標準ベンチマークを飽和させ始めているが、実際には不安定なままである。 これは、事前定義されたまたは合成的な変化に焦点をあてる標準ベンチマークは、現実世界の一般化を測定するのに十分でないかもしれないことを示唆している。 そこで本研究では,地球上の家庭からの2つのオブジェクトのデータセットを用いて,より現実的な進捗の指標として,地理の一般化について検討する。 我々は、最新の基礎モデルまで、100近い視覚モデルにまたがる進捗の広範な実証的な評価を行う。 imagenetの進歩は、実世界の分散シフトよりも、標準の一般化ベンチマークの最大2.5倍の進歩をもたらします。 第2に,実世界の一般化のよりきめ細かな尺度である地域間のパフォーマンスの相違を計測し,地域間でのモデル一般化について検討する。 地域によって精度が7-20%異なるCLIPモデルさえも,すべてのモデルは地理的に大きな差異がある。 現代の直観とは対照的に、標準ベンチマークの進歩は地理的格差の改善に失敗し、しばしばさらに悪化する: もっともパフォーマンスの低いモデルと今日の最高のモデルの間の地理的格差は3倍以上になっている。 以上の結果から,実世界の分布シフトに対する一貫性は,スケーリングだけでは不十分であることが示唆された。 最後に、私たちは初期の実験で、より代表的でキュレートされたデータに対する最後のレイヤの再トレーニングが、将来の作業の有望な方向性としてスケーリングを補完し、両方のベンチマークの地理的格差を3分の2以上削減できる点を強調しています。

For more than a decade, researchers have measured progress in object recognition on ImageNet-based generalization benchmarks such as ImageNet-A, -C, and -R. Recent advances in foundation models, trained on orders of magnitude more data, have begun to saturate these standard benchmarks, but remain brittle in practice. This suggests standard benchmarks, which tend to focus on predefined or synthetic changes, may not be sufficient for measuring real world generalization. Consequently, we propose studying generalization across geography as a more realistic measure of progress using two datasets of objects from households across the globe. We conduct an extensive empirical evaluation of progress across nearly 100 vision models up to most recent foundation models. We first identify a progress gap between standard benchmarks and real-world, geographical shifts: progress on ImageNet results in up to 2.5x more progress on standard generalization benchmarks than real-world distribution shifts. Second, we study model generalization across geographies by measuring the disparities in performance across regions, a more fine-grained measure of real world generalization. We observe all models have large geographic disparities, even foundation CLIP models, with differences of 7-20% in accuracy between regions. Counter to modern intuition, we discover progress on standard benchmarks fails to improve geographic disparities and often exacerbates them: geographic disparities between the least performant models and today's best models have more than tripled. Our results suggest scaling alone is insufficient for consistent robustness to real-world distribution shifts. Finally, we highlight in early experiments how simple last layer retraining on more representative, curated data can complement scaling as a promising direction of future work, reducing geographic disparity on both benchmarks by over two-thirds.
翻訳日:2023-07-26 18:54:45 公開日:2023-07-24
# simple: 物体を正確に選別し、ローカライズし、再生し、配置する、シミュレーションで学んだビズオタクティル法

simPLE: a visuotactile method learned in simulation to precisely pick, localize, regrasp, and place objects ( http://arxiv.org/abs/2307.13133v1 )

ライセンス: Link先を確認
Maria Bauza, Antonia Bronars, Yifan Hou, Ian Taylor, Nikhil Chavan-Dafle, Alberto Rodriguez(参考訳) 既存のロボットシステムは、一般性と精度の間に明確な緊張関係がある。 ロボット操作のためのデプロイされたソリューションは、1つのタスクを解決する1つのロボットのパラダイムに陥り、正確な一般化、すなわち精度を損なうことなく多くのタスクを解決できる能力が欠如している。 本稿では, 精密かつ汎用的なピック・アンド・プレースソリューションについて検討する。 正確なピック・アンド・プレイス、すなわちキッティングにおいて、ロボットは物体の非構造的な配置を組織的な配置に変換することにより、さらなる操作を容易にする。 そこで我々は,正確なピック・アンド・プレイスの解法としてsimPLE (Pick Localize and PLacE)を提案する。 オブジェクトCADモデルのみを前提として,オブジェクトの選択,再彫刻,配置を正確に行うことを学ぶ。 我々は,タスク認識の把握,視覚的知覚,再現計画の3つの主要コンポーネントを開発する。 タスクアウェア把持は、安定し、観測可能で、配置に好適な把持の余裕を計算する。 visuotactile perception modelは、教師付き学習を通じてシミュレーションされたものに対して実際の観察をマッチングすることに依存している。 最後に,手指のグラップのグラフ上で最短経路問題を解き,所望のロボット動作を計算する。 バイスオタクティルセンシングを備えたデュアルアームロボットにおいて,15種類の多種多様な物体を簡易にピックアップ・アンド・プレイスで検出する。 オブジェクトは幅広い形状にまたがり、6つのオブジェクトの90%以上、11つのオブジェクトの80%以上をクリアランスで、1mmのクリアランスで構造化された配列に配置することに成功した。 ビデオはhttp://mcube.mit.edu/research/simple.htmlで閲覧できる。

Existing robotic systems have a clear tension between generality and precision. Deployed solutions for robotic manipulation tend to fall into the paradigm of one robot solving a single task, lacking precise generalization, i.e., the ability to solve many tasks without compromising on precision. This paper explores solutions for precise and general pick-and-place. In precise pick-and-place, i.e. kitting, the robot transforms an unstructured arrangement of objects into an organized arrangement, which can facilitate further manipulation. We propose simPLE (simulation to Pick Localize and PLacE) as a solution to precise pick-and-place. simPLE learns to pick, regrasp and place objects precisely, given only the object CAD model and no prior experience. We develop three main components: task-aware grasping, visuotactile perception, and regrasp planning. Task-aware grasping computes affordances of grasps that are stable, observable, and favorable to placing. The visuotactile perception model relies on matching real observations against a set of simulated ones through supervised learning. Finally, we compute the desired robot motion by solving a shortest path problem on a graph of hand-to-hand regrasps. On a dual-arm robot equipped with visuotactile sensing, we demonstrate pick-and-place of 15 diverse objects with simPLE. The objects span a wide range of shapes and simPLE achieves successful placements into structured arrangements with 1mm clearance over 90% of the time for 6 objects, and over 80% of the time for 11 objects. Videos are available at http://mcube.mit.edu/research/simPLE.html .
翻訳日:2023-07-26 18:54:15 公開日:2023-07-24
# なぜガラスをきれいにしないのか? 動的光摂動による知覚攻撃

Why Don't You Clean Your Glasses? Perception Attacks with Dynamic Optical Perturbations ( http://arxiv.org/abs/2307.13131v1 )

ライセンス: Link先を確認
Yi Han, Matthew Chan, Eric Wengrowski, Zhuohuan Li, Nils Ole Tippenhauer, Mani Srivastava, Saman Zonouz, Luis Garcia(参考訳) 人間の知覚をエミュレートするカメラベースの自律システムは、ますます安全クリティカルなプラットフォームに統合されている。 その結果、基盤となる機械学習モデルをターゲットにした敵対的攻撃を探求する確立された文献が出現した。 敵の攻撃を物理的な世界に適応させることは、攻撃者にとって望ましいことだ。 しかし、現実の世界は、知覚パイプラインにおける環境ノイズと自律システムの動的性によって生じる敵の操作の「生存可能性」に関わる課題を提起している。 本稿では,センサファーストアプローチについて述べる。 EvilEyeは、ディスプレイを透過的に利用し、ダイナミックな物理的逆転の例を生成する。 EvilEyeはカメラの光学を利用して様々な照明条件下での誤分類を誘導する。 動的摂動を生成するために, 撮像された画像の光学パイプラインによる変換関数をモデル化し, ディジタルアタックの物理領域への投影を定式化する。 EvilEyeが生成した逆方向の摂動は、既存の物理的摂動フレームワークと比較して様々な環境光条件においてより堅牢であり、最先端の物理的逆方向検出フレームワークをバイパスしながら高い攻撃成功率(ASR)を達成することを示す。 evileyeのダイナミックな性質により、攻撃者は最先端の物理世界攻撃フレームワークと比較して、asrが大幅に高いさまざまなオブジェクトに敵意的な例を適応させることができる。 最後に,悪眼攻撃に対する緩和戦略について論じる。

Camera-based autonomous systems that emulate human perception are increasingly being integrated into safety-critical platforms. Consequently, an established body of literature has emerged that explores adversarial attacks targeting the underlying machine learning models. Adapting adversarial attacks to the physical world is desirable for the attacker, as this removes the need to compromise digital systems. However, the real world poses challenges related to the "survivability" of adversarial manipulations given environmental noise in perception pipelines and the dynamicity of autonomous systems. In this paper, we take a sensor-first approach. We present EvilEye, a man-in-the-middle perception attack that leverages transparent displays to generate dynamic physical adversarial examples. EvilEye exploits the camera's optics to induce misclassifications under a variety of illumination conditions. To generate dynamic perturbations, we formalize the projection of a digital attack into the physical domain by modeling the transformation function of the captured image through the optical pipeline. Our extensive experiments show that EvilEye's generated adversarial perturbations are much more robust across varying environmental light conditions relative to existing physical perturbation frameworks, achieving a high attack success rate (ASR) while bypassing state-of-the-art physical adversarial detection frameworks. We demonstrate that the dynamic nature of EvilEye enables attackers to adapt adversarial examples across a variety of objects with a significantly higher ASR compared to state-of-the-art physical world attack frameworks. Finally, we discuss mitigation strategies against the EvilEye attack.
翻訳日:2023-07-26 18:53:45 公開日:2023-07-24
# 数学用語問題解の解説

Explaining Math Word Problem Solvers ( http://arxiv.org/abs/2307.13128v1 )

ライセンス: Link先を確認
Abby Newcomb and Jugal Kalita(参考訳) ニューラルネットワークに基づく自動算数ワード問題解法では,演算ワード問題の解法において70~80\%の精度が得られた。 しかし、これらの解法は表層パターンに依存して方程式を得ることが示されている。 問題解決者が解を生成するのにどの情報を使うかを決定するため、入力の一部を取り除き、摂動データセットにおけるモデルの性能を測定する。 その結果,このモデルは入力から多くの単語を取り除くことに敏感ではなく,無意味な質問が与えられた場合でも正しい答えを見つけることができることがわかった。 このことは、自動解法が数学語問題の意味論理に従わず、特定の単語の存在に過度に適合していることを示している。

Automated math word problem solvers based on neural networks have successfully managed to obtain 70-80\% accuracy in solving arithmetic word problems. However, it has been shown that these solvers may rely on superficial patterns to obtain their equations. In order to determine what information math word problem solvers use to generate solutions, we remove parts of the input and measure the model's performance on the perturbed dataset. Our results show that the model is not sensitive to the removal of many words from the input and can still manage to find a correct answer when given a nonsense question. This indicates that automatic solvers do not follow the semantic logic of math word problems, and may be overfitting to the presence of specific words.
翻訳日:2023-07-26 18:53:22 公開日:2023-07-24
# 差分重み付き経験的リスク最小化手法とその出力重み付き学習への応用

A Differentially Private Weighted Empirical Risk Minimization Procedure and its Application to Outcome Weighted Learning ( http://arxiv.org/abs/2307.13127v1 )

ライセンス: Link先を確認
Spencer Giddens, Yiwang Zhou, Kevin R. Krull, Tara M. Brinkman, Peter X.K. Song, Fang Liu(参考訳) 個人情報を含むデータを用いて、経験的リスク最小化(ERM)の枠組みで予測モデルを構築することが一般的である。 これらのモデルは予測には非常に正確であるが、機密データを用いて得られた結果は、プライバシ攻撃の影響を受けやすい。 differential privacy (dp)は、機密データからの情報を公開する際に発生するプライバシー損失を数学的に証明可能な境界を提供することで、このようなデータプライバシー問題に対処するための魅力的なフレームワークである。 これまでの作業は主に、未加重ERMにDPを適用することに集中してきた。 重み付きERM (wERM) への重要な一般化を考える。 wERMでは、各個人の目的関数への貢献を様々な重みに割り当てることができる。 そこで本研究では,DP保証の厳密な理論的証明を背景とした,最初の微分プライベートなwERMアルゴリズムを提案する。 既存のDP-ERM手順をwERMに拡張することは、一般的な結果重み付き学習(OWL)を含む個別化処理ルールのためのプライバシー保護学習手法を導出する道を開く。 本研究では,DP-wERMのOWLに対する効果をシミュレーション研究およびメラトニンの睡眠時健康に対する実際の臨床試験で評価した。 実験結果はすべて、十分有用なモデル性能を維持しつつ、DP保証付きwERMによるOWLモデルのトレーニングが可能であることを示す。 そこで,提案するプライバシー保存型owlプロシージャの実装を,センシティブなデータを含む実世界シナリオで検討することを推奨する。

It is commonplace to use data containing personal information to build predictive models in the framework of empirical risk minimization (ERM). While these models can be highly accurate in prediction, results obtained from these models with the use of sensitive data may be susceptible to privacy attacks. Differential privacy (DP) is an appealing framework for addressing such data privacy issues by providing mathematically provable bounds on the privacy loss incurred when releasing information from sensitive data. Previous work has primarily concentrated on applying DP to unweighted ERM. We consider an important generalization to weighted ERM (wERM). In wERM, each individual's contribution to the objective function can be assigned varying weights. In this context, we propose the first differentially private wERM algorithm, backed by a rigorous theoretical proof of its DP guarantees under mild regularity conditions. Extending the existing DP-ERM procedures to wERM paves a path to deriving privacy-preserving learning methods for individualized treatment rules, including the popular outcome weighted learning (OWL). We evaluate the performance of the DP-wERM application to OWL in a simulation study and in a real clinical trial of melatonin for sleep health. All empirical results demonstrate the viability of training OWL models via wERM with DP guarantees while maintaining sufficiently useful model performance. Therefore, we recommend practitioners consider implementing the proposed privacy-preserving OWL procedure in real-world scenarios involving sensitive data.
翻訳日:2023-07-26 18:53:10 公開日:2023-07-24
# 医用画像におけるデータ拡張のための深層学習手法の検討

Deep Learning Approaches for Data Augmentation in Medical Imaging: A Review ( http://arxiv.org/abs/2307.13125v1 )

ライセンス: Link先を確認
Aghiles Kebaili, J\'er\^ome Lapuyade-Lahorgue and Su Ruan(参考訳) 深層学習は医用画像分析の一般的なツールとなっているが、特にデータ取得が費用がかかりプライバシー規制の対象となる医療分野では、トレーニングデータの限られた利用が大きな課題となっている。 データ拡張技術は、人工的にトレーニングサンプル数を増やすことで解決策を提供するが、これらの技術は多くの場合、限定的かつ説得力のない結果を生み出す。 この問題に対処するために、多くの研究が、データの真の分布に適合するより現実的で多様なデータを生成するために、深層生成モデルを使うことを提案している。 本稿では,医用画像強調のための3種類の深部生成モデル,変分オートエンコーダ,生成対向ネットワーク,拡散モデルに焦点を当てる。 これら各モデルにおける技術の現状について概観し, 分類, 分節化, クロスモーダル翻訳など, 医用画像の下流課題における利用の可能性について考察する。 また,各モデルの強度と限界を評価し,今後の研究の方向性を提案する。 本研究の目的は,医療画像拡張における深層生成モデルの利用に関する包括的レビューと,医療画像解析における深層学習アルゴリズムの性能向上に向けたこれらのモデルの可能性を強調することである。

Deep learning has become a popular tool for medical image analysis, but the limited availability of training data remains a major challenge, particularly in the medical field where data acquisition can be costly and subject to privacy regulations. Data augmentation techniques offer a solution by artificially increasing the number of training samples, but these techniques often produce limited and unconvincing results. To address this issue, a growing number of studies have proposed the use of deep generative models to generate more realistic and diverse data that conform to the true distribution of the data. In this review, we focus on three types of deep generative models for medical image augmentation: variational autoencoders, generative adversarial networks, and diffusion models. We provide an overview of the current state of the art in each of these models and discuss their potential for use in different downstream tasks in medical imaging, including classification, segmentation, and cross-modal translation. We also evaluate the strengths and limitations of each model and suggest directions for future research in this field. Our goal is to provide a comprehensive review about the use of deep generative models for medical image augmentation and to highlight the potential of these models for improving the performance of deep learning algorithms in medical image analysis.
翻訳日:2023-07-26 18:52:44 公開日:2023-07-24
# 自動生成歩行者および自転車事故サーロゲートの信頼性評価

Evaluating the reliability of automatically generated pedestrian and bicycle crash surrogates ( http://arxiv.org/abs/2307.13178v1 )

ライセンス: Link先を確認
Agnimitra Sengupta, S. Ilgin Guler, Vikash V. Gayah, Shannon Warchol(参考訳) 歩行者や自転車などの不安定な道路利用者(VRU)は、自動車の事故に巻き込まれるリスクが高く、VRUを含む事故も重傷や重傷を負う傾向にある。 信号化された交差点は、その複雑でダイナミックな性質からvrusにとって大きな安全上の懸念事項であり、これらの道路利用者が自動車とどのように相互作用するかを理解し、安全性能を改善するためにエビデンスベースの対策を展開する必要があることを強調する。 vrusに関わるクラッシュは比較的少なく、根本的な要因を理解するのが困難である。 代替手段として、VRUと自動車の衝突を安全性能の代用として識別し、使用する方法がある。 ビデオベースのシステムを使ってこれらの衝突を自動的に検出することは、VRUの安全性を高めるスマートインフラストラクチャを開発する上で重要なステップである。 ペンシルバニア州運輸省は、VRUと自動車のインタラクションを評価するためにビデオベースのイベント監視システムを使用して、ペンシルベニア州の15の信号通信交差点でVRUの安全性を向上させる研究を行った。 本研究は,高度データ駆動モデルを用いたコンフリクト予測における自動生成サーロゲートの信頼性を評価するための研究である。 解析に使用されるサーロゲートデータは、信号状態、照明、気象条件などの手動で収集した変数に加えて、車両速度、vru速度、移動、侵入後時間などの自動的な変数を収集する。 この発見は、真の衝突を予測するのに特定の代理店の様々な重要性を浮き彫りにしている。 この調査結果は、交通機関が適切な種類のデータを収集し、自転車レーンや横断歩道などのインフラ投資を優先し、その効果を評価するのに役立つ。

Vulnerable road users (VRUs), such as pedestrians and bicyclists, are at a higher risk of being involved in crashes with motor vehicles, and crashes involving VRUs also are more likely to result in severe injuries or fatalities. Signalized intersections are a major safety concern for VRUs due to their complex and dynamic nature, highlighting the need to understand how these road users interact with motor vehicles and deploy evidence-based countermeasures to improve safety performance. Crashes involving VRUs are relatively infrequent, making it difficult to understand the underlying contributing factors. An alternative is to identify and use conflicts between VRUs and motorized vehicles as a surrogate for safety performance. Automatically detecting these conflicts using a video-based systems is a crucial step in developing smart infrastructure to enhance VRU safety. The Pennsylvania Department of Transportation conducted a study using video-based event monitoring system to assess VRU and motor vehicle interactions at fifteen signalized intersections across Pennsylvania to improve VRU safety performance. This research builds on that study to assess the reliability of automatically generated surrogates in predicting confirmed conflicts using advanced data-driven models. The surrogate data used for analysis include automatically collectable variables such as vehicular and VRU speeds, movements, post-encroachment time, in addition to manually collected variables like signal states, lighting, and weather conditions. The findings highlight the varying importance of specific surrogates in predicting true conflicts, some being more informative than others. The findings can assist transportation agencies to collect the right types of data to help prioritize infrastructure investments, such as bike lanes and crosswalks, and evaluate their effectiveness.
翻訳日:2023-07-26 18:43:00 公開日:2023-07-24
# スキーマ駆動アクション可能な洞察生成とスマートレコメンデーション

Schema-Driven Actionable Insight Generation and Smart Recommendation ( http://arxiv.org/abs/2307.13176v1 )

ライセンス: Link先を確認
Allmin Susaiyah, Aki H\"arm\"a and Milan Petkovi\'c(参考訳) 自然言語生成(NLG)では、インサイトマイニングはデータからテキストへのタスクと見なされる。 のパラダイムは直感的にこのような洞察を生み出すために使われます。 この過程の多次元性と主観性は難しい。 本稿では,データから実行可能な洞察を生成し,成長と変化を促進するスキーマ駆動手法を提案する。 また、フィードバックに基づいてユーザーの興味に合わせて洞察をランク付けするテクニックも導入している。 本手法を用いて得られた知見の質的な予備結果を示し,フィードバックに適応する能力を示す。

In natural language generation (NLG), insight mining is seen as a data-to-text task, where data is mined for interesting patterns and verbalised into 'insight' statements. An 'over-generate and rank' paradigm is intuitively used to generate such insights. The multidimensionality and subjectivity of this process make it challenging. This paper introduces a schema-driven method to generate actionable insights from data to drive growth and change. It also introduces a technique to rank the insights to align with user interests based on their feedback. We show preliminary qualitative results of the insights generated using our technique and demonstrate its ability to adapt to feedback.
翻訳日:2023-07-26 18:42:28 公開日:2023-07-24
# 人口調整型生成言語モデルを用いた意見マイニング

Opinion Mining Using Population-tuned Generative Language Models ( http://arxiv.org/abs/2307.13173v1 )

ライセンス: Link先を確認
Allmin Susaiyah, Abhinay Pandya and Aki H\"arm\"a(参考訳) 本稿では,異なる集団から収集したデータに基づいて学習した生成言語モデルを用いて,テキストコレクションから意見をマイニングする方法を提案する。 本稿では,意見洞察マイニングのための基本定義,方法論,汎用アルゴリズムについて述べる。 提案手法は,非自然的かつ完全な注釈付き意見付きコンテンツを用いて,事前学習した生成モデルを微調整する実験において,その性能を実証する。 本手法は,偏極率を維持しつつ,セマンティッククラスに意見の学習と伝達が可能であることを示す。 最後に、実際のテキストコーパスからの意見洞察の発見を拡大するために、洞察マイニングシステムの使用を実証する。

We present a novel method for mining opinions from text collections using generative language models trained on data collected from different populations. We describe the basic definitions, methodology and a generic algorithm for opinion insight mining. We demonstrate the performance of our method in an experiment where a pre-trained generative model is fine-tuned using specifically tailored content with unnatural and fully annotated opinions. We show that our approach can learn and transfer the opinions to the semantic classes while maintaining the proportion of polarisation. Finally, we demonstrate the usage of an insight mining system to scale up the discovery of opinion insights from a real text corpus.
翻訳日:2023-07-26 18:42:17 公開日:2023-07-24
# 振幅有界量子制御を用いた最小量子ゲート持続時間決定法

A practical approach to determine minimal quantum gate durations using amplitude-bounded quantum controls ( http://arxiv.org/abs/2307.13168v1 )

ライセンス: Link先を確認
Stefanie G\"unther and N. Anders Petersson(参考訳) 本稿では,制御パルス振幅のハードウェア制約を満たすとともに,量子ゲートを実現する最小期間を推定する反復方式を提案する。 このスキームは、最適化パルスのエネルギーノルムに基づいてゲート期間を更新するために、複数の数値最適制御サイクルを実行する。 制御パルスの振幅境界を考えると、それぞれが量子速度限界に近いゲート持続時間に向かって高速収束を示す複数の数値例を示す。

We present an iterative scheme to estimate the minimal duration in which a quantum gate can be realized while satisfying hardware constraints on the control pulse amplitudes. The scheme performs multiple numerical optimal control cycles to update the gate duration based on the resulting energy norm of the optimized pulses. We provide multiple numerical examples that each demonstrate fast convergence towards a gate duration that is close to the quantum speed limit, given the control pulse amplitude bound.
翻訳日:2023-07-26 18:42:07 公開日:2023-07-24
# トレーニングデータ摂動に対するシーケンスレコメンダシステムのロバスト性の検討--実証的研究

Investigating the Robustness of Sequential Recommender Systems Against Training Data Perturbations: an Empirical Study ( http://arxiv.org/abs/2307.13165v1 )

ライセンス: Link先を確認
Filippo Betello, Federico Siciliano, Pushkar Mishra, Fabrizio Silvestri(参考訳) SRS(Sequential Recommender Systems)は、ユーザー行動のモデル化に広く利用されているが、データトレーニングの摂動に直面した際の堅牢性は重要な問題である。 本稿では,時間順列内の異なる位置におけるアイテム除去の効果を検討するために,経験的研究を行う。 複数のデータセット上で2つの異なるSRSモデルを評価し,NDCGとランク感性リストを用いて評価を行った。 その結果,列末尾の項目の除去は性能に有意な影響を与え,ndcgは最大60\%まで低下するが,初期または中期の項目の除去は有意な影響を及ぼさないことがわかった。 これらの知見は、トレーニングデータにおける摂動項目の位置を考慮することの重要性を強調し、より堅牢なSRSの設計を通知する。

Sequential Recommender Systems (SRSs) have been widely used to model user behavior over time, but their robustness in the face of perturbations to training data is a critical issue. In this paper, we conduct an empirical study to investigate the effects of removing items at different positions within a temporally ordered sequence. We evaluate two different SRS models on multiple datasets, measuring their performance using Normalized Discounted Cumulative Gain (NDCG) and Rank Sensitivity List metrics. Our results demonstrate that removing items at the end of the sequence significantly impacts performance, with NDCG decreasing up to 60\%, while removing items from the beginning or middle has no significant effect. These findings highlight the importance of considering the position of the perturbed items in the training data and shall inform the design of more robust SRSs.
翻訳日:2023-07-26 18:41:59 公開日:2023-07-24
# UP-DETR: 変圧器を用いた物体検出のための教師なし事前学習

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers ( http://arxiv.org/abs/2011.09094v3 )

ライセンス: Link先を確認
Zhigang Dai, Bolun Cai, Yugeng Lin, Junying Chen(参考訳) オブジェクト検出のための検出TRansformer(DETR)は、変換器エンコーダ・デコーダアーキテクチャによる高速R-CNNと比較して競合性能に達する。 しかし、スクラッチトランスフォーマーでトレーニングされたdetrは、cocoデータセット上でも大規模トレーニングデータと極端に長いトレーニングスケジュールを必要とする。 自然言語処理における事前学習型トランスフォーマーの大きな成功に触発されて,Unsupervised Pre-training DETR (UP-DETR) におけるランダムクエリパッチ検出という新しいプリテキストタスクを提案する。 具体的には、与えられた画像からパッチをランダムに取り出し、デコーダにクエリとして与えます。 モデルは、入力画像からこれらのクエリパッチを検出するために事前トレーニングされる。 事前トレーニング中に,マルチタスク学習とマルチクエリローカライズという2つの重要な課題に対処した。 1)プリテキストタスクにおける分類と局所化の選好をトレードオフするため,cnnバックボーンの凍結が事前学習トランスフォーマーの成功の前提条件であることがわかった。 2)マルチクエリのローカライズを実現するため,アテンションマスクを用いたマルチクエリパッチ検出を用いたUP-DETRを開発した。 さらにUP-DETRは、微調整オブジェクト検出とワンショット検出タスクの統一的な視点も提供する。 実験では, UP-DETRはより高速に収束し, 物体検出, ワンショット検出, パン光学セグメンテーションにおける平均精度を向上する。 コードおよび事前トレーニングモデル: https://github.com/dddzg/up-detr。

DEtection TRansformer (DETR) for object detection reaches competitive performance compared with Faster R-CNN via a transformer encoder-decoder architecture. However, trained with scratch transformers, DETR needs large-scale training data and an extreme long training schedule even on COCO dataset. Inspired by the great success of pre-training transformers in natural language processing, we propose a novel pretext task named random query patch detection in Unsupervised Pre-training DETR (UP-DETR). Specifically, we randomly crop patches from the given image and then feed them as queries to the decoder. The model is pre-trained to detect these query patches from the input image. During the pre-training, we address two critical issues: multi-task learning and multi-query localization. (1) To trade off classification and localization preferences in the pretext task, we find that freezing the CNN backbone is the prerequisite for the success of pre-training transformers. (2) To perform multi-query localization, we develop UP-DETR with multi-query patch detection with attention mask. Besides, UP-DETR also provides a unified perspective for fine-tuning object detection and one-shot detection tasks. In our experiments, UP-DETR significantly boosts the performance of DETR with faster convergence and higher average precision on object detection, one-shot detection and panoptic segmentation. Code and pre-training models: https://github.com/dddzg/up-detr.
翻訳日:2023-07-26 01:47:48 公開日:2023-07-24
# 共同抽出文とキーワードによる教師なし要約

Unsupervised Summarization by Jointly Extracting Sentences and Keywords ( http://arxiv.org/abs/2009.07481v2 )

ライセンス: Link先を確認
Zongyi Li, Xiaoqing Zheng, Jun He(参考訳) 本稿では, 単語, 文, 単語と文間の類似性を, ベクトル空間内のベクトル表現間の距離によって推定できる, 抽出多文書要約のための教師なしグラフベースランキングモデルRepRankを提案する。 適切な表現を得るために,単語埋め込みの重み付け和で文を表現する自己注意に基づく学習手法を提案し,文書の内容をよりよく反映して重みを集中させることが望まれる。 学習した表現を用いて,有能な文やキーワードを相互強化プロセスで抽出できることを示し,この処理が常に,性能の向上につながるユニークな解に収束することを証明する。 吸収ランダムウォークの変種とそれに対応するサンプリングベースアルゴリズムについても記述し、冗長性を避け、要約の多様性を高める。 複数のベンチマークデータセットを用いた実験の結果、reprankはrougeで最高の性能または同等のパフォーマンスを達成した。

We present RepRank, an unsupervised graph-based ranking model for extractive multi-document summarization in which the similarity between words, sentences, and word-to-sentence can be estimated by the distances between their vector representations in a unified vector space. In order to obtain desirable representations, we propose a self-attention based learning method that represent a sentence by the weighted sum of its word embeddings, and the weights are concentrated to those words hopefully better reflecting the content of a document. We show that salient sentences and keywords can be extracted in a joint and mutual reinforcement process using our learned representations, and prove that this process always converges to a unique solution leading to improvement in performance. A variant of absorbing random walk and the corresponding sampling-based algorithm are also described to avoid redundancy and increase diversity in the summaries. Experiment results with multiple benchmark datasets show that RepRank achieved the best or comparable performance in ROUGE.
翻訳日:2023-07-26 01:47:23 公開日:2023-07-24
# グラフニューラルネットワークと2階推論によるエンティティ中心特徴の活用による参照解決の改善

Improving Coreference Resolution by Leveraging Entity-Centric Features with Graph Neural Networks and Second-order Inference ( http://arxiv.org/abs/2009.04639v2 )

ライセンス: Link先を確認
Lu Liu, Zhenqiao Song, Xiaoqing Zheng and Jun He(参考訳) コリファレンス解決における大きな課題の1つは、言及ペアではなく、言及のクラスタ上で定義されたエンティティレベルの機能をどのように利用するかである。 しかし、coreferentの言及は通常、テキスト全体から遠く離れているため、エンティティレベルの機能を組み込むのは非常に困難である。 本稿では,同一の実世界のエンティティを参照するすべての言及にまたがる特徴の共有を奨励することで,エンティティ中心の情報を取得することができるグラフニューラルネットワークベースのコア参照解決手法を提案する。 2つのリンクされた参照が同じエンティティを指し示す可能性があるかをモデル化するエッジを通じて、メンションが相互にリンクされる。 このようなグラフによるモデリングでは、参照間の機能はエンティティ中心の方法でメッセージパッシング操作によって共有できる。 第2次特徴までのグローバル推論アルゴリズムも、最適な参照を一貫性のあるグループに分類するために提案されている。 実験の結果,2次復号アルゴリズム(GNNCR)と組み合わせたグラフニューラルネットワークを用いた手法が,英語のCoNLL-2012 Shared Taskデータセットの最先端性能に近づいた。

One of the major challenges in coreference resolution is how to make use of entity-level features defined over clusters of mentions rather than mention pairs. However, coreferent mentions usually spread far apart in an entire text, which makes it extremely difficult to incorporate entity-level features. We propose a graph neural network-based coreference resolution method that can capture the entity-centric information by encouraging the sharing of features across all mentions that probably refer to the same real-world entity. Mentions are linked to each other via the edges modeling how likely two linked mentions point to the same entity. Modeling by such graphs, the features between mentions can be shared by message passing operations in an entity-centric manner. A global inference algorithm up to second-order features is also presented to optimally cluster mentions into consistent groups. Experimental results show our graph neural network-based method combing with the second-order decoding algorithm (named GNNCR) achieved close to state-of-the-art performance on the English CoNLL-2012 Shared Task dataset.
翻訳日:2023-07-26 01:47:08 公開日:2023-07-24
# 新しい社会選択理論に向けて

Towards a new Social Choice Theory ( http://arxiv.org/abs/2007.15393v3 )

ライセンス: Link先を確認
Andr\'es Garc\'ia-Camino(参考訳) 社会的選択とは、個人の意見、好み、関心、福祉から始まる社会福祉に対する集団的決定に関する理論である。 計算社会福祉(Computational Social Welfare)の分野はやや最近で、人工知能コミュニティに影響を及ぼしている。 古典文学は単一話者の嗜好を仮定する、すなわち、選好には順序があり、この順序には大域的な最大値が存在する。 今年は2段階の承認投票システム(TAV)、MWSR(Multi-winner Selection Rules)、IP(Incomplete)、CP(Circular Preferences)に関する理論的結果が発表された。 第一に、私は、(社会的)ゴールへの障害を最小限に抑えるために、最小限の人工知能決定ルールを実装した、最大ステージと最小ステージのTAVの一般化として、社会選択最適化を導入したいと思います。 第二に、私の論文「ソーシャルインクルージョンのオープンな標準化」において、社会選択最適化のグローバルな社会的目標として実践した、オープン標準化とオープン統合理論(リファインメントプロセス)に従い、紹介したいと思います。

Social choice is the theory about collective decision towards social welfare starting from individual opinions, preferences, interests or welfare. The field of Computational Social Welfare is somewhat recent and it is gaining impact in the Artificial Intelligence Community. Classical literature makes the assumption of single-peaked preferences, i.e. there exist a order in the preferences and there is a global maximum in this order. This year some theoretical results were published about Two-stage Approval Voting Systems (TAVs), Multi-winner Selection Rules (MWSR) and Incomplete (IPs) and Circular Preferences (CPs). The purpose of this paper is three-fold: Firstly, I want to introduced Social Choice Optimisation as a generalisation of TAVs where there is a max stage and a min stage implementing thus a Minimax, well-known Artificial Intelligence decision-making rule to minimize hindering towards a (Social) Goal. Secondly, I want to introduce, following my Open Standardization and Open Integration Theory (in refinement process) put in practice in my dissertation, the Open Standardization of Social Inclusion, as a global social goal of Social Choice Optimization.
翻訳日:2023-07-26 01:46:50 公開日:2023-07-24
# 観測データから最適規範木を学習する

Learning Optimal Prescriptive Trees from Observational Data ( http://arxiv.org/abs/2108.13628v2 )

ライセンス: Link先を確認
Nathanael Jo, Sina Aghaei, Andr\'es G\'omez, Phebe Vayanos(参考訳) 我々は、観測データから最適規範木(すなわち、二分木という形で解釈可能な処理割り当てポリシー)を適度な深さで学習する問題を考察する。 この問題は、公衆衛生やパーソナライズされた医療など、多くの社会的に重要な領域で発生し、ランダムな試行ではなく、データ収集を通じて、デプロイで収集されたデータに基づいて解釈可能かつデータ駆動の介入を求める。 混合整数最適化(MIO)技術を用いて最適規範木を学習する手法を提案する。 本手法は温和な条件下では, 過去のデータサンプルの数が無限大になる傾向にあるため, 最適外処理割り当てポリシーに収束するという意味で, 漸近的に正確であることを示す。 既存の文献とは対照的に、我々のアプローチは: 1)データがランダム化される必要はない。 2)学習した木に厳格な仮定を課さない。 3) ドメイン固有の制約をモデル化する能力。 広範な計算実験を通じて,我々の漸近的保証は,有限標本における顕著な性能向上に寄与することを示すとともに,予算と公正性制約を取り入れた一意に柔軟なモデリング能力を示す。

We consider the problem of learning an optimal prescriptive tree (i.e., an interpretable treatment assignment policy in the form of a binary tree) of moderate depth, from observational data. This problem arises in numerous socially important domains such as public health and personalized medicine, where interpretable and data-driven interventions are sought based on data gathered in deployment -- through passive collection of data -- rather than from randomized trials. We propose a method for learning optimal prescriptive trees using mixed-integer optimization (MIO) technology. We show that under mild conditions our method is asymptotically exact in the sense that it converges to an optimal out-of-sample treatment assignment policy as the number of historical data samples tends to infinity. Contrary to existing literature, our approach: 1) does not require data to be randomized, 2) does not impose stringent assumptions on the learned trees, and 3) has the ability to model domain specific constraints. Through extensive computational experiments, we demonstrate that our asymptotic guarantees translate to significant performance improvements in finite samples, as well as showcase our uniquely flexible modeling power by incorporating budget and fairness constraints.
翻訳日:2023-07-26 01:41:10 公開日:2023-07-24
# 潜在共同設立者によるガウス図形モデル学習

Learning Gaussian Graphical Models with Latent Confounders ( http://arxiv.org/abs/2105.06600v2 )

ライセンス: Link先を確認
Ke Wang, Alexander Franks, Sang-Yun Oh(参考訳) ガウス図形モデル(GGM)は生物学からファイナンスまで多くの応用においてネットワーク構造を推定するために広く用いられている。 実際、データは、基礎となる真のグラフィカルな構造の推論をバイアスする潜伏した共同創設者によってしばしば腐敗する。 本稿では,潜在変数を持つガウス的グラフィカルモデル (LVGGM) と,PCAをベースとしたコンバウンディング除去 (PCA+GGM) の2つの手法を比較して比較する。 これら2つのアプローチは同じような目標を持っているが、結合に関するさまざまな仮定によって動機づけられている。 本稿では, これら2つのアプローチの関連性について検討し, これら2つのアプローチの強みを組み合わせた新しい手法を提案する。 そこで我々は,PCAに基づく手法の一貫性と収束率を証明し,これらの結果を用いて各手法をいつ使用するかのガイダンスを提供する。 本手法の有効性をシミュレーションと実世界の2つの応用で実証する。

Gaussian Graphical models (GGM) are widely used to estimate the network structures in many applications ranging from biology to finance. In practice, data is often corrupted by latent confounders which biases inference of the underlying true graphical structure. In this paper, we compare and contrast two strategies for inference in graphical models with latent confounders: Gaussian graphical models with latent variables (LVGGM) and PCA-based removal of confounding (PCA+GGM). While these two approaches have similar goals, they are motivated by different assumptions about confounding. In this paper, we explore the connection between these two approaches and propose a new method, which combines the strengths of these two approaches. We prove the consistency and convergence rate for the PCA-based method and use these results to provide guidance about when to use each method. We demonstrate the effectiveness of our methodology using both simulations and in two real-world applications.
翻訳日:2023-07-26 01:40:19 公開日:2023-07-24
# SparseGAN:テキスト生成のためのスパース生成対応ネットワーク

SparseGAN: Sparse Generative Adversarial Network for Text Generation ( http://arxiv.org/abs/2103.11578v2 )

ライセンス: Link先を確認
Liping Yuan, Jiehang Zeng, Xiaoqing Zheng(参考訳) 学習過程全体が微分可能ではないため,gans(generative adversarial networks)の枠組みの下でニューラルネットワーク生成モデルを学ぶことは依然として難しい課題である。 既存のトレーニング戦略は信頼できない勾配推定や不正確な文表現に悩まされる。 スパース符号化の原理に着想を得て,識別器への入力として意味解釈可能な文表現を生成するスパースGANを提案する。 重要なアイデアは、埋め込み行列を超完全辞書として扱い、選択された単語埋め込みの線形結合を使用して、各時間ステップでジェネレータの出力特徴表現を近似するというものだ。 このような意味豊かな表現により、効率の良い対人訓練のための不要なノイズを低減できるだけでなく、学習過程全体を完全に差別化できる。 複数のテキスト生成データセットの実験は、特にBLEUのようなシーケンスレベルのメトリクスにおいて、パフォーマンスの改善をもたらす。

It is still a challenging task to learn a neural text generation model under the framework of generative adversarial networks (GANs) since the entire training process is not differentiable. The existing training strategies either suffer from unreliable gradient estimations or imprecise sentence representations. Inspired by the principle of sparse coding, we propose a SparseGAN that generates semantic-interpretable, but sparse sentence representations as inputs to the discriminator. The key idea is that we treat an embedding matrix as an over-complete dictionary, and use a linear combination of very few selected word embeddings to approximate the output feature representation of the generator at each time step. With such semantic-rich representations, we not only reduce unnecessary noises for efficient adversarial training, but also make the entire training process fully differentiable. Experiments on multiple text generation datasets yield performance improvements, especially in sequence-level metrics, such as BLEU.
翻訳日:2023-07-26 01:39:00 公開日:2023-07-24
# 有限サイズ解析によるDIQKDプロトコルの改良

Improved DIQKD protocols with finite-size analysis ( http://arxiv.org/abs/2012.08714v5 )

ライセンス: Link先を確認
Ernest Y.-Z. Tan, Pavel Sekatski, Jean-Daniel Bancal, Ren\'e Schwonnek, Renato Renner, Nicolas Sangouard, Charles C.-W. Lim(参考訳) 有限長鍵のセキュリティは、デバイス独立量子鍵分布(DIQKD)の実装に不可欠である。 現在、いくつかの有限サイズDIQKDセキュリティ証明があるが、それらは主に標準DIQKDプロトコルに焦点を当てており、ノイズ前処理、ランダムキー測定、修正CHSH不等式に基づく最近の改良DIQKDプロトコルに直接適用されない。 ここでは、これらのアプローチを同時に包含できる一般的な有限サイズセキュリティ証明を、以前の解析よりも厳密な有限サイズ境界を用いて提供する。 そこで我々は,このようなDIQKDプロトコルに対する漸近的鍵レートの厳密な下限をバイナリ入力と出力で計算する手法を開発した。 これにより、前述した全てのノイズ閾値を超え、9.33 %$のノイズを非偏極化できることを示す。 また,プレシェードシードと"シードリカバリ"ステップを用いてランダムキー測定プロトコルを改良し,シフティング係数を本質的に除去することで,ネットキー生成率を大幅に向上させる。 また,デバイスに依存しないランダム性拡張のキーレートも向上する可能性がある。

The security of finite-length keys is essential for the implementation of device-independent quantum key distribution (DIQKD). Presently, there are several finite-size DIQKD security proofs, but they are mostly focused on standard DIQKD protocols and do not directly apply to the recent improved DIQKD protocols based on noisy preprocessing, random key measurements, and modified CHSH inequalities. Here, we provide a general finite-size security proof that can simultaneously encompass these approaches, using tighter finite-size bounds than previous analyses. In doing so, we develop a method to compute tight lower bounds on the asymptotic keyrate for any such DIQKD protocol with binary inputs and outputs. With this, we show that positive asymptotic keyrates are achievable up to depolarizing noise values of $9.33\%$, exceeding all previously known noise thresholds. We also develop a modification to random-key-measurement protocols, using a pre-shared seed followed by a "seed recovery" step, which yields substantially higher net key generation rates by essentially removing the sifting factor. Some of our results may also improve the keyrates of device-independent randomness expansion.
翻訳日:2023-07-26 01:38:26 公開日:2023-07-24
# XTQA: 教科書質問回答のSpan-Level説明

XTQA: Span-Level Explanations of the Textbook Question Answering ( http://arxiv.org/abs/2011.12662v4 )

ライセンス: Link先を確認
Jie Ma, Qi Chai, Jun Liu, Qingyu Yin, Pinghui Wang, Qinghua Zheng(参考訳) 教科書質問応答 (tqa) は、豊富なエッセイと図からなる大きなマルチモーダルな文脈において、ダイアグラム/非ダイアグラムの質問に答えるべきタスクである。 この課題の説明は学生を考慮すべき重要な側面として位置づけるべきである。 この問題に対処するために,提案する粗粒粒度アルゴリズムに基づいて,tqa(span-level descriptions of the tqa)のスパンレベル説明に向けて,新たなアーキテクチャを考案する。 このアルゴリズムはまずTF-IDF法を用いて質問に関する上位M$段落を粗末に選択し、各質問に対する情報ゲインを計算することにより、これらの段落内のすべての候補から上位K$段落を微妙に選択する。 実験結果から,XTQAはベースラインに比べて最先端性能を著しく向上することがわかった。 ソースコードはhttps://github.com/keep-smile-001/opentqaで入手できる。

Textbook Question Answering (TQA) is a task that one should answer a diagram/non-diagram question given a large multi-modal context consisting of abundant essays and diagrams. We argue that the explainability of this task should place students as a key aspect to be considered. To address this issue, we devise a novel architecture towards span-level eXplanations of the TQA (XTQA) based on our proposed coarse-to-fine grained algorithm, which can provide not only the answers but also the span-level evidences to choose them for students. This algorithm first coarsely chooses top $M$ paragraphs relevant to questions using the TF-IDF method, and then chooses top $K$ evidence spans finely from all candidate spans within these paragraphs by computing the information gain of each span to questions. Experimental results shows that XTQA significantly improves the state-of-the-art performance compared with baselines. The source code is available at https://github.com/keep-smile-001/opentqa
翻訳日:2023-07-26 01:38:05 公開日:2023-07-24
# 雑音系における類似性の一般化:DIBS現象

Generalizing similarity in noisy setups: the DIBS phenomenon ( http://arxiv.org/abs/2201.12803v3 )

ライセンス: Link先を確認
Nayara Fonseca, Veronica Guidetti(参考訳) この研究は、類似学習におけるデータ密度、ノイズ、一般化能力の間の相互作用を明らかにする。 コントラスト学習の基本的な形態であるシームズニューラルネットワーク(SNN)を考察し,SNN,Pair Label Noise(PLN),Single Label Noise(SLN)に影響を及ぼす2種類のノイズを探索する。 本研究は,SNNがトレーニング設定によらず二重降下挙動を示し,騒音によりさらに悪化していることを明らかにする。 データペアの密度は一般化に不可欠であることを示す。 SNNは、PLNやSLNと同じ量のスパースデータセットで訓練されると、同等の一般化特性を示す。 しかし、密度の強いデータセットを使用すると、PLNのケースは過度にパラメータ化された領域のSLNのものよりも一般化し、密度誘起類似性の破れ(DIBS)と呼ばれる現象を引き起こす。 この状態において、PLNの類似性違反は、モデルパラメータの数に関係なく、完全な補間が達成できない点までデータセットを破損させる。 類似性学習におけるオンライン最適化とオフライン一般化の対応についても検討した。 その結果、この等価性は、考慮されたすべてのシナリオにおいてラベルノイズの存在下で失敗することが示された。

This work uncovers an interplay among data density, noise, and the generalization ability in similarity learning. We consider Siamese Neural Networks (SNNs), which are the basic form of contrastive learning, and explore two types of noise that can impact SNNs, Pair Label Noise (PLN) and Single Label Noise (SLN). Our investigation reveals that SNNs exhibit double descent behaviour regardless of the training setup and that it is further exacerbated by noise. We demonstrate that the density of data pairs is crucial for generalization. When SNNs are trained on sparse datasets with the same amount of PLN or SLN, they exhibit comparable generalization properties. However, when using dense datasets, PLN cases generalize worse than SLN ones in the overparametrized region, leading to a phenomenon we call Density-Induced Break of Similarity (DIBS). In this regime, PLN similarity violation becomes macroscopical, corrupting the dataset to the point where complete interpolation cannot be achieved, regardless of the number of model parameters. Our analysis also delves into the correspondence between online optimization and offline generalization in similarity learning. The results show that this equivalence fails in the presence of label noise in all the scenarios considered.
翻訳日:2023-07-26 01:32:33 公開日:2023-07-24
# $\mathbb{Z}_2$対称性を持つアベリア格子ゲージ理論の電磁双対性

Electric-magnetic duality of $\mathbb{Z}_2$ symmetry enriched Abelian lattice gauge theory ( http://arxiv.org/abs/2201.12361v2 )

ライセンス: Link先を確認
Zhian Jia, Dagomir Kaszlikowski, Sheng Tan(参考訳) キタエフの量子二重モデルはディクグラフ-ウィッテン位相量子場理論(tqft)の格子ゲージ理論による実現であり、その位相的に保護された基底状態空間は位相量子計算と位相量子記憶に広く応用されている。 我々は、圏的枠組みにおける巡回アーベル群のモデルの一般化である $\mathbb{z}_2$ 対称性を調べ、明示的なハミルトニアン構成を示す。 このモデルは、$\mathbb{Z}_2$対称性リッチトポロジカル位相(SET)の格子実現を提供する。 我々は、電磁(EM)双対性対称性が特別な場合である位相のカテゴリー対称性について詳細に論じる。 対称性欠陥の側面を, UBFC ($G$-crossed Unitary Braided fusion category) を用いて検討した。 また, 対応するいずれの凝縮も決定し, ギャップ付き境界と境界バルク双対性についても検討した。 そして、これらのSET相に対するEM双対性の明示的な格子実現を慎重に構築する。

Kitaev's quantum double model is a lattice gauge theoretic realization of Dijkgraaf-Witten topological quantum field theory (TQFT), its topologically protected ground state space has broad applications for topological quantum computation and topological quantum memory. We investigate the $\mathbb{Z}_2$ symmetry enriched generalization of the model for the cyclic Abelian group in a categorical framework and present an explicit Hamiltonian construction. This model provides a lattice realization of the $\mathbb{Z}_2$ symmetry enriched topological (SET) phase. We discuss in detail the categorical symmetry of the phase, for which the electric-magnetic (EM) duality symmetry is a special case. The aspects of symmetry defects are investigated using the $G$-crossed unitary braided fusion category (UBFC). By determining the corresponding anyon condensation, the gapped boundaries and boundary-bulk duality are also investigated. Then we carefully construct the explicit lattice realization of EM duality for these SET phases.
翻訳日:2023-07-26 01:32:08 公開日:2023-07-24
# 二重量子化

Double Quantization ( http://arxiv.org/abs/2112.11401v3 )

ライセンス: Link先を確認
Giulia Gubitosi, Fedele Lizzi, Jos\'e Javier Relancio, Patrizia Vitale(参考訳) 量子重力理論では、時空の古典的な概念は消滅し、新しい性質を持つ量子構造をもたらすことが期待される。 これらの量子効果を考慮するための可能な方法は、時空座標の非可換性である。 文献では、時空の非可換性と量子力学の位相空間非可換性を記述するための明確な方法が存在しない。 本稿では、両方の量子化を扱う位相空間におけるドリンフェルズツイストを構築することにより、この問題に対処する。 この方法は空間のみを含む非可換性に応用でき、時間は別として残すことができる。 この構成をいわゆる$\lambda$-minkwoski と $\mathbb{r}^3_\lambda$非可換空間に適用する。

In a quantum gravity theory, it is expected that the classical notion of spacetime disappears, leading to a quantum structure with new properties. A possible way to take into account these quantum effects is through a noncommutativity of spacetime coordinates. In the literature, there is not a clear way to describe at the same time a noncommutativity of spacetime and the phase-space noncommutativity of quantum mechanics. In this paper we address this issue by constructing a Drinfel'd twist in phase space which deals with both quantizations. This method can be applied to a noncommutativity which involves only space, leaving time aside. We apply our construction to the so-called $\lambda$-Minkwoski and $\mathbb{R}^3_\lambda$ noncommutative spaces.
翻訳日:2023-07-26 01:31:46 公開日:2023-07-24
# 強化学習推薦システムにおけるユーザ改ざん

User Tampering in Reinforcement Learning Recommender Systems ( http://arxiv.org/abs/2109.04083v3 )

ライセンス: Link先を確認
Charles Evans, Atoosa Kasirzadeh(参考訳) 本稿では,新しい形式的手法を導入し,強化学習(rl)に基づくレコメンデーションアルゴリズム「ユーザ改ざん」に共通する一意な安全性を浮き彫りにする実証的エビデンスを提供する。 ユーザタンパリング(英: user tampering)とは、RLベースのレコメンデータシステムが、長期的なユーザエンゲージメントを最大化するためのポリシーの一環として、その提案を通じてメディアユーザの意見を操作できる状況である。 提案手法は,スケーラブルなrlベースレコメンデーションシステムを実現するために文献で提案されている汎用ソリューションを批判的に解析するために,因果モデリングからの形式的手法を用いる。 さらに,報酬テーパー問題に対する既存の緩和策を評価し,レコメンデーションの文脈内でのユーザテーパー現象に対処するには,これらの手法が不十分であることを示す。 政治コンテンツの普及に焦点をあてたRLに基づくレコメンデーションシステムのシミュレーション研究により,我々の知見をさらに強化する。 我々の研究は、Q-learningアルゴリズムが、シミュレーションされたユーザーを早期のレコメンデーションで分極する機会を常に活用して、この誘導分極と整合した後続のレコメンデーションとより一貫した成功をもたらすことを示している。 本研究は,より安全なrlベースのレコメンデーションシステムの構築の必要性を強調し,その安全性を実現するには,最近の文献で見てきたアプローチから設計を根本的に変える必要があることを示唆する。

In this paper, we introduce new formal methods and provide empirical evidence to highlight a unique safety concern prevalent in reinforcement learning (RL)-based recommendation algorithms -- 'user tampering.' User tampering is a situation where an RL-based recommender system may manipulate a media user's opinions through its suggestions as part of a policy to maximize long-term user engagement. We use formal techniques from causal modeling to critically analyze prevailing solutions proposed in the literature for implementing scalable RL-based recommendation systems, and we observe that these methods do not adequately prevent user tampering. Moreover, we evaluate existing mitigation strategies for reward tampering issues, and show that these methods are insufficient in addressing the distinct phenomenon of user tampering within the context of recommendations. We further reinforce our findings with a simulation study of an RL-based recommendation system focused on the dissemination of political content. Our study shows that a Q-learning algorithm consistently learns to exploit its opportunities to polarize simulated users with its early recommendations in order to have more consistent success with subsequent recommendations that align with this induced polarization. Our findings emphasize the necessity for developing safer RL-based recommendation systems and suggest that achieving such safety would require a fundamental shift in the design away from the approaches we have seen in the recent literature.
翻訳日:2023-07-26 01:29:08 公開日:2023-07-24
# 不完全測定による量子絡み合いの深層学習

Deep learning of quantum entanglement from incomplete measurements ( http://arxiv.org/abs/2205.01462v6 )

ライセンス: Link先を確認
Dominik Koutn\'y, Laia Gin\'es, Magdalena Mocza{\l}a-Dusanowska, Sven H\"ofling, Christian Schneider, Ana Predojevi\'c, Miroslav Je\v{z}ek(参考訳) 物理的システムに存在する絡み合いの定量化は、基礎研究や多くの最先端の応用においてパラマウントな重要性を持つ。 現在、この目標を達成するには、システムに関する事前知識か、完全な状態トモグラフィや集団計測のような実験的な手順が必要である。 ここでは,ニューラルネットワークを用いることで,量子状態の完全な記述を知ることなく,絡み合いの程度を定量化できることを実証する。 提案手法は,不完全な局所測定値を用いて,量子相関の直接定量化を可能にする。 サンプルの少ない測定値を使用しても、最先端の量子トモグラフィよりも最大で桁違いに低い量子化誤差が得られる。 さらに,専用シミュレーションデータを用いてトレーニングしたネットワークを用いて,この結果を得る。 最後に、様々な測定シナリオからデータを受け取り、測定装置とは無関係にある程度実行することができる畳み込みネットワーク入力に基づく手法を導出する。

The quantification of the entanglement present in a physical system is of para\-mount importance for fundamental research and many cutting-edge applications. Currently, achieving this goal requires either a priori knowledge on the system or very demanding experimental procedures such as full state tomography or collective measurements. Here, we demonstrate that by employing neural networks we can quantify the degree of entanglement without needing to know the full description of the quantum state. Our method allows for direct quantification of the quantum correlations using an incomplete set of local measurements. Despite using undersampled measurements, we achieve a quantification error of up to an order of magnitude lower than the state-of-the-art quantum tomography. Furthermore, we achieve this result employing networks trained using exclusively simulated data. Finally, we derive a method based on a convolutional network input that can accept data from various measurement scenarios and perform, to some extent, independently of the measurement device.
翻訳日:2023-07-26 01:21:06 公開日:2023-07-24
# AdaBest: 適応バイアス推定によるフェデレーション学習におけるクライアントドリフトの最小化

AdaBest: Minimizing Client Drift in Federated Learning via Adaptive Bias Estimation ( http://arxiv.org/abs/2204.13170v4 )

ライセンス: Link先を確認
Farshid Varno, Marzie Saghayi, Laya Rafiee Sevyeri, Sharut Gupta, Stan Matwin, Mohammad Havaei(参考訳) フェデレーション学習(fl)では、多くのクライアントやデバイスが協力して、データを共有せずにモデルをトレーニングする。 モデルは各クライアントでローカルに最適化され、集約のための中央ハブにさらに通信される。 FLは魅力的な分散トレーニングパラダイムであるが、異なるクライアントのデータ間の不均一性は、局所最適化をグローバルな目標から逸脱させる可能性がある。 このドリフトを推定し除去するために,近年,分散低減手法がfl最適化に取り入れられている。 しかし、これらのアプローチはクライアントのドリフトを不正確に見積もり、最終的に適切に削除できなかった。 本研究では,クライアント間のドリフトを正確に推定する適応アルゴリズムを提案する。 従来の研究と比較して,本手法ではストレージや通信帯域の削減,計算コストの削減が必要であった。 さらに,提案手法は,クライアントドリフトの推定基準を制約することにより安定性を誘導し,大規模flではより実用的となる。 実験の結果,提案アルゴリズムは様々なFLベンチマークにおいて,ベースラインよりもはるかに高速に収束し,精度が高いことがわかった。

In Federated Learning (FL), a number of clients or devices collaborate to train a model without sharing their data. Models are optimized locally at each client and further communicated to a central hub for aggregation. While FL is an appealing decentralized training paradigm, heterogeneity among data from different clients can cause the local optimization to drift away from the global objective. In order to estimate and therefore remove this drift, variance reduction techniques have been incorporated into FL optimization recently. However, these approaches inaccurately estimate the clients' drift and ultimately fail to remove it properly. In this work, we propose an adaptive algorithm that accurately estimates drift across clients. In comparison to previous works, our approach necessitates less storage and communication bandwidth, as well as lower compute costs. Additionally, our proposed methodology induces stability by constraining the norm of estimates for client drift, making it more practical for large scale FL. Experimental findings demonstrate that the proposed algorithm converges significantly faster and achieves higher accuracy than the baselines across various FL benchmarks.
翻訳日:2023-07-26 01:20:53 公開日:2023-07-24
# 半監督点雲の補修における事前蒸留法

Reconstruction-Aware Prior Distillation for Semi-supervised Point Cloud Completion ( http://arxiv.org/abs/2204.09186v4 )

ライセンス: Link先を確認
Zhaoxin Fan, Yulin He, Zhicheng Wang, Kejian Wu, Hongyan Liu and Jun He(参考訳) 現実世界のセンサーはしばしば不完全で不規則でノイズの多い点雲を発生させ、点雲の完成がますます重要になる。 しかし、既存の補完手法のほとんどは、労働集約的なトレーニングのための大きなペアデータセットに依存している。 本稿では,組付きデータセットの必要性を低減した,新しい半教師付きポイントクラウド補完手法であるrapdを提案する。 RaPDは2段階の訓練手法を用いて, 未熟な完全点雲と不完全点雲から深層セマンティック先行を学習し, 半監督された事前蒸留プロセスを導入し, 少数のペアサンプルのみを用いて完成ネットワークを訓練する。 さらに,不完全点クラウドを用いた性能向上のために,自己教師付き補完モジュールが導入された。 複数のデータセットの実験では、RADは相同性シナリオと異性シナリオの両方において、以前の手法よりも優れていた。

Real-world sensors often produce incomplete, irregular, and noisy point clouds, making point cloud completion increasingly important. However, most existing completion methods rely on large paired datasets for training, which is labor-intensive. This paper proposes RaPD, a novel semi-supervised point cloud completion method that reduces the need for paired datasets. RaPD utilizes a two-stage training scheme, where a deep semantic prior is learned in stage 1 from unpaired complete and incomplete point clouds, and a semi-supervised prior distillation process is introduced in stage 2 to train a completion network using only a small number of paired samples. Additionally, a self-supervised completion module is introduced to improve performance using unpaired incomplete point clouds. Experiments on multiple datasets show that RaPD outperforms previous methods in both homologous and heterologous scenarios.
翻訳日:2023-07-26 01:20:36 公開日:2023-07-24
# 状態空間における有限温度量子凝縮:量子アニーリングの新しい展望

Finite temperature quantum condensations in the space of states: a new perspective for quantum annealing ( http://arxiv.org/abs/2203.05803v3 )

ライセンス: Link先を確認
Massimo Ostilli and Carlo Presilla(参考訳) 自然界では、全ては有限温度で起こるが、量子相転移(qpts)は例外ではない。 しかしながら、これらは主に0温度でのみ議論され、定式化されている。 ゼロ温度で最近導入された凝縮QPTは、基底状態エネルギーを対応する自由エネルギーに置き換えることで、自然に有限温度まで拡張できることを示す。 この基準は、パラダイム的グロバーモデルと一次元不均質格子における自由フェルミオンの系に記述する。 予想される普遍的特徴と一致して、2つの系は構造的に類似した位相図を示す。 最後に,有限温度凝縮qptを用いて,有限温度における出力確率がシステムサイズ1に指数関数的に近い量子アニーラを構成する方法を説明する。 例として、Groverモデルとフェルミオン系を考え直し、後者は現在のヘテロ構造技術のリーチにかなり近い。

In nature, everything occurs at finite temperature and quantum phase transitions (QPTs) cannot be an exception. Nevertheless, these are still mainly discussed and formulated only at zero temperature. We show that the condensation QPTs recently introduced at zero temperature can be naturally extended to finite temperature just by replacing ground state energies with corresponding free energies. We illustrate this criterion in the paradigmatic Grover model and in a system of free fermions in a one-dimensional inhomogeneous lattice. In agreement with expected universal features, the two systems show structurally similar phase diagrams. Lastly, we explain how finite temperature condensation QPTs can be used to construct quantum annealers having - at finite temperature - output-probability exponentially close to 1 in the system size. As examples we consider again the Grover model and the fermionic system, the latter being well within the reach of present heterostructure technology.
翻訳日:2023-07-26 01:19:31 公開日:2023-07-24
# モノクロ画像から3Dヒューマンメッシュを復元する:サーベイ

Recovering 3D Human Mesh from Monocular Images: A Survey ( http://arxiv.org/abs/2203.01923v4 )

ライセンス: Link先を確認
Yating Tian, Hongwen Zhang, Yebin Liu, Limin Wang(参考訳) 単眼画像から人間のポーズと形状を推定することは、コンピュータビジョンにおける長年の問題である。 統計ボディーモデルのリリース以来、3Dのメッシュリカバリが注目されている。 2D-to-3Dリフトプロセスにおける課題を克服するために、2つのパラダイムが開発された。 一 最適化目標として異なるデータ項及び正規化項を活用する最適化に基づくパラダイム 二 エンドツーエンドの方法で問題を解決するために、深層学習技術が取り入れられる回帰型パラダイム。 一方、継続的な取り組みは、幅広いデータセットの3Dメッシュラベルの品質向上に向けられている。 過去10年間に顕著な進歩を遂げてきたが、柔軟性のある体の動き、多様な外観、複雑な環境、そして未完成の注釈のために、この課題はまだ挑戦的だ。 私たちの知る限りでは、これはモノラルな3Dメッシュ回復の課題に焦点を当てた初めての調査である。 まず、ボディモデルの導入から始め、その強みと弱みを詳細に分析することで、リカバリフレームワークとトレーニング目標の精巧な分析を行います。 また、データセット、評価メトリクス、ベンチマーク結果も要約します。 オープン問題と今後の方向性は最終的に議論され、研究者のモチベーションを高め、この分野の研究を促進することを望んでいる。 定期的に更新されたプロジェクトページはhttps://github.com/tinatiansjz/hmr-surveyで見ることができる。

Estimating human pose and shape from monocular images is a long-standing problem in computer vision. Since the release of statistical body models, 3D human mesh recovery has been drawing broader attention. With the same goal of obtaining well-aligned and physically plausible mesh results, two paradigms have been developed to overcome challenges in the 2D-to-3D lifting process: i) an optimization-based paradigm, where different data terms and regularization terms are exploited as optimization objectives; and ii) a regression-based paradigm, where deep learning techniques are embraced to solve the problem in an end-to-end fashion. Meanwhile, continuous efforts are devoted to improving the quality of 3D mesh labels for a wide range of datasets. Though remarkable progress has been achieved in the past decade, the task is still challenging due to flexible body motions, diverse appearances, complex environments, and insufficient in-the-wild annotations. To the best of our knowledge, this is the first survey that focuses on the task of monocular 3D human mesh recovery. We start with the introduction of body models and then elaborate recovery frameworks and training objectives by providing in-depth analyses of their strengths and weaknesses. We also summarize datasets, evaluation metrics, and benchmark results. Open issues and future directions are discussed in the end, hoping to motivate researchers and facilitate their research in this area. A regularly updated project page can be found at https://github.com/tinatiansjz/hmr-survey.
翻訳日:2023-07-26 01:19:16 公開日:2023-07-24
# マクロ体と干渉計の間のスカラー媒介量子力

Scalar-Mediated Quantum Forces Between Macroscopic Bodies and Interferometry ( http://arxiv.org/abs/2203.01342v4 )

ライセンス: Link先を確認
Philippe Brax, Sylvain Fichet(参考訳) 古典的物体間の量子力は物質に双線型に結合した巨大なスカラー場によって媒介される。 そのような場の存在は、暗黒物質、暗黒エネルギー、および標準模型を超えた隠れたセクタの可能性によって動機付けられる。 スカラーの存在下で任意の(剛体あるいは変形可能な)古典体によって感じられる量子ワークを導入し、物質の保存を必要とする場合に有限であることが示される。 一例として、ディリクレ球面内の量子圧が有限であり、再正規化可能な発散であることを示す。 物体の内部では、スカラーは有効質量を獲得し、剛体の場合はカシミールとカシミール・ポルダーの力の遷移を想起させる量子力の振る舞いに繋がる。 この方法で、単純な平面幾何学におけるスカラー誘起量子力を計算する。 平面点幾何学では、原子干渉計で観測可能な位相シフトに対する量子力の寄与を計算する方法を示す。 干渉計アームの長さが10cm以下であれば、原子干渉法が物質に双線形に結合した光粒子の競合探索法になる可能性が示唆された。

We study the quantum force between classical objects mediated by massive scalar fields bilinearly coupled to matter. The existence of such fields is motivated by dark matter, dark energy, and by the possibility of a hidden sector beyond the Standard Model. We introduce the quantum work felt by an arbitrary (either rigid or deformable) classical body in the presence of the scalar and show that it is finite upon requiring conservation of matter. As an example, we explicitly show that the quantum pressure inside a Dirichlet sphere is finite -- up to renormalizable divergences. Inside the bodies the scalar acquires an effective mass, leading to a behaviour for the quantum force which, in the case of rigid bodies, is reminiscent of the transition between the Casimir and Casimir-Polder forces. With this method we compute the scalar-induced quantum force in simple planar geometries. In plane-point geometry we show how to compute the contribution of the quantum force to the phase shift observable in atom interferometers. We show that atom interferometry is likely to become a competitive search method for light particles bilinearly coupled to matter, provided that the interferometer arms have lengths below ~10 cm.
翻訳日:2023-07-26 01:18:52 公開日:2023-07-24
# 量子状態トモグラフィーのための因子および投射勾配勾配の統一

Unifying the factored and projected gradient descent for quantum state tomography ( http://arxiv.org/abs/2207.05341v2 )

ライセンス: Link先を確認
Yong Wang, Lijun Liu, Shuming Cheng, Li Li, Jie Chen(参考訳) 多体量子システムの状態の再構築は、量子情報処理において極めて重要であるが、次元の呪いのために非常に困難である。 本研究では, 量子トモグラフィ法を用いて, 階数不足問題に対処するための状態分解法と投影法を統一し, 運動量加速型rprop勾配アルゴリズムを組み込んで最適化プロセスを高速化する手法を提案する。 特に、最大極大関数で学習された状態行列の正と階数の両方を保証するために、状態分解とP階絶対射影の技法が共同で導入される。 さらに,提案手法は,他のQSTアルゴリズムのトモグラフィ精度を大幅に向上させることができる。 最後に、数値実験により、統一戦略はランク不足問題に対処でき、より高速な収束と優れた純度ロバスト性を持つことが示される。 提案手法はランダムな11量子ビット混合状態のフルトモグラフィーを1分で達成できることがわかった。

Reconstructing the state of many-body quantum systems is of fundamental importance in quantum information tasks, but extremely challenging due to the curse of dimensionality. In this work, we present an efficient quantum tomography approach that unifies the state factored and projected methods to tackle the rank-deficient issue and incorporates a momentum-accelerated Rprop gradient algorithm to speed up the optimization process. In particular, the techniques of state decomposition and P-order absolute projection are jointly introduced to ensure both the positivity and rank of state matrices learned in the maximum likelihood function. Further, the proposed state-mapping method can substantially improve the tomography accuracy of other QST algorithms. Finally, numerical experiments demonstrate that the unified strategy is able to tackle the rank-deficient problem and admit a faster convergence and excellent purity robustness. We find that our method can accomplish the task of full tomography of random 11-qubit mixed states within one minute.
翻訳日:2023-07-26 01:11:54 公開日:2023-07-24
# 計画の象徴的行動としての継続的ドメインにおける時間的拡張スキルの学習

Learning Temporally Extended Skills in Continuous Domains as Symbolic Actions for Planning ( http://arxiv.org/abs/2207.05018v3 )

ライセンス: Link先を確認
Jan Achterhold, Markus Krimmel, Joerg Stueckler(参考訳) 長期計画と継続的な制御能力を必要とする問題は、既存の強化学習エージェントにとって大きな課題となる。 本稿では,環境の計画状態の象徴的離散的抽象化において,継続的制御のための時間的拡張スキルとフォワードモデルとをリンクする新しい階層型強化学習エージェントを提案する。 我々はエージェントシーズを象徴的な効果を認識できる多様なスキルと呼ぶ。 我々は,本質的動機づけによる多様なスキルセットの教師なし学習に繋がる客観的かつ対応するアルゴリズムを定式化する。 スキルは、状態抽象化におけるスキル実行の効果をキャプチャする象徴的なフォワードモデルと共同で学習される。 学習後は,フォワードモデルを用いて長期計画を行い,その後,学習した連続行動制御技術を用いて計画を実行する。 提案アルゴリズムは、連続的な制御と長期計画能力の両方を必要とする複雑なタスクを高い成功率で解くために使用できるスキルとフォワードモデルを学習する。 他の平滑で階層的な強化学習ベースラインエージェントと比較し、実ロボットで実演することに成功した。

Problems which require both long-horizon planning and continuous control capabilities pose significant challenges to existing reinforcement learning agents. In this paper we introduce a novel hierarchical reinforcement learning agent which links temporally extended skills for continuous control with a forward model in a symbolic discrete abstraction of the environment's state for planning. We term our agent SEADS for Symbolic Effect-Aware Diverse Skills. We formulate an objective and corresponding algorithm which leads to unsupervised learning of a diverse set of skills through intrinsic motivation given a known state abstraction. The skills are jointly learned with the symbolic forward model which captures the effect of skill execution in the state abstraction. After training, we can leverage the skills as symbolic actions using the forward model for long-horizon planning and subsequently execute the plan using the learned continuous-action control skills. The proposed algorithm learns skills and forward models that can be used to solve complex tasks which require both continuous control and long-horizon planning capabilities with high success rate. It compares favorably with other flat and hierarchical reinforcement learning baseline agents and is successfully demonstrated with a real robot.
翻訳日:2023-07-26 01:11:29 公開日:2023-07-24
# 70万人のウェアラブルデータを用いた人間行動認識のための自己教師付き学習

Self-supervised Learning for Human Activity Recognition Using 700,000 Person-days of Wearable Data ( http://arxiv.org/abs/2206.02909v2 )

ライセンス: Link先を確認
Hang Yuan, Shing Chan, Andrew P. Creagh, Catherine Tong, David A. Clifton, Aiden Doherty(参考訳) 人間のアクティビティ認識のためのディープラーニングの進歩は、大きなラベル付きデータセットがないため、比較的制限されている。 本研究では,英国のバイオバンク・アクティビティ・トラッカー(biobank activity tracker)データセット上で,自己教師付き学習技術を活用する。 結果として得られたアクティビティ認識モデルは、7つのベンチマークデータセットの強いベースラインを一貫して上回っており、f1の相対的な改善は2.5%-100%(中間18.4%)でした。 これまでの研究とは対照的に、結果は外部データセット、デバイス、環境にまたがって一般化します。 私たちのオープンソースモデルは、研究者や開発者がカスタマイズ可能で汎用的なアクティビティ分類器を高性能で構築するのに役立ちます。

Advances in deep learning for human activity recognition have been relatively limited due to the lack of large labelled datasets. In this study, we leverage self-supervised learning techniques on the UK-Biobank activity tracker dataset--the largest of its kind to date--containing more than 700,000 person-days of unlabelled wearable sensor data. Our resulting activity recognition model consistently outperformed strong baselines across seven benchmark datasets, with an F1 relative improvement of 2.5%-100% (median 18.4%), the largest improvements occurring in the smaller datasets. In contrast to previous studies, our results generalise across external datasets, devices, and environments. Our open-source model will help researchers and developers to build customisable and generalisable activity classifiers with high performance.
翻訳日:2023-07-26 01:10:24 公開日:2023-07-24
# STAR-RIS支援ネットワークにおけるDRLのカバーとキャパシティ最適化

DRL Enabled Coverage and Capacity Optimization in STAR-RIS Assisted Networks ( http://arxiv.org/abs/2209.00511v2 )

ライセンス: Link先を確認
Xinyu Gao, Wenqiang Yi, Yuanwei Liu, Jianhua Zhang, Ping Zhang(参考訳) 再構成可能なインテリジェントサーフェス(STAR-RISs)は、インシデント信号の送信とリフレクションを同時に行うことで、フルスペースカバレッジに寄与する有望なパッシブデバイスである。 無線通信における新しいパラダイムとして、STAR-RISのカバレッジとキャパシティ性能を分析する方法が不可欠であるが、難しい。 STAR-RIS支援ネットワークにおけるカバレッジとキャパシティ最適化(CCO)の問題を解決するために,従来の最適化アルゴリズムよりも長期的利益を扱うために,MO-PPOアルゴリズムを提案する。 それぞれの目的のバランスをとるために、MO-PPOアルゴリズムは最適解のセットを提供し、PF上の任意の解を最適結果と見なすパレートフロント(PF)を形成する。 さらに,MO-PPOアルゴリズムの性能向上のために,アクション値ベースの更新戦略(AVUS)と損失関数ベースの更新戦略(LFUS)の2つの更新戦略を検討した。 AVUSでは、改善されたポイントは、カバレッジとキャパシティの両方のアクション値を統合し、損失関数を更新することである。 LFUSでは、改善点は、カバーとキャパシティの両方の損失関数に動的重みを割り当てることに過ぎず、その重みは更新毎にmin-normソルバによって計算される。 解析の結果,提案手法は,サンプルグリッド数,STAR-RIS数,STAR-RIS数,STAR-RISのサイズなど,様々なケースにおいて,固定重み付けMO最適化アルゴリズムよりも優れていることがわかった。 さらにSTAR-RISはSTAR-RISを使わずに従来の無線ネットワークよりも優れた性能を実現する。 さらに、同じ帯域幅で、ミリ波はサブ-6ghzよりも高い容量を提供することができるが、カバー幅は小さい。

Simultaneously transmitting and reflecting reconfigurable intelligent surfaces (STAR-RISs) is a promising passive device that contributes to a full-space coverage via transmitting and reflecting the incident signal simultaneously. As a new paradigm in wireless communications, how to analyze the coverage and capacity performance of STAR-RISs becomes essential but challenging. To solve the coverage and capacity optimization (CCO) problem in STAR-RIS assisted networks, a multi-objective proximal policy optimization (MO-PPO) algorithm is proposed to handle long-term benefits than conventional optimization algorithms. To strike a balance between each objective, the MO-PPO algorithm provides a set of optimal solutions to form a Pareto front (PF), where any solution on the PF is regarded as an optimal result. Moreover, in order to improve the performance of the MO-PPO algorithm, two update strategies, i.e., action-value-based update strategy (AVUS) and loss function-based update strategy (LFUS), are investigated. For the AVUS, the improved point is to integrate the action values of both coverage and capacity and then update the loss function. For the LFUS, the improved point is only to assign dynamic weights for both loss functions of coverage and capacity, while the weights are calculated by a min-norm solver at every update. The numerical results demonstrated that the investigated update strategies outperform the fixed weights MO optimization algorithms in different cases, which includes a different number of sample grids, the number of STAR-RISs, the number of elements in the STAR-RISs, and the size of STAR-RISs. Additionally, the STAR-RIS assisted networks achieve better performance than conventional wireless networks without STAR-RISs. Moreover, with the same bandwidth, millimeter wave is able to provide higher capacity than sub-6 GHz, but at a cost of smaller coverage.
翻訳日:2023-07-26 01:02:08 公開日:2023-07-24
# ベイズニューラルネットワークにおける近似ブロックギブスサンプリング

Approximate blocked Gibbs sampling for Bayesian neural networks ( http://arxiv.org/abs/2208.11389v3 )

ライセンス: Link先を確認
Theodore Papamarkou(参考訳) 本研究では,フィードフォワードニューラルネットワークにおけるMCMCサンプリングの最小化を実現する。 この目的のために,ブロッキングギブスサンプリング方式を用いてパラメータのサブグループをサンプリングする手法を提案する。 パラメータ空間を分割することにより、層幅に関係なくサンプリングが可能である。 また、より深い層における提案のばらつきを減らし、深みを増すために消滅する受け入れ率を軽減することもできる。 非コンバージェントチェーンの長さを増加させることで、分類タスクの予測精度が向上するので、受け入れ率の消失を回避し、長い連鎖実行を可能にすることは実用的な利点となる。 さらに、非収束連鎖実現は予測の不確かさの定量化を支援する。 オープンな問題は、拡張データの存在下でフィードフォワードニューラルネットワークのミニバッチMCMCサンプリングを実行する方法である。

In this work, minibatch MCMC sampling for feedforward neural networks is made more feasible. To this end, it is proposed to sample subgroups of parameters via a blocked Gibbs sampling scheme. By partitioning the parameter space, sampling is possible irrespective of layer width. It is also possible to alleviate vanishing acceptance rates for increasing depth by reducing the proposal variance in deeper layers. Increasing the length of a non-convergent chain increases the predictive accuracy in classification tasks, so avoiding vanishing acceptance rates and consequently enabling longer chain runs have practical benefits. Moreover, non-convergent chain realizations aid in the quantification of predictive uncertainty. An open problem is how to perform minibatch MCMC sampling for feedforward neural networks in the presence of augmented data.
翻訳日:2023-07-26 01:01:15 公開日:2023-07-24
# 逐次クロスモーダル意味グラフを用いたターゲット指向感情分類

Target-oriented Sentiment Classification with Sequential Cross-modal Semantic Graph ( http://arxiv.org/abs/2208.09417v2 )

ライセンス: Link先を確認
Yufeng Huang, Zhuo Chen, Jiaoyan Chen, Jeff Z. Pan, Zhen Yao, Wen Zhang(参考訳) マルチモーダル・アスペクトベース感情分類(multi-modal aspect-based sentiment classification, mabsc)は、文や画像で言及される対象エンティティの感情を分類するタスクである。 しかし、従来の手法では、画像とテキストの間の細かな意味関係を考慮できず、細かな画像の側面や意見の特定が制限された。 本稿では,これらの制約に対処するために,シーケンシャルクロスモーダル意味グラフを用いたエンコーダ・デコーダ感情分類フレームワークを拡張したseqcsgと呼ばれる新しいアプローチを提案する。 seqcsgは、画像キャプションとシーングラフを使用して、グローバルおよびローカルの細かな画像情報の両方を抽出し、それらをツイートからのトークンとともに、クロスモーダルセマンティックグラフの要素とみなす。 逐次クロスモーダル意味グラフは、要素間の関係を示すマルチモーダル隣接行列を持つシーケンスとして表現される。 実験結果から,本手法は既存の手法より優れ,2つの標準データセット上での最先端性能を実現することが示された。 さらに分析した結果,画像のきめ細かい情報とテキストとの相関関係を,モデルが暗黙的に学習できることが判明した。 私たちのコードはhttps://github.com/zjukg/seqcsgで利用可能です。

Multi-modal aspect-based sentiment classification (MABSC) is task of classifying the sentiment of a target entity mentioned in a sentence and an image. However, previous methods failed to account for the fine-grained semantic association between the image and the text, which resulted in limited identification of fine-grained image aspects and opinions. To address these limitations, in this paper we propose a new approach called SeqCSG, which enhances the encoder-decoder sentiment classification framework using sequential cross-modal semantic graphs. SeqCSG utilizes image captions and scene graphs to extract both global and local fine-grained image information and considers them as elements of the cross-modal semantic graph along with tokens from tweets. The sequential cross-modal semantic graph is represented as a sequence with a multi-modal adjacency matrix indicating relationships between elements. Experimental results show that the approach outperforms existing methods and achieves state-of-the-art performance on two standard datasets. Further analysis has demonstrated that the model can implicitly learn the correlation between fine-grained information of the image and the text with the given target. Our code is available at https://github.com/zjukg/SeqCSG.
翻訳日:2023-07-26 01:01:02 公開日:2023-07-24
# 消費者選択のモデル化のための辺縁付き非パラメトリックアプローチ

A Nonparametric Approach with Marginals for Modeling Consumer Choice ( http://arxiv.org/abs/2208.06115v4 )

ライセンス: Link先を確認
Yanqiu Ruan, Xiaobo Li, Karthyek Murthy, Karthik Natarajan(参考訳) 消費者が異なるオファーセットに対して行う選択に関するデータを考えると、重要な課題は、価格やアソシエーション最適化といった規範的なタスクに順応しつつ、消費者選択の振る舞いを記述し、予測する相似モデルを開発することである。 限界分布モデル (MDM) はそのようなモデルの一つであり、ランダムなユーティリティの限界分布の仕様のみを必要とする。 本稿では、ランダムユーティリティモデル(RUM)に類似した特徴付けを応用して、MDM仮説と整合する上で必要な必要かつ十分な条件を確立することを目的とする。 この試みは、MDMが表現できる選択確率の集合を正確に特徴づける。 この特徴による選択データの一貫性の検証は多項式サイズの線形プログラムの解法と等価である。 RUMの類似性検証タスクは計算可能であり、どちらのモデルも他方を仮定しないため、MDMはトラクタビリティと表現力のバランスを崩すのに役立つ。 キャラクタリゼーションは、データ駆動販売や新たな未発見の商品に対する収益予測にロバストな最適化を施すのに便利である。 選択データがMDM仮説との整合性に欠ける場合、最良のMDM選択確率を求めることは、混合整数凸プログラムを解くことにつながる。 結果は、ユーティリティの限界分布の類似性に基づいて代替品をグループ化できる場合に自然に拡張される。 数値実験により、MDMはマルチノミナルロジットよりも表現力と予測精度が優れ、RUMよりも計算性能がかなり優れていることが示された。

Given data on the choices made by consumers for different offer sets, a key challenge is to develop parsimonious models that describe and predict consumer choice behavior while being amenable to prescriptive tasks such as pricing and assortment optimization. The marginal distribution model (MDM) is one such model, that requires only the specification of marginal distributions of the random utilities. This paper aims to establish necessary and sufficient conditions for given choice data to be consistent with the MDM hypothesis, inspired by the utility of similar characterizations for the random utility model (RUM). This endeavor leads to an exact characterization of the set of choice probabilities that the MDM can represent. Verifying the consistency of choice data with this characterization is equivalent to solving a polynomial-sized linear program. Since the analogous verification task for RUM is computationally intractable and neither of these models subsumes the other, MDM is helpful in striking a balance between tractability and representational power. The characterization is convenient to be used with robust optimization for making data-driven sales and revenue predictions for new unseen assortments. When the choice data lacks consistency with the MDM hypothesis, finding the best-fitting MDM choice probabilities reduces to solving a mixed integer convex program. The results extend naturally to the case where the alternatives can be grouped based on the similarity of the marginal distributions of the utilities. Numerical experiments show that MDM provides better representational power and prediction accuracy than multinominal logit and significantly better computational performance than RUM.
翻訳日:2023-07-26 01:00:09 公開日:2023-07-24
# マルチグラフトポロジーを用いたクロスサイロフェデレーション学習における学習時間短縮

Reducing Training Time in Cross-Silo Federated Learning using Multigraph Topology ( http://arxiv.org/abs/2207.09657v3 )

ライセンス: Link先を確認
Tuong Do, Binh X. Nguyen, Vuong Pham, Toan Tran, Erman Tjiputra, Quang Tran, Anh Nguyen(参考訳) フェデレーション学習は、複数の参加者がローカルデータを共有せずに共同でモデルをトレーニングできるため、活発な研究テーマである。 現在、クロスサイロフェデレーション学習は、数百の信頼性のあるデータサイロと高速アクセスリンクを使ってモデルをトレーニングする一般的なトレーニング環境である。 このアプローチは現実世界のシナリオで広く適用されているが、トレーニング時間を短縮するために堅牢なトポロジを設計することは未解決の問題である。 本稿では,クロスサイロフェデレート学習のための新しいマルチグラフトポロジーを提案する。 まずオーバーレイグラフを用いてマルチグラフを構築する。 次に、この多重グラフを孤立ノードを持つ異なる単純なグラフに解析する。 孤立ノードの存在により、他のノードを待つことなくモデルアグリゲーションを実行できるため、トレーニング時間を効果的に短縮できる。 3つの公開データセットに対する集中的な実験により,提案手法は学習モデルの精度を維持しながら,最近の最先端のトポロジと比較してトレーニング時間を著しく短縮することを示した。 私たちのコードはhttps://github.com/aioz-ai/MultigraphFLにある。

Federated learning is an active research topic since it enables several participants to jointly train a model without sharing local data. Currently, cross-silo federated learning is a popular training setting that utilizes a few hundred reliable data silos with high-speed access links to training a model. While this approach has been widely applied in real-world scenarios, designing a robust topology to reduce the training time remains an open problem. In this paper, we present a new multigraph topology for cross-silo federated learning. We first construct the multigraph using the overlay graph. We then parse this multigraph into different simple graphs with isolated nodes. The existence of isolated nodes allows us to perform model aggregation without waiting for other nodes, hence effectively reducing the training time. Intensive experiments on three public datasets show that our proposed method significantly reduces the training time compared with recent state-of-the-art topologies while maintaining the accuracy of the learned model. Our code can be found at https://github.com/aioz-ai/MultigraphFL
翻訳日:2023-07-26 00:58:50 公開日:2023-07-24
# o"の学習はもっと学ぶのに役立つ:クラスインクリメンタル・ナーのための隠されたエンティティの扱い

Learning "O" Helps for Learning More: Handling the Concealed Entity Problem for Class-incremental NER ( http://arxiv.org/abs/2210.04676v2 )

ライセンス: Link先を確認
Ruotian Ma, Xuanting Chen, Lin Zhang, Xin Zhou, Junzhe Wang, Tao Gui, Qi Zhang, Xiang Gao, Yunwen Chen(参考訳) 名前付きエンティティのカテゴリが急速に増加するにつれて、デプロイされたNERモデルは、より多くのエンティティタイプを認識し続けるために更新され、NERのためのクラス増分学習の需要が生じる。 プライバシの懸念とストレージの制約を考慮すると、class-incremental nerの標準パラダイムは、新しいクラスにのみアノテートされたトレーニングデータをモデルに更新するが、他のエンティティクラスのエンティティはラベルされていない。 本研究では,「ラベル付きエンティティ問題」に関する実証研究を行い,o」と「エンティティ」の間に深刻な混乱が生じ,古いクラスのクラス差別が減少し,新しいクラスを学習するモデルの能力が低下することを発見した。 未ラベルのエンティティ問題を解決するために,エンティティクラスと"O"の識別表現を学習するための新しい表現学習手法を提案する。 具体的には、「O」のエンティティクラスタを適応的に検出するエンティティ認識コントラスト学習手法を提案する。 さらに,古いクラスをよりよく学習するための2つの効果的な距離ベースリラベリング戦略を提案する。 クラス増分NERのより現実的で挑戦的なベンチマークを導入し,提案手法はベースライン法よりも最大10.62\%向上する。

As the categories of named entities rapidly increase, the deployed NER models are required to keep updating toward recognizing more entity types, creating a demand for class-incremental learning for NER. Considering the privacy concerns and storage constraints, the standard paradigm for class-incremental NER updates the models with training data only annotated with the new classes, yet the entities from other entity classes are unlabeled, regarded as "Non-entity" (or "O"). In this work, we conduct an empirical study on the "Unlabeled Entity Problem" and find that it leads to severe confusion between "O" and entities, decreasing class discrimination of old classes and declining the model's ability to learn new classes. To solve the Unlabeled Entity Problem, we propose a novel representation learning method to learn discriminative representations for the entity classes and "O". Specifically, we propose an entity-aware contrastive learning method that adaptively detects entity clusters in "O". Furthermore, we propose two effective distance-based relabeling strategies for better learning the old classes. We introduce a more realistic and challenging benchmark for class-incremental NER, and the proposed method achieves up to 10.62\% improvement over the baseline methods.
翻訳日:2023-07-26 00:53:04 公開日:2023-07-24
# マルチレベルトレーニングによるミニマックス最適カーネルオペレータ学習

Minimax Optimal Kernel Operator Learning via Multilevel Training ( http://arxiv.org/abs/2209.14430v3 )

ライセンス: Link先を確認
Jikai Jin, Yiping Lu, Jose Blanchet, Lexing Ying(参考訳) 無限次元関数空間間の学習マッピングは、生成モデリング、関数データ分析、因果推論、マルチエージェント強化学習など、機械学習の多くの分野において経験的な成功を収めてきた。 本稿では,2つの無限次元ソボレフ再生成核ヒルベルト空間間のヒルベルト・シュミット作用素を学習する統計的極限について検討する。 ソボレフ・ヒルベルト=シュミットノルムの観点で情報理論上の下限を確立し、バイアス輪郭の下のスペクトル成分を学習し、分散輪郭より上にあるものを無視する正規化が最適な学習率を達成することを示す。 同時に、バイアスと分散輪郭の間のスペクトル成分は、計算可能な機械学習アルゴリズムを設計する際の柔軟性をもたらす。 そこで本研究では,無限次元関数空間間の線形作用素の学習に最適なマルチレベルカーネル演算子学習アルゴリズムを提案する。

Learning mappings between infinite-dimensional function spaces has achieved empirical success in many disciplines of machine learning, including generative modeling, functional data analysis, causal inference, and multi-agent reinforcement learning. In this paper, we study the statistical limit of learning a Hilbert-Schmidt operator between two infinite-dimensional Sobolev reproducing kernel Hilbert spaces. We establish the information-theoretic lower bound in terms of the Sobolev Hilbert-Schmidt norm and show that a regularization that learns the spectral components below the bias contour and ignores the ones that are above the variance contour can achieve the optimal learning rate. At the same time, the spectral components between the bias and variance contours give us flexibility in designing computationally feasible machine learning algorithms. Based on this observation, we develop a multilevel kernel operator learning algorithm that is optimal when learning linear operators between infinite-dimensional function spaces.
翻訳日:2023-07-26 00:52:13 公開日:2023-07-24
# 深層学習に基づく胸部x線画像の匿名化 : 患者プライバシの実用的保存法

Deep Learning-based Anonymization of Chest Radiographs: A Utility-preserving Measure for Patient Privacy ( http://arxiv.org/abs/2209.11531v2 )

ライセンス: Link先を確認
Kai Packh\"auser, Sebastian G\"undel, Florian Thamm, Felix Denzinger, Andreas Maier(参考訳) 胸部ラジオグラフィーのロバストで信頼性の高い匿名化は、そのような研究目的のために大規模なデータセットを公開する前に重要なステップとなる。 従来の匿名化プロセスは、画像中の個人情報をブラックボックスで隠蔽し、メタ情報の削除又は置き換えを行う。 しかし、このような簡単な手段は胸部x線写真に生体情報を保持しており、患者を連鎖攻撃によって再同定することができる。 そのため、画像に現れる生体情報に注意を払わなければならない。 本稿では,胸部x線画像の匿名化を目的とした最初の深層学習ベースアプローチ (prichexy-net) を提案する。 我々のモデルアーキテクチャは、3つの独立したニューラルネットワークからなる構成で、集合的に使用すると、患者の再同定を妨げる変形場を学習することができる。 ChestX-ray14データセットの定量的結果は、患者の再識別が81.8%から57.7%(AUC)に減少することを示している。 これは患者のプライバシーを高めながら、基礎となる異常パターンを保存する能力を示している。 最後に,提案手法を他の難読化手法(Privacy-Net, DP-Pix)と比較し,胸部X線写真におけるプライバシー利用トレードオフの解消に向けた手法の優位性を示す。

Robust and reliable anonymization of chest radiographs constitutes an essential step before publishing large datasets of such for research purposes. The conventional anonymization process is carried out by obscuring personal information in the images with black boxes and removing or replacing meta-information. However, such simple measures retain biometric information in the chest radiographs, allowing patients to be re-identified by a linkage attack. Therefore, there is an urgent need to obfuscate the biometric information appearing in the images. We propose the first deep learning-based approach (PriCheXy-Net) to targetedly anonymize chest radiographs while maintaining data utility for diagnostic and machine learning purposes. Our model architecture is a composition of three independent neural networks that, when collectively used, allow for learning a deformation field that is able to impede patient re-identification. Quantitative results on the ChestX-ray14 dataset show a reduction of patient re-identification from 81.8% to 57.7% (AUC) after re-training with little impact on the abnormality classification performance. This indicates the ability to preserve underlying abnormality patterns while increasing patient privacy. Lastly, we compare our proposed anonymization approach with two other obfuscation-based methods (Privacy-Net, DP-Pix) and demonstrate the superiority of our method towards resolving the privacy-utility trade-off for chest radiographs.
翻訳日:2023-07-26 00:51:33 公開日:2023-07-24
# r\'{e}nyiダイバージェンス深層相互学習

R\'{e}nyi Divergence Deep Mutual Learning ( http://arxiv.org/abs/2209.05732v6 )

ライセンス: Link先を確認
Weipeng Huang, Junjie Tao, Changbo Deng, Ming Fan, Wenqiang Wan, Qi Xiong, Guangyuan Piao(参考訳) 本稿では、単純で効果的な計算パラダイムであるDeep Mutual Learning (DML)を再考する。 我々は、より柔軟で調整可能なKL分散の代わりにR\'{e}nyi分散を用いて、バニラDMLを改善することを提案する。 この修正により、バニラDMLよりもパフォーマンスを継続的に改善できる。 提案したパラダイムの収束特性を理論的に解析し,非凸最適化タスクの最悪の場合において,定常学習率の確率勾配 Descent を $\mathcal{O}(1)$-bias に収束させることを示した。 つまり、学習は近くの最適な場所に到達するが、境界の範囲内を探索し続けることで、過度な適合を軽減できる。 最後に,広範な実験結果から,dmlとr\'{e}nyiの発散の利点が示され,モデルの一般化がさらに向上した。

This paper revisits Deep Mutual Learning (DML), a simple yet effective computing paradigm. We propose using R\'{e}nyi divergence instead of the KL divergence, which is more flexible and tunable, to improve vanilla DML. This modification is able to consistently improve performance over vanilla DML with limited additional complexity. The convergence properties of the proposed paradigm are analyzed theoretically, and Stochastic Gradient Descent with a constant learning rate is shown to converge with $\mathcal{O}(1)$-bias in the worst case scenario for nonconvex optimization tasks. That is, learning will reach nearby local optima but continue searching within a bounded scope, which may help mitigate overfitting. Finally, our extensive empirical results demonstrate the advantage of combining DML and R\'{e}nyi divergence, leading to further improvement in model generalization.
翻訳日:2023-07-26 00:50:04 公開日:2023-07-24
# 未知の物体と未知の物体を事前知識なしで分割する

Segmenting Known Objects and Unseen Unknowns without Prior Knowledge ( http://arxiv.org/abs/2209.05407v3 )

ライセンス: Link先を確認
Stefano Gasperini, Alvaro Marcos-Ramiro, Michael Schmidt, Nassir Navab, Benjamin Busam, Federico Tombari(参考訳) パノプティックセグメンテーション法は、入力された各ピクセルに既知のクラスを割り当てる。 最先端のアプローチであっても、これは必然的に、トレーニングカテゴリ外のオブジェクトの誤った予測につながる決定を強制する。 しかし, 危険を回避し, 安全クリティカルな環境では, 分散サンプルやコーナーケースに対するロバスト性が重要である。 実世界のデータセットは、基盤となるディストリビューションのロングテールを適切にサンプリングするために十分なデータポイントを格納できないため、モデルは、未知のシナリオにも対処できなければならない。 それまでの方法は、すでに表示されていない未表示のオブジェクトを再識別することであった。 本研究では,全体的セグメンテーションと呼ぶ新しいセグメンテーションでセグメンテーションを拡張するために必要なステップを提案する。 ホロスティックセグメンテーションは、未知のカテゴリのオブジェクトを事前の知識なしにインスタンスに識別し、分離することを目的としており、既知のクラスの単視セグメンテーションを実行する。 U3HSは未知を極めて不確実な領域として発見し、対応するインスタンス認識の埋め込みを個々のオブジェクトにクラスタ化する。 そうすることで、未知のオブジェクトでパンオプティカルセグメンテーションで初めて、我々のu3hsは未知のカテゴリなしでトレーニングされ、仮定を減少させ、実際のシナリオのように設定が訓練されていない状態になる。 MS COCO、Cityscapes、Lost&Foundの公開データに関する大規模な実験は、この新たな、挑戦的で仮定なしの設定に対してU3HSの有効性を実証している。

Panoptic segmentation methods assign a known class to each pixel given in input. Even for state-of-the-art approaches, this inevitably enforces decisions that systematically lead to wrong predictions for objects outside the training categories. However, robustness against out-of-distribution samples and corner cases is crucial in safety-critical settings to avoid dangerous consequences. Since real-world datasets cannot contain enough data points to adequately sample the long tail of the underlying distribution, models must be able to deal with unseen and unknown scenarios as well. Previous methods targeted this by re-identifying already-seen unlabeled objects. In this work, we propose the necessary step to extend segmentation with a new setting which we term holistic segmentation. Holistic segmentation aims to identify and separate objects of unseen unknown categories into instances, without any prior knowledge about them, while performing panoptic segmentation of known classes. We tackle this new problem with U3HS, which finds unknowns as highly uncertain regions and clusters their corresponding instance-aware embeddings into individual objects. By doing so, for the first time in panoptic segmentation with unknown objects, our U3HS is trained without unknown categories, reducing assumptions and leaving the settings as unconstrained as in real-life scenarios. Extensive experiments on public data from MS COCO, Cityscapes, and Lost&Found demonstrate the effectiveness of U3HS for this new, challenging, and assumptions-free setting called holistic segmentation.
翻訳日:2023-07-26 00:49:47 公開日:2023-07-24
# 高次元不足データに対するリプシッツ規則化勾配流と生成粒子アルゴリズム

Lipschitz-regularized gradient flows and generative particle algorithms for high-dimensional scarce data ( http://arxiv.org/abs/2210.17230v3 )

ライセンス: Link先を確認
Hyemin Gu, Panagiota Birmpa, Yannis Pantazis, Luc Rey-Bellet, Markos A. Katsoulakis(参考訳) そこで我々は,高次元データから任意の対象分布を効率よく学習し,新しいサンプルを生成できる新しい生成アルゴリズムを構築した。 これらの生成アルゴリズムは粒子ベースであり、リプシッツ正規化kullback-leiblerや他のf$-divergencesの勾配流として構成され、ソース分布からのデータは安定して粒子として、ターゲット分布の近傍に輸送される。 データ統合の目立った結果として,提案手法は54k以上の次元で遺伝子発現データポイントを正しく輸送するが,サンプルサイズは数百個に過ぎない。

We build a new class of generative algorithms capable of efficiently learning an arbitrary target distribution from possibly scarce, high-dimensional data and subsequently generate new samples. These generative algorithms are particle-based and are constructed as gradient flows of Lipschitz-regularized Kullback-Leibler or other $f$-divergences, where data from a source distribution can be stably transported as particles, towards the vicinity of the target distribution. As a highlighted result in data integration, we demonstrate that the proposed algorithms correctly transport gene expression data points with dimension exceeding 54K, while the sample size is typically only in the hundreds.
翻訳日:2023-07-26 00:41:02 公開日:2023-07-24
# rna3次元構造予測のための物理アウェアグラフニューラルネットワーク

Physics-aware Graph Neural Network for Accurate RNA 3D Structure Prediction ( http://arxiv.org/abs/2210.16392v2 )

ライセンス: Link先を確認
Shuo Zhang, Yang Liu, Lei Xie(参考訳) RNAの生物学的機能は3次元構造によって決定される。 したがって、実験的に決定されたRNA構造の限られた数を考えると、RNA構造の予測はRNA機能の解明とRNAを標的とした薬物発見を促進するが、依然として難しい課題である。 本研究では,原子型のみを訓練したグラフニューラルネットワーク(gnn)ベースのスコアリング関数を提案し,rna3d構造を限定的に解決し,正確な構造モデルを識別する。 提案する物理アウェアマルチプレックスグラフニューラルネットワーク(paxnet)は、分子力学に触発された局所的相互作用と非局所的相互作用を別々にモデル化する。 さらに、PaxNetには、最終予測のために各インタラクションタイプの個々のコントリビューションを学習するアテンションベースの融合モジュールが含まれている。 2つのベンチマークでPaxNetの性能を厳格に評価し、最先端のベースラインと比較する。 その結果、paxnetは全体のベースラインを大きく上回り、rnaやその他のマクロ分子の3d構造モデリングを改善するためのpaxnetの可能性を実証した。 私たちのコードはhttps://github.com/zetayue/Physics-aware-Multiplex-GNNで利用可能です。

Biological functions of RNAs are determined by their three-dimensional (3D) structures. Thus, given the limited number of experimentally determined RNA structures, the prediction of RNA structures will facilitate elucidating RNA functions and RNA-targeted drug discovery, but remains a challenging task. In this work, we propose a Graph Neural Network (GNN)-based scoring function trained only with the atomic types and coordinates on limited solved RNA 3D structures for distinguishing accurate structural models. The proposed Physics-aware Multiplex Graph Neural Network (PaxNet) separately models the local and non-local interactions inspired by molecular mechanics. Furthermore, PaxNet contains an attention-based fusion module that learns the individual contribution of each interaction type for the final prediction. We rigorously evaluate the performance of PaxNet on two benchmarks and compare it with several state-of-the-art baselines. The results show that PaxNet significantly outperforms all the baselines overall, and demonstrate the potential of PaxNet for improving the 3D structure modeling of RNA and other macromolecules. Our code is available at https://github.com/zetayue/Physics-aware-Multiplex-GNN.
翻訳日:2023-07-26 00:40:31 公開日:2023-07-24
# qudpy: 超高速非線形光学応答を計算するpythonベースのツール

QuDPy: A Python-Based Tool For Computing Ultrafast Non-linear Optical Responses ( http://arxiv.org/abs/2210.16355v2 )

ライセンス: Link先を確認
S. A. Shah and Hao Li and Eric R. Bittner and Carlos Silva and Andrei Piryatinski(参考訳) 非線形光学分光法は、化学、生物学、物理学を含む複数の分野を支援した理論および実験の進歩を持つ、よく発達した分野である。 しかし、モデルハミルトニアンに基づく正確な量子力学シミュレーションは、対応する多次元スペクトル信号を適切に解釈する必要がある。 本稿では,オープン量子システムを含むモデル系に基づく量子力学シミュレーションを行うための強固な数値プラットフォームの必要性に対処する,コードqudpy(quantum dynamics in python)の初期リリースについて述べる。 提案手法の重要な特徴は,両面のファインマン図形の高次光応答経路を,系の時間発展密度行列に作用するケケット側あるいはブラ面の光相互作用の時間秩序を記述した直感的な入力構文により特定できることである。 複素系のスペクトル応答をシミュレーションするためにqutipの量子ダイナミクス機能を使用し、モデルシステムのn次光応答を本質的に計算する。 このアプローチの有用性を説明するための一連の例計算を提供する。

Nonlinear Optical Spectroscopy is a well-developed field with theoretical and experimental advances that have aided multiple fields including chemistry, biology and physics. However, accurate quantum dynamical simulations based on model Hamiltonians are need to interpret the corresponding multi-dimensional spectral signals properly. In this article, we present the initial release of our code, QuDPy (quantum dynamics in python) which addresses the need for a robust numerical platform for performing quantum dynamics simulations based on model systems, including open quantum systems. An important feature of our approach is that one can specify various high-order optical response pathways in the form of double-sided Feynman diagrams via a straightforward input syntax that specifies the time-ordering of ket-sided or bra-sided optical interactions acting upon the time-evolving density matrix of the system. We use the quantum dynamics capabilities of QuTip for simulating the spectral response of complex systems to compute essentially any n-th-order optical response of the model system. We provide a series of example calculations to illustrate the utility of our approach.
翻訳日:2023-07-26 00:40:15 公開日:2023-07-24
# 不確実性を考慮した予測制御のための離散時間ダイナミクスのアクティブ学習

Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control ( http://arxiv.org/abs/2210.12583v2 )

ライセンス: Link先を確認
Alessandro Saviolo, Jonathan Frey, Abhishek Rathod, Moritz Diehl, Giuseppe Loianno(参考訳) モデルに基づく制御は、複雑でダイナミックな環境でロボットを正確に安全に制御するために、システムダイナミクスの正確なモデルを必要とする。 さらに,動作条件の変動が存在する場合には,動的変化を補うためにモデルを継続的に改良する必要がある。 本稿では,非線形ロボットシステムのダイナミクスを積極的にモデル化する自己教師型学習手法を提案する。 我々は、過去の経験からオフライン学習と、現在のロボットインタラクションからオンライン学習と未知環境とを組み合わせる。 これらの2つの要素は、トレーニング分布と大きく異なる動作状態であっても、モデルダイナミクスをリアルタイムで正確に推定できる、非常に効率的な適応学習プロセスを可能にする。 さらに, 学習ダイナミクスの不確実性に対するヒューリスティックな条件を持つ不確実性認識モデル予測制御系を設計する。 この制御器は最適制御動作を積極的に選択する (i)制御性能を最適化し、 (ii)オンライン学習サンプル収集の効率化。 四重項系を用いて実世界実験を行い,本手法の有効性を実証する。 提案手法は飛行条件に一貫して適応することで高い弾力性と一般化能力を示し,古典的かつ適応的な制御ベースラインを著しく上回っている。

Model-based control requires an accurate model of the system dynamics for precisely and safely controlling the robot in complex and dynamic environments. Moreover, in the presence of variations in the operating conditions, the model should be continuously refined to compensate for dynamics changes. In this paper, we present a self-supervised learning approach that actively models the dynamics of nonlinear robotic systems. We combine offline learning from past experience and online learning from current robot interaction with the unknown environment. These two ingredients enable a highly sample-efficient and adaptive learning process, capable of accurately inferring model dynamics in real-time even in operating regimes that greatly differ from the training distribution. Moreover, we design an uncertainty-aware model predictive controller that is heuristically conditioned to the aleatoric (data) uncertainty of the learned dynamics. This controller actively chooses the optimal control actions that (i) optimize the control performance and (ii) improve the efficiency of online learning sample collection. We demonstrate the effectiveness of our method through a series of challenging real-world experiments using a quadrotor system. Our approach showcases high resilience and generalization capabilities by consistently adapting to unseen flight conditions, while it significantly outperforms classical and adaptive control baselines.
翻訳日:2023-07-26 00:39:27 公開日:2023-07-24
# 失われたミドラッシュタンフマ物質検出のためのラビ文学のスタイル分類

Style Classification of Rabbinic Literature for Detection of Lost Midrash Tanhuma Material ( http://arxiv.org/abs/2211.09710v3 )

ライセンス: Link先を確認
Shlomo Tannor, Nachum Dershowitz, Moshe Lavee(参考訳) ミッドラッシュ・コレクション(Midrash collections)は、複数の言語のテキストからなる複雑なラビ作品であり、不安定な口頭と文字の伝達の長いプロセスを通して進化した。 そのようなコンピレーションにおける与えられた文の起源を決定することは必ずしも単純ではなく、しばしば学者の間で論争の的となっているが、ラビ語コーパスにおける文とその他の文との関係を学者が理解するためには必要不可欠である。 この問題を解決するために,ヘブライ語テキストの自然言語処理の最近の進歩を活用し,ラビ文学の形式に基づく分類システムを提案する。 さらに, この手法を用いて, 後続のアンソロジーで保存されている特定のミッドラッシュジャンルであるTan\d{h}uma-Yelammedenuから失われた物質を発見できることを示す。

Midrash collections are complex rabbinic works that consist of text in multiple languages, which evolved through long processes of unstable oral and written transmission. Determining the origin of a given passage in such a compilation is not always straightforward and is often a matter of dispute among scholars, yet it is essential for scholars' understanding of the passage and its relationship to other texts in the rabbinic corpus. To help solve this problem, we propose a system for classification of rabbinic literature based on its style, leveraging recent advances in natural language processing for Hebrew texts. Additionally, we demonstrate how this method can be applied to uncover lost material from a specific midrash genre, Tan\d{h}uma-Yelammedenu, that has been preserved in later anthologies.
翻訳日:2023-07-26 00:31:33 公開日:2023-07-24
# 学習型b木

Learning-Augmented B-Trees ( http://arxiv.org/abs/2211.09251v2 )

ライセンス: Link先を確認
Xinyuan Cao, Jingbang Chen, Li Chen, Chris Lambert, Richard Peng, Daniel Sleator(参考訳) 本研究は,Treapsを用いたBST(Learning-augmented binary search tree)とB-Treesを複合優先度で検討する。 その結果、各項目の深さが予測重量$w_x$で決定される単純な探索木となる。 この結果を達成するために、各$x$はその合成優先度 $-\lfloor\log(1/w_x)\rfloor + U(0, 1)$ ここで$U(0, 1)$は一様確率変数である。 これは最近の学習強化BST(Lin-Luo-Woodruff ICML`22]を任意の入力と予測に一般化する。 また、オンラインの自己再構成を通じてアクセスシーケンスの局所性を有効活用できる最初のb木データ構造も提供する。 データ構造は予測エラーに堅牢であり、挿入、削除、予測更新を処理する。

We study learning-augmented binary search trees (BSTs) and B-Trees via Treaps with composite priorities. The result is a simple search tree where the depth of each item is determined by its predicted weight $w_x$. To achieve the result, each item $x$ has its composite priority $-\lfloor\log\log(1/w_x)\rfloor + U(0, 1)$ where $U(0, 1)$ is the uniform random variable. This generalizes the recent learning-augmented BSTs [Lin-Luo-Woodruff ICML`22], which only work for Zipfian distributions, to arbitrary inputs and predictions. It also gives the first B-Tree data structure that can provably take advantage of localities in the access sequence via online self-reorganization. The data structure is robust to prediction errors and handles insertions, deletions, as well as prediction updates.
翻訳日:2023-07-26 00:31:19 公開日:2023-07-24
# 半定値計画に基づく自己整合型量子計測トモグラフィ

Self-consistent quantum measurement tomography based on semidefinite programming ( http://arxiv.org/abs/2212.10262v3 )

ライセンス: Link先を確認
Marco Cattaneo, Matteo A. C. Rossi, Keijo Korhonen, Elsi-Mari Borrelli, Guillermo Garc\'ia-P\'erez, Zolt\'an Zimbor\'as, Daniel Cavalcanti(参考訳) 本稿では,半定値プログラミング(SDP)に基づく量子計測トモグラフィー(QMT)の推定手法を提案し,近距離量子コンピュータ上でのショットノイズや入力状態の異常生成などの実験的欠陥の検出にどのように用いられるかについて議論する。 さらに、我々が特徴付ける正の演算子評価尺度(POVM)が情報的に完全である場合、トモグラフィーの入力状態に関する事前知識を前提とせず、実験結果と整合した入力状態とPOVM効果の集合を回復するための自己整合トモグラフィーの手法を提案する。 文献で論じられている多くの手法とは対照的に、我々の手法は低雑音や入力状態の信頼性サブセットの存在のような追加の仮定に依存しない。

We propose an estimation method for quantum measurement tomography (QMT) based on semidefinite programming (SDP), and discuss how it may be employed to detect experimental imperfections, such as shot noise and/or faulty preparation of the input states on near-term quantum computers. Moreover, if the positive operator-valued measure (POVM) we aim to characterize is informationally complete, we put forward a method for self-consistent tomography, i.e., for recovering a set of input states and POVM effects that is consistent with the experimental outcomes and does not assume any a priori knowledge about the input states of the tomography. Contrary to many methods that have been discussed in the literature, our approach does not rely on additional assumptions such as low noise or the existence of a reliable subset of input states.
翻訳日:2023-07-26 00:22:20 公開日:2023-07-24
# シャッフルマルチチャネルスパース信号の再生

Shuffled Multi-Channel Sparse Signal Recovery ( http://arxiv.org/abs/2212.07368v3 )

ライセンス: Link先を確認
Taulant Koka, Manolis C. Tsakiris, Michael Muma and Benjam\'in B\'ejar Haro(参考訳) サンプルとそれぞれのチャネルやターゲットのミスマッチは、現実のアプリケーションでよく発生する。 例えば、自由移動生物の脳内カルシウムイメージング、マルチターゲット追跡、多人数非接触バイタルサインモニタリングは、サンプルチャネルのミスマッチによって深刻な影響を受ける可能性がある。 この根本的な問題に体系的に対処するため,サンプルと各チャネルの対応が途絶えた信号再構成問題として機能する。 基礎となる信号に対する検出行列が存在すると仮定すると、その問題は構造化されたラベルなしセンシング問題と等価であり、ユニークな回復のための十分な条件を確立する。 我々の知る限り, シャッフルしたマルチチャネル信号の再構成のためのサンプリング結果は文献では検討されておらず, 既存のラベルなしセンシング手法は直接適用できない。 我々は,過完全辞書において信号がスパース表現を許容する場合(すなわち,センシング行列が正確には知られていない場合)に結果を拡張し,シャッフルスパース信号の再構成に十分な条件を導出する。 そこで本研究では, スパース信号回復とロバスト線形回帰を組み合わせるロバスト再構成法を提案する。 提案手法の性能とロバスト性は全脳カルシウムイメージングに関する応用例で示される。 提案手法は,不正確な測定やチャネル割り当てを伴う実世界の様々な問題に適用できると考えられる信号以外の疎信号表現に一般化することができる。

Mismatches between samples and their respective channel or target commonly arise in several real-world applications. For instance, whole-brain calcium imaging of freely moving organisms, multiple-target tracking or multi-person contactless vital sign monitoring may be severely affected by mismatched sample-channel assignments. To systematically address this fundamental problem, we pose it as a signal reconstruction problem where we have lost correspondences between the samples and their respective channels. Assuming that we have a sensing matrix for the underlying signals, we show that the problem is equivalent to a structured unlabeled sensing problem, and establish sufficient conditions for unique recovery. To the best of our knowledge, a sampling result for the reconstruction of shuffled multi-channel signals has not been considered in the literature and existing methods for unlabeled sensing cannot be directly applied. We extend our results to the case where the signals admit a sparse representation in an overcomplete dictionary (i.e., the sensing matrix is not precisely known), and derive sufficient conditions for the reconstruction of shuffled sparse signals. We propose a robust reconstruction method that combines sparse signal recovery with robust linear regression for the two-channel case. The performance and robustness of the proposed approach is illustrated in an application related to whole-brain calcium imaging. The proposed methodology can be generalized to sparse signal representations other than the ones considered in this work to be applied in a variety of real-world problems with imprecise measurement or channel assignment.
翻訳日:2023-07-26 00:22:03 公開日:2023-07-24
# 大学進路割当問題に対するハイブリッド進化的アプローチ

A Hybrid Evolutionary Approach to Solve University Course Allocation Problem ( http://arxiv.org/abs/2212.02230v2 )

ライセンス: Link先を確認
Dibyo Fabian Dofadar, Riyo Hayat Khan, Shafqat Hasan, Towshik Anam Taj, Arif Shakil, Mahbub Majumdar(参考訳) 本稿では,大学進路割当問題に関する課題を克服するための様々な制約,困難,解決策について述べる。 最適なコース割り当てを生成するために、局所修復アルゴリズムと修正遺伝的アルゴリズムを組み合わせたハイブリッド進化アルゴリズムが定義されている。 収集したデータセットを分析した後、必要な制約をすべて定式化した。 これらの制約は、各教職員の衝突のない効率的な授業スケジュールを準備しながら、留意すべき側面をカバーする。 目標は、時間効率を維持しながら、これらの制約を満たす最適化ソリューションを生成し、また、このタスクを手動で処理するワークロードを削減することである。 提案アルゴリズムをベースレベル最適化アルゴリズムと比較し,精度と時間面での効率性を示した。

This paper discusses various types of constraints, difficulties and solutions to overcome the challenges regarding university course allocation problem. A hybrid evolutionary algorithm has been defined combining Local Repair Algorithm and Modified Genetic Algorithm to generate the best course assignment. After analyzing the collected dataset, all the necessary constraints were formulated. These constraints manage to cover the aspects needed to be kept in mind while preparing clash free and efficient class schedules for every faculty member. The goal is to generate an optimized solution which will fulfill those constraints while maintaining time efficiency and also reduce the workload of handling this task manually. The proposed algorithm was compared with some base level optimization algorithms to show the better efficiency in terms of accuracy and time.
翻訳日:2023-07-26 00:20:48 公開日:2023-07-24
# 多様な組込みを用いたクロスモーダル検索の改善

Improving Cross-Modal Retrieval with Set of Diverse Embeddings ( http://arxiv.org/abs/2211.16761v3 )

ライセンス: Link先を確認
Dongwon Kim, Namyup Kim, Suha Kwak(参考訳) 画像とテキストのモダリティをまたいだクロスモーダル検索は、その固有のあいまいさのために難しい課題である: 画像はしばしば様々な状況を示し、キャプションは多様な画像と結合することができる。 集合ベースの埋め込みはこの問題の解決策として研究されている。 サンプルの異なるセマンティクスをキャプチャする埋め込みベクトルの集合に、サンプルをエンコードすることを目指している。 本稿では,前作とは2つの点で異なる,新しい集合ベース埋め込み手法を提案する。 まず,smooth-chamfer similarityと呼ばれる新しい類似度関数を提案する。 次に,スロットアテンション機構によって入力の多様なセマンティクスを効果的にキャプチャする組込みベクトルを生成するための新しいセット予測モジュールを提案する。 提案手法は,COCO と Flickr30K のデータセットを異なる視覚的バックボーンに分散して評価し,推論時の計算量を大幅に増大させる手法を含む既存手法よりも優れていた。

Cross-modal retrieval across image and text modalities is a challenging task due to its inherent ambiguity: An image often exhibits various situations, and a caption can be coupled with diverse images. Set-based embedding has been studied as a solution to this problem. It seeks to encode a sample into a set of different embedding vectors that capture different semantics of the sample. In this paper, we present a novel set-based embedding method, which is distinct from previous work in two aspects. First, we present a new similarity function called smooth-Chamfer similarity, which is designed to alleviate the side effects of existing similarity functions for set-based embedding. Second, we propose a novel set prediction module to produce a set of embedding vectors that effectively captures diverse semantics of input by the slot attention mechanism. Our method is evaluated on the COCO and Flickr30K datasets across different visual backbones, where it outperforms existing methods including ones that demand substantially larger computation at inference.
翻訳日:2023-07-26 00:19:52 公開日:2023-07-24
# 次の章:ストーリーテリングにおける大規模言語モデルの研究

The Next Chapter: A Study of Large Language Models in Storytelling ( http://arxiv.org/abs/2301.09790v3 )

ライセンス: Link先を確認
Zhuohan Xie, Trevor Cohn, Jey Han Lau(参考訳) 生成したストーリーの品質を高めるため、最近のストーリー生成モデルはプロットやコモンセンス知識のような高レベルな属性の利用を調査している。 GPT-3で実証されたLLMを用いたプロンプトベース学習の応用は、多種多様な自然言語処理(NLP)タスクにおいて顕著な性能を示した。 本稿では, 自動評価と人的評価の両面から総合的な調査を行い, LLMのストーリー生成能力と, スタイル, レジスタ, ストーリーの長さの異なる3つのデータセットの最近のモデルを比較した。 その結果、LLMは他のストーリー生成モデルと比較して、非常に高い品質のストーリーを生成することがわかった。 さらに、それらは人間の著作家と競合するレベルのパフォーマンスを示すが、それらは世界知識に関わる状況において現実の物語を再現する傾向があり、一種の盗作に類似している。

To enhance the quality of generated stories, recent story generation models have been investigating the utilization of higher-level attributes like plots or commonsense knowledge. The application of prompt-based learning with large language models (LLMs), exemplified by GPT-3, has exhibited remarkable performance in diverse natural language processing (NLP) tasks. This paper conducts a comprehensive investigation, utilizing both automatic and human evaluation, to compare the story generation capacity of LLMs with recent models across three datasets with variations in style, register, and length of stories. The results demonstrate that LLMs generate stories of significantly higher quality compared to other story generation models. Moreover, they exhibit a level of performance that competes with human authors, albeit with the preliminary observation that they tend to replicate real stories in situations involving world knowledge, resembling a form of plagiarism.
翻訳日:2023-07-26 00:13:16 公開日:2023-07-24
# ArsoNISQ: 短期アーキテクチャにおける量子アルゴリズムの解析

ArsoNISQ: Analyzing Quantum Algorithms on Near-Term Architectures ( http://arxiv.org/abs/2301.07264v2 )

ライセンス: Link先を確認
Sebastian Brandhofer, Simon Devitt, Ilia Polian(参考訳) スケーラブルで完全にエラー修正された量子コンピューティングは、数年から数十年先にあるが、ノイズの多い中間スケール量子コンピューティング(NISQ)にはかなりの関心がある。 本稿では、与えられた量子アルゴリズム計算の許容誤差率、すなわち量子回路、および、成功基準とNISQコンピュータを与えられた計算の成功確率を決定するArsoNISQフレームワークを紹介する。 ArsoNISQは、パウリ誤差モデルに従って誤差を受ける量子回路のシミュレーションに基づいている。 arsonisqは、一連の量子アルゴリズムで評価され、量子スピードアップを発生させるか、あるいはnisqコンピューティングに関係がある。 最近の文献では楽観的な期待にもかかわらず、本評価では本質的ロバスト性を持つ量子アルゴリズム、すなわち1つの誤りを平均で許容するアルゴリズムは観測されなかった。 しかし、評価の結果、量子回路のサイズは許容誤差率の上限を設定し、同様の大きさの量子回路の許容誤差率の違いを定量化した。 したがって、このフレームワークは量子アルゴリズム開発者が実装を改善し、適切なNISQコンピューティングプラットフォームを選択するのを支援することができる。 結果から量子アドバンテージ理論を推定すると、より大きな量子コンピュータの誤差率は大幅に減少するか、または量子エラー補正がほとんどの評価されたアルゴリズムに適用される必要があることが示唆される。

While scalable, fully error corrected quantum computing is years or even decades away, there is considerable interest in noisy intermediate-scale quantum computing (NISQ). In this paper, we introduce the ArsoNISQ framework that determines the tolerable error rate of a given quantum algorithm computation, i.e. quantum circuits, and the success probability of the computation given a success criterion and a NISQ computer. ArsoNISQ is based on simulations of quantum circuits subject to errors according to the Pauli error model. ArsoNISQ was evaluated on a set of quantum algorithms that can incur a quantum speedup or are otherwise relevant to NISQ computing. Despite optimistic expectations in recent literature, we did not observe quantum algorithms with intrinsic robustness, i.e. algorithms that tolerate one error on average, in this evaluation. The evaluation demonstrated, however, that the quantum circuit size sets an upper bound for its tolerable error rate and quantified the difference in tolerate error rates for quantum circuits of similar sizes. Thus, the framework can assist quantum algorithm developers in improving their implementation and selecting a suitable NISQ computing platform. Extrapolating the results into the quantum advantage regime suggests that the error rate of larger quantum computers must decrease substantially or active quantum error correction will need to be deployed for most of the evaluated algorithms.
翻訳日:2023-07-26 00:12:12 公開日:2023-07-24
# 水中物体追跡装置「UOSTrack for Marine Organism Grasping of Underwater Vehicles」

Underwater Object Tracker: UOSTrack for Marine Organism Grasping of Underwater Vehicles ( http://arxiv.org/abs/2301.01482v5 )

ライセンス: Link先を確認
Yunfeng Li, Bo Wang, Ye Li, Zhuoyan Liu, Wei Huo, Yueming Li, Jian Cao(参考訳) 視覚単物追跡装置は、海洋生物の把握作業において水中車両(UV)の必須成分である。 その正確性と安定性は、uvsを把握行動に導くために不可欠である。 単一物体追跡装置は水中画像劣化の課題において競争力のある性能を示すが、海洋生物の把握に対処する必要があるサンプルの不均衡や類似物体の排除にはまだ問題がある。 本稿では,水中画像とオープンエアシークエンスハイブリッドトレーニング(UOHT)とモーションベース後処理(MBPP)を組み合わせた水中OSTrack(UOSTrack)を提案する。 UOHTトレーニングパラダイムは、サンプル不均衡な水中トラッカーをトレーニングし、トラッカーを多数の水中ドメイントレーニングサンプルに露出させ、特徴表現を学習するように設計されている。 MBPPパラダイムは類似のオブジェクトを除外するために提案されている。 カルマンフィルタで予測された推定ボックスと応答マップの候補ボックスを使用して、失われた追跡対象を候補領域に移動させる。 UOSTrackは、様々なベンチマークの最先端手法と比較して平均4.41%と7.98%の性能向上を実現している。 現場実験により,海洋生物把持作業におけるuvs用uostrackの精度と安定性が検証された。 詳細はhttps://github.com/LiYunfengLYF/UOSTrack.comで確認できる。

A visual single-object tracker is an indispensable component of underwater vehicles (UVs) in marine organism grasping tasks. Its accuracy and stability are imperative to guide the UVs to perform grasping behavior. Although single-object trackers show competitive performance in the challenge of underwater image degradation, there are still issues with sample imbalance and exclusion of similar objects that need to be addressed for application in marine organism grasping. This paper proposes Underwater OSTrack (UOSTrack), which consists of underwater image and open-air sequence hybrid training (UOHT), and motion-based post-processing (MBPP). The UOHT training paradigm is designed to train the sample-imbalanced underwater tracker so that the tracker is exposed to a great number of underwater domain training samples and learns the feature expressions. The MBPP paradigm is proposed to exclude similar objects. It uses the estimation box predicted with a Kalman filter and the candidate boxes in the response map to relocate the lost tracked object in the candidate area. UOSTrack achieves an average performance improvement of 4.41% and 7.98% maximum compared to state-of-the-art methods on various benchmarks, respectively. Field experiments have verified the accuracy and stability of our proposed UOSTrack for UVs in marine organism grasping tasks. More details can be found at https://github.com/LiYunfengLYF/UOSTrack.
翻訳日:2023-07-26 00:11:13 公開日:2023-07-24
# get3dhuman:pixel-aligned reconstruction priorsを用いたstylegan-humanの3次元生成モデル

Get3DHuman: Lifting StyleGAN-Human into a 3D Generative Model using Pixel-aligned Reconstruction Priors ( http://arxiv.org/abs/2302.01162v5 )

ライセンス: Link先を確認
Zhangyang Xiong, Di Kang, Derong Jin, Weikai Chen, Linchao Bao, Shuguang Cui, Xiaoguang Han(参考訳) エンタテインメントからプロの関心事まで,多数のアプリケーションにおいて,高品質な3dデジタルヒューマンの迅速な生成が重要である。 近年の微分可能レンダリングの進歩により、3次元基底真理を必要とせずに3次元生成モデルのトレーニングが可能となった。 しかし、生成された3d人間の品質は、忠実性と多様性の両面で改善の余地がある。 本稿では, 3次元地上データのみを用いて, 生成結果のリアリズムと多様性を著しく高めることのできる, 新たな3次元ヒューマンフレームワーク get3dhuman を提案する。 我々のキーとなる観察は、この3Dジェネレータは、人間の2Dジェネレータと3Dコンストラクタを通して学んだ、人間関係の先行技術から利益を得ることができるということだ。 具体的には,Get3DHumanの潜伏空間とStyleGAN-Humanを,特別に設計された事前ネットワークを介してブリッジする。 前のネットワークの結果は、メインジェネレータネットワークの監視信号として利用される。 効果的なトレーニングを実現するため,生成した特徴量と中間特徴量マップに適用した3つの補正された損失を提案する。 大規模な実験により、Get3DHumanは他の最先端のアプローチを大きく上回り、形状補間、形状再構成、潜伏反転による単一ビュー再構成を含む幅広いアプリケーションをサポートすることが示されている。

Fast generation of high-quality 3D digital humans is important to a vast number of applications ranging from entertainment to professional concerns. Recent advances in differentiable rendering have enabled the training of 3D generative models without requiring 3D ground truths. However, the quality of the generated 3D humans still has much room to improve in terms of both fidelity and diversity. In this paper, we present Get3DHuman, a novel 3D human framework that can significantly boost the realism and diversity of the generated outcomes by only using a limited budget of 3D ground-truth data. Our key observation is that the 3D generator can profit from human-related priors learned through 2D human generators and 3D reconstructors. Specifically, we bridge the latent space of Get3DHuman with that of StyleGAN-Human via a specially-designed prior network, where the input latent code is mapped to the shape and texture feature volumes spanned by the pixel-aligned 3D reconstructor. The outcomes of the prior network are then leveraged as the supervisory signals for the main generator network. To ensure effective training, we further propose three tailored losses applied to the generated feature volumes and the intermediate feature maps. Extensive experiments demonstrate that Get3DHuman greatly outperforms the other state-of-the-art approaches and can support a wide range of applications including shape interpolation, shape re-texturing, and single-view reconstruction through latent inversion.
翻訳日:2023-07-26 00:00:57 公開日:2023-07-24
# 測定に基づく変分量子固有解法の応用と資源削減

Applications and resource reductions in measurement-based variational quantum eigensolvers ( http://arxiv.org/abs/2302.00795v2 )

ライセンス: Link先を確認
F. K. Marqversen and N. T. Zinner(参考訳) 本稿では、量子回路図によって与えられる量子アルゴリズムの計測に基づく実装を得るための手順と、所定の測定に基づく計算に必要なリソースの削減方法について論じる。 これは短期的にはフォトニックシステムにおける量子コンピューティングの基礎となる。 これらのアイデアが十分に基礎づけられていることを実証するために、変分量子固有ソルバアルゴリズム(mbvqe)の計測に基づく実装を用いて3つの異なる問題を解く。 標準のCNOTのような標準ゲートではなくネイティブな計測ゲートを利用することにより、MBQCは浅く、簡単な接続性を持ち、同時に大きな表現性を示すことができることを示す。 MBVQEは、現在すでに利用可能になっているリソース状態に程遠い、有望な見通しを持っていると結論づける。

We discuss the procedure for obtaining measurement-based implementations of quantum algorithms given by quantum circuit diagrams and how to reduce the required resources needed for a given measurement-based computation. This forms the foundation for quantum computing on photonic systems in the near term. To demonstrate that these ideas are well grounded we present three different problems which are solved by employing a measurement-based implementation of the variational quantum eigensolver algorithm (MBVQE). We show that by utilising native measurement-based gates rather than standard gates, such as the standard CNOT, MBQCs may be obtained that are both shallow and have simple connectivity while simultaneously exhibiting a large expressibility. We conclude that MBVQE has promising prospects for resource states that are not far from what is already available today.
翻訳日:2023-07-26 00:00:30 公開日:2023-07-24
# トランスフォーマーはいかにしてトピック構造を学ぶか:機械的理解に向けて

How Do Transformers Learn Topic Structure: Towards a Mechanistic Understanding ( http://arxiv.org/abs/2303.04245v2 )

ライセンス: Link先を確認
Yuchen Li, Yuanzhi Li, Andrej Risteski(参考訳) 多くの領域にわたる変圧器の成功は疑わしいが、学習力学の正確な理解はいまだにほとんど欠けている。 それらの能力は、様々な構造化および推論タスクを含むベンチマークで調査されてきたが、数学的理解は大幅に遅れている。 最近の研究は、あるタスクを実行するための注意に基づくネットワークのサイズ/深さ/複雑さという、この問題の表現的側面の研究を始めている。 しかし、学習ダイナミクスが提案された構成に収束する保証はない。 本稿では, トランスフォーマーが単語の共起構造を捉えた「意味構造」をどのように学習するかを, きめ細かい機械論的に理解する。 正確には,wikipediaデータに対する数学的解析と実験と,潜在ディリクレ割当(lda)によってモデル化された合成データの組み合わせにより,埋め込み層と自己着脱層が局所構造を符号化することを示す。 前者の場合、これは同じ話題語間の埋め込みの平均的な内積として表される。 後者では、同トピックの単語間で平均的なペアワイズ注意が高まる。 数学的結果は、データに基づいて検証し、また独立した関心を持つような分析を可能にするためのいくつかの仮定を含む。

While the successes of transformers across many domains are indisputable, accurate understanding of the learning mechanics is still largely lacking. Their capabilities have been probed on benchmarks which include a variety of structured and reasoning tasks -- but mathematical understanding is lagging substantially behind. Recent lines of work have begun studying representational aspects of this question: that is, the size/depth/complexity of attention-based networks to perform certain tasks. However, there is no guarantee the learning dynamics will converge to the constructions proposed. In our paper, we provide fine-grained mechanistic understanding of how transformers learn "semantic structure", understood as capturing co-occurrence structure of words. Precisely, we show, through a combination of mathematical analysis and experiments on Wikipedia data and synthetic data modeled by Latent Dirichlet Allocation (LDA), that the embedding layer and the self-attention layer encode the topical structure. In the former case, this manifests as higher average inner product of embeddings between same-topic words. In the latter, it manifests as higher average pairwise attention between same-topic words. The mathematical results involve several assumptions to make the analysis tractable, which we verify on data, and might be of independent interest as well.
翻訳日:2023-07-25 23:53:23 公開日:2023-07-24
# 都市間ネットワークにおける非同期計測デバイス非依存量子鍵分布の利点

Advantages of Asynchronous Measurement-Device-Independent Quantum Key Distribution in Intercity Networks ( http://arxiv.org/abs/2302.14349v3 )

ライセンス: Link先を確認
Yuan-Mei Xie, Jun-Lin Bai, Yu-Shuo Lu, Chen-Xun Weng, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 非同期MDI-QKD (Mode-pairing MDI-QKD) と呼ばれる新しい測定デバイス非依存量子鍵分布(MDI-QKD)は、同様のリピータライクなレートロススケーリングを提供するが、革新的なポスト測定ペアリング技術を利用して単純な技術実装の利点を生かしている。 本稿では,デコイ状態非同期MDI-QKDの実用的側面の評価を行う。 そこで本研究では,非対称チャネルとマルチユーザネットワークの影響を解析し,デコイ状態計算の最適手法について検討する。 シミュレーションの結果,MDI-QKDは実環境下では50kmから480kmの範囲で他のQKDプロトコルと比較して,MDIセキュリティの鍵レートが最も高いことがわかった。 ファイバ距離は50 kmと100 kmで、それぞれ6.02 Mbpsと2.29 Mbpsであり、リアルタイムのワンタイムパッドビデオ暗号化を容易にするのに十分である。 その結果,都市間ネットワークにおける非同期MDI-QKDの実験的実装は,実用的かつ効率的であることが示唆された。

The new variant of measurement-device-independent quantum key distribution (MDI-QKD), called asynchronous MDI-QKD or mode-pairing MDI-QKD, offers similar repeater-like rate-loss scaling but has the advantage of simple technology implementation by exploiting an innovative post-measurement pairing technique. We herein present an evaluation of the practical aspects of decoy-state asynchronous MDI-QKD. To determine its effectiveness, we analyze the optimal method of decoy-state calculation and examine the impact of asymmetrical channels and multi-user networks. Our simulations show that, under realistic conditions, aynchronous MDI-QKD can furnish the highest key rate with MDI security as compared to other QKD protocols over distances ranging from 50 km to 480 km. At fiber distances of 50 km and 100 km, the key rates attain 6.02 Mbps and 2.29 Mbps respectively, which are sufficient to facilitate real-time one-time-pad video encryption. Our findings indicate that experimental implementation of asynchronous MDI-QKD in intercity networks can be both practical and efficient.
翻訳日:2023-07-25 23:52:27 公開日:2023-07-24
# 部分識別可能な光子間の幾何位相を用いた非局所性の生成

Creating nonlocality using geometric phases between partially distinguishable photons ( http://arxiv.org/abs/2302.12748v2 )

ライセンス: Link先を確認
Valentin Gebhart(参考訳) 幾何学的(ベリー・パンチャラトナム)相は、量子状態の空間の内在幾何学に由来するもので、量子系の循環進化のような異なる状況で観測することができる。 ここでは幾何学的位相を利用して驚くべき洞察を得る:光子の内部状態を変化させることで、独立な光子入力を持つ固定干渉計で非局所相関を作ることが可能であり、特に、可変内部位相シフトやそれに続く測定設定を持たない環状干渉計を考える。 代わりに、異なる当事者の測定選択は、通常のパラダイムに対する非局所性の生成のための異なるアプローチを構成する、集合的n$-photon幾何位相を介して観測された相関に影響を与える入力光子の内部状態に対応する。 幾何学的位相と多光子干渉の可視性との間のトレードオフを観察し、非局所性の発生を妨げる。 しかし、動的量子ゼノ効果を用いることで、12個(またはそれ以上)の独立光子を用いて固定環状干渉計で非局所性が生成できることが示される。

The geometric (Berry-Pancharatnam) phase originates from the intrinsic geometry of the space of quantum states and can be observed in different situations, such as a cyclic evolution of a quantum system. Here, we utilize the geometric phase to obtain a surprising insight: It is possible to create nonlocal correlations in a fixed interferometer with independent photon inputs by varying the photons' internal states.In particular, we consider a cyclic interferometer that is fixed, i.e., that has no variable internal phase shifts or subsequent measurement settings. Instead, the measurement choices of the different parties correspond to the internal states of the input photons which influence the observed correlations via a collective $N$-photon geometric phase, constituting a different approach for the generation of nonlocality with respect to the usual paradigm. We observe a trade-off between the geometric phases and the visibility of the many-photon interference, impeding the generation of nonlocality. However, by making use of the dynamical quantum Zeno effect, we show that nonlocality can be created in the fixed cyclic interferometer using 12 (or more) independent photons.
翻訳日:2023-07-25 23:52:05 公開日:2023-07-24
# 超伝導量子ビットにおける準粒子の非平衡密度と平衡エネルギー分布の共存

Coexistence of nonequilibrium density and equilibrium energy distribution of quasiparticles in a superconducting qubit ( http://arxiv.org/abs/2302.12330v3 )

ライセンス: Link先を確認
Thomas Connolly, Pavel D. Kurilovich, Spencer Diamond, Heekun Nho, Charlotte G. L. B{\o}ttcher, Leonid I. Glazman, Valla Fatemi, Michel H. Devoret(参考訳) 超伝導量子ビットで典型的に観測される準粒子の密度は、平衡で期待される値を超える。 この平衡外準粒子密度は、フォノン浴と平衡のエネルギー分布を持つことができるか? ここでは, ジョセフソン接合の両面の超伝導ギャップに差があるトランスモン量子ビットにおける電荷パリティスイッチングの熱的活性化を測定することにより, この疑問に肯定的に答える。 次に、デバイス間のギャップ非対称性を利用してパリティを操作する方法を示す。

The density of quasiparticles typically observed in superconducting qubits exceeds the value expected in equilibrium by many orders of magnitude. Can this out-of-equilibrium quasiparticle density still possess an energy distribution in equilibrium with the phonon bath? Here, we answer this question affirmatively by measuring the thermal activation of charge-parity switching in a transmon qubit with a difference in superconducting gap on the two sides of the Josephson junction. We then demonstrate how the gap asymmetry of the device can be exploited to manipulate its parity.
翻訳日:2023-07-25 23:51:45 公開日:2023-07-24
# コントラスト学習と属性・アソシエーションの創発

Contrastive Learning and the Emergence of Attributes Associations ( http://arxiv.org/abs/2302.10763v3 )

ライセンス: Link先を確認
Daniel N. Nissani (Nissensohn)(参考訳) オブジェクトの提示に対して、教師付き学習スキームは概して同義的なラベルで応答する。 同様のプレゼンテーションを行うと、人間はラベルで再び反応するが、同時に無数の関連によって浸水する。 これらの大部分は、提示されたオブジェクト属性から成っている。 コントラスト学習(Contrastive Learning)は、オブジェクトの入力表現に対するID保存変換の適用に基づく半教師付き学習方式である。 この研究において、これらの同じ応用変換は、提示された対象の同一性に加えて、意味論的に意味のある属性の同一性を保持すると推測されている。 このような対照的な学習スキームの出力表現は、提示された対象の分類だけでなく、興味のある属性の存在や不在の判断のための貴重な情報を含む。 このアイデアとこの予想の実現可能性を示すシミュレーション結果が提示される。

In response to an object presentation, supervised learning schemes generally respond with a parsimonious label. Upon a similar presentation we humans respond again with a label, but are flooded, in addition, by a myriad of associations. A significant portion of these consist of the presented object attributes. Contrastive learning is a semi-supervised learning scheme based on the application of identity preserving transformations on the object input representations. It is conjectured in this work that these same applied transformations preserve, in addition to the identity of the presented object, also the identity of its semantically meaningful attributes. The corollary of this is that the output representations of such a contrastive learning scheme contain valuable information not only for the classification of the presented object, but also for the presence or absence decision of any attribute of interest. Simulation results which demonstrate this idea and the feasibility of this conjecture are presented.
翻訳日:2023-07-25 23:51:38 公開日:2023-07-24
# BiofilmScanner: バイオフィルム画像から細菌細胞の形態的属性を取得するための計算知能アプローチ

BiofilmScanner: A Computational Intelligence Approach to Obtain Bacterial Cell Morphological Attributes from Biofilm Image ( http://arxiv.org/abs/2302.09629v2 )

ライセンス: Link先を確認
Md Hafizur Rahman, Md Ali Azam, Md Abir Hossen, Shankarachary Ragi, and Venkataramana Gadhamshetty(参考訳) Desulfovibrio alaskensis G20(DA-G20)は、微生物による腐食問題に関連する硫酸還元菌(SRB)のモデルとして利用される。 srbベースのバイオフィルムは、金属インフラの年間10億ドルのバイオ腐食の原因と考えられている。 成長段階の異なるSRBバイオフィルムにおける細菌細胞の形状とサイズ特性の抽出を理解することは、抗腐食技術の設計を支援する。 しかし、多くの問題は、時間を要する幾何学的特性抽出、低い効率、高いエラー率など、現在のアプローチに影響を及ぼす。 本稿では,不変モーメントと統合したyolactベースのディープラーニング手法であるbiofilscannerを提案する。 本手法は,SRB画像中の細菌細胞を効率よく検出・分節し,同時に低誤差の分節細胞の幾何学的特性を計測する。 提案手法の数値実験により,BiofilmScannerはMsk-RCNN法およびDLv3+法よりも2.1倍,6.8倍速く,細胞の幾何学的特性を検出し,セグメンテーションし,測定することができる。 さらにバイオフィルムスキャナーは85.28%のF1スコアを獲得し、Mask-RCNNとDLv3+はそれぞれ77.67%と75.18%のF1スコアを得た。

Desulfovibrio alaskensis G20 (DA-G20) is utilized as a model for sulfate-reducing bacteria (SRB) that are associated with corrosion issues caused by microorganisms. SRB-based biofilms are thought to be responsible for the billion-dollar-per-year bio-corrosion of metal infrastructure. Understanding the extraction of the bacterial cells' shape and size properties in the SRB-biofilm at different growth stages will assist with the design of anti-corrosion techniques. However, numerous issues affect current approaches, including time-consuming geometric property extraction, low efficiency, and high error rates. This paper proposes BiofilScanner, a Yolact-based deep learning method integrated with invariant moments to address these problems. Our approach efficiently detects and segments bacterial cells in an SRB image while simultaneously invariant moments measure the geometric characteristics of the segmented cells with low errors. The numerical experiments of the proposed method demonstrate that the BiofilmScanner is 2.1x and 6.8x faster than our earlier Mask-RCNN and DLv3+ methods for detecting, segmenting, and measuring the geometric properties of the cell. Furthermore, the BiofilmScanner achieved an F1-score of 85.28% while Mask-RCNN and DLv3+ obtained F1-scores of 77.67% and 75.18%, respectively.
翻訳日:2023-07-25 23:51:26 公開日:2023-07-24
# deep convolutional neural network based artifact reductionによるsparse-view ctによる出血自動検出の改善

Improving Automated Hemorrhage Detection in Sparse-view Computed Tomography via Deep Convolutional Neural Network based Artifact Reduction ( http://arxiv.org/abs/2303.09340v3 )

ライセンス: Link先を確認
Johannes Thalhammer, Manuel Schultheiss, Tina Dorosti, Tobias Lasser, Franz Pfeiffer, Daniela Pfeiffer, Florian Schaff(参考訳) 目的:スパース・ビュー・コンピュート・トモグラフィー(CT)は,画像品質を犠牲にして取得したビューの総数を減らし,疾患検出能力に影響を及ぼす効果のある方法である。 スパース・ビュー脳CTにおける深層学習に基づくアーティファクトの低減とその自動出血検出への影響について検討する。 方法: パブリックデータセットから得られた3000例のスパース・ビュー頭蓋骨CTで, 各種サブサンプリングで再建したアーティファクト削減のためのU-Netを訓練した。 さらに, 自動出血検出のために17,545例のCTデータから畳み込みニューラルネットワークを訓練した。 95%信頼区間(cis)とdelong testに対応する受信者特性曲線(auc-rocs)の領域と混乱行列を用いた分類性能の評価を行った。 u-netの性能は,total variation (tv) に基づく解析手法と比較した。 結果: u-netは未処理画像やテレビ処理画像と比較して画像品質や出血診断の自動化に優れていた。 U-Net後処理では、ビューの数は4096ビュー(AUC-ROC: 0.974; 95% CI: 0.972-0.976)から512ビュー(0.973; 0.971-0.975)に減少し、出血検出の最小値(P<.001)と256ビュー(0.967; 0.964-0.969)に減少する。 結論: u-net によるアーティファクトの削減は sparse-view 頭蓋ct の出血検出を大幅に改善することが示唆された。 本研究は,放射線線量を最小限に抑えつつ,最適な画像品質と診断精度に適切な後処理が不可欠であることを示す。

Purpose: Sparse-view computed tomography (CT) is an effective way to reduce dose by lowering the total number of views acquired, albeit at the expense of image quality, which, in turn, can impact the ability to detect diseases. We explore deep learning-based artifact reduction in sparse-view cranial CT scans and its impact on automated hemorrhage detection. Methods: We trained a U-Net for artefact reduction on simulated sparse-view cranial CT scans from 3000 patients obtained from a public dataset and reconstructed with varying levels of sub-sampling. Additionally, we trained a convolutional neural network on fully sampled CT data from 17,545 patients for automated hemorrhage detection. We evaluated the classification performance using the area under the receiver operator characteristic curves (AUC-ROCs) with corresponding 95% confidence intervals (CIs) and the DeLong test, along with confusion matrices. The performance of the U-Net was compared to an analytical approach based on total variation (TV). Results: The U-Net performed superior compared to unprocessed and TV-processed images with respect to image quality and automated hemorrhage diagnosis. With U-Net post-processing, the number of views can be reduced from 4096 (AUC-ROC: 0.974; 95% CI: 0.972-0.976) views to 512 views (0.973; 0.971-0.975) with minimal decrease in hemorrhage detection (P<.001) and to 256 views (0.967; 0.964-0.969) with a slight performance decrease (P<.001). Conclusion: The results suggest that U-Net based artifact reduction substantially enhances automated hemorrhage detection in sparse-view cranial CTs. Our findings highlight that appropriate post-processing is crucial for optimal image quality and diagnostic accuracy while minimizing radiation dose.
翻訳日:2023-07-25 23:42:41 公開日:2023-07-24
# 集束化学空間における自動特許抽出パワー生成モデル

Automated patent extraction powers generative modeling in focused chemical spaces ( http://arxiv.org/abs/2303.08272v3 )

ライセンス: Link先を確認
Akshay Subramanian, Kevin P. Greenman, Alexis Gervaix, Tzuhsiung Yang, Rafael G\'omez-Bombarelli(参考訳) 深層生成モデルは逆分子設計のエキサイティングな道として登場し、訓練アルゴリズムと分子表現の相互作用から進歩している。 材料科学と化学に適用可能な重要な課題の1つは、プロパティラベルを持つ大規模トレーニングデータセットにアクセスできないことだ。 出版される特許は、ジャーナルに掲載される前に新しい素材を初めて開示することを含み、データ駆動分子設計の分野では比較的未知の科学知識の膨大な情報源である。 特定の用途を保護するために特許が出願されるため、特許の分子はアプリケーションクラスに弱いラベルを付けることができる。 さらに、米国特許商標庁(uspto)が発行する特許はダウンロード可能であり、機械可読テキストおよび分子構造を有する。 本研究では,USPTO特許のデジタルファイルから,人間の介入を最小限に抑えた新規候補を生成するための自動パイプラインを開発することで,特許データソースを用いたドメイン固有生成モデルを訓練する。 本手法は,有機エレクトロニクスとチロシンキナーゼ阻害薬の2種類のin-class抽出データセットでテストした。 次に、これらのクラス内データセットでトレーニングされた生成モデルの能力(分散学習とプロパティ最適化)を評価し、強みと限界を特定し、実際にこれらを克服するために使用できる説明と改善を提案する。

Deep generative models have emerged as an exciting avenue for inverse molecular design, with progress coming from the interplay between training algorithms and molecular representations. One of the key challenges in their applicability to materials science and chemistry has been the lack of access to sizeable training datasets with property labels. Published patents contain the first disclosure of new materials prior to their publication in journals, and are a vast source of scientific knowledge that has remained relatively untapped in the field of data-driven molecular design. Because patents are filed seeking to protect specific uses, molecules in patents can be considered to be weakly labeled into application classes. Furthermore, patents published by the US Patent and Trademark Office (USPTO) are downloadable and have machine-readable text and molecular structures. In this work, we train domain-specific generative models using patent data sources by developing an automated pipeline to go from USPTO patent digital files to the generation of novel candidates with minimal human intervention. We test the approach on two in-class extracted datasets, one in organic electronics and another in tyrosine kinase inhibitors. We then evaluate the ability of generative models trained on these in-class datasets on two categories of tasks (distribution learning and property optimization), identify strengths and limitations, and suggest possible explanations and remedies that could be used to overcome these in practice.
翻訳日:2023-07-25 23:41:31 公開日:2023-07-24
# プログラム可能な光時計におけるrydberg相互作用によるスピンスクイーズの実現

Realizing spin squeezing with Rydberg interactions in a programmable optical clock ( http://arxiv.org/abs/2303.08078v2 )

ライセンス: Link先を確認
William J. Eckner, Nelson Darkwah Oppong, Alec Cao, Aaron W. Young, William R. Milner, John M. Robinson, Jun Ye, Adam M. Kaufman(参考訳) 光学ポテンシャルに閉じ込められた中性原子配列は、量子物理学を研究するための強力なプラットフォームであり、精密な単一粒子制御と検出と調整可能な相互作用を組み合わせている。 例えば、これらの能力は、最先端の周波数計測や、絡み合った多粒子状態の顕微鏡的研究に活用されている。 本研究では、これらの応用を組み合わせることで、相互作用する光量子ビットのプログラマブルアレイに基づく光原子時計におけるスピンスクイージング(metrologically useful entanglement)を実現する。 Rydbergによる中性原子光時計によるスクイーズの最初のデモでは、ほぼ4dBのメトロジカルゲインを持つ状態を生成する。 さらに, 1秒平均時間で1.087(1)\times 10^{-15}$の分数周波数安定性を観測し, 標準量子限界より1,9,4(1) db低く, 半時間測定で10^{-17}$の分数精度に達した。 さらに,光学的局所発振器と相対的コヒーレンス時間を超えて動作する測定におけるスピンスクイーズを探索するために,光トウィーザアレイによるプログラム可能な制御を利用して局所位相シフトを適用する。 プログラマブルな原子アレイ時計におけるスピン配列プロトコルの実現は、最適な位相推定とハイゼンベルク制限光原子時計のための幅広い量子情報インスパイアされた技術への扉を開く。

Neutral-atom arrays trapped in optical potentials are a powerful platform for studying quantum physics, combining precise single-particle control and detection with a range of tunable entangling interactions. For example, these capabilities have been leveraged for state-of-the-art frequency metrology as well as microscopic studies of entangled many-particle states. In this work, we combine these applications to realize spin squeezing - a widely studied operation for producing metrologically useful entanglement - in an optical atomic clock based on a programmable array of interacting optical qubits. In this first demonstration of Rydberg-mediated squeezing with a neutral-atom optical clock, we generate states that have almost 4 dB of metrological gain. Additionally, we perform a synchronous frequency comparison between independent squeezed states and observe a fractional frequency stability of $1.087(1)\times 10^{-15}$ at one-second averaging time, which is 1.94(1) dB below the standard quantum limit, and reaches a fractional precision at the $10^{-17}$ level during a half-hour measurement. We further leverage the programmable control afforded by optical tweezer arrays to apply local phase shifts in order to explore spin squeezing in measurements that operate beyond the relative coherence time with the optical local oscillator. The realization of this spin-squeezing protocol in a programmable atom-array clock opens the door to a wide range of quantum-information inspired techniques for optimal phase estimation and Heisenberg-limited optical atomic clocks.
翻訳日:2023-07-25 23:41:08 公開日:2023-07-24
# Exphormer:グラフ用のスパーストランスフォーマー

Exphormer: Sparse Transformers for Graphs ( http://arxiv.org/abs/2303.06147v2 )

ライセンス: Link先を確認
Hamed Shirzad, Ameya Velingker, Balaji Venkatachalam, Danica J. Sutherland, Ali Kemal Sinop(参考訳) グラフトランスフォーマーは、様々なグラフ学習と表現タスクのための有望なアーキテクチャとして登場した。 しかし、その成功にもかかわらず、メッセージパッシングネットワークと競合する精度を維持しながら、グラフトランスフォーマーを大きなグラフにスケールすることは依然として困難である。 本稿では,パワフルでスケーラブルなグラフ変換器を構築するためのフレームワークであるExphormerを紹介する。 Exphormer は2つのメカニズムに基づくスパースアテンション機構で構成されている。仮想グローバルノードと拡張グラフは、スペクトル展開、pseduorandomness、sparsity などの数学的特徴を持ち、グラフのサイズが線形な複雑なグラフ変換器を出力し、結果の変換器モデルの理論的特性を合理的に証明する。 Exphormerを最近提案したGraphGPSフレームワークに組み込むことで,3つのデータセットの最先端結果を含む,多種多様なグラフデータセットに対して,競合的な実験結果のモデルを生成することを示す。 また、Exphormerは従来のグラフトランスフォーマーアーキテクチャよりも大きなグラフ上のデータセットにスケール可能であることを示す。 コードは \url{https://github.com/hamed1375/Exphormer} で見ることができる。

Graph transformers have emerged as a promising architecture for a variety of graph learning and representation tasks. Despite their successes, though, it remains challenging to scale graph transformers to large graphs while maintaining accuracy competitive with message-passing networks. In this paper, we introduce Exphormer, a framework for building powerful and scalable graph transformers. Exphormer consists of a sparse attention mechanism based on two mechanisms: virtual global nodes and expander graphs, whose mathematical characteristics, such as spectral expansion, pseduorandomness, and sparsity, yield graph transformers with complexity only linear in the size of the graph, while allowing us to prove desirable theoretical properties of the resulting transformer models. We show that incorporating Exphormer into the recently-proposed GraphGPS framework produces models with competitive empirical results on a wide variety of graph datasets, including state-of-the-art results on three datasets. We also show that Exphormer can scale to datasets on larger graphs than shown in previous graph transformer architectures. Code can be found at \url{https://github.com/hamed1375/Exphormer}.
翻訳日:2023-07-25 23:40:33 公開日:2023-07-24
# Lemmas: 生成、選択、適用

Lemmas: Generation, Selection, Application ( http://arxiv.org/abs/2303.05854v2 )

ライセンス: Link先を確認
Michael Rawson and Christoph Wernhard and Zsolt Zombori and Wolfgang Bibel(参考訳) 補題が数学の重要な特徴であることに留意し、自動定理証明における補題の役割について調査を行う。 本稿では,自動定理証明器に有用な補題を生成する学習技術と,いくつかの代表的なシステムの改善を実証し,20年間,どのシステムでも解決できない難題を解くことを目的とした実験を行った。 凝縮した分断問題に焦点を当てることで、設定をかなり単純化し、補題の本質と証明探索におけるそれらの役割を把握できる。

Noting that lemmas are a key feature of mathematics, we engage in an investigation of the role of lemmas in automated theorem proving. The paper describes experiments with a combined system involving learning technology that generates useful lemmas for automated theorem provers, demonstrating improvement for several representative systems and solving a hard problem not solved by any system for twenty years. By focusing on condensed detachment problems we simplify the setting considerably, allowing us to get at the essence of lemmas and their role in proof search.
翻訳日:2023-07-25 23:39:53 公開日:2023-07-24
# diffusion depth: diffusion denoising approachによる単眼深度推定

DiffusionDepth: Diffusion Denoising Approach for Monocular Depth Estimation ( http://arxiv.org/abs/2303.05021v3 )

ライセンス: Link先を確認
Yiqun Duan, Xianda Guo, Zheng Zhu(参考訳) 単眼深度推定は1枚の2次元画像から画素幅の深度を予測する難しい課題である。 現在の手法は通常、この問題を回帰または分類タスクとしてモデル化する。 単分子深度推定をデノナイズ拡散過程として再構成する新しい手法であるDiffusionDepthを提案する。 モノラルな視覚条件の誘導でランダムな深度分布を深度マップに"デノザイズ"する反復的認知過程を学習する。 この処理は、専用深度エンコーダおよびデコーダによって符号化された潜時空間で実行される。 基底真理(GT)の深さを拡散する代わりに、モデルは自分自身の洗練された深さをランダムな深さ分布に拡散する過程を逆転させることを学ぶ。 この自己拡散の定式化は、GT深度シナリオに生成モデルを適用することの難しさを克服する。 提案手法は,高精度かつ高精度な深度マップを生成するのに優れている深さ推定ステップを段階的に精錬することで,この課題を活用できる。 KITTIとNYU-Depth-V2データセットの実験結果は、シンプルだが効率的な拡散アプローチが、許容可能な推論時間を持つ屋内および屋外の両方のシナリオで最先端のパフォーマンスに達することを示唆している。

Monocular depth estimation is a challenging task that predicts the pixel-wise depth from a single 2D image. Current methods typically model this problem as a regression or classification task. We propose DiffusionDepth, a new approach that reformulates monocular depth estimation as a denoising diffusion process. It learns an iterative denoising process to `denoise' random depth distribution into a depth map with the guidance of monocular visual conditions. The process is performed in the latent space encoded by a dedicated depth encoder and decoder. Instead of diffusing ground truth (GT) depth, the model learns to reverse the process of diffusing the refined depth of itself into random depth distribution. This self-diffusion formulation overcomes the difficulty of applying generative models to sparse GT depth scenarios. The proposed approach benefits this task by refining depth estimation step by step, which is superior for generating accurate and highly detailed depth maps. Experimental results on KITTI and NYU-Depth-V2 datasets suggest that a simple yet efficient diffusion approach could reach state-of-the-art performance in both indoor and outdoor scenarios with acceptable inference time.
翻訳日:2023-07-25 23:39:44 公開日:2023-07-24
# 離散時間半古典的量子ウォーク

Discrete-time Semiclassical Szegedy Quantum Walks ( http://arxiv.org/abs/2303.18202v2 )

ライセンス: Link先を確認
Sergio A. Ortega, Miguel A. Martin-Delgado(参考訳) 量子ウォークは古典的なランダムウォークに基づく有望なツールであり、最適化の変種など多くの応用がある。 ここでは,古典力学と量子力学を組み合わせたアルゴリズムである離散時間半古典歩行を紹介する。 具体的には、半古典的なウォークは遷移行列が量子進化を符号化する古典的なウォークとして理解することができる。 我々はこのアルゴリズムを任意の重み付きグラフに適用できるSzegedyの量子ウォークに適用した。 まず, 半古典的歩行の性能を示すために, 正規1次元サイクル上で解析的に解いた。 次に、一般不均質対称グラフでアルゴリズムをシミュレートし、不均質性はグラフ上の対称性の破れを駆動することを示した。 さらに,この現象は,古典的ページランクが失敗する対称グラフにおけるノードのランキング問題に有用であることを示す。 半古典的ウォークがibm量子プラットフォームを用いて実際の量子コンピュータに適用できることを実験的に実証した。

Quantum walks are promising tools based on classical random walks, with plenty of applications such as many variants of optimization. Here we introduce the semiclassical walks in discrete time, which are algorithms that combines classical and quantum dynamics. Specifically, a semiclassical walk can be understood as a classical walk where the transition matrix encodes the quantum evolution. We have applied this algorithm to Szegedy's quantum walk, which can be applied to any arbitrary weighted graph. We first have solved the problem analytically on regular 1D cycles to show the performance of the semiclassical walks. Next, we have simulated our algorithm in a general inhomogeneous symmetric graph, finding that the inhomogeneity drives a symmetry breaking on the graph. Moreover, we show that this phenomenon is useful for the problem of ranking nodes in symmetric graphs, where the classical PageRank fails. We have demonstrated experimentally that the semiclassical walks can be applied on real quantum computers using the platform IBM Quantum.
翻訳日:2023-07-25 23:34:28 公開日:2023-07-24
# 畳み込みを伴う高効率3次元アウェア生成のためのNeRF-GAN蒸留

NeRF-GAN Distillation for Efficient 3D-Aware Generation with Convolutions ( http://arxiv.org/abs/2303.12865v3 )

ライセンス: Link先を確認
Mohamad Shahbazi, Evangelos Ntavelis, Alessio Tonioni, Edo Collins, Danda Pani Paudel, Martin Danelljan, Luc Van Gool(参考訳) ポーズ条件付き畳み込み生成モデルは、十分な3dプリミティブがないため、シングルビューデータセットから高品質な3d一貫性のある画像生成に苦しむ。 近年,ニューラルレージアンスフィールド(NeRF)とGAN(Generative Adversarial Networks)のような生成モデルの統合により,単一ビュー画像から3次元認識生成が変化している。 NeRF-GANは、高い計算複雑性を犠牲にして、ニューラル3D表現とボリュームレンダリングの強い誘導バイアスを利用する。 本研究では,事前学習したNeRF-GANから3D知識を蒸留することにより,ポーズ条件付き2D GANを推論時に効率よく3D認識生成するために再検討することを目的とする。 提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。 提案手法は,畳み込みネットワークの計算的優位性を生かしながら,品質と3次元一貫性の観点から,ボリュームレンダリングに匹敵する結果が得られることを示す。 コードは以下の通り。 https://github.com/mshahbazi72/NeRF-GAN-Distillation

Pose-conditioned convolutional generative models struggle with high-quality 3D-consistent image generation from single-view datasets, due to their lack of sufficient 3D priors. Recently, the integration of Neural Radiance Fields (NeRFs) and generative models, such as Generative Adversarial Networks (GANs), has transformed 3D-aware generation from single-view images. NeRF-GANs exploit the strong inductive bias of neural 3D representations and volumetric rendering at the cost of higher computational complexity. This study aims at revisiting pose-conditioned 2D GANs for efficient 3D-aware generation at inference time by distilling 3D knowledge from pretrained NeRF-GANs. We propose a simple and effective method, based on re-using the well-disentangled latent space of a pre-trained NeRF-GAN in a pose-conditioned convolutional network to directly generate 3D-consistent images corresponding to the underlying 3D representations. Experiments on several datasets demonstrate that the proposed method obtains results comparable with volumetric rendering in terms of quality and 3D consistency while benefiting from the computational advantage of convolutional networks. The code will be available at: https://github.com/mshahbazi72/NeRF-GAN-Distillation
翻訳日:2023-07-25 23:32:40 公開日:2023-07-24
# ポジショニングシフト下における画像解析アルゴリズムの展開

Deployment of Image Analysis Algorithms under Prevalence Shifts ( http://arxiv.org/abs/2303.12540v2 )

ライセンス: Link先を確認
Patrick Godau and Piotr Kalinowski and Evangelia Christodoulou and Annika Reinke and Minu Tizabi and Luciana Ferrer and Paul J\"ager and Lena Maier-Hein(参考訳) 領域ギャップは、医療画像解析のための機械学習(ML)ベースのソリューションの臨床翻訳において、最も関連する障害の一つである。 現在の研究は、新しいトレーニングパラダイムとネットワークアーキテクチャに焦点を当てているが、実際にデプロイされたアルゴリズムに対する頻度シフトの影響についてはほとんど注目されていない。 例えば、人工知能(AI)の民主化の文脈では、病気の頻度は時間や場所によって大きく異なるため、メソッドの開発/検証に使用されるデータのクラス周波数と、そのデプロイメント環境におけるクラス周波数の相違が非常に重要である。 私たちの貢献は2倍です。 まず, 有病率処理の欠如による潜在的重篤な影響を分析により実証する。 (i)不合理の程度 (二)決定しきい値の最適値からのずれ、及び (iii) 開発と展開の頻度の差として、展開人口におけるニューラルネットワークのパフォーマンスを反映する検証指標の能力。 第2に,訓練された分類器を新たな環境に調整するために,アノテートされたデプロイメントデータを必要としない,推定デプロイメント頻度を用いた画像分類ワークフローを提案する。 30の医療分類タスクの多種多様なセットに基づく総合的な実験は、提案されたワークフローの利点として、より優れた分類器決定と信頼性の高い性能推定を生成する。

Domain gaps are among the most relevant roadblocks in the clinical translation of machine learning (ML)-based solutions for medical image analysis. While current research focuses on new training paradigms and network architectures, little attention is given to the specific effect of prevalence shifts on an algorithm deployed in practice. Such discrepancies between class frequencies in the data used for a method's development/validation and that in its deployment environment(s) are of great importance, for example in the context of artificial intelligence (AI) democratization, as disease prevalences may vary widely across time and location. Our contribution is twofold. First, we empirically demonstrate the potentially severe consequences of missing prevalence handling by analyzing (i) the extent of miscalibration, (ii) the deviation of the decision threshold from the optimum, and (iii) the ability of validation metrics to reflect neural network performance on the deployment population as a function of the discrepancy between development and deployment prevalence. Second, we propose a workflow for prevalence-aware image classification that uses estimated deployment prevalences to adjust a trained classifier to a new environment, without requiring additional annotated deployment data. Comprehensive experiments based on a diverse set of 30 medical classification tasks showcase the benefit of the proposed workflow in generating better classifier decisions and more reliable performance estimates compared to current practice.
翻訳日:2023-07-25 23:32:18 公開日:2023-07-24
# エントロピー不確実性関係に基づく2量子絡み合いの逐次共有

Sequential sharing of two-qudit entanglement based on the entropic uncertainty relation ( http://arxiv.org/abs/2304.05791v2 )

ライセンス: Link先を確認
Ming-Liang Hu, Heng Fan(参考訳) 絡み合いと不確かさの関係は量子論の2つの焦点である。 異なるポインタを用いた弱い測定による$(d\times d)$-dimensionalシステムにおけるエンタングルメント共有とエントロピー不確実性の関係を関連付ける。 我々は, 絡み合ったペアを複数のアリスに分散する一方の逐次測定と, 絡み合ったペアを複数のアリスとボブに分散する一方の逐次測定の両方のシナリオを考察する。 エンタングルメントを共有する観測者の最大数は、測定シナリオ、装置のポインタ状態、各サブシステムの局所次元$d$に強く依存するが、エンタングルメント共有を達成するために必要な最小測定精度は、$d$の増加とともにその漸近値に低下する。 観測者の最大数は、状態が最大に絡み合っていないが強い絡み合いがある場合でも変化しない。

Entanglement and uncertainty relation are two focuses of quantum theory. We relate entanglement sharing to the entropic uncertainty relation in a $(d\times d)$-dimensional system via weak measurements with different pointers. We consider both the scenarios of one-sided sequential measurements in which the entangled pair is distributed to multiple Alices and one Bob and two-sided sequential measurements in which the entangled pair is distributed to multiple Alices and Bobs. It is found that the maximum number of observers sharing the entanglement strongly depends on the measurement scenarios, the pointer states of the apparatus, and the local dimension $d$ of each subsystem, while the required minimum measurement precision to achieve entanglement sharing decreases to its asymptotic value with the increase of $d$. The maximum number of observers remain unaltered even when the state is not maximally entangled but has strong-enough entanglement.
翻訳日:2023-07-25 23:22:40 公開日:2023-07-24
# 網膜異常同定のための不確かさに着想を得たオープンセット学習

Uncertainty-inspired Open Set Learning for Retinal Anomaly Identification ( http://arxiv.org/abs/2304.03981v2 )

ライセンス: Link先を確認
Meng Wang, Tian Lin, Lianyu Wang, Aidi Lin, Ke Zou, Xinxing Xu, Yi Zhou, Yuanyuan Peng, Qingquan Meng, Yiming Qian, Guoyao Deng, Zhiqun Wu, Junhong Chen, Jianhong Lin, Mingzhi Zhang, Weifang Zhu, Changqing Zhang, Daoqiang Zhang, Rick Siow Mong Goh, Yong Liu, Chi Pui Pang, Xinjian Chen, Haoyu Chen, Huazhu Fu(参考訳) トレーニング中に見つからないクラスからのサンプルを認識できないことは、網膜異常の認識と分類のための現実世界の実装における人工知能の大きな限界である。 不確実性に触発されたオープンセット(uios)モデルを構築し,網膜9条件の眼底画像を用いてトレーニングを行った。 各カテゴリの確率を評価するだけでなく、uiosは自信を表現するために不確実性スコアも計算した。 しきい値戦略を持つUIOSモデルは、標準AIモデルによるF1スコア92.20%、80.69%、64.74%と比較して、内部テストセットで99.55%、97.01%、91.91%、外部ターゲットカテゴリ(TC)-JSIECデータセットでそれぞれF1スコアを達成した。 さらにUIOSは、高い不確実性スコアを正しく予測し、非ターゲットの網膜疾患、低品質の眼底画像、および非基本画像のデータセットを手動でチェックする必要がある。 UIOSは網膜異常のリアルタイムスクリーニングのための堅牢な方法を提供する。

Failure to recognize samples from the classes unseen during training is a major limitation of artificial intelligence in the real-world implementation for recognition and classification of retinal anomalies. We established an uncertainty-inspired open-set (UIOS) model, which was trained with fundus images of 9 retinal conditions. Besides assessing the probability of each category, UIOS also calculated an uncertainty score to express its confidence. Our UIOS model with thresholding strategy achieved an F1 score of 99.55%, 97.01% and 91.91% for the internal testing set, external target categories (TC)-JSIEC dataset and TC-unseen testing set, respectively, compared to the F1 score of 92.20%, 80.69% and 64.74% by the standard AI model. Furthermore, UIOS correctly predicted high uncertainty scores, which would prompt the need for a manual check in the datasets of non-target categories retinal diseases, low-quality fundus images, and non-fundus images. UIOS provides a robust method for real-world screening of retinal anomalies.
翻訳日:2023-07-25 23:21:55 公開日:2023-07-24
# RED-PSM:ダイナミックイメージングのための部分分離型モデルによる正規化

RED-PSM: Regularization by Denoising of Partially Separable Models for Dynamic Imaging ( http://arxiv.org/abs/2304.03483v2 )

ライセンス: Link先を確認
Berk Iskender, Marc L. Klasky, Yoram Bresler(参考訳) ダイナミックイメージング(dynamic imaging)は、2dまたは3dオブジェクトを瞬時にアンサンプした測定値を用いてリカバリする。 特に、ダイナミックトモグラフィの場合、一度に1つの角度で投影できるのは1つの投影のみであり、問題は非常に不適切である。 そこで本研究では,この課題に初めて2つの強力な手法を組み合わせたアプローチである red-psm を提案する。 1つ目は部分分離可能なモデルで、時空間オブジェクトの低ランクを効率よく導入するために使われてきた。 2つ目は最近のRegularization by Denoising (RED)で、これは様々な逆問題に対して最先端の画像復調アルゴリズムの印象的なパフォーマンスを利用する柔軟なフレームワークを提供する。 本稿では,redによる部分分離目標と,可変分割とadmmを用いた計算効率良くスケーラブルな最適化スキームを提案する。 理論解析により、第一次最適条件を満たす定常点に対応する値への目的の収束が証明される。 収束は特定の射影領域に基づく初期化によって加速される。 本研究では,本提案手法とtd-dip法との比較により,red-psmの性能と計算性能の向上を示す。 主にダイナミックトモグラフィに焦点が当てられているが, 心動的MRI設定におけるRED-PSMの性能上の優位性も示している。

Dynamic imaging addresses the recovery of a time-varying 2D or 3D object at each time instant using its undersampled measurements. In particular, in the case of dynamic tomography, only a single projection at a single view angle may be available at a time, making the problem severely ill-posed. In this work, we propose an approach, RED-PSM, which combines for the first time two powerful techniques to address this challenging imaging problem. The first, are partially separable models, which have been used to efficiently introduce a low-rank prior for the spatio-temporal object. The second is the recent Regularization by Denoising (RED), which provides a flexible framework to exploit the impressive performance of state-of-the-art image denoising algorithms, for various inverse problems. We propose a partially separable objective with RED and a computationally efficient and scalable optimization scheme with variable splitting and ADMM. Theoretical analysis proves the convergence of our objective to a value corresponding to a stationary point satisfying the first-order optimality conditions. Convergence is accelerated by a particular projection-domain-based initialization. We demonstrate the performance and computational improvements of our proposed RED-PSM with a learned image denoiser by comparing it to a recent deep-prior-based method known as TD-DIP. Although the main focus is on dynamic tomography, we also show the performance advantages of RED-PSM in a cardiac dynamic MRI setting.
翻訳日:2023-07-25 23:21:34 公開日:2023-07-24
# 有機形状のスケーラブルな物理化のための直接リメッシングとK-set等尺分解

Dr. KID: Direct Remeshing and K-set Isometric Decomposition for Scalable Physicalization of Organic Shapes ( http://arxiv.org/abs/2304.02941v2 )

ライセンス: Link先を確認
Dawar Khan, Ciril Bohak, Ivan Viola(参考訳) KID(Dr. KID)は、ジャガイモ形有機モデルの物理化に等尺分解を用いるアルゴリズムである。 アルゴリズムは、有機形状の単純な正三角形の表面メッシュを作成し、続いて反復的なk平均クラスタリングとリメッシングを行う。 クラスタリングには、距離関数として定義される三角形(セグメント)間の類似性が必要である。 距離関数は、それぞれの三角形の形状を仮想3次元空間の単一点にマッピングする。 したがって、三角形間の距離は、その相似性の程度を示す。 K平均クラスタリングはこの距離とセグメントをkクラスに分類する。 その後、その形状を同一にすることで、同じクラスタ内の三角形間の距離を最小化するためにリメッシングを適用する。 クラスタリングとリメッシングは、同じクラスタ内の三角形間の距離が許容しきい値に達するまで繰り返される。 曲面厚みを判定し,3dプリンティングのためのパズルピースを仕上げるために,曲率認識手法を採用する。 パズルの部品を組み立てるために同じヒンジと穴が作られる。 よりスムーズな結果を得るためには、三角形の分割と曲率を考慮したクラスタリングを用い、3Dプリンティングのための曲面三角形パッチを生成する。 本アルゴリズムは, 各種モデルを用いて評価し, 3Dプリントによる解析を行った。 提案アルゴリズムは,入力幾何学の損失を最小限に抑えつつ,目的の有機形状に対して確実に動作することを示す。

Dr. KID is an algorithm that uses isometric decomposition for the physicalization of potato-shaped organic models in a puzzle fashion. The algorithm begins with creating a simple, regular triangular surface mesh of organic shapes, followed by iterative k-means clustering and remeshing. For clustering, we need similarity between triangles (segments) which is defined as a distance function. The distance function maps each triangle's shape to a single point in the virtual 3D space. Thus, the distance between the triangles indicates their degree of dissimilarity. K-means clustering uses this distance and sorts of segments into k classes. After this, remeshing is applied to minimize the distance between triangles within the same cluster by making their shapes identical. Clustering and remeshing are repeated until the distance between triangles in the same cluster reaches an acceptable threshold. We adopt a curvature-aware strategy to determine the surface thickness and finalize puzzle pieces for 3D printing. Identical hinges and holes are created for assembling the puzzle components. For smoother outcomes, we use triangle subdivision along with curvature-aware clustering, generating curved triangular patches for 3D printing. Our algorithm was evaluated using various models, and the 3D-printed results were analyzed. Findings indicate that our algorithm performs reliably on target organic shapes with minimal loss of input geometry.
翻訳日:2023-07-25 23:21:11 公開日:2023-07-24
# 非エルミートキラル皮膚効果

Non-Hermitian Chiral Skin Effect ( http://arxiv.org/abs/2304.01422v2 )

ライセンス: Link先を確認
Xinran Ma, Kui Cao, Xiaoran Wang, Zheng Wei, Supeng Kou(参考訳) 非エルミート効果とトポロジカル絶縁体の間の相互作用は、非エルミート物理学の研究のフロンティアとなっている。 しかしながら、トポロジカル保護されたエッジ状態に対する非エルミート皮膚効果の存在は議論の余地がある。 本稿では,非エルミート皮膚効果(NHCSE)と呼ばれる,非エルミート皮膚効果の代替形態を発見する。 NHCSEは開境界条件ではなく周期境界条件下での非エルミート皮膚効果である。 具体的には、NHCSEのカイラルモードは、システムの境界に制限されるのではなく、グローバルな散逸によって特徴づけられる‘textquotedblleft Topological defects‘textquotedblright’の周りに局在する。 非エルミート的ハルデンモデルを例にとり、その詳細な物理的性質を示す。 その結果、チャーン絶縁体におけるハイブリッド皮膚トポロジー効果の固有のメカニズムは、NHCSEによって完全に理解されている。 したがって、この進歩は、ハイブリッドスキントポロジカル効果の議論の的となっているトピックを解決し、非エルミート物理学とトポロジカル量子状態の研究に役立つ。

The interplay between non-Hermitian effects and topological insulators has become a frontier of research in non-Hermitian physics. However, the existence of a non-Hermitian skin effect for topological-protected edge states remains controversial. In this paper, we discover an alternative form of the non-Hermitian skin effect called the non-Hermitian chiral skin effect (NHCSE). NHCSE is a non-Hermitian skin effect under periodic boundary condition rather than open boundary condition. Specifically, the chiral modes of the NHCSE localize around \textquotedblleft topological defects\textquotedblright characterized by global dissipation rather than being confined to the system boundaries. We show its detailed physical properties by taking the non-Hermitian Haldane model as an example. As a result, the intrinsic mechanism of the hybrid skin-topological effect in Chern insulators is fully understood via NHCSE. Therefore, this progress will be helpful for solving the controversial topic of hybrid skin-topological effect and thus benefit the research on both non-Hermitian physics and topological quantum states.
翻訳日:2023-07-25 23:20:50 公開日:2023-07-24
# 直感的物理による3次元ポーズ推定

3D Human Pose Estimation via Intuitive Physics ( http://arxiv.org/abs/2303.18246v3 )

ライセンス: Link先を確認
Shashank Tripathi, Lea M\"uller, Chun-Hao P. Huang, Omid Taheri, Michael J. Black, Dimitrios Tzionas(参考訳) 画像から3D人間を推定すると、しばしば床に傾いたり、浮いたり、突っ込んだりする不明瞭な体が生まれる。 このような方法は、通常、身体がシーンによって支えられているという事実を無視する。 物理エンジンは物理的実用性を強制するために使用できるが、それらは微分可能ではなく、非現実的なプロキシボディに依存しており、既存の最適化や学習フレームワークへの統合が困難である。 対照的に,我々はシーンと相互作用する3d smpl 体から推測できる新しい直観的物理学(ip)用語を利用する。 生体力学に触発されて、体上の圧力ヒートマップ、熱マップから圧力センター(CoP)、SMPLボディの質量センター(CoM)を推定する。 そこで我々は, カラー画像から3次元体を「安定」な構成で推定するIPMANを開発し, プラウシブルフロアコンタクトの促進とCoPとCoMの重なり合いを図った。 我々のIP用語は直感的で、実装が容易で、高速に計算でき、微分可能で、既存の最適化と回帰手法に統合できます。 我々は、標準データセット上のIPMANと、同期したマルチビュー画像、複雑なポーズ、ボディーフロア接触、CoM、プレッシャーを持つ地上3Dボディを備えた新しいデータセットであるMoYoを評価した。 ipmanは、静的なポーズの精度を改善しながら、ダイナミックなポーズを傷つけることなく、最先端の技術よりも、より説得力のある結果を生み出す。 コードとデータはhttps://ipman.is.tue.mpg.deで研究することができる。

Estimating 3D humans from images often produces implausible bodies that lean, float, or penetrate the floor. Such methods ignore the fact that bodies are typically supported by the scene. A physics engine can be used to enforce physical plausibility, but these are not differentiable, rely on unrealistic proxy bodies, and are difficult to integrate into existing optimization and learning frameworks. In contrast, we exploit novel intuitive-physics (IP) terms that can be inferred from a 3D SMPL body interacting with the scene. Inspired by biomechanics, we infer the pressure heatmap on the body, the Center of Pressure (CoP) from the heatmap, and the SMPL body's Center of Mass (CoM). With these, we develop IPMAN, to estimate a 3D body from a color image in a "stable" configuration by encouraging plausible floor contact and overlapping CoP and CoM. Our IP terms are intuitive, easy to implement, fast to compute, differentiable, and can be integrated into existing optimization and regression methods. We evaluate IPMAN on standard datasets and MoYo, a new dataset with synchronized multi-view images, ground-truth 3D bodies with complex poses, body-floor contact, CoM and pressure. IPMAN produces more plausible results than the state of the art, improving accuracy for static poses, while not hurting dynamic ones. Code and data are available for research at https://ipman.is.tue.mpg.de.
翻訳日:2023-07-25 23:20:14 公開日:2023-07-24
# データ駆動需要予測を用いたエネルギーハブの確率的mpc

Stochastic MPC for energy hubs using data driven demand forecasting ( http://arxiv.org/abs/2304.12438v2 )

ライセンス: Link先を確認
Varsha Behrunani, Francesco Micheli, Jonas Mehr, Philipp Heer, John Lygeros(参考訳) エネルギーハブは、様々なエネルギー入力を複数の変換および貯蔵コンポーネントを通して組み合わせてエネルギー資源を変換および分配する。 エネルギーハブの最適操作は、その柔軟性を利用してエネルギー効率を高め、運用コストを削減する。 しかし、需要の不確実性はエネルギーハブ最適化の課題をもたらす。 本稿では,不確実な電力需要と熱需要に対するリスク制約を用いて,エネルギーコストを最小化する確率的MPCコントローラを提案する。 歴史的データはガウス過程に基づく需要予測モデルを構築し、将来の電力需要と熱需要の予測を生成するために使用される。 導出予測モデルから多段階要求軌跡をサンプリングすることにより、確率最適化問題をシナリオアプローチで解く。 提案する予測器と確率制御器の性能を実建物からの需要データとシミュレーションしたエネルギーハブモデルで検証する。

Energy hubs convert and distribute energy resources by combining different energy inputs through multiple conversion and storage components. The optimal operation of the energy hub exploits its flexibility to increase the energy efficiency and reduce the operational costs. However, uncertainties in the demand present challenges to energy hub optimization. In this paper, we propose a stochastic MPC controller to minimize energy costs using chance constraints for the uncertain electricity and thermal demands. Historical data is used to build a demand prediction model based on Gaussian processes to generate a forecast of the future electricity and heat demands. The stochastic optimization problem is solved via the Scenario Approach by sampling multi-step demand trajectories from the derived prediction model. The performance of the proposed predictor and of the stochastic controller is verified on a simulated energy hub model and demand data from a real building.
翻訳日:2023-07-25 23:14:27 公開日:2023-07-24
# Pseudo-Photon-Number Resolving DetectorとQuantum Computational Advantageを用いたガウスボソンサンプリング

Gaussian Boson Sampling with Pseudo-Photon-Number Resolving Detectors and Quantum Computational Advantage ( http://arxiv.org/abs/2304.12240v2 )

ライセンス: Link先を確認
Yu-Hao Deng, Yi-Chao Gu, Hua-Liang Liu, Si-Qiu Gong, Hao Su, Zhi-Jiong Zhang, Hao-Yang Tang, Meng-Hao Jia, Jia-Min Xu, Ming-Cheng Chen, Jian Qin, Li-Chao Peng, Jiarong Yan, Yi Hu, Jia Huang, Hao Li, Yuxuan Li, Yaojian Chen, Xiao Jiang, Lin Gan, Guangwen Yang, Lixing You, Li Li, Han-Sen Zhong, Hui Wang, Nai-Le Liu, Jelmer J. Renema, Chao-Yang Lu, Jian-Wei Pan(参考訳) 擬似光子数分解検出を用いた新しいガウス粒子サンプリング実験を行い,最大255個の光子クリックイベントを登録した。 部分光子識別性について考察し,ノイズのあるガウスボソンサンプリングのためのより完全なモデルを開発した。 量子計算優位系では、ベイズテストと相関関数解析を用いて、現在のすべての古典的モックアップに対するサンプルの検証を行う。 これまでで最高の古典的アルゴリズムで推定すると、スーパーコンピュータのフロンティア上の同じ分布から1つの理想的なサンプルを生成するのに600年程度かかるが、我々の量子コンピュータであるJijuhang 3.0はサンプルを作成するのに1.27時間しかかからない。 正確なアルゴリズムを用いて実験から最も厳しいサンプルを生成するにはフロンティアから3.1*10^10年かかる。

We report new Gaussian boson sampling experiments with pseudo-photon-number-resolving detection, which register up to 255 photon-click events. We consider partial photon distinguishability and develop a more complete model for the characterization of the noisy Gaussian boson sampling. In the quantum computational advantage regime, we use Bayesian tests and correlation function analysis to validate the samples against all current classical mockups. Estimating with the best classical algorithms to date, generating a single ideal sample from the same distribution on the supercomputer Frontier would take ~ 600 years using exact methods, whereas our quantum computer, Jiuzhang 3.0, takes only 1.27 us to produce a sample. Generating the hardest sample from the experiment using an exact algorithm would take Frontier ~ 3.1*10^10 years.
翻訳日:2023-07-25 23:14:13 公開日:2023-07-24
# 深層学習をめざした計量空間値関数の近似理論

An Approximation Theory for Metric Space-Valued Functions With A View Towards Deep Learning ( http://arxiv.org/abs/2304.12231v2 )

ライセンス: Link先を確認
Anastasis Kratsios, Chong Liu, Matti Lassas, Maarten V. de Hoop, Ivan Dokmani\'c(参考訳) 深層学習の数学の発展により、任意のポーランド計量空間 $\mathcal{X}$ と $\mathcal{Y}$ の間の連続写像の普遍関数近似器を構築し、ユークリッド空間間の基本関数をビルディングブロックとして利用する。 初期の結果は、対象空間 $\mathcal{Y}$ が位相ベクトル空間であると仮定した。 この制限を ``randomization'' で克服する: 近似子は$\mathcal{y}$ 以上の離散確率測度を出力する。 適当な組合せ構造を持つ場合には、有限グラフ間の写像、カルノー群間の粗微分方程式への解作用素、逆問題に起因するバナッハ空間間の連続非線型作用素を含む H\"{o}lder-like map に対する定量的保証を証明します。 特に、必要なディラック測度の数が $\mathcal{x}$ と $\mathcal{y}$ の組合せ構造によって決定されることを示す。 バナッハ空間、$\mathbb{R}$-ツリー、アダマール多様体、ポーランド計量空間上のワッサーシュタイン空間を含む、偏心$\mathcal{Y}$に対して、近似器は$\mathcal{Y}$-値関数に還元される。 ユークリッド近似器がニューラルネットワークである場合、我々はトランスフォーマーネットワークを一般化し、幾何学的深層学習の新しい確率論的視点を提供する。

Motivated by the developing mathematics of deep learning, we build universal functions approximators of continuous maps between arbitrary Polish metric spaces $\mathcal{X}$ and $\mathcal{Y}$ using elementary functions between Euclidean spaces as building blocks. Earlier results assume that the target space $\mathcal{Y}$ is a topological vector space. We overcome this limitation by ``randomization'': our approximators output discrete probability measures over $\mathcal{Y}$. When $\mathcal{X}$ and $\mathcal{Y}$ are Polish without additional structure, we prove very general qualitative guarantees; when they have suitable combinatorial structure, we prove quantitative guarantees for H\"{o}lder-like maps, including maps between finite graphs, solution operators to rough differential equations between certain Carnot groups, and continuous non-linear operators between Banach spaces arising in inverse problems. In particular, we show that the required number of Dirac measures is determined by the combinatorial structure of $\mathcal{X}$ and $\mathcal{Y}$. For barycentric $\mathcal{Y}$, including Banach spaces, $\mathbb{R}$-trees, Hadamard manifolds, or Wasserstein spaces on Polish metric spaces, our approximators reduce to $\mathcal{Y}$-valued functions. When the Euclidean approximators are neural networks, our constructions generalize transformer networks, providing a new probabilistic viewpoint of geometric deep learning.
翻訳日:2023-07-25 23:13:57 公開日:2023-07-24
# BERT法に基づく米国最高裁判所判例の分類

Classification of US Supreme Court Cases using BERT-Based Techniques ( http://arxiv.org/abs/2304.08649v3 )

ライセンス: Link先を確認
Shubham Vatsal, Adam Meyers, and John E. Ortega(参考訳) 変換器(BERT)からの双方向エンコーダ表現に基づくモデルは、名前付きエンティティ認識(NER)やPOSタグ付け(part-of-speech)といった多くの自然言語処理(NLP)タスクに対して、SOTA(State of the Art)結果を生成する。 興味深い現象は、BERTベースのモデルは、ファーストパスまたはアウト・オブ・ボックスベースでの使用が困難であると考えられる米国最高裁判所のような長い文書を分類する際に発生する。 本稿では,米国最高裁判所判決や最高裁判所データベース(SCDB)のためのBERTに基づく分類手法を実験し,以前のSOTA結果と比較する。 次に、長いドキュメントのSOTAモデルと結果を比較します。 その結果,(1)15カテゴリーの広い分類課題と(2)279カテゴリーの細粒度分類課題の2つの分類課題について比較した。 その結果,これまでに報告したsomaの結果から,それぞれ8\%,28\%の改善率を示す279カテゴリで80\%,細粒度で60\%の精度が得られた。

Models based on bidirectional encoder representations from transformers (BERT) produce state of the art (SOTA) results on many natural language processing (NLP) tasks such as named entity recognition (NER), part-of-speech (POS) tagging etc. An interesting phenomenon occurs when classifying long documents such as those from the US supreme court where BERT-based models can be considered difficult to use on a first-pass or out-of-the-box basis. In this paper, we experiment with several BERT-based classification techniques for US supreme court decisions or supreme court database (SCDB) and compare them with the previous SOTA results. We then compare our results specifically with SOTA models for long documents. We compare our results for two classification tasks: (1) a broad classification task with 15 categories and (2) a fine-grained classification task with 279 categories. Our best result produces an accuracy of 80\% on the 15 broad categories and 60\% on the fine-grained 279 categories which marks an improvement of 8\% and 28\% respectively from previously reported SOTA results.
翻訳日:2023-07-25 23:12:45 公開日:2023-07-24
# GaitRef:refined Sequential Skeletonsを用いた歩行認識

GaitRef: Gait Recognition with Refined Sequential Skeletons ( http://arxiv.org/abs/2304.07916v2 )

ライセンス: Link先を確認
Haidong Zhu, Wanrong Zheng, Zhaoheng Zheng, Ram Nevatia(参考訳) 歩行認識と呼ばれる歩行シーケンスで人間を識別することは、遠くから観察できるとともに、被験者の協力を必要としない、有用な生体情報理解タスクである。 人の歩行の順序を表すのに使われる2つの一般的な様相はシルエットと関節骨格である。 各フレーム内の歩行者の境界を記録するシルエットシーケンスは、その人物の持ち運び物や衣服の様々な外観に苦しむ可能性がある。 フレームワイドな関節検出はノイズが多く、シーケンシャルな検出と一致しないジッタを導入する。 本稿では,シルエットと骨格を組み合わせることで,歩行認識のためのフレームワイドジョイント予測を洗練する。 シルエットシーケンスからの 時間的情報とともに 精巧な骨格は余分なアノテーションを使わずに歩容認識性能を向上できることを示した。 我々は,CASIA-B,OUMVLP,Gait3D,GREWの4つの公開データセットを用いて手法を比較し,最先端の性能を示す。

Identifying humans with their walking sequences, known as gait recognition, is a useful biometric understanding task as it can be observed from a long distance and does not require cooperation from the subject. Two common modalities used for representing the walking sequence of a person are silhouettes and joint skeletons. Silhouette sequences, which record the boundary of the walking person in each frame, may suffer from the variant appearances from carried-on objects and clothes of the person. Framewise joint detections are noisy and introduce some jitters that are not consistent with sequential detections. In this paper, we combine the silhouettes and skeletons and refine the framewise joint predictions for gait recognition. With temporal information from the silhouette sequences. We show that the refined skeletons can improve gait recognition performance without extra annotations. We compare our methods on four public datasets, CASIA-B, OUMVLP, Gait3D and GREW, and show state-of-the-art performance.
翻訳日:2023-07-25 23:12:23 公開日:2023-07-24
# s3m: 教師なし対応によるスケーラブルな統計形状モデリング

S3M: Scalable Statistical Shape Modeling through Unsupervised Correspondences ( http://arxiv.org/abs/2304.07515v2 )

ライセンス: Link先を確認
Lennart Bastian, Alexander Baumann, Emily Hoppe, Vincent B\"urgin, Ha Young Kim, Mahdi Saleh, Benjamin Busam, Nassir Navab(参考訳) 統計的形状モデル (SSM) は、様々な臨床応用の集団の解剖学を表現する確立された方法である。 しかし、通常はドメインの専門知識と労働集約的なランドマークアノテーションが必要です。 深部幾何学的特徴と機能的対応を利用して集団解剖学における局所的および大域的形状構造を同時に学習する非教師付き手法を提案することで,これらの欠点に対処する。 本パイプラインは,高度に不規則な表面トポロジにおいても,ベースライン法と比較してssmsの教師なし対応推定を大幅に改善する。 甲状腺とマルチチャンバー心臓の2つの解剖学的構造について検討した。 さらに,本手法はノイズの多いニューラルネットワーク予測から学習できるほど堅牢であり,手動セグメンテーションアノテーションを使わずにSSMを大規模患者に拡張することができる可能性がある。

Statistical shape models (SSMs) are an established way to represent the anatomy of a population with various clinically relevant applications. However, they typically require domain expertise, and labor-intensive landmark annotations to construct. We address these shortcomings by proposing an unsupervised method that leverages deep geometric features and functional correspondences to simultaneously learn local and global shape structures across population anatomies. Our pipeline significantly improves unsupervised correspondence estimation for SSMs compared to baseline methods, even on highly irregular surface topologies. We demonstrate this for two different anatomical structures: the thyroid and a multi-chamber heart dataset. Furthermore, our method is robust enough to learn from noisy neural network predictions, potentially enabling scaling SSMs to larger patient populations without manual segmentation annotation.
翻訳日:2023-07-25 23:11:45 公開日:2023-07-24
# 室内環境に挑戦する光学フローからのポーズ回帰と運動からの融合構造

Fusing Structure from Motion and Simulation-Augmented Pose Regression from Optical Flow for Challenging Indoor Environments ( http://arxiv.org/abs/2304.07250v2 )

ライセンス: Link先を確認
Felix Ott, Lucas Heublein, David R\"ugamer, Bernd Bischl, Christopher Mutschler(参考訳) オブジェクトのローカライゼーションは、ロボット工学、バーチャルおよび拡張現実、倉庫における商品の輸送など、さまざまなアプリケーションにおいて重要なタスクである。 ディープラーニングの最近の進歩により、単眼視覚カメラを用いたローカライズが可能になった。 動きからの構造(SfM)が点雲から絶対的なポーズを予測する一方で、絶対的ポーズ回帰(APR)法はニューラルネットワークを通して環境の意味的理解を学ぶ。 しかし、どちらのフィールドも動きのぼやけ、照明の変化、繰り返しパターン、特徴のない構造といった環境によって引き起こされる課題に直面している。 本研究の目的は,これらの課題に対して,追加情報を導入し,相対的ポーズ回帰(RPR)法を用いて絶対的なポーズを規則化することである。 RPR法は異なる課題、すなわち動きのぼやけに悩まされる。 連続画像間の光学的流れはLucas-Kanadeアルゴリズムを用いて計算され、相対的なポーズは補助的な小さなリカレント畳み込みネットワークを用いて予測される。 絶対的なポーズと相対的なポーズの融合は、大域座標系と局所座標系のミスマッチによる複雑なタスクである。 絶対的なポーズと相対的なポーズを融合させる最先端の手法は、ポーズグラフ最適化(PGO)を用いて、相対的なポーズを用いて絶対的なポーズ予測を規則化する。 本研究では,絶対ポーズ予測と相対ポーズ予測を最適に調整し,絶対ポーズ予測を改善する再帰的融合ネットワークを提案する。 本研究では,APRおよびRPRネットワークを事前学習し,より汎用的なトレーニングを行うためのシミュレーション環境を構築する。 さらに,倉庫を輸送ロボットで模倣した大規模屋内環境において,様々なシナリオの大規模データベースを記録する。 PGOと比較して再帰融合法の有効性を示すために,超パラメータ探索と実験を行った。

The localization of objects is a crucial task in various applications such as robotics, virtual and augmented reality, and the transportation of goods in warehouses. Recent advances in deep learning have enabled the localization using monocular visual cameras. While structure from motion (SfM) predicts the absolute pose from a point cloud, absolute pose regression (APR) methods learn a semantic understanding of the environment through neural networks. However, both fields face challenges caused by the environment such as motion blur, lighting changes, repetitive patterns, and feature-less structures. This study aims to address these challenges by incorporating additional information and regularizing the absolute pose using relative pose regression (RPR) methods. RPR methods suffer under different challenges, i.e., motion blur. The optical flow between consecutive images is computed using the Lucas-Kanade algorithm, and the relative pose is predicted using an auxiliary small recurrent convolutional network. The fusion of absolute and relative poses is a complex task due to the mismatch between the global and local coordinate systems. State-of-the-art methods fusing absolute and relative poses use pose graph optimization (PGO) to regularize the absolute pose predictions using relative poses. In this work, we propose recurrent fusion networks to optimally align absolute and relative pose predictions to improve the absolute pose prediction. We evaluate eight different recurrent units and construct a simulation environment to pre-train the APR and RPR networks for better generalized training. Additionally, we record a large database of different scenarios in a challenging large-scale indoor environment that mimics a warehouse with transportation robots. We conduct hyperparameter searches and experiments to show the effectiveness of our recurrent fusion method compared to PGO.
翻訳日:2023-07-25 23:11:30 公開日:2023-07-24
# Vision meets Definitions: Unsupervised Visual Word Sense Disambiguation incorporated Gloss Information

Vision Meets Definitions: Unsupervised Visual Word Sense Disambiguation Incorporating Gloss Information ( http://arxiv.org/abs/2305.01788v3 )

ライセンス: Link先を確認
Sunjae Kwon, Rishabh Garodia, Minhwa Lee, Zhichao Yang, Hong Yu(参考訳) Visual Word Sense Disambiguation (VWSD) は、与えられたコンテキストに対する対象単語の正しい感覚を最も正確に表現した画像を見つけるためのタスクである。 これまで、画像テキストマッチングモデルは多義語認識に苦しめられていた。 本稿では,外部語彙知識ベース,特に感覚定義の光沢情報を用いた教師なしVWSD手法を提案する。 具体的には,解答の感覚情報が提供されない場合に,ベイズ推論を用いて感覚定義を取り入れることを提案する。 さらに,時間外問題(OOD)を改善するために,GPT-3を用いた文脈認識定義生成を提案する。 実験の結果,ベイズ推定法によりVWSDの性能は有意に向上した。 さらに,既存の定義生成手法よりも優れた性能を示すOOD例では,文脈認識による定義生成が顕著な性能向上を実現した。

Visual Word Sense Disambiguation (VWSD) is a task to find the image that most accurately depicts the correct sense of the target word for the given context. Previously, image-text matching models often suffered from recognizing polysemous words. This paper introduces an unsupervised VWSD approach that uses gloss information of an external lexical knowledge-base, especially the sense definitions. Specifically, we suggest employing Bayesian inference to incorporate the sense definitions when sense information of the answer is not provided. In addition, to ameliorate the out-of-dictionary (OOD) issue, we propose a context-aware definition generation with GPT-3. Experimental results show that the VWSD performance significantly increased with our Bayesian inference-based approach. In addition, our context-aware definition generation achieved prominent performance improvement in OOD examples exhibiting better performance than the existing definition generation method.
翻訳日:2023-07-25 23:02:45 公開日:2023-07-24
# 自律システムに向けて:大規模言語モデルエージェントによるフレキシブル・モジュラー生産システム

Towards autonomous system: flexible modular production system enhanced with large language model agents ( http://arxiv.org/abs/2304.14721v4 )

ライセンス: Link先を確認
Yuchen Xia, Manthan Shenoy, Nasser Jazdi, Michael Weyrich(参考訳) 本稿では,大規模言語モデル(LLM),デジタルツイン,産業自動化システムを組み合わせて,生産プロセスのインテリジェントな計画と制御を可能にする新しいフレームワークを提案する。 モジュラー生産施設の自動化システムに適合し、粒度や粒度が粗い技術で実行可能な制御インタフェースを作成する。 低レベルの機能は自動化コンポーネントによって実行され、高レベルのスキルは自動化モジュールによって実行される。 その後、これらのインタフェースを登録し、生産システムに関する追加記述情報を含むデジタルツインシステムを開発する。 改造された自動化システムと作成されたデジタルツインに基づいて、llm-agentsはデジタルツインの記述情報を解釈し、サービスインターフェースを介して物理システムを制御するように設計されている。 これらのllmエージェントは、自動化システム内のさまざまなレベルのインテリジェントエージェントとして機能し、自律的な計画と柔軟な生産の制御を可能にする。 タスク命令が入力として与えられると、LLMエージェントはタスクを達成するための一連の原子機能とスキルを編成する。 実装済みのプロトタイプが未定義のタスクをどのように処理し、運用プロセスを計画し、操作を実行するかを示します。 この研究は、よりアジャイルでフレキシブルで適応的な生産プロセスを実現するために、スマートファクトリの文脈で産業自動化システムにLLMを統合する可能性を強調し、同時に、将来の作業における重要な洞察と限界も強調する。 https://github.com/YuchenXia/GPT4IndustrialAutomation

In this paper, we present a novel framework that combines large language models (LLMs), digital twins and industrial automation system to enable intelligent planning and control of production processes. We retrofit the automation system for a modular production facility and create executable control interfaces of fine-granular functionalities and coarse-granular skills. Low-level functionalities are executed by automation components, and high-level skills are performed by automation modules. Subsequently, a digital twin system is developed, registering these interfaces and containing additional descriptive information about the production system. Based on the retrofitted automation system and the created digital twins, LLM-agents are designed to interpret descriptive information in the digital twins and control the physical system through service interfaces. These LLM-agents serve as intelligent agents on different levels within an automation system, enabling autonomous planning and control of flexible production. Given a task instruction as input, the LLM-agents orchestrate a sequence of atomic functionalities and skills to accomplish the task. We demonstrate how our implemented prototype can handle un-predefined tasks, plan a production process, and execute the operations. This research highlights the potential of integrating LLMs into industrial automation systems in the context of smart factory for more agile, flexible, and adaptive production processes, while it also underscores the critical insights and limitations for future work. Demos at: https://github.com/YuchenXia/GPT4IndustrialAutomation
翻訳日:2023-07-25 23:02:12 公開日:2023-07-24
# 離散および連続重みをもつ非凸ニューラルネットワークにおける典型的および非典型的解

Typical and atypical solutions in non-convex neural networks with discrete and continuous weights ( http://arxiv.org/abs/2304.13871v2 )

ライセンス: Link先を確認
Carlo Baldassi, Enrico M. Malatesta, Gabriele Perugini, Riccardo Zecchina(参考訳) ランダムなルールや関連を学習する単純な非凸ニューラルネットワークモデルとして,二進および連続負マージンパーセプトロンの研究を行った。 両モデルにおける解の風景形状を解析し、重要な類似点と相違点を求める。 どちらのモデルも非常に平坦で幅の広い準支配的な最小値を示す。 これらの最小化は、二項の場合(凍った1-rsb相)のアルゴリズムで到達不能な小さなクラスターの指数数と、球面の場合(全rsb相)の異なる大きさのクラスターの階層構造からなる支配的解の背景と共存する。 どちらの場合も、制約密度の一定のしきい値が交差すると、広い平坦なミニマの局所エントロピーは非単調となり、ロバスト解の空間を非連結成分に分解することを示す。 これはバイナリモデルにおけるアルゴリズムの振る舞いに大きな影響を与え、残りの孤立したクラスタにアクセスできない。 球面の場合の挙動は異なり、広い平らなミニマの消失を超えても、残りの解は常に任意の距離の他の多くの解によって取り囲まれていることが示される。 実際、1RSB近似を用いて計算したSAT/UNSAT遷移の解をアルゴリズムが見つけ出すという数値的な証拠を示す。 いずれのモデルにおいても, 学習装置としての一般化性能は, 極端に負のマージンを持つ高度に訓練された場合においても, 広い平坦な最小値の存在により著しく向上することが示されている。

We study the binary and continuous negative-margin perceptrons as simple non-convex neural network models learning random rules and associations. We analyze the geometry of the landscape of solutions in both models and find important similarities and differences. Both models exhibit subdominant minimizers which are extremely flat and wide. These minimizers coexist with a background of dominant solutions which are composed by an exponential number of algorithmically inaccessible small clusters for the binary case (the frozen 1-RSB phase) or a hierarchical structure of clusters of different sizes for the spherical case (the full RSB phase). In both cases, when a certain threshold in constraint density is crossed, the local entropy of the wide flat minima becomes non-monotonic, indicating a break-up of the space of robust solutions into disconnected components. This has a strong impact on the behavior of algorithms in binary models, which cannot access the remaining isolated clusters. For the spherical case the behaviour is different, since even beyond the disappearance of the wide flat minima the remaining solutions are shown to always be surrounded by a large number of other solutions at any distance, up to capacity. Indeed, we exhibit numerical evidence that algorithms seem to find solutions up to the SAT/UNSAT transition, that we compute here using an 1RSB approximation. For both models, the generalization performance as a learning device is shown to be greatly improved by the existence of wide flat minimizers even when trained in the highly underconstrained regime of very negative margins.
翻訳日:2023-07-25 23:01:48 公開日:2023-07-24
# 空間制約付きテキスト誘導眼鏡操作

Text-guided Eyeglasses Manipulation with Spatial Constraints ( http://arxiv.org/abs/2304.12539v2 )

ライセンス: Link先を確認
Jiacheng Wang, Ping Liu, Jingen Liu, Wei Xu(参考訳) メガネのバーチャル試着には、異なる形状とスタイルの眼鏡を物理的に試すことなく、顔画像に配置する。 既存の方法は印象的な結果を示しているが、様々な眼鏡のスタイルは限られており、相互作用は常に直感的あるいは効率的であるとは限らない。 そこで本稿では,これらの制約に対処するために,バイナリマスクとテキストに基づく眼鏡形状とスタイルをそれぞれ制御可能な眼鏡操作方式を提案する。 具体的には,マスク条件を抽出するマスクエンコーダと,テキストとマスク条件を同時に注入可能な変調モジュールを提案する。 この設計により、テクスト記述と空間制約の両方に基づいて眼鏡の外観を細かく制御することができる。 提案手法は,無関係な領域を保存し,局所的な編集を向上する疎結合マッパーと疎結合戦略を含む。 様々なモーダリティ条件の異なる収束速度を扱うために2段階のトレーニングスキームを用い,眼鏡の形状とスタイルの両方をうまく制御した。 広範な比較実験とアブレーション分析により,無関係領域を保ちながら多様な眼鏡スタイルを実現するためのアプローチの有効性が示された。

Virtual try-on of eyeglasses involves placing eyeglasses of different shapes and styles onto a face image without physically trying them on. While existing methods have shown impressive results, the variety of eyeglasses styles is limited and the interactions are not always intuitive or efficient. To address these limitations, we propose a Text-guided Eyeglasses Manipulation method that allows for control of the eyeglasses shape and style based on a binary mask and text, respectively. Specifically, we introduce a mask encoder to extract mask conditions and a modulation module that enables simultaneous injection of text and mask conditions. This design allows for fine-grained control of the eyeglasses' appearance based on both textual descriptions and spatial constraints. Our approach includes a disentangled mapper and a decoupling strategy that preserves irrelevant areas, resulting in better local editing. We employ a two-stage training scheme to handle the different convergence speeds of the various modality conditions, successfully controlling both the shape and style of eyeglasses. Extensive comparison experiments and ablation analyses demonstrate the effectiveness of our approach in achieving diverse eyeglasses styles while preserving irrelevant areas.
翻訳日:2023-07-25 23:00:16 公開日:2023-07-24
# SpokenWOZ:タスク指向対話エージェントのための大規模音声テキストベンチマーク

SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents ( http://arxiv.org/abs/2305.13040v3 )

ライセンス: Link先を確認
Shuzheng Si, Wentao Ma, Haoyu Gao, Yuchuan Wu, Ting-En Lin, Yinpei Dai, Hangyu Li, Rui Yan, Fei Huang, Yongbin Li(参考訳) タスク指向対話(TOD)モデルは近年大きな進歩を遂げている。 しかし,従来の研究は主にアノテータによるデータセットに焦点を当てており,学術研究と実世界の会話シナリオのギャップが生じた。 いくつかの小規模音声TODデータセットは、ASRエラーなどの堅牢性問題に対処するために提案されているが、音声会話におけるユニークな課題は無視されている。 この制限に対処するために,8つのドメイン,203kのターン,5.7kの対話,対人会話からの249時間の音声を含む,音声TODのための大規模音声テキストデータセットであるSpkenWOZを導入する。 SpokenWOZはさらに、音声言語における単語間処理や推論などの一般的な音声特徴を取り入れている。 これらの特徴に基づき,新たな課題としてクロスターンスロットと推論スロット検出を提案する。 テキストモーダルモデル,新たに提案されたデュアルモーダルモデル,LLM,例えばChatGPTなど,さまざまなベースライン上で実験を行う。 その結果、最も先進的な対話状態追跡装置は、結合目標精度が25.65%しか達成できず、somaエンドツーエンドモデルでは52.1%の対話でユーザ要求を正しく完了している。 データセット、コード、およびリーダーボードは、https://spokenwoz.github.io/SpokenWOZ-github.io/で入手できる。

Task-oriented dialogue (TOD) models have made significant progress in recent years. However, previous studies primarily focus on datasets written by annotators, which has resulted in a gap between academic research and real-world spoken conversation scenarios. While several small-scale spoken TOD datasets are proposed to address robustness issues such as ASR errors, they ignore the unique challenges in spoken conversation. To tackle the limitations, we introduce SpokenWOZ, a large-scale speech-text dataset for spoken TOD, containing 8 domains, 203k turns, 5.7k dialogues and 249 hours of audios from human-to-human spoken conversations. SpokenWOZ further incorporates common spoken characteristics such as word-by-word processing and reasoning in spoken language. Based on these characteristics, we present cross-turn slot and reasoning slot detection as new challenges. We conduct experiments on various baselines, including text-modal models, newly proposed dual-modal models, and LLMs, e.g., ChatGPT. The results show that the current models still have substantial room for improvement in spoken conversation, where the most advanced dialogue state tracker only achieves 25.65% in joint goal accuracy and the SOTA end-to-end model only correctly completes the user request in 52.1% of dialogues. The dataset, code, and leaderboard are available: https://spokenwoz.github.io/SpokenWOZ-github.io/.
翻訳日:2023-07-25 21:17:25 公開日:2023-07-24
# エキゾチックなトランスバーサルゲートを持つ量子符号の一家系

A Family of Quantum Codes with Exotic Transversal Gates ( http://arxiv.org/abs/2305.07023v3 )

ライセンス: Link先を確認
Eric Kubischta and Ian Teixeira(参考訳) 最近、二進イコサヘドラル群 $2I$ と$T$のようなゲートが、最も効率的なシングルキュービット普遍ゲート集合を形成するアルゴリズムが構築されている。 アルゴリズムをフォールトトレラントに実行するには、2i$を透過的に実装するコードが必要である。 しかし、そのようなコードは文献で実証されていない。 この空白を埋めるために、距離 $d = 3$ コードの集合を構築します。 このファミリーの驚くべき特徴は、コードは2Iドルしか払えない対称性の考慮から完全に推論できるということだ。

Recently an algorithm has been constructed that shows the binary icosahedral group $2I$ together with a $T$-like gate forms the most efficient single-qubit universal gate set. To carry out the algorithm fault tolerantly requires a code that implements $2I$ transversally. However, no such code has ever been demonstrated in the literature. We fill this void by constructing a family of distance $d = 3$ codes that all implement $2I$ transversally. A surprising feature of this family is that the codes can be deduced entirely from symmetry considerations that only $2I$ affords.
翻訳日:2023-07-25 21:15:39 公開日:2023-07-24
# 感情自動体験者認識

Automatic Emotion Experiencer Recognition ( http://arxiv.org/abs/2305.16731v3 )

ライセンス: Link先を確認
Maximilian Wegge and Roman Klinger(参考訳) 感情分析における最も顕著なサブタスクは感情分類であり、例えばソーシャルメディアの投稿のように、カテゴリをテキスト単位に割り当てる。 しかし、社会科学からの多くの研究質問は、ポストの著者の感情を検知するだけでなく、誰がテキストで感情を記述しているかを理解することを必要とする。 このタスクは、テキストで記述された人物を抽出して感情、理由、そして誰に向かって経験することを目的とした感情ロールラベリングによって取り組まれる。 しかし、答えるべき主な疑問が、どの感情を感じるかであるなら、これは過度に洗練される可能性がある。 このような設定のためのターゲットとなるアプローチは、おそらく知覚される感情について、感情経験者による言及(いわゆる「エモーター」)を分類することである。 このタスクは、上記のすべてのエンティティ名がエモターであるとは限らないため、名前付きエンティティ認識と似ている。 emoterアノテーションを備えたデータはごく最近利用可能になったが、そのような言及を検出する実験はまだ行われていない。 本稿では,タスクの難しさを理解するためのベースライン実験を行う。 金の言及が得られない場合,経験者固有の感情分類とパイプラインにおける評価検出への影響をさらに評価する。 テキストにおける経験者検出は.82の精度と.56のリコール(f1 =.66)の難しい課題である。 これらの結果は、エモスタスパンと感情/評価予測を共同でモデル化する将来の仕事の動機付けとなる。

The most prominent subtask in emotion analysis is emotion classification; to assign a category to a textual unit, for instance a social media post. Many research questions from the social sciences do, however, not only require the detection of the emotion of an author of a post but to understand who is ascribed an emotion in text. This task is tackled by emotion role labeling which aims at extracting who is described in text to experience an emotion, why, and towards whom. This could, however, be considered overly sophisticated if the main question to answer is who feels which emotion. A targeted approach for such setup is to classify emotion experiencer mentions (aka "emoters") regarding the emotion they presumably perceive. This task is similar to named entity recognition of person names with the difference that not every mentioned entity name is an emoter. While, very recently, data with emoter annotations has been made available, no experiments have yet been performed to detect such mentions. With this paper, we provide baseline experiments to understand how challenging the task is. We further evaluate the impact on experiencer-specific emotion categorization and appraisal detection in a pipeline, when gold mentions are not available. We show that experiencer detection in text is a challenging task, with a precision of .82 and a recall of .56 (F1 =.66). These results motivate future work of jointly modeling emoter spans and emotion/appraisal predictions.
翻訳日:2023-07-25 21:05:57 公開日:2023-07-24
# 百科事典VQA:細粒度カテゴリの詳細な性質に関する視覚的疑問

Encyclopedic VQA: Visual questions about detailed properties of fine-grained categories ( http://arxiv.org/abs/2306.09224v2 )

ライセンス: Link先を確認
Thomas Mensink, Jasper Uijlings, Lluis Castrejon, Arushi Goel, Felipe Cadar, Howard Zhou, Fei Sha, Andr\'e Araujo, Vittorio Ferrari(参考訳) 細かなカテゴリやインスタンスの詳細な特性に関する視覚的質問を含む大規模視覚的質問応答(VQA)データセットであるEncyclopedic-VQAを提案する。 221kの1つのq&aペアと5枚の画像が一致し、合計で1mのvqaサンプルが得られた。 さらに、データセットにはウィキペディアから派生した制御された知識ベースがあり、各回答をサポートする証拠をマークしています。 PaLI [14]はOK-VQA [37]の最先端技術ですが、データセットでは13.0%の精度しか達成できません。 さらに,知識ベースから関連情報を抽出する機構により,大規模モデルの強化により,百科事典的質問への回答の進展が達成できることを実験的に示す。 完全検索によるオラクル実験は、データセットのシングルホップ部分において87.0%の精度を実現し、自動検索拡張プロトタイプは48.8%を得る。 私たちのデータセットは、検索によるビジョン+言語モデルの将来の研究を可能にすると信じています。 https://github.com/google-research/google-research/tree/master/encyclopedic_vqa で公開されている。

We propose Encyclopedic-VQA, a large scale visual question answering (VQA) dataset featuring visual questions about detailed properties of fine-grained categories and instances. It contains 221k unique question+answer pairs each matched with (up to) 5 images, resulting in a total of 1M VQA samples. Moreover, our dataset comes with a controlled knowledge base derived from Wikipedia, marking the evidence to support each answer. Empirically, we show that our dataset poses a hard challenge for large vision+language models as they perform poorly on our dataset: PaLI [14] is state-of-the-art on OK-VQA [37], yet it only achieves 13.0% accuracy on our dataset. Moreover, we experimentally show that progress on answering our encyclopedic questions can be achieved by augmenting large models with a mechanism that retrieves relevant information from the knowledge base. An oracle experiment with perfect retrieval achieves 87.0% accuracy on the single-hop portion of our dataset, and an automatic retrieval-augmented prototype yields 48.8%. We believe that our dataset enables future research on retrieval-augmented vision+language models. It is available at https://github.com/google-research/google-research/tree/master/encyclopedic_vqa .
翻訳日:2023-07-25 20:56:19 公開日:2023-07-24
# 深層学習に基づく電気機械の多目的技術最適化のためのメタモデリング

Deep learning based Meta-modeling for Multi-objective Technology Optimization of Electrical Machines ( http://arxiv.org/abs/2306.09087v3 )

ライセンス: Link先を確認
Vivek Parekh, Dominik Flore, Sebastian Sch\"ops(参考訳) 回転電気機械の最適化は時間的にも計算的にも高価である。 異なるパラメトリゼーションのため、設計最適化は各機械技術ごとに個別に実行される。 本稿では,2つの異なる機械技術,すなわち非同期機械と永久磁石同期機を同時に最適化するための変分自動エンコーダ(VAE)の適用について述べる。 トレーニング後、ディープニューラルネットワークとデコーダをメタモデルとして、グローバルキーパフォーマンスインジケータ(kpi)を予測し、最適化ループ内の統一潜在空間を通じて、関連する新しい設計を生成する。 数値実験により、高次元設計空間における並列パラメトリック多目的技術最適化を示す。 VAEベースのアプローチは、KPI予測のための古典的なディープラーニングベースの直接アプローチと定量的に比較される。

Optimization of rotating electrical machines is both time- and computationally expensive. Because of the different parametrization, design optimization is commonly executed separately for each machine technology. In this paper, we present the application of a variational auto-encoder (VAE) to optimize two different machine technologies simultaneously, namely an asynchronous machine and a permanent magnet synchronous machine. After training, we employ a deep neural network and a decoder as meta-models to predict global key performance indicators (KPIs) and generate associated new designs, respectively, through unified latent space in the optimization loop. Numerical results demonstrate concurrent parametric multi-objective technology optimization in the high-dimensional design space. The VAE-based approach is quantitatively compared to a classical deep learning-based direct approach for KPIs prediction.
翻訳日:2023-07-25 20:55:56 公開日:2023-07-24
# clausal tableaux による範囲制限補間

Range-Restricted Interpolation through Clausal Tableaux ( http://arxiv.org/abs/2306.03572v2 )

ライセンス: Link先を確認
Christoph Wernhard(参考訳) 一階述語論理におけるクレイグ補間(Craig interpolation)の出力への入力から、範囲制限のバリエーションとホーン特性の変換方法を示す。 証明システムはclausal tableauxであり、一階のatpに由来する。 この結果は、一般に証明変換によって達成できるクララザウ構造の制限によって誘導され、また、ソース証明が分解/パラモディフィケーションによっても得られる。 主な用途は、クエリ合成と補間による再構成である。 我々の方法論的アプローチは、高度に最適化された一階述語プローバーを組み込むことにより、証明構造上の操作を実現可能な実装の即時的な視点と組み合わせる。

We show how variations of range-restriction and also the Horn property can be passed from inputs to outputs of Craig interpolation in first-order logic. The proof system is clausal tableaux, which stems from first-order ATP. Our results are induced by a restriction of the clausal tableau structure, which can be achieved in general by a proof transformation, also if the source proof is by resolution/paramodulation. Primarily addressed applications are query synthesis and reformulation with interpolation. Our methodical approach combines operations on proof structures with the immediate perspective of feasible implementation through incorporating highly optimized first-order provers.
翻訳日:2023-07-25 20:55:13 公開日:2023-07-24
# ChatGPTは医療専門家か? バイオメディカルタスクにおける現行GPTモデルのゼロショット性能の探索

Is ChatGPT a Biomedical Expert? -- Exploring the Zero-Shot Performance of Current GPT Models in Biomedical Tasks ( http://arxiv.org/abs/2306.16108v2 )

ライセンス: Link先を確認
Samy Ateia, Udo Kruschwitz(参考訳) 商業用大規模言語モデル (LLMs) GPT-3.5-Turbo と GPT-4 の性能を2023年のBioASQ課題から評価した。 回答生成に焦点を当てたタスク11bフェーズbでは、両方のモデルがリードシステムとの競合能力を示した。 注目すべきは、単純なゼロショット学習でこれを達成したことだ。 関連したスニペットがなくても、パフォーマンスは良好だったが、最高のシステムと同等ではなかった。 興味深いことに、より古く安価なGPT-3.5-Turboシステムでは、ファクトイドとリストの回答に基づいたQ&A設定でGPT-4と競合することができた。 タスク11bのフェーズAでは、検索に焦点を当てたゼロショット学習によるクエリ拡張により、性能が向上したが、他のシステムに比べてモデルは低下した。 これらの実験を再実行するのに必要なコードはGitHubから入手できる。

We assessed the performance of commercial Large Language Models (LLMs) GPT-3.5-Turbo and GPT-4 on tasks from the 2023 BioASQ challenge. In Task 11b Phase B, which is focused on answer generation, both models demonstrated competitive abilities with leading systems. Remarkably, they achieved this with simple zero-shot learning, grounded with relevant snippets. Even without relevant snippets, their performance was decent, though not on par with the best systems. Interestingly, the older and cheaper GPT-3.5-Turbo system was able to compete with GPT-4 in the grounded Q&A setting on factoid and list answers. In Task 11b Phase A, focusing on retrieval, query expansion through zero-shot learning improved performance, but the models fell short compared to other systems. The code needed to rerun these experiments is available through GitHub.
翻訳日:2023-07-25 20:47:31 公開日:2023-07-24
# リアルタイム蛍光時間イメージングのための繰り返しニューラルネットワークとSPAD TCSPCシステムとの結合

Coupling a Recurrent Neural Network to SPAD TCSPC Systems for Real-time Fluorescence Lifetime Imaging ( http://arxiv.org/abs/2306.15599v2 )

ライセンス: Link先を確認
Yang Lin, Paul Mos, Andrei Ardelean, Claudio Bruschini, Edoardo Charbon(参考訳) 近年,生物・医学研究における強力な診断技術として,蛍光寿命イメージング(FLI)が注目されている。 しかし、既存のFLIシステムは処理速度、精度、堅牢性のトレードオフに悩まされることが多い。 本稿では,高速なFLIを精度の低下なしに実現可能なロバストな手法を提案する。 アプローチはSPAD TCSPCシステムとリカレントニューラルネットワーク(RNN)を結合して、ヒストグラムを構築することなく生のタイムスタンプから直接蛍光寿命を正確に推定することで、転送データ量とハードウェアリソースの利用を大幅に削減し、ビデオレートでのFLI取得を可能にする。 合成データセット上でRNNの2つの変種を訓練し、CMM(Central-of-mass method)とLSフィッティング( least squares fit)を用いて得られたものと比較する。 その結果、ゲートリカレントユニット(GRU)と長短期メモリ(LSTM)の2つのRNN変種は、CMMとLSに匹敵する精度であり、バックグラウンドノイズでは大きなマージンで優れていた。 アプローチの究極の限界を探索するため,RNNがほぼ最適精度で寿命推定を行うことを示すために,測定値のクラマーラオ下限を導出した。 さらに、合成データセットで純粋に訓練されたFLIモデルは、これまで見たことのない実世界のデータとうまく機能します。 実験室で開発された32x32 SPADセンサであるPiccoloをベースとしたFLI顕微鏡を構築した。 最大400万光子を毎秒処理できる4つの量子化GRUコアがXilinx Kintex-7 FPGA上に展開されている。 GRUにより、FLIセットアップは、毎秒10フレームまでのリアルタイム蛍光寿命画像を取得することができる。 提案するFLIシステムは,バイオメディカル応用に最適である。

Fluorescence lifetime imaging (FLI) has been receiving increased attention in recent years as a powerful diagnostic technique in biological and medical research. However, existing FLI systems often suffer from a tradeoff between processing speed, accuracy, and robustness. In this paper, we propose a robust approach that enables fast FLI with no degradation of accuracy. The approach is based on a SPAD TCSPC system coupled to a recurrent neural network (RNN) that accurately estimates the fluorescence lifetime directly from raw timestamps without building histograms, thereby drastically reducing transfer data volumes and hardware resource utilization, thus enabling FLI acquisition at video rate. We train two variants of the RNN on a synthetic dataset and compare the results to those obtained using center-of-mass method (CMM) and least squares fitting (LS fitting). Results demonstrate that two RNN variants, gated recurrent unit (GRU) and long short-term memory (LSTM), are comparable to CMM and LS fitting in terms of accuracy, while outperforming them in background noise by a large margin. To explore the ultimate limits of the approach, we derived the Cramer-Rao lower bound of the measurement, showing that RNN yields lifetime estimations with near-optimal precision. Moreover, our FLI model, which is purely trained on synthetic datasets, works well with never-seen-before, real-world data. To demonstrate real-time operation, we have built a FLI microscope based on Piccolo, a 32x32 SPAD sensor developed in our lab. Four quantized GRU cores, capable of processing up to 4 million photons per second, are deployed on a Xilinx Kintex-7 FPGA. Powered by the GRU, the FLI setup can retrieve real-time fluorescence lifetime images at up to 10 frames per second. The proposed FLI system is promising and ideally suited for biomedical applications.
翻訳日:2023-07-25 20:46:33 公開日:2023-07-24
# 同変グラフニューラルネットワークによるタンパク質の変異予測

Predicting protein variants with equivariant graph neural networks ( http://arxiv.org/abs/2306.12231v2 )

ライセンス: Link先を確認
Antonia Boca, Simon Mathis(参考訳) 事前訓練されたモデルは多くのタンパク質工学タスクで成功している。 最も顕著なのは、配列ベースのモデルがタンパク質の適合性予測の最先端のパフォーマンスを達成し、一方構造ベースのモデルは機能強化されたタンパク質の開発に実験的に利用されていることである。 しかし、野生型タンパク質よりも優れたタンパク質変異を予測するための構造および配列に基づく方法の比較には研究のギャップがある。 本稿では,同変グラフニューラルネットワーク(EGNN)の能力と,有望なアミノ酸変異を同定するためのシーケンスベースアプローチの比較研究を行うことにより,このギャップに対処することを目的とする。 その結果, 提案手法は, 分子量が少なく, 配列に基づく手法と競合する性能を発揮することがわかった。 さらに, ラベル付きデータと構造事前学習モデルを組み合わせることで, シーケンス事前学習モデルと同様の傾向が得られた。 私たちのコードとトレーニングされたモデルは、https://github.com/semiluna/partiii-amino-acid-predictionで見ることができます。

Pre-trained models have been successful in many protein engineering tasks. Most notably, sequence-based models have achieved state-of-the-art performance on protein fitness prediction while structure-based models have been used experimentally to develop proteins with enhanced functions. However, there is a research gap in comparing structure- and sequence-based methods for predicting protein variants that are better than the wildtype protein. This paper aims to address this gap by conducting a comparative study between the abilities of equivariant graph neural networks (EGNNs) and sequence-based approaches to identify promising amino-acid mutations. The results show that our proposed structural approach achieves a competitive performance to sequence-based methods while being trained on significantly fewer molecules. Additionally, we find that combining assay labelled data with structure pre-trained models yields similar trends as with sequence pre-trained models. Our code and trained models can be found at: https://github.com/semiluna/partIII-amino-acid-prediction.
翻訳日:2023-07-25 20:45:04 公開日:2023-07-24
# 複数負荷時系列予測のための変圧器訓練戦略

Transformer Training Strategies for Forecasting Multiple Load Time Series ( http://arxiv.org/abs/2306.10891v2 )

ライセンス: Link先を確認
Matthias Hertel, Maximilian Beichter, Benedikt Heidrich, Oliver Neumann, Benjamin Sch\"afer, Ralf Mikut, Veit Hagenmeyer(参考訳) 将来のスマートグリッドでは、個々のクライアントレベルでの正確な負荷予測が、供給と需要のバランスをローカルに保ち、グリッドの停止を防ぐのに役立つ。 監視対象のクライアントの数は、現在進行中のsmartmeterロールアウトで増加するが、クライアント毎のデータ量は、常に制限される。 トランスフォーマー負荷予測モデルが、複数のクライアントからの負荷時系列に基づいてグローバル不定値モデルが訓練される転送学習戦略の利点があるかどうかを評価する。 数百のクライアントからの負荷時系列を含む2つのデータセットを用いた実験では、グローバルトレーニング戦略が関連する作業で使用される多変量および局所トレーニング戦略よりも優れていることが判明した。 平均すると、グローバルなトレーニング戦略は、他の2つの戦略よりも21.8%と12.8%の予測誤差を発生させ、1日から1ヶ月の予測地平線をまたいで測定する。 線形モデル、多層パーセプトロン、LSTMと比較すると、トランスフォーマーはグローバルトレーニング戦略でトレーニングされた場合の負荷予測に有効である。

In the smart grid of the future, accurate load forecasts on the level of individual clients can help to balance supply and demand locally and to prevent grid outages. While the number of monitored clients will increase with the ongoing smart meter rollout, the amount of data per client will always be limited. We evaluate whether a Transformer load forecasting model benefits from a transfer learning strategy, where a global univariate model is trained on the load time series from multiple clients. In experiments with two datasets containing load time series from several hundred clients, we find that the global training strategy is superior to the multivariate and local training strategies used in related work. On average, the global training strategy results in 21.8% and 12.8% lower forecasting errors than the two other strategies, measured across forecasting horizons from one day to one month into the future. A comparison to linear models, multi-layer perceptrons and LSTMs shows that Transformers are effective for load forecasting when they are trained with the global training strategy.
翻訳日:2023-07-25 20:44:49 公開日:2023-07-24
# nexus sine qua non: トラフィック予測のための接続ネットワーク

Nexus sine qua non: Essentially Connected Networks for Traffic Forecasting ( http://arxiv.org/abs/2307.01482v2 )

ライセンス: Link先を確認
Tong Nie, Guoyang Qin, Yunpeng Wang, Jian Sun(参考訳) 時空間グラフニューラルネットワーク(STGNN)は,交通流の時空間表現を学習するためのデファクトモデルとなっている。 しかし、現代のSTGNNは、複雑で拡張性の点で大きな課題を提起する複雑な技術とともに、しばしば過剰または不明瞭なコンポーネントを含んでいる。 このような懸念から、我々はニューラルアーキテクチャの設計を再考し、交通予測における重要な課題を時空間の文脈化として特定する。 本稿では,TN,RNN,Transformerといった複雑なシーケンシャルな手法を使わずに,学習可能なノード埋め込みによる効率的なメッセージパスバックボーンに基づく,本質的に接続されたモデルを提案する。 興味深いことに、経験的な結果は、シンプルでエレガントな文脈化能力を持つモデルが、交通予測においてより解釈可能で計算的に効率的でありながら、最先端の技術と精巧な構造とを適切に比較していることを示している。 我々の発見は、単純で効果的な神経予測アーキテクチャを構築する可能性を探るため、さらなる研究のための新たな地平を開くことを期待する。

Spatial-temporal graph neural networks (STGNNs) have become the de facto models for learning spatiotemporal representations of traffic flow. However, modern STGNNs often contain superfluous or obscure components, along with complex techniques, posing significant challenges in terms of complexity and scalability. Such concerns prompt us to rethink the design of neural architectures and to identify the key challenges in traffic forecasting as spatial-temporal contextualization. Here, we present an essentially connected model based on an efficient message-passing backbone, powered by learnable node embedding, without any complex sequential techniques such as TCNs, RNNs, and Transformers. Intriguingly, empirical results demonstrate how a simple and elegant model with contextualization capability compares favorably w.r.t. the state-of-the-art with elaborate structures, while being much more interpretable and computationally efficient for traffic forecasting. We anticipate that our findings will open new horizons for further research to explore the possibility of creating simple but effective neural forecasting architectures.
翻訳日:2023-07-25 20:38:44 公開日:2023-07-24
# 大きなカルシウムイメージングデータセットから自然界のV4構造が明らかになった

A large calcium-imaging dataset reveals a systematic V4 organization for natural scenes ( http://arxiv.org/abs/2307.00932v2 )

ライセンス: Link先を確認
Tianye Wang, Haoxuan Yao, Tai Sing Lee, Jiayi Hong, Yang Li, Hongfei Jiang, Ian Max Andolina, Shiming Tang(参考訳) 視覚系は自然の情景を処理するために進化したが、視覚野のトポロジーと機能の理解のほとんどは人工的な刺激を用いた研究に由来する。 自然シーンの視覚処理に関する深い知見を得るため,本研究では,自然画像に応答した霊長類v4のワイドフィールドカルシウムイメージングを用いて,コラムナースケール応答の大規模なデータセットを生成する。 このデータセットを用いて、深層学習によりV4のディジタルツインを構築し、各皮質位置の自然画像の詳細な地形図を生成する。 このマップは、自然画像の特徴の特定のクラスのためのクラスタ化された機能ドメインを明らかにした。 これらは、色やテクスチャなどの表面的特性から、エッジ、曲率、顔の特徴といった形状的特徴まで様々である。 広域カルシウムイメージングおよび単一細胞分解能2光子イメージングにより, モデル予測ドメインの検証を行った。 本研究は,v4における自然場面を表す詳細なトポロジー構造とニューラルコードを照らしている。

The visual system evolved to process natural scenes, yet most of our understanding of the topology and function of visual cortex derives from studies using artificial stimuli. To gain deeper insights into visual processing of natural scenes, we utilized widefield calcium-imaging of primate V4 in response to many natural images, generating a large dataset of columnar-scale responses. We used this dataset to build a digital twin of V4 via deep learning, generating a detailed topographical map of natural image preferences at each cortical position. The map revealed clustered functional domains for specific classes of natural image features. These ranged from surface-related attributes like color and texture to shape-related features such as edges, curvature, and facial features. We validated the model-predicted domains with additional widefield calcium-imaging and single-cell resolution two-photon imaging. Our study illuminates the detailed topological organization and neural codes in V4 that represent natural scenes.
翻訳日:2023-07-25 20:38:23 公開日:2023-07-24
# 有限時間熱力学における集合的利点

Collective advantages in finite-time thermodynamics ( http://arxiv.org/abs/2306.16534v2 )

ライセンス: Link先を確認
Alberto Rolandi, Mart\'i Perarnau-Llobet(参考訳) 有限時間熱力学における中心的なタスクは、熱浴に浸漬した系の状態を操作する際に、余剰または散逸する作業を最小化することである。 我々は,この課題を,プロセスの開始時と終了時において,構成成分が同一で非相関な$N$ボディシステムとみなす。 遅いが有限時間プロセスの状態では、プロトコルに沿って対話が適切に作成される集合プロトコルを考えることで、$W_{\rm diss}$を劇的に削減できることを示す。 これは$W_{\rm diss}\sim N^x$ with $x<1$; のサブ線形成長にもつながり、非相互作用プロトコルで満たされる$W_{\rm diss}\sim N$とは対照的に、$N$: $W_{\rm diss}\sim N^x$ with $x<1$; のサブ線形成長につながる。 このような集合的利点に対する基本的な限界を導出し、x=0$ が原理的に可能であることを示すが、これは非常に局所的な $n$-body 相互作用を必要とする。 次に、現実的な多体相互作用モデル、特に1次元スピンチェーンと全対全スピンモデルによる集合過程を探索し、現実的な制御レベルで顕著な利得を達成する。 これらの結果の応用として,情報の消去を有限時間に限定し,ランドーアーの消去限界へのより高速な収束を証明した。

A central task in finite-time thermodynamics is to minimize the excess or dissipated work, $W_{\rm diss}$, when manipulating the state of a system immersed in a thermal bath. We consider this task for an $N$-body system, whose constituents are identical and uncorrelated at the beginning and end of the process. In the regime of slow but finite-time processes, we show that $W_{\rm diss}$ can be dramatically reduced by considering collective protocols in which interactions are suitably created along the protocol. This can even lead to a sub-linear growth of $W_{\rm diss}$ with $N$: $W_{\rm diss}\sim N^x$ with $x<1$; to be contrasted to the expected $W_{\rm diss}\sim N$ satisfied in any non-interacting protocol. We derive the fundamental limits to such collective advantages and show that $x=0$ is in principle possible, which however requires highly non-local $N$-body interactions. We then explore collective processes with realistic many-body interacting models, in particular a 1D spin chain and an all-to-all spin model, achieving noticeable gains under realistic levels of control. As an application of these results, we focus on the erasure of information in finite time, and prove a faster convergence to Landauer's erasure bound.
翻訳日:2023-07-25 20:36:56 公開日:2023-07-24
# MIMO信号検出のための深部展開模擬分岐

Deep Unfolded Simulated Bifurcation for Massive MIMO Signal Detection ( http://arxiv.org/abs/2306.16264v2 )

ライセンス: Link先を確認
Satoshi Takabe(参考訳) マルチインプット多重出力(MIMO)は次世代無線通信の鍵となる要素である。 近年,深層学習技術と量子(インスパイアされた)アルゴリズムに基づく様々なMIMO信号検出器が提案され,従来の検出器と比較して検出性能が向上している。 本稿では,量子インスパイアされたアルゴリズムであるシミュレート分岐(sb)アルゴリズムに注目した。 本稿では,検出性能を向上させる2つの手法を提案する。 第一は、レベンバーグ・マーカルトアルゴリズムに触発されたアルゴリズムを修正して、最大確率検出の極小を取り除いたことである。 2つ目は、反復アルゴリズムの内部パラメータをトレーニングするためのディープラーニングテクニックである、deep unfoldingの利用である。 本稿では,SBの更新ルールを微分可能とした深部展開SBを提案する。 その結果,これらの検出器はMIMOシステムの信号検出性能を著しく向上することがわかった。

Multiple-input multiple-output (MIMO) is a key ingredient of next-generation wireless communications. Recently, various MIMO signal detectors based on deep learning techniques and quantum(-inspired) algorithms have been proposed to improve the detection performance compared with conventional detectors. This paper focuses on the simulated bifurcation (SB) algorithm, a quantum-inspired algorithm. This paper proposes two techniques to improve its detection performance. The first is modifying the algorithm inspired by the Levenberg-Marquardt algorithm to eliminate local minima of maximum likelihood detection. The second is the use of deep unfolding, a deep learning technique to train the internal parameters of an iterative algorithm. We propose a deep-unfolded SB by making the update rule of SB differentiable. The numerical results show that these proposed detectors significantly improve the signal detection performance in massive MIMO systems.
翻訳日:2023-07-25 20:36:31 公開日:2023-07-24
# データサイエンスを定義する: 探究の新しい分野

Defining data science: a new field of inquiry ( http://arxiv.org/abs/2306.16177v3 )

ライセンス: Link先を確認
Michael L Brodie(参考訳) データサイエンスは科学ではない。 それは研究パラダイムです。 その力、範囲、スケールは、我々の最も強力な研究パラダイムである科学を越え、知識の発見と世界を変えることができるでしょう。 私たちはまだそれを理解し定義しておらず、その可能性を認識し、リスクを管理するために不可欠です。 現代のデータサイエンスは始まったばかりです。 1962年から徐々に発展し、2000年から急速に発展し、21世紀の最も活発で強力な革新の1つであり、基本的に新しい調査分野である。 その価値、パワー、適用性のために、40以上の分野、何百もの研究領域、何千ものアプリケーションで登場しています。 何百万ものデータサイエンス出版物には、データサイエンスとデータサイエンスの問題解決の無数の定義が含まれている。 幼少期のため、多くの定義は独立性、アプリケーション固有性、相互不完全性、冗長性、矛盾性があり、したがってデータ科学である。 本研究では,データサイエンスコミュニティのためのデータサイエンスジャーナルを用いた,データサイエンス参照フレームワークに基づくコヒーレントで統一的な定義の開発を提案することにより,このデータサイエンスの多重定義の課題を解決する。 本稿では、そのような定義を議論するために必要なデータサイエンスアーティファクトの候補定義を提供する。 データサイエンスの哲学、データサイエンスの問題解決パラダイム、およびデータサイエンスを定義し、統一し、発展させるためのフレームワークとしてしばしば呼ばれる6つの要素データサイエンス参照フレームワーク(公理学、オントロジ、認識論、方法論、手法、技術)からなる古典的な研究パラダイムの概念に基づいている。 データ科学を定義するための課題、すなわち、データ科学を定義するための手段、そして包括的ソリューションの基盤としてのそれらの要求と利益を示す。

Data science is not a science. It is a research paradigm. Its power, scope, and scale will surpass science, our most powerful research paradigm, to enable knowledge discovery and change our world. We have yet to understand and define it, vital to realizing its potential and managing its risks. Modern data science is in its infancy. Emerging slowly since 1962 and rapidly since 2000, it is a fundamentally new field of inquiry, one of the most active, powerful, and rapidly evolving 21st century innovations. Due to its value, power, and applicability, it is emerging in over 40 disciplines, hundreds of research areas, and thousands of applications. Millions of data science publications contain myriad definitions of data science and data science problem solving. Due to its infancy, many definitions are independent, application specific, mutually incomplete, redundant, or inconsistent, hence so is data science. This research addresses this data science multiple definitions challenge by proposing the development of coherent, unified definition based on a data science reference framework using a data science journal for the data science community to achieve such a definition. This paper provides candidate definitions for essential data science artifacts that are required to discuss such a definition. They are based on the classical research paradigm concept consisting of a philosophy of data science, the data science problem solving paradigm, and the six component data science reference framework (axiology, ontology, epistemology, methodology, methods, technology) that is a frequently called for unifying framework with which to define, unify, and evolve data science. It presents challenges for defining data science, solution approaches, i.e., means for defining data science, and their requirements and benefits as the basis of a comprehensive solution.
翻訳日:2023-07-25 20:35:47 公開日:2023-07-24
# 回答者をうまく選択する:プログラム戦略の合成をいかにガイドするか

Choosing Well Your Opponents: How to Guide the Synthesis of Programmatic Strategies ( http://arxiv.org/abs/2307.04893v2 )

ライセンス: Link先を確認
Rubens O. Moraes, David S. Aleixo, Lucas N. Ferreira, Levi H. S. Lelis(参考訳) 本稿では,2プレイヤーゼロサムゲームにおけるプログラム戦略の探索を誘導する参照戦略のセットを提供するアルゴリズムであるLocal Learner (2L)を紹介する。 Iterated Best Response (IBR)、Fictitious Play (FP)、Double-Oracle (DO)といった従来の学習アルゴリズムは、計算コストがかかるか、検索アルゴリズムを導く上で重要な情報を見逃す可能性がある。 2Lは、探索信号を改善するための一連の参照戦略を積極的に選択する。 実戦戦略ゲームであるMicroRTSを含む3つのゲームにおいて,局所探索アルゴリズムを用いて戦略を合成する際のアプローチの利点を実証的に示す。 その結果、2l は ibr, fp, do よりも強力な探索信号を提供する参照戦略を学習できることがわかった。 また,2Lを用いたシンセサイザーが,プログラムによるプログラム戦略である2つのMicroRTSコンペティションの勝者よりも優れていたMicroRTSのトーナメントをシミュレートした。

This paper introduces Local Learner (2L), an algorithm for providing a set of reference strategies to guide the search for programmatic strategies in two-player zero-sum games. Previous learning algorithms, such as Iterated Best Response (IBR), Fictitious Play (FP), and Double-Oracle (DO), can be computationally expensive or miss important information for guiding search algorithms. 2L actively selects a set of reference strategies to improve the search signal. We empirically demonstrate the advantages of our approach while guiding a local search algorithm for synthesizing strategies in three games, including MicroRTS, a challenging real-time strategy game. Results show that 2L learns reference strategies that provide a stronger search signal than IBR, FP, and DO. We also simulate a tournament of MicroRTS, where a synthesizer using 2L outperformed the winners of the two latest MicroRTS competitions, which were programmatic strategies written by human programmers.
翻訳日:2023-07-25 20:28:09 公開日:2023-07-24
# cpdg : 動的グラフニューラルネットワークのためのコントラスト事前学習法

CPDG: A Contrastive Pre-Training Method for Dynamic Graph Neural Networks ( http://arxiv.org/abs/2307.02813v2 )

ライセンス: Link先を確認
Yuanchen Bei, Hao Xu, Sheng Zhou, Huixuan Chi, Haishuai Wang, Mengdi Zhang, Zhao Li, Jiajun Bu(参考訳) 動的グラフデータマイニングは, 動的グラフに含まれる豊富な情報と実世界で広く利用されているため, 近年普及している。 動的グラフニューラルネットワーク(DGNN)の進歩にもかかわらず、豊富な情報と多様な下流タスクは、産業シナリオにおけるDGNNの実用化に重大な困難をもたらしている。 そこで本稿では,この課題を事前学習によって解決し,動的グラフニューラルネットワーク(cpdg)のためのコントラスト事前学習法を提案する。 CPDGは、構造的時間的コントラスト付き事前学習スキームとともに、柔軟な構造的時間的サブグラフサンプリング器を通じて、一般化能力と長期モデリング能力を含むDGNNの事前訓練の課題に取り組む。 大規模研究と産業用動的グラフデータセットの両方で実施された大規模な実験により、CPDGは3つの転送条件下での様々な下流タスクに対する動的グラフ事前学習において、既存の手法よりも優れた性能を示した。

Dynamic graph data mining has gained popularity in recent years due to the rich information contained in dynamic graphs and their widespread use in the real world. Despite the advances in dynamic graph neural networks (DGNNs), the rich information and diverse downstream tasks have posed significant difficulties for the practical application of DGNNs in industrial scenarios. To this end, in this paper, we propose to address them by pre-training and present the Contrastive Pre-Training Method for Dynamic Graph Neural Networks (CPDG). CPDG tackles the challenges of pre-training for DGNNs, including generalization capability and long-short term modeling capability, through a flexible structural-temporal subgraph sampler along with structural-temporal contrastive pre-training schemes. Extensive experiments conducted on both large-scale research and industrial dynamic graph datasets show that CPDG outperforms existing methods in dynamic graph pre-training for various downstream tasks under three transfer settings.
翻訳日:2023-07-25 20:26:37 公開日:2023-07-24
# 観察するべきときの学習--高コスト世界のためのフラガアル強化学習フレームワーク

Learning when to observe: A frugal reinforcement learning framework for a high-cost world ( http://arxiv.org/abs/2307.02620v2 )

ライセンス: Link先を確認
Colin Bellinger, Mark Crowley, Isaac Tamblyn(参考訳) 強化学習(rl)は、ゲーム、ロボット工学、暖房・冷却システム、テキスト生成といった複雑なタスクのための高度な制御ポリシーを学ぶことが示されている。 しかしながら、RLの行動知覚サイクルは一般的に、環境の状態の測定がコストなしで各ステップで利用可能であると仮定する。 しかし、材料設計、深海探査、惑星ロボット探査、医学などの応用においては、環境の状態を測定すること、あるいは近似することに関わるコストが高い可能性がある。 本稿では,RLエージェントが各段階のコスト測定を必要とせず,必要としない,あるいは望まざるを得ないという視点を取り入れた近年の文献を調査する。 このような状況下では,Deep Dynamic Multi-Step Observationless Agent (DMSOA) を提案し,文献と対比し,OpenAIジムやAtari Pong環境上で実証的に評価する。 その結果、DMSOAは、文献から考慮された代替案よりも、より少ない意思決定手順と測定でより良い政策を学習していることを示す。 対応するコードは以下の通りである。 \url{https://github.com/cbellinger27/Learning-when-to-observe-in-RL

Reinforcement learning (RL) has been shown to learn sophisticated control policies for complex tasks including games, robotics, heating and cooling systems and text generation. The action-perception cycle in RL, however, generally assumes that a measurement of the state of the environment is available at each time step without a cost. In applications such as materials design, deep-sea and planetary robot exploration and medicine, however, there can be a high cost associated with measuring, or even approximating, the state of the environment. In this paper, we survey the recently growing literature that adopts the perspective that an RL agent might not need, or even want, a costly measurement at each time step. Within this context, we propose the Deep Dynamic Multi-Step Observationless Agent (DMSOA), contrast it with the literature and empirically evaluate it on OpenAI gym and Atari Pong environments. Our results, show that DMSOA learns a better policy with fewer decision steps and measurements than the considered alternative from the literature. The corresponding code is available at: \url{https://github.com/cbellinger27/Learning-when-to-observe-in-RL
翻訳日:2023-07-25 20:26:19 公開日:2023-07-24
# ODD: NLPに基づくオピオイド関連異常検出のためのベンチマークデータセット

ODD: A Benchmark Dataset for the NLP-based Opioid Related Aberrant Behavior Detection ( http://arxiv.org/abs/2307.02591v2 )

ライセンス: Link先を確認
Sunjae Kwon, Xun Wang, Weisong Liu, Emily Druhl, Minhee L. Sung, Joel I. Reisman, Wenjun Li, Robert D. Kerns, William Becker, Hong Yu(参考訳) オピオイド関連異常行動(ORAB)はオピオイド過剰摂取の新しい危険因子である。 これまで、オラブは主に調査の結果と薬物投与の監視によって評価されてきた。 しかし、そのような方法はスケールアップできず、異常な行動のスペクトル全体をカバーできない。 一方、ORABは電子健康記録に広く記録されている。 本稿では,ORAB 検出データセットのためのバイオメディカル自然言語処理ベンチマークである ODD を提案する。 ODDは、750以上の公開EHRノートからなるエキスパートアノテーション付きデータセットである。 ODDは患者のEHRノートからORABを識別し、それらを9つのカテゴリに分類するように設計されている。 1)確認された異常行動 2)異常行為を示唆する。 3)オピオイド, 4) 表示。 5)オピオイド依存性の診断。 6)ベンゾジアゼピン。 7) 薬効の変化。 8)中枢神経系関連、及び 9) 健康の社会的決定要因。 orabを識別するために,2つの最先端自然言語処理モデル(事前学習言語モデルとプロンプトチューニングアプローチ)を検討した。 実験の結果, 早期調整モデルでは, ほとんどのカテゴリーでファインチューニングモデルよりも優れており, 特に異常なカテゴリー(推奨異常行動, 診断オピオイド依存性, メディケーション変化)では上昇率が高かった。 最良のモデルは精密リコール曲線下の面積で83.92%の最高値を達成したが、稀なクラス(異常行動、オピオイド依存症、薬物変化)は依然として性能改善の余地が大きい。

Opioid related aberrant behaviors (ORAB) present novel risk factors for opioid overdose. Previously, ORAB have been mainly assessed by survey results and by monitoring drug administrations. Such methods however, cannot scale up and do not cover the entire spectrum of aberrant behaviors. On the other hand, ORAB are widely documented in electronic health record notes. This paper introduces a novel biomedical natural language processing benchmark dataset named ODD, for ORAB Detection Dataset. ODD is an expert-annotated dataset comprising of more than 750 publicly available EHR notes. ODD has been designed to identify ORAB from patients' EHR notes and classify them into nine categories; 1) Confirmed Aberrant Behavior, 2) Suggested Aberrant Behavior, 3) Opioids, 4) Indication, 5) Diagnosed opioid dependency, 6) Benzodiapines, 7) Medication Changes, 8) Central Nervous System-related, and 9) Social Determinants of Health. We explored two state-of-the-art natural language processing (NLP) models (finetuning pretrained language models and prompt-tuning approaches) to identify ORAB. Experimental results show that the prompt-tuning models outperformed the finetuning models in most cateogories and the gains were especially higher among uncommon categories (Suggested aberrant behavior, Diagnosed opioid dependency and Medication change). Although the best model achieved the highest 83.92% on area under precision recall curve, uncommon classes (Suggested Aberrant Behavior, Diagnosed Opioid Dependence, and Medication Change) still have a large room for performance improvement.
翻訳日:2023-07-25 20:25:57 公開日:2023-07-24
# マルチコントラストMRI超解像のための複合注意と近傍マッチングネットワーク

Compound Attention and Neighbor Matching Network for Multi-contrast MRI Super-resolution ( http://arxiv.org/abs/2307.02148v2 )

ライセンス: Link先を確認
Wenxuan Chen, Sirui Wu, Shuai Wang, Zhongsen Li, Jia Yang, Huifeng Yao, Xiaomeng Li, Xiaolei Song(参考訳) マルチコントラスト磁気共鳴イメージング(mri)は、異なる視点からヒト組織に関する情報を反映し、多くの臨床応用がある。 異なるモード間の補完情報を利用することで、MRIのマルチコントラスト超解像(SR)はシングルイメージ超解像よりも優れた結果が得られる。 第一に、既存のメソッドは単に参照と劣化したフィーチャを結合するか、あるいはそれらの間のグローバルな特徴マッチングを利用するかのどちらかであり、それらはマルチコントラストmri srには適さない。 第二に、最近の多くの手法では、空間次元における長距離依存性を捉えるためにトランスフォーマーを用いるが、チャンネル次元における自己着脱も低レベルの視覚タスクにとって重要であることを無視している。 これらの欠点に対処するため、我々は、マルチコントラストMRI SRのための複合アテンションと隣り合うマッチング(CANM-Net)を備えた新しいネットワークアーキテクチャを提案する: 複合自己アテンション機構は、空間的およびチャネル的両方の依存性を効果的に捕捉し、近隣の特徴マッチングモジュールは、劣化した特徴と隣接する参照特徴とをマッチングし、それらを融合して高品質な画像を得る。 我々は,ixi,fastmri,real-world scanning dataset上でsrタスクの実験を行う。 CANM-Netは、ふりかえりと将来の実験において最先端のアプローチより優れている。 さらに,本研究におけるロバストネス調査では,参照画像と劣化画像が不完全登録された場合でも,CANM-Netは良好な性能を示し,臨床応用の可能性を示した。

Multi-contrast magnetic resonance imaging (MRI) reflects information about human tissue from different perspectives and has many clinical applications. By utilizing the complementary information among different modalities, multi-contrast super-resolution (SR) of MRI can achieve better results than single-image super-resolution. However, existing methods of multi-contrast MRI SR have the following shortcomings that may limit their performance: First, existing methods either simply concatenate the reference and degraded features or exploit global feature-matching between them, which are unsuitable for multi-contrast MRI SR. Second, although many recent methods employ transformers to capture long-range dependencies in the spatial dimension, they neglect that self-attention in the channel dimension is also important for low-level vision tasks. To address these shortcomings, we proposed a novel network architecture with compound-attention and neighbor matching (CANM-Net) for multi-contrast MRI SR: The compound self-attention mechanism effectively captures the dependencies in both spatial and channel dimension; the neighborhood-based feature-matching modules are exploited to match degraded features and adjacent reference features and then fuse them to obtain the high-quality images. We conduct experiments of SR tasks on the IXI, fastMRI, and real-world scanning datasets. The CANM-Net outperforms state-of-the-art approaches in both retrospective and prospective experiments. Moreover, the robustness study in our work shows that the CANM-Net still achieves good performance when the reference and degraded images are imperfectly registered, proving good potential in clinical applications.
翻訳日:2023-07-25 20:24:52 公開日:2023-07-24
# クロスバッチメトリック学習による一般化埋め込み

Generalizable Embeddings with Cross-batch Metric Learning ( http://arxiv.org/abs/2307.07620v2 )

ライセンス: Link先を確認
Yeti Z. Gurbuz and A. Aydin Alatan(参考訳) グローバル平均プーリング(GAP)は、機能集約のためのディープメトリックラーニング(DML)において人気のあるコンポーネントである。 その有効性は、各特徴ベクトルを別個の意味的実体として扱い、GAPをそれらの組み合わせとして扱うことによることが多い。 しかし、このような説明のアルゴリズム的意味は、目に見えないクラスを表現するために一般化可能な実体を学習することであり、これは重要なDMLの目標である。 そこで我々はGAPを学習可能なプロトタイプの凸結合として定式化する。 次に, 線形予測器をサンプルのバッチに適合させる再帰過程として, プロトタイプ学習が表現可能であることを示す。 その観点から,各イテレーションで異なるクラスの2つのバッチについて検討し,他のバッチに適合するプロトタイプを用いて,バッチのサンプルを表現して学習を規則化する。 4つのDMLベンチマークでアプローチを検証する。

Global average pooling (GAP) is a popular component in deep metric learning (DML) for aggregating features. Its effectiveness is often attributed to treating each feature vector as a distinct semantic entity and GAP as a combination of them. Albeit substantiated, such an explanation's algorithmic implications to learn generalizable entities to represent unseen classes, a crucial DML goal, remain unclear. To address this, we formulate GAP as a convex combination of learnable prototypes. We then show that the prototype learning can be expressed as a recursive process fitting a linear predictor to a batch of samples. Building on that perspective, we consider two batches of disjoint classes at each iteration and regularize the learning by expressing the samples of a batch with the prototypes that are fitted to the other batch. We validate our approach on 4 popular DML benchmarks.
翻訳日:2023-07-25 20:19:06 公開日:2023-07-24
# 量子リセットによる絡み合いの生成

Generating Entanglement by Quantum Resetting ( http://arxiv.org/abs/2307.07485v2 )

ライセンス: Link先を確認
Manas Kulkarni, Satya N. Majumdar(参考訳) 我々は、確率的ポアソニアンリセットを受ける閉量子系を、その初期状態に対して$r$で考える。 リセットは、古典的および量子的相関を持つ混合密度行列を持つ非平衡定常状態(NESS)にシステムを駆動する。 一般ハミルトニアン$H$の閉量子系に対するこれらのNESS相関を研究するための一般的な枠組みを提供する。 次に、このフレームワークを1対の強磁性結合スピンの単純なモデルに適用し、状態 $\mid\downarrow\downarrow \rangle$ から始まり、レート $r$ で同じ状態にリセットする。 システム全体の ness 密度行列を 正確に計算します これにより、3つの基本的な可観測性、すなわち (i)サブシステムのフォン・ノイマンエントロピー (二)NESSと初期密度行列との間の忠実度 3) リセット率と相互作用強度の2つのパラメータの関数として、NESS(混合状態における量子エンタングルメントの尺度を提供する)における共起性(英語版)。 主な結論の1つは、非ゼロリセット速度と非ゼロ相互作用強度がNESSの量子絡み合い(非ゼロコンカレンスによって量子化される)を生じさせ、さらにこのコンカレンスを2つのパラメータを適切に選択することで最大化できるということである。 量子リセットは相互作用する量子系の2つの部分間の絡み合いを高めるためのシンプルで効果的なメカニズムを提供する。

We consider a closed quantum system subjected to stochastic Poissonian resetting with rate $r$ to its initial state. Resetting drives the system to a nonequilibrium stationary state (NESS) with a mixed density matrix which has both classical and quantum correlations. We provide a general framework to study these NESS correlations for a closed quantum system with a general Hamiltonian $H$. We then apply this framework to a simple model of a pair of ferromagnetically coupled spins, starting from state $\mid\downarrow\downarrow \rangle$ and resetting to the same state with rate $r$. We compute exactly the NESS density matrix of the full system. This then provides access to three basic observables, namely (i) the von Neumann entropy of a subsystem (ii) the fidelity between the NESS and the initial density matrix and (iii) the concurrence in the NESS (that provides a measure of the quantum entanglement in a mixed state), as a function of the two parameters: the resetting rate and the interaction strength. One of our main conclusions is that a nonzero resetting rate and a nonzero interaction strength generates quantum entanglement in the NESS (quantified by a nonzero concurrence) and moreover this concurrence can be maximized by appropriately choosing the two parameters. Our results show that quantum resetting provides a simple and effective mechanism to enhance entanglement between two parts of an interacting quantum system.
翻訳日:2023-07-25 20:18:52 公開日:2023-07-24
# 拡散現象としてのAharonov-Bohm効果

Aharonov-Bohm effect as a diffusion phenomenon ( http://arxiv.org/abs/2307.06683v2 )

ライセンス: Link先を確認
Charalampos Antonakos and Andreas F. Terzis(参考訳) 本稿では、ネルソンの量子力学の定式化を用いて、アハロノフ・ボーム効果の流体力学的見解を示す。 我々の目標は、我々の結果を他のシステムと比較し、磁場のない領域で粒子の動きがなぜ影響を受けるのかといった、この効果の背後にある謎をよりよく理解することである。 いくつかの理論では、この効果は粒子に対する磁場の非局所的作用、あるいは磁場上のベクトルポテンシャルの物理的意義によるものであるとしている。 我々の主な目的は、ネルソンの定式化を用いて効果を記述し、その外粒子上の磁場領域(すなわちシリンダー)を取り巻く電流の直接作用によって説明できることを実証することである。 この文脈では、磁場とベクトルポテンシャルは、ネルソンの量子論によって記述された2つの場の相互作用から生じる他の基本的な量を見つけるための道具となる。 最後に,隠れ変数と量子揺らぎの関係と,その現象における役割について考察する。

This paper presents a hydrodynamical view of the Aharonov-Bohm effect, using Nelson's formulation of quantum mechanics. Our aim is to compare our results with other systems and gain a better understanding of the mysteries behind this effect, such as why the motion of a particle is affected in a region where there is no magnetic field. Some theories suggest that this effect is due to the non-local action of the magnetic field on the particle, or even the physical significance of vector potentials over magnetic fields. Our main purpose is to use Nelson's formulation to describe the effect and demonstrate that it can be explained by the direct action of the current surrounding the magnetic field region (i.e. a cylinder) on the particle outside of it. In this context, magnetic fields and vector potentials serve as tools for finding other fundamental quantities that arise from the interaction between two fields: the quantum background fields described by Nelson's quantum theory. Finally, we investigate the relationship between hidden variables and quantum fluctuations and their role in this phenomenon.
翻訳日:2023-07-25 20:18:26 公開日:2023-07-24
# 正確に可溶な散逸性スピン液体

An exactly solvable dissipative spin liquid ( http://arxiv.org/abs/2307.05743v2 )

ライセンス: Link先を確認
Henry Shackleton and Mathias S. Scheurer(参考訳) スピン液体基底状態を持つ厳密に解けるハミルトニアンは、相互作用するスピンの系でこれらの相が生じることを明白に示すだけでなく、概念の教育的な図示として、さらに理論解析のための制御された出発点として、非常に有用であることが証明されている。 しかし、環境に散逸結合を加えることは、これらのフェーズを実現する上で重要な側面である。 そこで我々は,環境への散逸結合を持つ正方格子スピン液体を記述するリンドブラジアンについて,静的な$\mathbb{z}_2$ゲージ場に結合したマヨラナフェルミオンについて,厳密な解を求める。 この解により、リンドブラディアンスペクトル内の「準粒子」励起と同様に定常解を特徴づけることができる。 このリンドブラディアンの異なるタイプの準粒子励起の出現は、観測可能な異なるクラスの期待値の平衡時間を管理する時間スケールの分離につながる。 この正確に可解なリンドブラジアンは、散逸時間発展の下での分数化されたシステムの挙動をよりよく理解するための出発点となることが期待されている。

Exactly solvable Hamiltonians with spin liquid ground states have proven to be extremely useful, not only because they unambiguously demonstrate that these phases can arise in systems of interacting spins but also as a pedagogical illustration of the concept and as a controlled starting point for further theoretical analysis. However, adding dissipative couplings to the environment - an important aspect for the realization of these phases - generically spoils the exact solvability. We here present and study a Lindbladian, describing a square-lattice spin-liquid with dissipative coupling to the environment, that admits an exact solution in terms of Majorana fermions coupled to static $\mathbb{Z}_2$ gauge fields. This solution allows us to characterize the steady-state solutions as well as ``quasiparticle'' excitations within the Lindbladian spectrum. This emergence of distinct types of quasiparticle excitations of the Lindbladian leads to a separation of timescales that govern the equilibration time of the expectation values of different classes of observables, some of which we identify as fractionalized string-like operators. This exactly solvable Lindbladian is expected to provide a starting point for a better understanding of the behavior of fractionalized systems under dissipative time evolution.
翻訳日:2023-07-25 20:16:22 公開日:2023-07-24
# 回路解析は解釈可能性尺度か? チンチラにおける複数選択能力の証拠

Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla ( http://arxiv.org/abs/2307.09458v3 )

ライセンス: Link先を確認
Tom Lieberum, Matthew Rahtz, J\'anos Kram\'ar, Neel Nanda, Geoffrey Irving, Rohin Shah, Vladimir Mikulik(参考訳) \emph{Circuit analysis} は言語モデルの内部メカニズムを理解するための有望な手法である。 しかし、既存の分析は芸術の状況から遠く離れた小さなモデルで行われている。 そこで本研究では,70Bチンチラモデルにおける回路解析のケーススタディを提案し,回路解析のスケーラビリティを検証した。 特に,複数選択質問応答について検討し,正解 \emph{label} の知識を与えられた正解 \emph{text} を特定するチンチラの能力について検討する。 従来のロジット属性,アテンションパターンの可視化,アクティベーションパッチといった手法は,自然にチンチラにスケールし,少数の'アウトプットノード'(アテンションヘッドとMPP)を識別・分類できることがわかった。 さらに,特徴のセマンティクスを理解することを目的とした注意ヘッドの「正しい文字」カテゴリーについて,混合結果を用いて検討する。 通常の複数項目問合せでは,複数項目問合せに対する回答ラベルを操作した場合,頭部の問合せ,キー,値のサブスペースは性能を損なうことなく著しく圧縮し,問合せとキーのサブスペースが少なくともある程度の「列挙」機能において「n番目の項目」を表すことを示す。 しかし、この説明を用いて、ランダム化された回答ラベルを含むより一般的な分布における頭部の振る舞いを理解すると、それは部分的な説明にすぎないことが分かり、複数の選択質問応答における「正しい手紙」ヘッドの操作について学ぶべきことが増えることを示唆する。

\emph{Circuit analysis} is a promising technique for understanding the internal mechanisms of language models. However, existing analyses are done in small models far from the state of the art. To address this, we present a case study of circuit analysis in the 70B Chinchilla model, aiming to test the scalability of circuit analysis. In particular, we study multiple-choice question answering, and investigate Chinchilla's capability to identify the correct answer \emph{label} given knowledge of the correct answer \emph{text}. We find that the existing techniques of logit attribution, attention pattern visualization, and activation patching naturally scale to Chinchilla, allowing us to identify and categorize a small set of `output nodes' (attention heads and MLPs). We further study the `correct letter' category of attention heads aiming to understand the semantics of their features, with mixed results. For normal multiple-choice question answers, we significantly compress the query, key and value subspaces of the head without loss of performance when operating on the answer labels for multiple-choice questions, and we show that the query and key subspaces represent an `Nth item in an enumeration' feature to at least some extent. However, when we attempt to use this explanation to understand the heads' behaviour on a more general distribution including randomized answer labels, we find that it is only a partial explanation, suggesting there is more to learn about the operation of `correct letter' heads on multiple choice question answering.
翻訳日:2023-07-25 20:08:03 公開日:2023-07-24
# 弱測定を用いたユニバーサル量子テレポーテーションの実現に向けて

Towards realization of universal quantum teleportation using weak measurements ( http://arxiv.org/abs/2307.09231v2 )

ライセンス: Link先を確認
Vivek Balasaheb Sabale, Atul Kumar, Subhashish Banerjee(参考訳) ノイズは、テレポーテーションや高密度符号化のような量子プロトコルに影響を与えるため、量子技術を実現する上で大きなハードルとなる。 弱い測定のような手法を用いてノイズ効果を低減し、量子相関を保護することができる。 この研究は、量子テレポーテーションの普遍性を目指して、ノイズ量子チャネルを介して量子ビットの量子テレポーテーションの効率を高めるための弱い測定の適用可能性の度合いに対処する。 ノイズの影響により、平均的なテレポーテーションの忠実度は変化しがちであり、弱い測定により、これらの忠実度偏差はゼロに近い値に減少する。 また,提案するテレポーテーションプロトコルにおける記憶の影響と忠実性と忠実性の偏差について検討した。 弱い測定と反転の助けを借りて、記憶効果はテレポーテーションのより良い結果をもたらすことが示されている。 本研究では, 異なるノイズチャネルの影響下において, 量子相関を保護するためのプロトコルの適用性について検討した。

Noise is a major hurdle in realizing quantum technologies as it affects quantum protocols like teleportation, dense coding. It is possible to use techniques like weak measurements to reduce the noise effect and protect quantum correlations. This work addresses the extent of applicability of weak measurements to enhance the efficiency of the quantum teleportation of a qubit through a noisy quantum channel, aiming towards universal quantum teleportation. Due to the effects of noise, the average fidelity of teleportation tends to vary; weak measurements can reduce these fidelity deviations to a value close to zero. We also study the effect of memory and its impact on fidelity and fidelity deviations in the proposed teleportation protocol. The memory effects, with the aid of weak measurement and its reversal, are shown to give better results for teleportation. The extent of applicability of the proposed protocol for protecting quantum correlations, under the influence of different noise channels, are studied in the present work.
翻訳日:2023-07-25 20:07:14 公開日:2023-07-24
# 量子情報の量子読み取り

Quantum reading of quantum information ( http://arxiv.org/abs/2307.08821v2 )

ライセンス: Link先を確認
Samad Khabbazi-Oskouei, Stefano Mancini, Milajiguli Rexiti(参考訳) 量子読み取りの概念を、取り出すべき情報が量子チャネルの集合に符号化される場合まで拡張する。 システム環境の相互作用を記述する2つのキュービットユニタリを用い、システムの入力出力チャネルを決定する初期環境状態と、エンコードされた情報を使用する。 最も関連性の高い2量子ユニタリのパフォーマンスは2つの異なるアプローチで決定される。 一 環境とシステムの出力との間に生じるチャネルの一発の量子容量 二 環境の初期量子状態の特徴とするパラメータの推定 得られた結果は主に(有資格な)合意であり、cnotユニタリを含むいくつかの特徴がある。

We extend the notion of quantum reading to the case where the information to be retrieved, which is encoded into a set of quantum channels, is of quantum nature. We use two qubit unitaries describing the system environment interaction, with the initial environment state determining the system's input output channel and hence the encoded information. The performance of the most relevant two-qubit unitaries is determined with two different approaches: i) one-shot quantum capacity of the channel arising between environment and system's output; ii) estimation of parameters characterizing the initial quantum state of the environment. The obtained results are mostly in (qualitative) agreement, with some distinguishing features that include the CNOT unitary.
翻訳日:2023-07-25 20:06:57 公開日:2023-07-24
# 最小誤差エントロピー基準のロバスト性を再考する:転帰学習事例の検討

Revisiting the Robustness of the Minimum Error Entropy Criterion: A Transfer Learning Case Study ( http://arxiv.org/abs/2307.08572v3 )

ライセンス: Link先を確認
Luis Pedro Silvestrin, Shujian Yu, Mark Hoogendoorn(参考訳) 分散シフトに対処することは、実際のタスクでうまく機能するために、転送学習手法の重要な部分である。 しかし、この分野の既存のアプローチのほとんどは、データがノイズを含まない理想的なシナリオに焦点を当てたり、複雑なトレーニングパラダイムやモデル設計を使って分散シフトに対処する。 本稿では,非ガウス雑音に対処する統計信号処理の目的である最小誤差エントロピー(MEE)基準の頑健性を再検討し,分散シフトが一般的である実生活伝達学習回帰タスクにおけるその実現可能性と有用性について検討する。 具体的には,共変量シフトに対するMEEの堅牢性を示す新たな理論的結果を示した。 また, 最小二乗誤差(MSE)損失を, 微調整や線形探索などの基礎的伝達学習アルゴリズムでMEEに置き換えることによって, 最先端の伝達学習アルゴリズムに対する競合性能を実現できることを示す。 合成データと実世界の時系列データの両方に関する議論を正当化する。

Coping with distributional shifts is an important part of transfer learning methods in order to perform well in real-life tasks. However, most of the existing approaches in this area either focus on an ideal scenario in which the data does not contain noises or employ a complicated training paradigm or model design to deal with distributional shifts. In this paper, we revisit the robustness of the minimum error entropy (MEE) criterion, a widely used objective in statistical signal processing to deal with non-Gaussian noises, and investigate its feasibility and usefulness in real-life transfer learning regression tasks, where distributional shifts are common. Specifically, we put forward a new theoretical result showing the robustness of MEE against covariate shift. We also show that by simply replacing the mean squared error (MSE) loss with the MEE on basic transfer learning algorithms such as fine-tuning and linear probing, we can achieve competitive performance with respect to state-of-the-art transfer learning algorithms. We justify our arguments on both synthetic data and 5 real-world time-series data.
翻訳日:2023-07-25 20:06:48 公開日:2023-07-24
# 反ファクトパスを持つ説明可能なAI

Explainable AI with counterfactual paths ( http://arxiv.org/abs/2307.07764v2 )

ライセンス: Link先を確認
Bastian Pfeifer, Mateusz Krzyzinski, Hubert Baniecki, Anna Saranti, Andreas Holzinger, Przemyslaw Biecek(参考訳) 説明可能なai(xai)は、マシンラーニングにおけるますます重要な研究分野であり、基本的にはブラックボックスモデルを透明かつ解釈可能にすることを目的としている。 本稿では,条件付き順列によって生成された逆実効経路を用いた新しいXAI手法を提案する。 提案手法は, 異なる結果をもたらす可能性のある経路を識別することで, 反事実的説明を提供する。 提案手法は知識グラフの反実的経路に基づく説明を生成するのに特に適している。 ナレッジグラフの入力データに対する仮定的な変化を調べることで、モデルの振る舞いを体系的に検証し、モデルの予測に最も重要な特徴の特徴や組み合わせを調べることができる。 我々のアプローチは、従来の特徴重み付け手法よりもモデルの振る舞いをより直感的で解釈可能な説明を提供し、モデルのバイアスを特定し緩和するのに役立ちます。

Explainable AI (XAI) is an increasingly important area of research in machine learning, which in principle aims to make black-box models transparent and interpretable. In this paper, we propose a novel approach to XAI that uses counterfactual paths generated by conditional permutations. Our method provides counterfactual explanations by identifying alternative paths that could have led to different outcomes. The proposed method is particularly suitable for generating explanations based on counterfactual paths in knowledge graphs. By examining hypothetical changes to the input data in the knowledge graph, we can systematically validate the behaviour of the model and examine the features or combination of features that are most important to the model's predictions. Our approach provides a more intuitive and interpretable explanation for the model's behaviour than traditional feature weighting methods and can help identify and mitigate biases in the model.
翻訳日:2023-07-25 20:04:53 公開日:2023-07-24
# より深い画像登録に向けて

Towards Saner Deep Image Registration ( http://arxiv.org/abs/2307.09696v2 )

ライセンス: Link先を確認
Bin Duan and Ming Zhong and Yan Yan(参考訳) 近年のコンピューティングハードウェアの進歩とディープラーニングアーキテクチャの急激な普及により、学習に基づくディープラーニングの登録方法は、メトリックのパフォーマンスと推論時間の観点から、従来のものを上回っている。 しかし、これらの手法はDiceのようなパフォーマンス測定の改善に重点を置いており、特に医用画像の登録に等しく望ましいモデル行動にはあまり注意を払わない。 本稿では, 衛生検査顕微鏡を用いて, 一般的な学習に基づく深層登録のための行動について検討する。 既存のほとんどの登録は、過度に最適化された画像類似性により、逆一貫性が低く、同一のペアの非識別に悩まされている。 これらの挙動を正すため、深層モデルに2つの正則性チェックを課し、逆一貫性エラーを低減し、同時に判別能力を高める新しい正則化ベースの正則性強化法を提案する。 さらに, 画像の正当性チェック手法に関する理論的保証のセットを導出し, 理論的結果と, 性能を犠牲にすることなくモデルの正当性向上に有効性を示す実験結果を得た。 私たちのコードとモデルはhttps://github.com/tuffr5/saner-deep-registrationで利用可能です。

With recent advances in computing hardware and surges of deep-learning architectures, learning-based deep image registration methods have surpassed their traditional counterparts, in terms of metric performance and inference time. However, these methods focus on improving performance measurements such as Dice, resulting in less attention given to model behaviors that are equally desirable for registrations, especially for medical imaging. This paper investigates these behaviors for popular learning-based deep registrations under a sanity-checking microscope. We find that most existing registrations suffer from low inverse consistency and nondiscrimination of identical pairs due to overly optimized image similarities. To rectify these behaviors, we propose a novel regularization-based sanity-enforcer method that imposes two sanity checks on the deep model to reduce its inverse consistency errors and increase its discriminative power simultaneously. Moreover, we derive a set of theoretical guarantees for our sanity-checked image registration method, with experimental results supporting our theoretical findings and their effectiveness in increasing the sanity of models without sacrificing any performance. Our code and models are available at https://github.com/tuffr5/Saner-deep-registration.
翻訳日:2023-07-25 19:56:37 公開日:2023-07-24
# PubMedとBeyond:最近のバイオメディカル文献検索の進歩とベストプラクティス

PubMed and Beyond: Recent Advances and Best Practices in Biomedical Literature Search ( http://arxiv.org/abs/2307.09683v2 )

ライセンス: Link先を確認
Qiao Jin, Robert Leaman, Zhiyong Lu(参考訳) 生物医学的な研究は豊富な情報をもたらし、その多くが文学を通してのみアクセス可能である。 その結果,文献検索は臨床・生医学研究における先行知識の構築に不可欠である。 人工知能の最近の進歩はキーワードベースの検索を超えて機能を拡張しているが、これらの進歩は臨床医や研究者には馴染みがない。 そこで本研究では, 生物医学における一般情報と特定情報の両方に合わせた文献検索ツールについて, 読者の情報ニーズを効率的に満たすための調査を行った。 まず,広く使われているPubMed検索エンジンについて検討し,最近の改良と課題の継続について論じる。 次に,5つの情報ニーズに対応する文献検索ツールについて述べる。 エビデンスに基づく医療の質の高い臨床研究の特定 2.精密医学とゲノム学のための遺伝子関連情報検索 3.自然言語質問を含む意味による検索。 4.文献推薦による関連記事の掲載 5.病気や遺伝子変異などの概念の関連を見出すためのマイニング文献。 さらに、これらのツールの選択と使用に関する実践的考察とベストプラクティスについても取り上げる。 最後に,chatgptのような大規模言語モデルにおける最近のブレークスルーを考慮し,文学検索エンジンの将来への展望を示す。 本研究は,36のツールを用いて,生物医学的文献検索機能に関する総合的視点を提供する。

Biomedical research yields a wealth of information, much of which is only accessible through the literature. Consequently, literature search is an essential tool for building on prior knowledge in clinical and biomedical research. Although recent improvements in artificial intelligence have expanded functionality beyond keyword-based search, these advances may be unfamiliar to clinicians and researchers. In response, we present a survey of literature search tools tailored to both general and specific information needs in biomedicine, with the objective of helping readers efficiently fulfill their information needs. We first examine the widely used PubMed search engine, discussing recent improvements and continued challenges. We then describe literature search tools catering to five specific information needs: 1. Identifying high-quality clinical research for evidence-based medicine. 2. Retrieving gene-related information for precision medicine and genomics. 3. Searching by meaning, including natural language questions. 4. Locating related articles with literature recommendation. 5. Mining literature to discover associations between concepts such as diseases and genetic variants. Additionally, we cover practical considerations and best practices for choosing and using these tools. Finally, we provide a perspective on the future of literature search engines, considering recent breakthroughs in large language models such as ChatGPT. In summary, our survey provides a comprehensive view of biomedical literature search functionalities with 36 publicly available tools.
翻訳日:2023-07-25 19:56:18 公開日:2023-07-24
# A type $I$ クロス製品の近似

A Type $I$ Approximation of the Crossed Product ( http://arxiv.org/abs/2307.12481v1 )

ライセンス: Link先を確認
Ronak M Soni(参考訳) 私は、タイプ$III_{1}$代数学からタイプ$II$代数学への横断積構成の類似が、タイプ$I$の場合にも存在することを示します。 これは、局所代数が$i$因子の非自明な直和であるときに特に自然である。 具体的には、通常の$i$トレースを別の方法で書き直し、再正規化します。 この新しい再正規化トレースは、各因子がタイプされたときにもよく定義されている。 私は、コード内の中央演算子に異なる制約を課すことで、タイプ$II_{\infty}$とタイプ$II_{1}$ algebraの両方を回復できます。 この構造の例はホログラフィック量子誤り訂正符号に現れ、中心演算子は領域演算子である。

I show that an analog of the crossed product construction that takes type $III_{1}$ algebras to type $II$ algebras exists also in the type $I$ case. This is particularly natural when the local algebra is a non-trivial direct sum of type $I$ factors. Concretely, I rewrite the usual type $I$ trace in a different way and renormalise it. This new renormalised trace stays well-defined even when each factor is taken to be type $III$. I am able to recover both type $II_{\infty}$ as well as type $II_{1}$ algebras by imposing different constraints on the central operator in the code. An example of this structure appears in holographic quantum error-correcting codes; the central operator is then the area operator.
翻訳日:2023-07-25 16:04:06 公開日:2023-07-24
# 学習リソース割り当てポリシー: vertex-gnn か edge-gnnか?

Learning Resource Allocation Policy: Vertex-GNN or Edge-GNN? ( http://arxiv.org/abs/2307.12480v1 )

ライセンス: Link先を確認
Yao Peng, Jia Guo and Chenyang Yang(参考訳) グラフニューラルネットワーク(GNN)は、隣接する頂点とエッジの情報処理とプールを行い、グラフトポロジを統合することで、頂点の隠された表現(Vertex-GNN)またはエッジの隠された表現(Edge-GNN)を更新する。 資源割り当てポリシーを学ぶとき、GNNは表現力が弱い場合、すなわちチャネル行列のような全ての入力特徴を区別できない場合、うまく機能しない。 本稿では,Vertex-GNNとEdge-GNNの表現力を分析し,リンクスケジューリング,電力制御,プリコーディングポリシの3つの代表的無線ポリシを学習する。 gnnの表現力は処理関数と組合せ関数の線形性と出力次元に依存することがわかった。 線形プロセッサを使用する場合、Vertex-GNNはチャネル情報の欠如により全てのチャネル行列を区別できないが、Edge-GNNは区別できる。 プリコーディングポリシーを学ぶとき、非線形プロセッサを持つVertex-GNNでさえ、次元圧縮のために強い表現能力を持っていないかもしれない。 我々は、GNNが事前コーディングポリシーを十分に学習するために必要な条件の提供を進めます。 シミュレーションの結果,Edge-GNNとVertex-GNNでは,トレーニング時間や推論時間を大幅に短縮できることがわかった。

Graph neural networks (GNNs) update the hidden representations of vertices (called Vertex-GNNs) or hidden representations of edges (called Edge-GNNs) by processing and pooling the information of neighboring vertices and edges and combining to incorporate graph topology. When learning resource allocation policies, GNNs cannot perform well if their expressive power are weak, i.e., if they cannot differentiate all input features such as channel matrices. In this paper, we analyze the expressive power of the Vertex-GNNs and Edge-GNNs for learning three representative wireless policies: link scheduling, power control, and precoding policies. We find that the expressive power of the GNNs depend on the linearity and output dimensions of the processing and combination functions. When linear processors are used, the Vertex-GNNs cannot differentiate all channel matrices due to the loss of channel information, while the Edge-GNNs can. When learning the precoding policy, even the Vertex-GNNs with non-linear processors may not be with strong expressive ability due to the dimension compression. We proceed to provide necessary conditions for the GNNs to well learn the precoding policy. Simulation results validate the analyses and show that the Edge-GNNs can achieve the same performance as the Vertex-GNNs with much lower training and inference time.
翻訳日:2023-07-25 16:03:44 公開日:2023-07-24
# モデルフリーの一般化fiducial inference

Model-free generalized fiducial inference ( http://arxiv.org/abs/2307.12472v1 )

ライセンス: Link先を確認
Jonathan P Williams(参考訳) 機械学習における不確実性定量化のための安全で信頼性の高い手法の開発の必要性から,不正確な確率予測推定のためのモデルフリー統計フレームワークの提案と開発を行った。 このフレームワークは、型1エラーの有限サンプル制御を提供する予測セットの形での不確実性定量化を促進するが、新しい手法は不正確な確率的推論のためのより汎用的なツールも提供する。 さらに,モデルフリーな不正確な枠組みに対する正確な確率近似の理論的および経験的性質について考察する。 信念/感性尺度対をクレダル集合の[最適]確率測度で近似することは、統計的および機械学習のコミュニティにおける推論に対する不正確な確率的アプローチを広く採用するのに必要である。 統計学や機械学習の文献ではほとんど決定されていないが、より一般的には、記述された不確実性の説明責任の標準が一般に受け入れられていないという点において、不確実性を適切に定量化する方法がある。 本論文で紹介する研究は,信頼性と説明責任を考慮した統計的推論の枠組みを導くことを目的としている。

Motivated by the need for the development of safe and reliable methods for uncertainty quantification in machine learning, I propose and develop ideas for a model-free statistical framework for imprecise probabilistic prediction inference. This framework facilitates uncertainty quantification in the form of prediction sets that offer finite sample control of type 1 errors, a property shared with conformal prediction sets, but this new approach also offers more versatile tools for imprecise probabilistic reasoning. Furthermore, I propose and consider the theoretical and empirical properties of a precise probabilistic approximation to the model-free imprecise framework. Approximating a belief/plausibility measure pair by an [optimal in some sense] probability measure in the credal set is a critical resolution needed for the broader adoption of imprecise probabilistic approaches to inference in statistical and machine learning communities. It is largely undetermined in the statistical and machine learning literatures, more generally, how to properly quantify uncertainty in that there is no generally accepted standard of accountability of stated uncertainties. The research I present in this manuscript is aimed at motivating a framework for statistical inference with reliability and accountability as the guiding principles.
翻訳日:2023-07-25 16:03:20 公開日:2023-07-24
# 全パラメータ状態における対称量子信号処理のロバスト反復法

Robust iterative method for symmetric quantum signal processing in all parameter regimes ( http://arxiv.org/abs/2307.12468v1 )

ライセンス: Link先を確認
Yulong Dong, Lin Lin, Hongkang Ni and Jiasu Wang(参考訳) 本稿では,量子コンピュータ上で行列関数を実装する強力な手法である対称量子信号処理(qsp)の文脈において,非線形システムを解く問題に対処する。 対称 QSP は、目的多項式を対称性を持つ SU(2) の行列の積として表現することに焦点を当てる。 本稿では,対称qspフレームワーク内の位相因子を決定する非線形系を効率的に解くための新しいニュートン法を提案する。 本手法は,標準倍精度演算を用いたジャコビアン行列の難解なシナリオを含む,すべてのパラメータレジームにおける高速でロバストな収束を示す。 例えば、高振動のターゲット関数である$\alpha \cos(1000 x)$ (polynomial degree $\approx 1433$) に対する対称qspの解は、$\alpha=0.9$ のとき機械の精度に収束するために6ドルのイテレーションを要し、$\alpha=1-10^{-9}$ が高条件のヤコビ行列を持つ場合、反復数は$18$まで増加する。 行列積を利用して対称QSPの構造を述べると、ヤコビ行列の計算は単一の関数評価に匹敵する計算コストを発生させる。 さらに,実数演算を用いた対称qspの再構成を導入し,その効率をさらに向上させる。 大規模数値実験により,QSPPACKソフトウェアパッケージに実装されているアプローチの有効性とロバスト性を検証した。

This paper addresses the problem of solving nonlinear systems in the context of symmetric quantum signal processing (QSP), a powerful technique for implementing matrix functions on quantum computers. Symmetric QSP focuses on representing target polynomials as products of matrices in SU(2) that possess symmetry properties. We present a novel Newton's method tailored for efficiently solving the nonlinear system involved in determining the phase factors within the symmetric QSP framework. Our method demonstrates rapid and robust convergence in all parameter regimes, including the challenging scenario with ill-conditioned Jacobian matrices, using standard double precision arithmetic operations. For instance, solving symmetric QSP for a highly oscillatory target function $\alpha \cos(1000 x)$ (polynomial degree $\approx 1433$) takes $6$ iterations to converge to machine precision when $\alpha=0.9$, and the number of iterations only increases to $18$ iterations when $\alpha=1-10^{-9}$ with a highly ill-conditioned Jacobian matrix. Leveraging the matrix product states the structure of symmetric QSP, the computation of the Jacobian matrix incurs a computational cost comparable to a single function evaluation. Moreover, we introduce a reformulation of symmetric QSP using real-number arithmetics, further enhancing the method's efficiency. Extensive numerical tests validate the effectiveness and robustness of our approach, which has been implemented in the QSPPACK software package.
翻訳日:2023-07-25 16:03:03 公開日:2023-07-24
# データ蒸留再考:キャリブレーションを見過ごさない

Rethinking Data Distillation: Do Not Overlook Calibration ( http://arxiv.org/abs/2307.12463v1 )

ライセンス: Link先を確認
Dongyao Zhu, Bowen Lei, Jie Zhang, Yanbo Fang, Ruqi Zhang, Yiqun Xie, Dongkuan Xu(参考訳) 蒸留データに基づいてトレーニングされたニューラルネットワークは、しばしば過信出力を生成し、校正法による補正を必要とする。 温度スケーリングやミックスアップといった既存のキャリブレーション手法は、元の大規模データでトレーニングされたネットワークに対してうまく機能する。 しかし,これらの手法は,大規模なデータセットから抽出したデータに基づいてトレーニングされたネットワークの校正に失敗する。 本稿では, 蒸留したデータが, 校正不能なネットワークにつながることを示す。 (i)最大ロジット及び最大ロジットのより集中した分布 (ii)意味的に意味があるが分類課題とは無関係な情報の喪失。 この問題を解決するために, 蒸留データの限界を緩和し, データセット蒸留の効率を維持しつつ, キャリブレーションの精度を向上するMasked Temperature Scaling (MTS) と Masked Distillation Training (MDT) を提案する。

Neural networks trained on distilled data often produce over-confident output and require correction by calibration methods. Existing calibration methods such as temperature scaling and mixup work well for networks trained on original large-scale data. However, we find that these methods fail to calibrate networks trained on data distilled from large source datasets. In this paper, we show that distilled data lead to networks that are not calibratable due to (i) a more concentrated distribution of the maximum logits and (ii) the loss of information that is semantically meaningful but unrelated to classification tasks. To address this problem, we propose Masked Temperature Scaling (MTS) and Masked Distillation Training (MDT) which mitigate the limitations of distilled data and achieve better calibration results while maintaining the efficiency of dataset distillation.
翻訳日:2023-07-25 16:02:29 公開日:2023-07-24
# ReLU浅層ニューラルネットワークによる近似の速度

Rates of Approximation by ReLU Shallow Neural Networks ( http://arxiv.org/abs/2307.12461v1 )

ライセンス: Link先を確認
Tong Mao and Ding-Xuan Zhou(参考訳) 修正線形単位(ReLU)によって活性化されるニューラルネットワークは、近年のディープラーニングの発展において中心的な役割を果たす。 これらのネットワークによるh\"older空間からの近似関数の話題は、誘導学習アルゴリズムの効率を理解する上で重要である。 この話題は、多くの隠れたニューロンの層を持つディープニューラルネットワークの設定においてよく研究されているが、隠れた層が1つしかない浅いネットワークには依然としてオープンである。 本稿では,これらのネットワークによる一様近似率を提案する。 隠れたニューロンを持つReLU浅部ニューラルネットワークは、$r<d/2 +2$のとき、$O((\log m)^{\frac{1}{2} +d}m^{-\frac{r}{d}\frac{d+2}{d+4}})$のとき、H\"古い空間$W_\infty^r([-1, 1]^d)$の関数を均一に近似することができることを示す。 このようなレートは、$d$が大きければ$\frac{d+2}{d+4}$が$$に近いという意味で、最適な1ドルの$o(m^{-\frac{r}{d}})に非常に近い。

Neural networks activated by the rectified linear unit (ReLU) play a central role in the recent development of deep learning. The topic of approximating functions from H\"older spaces by these networks is crucial for understanding the efficiency of the induced learning algorithms. Although the topic has been well investigated in the setting of deep neural networks with many layers of hidden neurons, it is still open for shallow networks having only one hidden layer. In this paper, we provide rates of uniform approximation by these networks. We show that ReLU shallow neural networks with $m$ hidden neurons can uniformly approximate functions from the H\"older space $W_\infty^r([-1, 1]^d)$ with rates $O((\log m)^{\frac{1}{2} +d}m^{-\frac{r}{d}\frac{d+2}{d+4}})$ when $r<d/2 +2$. Such rates are very close to the optimal one $O(m^{-\frac{r}{d}})$ in the sense that $\frac{d+2}{d+4}$ is close to $1$, when the dimension $d$ is large.
翻訳日:2023-07-25 16:02:12 公開日:2023-07-24
# Convolutional Vision Transformer を用いたRobust Face Anti-Spoofing フレームワーク

Robust face anti-spoofing framework with Convolutional Vision Transformer ( http://arxiv.org/abs/2307.12459v1 )

ライセンス: Link先を確認
Yunseung Lee, Youngjun Kwak, Jinho Shin(参考訳) 画像処理技術や大規模データセットの進歩により、企業は顔認証プロセスを導入し、現実的なプレゼンテーション攻撃に対する顔の反偽造(FAS)への注目が高まりつつある。 近年,顔画像のグローバルな学習と局所的な学習の両方による顔認識性能の向上が試みられているが,本研究では,自己注意層と畳み込み層を用いて捉えた顔画像のグローバル情報と局所的手がかりを考慮し,FASのドメインシフトに対する堅牢性が向上するかどうかを考察する最初の試みである。 本研究では,様々な領域データに対してロバストな性能を実現する畳み込み型視覚トランスフォーマーフレームワークを提案する。 その結果、畳み込みニューラルネットワークや視覚変換器のみを用いたモデルと比較して、FAS性能は7.3%$p$と12.9%$p$上昇した。 また、ドメイン一般化のための他の9つのベンチマークモデルよりも、クロスデータセット設定のサブプロトコールにおける最も高い平均ランクを示す。

Owing to the advances in image processing technology and large-scale datasets, companies have implemented facial authentication processes, thereby stimulating increased focus on face anti-spoofing (FAS) against realistic presentation attacks. Recently, various attempts have been made to improve face recognition performance using both global and local learning on face images; however, to the best of our knowledge, this is the first study to investigate whether the robustness of FAS against domain shifts is improved by considering global information and local cues in face images captured using self-attention and convolutional layers. This study proposes a convolutional vision transformer-based framework that achieves robust performance for various unseen domain data. Our model resulted in 7.3%$p$ and 12.9%$p$ increases in FAS performance compared to models using only a convolutional neural network or vision transformer, respectively. It also shows the highest average rank in sub-protocols of cross-dataset setting over the other nine benchmark models for domain generalization.
翻訳日:2023-07-25 16:01:46 公開日:2023-07-24
# 領域一般化のためのクロスコントラスト特徴摂動

Cross Contrastive Feature Perturbation for Domain Generalization ( http://arxiv.org/abs/2307.12502v1 )

ライセンス: Link先を確認
Chenming Li, Daoan Zhang, Wenjian Huang, Jianguo Zhang(参考訳) ドメイン一般化(DG)は、未確認のターゲットドメインをうまく一般化するソースドメインから堅牢なモデルを学ぶことを目的としている。 最近の研究では、ソースドメインに補完する分布を多様化するための新しいドメインサンプルや機能の生成に焦点を当てている。 しかし、これらのアプローチは、様々なドメインから合成されたサンプルが意味的歪みを引き起こすという制限にほとんど対処できない。 本稿では,CCFP(Cross Contrasting Feature Perturbation)フレームワークを提案する。ドメインシフトに対するモデル予測を規則化しながら,潜在空間における摂動特徴を生成することで,ドメインシフトをシミュレートする。 従来の固定合成戦略とは異なり、学習可能な特徴摂動と意味的一貫性制約を持つモジュールを設計する。 先行研究とは対照的に,本手法では生成型モデルやドメインラベルは使用しない。 公正な比較のための厳密な評価プロトコルを用いて、標準のDomainBedベンチマークで広範な実験を行う。 包括的実験により,本手法は従来の最先端技術よりも優れており,定量的に解析した結果,out-of-distribution (ood) シナリオにおけるドメインシフト問題を軽減できることがわかった。

Domain generalization (DG) aims to learn a robust model from source domains that generalize well on unseen target domains. Recent studies focus on generating novel domain samples or features to diversify distributions complementary to source domains. Yet, these approaches can hardly deal with the restriction that the samples synthesized from various domains can cause semantic distortion. In this paper, we propose an online one-stage Cross Contrasting Feature Perturbation (CCFP) framework to simulate domain shift by generating perturbed features in the latent space while regularizing the model prediction against domain shift. Different from the previous fixed synthesizing strategy, we design modules with learnable feature perturbations and semantic consistency constraints. In contrast to prior work, our method does not use any generative-based models or domain labels. We conduct extensive experiments on a standard DomainBed benchmark with a strict evaluation protocol for a fair comparison. Comprehensive experiments show that our method outperforms the previous state-of-the-art, and quantitative analyses illustrate that our approach can alleviate the domain shift problem in out-of-distribution (OOD) scenarios.
翻訳日:2023-07-25 15:53:39 公開日:2023-07-24
# ロバストスパース位相差を用いた光電子軌道トモグラフィ

Photoemission Orbital Tomography Using Robust Sparse PhaseLift ( http://arxiv.org/abs/2307.12500v1 )

ライセンス: Link先を確認
Kaori Niki, Rena Asano, Ryuji Sakanoue, Manabu Hagiwara, Kazushi Mimura(参考訳) 光電子運動量マップ(PMM)からの光電子軌道トモグラフィ(POT)は、吸着状態における分子軌道の形状とエネルギーの詳細な解析を可能にした。 本研究では,PhaseLiftに基づく新しいPOT手法を提案する。 三次元相を含む分子軌道は、原子の位置と基底を積極的に提供することによって単一のPMMから特定することができる。 さらに, 本手法は騒音に対して頑健であり, 0.05 [angstrom] の精度で吸着誘起分子変形を完全に判別できる。 分子と分子軌道の3次元形状の同時解析が可能となり,吸着誘起電子状態変化と光励起分子間相互作用の量子力学的解釈の先進的な道を開いた。

Photoemission orbital tomography (POT) from photoelectron momentum maps (PMMs) has enabled detailed analysis of the shape and energy of molecular orbitals in the adsorbed state. This study proposes a new POT method based on the PhaseLift. Molecular orbitals, including three-dimensional phases, can be identified from a single PMM by actively providing atomic positions and basis. Moreover, our method is robust to noise and can perfectly discriminate adsorption-induced molecular deformations with an accuracy of 0.05 [angstrom]. Our new method enables simultaneous analysis of the three-dimensional shapes of molecules and molecular orbitals and thus paves the way for advanced quantum-mechanical interpretation of adsorption-induced electronic state changes and photo-excited inter-molecular interactions.
翻訳日:2023-07-25 15:53:16 公開日:2023-07-24
# AdvDiff:拡散モデルを用いた非制限逆例の生成

AdvDiff: Generating Unrestricted Adversarial Examples using Diffusion Models ( http://arxiv.org/abs/2307.12499v1 )

ライセンス: Link先を確認
Xuelong Dai, Kaisheng Liang and Bin Xiao(参考訳) 制限のない敵攻撃は、深層学習モデルや敵防衛技術に深刻な脅威をもたらす。 防御機構を効果的にバイパスできるため、深層学習アプリケーションには深刻なセキュリティ問題が発生する。 しかし、従来の攻撃手法では、理論的に証明不可能なGAN(Generative Adversarial Networks)がよく使われており、特にImageNetのような大規模データセットにおいて、敵の目的を組み込んで非現実的な例を生成する。 本稿では,拡散モデルを用いた非制限逆例を生成するAdvDiffという新しい手法を提案する。 本研究では,拡散モデルの逆生成過程において,新たな2つの逆サンプリング手法を設計する。 これら2つの手法は、ターゲット分類器の勾配を解釈可能に統合することにより、高品質で現実的な逆例を生成するのに効果的で安定である。 MNIST と ImageNet データセットの実験結果から,AdvDiff は攻撃性能と生成品質の点で GAN ベースの手法よりも優れた非制限逆例を生成するのに有効であることが示された。

Unrestricted adversarial attacks present a serious threat to deep learning models and adversarial defense techniques. They pose severe security problems for deep learning applications because they can effectively bypass defense mechanisms. However, previous attack methods often utilize Generative Adversarial Networks (GANs), which are not theoretically provable and thus generate unrealistic examples by incorporating adversarial objectives, especially for large-scale datasets like ImageNet. In this paper, we propose a new method, called AdvDiff, to generate unrestricted adversarial examples with diffusion models. We design two novel adversarial guidance techniques to conduct adversarial sampling in the reverse generation process of diffusion models. These two techniques are effective and stable to generate high-quality, realistic adversarial examples by integrating gradients of the target classifier interpretably. Experimental results on MNIST and ImageNet datasets demonstrate that AdvDiff is effective to generate unrestricted adversarial examples, which outperforms GAN-based methods in terms of attack performance and generation quality.
翻訳日:2023-07-25 15:52:57 公開日:2023-07-24
# wavaugment guided phoneme adversarial trainingによるロバスト自動音声認識

Robust Automatic Speech Recognition via WavAugment Guided Phoneme Adversarial Training ( http://arxiv.org/abs/2307.12498v1 )

ライセンス: Link先を確認
Gege Qi, Yuefeng Chen, Xiaofeng Mao, Xiaojun Jia, Ranjie Duan, Rong Zhang, Hui Xue(参考訳) クリーンなサンプルで元の性能を維持するだけでなく、少量の摂動と大きな領域シフトで一貫した有効性を達成するため、実質的にロバストな自動音声認識(asr)の開発は困難である。 そこで本研究では,WavAugment Guided Phoneme Adversarial Training (wapat)を提案する。 Wapatは音素空間の逆例を拡張として使用し、音素表現の小さな変動にモデルを不変にし、クリーンなサンプルの性能を維持する。 さらに, 拡張サンプルの音素表現を利用して, 敵生成を導くことにより, より安定で多様な勾配方向を見つけることができ, 一般化が向上する。 広範な実験により、エンドツーエンド音声チャレンジベンチマーク(esb)におけるwapatの有効性が実証された。 特に speechlm-wapat は、esb のオリジナルのモデルを 6.28% 削減し、新しい最先端を実現した。

Developing a practically-robust automatic speech recognition (ASR) is challenging since the model should not only maintain the original performance on clean samples, but also achieve consistent efficacy under small volume perturbations and large domain shifts. To address this problem, we propose a novel WavAugment Guided Phoneme Adversarial Training (wapat). wapat use adversarial examples in phoneme space as augmentation to make the model invariant to minor fluctuations in phoneme representation and preserve the performance on clean samples. In addition, wapat utilizes the phoneme representation of augmented samples to guide the generation of adversaries, which helps to find more stable and diverse gradient-directions, resulting in improved generalization. Extensive experiments demonstrate the effectiveness of wapat on End-to-end Speech Challenge Benchmark (ESB). Notably, SpeechLM-wapat outperforms the original model by 6.28% WER reduction on ESB, achieving the new state-of-the-art.
翻訳日:2023-07-25 15:52:26 公開日:2023-07-24
# 浅層ネットワーク学習のための高速で簡単なアルゴリズム

A faster and simpler algorithm for learning shallow networks ( http://arxiv.org/abs/2307.12496v1 )

ライセンス: Link先を確認
Sitan Chen, Shyam Narayanan(参考訳) 標準的な$d$次元ガウス測度から得られたラベル付き例から、$k$ReLUアクティベーションの線形結合を学習するよく研究された問題を再考する。 チェンなど。 [cdg+23] 最近、この問題に対する最初のアルゴリズムが$\text{poly}(d,1/\varepsilon)$ time when $k = o(1)$、ただし$\varepsilon$がターゲットエラーである。 より正確には、それらのアルゴリズムは時間$(d/\varepsilon)^{\mathrm{quasipoly}(k)}$で実行され、複数の段階から学習する。 ここでは、アルゴリズムのより単純なワンステージバージョンが十分であることを示し、そのランタイムは$(d/\varepsilon)^{O(k^2)}$である。

We revisit the well-studied problem of learning a linear combination of $k$ ReLU activations given labeled examples drawn from the standard $d$-dimensional Gaussian measure. Chen et al. [CDG+23] recently gave the first algorithm for this problem to run in $\text{poly}(d,1/\varepsilon)$ time when $k = O(1)$, where $\varepsilon$ is the target error. More precisely, their algorithm runs in time $(d/\varepsilon)^{\mathrm{quasipoly}(k)}$ and learns over multiple stages. Here we show that a much simpler one-stage version of their algorithm suffices, and moreover its runtime is only $(d/\varepsilon)^{O(k^2)}$.
翻訳日:2023-07-25 15:51:51 公開日:2023-07-24
# TF-ICON:拡散型学習自由領域画像合成

TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition ( http://arxiv.org/abs/2307.12493v1 )

ライセンス: Link先を確認
Shilin Lu, Yanzhu Liu, Adams Wai-Kin Kong(参考訳) テキスト駆動拡散モデルは印象的な生成能力を示し、様々な画像編集タスクを可能にした。 本稿では,クロスドメイン画像誘導合成のためのテキスト駆動拡散モデルのパワーを利用する,新しいトレーニング自由画像合成フレームワークTF-ICONを提案する。 このタスクは、ユーザが提供するオブジェクトを視覚的なコンテキストにシームレスに統合することを目的としている。 現在の拡散ベースの方法は、多くの場合、カスタマイズされたデータセット上で事前学習されたモデルのコストのかかるインスタンスベースの最適化や微調整を伴う。 対照的に、TF-ICONはオフザシェルフ拡散モデルを利用して、追加のトレーニング、微調整、最適化を必要とせずにクロスドメイン画像誘導合成を行うことができる。 さらに,実画像を正確に潜在表現に変換し,合成の基礎を形成するテキスト駆動拡散モデルを容易にするために,情報を持たない例外的なプロンプトを導入する。 実験により, 安定拡散を異常なプロンプトと組み合わせることで, 様々なデータセット(CelebA-HQ, COCO, ImageNet)における最先端の逆解析手法よりも優れており, TF-ICONは, 汎用視覚領域において従来のベースラインを超越していることがわかった。 コードはhttps://github.com/Shilin-LU/TF-ICONで入手できる。

Text-driven diffusion models have exhibited impressive generative capabilities, enabling various image editing tasks. In this paper, we propose TF-ICON, a novel Training-Free Image COmpositioN framework that harnesses the power of text-driven diffusion models for cross-domain image-guided composition. This task aims to seamlessly integrate user-provided objects into a specific visual context. Current diffusion-based methods often involve costly instance-based optimization or finetuning of pretrained models on customized datasets, which can potentially undermine their rich prior. In contrast, TF-ICON can leverage off-the-shelf diffusion models to perform cross-domain image-guided composition without requiring additional training, finetuning, or optimization. Moreover, we introduce the exceptional prompt, which contains no information, to facilitate text-driven diffusion models in accurately inverting real images into latent representations, forming the basis for compositing. Our experiments show that equipping Stable Diffusion with the exceptional prompt outperforms state-of-the-art inversion methods on various datasets (CelebA-HQ, COCO, and ImageNet), and that TF-ICON surpasses prior baselines in versatile visual domains. Code is available at https://github.com/Shilin-LU/TF-ICON
翻訳日:2023-07-25 15:51:31 公開日:2023-07-24
# パスフィンディング問題に対する量子アルゴリズムの指数的高速化

Exponential speedup of quantum algorithms for the pathfinding problem ( http://arxiv.org/abs/2307.12492v1 )

ライセンス: Link先を確認
Jianqiang Li(参考訳) unweighted undirected graph $g$の$s, t$が与えられると、pathfinding問題の目標は$s$-$t$パスを見つけることである。 この作業では、最初に溶接木に基づくグラフ$g$を構築し、隣接リストであるoracle $o$でパス検索問題を定義します。 次に、グラフの$G$で$s$-$t$パスを見つけるための効率的な量子アルゴリズムを提供する。 最後に、古典的なアルゴリズムが確率の高い指数時間で$s$-$t$パスを見つけることはできないことを証明した。 パスフィンディング問題はグラフに関する基本的な問題の1つである。 量子アルゴリズムは, 様々な分野における量子計算の実用化に向けて, パスフィニング問題を解き, 新たな可能性を開くために, より多くの種類のグラフに利点をもたらす可能性が示唆された。

Given $s, t$ in an unweighted undirected graph $G$, the goal of the pathfinding problem is to find an $s$-$t$ path. In this work, we first construct a graph $G$ based on welded trees and define a pathfinding problem in the adjacency list oracle $O$. Then we provide an efficient quantum algorithm to find an $s$-$t$ path in the graph $G$. Finally, we prove that no classical algorithm can find an $s$-$t$ path in subexponential time with high probability. The pathfinding problem is one of the fundamental graph-related problems. Our findings suggest that quantum algorithms may potentially offer advantages in more types of graphs to solve the pathfinding problem and open up new possibilities for practical applications of quantum computations in various fields.
翻訳日:2023-07-25 15:50:51 公開日:2023-07-24
# グラフ畳み込みネットワークを用いた普遍性とロバストな3次元分子表現の学習

Learning Universal and Robust 3D Molecular Representations with Graph Convolutional Networks ( http://arxiv.org/abs/2307.12491v1 )

ライセンス: Link先を確認
Shuo Zhang, Yang Liu, Li Xie, Lei Xie(参考訳) 分子の正確な表現を学ぶためには、化学的特徴と幾何学的特徴の両方を考えることが不可欠である。 幾何学的情報をエンコードするために、特定の種類の分子の制約された状況下で多くの記述子が提案され、「ロバスト」となる性質を持たない。 1. 回転及び翻訳の不変性 2. 分子構造を埋め込む際の注入性。 本研究では,3次元分子のグラフ表現に基づく汎用かつ堅牢な指向性ノードペア(DNP)記述法を提案する。 我々のDNP記述子は以前のものに比べて頑丈であり、複数の分子タイプに適用できる。 分子のDNP記述子と化学的特徴を組み合わせるために,分子表現を生成する際,ノードとエッジの両方の特徴を考慮に入れたRoM-GCN(Roust Molecular Graph Convolutional Network)を構築した。 タンパク質および小分子データセットのモデルを評価する。 分子の3次元幾何情報を組み込む際にDNP記述子の優位性を検証した。 RoM-GCNは、比較されたベースラインすべてより優れています。

To learn accurate representations of molecules, it is essential to consider both chemical and geometric features. To encode geometric information, many descriptors have been proposed in constrained circumstances for specific types of molecules and do not have the properties to be ``robust": 1. Invariant to rotations and translations; 2. Injective when embedding molecular structures. In this work, we propose a universal and robust Directional Node Pair (DNP) descriptor based on the graph representations of 3D molecules. Our DNP descriptor is robust compared to previous ones and can be applied to multiple molecular types. To combine the DNP descriptor and chemical features in molecules, we construct the Robust Molecular Graph Convolutional Network (RoM-GCN) which is capable to take both node and edge features into consideration when generating molecule representations. We evaluate our model on protein and small molecule datasets. Our results validate the superiority of the DNP descriptor in incorporating 3D geometric information of molecules. RoM-GCN outperforms all compared baselines.
翻訳日:2023-07-25 15:50:35 公開日:2023-07-24
# 量子ネットワークの絡み合い:力学、エナリング技術、課題、研究の方向性

Entanglement-Assisted Quantum Networks: Mechanics, Enabling Technologies, Challenges, and Research Directions ( http://arxiv.org/abs/2307.12490v1 )

ライセンス: Link先を確認
Zhonghui Li, Kaiping Xue, Jian Li, Lutong Chen, Ruidong Li, Zhaoying Wang, Nenghai Yu, David S.L. Wei, Qibin Sun, Jun Lu(参考訳) 過去数十年間、理論研究から実験的実証まで、量子情報技術において大きな進歩を遂げてきた。 革命的量子アプリケーションは現在ライムライトにあり、量子情報技術の利点を示し、学術や産業における研究ホットスポットとなっている。 量子アプリケーションがより深い影響とより広い応用をもたらすために、量子チャネルを介して複数の量子ノードの相互接続が不可欠である。 量子ノード間の量子情報伝送を実現するエンタングルメント支援量子ネットワークの構築が主な目標である。 しかし、絡み合い支援量子ネットワークは、重ね合わせ原理、無閉定理、量子絡み合いといった量子力学のユニークな法則によって制御され、古典的ネットワークとは区別される。 そのため、絡み合い支援量子ネットワークの確立には基本的な取り組みが必要である。 いくつかの洞察に富んだ調査は、絡み合い支援量子ネットワークの道を開いたが、これらの研究の大半は、重要なネットワーク問題を無視した技術と量子アプリケーションの実現に焦点を当てている。 本報告では,量子ネットワークの絡み合いに関する包括的調査を行う。 本論文は,基本力学の見直しと有効化技術に加えて,ネットワーク構造,作業原理,開発段階の詳細な概要を提供し,古典的ネットワークとの差異を明らかにする。 さらに、広域絡み合い支援量子ネットワーク構築の課題にも対処している。 さらに,今後の絡み合い支援量子ネットワークの実現を促進するため,アーキテクチャ設計,絡み合いベースのネットワーク問題,標準化など,オープン研究の方向性を強調する。

Over the past few decades, significant progress has been made in quantum information technology, from theoretical studies to experimental demonstrations. Revolutionary quantum applications are now in the limelight, showcasing the advantages of quantum information technology and becoming a research hotspot in academia and industry. To enable quantum applications to have a more profound impact and wider application, the interconnection of multiple quantum nodes through quantum channels becomes essential. Building an entanglement-assisted quantum network, capable of realizing quantum information transmission between these quantum nodes, is the primary goal. However, entanglement-assisted quantum networks are governed by the unique laws of quantum mechanics, such as the superposition principle, the no-cloning theorem, and quantum entanglement, setting them apart from classical networks. Consequently, fundamental efforts are required to establish entanglement-assisted quantum networks. While some insightful surveys have paved the way for entanglement-assisted quantum networks, most of these studies focus on enabling technologies and quantum applications, neglecting critical network issues. In response, this paper presents a comprehensive survey of entanglement-assisted quantum networks. Alongside reviewing fundamental mechanics and enabling technologies, the paper provides a detailed overview of the network structure, working principles, and development stages, highlighting the differences from classical networks. Additionally, the challenges of building wide-area entanglement-assisted quantum networks are addressed. Furthermore, the paper emphasizes open research directions, including architecture design, entanglement-based network issues, and standardization, to facilitate the implementation of future entanglement-assisted quantum networks.
翻訳日:2023-07-25 15:50:19 公開日:2023-07-24
# ソフトウェアセキュリティのためのChatGPT - セキュリティアプリケーションにおけるChatGPTの強みと限界を探る

ChatGPT for Software Security: Exploring the Strengths and Limitations of ChatGPT in the Security Applications ( http://arxiv.org/abs/2307.12488v1 )

ライセンス: Link先を確認
Zhilong Wang, Lan Zhang, Peng Liu(参考訳) ChatGPTは多目的な大規模言語モデルであり、様々な領域にわたる問合せに対処する大きな可能性を証明している。 オンラインソースとユーザ入力の両方から情報を分析し、理解し、合成する能力は、大きな注目を集めている。 コード生成とコードレビューにおけるChatGPTの能力について、これまでも研究されてきた。 本稿では,セキュリティ指向プログラム分析におけるChatGPTの機能について,攻撃者とセキュリティアナリストの両面から考察する。 本稿では,chatgptの応答を評価するための課題を意図的に導入しながら,セキュリティ指向のプログラム分析タスクを複数実施したケーススタディを提案する。 ChatGPTによる回答の質の検証を通じて,セキュリティ指向プログラム分析の領域におけるその強みと限界を明確に把握する。

ChatGPT, as a versatile large language model, has demonstrated remarkable potential in addressing inquiries across various domains. Its ability to analyze, comprehend, and synthesize information from both online sources and user inputs has garnered significant attention. Previous research has explored ChatGPT's competence in code generation and code reviews. In this paper, we delve into ChatGPT's capabilities in security-oriented program analysis, focusing on perspectives from both attackers and security analysts. We present a case study involving several security-oriented program analysis tasks while deliberately introducing challenges to assess ChatGPT's responses. Through an examination of the quality of answers provided by ChatGPT, we gain a clearer understanding of its strengths and limitations in the realm of security-oriented program analysis.
翻訳日:2023-07-25 15:49:52 公開日:2023-07-24
# 医学レポート生成の再考: ナレッジグラフによる疾患の顕在化

Rethinking Medical Report Generation: Disease Revealing Enhancement with Knowledge Graph ( http://arxiv.org/abs/2307.12526v1 )

ライセンス: Link先を確認
Yixin Wang, Zihao Lin, Haoyu Dong(参考訳) ナレッジグラフ(kg)は,疾患間の関係を明らかにし,その発生過程の指導に利用できるため,医療報告書生成(mrg)において重要な役割を果たす。 しかし, 包括的kgの構築は労働集約的であり, mrgプロセスへの応用は未検討である。 本研究では,137種類の疾患と異常を含む胸部X線画像の完全KGを確立する。 このKGに基づいて、現在のMRGデータセットは、病気の分布において長期にわたる問題を示す。 この問題を軽減するため,本研究では,病型分布のテールエンドにおける表現性を高める新しい拡張戦略を提案する。 さらに,入力画像が異常を呈するかどうかを識別するために分類器をまず訓練する2段階mcg法も設計する。 分類された画像は独立して、2つの変換器ベースのジェネレータ、すなわち ``disease-specific generator" と ``disease-free generator" に供給され、対応するレポートを生成する。 入力画像に現れる疾患を正しく記述するか否かの臨床的評価を高めるために, 生成した疾患が真実と一致しているかを確認し, 発生した疾患の多様性を測定する新しい指標である多彩な感度(DS)を提案する。 以上の結果から,提案した2段階生成フレームワークと拡張戦略はDSをかなり改善し,低発現疾患に関連する長期的課題の顕著な減少が示唆された。

Knowledge Graph (KG) plays a crucial role in Medical Report Generation (MRG) because it reveals the relations among diseases and thus can be utilized to guide the generation process. However, constructing a comprehensive KG is labor-intensive and its applications on the MRG process are under-explored. In this study, we establish a complete KG on chest X-ray imaging that includes 137 types of diseases and abnormalities. Based on this KG, we find that the current MRG data sets exhibit a long-tailed problem in disease distribution. To mitigate this problem, we introduce a novel augmentation strategy that enhances the representation of disease types in the tail-end of the distribution. We further design a two-stage MRG approach, where a classifier is first trained to detect whether the input images exhibit any abnormalities. The classified images are then independently fed into two transformer-based generators, namely, ``disease-specific generator" and ``disease-free generator" to generate the corresponding reports. To enhance the clinical evaluation of whether the generated reports correctly describe the diseases appearing in the input image, we propose diverse sensitivity (DS), a new metric that checks whether generated diseases match ground truth and measures the diversity of all generated diseases. Results show that the proposed two-stage generation framework and augmentation strategies improve DS by a considerable margin, indicating a notable reduction in the long-tailed problem associated with under-represented diseases.
翻訳日:2023-07-25 15:44:17 公開日:2023-07-24
# VSXC-LSTMアルゴリズムによる地すべり面の変位予測

Landslide Surface Displacement Prediction Based on VSXC-LSTM Algorithm ( http://arxiv.org/abs/2307.12524v1 )

ライセンス: Link先を確認
Menglin Kong, Ruichen Li, Fan Liu, Xingquan Li, Juan Cheng, Muzhou Hou, Cong Cao(参考訳) 地すべりは自然災害であり、地元の生態、人々の生活、財産を脅かすことができる。 本稿では,最近の地すべりの地すべりに関する実一方向の地すべりデータに関するモデル研究を行い,変動モード分解に基づくvmd-segsigmoid-xgboost-clusterlstm (vsxc-lstm) と呼ばれる時系列予測フレームワークを提案し,地すべり面変位をより正確に予測する。 モデルはテストセットでうまく機能します。 適合しにくいランダムアイテム列を除いて、トレンドアイテム列と周期アイテム列のルート平均二乗誤差(RMSE)および平均絶対パーセンテージ誤差(MAPE)は0.1未満であり、このRMSEはXGBoost\footnote{Accepted in ICANN2023}に基づく周期アイテム予測モジュールに対して0.006以下である。

Landslide is a natural disaster that can easily threaten local ecology, people's lives and property. In this paper, we conduct modelling research on real unidirectional surface displacement data of recent landslides in the research area and propose a time series prediction framework named VMD-SegSigmoid-XGBoost-ClusterLSTM (VSXC-LSTM) based on variational mode decomposition, which can predict the landslide surface displacement more accurately. The model performs well on the test set. Except for the random item subsequence that is hard to fit, the root mean square error (RMSE) and the mean absolute percentage error (MAPE) of the trend item subsequence and the periodic item subsequence are both less than 0.1, and the RMSE is as low as 0.006 for the periodic item prediction module based on XGBoost\footnote{Accepted in ICANN2023}.
翻訳日:2023-07-25 15:43:51 公開日:2023-07-24
# キャビティエンハンスドおよび空間マルチモードスピン波光子量子界面

Cavity-enhanced and spatial-multimode spin-wave-photon quantum interface ( http://arxiv.org/abs/2307.12523v1 )

ライセンス: Link先を確認
Minjie Wang, Haole Jiao, Jiajin Lu, Wenxin Fan, Zhifang Yang, Mengqi Xi, Shujing Li, Hai Wang(参考訳) 量子リピータの実用的な実現には、高い検索効率、長寿命、マルチモードストレージを同時に提供する量子メモリが必要である。 これまでのところ、高い検索効率と空間多重化ストレージを1つのメモリに組み合わせることは難しい。 ここでは,6 tem00モードを含む配列をサポートするリングキャビティを設定し,そのキャビティ拡張および空間多重スピン波フォトン量子インタフェース(qi)を実演した。 空洞配置はフェルマーの光学定理に従っており、6つのモードはラウンドトリップ毎に同じ光学的長さを経験することができる。 各モードは水平偏光と垂直偏光を含む。 低温原子アンサンブルにおけるDLCZ過程により、12モードのスピン波とストークス光子の非古典的に相関する対を生成する。 多重SWから取得したフィールドは空洞により強化され、平均固有検索効率はゼロ遅延で70%に達する。 多重化QIの相互相関関数が 2 を超える場合の記憶時間は 0.6ms に達する。

Practical realizations of quantum repeaters require quantum memory simultaneously providing high retrieval efficiency, long lifetime and multimode storages. So far, the combination of high retrieval efficiency and spatially multiplexed storages into a single memory remains challenging. Here, we set up a ring cavity that supports an array including 6 TEM00 modes and then demonstrated cavity enhanced and spatially multiplexed spin wave photon quantum interface (QI). The cavity arrangement is according to Fermat' optical theorem, which enables the six modes to experience the same optical length per round trip. Each mode includesn horizontal and vertical polarizations. Via DLCZ process in a cold atomic ensemble, we create non classically correlated pairs of spin waves and Stokes photons in the 12 modes. The retrieved fields from the multiplexed SWs are enhanced by the cavity and the average intrinsic retrieval efficiency reaches 70% at zero delay. The storage time for the case that cross-correlation function of the multiplexed QI is beyond 2 reaches 0.6ms .
翻訳日:2023-07-25 15:43:27 公開日:2023-07-24
# Lost In Translation: ラウンドトリップ翻訳にロバストな逆例を生成する

Lost In Translation: Generating Adversarial Examples Robust to Round-Trip Translation ( http://arxiv.org/abs/2307.12520v1 )

ライセンス: Link先を確認
Neel Bhandari and Pin-Yu Chen(参考訳) 言語モデルは現在、多数の下流タスクに高い精度を提供している。 しかし、敵意攻撃の影響を受けやすいままであり、特に敵意の例が原文とかなり類似しているものに対してである。 テキストの多言語性を考えると、翻訳全体にわたる逆例の有効性や、機械翻訳が逆例の頑健性を改善する方法はほとんど解明されていない。 本稿では,現行のテキスト対向攻撃によるラウンドトリップ翻訳のロバスト性に関する包括的研究を行う。 6種類の最先端テキストベースの敵攻撃が、往復翻訳後の有効性を維持していないことを実証した。 さらに,機械翻訳を対数例生成のプロセスに統合し,ラウンドトリップ翻訳に対するロバスト性を高めることにより,この問題に対する介入型ソリューションを提案する。 この結果から, 言語間で共通する言語モデルの不十分さを識別し, 多言語対人攻撃のさらなる研究を動機付けることが示唆された。

Language Models today provide a high accuracy across a large number of downstream tasks. However, they remain susceptible to adversarial attacks, particularly against those where the adversarial examples maintain considerable similarity to the original text. Given the multilingual nature of text, the effectiveness of adversarial examples across translations and how machine translations can improve the robustness of adversarial examples remain largely unexplored. In this paper, we present a comprehensive study on the robustness of current text adversarial attacks to round-trip translation. We demonstrate that 6 state-of-the-art text-based adversarial attacks do not maintain their efficacy after round-trip translation. Furthermore, we introduce an intervention-based solution to this problem, by integrating Machine Translation into the process of adversarial example generation and demonstrating increased robustness to round-trip translation. Our results indicate that finding adversarial examples robust to translation can help identify the insufficiency of language models that is common across languages, and motivate further research into multilingual adversarial attacks.
翻訳日:2023-07-25 15:43:10 公開日:2023-07-24
# dephn:マルチタスク学習のための仮想勾配最適化を用いた表現並列ヘテロジニアスネットワーク

DEPHN: Different Expression Parallel Heterogeneous Network using virtual gradient optimization for Multi-task Learning ( http://arxiv.org/abs/2307.12519v1 )

ライセンス: Link先を確認
Menglin Kong, Ri Su, Shaojie Zhao, Muzhou Hou(参考訳) マルチタスク学習(mtl)に基づくレコメンデーションシステムアルゴリズムは、インターネットオペレーターがユーザを理解し、プラットフォームのマルチタスクシナリオにおける行動を予測するための主要な手法である。 タスク相関はMTL目標の重要な考慮事項であり、従来のモデルは共有ボットモデルを使用し、共有表現学習と情報分化を実現するために専門家をゲーティングする。 しかし、実世界のタスク間の関係は、既存のメソッドが適切に情報を共有しないよりも複雑であることが多い。 本稿では,複数のタスクを同時にモデル化する異なる式並列ヘテロジニアスネットワーク(dephn)を提案する。 DEPHNは、共有情報フローの一般化能力を改善するために、異なる特徴相互作用法を用いてモデルの下部に専門家を構築する。 異なるタスク情報フローに対するモデルの差別化能力の観点から、DEPHNはトレーニングプロセス中に専門家ゲーティングに特徴的明示的マッピングと仮想勾配係数を使用し、ゲーティング値とタスク相関の差を考慮してゲートユニットの学習強度を適応的に調整する。 人工および実世界のデータセットに関する広範囲な実験により,提案手法が複雑な状況下でタスク相関を捉え,ベースラインモデルより優れた性能を実現することを証明した。

Recommendation system algorithm based on multi-task learning (MTL) is the major method for Internet operators to understand users and predict their behaviors in the multi-behavior scenario of platform. Task correlation is an important consideration of MTL goals, traditional models use shared-bottom models and gating experts to realize shared representation learning and information differentiation. However, The relationship between real-world tasks is often more complex than existing methods do not handle properly sharing information. In this paper, we propose an Different Expression Parallel Heterogeneous Network (DEPHN) to model multiple tasks simultaneously. DEPHN constructs the experts at the bottom of the model by using different feature interaction methods to improve the generalization ability of the shared information flow. In view of the model's differentiating ability for different task information flows, DEPHN uses feature explicit mapping and virtual gradient coefficient for expert gating during the training process, and adaptively adjusts the learning intensity of the gated unit by considering the difference of gating values and task correlation. Extensive experiments on artificial and real-world datasets demonstrate that our proposed method can capture task correlation in complex situations and achieve better performance than baseline models\footnote{Accepted in IJCNN2023}.
翻訳日:2023-07-25 15:42:53 公開日:2023-07-24
# FaFCNN: 機能融合ニューラルネットワークに基づく一般的な疾患分類フレームワーク

FaFCNN: A General Disease Classification Framework Based on Feature Fusion Neural Networks ( http://arxiv.org/abs/2307.12518v1 )

ライセンス: Link先を確認
Menglin Kong, Shaojie Zhao, Juan Cheng, Xingquan Li, Ri Su, Muzhou Hou, Cong Cao(参考訳) 病気分類タスクにディープラーニング/機械学習手法を適用する上で,2つの基本的な問題が存在する。ひとつはトレーニングサンプルの不十分な数と品質の低さだ。もうひとつは,複数のソース機能を効果的に融合し,堅牢な分類モデルをトレーニングする方法だ。 人間の学習知識のプロセスにインスパイアされたこれらの問題に対処するため、我々は、ドメイン逆学習に基づく特徴認識相互作用モジュールと機能アライメントモジュールを導入する、特徴認識融合相関ニューラルネットワーク(FaFCNN)を提案する。 これは疾患分類のための一般的なフレームワークであり、FaFCNNは既存の手法がサンプル相関特徴を得る方法を改善する。 実験結果から,事前学習による強化特徴を用いた訓練により,無作為森林法よりも高い性能向上が得られた。 セットアップに大量の欠落データを持つ低品質データセットでは、FFCNNは、競合するベースラインと比較して一貫して最適なパフォーマンスが得られる。 さらに,提案手法のロバスト性や,IEEE SMC2023におけるモデル\footnote{Accepted in IEEE SMC2023} の各コンポーネントの有効性を実験的に検証した。

There are two fundamental problems in applying deep learning/machine learning methods to disease classification tasks, one is the insufficient number and poor quality of training samples; another one is how to effectively fuse multiple source features and thus train robust classification models. To address these problems, inspired by the process of human learning knowledge, we propose the Feature-aware Fusion Correlation Neural Network (FaFCNN), which introduces a feature-aware interaction module and a feature alignment module based on domain adversarial learning. This is a general framework for disease classification, and FaFCNN improves the way existing methods obtain sample correlation features. The experimental results show that training using augmented features obtained by pre-training gradient boosting decision tree yields more performance gains than random-forest based methods. On the low-quality dataset with a large amount of missing data in our setup, FaFCNN obtains a consistently optimal performance compared to competitive baselines. In addition, extensive experiments demonstrate the robustness of the proposed method and the effectiveness of each component of the model\footnote{Accepted in IEEE SMC2023}.
翻訳日:2023-07-25 15:42:28 公開日:2023-07-24
# Entropy Transformer Networks:Tangent Bundle Data Manifoldによる学習アプローチ

Entropy Transformer Networks: A Learning Approach via Tangent Bundle Data Manifold ( http://arxiv.org/abs/2307.12517v1 )

ライセンス: Link先を確認
Pourya Shamsolmoali, Masoumeh Zareapoor(参考訳) 本稿では,CNNアーキテクチャの設計における画像変換の高精度かつ高速な補間手法を提案する。 標準空間トランスフォーマーネットワーク(STN)は、その補間として双線型または線形補間を使用し、基礎となるデータ分布に関する非現実的な仮定により、スケールの変動下での性能が低下する。 さらに、STNは、粗い隣接画素に依存しているため、伝播の勾配のノルムを保たない。 この問題に対処するために、データ多様体分布を補間する新しいエントロピーSTN(ESTN)を提案する。 特に、データ多様体の接空間に関連する各画素に対してランダムサンプルを生成し、エントロピー正規化器を用いてその強度値の線形近似を構築し、トランスフォーマーパラメータを計算する。 また、畳み込み演算の非ゼロ値の正規化や、勾配の正規正規化のための層を微調整する簡単な手法も提案されている。 挑戦的なベンチマーク実験により、estnは画像再構成や分類を含む様々なコンピュータビジョンタスクよりも予測精度を向上でき、計算コストを低減できることが示された。

This paper focuses on an accurate and fast interpolation approach for image transformation employed in the design of CNN architectures. Standard Spatial Transformer Networks (STNs) use bilinear or linear interpolation as their interpolation, with unrealistic assumptions about the underlying data distributions, which leads to poor performance under scale variations. Moreover, STNs do not preserve the norm of gradients in propagation due to their dependency on sparse neighboring pixels. To address this problem, a novel Entropy STN (ESTN) is proposed that interpolates on the data manifold distributions. In particular, random samples are generated for each pixel in association with the tangent space of the data manifold and construct a linear approximation of their intensity values with an entropy regularizer to compute the transformer parameters. A simple yet effective technique is also proposed to normalize the non-zero values of the convolution operation, to fine-tune the layers for gradients' norm-regularization during training. Experiments on challenging benchmarks show that the proposed ESTN can improve predictive accuracy over a range of computer vision tasks, including image reconstruction, and classification, while reducing the computational cost.
翻訳日:2023-07-25 15:42:08 公開日:2023-07-24
# 時間グラフベンチマークの実証評価

An Empirical Evaluation of Temporal Graph Benchmark ( http://arxiv.org/abs/2307.12510v1 )

ライセンス: Link先を確認
Le Yu(参考訳) 本稿では,動的グラフライブラリ(DyGLib)をTGBに拡張することにより,時間グラフベンチマーク(TGB)の実証評価を行う。 TGBと比較して、より徹底的な比較のための11の人気のある動的グラフ学習方法を含む。 実験の結果,(1)不一致データ統計,不正確な評価メトリック計算など,現在のバージョンのtgbでは対処すべき課題がいくつかあること,(2)過去の観測結果と一致した様々なデータセット間で異なる性能を示す異なるモデル,(3)dyglib使用時のtgbの報告結果に対して,いくつかのベースラインのパフォーマンスが著しく改善できること,などが判明した。 本研究は,TGB上での動的グラフ学習手法の評価における研究者の取り組みの容易化と,フォローアップ研究に直接参照可能な結果の提供を目的とする。 このプロジェクトで使われるリソースはすべてhttps://github.com/yule-BUAA/DyGLib_TGBで公開されている。 この作業は進行中であり、コミュニティからのフィードバックは改善に歓迎されています。

In this paper, we conduct an empirical evaluation of Temporal Graph Benchmark (TGB) by extending our Dynamic Graph Library (DyGLib) to TGB. Compared with TGB, we include eleven popular dynamic graph learning methods for more exhaustive comparisons. Through the experiments, we find that (1) some issues need to be addressed in the current version of TGB, including mismatched data statistics, inaccurate evaluation metric computation, and so on; (2) different models depict varying performance across various datasets, which is in line with previous observations; (3) the performance of some baselines can be significantly improved over the reported results in TGB when using DyGLib. This work aims to ease the researchers' efforts in evaluating various dynamic graph learning methods on TGB and attempts to offer results that can be directly referenced in the follow-up research. All the used resources in this project are publicly available at https://github.com/yule-BUAA/DyGLib_TGB. This work is in progress, and feedback from the community is welcomed for improvements.
翻訳日:2023-07-25 15:41:48 公開日:2023-07-24
# ワッサーシュタイン統計の形状とアフィン変形に関する情報幾何学

Information Geometry of Wasserstein Statistics on Shapes and Affine Deformations ( http://arxiv.org/abs/2307.12508v1 )

ライセンス: Link先を確認
Shun-ichi Amari, Takeru Matsuda(参考訳) 情報幾何学とワッサーシュタイン幾何学は確率分布の多様体で導入された2つの主要な構造であり、それらはその異なる特徴を捉えている。 位置スケールモデルの多次元一般化であるアフィン変形統計モデルのためのliおよびzhao(2023)の枠組みにおけるワッサースタイン幾何学の特徴について検討した。 我々は情報幾何学とwasserstein幾何に基づく推定子の長所と短所を比較した。 確率分布の形状とアフィン変形はワッサーシュタイン幾何学において分離され、フィッシャー効率の損失と引き換えに波形摂動に対する頑健さを示す。 楕円対称アフィン変形モデルの場合,ワッサースタイン推定器がモーメント推定器であることを示す。 波形がガウス的である場合と場合に限り、情報幾何学的推定器(maximum-likelihood estimator)と一致する。 ワッサーシュタイン効率の役割は、波形変化に対する堅牢性の観点から解明される。

Information geometry and Wasserstein geometry are two main structures introduced in a manifold of probability distributions, and they capture its different characteristics. We study characteristics of Wasserstein geometry in the framework of Li and Zhao (2023) for the affine deformation statistical model, which is a multi-dimensional generalization of the location-scale model. We compare merits and demerits of estimators based on information geometry and Wasserstein geometry. The shape of a probability distribution and its affine deformation are separated in the Wasserstein geometry, showing its robustness against the waveform perturbation in exchange for the loss in Fisher efficiency. We show that the Wasserstein estimator is the moment estimator in the case of the elliptically symmetric affine deformation model. It coincides with the information-geometrical estimator (maximum-likelihood estimator) when and only when the waveform is Gaussian. The role of the Wasserstein efficiency is elucidated in terms of robustness against waveform change.
翻訳日:2023-07-25 15:41:31 公開日:2023-07-24
# 言語モデルにおける「秘密言語」の存在の検討

Investigating the Existence of "Secret Language'' in Language Models ( http://arxiv.org/abs/2307.12507v1 )

ライセンス: Link先を確認
Yimu Wang, Peng Shi, Hongyang Zhang(参考訳) 本稿では,NLPにおける秘密言語の問題について考察する。現在の言語モデル(LM)は,不条理な入力を意味のある概念として解釈できる隠れ語彙を持つように見える。 秘密言語現象は異なる言語モデルに存在するのか?」と「秘密言語は特定の文脈に依存しているのか?」という2つの研究質問に答えるために、我々は、LM内の秘密言語を自動的に発見できる勾配に基づくアプローチである「textit{SecretFinding}」という新しい手法を導入する。 我々は,4つのNLPベンチマーク(SST-2, MRPC, SNLI, SQuAD)と言語グラウンドベンチマーク(MSCOCO)の5つの代表モデル(Electra, ALBERT, Roberta, DistillBERT, CLIP)について実験を行った。 実験結果から,文章中の原文と意味的に異同する単語を他の単語に置き換えても,出力が高い確率で変化しないため,LMは原文と意味的に異同する文を考慮しないことがわかった。 この現象は5つのモデルと5つのタスクで真であり、最初の研究質問に対する肯定的な答えを与える。 2つ目の研究質問では、 \textit{SecretFinding} が発見したシークレット言語は非常に一般的であり、GPT-3 や ChatGPT といったブラックボックス設定で他のモデルに転送することも可能である。 最後に、秘密言語の原因、それを取り除く方法、記憶への潜在的なつながり、倫理的意味合いについて論じる。 SecretFindingが見つけたシークレット言語の例はhttps://huggingface.co/spaces/anonymousauthors/ACL23_SecretLanguageで見ることができる。

In this paper, we study the problem of secret language in NLP, where current language models (LMs) seem to have a hidden vocabulary that allows them to interpret absurd inputs as meaningful concepts. We investigate two research questions: ``Does the secret language phenomenon exist in different language models?'' and ``Does secret language depend on specific context?'' To answer these questions, we introduce a novel method named \textit{SecretFinding}, a gradient-based approach that can automatically discover secret languages in LMs. We conduct experiments on five representative models (Electra, ALBERT, Roberta, DistillBERT, and CLIP) finetuned on four NLP benchmarks (SST-2, MRPC, SNLI, and SQuAD) and a language-grounding benchmark (MSCOCO). Our experimental results show that even when we replace the most important words with others that are semantically dissimilar to the original words in a sentence, LMs do not consider the new sentence semantically dissimilar to the original, as the output does not change with a high probability. This phenomenon holds true across the five models and five tasks and gives a positive answer to the first research question. As for the second research question, we find that the secret language discovered by \textit{SecretFinding} is quite general and could even be transferred to other models in the black-box settings, such as GPT-3 and ChatGPT. Finally, we discuss the causes of secret language, how to eliminate it, the potential connection to memorization, and ethical implications. Examples of secret language found by SecretFinding are available on https://huggingface.co/spaces/anonymousauthors/ACL23_SecretLanguage.
翻訳日:2023-07-25 15:41:15 公開日:2023-07-24
# MFMAN-YOLO:複雑環境における極様障害物の検出方法

MFMAN-YOLO: A Method for Detecting Pole-like Obstacles in Complex Environment ( http://arxiv.org/abs/2307.12548v1 )

ライセンス: Link先を確認
Lei Cai, Hao Wang, Congling Zhou, Yongqiang Wang, Boyu Liu(参考訳) 現実世界の交通では、道路や気象条件に様々な不確実性や複雑さがある。 複雑な環境における極状障害物の特徴情報が失われやすく, 検出精度が低く, リアルタイム性能が低いという問題を解決するために, マルチスケールなハイブリットアテンション機構検出アルゴリズムを提案する。 まず、最適輸送関数 Monge-Kantorovich (MK) は、複数の予測フレームの重なり合う問題を最適マッチングで解決するだけでなく、MK関数を正規化してモデル過適合を防止し、最適化されたマルチスケール特徴ピラミッドに従って異なるスケールの機能を別々にアップサンプリングする。 最後に, 複雑な環境背景情報を抑圧し, 極様障害物の特徴情報に焦点をあてるハイブリッドアテンション機構に基づいて, 複合環境におけるマルチスケール特徴空間情報の抽出を促進させる。 一方,本稿では,様々な複雑な環境で実際の道路試験を行う。 その結果, 検出精度, 再現率, 平均精度はそれぞれ94.7%, 93.1%, 97.4%であり, 検出フレームレートは400 f/sであった。 本研究は, 複雑な道路環境におけるポール状障害物をリアルタイムかつ正確に検出し, 自動走行分野の革新と進展を促進する。

In real-world traffic, there are various uncertainties and complexities in road and weather conditions. To solve the problem that the feature information of pole-like obstacles in complex environments is easily lost, resulting in low detection accuracy and low real-time performance, a multi-scale hybrid attention mechanism detection algorithm is proposed in this paper. First, the optimal transport function Monge-Kantorovich (MK) is incorporated not only to solve the problem of overlapping multiple prediction frames with optimal matching but also the MK function can be regularized to prevent model over-fitting; then, the features at different scales are up-sampled separately according to the optimized efficient multi-scale feature pyramid. Finally, the extraction of multi-scale feature space channel information is enhanced in complex environments based on the hybrid attention mechanism, which suppresses the irrelevant complex environment background information and focuses the feature information of pole-like obstacles. Meanwhile, this paper conducts real road test experiments in a variety of complex environments. The experimental results show that the detection precision, recall, and average precision of the method are 94.7%, 93.1%, and 97.4%, respectively, and the detection frame rate is 400 f/s. This research method can detect pole-like obstacles in a complex road environment in real time and accurately, which further promotes innovation and progress in the field of automatic driving.
翻訳日:2023-07-25 15:33:18 公開日:2023-07-24
# Knapsack: 接続性、パス、最短パス

Knapsack: Connectedness, Path, and Shortest-Path ( http://arxiv.org/abs/2307.12547v1 )

ライセンス: Link先を確認
Palash Dey, Sudeshna Kolay, and Sipra Singh(参考訳) グラフ理論の制約によりナップサック問題を研究する。 すなわち、knapsack の項目の集合上にグラフ構造が存在すると仮定し、この解は knapsack の制約の上にあるグラフ理論的性質を満たす必要がある。 特に、コネクテッド・ナップサック問題(connected knapsack problem)において、コネクテッド・ナップサック制約の大きさに対応する最大値を持つ項目の連結部分集合を計算する必要がある。 この問題は、最大次数4のグラフでもNP完全であり、スターグラフでもNP完全であることを示す。 一方、時刻 $o\left(2^{tw\log tw}\cdot\text{poly}(\min\{s^2,d^2\})\right)$ where $tw,s,d$ はそれぞれグラフのツリー幅、サイズ、目標値である。 さらに、$(1-\epsilon)$ factor approximation アルゴリズムを、$o\left(2^{tw\log tw}\cdot\text{poly}(n,1/\epsilon)\right)$ ごとに実行しています。 path-knapsack や shortestpath-knapsack という問題名の下で、グラフ理論上の他のいくつかの性質について同様の結果を示す。 結果は,connected-knapsackが最も計算が難しいことを示し,path-knapsack と shortestpath-knapsack が続いた。

We study the knapsack problem with graph theoretic constraints. That is, we assume that there exists a graph structure on the set of items of knapsack and the solution also needs to satisfy certain graph theoretic properties on top of knapsack constraints. In particular, we need to compute in the connected knapsack problem a connected subset of items which has maximum value subject to the size of knapsack constraint. We show that this problem is strongly NP-complete even for graphs of maximum degree four and NP-complete even for star graphs. On the other hand, we develop an algorithm running in time $O\left(2^{tw\log tw}\cdot\text{poly}(\min\{s^2,d^2\})\right)$ where $tw,s,d$ are respectively treewidth of the graph, size, and target value of the knapsack. We further exhibit a $(1-\epsilon)$ factor approximation algorithm running in time $O\left(2^{tw\log tw}\cdot\text{poly}(n,1/\epsilon)\right)$ for every $\epsilon>0$. We show similar results for several other graph theoretic properties, namely path and shortest-path under the problem names path-knapsack and shortestpath-knapsack. Our results seems to indicate that connected-knapsack is computationally hardest followed by path-knapsack and shortestpath-knapsack.
翻訳日:2023-07-25 15:32:55 公開日:2023-07-24
# ビデオ異常検出からの映像異常検索に向けて:新しいベンチマークとモデル

Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model ( http://arxiv.org/abs/2307.12545v1 )

ライセンス: Link先を確認
Peng Wu, Jing Liu, Xiangteng He, Yuxin Peng, Peng Wang, and Yanning Zhang(参考訳) ビデオ異常検出(VAD)はその潜在的な応用により注目され、現在主流となっているタスクは、フレームレベルでのオンラインな異常検出に焦点を合わせており、大まかに言えばバイナリまたは複数のイベント分類と解釈できる。 しかし、複雑な異常事象と単一ラベル(例えば「ヴァンダリズム」)の関係を構築するような構成は表面的であり、単一ラベルは異常事象を特徴付けるのに不足している。 実際には、ユーザーは一連の近似ビデオではなく、特定のビデオを検索する傾向にある。 したがって、詳細な記述を用いた異常な事象の検索は実用的で肯定的であるが、これに焦点を当てた研究は少ない。 本稿では, 言語記述や同期音声など, 相互モダリティによって適切な異常映像を実用的に検索することを目的とした, ビデオ異常検索 (var) と呼ばれる新しいタスクを提案する。 現在のビデオ検索とは異なり、varは与えられたクエリに部分的に関連のある長い未検索の動画を検索するために考案されている。 これを実現するために、一般的な異常データセットの上に構築された2つの大規模VARベンチマーク、UCFCrime-ARとXDViolence-ARを提案する。 一方,VARのためのALAN(Anomaly-Led Alignment Network)と呼ばれるモデルの設計を行う。 ALANでは、長い未編集ビデオのキーセグメントに焦点をあてる異常なサンプリングを提案する。 次に,ビデオテキストの細粒度表現間の意味的関連を高めるために,効率的なプリテキストタスクを導入する。 さらに、2つの相補的なアライメントを利用して、クロスモーダルコンテンツをさらに一致させる。 2つのベンチマークによる実験結果から, VARタスクの課題を明らかにし, 提案手法の利点を実証した。

Video anomaly detection (VAD) has been paid increasing attention due to its potential applications, its current dominant tasks focus on online detecting anomalies% at the frame level, which can be roughly interpreted as the binary or multiple event classification. However, such a setup that builds relationships between complicated anomalous events and single labels, e.g., ``vandalism'', is superficial, since single labels are deficient to characterize anomalous events. In reality, users tend to search a specific video rather than a series of approximate videos. Therefore, retrieving anomalous events using detailed descriptions is practical and positive but few researches focus on this. In this context, we propose a novel task called Video Anomaly Retrieval (VAR), which aims to pragmatically retrieve relevant anomalous videos by cross-modalities, e.g., language descriptions and synchronous audios. Unlike the current video retrieval where videos are assumed to be temporally well-trimmed with short duration, VAR is devised to retrieve long untrimmed videos which may be partially relevant to the given query. To achieve this, we present two large-scale VAR benchmarks, UCFCrime-AR and XDViolence-AR, constructed on top of prevalent anomaly datasets. Meanwhile, we design a model called Anomaly-Led Alignment Network (ALAN) for VAR. In ALAN, we propose an anomaly-led sampling to focus on key segments in long untrimmed videos. Then, we introduce an efficient pretext task to enhance semantic associations between video-text fine-grained representations. Besides, we leverage two complementary alignments to further match cross-modal contents. Experimental results on two benchmarks reveal the challenges of VAR task and also demonstrate the advantages of our tailored method.
翻訳日:2023-07-25 15:32:32 公開日:2023-07-24
# データ駆動モデル選択手法を用いた適応脱バイアス機械学習

Adaptive debiased machine learning using data-driven model selection techniques ( http://arxiv.org/abs/2307.12544v1 )

ライセンス: Link先を確認
Lars van der Laan, Marco Carone, Alex Luedtke, Mark van der Laan(参考訳) データ生成分布のスムーズな関数の非パラメトリック推定のためのバイアス付き機械学習推定器は、過度の変動と不安定に悩まされる。 このため、実践者はパラメトリックや半パラメトリックの仮定に基づく単純なモデルに頼ることがある。 しかし、そのような単純化された仮定は持たない可能性があり、見積もりはモデルの誤特定によってバイアスを受ける可能性がある。 この問題を解決するために,データ駆動型モデル選択とデバイアス型機械学習技術を組み合わせた非パラメトリックフレームワークであるAdaptive Debiased Machine Learning (ADML)を提案する。 モデル構造を直接データから学習することにより、ADMLはモデルの不特定によるバイアスを回避し、パラメトリックモデルとセミパラメトリックモデルの制約から解放される。 非パラメトリック統計モデルでは対象パラメータに対して不規則な振る舞いを示す可能性があるが、ADML推定器がプロジェクションに基づくオラクルパラメータに対して正規かつ局所的に一様に有効であることを示す。 重要なことに、このoracleパラメータは、データから学習された未知だが正確に特定されたoracle統計サブモデル内のディストリビューションの元のターゲットパラメータと一致する。 この発見は、oracleサブモデルとoracleパラメータの事前知識を持つよりも、データ駆動モデルの選択を行うための、局所漸近的な意味でのペナルティがないことを意味する。 本理論の実用性を示すために,適応的部分線形回帰モデルにおける平均処理効果を推定するためのADML推定器の幅広いクラスを提供する。

Debiased machine learning estimators for nonparametric inference of smooth functionals of the data-generating distribution can suffer from excessive variability and instability. For this reason, practitioners may resort to simpler models based on parametric or semiparametric assumptions. However, such simplifying assumptions may fail to hold, and estimates may then be biased due to model misspecification. To address this problem, we propose Adaptive Debiased Machine Learning (ADML), a nonparametric framework that combines data-driven model selection and debiased machine learning techniques to construct asymptotically linear, adaptive, and superefficient estimators for pathwise differentiable functionals. By learning model structure directly from data, ADML avoids the bias introduced by model misspecification and remains free from the restrictions of parametric and semiparametric models. While they may exhibit irregular behavior for the target parameter in a nonparametric statistical model, we demonstrate that ADML estimators provides regular and locally uniformly valid inference for a projection-based oracle parameter. Importantly, this oracle parameter agrees with the original target parameter for distributions within an unknown but correctly specified oracle statistical submodel that is learned from the data. This finding implies that there is no penalty, in a local asymptotic sense, for conducting data-driven model selection compared to having prior knowledge of the oracle submodel and oracle parameter. To demonstrate the practical applicability of our theory, we provide a broad class of ADML estimators for estimating the average treatment effect in adaptive partially linear regression models.
翻訳日:2023-07-25 15:32:01 公開日:2023-07-24
# Federated Medical ImagingにおけるAdaptive Intermediaryによるクライアントレベル差分プライバシー

Client-Level Differential Privacy via Adaptive Intermediary in Federated Medical Imaging ( http://arxiv.org/abs/2307.12542v1 )

ライセンス: Link先を確認
Meirui Jiang, Yuan Zhong, Anjie Le, Xiaoxiao Li, Qi Dou(参考訳) 近年、差分プライバシー(DP)による連邦学習(FL)のプライバシー向上が進んでいるが、実際の医療シナリオでは、プライバシ保護とパフォーマンスの間のDPのトレードオフが未検討である。 本稿では,コミュニケーションにおけるプライバシに着目したクライアントレベルのDPのコンテキスト下でのトレードオフの最適化を提案する。 しかし、医療画像のためのflは、通常、他のドメイン(モバイルデバイスなど)よりも参加者(病院)がはるかに少ないため、クライアントの差分プライベート性を保証することがずっと難しい。 この問題に対処するために,プライバシを損なうことなくパフォーマンスを向上させるための適応的仲介戦略を提案する。 具体的には,病院とサーバ間の仲介を行うサブクライアントにクライアントを分割することで,プライバシを損なうことなくdpによるノイズを軽減することができる。 提案手法は,2つの公開データセットを用いた分類とセグメンテーションのタスクについて実験的に評価し,その性能改善と総合的な分析研究によってその効果を実証した。 コードはhttps://github.com/med-air/client-dp-fl。

Despite recent progress in enhancing the privacy of federated learning (FL) via differential privacy (DP), the trade-off of DP between privacy protection and performance is still underexplored for real-world medical scenario. In this paper, we propose to optimize the trade-off under the context of client-level DP, which focuses on privacy during communications. However, FL for medical imaging involves typically much fewer participants (hospitals) than other domains (e.g., mobile devices), thus ensuring clients be differentially private is much more challenging. To tackle this problem, we propose an adaptive intermediary strategy to improve performance without harming privacy. Specifically, we theoretically find splitting clients into sub-clients, which serve as intermediaries between hospitals and the server, can mitigate the noises introduced by DP without harming privacy. Our proposed approach is empirically evaluated on both classification and segmentation tasks using two public datasets, and its effectiveness is demonstrated with significant performance improvements and comprehensive analytical studies. Code is available at: https://github.com/med-air/Client-DP-FL.
翻訳日:2023-07-25 15:31:34 公開日:2023-07-24
# SelFormaly:タスク非依存の統一型異常検出を目指して

SelFormaly: Towards Task-Agnostic Unified Anomaly Detection ( http://arxiv.org/abs/2307.12540v1 )

ライセンス: Link先を確認
Yujin Lee, Harin Lim, Hyunsoo Yoon(参考訳) 視覚異常検出の基本的な考え方は、正常な画像から正規性を学ぶことであるが、以前の研究は特定のタスクのために特別に開発され、欠陥検出、意味異常検出、マルチクラス異常検出、異常クラスタリングといった様々なタスクの断片化に繋がった。 この1-task-one-modelアプローチはリソース集約的であり、タスク数の増加に伴って高いメンテナンスコストを発生させる。 本稿では,普遍的かつ強力な異常検出フレームワークであるselformalyを提案する。 我々は,従来のオンラインエンコーダ方式における変動性能の副最適問題を指摘し,本手法の必要性を強調した。 また,これまで文献で用いられてきたconvnetsの有効性を疑問視し,自己教師付きvitsが統一異常検出に適していることを確認した。 我々はバックパッチマスキングを導入し,k-ratio機能マッチングの新たな役割を見出し,統一的かつ強力な異常検出を実現する。 バックパッチマスキングは、シーンレイアウトの表現でターゲット中心の検出を妨げる可能性のある無関係な領域を排除する。 上位のk-ratio機能マッチングは、さまざまな異常レベルとタスクを統一する。 最後に、selformalyは、前述のすべてのタスクに対して、さまざまなデータセットにまたがって最先端の結果を達成します。

The core idea of visual anomaly detection is to learn the normality from normal images, but previous works have been developed specifically for certain tasks, leading to fragmentation among various tasks: defect detection, semantic anomaly detection, multi-class anomaly detection, and anomaly clustering. This one-task-one-model approach is resource-intensive and incurs high maintenance costs as the number of tasks increases. This paper presents SelFormaly, a universal and powerful anomaly detection framework. We emphasize the necessity of our off-the-shelf approach by pointing out a suboptimal issue with fluctuating performance in previous online encoder-based methods. In addition, we question the effectiveness of using ConvNets as previously employed in the literature and confirm that self-supervised ViTs are suitable for unified anomaly detection. We introduce back-patch masking and discover the new role of top k-ratio feature matching to achieve unified and powerful anomaly detection. Back-patch masking eliminates irrelevant regions that possibly hinder target-centric detection with representations of the scene layout. The top k-ratio feature matching unifies various anomaly levels and tasks. Finally, SelFormaly achieves state-of-the-art results across various datasets for all the aforementioned tasks.
翻訳日:2023-07-25 15:31:12 公開日:2023-07-24
# 一次領域正規化によるディープフェイク検出の一般化に向けて

Towards Generalizable Deepfake Detection by Primary Region Regularization ( http://arxiv.org/abs/2307.12534v1 )

ライセンス: Link先を確認
Harry Cheng and Yangyang Guo and Tianyi Wang and Liqiang Nie and Mohan Kankanhalli(参考訳) 既存のディープフェイク検出手法は、目に見えない偽造と操作アプローチへの一般化においてボトルネックに達している。 ディープフェイク検出器が入力中の特定の一次領域をオーバーフィットする傾向を示すという観測に基づいて,新しい正規化の観点から一般化能力を高める。 これは、一次領域の除去によって画像を増やすことで、検出器がデータのバイアスを過大に受けることを防ぎ、簡単に達成できる。 本手法は,プライマリ領域マップの静的局在化と,プライマリ領域マスクの動的活用という2つの段階からなる。 提案手法は推論効率に影響を与えることなく,異なるバックボーンにシームレスに統合することができる。 5つのバックボーンを持つDFDC,DF-1.0,Celeb-DFの3種類のディープフェイクデータセットについて広範な実験を行った。 提案手法は,異なるバックボーン間で平均6%の性能向上を示し,最先端のベースラインと競合する性能を示す。

The existing deepfake detection methods have reached a bottleneck in generalizing to unseen forgeries and manipulation approaches. Based on the observation that the deepfake detectors exhibit a preference for overfitting the specific primary regions in input, this paper enhances the generalization capability from a novel regularization perspective. This can be simply achieved by augmenting the images through primary region removal, thereby preventing the detector from over-relying on data bias. Our method consists of two stages, namely the static localization for primary region maps, as well as the dynamic exploitation of primary region masks. The proposed method can be seamlessly integrated into different backbones without affecting their inference efficiency. We conduct extensive experiments over three widely used deepfake datasets - DFDC, DF-1.0, and Celeb-DF with five backbones. Our method demonstrates an average performance improvement of 6% across different backbones and performs competitively with several state-of-the-art baselines.
翻訳日:2023-07-25 15:30:50 公開日:2023-07-24
# 事前学習データ多様性と微調整ロバスト性の関係について

On the Connection between Pre-training Data Diversity and Fine-tuning Robustness ( http://arxiv.org/abs/2307.12532v1 )

ライセンス: Link先を確認
Vivek Ramanujan, Thao Nguyen, Sewoong Oh, Ludwig Schmidt, Ali Farhadi(参考訳) ディープラーニングでは,特に対象タスクのトレーニングデータに制限がある場合には,事前トレーニングが広く採用されている。 本研究は、下流モデルの一般化特性に対するこの学習戦略の影響を理解することを目的とする。 より具体的には、事前学習された分布の性質は、微調整されたモデルの堅牢性にどのように影響するのか? 私たちが探している特性には、ラベル空間、ラベルの意味論、画像の多様性、データドメイン、事前学習された分布のデータ量などがあります。 下流の効果的なロバスト性(taori et al., 2020)に影響を与える主な要因はデータ量であるが、他の要因は重要性が限られている。 例えば、ImageNet事前学習クラスの数を4倍に減らし、クラス毎の画像数を4倍に増やす(つまり、全データ量を固定する)と、微調整モデルの堅牢性には影響しない。 我々は,iWildCam-WILDS分布シフトを下流のロバスト性試験として用いて,各種自然および合成データソースから抽出した事前学習分布について検討した。

Pre-training has been widely adopted in deep learning to improve model performance, especially when the training data for a target task is limited. In our work, we seek to understand the implications of this training strategy on the generalization properties of downstream models. More specifically, we ask the following question: how do properties of the pre-training distribution affect the robustness of a fine-tuned model? The properties we explore include the label space, label semantics, image diversity, data domains, and data quantity of the pre-training distribution. We find that the primary factor influencing downstream effective robustness (Taori et al., 2020) is data quantity, while other factors have limited significance. For example, reducing the number of ImageNet pre-training classes by 4x while increasing the number of images per class by 4x (that is, keeping total data quantity fixed) does not impact the robustness of fine-tuned models. We demonstrate our findings on pre-training distributions drawn from various natural and synthetic data sources, primarily using the iWildCam-WILDS distribution shift as a test for downstream robustness.
翻訳日:2023-07-25 15:30:35 公開日:2023-07-24
# AdS Gauss-Bonnet重力における複雑性の予想について

A note on complexity=anything conjecture in AdS Gauss-Bonnet gravity ( http://arxiv.org/abs/2307.12530v1 )

ライセンス: Link先を確認
Xuanhua Wang, Ran Li, Jin Wang(参考訳) 量子複雑性は、極表面の体積、ホイーラー・デウィットパッチの作用、パッチの時空体積と双対であることが示唆されている。 近年、一般化された体積複雑度観測器は、双対ホログラフィック複雑性の等価な候補として定式化できることが提案されている。 この提案は ``complexity=anything" と略される。 この提案は、極端表面を選択し、これらの表面上の物理量(体積や作用など)を評価する際の柔軟性を高める。 本研究では,様々な次元の漸近反ド・ジッター空間におけるgauss-bonnetブラックホールの複雑性について検討する。 本提案は, 4次元ガウス・ボネット重力の結合パラメータに関わらず, 一般体積の線形成長を保証することを実証する。 しかし、この普遍性は高次元に対しては支持されない。 さらに、位相遷移を想起する有効電位に複数のピークが存在する場合、極端表面の不連続な変形が起こることがある。 さらに,5次元モデルの結合パラメータに制約を与え,ホログラフィック複雑性の候補として一般化された体積を定量化する。

It has been suggested that quantum complexity is dual to the volume of the extremal surface, the action of the Wheeler-DeWitt patch, and the spacetime volume of the patch. Recently, it is proposed that a generalized volume-complexity observable can be formulated as an equivalently good candidate for the dual holographic complexity. This proposal is abbreviated as ``complexity=anything". This proposal offers greater flexibility in selecting extremal surfaces and evaluating physical quantities (e.g., volume or action) on these surfaces. In this study, we explore the complexity=anything proposal for Gauss-Bonnet black holes in asymptotic anti-de Sitter space in various dimensions. We demonstrate that this proposal guarantees the linear growth of the generalized volume at late time regardless of the coupling parameters for four-dimensional Gauss-Bonnet gravity. However, this universality is not upheld for higher dimensions. Besides, discontinuous deformations of the extremal surfaces can occur when multiple peaks exist in the effective potential, which is a reminiscence of a phase transition. In addition, we provide the constraints on the coupling parameter of the five dimensional models to quantify the generalized volume as a viable candidate for holographic complexity.
翻訳日:2023-07-25 15:30:15 公開日:2023-07-24
# 最大量子情報の漏洩

Maximal Quantum Information Leakage ( http://arxiv.org/abs/2307.12529v1 )

ライセンス: Link先を確認
Farhad Farokhi(参考訳) 古典データの量子符号化のための情報漏洩の新しい尺度を定義する。 敵は、古典的なデータを符号化する量子システムの状態の単一コピーにアクセスでき、セキュリティアナリストに未知のデータ(例えば、量子機械学習におけるデータの特定の特徴または属性)の一般的なランダム化あるいは決定論的関数を正しく推測することに興味がある。 最大量子漏洩(maximal quantum leak)と呼ばれる情報漏洩の結果として得られる尺度は、量子状態の測定を観測することで、データの任意の関数を正しく推測する確率の乗法的な増加である。 最大量子漏洩は、処理後の不等式(すなわち、量子チャネルを適用することで情報漏洩を減少させる)と独立性(すなわち、量子状態が古典的データから独立している場合、リークはゼロである)を満たすことが示され、プライバシーとセキュリティ分析に必要な基本的な特性である。 アクセス可能な情報も含む。 最大量子リークに対する大域的および局所的偏極ノイズモデルの効果を確立した。

A new measure of information leakage for quantum encoding of classical data is defined. An adversary can access a single copy of the state of a quantum system that encodes some classical data and is interested in correctly guessing a general randomized or deterministic function of the data (e.g., a specific feature or attribute of the data in quantum machine learning) that is unknown to the security analyst. The resulting measure of information leakage, referred to as maximal quantum leakage, is the multiplicative increase of the probability of correctly guessing any function of the data upon observing measurements of the quantum state. Maximal quantum leakage is shown to satisfy post-processing inequality (i.e., applying a quantum channel reduces information leakage) and independence property (i.e., leakage is zero if the quantum state is independent of the classical data), which are fundamental properties required for privacy and security analysis. It also bounds accessible information. Effects of global and local depolarizing noise models on the maximal quantum leakage are established.
翻訳日:2023-07-25 15:29:58 公開日:2023-07-24
# MataDoc: 任意境界のためのマージンとテキスト対応ドキュメントのデワープ

MataDoc: Margin and Text Aware Document Dewarping for Arbitrary Boundary ( http://arxiv.org/abs/2307.12571v1 )

ライセンス: Link先を確認
Beiya Dai, Xing li, Qunyi Xie, Yulin Li, Xiameng Qin, Chengquan Zhang, Kun Yao, Junyu Han(参考訳) 歪んだカメラキャプチャ画像からの文書デワープは、OCRと文書理解にとって非常に重要である。 文書境界は、文書のデウォープにおいて、内部領域よりも明らかな重要な役割を果たす。 現在の学習ベース手法は主に完全境界の場合に焦点を当てており、不完全境界を持つ文書の文書修正性能が劣っている。 これらの手法とは対照的に,本論文ではマージンとテキスト認識正規化を用いた任意の境界文書の変形に着目した最初の手法であるmatadocを提案する。 具体的には,境界知覚を増大させるために背景整合性を明示的に考慮し,マージン正規化を設計する。 さらに,単語位置の一貫性を導入し,テキスト行を正書画像にそのまま保持する。 そこで本研究では,MataDocの総合評価を行うために,任意の境界を持つ文書画像からなる新しいベンチマークArbDocを提案する。 ArbDoc上の不完全境界を考慮したMataDocの優位性を確認し、DocUNet, DIR300, WarpDocデータセットにおける提案手法の有効性を実証した。

Document dewarping from a distorted camera-captured image is of great value for OCR and document understanding. The document boundary plays an important role which is more evident than the inner region in document dewarping. Current learning-based methods mainly focus on complete boundary cases, leading to poor document correction performance of documents with incomplete boundaries. In contrast to these methods, this paper proposes MataDoc, the first method focusing on arbitrary boundary document dewarping with margin and text aware regularizations. Specifically, we design the margin regularization by explicitly considering background consistency to enhance boundary perception. Moreover, we introduce word position consistency to keep text lines straight in rectified document images. To produce a comprehensive evaluation of MataDoc, we propose a novel benchmark ArbDoc, mainly consisting of document images with arbitrary boundaries in four typical scenarios. Extensive experiments confirm the superiority of MataDoc with consideration for the incomplete boundary on ArbDoc and also demonstrate the effectiveness of the proposed method on DocUNet, DIR300, and WarpDoc datasets.
翻訳日:2023-07-25 15:24:06 公開日:2023-07-24
# 浅いドナーの光線幅への寄与 -ZnOの束縛励起遷移-

Contributions to the optical linewidth of shallow donor - bound excitonic transition in ZnO ( http://arxiv.org/abs/2307.12566v1 )

ライセンス: Link先を確認
Vasileios Niaouris, Samuel H. D'Ambrosia, Christian Zimmermann, Xingyi Wang, Ethan R. Hansen, Michael Titze, Edward S. Bielejec, Kai-Mei C. Fu(参考訳) 単結晶酸化亜鉛(ZnO)におけるAl,GaおよびInドナーアンサンブルのドナー結合光線幅特性について検討した。 ZnO中の中性浅いドナー(D$^0$)は、ドナーバウンドエキシトン(D$^0$X)を介して光アクセスするスピン量子ビットである。 このスピン光子インターフェイスは、量子ネットワーク、メモリおよび変換のアプリケーションを可能にする。 スピン-光子界面に影響を及ぼす重要な光学パラメータには、放射寿命、光の不均質および均一な線幅、光深度がある。 アンサンブルのフォトルミネッセンス線幅は4-11GHzで、予想される寿命制限線幅よりも2桁以下である。 アンサンブルの線幅は300ドル(約3万3000円)の厚さのサンプルを通して吸収の測定で狭く保たれており、光深度は数百と推定されている。 フォノンによるアンサンブル線の均一な拡張は、D$^0$X状態間の熱緩和と一致している。 この熱緩和機構は, ZnO中の不均一な同位体環境による不均一な膨張が, 1.9 GHz - 2.2 GHzの範囲で有意であることがわかった。 しかし、アンサンブル内の均質な線幅を測定するのに使用できる2レーザーのスペクトル反ホール燃焼測定では、単一レーザーアンサンブル線幅と同様のスペクトル反ホール線幅が示される。 この拡張にもかかわらず、高い均一性、大きな光学深度、同位体精製の可能性は、ZnOドナーバウンドエキシトンの光学的性質が幅広い量子技術に期待でき、量子技術に対するZnOの同位体および化学的純度を改善する必要性を動機付けていることを示している。

We study the donor-bound exciton optical linewidth properties of Al, Ga and In donor ensembles in single-crystal zinc oxide (ZnO). Neutral shallow donors (D$^0$) in ZnO are spin qubits with optical access via the donor-bound exciton (D$^0$X). This spin-photon interface enables applications in quantum networking, memories and transduction. Essential optical parameters which impact the spin-photon interface include radiative lifetime, optical inhomogeneous and homogeneous linewidth and optical depth. The ensemble photoluminescence linewidth ranges from 4-11 GHz, less than two orders of magnitude larger than the expected lifetime-limited linewidth. The ensemble linewidth remains narrow in absorption measurements through the 300 $\mu$m-thick sample, which has an estimated optical depth up to several hundred. Homogeneous broadening of the ensemble line due to phonons is consistent with thermal population relaxation between D$^0$X states. This thermal relaxation mechanism has negligible contribution to the total linewidth at 2 K. We find that inhomogeneous broadening due to the disordered isotopic environment in natural ZnO is significant, ranging from 1.9 GHz - 2.2 GHz. Two-laser spectral anti-hole burning measurements, which can be used to measure the homogeneous linewidth in an ensemble, however, reveal spectral anti-hole linewidths similar to the single laser ensemble linewidth. Despite this broadening, the high homogeneity, large optical depth and potential for isotope purification indicate that the optical properties of the ZnO donor-bound exciton are promising for a wide range of quantum technologies and motivate a need to improve the isotope and chemical purity of ZnO for quantum technologies.
翻訳日:2023-07-25 15:23:50 公開日:2023-07-24
# 神経局所表現の一般化に向けて

Towards Generalising Neural Topical Representations ( http://arxiv.org/abs/2307.12564v1 )

ライセンス: Link先を確認
Xiaohao Yang, He Zhao, Dinh Phung and Lan Du(参考訳) トピックモデルは、従来のベイズ確率モデルからニューラルトピックモデル(NTM)へと進化してきた。 NTMは特定のコーパス上でトレーニングおよびテストを行う際に有望な性能を達成したが、コーパス間の一般化能力はほとんど研究されていない。 実際には、ソースコーパスでトレーニングされたNTMが、異なるターゲットコーパスの文書に対して、再トレーニングなしに高品質なトピック表現を生成できると期待することが多い。 本研究は, コーパスやタスクにまたがって, NTMをさらに改良し, そのメリットを確実に一般化することを目的としている。 そこで我々は,ntmsの学習における意味的距離を最小化し,類似文書のモデル化を提案する。 文書間の意味的距離は、トピック表現間の最適なトランスポート距離(ot)を計算する階層的トピックトランスポート距離(hott)によって測定される。 我々のフレームワークは、ほとんどのntmsにプラグアンドプレイモジュールとして容易に適用できます。 大規模な実験により, コーパス間の神経トピック表現に関する一般化能力は大幅に向上した。

Topic models have evolved from conventional Bayesian probabilistic models to Neural Topic Models (NTMs) over the last two decays. Although NTMs have achieved promising performance when trained and tested on a specific corpus, their generalisation ability across corpora is rarely studied. In practice, we often expect that an NTM trained on a source corpus can still produce quality topical representation for documents in a different target corpus without retraining. In this work, we aim to improve NTMs further so that their benefits generalise reliably across corpora and tasks. To do so, we propose to model similar documents by minimising their semantical distance when training NTMs. Specifically, similar documents are created by data augmentation during training; The semantical distance between documents is measured by the Hierarchical Topic Transport Distance (HOTT), which computes the Optimal Transport (OT) distance between the topical representations. Our framework can be readily applied to most NTMs as a plug-and-play module. Extensive experiments show that our framework significantly improves the generalisation ability regarding neural topical representation across corpora.
翻訳日:2023-07-25 15:23:20 公開日:2023-07-24
# 拡散モデルによる画像間の補間

Interpolating between Images with Diffusion Models ( http://arxiv.org/abs/2307.12560v1 )

ライセンス: Link先を確認
Clinton J. Wang and Polina Golland(参考訳) 画像生成と編集の小さな課題の一つは、2つの入力画像の間を補間する作業である。 このような特徴は,そのようなモデルの創造的応用を拡大し,潜在拡散モデルを用いたゼロショット補間法を提案する。 雑音レベルが減少する列の潜在空間において補間を行い、その後、テキスト反転および(任意に)主題ポーズに由来する補間されたテキスト組込みでデノージングを行う。 一貫性を高めるために、あるいは追加の基準を指定するために、いくつかの候補を生成し、CLIPを使用して高品質な画像を選択することができる。 様々な対象のポーズ,画像スタイル,画像内容にまたがる説得力のある補間を行い,fidなどの標準的な定量的指標が補間の品質を測定するには不十分であることを示す。 コードとデータはhttps://clintonjwang.github.io/interpolationで入手できる。

One little-explored frontier of image generation and editing is the task of interpolating between two input images, a feature missing from all currently deployed image generation pipelines. We argue that such a feature can expand the creative applications of such models, and propose a method for zero-shot interpolation using latent diffusion models. We apply interpolation in the latent space at a sequence of decreasing noise levels, then perform denoising conditioned on interpolated text embeddings derived from textual inversion and (optionally) subject poses. For greater consistency, or to specify additional criteria, we can generate several candidates and use CLIP to select the highest quality image. We obtain convincing interpolations across diverse subject poses, image styles, and image content, and show that standard quantitative metrics such as FID are insufficient to measure the quality of an interpolation. Code and data are available at https://clintonjwang.github.io/interpolation.
翻訳日:2023-07-25 15:23:03 公開日:2023-07-24
# イベントベースビデオフレーム補間の再検討

Revisiting Event-based Video Frame Interpolation ( http://arxiv.org/abs/2307.12558v1 )

ライセンス: Link先を確認
Jiaben Chen, Yichen Zhu, Dongze Lian, Jiaqi Yang, Yifu Wang, Renrui Zhang, Xinhang Liu, Shenhan Qian, Laurent Kneip, Shenghua Gao(参考訳) ダイナミックビジョンセンサーまたはイベントカメラは、ビデオフレーム補間のための豊富な補完情報を提供する。 既存の最先端手法は、合成ベースとワーピングネットワークを組み合わせるというパラダイムに従っている。 しかし、イベントストリームの固有の特性を完全に尊重する手法はほとんどない。 イベントカメラは、色強度よりも強度変化と極性だけをエンコードするので、RGB情報よりもイベントからの光の流れを推定することが困難である。 そこで我々は,RGB情報をイベント誘導型光フロー改善戦略に組み込むことを提案する。 さらに,イベントカメラが提供する時間信号の準連続性に着目し,イベントベースの中間フレーム合成を,単一の長いステージではなく,複数の単純化された段階において段階的に行う分割・結合戦略を提案する。 合成と実世界の両方のデータセットに対する大規模な実験は、これらの修正が従来のビデオフレーム補間法よりも信頼性が高く現実的な中間フレーム結果をもたらすことを示している。 本研究は,高時間密度や高騒音などの事象特性を慎重に検討することで補間精度が向上することを示す。

Dynamic vision sensors or event cameras provide rich complementary information for video frame interpolation. Existing state-of-the-art methods follow the paradigm of combining both synthesis-based and warping networks. However, few of those methods fully respect the intrinsic characteristics of events streams. Given that event cameras only encode intensity changes and polarity rather than color intensities, estimating optical flow from events is arguably more difficult than from RGB information. We therefore propose to incorporate RGB information in an event-guided optical flow refinement strategy. Moreover, in light of the quasi-continuous nature of the time signals provided by event cameras, we propose a divide-and-conquer strategy in which event-based intermediate frame synthesis happens incrementally in multiple simplified stages rather than in a single, long stage. Extensive experiments on both synthetic and real-world datasets show that these modifications lead to more reliable and realistic intermediate frame results than previous video frame interpolation methods. Our findings underline that a careful consideration of event characteristics such as high temporal density and elevated noise benefits interpolation accuracy.
翻訳日:2023-07-25 15:22:46 公開日:2023-07-24
# ロバストグラフコントラスト学習のためのホモフィカライズ駆動型衛生ビュー

Homophily-Driven Sanitation View for Robust Graph Contrastive Learning ( http://arxiv.org/abs/2307.12555v1 )

ライセンス: Link先を確認
Yulin Zhu, Xing Ai, Yevgeniy Vorobeychik, Kai Zhou(参考訳) 構造化攻撃に対する教師なしグラフコントラスト学習(GCL)の対向的堅牢性について検討する。 まず,既存の攻撃を包括的かつ理論的に分析し,gclの性能を低下させる方法と理由を明らかにする。 分析結果から着想を得たGCLフレームワークは,相反学習と共同で学習可能な,ホモフィズ駆動型衛生ビューを統合した堅牢なGCLフレームワークを提案する。 しかし、これが引き起こす重要な課題は、衛生目的の区別できない性質である。 この課題に対処するために,グラデーションに基づくエンドツーエンドロバストgclを実現する一連の手法を提案する。 さらに,従来の手法とは異なり,ノードラベルの知識を必要としない完全教師なしハイパーパラメータチューニング手法を開発した。 提案モデルであるGCHS (Graph Contrastive Learning with Homophily-driven Sanitation View) をGCLに対する2つの技術構造攻撃に対して評価するための広範な実験を行った。 以上の結果から,GCHSは生成ノードの埋め込みの質,および2つの重要な下流タスクのパフォーマンスにおいて,アートベースラインのすべての状態を一貫して上回ります。

We investigate adversarial robustness of unsupervised Graph Contrastive Learning (GCL) against structural attacks. First, we provide a comprehensive empirical and theoretical analysis of existing attacks, revealing how and why they downgrade the performance of GCL. Inspired by our analytic results, we present a robust GCL framework that integrates a homophily-driven sanitation view, which can be learned jointly with contrastive learning. A key challenge this poses, however, is the non-differentiable nature of the sanitation objective. To address this challenge, we propose a series of techniques to enable gradient-based end-to-end robust GCL. Moreover, we develop a fully unsupervised hyperparameter tuning method which, unlike prior approaches, does not require knowledge of node labels. We conduct extensive experiments to evaluate the performance of our proposed model, GCHS (Graph Contrastive Learning with Homophily-driven Sanitation View), against two state of the art structural attacks on GCL. Our results demonstrate that GCHS consistently outperforms all state of the art baselines in terms of the quality of generated node embeddings as well as performance on two important downstream tasks.
翻訳日:2023-07-25 15:22:30 公開日:2023-07-24
# 流体力学に触発されたパイロット波理論:アンサンブル解釈

Hydrodynamically Inspired Pilot-Wave Theory: An Ensemble Interpretation ( http://arxiv.org/abs/2307.12553v1 )

ライセンス: Link先を確認
Yuval Dagan(参考訳) この章は自由相対論的粒子に対する決定論的流体力学的にインスパイアされたアンサンブル解釈を探求し、1924年にド・ブロイによって概念化された最初のパイロット波理論と、最近の流体力学量子アナログの進歩に従っている。 一次元の周期的なクライン=ゴードン波動方程式と相対論的粒子運動方程式を結合し、複数の非相関粒子軌道のアンサンブルをシミュレートする。 シミュレーションにより、初期ランダム条件に非常に敏感なカオス粒子の動的挙動が明らかになった。 模擬アンサンブルの粒子は時空間領域全体を埋めるように見えるが、粒子が交差する可能性が低い連続した時空間構造が見つかる。 これらの構造は、ド・ブロイの波長と相対論的変調周波数kcによって特徴づけられる。 顕著に、粒子アンサンブルの確率密度関数は絶対波場の正方形と相関し、ここで解析的に解かれ、ド・ブロイの物質波とボルンの規則の古典的な決定論的解釈が示唆される。

This chapter explores a deterministic hydrodynamically-inspired ensemble interpretation for free relativistic particles, following the original pilot wave theory conceptualized by de Broglie in 1924 and recent advances in hydrodynamic quantum analogs. We couple a one-dimensional periodically forced Klein-Gordon wave equation and a relativistic particle equation of motion, and simulate an ensemble of multiple uncorrelated particle trajectories. The simulations reveal a chaotic particle dynamic behavior, highly sensitive to the initial random condition. Although particles in the simulated ensemble seem to fill out the entire spatiotemporal domain, we find coherent spatiotemporal structures in which particles are less likely to cross. These structures are characterized by de Broglie's wavelength and the relativistic modulation frequency kc. Markedly, the probability density function of the particle ensemble correlates to the square of the absolute wave field, solved here analytically, suggesting a classical deterministic interpretation of de Broglie's matter waves and Born's rule.
翻訳日:2023-07-25 15:22:12 公開日:2023-07-24
# 局所位相次数と境界代数

Local topological order and boundary algebras ( http://arxiv.org/abs/2307.12552v1 )

ライセンス: Link先を確認
Corey Jones and Pieter Naaijkens and David Penneys and Daniel Wallick(参考訳) 局所位相的に順序付けられた量子スピン系の公理集合を局所基底状態射影のネットを用いて導入し、キタエフの toric code と levin-wen type model で満足できることを示す。 このとき、$\mathbb{Z}^{k}$ 上の局所的に位相的に順序付けられたスピン系に対して、$\mathbb{Z}^{k-1}$ 上の境界代数の局所ネットを定義する。 境界準局所代数上の状態が境界ハミルトニアンに言及せずにバルク境界状態にパラメータ化するように、正準量子チャネルを構築する。 系として、ogata [arxiv:2212.09036] の最近の結果から、トーリック符号のバルク円錐フォン・ノイマン代数は $\rm{ii}$ の型であることが証明され、レビン=ウェン模型は $\rm{iii}$ の円錐代数を持つことができる。 最後に、境界代数のネットに対する DHR 双加群の組付きテンソル圏は (2+1)D のバルク位相順序を特徴づけ、また境界状態の位相順序を特徴づけるためにも使うことができると論じる。

We introduce a set of axioms for locally topologically ordered quantum spin systems in terms of nets of local ground state projections, and we show they are satisfied by Kitaev's Toric Code and Levin-Wen type models. Then for a locally topologically ordered spin system on $\mathbb{Z}^{k}$, we define a local net of boundary algebras on $\mathbb{Z}^{k-1}$, which gives a new operator algebraic framework for studying topological spin systems. We construct a canonical quantum channel so that states on the boundary quasi-local algebra parameterize bulk-boundary states without reference to a boundary Hamiltonian. As a corollary, we obtain a new proof of a recent result of Ogata [arXiv:2212.09036] that the bulk cone von Neumann algebra in the Toric Code is of type $\rm{II}$, and we show that Levin-Wen models can have cone algebras of type $\rm{III}$. Finally, we argue that the braided tensor category of DHR bimodules for the net of boundary algebras characterizes the bulk topological order in (2+1)D, and can also be used to characterize the topological order of boundary states.
翻訳日:2023-07-25 15:21:52 公開日:2023-07-24
# ホモトピー最適化のための継続経路学習

Continuation Path Learning for Homotopy Optimization ( http://arxiv.org/abs/2307.12551v1 )

ライセンス: Link先を確認
Xi Lin, Zhiyuan Yang, Xiaoyuan Zhang, Qingfu Zhang(参考訳) ホモトピー最適化(Homotopy optimization)は、難解なサブプロブレム列を解くことで複雑な最適化問題に対処する伝統的な方法である。 しかし、この手法は継続スケジュール設計に非常に敏感であり、元の問題に対する準最適解につながる可能性がある。 さらに、古典的ホモトピー最適化によって無視される中間解は、多くの現実世界の応用に有用である。 本研究では,任意の部分問題に対する無限中間解を含むホモトピー最適化の継続経路全体を学習するための新しいモデルベースアプローチを提案する。 従来の一方向一方向最適化よりも,従来の問題と全てのサブプロブレムを協調的に最適化することができる。 提案したモデルは、多くのアプリケーションに望ましい任意の中間解のリアルタイム生成もサポートする。 異なる問題に対する実験結果から,提案手法はホモトピー最適化の性能を大幅に向上し,優れた意思決定を支援するために有用な情報を提供する。

Homotopy optimization is a traditional method to deal with a complicated optimization problem by solving a sequence of easy-to-hard surrogate subproblems. However, this method can be very sensitive to the continuation schedule design and might lead to a suboptimal solution to the original problem. In addition, the intermediate solutions, often ignored by classic homotopy optimization, could be useful for many real-world applications. In this work, we propose a novel model-based approach to learn the whole continuation path for homotopy optimization, which contains infinite intermediate solutions for any surrogate subproblems. Rather than the classic unidirectional easy-to-hard optimization, our method can simultaneously optimize the original problem and all surrogate subproblems in a collaborative manner. The proposed model also supports real-time generation of any intermediate solution, which could be desirable for many applications. Experimental studies on different problems show that our proposed method can significantly improve the performance of homotopy optimization and provide extra helpful information to support better decision-making.
翻訳日:2023-07-25 15:21:27 公開日:2023-07-24
# 線形回帰を用いたインドの高等裁判所における事件発生時刻の明確化

Estimating Time to Clear Pendency of Cases in High Courts in India using Linear Regression ( http://arxiv.org/abs/2307.12549v1 )

ライセンス: Link先を確認
Kshitiz Verma, Anshu Musaddi, Ansh Mittal, Anshul Jain(参考訳) インドの司法機関は、あらゆるレベルで裁判所で係争中の何百万もの事件に苦しめられている。 高等法院司法データグリッド(HC-NJDG)は、高等法院で保留中のすべての事件をインデックス化し、そのデータを公開している。 本稿では,2017年8月31日から2020年3月22日までの229日間に,hc-njdgポータルから収集したデータを分析した。 このように、論文で分析されたデータは、2年半以上に及ぶ期間にまたがる。 ご覧の通りです 1) 高等裁判所の係争事件は時間とともに直線的に増加している。 2 高等裁判所の裁判官に対する訴訟の負荷が非常に不均一であり、高等裁判所の裁判官が他の裁判所の100倍の負荷を受ける。 3 高等裁判所においては、適切な措置が講じられなければ、年金事件の解決に百年もかかることがある。 また、5年か15年という一定期間内にペンデンシーをクリアするのに役立つ政策変更も提案しています。 最後に, 高等裁判所における事件発生率を, 現行の認定力で容易に把握できることを見いだした。 しかし、余分な判断は、以前のバックログをクリアするためにのみ必要です。

Indian Judiciary is suffering from burden of millions of cases that are lying pending in its courts at all the levels. The High Court National Judicial Data Grid (HC-NJDG) indexes all the cases pending in the high courts and publishes the data publicly. In this paper, we analyze the data that we have collected from the HC-NJDG portal on 229 randomly chosen days between August 31, 2017 to March 22, 2020, including these dates. Thus, the data analyzed in the paper spans a period of more than two and a half years. We show that: 1) the pending cases in most of the high courts is increasing linearly with time. 2) the case load on judges in various high courts is very unevenly distributed, making judges of some high courts hundred times more loaded than others. 3) for some high courts it may take even a hundred years to clear the pendency cases if proper measures are not taken. We also suggest some policy changes that may help clear the pendency within a fixed time of either five or fifteen years. Finally, we find that the rate of institution of cases in high courts can be easily handled by the current sanctioned strength. However, extra judges are needed only to clear earlier backlogs.
翻訳日:2023-07-25 15:21:08 公開日:2023-07-24
# 概念バックプロパゲーション:ニューラルネットワークモデルにおける学習概念の可視化のための説明可能なaiアプローチ

Concept backpropagation: An Explainable AI approach for visualising learned concepts in neural network models ( http://arxiv.org/abs/2307.12601v1 )

ライセンス: Link先を確認
Patrik Hammersborg and Inga Str\"umke(参考訳) ニューラルネットワークモデルは、人間に直接解釈できないため、ブラックボックスソリューションとして、さまざまな領域で広く使われている。 説明可能な人工知能の分野は、この課題に対処するための説明手法の開発を目標とし、トレーニングプロセス中にこれらのモデルが内在する知識の種類を調べる手法を含む、近年、いくつかのアプローチが開発されている。 これらのうち、概念検出の方法は、タスクを完了させるためにニューラルネットワークモデルがどの表現を学習するかを調査する。 本研究では,ある概念を表す情報が与えられたニューラルネットワークモデルにどのように内在化されているかを分析する方法として,概念検出法である「emph{concept backpropagation}」の拡張を提案する。 このアプローチでは、モデル入力は、記述されたモデルに対する訓練された概念プローブによって導かれる方法で摂動され、興味の概念が最大化される。 これにより、検出された概念をモデル入力空間に直接視覚化し、モデルが記述された概念を表現するために依存する情報を確認することができる。 提案手法は, 様々な入力モダリティに適用され, 提案手法を用いて, 学習された概念プローブが使用する情報や, 探索された概念の表現がニューラルネットワークモデル自体に絡み合っている程度を可視化する方法について検討する。

Neural network models are widely used in a variety of domains, often as black-box solutions, since they are not directly interpretable for humans. The field of explainable artificial intelligence aims at developing explanation methods to address this challenge, and several approaches have been developed over the recent years, including methods for investigating what type of knowledge these models internalise during the training process. Among these, the method of concept detection, investigates which \emph{concepts} neural network models learn to represent in order to complete their tasks. In this work, we present an extension to the method of concept detection, named \emph{concept backpropagation}, which provides a way of analysing how the information representing a given concept is internalised in a given neural network model. In this approach, the model input is perturbed in a manner guided by a trained concept probe for the described model, such that the concept of interest is maximised. This allows for the visualisation of the detected concept directly in the input space of the model, which in turn makes it possible to see what information the model depends on for representing the described concept. We present results for this method applied to a various set of input modalities, and discuss how our proposed method can be used to visualise what information trained concept probes use, and the degree as to which the representation of the probed concept is entangled within the neural network model itself.
翻訳日:2023-07-25 15:13:22 公開日:2023-07-24
# クロス共振ハミルトニアンを用いたユニバーサル2量子量子回路の実装手法

A Scheme to Implement a Universal Two-Qubit Quantum Circuit using Cross-Resonance Hamiltonian ( http://arxiv.org/abs/2307.12599v1 )

ライセンス: Link先を確認
M. Karthick Selvan and S. Balakrishnan(参考訳) 本稿では、最近提案された2量子ビット量子回路に、特殊完全エンタングル(SPE)と局所y回転の2つの応用を含む局所的に等価な回路を提案する。 さらに、交差共振ハミルトニアンを用いた等価回路の実装方式についても論じる。 最後に,CNOTゲートと$\sqrt{\text{CNOT}}$ゲートを用いてBゲート回路を実装した。 これは2つのCNOTゲートを使用して同じゲートを実装するのに必要な時間の約64.84%の時間を必要とする。

In this brief report, we propose a circuit which is locally equivalent to a recently proposed universal two-qubit quantum circuit involving two applications of special perfect entanglers (SPEs) and local y-rotations. Further, we discuss a scheme of implementation of the equivalent circuit using cross-resonance Hamiltonian. Finally, we implement the B-gate circuit using a CNOT gate and a $\sqrt{\text{CNOT}}$ gate. This requires the implementation time which is approximately 64.84% of the time required to implement the same gate using two CNOT gates.
翻訳日:2023-07-25 15:12:55 公開日:2023-07-24
# 機械学習による太陽熱脱塩研究のための最適データ収集と解析プロセス

Optimized data collection and analysis process for studying solar-thermal desalination by machine learning ( http://arxiv.org/abs/2307.12594v1 )

ライセンス: Link先を確認
Guilong Peng, Senshan Sun, Yangjun Qin, Zhenwei Xu, Juxin Du, Swellam W. sharshir, A.W. Kandel, A.E. Kabeel, Nuo Yang(参考訳) 機械学習と太陽熱脱塩の効果的な学際研究には、十分に大きくよく分析された実験データセットが必要である。 本研究は,機械学習による太陽熱脱塩研究のためのデータセット収集と解析プロセスを開発する。 最適化された集水・集水プロセスに基づいて,提案手法は,データ収集を高速化し,83.3%の時間を短縮することにより,従来の研究における平均データセットの10倍のデータセットを収集する。 一方, ニューラルネットワーク, 複数の線形回帰, ランダムフォレストを含む3つの異なるアルゴリズムを用いて, データセットの特徴の影響について検討した。 この調査は、データセットのサイズと範囲が予測精度、因子重要度ランキング、モデルの一般化能力に与える影響に焦点を当てた。 その結果,ニューラルネットワークやランダムフォレストを用いた場合,データセットが大きくなると予測精度が大幅に向上することが示された。 さらに、この研究はデータセットのサイズと範囲が影響要因の重要性のランキングに与える影響を強調している。 さらに,外挿データ範囲がニューラルネットワークの外挿精度に大きく影響することを明らかにした。 これらの結果に基づき、太陽熱淡水化の分野で機械学習をより一般的なツールとして促進することのできる、太陽熱淡水化のための効果的で一貫した機械学習プロセスフローにおいて、データセットの収集とデータセット特徴効果の分析が重要なステップである。

An effective interdisciplinary study between machine learning and solar-thermal desalination requires a sufficiently large and well-analyzed experimental datasets. This study develops a modified dataset collection and analysis process for studying solar-thermal desalination by machine learning. Based on the optimized water condensation and collection process, the proposed experimental method collects over one thousand datasets, which is ten times more than the average number of datasets in previous works, by accelerating data collection and reducing the time by 83.3%. On the other hand, the effects of dataset features are investigated by using three different algorithms, including artificial neural networks, multiple linear regressions, and random forests. The investigation focuses on the effects of dataset size and range on prediction accuracy, factor importance ranking, and the model's generalization ability. The results demonstrate that a larger dataset can significantly improve prediction accuracy when using artificial neural networks and random forests. Additionally, the study highlights the significant impact of dataset size and range on ranking the importance of influence factors. Furthermore, the study reveals that the extrapolation data range significantly affects the extrapolation accuracy of artificial neural networks. Based on the results, massive dataset collection and analysis of dataset feature effects are important steps in an effective and consistent machine learning process flow for solar-thermal desalination, which can promote machine learning as a more general tool in the field of solar-thermal desalination.
翻訳日:2023-07-25 15:12:46 公開日:2023-07-24
# SwinMM:3次元医用画像セグメンテーションのためのスウィントランスフォーマーを用いたマルチビュー

SwinMM: Masked Multi-view with Swin Transformers for 3D Medical Image Segmentation ( http://arxiv.org/abs/2307.12591v1 )

ライセンス: Link先を確認
Yiqing Wang, Zihan Li, Jieru Mei, Zihao Wei, Li Liu, Chen Wang, Shengtian Sang, Alan Yuille, Cihang Xie, Yuyin Zhou(参考訳) 近年の大規模視覚変換器の進歩は, 医用画像分割のための訓練済みモデルの改善に大きく貢献している。 しかし、これらの手法は、特に医療分野において、かなりの量の事前学習データを取得する上で、顕著な課題に直面している。 そこで本研究では,swinトランスフォーマ(swinmm)を用いたマスク型マルチビューシステムを提案する。 我々の戦略は2つの主成分を組み込むことで多視点情報の可能性を活用する。 プレトレーニングフェーズでは,マスク付きマルチビューエンコーダを,さまざまなプロキシタスクを通じて,マスク付きマルチビュー観察を同時にトレーニングするように考案した。 これらのタスクは、画像再構成、回転、コントラスト学習、そして相互学習パラダイムを用いた新しいタスクにまたがる。 このタスクは,様々な観点からの予測の整合性に着目し,医用データから隠れた多視点情報の抽出を可能にする。 微調整段階では、クロスビューデコーダを開発し、クロスアテンションブロックを介してマルチビュー情報を集約する。 従来の最先端の自己教師型学習手法であるSwin UNETRと比較して、SwinMMはいくつかの医療画像セグメンテーションタスクにおいて顕著な優位性を示している。 マルチビュー情報のスムーズな統合を可能にし、モデルの正確性とデータ効率の両方を大幅に向上させる。 コードとモデルはhttps://github.com/UCSC-VLAA/SwinMM/で入手できる。

Recent advancements in large-scale Vision Transformers have made significant strides in improving pre-trained models for medical image segmentation. However, these methods face a notable challenge in acquiring a substantial amount of pre-training data, particularly within the medical field. To address this limitation, we present Masked Multi-view with Swin Transformers (SwinMM), a novel multi-view pipeline for enabling accurate and data-efficient self-supervised medical image analysis. Our strategy harnesses the potential of multi-view information by incorporating two principal components. In the pre-training phase, we deploy a masked multi-view encoder devised to concurrently train masked multi-view observations through a range of diverse proxy tasks. These tasks span image reconstruction, rotation, contrastive learning, and a novel task that employs a mutual learning paradigm. This new task capitalizes on the consistency between predictions from various perspectives, enabling the extraction of hidden multi-view information from 3D medical data. In the fine-tuning stage, a cross-view decoder is developed to aggregate the multi-view information through a cross-attention block. Compared with the previous state-of-the-art self-supervised learning method Swin UNETR, SwinMM demonstrates a notable advantage on several medical image segmentation tasks. It allows for a smooth integration of multi-view information, significantly boosting both the accuracy and data-efficiency of the model. Code and models are available at https://github.com/UCSC-VLAA/SwinMM/.
翻訳日:2023-07-25 15:12:21 公開日:2023-07-24
# invaert networks:エミュレーション、推論、識別可能性分析のためのデータ駆動フレームワーク

InVAErt networks: a data-driven framework for emulation, inference and identifiability analysis ( http://arxiv.org/abs/2307.12586v1 )

ライセンス: Link先を確認
Guoxiang Grayson Tong, Carlos A. Sing Long, Daniele E. Schiavazzi(参考訳) 物理に基づくシステムにおける生成モデルとディープラーニングの利用は、現在エミュレーションの課題に支配されている。 しかし、データ駆動アーキテクチャによって提供される顕著な柔軟性は、この表現をモデル反転や識別可能性を含むシステム合成の他の側面に拡張することを示唆する。 invaert (pronounced \emph{invert}) ネットワーク、決定論的エンコーダと逆解マップを表すデコーダを用いたパラメトリック物理システムのデータ駆動解析と合成のための包括的なフレームワーク、システム出力の確率分布を捉えるための正規化フロー、入力と出力の間の単射性の欠如に対してコンパクトな潜在表現を学ぶように設計された変分エンコーダを紹介する。 我々は,損失関数におけるペナルティ係数の選択と潜在空間サンプリングの戦略を正式に検討した。 我々は, 線形, 非線形, 周期写像, 動的システム, 時空間PDEなど, 広範な数値例を用いて, 枠組みを検証した。

Use of generative models and deep learning for physics-based systems is currently dominated by the task of emulation. However, the remarkable flexibility offered by data-driven architectures would suggest to extend this representation to other aspects of system synthesis including model inversion and identifiability. We introduce inVAErt (pronounced \emph{invert}) networks, a comprehensive framework for data-driven analysis and synthesis of parametric physical systems which uses a deterministic encoder and decoder to represent the forward and inverse solution maps, normalizing flow to capture the probabilistic distribution of system outputs, and a variational encoder designed to learn a compact latent representation for the lack of bijectivity between inputs and outputs. We formally investigate the selection of penalty coefficients in the loss function and strategies for latent space sampling, since we find that these significantly affect both training and testing performance. We validate our framework through extensive numerical examples, including simple linear, nonlinear, and periodic maps, dynamical systems, and spatio-temporal PDEs.
翻訳日:2023-07-25 15:11:55 公開日:2023-07-24
# SL: 医用画像分割のためのソースフリードメイン適応の安定学習

SL: Stable Learning in Source-Free Domain Adaption for Medical Image Segmentation ( http://arxiv.org/abs/2307.12580v1 )

ライセンス: Link先を確認
Yixin Chen, Yan Wang(参考訳) 医用画像解析のためのディープラーニング技術は通常、ソースとターゲットデータのドメインシフトに悩まされる。 現存するほとんどの研究は、教師なしドメイン適応(UDA)に焦点を当てている。 しかし、現実的なアプリケーションでは、プライバシーの問題はずっと深刻です。 例えば、異なる病院のデータには機器の問題によるドメインシフトがあり、プライバシーのために2つのドメインのデータを同時に利用することはできない。 ソースフリーUDAとして定義されたこの課題では、以前のUDA医療手法は限られている。 様々な医学的根拠のない非教師なしドメイン適応法(MSFUDA)が提案されているが、「より長いトレーニング、より悪いパフォーマンス」と呼ばれる過度なジレンマに陥ることが判明した。 そこで我々は,このジレンマに対処するための安定学習戦略を提案する。 SLはスケーラブルな手法であり、軽量化とエントロピー増加からなる他の研究と統合することができる。 まず、ドメイン不変知識を維持するために重み統合を適用し、過剰学習を避けるためにエントロピー増加を設計する。 比較実験によりSLの有効性が証明された。 また、広範囲にわたるアブレーション実験を行った。 さらに、様々なMSFUDAメソッドを含むコードもリリースします。

Deep learning techniques for medical image analysis usually suffer from the domain shift between source and target data. Most existing works focus on unsupervised domain adaptation (UDA). However, in practical applications, privacy issues are much more severe. For example, the data of different hospitals have domain shifts due to equipment problems, and data of the two domains cannot be available simultaneously because of privacy. In this challenge defined as Source-Free UDA, the previous UDA medical methods are limited. Although a variety of medical source-free unsupervised domain adaption (MSFUDA) methods have been proposed, we found they fall into an over-fitting dilemma called "longer training, worse performance." Therefore, we propose the Stable Learning (SL) strategy to address the dilemma. SL is a scalable method and can be integrated with other research, which consists of Weight Consolidation and Entropy Increase. First, we apply Weight Consolidation to retain domain-invariant knowledge and then we design Entropy Increase to avoid over-learning. Comparative experiments prove the effectiveness of SL. We also have done extensive ablation experiments. Besides, We will release codes including a variety of MSFUDA methods.
翻訳日:2023-07-25 15:11:32 公開日:2023-07-24
# PRIOR:医用画像からのプロトタイプ表現共同学習とその報告

PRIOR: Prototype Representation Joint Learning from Medical Images and Reports ( http://arxiv.org/abs/2307.12577v1 )

ライセンス: Link先を確認
Pujin Cheng, Li Lin, Junyan Lyu, Yijin Huang, Wenhan Luo, Xiaoying Tang(参考訳) コントラスト学習に基づく視覚言語共同学習は,表現学習戦略として成功している。 本稿では,医用画像とレポートのグローバルなアライメントとローカルなアライメントを両立させた表現学習フレームワークを提案する。 標準のグローバルマルチモダリティアライメント法とは対照的に,細粒度表現には局所アライメントモジュールを用いる。 さらに、マスク画像とレポートを再構成することにより、トレーニングフェーズにおけるモダリティ間の情報を交換するクロスモダリティ条件リコンストラクションモジュールも設計されている。 長いレポートを再構築するために,低レベルの局所的な視覚的特徴と高レベルの臨床言語的特徴に焦点をあてる文的プロトタイプメモリバンクを構築した。 さらに、非逐次レポートの再構築のために、非自己回帰生成パラダイムを提案する。 教師付き分類、ゼロショット分類、画像からテキストへの検索、セマンティックセグメンテーション、オブジェクト検出を含む5つの下流タスクの実験結果から、提案手法は複数のデータセットと異なるデータセットサイズ設定下で、他の最先端メソッドよりも優れていることを示す。 コードはhttps://github.com/qtacierp/priorで入手できる。

Contrastive learning based vision-language joint pre-training has emerged as a successful representation learning strategy. In this paper, we present a prototype representation learning framework incorporating both global and local alignment between medical images and reports. In contrast to standard global multi-modality alignment methods, we employ a local alignment module for fine-grained representation. Furthermore, a cross-modality conditional reconstruction module is designed to interchange information across modalities in the training phase by reconstructing masked images and reports. For reconstructing long reports, a sentence-wise prototype memory bank is constructed, enabling the network to focus on low-level localized visual and high-level clinical linguistic features. Additionally, a non-auto-regressive generation paradigm is proposed for reconstructing non-sequential reports. Experimental results on five downstream tasks, including supervised classification, zero-shot classification, image-to-text retrieval, semantic segmentation, and object detection, show the proposed method outperforms other state-of-the-art methods across multiple datasets and under different dataset size settings. The code is available at https://github.com/QtacierP/PRIOR.
翻訳日:2023-07-25 15:11:14 公開日:2023-07-24
# 雑音ラベルデータを用いた音源分離のための擬似ラベルの自己精製

Self-refining of Pseudo Labels for Music Source Separation with Noisy Labeled Data ( http://arxiv.org/abs/2307.12576v1 )

ライセンス: Link先を確認
Junghyun Koo, Yunkee Chae, Chang-Bin Jeon, Kyogu Lee(参考訳) 音楽ソース分離(mss)は、正しくラベルされた個々の楽器トラックの可用性が限られているため、課題に直面している。 より大きなデータセットを取得してMSSのパフォーマンスを向上させることで、誤ってラベル付けされた個々の楽器トラックに遭遇することは避けられなくなる。 本稿では,ラベルを部分的に誤記したデータセットで精錬する自動化手法を提案する。 提案手法では,クリーンラベルデータセットで学習した分類器と比較して,複数ラベル楽器認識において1%の精度低下しか得られなかった。 この研究は、mssモデルトレーニングにおけるノイズラベルデータの改良の重要性を示し、洗練されたデータセットを利用することで、クリーンラベルデータセットから得られた結果に匹敵する結果が得られることを示した。 特に、ノイズの多いデータセットのみにアクセスすると、自己修正データセットでトレーニングされたMSSモデルは、クリーンなラベルでトレーニングされた分類器で洗練されたデータセットでトレーニングされたデータセットよりも優れている。

Music source separation (MSS) faces challenges due to the limited availability of correctly-labeled individual instrument tracks. With the push to acquire larger datasets to improve MSS performance, the inevitability of encountering mislabeled individual instrument tracks becomes a significant challenge to address. This paper introduces an automated technique for refining the labels in a partially mislabeled dataset. Our proposed self-refining technique, employed with a noisy-labeled dataset, results in only a 1% accuracy degradation in multi-label instrument recognition compared to a classifier trained on a clean-labeled dataset. The study demonstrates the importance of refining noisy-labeled data in MSS model training and shows that utilizing the refined dataset leads to comparable results derived from a clean-labeled dataset. Notably, upon only access to a noisy dataset, MSS models trained on a self-refined dataset even outperform those trained on a dataset refined with a classifier trained on clean labels.
翻訳日:2023-07-25 15:10:56 公開日:2023-07-24
# 良い学生は協力的で信頼できる:意味セグメンテーションのためのcnn-transformer協調学習

A Good Student is Cooperative and Reliable: CNN-Transformer Collaborative Learning for Semantic Segmentation ( http://arxiv.org/abs/2307.12574v1 )

ライセンス: Link先を確認
Jinjing Zhu, Yunhao Luo, Xu Zheng, Hao Wang and Lin Wang(参考訳) 本稿では,「畳み込みニューラルネットワーク(cnn)と視覚トランスフォーマ(vit)に基づくモデルと,それらの間の信頼できる知識の選択と交換により,どのように協調的に学習するか」という問いに答える。 そこで我々は,CNN と ViT の2つの重要な技術的ブレークスルーを持つコンパクトで効果的な CNN ベースモデルと ViT ベースのモデルを同時に学習し,その限界を補いながら CNN と ViT を最大限に活用するオンライン知識蒸留(KD)フレームワークを提案する。 まず,CNN と ViT の不均一な特徴を模倣することにより,低層特徴空間における学生の一貫性を向上させるヘテロジニアス特徴蒸留(HFD)を提案する。 第二に, 2人の学生が相互に信頼できる知識を学べるようにするため, 選択的知識を動的に伝達できる双方向選択的蒸留(bsd)を提案する。 これが達成される 1)特徴空間内の対応する領域間で伝達される知識の方向を決定する領域単位BSD 2)ロジット空間においてどの予測知識を転送すべきかをピクセル単位のBSDで判別する。 3つのベンチマークデータセットの大規模な実験により,提案手法は最先端のオンライン蒸留法よりも高い性能を示し,ViTベースモデルとCNNベースモデルとの協調学習の有効性を示した。

In this paper, we strive to answer the question "how to collaboratively learn convolutional neural network (CNN)-based and vision transformer (ViT)-based models by selecting and exchanging the reliable knowledge between them for semantic segmentation?" Accordingly, we propose an online knowledge distillation (KD) framework that can simultaneously learn compact yet effective CNN-based and ViT-based models with two key technical breakthroughs to take full advantage of CNNs and ViT while compensating their limitations. Firstly, we propose heterogeneous feature distillation (HFD) to improve students' consistency in low-layer feature space by mimicking heterogeneous features between CNNs and ViT. Secondly, to facilitate the two students to learn reliable knowledge from each other, we propose bidirectional selective distillation (BSD) that can dynamically transfer selective knowledge. This is achieved by 1) region-wise BSD determining the directions of knowledge transferred between the corresponding regions in the feature space and 2) pixel-wise BSD discerning which of the prediction knowledge to be transferred in the logit space. Extensive experiments on three benchmark datasets demonstrate that our proposed framework outperforms the state-of-the-art online distillation methods by a large margin, and shows its efficacy in learning collaboratively between ViT-based and CNN-based models.
翻訳日:2023-07-25 15:10:41 公開日:2023-07-24
# Tachikuma: 大規模言語モデルによるマルチファクターと新しいオブジェクトとの複雑な相互作用の確立

Tachikuma: Understading Complex Interactions with Multi-Character and Novel Objects by Large Language Models ( http://arxiv.org/abs/2307.12573v1 )

ライセンス: Link先を確認
Yuanzhi Liang, Linchao Zhu, Yi Yang(参考訳) 自然言語とLarge Language Models(LLM)の最近の進歩により、AIエージェントは仮想世界での人間のようなインタラクションをシミュレートできるようになった。 しかし、これらの相互作用は、特に複数の文字と新しいオブジェクトを含むシナリオにおいて、複雑さと柔軟性の制限に直面している。 エージェントの世界モデルで全ての相互作用可能なオブジェクトを事前に定義することは困難であり、複雑な相互作用を通じて複数の文字に暗黙の意図を伝えることは依然として困難である。 そこで本稿では,仮想ゲームマスタ(gms)をエージェントの世界モデルに統合し,テーブルトップロールプレイングゲーム(trpgs)からインスピレーションを得た。 GMは情報を監視し、プレイヤーの意図を推定し、環境の説明を提供し、フィードバックを提供し、現在の世界モデルの欠陥を補うために重要な役割を果たす。 複雑なインタラクションの今後の探索を容易にするために,複数文字と新しいオブジェクトベースインタラクション推定(MOE)タスクとサポートデータセットからなる,Tchikumaというベンチマークを導入する。 moeはモデルに挑戦し、キャラクターの意図を理解し、マルチキャラクタと新しいオブジェクトインタラクションを含む複雑なコンテキスト内でそれらのアクションを正確に決定する。 さらにデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、さらなる調査のために多様で接地的で複雑なインタラクションを提供する。 最後に,簡単なプロンプトベースラインを示し,その性能評価を行い,インタラクション理解の促進に有効性を示す。 我々のデータセットとタスクが、自然言語との複雑な相互作用をさらに研究し、より高度なAIエージェントの開発を促進することを期待しています。

Recent advancements in natural language and Large Language Models (LLMs) have enabled AI agents to simulate human-like interactions within virtual worlds. However, these interactions still face limitations in complexity and flexibility, particularly in scenarios involving multiple characters and novel objects. Pre-defining all interactable objects in the agent's world model presents challenges, and conveying implicit intentions to multiple characters through complex interactions remains difficult. To address these issues, we propose integrating virtual Game Masters (GMs) into the agent's world model, drawing inspiration from Tabletop Role-Playing Games (TRPGs). GMs play a crucial role in overseeing information, estimating players' intentions, providing environment descriptions, and offering feedback, compensating for current world model deficiencies. To facilitate future explorations for complex interactions, we introduce a benchmark named Tachikuma, comprising a Multiple character and novel Object based interaction Estimation (MOE) task and a supporting dataset. MOE challenges models to understand characters' intentions and accurately determine their actions within intricate contexts involving multi-character and novel object interactions. Besides, the dataset captures log data from real-time communications during gameplay, providing diverse, grounded, and complex interactions for further explorations. Finally, we present a simple prompting baseline and evaluate its performance, demonstrating its effectiveness in enhancing interaction understanding. We hope that our dataset and task will inspire further research in complex interactions with natural language, fostering the development of more advanced AI agents.
翻訳日:2023-07-25 15:10:13 公開日:2023-07-24
# ヒューマンライクなマルチモーダル推論の強化:新しいチェアリングデータセットと包括的フレームワーク

Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset and Comprehensive Framework ( http://arxiv.org/abs/2307.12626v1 )

ライセンス: Link先を確認
Jingxuan Wei, Cheng Tan, Zhangyang Gao, Linzhuang Sun, Siyuan Li, Bihui Yu, Ruifeng Guo, Stan Z. Li(参考訳) マルチモーダル推論は、特に複雑なタスクに取り組む際に人間のような知性を示す人工知能システムの追求において重要な要素である。 チェーン・オブ・ソート(CoT)技術は注目されているが、既存のScienceQAデータセットは、小・高校の教科書からのマルチモーダルな科学的質問や説明に焦点を当てており、多様なアプローチの包括的な評価は欠いている。 このギャップに対処するために,我々は,開放された質問,合理性,回答の膨大なコレクションを包含する新しいデータセットであるcoco multi-modal reasoning dataset(coco-mmrd)を提案する。 複数選択の質問に依存する従来のデータセットとは異なり、データセットはマルチモーダルCoTのコンテキストにおけるオープンエンドの質問の使用を先導し、CoTモデルの推論能力を効果的に評価するより困難な問題を導入します。 総合的な評価と詳細な分析を通じて,画像とテキストエンコーダを強化するために,マルチホップクロスモーダル注意と文レベルのコントラスト学習を含む革新的な手法を提案する。 大規模な実験は、提案したデータセットとテクニックの有効性を示し、マルチモーダル推論を推し進めるための新しい視点を提供する。

Multimodal reasoning is a critical component in the pursuit of artificial intelligence systems that exhibit human-like intelligence, especially when tackling complex tasks. While the chain-of-thought (CoT) technique has gained considerable attention, the existing ScienceQA dataset, which focuses on multimodal scientific questions and explanations from elementary and high school textbooks, lacks a comprehensive evaluation of diverse approaches. To address this gap, we present COCO Multi-Modal Reasoning Dataset(COCO-MMRD), a novel dataset that encompasses an extensive collection of open-ended questions, rationales, and answers derived from the large object dataset COCO. Unlike previous datasets that rely on multiple-choice questions, our dataset pioneers the use of open-ended questions in the context of multimodal CoT, introducing a more challenging problem that effectively assesses the reasoning capability of CoT models. Through comprehensive evaluations and detailed analyses, we provide valuable insights and propose innovative techniques, including multi-hop cross-modal attention and sentence-level contrastive learning, to enhance the image and text encoders. Extensive experiments demonstrate the efficacy of the proposed dataset and techniques, offering novel perspectives for advancing multimodal reasoning.
翻訳日:2023-07-25 15:05:08 公開日:2023-07-24
# 生成的逆数ネットワークによる連続処理における対実的推論のためのデコンバウンディング表現学習

De-confounding Representation Learning for Counterfactual Inference on Continuous Treatment via Generative Adversarial Network ( http://arxiv.org/abs/2307.12625v1 )

ライセンス: Link先を確認
Yonghe Zhao, Qiang Huang, Haolong Zeng, Yun Pen, Huiyan Sun(参考訳) バイナリ処理変数ではなく連続的な推論は、実世界の因果推論タスクでより一般的である。 結合バイアスを取り除くための辺縁構造モデルに基づくサンプル再重み付け手法はすでにいくつか存在するが、一般的には、治療の共起者への線形依存の除去と、通常検証不能な仮定パラメトリックモデルの精度に依存することに焦点をあてている。 本稿では,処理変数に絡み合った共変量の表現を生成し,連続処理の反事実的結果推定のためのデコンファウンディング表現学習(drl)フレームワークを提案する。 drlは非パラメトリックモデルであり、処理と共変量の間の線形および非線形の依存を取り除く。 具体的には,共変量表現と処理変数との相関関係を訓練することで,共変量表現と処理変数との相関関係を解消する。 さらに、フレームワークに反ファクト推論ネットワークを組み込んで、学習された表現をデコンバウンディングと信頼された推論の両方に役立てる。 合成データセットに関する大規模な実験により、DRLモデルは非衝突表現の学習において優れた性能を示し、連続的な処理変数に対する最先端の反実的推論モデルよりも優れていた。 さらに、DRLモデルを実世界の医療データセットMIMICに適用し、赤血球幅分布と死亡率の詳細な因果関係を示す。

Counterfactual inference for continuous rather than binary treatment variables is more common in real-world causal inference tasks. While there are already some sample reweighting methods based on Marginal Structural Model for eliminating the confounding bias, they generally focus on removing the treatment's linear dependence on confounders and rely on the accuracy of the assumed parametric models, which are usually unverifiable. In this paper, we propose a de-confounding representation learning (DRL) framework for counterfactual outcome estimation of continuous treatment by generating the representations of covariates disentangled with the treatment variables. The DRL is a non-parametric model that eliminates both linear and nonlinear dependence between treatment and covariates. Specifically, we train the correlations between the de-confounded representations and the treatment variables against the correlations between the covariate representations and the treatment variables to eliminate confounding bias. Further, a counterfactual inference network is embedded into the framework to make the learned representations serve both de-confounding and trusted inference. Extensive experiments on synthetic datasets show that the DRL model performs superiorly in learning de-confounding representations and outperforms state-of-the-art counterfactual inference models for continuous treatment variables. In addition, we apply the DRL model to a real-world medical dataset MIMIC and demonstrate a detailed causal relationship between red cell width distribution and mortality.
翻訳日:2023-07-25 15:04:44 公開日:2023-07-24
# out-of-distribution generalizationのフェーズマッチ

Phase Match for Out-of-Distribution Generalization ( http://arxiv.org/abs/2307.12622v1 )

ライセンス: Link先を確認
Chengming Hu, Rui Wang, Hao Chen, Zhouwang Yang(参考訳) 視覚信号の明確な分解法として機能するフーリエ変換は、畳み込みニューラルネットワーク(CNN)の分布外一般化挙動を説明するために用いられる。 これまでの研究では、振幅スペクトルがCNN認識において決定的な役割を担っていることが示されているが、分布シフトによる障害の影響を受けやすい。 一方、位相スペクトルは高度に構造化された空間情報を保存し、視覚表現学習に不可欠である。 本稿では、フーリエ構造因果モデルを導入することにより、ドメイン一般化(DG)と周波数成分の関係を明らかにすることを目的とする。 具体的には、位相スペクトルを半因果因子、振幅スペクトルを非因果因子と解釈する。 これらの観測に基づいてDG問題に対処するための位相マッチング(PhaMa)を提案する。 本手法は振幅スペクトルの摂動を導入し,位相成分に一致する空間関係を確立する。 提案手法は,複数のベンチマーク実験により,領域一般化および分布外ロバスト性タスクにおける最先端性能を実現することを示す。

The Fourier transform, serving as an explicit decomposition method for visual signals, has been employed to explain the out-of-distribution generalization behaviors of Convolutional Neural Networks (CNNs). Previous research and empirical studies have indicated that the amplitude spectrum plays a decisive role in CNN recognition, but it is susceptible to disturbance caused by distribution shifts. On the other hand, the phase spectrum preserves highly-structured spatial information, which is crucial for visual representation learning. In this paper, we aim to clarify the relationships between Domain Generalization (DG) and the frequency components by introducing a Fourier-based structural causal model. Specifically, we interpret the phase spectrum as semi-causal factors and the amplitude spectrum as non-causal factors. Building upon these observations, we propose Phase Match (PhaMa) to address DG problems. Our method introduces perturbations on the amplitude spectrum and establishes spatial relationships to match the phase components. Through experiments on multiple benchmarks, we demonstrate that our proposed method achieves state-of-the-art performance in domain generalization and out-of-distribution robustness tasks.
翻訳日:2023-07-25 15:04:17 公開日:2023-07-24
# 有限トレース上の過去現在時相プログラム

Past-present temporal programs over finite traces ( http://arxiv.org/abs/2307.12620v1 )

ライセンス: Link先を確認
Pedro Cabalar, Mart\'in Di\'eguez, Fran\c{c}ois Laferri\`ere, Torsten Schaub(参考訳) 有限トレース上の時間平衡論理(TELf)のような時相論理からの言語構成による解集合プログラミングの拡張は、動的アプリケーションのモデリングのための表現力のある計算フレームワークを提供する。 本稿では,過去と現在へのボディリファレンスを持つ一連の論理プログラミングルールからなる,いわゆる過去現在構文サブクラスについて検討する。 このような制限は、過去が未来から独立したままであることを保証する。 LTLf式を用いて、過去の時間的プログラムの時間的安定モデルを取得することができるように、完了とループの公式の定義を過去の時間的公式の場合に拡張する。

Extensions of Answer Set Programming with language constructs from temporal logics, such as temporal equilibrium logic over finite traces (TELf), provide an expressive computational framework for modeling dynamic applications. In this paper, we study the so-called past-present syntactic subclass, which consists of a set of logic programming rules whose body references to the past and head to the present. Such restriction ensures that the past remains independent of the future, which is the case in most dynamic domains. We extend the definitions of completion and loop formulas to the case of past-present formulas, which allows capturing the temporal stable models of a set of past-present temporal programs by means of an LTLf expression.
翻訳日:2023-07-25 15:04:02 公開日:2023-07-24
# 短軸心MRI領域分割のためのスパースアノテーション戦略

Sparse annotation strategies for segmentation of short axis cardiac MRI ( http://arxiv.org/abs/2307.12619v1 )

ライセンス: Link先を確認
Josh Stein and Maxime Di Folco and Julia Schnabel(参考訳) 短軸心MRIのセグメンテーションはよく研究され, 教師付き環境での最先端モデルによる優れた結果を得た。 しかし、MRIボリュームのアノテートには時間と費用がかかる。 多くの異なるアプローチ(転送学習、データ拡張、少数ショット学習など)が、注釈付きデータの使用を減らし、完全に監督されたモデルと同等のパフォーマンスを達成するために出現した。 それにもかかわらず、私たちの知る限りでは、これらの研究はどのMRIボリュームのスライスが最適なセグメンテーション結果を得るためにアノテートが最も重要であるかに焦点を当てていない。 本稿では,スパースボリュームによるトレーニングの効果,すなわち,注釈付き症例数とスパースアノテーション,すなわち1ケースあたりの注釈付きスライス数を減少させる効果について検討する。 我々は2つの公開データセット上で,最先端のnnU-Netモデルを用いてセグメント化性能を評価し,どのスライスが最も重要かを特定する。 我々は,データセット(48の注釈付きボリューム)のトレーニングにより,0.85以上のサイススコアと,データセット全体(それぞれ160ボリュームと240ボリューム)を使用した場合と同等の結果が得られることを示した。 一般的に、スライスアノテーションのトレーニングは、より多くのボリュームのトレーニングよりも価値のある情報を提供する。 さらに、ボリュームの中央からスライスを注釈すると、セグメンテーション性能において最も有益な結果となり、アピカル領域が最悪となる。 スライスに対する注釈付きボリューム間のトレードオフを評価する場合、より多くのボリュームをアノテートするのではなく、可能な限り多くのスライスをアノテートするのがよい戦略である。

Short axis cardiac MRI segmentation is a well-researched topic, with excellent results achieved by state-of-the-art models in a supervised setting. However, annotating MRI volumes is time-consuming and expensive. Many different approaches (e.g. transfer learning, data augmentation, few-shot learning, etc.) have emerged in an effort to use fewer annotated data and still achieve similar performance as a fully supervised model. Nevertheless, to the best of our knowledge, none of these works focus on which slices of MRI volumes are most important to annotate for yielding the best segmentation results. In this paper, we investigate the effects of training with sparse volumes, i.e. reducing the number of cases annotated, and sparse annotations, i.e. reducing the number of slices annotated per case. We evaluate the segmentation performance using the state-of-the-art nnU-Net model on two public datasets to identify which slices are the most important to annotate. We have shown that training on a significantly reduced dataset (48 annotated volumes) can give a Dice score greater than 0.85 and results comparable to using the full dataset (160 and 240 volumes for each dataset respectively). In general, training on more slice annotations provides more valuable information compared to training on more volumes. Further, annotating slices from the middle of volumes yields the most beneficial results in terms of segmentation performance, and the apical region the worst. When evaluating the trade-off between annotating volumes against slices, annotating as many slices as possible instead of annotating more volumes is a better strategy.
翻訳日:2023-07-25 15:03:48 公開日:2023-07-24
# Attribute Regularized Soft Introspective VAE: : MRI領域による心Attribute Regularizationに向けて

Attribute Regularized Soft Introspective VAE: Towards Cardiac Attribute Regularization Through MRI Domains ( http://arxiv.org/abs/2307.12618v1 )

ライセンス: Link先を確認
Maxime Di Folco and Cosmin Bercea and Julia A. Schnabel(参考訳) 深層生成モデルがデータ生成と操作に影響を与えている。 データ属性を選択的に変更することで、これらのモデルの制御性を高めることが最近注目されている。 変分オートエンコーダ(VAE)は、隠された属性をキャプチャするが、しばしばぼやけた再構成を生成する。 これらの属性を異なる画像領域で制御することは、医用画像では難しい。 近年、ソフトイントロスペクティブvaeは、vae訓練に敵対的損失を組み込むことにより、印象的な画像合成能力を示したvaesとgansの双方の利点を生かしている。 本研究では,属性正規化損失をSoft-Intro VAEフレームワークに組み込むことで,Attributed Soft Introspective VAE(Attri-SIVAE)を提案する。 種々のスキャナーベンダーや取得センタなど,様々な領域の心臓MRIデータに対する提案手法を実験的に評価した。 提案手法は, 従来の正規化vaeと比較して, 再構成と正規化の点で同等の性能を発揮するが, 比較法とは異なり, 異なるデータセット上でテストした場合も同様の正規化レベルを維持することにも成功している。

Deep generative models have emerged as influential instruments for data generation and manipulation. Enhancing the controllability of these models by selectively modifying data attributes has been a recent focus. Variational Autoencoders (VAEs) have shown promise in capturing hidden attributes but often produce blurry reconstructions. Controlling these attributes through different imaging domains is difficult in medical imaging. Recently, Soft Introspective VAE leverage the benefits of both VAEs and Generative Adversarial Networks (GANs), which have demonstrated impressive image synthesis capabilities, by incorporating an adversarial loss into VAE training. In this work, we propose the Attributed Soft Introspective VAE (Attri-SIVAE) by incorporating an attribute regularized loss, into the Soft-Intro VAE framework. We evaluate experimentally the proposed method on cardiac MRI data from different domains, such as various scanner vendors and acquisition centers. The proposed method achieves similar performance in terms of reconstruction and regularization compared to the state-of-the-art Attributed regularized VAE but additionally also succeeds in keeping the same regularization level when tested on a different dataset, unlike the compared method.
翻訳日:2023-07-25 15:03:16 公開日:2023-07-24
# 変圧器を用いた常微分方程式の予測

Predicting Ordinary Differential Equations with Transformers ( http://arxiv.org/abs/2307.12617v1 )

ライセンス: Link先を確認
S\"oren Becker, Michal Klein, Alexander Neitz, Giambattista Parascandolo, Niki Kilbertus(参考訳) 単一溶液軌道の不規則サンプリングおよび雑音観測から,スカラー常微分方程式(ODE)を記号形式で復元するトランスフォーマーに基づくシーケンス・ツー・シーケンス・モデルを開発した。 各種設定の精度向上の観点から,本モデルが既存手法と同等あるいは同等に動作することを示す実験的な評価を行った。 さらに,本手法は効率よく拡張可能であり,大量のODEに対して1回の事前学習を行った後,新しい観測解の法則をモデルの前方通過で推測することができる。

We develop a transformer-based sequence-to-sequence model that recovers scalar ordinary differential equations (ODEs) in symbolic form from irregularly sampled and noisy observations of a single solution trajectory. We demonstrate in extensive empirical evaluations that our model performs better or on par with existing methods in terms of accurate recovery across various settings. Moreover, our method is efficiently scalable: after one-time pretraining on a large set of ODEs, we can infer the governing law of a new observed solution in a few forward passes of the model.
翻訳日:2023-07-25 15:02:30 公開日:2023-07-24
# CTVIS: オンラインビデオインスタンスセグメンテーションのための一貫性のあるトレーニング

CTVIS: Consistent Training for Online Video Instance Segmentation ( http://arxiv.org/abs/2307.12616v1 )

ライセンス: Link先を確認
Kaining Ying, Qing Zhong, Weian Mao, Zhenhua Wang, Hao Chen, Lin Yuanbo Wu, Yifan Liu, Chengxiang Fan, Yunzhi Zhuge, Chunhua Shen(参考訳) インスタンス埋め込みの識別は、オンラインビデオインスタンスセグメンテーション(VIS)のために時間をかけてインスタンスを関連付ける上で重要な役割を果たす。 インスタンス埋め込み学習は、アンカー/陽性/負の埋め込みのセットであるコントラストアイテム(CI)に基づいて計算されたコントラスト損失によって直接監督される。 近年のオンラインVIS手法では,参照フレームのみから派生したCIを活用している。 直感的には、CIを強化するための戦略は、トレーニング中に推論フェーズを複製することだ。 この目的のために我々は,CI構築の観点からトレーニングパイプラインと推論パイプラインの整合性を重視した,CTVIS(Consistent Training for Online VIS)と呼ばれる,シンプルで効果的なトレーニング戦略を提案する。 特に、CTVISは、モーメント平均埋め込みとメモリバンク記憶機構を推論し、関連する埋め込みにノイズを加えることでCIを構築する。 このような拡張により、現在のインスタンスの埋め込みと過去のインスタンスの安定した表現との信頼性の高い比較が可能となり、オクルージョンや再識別、変形といったVISの課題をモデル化する上で有利となる。 CTVISは、YTVIS19 (55.1% AP)、YTVIS21 (50.1% AP)、OVIS (35.5% AP)を含む3つのVISベンチマークで、SOTA VISモデルを最大5.0ポイント超えた。 さらに,画像から変換された擬似映像は,教師付きモデルよりも頑健なモデルを学習できることがわかった。

The discrimination of instance embeddings plays a vital role in associating instances across time for online video instance segmentation (VIS). Instance embedding learning is directly supervised by the contrastive loss computed upon the contrastive items (CIs), which are sets of anchor/positive/negative embeddings. Recent online VIS methods leverage CIs sourced from one reference frame only, which we argue is insufficient for learning highly discriminative embeddings. Intuitively, a possible strategy to enhance CIs is replicating the inference phase during training. To this end, we propose a simple yet effective training strategy, called Consistent Training for Online VIS (CTVIS), which devotes to aligning the training and inference pipelines in terms of building CIs. Specifically, CTVIS constructs CIs by referring inference the momentum-averaged embedding and the memory bank storage mechanisms, and adding noise to the relevant embeddings. Such an extension allows a reliable comparison between embeddings of current instances and the stable representations of historical instances, thereby conferring an advantage in modeling VIS challenges such as occlusion, re-identification, and deformation. Empirically, CTVIS outstrips the SOTA VIS models by up to +5.0 points on three VIS benchmarks, including YTVIS19 (55.1% AP), YTVIS21 (50.1% AP) and OVIS (35.5% AP). Furthermore, we find that pseudo-videos transformed from images can train robust models surpassing fully-supervised ones.
翻訳日:2023-07-25 15:02:13 公開日:2023-07-24
# less is more: 効率的なdetrに注目すること

Less is More: Focus Attention for Efficient DETR ( http://arxiv.org/abs/2307.12612v1 )

ライセンス: Link先を確認
Dehua Zheng, Wenhui Dong, Hailin Hu, Xinghao Chen, Yunhe Wang(参考訳) DETRのようなモデルは検出器の性能を大幅に向上させ、古典的な畳み込みモデルよりも優れていた。 しかし、すべてのトークンは差別なく等しく扱われ、従来のエンコーダ構造に冗長な計算負荷をもたらす。 最近のスペーシフィケーション戦略は、スパースエンコーダによるパフォーマンスを維持するために、情報トークンのサブセットを活用する。 しかし、これらの方法は信頼できないモデル統計に依存する傾向がある。 さらに、トークン人口を減らすだけで検出性能が大幅に低下し、これらのスパースモデルの適用が制限される。 計算効率とモデル精度のトレードオフを改善するために,より情報性の高いトークンに着目したFocus-DETRを提案する。 具体的には,マルチスケール特徴地図からオブジェクトの局所化とカテゴリ意味情報の両方を考慮するトークンスコアリング機構を含む,二重注意でエンコーダを再構成する。 背景クエリを効率的に放棄し、スコアに基づいてきめ細かいオブジェクトクエリの意味的インタラクションを強化します。 同じ条件下での最先端のスパースDETRのような検出器と比較すると、Focus-DETRはCOCO上で50.4AP(+2.2)を達成しながら、同等の複雑さを得る。 コードはhttps://github.com/huawei-noah/noah-research/tree/Focus-DETRとhttps://gitee.com/mindspore/models/tree/research/cv/Focus-DETRで公開されている。

DETR-like models have significantly boosted the performance of detectors and even outperformed classical convolutional models. However, all tokens are treated equally without discrimination brings a redundant computational burden in the traditional encoder structure. The recent sparsification strategies exploit a subset of informative tokens to reduce attention complexity maintaining performance through the sparse encoder. But these methods tend to rely on unreliable model statistics. Moreover, simply reducing the token population hinders the detection performance to a large extent, limiting the application of these sparse models. We propose Focus-DETR, which focuses attention on more informative tokens for a better trade-off between computation efficiency and model accuracy. Specifically, we reconstruct the encoder with dual attention, which includes a token scoring mechanism that considers both localization and category semantic information of the objects from multi-scale feature maps. We efficiently abandon the background queries and enhance the semantic interaction of the fine-grained object queries based on the scores. Compared with the state-of-the-art sparse DETR-like detectors under the same setting, our Focus-DETR gets comparable complexity while achieving 50.4AP (+2.2) on COCO. The code is available at https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR and https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR.
翻訳日:2023-07-25 15:01:37 公開日:2023-07-24
# ExWarp:高周波ディスプレイ用外挿・ウォーピング型テンポラルスーパーサンプリング

ExWarp: Extrapolation and Warping-based Temporal Supersampling for High-frequency Displays ( http://arxiv.org/abs/2307.12607v1 )

ライセンス: Link先を確認
Akanksha Dixit, Yashashwee Chakrabarty, Smruti R. Sarangi(参考訳) 高周波ディスプレイは、ビデオゲームや仮想現実アプリケーションでの利用が増えているため、人気が高まっている。 However, the issue is that the underlying GPUs cannot continuously generate frames at this high rate -- this results in a less smooth and responsive experience. Furthermore, if the frame rate is not synchronized with the refresh rate, the user may experience screen tearing and stuttering. Previous works propose increasing the frame rate to provide a smooth experience on modern displays by predicting new frames based on past or future frames. Interpolation and extrapolation are two widely used algorithms that predict new frames. Interpolation requires waiting for the future frame to make a prediction, which adds additional latency. On the other hand, extrapolation provides a better quality of experience because it relies solely on past frames -- it does not incur any additional latency. The simplest method to extrapolate a frame is to warp the previous frame using motion vectors; however, the warped frame may contain improperly rendered visual artifacts due to dynamic objects -- this makes it very challenging to design such a scheme. Past work has used DNNs to get good accuracy, however, these approaches are slow. This paper proposes Exwarp -- an approach based on reinforcement learning (RL) to intelligently choose between the slower DNN-based extrapolation and faster warping-based methods to increase the frame rate by 4x with an almost negligible reduction in the perceived image quality.

High-frequency displays are gaining immense popularity because of their increasing use in video games and virtual reality applications. However, the issue is that the underlying GPUs cannot continuously generate frames at this high rate -- this results in a less smooth and responsive experience. Furthermore, if the frame rate is not synchronized with the refresh rate, the user may experience screen tearing and stuttering. Previous works propose increasing the frame rate to provide a smooth experience on modern displays by predicting new frames based on past or future frames. Interpolation and extrapolation are two widely used algorithms that predict new frames. Interpolation requires waiting for the future frame to make a prediction, which adds additional latency. On the other hand, extrapolation provides a better quality of experience because it relies solely on past frames -- it does not incur any additional latency. The simplest method to extrapolate a frame is to warp the previous frame using motion vectors; however, the warped frame may contain improperly rendered visual artifacts due to dynamic objects -- this makes it very challenging to design such a scheme. Past work has used DNNs to get good accuracy, however, these approaches are slow. This paper proposes Exwarp -- an approach based on reinforcement learning (RL) to intelligently choose between the slower DNN-based extrapolation and faster warping-based methods to increase the frame rate by 4x with an almost negligible reduction in the perceived image quality.
翻訳日:2023-07-25 15:01:09 公開日:2023-07-24
# すべてのユーザと予算のためのモデル:ラベルフリーとパーソナライズされた混合精度量子化

A Model for Every User and Budget: Label-Free and Personalized Mixed-Precision Quantization ( http://arxiv.org/abs/2307.12659v1 )

ライセンス: Link先を確認
Edward Fish, Umberto Michieli, Mete Ozay(参考訳) 近年のASR(Automatic Speech Recognition)の進歩は、モバイルデバイスへの展開に欠かせない大規模なAIモデルを生み出している。 モデル量子化は圧縮された汎用モデルを生成するのに有効であるが、そのようなモデルは制限されたサブドメインにのみデプロイできる。 ASRモデルは,対象領域から抽出した少数のサンプルに頼りながら,量子化時にパーソナライズできることを示す。 そこで本研究では,マイクロチューニングを伴わないメモリ要求条件下で,多様なユーザに適した量子化スキームを生成する混合精度量子化手法であるmyQASRを提案する。 myQASRは、全精度アクティベーション値を分析して、ネットワーク層の量子化感度を自動的に評価する。 そして、事前決定されたメモリ予算に対して、パーソナライズされた混合精度量子化スキームを生成することができる。 大規模ASRモデルの結果は、myQASRが特定の性別、言語、話者のパフォーマンスをどのように改善するかを示している。

Recent advancement in Automatic Speech Recognition (ASR) has produced large AI models, which become impractical for deployment in mobile devices. Model quantization is effective to produce compressed general-purpose models, however such models may only be deployed to a restricted sub-domain of interest. We show that ASR models can be personalized during quantization while relying on just a small set of unlabelled samples from the target domain. To this end, we propose myQASR, a mixed-precision quantization method that generates tailored quantization schemes for diverse users under any memory requirement with no fine-tuning. myQASR automatically evaluates the quantization sensitivity of network layers by analysing the full-precision activation values. We are then able to generate a personalised mixed-precision quantization scheme for any pre-determined memory budget. Results for large-scale ASR models show how myQASR improves performance for specific genders, languages, and speakers.
翻訳日:2023-07-25 14:53:26 公開日:2023-07-24
# 色画像復元のための理論上保証された四元重み付きシャッテンpノルム最小化法

A Theoretically Guaranteed Quaternion Weighted Schatten p-norm Minimization Method for Color Image Restoration ( http://arxiv.org/abs/2307.12656v1 )

ライセンス: Link先を確認
Qing-Hua Zhang, Liang-Tian He, Yi-Lun Wang, Liang-Jian Deng, Jun Liu(参考訳) 自然画像における非局所的類似パッチで定式化された行列が低位であることから着想を得て, 原子核ノルム最小化(WNNM)と重み付きSchatten $p$-norm最小化(WSNM)の2つの手法が, 様々な画像復元(IR)問題において大きな優位性を示した。 カラー画像の物理的特性のため、カラー画像復元(CIR)はグレースケール画像よりも難しい作業であることが多い。 しかし、CIRに適用した場合、従来のWNNM/WSNM法は3つの色チャネルのみを個別に処理し、チャネル間の相関を考慮できない。 近年、四元系wnnmアプローチ(qwnnm)が開発され、四元系領域全体のカラーイメージを表現し、3つのカラーチャネル間の固有相関を保ちながら、この問題を緩和している。 実験的な成功にもかかわらず、残念ながら、QWNNMの収束挙動は厳密には研究されていない。 本稿では,WSNMを四元数領域に拡張し,それに対応する新しい四元数ベースWSNMモデル(QWSNM)を提案する。 カラー画像のデノゲーションとデブロワーリングを含む2つの代表的CIRタスクに対する広範な実験により、提案手法は、定量評価と定性評価の両方において、多くの最先端の代替品に対して好適に機能することを示した。 一方、より重要なことは、理論収束解析として、単純な継続戦略により乗算器の四元交互方向法(QADMM)を変更することにより、QWNNMとQWSNMが生成する解列が固定点収束を保証することを理論的に証明することである。

Inspired by the fact that the matrix formulated by nonlocal similar patches in a natural image is of low rank, the rank approximation issue have been extensively investigated over the past decades, among which weighted nuclear norm minimization (WNNM) and weighted Schatten $p$-norm minimization (WSNM) are two prevailing methods have shown great superiority in various image restoration (IR) problems. Due to the physical characteristic of color images, color image restoration (CIR) is often a much more difficult task than its grayscale image counterpart. However, when applied to CIR, the traditional WNNM/WSNM method only processes three color channels individually and fails to consider their cross-channel correlations. Very recently, a quaternion-based WNNM approach (QWNNM) has been developed to mitigate this issue, which is capable of representing the color image as a whole in the quaternion domain and preserving the inherent correlation among the three color channels. Despite its empirical success, unfortunately, the convergence behavior of QWNNM has not been strictly studied yet. In this paper, on the one side, we extend the WSNM into quaternion domain and correspondingly propose a novel quaternion-based WSNM model (QWSNM) for tackling the CIR problems. Extensive experiments on two representative CIR tasks, including color image denoising and deblurring, demonstrate that the proposed QWSNM method performs favorably against many state-of-the-art alternatives, in both quantitative and qualitative evaluations. On the other side, more importantly, we preliminarily provide a theoretical convergence analysis, that is, by modifying the quaternion alternating direction method of multipliers (QADMM) through a simple continuation strategy, we theoretically prove that both the solution sequences generated by the QWNNM and QWSNM have fixed-point convergence guarantees.
翻訳日:2023-07-25 14:53:09 公開日:2023-07-24
# マッチゲート計算のためのマジック状態のガウス分解

Gaussian decomposition of magic states for matchgate computations ( http://arxiv.org/abs/2307.12654v1 )

ライセンス: Link先を確認
Joshua Cudby, Sergii Strelchuk(参考訳) マジックステートは、古典的にシミュレート可能なクリフォードゲートを使って普遍的な量子計算を可能にするリソースとして導入された。 この概念は、代数的制約の集合によって定義される2量子近接量子ゲートからなる整合回路(MGC)に拡張されている。 我々の研究では、量子状態のガウス級数(その状態のガウス状態への分解における最小項数として定義される)と関連する量(ガウス的忠実度とガウス的範囲)を研究する。 ガウス状態の代数構造を調査し、ガウス状態の多様体の次元を上界とする制約の独立集合を発見し、記述する。 さらに、ガウス状態の線型依存三重項の形式を説明し、解の多様体の次元を求める。 ガウス状態に対する対応する$\epsilon$-netを構築することにより、ガウスの忠実度に関する上限を得ることができる。 両ガウス測度問題に対する実現可能な集合の極端な点の族を特定し、ガウス測度が 4 キュービットの系上で乗算可能であることを示す。 これらの極端な点は、拡張ハミング符号と密接に関連していることが判明した。 最小点が極端点の通常の円錐の内部にあるとき、最適な双対目撃者はほぼ確実に特異であることを示す。 さらに、標準魔法状態の2つのコピーのガウスランクは、対称性制限分解に対して4であることを示した。 数値的研究は、マジック状態の2コピーまたは3コピーの低ランク分解は存在しないことを示唆している。 最後に、ガウス階数と選択されたマジック状態に対する近似分解について考察する。

Magic states were originally introduced as a resource that enables universal quantum computation using classically simulable Clifford gates. This concept has been extended to matchgate circuits (MGCs) which are made of two-qubit nearest-neighbour quantum gates defined by a set of algebraic constraints. In our work, we study the Gaussian rank of a quantum state -- defined as the minimum number of terms in any decomposition of that state into Gaussian states -- and associated quantities: the Gaussian Fidelity and the Gaussian Extent. We investigate the algebraic structure of Gaussian states and find and describe the independent sets of constraints upper-bounding the dimension of the manifold of Gaussian states. Furthermore, we describe the form of linearly dependent triples of Gaussian states and find the dimension of the manifold of solutions. By constructing the corresponding $\epsilon$-net for the Gaussian states, we are able to obtain upper bounds on the Gaussian fidelity. We identify a family of extreme points of the feasible set for the Dual Gaussian extent problem and show that Gaussian extent is multiplicative on systems of 4 qubits; and further that it is multiplicative on primal points whose optimal dual witness is in the above family. These extreme points turn out to be closely related to Extended Hamming Codes. We show that optimal dual witnesses are unique almost-surely, when the primal point lies in the interior of the normal cone of an extreme point. Furthermore, we show that the Gaussian rank of two copies of our canonical magic state is 4 for symmetry-restricted decompositions. Numerical investigation suggests that no low-rank decompositions exist of either 2 or 3 copies of the magic state. Finally, we consider approximate Gaussian rank and present approximate decompositions for selected magic states.
翻訳日:2023-07-25 14:52:32 公開日:2023-07-24
# 磁場の直交多重高調波によるアルカリ蒸気中の異常スピン効果

Unusual spin effect in alkali vapor induced by two orthogonal multiple harmonics of magnetic field ( http://arxiv.org/abs/2307.12647v1 )

ライセンス: Link先を確認
E. N. Popov, A. A. Gaidash, A. V. Kozubov, and S. P. Voskoboynikov(参考訳) 本稿では,密度行列の定式化の枠組みに関する配向原子スピンを持つアルカリ蒸気中の異常な低周波磁気共鳴について述べる。 共鳴の特徴は、外部磁場に一定の成分が存在しないことである。 特定の周波数でのスピン配向の急上昇を説明するために、周期的磁気摂動によって制御される特別な閉じた原子スピン軌道を定義する。 閉軌道はスピン運動の周波数によって特徴づけられる。 共鳴効果は論文で数値的に検証された。 例えば、これらの軌道は光学励起によってアルカリ蒸気で観測することができる。 驚くべきことに、共鳴線の幅は予想されるように狭くなっている。

In this paper, we describe the unusual low-frequency magnetic resonances in alkali vapor with oriented atomic spins regarding the framework of density matrix formalism. The feature of the resonance is the absence of a constant component in the external magnetic field. To explain steep increase of the spin orientation at certain frequencies, we define special closed atomic spin trajectories governed by periodic magnetic perturbation. Any closed trajectory is characterized by the frequency of spin motion. The resonance effect was numerically verified in the paper. For instance, these trajectories can be observed in an alkali vapor via optical excitation. Surprisingly, the width of the resonance line is found to be narrower, as one may expect.
翻訳日:2023-07-25 14:52:01 公開日:2023-07-24
# リモートバイオセンシング: rPPGの評価のためのオープンソースベンチマークフレームワーク

Remote Bio-Sensing: Open Source Benchmark Framework for Fair Evaluation of rPPG ( http://arxiv.org/abs/2307.12644v1 )

ライセンス: Link先を確認
Dae Yeol Kim, Eunsu Goh, KwangKee Lee, JongEui Chae, JongHyeon Mun, Junyeong Na, Chae-bong Sohn, Do-Yup Kim(参考訳) remote photoplethysmography(rppg)は、カメラで捉えたヘモグロビンの光吸収特性を利用して血液容積パルス(bvp)を分析し測定する技術である。 測定したbvpの分析により、心拍数、ストレスレベル、血圧などの様々な生理的シグナルが導出され、心血管疾患の早期予測などの応用が可能となる。 rPPGは、血圧モニターやパルスオキシメータなどの追加の装置を必要とせず、医療専門家の助けなしにカメラ搭載デバイスを用いてバイタルシグナルを測定することができるため、急速に発展する分野である。 この分野での多大な努力と進歩にもかかわらず、肌の色、カメラ特性、環境照明、その他のノイズ源に関する問題など、パフォーマンスの正確さを損なうような深刻な課題が残っている。 これらの課題を克服し、学術的および商業的な見地から有意義な進歩をもたらすためには、公正で回避可能なベンチマークが緊急に必要であると主張する。 既存のほとんどの作業では、モデルは限られたデータセットでのみトレーニング、テスト、検証される。 さらに悪いことに、利用可能なコードや再現性に欠ける研究もあるため、パフォーマンスを適切に評価し比較することは困難である。 そこで本研究では,従来の非ディープニューラルネットワーク (non-DNN) とディープニューラルネットワーク (deep Neural Network, DNN) の両手法を含む,幅広いデータセットを対象とした様々な rPPG 技術の評価を行うベンチマークフレームワークを提案する。 GitHub URL: https://github.com/remotebiosensing/rppg

Remote Photoplethysmography (rPPG) is a technology that utilizes the light absorption properties of hemoglobin, captured via camera, to analyze and measure blood volume pulse (BVP). By analyzing the measured BVP, various physiological signals such as heart rate, stress levels, and blood pressure can be derived, enabling applications such as the early prediction of cardiovascular diseases. rPPG is a rapidly evolving field as it allows the measurement of vital signals using camera-equipped devices without the need for additional devices such as blood pressure monitors or pulse oximeters, and without the assistance of medical experts. Despite extensive efforts and advances in this field, serious challenges remain, including issues related to skin color, camera characteristics, ambient lighting, and other sources of noise, which degrade performance accuracy. We argue that fair and evaluable benchmarking is urgently required to overcome these challenges and make any meaningful progress from both academic and commercial perspectives. In most existing work, models are trained, tested, and validated only on limited datasets. Worse still, some studies lack available code or reproducibility, making it difficult to fairly evaluate and compare performance. Therefore, the purpose of this study is to provide a benchmarking framework to evaluate various rPPG techniques across a wide range of datasets for fair evaluation and comparison, including both conventional non-deep neural network (non-DNN) and deep neural network (DNN) methods. GitHub URL: https://github.com/remotebiosensing/rppg.
翻訳日:2023-07-25 14:51:53 公開日:2023-07-24
# グラフに基づくニューラルネットワークによる偽ニュース検出:調査

Fake News Detection Through Graph-based Neural Networks: A Survey ( http://arxiv.org/abs/2307.12639v1 )

ライセンス: Link先を確認
Shuzhi Gong, Richard O. Sinnott, Jianzhong Qi, Cecile Paris(参考訳) オンラインソーシャルネットワークの人気は、情報の急速な普及を可能にした。 今や人々は、これまで以上に早く情報を共有し、消費することができる。 しかし、低品質//または誤って偽の情報も急速に拡散する。 これは社会に大きな悪影響を及ぼす可能性がある。 オンラインの誤情報をできるだけ早く識別し、ラベル付けし、削除することは、ますます緊急な問題になっている。 深層学習やグラフベースのアプローチを含む偽ニュースを検出するための多くの手法が提案されている。 近年,オンラインニュースの社会的文脈と伝播過程を密にモデル化し,グラフベースの手法が大きな成果を上げている。 本稿では,グラフベースおよび深層学習に基づく偽ニュース検出研究の体系的レビューを行う。 既存のグラフベース手法を知識駆動手法,伝播型手法,ヘテロジニアスなソーシャルコンテキストベース手法に分類し,ニュース関連情報フローをモデル化するグラフ構造を構築した。 さらに,グラフに基づく偽ニュース検出における課題と課題を議論し,今後の研究方向を明らかにした。

The popularity of online social networks has enabled rapid dissemination of information. People now can share and consume information much more rapidly than ever before. However, low-quality and/or accidentally/deliberately fake information can also spread rapidly. This can lead to considerable and negative impacts on society. Identifying, labelling and debunking online misinformation as early as possible has become an increasingly urgent problem. Many methods have been proposed to detect fake news including many deep learning and graph-based approaches. In recent years, graph-based methods have yielded strong results, as they can closely model the social context and propagation process of online news. In this paper, we present a systematic review of fake news detection studies based on graph-based and deep learning-based techniques. We classify existing graph-based methods into knowledge-driven methods, propagation-based methods, and heterogeneous social context-based methods, depending on how a graph structure is constructed to model news related information flows. We further discuss the challenges and open problems in graph-based fake news detection and identify future research directions.
翻訳日:2023-07-25 14:51:24 公開日:2023-07-24
# PG-RCNN:3次元物体検出のための意味的表面点生成

PG-RCNN: Semantic Surface Point Generation for 3D Object Detection ( http://arxiv.org/abs/2307.12637v1 )

ライセンス: Link先を確認
Inyong Koo, Inyoung Lee, Se-Ho Kim, Hee-Seon Kim, Woo-jin Jeon, Changick Kim(参考訳) LiDARをベースとした3Dオブジェクト検出の主な課題の1つは、センサーが長い距離と閉塞のためにオブジェクトに関する完全な空間情報をキャプチャできないことである。 点雲完了アプローチを持つ2段階検出器は、事前訓練されたネットワークで関心領域(RoI)により多くの点を追加することでこの問題に対処する。 しかし、これらの手法はすべての領域の提案に対して、常にroisにオブジェクトが存在すると仮定して、オブジェクトの密接な点雲を生成する。 これは、誤った提案に対する不特定点生成にも繋がる。 そこで我々は,前景オブジェクトのセマンティックサーフェスポイントを生成する新しいエンドツーエンド検出器であるポイントジェネレーションR-CNN(PG-RCNN)を提案する。 本手法では,RoIのコンテキスト情報を処理するために共同で訓練されたRoI点生成モジュールを用いて,前景オブジェクトの完全な形状と変位を推定する。 PG-RCNNは生成された全ての点について、推定された前景確率を示す意味的特徴を割り当てる。 広範な実験により,提案手法が生成する点群は,幾何学的かつ意味的にリッチな情報を提供し,偽陽性かつ不一致な提案を精査することを示した。 PG-RCNNは、最先端モデルよりもパラメータが大幅に少ないKITTIベンチマークで競合性能を達成する。 コードはhttps://github.com/quotation2520/PG-RCNNで公開されている。

One of the main challenges in LiDAR-based 3D object detection is that the sensors often fail to capture the complete spatial information about the objects due to long distance and occlusion. Two-stage detectors with point cloud completion approaches tackle this problem by adding more points to the regions of interest (RoIs) with a pre-trained network. However, these methods generate dense point clouds of objects for all region proposals, assuming that objects always exist in the RoIs. This leads to the indiscriminate point generation for incorrect proposals as well. Motivated by this, we propose Point Generation R-CNN (PG-RCNN), a novel end-to-end detector that generates semantic surface points of foreground objects for accurate detection. Our method uses a jointly trained RoI point generation module to process the contextual information of RoIs and estimate the complete shape and displacement of foreground objects. For every generated point, PG-RCNN assigns a semantic feature that indicates the estimated foreground probability. Extensive experiments show that the point clouds generated by our method provide geometrically and semantically rich information for refining false positive and misaligned proposals. PG-RCNN achieves competitive performance on the KITTI benchmark, with significantly fewer parameters than state-of-the-art models. The code is available at https://github.com/quotation2520/PG-RCNN.
翻訳日:2023-07-25 14:51:09 公開日:2023-07-24
# 説明可能なaiによるドイツの電力系統における混雑と再配置のドライバと緩和要因の同定

Identifying drivers and mitigators for congestion and redispatch in the German electric power system with explainable AI ( http://arxiv.org/abs/2307.12636v1 )

ライセンス: Link先を確認
Maurizio Titz, Sebastian P\"utz, Dirk Witthaut(参考訳) 持続可能なエネルギー供給への移行は、多様体的な方法で電力システムの運用に挑戦する。 送電網の負荷は、風力や太陽エネルギーが消費者から遠く離れた場所に設置されるにつれて増加する。 極端な場合、システムオペレータはグリッド安定性を確保するために、カウンタートレーディングまたは再パッチを介して介入しなければならない。 本稿では,ドイツの送電網における混雑に関するデータ駆動分析を行う。 我々は,時間単位で再配布と反取引の量を予測するために,説明可能な機械学習モデルを開発した。 モデルは、グリッドの混雑を駆動または緩和し、その影響を定量化する要因を明らかにする。 予想通り、風力発電が主要因であるが、水力発電と国境を越えた電力取引もまた重要な役割を担っている。 一方、太陽光発電は緩和効果をもたない。 その結果,市場デザインの変更は混雑を緩和する可能性が示唆された。

The transition to a sustainable energy supply challenges the operation of electric power systems in manifold ways. Transmission grid loads increase as wind and solar power are often installed far away from the consumers. In extreme cases, system operators must intervene via countertrading or redispatch to ensure grid stability. In this article, we provide a data-driven analysis of congestion in the German transmission grid. We develop an explainable machine learning model to predict the volume of redispatch and countertrade on an hourly basis. The model reveals factors that drive or mitigate grid congestion and quantifies their impact. We show that, as expected, wind power generation is the main driver, but hydropower and cross-border electricity trading also play an essential role. Solar power, on the other hand, has no mitigating effect. Our results suggest that a change to the market design would alleviate congestion.
翻訳日:2023-07-25 14:50:48 公開日:2023-07-24
# 減衰型クロスエントロピーと端端端裂発生を用いた自動葉節分割

Automatic lobe segmentation using attentive cross entropy and end-to-end fissure generation ( http://arxiv.org/abs/2307.12634v1 )

ライセンス: Link先を確認
Qi Su, Na Wang, Jiawen Xie, Yinan Chen, Xiaofan Zhang(参考訳) この自動肺葉分割法は肺疾患の診断と治療において非常に重要であるが,肺CT像における肺線維の完全性や病理学的特徴の多様性により大きな課題がある。 そこで本研究では,課題特異的損失関数によって実現されたトレーニング過程において,肺線維周囲の領域に注意を払うようモデルに促す,新しい自動肺葉分割フレームワークを提案する。 さらに,補助肺細管分割作業において,追加のネットワーク分岐を伴わないエンドツーエンドの肺細管生成手法を導入する。 最後に,Dice損失管理肺細管分割作業の収束困難を軽減するために,登録に基づく損失関数を提案する。 プライベートデータセットSTLBとパブリックデータセットLUNA16でそれぞれ97.83%と94.75%のダイススコアを達成した。

The automatic lung lobe segmentation algorithm is of great significance for the diagnosis and treatment of lung diseases, however, which has great challenges due to the incompleteness of pulmonary fissures in lung CT images and the large variability of pathological features. Therefore, we propose a new automatic lung lobe segmentation framework, in which we urge the model to pay attention to the area around the pulmonary fissure during the training process, which is realized by a task-specific loss function. In addition, we introduce an end-to-end pulmonary fissure generation method in the auxiliary pulmonary fissure segmentation task, without any additional network branch. Finally, we propose a registration-based loss function to alleviate the convergence difficulty of the Dice loss supervised pulmonary fissure segmentation task. We achieve 97.83% and 94.75% dice scores on our private dataset STLB and public LUNA16 dataset respectively.
翻訳日:2023-07-25 14:50:35 公開日:2023-07-24
# 同時分布アライメントによる半監督的医用画像分割

Semi-Supervised Medical Image Segmentation with Co-Distribution Alignment ( http://arxiv.org/abs/2307.12630v1 )

ライセンス: Link先を確認
Tao Wang, Zhongzheng Huang, Jiawei Wu, Yuanzheng Cai, Zuoyong Li(参考訳) 大量のラベル付きデータが利用できると、医療画像のセグメンテーションは大幅に進歩した。 しかし,専門的スキルが要求されるため,医用画像のセグメンテーションデータセットのアノテートは高価である。 さらに、授業は医療画像に不均一に分配されることが多く、少数クラスの分類性能に深刻な影響を及ぼす。 そこで本稿では,半教師付き医用画像セグメンテーションのためのコディストリビューションアライメント(co-da)を提案する。 特に、Co-DAは、あるモデルが生成した擬似ラベルを使用して他方を監督する前に、2つの異なる初期化モデルとクラスワイズでラベル付きデータの辺縁予測をクラスワイズで調整する。 さらに,非ラベル画素をフィルタし,擬似ラベルのノイズを低減するために,過剰なクロスエントロピー損失を設計する。 3つの公開データセットの定量的および定性的な実験により、提案手法は2D CaDISデータセットと3D LGE-MRIおよびACDCデータセットの両方で既存の最先端の半教師付き医療画像セグメンテーション手法より優れており、mIoUはわずか24%のラベル付きデータで0.8515、Diceスコアは0.8824と0.8773で、それぞれLGE-MRIとACDCのデータでわずか20%である。

Medical image segmentation has made significant progress when a large amount of labeled data are available. However, annotating medical image segmentation datasets is expensive due to the requirement of professional skills. Additionally, classes are often unevenly distributed in medical images, which severely affects the classification performance on minority classes. To address these problems, this paper proposes Co-Distribution Alignment (Co-DA) for semi-supervised medical image segmentation. Specifically, Co-DA aligns marginal predictions on unlabeled data to marginal predictions on labeled data in a class-wise manner with two differently initialized models before using the pseudo-labels generated by one model to supervise the other. Besides, we design an over-expectation cross-entropy loss for filtering the unlabeled pixels to reduce noise in their pseudo-labels. Quantitative and qualitative experiments on three public datasets demonstrate that the proposed approach outperforms existing state-of-the-art semi-supervised medical image segmentation methods on both the 2D CaDIS dataset and the 3D LGE-MRI and ACDC datasets, achieving an mIoU of 0.8515 with only 24% labeled data on CaDIS, and a Dice score of 0.8824 and 0.8773 with only 20% data on LGE-MRI and ACDC, respectively.
翻訳日:2023-07-25 14:50:20 公開日:2023-07-24
# MC-JEPA: 動作と内容の自己教師付き学習のための統合組込み予測アーキテクチャ

MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features ( http://arxiv.org/abs/2307.12698v1 )

ライセンス: Link先を確認
Adrien Bardes, Jean Ponce, Yann LeCun(参考訳) 視覚表現の自己教師付き学習は、物体の動きや位置を捉えないコンテンツの特徴を学習し、画像やビデオ中の物体の識別と識別に重点を置いている。 一方,光学的フロー推定は,推定した画像の内容の理解を伴わないタスクである。 この2つのアプローチを統一し,共有エンコーダ内で光フローとコンテンツ特徴を共同学習するための自己教師あり学習手法であるmc-jepaを導入することで,光フロー推定目標と自己教師あり学習目標という2つの目標が相互に利益をもたらし,モーション情報を含むコンテンツ特徴を学習できることを実証する。 提案手法は,既存の教師なしオプティカルフローベンチマークと同等の性能を実現するとともに,画像やビデオの意味セグメンテーションなどの下流タスクにおける自己教師あり学習手法と同等の性能を実現する。

Self-supervised learning of visual representations has been focusing on learning content features, which do not capture object motion or location, and focus on identifying and differentiating objects in images and videos. On the other hand, optical flow estimation is a task that does not involve understanding the content of the images on which it is estimated. We unify the two approaches and introduce MC-JEPA, a joint-embedding predictive architecture and self-supervised learning approach to jointly learn optical flow and content features within a shared encoder, demonstrating that the two associated objectives; the optical flow estimation objective and the self-supervised learning objective; benefit from each other and thus learn content features that incorporate motion information. The proposed approach achieves performance on-par with existing unsupervised optical flow benchmarks, as well as with common self-supervised learning approaches on downstream tasks such as semantic segmentation of images and videos.
翻訳日:2023-07-25 14:44:14 公開日:2023-07-24
# マイクロ波空洞の量子制限冷却のためのアンチメーザ

An anti-maser for quantum-limited cooling of a microwave cavity ( http://arxiv.org/abs/2307.12691v1 )

ライセンス: Link先を確認
Aharon Blank, Alexander Sherman, Boaz Koren, and Oleg Zgadzai(参考訳) レーザーのマイクロ波(MW)アナログであるメーザーは、超低雑音でコヒーレントMW照射を生成し増幅する方法として確立された。 これは、MW周波数で分離された2つのエネルギーレベルの間の集団反転状態を作成することで達成される。 熱力学的には、そのような状態は小さいが負の温度に対応する。 逆条件は、低いエネルギー準位のみが高密度であり、非常に低い正の温度に対応する。 本研究では,低温下で凝縮した物質にそのような状態を生成する方法を実験的に実証する。 この状態は、空洞からマイクロ波光子を効率よく取り除き、その周囲温度よりかなり低い量子限界まで連続的に冷却するために用いられる。 このような「アンチメーザー」デバイスは、通常ミリケルビン温度まで冷却してMW光子を除去するアプリケーションにとって非常に有益である。 例えば、超伝導MW量子回路(量子ビットや増幅器など)は、この装置を用いることで、液体ヘリウム温度で効率的に動作することができる。

The maser, a microwave (MW) analog of the laser, is a well-established method for generating and amplifying coherent MW irradiation with ultra-low noise. This is accomplished by creating a state of population inversion between two energy levels separated by MW frequency. Thermodynamically, such a state corresponds to a small but negative temperature. The reverse condition, where only the lower energy level is highly populated, corresponds to a very low positive temperature. In this work, we experimentally demonstrate how to generate such a state in condensed matter at moderate cryogenic temperatures. This state is then used to efficiently remove microwave photons from a cavity, continuously cooling it to the quantum limit, well below its ambient temperature. Such an "anti-maser" device could be extremely beneficial for applications that would normally require cooling to millikelvin temperatures to eliminate any MW photons. For instance, superconducting MW quantum circuits (such as qubits and amplifiers) could, with the use of this device, operate efficiently at liquid helium temperatures.
翻訳日:2023-07-25 14:43:53 公開日:2023-07-24
# グラフニューラルネットワークにおけるローカライズトレーニングデータの影響に対処する

Addressing the Impact of Localized Training Data in Graph Neural Networks ( http://arxiv.org/abs/2307.12689v1 )

ライセンス: Link先を確認
Singh Akansha(参考訳) グラフニューラルネットワーク(GNN)は、複雑な依存関係とノード間の関係をキャプチャする能力のため、グラフ構造化データから学ぶことで大きな成功を収めている。 半教師付きノード分類、リンク予測、グラフ生成など、様々な応用に優れています。 しかし、現状のGNNモデルの大部分は、動的構造を持つ実世界のグラフ上での性能を阻害する分布内設定の仮定に基づいて構築されていることを認識しておくことが重要である。 本稿では,GNNの学習がグラフの局所化部分集合に与える影響を評価することを目的とする。 このような制限されたトレーニングデータは、訓練された特定の領域でうまく機能するが、グラフ全体の一般化と正確な予測に失敗するモデルにつながる可能性がある。 グラフベースの半教師付き学習(SSL)の文脈では、リソースの制約はしばしばデータセットが大きいシナリオにつながるが、その一部だけがラベル付け可能であり、モデルのパフォーマンスに影響する。 この制限は、ラベル付けプロセスが人間の主観性に左右される場合、異常検出やスパム検出などのタスクに影響する。 ローカライズされたトレーニングデータによって生じる課題に対処するために,ラベル付きデータのごく一部を表すトレーニングデータと,グラフ全体の予測を伴うグラフ推論プロセスとの間の分布を整合させることにより,分散(ood)データ問題としてこの問題にアプローチする。 局所化学習データとグラフ推論の分布差を最小化し,OODデータのモデル性能を向上する正規化手法を提案する。 一般的なGNNモデルに対する大規模なテストは、3つの引用GNNベンチマークデータセットに対して大幅なパフォーマンス向上を示す。 正規化アプローチはモデル適応と一般化を効果的に促進し、OODデータによる課題を克服する。

Graph Neural Networks (GNNs) have achieved notable success in learning from graph-structured data, owing to their ability to capture intricate dependencies and relationships between nodes. They excel in various applications, including semi-supervised node classification, link prediction, and graph generation. However, it is important to acknowledge that the majority of state-of-the-art GNN models are built upon the assumption of an in-distribution setting, which hinders their performance on real-world graphs with dynamic structures. In this article, we aim to assess the impact of training GNNs on localized subsets of the graph. Such restricted training data may lead to a model that performs well in the specific region it was trained on but fails to generalize and make accurate predictions for the entire graph. In the context of graph-based semi-supervised learning (SSL), resource constraints often lead to scenarios where the dataset is large, but only a portion of it can be labeled, affecting the model's performance. This limitation affects tasks like anomaly detection or spam detection when labeling processes are biased or influenced by human subjectivity. To tackle the challenges posed by localized training data, we approach the problem as an out-of-distribution (OOD) data issue by by aligning the distributions between the training data, which represents a small portion of labeled data, and the graph inference process that involves making predictions for the entire graph. We propose a regularization method to minimize distributional discrepancies between localized training data and graph inference, improving model performance on OOD data. Extensive tests on popular GNN models show significant performance improvement on three citation GNN benchmark datasets. The regularization approach effectively enhances model adaptation and generalization, overcoming challenges posed by OOD data.
翻訳日:2023-07-25 14:43:35 公開日:2023-07-24
# 深部ニューラルネットワークの摂動に対する感度推定器

An Estimator for the Sensitivity to Perturbations of Deep Neural Networks ( http://arxiv.org/abs/2307.12679v1 )

ライセンス: Link先を確認
Naman Maheshwari, Nicholas Malaya, Scott Moe, Jaydeep P. Kulkarni, Sudhanva Gurumurthi(参考訳) 深層ニューラルネットワーク(dnn)が自動運転車や疾患診断などの安全クリティカルなアプリケーションで有用になるためには、入力パラメータやモデルパラメータの摂動に安定しなければならない。 dnnの摂動に対する感度を特徴付けることは、ネットワークを安全に表現するために使用できる最小ビット幅精度を決定するために必要である。 しかし、あるDNNのラウンドオフ誤差、ノイズ、その他の入力の摂動に対する感度を予測できる一般的な結果は存在しない。 この論文は、そのような量を予測できる推定器を導出する。 推定器は不等式と行列ノルムによって導出され、その結果の量は、ニューラルネットワーク全体の条件数とほぼ同値である。 推定器の近似は、ImageNetデータセットを使用して、AlexNetとVGG-19の2つの畳み込みニューラルネットワークでテストされる。 これらのネットワークごとに、推定器の密着性はランダムな摂動と逆襲によって探究される。

For Deep Neural Networks (DNNs) to become useful in safety-critical applications, such as self-driving cars and disease diagnosis, they must be stable to perturbations in input and model parameters. Characterizing the sensitivity of a DNN to perturbations is necessary to determine minimal bit-width precision that may be used to safely represent the network. However, no general result exists that is capable of predicting the sensitivity of a given DNN to round-off error, noise, or other perturbations in input. This paper derives an estimator that can predict such quantities. The estimator is derived via inequalities and matrix norms, and the resulting quantity is roughly analogous to a condition number for the entire neural network. An approximation of the estimator is tested on two Convolutional Neural Networks, AlexNet and VGG-19, using the ImageNet dataset. For each of these networks, the tightness of the estimator is explored via random perturbations and adversarial attacks.
翻訳日:2023-07-25 14:43:05 公開日:2023-07-24
# 開量子ニューラルハードウェアへのパワーフロー問題の応用

Application of Power Flow problem to an open quantum neural hardware ( http://arxiv.org/abs/2307.12678v1 )

ライセンス: Link先を確認
Ekin Erdem Ayg\"ul, Melih Can Topal, Ufuk Korkmaz, Deniz T\"urkpen\c{c}e(参考訳) 量子コンピュータのための物理ハードウェアの構築において重要な進歩は、量子コンピュータに現実の問題を適用するための新しいアルゴリズムやプロトコルの開発を必要としている。 これらの問題の1つは、システム内の電気の発生、分配、消費を理解するのに役立つ電力フロー問題である。 本研究では,Newton-Raphson法で支持される平衡4バス電力系統の解法を,新たに開発された散逸型量子ニューラルネットワークハードウェアを用いて検討した。 本研究は,提案した量子ネットワークが関連する問題に対してどのように適用可能か,およびネットワークパラメータによって解の性能がどう変化するかを示す。

Significant progress in the construction of physical hardware for quantum computers has necessitated the development of new algorithms or protocols for the application of real-world problems on quantum computers. One of these problems is the power flow problem, which helps us understand the generation, distribution, and consumption of electricity in a system. In this study, the solution of a balanced 4-bus power system supported by the Newton-Raphson method is investigated using a newly developed dissipative quantum neural network hardware. This study presents the findings on how the proposed quantum network can be applied to the relevant problem and how the solution performance varies depending on the network parameters.
翻訳日:2023-07-25 14:42:52 公開日:2023-07-24
# 不均衡異常検出のための損傷ビジョンマイニング機会

Damage Vision Mining Opportunity for Imbalanced Anomaly Detection ( http://arxiv.org/abs/2307.12676v1 )

ライセンス: Link先を確認
Takato Yasuno(参考訳) 過去10年間で、従来のバランスの取れたデータセットは、産業アプリケーションにおける分類、オブジェクト検出、セマンティックセグメンテーション、異常検出のアルゴリズムの進歩に使われてきた。 特に、条件ベースのメンテナンスでは、品質を保証するために視覚検査の自動化が不可欠である。 予測保守と前向きな修復のための細かな決定過程を最適化するための劣化予測の試み。 土木インフラや生活環境において, 被害データマイニングが不均衡なデータ問題を回避することはできない。 視覚検査では, コンクリート表面から得られた劣化クラスと鋼材成分とのバランスが, 時々不均衡になる。 多くの関連調査から、不均衡なデータ問題は4つのタイプに分類できると要約する。 1)対象物及びラベル有価物の範囲の欠如 2)マイノリティ階級の不均衡 3)空間的不均衡の背景 4) 画素単位の不均衡の長尾クラス。 2015年以降、回帰、画像分類、オブジェクト検出、セマンティックセグメンテーションを含むディープラーニングアプローチを用いた不均衡な研究が数多く行われている。 しかし、不均衡なデータの異常検出はまだよく分かっていない。 本研究では,異常クラスの有無に関わらず,一級異常検出アプリケーションに注目し,不均衡な視覚データセットである木造,コンクリート劣化,災害被害の明確な例を示す。 我々は,より有効範囲の正の比率, 異常検出の精度向上を仮定して, 損傷ビジョンマイニングのアドバンテージに関する重要な結果を提供する。 最後に,損傷学習手法の適用性,限界,今後の課題について述べる。

In past decade, previous balanced datasets have been used to advance algorithms for classification, object detection, semantic segmentation, and anomaly detection in industrial applications. Specifically, for condition-based maintenance, automating visual inspection is crucial to ensure high quality. Deterioration prognostic attempts to optimize the fine decision process for predictive maintenance and proactive repair. In civil infrastructure and living environment, damage data mining cannot avoid the imbalanced data issue because of rare unseen events and high quality status by improved operations. For visual inspection, deteriorated class acquired from the surface of concrete and steel components are occasionally imbalanced. From numerous related surveys, we summarize that imbalanced data problems can be categorized into four types; 1) missing range of target and label valuables, 2) majority-minority class imbalance, 3) foreground-background of spatial imbalance, 4) long-tailed class of pixel-wise imbalance. Since 2015, there has been many imbalanced studies using deep learning approaches that includes regression, image classification, object detection, semantic segmentation. However, anomaly detection for imbalanced data is not yet well known. In the study, we highlight one-class anomaly detection application whether anomalous class or not, and demonstrate clear examples on imbalanced vision datasets: wooden, concrete deterioration, and disaster damage. We provide key results on damage vision mining advantage, hypothesizing that the more effective range of positive ratio, the higher accuracy gain of anomaly detection application. Finally, the applicability of the damage learning methods, limitations, and future works are mentioned.
翻訳日:2023-07-25 14:42:41 公開日:2023-07-24
# 産業セグメントは何でも -- 航空機製造, イントラロジクス, メンテナンス, 修理, オーバーホールにおける事例研究

Industrial Segment Anything -- a Case Study in Aircraft Manufacturing, Intralogistics, Maintenance, Repair, and Overhaul ( http://arxiv.org/abs/2307.12674v1 )

ライセンス: Link先を確認
Keno Moenck, Arne Wendt, Philipp Pr\"unte, Julian Koch, Arne Sahrhage, Johann Gierecker, Ole Schmedemann, Falko K\"ahler, Dirk Holst, Martin Gomse, Thorsten Sch\"uppstuhl, Daniel Schoepflin(参考訳) 航空機製造業界のような専門分野にディープラーニングベースのアプリケーションをデプロイする場合、通常、トレーニングデータアベイラビリティの問題に苦しむ。 非日常オブジェクト、状況、タスクを表すデータセットはごくわずかである。 視覚基礎モデル(vfm)の研究における最近の利点は、非概念的、意味論的予測において高い一般化能力を持つタスクとモデルの新しい領域を開拓した。 Segment Anything Projectが最近示したように、VFMのゼロショット機能を活用することは、データ、コンテキスト、センサーの多様性にまたがる境界に取り組む上で有望な方向である。 しかし、特定の領域における適用を調査することは、現在進行中の研究の対象となっている。 本論文は, 航空機生産特化ユースケースにおけるSAMの適用性を調査した。 我々は、製造、イントラロジクス、メンテナンス、修理、オーバーホールのプロセスを含み、近隣の様々な産業ドメインも代表しています。 さまざまなユースケースの提示に加えて,ドメイン知識の注入についても論じる。

Deploying deep learning-based applications in specialized domains like the aircraft production industry typically suffers from the training data availability problem. Only a few datasets represent non-everyday objects, situations, and tasks. Recent advantages in research around Vision Foundation Models (VFM) opened a new area of tasks and models with high generalization capabilities in non-semantic and semantic predictions. As recently demonstrated by the Segment Anything Project, exploiting VFM's zero-shot capabilities is a promising direction in tackling the boundaries spanned by data, context, and sensor variety. Although, investigating its application within specific domains is subject to ongoing research. This paper contributes here by surveying applications of the SAM in aircraft production-specific use cases. We include manufacturing, intralogistics, as well as maintenance, repair, and overhaul processes, also representing a variety of other neighboring industrial domains. Besides presenting the various use cases, we further discuss the injection of domain knowledge.
翻訳日:2023-07-25 14:42:18 公開日:2023-07-24
# 仮面画像モデリングを用いた動的MRI再構成のためのグローバルk空間補間

Global k-Space Interpolation for Dynamic MRI Reconstruction using Masked Image Modeling ( http://arxiv.org/abs/2307.12672v1 )

ライセンス: Link先を確認
Jiazhen Pan, Suprosanna Shit, \"Ozg\"un Turgut, Wenqi Huang, Hongwei Bran Li, Nil Stolt-Ans\'o, Thomas K\"ustner, Kerstin Hammernik, Daniel Rueckert(参考訳) 動的磁気共鳴イメージング(mri)では、k空間は通常走査時間の制限によりアンサンプされ、画像領域内のアーティファクトをエイリアスする。 したがって、動的MR再構成は、k空間のx方向とy方向の空間周波数成分をモデル化するだけでなく、時間的冗長性も考慮する必要がある。 以前の作品の多くは、mr再構成を行うために画像領域正規化器(prior)に依存している。 対照的に、フーリエ変換で画像を得る前に、アンサンプリングされたk空間を補間することに集中する。 本研究では,マスク付き画像モデリングとk空間補間を結合し,k-GINと呼ばれるトランスフォーマーベースのk空間グローバル補間ネットワークを提案する。 我々のk-ginは、2d+t k-空間の低周波および高周波成分間のグローバル依存性を学習し、非サンプリングデータの補間に用いる。 さらに、高周波コンポーネント学習を強化するため、新しいk空間イテレーティブリファインメントモジュール(k-IRM)を提案する。 92例の2d+t心筋mrに対するアプローチを評価し,mri再建法と画像領域調整法との比較を行った。 実験により,提案するk空間補間法がベースライン法を定量的に定性的に上回ることを示した。 重要な点として, 提案手法は, 高信頼mrデータの場合のロバスト性, 一般化性が大幅に向上する。

In dynamic Magnetic Resonance Imaging (MRI), k-space is typically undersampled due to limited scan time, resulting in aliasing artifacts in the image domain. Hence, dynamic MR reconstruction requires not only modeling spatial frequency components in the x and y directions of k-space but also considering temporal redundancy. Most previous works rely on image-domain regularizers (priors) to conduct MR reconstruction. In contrast, we focus on interpolating the undersampled k-space before obtaining images with Fourier transform. In this work, we connect masked image modeling with k-space interpolation and propose a novel Transformer-based k-space Global Interpolation Network, termed k-GIN. Our k-GIN learns global dependencies among low- and high-frequency components of 2D+t k-space and uses it to interpolate unsampled data. Further, we propose a novel k-space Iterative Refinement Module (k-IRM) to enhance the high-frequency components learning. We evaluate our approach on 92 in-house 2D+t cardiac MR subjects and compare it to MR reconstruction methods with image-domain regularizers. Experiments show that our proposed k-space interpolation method quantitatively and qualitatively outperforms baseline methods. Importantly, the proposed approach achieves substantially higher robustness and generalizability in cases of highly-undersampled MR data.
翻訳日:2023-07-25 14:42:01 公開日:2023-07-24
# TransFusion: 変圧器を用いた拡散モデルを用いた長距離高忠実時系列生成

TransFusion: Generating Long, High Fidelity Time Series using Diffusion Models with Transformers ( http://arxiv.org/abs/2307.12667v1 )

ライセンス: Link先を確認
Md Fahim Sikder, Resmi Ramachandranpillai, Fredrik Heintz(参考訳) 高品質で長い時系列データの生成は、その幅広い応用のために不可欠である。 過去には、時系列データを合成するためにスタンドアロンのRecurrent and Convolutional Neural Network-based Generative Adversarial Networks (GAN) が用いられた。 しかし、アーキテクチャの制約のため、時系列データの長いシーケンスを生成するには不十分である。 さらにganは、トレーニング不安定性とモード崩壊問題でよく知られている。 そこで本研究では,高品位な時系列データを生成するために,トランスフュージョン,拡散,トランスフォーマーに基づく生成モデルを提案する。 配列長を384に拡張し,高品質な合成データを生成した。 私たちの知る限りでは、これはこの長い列の長さでなされた最初の研究です。 また,合成データの品質とその予測特性を評価するために,評価指標を2つ導入する。 我々はTransFusionを様々な視覚的・経験的な指標で評価し、TransFusionは従来の最先端技術よりも大幅に優れています。

The generation of high-quality, long-sequenced time-series data is essential due to its wide range of applications. In the past, standalone Recurrent and Convolutional Neural Network-based Generative Adversarial Networks (GAN) were used to synthesize time-series data. However, they are inadequate for generating long sequences of time-series data due to limitations in the architecture. Furthermore, GANs are well known for their training instability and mode collapse problem. To address this, we propose TransFusion, a diffusion, and transformers-based generative model to generate high-quality long-sequence time-series data. We have stretched the sequence length to 384, and generated high-quality synthetic data. To the best of our knowledge, this is the first study that has been done with this long-sequence length. Also, we introduce two evaluation metrics to evaluate the quality of the synthetic data as well as its predictive characteristics. We evaluate TransFusion with a wide variety of visual and empirical metrics, and TransFusion outperforms the previous state-of-the-art by a significant margin.
翻訳日:2023-07-25 14:41:36 公開日:2023-07-24
# 高次時間統計のプール化による低リソース機器のキーワードスポッティングにおけるオンライン連続学習

Online Continual Learning in Keyword Spotting for Low-Resource Devices via Pooling High-Order Temporal Statistics ( http://arxiv.org/abs/2307.12660v1 )

ライセンス: Link先を確認
Umberto Michieli, Pablo Peso Parada, Mete Ozay(参考訳) 組込みデバイス上でのキーワードスポッティング(kws)モデルは、以前のものを忘れずに、新しいユーザ定義単語に素早く適応すべきである。 組み込みデバイスはストレージと計算資源が限られているため、サンプルの保存や大規模なモデルの更新はできない。 我々は,凍結したバックボーンを持つKWSモデルを用いて,反復しないサンプルストリームから新たな単語を段階的に認識する,組込みオンライン連続学習(EOCL)のセットアップを検討する。 そこで本稿では,事前学習したバックボーンから抽出した音声特徴の高次モーメントを演算する高次特徴空間を構築するための時間的アウェアプーリング(TAP)を提案する。 提案手法であるTAP-SLDAは,拡張された特徴空間上の各クラスのガウスモデルを更新し,音声表現を効果的に活用する。 実験分析では、TAP-SLDAは、いくつかのセットアップ、バックボーン、ベースラインでライバルより優れており、GSCデータセットでは相対平均11.3%上昇している。

Keyword Spotting (KWS) models on embedded devices should adapt fast to new user-defined words without forgetting previous ones. Embedded devices have limited storage and computational resources, thus, they cannot save samples or update large models. We consider the setup of embedded online continual learning (EOCL), where KWS models with frozen backbone are trained to incrementally recognize new words from a non-repeated stream of samples, seen one at a time. To this end, we propose Temporal Aware Pooling (TAP) which constructs an enriched feature space computing high-order moments of speech features extracted by a pre-trained backbone. Our method, TAP-SLDA, updates a Gaussian model for each class on the enriched feature space to effectively use audio representations. In experimental analyses, TAP-SLDA outperforms competitors on several setups, backbones, and baselines, bringing a relative average gain of 11.3% on the GSC dataset.
翻訳日:2023-07-25 14:41:19 公開日:2023-07-24
# CLIP-KD : 蒸留CLIPモデルに関する実証的研究

CLIP-KD: An Empirical Study of Distilling CLIP Models ( http://arxiv.org/abs/2307.12732v1 )

ライセンス: Link先を確認
Chuanguang Yang, Zhulin An, Libo Huang, Junyu Bi, Xinqiang Yu, Han Yang, Yongjun Xu(参考訳) CLIPは、有望な言語によるビジュアル事前トレーニングフレームワークとなり、幅広いタスクで優れたパフォーマンスを実現している。 本稿では,大規模教師CLIPモデルによって指導される小型CLIPモデルを蒸留することを目的とする。 CLIP蒸留への影響を検討するために, 関係, 特徴, 勾配, コントラストパラダイムなど, いくつかの蒸留戦略を提案する。 MSE損失による最も単純な特徴の模倣が最善であることを示す。 さらに,対話型コントラスト学習と関係性に基づく蒸留も性能向上に重要である。 本研究では,1500万対(画像,テキスト)で学習した学生ネットワークを抽出するために,統一手法を適用した。 蒸留は、ゼロショットイメージネット分類とクロスモーダル検索ベンチマークで一貫して学生クリップモデルを改善する。 今後のCLIP蒸留研究において,実証研究が重要なベースラインになることを願っています。 コードは \url{https://github.com/winycg/CLIP-KD} で公開されている。

CLIP has become a promising language-supervised visual pre-training framework and achieves excellent performance over a wide range of tasks. This paper aims to distill small CLIP models supervised by a large teacher CLIP model. We propose several distillation strategies, including relation, feature, gradient and contrastive paradigm, to examine the impact on CLIP distillation. We show that the simplest feature mimicry with MSE loss performs best. Moreover, interactive contrastive learning and relation-based distillation are also critical in performance improvement. We apply the unified method to distill several student networks trained on 15 million (image, text) pairs. Distillation improves the student CLIP models consistently over zero-shot ImageNet classification and cross-modal retrieval benchmarks. We hope our empirical study will become an important baseline for future CLIP distillation research. The code is available at \url{https://github.com/winycg/CLIP-KD}.
翻訳日:2023-07-25 14:33:58 公開日:2023-07-24
# COCO-O:自然分布シフト下における物体検出器のベンチマーク

COCO-O: A Benchmark for Object Detectors under Natural Distribution Shifts ( http://arxiv.org/abs/2307.12730v1 )

ライセンス: Link先を確認
Xiaofeng Mao, Yuefeng Chen, Yao Zhu, Da Chen, Hang Su, Rong Zhang, Hui Xue(参考訳) 実用的な物体検出アプリケーションは、自然な分布シフトを伴う画像入力においてその効果を失う可能性がある。 この問題は、OF-Distribution (OOD) の入力下での検出器の堅牢性に研究コミュニティがより注意を払っている。 既存の作業はデータセットを構築して、例えばAutonomous Drivingのような特定のアプリケーションシナリオに対して、検出器のOODロバスト性をベンチマークする。 しかし、これらのデータセットには普遍性がなく、cocoのような共通タスクに基づいた一般的な検出器のベンチマークは困難である。 より包括的なロバストネス評価を行うため,COCO-O(ut-of-distribution)という,6種類の自然分布シフトを持つCOCOに基づくテストデータセットを導入する。 COCO-Oはトレーニングデータと大きな分散ギャップを持ち、より高速なR-CNN検出器で55.7%の性能低下をもたらす。 我々はCOCO-Oを利用して、100以上の近代的な物体検出器で実験を行い、その改善が信頼性が高いか、COCOテストセットに過度に適合しているかを調べる。 残念なことに、初期の古典的な検出器のほとんどは強いOOD一般化を示さない。 さらに,検出器のアーキテクチャ設計,拡張および事前学習技術の最近のブレークスルーに対するロバスト性効果について検討する。 いくつかの経験的発見が明らかになる。 1) 頭部や頸部と比較して, 背骨は, 頑健性において最も重要な部分である。 2 端対端検出変圧器の設計は、強化を伴わず、堅牢性を低下させる恐れがある。 3) 大規模基礎モデルはロバストな物体検出において大きな飛躍を遂げた。 私たちは、COCO-Oがオブジェクト検出の堅牢性研究のためのリッチなテストベッドを提供することを期待しています。 データセットは \url{https://github.com/alibaba/easyrobust/tree/main/benchmarks/coco_o} で提供される。

Practical object detection application can lose its effectiveness on image inputs with natural distribution shifts. This problem leads the research community to pay more attention on the robustness of detectors under Out-Of-Distribution (OOD) inputs. Existing works construct datasets to benchmark the detector's OOD robustness for a specific application scenario, e.g., Autonomous Driving. However, these datasets lack universality and are hard to benchmark general detectors built on common tasks such as COCO. To give a more comprehensive robustness assessment, we introduce COCO-O(ut-of-distribution), a test dataset based on COCO with 6 types of natural distribution shifts. COCO-O has a large distribution gap with training data and results in a significant 55.7% relative performance drop on a Faster R-CNN detector. We leverage COCO-O to conduct experiments on more than 100 modern object detectors to investigate if their improvements are credible or just over-fitting to the COCO test set. Unfortunately, most classic detectors in early years do not exhibit strong OOD generalization. We further study the robustness effect on recent breakthroughs of detector's architecture design, augmentation and pre-training techniques. Some empirical findings are revealed: 1) Compared with detection head or neck, backbone is the most important part for robustness; 2) An end-to-end detection transformer design brings no enhancement, and may even reduce robustness; 3) Large-scale foundation models have made a great leap on robust object detection. We hope our COCO-O could provide a rich testbed for robustness study of object detection. The dataset will be available at \url{https://github.com/alibaba/easyrobust/tree/main/benchmarks/coco_o}.
翻訳日:2023-07-25 14:33:44 公開日:2023-07-24
# Persistent-Transient Duality:人間と物体の相互作用をモデル化するためのマルチメカリズムアプローチ

Persistent-Transient Duality: A Multi-mechanism Approach for Modeling Human-Object Interaction ( http://arxiv.org/abs/2307.12729v1 )

ライセンス: Link先を確認
Hung Tran, Vuong Le, Svetha Venkatesh, Truyen Tran(参考訳) 人間は高度に適応可能で、異なるモードを素早く切り替えて、異なるタスク、状況、状況を扱う。 人間と物体の相互作用(hoi)では、これらのモードは、(1)活動全体に対する大規模一貫した計画と(2)時間軸に沿って開始・終了する小規模の子供の対話行動の2つのメカニズムによって引き起こされる。 神経科学と認知科学は、人間の行動のマルチメカリズムの性質を証明しているが、人間の動きのマシンモデリングアプローチは後を追っている。 段階的なモーフィング構造(グラフアテンションネットワークなど)を使用して動的hoiパターンをモデル化しようとしたが、人間の動きの迅速かつ離散的なモード切替の性質を見逃していた。 このギャップを埋めるため,本研究は,人間の運動を協調的に制御する2つの並列機構をモデル化することを提案する。 これら2つのメカニズムは、活動シーケンスを相乗的に支配する対話的永続-過渡双対を形成する。 我々は,この概念的双対性を,動的機構スイッチングのための専用ニューラルモジュールを用いた持続的・過渡的チャネルの親子ニューラルネットワークによってモデル化する。 このフレームワークはHOIモーション予測で試行されている。 2つのリッチデータセットと多種多様な設定において、モデルは常に優れたパフォーマンスを提供し、挑戦に適合することを証明する。

Humans are highly adaptable, swiftly switching between different modes to progressively handle different tasks, situations and contexts. In Human-object interaction (HOI) activities, these modes can be attributed to two mechanisms: (1) the large-scale consistent plan for the whole activity and (2) the small-scale children interactive actions that start and end along the timeline. While neuroscience and cognitive science have confirmed this multi-mechanism nature of human behavior, machine modeling approaches for human motion are trailing behind. While attempted to use gradually morphing structures (e.g., graph attention networks) to model the dynamic HOI patterns, they miss the expeditious and discrete mode-switching nature of the human motion. To bridge that gap, this work proposes to model two concurrent mechanisms that jointly control human motion: the Persistent process that runs continually on the global scale, and the Transient sub-processes that operate intermittently on the local context of the human while interacting with objects. These two mechanisms form an interactive Persistent-Transient Duality that synergistically governs the activity sequences. We model this conceptual duality by a parent-child neural network of Persistent and Transient channels with a dedicated neural module for dynamic mechanism switching. The framework is trialed on HOI motion forecasting. On two rich datasets and a wide variety of settings, the model consistently delivers superior performances, proving its suitability for the challenge.
翻訳日:2023-07-25 14:33:16 公開日:2023-07-24
# AMAE:胸部X線二重分布異常検出のための前訓練マスク付きオートエンコーダの適応

AMAE: Adaptation of Pre-Trained Masked Autoencoder for Dual-Distribution Anomaly Detection in Chest X-Rays ( http://arxiv.org/abs/2307.12721v1 )

ライセンス: Link先を確認
Behzad Bozorgtabar, Dwarikanath Mahapatra, Jean-Philippe Thiran(参考訳) 胸部x線写真などの医療画像における教師なし異常検出は、異常データの労働集約的かつ費用のかかる専門家による注釈の不足を軽減するため、スポットライトを浴びている。 しかしながら、既存のほとんどのメソッドは、通常のクラスからの表現のみに基づいて訓練された1クラス分類として定式化され、ラベルなしデータの潜在的重要な部分を捨てる。 本報告では, 胸部X線に対して, 正常画像と未ラベル画像の両方を含むトレーニングデータ全体を用いて, より実用的, 二重分布異常検出に着目する。 画像領域を再構成するために部分的な画像入力を用いて訓練された現代の自己教師付き視覚トランスフォーマーモデルに触発され,事前学習されたマスク付きオートエンコーダ(mae)の適応のための2段階アルゴリズムであるamaeを提案する。 MAEの初期化から始まり、AMAEはまず通常の訓練画像のみから合成異常を生成し、冷凍変圧器の特徴を軽量に分類する。 次に,異常を含むラベル付き画像を活用する適応戦略を提案する。 この適応方式は、未ラベル画像に擬似ラベルを割り当て、擬似ラベル画像の正規分布と異常分布をモデル化するために2つのmaeベースモジュールを使用する。 提案手法の有効性を,ラベルのないトレーニングセットにおいて異なる異常比で評価する。 AMAEは、競合する自己監督型および二重分布異常検出法よりも一貫したパフォーマンス向上をもたらし、RSNA、NIH-CXR、VinDr-CXRの3つの公開胸部X線ベンチマークに新しい最先端を設定した。

Unsupervised anomaly detection in medical images such as chest radiographs is stepping into the spotlight as it mitigates the scarcity of the labor-intensive and costly expert annotation of anomaly data. However, nearly all existing methods are formulated as a one-class classification trained only on representations from the normal class and discard a potentially significant portion of the unlabeled data. This paper focuses on a more practical setting, dual distribution anomaly detection for chest X-rays, using the entire training data, including both normal and unlabeled images. Inspired by a modern self-supervised vision transformer model trained using partial image inputs to reconstruct missing image regions -- we propose AMAE, a two-stage algorithm for adaptation of the pre-trained masked autoencoder (MAE). Starting from MAE initialization, AMAE first creates synthetic anomalies from only normal training images and trains a lightweight classifier on frozen transformer features. Subsequently, we propose an adaptation strategy to leverage unlabeled images containing anomalies. The adaptation scheme is accomplished by assigning pseudo-labels to unlabeled images and using two separate MAE based modules to model the normative and anomalous distributions of pseudo-labeled images. The effectiveness of the proposed adaptation strategy is evaluated with different anomaly ratios in an unlabeled training set. AMAE leads to consistent performance gains over competing self-supervised and dual distribution anomaly detection methods, setting the new state-of-the-art on three public chest X-ray benchmarks: RSNA, NIH-CXR, and VinDr-CXR.
翻訳日:2023-07-25 14:32:51 公開日:2023-07-24
# CarPatch: 自動車部品の放射場評価のための総合ベンチマーク

CarPatch: A Synthetic Benchmark for Radiance Field Evaluation on Vehicle Components ( http://arxiv.org/abs/2307.12718v1 )

ライセンス: Link先を確認
Davide Di Nucci, Alessandro Simoni, Matteo Tomei, Luca Ciuffreda, Roberto Vezzani, Rita Cucchiara(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、画像の集合から得られる物体やシーンの3次元再構成を表現するための非常に効果的な手法として広く認識されている。 効率性にも拘わらず、NeRFモデルは、十分なデータ不足や難解な要素(例えば反射)の存在が再建の精度に強い影響を与える、車両検査のような特定のシナリオで課題を提起することができる。 そこで本研究では,新しい車種ベンチマークであるCarPatchを紹介する。 内在的および外在的なカメラパラメータでアノテートされた画像セットに加えて、それぞれのビューに対して対応する深度マップとセマンティックセグメンテーションマスクが生成されている。 グローバルおよびパートベースのメトリクスが定義され、最先端技術の評価、比較、より優れた特徴付けに使用されている。 データセットはhttps://aimagelab.ing.unimore.it/go/carpatchで公開されており、評価ガイドや今後の課題のベースラインとして使用できる。

Neural Radiance Fields (NeRFs) have gained widespread recognition as a highly effective technique for representing 3D reconstructions of objects and scenes derived from sets of images. Despite their efficiency, NeRF models can pose challenges in certain scenarios such as vehicle inspection, where the lack of sufficient data or the presence of challenging elements (e.g. reflections) strongly impact the accuracy of the reconstruction. To this aim, we introduce CarPatch, a novel synthetic benchmark of vehicles. In addition to a set of images annotated with their intrinsic and extrinsic camera parameters, the corresponding depth maps and semantic segmentation masks have been generated for each view. Global and part-based metrics have been defined and used to evaluate, compare, and better characterize some state-of-the-art techniques. The dataset is publicly released at https://aimagelab.ing.unimore.it/go/carpatch and can be used as an evaluation guide and as a baseline for future work on this challenging topic.
翻訳日:2023-07-25 14:32:22 公開日:2023-07-24
# 非教師付き金属アーティファクト低減のための高密度トランスベース拡張符号化ネットワーク

Dense Transformer based Enhanced Coding Network for Unsupervised Metal Artifact Reduction ( http://arxiv.org/abs/2307.12717v1 )

ライセンス: Link先を確認
Wangduo Xie, Matthew B.Blaschko(参考訳) 金属遺物のCT画像は臨床診断に深刻な悪影響を及ぼす。 臨床現場におけるデータ収集の難しさを考えると, 金属加工物の非監督的削減法が注目されている。 しかし, 従来の非監督的手法では, 金属の非局所的な特性を処理しながら, CT画像からの構造情報を保持することは困難である。 これらの課題に対処するため,我々は新しいDense Transformer-based Enhanced Coding Network (DTEC-Net) を提案した。 具体的には,高次密度プロセスがサポートする階層型ディスタングルエンコーダと,長距離対応の高密度エンコード列を得る変換器を導入する。 次に,密度列の復号過程を改善するために,第2次不等角化法を提案する。 大規模な実験とモデルディスカッションでは、DTEC-Netの有効性が示されており、ベンチマークデータセットにおける従来の最先端メソッドよりも優れており、よりリッチなテクスチャの詳細を復元しながら、金属のアーティファクトを大幅に削減している。

CT images corrupted by metal artifacts have serious negative effects on clinical diagnosis. Considering the difficulty of collecting paired data with ground truth in clinical settings, unsupervised methods for metal artifact reduction are of high interest. However, it is difficult for previous unsupervised methods to retain structural information from CT images while handling the non-local characteristics of metal artifacts. To address these challenges, we proposed a novel Dense Transformer based Enhanced Coding Network (DTEC-Net) for unsupervised metal artifact reduction. Specifically, we introduce a Hierarchical Disentangling Encoder, supported by the high-order dense process, and transformer to obtain densely encoded sequences with long-range correspondence. Then, we present a second-order disentanglement method to improve the dense sequence's decoding process. Extensive experiments and model discussions illustrate DTEC-Net's effectiveness, which outperforms the previous state-of-the-art methods on a benchmark dataset, and greatly reduces metal artifacts while restoring richer texture details.
翻訳日:2023-07-25 14:32:03 公開日:2023-07-24
# 共変量シフトを考慮したニューラルネットワークの安全性能

Safety Performance of Neural Networks in the Presence of Covariate Shift ( http://arxiv.org/abs/2307.12716v1 )

ライセンス: Link先を確認
Chih-Hong Cheng, Harald Ruess, Konstantinos Theodorou(参考訳) 共変量シフトは、ニューラルネットワークの運用安全性能に影響を与える可能性がある。 しかし、安全性能の再評価には、新しい運用データを収集し、対応する真理ラベルを作成する必要がある。 そこで我々は,運用データの近似に基づいて,デプロイ前の安全性能評価に使用される初期テストセットを再構築することを提案している。 この近似は、動作中にネットワーク内のニューロンの活性化パターンの分布を観察し学習することで得られる。 再形成されたテストセットは、動作中に観察されたニューロン活性化値の分布を反映しており、コバルトシフトの存在下での安全性性能の再評価に使用できる。 まず,有限二分法と静的データフロー解析を用いて,ニューロンの値の保存的境界を求める。 第2に、テストセットで削除されるデータポイントの最小セットを構成するための混合整数線形プログラミング(milp)制約を定式化し、離散化テストと操作分布との差が有界になるようにする。 我々は,この制約に基づくアプローチの利点と限界について,実装した研究プロトタイプを用いた初期経験に基づいて検討する。

Covariate shift may impact the operational safety performance of neural networks. A re-evaluation of the safety performance, however, requires collecting new operational data and creating corresponding ground truth labels, which often is not possible during operation. We are therefore proposing to reshape the initial test set, as used for the safety performance evaluation prior to deployment, based on an approximation of the operational data. This approximation is obtained by observing and learning the distribution of activation patterns of neurons in the network during operation. The reshaped test set reflects the distribution of neuron activation values as observed during operation, and may therefore be used for re-evaluating safety performance in the presence of covariate shift. First, we derive conservative bounds on the values of neurons by applying finite binning and static dataflow analysis. Second, we formulate a mixed integer linear programming (MILP) constraint for constructing the minimum set of data points to be removed in the test set, such that the difference between the discretized test and operational distributions is bounded. We discuss potential benefits and limitations of this constraint-based approach based on our initial experience with an implemented research prototype.
翻訳日:2023-07-25 14:31:43 公開日:2023-07-24
# 曖昧な実装のためのMLモデルの形式的記述

Formal description of ML models for unambiguous implementation ( http://arxiv.org/abs/2307.12713v1 )

ライセンス: Link先を確認
Adrien Gauffriau, Claire Pagetti(参考訳) 安全クリティカルシステム、特に航空分野におけるディープニューラルネットワークの実装には、最終ハードウェアプラットフォーム上でトレーニングされたモデルのセマンティクスを保持するための適切な仕様パラダイムを提供する必要がある。 学習モデルのトレーサブルな分散と並列化最適化を可能にするために,nnef言語の拡張を提案する。 このような仕様が Xavier プラットフォーム上で cuda でどのように実装できるかを示す。

Implementing deep neural networks in safety critical systems, in particular in the aeronautical domain, will require to offer adequate specification paradigms to preserve the semantics of the trained model on the final hardware platform. We propose to extend the nnef language in order to allow traceable distribution and parallelisation optimizations of a trained model. We show how such a specification can be implemented in cuda on a Xavier platform.
翻訳日:2023-07-25 14:31:24 公開日:2023-07-24
# モンテカルロシミュレーションと最大最適輸送における分散低減のためのポリシー勾配最適相関探索

Policy Gradient Optimal Correlation Search for Variance Reduction in Monte Carlo simulation and Maximum Optimal Transport ( http://arxiv.org/abs/2307.12703v1 )

ライセンス: Link先を確認
Pierre Bras, Gilles Pag\`es(参考訳) 我々は、ある確率微分方程式の解として$f(X_T)$を推定し、$f$をテスト関数として、分散還元のための新しいアルゴリズムを提案する。 新しい推定器は$(f(X^1_T) + f(X^2_T))/2$ であり、$X^1$ と $X^2$ は$X$ と同じ限界法則を持つが、相似的に相関して分散を減少させる。 最適相関関数$\rho$はディープニューラルネットワークによって近似され、ポリシー勾配と強化学習技術により$(X^1, X^2)$の軌道に沿って校正される。 限界法則が与えられた最適結合を見つけることは、最大最適移動と結びつく。

We propose a new algorithm for variance reduction when estimating $f(X_T)$ where $X$ is the solution to some stochastic differential equation and $f$ is a test function. The new estimator is $(f(X^1_T) + f(X^2_T))/2$, where $X^1$ and $X^2$ have same marginal law as $X$ but are pathwise correlated so that to reduce the variance. The optimal correlation function $\rho$ is approximated by a deep neural network and is calibrated along the trajectories of $(X^1, X^2)$ by policy gradient and reinforcement learning techniques. Finding an optimal coupling given marginal laws has links with maximum optimal transport.
翻訳日:2023-07-25 14:31:18 公開日:2023-07-24
# 自由フェルミオン演算が支配する量子回路の高性能シミュレーション

Improved simulation of quantum circuits dominated by free fermionic operations ( http://arxiv.org/abs/2307.12702v1 )

ライセンス: Link先を確認
Oliver Reardon-Smith, Micha{\l} Oszmaniec, Kamil Korzekwa(参考訳) 本稿では,「自由」最寄りのマッチゲートあるいは同値なフェルミオン線形光学ゲートと「資源に富む」非ガウスゲートからなる普遍量子回路をシミュレートする古典的なアルゴリズムを提案する。 非ガウス資源状態を用いた任意の位相で制御相ゲートをガジェット化することにより、効率よくシミュレーション可能なFLOサブセトリを普遍量子計算に昇格させる。 我々の重要な貢献は、FLO回路をシミュレートする新しい位相感受性アルゴリズムの開発である。 これにより、ガジェット化から生じる資源状態を、密度行列ではなく状態ベクトルのレベルで自由状態に分解することができる。 与えられた量子回路のボルンルール確率を推定するアルゴリズムの実行時コストは、制御相ゲート数と指数関数的にスケールする新しく導入されたFLO範囲への線形依存を除いて、全ての回路パラメータで多項式的にスケールする。 より正確には、関連するリソース状態の最適な分解を見つける結果、ランタイムは最大にリソースに富んだゲート(例えばswapまたはcz)ごとに倍になる。 このコストは、各スワップゲートが約9倍のシミュレーションコストを増大させる、最もよく知られた事前アルゴリズムと比較して非常に好ましい。 任意のFLOユニタリーと$k$制御Zゲートを含む量子回路に対して、先行状態よりも指数関数的に$O(4.5^k)$を得る。

We present a classical algorithm for simulating universal quantum circuits composed of "free" nearest-neighbour matchgates or equivalently fermionic-linear-optical (FLO) gates, and "resourceful" non-Gaussian gates. We achieve the promotion of the efficiently simulable FLO subtheory to universal quantum computation by gadgetizing controlled phase gates with arbitrary phases employing non-Gaussian resource states. Our key contribution is the development of a novel phase-sensitive algorithm for simulating FLO circuits. This allows us to decompose the resource states arising from gadgetization into free states at the level of statevectors rather than density matrices. The runtime cost of our algorithm for estimating the Born-rule probability of a given quantum circuit scales polynomially in all circuit parameters, except for a linear dependence on the newly introduced FLO extent, which scales exponentially with the number of controlled-phase gates. More precisely, as a result of finding optimal decompositions of relevant resource states, the runtime doubles for every maximally resourceful (e.g., swap or CZ) gate added. Crucially, this cost compares very favourably with the best known prior algorithm, where each swap gate increases the simulation cost by a factor of approximately 9. For a quantum circuit containing arbitrary FLO unitaries and $k$ controlled-Z gates, we obtain an exponential improvement $O(4.5^k)$ over the prior state-of-the-art.
翻訳日:2023-07-25 14:31:02 公開日:2023-07-24
# 医療画像分析に必要なのは注意だけか? レビュー

Is attention all you need in medical image analysis? A review ( http://arxiv.org/abs/2307.12775v1 )

ライセンス: Link先を確認
Giorgos Papanastasiou, Nikolaos Dikaios, Jiahao Huang, Chengjia Wang, Guang Yang(参考訳) 医療画像は、臨床診断、治療計画、臨床試験設計において重要な要素であり、医療データの約90%を占めている。 CNNは過去数年間で医療画像分析(MIA)のパフォーマンス向上を達成した。 cnnはローカルピクセルインタラクションを効率的にモデル化し、小規模miデータでトレーニングすることができる。 典型的なcnnモデルの主な欠点は、画像内のグローバルピクセル関係を無視することであり、異なる「グローバル」情報を持つ分散データの一般化能力を制限することである。 人工知能の最近の進歩は、データからグローバルな関係を学ぶことができるトランスフォーマーを生み出した。 しかし、完全なトランスフォーマーモデルは大規模データで訓練され、膨大な計算量を必要とする。 グローバルな関係をモデル化するための特性を十分に維持できるアテンションとトランスフォーマーのコンパートメント(Transf/Attention)は、フルトランスフォーマーの軽量な代替品として提案されている。 近年,CNN や Transf/Attention アーキテクチャから補完的なローカル・グローバル特性を補完する傾向が高まり,新たなハイブリッドモデルが誕生した。 過去数年間、様々なmia問題に対するcnn-transf/attentionハイブリッドモデルの成長が見られた。 本システムレビューでは,既存のcnn-transf/attentionモデルと主要なアーキテクチャ設計のレビューと展開,ブレークスルーの分析,現在と将来の機会の評価,課題について検討する。 我々はまた、新しいデータ駆動ドメインの一般化と適応法を刺激できる、科学的および臨床的影響の一般化の機会に関する包括的な分析フレームワークも導入した。

Medical imaging is a key component in clinical diagnosis, treatment planning and clinical trial design, accounting for almost 90% of all healthcare data. CNNs achieved performance gains in medical image analysis (MIA) over the last years. CNNs can efficiently model local pixel interactions and be trained on small-scale MI data. The main disadvantage of typical CNN models is that they ignore global pixel relationships within images, which limits their generalisation ability to understand out-of-distribution data with different 'global' information. The recent progress of Artificial Intelligence gave rise to Transformers, which can learn global relationships from data. However, full Transformer models need to be trained on large-scale data and involve tremendous computational complexity. Attention and Transformer compartments (Transf/Attention) which can well maintain properties for modelling global relationships, have been proposed as lighter alternatives of full Transformers. Recently, there is an increasing trend to co-pollinate complementary local-global properties from CNN and Transf/Attention architectures, which led to a new era of hybrid models. The past years have witnessed substantial growth in hybrid CNN-Transf/Attention models across diverse MIA problems. In this systematic review, we survey existing hybrid CNN-Transf/Attention models, review and unravel key architectural designs, analyse breakthroughs, and evaluate current and future opportunities as well as challenges. We also introduced a comprehensive analysis framework on generalisation opportunities of scientific and clinical impact, based on which new data-driven domain generalisation and adaptation methods can be stimulated.
翻訳日:2023-07-25 14:24:54 公開日:2023-07-24
# 反復最適化による高速フルフレーム映像安定化

Fast Full-frame Video Stabilization with Iterative Optimization ( http://arxiv.org/abs/2307.12774v1 )

ライセンス: Link先を確認
Weiyue Zhao, Xin Li, Zhan Peng, Xianrui Luo, Xinyi Ye, Hao Lu, Zhiguo Cao(参考訳) ビデオ安定化とは、不気味なビデオを視覚的に喜ばしいものにする問題である。 視覚品質と計算速度の間の良いトレードオフをどうやって達成するかという問題は、ビデオの安定化におけるオープンな課題の1つだ。 wobblyフレームとjigsawパズルの類似性に触発されて,ビデオ安定化のための合成データセットを用いた反復最適化に基づく学習手法を提案する。 まず,確率的流れ場に基づく2レベル(粗粒度)安定化アルゴリズムを提案する。 推定光流に付随する信頼マップを用いて、バックプロパゲーションにより共有領域の探索を誘導する。 第2に,分割・分割のアプローチを採り,フルフレームの安定化ビューを描画するための新しいマルチフレーム融合戦略を提案する。 反復最適化手法によってもたらされた重要な新たな洞察は、ビデオ安定化のための非線形マッピングの固定点として対象映像を解釈できるということである。 固定点理論の助けを借りて収束を保証する動き軌跡における不気味さの最小化問題として,ビデオ安定化を定式化する。 計算速度と視覚的品質の観点から,提案手法の優位性を示す実験結果が報告されている。 コードはGitHubで入手できる。

Video stabilization refers to the problem of transforming a shaky video into a visually pleasing one. The question of how to strike a good trade-off between visual quality and computational speed has remained one of the open challenges in video stabilization. Inspired by the analogy between wobbly frames and jigsaw puzzles, we propose an iterative optimization-based learning approach using synthetic datasets for video stabilization, which consists of two interacting submodules: motion trajectory smoothing and full-frame outpainting. First, we develop a two-level (coarse-to-fine) stabilizing algorithm based on the probabilistic flow field. The confidence map associated with the estimated optical flow is exploited to guide the search for shared regions through backpropagation. Second, we take a divide-and-conquer approach and propose a novel multiframe fusion strategy to render full-frame stabilized views. An important new insight brought about by our iterative optimization approach is that the target video can be interpreted as the fixed point of nonlinear mapping for video stabilization. We formulate video stabilization as a problem of minimizing the amount of jerkiness in motion trajectories, which guarantees convergence with the help of fixed-point theory. Extensive experimental results are reported to demonstrate the superiority of the proposed approach in terms of computational speed and visual quality. The code will be available on GitHub.
翻訳日:2023-07-25 14:24:28 公開日:2023-07-24
# 機械学習によるネットワーク結合力学系の外乱検出

Detecting disturbances in network-coupled dynamical systems with machine learning ( http://arxiv.org/abs/2307.12771v1 )

ライセンス: Link先を確認
Per Sebastian Skardal and Juan G. Restrepo(参考訳) ネットワーク結合力学系における乱れの同定は、乱れや基礎となる力学の知識を必要とせず、幅広い応用において問題となる。 例えば、ネットワーク内のどのノードが乱れているのかを知り、障害の種類を特定したい場合もあります。 本稿では,機械学習に基づくモデルフリー手法を用いて,既知の学習関数によって強制されたシステムの事前観測のみに基づいて,未知の障害を識別する。 この手法は, 様々な既知の強制関数を用いて, 様々な未知な外乱の位置と特性を識別できることがわかった。 本研究は,食物網と神経活動モデルを用いて,線形および非線形の障害について述べる。 最後に,本手法を大規模ネットワークに拡張する方法について述べる。

Identifying disturbances in network-coupled dynamical systems without knowledge of the disturbances or underlying dynamics is a problem with a wide range of applications. For example, one might want to know which nodes in the network are being disturbed and identify the type of disturbance. Here we present a model-free method based on machine learning to identify such unknown disturbances based only on prior observations of the system when forced by a known training function. We find that this method is able to identify the locations and properties of many different types of unknown disturbances using a variety of known forcing functions. We illustrate our results both with linear and nonlinear disturbances using food web and neuronal activity models. Finally, we discuss how to scale our method to large networks.
翻訳日:2023-07-25 14:24:07 公開日:2023-07-24
# LiDARメタ深度補完

LiDAR Meta Depth Completion ( http://arxiv.org/abs/2307.12761v1 )

ライセンス: Link先を確認
Wolfgang Boettcher, Lukas Hoyer, Ozan Unal, Dengxin Dai(参考訳) 深度推定は、モバイル自律システムを構築する際に対処すべき重要なタスクの1つである。 近年では単眼深度推定法が改良されているが,LiDARなど他のセンサからのスパース深度情報を付加することにより,より正確で信頼性の高い深度マップを提供する。 しかし、現在の方法は1つのLiDARセンサーに対して特別に訓練されている。 センサー間で走査パターンが異なるため、新しいセンサーは、計算効率が悪く柔軟性がない特殊な深度完了モデルを再訓練する必要がある。 そこで本研究では,LiDAR適応深度補修が可能なセンサタイプに,深度補修モデルを動的に適用することを提案する。 具体的には、データから派生したデータパターンを用いてタスクネットワークを学習し、メイン深度完了ネットワークの重みを変更することで、与えられた深度完了タスクを効果的に解決するメタ深度完了ネットワークを提案する。 この方法は、複数のLiDARスキャンパターンに取り組む強力な能力を示し、トレーニング中に目に見えないパターンを一般化する。 単一モデルを用いることで、異なるlidarパターンでトレーニングされた非適応ベースラインよりもはるかに優れた結果が得られる。 非常にスパースなケースでは、LiDAR固有のエキスパートモデルよりも優れています。 これらの利点は、異なるセンサーに単一の深度補完モデルを柔軟に配置することを可能にし、これはまた、固定走査パターンの代わりに適応的なLiDAR技術の入力を処理するのに有用であることも証明できる。

Depth estimation is one of the essential tasks to be addressed when creating mobile autonomous systems. While monocular depth estimation methods have improved in recent times, depth completion provides more accurate and reliable depth maps by additionally using sparse depth information from other sensors such as LiDAR. However, current methods are specifically trained for a single LiDAR sensor. As the scanning pattern differs between sensors, every new sensor would require re-training a specialized depth completion model, which is computationally inefficient and not flexible. Therefore, we propose to dynamically adapt the depth completion model to the used sensor type enabling LiDAR adaptive depth completion. Specifically, we propose a meta depth completion network that uses data patterns derived from the data to learn a task network to alter weights of the main depth completion network to solve a given depth completion task effectively. The method demonstrates a strong capability to work on multiple LiDAR scanning patterns and can also generalize to scanning patterns that are unseen during training. While using a single model, our method yields significantly better results than a non-adaptive baseline trained on different LiDAR patterns. It outperforms LiDAR-specific expert models for very sparse cases. These advantages allow flexible deployment of a single depth completion model on different sensors, which could also prove valuable to process the input of nascent LiDAR technology with adaptive instead of fixed scanning patterns.
翻訳日:2023-07-25 14:23:57 公開日:2023-07-24
# ハイブリットhmmとcnn-tdnnを用いたデータ中心アプローチによる雑音環境用コード切替えurdu asr

Code-Switched Urdu ASR for Noisy Telephonic Environment using Data Centric Approach with Hybrid HMM and CNN-TDNN ( http://arxiv.org/abs/2307.12759v1 )

ライセンス: Link先を確認
Muhammad Danyal Khan, Raheem Ali and Arshad Aziz(参考訳) コールセンターには膨大な量の音声データがあり、ビジネス上の貴重な洞察と電話の書き起こしが手作業で面倒な作業である。 効果的な自動音声認識システムは、キーワード検索と感情分析によるQoSの改善を可能にする、特定のコンテキストとコンテンツに対するコール履歴によるこれらの呼び出しを正確に書き起こすことができる。 ASR for Call Centerは、電話環境が一般的にうるさいため、より堅牢性を必要とする。 さらに、自動音声認識技術によって保存可能な、絶滅寸前にある低ソース言語も数多く存在する。 urduは世界でもっとも広く話されている言語であり、世界で231,295,440は依然としてasrの資源制限言語である。 地域コールセンタの会話は、英語の数字と技術的な用語が混ざり合わさって、一般的に「コードスイッチング」の問題を引き起こす。 そこで本論文では,チェインハイブリッドHMMとCNN-TDNNをコードスイッチングウルドゥー語用として用いた,雑音の多いコールセンタ環境におけるリソース効率の良い音声認識/音声テキストシステムの実装フレームワークについて述べる。 ハイブリッドHMM-DNNアプローチを用いることで、ラベル付きデータの少ないニューラルネットワークの利点を活用できる。 CNNとTDNNを組み合わせることで、雑音の多い音声から余分な情報をキャプチャし、精度を向上させるCNNの追加周波数次元により、ノイズの多い環境でよりうまく機能することが示されている。 様々なオープンソースからデータを集め,ウルドゥー語や他の言語,主に英語の一般的な単語から一般の文脈や内容を分析し,孤立した単語や数字のクリーンな環境だけでなく,連続的な自発的な発話においても5.2%の環境を実現することができた。

Call Centers have huge amount of audio data which can be used for achieving valuable business insights and transcription of phone calls is manually tedious task. An effective Automated Speech Recognition system can accurately transcribe these calls for easy search through call history for specific context and content allowing automatic call monitoring, improving QoS through keyword search and sentiment analysis. ASR for Call Center requires more robustness as telephonic environment are generally noisy. Moreover, there are many low-resourced languages that are on verge of extinction which can be preserved with help of Automatic Speech Recognition Technology. Urdu is the $10^{th}$ most widely spoken language in the world, with 231,295,440 worldwide still remains a resource constrained language in ASR. Regional call-center conversations operate in local language, with a mix of English numbers and technical terms generally causing a "code-switching" problem. Hence, this paper describes an implementation framework of a resource efficient Automatic Speech Recognition/ Speech to Text System in a noisy call-center environment using Chain Hybrid HMM and CNN-TDNN for Code-Switched Urdu Language. Using Hybrid HMM-DNN approach allowed us to utilize the advantages of Neural Network with less labelled data. Adding CNN with TDNN has shown to work better in noisy environment due to CNN's additional frequency dimension which captures extra information from noisy speech, thus improving accuracy. We collected data from various open sources and labelled some of the unlabelled data after analysing its general context and content from Urdu language as well as from commonly used words from other languages, primarily English and were able to achieve WER of 5.2% with noisy as well as clean environment in isolated words or numbers as well as in continuous spontaneous speech.
翻訳日:2023-07-25 14:23:34 公開日:2023-07-24
# 正規化による回帰における非パラメトリック線形特徴学習

Nonparametric Linear Feature Learning in Regression Through Regularisation ( http://arxiv.org/abs/2307.12754v1 )

ライセンス: Link先を確認
Bertille Follain, Umut Simsekli, Francis Bach(参考訳) 表現学習は、特に非パラメトリック手法がしばしば苦労する高次元データの文脈において、自動特徴選択において重要な役割を果たす。 本研究では,関連する情報がデータの下次元線形部分空間,すなわちマルチインデックスモデルに存在する教師付き学習シナリオに注目した。 この部分空間が知られている場合、予測、計算、解釈を大幅に強化する。 この課題に対処するために,予測関数と線形部分空間を同時に推定する非パラメトリック予測を用いた線形特徴学習手法を提案する。 提案手法は経験的リスク最小化を採用し,機能デリバティブにペナルティを付与し,汎用性を確保する。 エルミート多項式の直交性と回転不変性を利用して、RegFeaLという推定器を導入する。 代替最小化を利用することで、データを反復的に回転させ、先行方向との整合を改善し、実際の設定で適切な次元を正確に推定する。 提案手法は,予測関数の定性的な推定を明示的な速度で行う。 また,各種実験におけるRegFeaLの性能を示す実験結果も提供する。

Representation learning plays a crucial role in automated feature selection, particularly in the context of high-dimensional data, where non-parametric methods often struggle. In this study, we focus on supervised learning scenarios where the pertinent information resides within a lower-dimensional linear subspace of the data, namely the multi-index model. If this subspace were known, it would greatly enhance prediction, computation, and interpretation. To address this challenge, we propose a novel method for linear feature learning with non-parametric prediction, which simultaneously estimates the prediction function and the linear subspace. Our approach employs empirical risk minimisation, augmented with a penalty on function derivatives, ensuring versatility. Leveraging the orthogonality and rotation invariance properties of Hermite polynomials, we introduce our estimator, named RegFeaL. By utilising alternative minimisation, we iteratively rotate the data to improve alignment with leading directions and accurately estimate the relevant dimension in practical settings. We establish that our method yields a consistent estimator of the prediction function with explicit rates. Additionally, we provide empirical results demonstrating the performance of RegFeaL in various experiments.
翻訳日:2023-07-25 14:22:56 公開日:2023-07-24
# ダイヤモンドナノ構造における寿命制限光線幅を有するシリコン浅空中心

Shallow Silicon Vacancy Centers with lifetime-limited optical linewidths in Diamond Nanostructures ( http://arxiv.org/abs/2307.12753v1 )

ライセンス: Link先を確認
Josh A. Zuber (1 and 2), Minghao Li (1), Marcel.li Grimau Puigibert (1), Jodok Happacher (1), Patrick Reiser (1), Brendan J. Shields (1), Patrick Maletinsky (1 and 2) ((1) Department of Physics, University of Basel, CH-4056 Basel, Switzerland, (2) Swiss Nanoscience Institute, University of Basel, CH-4056 Basel, Switzerland)(参考訳) ダイヤモンド中の負電荷のシリコン空洞中心(siv$^-$)は、サブケルビン温度とテスラ距離磁場におけるシングルスピン量子センシングの有望な候補である。 このような応用の鍵となる要素は、表面近傍のSiV$^-$中心の電子スピンの全光学的コヒーレントアドレッシングを行う能力である。 我々は、ダイヤモンドナノピラーの寿命制限された光線幅を持つ個々の深さsiv$^-$を、容易かつ永続的な光学電荷安定化スキームで作成するためのロバストでスケーラブルな手法を提案する。 後者は、長い445nmレーザー光線をベースとし、さらなる電荷安定化や補光を必要とせず、連続的な発光励起分光法を可能にする。 この結果は,極端条件下でのセンシングに準表面,光学的にコヒーレントなSiV$-$を使用するための重要なステップであり,量子技術への応用のためにダイヤモンドカラーセンターの電荷環境を安定化するための強力なアプローチを提供する。

The negatively charged silicon vacancy center (SiV$^-$) in diamond is a promising, yet underexplored candidate for single-spin quantum sensing at sub-kelvin temperatures and tesla-range magnetic fields. A key ingredient for such applications is the ability to perform all-optical, coherent addressing of the electronic spin of near-surface SiV$^-$ centers. We present a robust and scalable approach for creating individual, $\sim$50nm deep SiV$^-$ with lifetime-limited optical linewidths in diamond nanopillars through an easy-to-realize and persistent optical charge-stabilization scheme. The latter is based on single, prolonged 445nm laser illumination that enables continuous photoluminescence excitation spectroscopy, without the need for any further charge stabilization or repumping. Our results constitute a key step towards the use of near-surface, optically coherent SiV$^-$ for sensing under extreme conditions, and offer a powerful approach for stabilizing the charge-environment of diamond color centers for quantum technology applications.
翻訳日:2023-07-25 14:22:39 公開日:2023-07-24
# ICF-SRSR:自己スーパービジョンされた実世界の単一画像超解のための可逆スケール導出関数

ICF-SRSR: Invertible scale-Conditional Function for Self-Supervised Real-world Single Image Super-Resolution ( http://arxiv.org/abs/2307.12751v1 )

ライセンス: Link先を確認
Reyhaneh Neshatavar, Mohsen Yavartanoo, Sanghyun Son, Kyoung Mu Lee(参考訳) 単一画像超解像(SISR)は、与えられた低解像度(LR)画像を高解像度(HR)にアップサンプリングすることを目的とした、困難な不適切な問題である。 実LR-HRトレーニングペアを得るのが難しいため、近年のアプローチは、単純化されたダウンサンプリング演算子、例えばバイコビックによって劣化したLR画像のシミュレーションに基づいて訓練されている。 このようなアプローチは、合成されたLR画像と実世界のLR画像の間に大きなギャップがあるため、実際には問題となる可能性がある。 問題を緩和するために,入力画像を拡大し,異なるスケール条件で元の入力を復元する,新しい非可逆スケール・コンディショナル関数(ICF)を提案する。 提案したICFを利用して、ペア/アンペアのトレーニングデータを用いることなく、現実のSRタスクを処理するための新しい自己教師型SISRフレームワーク(ICF-SRSR)を構築する。 さらに、我々のICF-SRSRは現実的で実現可能なLR-HRペアを生成することができ、既存のSISRネットワークをより堅牢にすることができる。 広範囲にわたる実験により, SISRを完全自己管理的に処理する手法の有効性が示された。 icf-srsrは実世界のシナリオで合成ペア画像にトレーニングされた既存の手法と比較して優れた性能を示し、パブリックベンチマークデータセットにおける最先端の教師なし/教師なしメソッドと比較して同等の性能を示す。

Single image super-resolution (SISR) is a challenging ill-posed problem that aims to up-sample a given low-resolution (LR) image to a high-resolution (HR) counterpart. Due to the difficulty in obtaining real LR-HR training pairs, recent approaches are trained on simulated LR images degraded by simplified down-sampling operators, e.g., bicubic. Such an approach can be problematic in practice because of the large gap between the synthesized and real-world LR images. To alleviate the issue, we propose a novel Invertible scale-Conditional Function (ICF), which can scale an input image and then restore the original input with different scale conditions. By leveraging the proposed ICF, we construct a novel self-supervised SISR framework (ICF-SRSR) to handle the real-world SR task without using any paired/unpaired training data. Furthermore, our ICF-SRSR can generate realistic and feasible LR-HR pairs, which can make existing supervised SISR networks more robust. Extensive experiments demonstrate the effectiveness of the proposed method in handling SISR in a fully self-supervised manner. Our ICF-SRSR demonstrates superior performance compared to the existing methods trained on synthetic paired images in real-world scenarios and exhibits comparable performance compared to state-of-the-art supervised/unsupervised methods on public benchmark datasets.
翻訳日:2023-07-25 14:22:20 公開日:2023-07-24
# 脳波トランスフォーマモデルの概念に基づく説明可能性

Concept-based explainability for an EEG transformer model ( http://arxiv.org/abs/2307.12745v1 )

ライセンス: Link先を確認
Anders Gj{\o}lbye Madsen, William Theodor Lehn-Schi{\o}ler, \'Ashildur J\'onsd\'ottir, Bergd\'is Arnard\'ottir, Lars Kai Hansen(参考訳) ディープラーニングモデルは、トレーニング手順のサイズ、構造、固有のランダム性のために複雑である。 追加の複雑さはデータセットの選択と帰納バイアスから生じる。 説明可能性に関するこれらの課題に対処するため、Kim et al. (2018) は深層モデルの内部状態を理解することを目的とした概念活性化ベクトル (Concept Activation Vectors, CAV) を導入した。 これらの概念は、線形判別式を用いて識別される潜在空間の方向に対応する。 この手法はまず画像分類に適用されたが、後に自然言語処理を含む他の領域にも適用された。 本研究では,大規模トランスフォーマーモデルであるkostas et al.'s bendr (2021) を用いて,脳波データに本手法を適用し,その説明可能性について検討する。 この取り組みの重要な部分は、説明的な概念を定義し、潜在空間の概念を基礎付けるための関連するデータセットを選択することである。 我々は、外部ラベル付きEEGデータセットの使用と、解剖学的に定義された概念の適用の2つのメカニズムに焦点を当てている。 前者のアプローチは画像分類で用いられる手法の直接的な一般化であり、後者は脳波に特有な新しい手法である。 どちらの概念形成アプローチも、深層脳波モデルによって学習された表現に対する貴重な洞察を与えていることを示す。

Deep learning models are complex due to their size, structure, and inherent randomness in training procedures. Additional complexity arises from the selection of datasets and inductive biases. Addressing these challenges for explainability, Kim et al. (2018) introduced Concept Activation Vectors (CAVs), which aim to understand deep models' internal states in terms of human-aligned concepts. These concepts correspond to directions in latent space, identified using linear discriminants. Although this method was first applied to image classification, it was later adapted to other domains, including natural language processing. In this work, we attempt to apply the method to electroencephalogram (EEG) data for explainability in Kostas et al.'s BENDR (2021), a large-scale transformer model. A crucial part of this endeavor involves defining the explanatory concepts and selecting relevant datasets to ground concepts in the latent space. Our focus is on two mechanisms for EEG concept formation: the use of externally labeled EEG datasets, and the application of anatomically defined concepts. The former approach is a straightforward generalization of methods used in image classification, while the latter is novel and specific to EEG. We present evidence that both approaches to concept formation yield valuable insights into the representations learned by deep EEG models.
翻訳日:2023-07-25 14:21:53 公開日:2023-07-24
# 量子光のサブサイクルトモグラフィ

Subcycle tomography of quantum light ( http://arxiv.org/abs/2307.12812v1 )

ライセンス: Link先を確認
Geehyun Yang, Matthias Kizmann, Alfred Leitenstorfer, Andrey S. Moskalenko(参考訳) 量子光は、画期的な技術や応用をもたらすであろう第2次量子革命の重要な資源の1つであると考えられている。 モードの時空間構造と分極構造が知られている場合、量子光の性質はよく理解されている。 この情報は、現代の量子光学とその量子通信およびメトロロジーへの応用の基礎を提供する。 しかし、量子光を最も基本的な時間スケール、すなわちモードの振動周期や関連する光子の逆周波数で考えると、これまで対応する画像が失われていたことが分かる。 例えば、この時間スケールで1つの光子をどう理解し、特徴づけるか? このギャップを埋めるために、我々は、局所的な量子測定がサブサイクルスケールで研究中の量子場を再構成し視覚化するのにどのように役立つかを理論的に示す。 特に、超広帯域圧縮状態とそれに由来する光子減算状態の生成とトモグラフィーについて述べ、単一光子状態も含む。 我々の結果は、時間領域量子光学と呼ばれる量子物理学の新しい章の土台となった。 この展開は、例えば、光と初等励起の振動サイクルによって設定される時間的制限を克服し、量子物質の力学における基本相関や絡み合いに近づくための新しい分光学的概念を導出することを期待する。

Quantum light is considered to be one of the key resources of the coming second quantum revolution expected to give rise to groundbreaking technologies and applications. If the spatio-temporal and polarization structure of modes is known, the properties of quantum light are well understood. This information provides the basis for contemporary quantum optics and its applications in quantum communication and metrology. However, thinking about quantum light at the most fundamental timescale, namely the oscillation cycle of a mode or the inverse frequency of an involved photon, we realize that the corresponding picture has been missing until now. For instance, how to comprehend and characterize a single photon at this timescale? To fill this gap, we demonstrate theoretically how local quantum measurements allow to reconstruct and visualize a quantum field under study at subcycle scales, even when its temporal mode structure is a priori unknown. In particular, generation and tomography of ultrabroadband squeezed states as well as photon-subtracted states derived from them are described, incorporating also single-photon states. Our results set a cornerstone in the emerging chapter of quantum physics termed time-domain quantum optics. We expect this development to elicit new spectroscopic concepts for approaching e.g. fundamental correlations and entanglement in the dynamics of quantum matter, overcoming the temporal limitation set by the oscillation cycles of both light and elementary excitations.
翻訳日:2023-07-25 14:14:30 公開日:2023-07-24
# フルリングリンドラー真空におけるフェルミオン凝縮と平均エネルギー-運動量テンソル

Fermionic condensate and the mean energy-momentum tensor in the Fulling-Rindler vacuum ( http://arxiv.org/abs/2307.12809v1 )

ライセンス: Link先を確認
S. Bellucci, V. Kh. Kotanjyan, A. A. Saharian(参考訳) 一般空間次元における大規模ディラック場に対するフェルミオン型フリング・リンドラー真空の特性について検討する。 重要な局所特性として, フェルミイオン凝縮とエネルギー運動量テンソルの期待値を評価した。 再正規化はミンコフスキー真空に対する対応する期待値の減算に還元される。 フェルミオン凝縮は無質量場に対して消滅し、非零質量に対しては負であることが示されている。 スカラー場の場合とは異なり、フェルミイオン真空応力は質量場の一般的な場合では等方性である。 エネルギー密度と圧力は負である。 無質量場の場合、対応するスペクトル分布は標準unruh温度で熱的性質を示す。 しかし、状態密度係数は一般空間次元の平面数ではない。 もう一つの興味深い特徴は、熱分布が空間次元の偶数におけるボース=アインシュタイン型であることである。 この特徴は、ミンコフスキー真空を均一に加速する粒子検出器の応答で以前に観測された。 偶数の空間次元において、フェルミオン凝縮と平均エネルギー-運動量テンソルはクリフォード代数の2つの非同値な既約表現を実現する場に対して一致する。 無質量の場合、ミルヌ宇宙の共形真空におけるディラック場の真空エネルギー-モーメントテンソル、静的開宇宙におけるド・ジッター時空の双曲真空についても考察する。

We investigate the properties of the fermionic Fulling-Rindler vacuum for a massive Dirac field in a general number of spatial dimensions. As important local characteristics, the fermionic condensate and the expectation value of the energy-momentum tensor are evaluated. The renormalization is reduced to the subtraction of the corresponding expectation values for the Minkowski vacuum. It is shown that the fermion condensate vanishes for a massless field and is negative for nonzero mass. Unlike the case of scalar fields, the fermionic vacuum stresses are isotropic for general case of massive fields. The energy density and the pressures are negative. For a massless field the corresponding spectral distributions exhibit thermal properties with the standard Unruh temperature. However, the density-of-states factor is not Planckian for general number of spatial dimensions. Another interesting feature is that the thermal distribution is of the Bose-Einstein type in even number of spatial dimensions. This feature has been observed previously in the response of a particle detector uniformly accelerating through the Minkowski vacuum. In an even number of space dimensions the fermion condensate and the mean energy-momentum tensor coincide for the fields realizing two inequivalent irreducible representations of the Clifford algebra. In the massless case, we consider also the vacuum energy-momentum tensor for Dirac fields in the conformal vacuum of the Milne universe, in static open universe and in the hyperbolic vacuum of de Sitter spacetime.
翻訳日:2023-07-25 14:14:09 公開日:2023-07-24
# 光系II反応中心における一次電荷移動過程を媒介する量子コヒーレンス

Unraveling Quantum Coherences Mediating Primary Charge Transfer Processes in Photosystem II Reaction Center ( http://arxiv.org/abs/2307.12805v1 )

ライセンス: Link先を確認
Ajay Jha, Pan-Pan Zhang, Vandana Tiwari, Lipeng Chen, Michael Thorwart, R. J. Dwayne Miller, Hong-Guang Duan(参考訳) 光化学系II(PSII)反応中心は、光励起後に膜全体に電子電荷を効率よく分離できるユニークなタンパク質-クロモフォア複合体である。 PSII反応中心では、一次エネルギー・電荷移動(CT)過程が同等の超高速の時間スケールで起こるため、転移のほぼ均一な量子効率に寄与する基本的なメカニズムを理解することは極めて困難である。 ここでは,PSII反応中心における超高速エネルギーとCTにおける量子コヒーレンスの役割を20Kの低温下で2次元(2D)電子分光により解明し,その基礎となる量子コヒーレンスを捉える。 具体的には、エネルギーとctの一次超高速過程における電子と振動のコヒーレンスと寿命を明らかにする。 また、観測された量子コヒーレンスの機能的役割についても検討する。 そこで我々は,2次元電子スペクトルの低温におけるコヒーレントエネルギーとCTの証拠を提供する構造に基づくエクシトンモデルを構築した。 この実験と理論的分析の組み合わせによって明らかになったこの原理は、システムバス結合を利用した人工光システムを作成するための貴重なガイドラインと、光子変換効率を特定の関数に最適化するためのコヒーレンス制御を提供する。

Photosystem II (PSII) reaction center is a unique protein-chromophore complex that is capable of efficiently separating electronic charges across the membrane after photoexcitation. In the PSII reaction center, the primary energy- and charge-transfer (CT) processes occur on comparable ultrafast timescales, which makes it extremely challenging to understand the fundamental mechanism responsible for the near-unity quantum efficiency of the transfer. Here, we elucidate the role of quantum coherences in the ultrafast energy and CT in the PSII reaction center by performing two-dimensional (2D) electronic spectroscopy at the cryogenic temperature of 20 K, which captures the distinct underlying quantum coherences. Specifically, we uncover the electronic and vibrational coherences along with their lifetimes during the primary ultrafast processes of energy and CT. We also examine the functional role of the observed quantum coherences. To gather further insight, we construct a structure-based excitonic model that provided evidence for coherent energy and CT at low temperature in the 2D electronic spectra. The principles, uncovered by this combination of experimental and theoretical analyses, could provide valuable guidelines for creating artificial photosystems with exploitation of system-bath coupling and control of coherences to optimize the photon conversion efficiency to specific functions.
翻訳日:2023-07-25 14:13:50 公開日:2023-07-24
# 放射線学会報告書要約の指導 : 実証的評価と誤差分析

Guidance in Radiology Report Summarization: An Empirical Evaluation and Error Analysis ( http://arxiv.org/abs/2307.12803v1 )

ライセンス: Link先を確認
Jan Trienes, Paul Youssef, J\"org Schl\"otterer, Christin Seifert(参考訳) 放射線報告書を自動的に簡潔な印象に要約することで、臨床医の手動負担を軽減し、報告の一貫性を向上させることができる。 それまでの作業は、ガイド付き抽象要約によるコンテンツ選択と事実性の向上を目的としていた。 しかし、2つの重要な問題が続いている。 まず、現在のメソッドはガイダンスシグナルを抽出するためにドメイン固有のリソースに大きく依存し、それらのリソースが利用できないドメインや言語への転送可能性を制限する。 第二に、ROUGEのような自動メトリクスは進捗を示すが、このタスクのエラーや障害モードについて十分に理解していない。 これらのギャップを橋渡しするために,まず,可変長抽出要約の形でドメインに依存しない誘導信号を提案する。 2つの英語ベンチマークによる実験結果から,この誘導信号は,ドメイン固有手法と競合しながら,誘導されていない要約により改善することが示された。 さらに,11のきめ細かい誤差の分類に基づいて,4つのシステムについて専門家による評価を行った。 その結果, 自動要約と放射線科医の違いは, 排便量 (最大52%) や追加量 (最大57%) など, コンテンツ選択に関係していることがわかった。 我々は、潜在的な報告要因やコーパスレベルの不整合が、利用可能なデータからコンテンツ選択を確実に学習するモデルを制限する可能性があり、将来的な作業の方向性を示すことを仮定する。

Automatically summarizing radiology reports into a concise impression can reduce the manual burden of clinicians and improve the consistency of reporting. Previous work aimed to enhance content selection and factuality through guided abstractive summarization. However, two key issues persist. First, current methods heavily rely on domain-specific resources to extract the guidance signal, limiting their transferability to domains and languages where those resources are unavailable. Second, while automatic metrics like ROUGE show progress, we lack a good understanding of the errors and failure modes in this task. To bridge these gaps, we first propose a domain-agnostic guidance signal in form of variable-length extractive summaries. Our empirical results on two English benchmarks demonstrate that this guidance signal improves upon unguided summarization while being competitive with domain-specific methods. Additionally, we run an expert evaluation of four systems according to a taxonomy of 11 fine-grained errors. We find that the most pressing differences between automatic summaries and those of radiologists relate to content selection including omissions (up to 52%) and additions (up to 57%). We hypothesize that latent reporting factors and corpus-level inconsistencies may limit models to reliably learn content selection from the available data, presenting promising directions for future work.
翻訳日:2023-07-25 14:13:28 公開日:2023-07-24
# RRAML:強化された検索強化機械学習

RRAML: Reinforced Retrieval Augmented Machine Learning ( http://arxiv.org/abs/2307.12798v1 )

ライセンス: Link先を確認
Andrea Bacciu, Florin Cocunasu, Federico Siciliano, Fabrizio Silvestri, Nicola Tonellotto, Giovanni Trappolini(参考訳) 大規模言語モデル(LLM)の出現は機械学習と関連分野に革命をもたらし、人間の言語を理解し、生成し、操作する際、顕著な能力を示している。 しかし、APIベースのテキストプロンプトによる従来の使用法は、コンテキスト制約や外部ソースの可用性に関して一定の制限を課している。 これらの課題に対処するため,Reinforced Retrieval Augmented Machine Learning (RRAML) と呼ばれる新しいフレームワークを提案する。 RRAMLは、LLMの推論機能と、巨大なユーザが提供するデータベースから目的に構築された検索者によって取得されたサポート情報を統合する。 近年の強化学習の進歩を活かし,本手法はいくつかの課題を効果的に解決する。 まず、LSM勾配にアクセスする必要性を回避する。 第2に,本手法は,モデルへのアクセス制限や計算強度の制限などにより実用的でない場合が多いため,特定のタスクに対するllmの再トレーニングの負担を軽減する。 さらに,検索者のタスクを推論者とシームレスにリンクし,幻覚を緩和し,無関係を低減し,検索された文書を損なう可能性がある。 この論文で概説された研究議題は、幅広いエンティティに対するllmへのアクセスと利用を民主化し、aiの分野に大きな影響を与える可能性があると信じている。

The emergence of large language models (LLMs) has revolutionized machine learning and related fields, showcasing remarkable abilities in comprehending, generating, and manipulating human language. However, their conventional usage through API-based text prompt submissions imposes certain limitations in terms of context constraints and external source availability. To address these challenges, we propose a novel framework called Reinforced Retrieval Augmented Machine Learning (RRAML). RRAML integrates the reasoning capabilities of LLMs with supporting information retrieved by a purpose-built retriever from a vast user-provided database. By leveraging recent advancements in reinforcement learning, our method effectively addresses several critical challenges. Firstly, it circumvents the need for accessing LLM gradients. Secondly, our method alleviates the burden of retraining LLMs for specific tasks, as it is often impractical or impossible due to restricted access to the model and the computational intensity involved. Additionally we seamlessly link the retriever's task with the reasoner, mitigating hallucinations and reducing irrelevant, and potentially damaging retrieved documents. We believe that the research agenda outlined in this paper has the potential to profoundly impact the field of AI, democratizing access to and utilization of LLMs for a wide range of entities.
翻訳日:2023-07-25 14:13:05 公開日:2023-07-24
# ランク保存型干渉分布を用いた因果フェア機械学習

Causal Fair Machine Learning via Rank-Preserving Interventional Distributions ( http://arxiv.org/abs/2307.12797v1 )

ライセンス: Link先を確認
Ludwig Bothmann, Susanne Dandl, Michael Schomaker(参考訳) 同一の個人が平等に扱われ、不平等に扱われる場合には、決定は公平と定義できる。 この定義を採用することで、自動意思決定システムにおける不公平性を緩和する機械学習モデルを設計するタスクには、保護属性を導入する際の因果思考を含める必要がある。 最近の提案に続き、保護属性がターゲットに(直接的または間接的な)因果効果を持たない架空の、規範的に望まれる(FiND)世界で等しい場合、個人は規範的に等しいと定義する。 本研究では,この発見世界の推定値を定義するためのランク保存的介入分布と,推定のためのウォーピング法を提案する。 本手法と結果モデルの評価基準をシミュレーションおよび実証データを用いて提示し,検証する。 これにより、我々のワープアプローチは、最も差別された個人を効果的に識別し、不公平を緩和することを示す。

A decision can be defined as fair if equal individuals are treated equally and unequals unequally. Adopting this definition, the task of designing machine learning models that mitigate unfairness in automated decision-making systems must include causal thinking when introducing protected attributes. Following a recent proposal, we define individuals as being normatively equal if they are equal in a fictitious, normatively desired (FiND) world, where the protected attribute has no (direct or indirect) causal effect on the target. We propose rank-preserving interventional distributions to define an estimand of this FiND world and a warping method for estimation. Evaluation criteria for both the method and resulting model are presented and validated through simulations and empirical data. With this, we show that our warping approach effectively identifies the most discriminated individuals and mitigates unfairness.
翻訳日:2023-07-25 14:12:46 公開日:2023-07-24
# compact & capable: 医療画像分類のためのグラフニューラルネットワークとエッジ畳み込みの利用

Compact & Capable: Harnessing Graph Neural Networks and Edge Convolution for Medical Image Classification ( http://arxiv.org/abs/2307.12790v1 )

ライセンス: Link先を確認
Aryan Singh, Pepijn Van de Ven, Ciar\'an Eising, Patrick Denny(参考訳) グラフベースのニューラルネットワークモデルは、他の方法では識別が困難であるエンティティ間の潜在的トポロジ的関係を明らかにする能力によって、表現学習の分野で注目を集めている。 これらのモデルは、薬物発見、タンパク質相互作用、セマンティックセグメンテーション、流体力学研究など、様々な領域で採用されている。 本研究では,医用画像分類におけるグラフニューラルネットワーク(GNN)の可能性を検討する。 本稿では,重要なグラフノード間の接続を強く表現するために,RGBチャネルの特徴値の相互接続性を活用し,GNNとエッジ畳み込みを組み合わせた新しいモデルを提案する。 提案モデルでは,最新のDeep Neural Networks (DNN) と同等に動作するだけでなく,1000倍のパラメータを削減し,トレーニング時間とデータ要求の低減を実現している。 グラフ畳み込みニューラルネットワーク(GCNN)と、MedMNISTデータセットの分類のための事前訓練されたDNNを比較し、医用画像解析におけるGNNの可能性を明らかにする。 また,医療画像領域におけるグラフアテンションネットワーク (gat) やグラフオートエンコーダなどの高度なグラフベースモデルのさらなる探索が促進される。 提案モデルは,単純なgcnnと比較して,意味セグメンテーションや画像分類などのタスクに対して,信頼性が高く,解釈可能で正確な結果が得られる。

Graph-based neural network models are gaining traction in the field of representation learning due to their ability to uncover latent topological relationships between entities that are otherwise challenging to identify. These models have been employed across a diverse range of domains, encompassing drug discovery, protein interactions, semantic segmentation, and fluid dynamics research. In this study, we investigate the potential of Graph Neural Networks (GNNs) for medical image classification. We introduce a novel model that combines GNNs and edge convolution, leveraging the interconnectedness of RGB channel feature values to strongly represent connections between crucial graph nodes. Our proposed model not only performs on par with state-of-the-art Deep Neural Networks (DNNs) but does so with 1000 times fewer parameters, resulting in reduced training time and data requirements. We compare our Graph Convolutional Neural Network (GCNN) to pre-trained DNNs for classifying MedMNIST dataset classes, revealing promising prospects for GNNs in medical image analysis. Our results also encourage further exploration of advanced graph-based models such as Graph Attention Networks (GAT) and Graph Auto-Encoders in the medical imaging domain. The proposed model yields more reliable, interpretable, and accurate outcomes for tasks like semantic segmentation and image classification compared to simpler GCNNs
翻訳日:2023-07-25 14:12:29 公開日:2023-07-24
# RF誘起F\"{o}rster共鳴による高忠実度$CCR_Z(\phi)$ゲート

High-fidelity $CCR_Z(\phi)$ gates via RF-induced F\"{o}rster resonances ( http://arxiv.org/abs/2307.12789v1 )

ライセンス: Link先を確認
I. N. Ashkarin and S. Lepoutre and P. Pillet and I. I. Beterov and I. I. Ryabtsev and P. Cheinet(参考訳) リードバーグ状態に励起されて強い長距離相互作用を誘導する閉じ込められた中性原子のレジスタは、量子コンピューティングにおける直接的応用のために広範囲に研究されている。 この点において、多ビット量子ゲートの生成に対する新しい効果的なアプローチが注目されている。 本稿ではRF誘起小体F\"{o}rster共鳴に基づく新しいゲート実装手法を提案する。 外部無線周波数(RF)制御フィールドは、多原子系の位相と人口動態を制御し、普遍的な$CCR_{Z}(\phi)$量子ゲートの実現を可能にする。 我々はRF誘起共鳴相互作用と高精度3量子ゲートを数値的に示す。 RFによる相互作用の極端な制御性により、原子系の幅広いパラメータに対するゲートの実装が可能となり、実験的な実装が大幅に促進される。 検討した誤差源に対しては, 合理的な実験パラメータを用いて, 誤差補正(99.7\%$)に適合する理論ゲート特性を実現する。

Registers of trapped neutral atoms, excited to Rydberg states to induce strong long-distance interactions, are extensively studied for direct applications in quantum computing. In this regard, new effective approaches to the creation of multiqubit quantum gates arise high interest. Here, we present a novel gate implementation technique based on RF-induced few-body F\"{o}rster resonances. External radio frequency (RF) control field allows us to manipulate the phase and population dynamics of many-atom system, thus enabling the realization of universal $CCR_{Z}(\phi)$ quantum gates. We numerically demonstrate RF-induced resonant interactions, as well as high-precision three-qubit gates. The extreme controllability of interactions provided by RF makes it possible to implement gates for a wide range of parameters of the atomic system, and significantly facilitates their experimental implementation. For the considered error sources, we achieve theoretical gate fidelities compatible with error correction ($\sim 99.7\%$) using reasonable experimental parameters.
翻訳日:2023-07-25 14:12:05 公開日:2023-07-24
# 逆強化学習を用いたプロパガンダ戦略の分析--ロシアによるウクライナ侵攻2022年の証拠

Analyzing the Strategy of Propaganda using Inverse Reinforcement Learning: Evidence from the 2022 Russian Invasion of Ukraine ( http://arxiv.org/abs/2307.12788v1 )

ライセンス: Link先を確認
Dominique Geissler and Stefan Feuerriegel(参考訳) 2022年のロシアによるウクライナ侵攻には、ソーシャルメディア上での大規模なプロパガンダキャンペーンが伴っていた。 しかし、プロパガンダの普及の背景にある戦略は、特にオンラインの談話がプロパガンダのコミュニティによって戦略的に形作られたか、まだはっきりしていない。 ここでは、逆強化学習(IRL)アプローチを用いて、Twitterコミュニティの戦略を分析する。 具体的には、IRLによってオンライン行動がマルコフ決定プロセスとしてモデル化され、その目標は、侵略に対する支援的あるいは反対的な姿勢でユーザと対話する際に、プロパガンダを導く基礎となる報酬構造を推論することである。 そこで我々は,ロシアのプロパガンダの増殖を促進するために,ユーザ間のインタラクションが戦略的にどのように利用されているのかを実証的に理解することを目的とする。 このために、ロシア寄りのプロパガンダを132,131人のユーザーから349,455人の投稿を持つ大規模なデータセットを活用する。 我々は、ボットと人間は異なる戦略に従うことを示している: ボットは、主に侵入促進メッセージに反応し、彼らがウイルス性を促進することを示唆している;一方、反対を示すメッセージは、主に人間からの反応を誘発し、批判的な議論に関わりがちである。 我々の知る限りでは、2022年のロシアによるウクライナ侵攻からIRLのレンズを通してプロパガンダの背後にある戦略を分析する最初の研究である。

The 2022 Russian invasion of Ukraine was accompanied by a large-scale, pro-Russian propaganda campaign on social media. However, the strategy behind the dissemination of propaganda has remained unclear, particularly how the online discourse was strategically shaped by the propagandists' community. Here, we analyze the strategy of the Twitter community using an inverse reinforcement learning (IRL) approach. Specifically, IRL allows us to model online behavior as a Markov decision process, where the goal is to infer the underlying reward structure that guides propagandists when interacting with users with a supporting or opposing stance toward the invasion. Thereby, we aim to understand empirically whether and how between-user interactions are strategically used to promote the proliferation of Russian propaganda. For this, we leverage a large-scale dataset with 349,455 posts with pro-Russian propaganda from 132,131 users. We show that bots and humans follow a different strategy: bots respond predominantly to pro-invasion messages, suggesting that they seek to drive virality; while messages indicating opposition primarily elicit responses from humans, suggesting that they tend to engage in critical discussions. To the best of our knowledge, this is the first study analyzing the strategy behind propaganda from the 2022 Russian invasion of Ukraine through the lens of IRL.
翻訳日:2023-07-25 14:11:47 公開日:2023-07-24
# 相対論的時間拡張の不可逆性

The irreversibility of relativistic time-dilation ( http://arxiv.org/abs/2307.12778v1 )

ライセンス: Link先を確認
Marcos L. W. Basso, Jonas Maziero, Lucas C. C\'eleri(参考訳) 自然界における不可逆過程を特徴づける揺らぎ関係は、非平衡物理学において最も重要な結果である。 要するに、これらの関係は、時間反転過程を観測することは指数関数的に不可能であり、したがって、低エントロピーから高エントロピーへ向ける時間の熱力学的矢印を確立する。 一方、基本的な物理理論は時間反転対称性の下で不変である。 ニュートン物理学や量子物理学では、可逆過程の出現とゆらぎ関係は比較的よく理解されているが、相対性理論がゲームに入ると多くの問題が生じる。 本研究では,特定の時空のクラスを考慮し,時間拡張効果がゆらぎ関係にどのように入り込むのかを考察する。 正のエントロピー生成は、特殊相対論的および重力的(同値原理で閉ざされた)時間拡散効果の結果として生じると結論付ける。

The fluctuation relations, which characterize irreversible processes in Nature, are among the most important results in non-equilibrium physics. In short, these relations say that it is exponentially unlikely for us to observe a time-reversed process and, thus, establish the thermodynamic arrow of time pointing from low to high entropy. On the other hand, fundamental physical theories are invariant under time-reversal symmetry. Although in Newtonian and quantum physics the emergence of irreversible processes, as well as fluctuation relations, is relatively well understood, many problems arise when relativity enters the game. In this work, by considering a specific class of spacetimes, we explore the question of how the time-dilation effect enters into the fluctuation relations. We conclude that a positive entropy production emerges as a consequence of both the special relativistic and the gravitational (enclosed in the equivalence principle) time-dilation effects.
翻訳日:2023-07-25 14:11:04 公開日:2023-07-24
# 小型初期化を伴う2層ReLUネットワークの初期ニューロンアライメント

Early Neuron Alignment in Two-layer ReLU Networks with Small Initialization ( http://arxiv.org/abs/2307.12851v1 )

ライセンス: Link先を確認
Hancheng Min, Ren\'e Vidal, Enrique Mallada(参考訳) 本稿では,初期化が小さい勾配流を用いた二元分類のための2層reluネットワークの訓練問題について検討する。 同じラベルを持つ任意の入力データには正の相関があり、異なるラベルを持つ任意のペアには負の相関がある。 解析の結果,第1層のニューロンは,トレーニングの初期段階において,第2層の重みに応じて,正のデータか負のデータのいずれかに一致しようとします。 ニューロンの方向ダイナミクスを慎重に分析することで、入力データとの整合性を達成するのに全ニューロンに要する時間に$$\mathcal{O}(\frac{\log n}{\sqrt{\mu}})$上界を与えることができる。 初期アライメントフェーズの後、損失は$\mathcal{o}(\frac{1}{t})$レートでゼロに収束し、第1層上の重み行列はほぼ低ランクである。 mnistデータセットに関する数値実験は,我々の理論的知見を示している。

This paper studies the problem of training a two-layer ReLU network for binary classification using gradient flow with small initialization. We consider a training dataset with well-separated input vectors: Any pair of input data with the same label are positively correlated, and any pair with different labels are negatively correlated. Our analysis shows that, during the early phase of training, neurons in the first layer try to align with either the positive data or the negative data, depending on its corresponding weight on the second layer. A careful analysis of the neurons' directional dynamics allows us to provide an $\mathcal{O}(\frac{\log n}{\sqrt{\mu}})$ upper bound on the time it takes for all neurons to achieve good alignment with the input data, where $n$ is the number of data points and $\mu$ measures how well the data are separated. After the early alignment phase, the loss converges to zero at a $\mathcal{O}(\frac{1}{t})$ rate, and the weight matrix on the first layer is approximately low-rank. Numerical experiments on the MNIST dataset illustrate our theoretical findings.
翻訳日:2023-07-25 14:04:40 公開日:2023-07-24
# ユーザエクスペリエンスを保護しながら複合現実における傍観者プライバシーの確保

Securing Bystander Privacy in Mixed Reality While Protecting the User Experience ( http://arxiv.org/abs/2307.12847v1 )

ライセンス: Link先を確認
Matthew Corbett, Brendan David-John, Jiacheng Shang, Y. Charlie Hu, Bo Ji(参考訳) メタバースを存続させる現代の混合現実デバイスは、物理的な世界に関する膨大な情報を必要とする。 これらのデバイスは、周囲の不審者や不審者のプライバシーを侵害する可能性がある。 本稿では,この問題,既存ソリューション,今後の研究への道筋について考察する。

The modern Mixed Reality devices that make the Metaverse viable can also require vast information about the physical world. These devices can also violate the privacy of unsuspecting or unwilling bystanders in their vicinity. In this article, we explore the problem, existing solutions, and avenues for future research.
翻訳日:2023-07-25 14:04:18 公開日:2023-07-24
# ct画像からの多視点椎体定位と同定

Multi-View Vertebra Localization and Identification from CT Images ( http://arxiv.org/abs/2307.12845v1 )

ライセンス: Link先を確認
Han Wu, Jiadong Zhang, Yu Fang, Zhentao Liu, Nizhuan Wang, Zhiming Cui and Dinggang Shen(参考訳) CT画像からの脊椎の正確な位置特定は様々な臨床応用に不可欠である。 しかし, 収穫パッチ操作を3Dで行う場合, 計算コストが大きく, 情報量も限られている。 本稿では,CT画像からの多視点脊椎局在と同定を提案し,異なる視点における3次元問題を2次元局所化と識別タスクに変換する。 3Dトリミングパッチの制限がなければ,マルチビューグローバル情報を自然に学習することができる。 さらに、異なる視点から解剖学的構造情報をよりよく捉えるために、バックボーンを事前学習するマルチビューコントラスト学習戦略を開発した。 さらに,椎体に沿って埋め込まれたシーケンシャル構造を維持するために,シーケンスロスを提案する。 評価の結果,2次元ネットワークのみを用いて,CT画像中の脊椎の局在と同定を精度良く行うことができ,最先端の手法よりも優れていた。 私たちのコードはhttps://github.com/ShanghaiTech-IMPACT/Multi-View-Vertebra-Localization-and-Identification-from-CT-I magesで公開されています。

Accurately localizing and identifying vertebrae from CT images is crucial for various clinical applications. However, most existing efforts are performed on 3D with cropping patch operation, suffering from the large computation costs and limited global information. In this paper, we propose a multi-view vertebra localization and identification from CT images, converting the 3D problem into a 2D localization and identification task on different views. Without the limitation of the 3D cropped patch, our method can learn the multi-view global information naturally. Moreover, to better capture the anatomical structure information from different view perspectives, a multi-view contrastive learning strategy is developed to pre-train the backbone. Additionally, we further propose a Sequence Loss to maintain the sequential structure embedded along the vertebrae. Evaluation results demonstrate that, with only two 2D networks, our method can localize and identify vertebrae in CT images accurately, and outperforms the state-of-the-art methods consistently. Our code is available at https://github.com/ShanghaiTech-IMPACT/Multi-View-Vertebra-Localization-and-Identification-from-CT-I mages.
翻訳日:2023-07-25 14:04:14 公開日:2023-07-24
# シュール多項式を用いた1Hidden-Layer ReLUネットワークの学習

Efficiently Learning One-Hidden-Layer ReLU Networks via Schur Polynomials ( http://arxiv.org/abs/2307.12840v1 )

ライセンス: Link先を確認
Ilias Diakonikolas and Daniel M. Kane(参考訳) 正方形損失に関して、標準ガウス分布の$\mathbb{R}^d$における$k$ReLUアクティベーションの線形結合をPAC学習する問題について検討する。 本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/\epsilon)^{O(k)}$,$\epsilon>0$を目標精度とする効率的なアルゴリズムである。 以前の研究では、複雑性 $(dk/\epsilon)^{h(k)}$ というアルゴリズムが与えられたが、ここでは関数 $h(k)$ は超多項的に $k$ でスケールする。 興味深いことに、我々のアルゴリズムの複雑さは相関統計クエリアルゴリズムのクラス内でほぼ最適である。 高レベルでは、我々のアルゴリズムはテンソル分解を用いて、すべての$O(k)$-次モーメントが直交方向に小さい部分空間を識別する。 その解析はシューア多項式の理論を本質的に利用し、下階のテンソルを仮定すると、高モーメント誤差テンソルは小さいことを示す。

We study the problem of PAC learning a linear combination of $k$ ReLU activations under the standard Gaussian distribution on $\mathbb{R}^d$ with respect to the square loss. Our main result is an efficient algorithm for this learning task with sample and computational complexity $(dk/\epsilon)^{O(k)}$, where $\epsilon>0$ is the target accuracy. Prior work had given an algorithm for this problem with complexity $(dk/\epsilon)^{h(k)}$, where the function $h(k)$ scales super-polynomially in $k$. Interestingly, the complexity of our algorithm is near-optimal within the class of Correlational Statistical Query algorithms. At a high-level, our algorithm uses tensor decomposition to identify a subspace such that all the $O(k)$-order moments are small in the orthogonal directions. Its analysis makes essential use of the theory of Schur polynomials to show that the higher-moment error tensors are small given that the lower-order ones are.
翻訳日:2023-07-25 14:03:56 公開日:2023-07-24
# EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge: Mixed Sequences Prediction

EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge: Mixed Sequences Prediction ( http://arxiv.org/abs/2307.12837v1 )

ライセンス: Link先を確認
Amirshayan Nasirimajd, Simone Alberto Peirone, Chiara Plizzari, Barbara Caputo(参考訳) 本報告では,EPIC-Kitchens-100 Unsupervised Domain Adaptation (UDA) Challenge in Action Recognitionの技術的詳細について述べる。 我々のアプローチは、アクションの実行順序がソースドメインとターゲットドメインの間で似ているという考えに基づいている。 これに基づいて、ソースとターゲットドメインからのアクションをランダムに組み合わせて修正シーケンスを生成する。 UDA設定下では未ラベルのターゲットデータしか利用できないため、ターゲットのアクションラベルを抽出するために標準的な擬似ラベル方式を用いる。 次に、ネットワークに結果のアクションシーケンスを予測するよう依頼する。 これにより、トレーニング中に両方のドメインの情報を統合することができ、ターゲットの転送結果を改善することができる。 さらに、シーケンス情報をよりうまく組み込むために、言語モデルを使用して、不可能なシーケンスをフィルタリングする。 最後に,動詞と名詞の見当たらない組み合わせを排除するために共起行列を用いた。 我々の提出書は「シャーヤン」と名付けられており、リーダーボードで現在「動詞」の2位と「名詞」と「アクション」の2位に置かれている。

This report presents the technical details of our approach for the EPIC-Kitchens-100 Unsupervised Domain Adaptation (UDA) Challenge in Action Recognition. Our approach is based on the idea that the order in which actions are performed is similar between the source and target domains. Based on this, we generate a modified sequence by randomly combining actions from the source and target domains. As only unlabelled target data are available under the UDA setting, we use a standard pseudo-labeling strategy for extracting action labels for the target. We then ask the network to predict the resulting action sequence. This allows to integrate information from both domains during training and to achieve better transfer results on target. Additionally, to better incorporate sequence information, we use a language model to filter unlikely sequences. Lastly, we employed a co-occurrence matrix to eliminate unseen combinations of verbs and nouns. Our submission, labeled as 'sshayan', can be found on the leaderboard, where it currently holds the 2nd position for 'verb' and the 4th position for both 'noun' and 'action'.
翻訳日:2023-07-25 14:03:37 公開日:2023-07-24
# 統合ドロップアウト:句対変数による低リソースニューラルマシン翻訳の汎用性向上

Joint Dropout: Improving Generalizability in Low-Resource Neural Machine Translation through Phrase Pair Variables ( http://arxiv.org/abs/2307.12835v1 )

ライセンス: Link先を確認
Ali Araabi, Vlad Niculae, Christof Monz(参考訳) NMT(Neural Machine Translation)は大きな成功を収めたものの、低リソースの言語ペアの性能は依然として低いままであり、これは以前は目に見えなかったインプット、すなわち一般化を扱う能力に制限があるためである。 本稿では,変数付き句の置換による低リソースニューラルマシン翻訳の課題に対処し,一般化の重要な要素である合成性が著しく向上する手法を提案する。 BLEU と Direct Assessment のスコアに示すように,最小限のリソースを持つ言語対の翻訳品質は大幅に向上した。 さらに、エラー解析を行い、異なる領域にわたる堅牢性と適応性の観点から、低リソースNMTの一般化性を高めるジョイントドロップアウトを求める。

Despite the tremendous success of Neural Machine Translation (NMT), its performance on low-resource language pairs still remains subpar, partly due to the limited ability to handle previously unseen inputs, i.e., generalization. In this paper, we propose a method called Joint Dropout, that addresses the challenge of low-resource neural machine translation by substituting phrases with variables, resulting in significant enhancement of compositionality, which is a key aspect of generalization. We observe a substantial improvement in translation quality for language pairs with minimal resources, as seen in BLEU and Direct Assessment scores. Furthermore, we conduct an error analysis, and find Joint Dropout to also enhance generalizability of low-resource NMT in terms of robustness and adaptability across different domains
翻訳日:2023-07-25 14:03:19 公開日:2023-07-24
# Calibration-free Motor Imagery Brain Computer Interface のためのエンドツーエンドディープラーニング学習

End-to-End Deep Transfer Learning for Calibration-free Motor Imagery Brain Computer Interfaces ( http://arxiv.org/abs/2307.12827v1 )

ライセンス: Link先を確認
Maryam Alimardani and Steven Kocken and Nikki Leeuwis(参考訳) Motor Imagery Brain-Computer Interfaces (MI-BCI) の大きな問題は、その分類精度の低下と、被検体固有の校正に必要な大量のデータである。 これにより、bcisは、現場外のアプリケーションの一般ユーザーにはアクセスできない。 本研究は, 被検体非依存MI-BCI分類器の開発にDeep Transfer Learningを用いた。 トランスファー学習における信号前処理や特徴工学的ステップを適用した先行研究とは異なり、本研究は脳波信号に対するエンドツーエンドのディープラーニングアプローチを採用した。 3つのディープラーニングモデル(MIN2Net、EEGNet、DeepConvNet)をトレーニングし、公開データセットを使用して比較した。 データセットには、左右のモーターイメージタスクを行った55名の被験者の脳波信号が含まれていた。 各モデルの性能を評価するために,残余1オブジェクトのクロスバリデーションを用いた。 モデルの結果は大きく異なっていた。 min2netは、新しいユーザーの右と左のモーターイメージを区別できず、中央値は51.7%であった。 他の2つのモデルでは、EEGNetでは62.5%、DeepConvNetでは59.2%の平均的な精度が向上した。 これらの精度は、重要な制御に必要な70%の閾値に達しないが、転送学習なしで他のデータセットでテストされた場合、これらのモデルの精度に類似している。

A major issue in Motor Imagery Brain-Computer Interfaces (MI-BCIs) is their poor classification accuracy and the large amount of data that is required for subject-specific calibration. This makes BCIs less accessible to general users in out-of-the-lab applications. This study employed deep transfer learning for development of calibration-free subject-independent MI-BCI classifiers. Unlike earlier works that applied signal preprocessing and feature engineering steps in transfer learning, this study adopted an end-to-end deep learning approach on raw EEG signals. Three deep learning models (MIN2Net, EEGNet and DeepConvNet) were trained and compared using an openly available dataset. The dataset contained EEG signals from 55 subjects who conducted a left- vs. right-hand motor imagery task. To evaluate the performance of each model, a leave-one-subject-out cross validation was used. The results of the models differed significantly. MIN2Net was not able to differentiate right- vs. left-hand motor imagery of new users, with a median accuracy of 51.7%. The other two models performed better, with median accuracies of 62.5% for EEGNet and 59.2% for DeepConvNet. These accuracies do not reach the required threshold of 70% needed for significant control, however, they are similar to the accuracies of these models when tested on other datasets without transfer learning.
翻訳日:2023-07-25 14:03:05 公開日:2023-07-24
# 分布モーメントを用いた量子トモグラフィの信頼信頼領域

Reliable confidence regions for quantum tomography using distribution moments ( http://arxiv.org/abs/2307.12823v1 )

ライセンス: Link先を確認
D.O. Norkin, E.O. Kiktenko, A.K. Fedorov(参考訳) 量子トモグラフィーは、未知の量子状態とプロセスの再構成に広く応用できる方法である。 しかし、その量子技術への応用は通常、準備された量子状態と目標の量子状態の違いを信頼性のある信頼区間で推定する必要がある。 本研究では,量子トモグラフィーの精度の高い誤差バーを決定するための計算効率が高く信頼性の高い手法を提案する。 対象状態と線形反転によって与えられる推定値との間のヒルベルト・シュミット距離の確率分布を,そのモーメントを計算することで近似する。 また、量子プロセストモグラフィーに対するこのアプローチの一般化を示す。 シミュレーションデータと実験データの両方を用いて,複数の量子トモグラフィプロトコルに対する我々のアプローチをベンチマークする。 得られた結果は、様々な性質の量子システムの完全なキャラクタリゼーションのための提案されたスキームの使用方法である。

Quantum tomography is a widely applicable method for reconstructing unknown quantum states and processes. However, its applications in quantum technologies usually also require estimating the difference between prepared and target quantum states with relivable confidence intervals. In this work, we suggest a computationally efficient and reliable scheme for determining well-justified error bars for quantum tomography. We approximate the probability distribution of the Hilbert-Schmidt distance between the target state and the estimation, which is given by the linear inversion, by calculating its moments. We also present a generalization of this approach for quantum process tomography. We benchmark our approach for a number of quantum tomography protocols using both simulated and experimental data. The obtained results pave a way to the use of the suggested scheme for complete characterization of quantum systems of various nature.
翻訳日:2023-07-25 14:02:43 公開日:2023-07-24
# ジッタリングによる逆問題に対する頑健な学習推定器

Learning Provably Robust Estimators for Inverse Problems via Jittering ( http://arxiv.org/abs/2307.12822v1 )

ライセンス: Link先を確認
Anselm Krainovic, Mahdi Soltanolkotabi, Reinhard Heckel(参考訳) ディープニューラルネットワークは、 denoisingのような逆問題に対して優れたパフォーマンスを提供する。 しかし、ニューラルネットワークは逆境や最悪の場合の摂動に敏感である。 これにより、このようなネットワークが最悪のケースで堅牢になるように効率的にトレーニングできるかどうかという疑問が持ち上がる。 本稿では,学習中に等方性ガウス雑音を付加する単純な正規化手法であるジッタリングが,逆問題に対する最悪ケースロバスト推定器の学習に有効かどうかを検討する。 分類タスクにおける予測についてよく研究されているが、逆問題に対するジッタリングの有効性は体系的に研究されていない。 本稿では,線形デノナイズのための最適$\ell_2$-worst-caseのロバスト推定器を新たに解析し,ジッタリングが最適ロバストデノナイザを生成することを示す。 さらに, 深部ニューラルネットワーク(U-nets)を訓練し, 地磁気共鳴イメージング(MRI)による自然画像のデノイング, デコンボリューション, および加速磁気共鳴イメージングについて検討した。 その結果,ジッタリングは最悪の場合のロバスト性を大幅に向上させるが,デノイング以上の逆問題に最適であることが示された。 また,ノイズの少ない実データに対するトレーニングはやや堅牢性が向上することを示す。

Deep neural networks provide excellent performance for inverse problems such as denoising. However, neural networks can be sensitive to adversarial or worst-case perturbations. This raises the question of whether such networks can be trained efficiently to be worst-case robust. In this paper, we investigate whether jittering, a simple regularization technique that adds isotropic Gaussian noise during training, is effective for learning worst-case robust estimators for inverse problems. While well studied for prediction in classification tasks, the effectiveness of jittering for inverse problems has not been systematically investigated. In this paper, we present a novel analytical characterization of the optimal $\ell_2$-worst-case robust estimator for linear denoising and show that jittering yields optimal robust denoisers. Furthermore, we examine jittering empirically via training deep neural networks (U-nets) for natural image denoising, deconvolution, and accelerated magnetic resonance imaging (MRI). The results show that jittering significantly enhances the worst-case robustness, but can be suboptimal for inverse problems beyond denoising. Moreover, our results imply that training on real data which often contains slight noise is somewhat robustness enhancing.
翻訳日:2023-07-25 14:02:32 公開日:2023-07-24
# 記述対象検出におけるトラブルメーカの公開

Exposing the Troublemakers in Described Object Detection ( http://arxiv.org/abs/2307.12813v1 )

ライセンス: Link先を確認
Chi Xie, Zhao Zhang, Yixuan Wu, Feng Zhu, Rui Zhao, Shuang Liang(参考訳) 言語記述に基づくオブジェクトの検出は、Open-Vocabulary Object Detection (OVD)とReferring Expression Comprehension (REC)を含む一般的なタスクである。 本稿では,カテゴリ名をOVDのフレキシブル言語表現に拡張し,RECの限界を克服し,既存のオブジェクトのみをグラウンド化することで,より実用的なDOD(Description Object Detection)へと前進させる。 我々は,記述検出データセット(D^3$)を構築し,柔軟性のある言語表現を特徴とするDODタスクの研究基盤を確立する。 従来のSOTA法を$D^3$で評価することにより、現在のREC、OVD、二機能的手法を失敗するトラブルメーカーを見つけ出す。 RECメソッドは信頼性スコア、負のインスタンスの拒絶、マルチターゲットシナリオに苦しむ一方、OVDメソッドは長く複雑な記述を伴う制約に直面している。 最近の2機能的手法は,RECタスクとOVDタスクの分離したトレーニング手順と推論戦略のため,DODではうまく機能しない。 上記の知見に基づいて、トレーニングデータを再構築し、バイナリ分類サブタスクを導入し、既存の手法よりも優れたREC手法を大幅に改善するベースラインを提案する。 データとコードはhttps://github.com/shikras/d-cubeで入手できる。

Detecting objects based on language descriptions is a popular task that includes Open-Vocabulary object Detection (OVD) and Referring Expression Comprehension (REC). In this paper, we advance them to a more practical setting called Described Object Detection (DOD) by expanding category names to flexible language expressions for OVD and overcoming the limitation of REC to only grounding the pre-existing object. We establish the research foundation for DOD tasks by constructing a Description Detection Dataset ($D^3$), featuring flexible language expressions and annotating all described objects without omission. By evaluating previous SOTA methods on $D^3$, we find some troublemakers that fail current REC, OVD, and bi-functional methods. REC methods struggle with confidence scores, rejecting negative instances, and multi-target scenarios, while OVD methods face constraints with long and complex descriptions. Recent bi-functional methods also do not work well on DOD due to their separated training procedures and inference strategies for REC and OVD tasks. Building upon the aforementioned findings, we propose a baseline that largely improves REC methods by reconstructing the training data and introducing a binary classification sub-task, outperforming existing methods. Data and code is available at https://github.com/shikras/d-cube.
翻訳日:2023-07-25 14:02:07 公開日:2023-07-24
# ハパックス速度モデルによるZipf法則とヒープ法則の補正

Corrections of Zipf's and Heaps' Laws Derived from Hapax Rate Models ( http://arxiv.org/abs/2307.12896v1 )

ライセンス: Link先を確認
{\L}ukasz D\k{e}bowski(参考訳) 本稿では,ハファックス率の体系モデルに基づくZipf法則とHeaps法則の修正を紹介する。 1つは標準urnモデルで、短いテキストの限界周波数分布は、与えられた長いテキストから単語トークンが盲目的にサンプリングされたかのように見えると予測する。 第2の仮定は、ハプクスの割合はテキストサイズの単純な関数であると仮定する。 定数モデル、デービスモデル、線型モデル、ロジスティックモデルという4つの関数が議論されている。 このロジスティックモデルが最も適していることが示されている。

The article introduces corrections to Zipf's and Heaps' laws based on systematic models of the hapax rate. The derivation rests on two assumptions: The first one is the standard urn model which predicts that marginal frequency distributions for shorter texts look as if word tokens were sampled blindly from a given longer text. The second assumption posits that the rate of hapaxes is a simple function of the text size. Four such functions are discussed: the constant model, the Davis model, the linear model, and the logistic model. It is shown that the logistic model yields the best fit.
翻訳日:2023-07-25 13:53:39 公開日:2023-07-24
# カラムサブセット選択の統計的考察

A Statistical View of Column Subset Selection ( http://arxiv.org/abs/2307.12892v1 )

ライセンス: Link先を確認
Anav Sood and Trevor Hastie(参考訳) 大規模データセットから代表変数の小さなサブセットを選択することの問題点を考察する。 計算機科学の文献では、この次元減少問題は通常、カラムサブセット選択(CSS)として形式化される。 一方、典型的な統計形式化は、主変数の情報最大化集合を見つけることである。 本稿は,これら2つのアプローチが等価であること,さらに,ある半パラメトリックモデルにおいて両者を最大推定できることを示す。 これらの接続を用いて、(1)データセットの要約統計のみを用いてcssを効率的に実行する方法、(2)欠落データおよび/または検閲データが存在する場合にcssを実行し、(3)仮説テストフレームワークでcssのサブセットサイズを選択する方法を示す。

We consider the problem of selecting a small subset of representative variables from a large dataset. In the computer science literature, this dimensionality reduction problem is typically formalized as Column Subset Selection (CSS). Meanwhile, the typical statistical formalization is to find an information-maximizing set of Principal Variables. This paper shows that these two approaches are equivalent, and moreover, both can be viewed as maximum likelihood estimation within a certain semi-parametric model. Using these connections, we show how to efficiently (1) perform CSS using only summary statistics from the original dataset; (2) perform CSS in the presence of missing and/or censored data; and (3) select the subset size for CSS in a hypothesis testing framework.
翻訳日:2023-07-25 13:53:28 公開日:2023-07-24
# 拡散モデルに基づくデータフリーブラックボックス攻撃

Data-free Black-box Attack based on Diffusion Model ( http://arxiv.org/abs/2307.12872v1 )

ライセンス: Link先を確認
Mingwen Shao, Lingzhuang Meng, Yuanjian Qiao, Lixu Zhang, Wangmeng Zuo(参考訳) データフリーのブラックボックス攻撃における対象モデルのトレーニングデータは利用できないため、近年のスキームではGANを用いて代替モデルのトレーニングデータを生成する。 しかしながら、これらのGANベースのスキームは、代替トレーニングプロセス中に各ターゲットモデルに対してジェネレータを再訓練する必要があるため、低トレーニング効率に悩まされる。 これらの制約を克服するため,データ生成に拡散モデルの利用を検討するとともに,拡散モデルに基づくデータフリーなブラックボックス攻撃方式を提案し,代用トレーニングの効率と精度を向上させる。 拡散モデルによって生成されたデータは高品質であるにもかかわらず、多様な領域分布を示し、対象モデルの識別基準を満たしない多くのサンプルを含む。 対象モデルに適したデータを生成するための拡散モデルをさらに容易にするために,データ生成における拡散モデルを導く潜在コード拡張(lca)法を提案する。 LCAのガイダンスにより、拡散モデルによって生成されたデータは、対象モデルの識別基準を満たすだけでなく、高い多様性を示す。 このデータを利用することで、より効率的にターゲットモデルに近い代替モデルを訓練することができる。 広範な実験により,当社のlcaは攻撃成功率が高く,異なるターゲットモデルに対するgansベースのスキームと比較してクエリ予算の削減が期待できることがわかった。

Since the training data for the target model in a data-free black-box attack is not available, most recent schemes utilize GANs to generate data for training substitute model. However, these GANs-based schemes suffer from low training efficiency as the generator needs to be retrained for each target model during the substitute training process, as well as low generation quality. To overcome these limitations, we consider utilizing the diffusion model to generate data, and propose a data-free black-box attack scheme based on diffusion model to improve the efficiency and accuracy of substitute training. Despite the data generated by the diffusion model exhibits high quality, it presents diverse domain distributions and contains many samples that do not meet the discriminative criteria of the target model. To further facilitate the diffusion model to generate data suitable for the target model, we propose a Latent Code Augmentation (LCA) method to guide the diffusion model in generating data. With the guidance of LCA, the data generated by the diffusion model not only meets the discriminative criteria of the target model but also exhibits high diversity. By utilizing this data, it is possible to train substitute model that closely resemble the target model more efficiently. Extensive experiments demonstrate that our LCA achieves higher attack success rates and requires fewer query budgets compared to GANs-based schemes for different target models.
翻訳日:2023-07-25 13:53:15 公開日:2023-07-24
# リーマン幾何学のレンズによる拡散モデルの潜在空間の理解

Understanding the Latent Space of Diffusion Models through the Lens of Riemannian Geometry ( http://arxiv.org/abs/2307.12868v1 )

ライセンス: Link先を確認
Yong-Hyun Park, Mingi Kwon, Jaewoong Choi, Junghyo Jo, Youngjung Uh(参考訳) 拡散モデル(DM)の成功にもかかわらず、我々はその潜在空間を十分に理解していない。 潜在空間 $\mathbf{x}_t \in \mathcal{X}$ を理解するために、幾何学的観点から解析する。 具体的には、プルバック計量を用いて、$\mathcal{X}$とその対応する局所接点基底である$\mathcal{H}$、DMの中間特徴写像を求める。 検出された潜時ベースにより、潜時空間トラバーサルによる教師なし画像編集が可能となる。 得られた構造を2つの観点から検討する。 まず,拡散時間ステップで幾何学構造がどのように進化するかを検討する。 分析を通して 1) モデルは,生成過程の初期に低周波成分に着目し,その後,高周波詳細に順応する。 2)初期の段階では、異なるサンプルが類似した接地空間を共有し、 3) DMがトレーニングしたより単純なデータセットは、各タイムステップの接点空間をより一貫性のあるものにします。 第2に,安定拡散におけるテキスト条件に基づく幾何学構造の変化について検討する。 その結果は 1)類似のプロンプトは、同等の接空間を生じる。 2) モデルは後続の時間ステップにおいてテキスト条件に依存しない。 私たちの知る限りでは、この論文は$\mathbf{x}$-space トラバーサルによる画像編集を初めて提示し、dmsの潜在構造を徹底的に分析した。

Despite the success of diffusion models (DMs), we still lack a thorough understanding of their latent space. To understand the latent space $\mathbf{x}_t \in \mathcal{X}$, we analyze them from a geometrical perspective. Specifically, we utilize the pullback metric to find the local latent basis in $\mathcal{X}$ and their corresponding local tangent basis in $\mathcal{H}$, the intermediate feature maps of DMs. The discovered latent basis enables unsupervised image editing capability through latent space traversal. We investigate the discovered structure from two perspectives. First, we examine how geometric structure evolves over diffusion timesteps. Through analysis, we show that 1) the model focuses on low-frequency components early in the generative process and attunes to high-frequency details later; 2) At early timesteps, different samples share similar tangent spaces; and 3) The simpler datasets that DMs trained on, the more consistent the tangent space for each timestep. Second, we investigate how the geometric structure changes based on text conditioning in Stable Diffusion. The results show that 1) similar prompts yield comparable tangent spaces; and 2) the model depends less on text conditions in later timesteps. To the best of our knowledge, this paper is the first to present image editing through $\mathbf{x}$-space traversal and provide thorough analyses of the latent structure of DMs.
翻訳日:2023-07-25 13:52:54 公開日:2023-07-24
# 指数ランダムグラフモデル(ERGM)の確率的ステップワイド特徴選択

Stochastic Step-wise Feature Selection for Exponential Random Graph Models (ERGMs) ( http://arxiv.org/abs/2307.12862v1 )

ライセンス: Link先を確認
Helal El-Zaatari, Fei Yu, Michael R Kosorok(参考訳) ソーシャルネットワークの統計分析は、様々な科学分野にわたる複雑なネットワーク相互作用に関する貴重な洞察を提供する。 しかし, ネットワークの正確なモデリングは, 計算負荷が重いことや, ネットワーク依存を考慮しなければならないことなどから, 依然として困難である。 指数ランダムグラフモデル(ERGM)は、内在変数を組み込んでネットワーク依存を捉えるためにソーシャルネットワークモデリングで使われる有望な手法として登場した。 それでも、ERGMの使用には、非現実的で意味のないネットワーク構造を生成するERGM縮退の発生など、複数の課題がある。 これらの課題に対処し,協調ネットワークのモデリングを強化するために,ergmにおける内在的変数選択に着目した新しいアプローチを提案し,検証する。 本手法は, 計算負荷を克服し, 観測されたネットワーク依存性の調整を改善し, 様々な科学分野におけるネットワーク現象のより正確かつ有意義な解釈を容易にすることを目的としている。 統計的手法の進歩に寄与し,ネットワーク解析の実践的な洞察を提供するために,実証実験と厳密な分析を行う。

Statistical analysis of social networks provides valuable insights into complex network interactions across various scientific disciplines. However, accurate modeling of networks remains challenging due to the heavy computational burden and the need to account for observed network dependencies. Exponential Random Graph Models (ERGMs) have emerged as a promising technique used in social network modeling to capture network dependencies by incorporating endogenous variables. Nevertheless, using ERGMs poses multiple challenges, including the occurrence of ERGM degeneracy, which generates unrealistic and meaningless network structures. To address these challenges and enhance the modeling of collaboration networks, we propose and test a novel approach that focuses on endogenous variable selection within ERGMs. Our method aims to overcome the computational burden and improve the accommodation of observed network dependencies, thereby facilitating more accurate and meaningful interpretations of network phenomena in various scientific fields. We conduct empirical testing and rigorous analysis to contribute to the advancement of statistical techniques and offer practical insights for network analysis.
翻訳日:2023-07-25 13:52:31 公開日:2023-07-24
# 非熱光子とフェルミ・ディラックスペクトル分布

Non-thermal photons and a Fermi-Dirac spectral distribution ( http://arxiv.org/abs/2307.12860v1 )

ライセンス: Link先を確認
Evgenii Ievlev, Michael R.R. Good(参考訳) 非直観的ではあるが、特定の軌道に沿った加速された電子は、特定の角状状態で観測されたときにフェルミ・ディラックスペクトル分布の形で古典的な電磁放射を放射することができる。 分布,スペクトル,粒子数の関係について検討した。 移動点電荷の結果は、正確に知られている軌道に沿って加速するため、古典的である。 量子化されたスピン-0場を持つ移動ミラーモデルの半古典的レジームに写像する。 スカラーはまた、それぞれの周波数領域にフェルミ・ディラック形式を持つ$\beta$ bogoliubov係数分布を持つ。

Although non-intuitive, an accelerated electron along a particular trajectory can be shown to emit classical electromagnetic radiation in the form of a Fermi-Dirac spectral distribution when observed in a particular angular regime. We investigate the relationship between the distribution, spectrum, and particle count. The result for the moving point charge is classical, as it accelerates along an exactly known trajectory. We map to the semi-classical regime of the moving mirror model with a quantized spin-0 field. The scalars also possess a $\beta$ Bogoliubov coefficient distribution with Fermi-Dirac form in the respective frequency regime.
翻訳日:2023-07-25 13:52:12 公開日:2023-07-24
# 画像と表データを用いた予後予測モデルによる脳内出血の治療成績予測

Treatment Outcome Prediction for Intracerebral Hemorrhage via Generative Prognostic Model with Imaging and Tabular Data ( http://arxiv.org/abs/2307.12858v1 )

ライセンス: Link先を確認
Wenao Ma, Cheng Chen, Jill Abrigo, Calvin Hoi-Kwan Mak, Yuqi Gong, Nga Yan Chan, Chu Han, Zaiyi Liu, Qi Dou(参考訳) 脳内出血は2番目に一般的で致命的な脳梗塞である。 医学的進歩にもかかわらず、ICHの治療効果を予測することは依然として課題である。 本稿では,画像と表層データを用いてICHの治療結果を予測する新しい予後モデルを提案する。 本モデルは,非ランダム化試験から収集した観察データに基づいて,治療成功の確実な予測を行う。 具体的には,非ランダム化試験による選択バイアスを効果的に解消できる低次元確率スコアを生成するために,変分オートエンコーダモデルを提案する。 重要な点は,画像データ,非画像臨床データ,治療課題の情報を組み合わせ,正確な予後スコアを生成する変分分布結合モジュールを開発することである。 我々は脳内出血の実際の臨床データセットについて広範な実験を行った。 提案手法は, 既存の最先端アプローチと比較して, 治療結果予測の大幅な改善を示す。 コードはhttps://github.com/med-air/TOP-GPMで入手できる。

Intracerebral hemorrhage (ICH) is the second most common and deadliest form of stroke. Despite medical advances, predicting treat ment outcomes for ICH remains a challenge. This paper proposes a novel prognostic model that utilizes both imaging and tabular data to predict treatment outcome for ICH. Our model is trained on observational data collected from non-randomized controlled trials, providing reliable predictions of treatment success. Specifically, we propose to employ a variational autoencoder model to generate a low-dimensional prognostic score, which can effectively address the selection bias resulting from the non-randomized controlled trials. Importantly, we develop a variational distributions combination module that combines the information from imaging data, non-imaging clinical data, and treatment assignment to accurately generate the prognostic score. We conducted extensive experiments on a real-world clinical dataset of intracerebral hemorrhage. Our proposed method demonstrates a substantial improvement in treatment outcome prediction compared to existing state-of-the-art approaches. Code is available at https://github.com/med-air/TOP-GPM
翻訳日:2023-07-25 13:52:04 公開日:2023-07-24
# 計画、長い文脈理解、プログラム合成を備えた現実世界のウェブエージェント

A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis ( http://arxiv.org/abs/2307.12856v1 )

ライセンス: Link先を確認
Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust(参考訳) 事前訓練された大規模言語モデル(LLM)は、最近、自律Webナビゲーションにおけるより優れた一般化とサンプル効率を実現している。 しかし,実世界のWebサイトのパフォーマンスは,(1)オープンドメイン性,(2)コンテキスト長の制限,(3)HTMLの帰納バイアスの欠如に悩まされている。 自然言語の指示に従って実際のWebサイト上でタスクを完了できるLLM駆動エージェントであるWebAgentを紹介する。 WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、それらから生成されたPythonプログラムを介してウェブサイトで動作させることを計画している。 We design WebAgent with Flan-U-PaLM, for grounded code generation, and HTML-T5, new pre-trained LLMs for long HTML document using local and global attention mechanism and a mixture of long-span denoising objectives, for planning and summarization。 我々は,本手法が実際のWebサイトにおける成功率を50%以上向上させ,HTML-T5がHTMLベースのタスクを解く最良のモデルであること,MiniWoB WebナビゲーションベンチマークにおけるSoTAよりも14.9%高い成功率,オフラインタスク計画評価における精度の向上を実証的に示す。

Pre-trained large language models (LLMs) have recently achieved better generalization and sample efficiency in autonomous web navigation. However, the performance on real-world websites has still suffered from (1) open domainness, (2) limited context length, and (3) lack of inductive bias on HTML. We introduce WebAgent, an LLM-driven agent that can complete the tasks on real websites following natural language instructions. WebAgent plans ahead by decomposing instructions into canonical sub-instructions, summarizes long HTML documents into task-relevant snippets, and acts on websites via generated Python programs from those. We design WebAgent with Flan-U-PaLM, for grounded code generation, and HTML-T5, new pre-trained LLMs for long HTML documents using local and global attention mechanisms and a mixture of long-span denoising objectives, for planning and summarization. We empirically demonstrate that our recipe improves the success on a real website by over 50%, and that HTML-T5 is the best model to solve HTML-based tasks; achieving 14.9% higher success rate than prior SoTA on the MiniWoB web navigation benchmark and better accuracy on offline task planning evaluation.
翻訳日:2023-07-25 13:51:49 公開日:2023-07-24
# 長期活動予測のためのマルチスケールビデオプリトレーニング

Multiscale Video Pretraining for Long-Term Activity Forecasting ( http://arxiv.org/abs/2307.12854v1 )

ライセンス: Link先を確認
Reuben Tan, Matthias De Lange, Michael Iuzzolino, Bryan A. Plummer, Kate Saenko, Karl Ridgeway, Lorenzo Torresani(参考訳) 長期活動予測は、観察された行動間の時間的関係と人間の活動の変動性と複雑さを理解する必要があるため、特に困難な研究課題である。 高価なヒューマンアノテーションによる強い監督に頼らず、最先端の予測アプローチは、しばしば見当たらないデータに対して不十分に一般化する。 この問題を緩和するために,複数時間にわたって将来のビデオクリップの文脈的表現を予測することを学ぶことによって,予測のための堅牢な表現を学習する,新しい自己指導型事前学習手法であるMultiscale Video Pretraining (MVP)を提案する。 mvpは、ビデオ内のアクションがマルチスケール性を持ち、アトミックなアクションは通常短いタイムスケールで起こり、より複雑なアクションはより長いタイムスケールにまたがる可能性がある、という我々の観察に基づいています。 長期行動予測と映像要約予測を含む下流長期予測タスクにおけるmvpと最先端の自己教師付きビデオ学習手法を比較した。 Ego4DとEpic-Kitchens-55/100データセットにわたる包括的な実験では、MVPが最先端のメソッドをかなりのマージンで上回っていることが示されています。 特に、MVPは、既存の手法による映像要約予測において、20%以上の精度で相対的な性能向上が得られる。

Long-term activity forecasting is an especially challenging research problem because it requires understanding the temporal relationships between observed actions, as well as the variability and complexity of human activities. Despite relying on strong supervision via expensive human annotations, state-of-the-art forecasting approaches often generalize poorly to unseen data. To alleviate this issue, we propose Multiscale Video Pretraining (MVP), a novel self-supervised pretraining approach that learns robust representations for forecasting by learning to predict contextualized representations of future video clips over multiple timescales. MVP is based on our observation that actions in videos have a multiscale nature, where atomic actions typically occur at a short timescale and more complex actions may span longer timescales. We compare MVP to state-of-the-art self-supervised video learning approaches on downstream long-term forecasting tasks including long-term action anticipation and video summary prediction. Our comprehensive experiments across the Ego4D and Epic-Kitchens-55/100 datasets demonstrate that MVP out-performs state-of-the-art methods by significant margins. Notably, MVP obtains a relative performance gain of over 20% accuracy in video summary forecasting over existing methods.
翻訳日:2023-07-25 13:51:24 公開日:2023-07-24
# 時空間モデリングによる医用画像解析:多視点融合によるスライスシフトUNet

Spatiotemporal Modeling Encounters 3D Medical Image Analysis: Slice-Shift UNet with Multi-View Fusion ( http://arxiv.org/abs/2307.12853v1 )

ライセンス: Link先を確認
C. I. Ugwu, S. Casarin, O. Lanz(参考訳) 計算医療の基盤として、コンピュータ断層撮影(ct)と磁気共鳴イメージング(mri)は体積データを提供し、3次元画像解析のためのアルゴリズムの開発を必要としている。 計算コストが安いにもかかわらず、2D畳み込みニューラルネットワークは空間情報のみを抽出できる。 対照的に、3D CNNは3次元の特徴を抽出できるが、計算コストとレイテンシが高く、高速で効率的なモデルを必要とする臨床実践の限界である。 映像行動認識の分野に触発されて,2次元CNNの複雑さで3次元特徴を符号化するSlice SHift UNet(SSH-UNet)と呼ばれる新しい2Dモデルを提案する。 ボリュームの3つの直交平面に沿って2次元畳み込みを行い、重み共有機構を構成することにより、より正確にマルチビュー特徴を協調的に学習する。 3次元は2次元畳み込みによって無視され、スライスの軸に沿って特徴写像の一部をシフトすることで再結合される。 提案手法の有効性は,多モード腹部多臓器分割 (AMOS) とマルチアトラスラベル法 (BTCV) で検証され,SSH-UNet は最先端アーキテクチャと同等の性能を示した。

As a fundamental part of computational healthcare, Computer Tomography (CT) and Magnetic Resonance Imaging (MRI) provide volumetric data, making the development of algorithms for 3D image analysis a necessity. Despite being computationally cheap, 2D Convolutional Neural Networks can only extract spatial information. In contrast, 3D CNNs can extract three-dimensional features, but they have higher computational costs and latency, which is a limitation for clinical practice that requires fast and efficient models. Inspired by the field of video action recognition we propose a new 2D-based model dubbed Slice SHift UNet (SSH-UNet) which encodes three-dimensional features at 2D CNN's complexity. More precisely multi-view features are collaboratively learned by performing 2D convolutions along the three orthogonal planes of a volume and imposing a weights-sharing mechanism. The third dimension, which is neglected by the 2D convolution, is reincorporated by shifting a portion of the feature maps along the slices' axis. The effectiveness of our approach is validated in Multi-Modality Abdominal Multi-Organ Segmentation (AMOS) and Multi-Atlas Labeling Beyond the Cranial Vault (BTCV) datasets, showing that SSH-UNet is more efficient while on par in performance with state-of-the-art architectures.
翻訳日:2023-07-25 13:51:06 公開日:2023-07-24
# Dyn-E:動的ニューラルラジアンスフィールドの局所的な外観編集

Dyn-E: Local Appearance Editing of Dynamic Neural Radiance Fields ( http://arxiv.org/abs/2307.12909v1 )

ライセンス: Link先を確認
Shangzhan Zhang, Sida Peng, Yinji ShenTu, Qing Shuai, Tianrun Chen, Kaicheng Yu, Hujun Bao, Xiaowei Zhou(参考訳) 近年, ニューラルレイディアンスフィールド(NeRF)の編集が注目されているが, 従来の研究は静的なシーンに重点を置いており, 動的シーンの外観編集の研究は比較的不十分である。 本稿では,1フレームのトレーニングビデオに画素を操作することで,ダイナミックNeRFの局所的な外観を編集する新しいフレームワークを提案する。 具体的には、未編集領域を維持しながらダイナミックなnerfの外観をローカルに編集するために、編集された領域の局所的な表面表現を導入する。 この手法を用いることで、専門知識のないユーザは、ダイナミックなシーンの外観に望ましいコンテンツを容易に追加できる。 我々は,様々な場面におけるアプローチを広く評価し,空間的かつ時間的に一貫した編集結果が得られることを示す。 特に,本手法は動的NeRF表現の様々な変種に適用可能である。

Recently, the editing of neural radiance fields (NeRFs) has gained considerable attention, but most prior works focus on static scenes while research on the appearance editing of dynamic scenes is relatively lacking. In this paper, we propose a novel framework to edit the local appearance of dynamic NeRFs by manipulating pixels in a single frame of training video. Specifically, to locally edit the appearance of dynamic NeRFs while preserving unedited regions, we introduce a local surface representation of the edited region, which can be inserted into and rendered along with the original NeRF and warped to arbitrary other frames through a learned invertible motion representation network. By employing our method, users without professional expertise can easily add desired content to the appearance of a dynamic scene. We extensively evaluate our approach on various scenes and show that our approach achieves spatially and temporally consistent editing results. Notably, our approach is versatile and applicable to different variants of dynamic NeRF representations.
翻訳日:2023-07-25 13:45:58 公開日:2023-07-24
# 対称量子ネットワークのサブスペース制御性とクレブシュ・ゴルダン分解

Subspace Controllability and Clebsch-Gordan Decomposition of Symmetric Quantum Networks ( http://arxiv.org/abs/2307.12908v1 )

ライセンス: Link先を確認
Domenico D'Alessandro(参考訳) 我々は、任意の次元 $d$, {\displaystyle qudits} の量子ネットワークの制御可能性解析の枠組みを記述し、置換群 $s_n$ の下で不変なハミルトニアンによって決定される力学について述べる。 対称性のため、基礎となるヒルベルト空間 ${\cal h}=(\mathbb{c}^d)^{\otimes n}$ は、ここで $u^{s_n}(d^n)$ と表記される$u(d^n)$ における $s_n$-不変要素のリー代数の不変部分空間に分解される。 系の可制御性性を決定する力学的リー代数 ${\cal L}$ は、そのようなリー代数 $u^{S_n}(d^n)$ のリー部分代数である。 もし${\cal l}$ が各不変部分空間 $v$ に対して$su\left( \dim(v) \right)$ として作用すると、システムは {\it subspace controllable} と呼ばれる。 我々のアプローチは、ヒルベルト空間 ${\cal H}$ のそのような分割は、$(\mathbb{C}^d)^{\otimes n}$ を $su(d)$ の既約表現に分割する {\it Clebsch-Gordan} と一致すると認識することに基づいている。 この見方では、$u^{s_n}(d^n)$ は我々が指定するいくつかの$n_j$' に対してある$su(n_j)$ の直和であり、その {\it center} は {\it casimir operator} によって生成されるアーベル(lie)代数である。 文献で以前に検討した状況を一般化し,quditsの任意の局所的同時制御と対称な2体相互作用によるダイナミクスを考える。 提示された結果の多くは、一般的な$n$と$d$だが、この新しい一般フレームワークの$n$ qubitsで以前の結果を再放送し、新しい場合の$n=3$、$d=3$、すなわち、三つのqutritsの完全な処理と部分空間制御可能性の証明を提供する。

We describe a framework for the controllability analysis of networks of $n$ quantum systems of an arbitrary dimension $d$, {\it qudits}, with dynamics determined by Hamiltonians that are invariant under the permutation group $S_n$. Because of the symmetry, the underlying Hilbert space, ${\cal H}=(\mathbb{C}^d)^{\otimes n}$, splits into invariant subspaces for the Lie algebra of $S_n$-invariant elements in $u(d^n)$, denoted here by $u^{S_n}(d^n)$. The dynamical Lie algebra ${\cal L}$, which determines the controllability properties of the system, is a Lie subalgebra of such a Lie algebra $u^{S_n}(d^n)$. If ${\cal L}$ acts as $su\left( \dim(V) \right)$ on each of the invariant subspaces $V$, the system is called {\it subspace controllable}. Our approach is based on recognizing that such a splitting of the Hilbert space ${\cal H}$ coincides with the {\it Clebsch-Gordan} splitting of $(\mathbb{C}^d)^{\otimes n}$ into {\it irreducible representations} of $su(d)$. In this view, $u^{S_n}(d^n)$, is the direct sum of certain $su(n_j)$ for some $n_j$'s we shall specify, and its {\it center} which is the Abelian (Lie) algebra generated by the {\it Casimir operators}. Generalizing the situation previously considered in the literature, we consider dynamics with arbitrary local simultaneous control on the qudits and a symmetric two body interaction. Most of the results presented are for general $n$ and $d$ but we recast previous results on $n$ qubits in this new general framework and provide a complete treatment and proof of subspace controllability for the new case of $n=3$, $d=3$, that is, {\it three qutrits}.
翻訳日:2023-07-25 13:45:22 公開日:2023-07-24
# GridMM:視覚・言語ナビゲーションのためのグリッドメモリマップ

GridMM: Grid Memory Map for Vision-and-Language Navigation ( http://arxiv.org/abs/2307.12907v1 )

ライセンス: Link先を確認
Zihan Wang and Xiangyang Li and Jiahao Yang and Yeqi Liu and Shuqiang Jiang(参考訳) ビジョン・アンド・ランゲージナビゲーション(VLN)は、エージェントが3D環境における自然言語の指示に従って遠隔地へ移動できるようにする。 これまで訪れた環境を表現するため、VLNのほとんどのアプローチは、リカレントステート、トポロジマップ、トップダウンセマンティックマップを使用してメモリを実装している。 これらのアプローチとは対照的に、訪問環境を構築するために、トップダウンのエゴセントリックで動的に成長するグリッドメモリマップ(GridMM)を構築します。 地球から見ると、歴史的観測はトップダウンの視点で統一グリッドマップに投影され、環境の空間的関係をより良く表現することができる。 さらに,局所的な視点から,各グリッド領域における細粒度の視覚手がかりを捉えるための指示関連集約手法を提案する。 離散環境におけるREVERIE, R2R, SOONデータセット, 連続環境におけるR2R-CEデータセットについて, 実験を行い, 提案手法の優位性を示した。

Vision-and-language navigation (VLN) enables the agent to navigate to a remote location following the natural language instruction in 3D environments. To represent the previously visited environment, most approaches for VLN implement memory using recurrent states, topological maps, or top-down semantic maps. In contrast to these approaches, we build the top-down egocentric and dynamically growing Grid Memory Map (i.e., GridMM) to structure the visited environment. From a global perspective, historical observations are projected into a unified grid map in a top-down view, which can better represent the spatial relations of the environment. From a local perspective, we further propose an instruction relevance aggregation method to capture fine-grained visual clues in each grid region. Extensive experiments are conducted on both the REVERIE, R2R, SOON datasets in the discrete environments, and the R2R-CE dataset in the continuous environments, showing the superiority of our proposed method.
翻訳日:2023-07-25 13:44:36 公開日:2023-07-24
# QAmplifyNet:解釈可能なハイブリッド量子-古典ニューラルネットワークを用いたサプライチェーンの後方予測境界のプッシュ

QAmplifyNet: Pushing the Boundaries of Supply Chain Backorder Prediction Using Interpretable Hybrid Quantum - Classical Neural Network ( http://arxiv.org/abs/2307.12906v1 )

ライセンス: Link先を確認
Md Abrar Jahin, Md Sakib Hossain Shovon, Md. Saiful Islam, Jungpil Shin, M. F. Mridha, Yuichi Okuyama(参考訳) サプライチェーン管理は、在庫管理の最適化、コスト削減、顧客満足度向上のための正確な後方予測に依存している。 しかし、従来の機械学習モデルは大規模なデータセットや複雑な関係に悩まされており、実際のデータ収集を妨げる。 本研究は,サプライチェーンの後方予測のための新しい方法論的枠組みを導入し,大規模データセットを扱う上での課題に対処する。 提案するモデルであるqamplifynetは、量子古典ニューラルネットワーク内で量子インスパイアされた技術を用いて、短大で不均衡なデータセット上でバックオーダーを効果的に予測する。 ベンチマークデータセットでの実験的評価は、QAmplifyNetが古典モデル、量子アンサンブル、量子ニューラルネットワーク、深層強化学習よりも優れていることを示している。 短く不均衡なデータセットを扱う能力は、サプライチェーン管理の理想的なソリューションとなります。 モデル解釈性を高めるために、説明可能な人工知能技術を用いる。 実際の意味としては、在庫管理の改善、発注の削減、運用効率の向上などがある。 QAmplifyNetは実世界のサプライチェーン管理システムにシームレスに統合され、積極的な意思決定と効率的なリソース割り当てを可能にします。 今後の研究には、追加の量子にインスパイアされた技術、データセットの拡張、および他のサプライチェーンアプリケーションの調査が含まれる。 この研究は、サプライチェーン最適化における量子コンピューティングの可能性を解き放ち、サプライチェーン管理における量子インスパイアされた機械学習モデルのさらなる探究の道を開く。 我々のフレームワークとQAmplifyNetモデルはサプライチェーンの後方予測に画期的なアプローチを提供し、優れた性能を提供し、サプライチェーン管理に量子インスパイアされた技術を活用するための新たな道を開く。

Supply chain management relies on accurate backorder prediction for optimizing inventory control, reducing costs, and enhancing customer satisfaction. However, traditional machine-learning models struggle with large-scale datasets and complex relationships, hindering real-world data collection. This research introduces a novel methodological framework for supply chain backorder prediction, addressing the challenge of handling large datasets. Our proposed model, QAmplifyNet, employs quantum-inspired techniques within a quantum-classical neural network to predict backorders effectively on short and imbalanced datasets. Experimental evaluations on a benchmark dataset demonstrate QAmplifyNet's superiority over classical models, quantum ensembles, quantum neural networks, and deep reinforcement learning. Its proficiency in handling short, imbalanced datasets makes it an ideal solution for supply chain management. To enhance model interpretability, we use Explainable Artificial Intelligence techniques. Practical implications include improved inventory control, reduced backorders, and enhanced operational efficiency. QAmplifyNet seamlessly integrates into real-world supply chain management systems, enabling proactive decision-making and efficient resource allocation. Future work involves exploring additional quantum-inspired techniques, expanding the dataset, and investigating other supply chain applications. This research unlocks the potential of quantum computing in supply chain optimization and paves the way for further exploration of quantum-inspired machine learning models in supply chain management. Our framework and QAmplifyNet model offer a breakthrough approach to supply chain backorder prediction, providing superior performance and opening new avenues for leveraging quantum-inspired techniques in supply chain management.
翻訳日:2023-07-25 13:44:17 公開日:2023-07-24
# インテリジェントシステムの複雑解析

Complex Analysis of Intelligent Systems ( http://arxiv.org/abs/2307.12905v1 )

ライセンス: Link先を確認
M.W. AlMasri(参考訳) 論理ゲートは、入力と出力が複数の変数を持つ解析関数である複素微分作用素を用いて書くことができる。 複素数の極表現を用いて、系の振動挙動と論理ゲートの間の即時接続に到達する。 物理オブジェクトが情報処理に使用するユニバーサルプログラミング言語(UPL)について説明する。 UPLの因果構造を保証するため,各時間スケールの計算を特徴付けるレイヤの概念を導入する。

Logic gates can be written in terms of complex differential operators where the inputs and outputs are analytic functions with several variables. Using the polar representation of complex numbers, we arrive at an immediate connection between the oscillatory behavior of the system and logic gates. We explain the universal programming language (UPL) used by physical objects to process information. To assure the causality structure in UPL, we introduce the concept of layers that characterizes the computations for each time scale.
翻訳日:2023-07-25 13:43:50 公開日:2023-07-24
# 量子ニューラルネットワークと量子貯水池の普遍近似定理と誤差境界

Universal Approximation Theorem and error bounds for quantum neural networks and quantum reservoirs ( http://arxiv.org/abs/2307.12904v1 )

ライセンス: Link先を確認
Lukas Gonon and Antoine Jacquier(参考訳) 普遍近似定理は古典的ニューラルネットワークの基礎であり、後者が関心のある写像を近似できることを理論的に保証する。 最近の結果は、古典関数をパラメータ化された量子回路で近似できる量子設定でもこれを達成できることを示した。 ここでは、関数の特定のクラスに対する正確な誤差境界を提供し、これらの結果を、古典的貯水池ニューラルネットワークを模倣した、ランダム化された量子回路の興味深い新しい設定に拡張する。 特に,$\mathcal{o}(\varepsilon^{-2})$sと$\mathcal{o} (\lceil \log_2(\varepsilon^{-1}) \rceil)$ qubits suffices を用いて,可積分フーリエ変換で関数を近似するときの精度$\varepsilon>0$ が得られることを示す。

Universal approximation theorems are the foundations of classical neural networks, providing theoretical guarantees that the latter are able to approximate maps of interest. Recent results have shown that this can also be achieved in a quantum setting, whereby classical functions can be approximated by parameterised quantum circuits. We provide here precise error bounds for specific classes of functions and extend these results to the interesting new setup of randomised quantum circuits, mimicking classical reservoir neural networks. Our results show in particular that a quantum neural network with $\mathcal{O}(\varepsilon^{-2})$ weights and $\mathcal{O} (\lceil \log_2(\varepsilon^{-1}) \rceil)$ qubits suffices to achieve accuracy $\varepsilon>0$ when approximating functions with integrable Fourier transform.
翻訳日:2023-07-25 13:43:43 公開日:2023-07-24
# FLパフォーマンス説明可能性貿易の橋渡しに向けて:信頼できる6G RANスライシングユースケース

Towards Bridging the FL Performance-Explainability Trade-Off: A Trustworthy 6G RAN Slicing Use-Case ( http://arxiv.org/abs/2307.12903v1 )

ライセンス: Link先を確認
Swastika Roy, Hatim Chergui, Christos Verikoukis(参考訳) 多様なネットワークスライスが共存する第6世代(6g)ネットワークでは、ai駆動のゼロタッチ管理とオーケストレーション(mano)の採用が重要になる。 しかし、実際のデプロイメントにおけるAIブラックボックスの信頼性を保証することは難しい。 説明可能なAI(XAI)ツールは、スライシングエコシステムにおけるステークホルダ間の透明性を確立する上で重要な役割を果たす。 しかし、aiのパフォーマンスと説明可能性の間にはトレードオフがあり、公平性、説明責任性、コンプライアンスを確保するために、ステークホルダーは効率的なリソース割り当てと説明可能な意思決定のために高いパフォーマンスのaiモデルの両方を必要とするため、信頼できる6gネットワークスライシングのジレンマとなる。 To balance this trade off and inspired by the closed loop automation and XAI methodologies, this paper presents a novel explanation-guided in-hoc federated learning (FL) approach where a constrained resource allocation model and an explainer exchange -- in a closed loop (CL) fashion -- soft attributions of the features as well as inference predictions to achieve a transparent 6G network slicing resource management in a RAN-Edge setup under non-independent identically distributed (non-IID) datasets. 特に,実行時FL最適化タスクにおける全体トレーニングプロセスの指針となる制約として含まれる,いわゆる属性に基づく信頼度測定によって,説明の忠実度を定量的に検証する。 この点において、Integrated-Gradient (IG) とInput $\times$ Gradient と SHAP は、提案したインホックスキームの属性を生成するために使用され、これまでは異なる手法によるシミュレーション結果により、非制約のIntegrated-Gradient post-hoc FLベースラインに対する性能説明可能性トレードオフと優越性に対処することに成功した。

In the context of sixth-generation (6G) networks, where diverse network slices coexist, the adoption of AI-driven zero-touch management and orchestration (MANO) becomes crucial. However, ensuring the trustworthiness of AI black-boxes in real deployments is challenging. Explainable AI (XAI) tools can play a vital role in establishing transparency among the stakeholders in the slicing ecosystem. But there is a trade-off between AI performance and explainability, posing a dilemma for trustworthy 6G network slicing because the stakeholders require both highly performing AI models for efficient resource allocation and explainable decision-making to ensure fairness, accountability, and compliance. To balance this trade off and inspired by the closed loop automation and XAI methodologies, this paper presents a novel explanation-guided in-hoc federated learning (FL) approach where a constrained resource allocation model and an explainer exchange -- in a closed loop (CL) fashion -- soft attributions of the features as well as inference predictions to achieve a transparent 6G network slicing resource management in a RAN-Edge setup under non-independent identically distributed (non-IID) datasets. In particular, we quantitatively validate the faithfulness of the explanations via the so-called attribution-based confidence metric that is included as a constraint to guide the overall training process in the run-time FL optimization task. In this respect, Integrated-Gradient (IG) as well as Input $\times$ Gradient and SHAP are used to generate the attributions for our proposed in-hoc scheme, wherefore simulation results under different methods confirm its success in tackling the performance-explainability trade-off and its superiority over the unconstrained Integrated-Gradient post-hoc FL baseline.
翻訳日:2023-07-25 13:43:17 公開日:2023-07-24
# スパイクニューロンの時間ダイナミクスによるスパースイベント学習による自動車物体検出

Automotive Object Detection via Learning Sparse Events by Temporal Dynamics of Spiking Neurons ( http://arxiv.org/abs/2307.12900v1 )

ライセンス: Link先を確認
Hu Zhang, Luziwei Leng, Kaiwei Che, Qian Liu, Jie Cheng, Qinghai Guo, Jiangxing Liao, Ran Cheng(参考訳) イベントベースのセンサーは、その高時間分解能(1us)とダイナミックレンジ(120dB)を持ち、車両やドローンなどの高速プラットフォームにデプロイされる可能性がある。 しかし、イベントの非常にばらばらで変動する性質は、ニューラルネットワーク(anns)に基づく従来の物体検出技術にとって課題となる。 対照的に、スパイキングニューラルネットワーク(SNN)は、イベントベースのデータを表現するのに適している。 特に, 膜電位ダイナミクスは, 変動するイベントのネットワーク活動を変調し, スパース入力の特徴を強くすることを示した。 さらに、スパイクトリガー適応閾値は、ネットワーク性能をさらに向上させるトレーニングを安定化させることができる。 これに基づいて,イベントベースオブジェクト検出のための効率的なスパイキング機能ピラミッドネットワークを開発した。 提案したSNNは,Gen1ベンチマークデータセットの平均精度(map50)を47.7%達成し,従来のSNNと高度なANNよりも優れた性能を示した。 この結果は、以前の最高のSNNを9.7%上回り、イベントベースのビジョンのためのSNNの可能性を示している。 我々のモデルは、スパース計算の結果、高精度で計算コストをはるかに低く保ちながら、簡潔なアーキテクチャを持つ。 私たちのコードは公開されます。

Event-based sensors, with their high temporal resolution (1us) and dynamical range (120dB), have the potential to be deployed in high-speed platforms such as vehicles and drones. However, the highly sparse and fluctuating nature of events poses challenges for conventional object detection techniques based on Artificial Neural Networks (ANNs). In contrast, Spiking Neural Networks (SNNs) are well-suited for representing event-based data due to their inherent temporal dynamics. In particular, we demonstrate that the membrane potential dynamics can modulate network activity upon fluctuating events and strengthen features of sparse input. In addition, the spike-triggered adaptive threshold can stabilize training which further improves network performance. Based on this, we develop an efficient spiking feature pyramid network for event-based object detection. Our proposed SNN outperforms previous SNNs and sophisticated ANNs with attention mechanisms, achieving a mean average precision (map50) of 47.7% on the Gen1 benchmark dataset. This result significantly surpasses the previous best SNN by 9.7% and demonstrates the potential of SNNs for event-based vision. Our model has a concise architecture while maintaining high accuracy and much lower computation cost as a result of sparse computation. Our code will be publicly available.
翻訳日:2023-07-25 13:42:42 公開日:2023-07-24
# 時が経つにつれ: 液体民主主義における代表団の解決に時間的次元を加える

As Time Goes By: Adding a Temporal Dimension Towards Resolving Delegations in Liquid Democracy ( http://arxiv.org/abs/2307.12898v1 )

ライセンス: Link先を確認
Evangelos Markakis and Georgios Papasotiropoulos(参考訳) 近年、液体民主主義に関連する様々なモデルや疑問の研究は、計算社会選択のコミュニティの間で関心が高まっている。 問題は、現在の学術文献が静的な入力のみに焦点を当てており、液体民主主義の重要な特徴である時間とともに、投票者自身が投票するか、他の参加者に投票を委譲するか、最終投票期限まで考えを変える権利を隠していることである。 実生活において、選挙日前の長期の審議期間は、有権者が残りの選挙人の観察や、その話題のために獲得した情報に基づいて、時間とともにその行動に適応するよう動機づける。 液状民主主義に時間的次元を加えることで、このような適応は代議員の選任経路の数を増やし、代議員のサイクルによる投票の損失を減らしたり、エージェントの棄権に向けた選任経路を減らしたり、最終的に参加を拡大することができる。 我々の研究は、液体民主主義システムにおける意思決定問題に時間的水平線を統合するための第一歩を踏み出します。 我々のアプローチは、計算複雑性分析を通じて、時間グラフ理論から概念やツールを活用し、フレームワークに便利であることが判明した。

In recent years, the study of various models and questions related to Liquid Democracy has been of growing interest among the community of Computational Social Choice. A concern that has been raised, is that current academic literature focuses solely on static inputs, concealing a key characteristic of Liquid Democracy: the right for a voter to change her mind as time goes by, regarding her options of whether to vote herself or delegate her vote to other participants, till the final voting deadline. In real life, a period of extended deliberation preceding the election-day motivates voters to adapt their behaviour over time, either based on observations of the remaining electorate or on information acquired for the topic at hand. By adding a temporal dimension to Liquid Democracy, such adaptations can increase the number of possible delegation paths and reduce the loss of votes due to delegation cycles or delegating paths towards abstaining agents, ultimately enhancing participation. Our work takes a first step to integrate a time horizon into decision-making problems in Liquid Democracy systems. Our approach, via a computational complexity analysis, exploits concepts and tools from temporal graph theory which turn out to be convenient for our framework.
翻訳日:2023-07-25 13:42:22 公開日:2023-07-24
# 線形バンディットにおける任意の時間モデル選択

Anytime Model Selection in Linear Bandits ( http://arxiv.org/abs/2307.12897v1 )

ライセンス: Link先を確認
Parnian Kassraie, Aldo Pacchiano, Nicolas Emmenegger, Andreas Krause(参考訳) バンディット最適化の文脈におけるモデル選択は、行動選択だけでなく、モデル選択にも探索と利用のバランスをとる必要があるため、難しい問題である。 自然なアプローチの1つは、異なるモデルを専門家として扱うオンライン学習アルゴリズムに依存することだ。 しかし、既存のメソッドは、残念な点から言えば、M$のモデル数であまりスケールしない(\text{poly}M$)。 我々の重要な洞察は、線形帯域におけるモデル選択において、オンライン学習者への完全な情報フィードバックを好ましいバイアス分散トレードオフでエミュレートできるということです。 ALEXPは、その後悔のために$M$に対する指数関数的に改善された($\log M$)依存を持つ。 alexpはその後悔をいつでも保証し、horizon $n$の知識も必要とせず、最初の純粋に探索的な段階も必要としない。 本手法はラッソの新たな時間一様解析を応用し,オンライン学習と高次元統計の新たな関連性を確立した。

Model selection in the context of bandit optimization is a challenging problem, as it requires balancing exploration and exploitation not only for action selection, but also for model selection. One natural approach is to rely on online learning algorithms that treat different models as experts. Existing methods, however, scale poorly ($\text{poly}M$) with the number of models $M$ in terms of their regret. Our key insight is that, for model selection in linear bandits, we can emulate full-information feedback to the online learner with a favorable bias-variance trade-off. This allows us to develop ALEXP, which has an exponentially improved ($\log M$) dependence on $M$ for its regret. ALEXP has anytime guarantees on its regret, and neither requires knowledge of the horizon $n$, nor relies on an initial purely exploratory stage. Our approach utilizes a novel time-uniform analysis of the Lasso, establishing a new connection between online learning and high-dimensional statistics.
翻訳日:2023-07-25 13:42:00 公開日:2023-07-24
# ニューラルネットワーク表現における特権基底と収束基底について

On Privileged and Convergent Bases in Neural Network Representations ( http://arxiv.org/abs/2307.12941v1 )

ライセンス: Link先を確認
Davis Brown, Nikhil Vyas, Yamini Bansal(参考訳) 本研究では,ニューラルネットワークが学習した表現が特権的かつ収束的な基盤を持つかどうかを検討する。 具体的には、個々のニューロンで表される特徴方向の重要性を検討する。 まず,神経表現の任意の回転は(線形ネットワークとは異なり)反転できないことを証明し,完全な回転不変性は示さないことを示した。 その後、同一性能を達成するために複数のベースの可能性を探る。 これを実現するために、同じパラメータで訓練されたネットワークのベースと、異なるランダム初期化を比較する。 本研究は,(1)ワイドレスネットのような広帯域ネットワークにおいても,ニューラルネットワークは独自の基盤に収束せず,(2)ネットワークの初期層が同一に凍結された場合,基底相関は著しく増大することを示す。 さらに,ベース相関の尺度として研究されている線形モード接続性の解析を行った。 線形モード接続性はネットワーク幅の増大とともに向上するが,この改善はベース相関の増大によるものではないことを示す。

In this study, we investigate whether the representations learned by neural networks possess a privileged and convergent basis. Specifically, we examine the significance of feature directions represented by individual neurons. First, we establish that arbitrary rotations of neural representations cannot be inverted (unlike linear networks), indicating that they do not exhibit complete rotational invariance. Subsequently, we explore the possibility of multiple bases achieving identical performance. To do this, we compare the bases of networks trained with the same parameters but with varying random initializations. Our study reveals two findings: (1) Even in wide networks such as WideResNets, neural networks do not converge to a unique basis; (2) Basis correlation increases significantly when a few early layers of the network are frozen identically. Furthermore, we analyze Linear Mode Connectivity, which has been studied as a measure of basis correlation. Our findings give evidence that while Linear Mode Connectivity improves with increased network width, this improvement is not due to an increase in basis correlation.
翻訳日:2023-07-25 13:34:09 公開日:2023-07-24
# 高次元平均王問題に対する実験的解法

Experimental Solutions to the High-Dimensional Mean King's Problem ( http://arxiv.org/abs/2307.12938v1 )

ライセンス: Link先を確認
Tareq Jaouni, Xiaoqin Gao, S\"oren Arlt, Mario Krenn, and Ebrahim Karimi(参考訳) 1987年、ヴァイドマン、アハラノフ、アルベルトは量子エンタングルメントを利用するだけで解ける平均王問題(Mean King's Problem, MKP)というパズルを提唱した。 この問題に対する素動力の解が存在することが示されているが、これらは2つ以上の次元で実験的に実現されていない。 本稿では,MKPを素次元(D)で解くための実験手法を提案する。 私たちの検索は、デジタル発見フレームワークpytheusによって導かれ、量子光学実験的なセットアップの高度に解釈可能なグラフベースの表現を見つける。 原理の証明として, 3次元, 5次元, 7次元のケースに対する解法を詳細に検討する。 最大成功確率は72.8%,45.8%,34.8%であった。 したがって、コンピュータにインスパイアされたスキームは古典的確率(1/D)の2倍を超える解を導き、実験的な実装の可能性を実証する。

In 1987, Vaidman, Aharanov, and Albert put forward a puzzle called the Mean King's Problem (MKP) that can be solved only by harnessing quantum entanglement. Prime-powered solutions to the problem have been shown to exist, but they have not yet been experimentally realized for any dimension beyond two. We propose a general first-of-its-kind experimental scheme for solving the MKP in prime dimensions (D). Our search is guided by the digital discovery framework PyTheus, which finds highly interpretable graph-based representations of quantum optical experimental setups; using it, we find specific solutions and generalize to higher dimensions through human insight. As proof of principle, we present a detailed investigation of our solution for the three-, five-, and seven-dimensional cases. We obtain maximum success probabilities of 72.8%, 45.8%, and 34.8%, respectively. We, therefore, posit that our computer-inspired scheme yields solutions that exceed the classical probability (1/D) twofold, demonstrating its promise for experimental implementation.
翻訳日:2023-07-25 13:33:52 公開日:2023-07-24
# 不変変換の教師なし学習

Unsupervised Learning of Invariance Transformations ( http://arxiv.org/abs/2307.12937v1 )

ライセンス: Link先を確認
Aleksandar Vu\v{c}kovi\'c, Benedikt Stock, Alexander V. Hopp, Mathias Winkel, and Helmut Linde(参考訳) 現代の機械学習における大量のトレーニングデータの必要性は、この分野の最大の課題の1つだ。 脳と比較して、現在の人工アルゴリズムは、不変変換を学習し、それを小さなサンプルセットから知識を外挿するために利用する能力がはるかに低い。 近年、脳はシナプス接続のネットワークにおける近似グラフ対称性として知覚の不変性をコードする可能性が示唆されている。 このような対称性は、教師なしのヘビー学習の生物学的に妥当な過程を通じて自然に生じる。 本稿では,この数値例について,特徴検出器ニューロンの層内に形成される再帰的なシナプス接続の構造から,単純なヘビアン学習則によって不変変換を回復できることを示す。 得られた再帰的ネットワークから不変変換を数値的に回収するために、近似グラフ自己同型を求めるための一般的なアルゴリズムフレームワークを開発する。 本稿では,このフレームワークを用いて重み付きグラフの近似自己同型を見つける方法について述べる。

The need for large amounts of training data in modern machine learning is one of the biggest challenges of the field. Compared to the brain, current artificial algorithms are much less capable of learning invariance transformations and employing them to extrapolate knowledge from small sample sets. It has recently been proposed that the brain might encode perceptual invariances as approximate graph symmetries in the network of synaptic connections. Such symmetries may arise naturally through a biologically plausible process of unsupervised Hebbian learning. In the present paper, we illustrate this proposal on numerical examples, showing that invariance transformations can indeed be recovered from the structure of recurrent synaptic connections which form within a layer of feature detector neurons via a simple Hebbian learning rule. In order to numerically recover the invariance transformations from the resulting recurrent network, we develop a general algorithmic framework for finding approximate graph automorphisms. We discuss how this framework can be used to find approximate automorphisms in weighted graphs in general.
翻訳日:2023-07-25 13:33:33 公開日:2023-07-24
# 例によるルール: 説明可能なヘイトスピーチ検出のための論理規則の活用

Rule By Example: Harnessing Logical Rules for Explainable Hate Speech Detection ( http://arxiv.org/abs/2307.12935v1 )

ライセンス: Link先を確認
Christopher Clarke, Matthew Hall, Gaurav Mittal, Ye Yu, Sandra Sajeev, Jason Mars, Mei Chen(参考訳) コンテンツモデレーションに対する古典的なアプローチは通常、コンテンツにフラグを付けるルールベースのヒューリスティックアプローチを適用する。 ルールは人間が容易にカスタマイズでき、直感的に解釈できるが、本質的に脆弱であり、今日オンラインで見られる望ましくないコンテンツの量を減らすのに必要な柔軟性や堅牢さが欠如している。 ディープラーニングの最近の進歩は、これらの課題を克服するために非常に効果的なディープニューラルモデルを使用することの可能性を実証している。 しかしながら、パフォーマンスが向上したにも関わらず、これらのデータ駆動モデルは透明性と説明可能性に欠けており、日々のユーザからの不信や、多くのプラットフォームで採用されていないことが多い。 本稿では,テキストコンテンツモデレーションタスクのための論理規則から学習するための,新しい例題ベースのコントラスト学習手法である rule by example (rbe) を提案する。 rbeはルールに基づく予測を提供し、一般的なディープラーニングベースのアプローチよりも説明可能でカスタマイズ可能な予測を可能にする。 本手法は,少数のデータ例のみを用いてリッチなルール埋め込み表現を学習できることを実証する。 3つの一般的なヘイトスピーチ分類データセットによる実験結果から、RDEは最先端のディープラーニング分類器よりも優れており、教師付きと教師なしの両方の設定におけるルールの使用と、ルールグラウンドによる説明可能なモデル予測を提供する。

Classic approaches to content moderation typically apply a rule-based heuristic approach to flag content. While rules are easily customizable and intuitive for humans to interpret, they are inherently fragile and lack the flexibility or robustness needed to moderate the vast amount of undesirable content found online today. Recent advances in deep learning have demonstrated the promise of using highly effective deep neural models to overcome these challenges. However, despite the improved performance, these data-driven models lack transparency and explainability, often leading to mistrust from everyday users and a lack of adoption by many platforms. In this paper, we present Rule By Example (RBE): a novel exemplar-based contrastive learning approach for learning from logical rules for the task of textual content moderation. RBE is capable of providing rule-grounded predictions, allowing for more explainable and customizable predictions compared to typical deep learning-based approaches. We demonstrate that our approach is capable of learning rich rule embedding representations using only a few data examples. Experimental results on 3 popular hate speech classification datasets show that RBE is able to outperform state-of-the-art deep learning classifiers as well as the use of rules in both supervised and unsupervised settings while providing explainable model predictions via rule-grounding.
翻訳日:2023-07-25 13:33:19 公開日:2023-07-24
# モデルベースプランニングによる理論的に保証された政策改善

Theoretically Guaranteed Policy Improvement Distilled from Model-Based Planning ( http://arxiv.org/abs/2307.12933v1 )

ライセンス: Link先を確認
Chuming Li, Ruonan Jia, Jie Liu, Yinmin Zhang, Yazhe Niu, Yaodong Yang, Yu Liu, Wanli Ouyang(参考訳) モデルベース強化学習(RL)は,高いサンプル効率のため,様々な連続制御タスクにおいて顕著な成功を収めている。 オンラインプランニングの計算コストを抑えるため、最近の実践では、トレーニングフェーズ中に最適化されたアクションシーケンスをRLポリシーに蒸留する傾向にある。 蒸留法は計画の見通しとRL政策の探索能力の両方を組み込むことができるが、これらの方法の理論的理解はまだ分かっていない。 本稿では,モデルベースプランニングから政策への転換アプローチを開発することにより,ソフトアクタ・クリティカル(SAC)の政策改善ステップを拡張する。 次に,このような政策改善のアプローチは,sacで定義される最大値への単調改善と収束を理論的に保証することを示した。 我々は,効率的な設計選択を議論し,その理論を実用的アルゴリズムとして実装する。モデルベースプランニング・ディスタンス・トゥ・ポリシー (MPDP) は,今後の複数のステップで政策を共同で更新する。 拡張実験により,MPDPはMuJoCoの6つの連続制御ベンチマークタスクにおいて,モデルフリーおよびモデルベース計画アルゴリズムよりも優れたサンプル効率と漸近性能が得られることが示された。

Model-based reinforcement learning (RL) has demonstrated remarkable successes on a range of continuous control tasks due to its high sample efficiency. To save the computation cost of conducting planning online, recent practices tend to distill optimized action sequences into an RL policy during the training phase. Although the distillation can incorporate both the foresight of planning and the exploration ability of RL policies, the theoretical understanding of these methods is yet unclear. In this paper, we extend the policy improvement step of Soft Actor-Critic (SAC) by developing an approach to distill from model-based planning to the policy. We then demonstrate that such an approach of policy improvement has a theoretical guarantee of monotonic improvement and convergence to the maximum value defined in SAC. We discuss effective design choices and implement our theory as a practical algorithm -- Model-based Planning Distilled to Policy (MPDP) -- that updates the policy jointly over multiple future time steps. Extensive experiments show that MPDP achieves better sample efficiency and asymptotic performance than both model-free and model-based planning algorithms on six continuous control benchmark tasks in MuJoCo.
翻訳日:2023-07-25 13:32:58 公開日:2023-07-24
# 優先型アクティブクエリによる文脈帯域と模倣学習

Contextual Bandits and Imitation Learning via Preference-Based Active Queries ( http://arxiv.org/abs/2307.12926v1 )

ライセンス: Link先を確認
Ayush Sekhari, Karthik Sridharan, Wen Sun, Runzhe Wu(参考訳) 学習者が実行された行動の報酬に関する直接的な知識を欠く文脈的バンディットと模倣学習の問題を考える。 その代わり、学習者は各ラウンドのエキスパートに積極的に問い合わせて2つのアクションを比較し、ノイズの多い好みのフィードバックを受け取ることができる。 学習者の目的は、実行されたアクションに関連する後悔を最小限に抑えると同時に、専門家が行った比較クエリの数を最小化することである。 本稿では、学習者が適切なリンク関数の下で専門家の選好モデルを表現することができる関数クラスにアクセスし、そのアクションを選択し、いつ問い合わせるかを決定するために、この関数クラスに関してオンライン回帰オラクルを利用するアルゴリズムを提供する。 文脈的バンディット設定では、このアルゴリズムは両世界のベストを合わせた後悔の限界を達成し、$o(\min\{\sqrt{t}, d/\delta\})$、ただし$t$ は相互作用の数を表し、$d$ は関数クラスのeluder次元を表し、$\delta$ はすべてのコンテキストにおける任意の最適アクションに対する最適なアクションの最小の好みを表す。 我々のアルゴリズムは$\Delta$の知識を必要とせず、得られた後悔境界は、学習者が各ラウンドで報酬信号を観測する標準的な文脈的帯域設定で達成できるものに匹敵する。 さらに、このアルゴリズムは専門家に$o(\min\{t, d^2/\delta^2\})$クエリしか行わない。 次に,アルゴリズムを模倣学習環境に拡張し,学習エージェントが未知の環境をそれぞれ長さ$H$のエピソードで処理し,後悔やクエリの複雑さを保証します。 面白いことに、模倣学習のアルゴリズムは、擬似学習における嗜好に基づくフィードバックの実践的な利点を強調して、その基礎となる専門家を上回ることを学べる。

We consider the problem of contextual bandits and imitation learning, where the learner lacks direct knowledge of the executed action's reward. Instead, the learner can actively query an expert at each round to compare two actions and receive noisy preference feedback. The learner's objective is two-fold: to minimize the regret associated with the executed actions, while simultaneously, minimizing the number of comparison queries made to the expert. In this paper, we assume that the learner has access to a function class that can represent the expert's preference model under appropriate link functions, and provide an algorithm that leverages an online regression oracle with respect to this function class for choosing its actions and deciding when to query. For the contextual bandit setting, our algorithm achieves a regret bound that combines the best of both worlds, scaling as $O(\min\{\sqrt{T}, d/\Delta\})$, where $T$ represents the number of interactions, $d$ represents the eluder dimension of the function class, and $\Delta$ represents the minimum preference of the optimal action over any suboptimal action under all contexts. Our algorithm does not require the knowledge of $\Delta$, and the obtained regret bound is comparable to what can be achieved in the standard contextual bandits setting where the learner observes reward signals at each round. Additionally, our algorithm makes only $O(\min\{T, d^2/\Delta^2\})$ queries to the expert. We then extend our algorithm to the imitation learning setting, where the learning agent engages with an unknown environment in episodes of length $H$ each, and provide similar guarantees for regret and query complexity. Interestingly, our algorithm for imitation learning can even learn to outperform the underlying expert, when it is suboptimal, highlighting a practical benefit of preference-based feedback in imitation learning.
翻訳日:2023-07-25 13:32:41 公開日:2023-07-24
# 教師なし人物再同定のためのハードスケルトンマイニングを用いた階層的骨格メタプロトタイプコントラスト学習

Hierarchical Skeleton Meta-Prototype Contrastive Learning with Hard Skeleton Mining for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2307.12917v1 )

ライセンス: Link先を確認
Haocong Rao, Cyril Leung, Chunyan Miao(参考訳) 深度センサーと深度学習の急速な進歩により、骨格に基づく人物再識別(re-ID)モデルは近年、多くの利点で顕著な進歩を遂げている。 既存のソリューションのほとんどは、同一の骨格の重要性を前提として、身体関節から単一レベルの骨格特徴を学習するが、通常、よりグローバルな身体パターンを持つ肢レベルのような様々なレベルからより有用な骨格特徴を活用できない。 これらの手法のラベル依存性は、より一般的な骨格表現を学ぶ際の柔軟性を制限している。 本稿では,HSM(Hard Skeleton Mining)を用いた階層型非教師付きメタプロトタイプコントラストラーニング(Hi-MPC)手法を提案する。 まず,骨格の階層的表現を構築し,身体関節,構成要素,四肢のレベルから体と運動の特徴をモデル化する。 その後、階層的なメタプロトタイプコントラスト学習モデルが提案され、異なるレベルの骨格から最も典型的な骨格の特徴(プロトタイプ)をクラスタリングし、対比する。 原原型を複数の同種変換を伴うメタプロトタイプに変換することにより,原型固有の一貫性を学習し,人体再IDのより効果的な骨格特徴を捉える。 さらに, 各骨格の情報的重要性を適応的に推測し, より識別的な骨格表現を学習するために, 硬い骨格のマイニング機構を考案した。 5つのデータセットに関する広範な評価は、我々のアプローチが様々な最先端のスケルトンベース手法よりも優れていることを示している。 さらに,本手法が推定骨格を用いたクロスビューパーソン・リIDとRGBベースのシナリオに適用可能であることを示す。

With rapid advancements in depth sensors and deep learning, skeleton-based person re-identification (re-ID) models have recently achieved remarkable progress with many advantages. Most existing solutions learn single-level skeleton features from body joints with the assumption of equal skeleton importance, while they typically lack the ability to exploit more informative skeleton features from various levels such as limb level with more global body patterns. The label dependency of these methods also limits their flexibility in learning more general skeleton representations. This paper proposes a generic unsupervised Hierarchical skeleton Meta-Prototype Contrastive learning (Hi-MPC) approach with Hard Skeleton Mining (HSM) for person re-ID with unlabeled 3D skeletons. Firstly, we construct hierarchical representations of skeletons to model coarse-to-fine body and motion features from the levels of body joints, components, and limbs. Then a hierarchical meta-prototype contrastive learning model is proposed to cluster and contrast the most typical skeleton features ("prototypes") from different-level skeletons. By converting original prototypes into meta-prototypes with multiple homogeneous transformations, we induce the model to learn the inherent consistency of prototypes to capture more effective skeleton features for person re-ID. Furthermore, we devise a hard skeleton mining mechanism to adaptively infer the informative importance of each skeleton, so as to focus on harder skeletons to learn more discriminative skeleton representations. Extensive evaluations on five datasets demonstrate that our approach outperforms a wide variety of state-of-the-art skeleton-based methods. We further show the general applicability of our method to cross-view person re-ID and RGB-based scenarios with estimated skeletons.
翻訳日:2023-07-25 13:32:05 公開日:2023-07-24
# 合意に基づく正当性のための参加予算化:マルチエージェント強化学習による意思決定支援

Consensus-based Participatory Budgeting for Legitimacy: Decision Support via Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2307.12915v1 )

ライセンス: Link先を確認
Srijoni Majumdar and Evangelos Pournaras(参考訳) 政策立案者による公的資金の分配に対するボトムアップ民主的プロセスの正当性は困難で複雑である。 参加予算はそのようなプロセスであり、投票結果が必ずしも公平あるいは包括的であるとは限らない。 投票のためにプロジェクトアイデアを提出し、実装を選択するための検討では、体系化が欠如し、スケールしない。 本稿では,新規かつ合法的なコンセンサスに基づく参加型予算プロセスを導入することで,これらの課題に対処する。 コンセンサスは、革新的なマルチエージェント強化学習アプローチによる意思決定支援の結果として設計されている。 投票者はお互いに対話し、有効な妥協を行うのを助ける。 ポーランドの実際の参加型予算データによる大規模な実験的評価は、顕著な結果を示している。 妥協は必要であり、合意を得ることなく公平性と包括性を促進する既存の投票集計方法に匹敵するものである。

The legitimacy of bottom-up democratic processes for the distribution of public funds by policy-makers is challenging and complex. Participatory budgeting is such a process, where voting outcomes may not always be fair or inclusive. Deliberation for which project ideas to put for voting and choose for implementation lack systematization and do not scale. This paper addresses these grand challenges by introducing a novel and legitimate iterative consensus-based participatory budgeting process. Consensus is designed to be a result of decision support via an innovative multi-agent reinforcement learning approach. Voters are assisted to interact with each other to make viable compromises. Extensive experimental evaluation with real-world participatory budgeting data from Poland reveal striking findings: Consensus is reachable, efficient and robust. Compromise is required, which is though comparable to the one of existing voting aggregation methods that promote fairness and inclusion without though attaining consensus.
翻訳日:2023-07-25 13:31:36 公開日:2023-07-24
# 計算病理学のための視覚言語基礎モデルに向けて

Towards a Visual-Language Foundation Model for Computational Pathology ( http://arxiv.org/abs/2307.12914v1 )

ライセンス: Link先を確認
Ming Y. Lu, Bowen Chen, Drew F. K. Williamson, Richard J. Chen, Ivy Liang, Tong Ding, Guillaume Jaume, Igor Odintsov, Andrew Zhang, Long Phi Le, Georg Gerber, Anil V Parwani, Faisal Mahmood(参考訳) デジタル病理学の急速な普及とディープラーニングの進歩により、様々な疾患や患者コホートにまたがる様々な病理タスクの強力なモデルの開発が可能となった。 しかし、医療領域におけるラベル不足のため、モデルのトレーニングは困難であり、モデルの使用は、訓練される特定のタスクや病気によって制限される。 さらに、ほとんどの病理学モデルは画像データのみを利用しており、ヒトが互いに教え合う方法と、病理学の実体について推論する手法とは対照的である。 本稿では, 様々な組織像, バイオメディカルテキスト, タスク非依存の事前学習による117万枚以上の画像キャプチャーペアを用いた視覚言語基盤モデルであるContrastive Learning from Captions for Histopathology (CONCH)を紹介する。 13の多様なベンチマークで評価されたconchは、病理組織像とテキストの両方を含む幅広い下流タスクに転送でき、組織像の分類、セグメンテーション、キャプション、テキスト対テキスト検索、画像対テキスト検索の最先端のパフォーマンスを達成している。 CONCHは、病理学のための並行的な視覚言語事前訓練システムに対する大きな飛躍であり、最小またはそれ以上の教師付き微調整を必要とする機械学習ベースのワークフローを直接的に促進する可能性がある。

The accelerated adoption of digital pathology and advances in deep learning have enabled the development of powerful models for various pathology tasks across a diverse array of diseases and patient cohorts. However, model training is often difficult due to label scarcity in the medical domain and the model's usage is limited by the specific task and disease for which it is trained. Additionally, most models in histopathology leverage only image data, a stark contrast to how humans teach each other and reason about histopathologic entities. We introduce CONtrastive learning from Captions for Histopathology (CONCH), a visual-language foundation model developed using diverse sources of histopathology images, biomedical text, and notably over 1.17 million image-caption pairs via task-agnostic pretraining. Evaluated on a suite of 13 diverse benchmarks, CONCH can be transferred to a wide range of downstream tasks involving either or both histopathology images and text, achieving state-of-the-art performance on histology image classification, segmentation, captioning, text-to-image and image-to-text retrieval. CONCH represents a substantial leap over concurrent visual-language pretrained systems for histopathology, with the potential to directly facilitate a wide array of machine learning-based workflows requiring minimal or no further supervised fine-tuning.
翻訳日:2023-07-25 13:31:22 公開日:2023-07-24
# 非ガウスフェルミオン回路の古典シミュレーション

Classical simulation of non-Gaussian fermionic circuits ( http://arxiv.org/abs/2307.12912v1 )

ライセンス: Link先を確認
Beatriz Dias and Robert Koenig(参考訳) 非ガウス初期状態に適用したフェルミオン線形光学演算を古典的にシミュレートする効率的なアルゴリズムを提案する。 ガジェット構成により、非ガウス演算を持つフェルミオン線型光学のアルゴリズムを提供する。 この問題は、クリフォード回路を非安定化器初期状態でシミュレートするのと類似していると主張する: 後者の問題のアルゴリズムは直ちにフェルミオン設定に変換する。 我々の構成は、ガウス状態の重ね合わせにおける相対位相を効率的に追跡できる共分散行列形式の拡張に基づいている。 これにより、フェルミオン数、所望の精度、初期状態の非ガウス性度をキャプチャするある量の多項式複雑性を持つシミュレーションアルゴリズムが得られる。 そのような量であるフェルミオンガウスの程度を研究し、いわゆるフェルミオンガウスの忠実度がテンソル積に乗算可能であることを示す。 正のパリティを持つ4つのフェルミオンの2つの任意の純粋状態のテンソル積に対するこの性質を定式化する。

We propose efficient algorithms for classically simulating fermionic linear optics operations applied to non-Gaussian initial states. By gadget constructions, this provides algorithms for fermionic linear optics with non-Gaussian operations. We argue that this problem is analogous to that of simulating Clifford circuits with non-stabilizer initial states: Algorithms for the latter problem immediately translate to the fermionic setting. Our construction is based on an extension of the covariance matrix formalism which permits to efficiently track relative phases in superpositions of Gaussian states. It yields simulation algorithms with polynomial complexity in the number of fermions, the desired accuracy, and certain quantities capturing the degree of non-Gaussianity of the initial state. We study one such quantity, the fermionic Gaussian extent, and show that it is multiplicative on tensor products when the so-called fermionic Gaussian fidelity is. We establish this property for the tensor product of two arbitrary pure states of four fermions with positive parity.
翻訳日:2023-07-25 13:30:57 公開日:2023-07-24
# ビッグデータ - 予測のためのサプライチェーン管理フレームワーク: データ前処理と機械学習技術

Big Data - Supply Chain Management Framework for Forecasting: Data Preprocessing and Machine Learning Techniques ( http://arxiv.org/abs/2307.12971v1 )

ライセンス: Link先を確認
Md Abrar Jahin, Md Sakib Hossain Shovon, Jungpil Shin, Istiyaque Ahmed Ridoy, Yoichi Tomioka, M. F. Mridha(参考訳) 本稿は,最先端サプライチェーン(sc)の予測戦略と技術を体系的に同定し,比較分析することを目的とする。 sc管理(problem identification, data sources, exploratory data analysis, machine-learning model training, hyperparameter tuning, performance evaluation, and optimization)にビッグデータ分析(problem identification, data sources, exploratory data analysis, machine-learning model training, hyperparameter tuning, performance evaluation, and optimization)を組み込んだ新しいフレームワークが提案されている。 当初、sc戦略に従ってデータを収集する必要性と収集方法が議論されてきた。 本稿は、期間やSCの目的に応じて異なるタイプの予測の必要性について論じる。 SC KPIとエラー測定システムは、最高性能モデルを最適化するために推奨されている。 モデル性能パラメータの決定と運用管理,透明性,計画効率の向上のために,ファントム在庫の予測および管理決定のSC KPIへの依存に対する悪影響を概説した。 フレームワーク内の循環接続は、プロセス後KPIに基づいて前処理の最適化を導入し、全体的な制御プロセス(発明的管理、労働決定、コスト、生産、容量計画)を最適化する。 この研究の貢献は、標準のSCプロセスフレームワークの提案、予測データ分析の推奨、SCパフォーマンスの予測効果、機械学習アルゴリズムの最適化、そして将来の研究への光の遮蔽にある。

This article intends to systematically identify and comparatively analyze state-of-the-art supply chain (SC) forecasting strategies and technologies. A novel framework has been proposed incorporating Big Data Analytics in SC Management (problem identification, data sources, exploratory data analysis, machine-learning model training, hyperparameter tuning, performance evaluation, and optimization), forecasting effects on human-workforce, inventory, and overall SC. Initially, the need to collect data according to SC strategy and how to collect them has been discussed. The article discusses the need for different types of forecasting according to the period or SC objective. The SC KPIs and the error-measurement systems have been recommended to optimize the top-performing model. The adverse effects of phantom inventory on forecasting and the dependence of managerial decisions on the SC KPIs for determining model performance parameters and improving operations management, transparency, and planning efficiency have been illustrated. The cyclic connection within the framework introduces preprocessing optimization based on the post-process KPIs, optimizing the overall control process (inventory management, workforce determination, cost, production and capacity planning). The contribution of this research lies in the standard SC process framework proposal, recommended forecasting data analysis, forecasting effects on SC performance, machine learning algorithms optimization followed, and in shedding light on future research.
翻訳日:2023-07-25 13:25:14 公開日:2023-07-24
# Pix2Pixに基づく人工知能による火山灰の堆積

Volcanic ash delimitation using Artificial Intelligence based on Pix2Pix ( http://arxiv.org/abs/2307.12970v1 )

ライセンス: Link先を確認
Christian Carrillo, Gissela Torres, Christian Mejia-Escobar(参考訳) 火山噴火は、人間の健康に有害な灰を放出し、インフラ、経済活動、環境に損傷を与える。 灰雲の昇華により、その挙動や分散を知ることができ、この現象の防止と緩和に役立つ。 従来の方法では、衛星画像を構成するバンドやチャネルを処理する特別なソフトウェアプログラムを利用する。 しかし、それらの用途は専門家に限られており、多くの時間と重要な計算資源を必要とする。 近年、人工知能は様々な領域における複雑な問題の計算処理におけるマイルストーンとなっている。 特にディープラーニング技術は、デジタル画像の自動的、高速、高精度な処理を可能にする。 本研究は、入力画像のマッピングを学習して出力画像を生成する、生成的敵ネットワークの一種であるPix2Pixモデルの使用を提案する。 発電機と判別器からなるネットワークのアーキテクチャは、マルチスペクトル衛星画像から白黒の灰雲画像を生成するのに必要な汎用性を提供する。 本モデルの評価は, 損失と精度プロット, 混乱行列, 視覚検査に基づいて, 世界のどの地域においても適用可能な, 正確な灰雲配置のための十分な解を示し, リスク管理に有用なツールとなる。

Volcanic eruptions emit ash that can be harmful to human health and cause damage to infrastructure, economic activities and the environment. The delimitation of ash clouds allows to know their behavior and dispersion, which helps in the prevention and mitigation of this phenomenon. Traditional methods take advantage of specialized software programs to process the bands or channels that compose the satellite images. However, their use is limited to experts and demands a lot of time and significant computational resources. In recent years, Artificial Intelligence has been a milestone in the computational treatment of complex problems in different areas. In particular, Deep Learning techniques allow automatic, fast and accurate processing of digital images. The present work proposes the use of the Pix2Pix model, a type of generative adversarial network that, once trained, learns the mapping of input images to output images. The architecture of such a network consisting of a generator and a discriminator provides the versatility needed to produce black and white ash cloud images from multispectral satellite images. The evaluation of the model, based on loss and accuracy plots, a confusion matrix, and visual inspection, indicates a satisfactory solution for accurate ash cloud delineation, applicable in any area of the world and becomes a useful tool in risk management.
翻訳日:2023-07-25 13:24:47 公開日:2023-07-24
# 強化学習における一段階正規化と批判正規化の関連

A Connection between One-Step Regularization and Critic Regularization in Reinforcement Learning ( http://arxiv.org/abs/2307.12968v1 )

ライセンス: Link先を確認
Benjamin Eysenbach, Matthieu Geist, Sergey Levine, Ruslan Salakhutdinov(参考訳) 制限されたデータを持つ機械学習問題と同様に、効果的なオフラインrlアルゴリズムはオーバーフィットを避けるために注意深い正規化を必要とする。 一段階法は政策改善の一段階のみを行ない、批判的正則化法は政策改善の多段階を規則化された目的で行う。 これらの方法は別物である。 アドバンテージ重み付け回帰や条件付き行動クローニングのようなワンステップメソッドは、ほんの1ステップでポリシーイテレーションを中断する。 この ``early stop'' はワンステップrlをシンプルで安定させるが、漸近的な性能を制限することができる。 批判的正規化は通常、より多くの計算を必要とするが、低いバウンド保証をアピールする。 本稿では,これらの手法の密接な関係を描いている: 1 の正規化係数を持つ多段階批判正規化法を適用すると,一段階 RL と同じ方針が得られる。 実用的実装は仮定に反し、批判正則化は通常より小さな正規化係数で適用されるが、我々の実験は、我々の分析が一般的に使用されるハイパーパラメータを用いた実用的なオフラインRL法(CQLおよびワンステップRL)について正確かつ検証可能な予測を行うことを示している。 以上の結果から, 政策改善の一段階ですべての問題を解くことができるが, より強い正則化を求めるRL問題に対する批判正則化とは一段階RLが競合する可能性がある。

As with any machine learning problem with limited data, effective offline RL algorithms require careful regularization to avoid overfitting. One-step methods perform regularization by doing just a single step of policy improvement, while critic regularization methods do many steps of policy improvement with a regularized objective. These methods appear distinct. One-step methods, such as advantage-weighted regression and conditional behavioral cloning, truncate policy iteration after just one step. This ``early stopping'' makes one-step RL simple and stable, but can limit its asymptotic performance. Critic regularization typically requires more compute but has appealing lower-bound guarantees. In this paper, we draw a close connection between these methods: applying a multi-step critic regularization method with a regularization coefficient of 1 yields the same policy as one-step RL. While practical implementations violate our assumptions and critic regularization is typically applied with smaller regularization coefficients, our experiments nevertheless show that our analysis makes accurate, testable predictions about practical offline RL methods (CQL and one-step RL) with commonly-used hyperparameters. Our results that every problem can be solved with a single step of policy improvement, but rather that one-step RL might be competitive with critic regularization on RL problems that demand strong regularization.
翻訳日:2023-07-25 13:24:28 公開日:2023-07-24
# 写真とスケッチ間の距離対応学習

Learning Dense Correspondences between Photos and Sketches ( http://arxiv.org/abs/2307.12967v1 )

ライセンス: Link先を確認
Xuanchen Lu, Xiaolong Wang, Judith E Fan(参考訳) 人間は、スケッチと現実世界のオブジェクトの関連性を、たとえこれらのスケッチが現実的ではないとしても、しっかりと把握します。 重要なのは、スケッチ内の個々の要素が、それが表現する物理的な世界の一部とどのように対応しているかを理解することです。 この能力を支えるのに必要な計算要素は何ですか。 まず、125のオブジェクトカテゴリにまたがる6250のスケッチ-写真ペアの150kアノテーションを含む、新しいスケッチ-写真対応ベンチマークである$\textit{psc6k}$を導入し、既存のsketchyデータセットに詳細な対応メタデータを追加します。 第2に,スケッチ・フォト・ペア間の密接な対応を学習するための自己教師型手法を提案する。 提案モデルでは,空間トランスフォーマーネットワークを用いて,スケッチの潜在表現とコントラスト学習ベースのConvNetバックボーンから抽出した写真のワープフローを推定する。 このアプローチはいくつかの強いベースラインより優れており、他のワープ法と定量的に一致した予測が得られた。 しかし、我々のベンチマークでは、テストしたモデル群と人間の予測の体系的な違いも明らかになった。 本研究は,抽象度の異なる視覚イメージをより人間らしく理解する人工システム開発に向けた,有望な道筋を示唆するものである。 プロジェクトページ: https://photo-sketch-correspondence.github.io

Humans effortlessly grasp the connection between sketches and real-world objects, even when these sketches are far from realistic. Moreover, human sketch understanding goes beyond categorization -- critically, it also entails understanding how individual elements within a sketch correspond to parts of the physical world it represents. What are the computational ingredients needed to support this ability? Towards answering this question, we make two contributions: first, we introduce a new sketch-photo correspondence benchmark, $\textit{PSC6k}$, containing 150K annotations of 6250 sketch-photo pairs across 125 object categories, augmenting the existing Sketchy dataset with fine-grained correspondence metadata. Second, we propose a self-supervised method for learning dense correspondences between sketch-photo pairs, building upon recent advances in correspondence learning for pairs of photos. Our model uses a spatial transformer network to estimate the warp flow between latent representations of a sketch and photo extracted by a contrastive learning-based ConvNet backbone. We found that this approach outperformed several strong baselines and produced predictions that were quantitatively consistent with other warp-based methods. However, our benchmark also revealed systematic differences between predictions of the suite of models we tested and those of humans. Taken together, our work suggests a promising path towards developing artificial systems that achieve more human-like understanding of visual images at different levels of abstraction. Project page: https://photo-sketch-correspondence.github.io
翻訳日:2023-07-25 13:24:03 公開日:2023-07-24
# 人間による大規模言語モデルのアライメント:調査

Aligning Large Language Models with Human: A Survey ( http://arxiv.org/abs/2307.12966v1 )

ライセンス: Link先を確認
Yufei Wang, Wanjun Zhong, Liangyou Li, Fei Mi, Xingshan Zeng, Wenyong Huang, Lifeng Shang, Xin Jiang, Qun Liu(参考訳) 広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。 その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に不正確な(幻覚的な)情報を生成するなど、一定の制限を受ける傾向がある。 したがって、LLMと人間の期待の一致は、研究コミュニティの中で活発な関心領域となっている。 本稿では,これらのアライメント技術の包括的概要について概観する。 1)データ収集:NLPベンチマーク,人間のアノテーション,強力なLCMの活用など,LCMアライメントのための高品質な命令を効果的に収集する手法。 2) トレーニング方法論: LLMアライメントに使用される一般的なトレーニング手法の詳細なレビュー。 調査では、オンラインとオフラインの両方の人間の嗜好トレーニングとパラメータ効率のトレーニングメカニズムについて調べる。 3) モデル評価: これらの人間協調型llmの有効性を評価するための手法であり、その評価に対する多面的アプローチを示す。 結論として,本研究の成果を合理化して蒸留し,将来有望な研究経路に光を当てる。 したがって、この調査は、人間指向のタスクや期待に合うように、LLMのアライメントを理解し、前進させることに投資する人にとって、貴重なリソースとなる。 最新の論文を収集するGitHubリンクはhttps://github.com/GaryYufei/AlignLLMHumanSurveyで公開されている。

Large Language Models (LLMs) trained on extensive textual corpora have emerged as leading solutions for a broad array of Natural Language Processing (NLP) tasks. Despite their notable performance, these models are prone to certain limitations such as misunderstanding human instructions, generating potentially biased content, or factually incorrect (hallucinated) information. Hence, aligning LLMs with human expectations has become an active area of interest within the research community. This survey presents a comprehensive overview of these alignment technologies, including the following aspects. (1) Data collection: the methods for effectively collecting high-quality instructions for LLM alignment, including the use of NLP benchmarks, human annotations, and leveraging strong LLMs. (2) Training methodologies: a detailed review of the prevailing training methods employed for LLM alignment. Our exploration encompasses Supervised Fine-tuning, both Online and Offline human preference training, along with parameter-efficient training mechanisms. (3) Model Evaluation: the methods for evaluating the effectiveness of these human-aligned LLMs, presenting a multifaceted approach towards their assessment. In conclusion, we collate and distill our findings, shedding light on several promising future research avenues in the field. This survey, therefore, serves as a valuable resource for anyone invested in understanding and advancing the alignment of LLMs to better suit human-oriented tasks and expectations. An associated GitHub link collecting the latest papers is available at https://github.com/GaryYufei/AlignLLMHumanSurvey.
翻訳日:2023-07-25 13:23:39 公開日:2023-07-24
# テキスト条件特徴アライメントを用いた音声強調テキスト間検索

Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment ( http://arxiv.org/abs/2307.12964v1 )

ライセンス: Link先を確認
Sarah Ibrahimi, Xiaohang Sun, Pichao Wang, Amanmeet Garg, Ashutosh Sanan, Mohamed Omar(参考訳) 近年,大規模な画像テキストペアで訓練された事前学習モデルを利用することで,テキスト間検索システムに大きな進歩を遂げている。 しかし、最新の手法のほとんどは、オーディオ信号を無視しながら、主にビデオモダリティに焦点を当てている。 それでもECLIPSEによる最近の進歩は、音声視覚映像表現を開発することによって、長距離テキスト・ビデオ検索を改善している。 それにもかかわらず、テキスト対ビデオ検索タスクの目的は、単により良いオーディオとビデオアライメントを達成するのではなく、テキストクエリに関連する補完的なオーディオとビデオ情報をキャプチャすることである。 この問題に対処するために,テキストクエリに条件付き音声とビデオの表現を生成するTExt条件のFeature ALignment法であるTEFALを導入する。 本手法では,テキストクエリに関連する音声情報を抑圧するオーディオ視覚的アテンションブロックのみを使用する代わりに,2つの独立したモーダルなアテンションブロックを用いて,テキストが音声とビデオの表現に別々に出席できるようにする。 提案手法の有効性は, MSR-VTT, LSMDC, VATEX, Charades の4つのベンチマークデータセットで実証され, 4つのデータセット間での最先端性能よりも優れていた。 これは、テキストクェリ条件付き音声表現の追加と、テキストクェリ条件付きビデオ表現に追加される補完情報に起因している。

Text-to-video retrieval systems have recently made significant progress by utilizing pre-trained models trained on large-scale image-text pairs. However, most of the latest methods primarily focus on the video modality while disregarding the audio signal for this task. Nevertheless, a recent advancement by ECLIPSE has improved long-range text-to-video retrieval by developing an audiovisual video representation. Nonetheless, the objective of the text-to-video retrieval task is to capture the complementary audio and video information that is pertinent to the text query rather than simply achieving better audio and video alignment. To address this issue, we introduce TEFAL, a TExt-conditioned Feature ALignment method that produces both audio and video representations conditioned on the text query. Instead of using only an audiovisual attention block, which could suppress the audio information relevant to the text query, our approach employs two independent cross-modal attention blocks that enable the text to attend to the audio and video representations separately. Our proposed method's efficacy is demonstrated on four benchmark datasets that include audio: MSR-VTT, LSMDC, VATEX, and Charades, and achieves better than state-of-the-art performance consistently across the four datasets. This is attributed to the additional text-query-conditioned audio representation and the complementary information it adds to the text-query-conditioned video representation.
翻訳日:2023-07-25 13:23:15 公開日:2023-07-24
# Floquetによるホロノミック量子コンピューティングのための非アベリア幾何学位相の実証

Demonstration of Floquet engineered non-Abelian geometric phase for holonomic quantum computing ( http://arxiv.org/abs/2307.12957v1 )

ライセンス: Link先を確認
Logan W. Cooke, Arina Tashchilina, Mason Protter, Joseph Lindon, Tian Ooi, Frank Marsiglio, Joseph Maciejko, Lindsay J. LeBlanc(参考訳) ホロノミック量子コンピューティング(HQC)は、制御-パラメータ空間における閉ループの周囲の計算状態の断熱的に退化した多様体を輸送することによって機能する。 必要な縮退を実現することは困難であり、通常補助レベルや中間レベル結合を必要とする。 これを回避する可能性の1つは、非退化ハミルトニアンの周期的駆動がフロッケバンドを退化させ、その後非アーベルゲージ構造が出現するフロッケ工学である。 ここでは、極低温の$^{87}$Rb原子において、原子スピン状態が変調されたRF場によって着飾られ、完全に調整可能なパラメータ空間で連結されたハミルトン系の周期的駆動を誘導する実験を示す。 このパラメータ空間を通した断熱運動は、非アベリア接続によって特徴づけられる$SU(2)$の縮退スピン状態のホロノミック進化をもたらす。 背景磁場の存在下でのスピン固有状態のホロノミック変換の研究を行い、これらのゲート操作の忠実性を特徴付ける。 Floquetのエンジニアリング技術は、明示的な退化の必要性を排除しているが、退化系に存在する同様の制限の多くを継承している。

Holonomic quantum computing (HQC) functions by transporting an adiabatically degenerate manifold of computational states around a closed loop in a control-parameter space; this cyclic evolution results in a non-Abelian geometric phase which may couple states within the manifold. Realizing the required degeneracy is challenging, and typically requires auxiliary levels or intermediate-level couplings. One potential way to circumvent this is through Floquet engineering, where the periodic driving of a nondegenerate Hamiltonian leads to degenerate Floquet bands, and subsequently non-Abelian gauge structures may emerge. Here we present an experiment in ultracold $^{87}$Rb atoms where atomic spin states are dressed by modulated RF fields to induce periodic driving of a family of Hamiltonians linked through a fully tuneable parameter space. The adiabatic motion through this parameter space leads to the holonomic evolution of the degenerate spin states in $SU(2)$, characterized by a non-Abelian connection. We study the holonomic transformations of spin eigenstates in the presence of a background magnetic field, characterizing the fidelity of these gate operations. Results indicate that while the Floquet engineering technique removes the need for explicit degeneracies, it inherits many of the same limitations present in degenerate systems.
翻訳日:2023-07-25 13:22:50 公開日:2023-07-24
# RLCD:言語モデルアライメントのためのコントラスト蒸留による強化学習

RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment ( http://arxiv.org/abs/2307.12950v1 )

ライセンス: Link先を確認
Kevin Yang, Dan Klein, Asli Celikyilmaz, Nanyun Peng, Yuandong Tian(参考訳) 人間のフィードバックを使わずに自然言語の原則に従うために言語モデルを整合させる手法であるReinforcement Learning from Contrast Distillation (RLCD)を提案する。 RLCDは、比較正と負のプロンプトを用いて生成された高品質と低品質の両方の例を含むシミュレーションされた選好ペアを使用して、選好モデルを訓練する。 選好モデルは強化学習を通じて基本不整合言語モデルを改善するために使われる。 RLCD は RLAIF (Bai et al., 2022b) とコンテキスト蒸留 (Huang et al., 2022) を3つの多彩なアライメントタスク – 無害性, 有用性, ストーリーアウトライン生成 – で上回り, および 7B モデルと 30B モデルの両方で優先データシミュレーションを行う。

We propose Reinforcement Learning from Contrast Distillation (RLCD), a method for aligning language models to follow natural language principles without using human feedback. RLCD trains a preference model using simulated preference pairs that contain both a high-quality and low-quality example, generated using contrasting positive and negative prompts. The preference model is then used to improve a base unaligned language model via reinforcement learning. Empirically, RLCD outperforms RLAIF (Bai et al., 2022b) and context distillation (Huang et al., 2022) baselines across three diverse alignment tasks--harmlessness, helpfulness, and story outline generation--and on both 7B and 30B model scales for preference data simulation.
翻訳日:2023-07-25 13:22:27 公開日:2023-07-24
# データ生成と強化学習による句読点復元の促進

Boosting Punctuation Restoration with Data Generation and Reinforcement Learning ( http://arxiv.org/abs/2307.12949v1 )

ライセンス: Link先を確認
Viet Dac Lai, Abel Salinas, Hao Tan, Trung Bui, Quan Tran, Seunghyun Yoon, Hanieh Deilamsalehy, Franck Dernoncourt, Thien Huu Nguyen(参考訳) ASRテキストの構文構造を復元し、可読性を向上させることを目的とした自動音声認識(ASR)において、振れ回復は重要な課題である。 句読上げテキストは文書から豊富であるが,句読上げテキストとasrテキストとの相違は,asrテキストの句読上げ復元システムの訓練において,文章の使用性に制限がある。 本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。 実験により, 句読点復元のための2つのベンチマークデータセットを用いたASR試験において, 最先端の性能が得られた。

Punctuation restoration is an important task in automatic speech recognition (ASR) which aim to restore the syntactic structure of generated ASR texts to improve readability. While punctuated texts are abundant from written documents, the discrepancy between written punctuated texts and ASR texts limits the usability of written texts in training punctuation restoration systems for ASR texts. This paper proposes a reinforcement learning method to exploit in-topic written texts and recent advances in large pre-trained generative language models to bridge this gap. The experiments show that our method achieves state-of-the-art performance on the ASR test set on two benchmark datasets for punctuation restoration.
翻訳日:2023-07-25 13:22:04 公開日:2023-07-24
# 距離ディキンウォークによるpsdコーンの効率的なサンプリング

Efficiently Sampling the PSD Cone with the Metric Dikin Walk ( http://arxiv.org/abs/2307.12943v1 )

ライセンス: Link先を確認
Yunbum Kook, Santosh S. Vempala(参考訳) 半定義プログラムは効率的な計算のフロンティアを表す。 半定値最適化には多くの進歩があり、中程度のインスタンスは、現在インテリアポイント法で解決可能であるが、半定値解をサンプリングする基本的な問題は、依然として非常に難しい課題である。 一般凸体をサンプリングするための既知の多項式時間アルゴリズムの半定サンプリングへの直接適用は、極めて高い実行時間をもたらす。 さらに、既知の一般的な方法は、前処理として高価な丸めフェーズを必要とする。 ここではダイキンウォークを分析し、まず一般的なメトリクスに適応し、次にアフィン制約のあるpsdコーンに適したメトリクスを考案する。 結果として生じる混合時間とステップ毎の複雑さはかなり小さく、計量の適切な選択により、制約数への依存を多元対数化することができる。 自己調和行列関数の洗練された概念を導入し、異なるメトリクスを組み合わせるためのルールを与える。 その過程で, サンプリングのための内点法の理論をさらに発展させる。

Semi-definite programs represent a frontier of efficient computation. While there has been much progress on semi-definite optimization, with moderate-sized instances currently solvable in practice by the interior-point method, the basic problem of sampling semi-definite solutions remains a formidable challenge. The direct application of known polynomial-time algorithms for sampling general convex bodies to semi-definite sampling leads to a prohibitively high running time. In addition, known general methods require an expensive rounding phase as pre-processing. Here we analyze the Dikin walk, by first adapting it to general metrics, then devising suitable metrics for the PSD cone with affine constraints. The resulting mixing time and per-step complexity are considerably smaller, and by an appropriate choice of the metric, the dependence on the number of constraints can be made polylogarithmic. We introduce a refined notion of self-concordant matrix functions and give rules for combining different metrics. Along the way, we further develop the theory of interior-point methods for sampling.
翻訳日:2023-07-25 13:21:53 公開日:2023-07-24
# parallel $q$-learning: 超並列シミュレーションによるオフポリシー強化学習のスケーリング

Parallel $Q$-Learning: Scaling Off-policy Reinforcement Learning under Massively Parallel Simulation ( http://arxiv.org/abs/2307.12983v1 )

ライセンス: Link先を確認
Zechu Li, Tao Chen, Zhang-Wei Hong, Anurag Ajay, Pulkit Agrawal(参考訳) 強化学習は、大量のトレーニングデータを必要とするため、複雑なタスクに時間を要する。 アイザック・ギムのようなGPUベースのシミュレーションの最近の進歩は、コモディティGPU上で何千回もデータを収集している。 これまでのほとんどの作業では、単純さとスケーリングの容易さから、PPOのような政治手法を使用していました。 オフポリシーメソッドの方がデータ効率が良いが、スケールが難しいため、ウォールクロックのトレーニング時間が長くなる。 本稿では,オフ・ポリティカル・ラーニングの優れたサンプル・効率を維持しつつ,壁時計時間におけるppoを上回る並列$q$-learning (pql)スキームを提案する。 PQLは、データ収集、ポリシ学習、バリュー学習を並列化する。 apexのような分散オフポリシー学習の先行研究とは異なり、このスキームはgpuベースの超並列シミュレーション用に特別に設計されており、1つのワークステーションで動作するように最適化されている。 実験では、$Q$-learning を \textit{tens of thousands 並列環境にスケールできることを示し、学習速度に影響を及ぼす重要な要因について検討した。 コードはhttps://github.com/Improbable-AI/pqlで入手できる。

Reinforcement learning is time-consuming for complex tasks due to the need for large amounts of training data. Recent advances in GPU-based simulation, such as Isaac Gym, have sped up data collection thousands of times on a commodity GPU. Most prior works used on-policy methods like PPO due to their simplicity and ease of scaling. Off-policy methods are more data efficient but challenging to scale, resulting in a longer wall-clock training time. This paper presents a Parallel $Q$-Learning (PQL) scheme that outperforms PPO in wall-clock time while maintaining superior sample efficiency of off-policy learning. PQL achieves this by parallelizing data collection, policy learning, and value learning. Different from prior works on distributed off-policy learning, such as Apex, our scheme is designed specifically for massively parallel GPU-based simulation and optimized to work on a single workstation. In experiments, we demonstrate that $Q$-learning can be scaled to \textit{tens of thousands of parallel environments} and investigate important factors affecting learning speed. The code is available at https://github.com/Improbable-AI/pql.
翻訳日:2023-07-25 13:14:39 公開日:2023-07-24
# AIC型基準によるスパイクウィグナーモデルの一貫性モデル選択

Consistent model selection in the spiked Wigner model via AIC-type criteria ( http://arxiv.org/abs/2307.12982v1 )

ライセンス: Link先を確認
Soumendu Sundar Mukherjee(参考訳) スパイクウィグナーモデル \[x = \sum_{i = 1}^k \lambda_i u_i u_i^\top + \sigma g, \] ここで$g$ は$n \times n$ goe ランダム行列であり、固有値 $\lambda_i$ はすべてスパイクであり、つまり baik-ben arous-p\'ech\'e (bbp) しきい値 $\sigma$ である。 スパイク数$k$を推定するために、AIC型のモデル選択基準として \[[ -2 \, (\text{maximised log-likelihood}) + \gamma \, (\text{number of parameters}) \] を考える。 $\lambda_k > \lambda_{\gamma}$ の場合、$\lambda_{\gamma}$ は BBP しきい値より厳密に高いしきい値であるが、$\gamma < 2$ の場合、ほぼ確実に$k$ を過大評価する。 AIC ($\gamma = 2$) は強い整合性はないが、$\gamma = 2 + \delta_N$ を取ると、$\delta_N \to 0$ と $\delta_N \gg N^{-2/3}$ とすると、$k$ の弱一貫した推定値が得られる。 また、AICのソフトなミニミザーが強い一貫性を持つことを示す。

Consider the spiked Wigner model \[ X = \sum_{i = 1}^k \lambda_i u_i u_i^\top + \sigma G, \] where $G$ is an $N \times N$ GOE random matrix, and the eigenvalues $\lambda_i$ are all spiked, i.e. above the Baik-Ben Arous-P\'ech\'e (BBP) threshold $\sigma$. We consider AIC-type model selection criteria of the form \[ -2 \, (\text{maximised log-likelihood}) + \gamma \, (\text{number of parameters}) \] for estimating the number $k$ of spikes. For $\gamma > 2$, the above criterion is strongly consistent provided $\lambda_k > \lambda_{\gamma}$, where $\lambda_{\gamma}$ is a threshold strictly above the BBP threshold, whereas for $\gamma < 2$, it almost surely overestimates $k$. Although AIC (which corresponds to $\gamma = 2$) is not strongly consistent, we show that taking $\gamma = 2 + \delta_N$, where $\delta_N \to 0$ and $\delta_N \gg N^{-2/3}$, results in a weakly consistent estimator of $k$. We also show that a certain soft minimiser of AIC is strongly consistent.
翻訳日:2023-07-25 13:14:18 公開日:2023-07-24
# 3d-llm: 大きな言語モデルに3d世界を注入する

3D-LLM: Injecting the 3D World into Large Language Models ( http://arxiv.org/abs/2307.12981v1 )

ライセンス: Link先を確認
Yining Hong, Haoyu Zhen, Peihao Chen, Shuhong Zheng, Yilun Du, Zhenfang Chen, Chuang Gan(参考訳) 大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。 これらのモデルが強力であるように、それらは空間的関係、余裕、物理学、レイアウトなど、よりリッチな概念を含む3D物理の世界に根ざしていない。 本研究では,大規模言語モデルに3Dワールドを注入し,全く新しい3D-LLMのファミリーを導入することを提案する。 具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、キャプション、密接なキャプション、3D質問応答、タスク分解、3Dグラウンド、3Dアシストダイアログ、ナビゲーションなど、様々な3D関連のタスクを実行することができる。 私たちが設計した3種類のプロンプト機構を用いて、これらのタスクをカバーする300万以上の3D言語データを収集することができる。 3D-LLMを効率的に訓練するために,まず,レンダリングした多視点画像から3D特徴量を抽出する3D特徴抽出器を利用する。 次に、バックボーンとして2D VLMを使用して、3D-LLMをトレーニングします。 3Dローカライゼーション機構を導入することで、3D-LLMは3D空間情報をよりよくキャプチャできる。 ScanQAの実験では、我々のモデルは最先端のベースラインを大きなマージンで上回ります(例えば、BLEU-1スコアは最先端のスコアを9%上回ります)。 さらに, 3次元キャプション, タスク合成, 3次元対話のためのデータセット実験により, モデルが2次元VLMより優れていることが示された。 定性的な例は、我々のモデルが既存のLLMとVLMの範囲を超えてより多くのタスクを実行できることを示している。 プロジェクトページ: https://vis-www.cs.umass.edu/3dllm/

Large language models (LLMs) and Vision-Language Models (VLMs) have been proven to excel at multiple tasks, such as commonsense reasoning. Powerful as these models can be, they are not grounded in the 3D physical world, which involves richer concepts such as spatial relationships, affordances, physics, layout, and so on. In this work, we propose to inject the 3D world into large language models and introduce a whole new family of 3D-LLMs. Specifically, 3D-LLMs can take 3D point clouds and their features as input and perform a diverse set of 3D-related tasks, including captioning, dense captioning, 3D question answering, task decomposition, 3D grounding, 3D-assisted dialog, navigation, and so on. Using three types of prompting mechanisms that we design, we are able to collect over 300k 3D-language data covering these tasks. To efficiently train 3D-LLMs, we first utilize a 3D feature extractor that obtains 3D features from rendered multi- view images. Then, we use 2D VLMs as our backbones to train our 3D-LLMs. By introducing a 3D localization mechanism, 3D-LLMs can better capture 3D spatial information. Experiments on ScanQA show that our model outperforms state-of-the-art baselines by a large margin (e.g., the BLEU-1 score surpasses state-of-the-art score by 9%). Furthermore, experiments on our held-in datasets for 3D captioning, task composition, and 3D-assisted dialogue show that our model outperforms 2D VLMs. Qualitative examples also show that our model could perform more tasks beyond the scope of existing LLMs and VLMs. Project Page: : https://vis-www.cs.umass.edu/3dllm/.
翻訳日:2023-07-25 13:13:42 公開日:2023-07-24
# 視覚言語基礎モデルにおけるプロンプトエンジニアリングに関する体系的調査

A Systematic Survey of Prompt Engineering on Vision-Language Foundation Models ( http://arxiv.org/abs/2307.12980v1 )

ライセンス: Link先を確認
Jindong Gu, Zhen Han, Shuo Chen, Ahmad Beirami, Bailan He, Gengyuan Zhang, Ruotong Liao, Yao Qin, Volker Tresp, Philip Torr(参考訳) プロンプトエンジニアリングは、プロンプトと呼ばれるタスク固有のヒントを使って、新しいタスクにモデルを適応させる、大きな事前学習されたモデルを強化する技術である。 プロンプトは自然言語命令として手動で作成したり、自然言語命令やベクトル表現として自動生成することができる。 プロンプトエンジニアリングにより、モデルパラメータを更新せずにプロンプトのみに基づいて予測を行うことができ、現実世界のタスクで大規模な事前学習モデルを簡単に適用できる。 近年、プロンプト工学は自然言語処理においてよく研究されている。 近年,視覚言語モデルの研究も盛んに行われている。 しかし、現在、事前訓練された視覚言語モデルにおけるプロンプトエンジニアリングの体系的な概要が欠けている。 本稿では,マルチモーダル-テキスト生成モデル(flamingoなど),画像-テキストマッチングモデル(クリップなど),テキスト-画像生成モデル(安定拡散など)の3種類の視覚言語モデルに関する,プロンプトエンジニアリングにおける最先端研究の包括的調査を目的とする。 モデルの種類ごとに、簡単なモデル概要、メソッドのプロンプト、プロンプトベースのアプリケーション、および対応する責任と整合性の問題について要約し、議論する。 さらに,視覚言語モデル,言語モデル,視覚モデルに対するプロンプトの共通性と相違についても考察した。 このトピックに関する今後の研究を進めるために,課題,今後の方向性,研究の機会をまとめる。

Prompt engineering is a technique that involves augmenting a large pre-trained model with task-specific hints, known as prompts, to adapt the model to new tasks. Prompts can be created manually as natural language instructions or generated automatically as either natural language instructions or vector representations. Prompt engineering enables the ability to perform predictions based solely on prompts without updating model parameters, and the easier application of large pre-trained models in real-world tasks. In past years, Prompt engineering has been well-studied in natural language processing. Recently, it has also been intensively studied in vision-language modeling. However, there is currently a lack of a systematic overview of prompt engineering on pre-trained vision-language models. This paper aims to provide a comprehensive survey of cutting-edge research in prompt engineering on three types of vision-language models: multimodal-to-text generation models (e.g. Flamingo), image-text matching models (e.g. CLIP), and text-to-image generation models (e.g. Stable Diffusion). For each type of model, a brief model summary, prompting methods, prompting-based applications, and the corresponding responsibility and integrity issues are summarized and discussed. Furthermore, the commonalities and differences between prompting on vision-language models, language models, and vision models are also discussed. The challenges, future directions, and research opportunities are summarized to foster future research on this topic.
翻訳日:2023-07-25 13:13:09 公開日:2023-07-24
# 等尺確率最適化器

An Isometric Stochastic Optimizer ( http://arxiv.org/abs/2307.12979v1 )

ライセンス: Link先を確認
Jacob Jackson(参考訳) ディープラーニングアプリケーションでは、Adamオプティマイザが標準選択である。 それぞれのパラメータのステップサイズを、他のパラメータのノルムとは無関係にします。 この原理に基づいて、i は、パラメータの更新のノルムを任意の線形変換の入出力への応用に不変にする新しいオプティマイザである iso を導出する。 私は、IsoAdamと呼ばれるIsoの変種を開発し、Adamから最適なハイパーパラメータを転送できるようにし、IsoAdamが小さなトランスフォーマーを訓練する際にAdamよりもスピードアップが得られることを示した。

The Adam optimizer is the standard choice in deep learning applications. I propose a simple explanation of Adam's success: it makes each parameter's step size independent of the norms of the other parameters. Based on this principle I derive Iso, a new optimizer which makes the norm of a parameter's update invariant to the application of any linear transformation to its inputs and outputs. I develop a variant of Iso called IsoAdam that allows optimal hyperparameters to be transferred from Adam, and demonstrate that IsoAdam obtains a speedup over Adam when training a small Transformer.
翻訳日:2023-07-25 13:12:44 公開日:2023-07-24
# ユニタリ構成によるスケーラブル量子スピンネットワーク

Scalable Quantum Spin Networks from Unitary Construction ( http://arxiv.org/abs/2307.12978v1 )

ライセンス: Link先を確認
Abdulsalam H. Alsulami, Irene D'Amico, Marta P. Estarellas, and Timothy P. Spiller(参考訳) スピンネットワークシステムは、高忠実度で量子状態移動を達成し、絡み合いを生成するために使用できる。 短距離量子情報処理と位相センシングのためのスピンチェーンに基づくスピンネットワークシステムを設計するための新しいアプローチが最近[1]で提案されている。 本稿では,量子プロセッサの接続など,より長距離な量子情報処理に使用できる大規模スピンネットワークシステムを設計し,そのようなシステムのスケーラビリティについて検討する。 さらに、異なる種類の絡み合い状態を生成することができる、より複雑なスピンネットワーク設計を示す。 障害効果のシミュレーションは、そのような大きなスピンネットワークシステムでさえ、現実の障害レベルに対して堅牢であることを示している。

Spin network systems can be used to achieve quantum state transfer with high fidelity and to generate entanglement. A new approach to design spin-chain-based spin network systems, for shortrange quantum information processing and phase-sensing, has been proposed recently in [1]. In this paper, we investigate the scalability of such systems, by designing larger spin network systems that can be used for longer-range quantum information tasks, such as connecting together quantum processors. Furthermore, we present more complex spin network designs, which can produce different types of entangled states. Simulations of disorder effects show that even such larger spin network systems are robust against realistic levels of disorder.
翻訳日:2023-07-25 13:12:33 公開日:2023-07-24
# 言語モデルにおける知識編集のリップル効果の評価

Evaluating the Ripple Effects of Knowledge Editing in Language Models ( http://arxiv.org/abs/2307.12976v1 )

ライセンス: Link先を確認
Roi Cohen, Eden Biran, Ori Yoran, Amir Globerson, Mor Geva(参考訳) 現代の言語モデルは、多くの事実知識を捉えている。 しかし、いくつかの事実は誤って引き起こされたり、時代とともに廃れたりし、結果として実際に誤った世代が生まれることがある。 これは、モデルによってエンコードされた事実を更新できる様々な編集方法の開発につながった。 これらの方法の評価は、主に個々の事実がうまく注入されたかどうか、他の被験者に対する同様の予測が変化していないかどうかをテストすることに焦点が当てられている。 ここでは、ある事実(例えば、Jack Deppはジョニー・デップの息子である)を注入すると、モデルが更新する必要があるという追加の事実(例えば、Jack Deppはリリー・ローズ・デップの兄弟である)の形で「リップル効果」を導入するので、そのような評価は限定的であると主張する。 この問題に対処するため,本稿では,関連する事実に対する編集の影響を考慮した評価基準を新たに提案する。 これらの基準を用いて、5Kの事実編集の診断ベンチマークである \ripple{} を構築し、様々な種類のリップル効果をキャプチャする。 我々は,既存の手法がモデルの知識に一貫した変化を起こさないことを示すために,<ripple{} 上での顕著な編集手法の評価を行った。 さらに, 簡単なテキスト内編集ベースラインがベンチマークで最高のスコアを得られることが分かり, モデル編集に有望な研究方向性が示唆された。

Modern language models capture a large body of factual knowledge. However, some facts can be incorrectly induced or become obsolete over time, resulting in factually incorrect generations. This has led to the development of various editing methods that allow updating facts encoded by the model. Evaluation of these methods has primarily focused on testing whether an individual fact has been successfully injected, and if similar predictions for other subjects have not changed. Here we argue that such evaluation is limited, since injecting one fact (e.g. ``Jack Depp is the son of Johnny Depp'') introduces a ``ripple effect'' in the form of additional facts that the model needs to update (e.g.``Jack Depp is the sibling of Lily-Rose Depp''). To address this issue, we propose a novel set of evaluation criteria that consider the implications of an edit on related facts. Using these criteria, we then construct \ripple{}, a diagnostic benchmark of 5K factual edits, capturing a variety of types of ripple effects. We evaluate prominent editing methods on \ripple{}, showing that current methods fail to introduce consistent changes in the model's knowledge. In addition, we find that a simple in-context editing baseline obtains the best scores on our benchmark, suggesting a promising research direction for model editing.
翻訳日:2023-07-25 13:12:22 公開日:2023-07-24
# 文脈帯域問題における人選好からの政策学習の有益性

Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems ( http://arxiv.org/abs/2307.12975v1 )

ライセンス: Link先を確認
Xiang Ji, Huazheng Wang, Minshuo Chen, Tuo Zhao, Mengdi Wang(参考訳) 意思決定問題における重要なタスクは、報酬工学である。 実際、報酬関数の明確な選択は存在しないことが一般的である。 このように、トレーニング中に人間のフィードバックを導入し、そのようなフィードバックを活用して報酬関数を学習することが一般的なアプローチである。 人的フィードバックを用いた政策学習手法の中で,instructgptのような最近の経験的応用において,嗜好ベースの手法が有意な成功を収めている。 そこで本研究では,オフライン環境における嗜好に基づく手法の利点を実証的に示す理論を開発した。 特に,本研究では,人文表を用いた政策学習手法のモデル化と準最適分析を改善した。 そして、選好に基づく手法の準最適性保証と比較し、選好に基づく手法が低い準最適性を持つことを示す。

A crucial task in decision-making problems is reward engineering. It is common in practice that no obvious choice of reward function exists. Thus, a popular approach is to introduce human feedback during training and leverage such feedback to learn a reward function. Among all policy learning methods that use human feedback, preference-based methods have demonstrated substantial success in recent empirical applications such as InstructGPT. In this work, we develop a theory that provably shows the benefits of preference-based methods in offline contextual bandits. In particular, we improve the modeling and suboptimality analysis for running policy learning methods on human-scored samples directly. Then, we compare it with the suboptimality guarantees of preference-based methods and show that preference-based methods enjoy lower suboptimality.
翻訳日:2023-07-25 13:11:56 公開日:2023-07-24
# ゼロショットテキスト分類のための大規模言語モデルにおけるラベル変動の活用

Leveraging Label Variation in Large Language Models for Zero-Shot Text Classification ( http://arxiv.org/abs/2307.12973v1 )

ライセンス: Link先を確認
Flor Miriam Plaza-del-Arco, Debora Nozza, Dirk Hovy(参考訳) 大きな言語モデル(LLM)のゼロショット学習能力は、アノテーションや教師あり訓練なしでテキスト分類に最適である。 多くの研究が複数のタスクで印象的な結果を示している。 タスク、データ、結果は大きく異なるが、ヒューマンアノテーションとの類似性は、最小限の費用で新しいタスクに取り組むのに役立つ。 日本語,フランス語,ドイツ語,スペイン語の4言語にまたがる5つのタスク(年齢,性別,話題,感情予測,ヘイトスピーチ検出)において,5つの最先端LPMを「アノテーション」として評価した。 単一のモデルは、タスク内のすべてのタスク、言語、あるいはすべてのラベルに対して排他的ではない。 しかし,アノテータ用に設計されたアグリゲーション技術は,どのモデルよりも大幅に優れている。 全体としては、LLMは単純な教師付きモデルでさえも競合しないので、人間のアノテーションを置き換えるものではない。 また、集約されたモデルラベリングと人間のアノテーションに関して、スピード、正確性、コスト、バイアスのトレードオフについても論じる。

The zero-shot learning capabilities of large language models (LLMs) make them ideal for text classification without annotation or supervised training. Many studies have shown impressive results across multiple tasks. While tasks, data, and results differ widely, their similarities to human annotation can aid us in tackling new tasks with minimal expenses. We evaluate using 5 state-of-the-art LLMs as "annotators" on 5 different tasks (age, gender, topic, sentiment prediction, and hate speech detection), across 4 languages: English, French, German, and Spanish. No single model excels at all tasks, across languages, or across all labels within a task. However, aggregation techniques designed for human annotators perform substantially better than any one individual model. Overall, though, LLMs do not rival even simple supervised models, so they do not (yet) replace the need for human annotation. We also discuss the tradeoffs between speed, accuracy, cost, and bias when it comes to aggregated model labeling versus human annotation.
翻訳日:2023-07-25 13:11:45 公開日:2023-07-24
# DFA3D:2Dから3D機能リフティングのための3D変形型アテンション

DFA3D: 3D Deformable Attention For 2D-to-3D Feature Lifting ( http://arxiv.org/abs/2307.12972v1 )

ライセンス: Link先を確認
Hongyang Li, Hao Zhang, Zhaoyang Zeng, Shilong Liu, Feng Li, Tianhe Ren, and Lei Zhang(参考訳) 本稿では,DFA3Dと呼ばれる2D-to-3D機能昇降のための新しい演算子を提案し,多視点2D画像特徴を3Dオブジェクト検出のための統一された3D空間に変換する。 リフトプレートベースや2dアテンションベースといった既存の機能昇降アプローチでは、推定された深度を使って擬似lidar特徴を取得し、それらを3d空間にスプリットするか、2dアテンション機構による深さとリフトの特徴を無視するかのどちらかであり、深さあいまいな問題に苦しめながらより詳細なセマンティクスを実現する。 対照的に、DFA3Dに基づく手法では、まず推定深度を利用して各ビューの2D特徴マップを3Dに拡張し、DFA3Dを用いて拡張された3D特徴マップから特徴を集約する。 DFA3Dの助けを借りて、深さのあいまいさ問題はルートから効果的に緩和することができ、トランスフォーマーのようなアーキテクチャのおかげで、昇降した特徴は層ごとに徐々に洗練される。 さらに,dfa3dのメモリ効率と計算速度を大幅に向上できる数学的に等価な実装を提案する。 DFA3Dを2Dアテンションベースの機能リフトを使用するいくつかのメソッドに統合し、コードにわずかな変更を加えてnuScenesデータセットを評価する。 実験の結果、平均で+1.41\% mAPが一貫した改善を示し、高品質の深度情報が得られると+15.1\% mAPが改善され、DFA3Dの優位性、適用性、そして大きなポテンシャルが示された。 コードはhttps://github.com/idea-research/3d-deformable-attention.gitで入手できる。

In this paper, we propose a new operator, called 3D DeFormable Attention (DFA3D), for 2D-to-3D feature lifting, which transforms multi-view 2D image features into a unified 3D space for 3D object detection. Existing feature lifting approaches, such as Lift-Splat-based and 2D attention-based, either use estimated depth to get pseudo LiDAR features and then splat them to a 3D space, which is a one-pass operation without feature refinement, or ignore depth and lift features by 2D attention mechanisms, which achieve finer semantics while suffering from a depth ambiguity problem. In contrast, our DFA3D-based method first leverages the estimated depth to expand each view's 2D feature map to 3D and then utilizes DFA3D to aggregate features from the expanded 3D feature maps. With the help of DFA3D, the depth ambiguity problem can be effectively alleviated from the root, and the lifted features can be progressively refined layer by layer, thanks to the Transformer-like architecture. In addition, we propose a mathematically equivalent implementation of DFA3D which can significantly improve its memory efficiency and computational speed. We integrate DFA3D into several methods that use 2D attention-based feature lifting with only a few modifications in code and evaluate on the nuScenes dataset. The experiment results show a consistent improvement of +1.41\% mAP on average, and up to +15.1\% mAP improvement when high-quality depth information is available, demonstrating the superiority, applicability, and huge potential of DFA3D. The code is available at https://github.com/IDEA-Research/3D-deformable-attention.git.
翻訳日:2023-07-25 13:11:25 公開日:2023-07-24
# レビューにおける偽りの顕在化: nlp技術の探求

Unmasking Falsehoods in Reviews: An Exploration of NLP Techniques ( http://arxiv.org/abs/2307.10617v3 )

ライセンス: Link先を確認
Anusuya Baby Hari Krishnan(参考訳) 現代のデジタルランドスケープでは、オンラインレビューは様々なビジネスで製品やサービスを宣伝するのに欠かせないツールとなっている。 マーケター、広告主、オンラインビジネスは、自社製品の偽りの肯定的なレビューや競合製品の否定的なレビューを作成するインセンティブを見出した。 その結果、自己の宣伝やライバルの弱体化を図る企業にとって、偽りのレビューを書くことは避けられない習慣となっている。 このような疑わしいレビューの検出は、現在進行中の研究領域となっている。 本研究は,レストランに焦点をあてた認知的レビューを識別する機械学習モデルを提案する。 本研究は,偽証的意見スパムコーパスとして知られるレストランレビューのデータセット上で実施した多数の実験の結果を考察する。 これを実現するため、特に偽レビューに焦点を当てたn-gramモデルとmax機能を開発し、偽コンテンツを効果的に識別する。 ベンチマーク研究により、2つの異なる特徴抽出手法の性能を調査し、5つの異なる機械学習分類アルゴリズムと組み合わせた。 実験結果から,パッシブ・アグレッシブ・アグレッシブ・クラシファイアは,テキスト分類だけでなく,偽レビューを識別する上でも高い精度を示すことが明らかとなった。 さらに、この研究はデータ拡張を掘り下げ、様々な深層学習技術を実装して、偽りのレビューを検出するプロセスをさらに強化する。 この調査結果は、提案された機械学習アプローチの有効性を浮き彫りにし、オンラインビジネスの領域における偽レビューを扱うための貴重な洞察を提供する。

In the contemporary digital landscape, online reviews have become an indispensable tool for promoting products and services across various businesses. Marketers, advertisers, and online businesses have found incentives to create deceptive positive reviews for their products and negative reviews for their competitors' offerings. As a result, the writing of deceptive reviews has become an unavoidable practice for businesses seeking to promote themselves or undermine their rivals. Detecting such deceptive reviews has become an intense and ongoing area of research. This research paper proposes a machine learning model to identify deceptive reviews, with a particular focus on restaurants. This study delves into the performance of numerous experiments conducted on a dataset of restaurant reviews known as the Deceptive Opinion Spam Corpus. To accomplish this, an n-gram model and max features are developed to effectively identify deceptive content, particularly focusing on fake reviews. A benchmark study is undertaken to explore the performance of two different feature extraction techniques, which are then coupled with five distinct machine learning classification algorithms. The experimental results reveal that the passive aggressive classifier stands out among the various algorithms, showcasing the highest accuracy not only in text classification but also in identifying fake reviews. Moreover, the research delves into data augmentation and implements various deep learning techniques to further enhance the process of detecting deceptive reviews. The findings shed light on the efficacy of the proposed machine learning approach and offer valuable insights into dealing with deceptive reviews in the realm of online businesses.
翻訳日:2023-07-25 11:25:20 公開日:2023-07-24
# (ab)マルチモーダルllmにおける間接インジェクションのための画像と音の利用

(Ab)using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs ( http://arxiv.org/abs/2307.10490v3 )

ライセンス: Link先を確認
Eugene Bagdasaryan, Tsung-Yin Hsieh, Ben Nassi, Vitaly Shmatikov(参考訳) マルチモーダルLLMにおける間接的プロンプトおよびインジェクションインジェクションに画像と音をどのように利用できるかを示す。 攻撃者は、プロンプトに対応する敵対的摂動を生成し、画像または音声記録にブレンドする。 ユーザが摂動画像またはオーディオに関する(修正されていない、良心的な)モデルを尋ねると、摂動はモデルを操り、攻撃長文を出力し、/またはその後のダイアログを攻撃者の指示に従うようにする。 この攻撃をLLaVaとPandaGPTをターゲットにした概念実証例で説明する。

We demonstrate how images and sounds can be used for indirect prompt and instruction injection in multi-modal LLMs. An attacker generates an adversarial perturbation corresponding to the prompt and blends it into an image or audio recording. When the user asks the (unmodified, benign) model about the perturbed image or audio, the perturbation steers the model to output the attacker-chosen text and/or make the subsequent dialog follow the attacker's instruction. We illustrate this attack with several proof-of-concept examples targeting LLaVa and PandaGPT.
翻訳日:2023-07-25 11:23:49 公開日:2023-07-24
# 大規模言語モデルによる中国のきめ細かな金融感情分析

Chinese Fine-Grained Financial Sentiment Analysis with Large Language Models ( http://arxiv.org/abs/2306.14096v4 )

ライセンス: Link先を確認
Yinyu Lan, Yanru Wu, Wang Xu, Weiqiang Feng, Youhao Zhang(参考訳) 金融ドメインにおけるエンティティレベルのきめ細かい感情分析は、感情分析の重要なサブタスクであり、現在多くの課題に直面している。 主な課題は、財務的なテキスト感情分析用に特別に設計された高品質で大規模な注釈付きコーパスが欠如していることであり、それによって効果的なテキスト処理技術を開発するために必要なデータの利用が制限される。 大規模言語モデル(llm)の最近の進歩は、自然言語処理タスクにおいて、主に言語パターンマッチングを中心に顕著なパフォーマンスをもたらした。 本稿では,企業早期警戒のための中国における財務感情分析データセットFinChina SAを提案する。 我々のデータセットを用いて、よく知られたオープンソースのLCMを徹底的に評価し、実験した。 我々は、我々のデータセットが、将来の研究の焦点となる実世界の財務感情分析タスクの探索を進めるための貴重なリソースとなると強く信じている。 Fin China SAデータセットはhttps://github.com/YerayL/FinChina-SAで公開されている。

Entity-level fine-grained sentiment analysis in the financial domain is a crucial subtask of sentiment analysis and currently faces numerous challenges. The primary challenge stems from the lack of high-quality and large-scale annotated corpora specifically designed for financial text sentiment analysis, which in turn limits the availability of data necessary for developing effective text processing techniques. Recent advancements in large language models (LLMs) have yielded remarkable performance in natural language processing tasks, primarily centered around language pattern matching. In this paper, we propose a novel and extensive Chinese fine-grained financial sentiment analysis dataset, FinChina SA, for enterprise early warning. We thoroughly evaluate and experiment with well-known existing open-source LLMs using our dataset. We firmly believe that our dataset will serve as a valuable resource to advance the exploration of real-world financial sentiment analysis tasks, which should be the focus of future research. The FinChina SA dataset is publicly available at https://github.com/YerayL/FinChina-SA
翻訳日:2023-07-25 11:23:27 公開日:2023-07-24
# BoxSnake: Box Supervisionによる多角形のインスタンスセグメンテーション

BoxSnake: Polygonal Instance Segmentation with Box Supervision ( http://arxiv.org/abs/2303.11630v3 )

ライセンス: Link先を確認
Rui Yang, Lin Song, Yixiao Ge, Xiu Li(参考訳) ボックス教師付きインスタンスセグメンテーションは、コストのかかるマスクやポリゴンアノテーションの代わりに単純なボックスアノテーションのみを必要とするため、多くの注目を集めています。 しかし、既存のボックス管理インスタンスセグメンテーションモデルは、主にマスクベースのフレームワークに焦点を当てている。 ボックスアノテーションのみを用いた効率的な多角形インスタンスセグメンテーションを実現するために,BoxSnakeと呼ばれる新しいエンドツーエンドトレーニング手法を提案する。 本手法は,(1)予測された多角形の境界ボックスを制約して粗粒分節化を実現する点ベース不規則損失,(2)予測された多角形を対象境界に適合させる距離認識一辺損失の2つの損失関数からなる。 BoxSnakeはマスクベースの弱教師付き手法と比較して、予測セグメンテーションとバウンディングボックスの間のパフォーマンスギャップをさらに減らし、Cityscapesデータセットに顕著な優位性を示す。 コードは公開されています。

Box-supervised instance segmentation has gained much attention as it requires only simple box annotations instead of costly mask or polygon annotations. However, existing box-supervised instance segmentation models mainly focus on mask-based frameworks. We propose a new end-to-end training technique, termed BoxSnake, to achieve effective polygonal instance segmentation using only box annotations for the first time. Our method consists of two loss functions: (1) a point-based unary loss that constrains the bounding box of predicted polygons to achieve coarse-grained segmentation; and (2) a distance-aware pairwise loss that encourages the predicted polygons to fit the object boundaries. Compared with the mask-based weakly-supervised methods, BoxSnake further reduces the performance gap between the predicted segmentation and the bounding box, and shows significant superiority on the Cityscapes dataset. The code has been available publicly.
翻訳日:2023-07-25 11:23:10 公開日:2023-07-24
# ADPS:画像異常検出のための非対称蒸留ポストセグメンテーション

ADPS: Asymmetric Distillation Post-Segmentation for Image Anomaly Detection ( http://arxiv.org/abs/2210.10495v3 )

ライセンス: Link先を確認
Peng Xing, Hao Tang, Jinhui Tang, Zechao Li(参考訳) 知識蒸留に基づく異常検出(KDAD)手法は,両ネットワークが抽出した特徴を対比することにより,異常領域の検出とセグメント化を行う教師学生パラダイムに依存している。 しかし、既存のKDADメソッドには2つの制限がある。 1)生徒ネットワークは、教師ネットワークの表現を必死に再現することができ、 2)教師ネットワークの特徴は「参照基準」としてのみ機能し,完全に活用されていない。 この目的のために、確立されたパラダイムから離れ、代わりに非対称蒸留ポストセグメンテーション(ADPS)と呼ばれる革新的なアプローチを提案する。 我々のADPSは教師-学生ネットワークの入力と同一の画像の異なる形態の非対称蒸留パラダイムを採用し、学生ネットワークに異常領域の識別表現を学習させる。 一方,非対称パラダイムから得られた蒸留知識を教師ネットワークに伝達する粗い局所化マスクを生成するために,カスタマイズされた重みマスクブロック(wmb)を提案する。 WMBを組み込んだPSM(Post-Segmentation Module)は,微細な構造と明確な境界を持つ異常領域を効果的に検出し,分割することができる。 実験の結果,ADPSは異常の検出とセグメント化において最先端の手法よりも優れていた。 驚いたことに、ADPSは平均精度(AP)を、MVTec ADとKolektorSDD2データセットでそれぞれ9%、20%改善している。

Knowledge Distillation-based Anomaly Detection (KDAD) methods rely on the teacher-student paradigm to detect and segment anomalous regions by contrasting the unique features extracted by both networks. However, existing KDAD methods suffer from two main limitations: 1) the student network can effortlessly replicate the teacher network's representations, and 2) the features of the teacher network serve solely as a ``reference standard" and are not fully leveraged. Toward this end, we depart from the established paradigm and instead propose an innovative approach called Asymmetric Distillation Post-Segmentation (ADPS). Our ADPS employs an asymmetric distillation paradigm that takes distinct forms of the same image as the input of the teacher-student networks, driving the student network to learn discriminating representations for anomalous regions. Meanwhile, a customized Weight Mask Block (WMB) is proposed to generate a coarse anomaly localization mask that transfers the distilled knowledge acquired from the asymmetric paradigm to the teacher network. Equipped with WMB, the proposed Post-Segmentation Module (PSM) is able to effectively detect and segment abnormal regions with fine structures and clear boundaries. Experimental results demonstrate that the proposed ADPS outperforms the state-of-the-art methods in detecting and segmenting anomalies. Surprisingly, ADPS significantly improves Average Precision (AP) metric by 9% and 20% on the MVTec AD and KolektorSDD2 datasets, respectively.
翻訳日:2023-07-25 11:22:52 公開日:2023-07-24
# ハードウェアフレンドリーなハミルトニアンシミュレーションのための条件付き多積公式

Well-conditioned multi-product formulas for hardware-friendly Hamiltonian simulation ( http://arxiv.org/abs/2207.11268v3 )

ライセンス: Link先を確認
Almudena Carrera Vazquez and Daniel J. Egger and David Ochsner and Stefan Woerner(参考訳) ハミルトンの時間発展をシミュレートすることは、量子コンピュータの最も有望な応用の1つである。 マルチプロダクトフォーミュラ(MPF)は、時間や近似誤差に関してスケールが良く、標準製品式を置き換えるのに適している。 MPFを用いたハミルトンシミュレーションは、ユニタリの線形結合を用いた完全量子環境で最初に提案された。 本稿では,古典的に期待値を量子コンピュータと組み合わせたMPFのハイブリッド量子古典的アプローチを解析し,実証する。 これは完全量子mpfsと同じ近似境界を持つが、対照的に、追加の量子ビットや制御された演算は不要であり、確率的ではない。 ハードウェアを増幅せず、エラーをサンプリングしないMPFの設計方法を示し、その性能を実証する。 特に、古典的難解なスピンボーソンモデルに適用した場合の利点を理論的に解析し、量子ハードウェアと同様に古典的シミュレータを用いて横磁場イジングモデルのダイナミクスを計算することにより、我々の仕事の可能性を示す。 本稿では,Pauli Twirlingによるハードウェアノイズの抑制,パルス効率の変換,スケールしたクロス共振パルスに基づく新しいゼロノイズ外挿による製品公式アプローチと比較して,最大1桁の誤差低減を観測する。 MPF法は回路深さを減少させるため、ノイズの多いハードウェア上でのハミルトンシミュレーションにおける量子優位性への重要なステップを示す可能性がある。

Simulating the time-evolution of a Hamiltonian is one of the most promising applications of quantum computers. Multi-Product Formulas (MPFs) are well suited to replace standard product formulas since they scale better with respect to time and approximation errors. Hamiltonian simulation with MPFs was first proposed in a fully quantum setting using a linear combination of unitaries. Here, we analyze and demonstrate a hybrid quantum-classical approach to MPFs that classically combines expectation values evaluated with a quantum computer. This has the same approximation bounds as the fully quantum MPFs, but, in contrast, requires no additional qubits, no controlled operations, and is not probabilistic. We show how to design MPFs that do not amplify the hardware and sampling errors, and demonstrate their performance. In particular, we illustrate the potential of our work by theoretically analyzing the benefits when applied to a classically intractable spin-boson model, and by computing the dynamics of the transverse field Ising model using a classical simulator as well as quantum hardware. We observe an error reduction of up to an order of magnitude when compared to a product formula approach by suppressing hardware noise with Pauli Twirling, pulse efficient transpilation, and a novel zero-noise extrapolation based on scaled cross-resonance pulses. The MPF methodology reduces the circuit depth and may therefore represent an important step towards quantum advantage for Hamiltonian simulation on noisy hardware.
翻訳日:2023-07-25 11:22:27 公開日:2023-07-24
# 量子コンピューティングのためのスケーラブルなテンソル・ネットワーク誤差軽減

Scalable tensor-network error mitigation for near-term quantum computing ( http://arxiv.org/abs/2307.11740v2 )

ライセンス: Link先を確認
Sergei Filippov, Matea Leahy, Matteo A. C. Rossi, Guillermo Garc\'ia-P\'erez(参考訳) フォールトトレランスが大規模に実装されるまで、量子コンピューティングはノイズ軽減技術に大きく依存する。 確率的エラー増幅(ZNE-PEA)や確率的エラーキャンセル(PEC)といったゼロノイズ外挿法は近年,ハードウェア上でのテストが成功しているが,より大きな回路へのスケーラビリティは制限されている。 本稿では,物理観測量の推定において雑音による誤差を補正するために後処理を行うテンソルネットワーク誤り軽減アルゴリズム(tem)を提案する。 この方法は、量子プロセッサの状態に影響を与える大域的ノイズチャネルの逆数を表すテンソルネットワークの構築と、ノイズ状態から得られる測定結果を情報的に完結させるためのマップの連続的な適用とから構成される。 したがって、TEMは情報的に完備なPOVMの実装以外の追加の量子演算を必要とせず、これはランダムな局所測定によって達成できる。 TEMの主な利点は、測定オーバーヘッドがPECよりも2次的に小さいことである。 我々はtemを様々な領域の数値シミュレーションで広範囲にテストする。 その結果,[E. van den Berg et al., Nat. Phys. (2023)] のような疎いパウリ・リンドブラッド雑音の現実的な条件下では, PEC で達成可能な回路に比べて2倍の深さの回路にTEMを適用することができることがわかった。 クリフォード回路を用いて、ノイズレベルの低いより広い深い回路において、この手法の能力を探索する。 100量子ビットと深さ100の場合、PECとZNEはどちらも$\sim 10^5$のショットを使用して正確な結果を得ることができず、TEMは成功する。

Until fault-tolerance becomes implementable at scale, quantum computing will heavily rely on noise mitigation techniques. While methods such as zero noise extrapolation with probabilistic error amplification (ZNE-PEA) and probabilistic error cancellation (PEC) have been successfully tested on hardware recently, their scalability to larger circuits may be limited. Here, we introduce the tensor-network error mitigation (TEM) algorithm, which acts in post-processing to correct the noise-induced errors in estimations of physical observables. The method consists of the construction of a tensor network representing the inverse of the global noise channel affecting the state of the quantum processor, and the consequent application of the map to informationally complete measurement outcomes obtained from the noisy state. TEM does therefore not require additional quantum operations other than the implementation of informationally complete POVMs, which can be achieved through randomised local measurements. The key advantage of TEM is that the measurement overhead is quadratically smaller than in PEC. We test TEM extensively in numerical simulations in different regimes. We find that TEM can be applied to circuits of twice the depth compared to what is achievable with PEC under realistic conditions with sparse Pauli-Lindblad noise, such as those in [E. van den Berg et al., Nat. Phys. (2023)]. By using Clifford circuits, we explore the capabilities of the method in wider and deeper circuits with lower noise levels. We find that in the case of 100 qubits and depth 100, both PEC and ZNE fail to produce accurate results by using $\sim 10^5$ shots, while TEM succeeds.
翻訳日:2023-07-25 11:15:17 公開日:2023-07-24
# AIに基づく欠陥検出と分類モデルを用いた推論のための形態的画像解析と特徴抽出

Morphological Image Analysis and Feature Extraction for Reasoning with AI-based Defect Detection and Classification Models ( http://arxiv.org/abs/2307.11643v2 )

ライセンス: Link先を確認
Jiajun Zhang, Georgina Cosma, Sarah Bugby, Axel Finke and Jason Watkins(参考訳) 人工知能(AI)モデルの使用が工学や製造などの産業で普及するにつれて、これらのモデルが予測の背後にある透明な推論を提供することが不可欠である。 本稿では,画像から欠陥(果柄)の形態的特徴を抽出し,決定木を用いて果柄値の推論を行うai-reasonerを提案する。 その後、AI-Reasonerは視覚化(チャート)とテキストの説明をエクスポートし、マスクによる欠陥検出と分類モデルによるアウトプットに関する洞察を提供する。 また、データ前処理と全体的なモデルパフォーマンスを強化する効果的な緩和戦略も提供する。 AI-Reasonerは、欠陥を含む366イメージのセットを使用して、IE Mask R-CNNモデルの出力を説明するためにテストされた。 この結果は,IE Mask R-CNNモデルの予測を説明する上での有効性を示した。 全体として、提案されたAI-Reasonerは、欠陥分析を必要とする産業アプリケーションにおけるAIモデルのパフォーマンスを改善するソリューションを提供する。

As the use of artificial intelligent (AI) models becomes more prevalent in industries such as engineering and manufacturing, it is essential that these models provide transparent reasoning behind their predictions. This paper proposes the AI-Reasoner, which extracts the morphological characteristics of defects (DefChars) from images and utilises decision trees to reason with the DefChar values. Thereafter, the AI-Reasoner exports visualisations (i.e. charts) and textual explanations to provide insights into outputs made by masked-based defect detection and classification models. It also provides effective mitigation strategies to enhance data pre-processing and overall model performance. The AI-Reasoner was tested on explaining the outputs of an IE Mask R-CNN model using a set of 366 images containing defects. The results demonstrated its effectiveness in explaining the IE Mask R-CNN model's predictions. Overall, the proposed AI-Reasoner provides a solution for improving the performance of AI models in industrial applications that require defect analysis.
翻訳日:2023-07-25 11:14:45 公開日:2023-07-24
# CausE: 因果知識グラフの埋め込みを目指して

CausE: Towards Causal Knowledge Graph Embedding ( http://arxiv.org/abs/2307.11610v2 )

ライセンス: Link先を確認
Yichi Zhang, Wen Zhang(参考訳) 知識グラフ埋め込み(KGE)は、知識グラフの実体と関係を連続ベクトル空間に表現することに焦点を当て、知識グラフ完備化(KGC)を達成するために欠落した三重項を予測するために使用できる。 しかし、KGEモデルはトリプルデータの構造的相関しか学習せず、埋め込みは実世界のKGにおける自明なパターンやノイズの多いリンクによって誤解される。 この問題に対処するため、我々はKGEの新しいパラダイムを因果関係とエンタングルメントの埋め込みという文脈で構築する。 さらに,CausE(Causality Enhanced Knowledge Graph Embedding)フレームワークを提案する。 CausEは、共同創設者の埋め込みの因果効果を推定するために因果介入を採用し、安定した予測を行うために新しい訓練目標を設計する。 実験結果から,CausEはベースラインモデルより優れ,最先端のKGC性能が得られることが示された。 コードをhttps://github.com/zjukg/CausEでリリースします。

Knowledge graph embedding (KGE) focuses on representing the entities and relations of a knowledge graph (KG) into the continuous vector spaces, which can be employed to predict the missing triples to achieve knowledge graph completion (KGC). However, KGE models often only briefly learn structural correlations of triple data and embeddings would be misled by the trivial patterns and noisy links in real-world KGs. To address this issue, we build the new paradigm of KGE in the context of causality and embedding disentanglement. We further propose a Causality-enhanced knowledge graph Embedding (CausE) framework. CausE employs causal intervention to estimate the causal effect of the confounder embeddings and design new training objectives to make stable predictions. Experimental results demonstrate that CausE could outperform the baseline models and achieve state-of-the-art KGC performance. We release our code in https://github.com/zjukg/CausE.
翻訳日:2023-07-25 11:14:26 公開日:2023-07-24
# matspectnet: domain-aware と physical-constrained hyperspectral reconstruction を用いた材料セグメンテーションネットワーク

MatSpectNet: Material Segmentation Network with Domain-Aware and Physically-Constrained Hyperspectral Reconstruction ( http://arxiv.org/abs/2307.11466v2 )

ライセンス: Link先を確認
Yuwen Heng, Yihong Wu, Jiawen Chen, Srinandan Dasmahapatra, Hansung Kim(参考訳) 3チャンネルのrgb画像の正確な材質分割を達成することは、材料の外観にかなりのばらつきがあるため困難である。 複数の波長でサンプリングされたスペクトルのセットである超スペクトル画像は、表面から反射される電磁波の強度の変動がシーンの材料組成に依存するため、理論的に物質識別のための異なる情報を提供する。 しかし, 既存のハイパースペクトルデータセットは, 高密度材料分割作業における画像や材料カテゴリの数が不足しているため, スペクトルカメラによるハイパースペクトル画像の収集・注釈は極めて高価である。 そこで我々は,RGB画像から高スペクトル像を復元した材料を分割する新しいモデルであるMatSpectNetを提案する。 ネットワークは、再構成されたハイパースペクトル画像を制限するために、現代のカメラにおける色知覚の原理を活用し、スペクトル回復データセットから材料セグメンテーションデータセットへのハイパースペクトル再構成機能を一般化するドメイン適応法を採用している。 再構成されたハイパースペクトル画像は、さらに学習応答曲線を用いてフィルタされ、人間の知覚により強化される。 MatSpectNetのパフォーマンスは、LMDデータセットとOpenSurfacesデータセットで評価される。 実験の結果,matspectnetは平均画素精度が1.60%向上し,平均クラス精度が3.42%向上した。 プロジェクトコードは補足資料に添付され、githubで公開される予定だ。

Achieving accurate material segmentation for 3-channel RGB images is challenging due to the considerable variation in a material's appearance. Hyperspectral images, which are sets of spectral measurements sampled at multiple wavelengths, theoretically offer distinct information for material identification, as variations in intensity of electromagnetic radiation reflected by a surface depend on the material composition of a scene. However, existing hyperspectral datasets are impoverished regarding the number of images and material categories for the dense material segmentation task, and collecting and annotating hyperspectral images with a spectral camera is prohibitively expensive. To address this, we propose a new model, the MatSpectNet to segment materials with recovered hyperspectral images from RGB images. The network leverages the principles of colour perception in modern cameras to constrain the reconstructed hyperspectral images and employs the domain adaptation method to generalise the hyperspectral reconstruction capability from a spectral recovery dataset to material segmentation datasets. The reconstructed hyperspectral images are further filtered using learned response curves and enhanced with human perception. The performance of MatSpectNet is evaluated on the LMD dataset as well as the OpenSurfaces dataset. Our experiments demonstrate that MatSpectNet attains a 1.60% increase in average pixel accuracy and a 3.42% improvement in mean class accuracy compared with the most recent publication. The project code is attached to the supplementary material and will be published on GitHub.
翻訳日:2023-07-25 11:14:02 公開日:2023-07-24
# テレコムセクターのWhite Paper_chineseをAIGCで強化

AIGC Empowering Telecom Sector White Paper_chinese ( http://arxiv.org/abs/2307.11449v2 )

ライセンス: Link先を確認
Ye Ouyang, Yaqin Zhang, Xiaozhou Ye, Yunxin Liu, Yong Song, Yang Liu, Sen Bian, Zhiyong Liu(参考訳) GPTの世界的な流行の中で、人々は、AIが変革的技術であり、経済と社会開発における重要な力であるとして、世界産業に大きな飛躍とブレークスルーをもたらし、将来の競争パターンに深く影響することに深く気付きました。 情報通信インフラストラクチャのビルダー兼オペレータとして、テレコムセクターは、AI開発のためのインフラストラクチャサポートを提供し、AIアプリケーションの実装でもリードしている。 テレコムセクターにおけるAIGC(GPT)の適用とAIGCの実装は、テレコム実践者が考慮し、答えなければならない問題である。 AIGCの代表的な代表であるGPTの研究を通じて、GPTがテレコムセクターをシナリオとしていかに強化するかを分析し、現在のGPTジェネラルモデルとテレコムサービスのギャップについて論じ、テレコムセクターにおける通信サービスGPTの構築方法に対する回答を提供し、様々な実践を行った。 業界内の当社は、テレコムとAIに関する共同イノベーションに注力し、オープンで共有されたイノベーションエコシステムを構築し、AIとテレコムセクターの深い統合を促進し、経済と社会のデジタルトランスフォーメーションを促進するために、次世代情報インフラの構築を加速することが期待されている。

In the global craze of GPT, people have deeply realized that AI, as a transformative technology and key force in economic and social development, will bring great leaps and breakthroughs to the global industry and profoundly influence the future world competition pattern. As the builder and operator of information and communication infrastructure, the telecom sector provides infrastructure support for the development of AI, and even takes the lead in the implementation of AI applications. How to enable the application of AIGC (GPT) and implement AIGC in the telecom sector are questions that telecom practitioners must ponder and answer. Through the study of GPT, a typical representative of AIGC, the authors have analyzed how GPT empowers the telecom sector in the form of scenarios, discussed the gap between the current GPT general model and telecom services, proposed for the first time a Telco Augmented Cognition capability system, provided answers to how to construct a telecom service GPT in the telecom sector, and carried out various practices. Our counterparts in the industry are expected to focus on collaborative innovation around telecom and AI, build an open and shared innovation ecosystem, promote the deep integration of AI and telecom sector, and accelerate the construction of next-generation information infrastructure, in an effort to facilitate the digital transformation of the economy and society.
翻訳日:2023-07-25 11:13:37 公開日:2023-07-24
# 物体検出のための深層直接学習スパイクニューラルネットワーク

Deep Directly-Trained Spiking Neural Networks for Object Detection ( http://arxiv.org/abs/2307.11411v2 )

ライセンス: Link先を確認
Qiaoyi Su and Yuhong Chou and Yifan Hu and Jianing Li and Shijie Mei and Ziyang Zhang and Guoqi Li(参考訳) スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、時空間力学で情報をエンコードする脳誘発エネルギー効率モデルである。 近年, 直接訓練された深層SNNは, 極めて少ない時間ステップで, 分類タスクの高性能化に成功している。 しかし、オブジェクト検出の回帰タスクを直接訓練したSNNを設計する方法はまだ難しい問題である。 そこで本研究では,オブジェクト検出のためのSNNフレームワークであるEMS-YOLOを提案する。 具体的には、電力消費の少ない直接学習SNNの深さを効果的に拡張できるフルスパイク残差ブロック EMS-ResNet を設計する。 さらに、理論的には、EMS-ResNetは勾配の消失や爆発を避けることができると証明する。 その結果,提案手法は,最先端のANN-SNN変換手法(少なくとも500タイムステップ)よりも極めて少ない時間ステップ(4タイムステップのみ)で優れていた。 このモデルでは,フレームベースCOCOデータセットとイベントベースGen1データセットの5.83倍のエネルギーを消費しながら,同じアーキテクチャでANNに匹敵する性能を実現することができた。

Spiking neural networks (SNNs) are brain-inspired energy-efficient models that encode information in spatiotemporal dynamics. Recently, deep SNNs trained directly have shown great success in achieving high performance on classification tasks with very few time steps. However, how to design a directly-trained SNN for the regression task of object detection still remains a challenging problem. To address this problem, we propose EMS-YOLO, a novel directly-trained SNN framework for object detection, which is the first trial to train a deep SNN with surrogate gradients for object detection rather than ANN-SNN conversion strategies. Specifically, we design a full-spike residual block, EMS-ResNet, which can effectively extend the depth of the directly-trained SNN with low power consumption. Furthermore, we theoretically analyze and prove the EMS-ResNet could avoid gradient vanishing or exploding. The results demonstrate that our approach outperforms the state-of-the-art ANN-SNN conversion methods (at least 500 time steps) in extremely fewer time steps (only 4 time steps). It is shown that our model could achieve comparable performance to the ANN with the same architecture while consuming 5.83 times less energy on the frame-based COCO Dataset and the event-based Gen1 Dataset.
翻訳日:2023-07-25 11:13:13 公開日:2023-07-24