このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230714となっている論文です。

PDF登録状況(公開日: 20230714)

TitleAuthorsAbstract論文公表日・翻訳日
# ChatGPTが要求緩和プロセスを支援する可能性を探る

Investigating ChatGPT's Potential to Assist in Requirements Elicitation Processes ( http://arxiv.org/abs/2307.07381v1 )

ライセンス: Link先を確認
Krishna Ronanki, Christian Berger, Jennifer Horkoff(参考訳) 自然言語処理 (NLP) for Requirements Engineering (RE) (NLP4RE) は、要求の質を高めるために、NLPツール、技術、リソースをREプロセスに適用することを目指している。 ジェネレーティブAIベースのNLPツールと要件適用技術の利用に関する研究はほとんどない。 近年、ChatGPTのようなLarge Language Models (LLM) は、NLPタスクのパフォーマンスが顕著に向上したため、大きな評価を得ている。 また,ChatGPTの要件抽出プロセスを支援する可能性を探るため,ChatGPTを用いて6つの質問を定式化した。 同じ6つの質問を用いて,学界と産業界の5人の専門家による面接ベースの調査を行い,要求事項を含む30の回答を得た。 質問紙調査の第2ラウンドを通じて,これら36回答の質(人型+チャットGPT生成)を,他の5人のRE専門家による7つの要件品質属性で評価した。 また,ChatGPTが生成する要件の質を,人間の専門家が定式化した要件と比較した結果,ChatGPTが生成する要件は,高度に抽象化,アトミック,一貫性,整合性,理解可能であることがわかった。 これらの結果に基づき,llmに関する最も差し迫った課題と,自然言語に基づくre活動においてllmの創発的行動をより効果的に活用するための今後の研究について述べる。

Natural Language Processing (NLP) for Requirements Engineering (RE) (NLP4RE) seeks to apply NLP tools, techniques, and resources to the RE process to increase the quality of the requirements. There is little research involving the utilization of Generative AI-based NLP tools and techniques for requirements elicitation. In recent times, Large Language Models (LLM) like ChatGPT have gained significant recognition due to their notably improved performance in NLP tasks. To explore the potential of ChatGPT to assist in requirements elicitation processes, we formulated six questions to elicit requirements using ChatGPT. Using the same six questions, we conducted interview-based surveys with five RE experts from academia and industry and collected 30 responses containing requirements. The quality of these 36 responses (human-formulated + ChatGPT-generated) was evaluated over seven different requirements quality attributes by another five RE experts through a second round of interview-based surveys. In comparing the quality of requirements generated by ChatGPT with those formulated by human experts, we found that ChatGPT-generated requirements are highly Abstract, Atomic, Consistent, Correct, and Understandable. Based on these results, we present the most pressing issues related to LLMs and what future research should focus on to leverage the emergent behaviour of LLMs more effectively in natural language-based RE activities.
翻訳日:2023-10-23 17:35:06 公開日:2023-07-14
# 大規模言語モデルによるソフトウェアテスト:サーベイ、ランドスケープ、ビジョン

Software Testing with Large Language Model: Survey, Landscape, and Vision ( http://arxiv.org/abs/2307.07221v1 )

ライセンス: Link先を確認
Junjie Wang, Yuchao Huang, Chunyang Chen, Zhe Liu, Song Wang, Qing Wang(参考訳) 事前訓練された大規模言語モデル(LLM)は、最近、自然言語処理と人工知能のブレークスルー技術として登場し、大規模なデータセットを処理し、幅広いタスクにわたって顕著なパフォーマンスを示すことができる。 一方、ソフトウェアテストは、ソフトウェア製品の品質と信頼性を確保するための基礎となる重要な仕事である。 ソフトウェアシステムのスコープと複雑さが拡大し続ければ、より効果的なソフトウェアテスト技術の必要性がますます緊急になり、LLMの使用のような革新的なアプローチに欠かせない領域になる。 本稿では,ソフトウェアテストにおけるllmの利用について概観する。 ソフトウェアテストとLLMの両方の観点から、ソフトウェアテストにLLMを使用した52の関連研究を分析している。 本稿では,LLMが一般的に使用されているソフトウェアテストタスクについて,テストケースの準備とプログラムの修復が代表的課題であることを示す。 また、一般的に使われているLLM、採用されるプロンプトエンジニアリングのタイプ、およびこれらLLMに付随する技術も分析する。 また、この方向性における重要な課題と潜在的な機会をまとめている。 この作業は、この領域における将来の研究のロードマップとして機能し、探究の潜在的な方法を強調し、ソフトウェアテストにおけるLLMの使用に関する現在の理解におけるギャップを特定します。

Pre-trained large language models (LLMs) have recently emerged as a breakthrough technology in natural language processing and artificial intelligence, with the ability to handle large-scale datasets and exhibit remarkable performance across a wide range of tasks. Meanwhile, software testing is a crucial undertaking that serves as a cornerstone for ensuring the quality and reliability of software products. As the scope and complexity of software systems continue to grow, the need for more effective software testing techniques becomes increasingly urgent, and making it an area ripe for innovative approaches such as the use of LLMs. This paper provides a comprehensive review of the utilization of LLMs in software testing. It analyzes 52 relevant studies that have used LLMs for software testing, from both the software testing and LLMs perspectives. The paper presents a detailed discussion of the software testing tasks for which LLMs are commonly used, among which test case preparation and program repair are the most representative ones. It also analyzes the commonly used LLMs, the types of prompt engineering that are employed, as well as the accompanied techniques with these LLMs. It also summarizes the key challenges and potential opportunities in this direction. This work can serve as a roadmap for future research in this area, highlighting potential avenues for exploration, and identifying gaps in our current understanding of the use of LLMs in software testing.
翻訳日:2023-10-23 17:34:43 公開日:2023-07-14
# 分散型アジャイルソフトウェアテストライフサイクルのためのブロックチェーンベースのフレームワーク

A Blockchain-Based Framework for Distributed Agile Software Testing Life Cycle ( http://arxiv.org/abs/2307.07212v1 )

ライセンス: Link先を確認
Muhammad Shoaib Farooq, Fatima Ahmed(参考訳) 分散アジャイルソフトウェアテストライフサイクルのためのブロックチェーンベースのフレームワークは、ソフトウェアテストプロセスの最適化にブロックチェーン技術を使用する革新的なアプローチである。 これまでは、ソフトウェアテストにおけるコミュニケーションやコラボレーションの課題に対処するためにさまざまな方法が用いられていましたが、信頼、トレーサビリティ、セキュリティといった面では不十分でした。 さらに、プロジェクトの失敗の大きな原因は、開発者によるユニットテストの非補完であり、テストが遅れることであった。 ソフトウェアテストにおけるブロックチェーン技術の統合は、透明性、信頼、調整、コミュニケーションに関する重要な懸念を解決する。 TestingPlusという名前のブロックチェーンベースのフレームワークを提案しました。 TestingPlusフレームワークはブロックチェーン技術を利用して、受け入れテストと支払い検証のためのセキュアで透明なプラットフォームを提供する。 プライベートなethereumブロックチェーン上でスマートコントラクトを活用することで、testingplusは、テストチームと開発チームの両方が共通の目標に向かって作業しており、貢献に対して公平に補償されていることを保証するのに役立つ。

A blockchain-based framework for distributed agile software testing life cycle is an innovative approach that uses blockchain technology to optimize the software testing process. Previously, various methods were employed to address communication and collaboration challenges in software testing, but they were deficient in aspects such as trust, traceability, and security. Additionally, a significant cause of project failure was the non-completion of unit testing by developers, leading to delayed testing. This paper integration of blockchain technology in software testing resolves critical concerns related to transparency, trust, coordination, and communication. We have proposed a blockchain based framework named as TestingPlus. TestingPlus framework utilizes blockchain technology to provide a secure and transparent platform for acceptance testing and payment verification. By leveraging smart contracts on a private Ethereum blockchain, TestingPlus can help to ensure that both the testing team and the development team are working towards a common goal and are compensated fairly for their contributions.
翻訳日:2023-10-23 17:34:22 公開日:2023-07-14
# 会話が仕事になるとき:githubの議論と課題を変換した分類法

When Conversations Turn Into Work: A Taxonomy of Converted Discussions and Issues in GitHub ( http://arxiv.org/abs/2307.07117v1 )

ライセンス: Link先を確認
Dong Wang, Masanari Kondo, Yasutaka Kamei, Raula Gaikovina Kula, Naoyasu Ubayashi(参考訳) ポピュラーで大規模な同時代のオープンソースプロジェクトは、コミュニケーションチャネルのための様々なドキュメントを取り入れている。 例えば、コントリビューションガイドライン(コミットメッセージガイドライン、コーディングルール、提出ガイドライン)、行動規範(ルールと行動期待)、ガバナンスポリシー、Q&Aフォーラムなどがある。 2020年、GitHubはコミュニケーションとコラボレーションを区別するディスカッションをリリースした。 しかし、開発者はこれらのチャネルをどのように維持するか、どのくらいの簡単さ、変換を決定するのに時間がかかるかは、まだ不明である。 259 NPMと148 PyPIリポジトリに関する実証的研究を行い、議論を問題と逆転に転換する理由の2つの分類を考案した。 議論から問題への最も頻繁な変換は、開発者がコントリビュータに自身のアイデアを問題に明確化するように要求する(それぞれ、明確化要求 -35.1% と 34.7% を報告する)のに対して、非アクション可能なトピック (それぞれ、qa、アイデア、機能要求 -55.0% と 42.0% ) を持つことが、問題を議論に変換する最も頻繁な理由である、という点である。 さらに、変換のすべての理由が自明であるとは限らない(例えば、バグではない)し、変換意図の立ち上げには時間がかかる可能性がある(つまり、問題から議論まで、それぞれ15.2時間と35.1時間の中央値)。 当社の作業はGitHubのガイドラインを補完し、開発者がイシューとディスカッションのコミュニケーションチャネルを効果的に活用してコラボレーションを維持するのに役立ちます。

Popular and large contemporary open-source projects now embrace a diverse set of documentation for communication channels. Examples include contribution guidelines (i.e., commit message guidelines, coding rules, submission guidelines), code of conduct (i.e., rules and behavior expectations), governance policies, and Q&A forum. In 2020, GitHub released Discussion to distinguish between communication and collaboration. However, it remains unclear how developers maintain these channels, how trivial it is, and whether deciding on conversion takes time. We conducted an empirical study on 259 NPM and 148 PyPI repositories, devising two taxonomies of reasons for converting discussions into issues and vice-versa. The most frequent conversion from a discussion to an issue is when developers request a contributor to clarify their idea into an issue (Reporting a Clarification Request -35.1% and 34.7%, respectively), while agreeing that having non actionable topic (QA, ideas, feature requests -55.0% and 42.0%, respectively}) is the most frequent reason of converting an issue into a discussion. Furthermore, we show that not all reasons for conversion are trivial (e.g., not a bug), and raising a conversion intent potentially takes time (i.e., a median of 15.2 and 35.1 hours, respectively, taken from issues to discussions). Our work contributes to complementing the GitHub guidelines and helping developers effectively utilize the Issue and Discussion communication channels to maintain their collaboration.
翻訳日:2023-10-23 17:34:04 公開日:2023-07-14
# React以上のもの - GitHubプルリクエストにおける絵文字反応の役割の調査

More Than React: Investigating The Role of Emoji Reaction in GitHub Pull Requests ( http://arxiv.org/abs/2307.07111v1 )

ライセンス: Link先を確認
Dong Wang, Tao Xiao, Teyon Son, Raula Gaikovina Kula, Takashi Ishio, Yasutaka Kamei, Kenichi Matsumoto(参考訳) オープンソースソフトウェア開発は、より社会的で協力的で明らかにGitHubになっている。 2016年からgithubは、レポジトリへのコード変更のレビュー時にコメントのノイズを減らすことを目的として、絵文字リアクションなどの非公式なメソッドのサポートを開始した。 コードレビューのコンテキストから、絵文字の反応がより効率的なレビュープロセスを促進する程度は不明である。 7つの人気言語にまたがる1,850件のアクティブリポジトリを発掘し、レビュー時間、初回投稿者、コメント意図、感情の一貫性に対する絵文字反応について365,811件のプルリクエスト(prs)を分析した。 これら4つの研究観点に答えると、まず、絵文字反応の回数がレビュー時間と有意な相関があることが分かる。 第2に,最初の投稿者が投稿したprは絵文字の反応を受ける確率が低かった。 第3に、情報提供の意図のあるコメントは絵文字の反応を受ける可能性が高いことが判明した。 第4に、少数の感情だけがコメントと絵文字の反応に一致していないこと、つまり11.8%のインスタンスが特定されていることを観察する。 これらのケースでは、レビュアーが間違いを認める著者、すなわち間違いを認める著者を応援するのが一般的な理由である。 コメントのノイズを減らすこととは別に、われわれの研究は絵文字の反応がレビュープロセス中に協調コミュニケーションを促進するのにプラスの役割を果たすことを示唆している。

Open source software development has become more social and collaborative, evident GitHub. Since 2016, GitHub started to support more informal methods such as emoji reactions, with the goal to reduce commenting noise when reviewing any code changes to a repository. From a code review context, the extent to which emoji reactions facilitate a more efficient review process is unknown. We conduct an empirical study to mine 1,850 active repositories across seven popular languages to analyze 365,811 Pull Requests (PRs) for their emoji reactions against the review time, first-time contributors, comment intentions, and the consistency of the sentiments. Answering these four research perspectives, we first find that the number of emoji reactions has a significant correlation with the review time. Second, our results show that a PR submitted by a first-time contributor is less likely to receive emoji reactions. Third, the results reveal that the comments with an intention of information giving, are more likely to receive an emoji reaction. Fourth, we observe that only a small proportion of sentiments are not consistent between comments and emoji reactions, i.e., with 11.8% of instances being identified. In these cases, the prevalent reason is when reviewers cheer up authors that admit to a mistake, i.e., acknowledge a mistake. Apart from reducing commenting noise, our work suggests that emoji reactions play a positive role in facilitating collaborative communication during the review process.
翻訳日:2023-10-23 17:33:31 公開日:2023-07-14
# BehAVExplor: 自律運転システムのための行動多様性ガイドテスト

BehAVExplor: Behavior Diversity Guided Testing for Autonomous Driving Systems ( http://arxiv.org/abs/2307.07493v1 )

ライセンス: Link先を確認
Mingfei Cheng, Yuan Zhou, Xiaofei Xie(参考訳) 自律運転システム(ADS)のテストは、自動運転車の信頼性と安全性を確保するための重要なタスクである。 既存の手法では,生成したテストケースの多様性が無視され,冗長なテストケースや障害が発生する可能性があるため,主に安全性違反の検索に重点を置いている。 このような冗長な障害は、テストのパフォーマンスを低下させ、障害解析コストを増大させる。 本稿では,ego車両(すなわち,試験中の広告によって制御される車両)の挙動を探索し,多様な違反を検出する新しい行動誘導型ファズリング手法(behavexplor)を提案する。 具体的には,エゴ車両の挙動を特徴付けるための効率的な非教師付きモデルであるBehaviorMinerを設計する。 BehaviorMinerは与えられたシナリオから時間的特徴を抽出し、類似した特徴を持つグループ動作を抽象化ステートにクラスタリングベースの抽象化を実行する。 新たな動作(例えば、新しい抽象状態をカバーする)を引き起こすと、新しいテストケースがシードコーパスに追加される。 行動の多様性と一般的な違反フィードバックとの潜在的な衝突により、種選択と突然変異を導くためのエネルギー機構も提案する。 種子のエネルギーは、その良さを定量化する。 産業レベルのADSとLGSVLシミュレーション環境であるApollo上でBehAVExplorを評価した。 経験的評価の結果, behaviorxplor は最先端技術よりもより多様な違反を効果的に発見できることがわかった。

Testing Autonomous Driving Systems (ADSs) is a critical task for ensuring the reliability and safety of autonomous vehicles. Existing methods mainly focus on searching for safety violations while the diversity of the generated test cases is ignored, which may generate many redundant test cases and failures. Such redundant failures can reduce testing performance and increase failure analysis costs. In this paper, we present a novel behavior-guided fuzzing technique (BehAVExplor) to explore the different behaviors of the ego vehicle (i.e., the vehicle controlled by the ADS under test) and detect diverse violations. Specifically, we design an efficient unsupervised model, called BehaviorMiner, to characterize the behavior of the ego vehicle. BehaviorMiner extracts the temporal features from the given scenarios and performs a clustering-based abstraction to group behaviors with similar features into abstract states. A new test case will be added to the seed corpus if it triggers new behaviors (e.g., cover new abstract states). Due to the potential conflict between the behavior diversity and the general violation feedback, we further propose an energy mechanism to guide the seed selection and the mutation. The energy of a seed quantifies how good it is. We evaluated BehAVExplor on Apollo, an industrial-level ADS, and LGSVL simulation environment. Empirical evaluation results show that BehAVExplor can effectively find more diverse violations than the state-of-the-art.
翻訳日:2023-10-23 17:22:48 公開日:2023-07-14
# トレーサビリティを活用して安全分析成果物をソフトウェア開発プロセスに統合する

Leveraging Traceability to Integrate Safety Analysis Artifacts into the Software Development Process ( http://arxiv.org/abs/2307.07437v1 )

ライセンス: Link先を確認
Ankit Agrawal and Jane Cleland-Huang(参考訳) 安全クリティカルシステムの故障や故障は、人間の生命の喪失や物理的環境の損傷を引き起こす可能性があるため、このようなシステムには継続的な安全性評価が不可欠である。 多くのドメインでは、システムは安全であるという構造化された議論として安全保証ケース(SAC)の使用を含んでいる。 sacは、安全性分析とシステム開発プロセスが切り離されているため、システム進化の間は維持が困難である。 さらに、安全アナリストはSACを評価するためのドメイン知識とツールサポートを欠いていることが多い。 ソフトウェアトレーサビリティを活用して,関連するシステムアーティファクトを安全解析モデルに接続し,これらの接続を用いて変更を可視化する手法を提案する。 安全ステークホルダーがシステム変更が安全性に与える影響を分析するのに役立つシステム変更の設計根拠を明らかにする。 安全解析とシステム開発プロセスの緊密な統合のための新しいトレーサビリティ技術を提案し、緊急対応のために無人航空機を配備するサイバー物理システムの例を用いて、我々のアプローチの生存可能性を示す。

Safety-critical system's failure or malfunction can cause loss of human lives or damage to the physical environment; therefore, continuous safety assessment is crucial for such systems. In many domains this includes the use of Safety assurance cases (SACs) as a structured argument that the system is safe for use. SACs can be challenging to maintain during system evolution due to the disconnect between the safety analysis and system development process. Further, safety analysts often lack domain knowledge and tool support to evaluate the SAC. We propose a solution that leverages software traceability to connect relevant system artifacts to safety analysis models, and then uses these connections to visualize the change. We elicit design rationales for system changes to help safety stakeholders analyze the impact of system changes on safety. We present new traceability techniques for closer integration of the safety analysis and system development process, and illustrate the viability of our approach using examples from a cyber-physical system that deploys Unmanned Aerial Vehicles for emergency response.
翻訳日:2023-10-23 17:22:25 公開日:2023-07-14
# EM(otion En)gineを起動する: ビデオゲームノンプレイヤーキャラクタの信頼性向上のための感情の計算モデルを目指して

Start Your EM(otion En)gine: Towards Computational Models of Emotion for Improving the Believability of Video Game Non-Player Characters ( http://arxiv.org/abs/2307.10031v1 )

ライセンス: Link先を確認
Geneva M. Smith(参考訳) 非プレイヤーキャラクタ(NPC)は、プレイヤーが物語駆動のゲームでエンゲージメントを動機付けるのに役立つ。 信じられるキャラクターの重要な側面は、状況の変化に対する文脈的に関連した反応である。 したがって、NPCに「感情」を与えると、その信頼性が向上する。 業界での採用には、現在の開発プラクティスに適合する“感情を持った”NPCを構築するためのツール開発プロセスを構築することが重要です。 感情科学の基盤となる心理的妥当性は、もっともらしい感情駆動NPC行動に必要な品質である。 感情の計算モデル(cmes)は、その設計に少なくとも1つの感情理論/モデルを使っているため、一つの解決策である。 しかし、CME開発は、そのプロセスが非体系的で未定義のように見えるように文書化されがちである。 これにより、CMEのコンポーネントを再利用したり、拡張したりスケールしたり、あるいはCMEを比較するのが難しくなります。 This work draws from software engineering to propose three methods for acknowledging and limiting subjectivity in CME development to improve their reusability, maintainability, and verifiability: a systematic, document analysis-based methodology for choosing a CME's underlying affective theories/models using its high-level design goals and design scope, which critically influence a CME's functional requirements; an approach for transforming natural language descriptions of affective theories into a type-based formal model using an intermediate, second natural language description refining the original descriptions and showing where and what assumptions informed the formalization; and a literary character analysis-based methodology for developing acceptance test cases with known believable characters from professionally-crafted stories that do not rely on specific CME designs. npc感情を生成するゲーム開発cmeであるemgineの開発は、これらの手法を実践している。

Believable Non-Player Characters (NPCs) help motivate player engagement with narrative-driven games. An important aspect of believable characters is their contextually-relevant reactions to changing situations, which emotion often drives in humans. Therefore, giving NPCs "emotion" should enhance their believability. For adoption in industry, it is important to create tool development processes to build NPCs "with emotion" that fit current development practices. Psychological validity-the grounding in affective science-is a necessary quality for plausible emotion-driven NPC behaviours. Computational Models of Emotion (CMEs) are one solution because they use at least one affective theory/model in their design. However, CME development tends to be under documented so that its processes seem unsystematic and poorly defined. This makes it difficult to reuse a CME's components, extend or scale them, or compare CMEs. This work draws from software engineering to propose three methods for acknowledging and limiting subjectivity in CME development to improve their reusability, maintainability, and verifiability: a systematic, document analysis-based methodology for choosing a CME's underlying affective theories/models using its high-level design goals and design scope, which critically influence a CME's functional requirements; an approach for transforming natural language descriptions of affective theories into a type-based formal model using an intermediate, second natural language description refining the original descriptions and showing where and what assumptions informed the formalization; and a literary character analysis-based methodology for developing acceptance test cases with known believable characters from professionally-crafted stories that do not rely on specific CME designs. Development of EMgine, a game development CME for generating NPC emotions, shows these methods in practice.
翻訳日:2023-10-23 17:03:49 公開日:2023-07-14
# ISAC-NET:パッシブセンシングとコミュニケーションのためのモデル駆動型ディープラーニング

ISAC-NET: Model-driven Deep Learning for Integrated Passive Sensing and Communication ( http://arxiv.org/abs/2307.15074v1 )

ライセンス: Link先を確認
Wangjun Jiang and Dingyou Ma and Zhiqing Wei and Zhiyong Feng and Ping Zhang(参考訳) センサ能力の膨大な要求を伴う無線通信の最近の進歩は、パッシブセンシングが重要な役割を果たす統合センシング・アンド・コミュニケーション(isac)技術を生み出した。 パッシブセンシングの主な課題は、通信復調エラーの状況において、高いセンシング性能を達成する方法である。 本稿では、モデル駆動型ディープラーニング(DL)を用いた受動センシングと通信信号検出を組み合わせたISACネットワーク(ISAC-NET)を提案する。 送信されたシンボルを最初に復調し、復調されたシンボルから受動センシング結果を得る既存の受動センシングアルゴリズムと異なり、isac-netは受動センシング結果と通信復調されたシンボルを同時に得る。 データ駆動型DL法と異なり、ISAC-NETを受動的センシングモジュール、信号検出モジュール、チャネル再構成モジュールに分割するブロックバイブロック信号処理法を採用する。 シミュレーション結果から、ISAC-NETはOAMP-Net2に近い従来の信号復調アルゴリズムよりも優れた通信性能を得る。 2D-DFTアルゴリズムと比較すると、ISAC-NETはセンシング性能を著しく向上させる。 まとめると、ISAC-NETは無線通信における受動的センシングと通信のための有望なツールである。

Recent advances in wireless communication with the enormous demands of sensing ability have given rise to the integrated sensing and communication (ISAC) technology, among which passive sensing plays an important role. The main challenge of passive sensing is how to achieve high sensing performance in the condition of communication demodulation errors. In this paper, we propose an ISAC network (ISAC-NET) that combines passive sensing with communication signal detection by using model-driven deep learning (DL). Dissimilar to existing passive sensing algorithms that first demodulate the transmitted symbols and then obtain passive sensing results from the demodulated symbols, ISAC-NET obtains passive sensing results and communication demodulated symbols simultaneously. Different from the data-driven DL method, we adopt the block-by-block signal processing method that divides the ISAC-NET into the passive sensing module, signal detection module and channel reconstruction module. From the simulation results, ISAC-NET obtains better communication performance than the traditional signal demodulation algorithm, which is close to OAMP-Net2. Compared to the 2D-DFT algorithm, ISAC-NET demonstrates significantly enhanced sensing performance. In summary, ISAC-NET is a promising tool for passive sensing and communication in wireless communications.
翻訳日:2023-08-06 11:32:59 公開日:2023-07-14
# ドメインインフォームド事前分布と共変量シフトによる薬物発見

Drug Discovery under Covariate Shift with Domain-Informed Prior Distributions over Functions ( http://arxiv.org/abs/2307.15073v1 )

ライセンス: Link先を確認
Leo Klarner, Tim G. J. Rudner, Michael Reutlinger, Torsten Schindler, Garrett M. Morris, Charlotte Deane, Yee Whye Teh(参考訳) 新規で効果的な治療法の発見を加速することは、深層学習がますます重要な役割を担っている重要な薬学問題である。 しかしながら、現実世界の薬物発見タスクは、ラベル付きデータの不足と、標準的なディープラーニング手法に挑戦する重要な共変量シフト$\unicode{x2013}\unicode{x2013}$aによって特徴づけられることが多い。 本稿では,データ生成プロセスの明示的な事前知識を関数上の事前分布にエンコードすることで,これらの課題に対処可能な確率モデルであるq-saviを提案する。 本研究では,外挿体制下でのモデルの比較を容易にする新しい金標準バイオアクティビティーデータセットを構築し,データシフトを誘発し,挑戦的な評価設定を構築するための異なるアプローチを検討する。 次に,q-saviを用いて薬物様化学空間の事前知識をモデリングプロセスに統合することにより,予測精度とキャリブレーションの大幅な向上が期待できることを示した。

Accelerating the discovery of novel and more effective therapeutics is an important pharmaceutical problem in which deep learning is playing an increasingly significant role. However, real-world drug discovery tasks are often characterized by a scarcity of labeled data and significant covariate shift$\unicode{x2013}\unicode{x2013}$a setting that poses a challenge to standard deep learning methods. In this paper, we present Q-SAVI, a probabilistic model able to address these challenges by encoding explicit prior knowledge of the data-generating process into a prior distribution over functions, presenting researchers with a transparent and probabilistically principled way to encode data-driven modeling preferences. Building on a novel, gold-standard bioactivity dataset that facilitates a meaningful comparison of models in an extrapolative regime, we explore different approaches to induce data shift and construct a challenging evaluation setup. We then demonstrate that using Q-SAVI to integrate contextualized prior knowledge of drug-like chemical space into the modeling process affords substantial gains in predictive accuracy and calibration, outperforming a broad range of state-of-the-art self-supervised pre-training and domain adaptation techniques.
翻訳日:2023-08-06 11:32:20 公開日:2023-07-14
# ChatGPTの公正性と説明可能なプロンプトの役割

Fairness of ChatGPT and the Role Of Explainable-Guided Prompts ( http://arxiv.org/abs/2307.11761v1 )

ライセンス: Link先を確認
Yashar Deldjoo(参考訳) 本稿では,大規模言語モデル(LLM),特に OpenAI の GPT の信用リスク評価における可能性について検討する。 この結果から,LLMは従来の機械学習(ML)モデルの性能を並列化できる可能性が示唆された。 興味深いことに、MLの800に対して20のデータポイントしか利用せず、データ-40倍の差でこれを実現する。 LLMは特に偽陽性の最小化と公正性の向上に優れており、どちらもリスク分析の重要な側面である。 研究結果は従来のMLモデルを上回るものではなかったが、類似タスクにおけるLLMの可能性を強調し、多様なMLタスクにおいてLLMの能力を活用するための今後の研究の基盤を築き上げた。

Our research investigates the potential of Large-scale Language Models (LLMs), specifically OpenAI's GPT, in credit risk assessment-a binary classification task. Our findings suggest that LLMs, when directed by judiciously designed prompts and supplemented with domain-specific knowledge, can parallel the performance of traditional Machine Learning (ML) models. Intriguingly, they achieve this with significantly less data-40 times less, utilizing merely 20 data points compared to the ML's 800. LLMs particularly excel in minimizing false positives and enhancing fairness, both being vital aspects of risk analysis. While our results did not surpass those of classical ML models, they underscore the potential of LLMs in analogous tasks, laying a groundwork for future explorations into harnessing the capabilities of LLMs in diverse ML tasks.
翻訳日:2023-07-30 04:27:20 公開日:2023-07-14
# Sensi-BERT:パラメータ効率の良いBERTの感度駆動微調整に向けて

Sensi-BERT: Towards Sensitivity Driven Fine-Tuning for Parameter-Efficient BERT ( http://arxiv.org/abs/2307.11764v1 )

ライセンス: Link先を確認
Souvik Kundu, Sharath Sridhar Nittur, Maciej Szankin, Sairam Sundaresan(参考訳) 大規模な事前学習型言語モデルは、テキスト分類や質問応答といった下流タスクのパフォーマンスが向上し、微調整がほとんど必要とされないため、最近大きな注目を集めている。 しかし、その大きなモデルサイズはリソース制約のあるエッジデバイスへの適用をしばしば禁止している。 既存のパラメータ効率の良いBERTモデルの解は、主に計算訓練と微調整に頼っている。 さらに、パフォーマンスギャップを軽減するために、追加の計算ヘビーモデルに依存することが多い。 本稿では,市販の事前学習されたbertモデルを取り込んで,下流タスクに高いパラメータ効率のモデルを与える,bertモデルの感度駆動効率の良い微調整であるsensi-bertを提案する。 特に,各パラメータテンソルをランク付けするために感度解析を行い,与えられたパラメータやフロップス予算の微調整時にそれに対応するために使用する。 実験では, mnli, qqp, qnli, sst-2などの下流タスクにおけるsensi-bertの有効性を示し, 既存の代替案と比較して, パラメータ予算の類似性, 小型化が期待できることを示した。

Large pre-trained language models have recently gained significant traction due to their improved performance on various down-stream tasks like text classification and question answering, requiring only few epochs of fine-tuning. However, their large model sizes often prohibit their applications on resource-constrained edge devices. Existing solutions of yielding parameter-efficient BERT models largely rely on compute-exhaustive training and fine-tuning. Moreover, they often rely on additional compute heavy models to mitigate the performance gap. In this paper, we present Sensi-BERT, a sensitivity driven efficient fine-tuning of BERT models that can take an off-the-shelf pre-trained BERT model and yield highly parameter-efficient models for downstream tasks. In particular, we perform sensitivity analysis to rank each individual parameter tensor, that then is used to trim them accordingly during fine-tuning for a given parameter or FLOPs budget. Our experiments show the efficacy of Sensi-BERT across different downstream tasks including MNLI, QQP, QNLI, and SST-2, demonstrating better performance at similar or smaller parameter budget compared to various existing alternatives.
翻訳日:2023-07-30 04:16:08 公開日:2023-07-14
# 人間-ロボットインタラクションにおける信頼回復の再考

Rethinking Trust Repair in Human-Robot Interaction ( http://arxiv.org/abs/2307.11763v1 )

ライセンス: Link先を確認
Connor Esterwood(参考訳) 作業指向のコラボレーションでロボットが普及するにつれ、信頼は受け入れと有効性において重要な要素として現れてきた。 しかし、信頼は動的であり、ミスが発生したときに損なわれる可能性がある。 人間とロボットの相互作用における信頼回復の研究が最近始まったが、信頼侵害が発生した後もロボットの信頼回復のための信頼性の高いアプローチを特定することについて重要な疑問が残る。 本研究の目的は,HRI(Human-robot Interaction)の修復を信頼できるロボットを設計するための効果的な戦略を特定し,これらの戦略を成功させるメカニズムを探ることである。 本稿では,HRIにおける信頼修復プロセスの基本的な概念と鍵となる構成要素について概説するとともに,この領域における私の現在の著作の概要について述べる。 さらに、私の今後の業績を導く研究課題と、この研究がこの分野にもたらしうる潜在的な貢献について論じます。

As robots become increasingly prevalent in work-oriented collaborations, trust has emerged as a critical factor in their acceptance and effectiveness. However, trust is dynamic and can erode when mistakes are made. Despite emerging research on trust repair in human-robot interaction, significant questions remain about identifying reliable approaches to restoring trust in robots after trust violations occur. To address this problem, my research aims to identify effective strategies for designing robots capable of trust repair in human-robot interaction (HRI) and to explore the underlying mechanisms that make these strategies successful. This paper provides an overview of the fundamental concepts and key components of the trust repair process in HRI, as well as a summary of my current published work in this area. Additionally, I discuss the research questions that will guide my future work and the potential contributions that this research could make to the field.
翻訳日:2023-07-30 04:15:47 公開日:2023-07-14
# 類似性に基づくメモリ強化ジョイントエンティティと関係抽出

Similarity-based Memory Enhanced Joint Entity and Relation Extraction ( http://arxiv.org/abs/2307.11762v1 )

ライセンス: Link先を確認
Witold Kosciukiewicz, Mateusz Wojcik, Tomasz Kajdanowicz, Adam Gonczarek(参考訳) 文書レベルの結合エンティティと関係抽出は、単一のニューラルネットワークが4つのサブタスク(参照検出、コリファレンス解決、エンティティ分類、関係抽出)を実行する統一的なアプローチを必要とする、難しい情報抽出問題である。 既存の手法では、任意分解によって現在のタスクが前のタスクにのみ依存し、それらの間のより複雑な関係の存在を欠くような、シーケンシャルなマルチタスク学習アプローチを用いることが多い。 本稿では,これらの欠点に対処し,より正確な共同処理を行うために,タスク間の双方向メモリのような依存性を持つマルチタスク学習フレームワークを提案する。 実験により,提案手法は既存の手法より優れており,BioCreative V CDRコーパスの最先端結果が得られた。

Document-level joint entity and relation extraction is a challenging information extraction problem that requires a unified approach where a single neural network performs four sub-tasks: mention detection, coreference resolution, entity classification, and relation extraction. Existing methods often utilize a sequential multi-task learning approach, in which the arbitral decomposition causes the current task to depend only on the previous one, missing the possible existence of the more complex relationships between them. In this paper, we present a multi-task learning framework with bidirectional memory-like dependency between tasks to address those drawbacks and perform the joint problem more accurately. Our empirical studies show that the proposed approach outperforms the existing methods and achieves state-of-the-art results on the BioCreative V CDR corpus.
翻訳日:2023-07-30 04:15:32 公開日:2023-07-14
# CAMP: コンテキスト対応クリケットプレーヤーのパフォーマンス指標

CAMP: A Context-Aware Cricket Players Performance Metric ( http://arxiv.org/abs/2307.13700v1 )

ライセンス: Link先を確認
Muhammad Sohaib Ayub, Naimat Ullah, Sarwan Ali, Imdad Ullah Khan, Mian Muhammad Awais, Muhammad Asad Khan and Safiullah Faizullah(参考訳) クリケットはサッカーに次いで2番目に人気のあるスポーツである。 しかしながら、チームスポーツにおける基本的なタスクである個々の選手のパフォーマンス評価は、主に平均ラン数やウィケットの総合的なパフォーマンス統計に基づいている。 我々は,クリケットマッチ結果に対する個々の選手の貢献度を定量化するために,プレイヤーパフォーマンスのコンテキスト対応指標であるCAMPを提案する。 CAMPはデータマイニング手法を採用し、選択とドラフト、コーチングとトレーニング、チームラインアップ、戦略開発に効果的なデータ駆動意思決定を可能にする。 CAMPは、相手の強みやプレッシャー状況のようなゲームの特定の状況など、パフォーマンスの正確なコンテキストを取り入れている。 2001年から2019年にかけてのクリケットの試合データからCAMPを実験的に評価した。 すべての試合において、専門家委員会が1人のプレイヤーを「マン・オブ・ザ・M}atch」(MoM)と宣言する。 CAMPによる上位2人のプレイヤーは961試合中83.%でMoMと対戦した。 したがって、最高のプレイヤーのCAMP評価はドメインの専門家のものと密接に一致している。 この測定により、CAMPはDuckworth-Lewis-Stern (DLS)法に基づいて、現在最もよく知られているプレーヤーの貢献度を著しく上回る。

Cricket is the second most popular sport after soccer in terms of viewership. However, the assessment of individual player performance, a fundamental task in team sports, is currently primarily based on aggregate performance statistics, including average runs and wickets taken. We propose Context-Aware Metric of player Performance, CAMP, to quantify individual players' contributions toward a cricket match outcome. CAMP employs data mining methods and enables effective data-driven decision-making for selection and drafting, coaching and training, team line-ups, and strategy development. CAMP incorporates the exact context of performance, such as opponents' strengths and specific circumstances of games, such as pressure situations. We empirically evaluate CAMP on data of limited-over cricket matches between 2001 and 2019. In every match, a committee of experts declares one player as the best player, called Man of the M}atch (MoM). The top two rated players by CAMP match with MoM in 83\% of the 961 games. Thus, the CAMP rating of the best player closely matches that of the domain experts. By this measure, CAMP significantly outperforms the current best-known players' contribution measure based on the Duckworth-Lewis-Stern (DLS) method.
翻訳日:2023-07-30 04:08:08 公開日:2023-07-14
# ソーシャルメディアにおける顧客インサイト獲得のためのトピック的アプローチ

A Topical Approach to Capturing Customer Insight In Social Media ( http://arxiv.org/abs/2307.11775v1 )

ライセンス: Link先を確認
Miguel Palencia-Olivar(参考訳) ソーシャルメディアの時代は、ビジネスに新たな機会をもたらした。 この豊富な情報は、マーケティングミックスモデリング(MMM)を含む古典的なマーケティング研究の伝統的なチャンネルやフレームワークの外にある。 特にテキストデータは、データ分析の実践者が取り組むべき多くの課題をもたらす。 ソーシャルメディアは、巨大で異質で、騒がしい文書ソースである。 産業データ取得プロセスには、ある程度のetlが含まれている。 しかし、データ中のノイズの変動と異なるソースによって誘導される異質性は、アドホックツールの必要性を生んでいる。 さもなくば、完全に教師なしで騒がしいコンテキストにおける顧客洞察の抽出は大変な作業です。 この研究は、ノイズの多いビッグデータコンテキストにおける、完全に教師なしのトピック抽出の課題に対処する。 本稿では,組込みディリクレプロセス,組込み階層ディリクレプロセス,動的組込みディリクレプロセスという,変分自動エンコーダフレームワーク上に構築した3つのアプローチを提案する。 これらのトピックに関する非パラメトリックなアプローチは、単語埋め込みとトピック埋め込みを決定する特殊性を示している。 これらの埋め込みは転送学習を必要としないが、知識の転送は可能である。 これらのアプローチを,実世界のユースケースからベンチマークおよび自動車産業関連データセットでテストする。 提案手法は最先端手法と同等の性能を達成し,トピックモデリングの分野は評価指標の改善の恩恵を受けることを示した。

The age of social media has opened new opportunities for businesses. This flourishing wealth of information is outside traditional channels and frameworks of classical marketing research, including that of Marketing Mix Modeling (MMM). Textual data, in particular, poses many challenges that data analysis practitioners must tackle. Social media constitute massive, heterogeneous, and noisy document sources. Industrial data acquisition processes include some amount of ETL. However, the variability of noise in the data and the heterogeneity induced by different sources create the need for ad-hoc tools. Put otherwise, customer insight extraction in fully unsupervised, noisy contexts is an arduous task. This research addresses the challenge of fully unsupervised topic extraction in noisy, Big Data contexts. We present three approaches we built on the Variational Autoencoder framework: the Embedded Dirichlet Process, the Embedded Hierarchical Dirichlet Process, and the time-aware Dynamic Embedded Dirichlet Process. These nonparametric approaches concerning topics present the particularity of determining word embeddings and topic embeddings. These embeddings do not require transfer learning, but knowledge transfer remains possible. We test these approaches on benchmark and automotive industry-related datasets from a real-world use case. We show that our models achieve equal to better performance than state-of-the-art methods and that the field of topic modeling would benefit from improved evaluation metrics.
翻訳日:2023-07-30 04:05:02 公開日:2023-07-14
# MDP Playground:強化学習のための分析とデバッグテストベッド

MDP Playground: An Analysis and Debug Testbed for Reinforcement Learning ( http://arxiv.org/abs/1909.07750v5 )

ライセンス: Link先を確認
Raghu Rajan, Jessica Lizeth Borja Diaz, Suresh Guttikonda, Fabio Ferreira, Andr\'e Biedenkapp, Jan Ole von Hartz and Frank Hutter(参考訳) MDP Playgroundは強化学習(Reinforcement Learning, RL)エージェントのためのテストベッドで、異なる方法でエージェントに挑戦し、おもちゃや複雑なRL環境で様々な硬さを得るために独立に制御できる。 我々は, 遅延報酬, シーケンス長, 報酬密度, 確率性, 画像表現, 無関係特徴, 時間単位, 行動範囲など, 様々な次元の制御を考察し, 許容する。 これらの次元を変化させて,openai体育館における高速実行環境のパラメタライズドコレクションを定義し,エージェントの理解を深める手法を提案する。 次に,MDP Playground を用いた実験を設計し,玩具環境に関する知見を得る方法を示す。 また、これらの寸法の多くをジム環境に注入できるラッパーも提供しています。 これらのラッパーをAtariとMujocoで実験することで、おもちゃの環境よりも複雑な環境に対するこれらの次元の影響を理解することができる。 また,その寸法が玩具や複雑な環境に与える影響も比較した。 最後に,MDP Playgroundを用いてエージェントをデバッグし,複数次元の相互作用を研究し,さらなるユースケースを説明する。

We present MDP Playground, a testbed for Reinforcement Learning (RL) agents with dimensions of hardness that can be controlled independently to challenge agents in different ways and obtain varying degrees of hardness in toy and complex RL environments. We consider and allow control over a wide variety of dimensions, including delayed rewards, sequence lengths, reward density, stochasticity, image representations, irrelevant features, time unit, action range and more. We define a parameterised collection of fast-to-run toy environments in OpenAI Gym by varying these dimensions and propose to use these to understand agents better. We then show how to design experiments using MDP Playground to gain insights on the toy environments. We also provide wrappers that can inject many of these dimensions into any Gym environment. We experiment with these wrappers on Atari and Mujoco to allow for understanding the effects of these dimensions on environments that are more complex than the toy environments. We also compare the effect of the dimensions on the toy and complex environments. Finally, we show how to use MDP Playground to debug agents, to study the interaction of multiple dimensions and describe further use-cases.
翻訳日:2023-07-23 12:35:20 公開日:2023-07-14
# ライダービュー合成と3次元再構成のための過渡的ニューラルラジアンス場

Transient Neural Radiance Fields for Lidar View Synthesis and 3D Reconstruction ( http://arxiv.org/abs/2307.09555v1 )

ライセンス: Link先を確認
Anagh Malik, Parsa Mirdehghan, Sotiris Nousias, Kiriakos N. Kutulakos, David B. Lindell(参考訳) ニューラルレイディアンス場(NeRF)は,マルチビュー画像からシーンの外観や形状をモデル化するためのユビキタスツールとなっている。 最近の研究は、NeRFフレームワークにおけるライダーや深度センサーのさらなる監視方法の活用も検討している。 しかし、従来のカメラ画像のレンダリングに重点を置いており、ライダー由来の点雲データを補助監督として使用しているため、ライダーの基盤となる画像形成モデルが組み込まれていない。 本稿では,光子数ヒストグラムを1光子ライダーシステムで測定した生の時間分解光子数ヒストグラムを入力として一過性NeRFを描画する手法を提案する。 従来のnerfとは異なり、このアプローチは体積レンダリング方程式の時間分解版に依存しており、lidarの測定をレンダリングし、ピコ秒の時間スケールで過渡光輸送現象を捉えている。 本手法は,プロトタイプの単一光子lidarを用いて,シミュレーションおよびキャプチャした過渡的マルチビュースキャンの初回型データセット上で評価する。 全体として、我々の研究は、NeRFを一過性の時間スケールで新しい次元のイメージングをもたらす。 また,入力視点の少ないトレーニングでは,ポイントクラウドによる監視に比べて,形状や外観が改善されていることを示す。 過渡性NeRFは、自律運転、ロボット工学、リモートセンシングにおける下流タスクの生ライダー計測をシミュレートするアプリケーションに特に有用である。

Neural radiance fields (NeRFs) have become a ubiquitous tool for modeling scene appearance and geometry from multiview imagery. Recent work has also begun to explore how to use additional supervision from lidar or depth sensor measurements in the NeRF framework. However, previous lidar-supervised NeRFs focus on rendering conventional camera imagery and use lidar-derived point cloud data as auxiliary supervision; thus, they fail to incorporate the underlying image formation model of the lidar. Here, we propose a novel method for rendering transient NeRFs that take as input the raw, time-resolved photon count histograms measured by a single-photon lidar system, and we seek to render such histograms from novel views. Different from conventional NeRFs, the approach relies on a time-resolved version of the volume rendering equation to render the lidar measurements and capture transient light transport phenomena at picosecond timescales. We evaluate our method on a first-of-its-kind dataset of simulated and captured transient multiview scans from a prototype single-photon lidar. Overall, our work brings NeRFs to a new dimension of imaging at transient timescales, newly enabling rendering of transient imagery from novel views. Additionally, we show that our approach recovers improved geometry and conventional appearance compared to point cloud-based supervision when training on few input viewpoints. Transient NeRFs may be especially useful for applications which seek to simulate raw lidar measurements for downstream tasks in autonomous driving, robotics, and remote sensing.
翻訳日:2023-07-23 12:08:51 公開日:2023-07-14
# オープンドメインチャットボットにおけるマルチターントックス挙動の理解

Understanding Multi-Turn Toxic Behaviors in Open-Domain Chatbots ( http://arxiv.org/abs/2307.09579v1 )

ライセンス: Link先を確認
Bocheng Chen, Guangjing Wang, Hanqing Guo, Yuanda Wang, Qiben Yan(参考訳) 自然言語処理と機械学習の最近の進歩は、チャットgptのようなチャットボットモデルの開発につながった。 しかしながら、これらのモデルが非毒性多ターン会話において有害または有害な応答を生成する能力は、未解決の研究課題である。 既存の研究では単ターン文のテストに焦点が当てられているが、会話中の有毒な行動を誘発する個々の非有毒文の82\%は、既存のツールによって安全であると考えられている。 本稿では、チャットボットを微調整して、ターゲットのオープンドメインチャットボットと対話させることにより、新たな攻撃である \toxicbotをデザインする。 チャットボットは、製作された会話シーケンスのコレクションで微調整される。 特に、各会話は、手作りのプロンプト文データセットからの文から始まる。 広範に評価した結果,マルチターン会話において,オープンドメインチャットボットモデルが有害反応を誘発する可能性が示唆された。 最良のシナリオでは、 \toxicbot は 67\% のアクティベーション率を達成している。 微調整段階の会話シーケンスは、会話の毒性を引き起こすのに役立ち、攻撃は2つの防御方法をバイパスすることができる。 本研究は,動的な対話環境におけるチャットボットの毒性について,さらなる研究が必要であることを示唆する。 提案する \toxicbot は,対話における有害反応の検出と緩和のための手法を開発し,エンドユーザーのためのチャットボットの堅牢性を向上させるために,業界と研究者の両方が利用できる。

Recent advances in natural language processing and machine learning have led to the development of chatbot models, such as ChatGPT, that can engage in conversational dialogue with human users. However, the ability of these models to generate toxic or harmful responses during a non-toxic multi-turn conversation remains an open research question. Existing research focuses on single-turn sentence testing, while we find that 82\% of the individual non-toxic sentences that elicit toxic behaviors in a conversation are considered safe by existing tools. In this paper, we design a new attack, \toxicbot, by fine-tuning a chatbot to engage in conversation with a target open-domain chatbot. The chatbot is fine-tuned with a collection of crafted conversation sequences. Particularly, each conversation begins with a sentence from a crafted prompt sentences dataset. Our extensive evaluation shows that open-domain chatbot models can be triggered to generate toxic responses in a multi-turn conversation. In the best scenario, \toxicbot achieves a 67\% activation rate. The conversation sequences in the fine-tuning stage help trigger the toxicity in a conversation, which allows the attack to bypass two defense methods. Our findings suggest that further research is needed to address chatbot toxicity in a dynamic interactive environment. The proposed \toxicbot can be used by both industry and researchers to develop methods for detecting and mitigating toxic responses in conversational dialogue and improve the robustness of chatbots for end users.
翻訳日:2023-07-23 11:56:25 公開日:2023-07-14
# 大規模トラップイオン量子コンピュータにおけるマルチキュービットゲートの高速設計とスケーリング

Fast design and scaling of multi-qubit gates in large-scale trapped-ion quantum computers ( http://arxiv.org/abs/2307.09566v1 )

ライセンス: Link先を確認
Yotam Shapira, Lee Peleg, David Schwerdt, Jonathan Nemirovsky, Nitzan Akerman, Ady Stern, Amit Ben Kish, Roee Ozeri(参考訳) 電気的に閉じ込められたイオンの結晶に基づく量子コンピュータは、量子計算の顕著な技術である。 閉じ込められたイオンのユニークな特徴は、長距離クーロン相互作用であり、これは自然に大規模なマルチキュービットエンタングルメントゲートを実現する能力として現れる。 しかし、これらのシステムにおける量子ビット数をスケールアップする一方で、高忠実性と高速操作を維持することは困難である。 具体的には、長いイオン結晶100sの多量子絡み合うゲートを設計するには、NPハード最適化の問題があり、量子ビットの数をスケールアップすることも概念的な課題である。 本稿では,高速かつプログラム可能なエンタングルメントゲートを多項式時間で設計し,イオン結晶全体に作用させることにより,計算課題を大幅に削減する手法を提案する。 この手法を用いて,マルチキュービットゲートの実用性,スケーリング,要件について検討する。 本手法は,100キュービットのイオン結晶に基づく量子コンピュータのスケールアップへの道筋を示す。

Quantum computers based on crystals of electrically trapped ions are a prominent technology for quantum computation. A unique feature of trapped ions is their long-range Coulomb interactions, which come about as an ability to naturally realize large-scale multi-qubit entanglement gates. However, scaling up the number of qubits in these systems, while retaining high-fidelity and high-speed operations is challenging. Specifically, designing multi-qubit entanglement gates in long ion crystals of 100s of ions involves an NP-hard optimization problem, rendering scaling up the number of qubits a conceptual challenge as well. Here we introduce a method that vastly reduces the computational challenge, effectively allowing for a polynomial-time design of fast and programmable entanglement gates, acting on the entire ion crystal. We use this method to investigate the utility, scaling and requirements of such multi-qubit gates. Our method delineates a path towards scaling up quantum computers based on ion-crystals with 100s of qubits.
翻訳日:2023-07-23 11:55:20 公開日:2023-07-14
# RNA二次構造予測のためのスケーラブルディープラーニング

Scalable Deep Learning for RNA Secondary Structure Prediction ( http://arxiv.org/abs/2307.10073v1 )

ライセンス: Link先を確認
J\"org K.H. Franke, Frederic Runge, Frank Hutter(参考訳) RNA二次構造予測の分野は、ディープラーニング技術の導入によって大きな進歩を遂げた。 本稿では,軸方向の注意と潜在空間でのリサイクルを用いたリーン深層学習モデルであるrnaformerを提案する。 我々は,隣接行列を直接潜在空間にモデル化するアーキテクチャを設計し,モデルのサイズを拡大することにより,性能の向上を図る。 提案手法は,TS0ベンチマークデータセットの最先端性能を実現し,外部情報を用いた手法よりも優れる。 さらに,RNAフォーマがRNA折り畳み過程の生体物理モデルを学習できることを実験的に示す。

The field of RNA secondary structure prediction has made significant progress with the adoption of deep learning techniques. In this work, we present the RNAformer, a lean deep learning model using axial attention and recycling in the latent space. We gain performance improvements by designing the architecture for modeling the adjacency matrix directly in the latent space and by scaling the size of the model. Our approach achieves state-of-the-art performance on the popular TS0 benchmark dataset and even outperforms methods that use external information. Further, we show experimentally that the RNAformer can learn a biophysical model of the RNA folding process.
翻訳日:2023-07-23 11:50:46 公開日:2023-07-14
# AI時代の倫理:AI実践者の意識と課題の分析

Ethics in the Age of AI: An Analysis of AI Practitioners' Awareness and Challenges ( http://arxiv.org/abs/2307.10057v1 )

ライセンス: Link先を確認
Aastha Pant, Rashina Hoda, Simone V. Spiegler, Chakkrit Tantithamthavorn, Burak Turhan(参考訳) 近年、AIにおける倫理は公的な話題や専門家の議論の的となっている。 しかし、AIを作る人たち(AI実践者)は、AI倫理に対する理解と、それを開発するAIベースのシステムに組み込む上での課題について何を言わなければならないだろうか? AI実践者のAI倫理に対する見解を理解することは、AIシステムに最も近いものであり、変化や改善をもたらす可能性があるため重要である。 我々は,AI実践者のAI倫理に対する意識と倫理を取り入れた課題を理解することを目的とした調査を行った。 100人のai実践者の回答から,ai実践者の大多数は,主に職場の規則や政策によって,ai倫理の概念に合理的な親しみがあったことが示唆された。 プライバシー保護と安全は、彼らの大多数が認識していた倫理的原則であった。 形式的教育・訓練は、実践者がAI倫理を取り入れる準備に役立ったと考えられている。 AI実践者が倫理的AIベースシステムの開発で直面した課題には (i)一般的な課題 (ii)技術関連の課題と課題 (iii)人間関係の課題。 さらに、さらなる調査が必要な領域を特定し、AI開発に倫理を取り入れる上で、AI実践者や企業を支援するための勧告を提供した。

Ethics in AI has become a debated topic of public and expert discourse in recent years. But what do people who build AI - AI practitioners - have to say about their understanding of AI ethics and the challenges associated with incorporating it in the AI-based systems they develop? Understanding AI practitioners' views on AI ethics is important as they are the ones closest to the AI systems and can bring about changes and improvements. We conducted a survey aimed at understanding AI practitioners' awareness of AI ethics and their challenges in incorporating ethics. Based on 100 AI practitioners' responses, our findings indicate that majority of AI practitioners had a reasonable familiarity with the concept of AI ethics, primarily due to workplace rules and policies. Privacy protection and security was the ethical principle that majority of them were aware of. Formal education/training was considered somewhat helpful in preparing practitioners to incorporate AI ethics. The challenges that AI practitioners faced in the development of ethical AI-based systems included (i) general challenges, (ii) technology-related challenges and (iii) human-related challenges. We also identified areas needing further investigation and provided recommendations to assist AI practitioners and companies in incorporating ethics into AI development.
翻訳日:2023-07-23 11:50:37 公開日:2023-07-14
# fairgp:表面温度エミュレーションのためのベイズエネルギー収支モデル

FaIRGP: A Bayesian Energy Balance Model for Surface Temperatures Emulation ( http://arxiv.org/abs/2307.10052v1 )

ライセンス: Link先を確認
Shahine Bouabid, Dino Sejdinovic, Duncan Watson-Parris(参考訳) エミュレータ(英: emulators)または縮小複雑気候モデル(英: reduced complexity climate model)は、最小の計算資源で主要な気候量の投影を生成する地球系モデルである。 時系列モデリングやより高度な機械学習技術を用いて、データ駆動エミュレータは有望な研究手段として登場し、最先端の地球システムモデルと視覚的に区別できない、空間的に解決された気候応答を生み出している。 しかし、物理的な解釈能力の欠如は、広く採用されることを制限している。 本研究では,エネルギー収支モデルの物理温度応答方程式を満たすデータ駆動エミュレータであるFaIRGPを紹介する。 その結果はエミュレータで (i)統計的機械学習モデルの柔軟性を享受し、観察から学ぶことができる。 (二) 気候システムに関する推論に使用できる解釈可能なパラメータを持つ頑健な物理的接地を有する。 さらに、ベイズ的アプローチは原理的かつ数学的に計算可能な不確実性定量化を可能にする。 本モデルは,将来の現実的なシナリオにおいて,地球平均表面温度と空間表面温度の巧みなエミュレーションを示す。 データから学ぶ能力は、エネルギーバランスモデルよりも優れていますが、堅牢な物理的基盤は、純粋なデータ駆動モデルの落とし穴に対して安全です。 また,FaIRGPを用いて大気上における放射率の予測を行い,検出や属性,降水エミュレーションなどの応用における数学的トラクタビリティの利点について議論する。 この研究が、気候エミュレーションにおけるデータ駆動手法の採用拡大に寄与することを願っている。

Emulators, or reduced complexity climate models, are surrogate Earth system models that produce projections of key climate quantities with minimal computational resources. Using time-series modeling or more advanced machine learning techniques, data-driven emulators have emerged as a promising avenue of research, producing spatially resolved climate responses that are visually indistinguishable from state-of-the-art Earth system models. Yet, their lack of physical interpretability limits their wider adoption. In this work, we introduce FaIRGP, a data-driven emulator that satisfies the physical temperature response equations of an energy balance model. The result is an emulator that (i) enjoys the flexibility of statistical machine learning models and can learn from observations, and (ii) has a robust physical grounding with interpretable parameters that can be used to make inference about the climate system. Further, our Bayesian approach allows a principled and mathematically tractable uncertainty quantification. Our model demonstrates skillful emulation of global mean surface temperature and spatial surface temperatures across realistic future scenarios. Its ability to learn from data allows it to outperform energy balance models, while its robust physical foundation safeguards against the pitfalls of purely data-driven models. We also illustrate how FaIRGP can be used to obtain estimates of top-of-atmosphere radiative forcing and discuss the benefits of its mathematical tractability for applications such as detection and attribution or precipitation emulation. We hope that this work will contribute to widening the adoption of data-driven methods in climate emulation.
翻訳日:2023-07-23 11:50:18 公開日:2023-07-14
# Deteksi Sampah di Permukaan dan Dalam Perairan pada Objek Video Dengan Metode Robust and Efficient Post-Processing dan tubelet-Level Bounding Box Linking

Deteksi Sampah di Permukaan dan Dalam Perairan pada Objek Video dengan Metode Robust and Efficient Post-Processing dan Tubelet-Level Bounding Box Linking ( http://arxiv.org/abs/2307.10039v1 )

ライセンス: Link先を確認
Bryan Tjandra, Made S. N. Negara, Nyoo S. C. Handoko(参考訳) インドネシアは海洋国であり、その領域のかなりの部分が水に覆われている。 不効率な廃棄物管理は、インドネシアの水域でかなりの量のゴミを処理し、様々な問題を引き起こした。 自動ゴミ収集ロボットの開発は、この問題に対処するための解決策となる。 このロボットは、ビデオなどの動作中の物体を検出するシステムを必要とする。 しかし、ビデオにおける単純オブジェクト検出手法の使用には制限があり、特に画像フォーカスが減少し、対象オブジェクトが他のオブジェクトによって妨害される場合である。 本稿では, 自動ゴミ収集ロボットにおいて, 映像オブジェクト検出に適用可能な手法について解説する。 本研究は, YOLOv5モデルとRobust & Efficient Post Processing (REPP)法およびFloWおよびRoboflowデータセット上にリンクするチューブレットレベルのバウンディングボックスを利用する。 これらの手法を組み合わせることで、隣接フレームにおける検出結果を考慮して、YOLOv5からのネイティブオブジェクト検出の性能が向上する。 その結果, 後処理段階とチューブレットレベルのバウンディングボックスリンクにより検出精度が向上し, YOLOv5単独と比較して約3%高い性能が得られた。 これらの方法を使用することで、表面や水中のゴミを検知し、リアルタイムの画像ベースのゴミ収集ロボットに適用することができる。 このシステムの導入は, ゴミによる被害を軽減し, 今後インドネシアの廃棄物管理システムを改善することが期待されている。

Indonesia, as a maritime country, has a significant portion of its territory covered by water. Ineffective waste management has resulted in a considerable amount of trash in Indonesian waters, leading to various issues. The development of an automated trash-collecting robot can be a solution to address this problem. The robot requires a system capable of detecting objects in motion, such as in videos. However, using naive object detection methods in videos has limitations, particularly when image focus is reduced and the target object is obstructed by other objects. This paper's contribution provides an explanation of the methods that can be applied to perform video object detection in an automated trash-collecting robot. The study utilizes the YOLOv5 model and the Robust & Efficient Post Processing (REPP) method, along with tubelet-level bounding box linking on the FloW and Roboflow datasets. The combination of these methods enhances the performance of naive object detection from YOLOv5 by considering the detection results in adjacent frames. The results show that the post-processing stage and tubelet-level bounding box linking can improve the quality of detection, achieving approximately 3% better performance compared to YOLOv5 alone. The use of these methods has the potential to detect surface and underwater trash and can be applied to a real-time image-based trash-collecting robot. Implementing this system is expected to mitigate the damage caused by trash in the past and improve Indonesia's waste management system in the future.
翻訳日:2023-07-23 11:49:51 公開日:2023-07-14
# クラスバランス平均教師によるソースフリードメイン適応眼底画像セグメンテーション

Source-Free Domain Adaptive Fundus Image Segmentation with Class-Balanced Mean Teacher ( http://arxiv.org/abs/2307.09973v1 )

ライセンス: Link先を確認
Longxiang Tang, Kai Li, Chunming He, Yulun Zhang, Xiu Li(参考訳) 本稿では,未ラベル画像を用いて,事前学習した眼底セグメンテーションモデルを対象領域に適用することを目的とした,ソースフリー領域適応眼底画像セグメンテーションについて検討する。 ラベルのないデータのみを使用してモデルを適用することは極めてリスクが高いため、これは難しい作業です。 既存のほとんどの手法は、主にモデルの予測から疑似ラベルを慎重に生成し、擬似ラベルを使用してモデルを訓練するテクニックを設計することで、この課題に取り組む。 しばしば正の適応効果を得るが、これらの方法には2つの大きな問題がある。 まず、それらはかなり不安定な傾向があり、不正確な擬似ラベルが突然出現すると、モデルに壊滅的な影響を及ぼす可能性がある。 第二に、フォアグラウンド(例えばカップ)領域が通常非常に小さいような、基底画像の厳しい階級的不均衡を考慮できない。 本稿では,クラスバランス平均教師(cbmt)モデルを提案することで,この2つの課題を解決することを目的とする。 CBMTは、教師モデルのみが弱強化画像から擬似ラベルを生成して、強強化画像を入力として取り込む学生モデルを訓練する弱強化平均教師学習方式を提案することにより、不安定な問題に対処する。 教師はすぐに訓練された生徒の移動平均として更新され、騒がしい可能性がある。 これにより、教師モデルが誤って疑似ラベルに影響を受けることを防ぎます。 クラス不均衡問題に対して,CBMTは,グローバル統計に基づいて前景クラスをハイライトする新たな損失校正手法を提案する。 CBMTはこれらの2つの問題にうまく対処し、複数のベンチマークで既存の手法より優れていることを示す実験である。

This paper studies source-free domain adaptive fundus image segmentation which aims to adapt a pretrained fundus segmentation model to a target domain using unlabeled images. This is a challenging task because it is highly risky to adapt a model only using unlabeled data. Most existing methods tackle this task mainly by designing techniques to carefully generate pseudo labels from the model's predictions and use the pseudo labels to train the model. While often obtaining positive adaption effects, these methods suffer from two major issues. First, they tend to be fairly unstable - incorrect pseudo labels abruptly emerged may cause a catastrophic impact on the model. Second, they fail to consider the severe class imbalance of fundus images where the foreground (e.g., cup) region is usually very small. This paper aims to address these two issues by proposing the Class-Balanced Mean Teacher (CBMT) model. CBMT addresses the unstable issue by proposing a weak-strong augmented mean teacher learning scheme where only the teacher model generates pseudo labels from weakly augmented images to train a student model that takes strongly augmented images as input. The teacher is updated as the moving average of the instantly trained student, which could be noisy. This prevents the teacher model from being abruptly impacted by incorrect pseudo-labels. For the class imbalance issue, CBMT proposes a novel loss calibration approach to highlight foreground classes according to global statistics. Experiments show that CBMT well addresses these two issues and outperforms existing methods on multiple benchmarks.
翻訳日:2023-07-23 11:49:21 公開日:2023-07-14
# 凍結画像エンコーダを用いたきめ細かいテキスト・ビデオ検索

Fine-grained Text-Video Retrieval with Frozen Image Encoders ( http://arxiv.org/abs/2307.09972v1 )

ライセンス: Link先を確認
Zuozhuo Dai, Fangtao Shao, Qingkun Su, Zilong Dong, Siyu Zhu(参考訳) 最先端のテキストビデオ検索(TVR)手法は、CLIPとコサイン類似性を利用して効率的な検索を行うのが一般的である。 一方、トランスフォーマーデコーダを用いたクロスアテンション手法では、各テキストクエリーとビデオ中のすべてのフレーム間のアテンションを計算し、テキストとビデオ間のより包括的なインタラクションを提供する。 しかし、これらの手法はテキストとビデオレベルのトークン間の注意を直接計算するので、重要な空間情報を欠いている。 そこで本研究では,2段階のテキストビデオ検索アーキテクチャであるCrossTVRを提案する。 第1段階では,既存のTVR手法とコサイン類似性ネットワークを利用して,効率的なテキスト/ビデオ候補選択を行う。 第2段階では,空間的および時間的次元の細粒度マルチモーダル情報をキャプチャする,分離されたビデオテキストクロスアテンションモジュールを提案する。 さらに,vit-gのような大きめの事前学習ビジョンモデルへのスケーラビリティを実現することで,検索性能の向上を実現した。 テキストビデオ検索データセットの実験により,提案したCrossTVRの有効性とスケーラビリティを,最先端のアプローチと比較した。

State-of-the-art text-video retrieval (TVR) methods typically utilize CLIP and cosine similarity for efficient retrieval. Meanwhile, cross attention methods, which employ a transformer decoder to compute attention between each text query and all frames in a video, offer a more comprehensive interaction between text and videos. However, these methods lack important fine-grained spatial information as they directly compute attention between text and video-level tokens. To address this issue, we propose CrossTVR, a two-stage text-video retrieval architecture. In the first stage, we leverage existing TVR methods with cosine similarity network for efficient text/video candidate selection. In the second stage, we propose a novel decoupled video text cross attention module to capture fine-grained multimodal information in spatial and temporal dimensions. Additionally, we employ the frozen CLIP model strategy in fine-grained retrieval, enabling scalability to larger pre-trained vision models like ViT-G, resulting in improved retrieval performance. Experiments on text video retrieval datasets demonstrate the effectiveness and scalability of our proposed CrossTVR compared to state-of-the-art approaches.
翻訳日:2023-07-23 11:48:56 公開日:2023-07-14
# ニューロイメージングにおける解釈可能な深層学習の深層化--包括的調査

Looking deeper into interpretable deep learning in neuroimaging: a comprehensive survey ( http://arxiv.org/abs/2307.09615v1 )

ライセンス: Link先を確認
Md. Mahfuzur Rahman, Vince D. Calhoun, Sergey M. Plis(参考訳) ディープラーニング(DL)モデルは、エンド・ツー・エンドのパラダイムで生データから直接学習できることから人気があり、別のエラーを起こしやすい特徴抽出フェーズの懸念を緩和している。 最近のDLベースのニューロイメージング研究でも、従来の機械学習アルゴリズムよりも顕著なパフォーマンス向上が見られた。 しかし、ディープラーニングモデルの課題は、現実世界のアプリケーションへのデプロイを成功させる上で、これらのモデルに透明性が欠如していることにある。 近年、Explainable AI(XAI)は、医療、金融、法執行機関といった安全クリティカルな領域にとって不可欠なモデルがどのように決定に達したかについての直感を得るために、開発が急増している。 解釈可能性領域は目覚ましい進歩を遂げているが、ポストホック手法のモデル学習のどの側面が明らかになり、その信頼性を検証するかはまだ不明である。 本稿では,神経画像領域における解釈可能な深層学習モデルについて概説する。 まず,解釈可能性資源の現状を概観し,方法論の進歩,関連する課題,意見等に注目した。 第二に、最近の複数の神経画像研究がモデル解釈可能性を利用して、モデル予測に最も関係のある解剖学的および機能的脳変化を捉える方法について論じる。 最後に、現在の実践の限界について議論し、脳障害に関する科学的理解を深めるために、ディープラーニングモデルを効果的に解釈できるように、将来の研究の方向性をどう判断するかについて、貴重な洞察とガイダンスを提供する。

Deep learning (DL) models have been popular due to their ability to learn directly from the raw data in an end-to-end paradigm, alleviating the concern of a separate error-prone feature extraction phase. Recent DL-based neuroimaging studies have also witnessed a noticeable performance advancement over traditional machine learning algorithms. But the challenges of deep learning models still exist because of the lack of transparency in these models for their successful deployment in real-world applications. In recent years, Explainable AI (XAI) has undergone a surge of developments mainly to get intuitions of how the models reached the decisions, which is essential for safety-critical domains such as healthcare, finance, and law enforcement agencies. While the interpretability domain is advancing noticeably, researchers are still unclear about what aspect of model learning a post hoc method reveals and how to validate its reliability. This paper comprehensively reviews interpretable deep learning models in the neuroimaging domain. Firstly, we summarize the current status of interpretability resources in general, focusing on the progression of methods, associated challenges, and opinions. Secondly, we discuss how multiple recent neuroimaging studies leveraged model interpretability to capture anatomical and functional brain alterations most relevant to model predictions. Finally, we discuss the limitations of the current practices and offer some valuable insights and guidance on how we can steer our future research directions to make deep learning models substantially interpretable and thus advance scientific understanding of brain disorders.
翻訳日:2023-07-23 11:46:46 公開日:2023-07-14
# 語彙変換とラベルインジェクションを用いたtwitterデータの教師なしドメイン適応

Unsupervised Domain Adaptation using Lexical Transformations and Label Injection for Twitter Data ( http://arxiv.org/abs/2307.10210v1 )

ライセンス: Link先を確認
Akshat Gupta, Xiaomo Liu, Sameena Shah(参考訳) ドメイン適応は自然言語処理において重要かつ広く研究されている問題である。 大量の文献が、ソースドメインでトレーニングされたモデルをターゲットドメインに適応させることで、この問題を解決しようとする。 本稿では,この問題をデータセットの観点から解決する。 ソースドメインデータセットを単純な語彙変換で修正し、ソースデータセット分布とターゲットデータセット分布の間のドメインシフトを削減する。 変換されたソースドメインデータセットに基づいてトレーニングされたモデルは、ゼロショットモデルよりも大幅にパフォーマンスが向上することがわかった。 提案した変換を用いて、標準英語をつぶやきに変換することで、92.14%のタグ付け精度(81.54%のゼロショット精度から)に達し、94.45%の教師付きパフォーマンスをわずかに下回っている。 また、提案する変換を使ってツイートを合成し、twitterデータセットを拡張し、posタグの最先端のパフォーマンスを実現します。

Domain adaptation is an important and widely studied problem in natural language processing. A large body of literature tries to solve this problem by adapting models trained on the source domain to the target domain. In this paper, we instead solve this problem from a dataset perspective. We modify the source domain dataset with simple lexical transformations to reduce the domain shift between the source dataset distribution and the target dataset distribution. We find that models trained on the transformed source domain dataset performs significantly better than zero-shot models. Using our proposed transformations to convert standard English to tweets, we reach an unsupervised part-of-speech (POS) tagging accuracy of 92.14% (from 81.54% zero shot accuracy), which is only slightly below the supervised performance of 94.45%. We also use our proposed transformations to synthetically generate tweets and augment the Twitter dataset to achieve state-of-the-art performance for POS tagging.
翻訳日:2023-07-23 11:29:41 公開日:2023-07-14
# 敵攻撃に対する深部荷重分散の感度について

On the Sensitivity of Deep Load Disaggregation to Adversarial Attacks ( http://arxiv.org/abs/2307.10209v1 )

ライセンス: Link先を確認
Hafsa Bousbiat, Yassine Himeur, Abbes Amira, Wathiq Mansoor(参考訳) 非侵入負荷モニタリング(Non-Inrusive Load Monitoring、NILM)アルゴリズムは、効率的なエネルギー管理のための基本的なツールである。 負荷分散における深いモデルの成功にもかかわらず、特にプライバシとセキュリティに関するさまざまな課題に直面している。 本稿では,コンピュータビジョンや音声認識などの領域において重要な脅威となっている敵攻撃に対するNILMベースラインの顕著な感受性について検討する。 敵攻撃は、ニューラルネットワークを誤った出力に誤解させる目的で、入力データに知覚不可能なノイズを導入する。 本研究では,cnnベースのnilmベースラインであるsequence-to-sequence(s2s)とsequence-to-point(s2p)モデルに対して,入力シーケンスを摂動させる手法であるfast gradient sign method(fgsm)について検討した。 これらのモデル,特にS2Pモデルでは,少ないノイズでもF1スコアの平均値が20倍の低下を示した。 このような弱さは、nilmモデルに依存する住宅および産業部門におけるエネルギー管理システムに重大な影響をもたらす可能性がある。

Non-intrusive Load Monitoring (NILM) algorithms, commonly referred to as load disaggregation algorithms, are fundamental tools for effective energy management. Despite the success of deep models in load disaggregation, they face various challenges, particularly those pertaining to privacy and security. This paper investigates the sensitivity of prominent deep NILM baselines to adversarial attacks, which have proven to be a significant threat in domains such as computer vision and speech recognition. Adversarial attacks entail the introduction of imperceptible noise into the input data with the aim of misleading the neural network into generating erroneous outputs. We investigate the Fast Gradient Sign Method (FGSM), a well-known adversarial attack, to perturb the input sequences fed into two commonly employed CNN-based NILM baselines: the Sequence-to-Sequence (S2S) and Sequence-to-Point (S2P) models. Our findings provide compelling evidence for the vulnerability of these models, particularly the S2P model which exhibits an average decline of 20\% in the F1-score even with small amounts of noise. Such weakness has the potential to generate profound implications for energy management systems in residential and industrial sectors reliant on NILM models.
翻訳日:2023-07-23 11:29:25 公開日:2023-07-14
# ニューラルアトラクション場からのボリュームワイヤフレーム解析

Volumetric Wireframe Parsing from Neural Attraction Fields ( http://arxiv.org/abs/2307.10206v1 )

ライセンス: Link先を確認
Nan Xue and Bin Tan and Yuxi Xiao and Liang Dong and Gui-Song Xia and Tianfu Wu(参考訳) 原始スケッチは、Marrの視覚理論の基本的な表現であり、2Dから2.5Dの知覚まで類似した画像レベルの処理を可能にする。 本稿では,多視点画像の2次元ワイヤフレームをボリュームレンダリングの定式化の基礎として捉えた,既知のカメラポーズを持つ画像集合からのワイヤフレームの3次元プリミティブスケッチの計算により,さらに一歩進める。 本研究では,まず3次元線分を座標多層パーセプトロン(mlps)でパラメータ化するニューラルアトラクション(neat)フィールドを提案する。 次に、ランダムに初期化された高次元ラテントアレイと軽量復号MLPを最適化することにより、3次元ラインセグメントのNEATフィールドから有意義な3次元接合を知覚する新しいグローバルジャンクション知覚(GJP)モジュールを提案する。 3次元ワイヤフレーム解析の計算パラダイムを著しく単純化し, 3次元配線セグメントを3次元接合に誘引することで, 最終的に3次元ワイヤフレームの原始スケッチを計算する。 実験では,DTUおよびBlendedMVSデータセットに対するアプローチを有望な性能で評価した。 我々の知る限り、この手法は明示的なマッチングを必要とせず、高忠実度な3dワイヤフレーム解析を実現する最初の手法である。

The primal sketch is a fundamental representation in Marr's vision theory, which allows for parsimonious image-level processing from 2D to 2.5D perception. This paper takes a further step by computing 3D primal sketch of wireframes from a set of images with known camera poses, in which we take the 2D wireframes in multi-view images as the basis to compute 3D wireframes in a volumetric rendering formulation. In our method, we first propose a NEural Attraction (NEAT) Fields that parameterizes the 3D line segments with coordinate Multi-Layer Perceptrons (MLPs), enabling us to learn the 3D line segments from 2D observation without incurring any explicit feature correspondences across views. We then present a novel Global Junction Perceiving (GJP) module to perceive meaningful 3D junctions from the NEAT Fields of 3D line segments by optimizing a randomly initialized high-dimensional latent array and a lightweight decoding MLP. Benefitting from our explicit modeling of 3D junctions, we finally compute the primal sketch of 3D wireframes by attracting the queried 3D line segments to the 3D junctions, significantly simplifying the computation paradigm of 3D wireframe parsing. In experiments, we evaluate our approach on the DTU and BlendedMVS datasets with promising performance obtained. As far as we know, our method is the first approach to achieve high-fidelity 3D wireframe parsing without requiring explicit matching.
翻訳日:2023-07-23 11:29:02 公開日:2023-07-14
# ロングテール分布における敵対的訓練

Adversarial Training Over Long-Tailed Distribution ( http://arxiv.org/abs/2307.10205v1 )

ライセンス: Link先を確認
Guanlin Li, Guowen Xu, Tianwei Zhang(参考訳) 本稿では,従来の研究ではほとんど研究されていない長い尾の分布に従属するデータセットに対する逆行訓練について検討する。 バランスの取れたデータセットに対する従来の敵対的トレーニングと比較すると、このプロセスは、不均一な敵対的例(aes)と不均衡な特徴埋め込み空間を生成するジレンマに陥り、結果として得られたモデルは、テールデータに対するロバスト性と精度が低くなる。 そこで我々は,新たな敵の訓練枠組みであるre-balancing adversarial training (reat)を提案する。 本フレームワークは,(1)有効数という用語にインスパイアされた新たなトレーニング戦略によって,よりバランスのとれた情報的AEを生成するためのモデル,(2)満足な特徴空間を強制するための慎重に構築されたペナルティ関数,の2つの構成要素から構成される。 異なるデータセットとモデル構造の評価結果は、REATがモデルの堅牢性を効果的に強化し、モデルのクリーンな精度を維持することを証明している。 コードはhttps://github.com/GuanlinLee/REATで確認できる。

In this paper, we study adversarial training on datasets that obey the long-tailed distribution, which is practical but rarely explored in previous works. Compared with conventional adversarial training on balanced datasets, this process falls into the dilemma of generating uneven adversarial examples (AEs) and an unbalanced feature embedding space, causing the resulting model to exhibit low robustness and accuracy on tail data. To combat that, we propose a new adversarial training framework -- Re-balancing Adversarial Training (REAT). This framework consists of two components: (1) a new training strategy inspired by the term effective number to guide the model to generate more balanced and informative AEs; (2) a carefully constructed penalty function to force a satisfactory feature space. Evaluation results on different datasets and model structures prove that REAT can effectively enhance the model's robustness and preserve the model's clean accuracy. The code can be found in https://github.com/GuanlinLee/REAT.
翻訳日:2023-07-23 11:28:35 公開日:2023-07-14
# 両面市場におけるIPWベースの不正ランク付け指標

An IPW-based Unbiased Ranking Metric in Two-sided Markets ( http://arxiv.org/abs/2307.10204v1 )

ライセンス: Link先を確認
Keisho Oh, Naoki Nishimura, Minje Sung, Ken Kobayashi, Kazuhide Nakata(参考訳) 現代のレコメンデーションシステムでは、クリックデータなどの暗黙のフィードバックからアイテムを優先順位付けするために、アンバイアスドラーニング・トゥ・ランク(LTR)が不可欠である。 Inverse Propensity Weighting (IPW) などいくつかの手法が単一市場向けに提案されている。 しかしながら、ジョブプラットフォームやデートサービスなど、両方のユーザの好みに合ったコンバージョンが要求される2つの市場に対して、より少ない注意が払われている。 本稿では,2つの市場におけるユーザ間のバイアスの複雑な相互作用について論じる。 まず,双方向マッチングプラットフォームにおけるフィードバック機構の定式化を行い,その暗黙的なフィードバックには,両ユーザグループの位置バイアスを含む可能性があることを指摘した。 この観測に基づいて、我々はIPW推定器を拡張し、二面IPWという名の新しい推定器を提案し、二面市場における位置ベースに対処する。 提案する推定器は, 接地ランキング指標の偏りを満たさないことを証明した。 実世界の双方向プラットフォームにおける数値実験を行い,提案手法の有効性を精度とロバスト性の両方の観点から実証した。 実験の結果,本手法はトレーニングデータでは観測頻度の低い希少品の扱いにおいて,ベースラインよりも優れていた。

In modern recommendation systems, unbiased learning-to-rank (LTR) is crucial for prioritizing items from biased implicit user feedback, such as click data. Several techniques, such as Inverse Propensity Weighting (IPW), have been proposed for single-sided markets. However, less attention has been paid to two-sided markets, such as job platforms or dating services, where successful conversions require matching preferences from both users. This paper addresses the complex interaction of biases between users in two-sided markets and proposes a tailored LTR approach. We first present a formulation of feedback mechanisms in two-sided matching platforms and point out that their implicit feedback may include position bias from both user groups. On the basis of this observation, we extend the IPW estimator and propose a new estimator, named two-sided IPW, to address the position bases in two-sided markets. We prove that the proposed estimator satisfies the unbiasedness for the ground-truth ranking metric. We conducted numerical experiments on real-world two-sided platforms and demonstrated the effectiveness of our proposed method in terms of both precision and robustness. Our experiments showed that our method outperformed baselines especially when handling rare items, which are less frequently observed in the training data.
翻訳日:2023-07-23 11:28:13 公開日:2023-07-14
# techno-utopians, scammers, bullshitters: オペレーターとベンチャーキャピタルの投資家によるweb3とブロックチェーン技術の約束と危機

Techno-Utopians, Scammers, and Bullshitters: The Promise and Peril of Web3 and Blockchain Technologies According to Operators and Venture Capital Investors ( http://arxiv.org/abs/2307.10222v1 )

ライセンス: Link先を確認
Amy A. Winecoff and Johannes Lenhard(参考訳) Web3とブロックチェーンの支持者や開発者は、これらの技術が個人に権限を与え、意思決定力を分配することで、人々の生活と働き方に革命をもたらすと主張している。 技術者はしばしば、彼らの技術が長期的に達成することを期待していますが、現在の制約の中でシステムを開発、スケーリング、保守するという実践的な課題は、このビジョンへの進歩を損ないます。 技術者は、自分たちの望む技術的未来をどのように考え、日々の問題をナビゲートするかが、テクノロジーがもたらす形態、潜在的な利益、潜在的な害に影響を与える。 現在の作業では、Web3とブロックチェーンテクノロジストのビジョンを探求し、彼らのビジョンを脅かす可能性のある、直接的な課題を特定しました。 我々は、Web3およびブロックチェーン分野の29のオペレーターおよびプロフェッショナル投資家と半構造化インタビューを行った。 この結果から, 分散化は, ユーザの自律性の実現, 統治力の分散, 財務的包摂性を促進する重要なメカニズムであることが明らかとなった。 しかし参加者は、迅速な技術開発の必要性、プラットフォームファイナンスダイナミクスによる利害対立、"Web3倫理"を共有しないメインストリームユーザへの拡大といった、これらの約束を果たす上での実践的な困難を認めている。 交渉が効果的でない場合、これらの課題は、腐敗した統治、不平等の増加、詐欺や疑わしい投資スキームの流行の増加といったネガティブな結果につながる可能性がある。 参加者は、教育、規制、および元のブロックチェーンイデアルに対する新たなコミットメントがいくつかの問題を緩和できると考えたが、これらのソリューションの可能性について懐疑的だった。

Proponents and developers of Web3 and blockchain argue that these technologies can revolutionize how people live and work by empowering individuals and distributing decision-making power. While technologists often have expansive hopes for what their technologies will accomplish over the long term, the practical challenges of developing, scaling, and maintaining systems amidst present-day constraints can compromise progress toward this vision. How technologists think about the technological future they hope to enable and how they navigate day-to-day issues impacts the form technologies take, their potential benefits, and their potential harms. In our current work, we aimed to explore the visions of Web3 and blockchain technologists and identify the immediate challenges that could threaten their visions. We conducted semi-structured interviews with 29 operators and professional investors in the Web3 and blockchain field. Our findings revealed that participants supported several ideological goals for their projects, with decentralization being a pivotal mechanism to enable user autonomy, distribute governance power, and promote financial inclusion. However, participants acknowledged the practical difficulties in fulfilling these promises, including the need for rapid technology development, conflicts of interest among stakeholders due to platform financing dynamics, and the challenge of expanding to mainstream users who may not share the "Web3 ethos." If negotiated ineffectively, these challenges could lead to negative outcomes, such as corrupt governance, increased inequality, and increased prevalence of scams and dubious investment schemes. While participants thought education, regulation, and a renewed commitment to the original blockchain ideals could alleviate some problems, they expressed skepticism about the potential of these solutions.
翻訳日:2023-07-23 11:17:42 公開日:2023-07-14
# 現在Hodgepodge’: 責任あるAI価値の共生産におけるAI/ML実践者の挑戦

`It is currently hodgepodge'': Examining AI/ML Practitioners' Challenges during Co-production of Responsible AI Values ( http://arxiv.org/abs/2307.10221v1 )

ライセンス: Link先を確認
Rama Adithya Varanasi, Nitesh Goyal(参考訳) 最近、AI/ML研究コミュニティは、AI/MLライフサイクルの一部としてResponsible AI(RAI)の価値とプラクティスを確立する緊急の必要性を示している。 raiガイドラインを共有することで、いくつかの組織やコミュニティがこの呼びかけに対応しています。 しかし、複数の学際的なML実践者に対する意識、熟考、実践にはギャップがある。 この研究は、実践者がraiの価値を合わせながら直面する共同生産の課題を解き放ち、議論に寄与する。 私たちは、10の組織にまたがって23の個人にインタビューを行い、ai/mlベースの製品を出荷し、raiの規範を維持しながら、トップダウンとボトムアップの両方の組織構造が、raiの価値観の保持を妨げるさまざまな役割の負担を生み出すことを発見した。 課題を解決するために、実践者が戦略として使用する複数の価値レバーを共有します。 最後に,包括的かつ公平なrai価値実践を推奨し,支援的な組織構造と実践者支援の機会を創出する。

Recently, the AI/ML research community has indicated an urgent need to establish Responsible AI (RAI) values and practices as part of the AI/ML lifecycle. Several organizations and communities are responding to this call by sharing RAI guidelines. However, there are gaps in awareness, deliberation, and execution of such practices for multi-disciplinary ML practitioners. This work contributes to the discussion by unpacking co-production challenges faced by practitioners as they align their RAI values. We interviewed 23 individuals, across 10 organizations, tasked to ship AI/ML based products while upholding RAI norms and found that both top-down and bottom-up institutional structures create burden for different roles preventing them from upholding RAI values, a challenge that is further exacerbated when executing conflicted values. We share multiple value levers used as strategies by the practitioners to resolve their challenges. We end our paper with recommendations for inclusive and equitable RAI value-practices, creating supportive organizational structures and opportunities to further aid practitioners.
翻訳日:2023-07-23 11:17:10 公開日:2023-07-14
# 時間不変リレーショナル知識によるハイパーリレーショナル時間知識グラフのリンク予測

Exploring Link Prediction over Hyper-Relational Temporal Knowledge Graphs Enhanced with Time-Invariant Relational Knowledge ( http://arxiv.org/abs/2307.10219v1 )

ライセンス: Link先を確認
Zifeng Ding, Jingcheng Wu, Jingpei Wu, Yan Xia, Volker Tresp(参考訳) 従来の知識グラフ(KGs)から推定すると、ハイパーリレーショナルなKG(HKGs)は、各KG事実に対して追加のキー値対(すなわち、修飾子)を提供し、事実の有効性をよりよく制限する。 近年,HKGに対するグラフ推論研究への関心が高まっている。 その間、世界知識の進化を続ける性質から、時間的KG(TKG)の推論に焦点を合わせ、TKGの事実を時間的妥当性を示すタイムスタンプ(タイムスタンプ)と組み合わせてKGの事実とみなすことができる。 既存のhkg推論アプローチは、以前のベンチマークデータセットで明示的に指定されていないため、時間情報を考慮していない。 さらに、従来のTKG推論手法はすべて、時間的推論にのみ重点を置いており、修飾子から学ぶ方法がない。 本研究の目的は,TKG推論とHKG推論のギャップを埋めることである。 Wiki-hy と YAGO-hy という2つのベンチマークハイパーリレーショナル TKG (HTKG) データセットを開発し,時間的事実と等式の両方を効率的にモデル化するHTKG推論モデルを提案する。 さらに,Wikidataナレッジベースから追加の時間不変リレーショナル知識を活用し,HTKG推論の有効性について検討する。 時間不変リレーショナル知識は、時間的に変化しない知識(例えば、サシャ・オバマはバラク・オバマの子)であり、以前のTKG推論ベンチマークやアプローチでは十分に研究されていない。 実験の結果,従来のhtkgリンク予測法を実質的に上回っており,時間的および時間的不変な関係知識を共同で活用することで改善できることがわかった。

Stemming from traditional knowledge graphs (KGs), hyper-relational KGs (HKGs) provide additional key-value pairs (i.e., qualifiers) for each KG fact that help to better restrict the fact validity. In recent years, there has been an increasing interest in studying graph reasoning over HKGs. In the meantime, due to the ever-evolving nature of world knowledge, extensive parallel works have been focusing on reasoning over temporal KGs (TKGs), where each TKG fact can be viewed as a KG fact coupled with a timestamp (or time period) specifying its time validity. The existing HKG reasoning approaches do not consider temporal information because it is not explicitly specified in previous benchmark datasets. Besides, all the previous TKG reasoning methods only lay emphasis on temporal reasoning and have no way to learn from qualifiers. To this end, we aim to fill the gap between TKG reasoning and HKG reasoning. We develop two new benchmark hyper-relational TKG (HTKG) datasets, i.e., Wiki-hy and YAGO-hy, and propose a HTKG reasoning model that efficiently models both temporal facts and qualifiers. We further exploit additional time-invariant relational knowledge from the Wikidata knowledge base and study its effectiveness in HTKG reasoning. Time-invariant relational knowledge serves as the knowledge that remains unchanged in time (e.g., Sasha Obama is the child of Barack Obama), and it has never been fully explored in previous TKG reasoning benchmarks and approaches. Experimental results show that our model substantially outperforms previous related methods on HTKG link prediction and can be enhanced by jointly leveraging both temporal and time-invariant relational knowledge.
翻訳日:2023-07-23 11:16:49 公開日:2023-07-14
# ACTIonの時間: 野生におけるサイバー脅威情報の自動分析

Time for aCTIon: Automated Analysis of Cyber Threat Intelligence in the Wild ( http://arxiv.org/abs/2307.10214v1 )

ライセンス: Link先を確認
Giuseppe Siracusano, Davide Sanvito, Roberto Gonzalez, Manikantan Srinivasan, Sivakaman Kamatchi, Wataru Takahashi, Masaru Kawakita, Takahiro Kakumaru, Roberto Bifulco(参考訳) サイバー脅威インテリジェンス(CTI)は、リスクの評価と組織のセキュリティ向上に重要な役割を果たしている。 しかし、構造化されていないテキストソースから関連情報を抽出するプロセスは高価で時間がかかる。 我々の経験から、構造化CTIの自動抽出ツールは性能に限界があることが分かる。 さらに、コミュニティはパフォーマンスを定量的に評価する共通のベンチマークを欠いている。 我々はこれらのギャップを埋め、新しい大規模オープンベンチマークデータセットと構造化cti情報抽出ツールであるactionを提供する。 データセットには204の現実世界で公開されているレポートと、それに対応する構造的なcti情報が含まれている。 当社のチームは、数ヶ月にわたって3つの独立したctiアナリストグループによるデータセットをキュレートしました。 私たちの知る限りでは、このデータセットは、以前リリースされたオープンソースデータセットよりも2桁大きい。 次に,2つのカスタム情報抽出パイプラインのコンテキストで最近導入された大規模言語モデル(gpt3.5)を活用して,アクションを設計する。 提案手法を従来の10のソリューションと比較し,オープンソース実装が不足している場合に独自の実装を開発する。 その結果,すべてのタスクにおいて,f1-scoreが10%から50%に改善され,構造的cti抽出に対する従来の作業よりも動作が優れていることがわかった。

Cyber Threat Intelligence (CTI) plays a crucial role in assessing risks and enhancing security for organizations. However, the process of extracting relevant information from unstructured text sources can be expensive and time-consuming. Our empirical experience shows that existing tools for automated structured CTI extraction have performance limitations. Furthermore, the community lacks a common benchmark to quantitatively assess their performance. We fill these gaps providing a new large open benchmark dataset and aCTIon, a structured CTI information extraction tool. The dataset includes 204 real-world publicly available reports and their corresponding structured CTI information in STIX format. Our team curated the dataset involving three independent groups of CTI analysts working over the course of several months. To the best of our knowledge, this dataset is two orders of magnitude larger than previously released open source datasets. We then design aCTIon, leveraging recently introduced large language models (GPT3.5) in the context of two custom information extraction pipelines. We compare our method with 10 solutions presented in previous work, for which we develop our own implementations when open-source implementations were lacking. Our results show that aCTIon outperforms previous work for structured CTI extraction with an improvement of the F1-score from 10%points to 50%points across all tasks.
翻訳日:2023-07-23 11:16:15 公開日:2023-07-14
# 会話におけるバイアスの緩和: ヘイトスピーチ分類器とプロンプトによるデバイアス

Mitigating Bias in Conversations: A Hate Speech Classifier and Debiaser with Prompts ( http://arxiv.org/abs/2307.10213v1 )

ライセンス: Link先を確認
Shaina Raza, Chen Ding, Deval Pandya(参考訳) 差別的言語とバイアスは会話中のヘイトスピーチにしばしば現れ、人種、性別、宗教に基づくグループのようなターゲットグループに悪影響を及ぼす。 この問題に対処するために、まず、分類器を用いてヘイトスピーチを検出し、次にプロンプトを通じてバイアスやバイアスの少ない代替品を生成する嫌悪成分を利用する2段階のプロセスを提案する。 提案手法をベンチマークデータセット上で評価し,ヘイトスピーチコメントによる否定性の低下を観察した。 提案手法は,オンライン談話におけるバイアスの低減と,より包括的で公平なコミュニケーション環境の促進に寄与する。

Discriminatory language and biases are often present in hate speech during conversations, which usually lead to negative impacts on targeted groups such as those based on race, gender, and religion. To tackle this issue, we propose an approach that involves a two-step process: first, detecting hate speech using a classifier, and then utilizing a debiasing component that generates less biased or unbiased alternatives through prompts. We evaluated our approach on a benchmark dataset and observed reduction in negativity due to hate speech comments. The proposed method contributes to the ongoing efforts to reduce biases in online discourse and promote a more inclusive and fair environment for communication.
翻訳日:2023-07-23 11:15:57 公開日:2023-07-14
# 近道経路を有するカプセルネットワーク

Capsule network with shortcut routing ( http://arxiv.org/abs/2307.10212v1 )

ライセンス: Link先を確認
Dang Thanh Vu, Vo Hoang Trong, Yu Gwang-Hyun and Kim Jin-Young(参考訳) 本研究は, ローカルカプセルから直接グローバルカプセルを活性化し, 中間層を除去することにより, 計算不効率に対処するカプセルネットワークの新しいルーティング機構であるショートカットルーティングを導入する。 ファジィ係数を用いた注意ベースアプローチも,効率向上のために検討した。 mnist, smallnorb, affnistデータセットの実験結果は、それぞれ99.52%、93.91%、89.02%の精度で分類された。 提案するファジィベースおよびアテンションベースルーティング手法は,emルーティングに比べて計算回数を1.22倍および2.5倍削減し,カプセルネットワークにおける計算上のアドバンテージを浮き彫りにした。 これらの知見は、効率的かつ正確な階層的パターン表現モデルの進歩に寄与する。

This study introduces "shortcut routing," a novel routing mechanism in capsule networks that addresses computational inefficiencies by directly activating global capsules from local capsules, eliminating intermediate layers. An attention-based approach with fuzzy coefficients is also explored for improved efficiency. Experimental results on Mnist, smallnorb, and affNist datasets show comparable classification performance, achieving accuracies of 99.52%, 93.91%, and 89.02% respectively. The proposed fuzzy-based and attention-based routing methods significantly reduce the number of calculations by 1.42 and 2.5 times compared to EM routing, highlighting their computational advantages in capsule networks. These findings contribute to the advancement of efficient and accurate hierarchical pattern representation models.
翻訳日:2023-07-23 11:15:44 公開日:2023-07-14
# フォトニックコンポーネント設計のための強化学習

Reinforcement Learning for Photonic Component Design ( http://arxiv.org/abs/2307.11075v1 )

ライセンス: Link先を確認
Donald Witt, Jeff Young, Lukas Chrostowski(参考訳) 本稿では,ナノファブリケーションプロセスにおける不完全性を考慮したナノフォトニックコンポーネント設計のための新しいファブ・イン・ザ・ループ強化学習アルゴリズムを提案する。 この技術の可能性の実証として、220nmシリコンオン絶縁体(soi)単一エッチングプラットフォーム上に作製したフォトニック結晶格子結合器(phcgc)の設計に適用する。 このfab-in-the-loopアルゴリズムは挿入損失を8.8dbから3.24dbに改善する。 このfab-in-the-loopアルゴリズムによって生成された最も広い帯域幅の設計は、最低点で10.2db未満の損失で150nmの帯域幅をカバーすることができる。

We present a new fab-in-the-loop reinforcement learning algorithm for the design of nano-photonic components that accounts for the imperfections present in nanofabrication processes. As a demonstration of the potential of this technique, we apply it to the design of photonic crystal grating couplers (PhCGC) fabricated on a 220nm silicon on insulator (SOI) single etch platform. This fab-in-the-loop algorithm improves the insertion loss from 8.8 dB to 3.24 dB. The widest bandwidth designs produced using our fab-in-the-loop algorithm are able to cover a 150nm bandwidth with less than 10.2 dB of loss at their lowest point.
翻訳日:2023-07-23 11:10:07 公開日:2023-07-14
# ルーティング問題に対する逆最適化

Inverse Optimization for Routing Problems ( http://arxiv.org/abs/2307.07357v1 )

ライセンス: Link先を確認
Pedro Zattoni Scroccaro, Piet van Beek, Peyman Mohajerin Esfahani, Bilge Atasoy(参考訳) Inverse Optimization (IO) を用いたルーティング問題における意思決定者の行動学習手法を提案する。 IOフレームワークは教師付き学習カテゴリに該当し、対象の振る舞いが未知のコスト関数のオプティマイザであるという前提に基づいて構築される。 このコスト関数は、履歴データを通じて学習され、ルーティング問題の文脈では、意思決定者の経路選択として解釈できる。 本研究の主な貢献は,経路問題に適した仮説関数,損失関数,確率的一階アルゴリズムを用いたio手法を提案することである。 私たちはさらに、amazon last mile routing research challengeでioアプローチをテストし、何千もの現実世界のルーティング例を使って、人間のドライバのルーティング好みを再現するモデルを学ぶことを目標にしています。 最終 io-learned routing model は,最終ラウンドに合格した48モデルに対して,ランク2のスコアを達成しています。 本研究は,ルーティング問題における意思決定者の決定から学ぶために提案するio方法論の柔軟性と実世界の可能性を示す。

We propose a method for learning decision-makers' behavior in routing problems using Inverse Optimization (IO). The IO framework falls into the supervised learning category and builds on the premise that the target behavior is an optimizer of an unknown cost function. This cost function is to be learned through historical data, and in the context of routing problems, can be interpreted as the routing preferences of the decision-makers. In this view, the main contributions of this study are to propose an IO methodology with a hypothesis function, loss function, and stochastic first-order algorithm tailored to routing problems. We further test our IO approach in the Amazon Last Mile Routing Research Challenge, where the goal is to learn models that replicate the routing preferences of human drivers, using thousands of real-world routing examples. Our final IO-learned routing model achieves a score that ranks 2nd compared with the 48 models that qualified for the final round of the challenge. Our results showcase the flexibility and real-world potential of the proposed IO methodology to learn from decision-makers' decisions in routing problems.
翻訳日:2023-07-19 18:10:53 公開日:2023-07-14
# 量子回帰のための高効率多項アルゴリズム

Efficient Strongly Polynomial Algorithms for Quantile Regression ( http://arxiv.org/abs/2307.08706v1 )

ライセンス: Link先を確認
Suraj Shetiya, Shohedul Hasan, Abolfazl Asudeh, and Gautam Das(参考訳) リニア回帰(英: Linear Regression)とは、統計学と機械学習において、応答(従属)変数と1つ以上の予測(独立)変数の間に線形予測モデルを構築することを目的とする基礎的な手法である。 本稿では,通常の最小二乗回帰 (ols) の他の古典的手法よりも統計的にロバストな手法である量子量回帰 (qr) の古典的手法を再検討する。 しかし、OLSの効率的なアルゴリズムは存在するが、QRの既知の結果のほとんどすべてが弱多項式である。 このギャップを埋めるため,本論文ではqrの高効率な強多項式アルゴリズムを提案する。 2次元 qr に対して、k$-set の幾何学的概念と接続し、決定論的に最悪の場合の時間複雑性を $\mathcal{o}(n^{4/3} polylog(n))$ とし、ランダム化バージョンに対して $\mathcal{o}(n^{4/3})$ を期待するアルゴリズムを提案する。 また、2次元QR問題に対して$\mathcal{O}(n\log^2{(n)})$の期待時間複雑性を持つランダム化QRを提案する。 2次元以上の一般の場合、ランダム化qrアルゴリズムは、$\mathcal{o}(n^{d-1}\log^2{(n)})$という予測時間複雑性を持つ。

Linear Regression is a seminal technique in statistics and machine learning, where the objective is to build linear predictive models between a response (i.e., dependent) variable and one or more predictor (i.e., independent) variables. In this paper, we revisit the classical technique of Quantile Regression (QR), which is statistically a more robust alternative to the other classical technique of Ordinary Least Square Regression (OLS). However, while there exist efficient algorithms for OLS, almost all of the known results for QR are only weakly polynomial. Towards filling this gap, this paper proposes several efficient strongly polynomial algorithms for QR for various settings. For two dimensional QR, making a connection to the geometric concept of $k$-set, we propose an algorithm with a deterministic worst-case time complexity of $\mathcal{O}(n^{4/3} polylog(n))$ and an expected time complexity of $\mathcal{O}(n^{4/3})$ for the randomized version. We also propose a randomized divide-and-conquer algorithm -- RandomizedQR with an expected time complexity of $\mathcal{O}(n\log^2{(n)})$ for two dimensional QR problem. For the general case with more than two dimensions, our RandomizedQR algorithm has an expected time complexity of $\mathcal{O}(n^{d-1}\log^2{(n)})$.
翻訳日:2023-07-19 17:57:20 公開日:2023-07-14
# lest:transformerを用いた大規模lidarセマンティクスセグメンテーション

LEST: Large-scale LiDAR Semantic Segmentation with Transformer ( http://arxiv.org/abs/2307.09367v1 )

ライセンス: Link先を確認
Chuanyu Luo, Nuo Cheng, Sikun Ma, Han Li, Xiaohan Li, Shengguang Lei, Pu Li(参考訳) 大規模lidarベースのポイントクラウドセマンティクスセグメンテーションは、自動運転知覚において重要なタスクである。 これまでのLiDARセマンティックセグメンテーション手法のほとんど全てがスパース3D畳み込みの変種である。 自然言語処理と2次元コンピュータビジョンの分野ではトランスフォーマーアーキテクチャが普及しているが、大規模ポイントクラウドセマンティクスセグメンテーションへの応用はまだ限られている。 本稿では,LDAR sEmantic Segmentation Architecture with pure Transformer, LESTを提案する。 LESTは、SFC(Space Filling Curve)グループ戦略と、 DisCO(Distance-based Cosine Linear Transformer)の2つの新しいコンポーネントで構成されている。 public nuscenes semantic segmentation validation setとsemantickitti test setでは、このモデルは他の最先端メソッドよりも優れています。

Large-scale LiDAR-based point cloud semantic segmentation is a critical task in autonomous driving perception. Almost all of the previous state-of-the-art LiDAR semantic segmentation methods are variants of sparse 3D convolution. Although the Transformer architecture is becoming popular in the field of natural language processing and 2D computer vision, its application to large-scale point cloud semantic segmentation is still limited. In this paper, we propose a LiDAR sEmantic Segmentation architecture with pure Transformer, LEST. LEST comprises two novel components: a Space Filling Curve (SFC) Grouping strategy and a Distance-based Cosine Linear Transformer, DISCO. On the public nuScenes semantic segmentation validation set and SemanticKITTI test set, our model outperforms all the other state-of-the-art methods.
翻訳日:2023-07-19 13:55:04 公開日:2023-07-14
# 未知のバリュエーションを有する1次価格オークションにおける透明性の役割

The Role of Transparency in Repeated First-Price Auctions with Unknown Valuations ( http://arxiv.org/abs/2307.09478v1 )

ライセンス: Link先を確認
Nicol\`o Cesa-Bianchi, Tommaso Cesari, Roberto Colomboni, Federico Fusco, and Stefano Leonardi(参考訳) 入札者がその商品の価値を競売に勝った場合にのみ知る第1価格競売の連続において、単一入札者に対する後悔の最小化の問題を考察する。 我々の主な貢献は、オークションの透明性の観点からのミニマックス後悔の対数的要因の完全な特徴であり、各オークションの終了時に競売業者が開示した競売に関する情報の量を制限するものである。 提案手法は, 入札者の評価と競争入札を発生させる環境において, 異なる仮定 (stochastic, adversarial, and their smoothed variants) を定めている。 これらのミニマックスレートは、透明性と環境の性質の間の相互作用が、プライスオークションで最適な入札を学習する速度にどのように影響するかを明らかにする。

We study the problem of regret minimization for a single bidder in a sequence of first-price auctions where the bidder knows the item's value only if the auction is won. Our main contribution is a complete characterization, up to logarithmic factors, of the minimax regret in terms of the auction's transparency, which regulates the amount of information on competing bids disclosed by the auctioneer at the end of each auction. Our results hold under different assumptions (stochastic, adversarial, and their smoothed variants) on the environment generating the bidder's valuations and competing bids. These minimax rates reveal how the interplay between transparency and the nature of the environment affects how fast one can learn to bid optimally in first-price auctions.
翻訳日:2023-07-19 13:24:49 公開日:2023-07-14
# 要素の知性が低くなればなるほど、全体として知性が高まる。 それとも、そうじゃないの?

The Less Intelligent the Elements, the More Intelligent the Whole. Or, Possibly Not? ( http://arxiv.org/abs/2012.12689v3 )

ライセンス: Link先を確認
Guido Fioretti, Andrea Policarpi(参考訳) 我々は、脳内のニューロンと社会内の人間の間のレヴィアサンの類推を探求し、集団知能が出現するために個人の知能が不可欠かどうか、そして最も重要なことは、個々の知能がより大きな集団知能のどんなものなのかを自問する。 まず,コネクショニスト認知科学,エージェントベースモデリング,グループ心理学,経済学,物理のさまざまな知見を概観する。 その後、これらの知見を、ロトカ・ボルテラモデルにおける捕食者と獲物の共存または世界的絶滅につながる知性の種類と程度に適用する。 その結果、複数の行動(特に捕食者の行動)が共存に結び付き、最終的には平衡付近の振動を伴うことが判明した。 しかし、獲物と捕食者の両方が、お互いの行動を外挿するのに十分な知性を持っている場合、共存は両集団の不確定な成長とともに生じる。 Lotka-Volterraモデルもまた、ビジネスサイクルを表すものとして解釈されているため、この発見は発振に関する経済成長の条件として理解されている。 特に, 先進社会は, 人口の少なくとも一部において, 貯蓄と投資に基づく資本主義的未来志向の思考が, 無限に成長したとは考えていない。

We explore a Leviathan analogy between neurons in a brain and human beings in society, asking ourselves whether individual intelligence is necessary for collective intelligence to emerge and, most importantly, what sort of individual intelligence is conducive of greater collective intelligence. We first review disparate insights from connectionist cognitive science, agent-based modeling, group psychology, economics and physics. Subsequently, we apply these insights to the sort and degrees of intelligence that in the Lotka-Volterra model lead to either co-existence or global extinction of predators and preys. We find several individual behaviors -- particularly of predators -- that are conducive to co-existence, eventually with oscillations around an equilibrium. However, we also find that if both preys and predators are sufficiently intelligent to extrapolate one other's behavior, co-existence comes along with indefinite growth of both populations. Since the Lotka-Volterra model is also interpreted to represent the business cycle, we understand this finding as a condition for economic growth around oscillations. Specifically, we hypothesize that pre-modern societies may not have exhibited limitless growth also because capitalistic future-oriented thinking based on saving and investing concerned at most a fraction of the population.
翻訳日:2023-07-19 01:17:08 公開日:2023-07-14
# 推論に基づくデータ中のパターンの発見

Conjecturing-Based Discovery of Patterns in Data ( http://arxiv.org/abs/2011.11576v4 )

ライセンス: Link先を確認
J.P. Brooks and D.J. Edwards and C.E. Larson and N. Van Cleemput(参考訳) 数値的特徴に対する非線形項と分類的特徴に対するブール式を含む境界の形での特徴関係を示唆する推論機械を提案する。 提案するConjecturing frameworkは、データから既知の非線形およびブール関係を復元する。 どちらの設定でも、真の基礎となる関係が明らかにされる。 次に,本手法を,データセットの特徴量で満たされる方程式を復元する能力に関する,従来提案されていた回帰モデルと比較する。 この枠組みは、新型コロナウイルスの感染状況に関する患者レベルのデータに適用され、医療文献で確認される可能性のある危険因子が示唆される。

We propose the use of a conjecturing machine that suggests feature relationships in the form of bounds involving nonlinear terms for numerical features and boolean expressions for categorical features. The proposed Conjecturing framework recovers known nonlinear and boolean relationships among features from data. In both settings, true underlying relationships are revealed. We then compare the method to a previously-proposed framework for symbolic regression on the ability to recover equations that are satisfied among features in a dataset. The framework is then applied to patient-level data regarding COVID-19 outcomes to suggest possible risk factors that are confirmed in the medical literature.
翻訳日:2023-07-19 01:16:42 公開日:2023-07-14
# プルーニング三元量子化

Pruning Ternary Quantization ( http://arxiv.org/abs/2107.10998v5 )

ライセンス: Link先を確認
Dan Liu, Xi Chen, Jie Fu, Chen Ma, Xue Liu(参考訳) 推論時間、モデルサイズ、精度は、深層モデル圧縮における3つの重要な要素である。 既存の作業のほとんどは、これら3つの重要な要素を別々に扱っており、これらすべてを同時に最適化することは困難である。 例えば、低ビット量子化はより高速なモデルを得ること、重量共有量子化は圧縮率と精度を改善すること、混合精度量子化は精度と推論時間のバランスをとることを目的としている。 ビット幅,モデルサイズ,精度を同時に最適化するために,単純で効果的で対称な三項量子化法であるプルーニング三項量子化法(PTQ)を提案する。 l2正規化、プルーニング、および重み崩壊項を統合し、量子化中の勾配推定器の重み差を減少させ、高度に圧縮された三元重みを生成する。 提案手法は, 試験精度が最も高く, 圧縮率が最も高い。 例えば、939kb (49$\times$)の3ビットresnet-18モデルで、imagenetデータセット上では4\%の精度低下しか発生しない。 17MBのMask R-CNNを5MB(34$\times$)に圧縮し、平均精度は2.8\%である。 本手法は,画像分類,resnet-18,resnet-50,mobilenetv2などの異なるネットワーク構造を持つ物体検出/セグメント化タスクで検証される。

Inference time, model size, and accuracy are three key factors in deep model compression. Most of the existing work addresses these three key factors separately as it is difficult to optimize them all at the same time. For example, low-bit quantization aims at obtaining a faster model; weight sharing quantization aims at improving compression ratio and accuracy; and mixed-precision quantization aims at balancing accuracy and inference time. To simultaneously optimize bit-width, model size, and accuracy, we propose pruning ternary quantization (PTQ): a simple, effective, symmetric ternary quantization method. We integrate L2 normalization, pruning, and the weight decay term to reduce the weight discrepancy in the gradient estimator during quantization, thus producing highly compressed ternary weights. Our method brings the highest test accuracy and the highest compression ratio. For example, it produces a 939kb (49$\times$) 2bit ternary ResNet-18 model with only 4\% accuracy drop on the ImageNet dataset. It compresses 170MB Mask R-CNN to 5MB (34$\times$) with only 2.8\% average precision drop. Our method is verified on image classification, object detection/segmentation tasks with different network structures such as ResNet-18, ResNet-50, and MobileNetV2.
翻訳日:2023-07-19 01:07:22 公開日:2023-07-14
# 記憶提示型グラフニューラルネットワーク:脳にインスパイアされたレビュー

Memory-Augmented Graph Neural Networks: A Brain-Inspired Review ( http://arxiv.org/abs/2209.10818v2 )

ライセンス: Link先を確認
Guixiang Ma, Vy A. Vo, Theodore Willke, Nesreen K. Ahmed(参考訳) 本稿では,メモリ拡張GNNに関する既存の文献を概観する。 我々は、これらの研究を心理学と神経科学のレンズを通してレビューし、生物の脳において複数の記憶系とメカニズムがどのように機能するかについて、いくつかの確立された理論を持つ。 本稿では,記憶誘導型gnnの分類法とそれらの記憶機構の比較基準を提案する。 また、これらの作品の限界に関する批判的な議論も行っています。 最後に,この領域の課題と今後の方向性について論じる。

We provide a comprehensive review of the existing literature on memory-augmented GNNs. We review these works through the lens of psychology and neuroscience, which has several established theories on how multiple memory systems and mechanisms operate in biological brains. We propose a taxonomy of memory-augmented GNNs and a set of criteria for comparing their memory mechanisms. We also provide critical discussions on the limitations of these works. Finally, we discuss the challenges and future directions for this area.
翻訳日:2023-07-19 00:29:06 公開日:2023-07-14
# 規模でのコモンセンス質問応答の試作

Elaboration-Generating Commonsense Question Answering at Scale ( http://arxiv.org/abs/2209.01232v2 )

ライセンス: Link先を確認
Wenya Wang, Vivek Srikumar, Hanna Hajishirzi, Noah A. Smith(参考訳) 一般的な感覚を必要とする問題に対して、言語モデル(例えばGPT-3)は、パフォーマンス向上に役立つバックグラウンド知識を表わすテキストを生成するために使われてきた。 しかし、そのようなモデルで作業するコストは非常に高く、この作業では、より小さな言語モデルを微調整して有用な中間的コンテキストを生成します。 フレームワークは2つの言語モデルの更新 – 開発中のジェネレータと応答予測器 – を交互に行うことで,それぞれが相互に影響を与えます。 GPT-3のパラメータの0.5%未満を用いて、我々のモデルは同様のサイズで代替品よりも優れており、4つの常識的質問応答ベンチマークでGPT-3のギャップを埋めている。 人的評価は, 生成したエレーボレーションの質が高いことを示している。

In question answering requiring common sense, language models (e.g., GPT-3) have been used to generate text expressing background knowledge that helps improve performance. Yet the cost of working with such models is very high; in this work, we finetune smaller language models to generate useful intermediate context, referred to here as elaborations. Our framework alternates between updating two language models -- an elaboration generator and an answer predictor -- allowing each to influence the other. Using less than 0.5% of the parameters of GPT-3, our model outperforms alternatives with similar sizes and closes the gap on GPT-3 on four commonsense question answering benchmarks. Human evaluations show that the quality of the generated elaborations is high.
翻訳日:2023-07-19 00:28:16 公開日:2023-07-14
# 強相互作用量子ポンプの交換ゆらぎ定理

Exchange fluctuation theorems for strongly interacting quantum pumps ( http://arxiv.org/abs/2209.12927v3 )

ライセンス: Link先を確認
Akira Sone and Diogo O. Soares-Pinto and Sebastian Deffner(参考訳) 我々は、量子系のフォン・ノイマンエントロピーの増加に寄与する量子測定のバックアクションの情報的寄与を考慮して、任意の結合強度を持つ多部系に対する一般的な量子交換変動定理を導出した。 熱力学の第二法則は、従来のクラウシウスの不等式よりも厳密である。 導出された境界は条件付き熱状態の量子相互情報であり、初期エネルギー測定で条件付けられた熱状態である。 これらの結果は、複数のサブシステム間の熱交換における量子相関の役割を解明する。

We derive a general quantum exchange fluctuation theorem for multipartite systems with arbitrary coupling strengths by taking into account the informational contribution of the back-action of the quantum measurements, which contributes to the increase in the von-Neumann entropy of the quantum system. The resulting second law of thermodynamics is tighter than the conventional Clausius inequality. The derived bound is the quantum mutual information of the conditional thermal state, which is a thermal state conditioned on the initial energy measurement. These results elucidate the role of quantum correlations in the heat exchange between multiple subsystems.
翻訳日:2023-07-19 00:16:49 公開日:2023-07-14
# 絶対軌道誤差って何が悪いの?

What's Wrong with the Absolute Trajectory Error? ( http://arxiv.org/abs/2212.05376v2 )

ライセンス: Link先を確認
Seong Hun Lee, Javier Civera(参考訳) 一般的な絶対軌道誤差 (ate) の主な制限の1つは、異常値に対する感度が高いことである。 その結果、少数の外れ値が存在する場合、異常軌道誤差や外れ値数が変化するため、異なる精度を反映することがしばしば発生する。 本研究では,再構成されたカメラ軌跡の精度を評価するための代替誤差指標を提案する。 筆者らの測度はDTE (Disnalible Trajectory Error) と命名され,(1) 基底軌道と推定軌道をシフトし,両者の幾何的中央値が起点となるように計算した。 2)対応するカメラ配向間の測地距離の和を最小限に抑えるように推定軌道を回転させる。 (3) カメラの中央値から幾何学的中央値までの距離が地上の真理と同じであるような推定軌道をスケールする。 (4)対応するカメラ間の距離を計算し、ウィンソライズする。 (5)ウィンソライズされた距離の平均とルート平均二乗(RMS)をとることによりDTEを得る。 この計量は、慣性軌道誤差や外れ値の数が変化するため、軌跡の精度の変化を識別できるという点で、ateの魅力的な代替手段である。 また,同様の考え方を用いて,dteと同様の利点を持つ識別可能な回転誤差(dre)という新しい回転誤差測定法を提案する。 さらに,測定値の計算に必要なカメラ対マーカ回転の校正を行うための簡易かつ効果的な手法を提案する。 我々の手法は広範なシミュレーションによって検証される。

One of the main limitations of the commonly used Absolute Trajectory Error (ATE) is that it is highly sensitive to outliers. As a result, in the presence of just a few outliers, it often fails to reflect the varying accuracy as the inlier trajectory error or the number of outliers varies. In this work, we propose an alternative error metric for evaluating the accuracy of the reconstructed camera trajectory. Our metric, named Discernible Trajectory Error (DTE), is computed in five steps: (1) Shift the ground-truth and estimated trajectories such that both of their geometric medians are located at the origin. (2) Rotate the estimated trajectory such that it minimizes the sum of geodesic distances between the corresponding camera orientations. (3) Scale the estimated trajectory such that the median distance of the cameras to their geometric median is the same as that of the ground truth. (4) Compute and winsorize the distances between the corresponding cameras. (5) Obtain the DTE by taking the average of the mean and the root-mean-square (RMS) of the winsorized distances. This metric is an attractive alternative to the ATE, in that it is capable of discerning the varying trajectory accuracy as the inlier trajectory error or the number of outliers varies. Using the similar idea, we also propose a novel rotation error metric, named Discernible Rotation Error (DRE), which has similar advantages to the DTE. Furthermore, we propose a simple yet effective method for calibrating the camera-to-marker rotation, which is needed for the computation of our metrics. Our methods are verified through extensive simulations.
翻訳日:2023-07-18 23:51:52 公開日:2023-07-14
# 多モード脳腫瘍切除における部分共通情報構造の検討

Exploiting Partial Common Information Microstructure for Multi-Modal Brain Tumor Segmentation ( http://arxiv.org/abs/2302.02521v2 )

ライセンス: Link先を確認
Yongsheng Mei, Guru Venkataramani, and Tian Lan(参考訳) マルチモーダル性による学習は、磁気共鳴画像データから自動脳腫瘍セグメント化に不可欠である。 すべてのモダリティ間で共有される共通情報を明示的に最適化する(例えば、全相関を最大化するなど)ことで、より優れた特徴表現を実現し、セグメンテーション性能を高めることが示されている。 しかし、既存のアプローチは、モダリティのサブセットによって共有される部分的共通情報に従わない。 本稿では,そのような部分的共通情報を同定することで,画像分割モデルの識別能力が著しく向上することを示す。 特に,部分共通情報マスク(pci-mask)という新しい概念を導入して,部分共通情報をどの部分的モダリティの部分集合で共有しているかを詳細に評価する。 マスク付き相関最大化の解法と最適PCIマスクの同時学習により,部分共通情報の潜時構造を同定し,自己アテンションモジュールで利用することにより,マルチモーダルデータの異なる特徴表現を選択的に重み付けする。 提案するフレームワークを標準U-Net上に実装する。 brats(multi-modal brain tumor segmentation challenge)データセットは,brats-2020における腫瘍,腫瘍コア,腫瘍の腫瘍に対するdicce類似度係数0.920,0.897,0.837の検証により,最先端のセグメンテーションベースラインよりも優れていた。

Learning with multiple modalities is crucial for automated brain tumor segmentation from magnetic resonance imaging data. Explicitly optimizing the common information shared among all modalities (e.g., by maximizing the total correlation) has been shown to achieve better feature representations and thus enhance the segmentation performance. However, existing approaches are oblivious to partial common information shared by subsets of the modalities. In this paper, we show that identifying such partial common information can significantly boost the discriminative power of image segmentation models. In particular, we introduce a novel concept of partial common information mask (PCI-mask) to provide a fine-grained characterization of what partial common information is shared by which subsets of the modalities. By solving a masked correlation maximization and simultaneously learning an optimal PCI-mask, we identify the latent microstructure of partial common information and leverage it in a self-attention module to selectively weight different feature representations in multi-modal data. We implement our proposed framework on the standard U-Net. Our experimental results on the Multi-modal Brain Tumor Segmentation Challenge (BraTS) datasets outperform those of state-of-the-art segmentation baselines, with validation Dice similarity coefficients of 0.920, 0.897, 0.837 for the whole tumor, tumor core, and enhancing tumor on BraTS-2020.
翻訳日:2023-07-18 23:32:27 公開日:2023-07-14
# Composerのアシスタント:マルチトラックMIDIインフィルのためのインタラクティブトランス

Composer's Assistant: An Interactive Transformer for Multi-Track MIDI Infilling ( http://arxiv.org/abs/2301.12525v2 )

ライセンス: Link先を確認
Martin E. Malandro(参考訳) 本稿では,REAPERデジタルオーディオワークステーションにおける対話型ヒューマンコンピュータ合成システムであるComposer's Assistantを紹介する。 任意のトラック測度がMIDIファイルから連続的なスライスから削除された場合のマルチトラックMIDI埋め込みの課題を考察し、この課題を達成するためにT5ライクなモデルをトレーニングする。 ComposerのAssistantはこのモデルとREAPERのモデルとのインタラクションを可能にするスクリプトで構成されている。 モデルの客観的かつ主観的なテストを行います。 我々はソースコード、事前訓練されたモデル、REAPERスクリプトからなる完全なシステムをリリースする。 我々のモデルは、パーミッシブライセンスMIDIファイルでのみ訓練された。

We introduce Composer's Assistant, a system for interactive human-computer composition in the REAPER digital audio workstation. We consider the task of multi-track MIDI infilling when arbitrary track-measures have been deleted from a contiguous slice of measures from a MIDI file, and we train a T5-like model to accomplish this task. Composer's Assistant consists of this model together with scripts that enable interaction with the model in REAPER. We conduct objective and subjective tests of our model. We release our complete system, consisting of source code, pretrained models, and REAPER scripts. Our models were trained only on permissively-licensed MIDI files.
翻訳日:2023-07-18 23:31:04 公開日:2023-07-14
# FlatFormer: 効率的なポイントクラウドトランスのためのフラットなウィンドウアテンション

FlatFormer: Flattened Window Attention for Efficient Point Cloud Transformer ( http://arxiv.org/abs/2301.08739v3 )

ライセンス: Link先を確認
Zhijian Liu, Xinyu Yang, Haotian Tang, Shang Yang, Song Han(参考訳) cnnの代替としてtransformerは、多くのモダリティ(テキストや画像など)において有効であることが証明されている。 3dポイントクラウドトランスフォーマーでは、既存の取り組みは主に精度を最先端レベルに引き上げることに集中している。 しかし、彼らのレイテンシはスパース畳み込みベースのモデル(3倍遅い)に遅れており、リソース制約のあるレイテンシに敏感なアプリケーション(自動運転など)での使用を妨げる。 この非効率性は点雲のスパースと不規則な性質に由来するが、トランスフォーマーは密度の高い通常のワークロード用に設計されている。 本稿では,空間的近接を交換することで,このレイテンシギャップを閉じるフラットフォームを提案する。 まず、ウィンドウベースのソートと分割ポイントで点雲を平らにし、同じ形状のウィンドウではなく、同じサイズのグループに分割する。 これにより、コストのかかる構造やパッドのオーバーヘッドを効果的に回避できる。 次に、グループ内でセルフアテンションを適用して、ローカルな特徴を抽出し、異なる方向から機能を集め、ウィンドウをグループ間で機能交換にシフトします。 FlatFormerはWaymo Open Dataset上で4.6倍のスピードアップ(トランスフォーマーベース)SST、1.4倍のスピードアップ(小さな畳み込み)CenterPointを提供する。 これは、エッジgpuでリアルタイムパフォーマンスを実現する最初のポイントクラウドトランスフォーマーであり、大規模なベンチマークでほぼあるいはそれ以上の精度を達成しながら、疎畳み込みメソッドよりも高速である。

Transformer, as an alternative to CNN, has been proven effective in many modalities (e.g., texts and images). For 3D point cloud transformers, existing efforts focus primarily on pushing their accuracy to the state-of-the-art level. However, their latency lags behind sparse convolution-based models (3x slower), hindering their usage in resource-constrained, latency-sensitive applications (such as autonomous driving). This inefficiency comes from point clouds' sparse and irregular nature, whereas transformers are designed for dense, regular workloads. This paper presents FlatFormer to close this latency gap by trading spatial proximity for better computational regularity. We first flatten the point cloud with window-based sorting and partition points into groups of equal sizes rather than windows of equal shapes. This effectively avoids expensive structuring and padding overheads. We then apply self-attention within groups to extract local features, alternate sorting axis to gather features from different directions, and shift windows to exchange features across groups. FlatFormer delivers state-of-the-art accuracy on Waymo Open Dataset with 4.6x speedup over (transformer-based) SST and 1.4x speedup over (sparse convolutional) CenterPoint. This is the first point cloud transformer that achieves real-time performance on edge GPUs and is faster than sparse convolutional methods while achieving on-par or even superior accuracy on large-scale benchmarks.
翻訳日:2023-07-18 23:30:35 公開日:2023-07-14
# 逆生成モデルに対するPAC-Bayesian一般化境界

PAC-Bayesian Generalization Bounds for Adversarial Generative Models ( http://arxiv.org/abs/2302.08942v3 )

ライセンス: Link先を確認
Sokhna Diarra Mbacke, Florence Clerc, Pascal Germain(参考訳) PAC-ベイズ理論を生成モデルに拡張し、ワッサーシュタイン距離と全変動距離に基づくモデルに対する一般化境界を開発する。 ワッサーシュタイン距離に関する我々の第一の結果は、インスタンス空間が有界であると仮定し、第二の結果は次元還元を利用する。 我々の結果はワッサースタイン GAN とエネルギーベース GAN に自然に適用され、これらの2つの領域に新たなトレーニング目標が提供される。 本研究は主に理論的だが, 合成データセット上でのワッサーシュタイン GAN の非空一般化境界を示す数値実験を行う。

We extend PAC-Bayesian theory to generative models and develop generalization bounds for models based on the Wasserstein distance and the total variation distance. Our first result on the Wasserstein distance assumes the instance space is bounded, while our second result takes advantage of dimensionality reduction. Our results naturally apply to Wasserstein GANs and Energy-Based GANs, and our bounds provide new training objectives for these two. Although our work is mainly theoretical, we perform numerical experiments showing non-vacuous generalization bounds for Wasserstein GANs on synthetic datasets.
翻訳日:2023-07-18 23:20:07 公開日:2023-07-14
# cholectriplet2022: ツールを見せて,トリプレット -- 手術用トリプレット検出のための内視鏡的ビジョンチャレンジ

CholecTriplet2022: Show me a tool and tell me the triplet -- an endoscopic vision challenge for surgical action triplet detection ( http://arxiv.org/abs/2302.06294v2 )

ライセンス: Link先を確認
Chinedu Innocent Nwoye, Tong Yu, Saurav Sharma, Aditya Murali, Deepak Alapatt, Armine Vardazaryan, Kun Yuan, Jonas Hajek, Wolfgang Reiter, Amine Yamlahi, Finn-Henri Smidt, Xiaoyang Zou, Guoyan Zheng, Bruno Oliveira, Helena R. Torres, Satoshi Kondo, Satoshi Kasai, Felix Holm, Ege \"Ozsoy, Shuangchun Gui, Han Li, Sista Raviteja, Rachana Sathish, Pranav Poudel, Binod Bhattarai, Ziheng Wang, Guo Rui, Melanie Schellenberg, Jo\~ao L. Vila\c{c}a, Tobias Czempiel, Zhenkun Wang, Debdoot Sheet, Shrawan Kumar Thapa, Max Berniker, Patrick Godau, Pedro Morais, Sudarshan Regmi, Thuy Nuong Tran, Jaime Fonseca, Jan-Hinrich N\"olke, Estev\~ao Lima, Eduard Vazquez, Lena Maier-Hein, Nassir Navab, Pietro Mascagni, Barbara Seeliger, Cristians Gonzalez, Didier Mutter, Nicolas Padoy(参考訳) 使用器具のトリプレットとしての外科活動の定式化、動作の実行、標的解剖は、外科活動モデリングの黄金の標準的なアプローチになりつつある。 この形式化は、画像誘導手術のためのより良い人工知能支援を開発するために使用できるツールとタスクの相互作用をより詳細に理解するのに役立つ。 初期の取り組みと2021年に導入されたコレクトリプルトチャレンジでは、手術映像からこれらのトリプレットを認識する技術が組み合わされた。 三脚の空間的位置を推定すると、コンピュータによる介入に対するより正確な術中コンテキスト認識による決定支援が提供される。 本稿では,手術動作の三重項モデリングを認識から検出まで拡張したcholectriplet2022 challengeを提案する。 キーアクターとして、あらゆる可視的手術器具(または道具)の弱い教師付きバウンディングボックスローカライゼーション、および<instrument, verb, target> trit という形で、各ツールアクティビティのモデリングを含む。 本論文では,課題解決のためのベースライン手法と10種類の新しいディープラーニングアルゴリズムについて述べる。 また、方法の徹底的な方法論的比較、複数のメトリクスにわたる結果の詳細な分析、視覚的および手続き的課題、その意義、手術における将来の研究方向や応用のための有用な洞察を提供する。

Formalizing surgical activities as triplets of the used instruments, actions performed, and target anatomies is becoming a gold standard approach for surgical activity modeling. The benefit is that this formalization helps to obtain a more detailed understanding of tool-tissue interaction which can be used to develop better Artificial Intelligence assistance for image-guided surgery. Earlier efforts and the CholecTriplet challenge introduced in 2021 have put together techniques aimed at recognizing these triplets from surgical footage. Estimating also the spatial locations of the triplets would offer a more precise intraoperative context-aware decision support for computer-assisted intervention. This paper presents the CholecTriplet2022 challenge, which extends surgical action triplet modeling from recognition to detection. It includes weakly-supervised bounding box localization of every visible surgical instrument (or tool), as the key actors, and the modeling of each tool-activity in the form of <instrument, verb, target> triplet. The paper describes a baseline method and 10 new deep learning algorithms presented at the challenge to solve the task. It also provides thorough methodological comparisons of the methods, an in-depth analysis of the obtained results across multiple metrics, visual and procedural challenges; their significance, and useful insights for future research directions and applications in surgery.
翻訳日:2023-07-18 23:18:48 公開日:2023-07-14
# Bimodal SegNet: ロボットグラスピングのためのイベントとRGBフレームのインスタンスセグメンテーション

Bimodal SegNet: Instance Segmentation Fusing Events and RGB Frames for Robotic Grasping ( http://arxiv.org/abs/2303.11228v2 )

ライセンス: Link先を確認
Sanket Kachole, Xiaoqian Huang, Fariborz Baghaei Naeini, Rajkumar Muthusamy, Dimitrios Makris, Yahya Zweiri(参考訳) 動的条件下でのロボット把持のための物体分割は、しばしば閉塞、低光度条件、動きのぼかし、物体の大きさのばらつきなどの課題に直面する。 これらの課題に対処するために,我々は,イベントベースデータとrgbフレームデータという2種類の視覚信号を融合する深層学習ネットワークを提案する。 提案したBimodal SegNetネットワークは、2つの異なるエンコーダを持つ。 エンコーダは複雑な特徴を異なる解像度でプールすることでリッチなコンテキスト情報をキャプチャし、デコーダはシャープなオブジェクト境界を得る。 提案手法の評価は,イベントベースセグメンテーション(ESD)データセット上での閉塞,ぼかし,明るさ,軌跡,スケールのばらつきなど,5つのユニークな画像劣化課題を経験する。 評価の結果,結合平均交点と画素精度の観点から,最先端法よりも6~10~10%の分節精度が向上した。 モデルはhttps://github.com/sanket0707/bimodal-segnet.gitで入手できる。

Object segmentation for robotic grasping under dynamic conditions often faces challenges such as occlusion, low light conditions, motion blur and object size variance. To address these challenges, we propose a Deep Learning network that fuses two types of visual signals, event-based data and RGB frame data. The proposed Bimodal SegNet network has two distinct encoders, one for each signal input and a spatial pyramidal pooling with atrous convolutions. Encoders capture rich contextual information by pooling the concatenated features at different resolutions while the decoder obtains sharp object boundaries. The evaluation of the proposed method undertakes five unique image degradation challenges including occlusion, blur, brightness, trajectory and scale variance on the Event-based Segmentation (ESD) Dataset. The evaluation results show a 6-10\% segmentation accuracy improvement over state-of-the-art methods in terms of mean intersection over the union and pixel accuracy. The model code is available at https://github.com/sanket0707/Bimodal-SegNet.git
翻訳日:2023-07-18 22:51:21 公開日:2023-07-14
# VideoSum: 外科的ビデオ要約のためのPythonライブラリ

VideoSum: A Python Library for Surgical Video Summarization ( http://arxiv.org/abs/2303.10173v2 )

ライセンス: Link先を確認
Luis C. Garcia-Peraza-Herrera, Sebastien Ourselin and Tom Vercauteren(参考訳) ディープラーニング(DL)アルゴリズムの性能は,注釈付きデータの量や品質に大きく影響されている。 しかし、外科データサイエンスでは、それへのアクセスは限られている。 したがって、注釈付きSDSデータの不足を緩和する手法を開発するために、かなりの研究努力がなされている。 並行して、CAI(Computer Assisted Interventions)データセットの数が増加しているが、その規模は限られている。 これらの前提で、データキュレーションは多くのSDS研究の重要要素になりつつある。 手術用ビデオデータセットは、キュレーションを要求しており、専用のサポートツールの恩恵を受ける。 本稿では,映像の可視化,注釈,処理を容易にするために,代表的なフレームのストーリーボードやコラージュに手術映像を要約する。 自然画像ではビデオ要約が確立されている。 しかし、最先端の手法は通常、人工アノテーションで訓練されたモデルに依存し、手術ビデオで評価された方法はほとんどなく、作業のためのソフトウェアパッケージは限られている。 さまざまな教師なし手法を含む外科的ビデオからストーリーボードを生成するための,使いやすくオープンソースのPythonライブラリである videoum を提案する。

The performance of deep learning (DL) algorithms is heavily influenced by the quantity and the quality of the annotated data. However, in Surgical Data Science, access to it is limited. It is thus unsurprising that substantial research efforts are made to develop methods aiming at mitigating the scarcity of annotated SDS data. In parallel, an increasing number of Computer Assisted Interventions (CAI) datasets are being released, although the scale of these remain limited. On these premises, data curation is becoming a key element of many SDS research endeavors. Surgical video datasets are demanding to curate and would benefit from dedicated support tools. In this work, we propose to summarize surgical videos into storyboards or collages of representative frames to ease visualization, annotation, and processing. Video summarization is well-established for natural images. However, state-of-the-art methods typically rely on models trained on human-made annotations, few methods have been evaluated on surgical videos, and the availability of software packages for the task is limited. We present videosum, an easy-to-use and open-source Python library to generate storyboards from surgical videos that contains a variety of unsupervised methods.
翻訳日:2023-07-18 22:50:17 公開日:2023-07-14
# 効率的なロボット学習のための空間言語注意政策

Spatial-Language Attention Policies for Efficient Robot Learning ( http://arxiv.org/abs/2304.11235v2 )

ライセンス: Link先を確認
Priyam Parashar, Vidhi Jain, Xiaohan Zhang, Jay Vakil, Sam Powers, Yonatan Bisk, Chris Paxton(参考訳) 言語操作の進歩にもかかわらず、既存の作業はテーブルトップ設定に制限されている。 テーブルトップは、完璧で一貫性のあるカメラアングルを可能にする。 環境を動き回るタスクプランは、エゴセントリックな視点や平面の変化や把握角度に頑健でなければならない。 さらに課題は、限られたデータから効率的にスキルを習得しながら、これがすべて正しいことを保証することだ。 本稿では,空間言語アテンションポリシー(SLAP)を解法として提案する。 SLAPは入力表現として3次元トークンを使用し、単一のマルチタスク、言語条件のアクション予測ポリシーをトレーニングする。 1つのモデルで8つのタスクにまたがる実世界では80%の成功率を示し、1つのタスクにほんの一握りの例であっても、見当たらないクレームや見当たらないオブジェクト構成を導入すると47.5%の成功率を示す。 これは、以前の作業よりも30%の改善である(見当たらない障害と構成で20%)。 モバイル操作設定ではベースラインよりも4倍改善しています。 さらに,マルチステップ移動操作のための大規模言語モデルを用いて,オープンボキャブラリ命令からタスクプランを実行するためのslapsのロバスト性を示す。 ビデオはwebサイト(https://robotslap.github.io)を参照。

Despite great strides in language-guided manipulation, existing work has been constrained to table-top settings. Table-tops allow for perfect and consistent camera angles, properties are that do not hold in mobile manipulation. Task plans that involve moving around the environment must be robust to egocentric views and changes in the plane and angle of grasp. A further challenge is ensuring this is all true while still being able to learn skills efficiently from limited data. We propose Spatial-Language Attention Policies (SLAP) as a solution. SLAP uses three-dimensional tokens as the input representation to train a single multi-task, language-conditioned action prediction policy. Our method shows an 80% success rate in the real world across eight tasks with a single model, and a 47.5% success rate when unseen clutter and unseen object configurations are introduced, even with only a handful of examples per task. This represents an improvement of 30% over prior work (20% given unseen distractors and configurations). We see a 4x improvement over baseline in mobile manipulation setting. In addition, we show how SLAPs robustness allows us to execute Task Plans from open-vocabulary instructions using a large language model for multi-step mobile manipulation. For videos, see the website: https://robotslap.github.io
翻訳日:2023-07-18 22:41:40 公開日:2023-07-14
# ニューラルネットワークのためのLast-Layer Fairness Fine-tuning

Last-Layer Fairness Fine-tuning is Simple and Effective for Neural Networks ( http://arxiv.org/abs/2304.03935v2 )

ライセンス: Link先を確認
Yuzhen Mao, Zhun Deng, Huaxiu Yao, Ting Ye, Kenji Kawaguchi, James Zou(参考訳) 機械学習は、現代のデータサイエンスのアプリケーション間でユビキタスに展開されているため、アルゴリズムの公平性が大きな関心事となっている。 その中でも,学習中にフェアネス制約を課すこと,すなわちインプロセスフェアトレーニングは,ポストプロセッシング法とは対照的にテスト時間中に機密属性にアクセスする必要がないため,一般的なトレーニング手法である。 これは古典的機械学習モデルで広く研究されているが、ディープニューラルネットワークへの影響はいまだに不明である。 近年の研究では、目的関数に公平性制約を加えると、大規模モデルにおける公平性基準に厳しい過剰フィットを生じさせ、この課題を解決する方法が重要な疑問となっている。 これに取り組むために、事前学習と微調整の知恵と力を活用し、より効率的で安価な方法で公正なニューラルネットワークをトレーニングするための、シンプルだが斬新なフレームワークを開発する。 このフレームワークは、公平なニューラルネットワークをトレーニングするための表現学習に有用な洞察を提供する。

As machine learning has been deployed ubiquitously across applications in modern data science, algorithmic fairness has become a great concern. Among them, imposing fairness constraints during learning, i.e. in-processing fair training, has been a popular type of training method because they don't require accessing sensitive attributes during test time in contrast to post-processing methods. While this has been extensively studied in classical machine learning models, their impact on deep neural networks remains unclear. Recent research has shown that adding fairness constraints to the objective function leads to severe over-fitting to fairness criteria in large models, and how to solve this challenge is an important open question. To tackle this, we leverage the wisdom and power of pre-training and fine-tuning and develop a simple but novel framework to train fair neural networks in an efficient and inexpensive way -- last-layer fine-tuning alone can effectively promote fairness in deep neural networks. This framework offers valuable insights into representation learning for training fair neural networks.
翻訳日:2023-07-18 22:40:34 公開日:2023-07-14
# Torch-Choice: Pythonによる大規模選択モデリングのためのPyTorchパッケージ

Torch-Choice: A PyTorch Package for Large-Scale Choice Modelling with Python ( http://arxiv.org/abs/2304.01906v3 )

ライセンス: Link先を確認
Tianyu Du, Ayush Kanodia and Susan Athey(参考訳) $\texttt{torch-choice}$は、PythonとPyTorchを使った柔軟で高速な選択モデリングのためのオープンソースライブラリである。 データベースを柔軟かつメモリ効率良く管理するための$\texttt{torch-choice}$データ構造を提供する。 この記事では、$\texttt{ChoiceDataset}$のさまざまなフォーマットと機能を持つデータベースから$\textt{ChoiceDataset}$を構築することを実証する。 このパッケージは、多項ロジットとネストロジットモデルという2つの広く使われているモデルを実装し、モデル推定中に正規化をサポートする。 このパッケージには、推定にGPUを利用するオプションが含まれており、計算効率が良く、大量のデータセットにスケールできる。 モデルは R-style formula strings または Python dictionary を使って初期化することができる。 結論として, r における $\textt{torch-choice}$ と $\texttt{mlogit}$ の計算効率を比較して, (1) 観測数の増加, (2) 共変数数の増加, (3) 項目集合の拡大について考察した。 最後に、大規模データセット上で$\texttt{torch-choice}$のスケーラビリティを示す。

The $\texttt{torch-choice}$ is an open-source library for flexible, fast choice modeling with Python and PyTorch. $\texttt{torch-choice}$ provides a $\texttt{ChoiceDataset}$ data structure to manage databases flexibly and memory-efficiently. The paper demonstrates constructing a $\texttt{ChoiceDataset}$ from databases of various formats and functionalities of $\texttt{ChoiceDataset}$. The package implements two widely used models, namely the multinomial logit and nested logit models, and supports regularization during model estimation. The package incorporates the option to take advantage of GPUs for estimation, allowing it to scale to massive datasets while being computationally efficient. Models can be initialized using either R-style formula strings or Python dictionaries. We conclude with a comparison of the computational efficiencies of $\texttt{torch-choice}$ and $\texttt{mlogit}$ in R as (1) the number of observations increases, (2) the number of covariates increases, and (3) the expansion of item sets. Finally, we demonstrate the scalability of $\texttt{torch-choice}$ on large-scale datasets.
翻訳日:2023-07-18 22:39:55 公開日:2023-07-14
# ヘテロホモジン受信器による量子照明とシーケンス検出

Quantum Illumination with a Hetero-Homodyne Receiver and Sequential Detection ( http://arxiv.org/abs/2303.18207v2 )

ライセンス: Link先を確認
Maximilian Reichert, Quntao Zhuang, Jeffrey H. Shapiro, Roberto Di Candia(参考訳) 本稿では,量子照度検出のためのヘテロホモジン受信機を提案する。 従来のQI受信機とは異なり、QIの帰還した放射と格納されたアイドラーの間の量子相互作用を必要としないカスケード正の演算子値測定(POVM)を使用する。 逐次検出なしで使用する場合、その性能は、GuhaとErkmenの[Phys. A 80, 052310 (2009)]位相共役およびパラメトリック増幅器が楽しむ最適古典照明(CI)よりも3dB量子優位性に一致する。 シーケンシャル検出QIプロトコルで使用される場合、ヘテロホモジン受信機は、従来のCIレーダよりも9dB量子アドバンテージ、シーケンシャル検出を備えたCIレーダよりも3dB量子アドバンテージを提供する。 我々の研究は、マイクロ波領域の実用的な量子レーダに向けた重要な一歩であり、より一般的には、量子レーダのカスケードされたPOVMがもたらすポテンシャルを強調している。

We propose a hetero-homodyne receiver for quantum illumination (QI) target detection. Unlike prior QI receivers, it uses a cascaded positive operator-valued measurement (POVM) that does not require a quantum interaction between QI's returned radiation and its stored idler. When used without sequential detection its performance matches the 3 dB quantum advantage over optimum classical illumination (CI) that Guha and Erkmen's [Phys. Rev. A 80, 052310 (2009)] phase-conjugate and parametric amplifier receivers enjoy. When used in a sequential detection QI protocol, the hetero-homodyne receiver offers a 9 dB quantum advantage over a conventional CI radar, and a 3 dB advantage over a CI radar with sequential detection. Our work is a significant step forward toward a practical quantum radar for the microwave region, and, more generally, emphasizes the potential offered by cascaded POVMs for quantum radar.
翻訳日:2023-07-18 22:39:35 公開日:2023-07-14
# ボソニックモードに結合した量子系における冷却と熱シフトの効果的記述

Effective description of cooling and thermal shifts in quantum systems coupled to bosonic modes ( http://arxiv.org/abs/2305.03183v2 )

ライセンス: Link先を確認
Simon B. J\"ager and Ralf Betzholz(参考訳) 近年、発散ボソニックモードに動的に結合した量子系に対する効果的なリンドブラッドマスター方程式が導入された [Phys. Rev. Lett. 129, 063601 (2022)]。 このアプローチでは、ボソニックモードは断続的に排除され、量子系のダイナミクスを効果的に記述することができる。 ここでは,この実効マスター方程式を用いて,光物質相互作用を持つ系の冷却を記述できることを実証する。 2つの例を挙げる: 未解決および解決されたサイドバンド機構におけるオプトメカニカル発振器のサイドバンド冷却と相互作用量子系の冷却、横場イジングモデル。 実効的な説明と量子システムとボソニックモードによる合成の完全な数値シミュレーションを比較し,良好な一致を見出す。 さらに, 実効マスター方程式を, ボソニックモードの非消滅平均熱的占有の場合まで拡張する方法について述べる。 本手法は, 放散熱ボソニックモードに結合した2レベル系の線幅と周波数の変化を計算するために用いられる。 ここでは,このアプローチが基盤となるリウヴィル空間次元の大幅な削減を可能にすることを強調する。

Recently, an effective Lindblad master equation for quantum systems whose dynamics are coupled to dissipative bosonic modes has been introduced [Phys. Rev. Lett. 129, 063601 (2022)]. In this approach, the bosonic modes are adiabatically eliminated and one can effectively describe the dynamics of the quantum systems. Here, we demonstrate that this effective master equation can also be used to describe cooling in systems with light-matter interactions. We provide two examples: sideband cooling of an optomechanical oscillator in the unresolved as well as resolved sideband regime and cooling of an interacting quantum system, the transverse-field Ising model. We compare our effective description with a full numerical simulation of the composite formed by the quantum system plus bosonic mode and find an excellent agreement. In addition, we present how the effective master equation can be extended to the case of non-vanishing mean thermal occupations of the bosonic mode. We use this approach to calculate modifications of the linewidth and frequency for a two-level system coupled to a dissipative thermal bosonic mode. Here, we highlight that our approach allows for a massive reduction of the underlying Liouville-space dimension.
翻訳日:2023-07-18 22:31:00 公開日:2023-07-14
# ラプラシアンピラミッドを用いた生成H&Eステイン拡張ネットワーク

A Laplacian Pyramid Based Generative H&E Stain Augmentation Network ( http://arxiv.org/abs/2305.14301v2 )

ライセンス: Link先を確認
Fangda Li, Zhiqiang Hu, Wen Chen, Avinash Kak(参考訳) ヘマトキシリンおよびエオシン染色(ヘマトキシリンとエオシン、H&E)は、組織部位の飽和度と核と細胞質のコントラストを高めるために広く用いられている試料調製法である。 しかし、使用中の試薬の違いなど様々な要因により、実際に記録された染料の色が変化しやすい。 この可変性は、機械学習ベースのコンピュータ支援診断ツールの一般化を達成する上で課題となる。 GANベースのフレームワークであるGenerative Stain Augmentation Network (G-SAN)を提案する。 その核となるg-sanは、細胞の形態から染色を分離できる新しい計算効率の高いラプラシアンピラミッド(lp)ベースのジェネレータアーキテクチャを使用している。 パッチ分類と核分割の課題を通じて,G-SANによるトレーニングデータを用いることで,F1スコアの平均15.7%,汎視的品質7.3%の向上が得られた。 私たちのコードはhttps://github.com/lifangda01/gsan-demoで利用可能です。

Hematoxylin and Eosin (H&E) staining is a widely used sample preparation procedure for enhancing the saturation of tissue sections and the contrast between nuclei and cytoplasm in histology images for medical diagnostics. However, various factors, such as the differences in the reagents used, result in high variability in the colors of the stains actually recorded. This variability poses a challenge in achieving generalization for machine-learning based computer-aided diagnostic tools. To desensitize the learned models to stain variations, we propose the Generative Stain Augmentation Network (G-SAN) -- a GAN-based framework that augments a collection of cell images with simulated yet realistic stain variations. At its core, G-SAN uses a novel and highly computationally efficient Laplacian Pyramid (LP) based generator architecture, that is capable of disentangling stain from cell morphology. Through the task of patch classification and nucleus segmentation, we show that using G-SAN-augmented training data provides on average 15.7% improvement in F1 score and 7.3% improvement in panoptic quality, respectively. Our code is available at https://github.com/lifangda01/GSAN-Demo.
翻訳日:2023-07-18 22:20:33 公開日:2023-07-14
# waymo open sim agentsチャレンジ

The Waymo Open Sim Agents Challenge ( http://arxiv.org/abs/2305.12032v3 )

ライセンス: Link先を確認
Nico Montali, John Lambert, Paul Mougin, Alex Kuefler, Nick Rhinehart, Michelle Li, Cole Gulino, Tristan Emrich, Zoey Yang, Shimon Whiteson, Brandyn White, Dragomir Anguelov(参考訳) 現実的でインタラクティブなエージェントによるシミュレーションは、自動運転車ソフトウェア開発の重要なタスクである。 本稿では,Waymo Open Sim Agents Challenge (WOSAC)を紹介する。 WOSACはこの課題に取り組み、対応するメトリクスを提案する最初の公開課題である。 この課題の目標は、自律運転のための行動モデルの評価と訓練に使用できる現実的なシミュレータの設計を刺激することである。 我々は,2023年3月16日から5月23日にかけて実施された2023年大会における,評価手法の概要,各種のベースラインシミュレーション手法の評価結果について概説する。 wosac評価サーバは引き続き提出を受け付けており、タスクのオープンな問題について議論する。

Simulation with realistic, interactive agents represents a key task for autonomous vehicle software development. In this work, we introduce the Waymo Open Sim Agents Challenge (WOSAC). WOSAC is the first public challenge to tackle this task and propose corresponding metrics. The goal of the challenge is to stimulate the design of realistic simulators that can be used to evaluate and train a behavior model for autonomous driving. We outline our evaluation methodology, present results for a number of different baseline simulation agent methods, and analyze several submissions to the 2023 competition which ran from March 16, 2023 to May 23, 2023. The WOSAC evaluation server remains open for submissions and we discuss open problems for the task.
翻訳日:2023-07-18 22:19:15 公開日:2023-07-14
# 制約のないオンライン学習

Unconstrained Online Learning with Unbounded Losses ( http://arxiv.org/abs/2306.04923v2 )

ライセンス: Link先を確認
Andrew Jacobsen, Ashok Cutkosky(参考訳) オンライン学習のアルゴリズムは一般に、ドメインが境界付けられたり、損失がリプシッツかその両方かという1つ以上の境界性仮定を必要とする。 本稿では,非有界領域と非Lipschitz損失を伴うオンライン学習のための新しい環境を開発する。 この設定のために、$R_{T}(u)\le \tilde O(G\|u\|\sqrt{T}+L\|u\|^{2}\sqrt{T})を保証できるアルゴリズムを提供する。 このアルゴリズムを利用して、有意な曲率がない場合でも、非有界領域の双対性ギャップに収束する新たな鞍点最適化アルゴリズムを開発する。 最後に,非Lipschitz損失に対する非有界領域における非自明な動的後悔を達成するアルゴリズムと,一致した下界を与える。 動的後悔アルゴリズムの後悔は、損失が滑らかな場合に自動的に新しい$l^{*}$バウンドに改善されます。

Algorithms for online learning typically require one or more boundedness assumptions: that the domain is bounded, that the losses are Lipschitz, or both. In this paper, we develop a new setting for online learning with unbounded domains and non-Lipschitz losses. For this setting we provide an algorithm which guarantees $R_{T}(u)\le \tilde O(G\|u\|\sqrt{T}+L\|u\|^{2}\sqrt{T})$ regret on any problem where the subgradients satisfy $\|g_{t}\|\le G+L\|w_{t}\|$, and show that this bound is unimprovable without further assumptions. We leverage this algorithm to develop new saddle-point optimization algorithms that converge in duality gap in unbounded domains, even in the absence of meaningful curvature. Finally, we provide the first algorithm achieving non-trivial dynamic regret in an unbounded domain for non-Lipschitz losses, as well as a matching lower bound. The regret of our dynamic regret algorithm automatically improves to a novel $L^{*}$ bound when the losses are smooth.
翻訳日:2023-07-18 22:01:22 公開日:2023-07-14
# 自然言語によるベイズ推論を用いた人間的な概念学習のモデル化

Modeling Human-like Concept Learning with Bayesian Inference over Natural Language ( http://arxiv.org/abs/2306.02797v2 )

ライセンス: Link先を確認
Kevin Ellis(参考訳) 自然言語における発話上でベイズ推論を行うことで抽象的記号概念の学習をモデル化する。 効率的な推論には、提案分布として大きな言語モデルを用いる。 人間のデータに先行して人間の学習者をモデル化し、生成的概念と論理的概念の両方を評価する。

We model learning of abstract symbolic concepts by performing Bayesian inference over utterances in natural language. For efficient inference, we use a large language model as a proposal distribution. We fit a prior to human data to better model human learners, and evaluate on both generative and logical concepts.
翻訳日:2023-07-18 22:00:27 公開日:2023-07-14
# 擬似経路幾何学による説明多元宇宙の探索

Navigating Explanatory Multiverse Through Counterfactual Path Geometry ( http://arxiv.org/abs/2306.02786v2 )

ライセンス: Link先を確認
Kacper Sokol and Edward Small and Yueqing Xuan(参考訳) 反事実的説明は、(オパクな)予測モデルの決定を解釈するときにデファクトスタンダードとなる。 それらの生成は、しばしばアルゴリズムやドメイン固有の制約、例えば密度ベースの実現可能性や属性(不変性)や変化の方向性といった、現実のユーティリティを最大化することを目的としている。 デシデラタ(desiderata, desiderata)の反事実インスタンスそのものに加えて、それとアルゴリズムリコースとして知られる事実データポイントをつなぐ実行可能な経路の存在が重要な技術的考察となっている。 これらの要件はどちらも、旅の歩数と目的地が許容可能であることを保証しているが、現在の文献は、そのような反現実的な経路の重複を無視している。 この欠点に対処するために、我々は、全ての反現実的な旅を包含する説明的多元宇宙という新しい概念を導入し、ベクトル空間とグラフという2つの方法を用いて、これらの軌道の幾何学(それらの親和性、分岐性、発散性および将来の収束性)をナビゲートし、推論し、比較する方法を示す。 この(対話的な)説明プロセスを実装することで、説明者は絶対的な違いに加えて、旅の属性に基づいて反事実を選択できる。

Counterfactual explanations are the de facto standard when tasked with interpreting decisions of (opaque) predictive models. Their generation is often subject to algorithmic and domain-specific constraints -- such as density-based feasibility and attribute (im)mutability or directionality of change -- that aim to maximise their real-life utility. In addition to desiderata with respect to the counterfactual instance itself, existence of a viable path connecting it with the factual data point, known as algorithmic recourse, has become an important technical consideration. While both of these requirements ensure that the steps of the journey as well as its destination are admissible, current literature neglects the multiplicity of such counterfactual paths. To address this shortcoming we introduce the novel concept of explanatory multiverse that encompasses all the possible counterfactual journeys; we then show how to navigate, reason about and compare the geometry of these trajectories -- their affinity, branching, divergence and possible future convergence -- with two methods: vector spaces and graphs. Implementing this (interactive) explanatory process grants explainees agency by allowing them to select counterfactuals based on the properties of the journey leading to them in addition to their absolute differences.
翻訳日:2023-07-18 22:00:22 公開日:2023-07-14
# 2つの非局所$\delta'$相互作用からなる特異な二重井戸を持つ1次元ハミルトニアンの解析

Analysis of a one-dimensional Hamiltonian with a singular double well consisting of two nonlocal $\delta'$ interactions ( http://arxiv.org/abs/2307.03674v3 )

ライセンス: Link先を確認
Silvestro Fassari, Manuel Gadella, Luis-Miguel Nieto and Fabio Rinaldi(参考訳) 本論文の目的は、その原点に対して対称に位置する等強度と非局所的な$\delta'$相互作用の和によってポテンシャルが与えられる1次元ハミルトニアンの研究である。 このハミルトニアンに対する自己随伴決定を厳密に達成するために、結合定数の {\it renormalisation of the coupling constant} と呼ばれる手順を用いる。 このモデルは相互作用の強さと各相互作用の中心と原点の間の距離という2つのパラメータに依存する。 自己随伴決定が得られれば、エネルギー準位を表す2つの負の固有値からなることを示す離散スペクトルを得る。 これらのエネルギー準位が上記のパラメータに依存することを解析する。 モデルの共鳴の可能性について検討する。 さらに、2つの$\delta'$相互作用のサポート間の距離がなくなると、我々のモデルの限界を詳細に分析する。

The objective of the present paper is the study of a one-dimensional Hamiltonian inside which the potential is given by the sum of two nonlocal attractive $\delta'$ interactions of equal strength and symmetrically located with respect to the origin. We use the procedure known as {\it renormalisation of the coupling constant} in order to rigorously achieve a self-adjoint determination for this Hamiltonian. This model depends on two parameters, the interaction strength and the distance between the centre of each interaction and the origin. Once we have the self-adjoint determination, we obtain its discrete spectrum showing that it consists of two negative eigenvalues representing the energy levels. We analyse the dependence of these energy levels on the above-mentioned parameters. We investigate the possible resonances of the model. Furthermore, we analyse in detail the limit of our model as the distance between the supports of the two $\delta'$ interactions vanishes.
翻訳日:2023-07-18 19:57:10 公開日:2023-07-14
# デコヒーレンスがアンハーモニック発振器をシミュレートするコストを制限

Decoherence Limits the Cost to Simulate an Anharmonic Oscillator ( http://arxiv.org/abs/2307.00748v2 )

ライセンス: Link先を確認
Tzula B. Propp, Sayonee Ray, John B. DeBrota, Tameem Albash, and Ivan Deutsch(参考訳) カー効果によって支配される無調波発振器の量子力学をシミュレートし、デコヒーレンスがいかに効率を高めるかを研究する。 閉量子系における位相空間量子干渉に付随する微細なサブプランク構造をデコヒーレンスで洗い出すと、開量子力学は粗い有限差分積分を用いてより効率的にシミュレートできる。 これをデコヒーレンスが半古典的切断ウィグナー近似(twa)を回復する方法と結びつけ、量子干渉が猫状態やより一般的なコヒーレント状態の重ね合わせに繋がる場合の正確な閉系力学とは大きく異なる。 半古典力学への回帰は、発振器の初期振幅が大きくなるにつれてより顕著になり、ノイズの多いデバイスでアクセス可能な量子的優位性が示唆される。

We study how decoherence increases the efficiency with which we can simulate the quantum dynamics of an anharmonic oscillator, governed by the Kerr effect. As decoherence washes out the fine-grained subPlanck structure associated with phase-space quantum interference in the closed quantum system, the open quantum dynamics can be more efficiently simulated using a coarse-grained finite-difference numerical integration. We tie this to the way in which decoherence recovers the semiclassical truncated Wigner approximation (TWA), which strongly differs from the exact closed-system dynamics at times when quantum interference leads to cat states and more general superpositions of coherent states. The regression to semiclassical dynamics become more pronounced as the initial amplitude of the oscillator grows, with implications for the quantum advantage that might be accessible in noisy devices.
翻訳日:2023-07-18 19:55:07 公開日:2023-07-14
# 移動行動量損失介入における個人化金融インセンティブへの適応的最適化手法

An Adaptive Optimization Approach to Personalized Financial Incentives in Mobile Behavioral Weight Loss Interventions ( http://arxiv.org/abs/2307.00444v2 )

ライセンス: Link先を確認
Qiaomei Li, Kara L. Gavin, Corrine I. Voils, Yonatan Mintz(参考訳) 肥満は米国に影響を及ぼす重要な医療問題である。 肥満に対する最もリスクの少ない治療は、食事や運動を促進する行動介入である。 これらの介入は、しばしば、介入者が参加者のレベルデータを収集し、参加者に長期的な行動変化を促進するインセンティブと目標を与えるモバイルコンポーネントを含む。 近年,行動変化を促進するために直接金融インセンティブの利用が注目されている。 しかし、各参加者は異なるインセンティブ構造や量に異なる反応をし、研究者はパーソナライズされた介入を検討する。 パーソナライゼーションの鍵となる課題は、臨床医が参加者にインセンティブを施す最善の方法を事前に知らないこと、費用のかかるリソースを効率的に払い出すための有限の介入予算を与えることである。 本稿では,予算内に留まらず,直接的な金銭的インセンティブを用いて体重減少を動機づける,パーソナライズされた減量介入をデザインする課題について考察する。 私たちは、行動介入のコンテキスト内で、個人が異なるインセンティブスケジュールにどう反応するかを予測する機械学習アプローチを作成します。 この予測モデルを適応型フレームワークで使用し、介入の過程で参加者に支払いを行い、研究予算内に留まるインセンティブを計算します。 モデル化と最適化のアプローチに関する理論的保証と,その性能をシミュレーションによる減量実験で実証する。 以上の結果から,重量減少に対するパーソナライズした介入設計のコスト効率と有効性が浮き彫りになった。

Obesity is a critical healthcare issue affecting the United States. The least risky treatments available for obesity are behavioral interventions meant to promote diet and exercise. Often these interventions contain a mobile component that allows interventionists to collect participants level data and provide participants with incentives and goals to promote long term behavioral change. Recently, there has been interest in using direct financial incentives to promote behavior change. However, adherence is challenging in these interventions, as each participant will react differently to different incentive structure and amounts, leading researchers to consider personalized interventions. The key challenge for personalization, is that the clinicians do not know a priori how best to administer incentives to participants, and given finite intervention budgets how to disburse costly resources efficiently. In this paper, we consider this challenge of designing personalized weight loss interventions that use direct financial incentives to motivate weight loss while remaining within a budget. We create a machine learning approach that is able to predict how individuals may react to different incentive schedules within the context of a behavioral intervention. We use this predictive model in an adaptive framework that over the course of the intervention computes what incentives to disburse to participants and remain within the study budget. We provide both theoretical guarantees for our modeling and optimization approaches as well as demonstrate their performance in a simulated weight loss study. Our results highlight the cost efficiency and effectiveness of our personalized intervention design for weight loss.
翻訳日:2023-07-18 19:54:48 公開日:2023-07-14
# forward アルゴリズムの拡張

Extending the Forward Forward Algorithm ( http://arxiv.org/abs/2307.04205v2 )

ライセンス: Link先を確認
Saumya Gandhi, Ritu Gala, Jonah Kornberg, Advaith Sridhar(参考訳) 2022年11月にGeoffrey Hintonによって提案されたフォワードフォワードアルゴリズムは、バックプロパゲーションの代わりにニューラルネットワークをトレーニングするための新しい方法である。 本プロジェクトでは,mnistデータセットにおける hinton の実験を再現し,その手法の範囲を2つの重要な貢献で拡張する。 まず,imdb movie reviewsデータセット上で,フォワードフォワードネットワークのベースライン性能を確立する。 私たちが知る限り、この感情分析タスクの結果は、コンピュータビジョンを超えたアルゴリズムの拡張の最初の例である。 第二に、損失閾値に対する新しいピラミッド最適化戦略、すなわちフォワードフォワード法に特有のハイパーパラメータを導入する。 我々のピラミッド的アプローチは、良好なしきい値戦略がテストエラーの最大8%の差を引き起こすことを示している。 最後に、訓練パラメータの可視化を行い、特に大きな(10〜20倍)平均や前方ネットワークによって獲得された重みのばらつきなど、いくつかの重要な洞察を得た。 リポジトリ: https://github.com/ads-cmu/forwardforward

The Forward Forward algorithm, proposed by Geoffrey Hinton in November 2022, is a novel method for training neural networks as an alternative to backpropagation. In this project, we replicate Hinton's experiments on the MNIST dataset, and subsequently extend the scope of the method with two significant contributions. First, we establish a baseline performance for the Forward Forward network on the IMDb movie reviews dataset. As far as we know, our results on this sentiment analysis task marks the first instance of the algorithm's extension beyond computer vision. Second, we introduce a novel pyramidal optimization strategy for the loss threshold - a hyperparameter specific to the Forward Forward method. Our pyramidal approach shows that a good thresholding strategy causes a difference of up to 8% in test error. Lastly, we perform visualizations of the trained parameters and derived several significant insights, such as a notably larger (10-20x) mean and variance in the weights acquired by the Forward Forward network. Repository: https://github.com/Ads-cmu/ForwardForward
翻訳日:2023-07-18 19:45:02 公開日:2023-07-14
# 音声テキストと大規模言語モデル統合のためのデコーダのみアーキテクチャについて

On decoder-only architecture for speech-to-text and large language model integration ( http://arxiv.org/abs/2307.03917v2 )

ライセンス: Link先を確認
Jian Wu, Yashesh Gaur, Zhuo Chen, Long Zhou, Yimeng Zhu, Tianrui Wang, Jinyu Li, Shujie Liu, Bo Ren, Linquan Liu, Yu Wu(参考訳) 大規模言語モデル (LLM) は自然言語処理の分野で大きな成功を収めており、自然言語を用いた人間とコンピュータの相互作用が向上している。 しかし,LLMへの音声信号のシームレスな統合は十分に研究されていない。 デコーダのみ"アーキテクチャも音声処理タスクではあまり研究されていない。 本研究では,音声情報をテキストベース大規模言語モデルに効果的に組み込む新しい手法であるSpeech-LLaMAを提案する。 本手法は,圧縮音響特徴をLLMの連続的意味空間にマッピングするために,コネクショニスト時間分類と簡単なオーディオエンコーダを利用する。 さらに,音声対テキストタスクのためのデコーダのみのアーキテクチャについても,音声対テキストペアデータのみから,より小規模のランダム初期化音声ラマモデルをトレーニングすることで検討した。 音声からテキストへの変換におけるデコーダのみのモデルの有効性を強調して,多言語音声からテキストへの変換タスクの実験を行い,強いベースラインに対する大幅な改善を示す。

Large language models (LLMs) have achieved remarkable success in the field of natural language processing, enabling better human-computer interaction using natural language. However, the seamless integration of speech signals into LLMs has not been explored well. The "decoder-only" architecture has also not been well studied for speech processing tasks. In this research, we introduce Speech-LLaMA, a novel approach that effectively incorporates acoustic information into text-based large language models. Our method leverages Connectionist Temporal Classification and a simple audio encoder to map the compressed acoustic features to the continuous semantic space of the LLM. In addition, we further probe the decoder-only architecture for speech-to-text tasks by training a smaller scale randomly initialized speech-LLaMA model from speech-text paired data alone. We conduct experiments on multilingual speech-to-text translation tasks and demonstrate a significant improvement over strong baselines, highlighting the potential advantages of decoder-only models for speech-to-text conversion.
翻訳日:2023-07-18 19:44:46 公開日:2023-07-14
# ブラックボックスdnnバックドア検出のためのトリガーと良性特徴の差分解析

Differential Analysis of Triggers and Benign Features for Black-Box DNN Backdoor Detection ( http://arxiv.org/abs/2307.05422v2 )

ライセンス: Link先を確認
Hao Fu, Prashanth Krishnamurthy, Siddharth Garg, Farshad Khorrami(参考訳) 本稿では,ブラックボックスシナリオ下でのバックドア攻撃に対するディープニューラルネットワークのデータ効率検出手法を提案する。 提案手法は,トリガに対応する特徴が他の良質な特徴よりもバックドア付きネットワークアウトプットを決定する上で大きな影響を与えるという直観性に動機づけられている。 バックドアネットワーク出力の決定におけるトリガーと良性特徴の影響を定量的に測定するために,5つの指標を紹介した。 与えられた入力の5次元値を計算するために,まず,入力の部分的内容をクリーンな検証サンプルに注入することにより,複数の合成サンプルを生成する。 そして、対応する合成サンプルの出力ラベルを用いて、5つのメトリクスを算出する。 この研究の貢献の1つは、小さなクリーンなバリデーションデータセットの使用である。 計算された5つのメトリクスを持つ5つの新しい検出器は、検証データセットからトレーニングされる。 メタノベルティ検出器は、5つの訓練されたノベルティ検出器の出力を融合してメタ信頼度スコアを生成する。 オンラインテスト中,メタノベルティ検出器が生成するメタ信頼度スコアを評価することにより,オンラインサンプルが有毒かどうかを判定する。 我々は,アブレーション研究や既存手法との比較など,幅広いバックドア攻撃による方法論の有効性を示す。 提案した5つの指標は, 清潔な試料と有毒な試料との違いを定量化する。 さらに、将来の高度な攻撃に対処するために提案される可能性のあるメトリクスを追加することにより、検出方法を段階的に改善することができる。

This paper proposes a data-efficient detection method for deep neural networks against backdoor attacks under a black-box scenario. The proposed approach is motivated by the intuition that features corresponding to triggers have a higher influence in determining the backdoored network output than any other benign features. To quantitatively measure the effects of triggers and benign features on determining the backdoored network output, we introduce five metrics. To calculate the five-metric values for a given input, we first generate several synthetic samples by injecting the input's partial contents into clean validation samples. Then, the five metrics are computed by using the output labels of the corresponding synthetic samples. One contribution of this work is the use of a tiny clean validation dataset. Having the computed five metrics, five novelty detectors are trained from the validation dataset. A meta novelty detector fuses the output of the five trained novelty detectors to generate a meta confidence score. During online testing, our method determines if online samples are poisoned or not via assessing their meta confidence scores output by the meta novelty detector. We show the efficacy of our methodology through a broad range of backdoor attacks, including ablation studies and comparison to existing approaches. Our methodology is promising since the proposed five metrics quantify the inherent differences between clean and poisoned samples. Additionally, our detection method can be incrementally improved by appending more metrics that may be proposed to address future advanced attacks.
翻訳日:2023-07-18 19:35:40 公開日:2023-07-14
# 変動予測

Variational Prediction ( http://arxiv.org/abs/2307.07568v1 )

ライセンス: Link先を確認
Alexander A. Alemi and Ben Poole(参考訳) ベイズ推定は最大確率を超える利点を提供するが、計算コストも伴う。 後方の計算は通常難解であり、後方の予測分布を形成するために後方の辺縁化である。 本稿では,変分境界を用いた後部予測分布への変分近似を直接学習する手法である変分予測を提案する。 このアプローチはテスト時間の限界化コストを伴わずに優れた予測分布を提供できる。 図形的玩具の例に変分予測を示す。

Bayesian inference offers benefits over maximum likelihood, but it also comes with computational costs. Computing the posterior is typically intractable, as is marginalizing that posterior to form the posterior predictive distribution. In this paper, we present variational prediction, a technique for directly learning a variational approximation to the posterior predictive distribution using a variational bound. This approach can provide good predictive distributions without test time marginalization costs. We demonstrate Variational Prediction on an illustrative toy example.
翻訳日:2023-07-18 19:19:34 公開日:2023-07-14
# 長期記憶ネットワークを用いた左右足部3軸心エコー図の再構成

Reconstruction of 3-Axis Seismocardiogram from Right-to-left and Head-to-foot Components Using A Long Short-Term Memory Network ( http://arxiv.org/abs/2307.07566v1 )

ライセンス: Link先を確認
Mohammad Muntasir Rahman and Amirtah\`a Taebi(参考訳) 本研究の目的は,左右方向および左右方向のscg信号(\textrm{scg}_x$および$\textrm{scg}_y$)から背側方向のseismocardiogram(scg)信号を予測するディープラーニングモデルの開発である。 モデルのトレーニングと検証に使用されたデータセットは,健常成人15名から得られた。 SCG信号は各被験者の胸部に置かれた3軸加速度計を用いて記録した。 その後、信号は心電図R波を用いてセグメント化され、そのセグメントはダウンサンプリングされ、正規化され、0を中心に配置された。 結果として得られたデータセットは、2層とドロップアウト層を備えた長期短期メモリ(LSTM)ネットワークのトレーニングと検証に使用された。 このネットワークは、1つの心周期を表す$\textrm{scg}_x$と$\textrm{scg}_y$の100回のステップを入力として、予測される対象変数にマッピングされたベクトルを出力する。 その結果, lstmモデルの平均二乗誤差は, ドーソヴェンタル方向のscgセグメントと実際のscgセグメントの間で0.09であった。 本研究では,2軸加速度計のデータを用いて3軸SCG信号を再構成する深層学習モデルの可能性を示す。

This pilot study aims to develop a deep learning model for predicting seismocardiogram (SCG) signals in the dorsoventral direction from the SCG signals in the right-to-left and head-to-foot directions ($\textrm{SCG}_x$ and $\textrm{SCG}_y$). The dataset used for the training and validation of the model was obtained from 15 healthy adult subjects. The SCG signals were recorded using tri-axial accelerometers placed on the chest of each subject. The signals were then segmented using electrocardiogram R waves, and the segments were downsampled, normalized, and centered around zero. The resulting dataset was used to train and validate a long short-term memory (LSTM) network with two layers and a dropout layer to prevent overfitting. The network took as input 100-time steps of $\textrm{SCG}_x$ and $\textrm{SCG}_y$, representing one cardiac cycle, and outputted a vector that mapped to the target variable being predicted. The results showed that the LSTM model had a mean square error of 0.09 between the predicted and actual SCG segments in the dorsoventral direction. The study demonstrates the potential of deep learning models for reconstructing 3-axis SCG signals using the data obtained from dual-axis accelerometers.
翻訳日:2023-07-18 19:19:24 公開日:2023-07-14
# 量子多体ダイナミクスにおける局所積分可能性の解明

Uncovering Local Integrability in Quantum Many-Body Dynamics ( http://arxiv.org/abs/2307.07552v1 )

ライセンス: Link先を確認
Oles Shtanko, Derek S. Wang, Haimeng Zhang, Nikhil Harle, Alireza Seif, Ramis Movassagh, Zlatko Minev(参考訳) 相互作用する多体量子システムとその力学は、現代の科学と技術の基本であるが、シミュレートと理解が難しい。 しかし、対称性、保存法則、可積分性を発見すれば、その複雑さを解き放つことができる。 ここでは、完全プログラム可能な量子コンピュータの最大124キュービットを用いて、1次元および2次元周期的に駆動されるスピン格子の局所保存則と積分性を明らかにする。 そこでは, 1粒子密度行列スペクトルと他の目印符号の異常により, システムを局所的な状態へクロスオーバーする手法を最初にベンチマークする。 この構造は、量子演算子を忠実に再構成することで、隠れた局所的な運動積分に起因していることを証明し、システムの可積分ダイナミクスの詳細なポートレートを提供する。 本研究は,大規模量子コンピュータにおける雑音実験から隠れ力学構造を抽出するための汎用戦略を示す。

Interacting many-body quantum systems and their dynamics, while fundamental to modern science and technology, are formidable to simulate and understand. However, by discovering their symmetries, conservation laws, and integrability one can unravel their intricacies. Here, using up to 124 qubits of a fully programmable quantum computer, we uncover local conservation laws and integrability in one- and two-dimensional periodically-driven spin lattices in a regime previously inaccessible to such detailed analysis. We focus on the paradigmatic example of disorder-induced ergodicity breaking, where we first benchmark the system crossover into a localized regime through anomalies in the one-particle-density-matrix spectrum and other hallmark signatures. We then demonstrate that this regime stems from hidden local integrals of motion by faithfully reconstructing their quantum operators, thus providing a detailed portrait of the system's integrable dynamics. Our results demonstrate a versatile strategy for extracting hidden dynamical structure from noisy experiments on large-scale quantum computers.
翻訳日:2023-07-18 19:18:43 公開日:2023-07-14
# 時系列データに対する時間インプットを用いたソースフリー領域適応

Source-Free Domain Adaptation with Temporal Imputation for Time Series Data ( http://arxiv.org/abs/2307.07542v1 )

ライセンス: Link先を確認
Mohamed Ragab, Emadeldeen Eldele, Min Wu, Chuan-Sheng Foo, Xiaoli Li, and Zhenghua Chen(参考訳) source-free domain adaptation (sfda) は、ラベル付きソースドメインからラベル付きターゲットドメインへ、ソースドメインデータにアクセスせずに事前訓練されたモデルを適用することを目的としている。 視覚的応用が盛んであるにもかかわらず、SFDAは時系列アプリケーションではほとんど探索されていない。 視覚アプリケーションのために主に設計された既存のsfdaメソッドは、時系列の時間的ダイナミクスを処理できず、適応性能を損なう可能性がある。 この課題に対処するため,本稿では,時系列データ,すなわち MAsk と imPUte (MAPU) のソースフリードメイン適応に対して,シンプルかつ効果的なアプローチを提案する。 まず、ソース領域の時間的情報をキャプチャするために、新しい時間的インプタを利用して埋め込み空間内のマスキングバージョンから元の信号を復元しながら、時系列信号のランダムマスキングを行う。 第2に、適応段階において、インプタネットワークを利用してターゲットモデルを誘導し、ソース特徴と時間的に整合したターゲット特徴を生成する。 この目的のために、MAPUはノイズ入力空間の計算を回避しつつ、適応中の時間依存性を明示的に説明することができる。 本手法は,時系列データに対するsfdaの時間的一貫性を初めて処理し,既存のsfda手法をシームレスに組み込むことができる。 3つの実世界の時系列データセットで行った大規模な実験により、MAPUは既存の手法よりも大きな性能向上を達成できた。 私たちのコードは \url{https://github.com/mohamedr002/MAPU_SFDA_TS} で利用可能です。

Source-free domain adaptation (SFDA) aims to adapt a pretrained model from a labeled source domain to an unlabeled target domain without access to the source domain data, preserving source domain privacy. Despite its prevalence in visual applications, SFDA is largely unexplored in time series applications. The existing SFDA methods that are mainly designed for visual applications may fail to handle the temporal dynamics in time series, leading to impaired adaptation performance. To address this challenge, this paper presents a simple yet effective approach for source-free domain adaptation on time series data, namely MAsk and imPUte (MAPU). First, to capture temporal information of the source domain, our method performs random masking on the time series signals while leveraging a novel temporal imputer to recover the original signal from a masked version in the embedding space. Second, in the adaptation step, the imputer network is leveraged to guide the target model to produce target features that are temporally consistent with the source features. To this end, our MAPU can explicitly account for temporal dependency during the adaptation while avoiding the imputation in the noisy input space. Our method is the first to handle temporal consistency in SFDA for time series data and can be seamlessly equipped with other existing SFDA methods. Extensive experiments conducted on three real-world time series datasets demonstrate that our MAPU achieves significant performance gain over existing methods. Our code is available at \url{https://github.com/mohamedr002/MAPU_SFDA_TS}.
翻訳日:2023-07-18 19:17:27 公開日:2023-07-14
# ConTrack: X線デバイス追跡のためのコンテキスト変換器

ConTrack: Contextual Transformer for Device Tracking in X-ray ( http://arxiv.org/abs/2307.07541v1 )

ライセンス: Link先を確認
Marc Demoustier, Yue Zhang, Venkatesh Narasimha Murthy, Florin C. Ghesu, Dorin Comaniciu(参考訳) デバイス追跡は血管内処置の指導に重要な前提条件である。 特に2次元蛍光画像におけるカテーテル先端の検出と追跡は,血管を血管造影(高用量,高用量,高用量)から蛍光内視鏡(低用量,コントラスト)にマッピングするために重要である。 カテーテル先端の追跡には、血管造影や介入装置のコントラストによって先端が閉塞される可能性があり、心臓運動や呼吸運動によって常に連続的に運動している。 これらの課題を克服するために,x線透視と血管造影の両方で正確なデバイス検出と追跡のために,空間的および時間的コンテキスト情報の両方を使用する変圧器ベースのネットワークcontrackを提案する。 空間情報はテンプレートフレームとセグメンテーションモジュールから来る: テンプレートフレームはデバイスの周囲を定義し、セグメンテーションモジュールはデバイス全体を検知し、チップ予測のためのコンテキストを拡大する。 複数のテンプレートを使用することで、コントラストエージェントによってオクルードされた時のデバイス外観の変化に対して、モデルがより堅牢になる。 電流と前フレームとのセグメンテーションされたカテーテルマスク上で計算されたフロー情報は、呼吸及び心臓の動きを補償することにより予測をさらに洗練するのに役立つ。 本手法は,最先端追跡モデルと比較して,検出および追跡精度が45%以上向上することを示す。

Device tracking is an important prerequisite for guidance during endovascular procedures. Especially during cardiac interventions, detection and tracking of guiding the catheter tip in 2D fluoroscopic images is important for applications such as mapping vessels from angiography (high dose with contrast) to fluoroscopy (low dose without contrast). Tracking the catheter tip poses different challenges: the tip can be occluded by contrast during angiography or interventional devices; and it is always in continuous movement due to the cardiac and respiratory motions. To overcome these challenges, we propose ConTrack, a transformer-based network that uses both spatial and temporal contextual information for accurate device detection and tracking in both X-ray fluoroscopy and angiography. The spatial information comes from the template frames and the segmentation module: the template frames define the surroundings of the device, whereas the segmentation module detects the entire device to bring more context for the tip prediction. Using multiple templates makes the model more robust to the change in appearance of the device when it is occluded by the contrast agent. The flow information computed on the segmented catheter mask between the current and the previous frame helps in further refining the prediction by compensating for the respiratory and cardiac motions. The experiments show that our method achieves 45% or higher accuracy in detection and tracking when compared to state-of-the-art tracking models.
翻訳日:2023-07-18 19:17:02 公開日:2023-07-14
# フロー誘導制御線描画生成

Flow-Guided Controllable Line Drawing Generation ( http://arxiv.org/abs/2307.07540v1 )

ライセンス: Link先を確認
Chengyu Fang, Xianfeng Han(参考訳) 本稿では,人工知能と芸術の魅力的な交点と見なすことができるベクトルフロー認識および線制御可能な画像対画像翻訳アーキテクチャを提案することにより,写真から自動制御可能な芸術的キャラクタ線描画の問題を検討する。 具体的には,まず画像対フローネットワーク(i2fnet)を用いて,ベクトル流れ場を学習ベースで効率的かつロバストに作成する手法を提案する。 次に,学習ベクトルフローと入力画像フローから特徴を融合し,線の空間的コヒーレンスを保証するためのdfg(double flow generator)フレームワークを提案する。 一方,制御可能な文字線描画生成を可能にするために,ライン制御行列(LCM)をDFGに統合し,ライン制御レグレッサ(LCR)を訓練し,ラインの厚み,滑らかさ,連続性といった細部を精巧に制御することで,異なるスタイルで描画を合成する。 最後に,Fourier Transformation Lossを設計し,その点の周波数領域からの文字列生成をさらに制約する。 定量的・定性的な実験により,本手法は知覚的に現実的な特徴を有する高分解能文字線描画画像の生成において優れた性能が得られることを示す。

In this paper, we investigate the problem of automatically controllable artistic character line drawing generation from photographs by proposing a Vector Flow Aware and Line Controllable Image-to-Image Translation architecture, which can be viewed as an appealing intersection between Artificial Intelligence and Arts. Specifically, we first present an Image-to-Flow network (I2FNet) to efficiently and robustly create the vector flow field in a learning-based manner, which can provide a direction guide for drawing lines. Then, we introduce our well-designed Double Flow Generator (DFG) framework to fuse features from learned vector flow and input image flow guaranteeing the spatial coherence of lines. Meanwhile, in order to allow for controllable character line drawing generation, we integrate a Line Control Matrix (LCM) into DFG and train a Line Control Regressor (LCR) to synthesize drawings with different styles by elaborately controlling the level of details, such as thickness, smoothness, and continuity, of lines. Finally, we design a Fourier Transformation Loss to further constrain the character line generation from the frequency domain view of the point. Quantitative and qualitative experiments demonstrate that our approach can obtain superior performance in producing high-resolution character line-drawing images with perceptually realistic characteristics.
翻訳日:2023-07-18 19:16:37 公開日:2023-07-14
# ヒルベルト空間における自己Normalized concentrationの改善:GP-UCBのサブ線形レグレット

Improved Self-Normalized Concentration in Hilbert Spaces: Sublinear Regret for GP-UCB ( http://arxiv.org/abs/2307.07539v1 )

ライセンス: Link先を確認
Justin Whitehouse, Zhiwei Steven Wu, Aaditya Ramdas(参考訳) カーネル化帯域問題において、学習者は、逐次選択された点におけるノイズ評価のみを与えられた再生カーネルヒルベルト空間に横たわる関数の最適度を逐次計算することを目的とする。 特に、学習者は後悔を最小限に抑えることを目的としており、これは選択の最適度を測る尺度である。 おそらく最も一般的なアルゴリズムは、未知関数の単純な線形推定子に基づいて行動するガウス過程uper confidence bound (gp-ucb)アルゴリズムである。 その人気にもかかわらず、既存のGP-UCBの分析は、Mate\'ernカーネルのような多くのよく使われるカーネルのサブライン化に失敗する、最適以下の後悔率を与えている。 既存のGP-UCBの後悔の分析は厳密なのか、それともより洗練された分析技術を用いて境界を改善することができるのか? 本研究では,GP-UCBがほぼ最適に後悔していることを示す。 特に,我々の結果は,Mat\'ern カーネルに対する線形後悔率を直接示唆し,最先端解析よりも改善し,Vakili らによる COLT 開放問題を部分的に解決した。 私たちの改善は2つの重要な技術的結果に依存している。 まず,従来の手法を大幅に単純化した,新しい自己正規化集中不等式を構築する。 第二に、基底となるカーネル$k$の滑らかさに比例して正規化することの重要性に対処する。 これらの新しい技術ツールはGP-UCBアルゴリズムのよりシンプルで厳密な解析を可能にする。

In the kernelized bandit problem, a learner aims to sequentially compute the optimum of a function lying in a reproducing kernel Hilbert space given only noisy evaluations at sequentially chosen points. In particular, the learner aims to minimize regret, which is a measure of the suboptimality of the choices made. Arguably the most popular algorithm is the Gaussian Process Upper Confidence Bound (GP-UCB) algorithm, which involves acting based on a simple linear estimator of the unknown function. Despite its popularity, existing analyses of GP-UCB give a suboptimal regret rate, which fails to be sublinear for many commonly used kernels such as the Mat\'ern kernel. This has led to a longstanding open question: are existing regret analyses for GP-UCB tight, or can bounds be improved by using more sophisticated analytical techniques? In this work, we resolve this open question and show that GP-UCB enjoys nearly optimal regret. In particular, our results directly imply sublinear regret rates for the Mat\'ern kernel, improving over the state-of-the-art analyses and partially resolving a COLT open problem posed by Vakili et al. Our improvements rely on two key technical results. First, we use modern supermartingale techniques to construct a novel, self-normalized concentration inequality that greatly simplifies existing approaches. Second, we address the importance of regularizing in proportion to the smoothness of the underlying kernel $k$. Together, these new technical tools enable a simplified, tighter analysis of the GP-UCB algorithm.
翻訳日:2023-07-18 19:16:11 公開日:2023-07-14
# 電磁遮蔽法による質量プロトコルの量子重力誘起絡み合い実験パラメータの緩和

Relaxation of experimental parameters in a Quantum-Gravity Induced Entanglement of Masses Protocol using electromagnetic screening ( http://arxiv.org/abs/2307.07536v1 )

ライセンス: Link先を確認
Martine Schut, Alexey Grinin, Andrew Dana, Sougato Bose, Andrew Geraci and Anupam Mazumdar(参考訳) 実験室で重力の量子的性質をテストするには、空間的重ね合わせにおいて距離に保持される重力相互作用のためだけに、2つの試験質量(ナノ結晶)の絡み合いを観察する必要がある。 このプロトコルは量子重力による質量の絡み合い(QGEM)として知られている。 QGEM実験の主な背景の1つは、電磁(EM)誘起の絡み合いとデコヒーレンスである。 EM相互作用は、カシミール・ポルダー相互作用のような双極子-双極子真空誘起相互作用によって、2つの中性質量を絡めることができる。 2つのナノ結晶間のEM誘起相互作用を緩和するため、2つの干渉計をファラデーケージに囲み、導電板で分離する。 しかし、永久双極子モーメントのようなナノ結晶の表面上の欠陥は、実験箱内の導電板と相互作用するEM背景を生成する。 これらの相互作用は、我々が緩和したいと願うEM誘起の脱落を引き起こす。 本稿では,QGEM実験の並列構成について考察し,EM誘起のデファス化率,デファス化を誘発する系統的エラーを推定し,空間的重畳を生成するモデルに依存しない方法で重ね合わせのサイズに制約を与える。

To test the quantum nature of gravity in a lab requires witnessing the entanglement between the two test masses (nano-crystals) solely due to the gravitational interaction kept at a distance in a spatial superposition. The protocol is known as the quantum gravity-induced entanglement of masses (QGEM). One of the main backgrounds in the QGEM experiment is electromagnetic (EM) induced entanglement and decoherence. The EM interactions can entangle the two neutral masses via dipole-dipole vacuum-induced interactions, such as the Casimir-Polder interaction. To mitigate the EM-induced interactions between the two nano-crystals, we enclose the two interferometers in a Faraday cage and separate them by a conducting plate. However, any imperfection on the surface of a nano-crystal, such as a permanent dipole moment will also create an EM background interacting with the conducting plate in the experimental box. These interactions will further generate EM-induced dephasing which we wish to mitigate. In this paper, we will consider a parallel configuration of the QGEM experiment, where we will estimate the EM-induced dephasing rate, run-by-run systematic errors which will induce dephasing, and also provide constraints on the size of the superposition in a model-independent way of creating the spatial superposition.
翻訳日:2023-07-18 19:15:46 公開日:2023-07-14
# 医療画像における教師なし異常検出のためのマスク付きオートエンコーダ

Masked Autoencoders for Unsupervised Anomaly Detection in Medical Images ( http://arxiv.org/abs/2307.07534v1 )

ライセンス: Link先を確認
Mariana-Iuliana Georgescu(参考訳) 病理異常は医用画像において多様な外観を示しており、教師付き環境でディープラーニングモデルのトレーニングに必要な代表的なデータの収集と注釈付けが困難である。 そこで本研究では,健常者のみを用いた枠組みのトレーニングを行う医療画像の異常検出に取り組む。 マスク付きオートエンコーダモデルを用いて,正規サンプルの構造を学習し,マスク付きオートエンコーダによって提供される元の画像と再構成との差に基づいて,異常分類器を訓練する。 正のサンプルとして, 新規な擬似異常モジュールを用いて得られた擬似異常スキャンを用いて, 正のサンプルを用いて, 教師付き方法で異常分類器を訓練する。 擬似異常モジュールは、いくつかの領域の強度を変化させることで、通常のサンプルの再構成を変更する。 我々は,BRATS2020 と LUNA16 という2つの医用画像データセットの実験を行い,この手法を最先端の4つの異常検出フレームワークであるAST,RD4AD,AnoVAEGAN,f-AnoGANと比較した。

Pathological anomalies exhibit diverse appearances in medical imaging, making it difficult to collect and annotate a representative amount of data required to train deep learning models in a supervised setting. Therefore, in this work, we tackle anomaly detection in medical images training our framework using only healthy samples. We propose to use the Masked Autoencoder model to learn the structure of the normal samples, then train an anomaly classifier on top of the difference between the original image and the reconstruction provided by the masked autoencoder. We train the anomaly classifier in a supervised manner using as negative samples the reconstruction of the healthy scans, while as positive samples, we use pseudo-abnormal scans obtained via our novel pseudo-abnormal module. The pseudo-abnormal module alters the reconstruction of the normal samples by changing the intensity of several regions. We conduct experiments on two medical image data sets, namely BRATS2020 and LUNA16 and compare our method with four state-of-the-art anomaly detection frameworks, namely AST, RD4AD, AnoVAEGAN and f-AnoGAN.
翻訳日:2023-07-18 19:15:22 公開日:2023-07-14
# サイバーセキュリティの意識を高めたい? 将来のITプロフェッショナルから始める

Want to Raise Cybersecurity Awareness? Start with Future IT Professionals ( http://arxiv.org/abs/2307.07608v1 )

ライセンス: Link先を確認
Lydia Kraus, Valdemar \v{S}v\'abensk\'y, Martin Hor\'ak, Vashek Maty\'a\v{s}, Jan Vykopal, Pavel \v{C}eleda(参考訳) サイバー脅威が一般ユーザーからコンピュータ専門家まで、全員を危険にさらす中、サイバーセキュリティの意識を広げることがますます重要になっている。 そこで,本大学は,学生,従業員,一般向けに無償でオンラインで利用可能な,革新的なサイバーセキュリティ意識コースをデザインした。 このコースは、誰でも防御対策を実施できるシンプルで実用的なステップを提供する。 他のリソースと比較すると、コースは学習者に何をすべきかを示唆するだけでなく、その理由と方法を説明する。 コースの影響を測定するため, 強制情報セキュリティと暗号化のコースにおいて, コンピュータサイエンスの学部生138名を対象に実施した。 彼らは宿題の一部としてコースを終了し、各レッスンの後にアンケートに記入した。 質問紙調査の結果,学生は授業を高く評価していた。 彼らは新しい学習、視点の変化、実践への転向を報告した。 さらに、コースの適切な改善も提案した。 結果に基づいて,セキュリティ教育者が類似のコースを設計するのに役立つ,具体的な洞察を蒸留した。 この研究から学んだ教訓は、サイバーセキュリティインストラクター、コースデザイナー、教育マネージャに関係している。

As cyber threats endanger everyone, from regular users to computing professionals, spreading cybersecurity awareness becomes increasingly critical. Therefore, our university designed an innovative cybersecurity awareness course that is freely available online for students, employees, and the general public. The course offers simple, actionable steps that anyone can use to implement defensive countermeasures. Compared to other resources, the course not only suggests learners what to do, but explains why and how to do it. To measure the course impact, we administered it to 138 computer science undergraduates within a compulsory information security and cryptography course. They completed the course as a part of their homework and filled out a questionnaire after each lesson. Analysis of the questionnaire responses revealed that the students valued the course highly. They reported new learning, perspective changes, and transfer to practice. Moreover, they suggested suitable improvements to the course. Based on the results, we have distilled specific insights to help security educators design similar courses. Lessons learned from this study are relevant for cybersecurity instructors, course designers, and educational managers.
翻訳日:2023-07-18 19:08:25 公開日:2023-07-14
# アフィン拘束型非凸非スムース問題の一階法:低複雑性境界法と近最適法

First-order Methods for Affinely Constrained Composite Non-convex Non-smooth Problems: Lower Complexity Bound and Near-optimal Methods ( http://arxiv.org/abs/2307.07605v1 )

ライセンス: Link先を確認
Wei Liu, Qihang Lin, Yangyang Xu(参考訳) 第一次法(FOMs)に関する最近の多くの研究は、線形および/または非線形関数の制約を伴う 'emph{composite non-convex non-smooth} 最適化に焦点を当てている。 これらの方法では、上(または最悪の)複雑性境界が確立されている。 しかし、下限が知られていないため、それらの最適性については、いくつかの特別な \emph{smooth non-convex} の場合を除いて、ほとんど主張できない。 本稿では,線形制約付き合成非凸非平滑最適化のクラスを解くために,FOMのより低い複雑性境界を確立するための最初の試みを行う。 2つの異なる一階オラクルを仮定すると、FOM のより低い複雑性境界を確立して、任意の許容値 $\epsilon>0$ に対して、考慮された問題クラスにおける問題(およびその改革)の(近傍)$\epsilon$-定常点を生成する。 さらに, より緩和された2つの第一次オラクルの1つを用いて, 不正確な近位勾配(IPG)法を提案する。 提案したIGGのオラクル複雑性は、検討された問題の(近く)$\epsilon$-stationary点とその修正を求めるために、確立された下界を対数係数に一致させる。 したがって、より低い複雑性境界と提案したIPG法はほとんど改善不可能である。

Many recent studies on first-order methods (FOMs) focus on \emph{composite non-convex non-smooth} optimization with linear and/or nonlinear function constraints. Upper (or worst-case) complexity bounds have been established for these methods. However, little can be claimed about their optimality as no lower bound is known, except for a few special \emph{smooth non-convex} cases. In this paper, we make the first attempt to establish lower complexity bounds of FOMs for solving a class of composite non-convex non-smooth optimization with linear constraints. Assuming two different first-order oracles, we establish lower complexity bounds of FOMs to produce a (near) $\epsilon$-stationary point of a problem (and its reformulation) in the considered problem class, for any given tolerance $\epsilon>0$. In addition, we present an inexact proximal gradient (IPG) method by using the more relaxed one of the two assumed first-order oracles. The oracle complexity of the proposed IPG, to find a (near) $\epsilon$-stationary point of the considered problem and its reformulation, matches our established lower bounds up to a logarithmic factor. Therefore, our lower complexity bounds and the proposed IPG method are almost non-improvable.
翻訳日:2023-07-18 19:08:09 公開日:2023-07-14
# padding-and-permuting fingerprinting codesによる微分プライベートアルゴリズムの滑らかな下限

Smooth Lower Bounds for Differentially Private Algorithms via Padding-and-Permuting Fingerprinting Codes ( http://arxiv.org/abs/2307.07604v1 )

ライセンス: Link先を確認
Naty Peter, Eliad Tsfadia, Jonathan Ullman(参考訳) Bun, Ullman, Vadhan (STOC 2014) が最初に導入したフィンガープリンティング引数は、サンプルの複雑さや約微分プライベート(DP)アルゴリズムの誤差を低くする最も広く使われている手法である。 しかし、差分プライバシーには、適切な下位境界が分かっていない問題が多く、私たちがしている問題においても、下位境界は滑らかではなく、エラーがしきい値より大きい場合は通常空白になる。 本研究では,フィンガープリントコードにパディング・アンド・パータスク変換を適用することで,ハードインスタンスを生成する簡単な方法を提案する。 1)低精度政権におけるDP平均化の厳密な下限は、特にNissim, Stemmer, Vadhan (PODS 2016)によって導入されたプライベート1クラスタ問題に対する新しい下限を意味する。 2) 近似k平均クラスタリングのためのDPアルゴリズムの加算誤差に対する下限は, 一定の乗算誤差に対して厳密な乗算誤差の関数である。 3) 低精度な状態における行列の上特異ベクトルをDPの下で推定する下界は、シンガルとシュタインケ(NeurIPS 2021)によって研究されたDP部分空間推定の特別な場合である。 我々の主な技術は、指紋コードにパディング・アンド・パーミュート変換を適用することである。 しかし、既存の指紋認証コード(例えばTardosのコード)へのブラックボックスアクセスを使って結果を証明する代わりに、Dwork et al. (FOCS 2015) や Bun et al. (SODA 2017) よりも強い新しい指紋認証補題を開発し、その下位境界を補題から直接証明する。 特に我々の補題は、独立した関心を持つ最適な率(多対数因子まで)で、より単純なフィンガープリントコード構成を与えます。

Fingerprinting arguments, first introduced by Bun, Ullman, and Vadhan (STOC 2014), are the most widely used method for establishing lower bounds on the sample complexity or error of approximately differentially private (DP) algorithms. Still, there are many problems in differential privacy for which we don't know suitable lower bounds, and even for problems that we do, the lower bounds are not smooth, and usually become vacuous when the error is larger than some threshold. In this work, we present a simple method to generate hard instances by applying a padding-and-permuting transformation to a fingerprinting code. We illustrate the applicability of this method by providing new lower bounds in various settings: 1. A tight lower bound for DP averaging in the low-accuracy regime, which in particular implies a new lower bound for the private 1-cluster problem introduced by Nissim, Stemmer, and Vadhan (PODS 2016). 2. A lower bound on the additive error of DP algorithms for approximate k-means clustering, as a function of the multiplicative error, which is tight for a constant multiplication error. 3. A lower bound for estimating the top singular vector of a matrix under DP in low-accuracy regimes, which is a special case of DP subspace estimation studied by Singhal and Steinke (NeurIPS 2021). Our main technique is to apply a padding-and-permuting transformation to a fingerprinting code. However, rather than proving our results using a black-box access to an existing fingerprinting code (e.g., Tardos' code), we develop a new fingerprinting lemma that is stronger than those of Dwork et al. (FOCS 2015) and Bun et al. (SODA 2017), and prove our lower bounds directly from the lemma. Our lemma, in particular, gives a simpler fingerprinting code construction with optimal rate (up to polylogarithmic factors) that is of independent interest.
翻訳日:2023-07-18 19:07:41 公開日:2023-07-14
# コントラスト学習を改良した説明型・費用感受性深層ニューラルネットワークによる消化管疾患の分類

Gastrointestinal Disease Classification through Explainable and Cost-Sensitive Deep Neural Networks with Supervised Contrastive Learning ( http://arxiv.org/abs/2307.07603v1 )

ライセンス: Link先を確認
Dibya Nath and G. M. Shahariar(参考訳) 消化器疾患は、様々な方法で現れ、潜在的な合併症につながる可能性があるため、重要な医療上の困難をもたらす。 これらの疾患の正確かつタイムリーな分類の確保は、治療の選択を誘導し、患者の成果を高める上で重要である。 本稿では,CNN(Deep Convolutional Neural Network)アーキテクチャを教師付きコントラスト学習に利用することにより,消化管疾患の分類に新たなアプローチを提案する。 本手法により, ネットワークは, 病原性の特徴を捉えた表現を学習し, サンプル間の類似性も考慮できる。 不均衡なデータセットによる課題と、医療における誤分類エラーのコスト感受性に対処するため、コスト感受性学習を取り入れた。 病型に基づく誤分類に異なるコストを割り当てることで, 臨界条件の正確な分類を優先する。 さらに,説明可能な人工知能(ai)から勾配に基づく手法を統合することで,モデルの解釈性を高める。 この包含は、ネットワークの意思決定プロセスに関する貴重な洞察を提供し、病気の分類に寄与する機能を理解するのに役立つ。 提案手法の有効性を評価するため,Hyper-Kvasir データセットなどの包括的な消化管疾患データセットについて広範な実験を行った。 既存の作品との徹底的な比較を通じて,モデルの強力な分類精度,頑健性,解釈性を示す。 我々は提案したアプローチの実装をhttps://github.com/dibya404/Gastrointestinal-Disease-Classification-through-Explainable-and-Cost-Sen sitive-DNN-with-SCLで公開しました。

Gastrointestinal diseases pose significant healthcare chall-enges as they manifest in diverse ways and can lead to potential complications. Ensuring precise and timely classification of these diseases is pivotal in guiding treatment choices and enhancing patient outcomes. This paper introduces a novel approach on classifying gastrointestinal diseases by leveraging cost-sensitive pre-trained deep convolutional neural network (CNN) architectures with supervised contrastive learning. Our approach enables the network to learn representations that capture vital disease-related features, while also considering the relationships of similarity between samples. To tackle the challenges posed by imbalanced datasets and the cost-sensitive nature of misclassification errors in healthcare, we incorporate cost-sensitive learning. By assigning distinct costs to misclassifications based on the disease class, we prioritize accurate classification of critical conditions. Furthermore, we enhance the interpretability of our model by integrating gradient-based techniques from explainable artificial intelligence (AI). This inclusion provides valuable insights into the decision-making process of the network, aiding in understanding the features that contribute to disease classification. To assess the effectiveness of our proposed approach, we perform extensive experiments on a comprehensive gastrointestinal disease dataset, such as the Hyper-Kvasir dataset. Through thorough comparisons with existing works, we demonstrate the strong classification accuracy, robustness and interpretability of our model. We have made the implementation of our proposed approach publicly available at https://github.com/dibya404/Gastrointestinal-Disease-Classification-through-Explainable-and-Cost-Sen sitive-DNN-with-SCL
翻訳日:2023-07-18 19:07:05 公開日:2023-07-14
# エネルギー格差を考慮した離散型エネルギーベースモデルの訓練

Training Discrete Energy-Based Models with Energy Discrepancy ( http://arxiv.org/abs/2307.07595v1 )

ライセンス: Link先を確認
Tobias Schr\"oder, Zijing Ou, Yingzhen Li, Andrew B. Duncan(参考訳) 離散空間上でのエネルギーベースモデル(EBM)の訓練は、そのような空間上でのサンプリングが難しいため困難である。 我々は,データポイントとその摂動カウンタ部分におけるエネルギー関数の評価のみを必要とする新しいタイプのコントラスト損失関数であるエネルギー差分(ED)を用いた離散ESMの訓練を提案し,マルコフ連鎖モンテカルロ(MCMC)のようなサンプリング戦略に依存しない。 エネルギーの不一致は、ベルヌーイ雑音に基づく摂動、決定論的変換に基づく摂動、および近傍構造に基づく3種類の摂動過程に関する理論的な保証を提供する。 格子イジングモデル,バイナリ合成データ,離散画像データセットにおいて,それらの相対的な性能を示す。

Training energy-based models (EBMs) on discrete spaces is challenging because sampling over such spaces can be difficult. We propose to train discrete EBMs with energy discrepancy (ED), a novel type of contrastive loss functional which only requires the evaluation of the energy function at data points and their perturbed counter parts, thus not relying on sampling strategies like Markov chain Monte Carlo (MCMC). Energy discrepancy offers theoretical guarantees for a broad class of perturbation processes of which we investigate three types: perturbations based on Bernoulli noise, based on deterministic transforms, and based on neighbourhood structures. We demonstrate their relative performance on lattice Ising models, binary synthetic data, and discrete image data sets.
翻訳日:2023-07-18 19:06:37 公開日:2023-07-14
# qontsum: クエリ中心の要約のためのサルエントコンテンツの対比について

QontSum: On Contrasting Salient Content for Query-focused Summarization ( http://arxiv.org/abs/2307.07586v1 )

ライセンス: Link先を確認
Sajad Sotudeh, Nazli Goharian(参考訳) クエリ中心の要約(QFS)は、特定のクエリに対処する要約を生成する自然言語処理において難しいタスクである。 生成情報検索(Gen-IR)の幅広い分野は、生成文書検索(Generative Document Retrieval, GDR)とグラウンドドアンサー検索(GAR)を含む、膨大な文書コーパスからの情報抽出に革命をもたらすことを目的としている。 本稿では,gen-ir のキーサブドメインである grounded answer generation (gar) におけるqfs の役割について述べる。 本研究では,コントラスト学習を利用したQFSの新しい手法であるQontSumを提案する。 我々は、QFSのベンチマークデータセットを2つ評価し、現在のSOTAの焦点である大規模な事前学習実験に頼るのではなく、既存の最先端のデータセットよりも優れているか、微調整段階の強化を通じて計算コストを大幅に削減した同等の性能を示すことを示した。 さらに,人間による研究を行い,提案クエリに対する生成した要約の関連性の改善を,流布を損なうことなく確認した。 さらに,モデルの限界を理解するための誤り解析研究を行い,今後の研究への道筋を提案する。

Query-focused summarization (QFS) is a challenging task in natural language processing that generates summaries to address specific queries. The broader field of Generative Information Retrieval (Gen-IR) aims to revolutionize information extraction from vast document corpora through generative approaches, encompassing Generative Document Retrieval (GDR) and Grounded Answer Retrieval (GAR). This paper highlights the role of QFS in Grounded Answer Generation (GAR), a key subdomain of Gen-IR that produces human-readable answers in direct correspondence with queries, grounded in relevant documents. In this study, we propose QontSum, a novel approach for QFS that leverages contrastive learning to help the model attend to the most relevant regions of the input document. We evaluate our approach on a couple of benchmark datasets for QFS and demonstrate that it either outperforms existing state-of-the-art or exhibits a comparable performance with considerably reduced computational cost through enhancements in the fine-tuning stage, rather than relying on large-scale pre-training experiments, which is the focus of current SOTA. Moreover, we conducted a human study and identified improvements in the relevance of generated summaries to the posed queries without compromising fluency. We further conduct an error analysis study to understand our model's limitations and propose avenues for future research.
翻訳日:2023-07-18 19:06:24 公開日:2023-07-14
# ハイブリッドスピン波-マイスナー電流輸送モードの観測と制御

Observation and control of hybrid spin-wave-Meissner-current transport modes ( http://arxiv.org/abs/2307.07581v1 )

ライセンス: Link先を確認
M. Borst, P.H. Vree, A. Lowther, A. Teepe, S. Kurdi, I. Bertelli, B.G. Simon, Y.M. Blanter, T. van der Sar(参考訳) 超伝導体は電気抵抗がゼロで、マイスナー効果として知られる磁場を放出する能力を持つ物質である。 散逸のない反磁性反応は磁気浮上と量子干渉デバイスのような回路の中心である。 ここでは超伝導反磁性を用いて、薄膜磁石におけるスピン波(オンチップ信号キャリアを約束する磁石の集団スピン励起)の輸送を制御する磁気環境を形成する。 ダイヤモンドを用いた磁気イメージングにより, 温度可変波長の波長変化を伴うスピン波-マイスナー電流輸送モードのハイブリダイゼーションを観測した。 温度依存性のロンドン浸透深度を波長シフトから抽出し,集束レーザを用いたスピン波屈折率の局所制御を実現する。 本研究は, 超伝導体によるスピン波輸送の汎用性を示し, スピン波格子, フィルタ, 結晶, キャビティなどの応用の可能性を示す。

Superconductors are materials with zero electrical resistivity and the ability to expel magnetic fields known as the Meissner effect. Their dissipationless diamagnetic response is central to magnetic levitation and circuits such as quantum interference devices. Here, we use superconducting diamagnetism to shape the magnetic environment governing the transport of spin waves - collective spin excitations in magnets that are promising on-chip signal carriers - in a thin-film magnet. Using diamond-based magnetic imaging, we observe hybridized spin-wave-Meissner-current transport modes with strongly altered, temperature-tunable wavelengths. We extract the temperature-dependent London penetration depth from the wavelength shifts and realize local control of spin-wave refraction using a focused laser. Our results demonstrate the versatility of superconductor-manipulated spin-wave transport and have potential applications in spin-wave gratings, filters, crystals and cavities.
翻訳日:2023-07-18 19:06:01 公開日:2023-07-14
# ニューラルネットワークにおける表現学習と性能予測のための定量的アプローチ

A Quantitative Approach to Predicting Representational Learning and Performance in Neural Networks ( http://arxiv.org/abs/2307.07575v1 )

ライセンス: Link先を確認
Ryan Pyle, Sebastian Musslick, Jonathan D. Cohen, and Ankit B. Patel(参考訳) ニューラルネットワーク(生体と人工の両方)の重要な特性は、タスクを解決するために入力情報の表現と操作を学ぶ方法である。 異なるタイプの表現は、異なるタイプのタスクに適しており、学習された表現の識別と理解が有用なネットワークの理解と設計の重要な部分となる。 本稿では,ネットワークの初期条件と学習カリキュラムに基づいて,学習した表現を分析し,予測するための擬似カーネルツールを提案する。 本手法を簡単なテストケースで検証し, 逐次シングルタスクと同時マルチタスクのパフォーマンスに対する表現学習の効果に関する質問に対して, その使用法を実証する。 提案手法は,重み付け初期化と訓練カリキュラムのスケールが表現学習および下流同時マルチタスク性能に与える影響を予測するのに有効であることを示す。

A key property of neural networks (both biological and artificial) is how they learn to represent and manipulate input information in order to solve a task. Different types of representations may be suited to different types of tasks, making identifying and understanding learned representations a critical part of understanding and designing useful networks. In this paper, we introduce a new pseudo-kernel based tool for analyzing and predicting learned representations, based only on the initial conditions of the network and the training curriculum. We validate the method on a simple test case, before demonstrating its use on a question about the effects of representational learning on sequential single versus concurrent multitask performance. We show that our method can be used to predict the effects of the scale of weight initialization and training curriculum on representational learning and downstream concurrent multitasking performance.
翻訳日:2023-07-18 19:05:46 公開日:2023-07-14
# 高次元線形モデルに対するスパシファイド同時信頼区間

Sparsified Simultaneous Confidence Intervals for High-Dimensional Linear Models ( http://arxiv.org/abs/2307.07574v1 )

ライセンス: Link先を確認
Xiaorui Zhu, Yichen Qin, and Peng Wang(参考訳) 高次元回帰係数の統計的推測は、モデル選択による不確実性を考慮するのが難しいため困難である。 つまり、モデルの推論を係数の同時推論にどのように組み込むことができるのか? そこで本研究では,同時信頼区間(sparsified concurrent confidence intervals)という概念を提案する。 我々の区間は、区間の上と下の境界のいくつかがゼロ(すなわち$[0,0]$)に縮約されているという意味ではスパースである。 これらの共変量は最終モデルから除外されるべきである。 残りの区間は、0(例えば、$[-1,1]$または$[0,1]$)を含むか、0(例えば$[2,3]$)を含まないかのいずれかであり、それぞれ有理および有意な共変量を示す。 提案手法は様々な選択手順と組み合わせることができるため,不確実性の比較に最適である。 提案手法では, 望ましい漸近的特性を確立し, 直感的な視覚化ツールを開発し, シミュレーションと実データ解析によりその優れた性能を正当化する。

Statistical inference of the high-dimensional regression coefficients is challenging because the uncertainty introduced by the model selection procedure is hard to account for. A critical question remains unsettled; that is, is it possible and how to embed the inference of the model into the simultaneous inference of the coefficients? To this end, we propose a notion of simultaneous confidence intervals called the sparsified simultaneous confidence intervals. Our intervals are sparse in the sense that some of the intervals' upper and lower bounds are shrunken to zero (i.e., $[0,0]$), indicating the unimportance of the corresponding covariates. These covariates should be excluded from the final model. The rest of the intervals, either containing zero (e.g., $[-1,1]$ or $[0,1]$) or not containing zero (e.g., $[2,3]$), indicate the plausible and significant covariates, respectively. The proposed method can be coupled with various selection procedures, making it ideal for comparing their uncertainty. For the proposed method, we establish desirable asymptotic properties, develop intuitive graphical tools for visualization, and justify its superior performance through simulation and real data analysis.
翻訳日:2023-07-18 19:05:32 公開日:2023-07-14
# Harpa: 旅行時間ニューラルフィールドと高次フェーズアソシエーション

Harpa: High-Rate Phase Association with Travel Time Neural Fields ( http://arxiv.org/abs/2307.07572v1 )

ライセンス: Link先を確認
Cheng Shi, Maarten V. de Hoop, and Ivan Dokmani\'c(参考訳) 地震の震源と位相関連群地震波の到来 これは地震データ処理パイプラインの基本課題であるが、特に不正確な波動速度モデルを用いて、地震のダイナミクスに関する基本的な情報を運ぶ、より小さな、より高速な地震イベントを実行することが困難である。 結果として、ほとんどのアソシエーション手法は、地下の弾性媒質特性の貴重な説明を提供するものの、より低い速度で発生し、それゆえアソシエーションしやすい大きな事象に焦点を当てている。 本稿では,波速が未知である場合でも,以前報告したよりもずっと高い速度で関連付けることができることを示す。 本稿では,深層ニューラルネットワークを用いて波速と関連する移動時間の生成モデルを構築する高速地震波位相結合法であるharpaを提案する。 我々は、到着時刻データを確率尺度として解釈し、データ忠実性を強制するために最適な輸送損失を使用することにより、関連する位相の必要性を緩和する。 ジョイントリカバリ問題は、特定の条件下で一意的な解が認められることが知られているが、対応する損失の非凸性のため、単純な勾配スキームは局所的最小値に収束する。 確率勾配ランゲヴィンダイナミクス(SGLD)によって効果的に緩和されることを示す。 数値実験により、シャルパは複雑な、未知の波の速度で高速度の地震雲を効率的に関連付け、うるさいピックを優しく処理することを示した。

Phase association groups seismic wave arrivals according to their originating earthquakes. It is a fundamental task in a seismic data processing pipeline, but challenging to perform for smaller, high-rate seismic events which carry fundamental information about earthquake dynamics, especially with a commonly assumed inaccurate wave speed model. As a consequence, most association methods focus on larger events that occur at a lower rate and are thus easier to associate, even though microseismicity provides a valuable description of the elastic medium properties in the subsurface. In this paper, we show that association is possible at rates much higher than previously reported even when the wave speed is unknown. We propose Harpa, a high-rate seismic phase association method which leverages deep neural fields to build generative models of wave speeds and associated travel times, and first solves a joint spatio--temporal source localization and wave speed recovery problem, followed by association. We obviate the need for associated phases by interpreting arrival time data as probability measures and using an optimal transport loss to enforce data fidelity. The joint recovery problem is known to admit a unique solution under certain conditions but due to the non-convexity of the corresponding loss a simple gradient scheme converges to poor local minima. We show that this is effectively mitigated by stochastic gradient Langevin dynamics (SGLD). Numerical experiments show that \harpa~efficiently associates high-rate seismicity clouds over complex, unknown wave speeds and graciously handles noisy and missing picks.
翻訳日:2023-07-18 19:05:10 公開日:2023-07-14
# acf-net : 視覚検査における自動構造状態評価のための注意強化型協調核融合ネットワーク

ACF-Net: An Attention-enhanced Co-interactive Fusion Network for Automated Structural Condition Assessment in Visual Inspection ( http://arxiv.org/abs/2307.07643v1 )

ライセンス: Link先を確認
Chenyu Zhang, Zhaozheng Yin, Ruwen Qin(参考訳) ヴィジュアルインスペクションにおける構造条件評価を自動化するために必要な土木インフラの状態を効率的に監視する。 本稿では,視覚ブリッジ検査における自動構造状態評価のための注意強化型協調型核融合ネットワーク(acf-net)を提案する。 ACF-Netは、検査画像中の要素の構造要素とセグメント表面欠陥を同時に解析することができる。 2つのタスク固有の再学習サブネットを統合し、全体的な特徴埋め込みからタスク固有の特徴を抽出し、空間的相関を捕捉し、タスク間の情報共有を容易にする。 実験結果から, acf-netは, 元素分析のための92.11%miouと, 新たなベンチマークデータセットであるsbcivテストセット上での腐食セグメント化のための87.16%miouで有望な性能を達成した。 ACF-Netの強みを明らかにするアブレーション研究と、構造条件評価を自動化する能力を示すケーススタディである。 コードは受理後にオープンソースになる。

Efficiently monitoring the condition of civil infrastructures necessitates automating the structural condition assessment in visual inspection. This paper proposes an Attention-enhanced Co-interactive Fusion Network (ACF-Net) for automatic structural condition assessment in visual bridge inspection. The ACF-Net can simultaneously parse structural elements and segment surface defects on the elements in inspection images. It integrates two task-specific relearning subnets to extract task-specific features from an overall feature embedding and a co-interactive feature fusion module to capture the spatial correlation and facilitate information sharing between tasks. Experimental results demonstrate that the proposed ACF-Net outperforms the current state-of-the-art approaches, achieving promising performance with 92.11% mIoU for element parsing and 87.16% mIoU for corrosion segmentation on the new benchmark dataset Steel Bridge Condition Inspection Visual (SBCIV) testing set. An ablation study reveals the strengths of ACF-Net, and a case study showcases its capability to automate structural condition assessment. The code will be open-source after acceptance.
翻訳日:2023-07-18 18:58:46 公開日:2023-07-14
# 若手学習者のためのデザイン実践

Making Design Practices Visible to Young Learners ( http://arxiv.org/abs/2307.07638v1 )

ライセンス: Link先を確認
Rama Adithya Varanasi, Shulong Yan, Dhavni Toprani, Marcela Borge(参考訳) k-12教育におけるデザインの役割は近年増大している。 これらのデザイン経験の多くは、人間中心設計(hcd)に関連する心の重要な習慣を発達させるのに役立たないと主張する。 本稿では,HCDに関連する高次思考プロセスを,幼児に認知的見習いの原理を用いたデザイン思考を教えるための,組込み型デザイン実践の一環として開発するアプローチを提案する。 まず、心の基本的なデザイン習慣を特定し、若い学習者がその習慣を発達させるのがなぜ難しいのかを議論し、その上で認知的見習い原理を描き、デザイン教育のための具体的なアプローチを提案する。 最後に,組込みデザイン実践の例を示し,配置されたコンテキストが,若い学習者のニーズをより深く学ぶ機会を提供しながら,学習者にデザイン実践についてもっと学ぶ機会を与えてくれることを示す。

The role of design in K-12 education has increased in recent years. We argue that many of these design experiences do not help develop important habits of mind associated with Human Centered Design (HCD). In this paper, we present an approach for developing higher-order thinking processes associated with HCD as part of embedded design practice - an approach for teaching design thinking to younger children using principles of cognitive apprenticeship. First, we identify fundamental design habits of mind, discuss why it is difficult for young learners to develop such habits, and then draw upon cognitive apprenticeship principles to propose a concrete approach for design education. Finally, we present an illustration of embedded design practice to show how the situated context offers opportunities for designers to learn more about the needs of young learners while providing learners with opportunities to learn more about design practices.
翻訳日:2023-07-18 18:58:25 公開日:2023-07-14
# 不快な説明:不一致を利用してモデルの信頼性を低下させる

Dissenting Explanations: Leveraging Disagreement to Reduce Model Overreliance ( http://arxiv.org/abs/2307.07636v1 )

ライセンス: Link先を確認
Omer Reingold, Judy Hanwen Shen, Aditi Talati(参考訳) 説明可能性(英語版)はますます複雑なブラックボックスモデルの望ましい特徴であるが、現代の説明法は矛盾し矛盾していることが示されている。 説明の意味論は必ずしも完全には理解されていない - どの程度まで、説明は決定を「説明」し、どの程度は単に決定を主張するのだろうか? 人間は正しい予測を伴う説明から洞察を得るのに役立ち、説明によって提唱される誤った予測を過度に反映しないだろうか? この観点からは, 矛盾する予測と付随する説明との相反する説明という概念を紹介する。 まず,類似する性能を持つ複数のモデルが異なる予測を持つ場合,モデル多重性の設定において,異質な説明の利点を探求する。 このような場合、不一致モデルの説明を呼び出すことで、不快な説明を行うことが可能である。 パイロット実験により, 不快な説明は, 全体の精度を低下させることなく, モデル予測への過度な依存を減少させることを示した。 異論説明の有用性に動機づけられ,その生成にグローバルメソッドとローカルメソッドの両方を提示する。

While explainability is a desirable characteristic of increasingly complex black-box models, modern explanation methods have been shown to be inconsistent and contradictory. The semantics of explanations is not always fully understood - to what extent do explanations "explain" a decision and to what extent do they merely advocate for a decision? Can we help humans gain insights from explanations accompanying correct predictions and not over-rely on incorrect predictions advocated for by explanations? With this perspective in mind, we introduce the notion of dissenting explanations: conflicting predictions with accompanying explanations. We first explore the advantage of dissenting explanations in the setting of model multiplicity, where multiple models with similar performance may have different predictions. In such cases, providing dissenting explanations could be done by invoking the explanations of disagreeing models. Through a pilot study, we demonstrate that dissenting explanations reduce overreliance on model predictions, without reducing overall accuracy. Motivated by the utility of dissenting explanations we present both global and local methods for their generation.
翻訳日:2023-07-18 18:58:10 公開日:2023-07-14
# CoTracker: 一緒に追跡する方がよい

CoTracker: It is Better to Track Together ( http://arxiv.org/abs/2307.07635v1 )

ライセンス: Link先を確認
Nikita Karaev, Ignacio Rocco, Benjamin Graham, Natalia Neverova, Andrea Vedaldi, Christian Rupprecht(参考訳) 動画の動き予測法は、映像フレーム内のすべての点の瞬間的な動きを光学的フローを用いて共同で推定するか、動画全体の個々の点の動きを独立に追跡する。 後者は、オクルージョンを通じてポイントを追跡できる強力なディープラーニング手法でも当てはまる。 トラッキングポイントは、例えば、同じ物理的オブジェクトに属し、パフォーマンスを害する可能性があるため、ポイントの間に存在する強い相関を個別に無視する。 そこで本稿では,ビデオ全体を通して複数のポイントを協調的に追跡するcotrackerを提案する。 このアーキテクチャは、新しい柔軟で強力な設計で、光学フローと追跡文学からいくつかのアイデアを組み合わせる。 これは特別な注意層を通して時間内の異なる点の相関をモデル化するトランスネットワークに基づいている。 変換器は、複数の軌道の推定を反復的に更新する。 これは非常に長いビデオにスライディングウィンドウ方式で適用できます。 同時に1点から数点まで追跡でき、いつでも新しいポイントを追加できる。 その結果、ほぼすべてのベンチマークで最先端の手法を上回る、柔軟で強力な追跡アルゴリズムが得られた。

Methods for video motion prediction either estimate jointly the instantaneous motion of all points in a given video frame using optical flow or independently track the motion of individual points throughout the video. The latter is true even for powerful deep-learning methods that can track points through occlusions. Tracking points individually ignores the strong correlation that can exist between the points, for instance, because they belong to the same physical object, potentially harming performance. In this paper, we thus propose CoTracker, an architecture that jointly tracks multiple points throughout an entire video. This architecture combines several ideas from the optical flow and tracking literature in a new, flexible and powerful design. It is based on a transformer network that models the correlation of different points in time via specialised attention layers. The transformer iteratively updates an estimate of several trajectories. It can be applied in a sliding-window manner to very long videos, for which we engineer an unrolled training loop. It can track from one to several points jointly and supports adding new points to track at any time. The result is a flexible and powerful tracking algorithm that outperforms state-of-the-art methods in almost all benchmarks.
翻訳日:2023-07-18 18:57:53 公開日:2023-07-14
# ディープラーニングのモデルサイズ非依存, 計算自由, 記憶に基づく推論に向けて

Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference of Deep Learning ( http://arxiv.org/abs/2307.07631v1 )

ライセンス: Link先を確認
Davide Giacomini, Maeesha Binte Hashem, Jeremiah Suarez, Swarup Bhunia, and Amit Ranjan Trivedi(参考訳) ディープニューラルネットワークの急速な進歩は、画像や音声認識などの様々なタスクを大幅に改善した。 しかし、これらのモデルの複雑さが増すにつれて、計算コストやパラメータの数も増大し、リソースに制約されたデバイスへのデプロイが困難になる。 本稿では,新しい暗記ベース推論(MBI)を提案する。 具体的には、入力領域(glimpse)の小さなウィンドウのみを1つの時間ステップで処理し、複数のスピープからの出力を隠れたベクトルで組み合わせて問題の全体的な分類出力を決定するリカレント注意モデル(ram)の推論機構を活かす。 視認の低次元を活用することで,視認位置やパッチベクトルなどからなるキー値ペアをテーブルに格納する。 テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を行うことで、計算は推論中に省略される。 ベイズ最適化とクラスタリングを利用して、必要なルックアップを削減し、精度を向上する。 また,入力クエリに対する一致鍵ベクトルを高速に調べるために,メモリ内計算回路も提示する。 競合コンピューティングインメモリ(CIM)アプローチと比較して、MBIはマルチレイヤ認識(MLP)-CIMの約2.7倍、MNIST文字認識のResNet20-CIMの約83倍のエネルギー効率を向上させる。

The rapid advancement of deep neural networks has significantly improved various tasks, such as image and speech recognition. However, as the complexity of these models increases, so does the computational cost and the number of parameters, making it difficult to deploy them on resource-constrained devices. This paper proposes a novel memorization-based inference (MBI) that is compute free and only requires lookups. Specifically, our work capitalizes on the inference mechanism of the recurrent attention model (RAM), where only a small window of input domain (glimpse) is processed in a one time step, and the outputs from multiple glimpses are combined through a hidden vector to determine the overall classification output of the problem. By leveraging the low-dimensionality of glimpse, our inference procedure stores key value pairs comprising of glimpse location, patch vector, etc. in a table. The computations are obviated during inference by utilizing the table to read out key-value pairs and performing compute-free inference by memorization. By exploiting Bayesian optimization and clustering, the necessary lookups are reduced, and accuracy is improved. We also present in-memory computing circuits to quickly look up the matching key vector to an input query. Compared to competitive compute-in-memory (CIM) approaches, MBI improves energy efficiency by almost 2.7 times than multilayer perceptions (MLP)-CIM and by almost 83 times than ResNet20-CIM for MNIST character recognition.
翻訳日:2023-07-18 18:57:36 公開日:2023-07-14
# 価値に基づく高速低速AI看護

Value-based Fast and Slow AI Nudging ( http://arxiv.org/abs/2307.07628v1 )

ライセンス: Link先を確認
Marianna B. Ganapini, Francesco Fabiano, Lior Horesh, Andrea Loreggia, Nicholas Mattei, Keerthiram Murugesan, Vishal Pallagani, Francesca Rossi, Biplav Srivastava, Brent Venable(参考訳) 看護とは、人々の思考や行動に影響を与える行動戦略である。 ナジング技術は私たちの日常生活の多くの状況で見られますが、これらのナジング技術は、例えば、イメージを使って恐怖を発生させたり、より慎重で労力のかかる遅い思考、例えば、私たちの選択を反映させる情報を公開したりすることで、人間の高速で無意識な思考をターゲットとすることができます。 本稿では,AIシステムが人間を虐待する,価値に基づくAI-ヒューマン協調フレームワークを提案し,議論する。 人間にレコメンデーションが提示されるときに基づく3つの異なるニューディングモダリティは、人間の速い思考、遅い思考、メタ認知を刺激することを目的としている。 特定の決定シナリオに関連する値を使用して、これらのヌーディングモダリティのそれぞれをいつ、どのように使用するかを決定する。 価値の例としては、意思決定の品質、スピード、人間のスキルアップと学習、人間代理店、プライバシーなどがある。 いくつかの値が同時に存在し、その優先度は時間とともに変化する。 このフレームワークは、特定の決定環境でインスタンス化されるパラメータとして値を扱う。

Nudging is a behavioral strategy aimed at influencing people's thoughts and actions. Nudging techniques can be found in many situations in our daily lives, and these nudging techniques can targeted at human fast and unconscious thinking, e.g., by using images to generate fear or the more careful and effortful slow thinking, e.g., by releasing information that makes us reflect on our choices. In this paper, we propose and discuss a value-based AI-human collaborative framework where AI systems nudge humans by proposing decision recommendations. Three different nudging modalities, based on when recommendations are presented to the human, are intended to stimulate human fast thinking, slow thinking, or meta-cognition. Values that are relevant to a specific decision scenario are used to decide when and how to use each of these nudging modalities. Examples of values are decision quality, speed, human upskilling and learning, human agency, and privacy. Several values can be present at the same time, and their priorities can vary over time. The framework treats values as parameters to be instantiated in a specific decision environment.
翻訳日:2023-07-18 18:57:09 公開日:2023-07-14
# オートイオン化共振を用いた7倍高効率化による$\mathbf{Ba}^+$の追跡

Trapping $\mathbf{Ba}^+$ with Seven-fold Enhanced Efficiency Utilizing an Autoionizing Resonance ( http://arxiv.org/abs/2307.07627v1 )

ライセンス: Link先を確認
Noah Greenberg, Brendan M. White, Pei Jiang Low, and Crystal Senko(参考訳) トラップされたイオンは、同じ性質、全接続性、高忠実度量子演算のため、量子情報処理の最前線として登場した。 現在の閉じ込められたイオン技術がスケールするにつれ、イオンを装填する効率が向上し、これは現在、閉じ込められたイオン量子コンピュータを操作する上で最も遅いプロセスである。 ここでは、$^{138}\mathrm{Ba}^+$イオンをロードするための2つの同位体選択光イオン化スキームを比較する。 自己イオン化遷移で終了する2段階の光イオン化スキームは, 自己イオン化状態を励起しない確立された技術と比較して, イオン負荷率をほぼ1桁向上させることを示した。 自動イオン化遷移を実装するのに必要な唯一の追加技術は商用ダイオードレーザーである。 この手法はバリウムの全ての同位体に拡張することができ、現在捕獲イオンの量子処理に使われている全ての種に共振の自動イオン化技術が存在するため、捕獲された全てのイオンコンピュータの負荷を劇的に増加させる有望な技術である。

Trapped ions have emerged as a front runner in quantum information processing due to their identical nature, all-to-all connectivity, and high fidelity quantum operations. As current trapped ion technologies are scaled, it will be important to improve the efficiency of loading ions, which is currently the slowest process in operating a trapped ion quantum computer. Here, we compare two isotope-selective photoionization schemes for loading $^{138}\mathrm{Ba}^+$ ions. We show that a two-step photoionization scheme ending in an autoionizing transition increases the ion loading rate nearly an order of magnitude compared to an established technique which does not excite an autoionizing state. The only additional technology required to implement the autoionizing transition is a commercial diode laser. Our technique can be extended to all isotopes of barium, and autoionizing resonances exist in every species currently used for trapped ion quantum processing, making this a promising technique to drastically increase the loading rates for all trapped ion computers.
翻訳日:2023-07-18 18:56:51 公開日:2023-07-14
# クロスバッチメトリック学習による一般化埋め込み

Generalizable Embeddings with Cross-batch Metric Learning ( http://arxiv.org/abs/2307.07620v1 )

ライセンス: Link先を確認
Yeti Z. Gurbuz and A. Aydin Alatan(参考訳) グローバル平均プーリング(GAP)は、機能集約のためのディープメトリックラーニング(DML)において人気のあるコンポーネントである。 その有効性は、各特徴ベクトルを別個の意味的実体として扱い、GAPをそれらの組み合わせとして扱うことによることが多い。 しかし、このような説明のアルゴリズム的意味は、目に見えないクラスを表現するために一般化可能な実体を学習することであり、これは重要なDMLの目標である。 そこで我々はGAPを学習可能なプロトタイプの凸結合として定式化する。 次に, 線形予測器をサンプルのバッチに適合させる再帰過程として, プロトタイプ学習が表現可能であることを示す。 その観点から,各イテレーションで異なるクラスの2つのバッチについて検討し,他のバッチに適合するプロトタイプを用いて,バッチのサンプルを表現して学習を規則化する。 4つのDMLベンチマークでアプローチを検証する。

Global average pooling (GAP) is a popular component in deep metric learning (DML) for aggregating features. Its effectiveness is often attributed to treating each feature vector as a distinct semantic entity and GAP as a combination of them. Albeit substantiated, such an explanation's algorithmic implications to learn generalizable entities to represent unseen classes, a crucial DML goal, remain unclear. To address this, we formulate GAP as a convex combination of learnable prototypes. We then show that the prototype learning can be expressed as a recursive process fitting a linear predictor to a batch of samples. Building on that perspective, we consider two batches of disjoint classes at each iteration and regularize the learning by expressing the samples of a batch with the prototypes that are fitted to the other batch. We validate our approach on 4 popular DML benchmarks.
翻訳日:2023-07-18 18:56:35 公開日:2023-07-14
# 近位勾配蛍光を用いたブール行列の効率的な分解

Efficiently Factorizing Boolean Matrices using Proximal Gradient Descent ( http://arxiv.org/abs/2307.07615v1 )

ライセンス: Link先を確認
Sebastian Dalleiger, Jilles Vreeken(参考訳) ブールデータ上のNMFの解釈可能性問題に対処するため、ブール行列分解(BMF)はブール代数を用いて低ランクブール因子行列に入力を分解する。 これらの行列は非常に解釈可能であり、実際非常に有用であるが、np-有限組合せ最適化問題を解くための計算コストが高い。 計算負荷を軽減するために, 近位勾配アルゴリズムを導出する新しい弾性2次正規化器を用いて, bmfを連続的に緩和する手法を提案する。 合成データでは,本手法が迅速に収束し,基礎的真理を正確に回復し,シミュレーションされたランクを正確に推定する。 実世界のデータでは,リコール,ロス,実行時の技術状況が改善され,医療領域のケーススタディにより,結果が容易に解釈可能かつ意味的に有意義であることが確認された。

Addressing the interpretability problem of NMF on Boolean data, Boolean Matrix Factorization (BMF) uses Boolean algebra to decompose the input into low-rank Boolean factor matrices. These matrices are highly interpretable and very useful in practice, but they come at the high computational cost of solving an NP-hard combinatorial optimization problem. To reduce the computational burden, we propose to relax BMF continuously using a novel elastic-binary regularizer, from which we derive a proximal gradient algorithm. Through an extensive set of experiments, we demonstrate that our method works well in practice: On synthetic data, we show that it converges quickly, recovers the ground truth precisely, and estimates the simulated rank exactly. On real-world data, we improve upon the state of the art in recall, loss, and runtime, and a case study from the medical domain confirms that our results are easily interpretable and semantically meaningful.
翻訳日:2023-07-18 18:56:21 公開日:2023-07-14
# 討論会投稿の緊急性の検出に向けて

Towards Generalizable Detection of Urgency of Discussion Forum Posts ( http://arxiv.org/abs/2307.07614v1 )

ライセンス: Link先を確認
Valdemar \v{S}v\'abensk\'y, Ryan S. Baker, Andr\'es Zambrano, Yishan Zou, Stefan Slater(参考訳) moocのようなオンラインコースを受講する学生は、コースのディスカッションフォーラムを使って質問したり、問題が発生したときにインストラクターに連絡したりする。 しかし,各メッセージの検討に要する時間があるため,学生の質問に対する読解と回答はスケールアップが困難である。 その結果、重大な問題は未解決のまま残され、学生はコースを継続する動機を失う可能性がある。 この問題に対処するために,各フォーラム投稿の緊急度を自動的に決定する予測モデルを構築し,これらの投稿をインストラクターの注意を引くことができるようにした。 本稿は,二分決定のカットオフだけでなく,ポストの緊急性レベルを7ポイントスケールで予測することで,これまでの作業を超えている。 まず、ペンシルバニア大学のMOOCから3,503のポストからなる元のデータセット上で、いくつかのモデルをトレーニングし、検証します。 第2に,私たちのモデルの一般化可能性を決定するために,スタンフォード大学のmoocsから29,604の投稿からなる別個のデータセットで,そのパフォーマンスをテストしています。 これまでの緊急後の作業では,1つのデータセットのみを使用していたが,異なるデータセットやコース間での予測を評価した。 最高のパフォーマンスモデルは、ポストのUniversal Sentence Encoder埋め込みに基づいてトレーニングされたサポートベクトル回帰器であり、トレーニングセットでは1.1、テストセットでは1.4である。 フォーラム投稿の緊急性を理解することで、インストラクターはより効果的に時間を集中することができ、その結果、生徒の学習をより良く支援できる。

Students who take an online course, such as a MOOC, use the course's discussion forum to ask questions or reach out to instructors when encountering an issue. However, reading and responding to students' questions is difficult to scale because of the time needed to consider each message. As a result, critical issues may be left unresolved, and students may lose the motivation to continue in the course. To help address this problem, we build predictive models that automatically determine the urgency of each forum post, so that these posts can be brought to instructors' attention. This paper goes beyond previous work by predicting not just a binary decision cut-off but a post's level of urgency on a 7-point scale. First, we train and cross-validate several models on an original data set of 3,503 posts from MOOCs at University of Pennsylvania. Second, to determine the generalizability of our models, we test their performance on a separate, previously published data set of 29,604 posts from MOOCs at Stanford University. While the previous work on post urgency used only one data set, we evaluated the prediction across different data sets and courses. The best-performing model was a support vector regressor trained on the Universal Sentence Encoder embeddings of the posts, achieving an RMSE of 1.1 on the training set and 1.4 on the test set. Understanding the urgency of forum posts enables instructors to focus their time more effectively and, as a result, better support student learning.
翻訳日:2023-07-18 18:56:04 公開日:2023-07-14
# MPDIoU: 効率的で正確なバウンディングボックス回帰の損失

MPDIoU: A Loss for Efficient and Accurate Bounding Box Regression ( http://arxiv.org/abs/2307.07662v1 )

ライセンス: Link先を確認
Ma Siliang, Xu Yong(参考訳) 境界ボックス回帰(BBR)は、オブジェクト検出やインスタンスセグメンテーションにおいて広く使われており、オブジェクトのローカライゼーションの重要なステップである。 しかし、予測ボックスが接地箱と同じアスペクト比を持つ場合、既存の境界箱回帰の損失関数のほとんどを最適化することはできないが、幅と高さの値は正確に異なる。 上記の問題に対処するため, 水平長方形の幾何学的特徴を網羅的に検討し, 既往の損失関数, 重複領域, 中心点距離, 幅と高さの偏差など, 既往の損失関数に考慮されたすべての要素を含む, 最小点距離に基づく新しい有界箱類似度指標MPDIoUを提案する。 そこで本研究では,MPDIoUに基づく境界ボックス回帰損失関数LMPDIoUを提案する。 実験結果から,MPDIoU損失関数は最先端のインスタンスセグメンテーション(YOLACT)やPASCAL VOC,MS COCO,IIIT5kで訓練されたオブジェクト検出(YOLOv7)モデルに適用され,既存の損失関数よりも優れていた。

Bounding box regression (BBR) has been widely used in object detection and instance segmentation, which is an important step in object localization. However, most of the existing loss functions for bounding box regression cannot be optimized when the predicted box has the same aspect ratio as the groundtruth box, but the width and height values are exactly different. In order to tackle the issues mentioned above, we fully explore the geometric features of horizontal rectangle and propose a novel bounding box similarity comparison metric MPDIoU based on minimum point distance, which contains all of the relevant factors considered in the existing loss functions, namely overlapping or non-overlapping area, central points distance, and deviation of width and height, while simplifying the calculation process. On this basis, we propose a bounding box regression loss function based on MPDIoU, called LMPDIoU . Experimental results show that the MPDIoU loss function is applied to state-of-the-art instance segmentation (e.g., YOLACT) and object detection (e.g., YOLOv7) model trained on PASCAL VOC, MS COCO, and IIIT5k outperforms existing loss functions.
翻訳日:2023-07-18 18:48:11 公開日:2023-07-14
# オプション価格のための機械学習:ネットワークアーキテクチャの実証的研究

Machine learning for option pricing: an empirical investigation of network architectures ( http://arxiv.org/abs/2307.07657v1 )

ライセンス: Link先を確認
Laurens Van Mieghem, Antonis Papapantoleon, Jonas Papazoglou-Hennig(参考訳) 我々は、適切な入力データ(モデルパラメータ)と対応する出力データ(オプション価格またはインプリートボラティリティ)を与えられたオプションの価格またはインプリートボラティリティを学習する教師付き学習問題を考える。 この論文の記事では、入力を出力にマッピングする機能を学ぶのに使われるニューロンをつなぐために、(プレーンな)フィードフォワードニューラルネットワークアーキテクチャを検討する。 本稿では、画像分類の手法とPDEのための機械学習手法の最近の進歩を動機として、ネットワークアーキテクチャの選択が機械学習アルゴリズムの精度とトレーニング時間にどう影響するかを実証的に検討する。 平均二乗誤差とトレーニング時間を基準として考えると、ブラック・ショールとヘストンモデルに焦点を当てたオプション価格問題において、一般的なハイウェイネットワークアーキテクチャは、他の全てのバリエーションよりも優れています。 さらに、インプリッドボラティリティの計算では、必要な変換の後、DGMアーキテクチャの変種が平均二乗誤差とトレーニング時間を基準として再検討する際に、他のすべての変種よりも優れている。

We consider the supervised learning problem of learning the price of an option or the implied volatility given appropriate input data (model parameters) and corresponding output data (option prices or implied volatilities). The majority of articles in this literature considers a (plain) feed forward neural network architecture in order to connect the neurons used for learning the function mapping inputs to outputs. In this article, motivated by methods in image classification and recent advances in machine learning methods for PDEs, we investigate empirically whether and how the choice of network architecture affects the accuracy and training time of a machine learning algorithm. We find that for option pricing problems, where we focus on the Black--Scholes and the Heston model, the generalized highway network architecture outperforms all other variants, when considering the mean squared error and the training time as criteria. Moreover, for the computation of the implied volatility, after a necessary transformation, a variant of the DGM architecture outperforms all other variants, when considering again the mean squared error and the training time as criteria.
翻訳日:2023-07-18 18:47:48 公開日:2023-07-14
# 計測依存性がベル不等式に及ぼす影響を示す玩具モデル

Toy model illustrating the effect of measurement dependence on a Bell inequality ( http://arxiv.org/abs/2307.07655v1 )

ライセンス: Link先を確認
Sophia M. Walls and Ian J. Ford(参考訳) ベルの不等式は測定独立性の仮定に依存しており、測定前にシステムを記述する隠れ変数の構成を採用する確率は、測定される物理的性質の選択とは無関係である。 この仮定を織ると、実験データに適合する不平等が変化する可能性がある。 量子測度を、系観測変数の固有状態に対応する位相空間の誘引子への隠れ変数の動的進化と考えることで、これを説明できる。 測定の前にこれらの変数の構成を採用する確率は、力学に作用する境界条件によって測定される物理的性質の選択に依存する。 このような測定依存性の付与は、局所的な相互作用を維持しながら、様々な軸に沿ったスピン成分の測定を受けるスピンハーフ粒子の絡み合った対の解析において、CHSHパラメータの上限を上昇させる。 動的量子測定の単純なおもちゃモデルを用いて、この現象がどのように現われるかを示し、緩和された上限を示す。 選択された測定条件に対する隠れ変数確率分布の条件付けは、絡み合った量子系に現れる相関を説明できるメモリである特定の状況において、はるかに遡ることができる。

Bell's inequalities rely on the assumption of measurement independence, namely that the probabilities of adopting configurations of hidden variables describing a system prior to measurement are independent of the choice of physical property that will be measured. Weakening this assumption can change the inequalities to accommodate experimental data. We illustrate this by considering quantum measurement to be the dynamical evolution of hidden variables to attractors in their phase space that correspond to eigenstates of system observables. The probabilities of adopting configurations of these variables prior to measurement then depend on the choice of physical property measured by virtue of the boundary conditions acting on the dynamics. Allowing for such measurement dependence raises the upper limit of the CHSH parameter in Bell's analysis of an entangled pair of spin half particles subjected to measurement of spin components along various axes, whilst maintaining local interactions. We demonstrate how this can emerge and illustrate the relaxed upper limit using a simple toy model of dynamical quantum measurement. The conditioning of the hidden variable probability distribution on the chosen measurement settings can persist far back in time in certain situations, a memory that could explain the correlations exhibited in an entangled quantum system.
翻訳日:2023-07-18 18:47:28 公開日:2023-07-14
# rfla: 物理的世界における、ステルスな反射光敵攻撃

RFLA: A Stealthy Reflected Light Adversarial Attack in the Physical World ( http://arxiv.org/abs/2307.07653v1 )

ライセンス: Link先を確認
Donghua Wang, Wen Yao, Tingsong Jiang, Chao Li, Xiaoqian Chen(参考訳) 近年、ディープニューラルネットワーク(DNN)に対する物理的敵対攻撃が注目されている。 現在の主流の物理的攻撃は、ターゲットオブジェクトの外観を変更するために、印刷された敵パッチまたはカモフラージュを使用する。 しかし、これらのアプローチは、盗みの少ない顕著な敵対パターンを生み出す。 もう一つの物理的展開可能な攻撃は光攻撃であり、日中は太陽光で弱く、ステルス性が特徴である。 本稿では,カラー透明なプラスチックシートと,鏡の前面に特定の形状の紙切れを配置し,対象物に対して異なるカラー測地線を作成することにより,デジタルと物理の両世界において効果的かつステルス性を有する新しい反射光攻撃(rfla)を提案する。 これらの目的を達成するために、対象物体の反射光をモデル化するための円に基づく一般的な枠組みを考案する。 具体的には、円(座標と半径からなる)を最適化し、最適化された角度によって決定される様々な幾何学的形状を持つ。 幾何学形状の充填色とそれに対応する透明度も最適化される。 異なるデータセットとモデルに対するRFLAの有効性を広範囲に評価した。 実験結果から,提案手法はデジタル世界の異なるデータセットやモデルにおいて,99%以上の成功率を達成することが示唆された。 また,太陽光や懐中電灯を用いて異なる物理環境における提案手法の有効性を検証する。

Physical adversarial attacks against deep neural networks (DNNs) have recently gained increasing attention. The current mainstream physical attacks use printed adversarial patches or camouflage to alter the appearance of the target object. However, these approaches generate conspicuous adversarial patterns that show poor stealthiness. Another physical deployable attack is the optical attack, featuring stealthiness while exhibiting weakly in the daytime with sunlight. In this paper, we propose a novel Reflected Light Attack (RFLA), featuring effective and stealthy in both the digital and physical world, which is implemented by placing the color transparent plastic sheet and a paper cut of a specific shape in front of the mirror to create different colored geometries on the target object. To achieve these goals, we devise a general framework based on the circle to model the reflected light on the target object. Specifically, we optimize a circle (composed of a coordinate and radius) to carry various geometrical shapes determined by the optimized angle. The fill color of the geometry shape and its corresponding transparency are also optimized. We extensively evaluate the effectiveness of RFLA on different datasets and models. Experiment results suggest that the proposed method achieves over 99% success rate on different datasets and models in the digital world. Additionally, we verify the effectiveness of the proposed method in different physical environments by using sunlight or a flashlight.
翻訳日:2023-07-18 18:47:10 公開日:2023-07-14
# DIGEST: ローカルアップデートによる高速かつ効率的な分散学習

DIGEST: Fast and Communication Efficient Decentralized Learning with Local Updates ( http://arxiv.org/abs/2307.07652v1 )

ライセンス: Link先を確認
Peyman Gholami, Hulya Seferoglu(参考訳) 広く検討されている分散学習アルゴリズムは、ゴシップとランダムウォークベースの学習である。 Gossipアルゴリズム(同期版と非同期版の両方)は通信コストが高く、ランダムウォークベースの学習経験は収束時間を増加させた。 本稿では,Gossipとランダムウォークの両方のアイデアを活用し,確率勾配勾配(SGD)に着目し,高速かつ通信効率のよい非同期分散学習機構DIGESTを設計する。 DIGESTは、ローカルSGDアルゴリズム上に構築された非同期分散アルゴリズムである。 我々は,ストリーム数の増加に伴って通信オーバーヘッドが増加する可能性があるシングルストリームとマルチストリームダイジェストの両方を設計,活用可能な収束および通信オーバーヘッドトレードオフが存在する。 単ストリームDIGESTと多ストリームDIGESTの収束を解析し、両アルゴリズムが最適解に漸近的に近づき、iidおよび非iidデータ分布に近づいたことを証明した。 我々は、ロジスティック回帰とディープニューラルネットワークResNet20のためのシングルストリームDIGESTの性能を評価する。 シミュレーションの結果,マルチストリームダイジェストは,iid設定のベースラインよりも収束時間の方が優れており,非iid設定のベースラインよりも優れていることがわかった。

Two widely considered decentralized learning algorithms are Gossip and random walk-based learning. Gossip algorithms (both synchronous and asynchronous versions) suffer from high communication cost, while random-walk based learning experiences increased convergence time. In this paper, we design a fast and communication-efficient asynchronous decentralized learning mechanism DIGEST by taking advantage of both Gossip and random-walk ideas, and focusing on stochastic gradient descent (SGD). DIGEST is an asynchronous decentralized algorithm building on local-SGD algorithms, which are originally designed for communication efficient centralized learning. We design both single-stream and multi-stream DIGEST, where the communication overhead may increase when the number of streams increases, and there is a convergence and communication overhead trade-off which can be leveraged. We analyze the convergence of single- and multi-stream DIGEST, and prove that both algorithms approach to the optimal solution asymptotically for both iid and non-iid data distributions. We evaluate the performance of single- and multi-stream DIGEST for logistic regression and a deep neural network ResNet20. The simulation results confirm that multi-stream DIGEST has nice convergence properties; i.e., its convergence time is better than or comparable to the baselines in iid setting, and outperforms the baselines in non-iid setting.
翻訳日:2023-07-18 18:46:48 公開日:2023-07-14
# salc:スケルトン支援学習に基づく屋内位置推定のためのクラスタリング

SALC: Skeleton-Assisted Learning-Based Clustering for Time-Varying Indoor Localization ( http://arxiv.org/abs/2307.07650v1 )

ライセンス: Link先を確認
An-Hung Hsiao, Li-Hsiang Shen, Chen-Yi Chang, Chun-Jie Chiu, Kai-Ten Feng(参考訳) 近年,ワイヤレス屋内局地化が注目されている。 WiFiアクセスポイント(AP)から得られる受信信号強度(RSS)を用いて指紋データベースを確立することは、屋内のローカライゼーションにおいて広く利用されている手法である。 しかし, 屋内測位系における時間変化問題は, 既存の文献ではよく研究されていない。 従来の静的フィンガープリントと比較して,動的に再構成されたデータベースは高度に変化する環境に適応できるため,局所化精度の持続性が期待できる。 本稿では,sns指向のmap-assisted clustering (romac) ,クラスタベースのオンラインデータベース構築 (code) およびクラスタスケールドロケーション推定 (csle) を含む,スケルトン支援学習型クラスタリングローカライズ (salc) システムを提案する。 SALCスキームは、骨格に基づく最短経路(SSP)と基準点(RP)間の時間変化RSS測定との類似性を共同で検討している。 ROMACクラスタRPを異なる特徴セットに分割し、位置推定を強化するために適切な監視ポイント(MP)を選択する。 さらに, 適応型指紋データベースの確立を目標とし, タイムバランシング問題を緩和する。 最後に、重み付けkネアレスト近傍(wknn)法からの重み付けを再スケールするために、クラスタリング情報と推定信号変動の利点を利用して目標位置を取得するcsleを採用する。 シミュレーションおよび実験結果から,提案したSALCシステムは,位置推定精度を向上して,指紋データベースを効率的に再構築できることを示した。

Wireless indoor localization has attracted significant amount of attention in recent years. Using received signal strength (RSS) obtained from WiFi access points (APs) for establishing fingerprinting database is a widely utilized method in indoor localization. However, the time-variant problem for indoor positioning systems is not well-investigated in existing literature. Compared to conventional static fingerprinting, the dynamicallyreconstructed database can adapt to a highly-changing environment, which achieves sustainability of localization accuracy. To deal with the time-varying issue, we propose a skeleton-assisted learning-based clustering localization (SALC) system, including RSS-oriented map-assisted clustering (ROMAC), cluster-based online database establishment (CODE), and cluster-scaled location estimation (CsLE). The SALC scheme jointly considers similarities from the skeleton-based shortest path (SSP) and the time-varying RSS measurements across the reference points (RPs). ROMAC clusters RPs into different feature sets and therefore selects suitable monitor points (MPs) for enhancing location estimation. Moreover, the CODE algorithm aims for establishing adaptive fingerprint database to alleviate the timevarying problem. Finally, CsLE is adopted to acquire the target position by leveraging the benefits of clustering information and estimated signal variations in order to rescale the weights fromweighted k-nearest neighbors (WkNN) method. Both simulation and experimental results demonstrate that the proposed SALC system can effectively reconstruct the fingerprint database with an enhanced location estimation accuracy, which outperforms the other existing schemes in the open literature.
翻訳日:2023-07-18 18:46:24 公開日:2023-07-14
# DistTGL: 分散メモリベースの時間グラフニューラルネットワークトレーニング

DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training ( http://arxiv.org/abs/2307.07649v1 )

ライセンス: Link先を確認
Hongkuan Zhou, Da Zheng, Xiang Song, George Karypis, Viktor Prasanna(参考訳) メモリベースの時間グラフニューラルネットワークは、動的グラフ表現学習の強力なツールであり、多くの実世界のアプリケーションで優れた性能を示している。 しかし、ノードメモリはグラフイベントの依存関係をより多く捉えるためにより小さなバッチサイズを好んでおり、すべてのトレーナー間で同期的にメンテナンスする必要がある。 その結果、既存のフレームワークは、複数のgpuへのスケーリング時に精度が低下する。 さらに悪いことに、ノードメモリを同期する膨大なオーバーヘッドは、分散GPUクラスタへのデプロイを非現実的にします。 本研究では、分散GPUクラスタ上でメモリベースのTGNNをトレーニングする、効率的でスケーラブルなソリューションであるDistTGLを提案する。 DistTGLには、拡張TGNNモデル、新しいトレーニングアルゴリズム、最適化されたシステムという、既存のソリューションよりも3つの改善がある。 実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。

Memory-based Temporal Graph Neural Networks are powerful tools in dynamic graph representation learning and have demonstrated superior performance in many real-world applications. However, their node memory favors smaller batch sizes to capture more dependencies in graph events and needs to be maintained synchronously across all trainers. As a result, existing frameworks suffer from accuracy loss when scaling to multiple GPUs. Evenworse, the tremendous overhead to synchronize the node memory make it impractical to be deployed to distributed GPU clusters. In this work, we propose DistTGL -- an efficient and scalable solution to train memory-based TGNNs on distributed GPU clusters. DistTGL has three improvements over existing solutions: an enhanced TGNN model, a novel training algorithm, and an optimized system. In experiments, DistTGL achieves near-linear convergence speedup, outperforming state-of-the-art single-machine method by 14.5% in accuracy and 10.17x in training throughput.
翻訳日:2023-07-18 18:45:52 公開日:2023-07-14
# 米国のレストランレビューと大規模言語モデルにおける移民料理の他的・低品位フレーミング

Othering and low prestige framing of immigrant cuisines in US restaurant reviews and large language models ( http://arxiv.org/abs/2307.07645v1 )

ライセンス: Link先を確認
Yiwei Luo, Kristina Gligori\'c, Dan Jurafsky(参考訳) 食物に対する暗黙的な態度の特定と理解は、文化的・民族的アイデンティティの指標として食品が広まることによる社会的偏見の軽減に寄与する。 食物に関するステレオタイプは、有害な公衆談話に寄与するマイクロアグレッシブの一形態であり、民族集団に対する偏見を持続させ、レストランの経済的結果に悪影響を及ぼす可能性がある。 本研究では,アメリカ14州におけるレストランの210万件のレビューにおいて,移民料理に対する態度に関する社会的理論を大規模に評価した。 レストランの価格や近隣の人種の多様性などの要因をコントロールした結果、移民料理は、真正性(例えば、真正性、伝統)、エキゾチック性(例えば、エキゾチック、異質)、原型性(例、典型的、通常)という観点で表現されることが多いが、非西洋の移民料理(例、インド、メキシコ)は、ヨーロッパ料理(例、フランス、イタリア)よりもはるかに多く受け入れられている。 さらに,非西洋移民料理は好ましくなく,地位も低く,手頃な価格と衛生的に評価されていることが判明した。 最後に,大規模言語モデル(LLM)によって生成されたレビューが,同じフレーミング傾向の多くを再現することを示す。 本研究は,味覚とガストロノミクスのステレオタイプに関する社会理論を実証的にコーポレートし,その態度を正す言語過程を明らかにする。

Identifying and understanding implicit attitudes toward food can help efforts to mitigate social prejudice due to food's pervasive role as a marker of cultural and ethnic identity. Stereotypes about food are a form of microaggression that contribute to harmful public discourse that may in turn perpetuate prejudice toward ethnic groups and negatively impact economic outcomes for restaurants. Through careful linguistic analyses, we evaluate social theories about attitudes toward immigrant cuisine in a large-scale study of framing differences in 2.1M English language Yelp reviews of restaurants in 14 US states. Controlling for factors such as restaurant price and neighborhood racial diversity, we find that immigrant cuisines are more likely to be framed in objectifying and othering terms of authenticity (e.g., authentic, traditional), exoticism (e.g., exotic, different), and prototypicality (e.g., typical, usual), but that non-Western immigrant cuisines (e.g., Indian, Mexican) receive more othering than European cuisines (e.g., French, Italian). We further find that non-Western immigrant cuisines are framed less positively and as lower status, being evaluated in terms of affordability and hygiene. Finally, we show that reviews generated by large language models (LLMs) reproduce many of the same framing tendencies. Our results empirically corroborate social theories of taste and gastronomic stereotyping, and reveal linguistic processes by which such attitudes are reified.
翻訳日:2023-07-18 18:45:38 公開日:2023-07-14
# 時系列分類における属性と要因による視覚的説明

Visual Explanations with Attributions and Counterfactuals on Time Series Classification ( http://arxiv.org/abs/2307.08494v1 )

ライセンス: Link先を確認
Udo Schlegel, Daniela Oelke, Daniel A. Keim, Mennatallah El-Assady(参考訳) 説明可能な人工知能(XAI)の必要性が高まる中、様々な抽象化レベルにおいてタスク依存のXAI手法が増加している。 世界レベルでのXAI技術はモデル行動を説明し、局所レベルではサンプル予測を説明する。 我々は,時系列分類における帰属と反事実に注目し,グローバルとローカル間のシームレスな遷移をサポートするビジュアル分析ワークフローを提案する。 特に、従来のデータセット(画像、テキスト)のために開発されたローカルXAI技術(属性)を適用して時系列分類を分析する。 グローバルな概要を生成するために、データに局所帰属法を適用し、データセット全体の説明を作成する。 これらの説明は2次元に投影され、モデルの振る舞いの傾向、戦略、決定境界を描く。 モデルの意思決定と潜在的なデータエラーをさらに検査するため、what-if分析は、グローバルレベルとローカルレベルの両方における仮説生成と検証を容易にする。 専門家のユーザからのフィードバックや、ドメインの知識に基づく洞察を定期的に収集し、組み込んだ結果、時系列変換を説明に密に統合した分析ワークフローとシステムが完成しました。 最後に,データ変換と特徴関連性,(2)モデル動作と決定境界の識別,(3)誤分類の理由の3つのユースケースを提案する。

With the rising necessity of explainable artificial intelligence (XAI), we see an increase in task-dependent XAI methods on varying abstraction levels. XAI techniques on a global level explain model behavior and on a local level explain sample predictions. We propose a visual analytics workflow to support seamless transitions between global and local explanations, focusing on attributions and counterfactuals on time series classification. In particular, we adapt local XAI techniques (attributions) that are developed for traditional datasets (images, text) to analyze time series classification, a data type that is typically less intelligible to humans. To generate a global overview, we apply local attribution methods to the data, creating explanations for the whole dataset. These explanations are projected onto two dimensions, depicting model behavior trends, strategies, and decision boundaries. To further inspect the model decision-making as well as potential data errors, a what-if analysis facilitates hypothesis generation and verification on both the global and local levels. We constantly collected and incorporated expert user feedback, as well as insights based on their domain knowledge, resulting in a tailored analysis workflow and system that tightly integrates time series transformations into explanations. Lastly, we present three use cases, verifying that our technique enables users to (1)~explore data transformations and feature relevance, (2)~identify model behavior and decision boundaries, as well as, (3)~the reason for misclassifications.
翻訳日:2023-07-18 13:06:50 公開日:2023-07-14
# 超微細相互作用を持つ磁性体の核磁化による暗黒物質検出

Dark matter detection using nuclear magnetization in magnet with hyperfine interaction ( http://arxiv.org/abs/2307.08577v1 )

ライセンス: Link先を確認
So Chigusa, Takeo Moroi, Kazunori Nakayama, Thanaporn Sichanugrist(参考訳) 我々は、強い超微細相互作用を持つ磁石の磁気励起により、宇宙の暗黒物質(DM)、すなわち、軸および暗黒光子の質量$\sim 10^{-6}$ eVと$\sim 10^{-4}$ eVを検出する可能性を考える。 特に、缶詰反強磁性体MnCO$_3$を具体的な候補物質として考える。 ハイパーファイン相互作用によって許される核スピンと電子スピンの間のスピン移動により、核スピンは有効(電子スピン誘起)磁場によって自然に高偏極化し、互いに長距離相互作用を持つ。 核スピンの集団沈降(すなわち核マグノン)は、核子-DM相互作用を通じてDM磁場によって生成されるが、電子-核スピン混合による電子-DM相互作用にも敏感である。 従来の核スピンプリセッション実験と比較して、DMセンサとしてのこのシステムは、小さな静磁場を印加するだけで高い周波数に敏感である。 この系はまた、DMプローブに利用可能な追加チャネルとして、核スピンと混合された電子スピンの集合的占有も持つ。 LC共振回路に付随する誘導ピックアップループや光子計数装置を備えた光子キャビティなど,適切な読み出し設定下での感度を推定する。 本手法は,光ボソニックdmの未探索パラメータ領域をカバーすることを示す。

We consider the possibility to detect cosmic light dark matter (DM), i.e., axions and dark photons, of mass $\sim 10^{-6}$ eV and $\sim 10^{-4}$ eV, by magnetic excitation in a magnet with strong hyperfine interaction. In particular, we consider a canted anti-ferromagnet, MnCO$_3$, as a concrete candidate material. With spin transfer between nuclear and electron spins allowed by the hyperfine interaction, nuclear spins become naturally highly polarized due to an effective (electron-spin-induced) magnetic field, and have long-range interactions with each other. The collective precession of nuclear spins, i.e., a nuclear magnon, can be generated by the DM field through the nucleon-DM interaction, while they are also sensitive to the electron-DM interaction through the electron-nuclear spin mixing. Compared to conventional nuclear-spin precession experiments, this system as a DM sensor is sensitive to higher frequency needing only a small static magnetic field applied. The system also has collective precession of electron spins, mixed with nuclear spins, as the additional channels that can be used for DM probes. We estimate the sensitivity under appropriate readout setups such as an inductive pick-up loop associated with an LC resonant circuit, or a photon cavity with a photon counting device. We show that this method covers an unexplored parameter region of light bosonic DM.
翻訳日:2023-07-18 12:38:48 公開日:2023-07-14
# 未知ラベルノイズと不均衡データセットに対する対等学習

Omnipotent Adversarial Training for Unknown Label-noisy and Imbalanced Datasets ( http://arxiv.org/abs/2307.08596v1 )

ライセンス: Link先を確認
Guanlin Li, Kangjie Chen, Yuan Xu, Han Qiu, Tianwei Zhang(参考訳) 敵対的なトレーニングは、堅牢なディープラーニングにおいて重要なトピックであるが、コミュニティはその実践的利用に注意を払わない。 そこで本稿では,Omnipotent Adversarial Training (OAT) を用いて,不均衡でノイズの多いデータセット上でモデルをトレーニングし,高精度かつ堅牢性を実現することを目的とした。 我々の戦略は、トレーニングセットにおけるラベルノイズとデータ不均衡に対処する2つの革新的な手法から構成される。 まず、モデルが正しいデータラベル条件分布を学習するのを助けるために、逆行訓練プロセスにオラクルを導入する。 この慎重に設計されたoracleは、敵のトレーニングに正しいラベルアノテーションを提供できます。 さらに,モデルがベイズ最適分布を学ぶのに役立つデータ不均衡課題を克服するために,対数調整逆学習を提案する。 総合評価の結果、OATはデータ不均衡とラベルノイズの複雑な組み合わせにより、20%以上のクリーンな精度改善と10%以上の堅牢な精度向上を達成できた。 コードはhttps://github.com/GuanlinLee/OATで確認できる。

Adversarial training is an important topic in robust deep learning, but the community lacks attention to its practical usage. In this paper, we aim to resolve a real-world application challenge, i.e., training a model on an imbalanced and noisy dataset to achieve high clean accuracy and robustness, with our proposed Omnipotent Adversarial Training (OAT). Our strategy consists of two innovative methodologies to address the label noise and data imbalance in the training set. We first introduce an oracle into the adversarial training process to help the model learn a correct data-label conditional distribution. This carefully-designed oracle can provide correct label annotations for adversarial training. We further propose logits adjustment adversarial training to overcome the data imbalance challenge, which can help the model learn a Bayes-optimal distribution. Our comprehensive evaluation results show that OAT outperforms other baselines by more than 20% clean accuracy improvement and 10% robust accuracy improvement under the complex combinations of data imbalance and label noise scenarios. The code can be found in https://github.com/GuanlinLee/OAT.
翻訳日:2023-07-18 12:27:01 公開日:2023-07-14
# 暗黒の脳:神経模倣学習と推論のための設計原理

Brain in the Dark: Design Principles for Neuro-mimetic Learning and Inference ( http://arxiv.org/abs/2307.08613v1 )

ライセンス: Link先を確認
Mehran H. Bazargani, Szymon Urbas, Karl Friston(参考訳) 脳は頭蓋骨の中で純粋な闇の中で機能するが、その感覚入力の最も可能性の高い原因を推測することができる。 この推論をモデル化するアプローチは、脳が世界の生成モデルを持っていると仮定し、その感覚刺激、すなわち知覚の背後にある隠れた原因を推論することができる。 この仮定は、どのように脳にインスパイアされた生成モデルの設計の問題を定式化するか、推論と学習のタスクに対してそれらを逆転させるか、最適化すべき適切な損失関数は何か、そして最も重要なことは、平均場近似(MFA)の異なる選択と、それらが変分推論(VI)に与える影響である。

Even though the brain operates in pure darkness, within the skull, it can infer the most likely causes of its sensory input. An approach to modelling this inference is to assume that the brain has a generative model of the world, which it can invert to infer the hidden causes behind its sensory stimuli, that is, perception. This assumption raises key questions: how to formulate the problem of designing brain-inspired generative models, how to invert them for the tasks of inference and learning, what is the appropriate loss function to be optimised, and, most importantly, what are the different choices of mean field approximation (MFA) and their implications for variational inference (VI).
翻訳日:2023-07-18 12:17:19 公開日:2023-07-14
# グローバルパス選好と局所応答:局所的認識属性の存在下でのネットワークパス選択分析のための報酬分解手法

Global path preference and local response: A reward decomposition approach for network path choice analysis in the presence of locally perceived attributes ( http://arxiv.org/abs/2307.08646v1 )

ライセンス: Link先を確認
Yuki Oyama(参考訳) 本研究では,ネットワークトラベラーのグローバルパスとローカルパスの嗜好の属性レベル解析を行う。 この目的のために報酬分解アプローチが提案され、リンクベースの再帰的(マルコフ的)経路選択モデルに統合される。 このアプローチでは、各状態-アクションペアに関連付けられた即時報酬関数をグローバルユーティリティ、ネットワーク内の任意の場所からグローバルに知覚される属性の関数、現在の状態から局所的にのみ知覚される属性の関数のローカルユーティリティに分解する。 グローバルユーティリティのみがそれぞれの状態の値関数を入力し、将来期待されるユーティリティを目的地に向けて表現する。 報酬関数を分解したグローバルローカルパス選択モデルにより,エージェントのグローバルパス選択とローカルパス選択にどのような属性が影響するかを解析することができる。 さらに、ほとんどの適応経路選択モデルとは異なり、提案モデルは明らかにされた経路観測に基づいて(計画の情報を含まない)、決定論的再帰経路選択モデルと同じくらい効率的に推定することができる。 Googleストリートビュー画像からグリーンビュー指標を視覚的ストリート品質として抽出した都市街路網における実際の歩行者経路選択観測に適用した。 その結果, 歩行者は, 街路の質を視覚的に知覚し, 反応することが明らかとなった。 さらに,評価モデルを用いたシミュレーションの結果,政策関連属性が旅行者にのみ認識される場合,介入の場所選択の重要性が示唆された。

This study performs an attribute-level analysis of the global and local path preferences of network travelers. To this end, a reward decomposition approach is proposed and integrated into a link-based recursive (Markovian) path choice model. The approach decomposes the instantaneous reward function associated with each state-action pair into the global utility, a function of attributes globally perceived from anywhere in the network, and the local utility, a function of attributes that are only locally perceived from the current state. Only the global utility then enters the value function of each state, representing the future expected utility toward the destination. This global-local path choice model with decomposed reward functions allows us to analyze to what extent and which attributes affect the global and local path choices of agents. Moreover, unlike most adaptive path choice models, the proposed model can be estimated based on revealed path observations (without the information of plans) and as efficiently as deterministic recursive path choice models. The model was applied to the real pedestrian path choice observations in an urban street network where the green view index was extracted as a visual street quality from Google Street View images. The result revealed that pedestrians locally perceive and react to the visual street quality, rather than they have the pre-trip global perception on it. Furthermore, the simulation results using the estimated models suggested the importance of location selection of interventions when policy-related attributes are only locally perceived by travelers.
翻訳日:2023-07-18 12:07:34 公開日:2023-07-14
# HYTREL:ハイパーグラフ強化タブラルデータ表現学習

HYTREL: Hypergraph-enhanced Tabular Data Representation Learning ( http://arxiv.org/abs/2307.08623v1 )

ライセンス: Link先を確認
Pei Chen, Soumajyoti Sarkar, Leonard Lausen, Balasubramaniam Srinivasan, Sheng Zha, Ruihong Huang and George Karypis(参考訳) 大量の表データの収集に事前訓練された言語モデルは、いくつかの下流タスクでその効果を実証している。 しかし、これらのモデルの多くは、表データに存在する行/列の置換不変性、階層構造などを考慮していない。 これらの制限を緩和するために,表型言語モデルであるhytrelを提案する。このモデルでは,表型データの置換不変性と3つの構造的特性をハイパーグラフを用いてキャプチャする。 表型データに対して, HYTREL が最大不変であること,すなわち 2 つのテーブルが HYTREL によって同じ表現を得ることを示す。 実験の結果, HYTRELは, 4つの下流タスクにおいて, 最小限の事前学習で競争ベースラインを一貫して上回り, 表象データに関連する帰納バイアスを表現に組み込むことの利点が示された。 最後に、我々は、HYTRELがテーブル構造を同化して、セル、行、列、テーブル全体の堅牢な表現を生成することを示した。

Language models pretrained on large collections of tabular data have demonstrated their effectiveness in several downstream tasks. However, many of these models do not take into account the row/column permutation invariances, hierarchical structure, etc. that exist in tabular data. To alleviate these limitations, we propose HYTREL, a tabular language model, that captures the permutation invariances and three more structural properties of tabular data by using hypergraphs - where the table cells make up the nodes and the cells occurring jointly together in each row, column, and the entire table are used to form three different types of hyperedges. We show that HYTREL is maximally invariant under certain conditions for tabular data, i.e., two tables obtain the same representations via HYTREL iff the two tables are identical up to permutations. Our empirical results demonstrate that HYTREL consistently outperforms other competitive baselines on four downstream tasks with minimal pretraining, illustrating the advantages of incorporating the inductive biases associated with tabular data into the representations. Finally, our qualitative analyses showcase that HYTREL can assimilate the table structures to generate robust representations for the cells, rows, columns, and the entire table.
翻訳日:2023-07-18 12:05:20 公開日:2023-07-14
# テンソルネットワークを用いたプライバシー保護機械学習

Privacy-preserving machine learning with tensor networks ( http://arxiv.org/abs/2202.12319v2 )

ライセンス: Link先を確認
Alejandro Pozas-Kerstjens, Senaida Hern\'andez-Santana, Jos\'e Ram\'on Pareja Monturiol, Marco Castrill\'on L\'opez, Giannicola Scarpa, Carlos E. Gonz\'alez-Guill\'en, David P\'erez-Garc\'ia(参考訳) 局所量子多体系の低エネルギー状態の効率的な表現に広く用いられるテンソルネットワークは、最近、従来のシステムに対して利点をもたらす機械学習アーキテクチャとして提案されている。 本稿では,テンソルネットワークアーキテクチャが,医療記録の処理などにおいて重要なプライバシ保護機械学習に特に有望な特性を持つことを示す。 まず、フィードフォワードニューラルネットワークに存在する新たなプライバシ脆弱性を説明し、それを合成および実世界のデータセットで説明する。 次に,そのような脆弱性に対するロバスト性を保証するために,ゲージ対称性の下で等価なモデルのキャラクタリゼーションを含む,明確に定義された条件を開発する。 このような条件がテンソルネットワークアーキテクチャによって満たされていることを厳密に証明する。 その際、行列積状態に対する新しい正準形式を定義し、これは高い正則性を持ち、特異値分解に基づいて正準形式に残される残差ゲージを固定する。 分析の結果を,医療記録のデータセット上でマトリックス製品状態が訓練される実例で補うとともに,モデルのパラメータからトレーニングデータセットに関する情報を抽出する攻撃者の確率が大幅に低下することを示す。 テンソルネットワークアーキテクチャのトレーニングに関する専門知識の増大を考えると、これらの結果は、予測の正確さと処理される情報のプライバシーの確保を選択せざるを得ないことを示している。

Tensor networks, widely used for providing efficient representations of low-energy states of local quantum many-body systems, have been recently proposed as machine learning architectures which could present advantages with respect to traditional ones. In this work we show that tensor network architectures have especially prospective properties for privacy-preserving machine learning, which is important in tasks such as the processing of medical records. First, we describe a new privacy vulnerability that is present in feedforward neural networks, illustrating it in synthetic and real-world datasets. Then, we develop well-defined conditions to guarantee robustness to such vulnerability, which involve the characterization of models equivalent under gauge symmetry. We rigorously prove that such conditions are satisfied by tensor-network architectures. In doing so, we define a novel canonical form for matrix product states, which has a high degree of regularity and fixes the residual gauge that is left in the canonical forms based on singular value decompositions. We supplement the analytical findings with practical examples where matrix product states are trained on datasets of medical records, which show large reductions on the probability of an attacker extracting information about the training dataset from the model's parameters. Given the growing expertise in training tensor-network architectures, these results imply that one may not have to be forced to make a choice between accuracy in prediction and ensuring the privacy of the information processed.
翻訳日:2023-07-17 17:49:31 公開日:2023-07-14
# ブラックボックスの解凍:アルゴリズム決定の規制

Unpacking the Black Box: Regulating Algorithmic Decisions ( http://arxiv.org/abs/2110.03443v2 )

ライセンス: Link先を確認
Laura Blattner, Scott Nelson, Jann Spiess(参考訳) エージェントが複雑な「ブラックボックス」予測関数を使用して融資、医療試験、雇用などの意思決定を行い、エージェントのブラックボックスモデルについて学べる程度にプリンシパルが制限される世界において、予測アルゴリズムを最適に制御する方法を示す。 完全透明となるほど単純である予測関数に対する制限因子は、ミスアライメントが制限され、第1のベスト予測関数が十分複雑である限り、非効率であることを示す。 アルゴリズムによる監査は福祉を改善するが、その利益は監査ツールの設計に依存する。 多くの説明ツールの焦点である情報損失の最小化に注力するツールは、予測関数の平均的な振る舞いを説明することに集中するため、一般的に非効率である。 過度な偽陽性や人種格差といったインセンティブの不一致の源泉に焦点を絞ったツールは、第2のベストソリューションを提供することができる。 我々は,消費者貸付の応用を用いて理論的知見を実証的に支援し,コンテキスト固有の説明ツールに基づく複雑なモデルが,単純で完全透明なモデルよりも優れていることを示す。 複雑なモデルから得られるこの利益は、銀行や金融規制当局の観点からも好ましい経験的応用におけるParetoの改善を表している。

We show how to optimally regulate prediction algorithms in a world where an agent uses complex 'black-box' prediction functions to make decisions such as lending, medical testing, or hiring, and where a principal is limited in how much she can learn about the agent's black-box model. We show that limiting agents to prediction functions that are simple enough to be fully transparent is inefficient as long as the misalignment is limited and first-best prediction functions are sufficiently complex. Algorithmic audits can improve welfare, but the gains depend on the design of the audit tools. Tools that focus on minimizing overall information loss, the focus of many explainer tools, will generally be inefficient since they focus on explaining the average behavior of the prediction function. Targeted tools that focus on the source of incentive misalignment, e.g., excess false positives or racial disparities, can provide second-best solutions. We provide empirical support for our theoretical findings using an application in consumer lending, where we document that complex models regulated based on context-specific explanation tools outperform simple, fully transparent models. This gain from complex models represents a Pareto improvement across our empirical applications that are preferred both by the lender and from the perspective of the financial regulator.
翻訳日:2023-07-17 17:49:07 公開日:2023-07-14
# 多部交絡は2点連結相関関数によって特徴づけられるか?

Can multipartite entanglement be characterized by two-point connected correlation functions ? ( http://arxiv.org/abs/2108.03605v2 )

ライセンス: Link先を確認
Luca Lepori, Andrea Trombettoni, Domenico Giuliano, Johannes Kombe, Jorge Yago Malo, Andrew J. Daley, Augusto Smerzi, and Maria Luisa Chiofalo(参考訳) 混合量子状態における多部絡み合いは、純粋状態の場合のように、2点連結相関関数によってのみ特徴付けられるかについて議論する。 逆に、後者の相関は(分離された)1点と2点の相関関数の適切な組み合わせによって定義される。 純粋な状態の場合とは対照的に、満足すべき条件はかなり厳しいことが判明した。 しかし、密度行列の可算分解における一点相関の点独立性が有効である場合や、相関に参入する作用素が(半正/負の)定義されている場合など、いくつかの興味深いケースを特定できた。

We discuss under which conditions multipartite entanglement in mixed quantum states can be characterized only in terms of two-point connected correlation functions, as it is the case for pure states. In turn, the latter correlations are defined via a suitable combination of (disconnected) one- and two-point correlation functions. In contrast to the case of pure states, conditions to be satisfied turn out to be rather severe. However, we were able to identify some interesting cases, as when the point-independence is valid of the one-point correlations in each possible decomposition of the density matrix, or when the operators that enter in the correlations are (semi-)positive/negative defined.
翻訳日:2023-07-17 17:48:43 公開日:2023-07-14
# MKConv:ポイントクラウド分析のための多次元特徴表現

MKConv: Multidimensional Feature Representation for Point Cloud Analysis ( http://arxiv.org/abs/2107.12655v2 )

ライセンス: Link先を確認
Sungmin Woo, Dogyoon Lee, Sangwon Hwang, Woojin Kim and Sangyoun Lee(参考訳) 深層学習の顕著な成功にもかかわらず、点雲上の最適な畳み込み操作は、不規則なデータ構造のため、いまだ解明されていない。 既存の手法は主に、連続空間における任意の点を扱える効果的な連続カーネル関数の設計に焦点を当てている。 高パフォーマンスを示す様々なアプローチが提案されているが、標準的なポイントワイズ特徴は1dチャネルで表現され、その表現が追加の空間的特徴次元を伴う場合により有益になる可能性がある。 本稿では、点特徴表現をベクトルから多次元行列に変換することを学ぶ新しい畳み込み演算子である多次元カーネル畳み込み(mkconv)を提案する。 標準点の畳み込みとは異なり、MKConvは2ステップで進む。 i)多次元カーネル重みを利用して局所特徴表現の空間次元を最初に活性化する。 これらの空間的に拡張された特徴は、より詳細な局所構造情報を持ちながら、空間的相関や特徴空間のチャネル相関を通じて埋め込み情報を表現することができる。 (ii) 離散畳み込みを格子構造行列と見なすことができる多次元特徴量に適用する。 このようにして、情報損失に苦しむボクセル化をすることなく、ポイントクラウドデータの離散畳み込みを利用することができる。 さらに,空間的特徴量を再重み付けした局所点内における包括的構造認識を実現するために,空間的注意モジュールMultidimensional Local Attention (MLA)を提案する。 我々は,MKConvがオブジェクト分類,オブジェクト部分分割,シーンセマンティックセマンティックセマンティクスなどのクラウド処理タスクに優れた適用性を有することを示す。

Despite the remarkable success of deep learning, an optimal convolution operation on point clouds remains elusive owing to their irregular data structure. Existing methods mainly focus on designing an effective continuous kernel function that can handle an arbitrary point in continuous space. Various approaches exhibiting high performance have been proposed, but we observe that the standard pointwise feature is represented by 1D channels and can become more informative when its representation involves additional spatial feature dimensions. In this paper, we present Multidimensional Kernel Convolution (MKConv), a novel convolution operator that learns to transform the point feature representation from a vector to a multidimensional matrix. Unlike standard point convolution, MKConv proceeds via two steps. (i) It first activates the spatial dimensions of local feature representation by exploiting multidimensional kernel weights. These spatially expanded features can represent their embedded information through spatial correlation as well as channel correlation in feature space, carrying more detailed local structure information. (ii) Then, discrete convolutions are applied to the multidimensional features which can be regarded as a grid-structured matrix. In this way, we can utilize the discrete convolutions for point cloud data without voxelization that suffers from information loss. Furthermore, we propose a spatial attention module, Multidimensional Local Attention (MLA), to provide comprehensive structure awareness within the local point set by reweighting the spatial feature dimensions. We demonstrate that MKConv has excellent applicability to point cloud processing tasks including object classification, object part segmentation, and scene semantic segmentation with superior results.
翻訳日:2023-07-17 17:48:30 公開日:2023-07-14
# ランダム一次元探索によるデータ拡張ポリシーの最適化

Optimizing Data Augmentation Policy Through Random Unidimensional Search ( http://arxiv.org/abs/2106.08756v4 )

ライセンス: Link先を確認
Xiaomeng Dong, Michael Potter, Gaurav Kumar, Yun-Chan Tsai, V. Ratna Saripalli, Theodore Trafalis(参考訳) ディープラーニングの研究者の間では、トレーニング中に最適なデータ拡張戦略を見つけることは、最先端のパフォーマンスと実行結果の違いを意味することは秘密ではない。 そのために、コミュニティは、手元にあるタスクに対して完璧な拡張手順を見つけるプロセスを自動化する多くの努力を目の当たりにしてきた。 残念なことに、最新の最先端の手法でさえ計算オーバーヘッドが大きくなり、理想的な設定をするためには100のフルモデルトレーニングが必要になる。 ランダム一次元拡張を用いた6つのトレーニングで同等のパフォーマンスを実現する方法を示す。 ソースコードはhttps://github.com/fastestimator/RUA/tree/v1.0で入手できる。

It is no secret amongst deep learning researchers that finding the optimal data augmentation strategy during training can mean the difference between state-of-the-art performance and a run-of-the-mill result. To that end, the community has seen many efforts to automate the process of finding the perfect augmentation procedure for any task at hand. Unfortunately, even recent cutting-edge methods bring massive computational overhead, requiring as many as 100 full model trainings to settle on an ideal configuration. We show how to achieve equivalent performance using just 6 trainings with Random Unidimensional Augmentation. Source code is available at https://github.com/fastestimator/RUA/tree/v1.0
翻訳日:2023-07-17 17:48:04 公開日:2023-07-14
# 二成分リボングラフの量子力学:積分性、格子、クロネッカー係数

Quantum mechanics of bipartite ribbon graphs: Integrality, Lattices and Kronecker coefficients ( http://arxiv.org/abs/2010.04054v3 )

ライセンス: Link先を確認
Joseph Ben Geloun, Sanjaye Ramgoolam(参考訳) ヒルベルト空間上の可解量子力学系を、固定数のエッジを持つ二部格子リボングラフで定義する。 ヒルベルト空間もまた結合代数であり、積は置換群積から導かれる。 このヒルベルト空間代数の存在と構造は、多くの結果をもたらす。 代数積は、整数リボングラフ再連結係数の項で表現できるが、対称群要素の正規化文字で表現される固有値と、対称群表現のテンソル積多重であるクロネッカー係数の項で与えられる縮退値を持つ可解ハミルトニアンを定義するために用いられる。 ヤング図形の三重項に対するクロネッカー係数の平方は、リボングラフの格子における部分格子の次元に等しいことが示されている。 これにより、クロネッカー係数のコンビネータ的解釈の長年の疑問への答えが導かれる。 量子超越性とその計算複雑性理論への示唆を探究する手段として、仮定的量子実現/シミュレーションのための非有界クロネッカー係数の検出実験を概説する。 リボングラフとベリイ写像の対応は、弦幾何学の間で補間される量子膜世界容積の観点からこれらの量子力学系の解釈に繋がる。

We define solvable quantum mechanical systems on a Hilbert space spanned by bipartite ribbon graphs with a fixed number of edges. The Hilbert space is also an associative algebra, where the product is derived from permutation group products. The existence and structure of this Hilbert space algebra has a number of consequences. The algebra product, which can be expressed in terms of integer ribbon graph reconnection coefficients, is used to define solvable Hamiltonians with eigenvalues expressed in terms of normalized characters of symmetric group elements and degeneracies given in terms of Kronecker coefficients, which are tensor product multiplicities of symmetric group representations. The square of the Kronecker coefficient for a triple of Young diagrams is shown to be equal to the dimension of a sub-lattice in the lattice of ribbon graphs. This leads to an answer to the long-standing question of a combinatoric interpretation of the Kronecker coefficients. As an avenue to explore quantum supremacy and its implications for computational complexity theory, we outline experiments to detect non-vanishing Kronecker coefficients for hypothetical quantum realizations/simulations of these quantum systems. The correspondence between ribbon graphs and Belyi maps leads to an interpretation of these quantum mechanical systems in terms of quantum membrane world-volumes interpolating between string geometries.
翻訳日:2023-07-17 17:47:53 公開日:2023-07-14
# 社会的学習の失敗としての統計的差別について-マルチアーマッドバンドアプローチ

On Statistical Discrimination as a Failure of Social Learning: A Multi-Armed Bandit Approach ( http://arxiv.org/abs/2010.01079v6 )

ライセンス: Link先を確認
Junpei Komiyama and Shunya Noda(参考訳) 多腕バンディットモデルを用いて、雇用市場における統計的差別を分析する。 美容企業は、異質な観察可能な特徴を持つ労働者に直面しています。 労働者の技能と特徴の関連性は不明であり、企業はそれを学ぶ必要がある。 マイノリティ労働者は滅多に雇用されないため、過小評価は継続する傾向がある。 人口比の限界不均衡でさえ、しばしば恒久的な過小評価をもたらす。 本稿では,新しい補助則(ハイブリッド機構)とルーニー則の2つの政策解を提案する。 以上の結果から,一時的肯定行動は,不十分なデータから生じる差別を効果的に緩和することが明らかとなった。

We analyze statistical discrimination in hiring markets using a multi-armed bandit model. Myopic firms face workers arriving with heterogeneous observable characteristics. The association between the worker's skill and characteristics is unknown ex ante; thus, firms need to learn it. Laissez-faire causes perpetual underestimation: minority workers are rarely hired, and therefore, the underestimation tends to persist. Even a marginal imbalance in the population ratio frequently results in perpetual underestimation. We propose two policy solutions: a novel subsidy rule (the hybrid mechanism) and the Rooney Rule. Our results indicate that temporary affirmative actions effectively alleviate discrimination stemming from insufficient data.
翻訳日:2023-07-17 17:47:31 公開日:2023-07-14
# 高次元確率平均場ゲームのための人口交替と制御ニューラルネットワーク

Alternating the Population and Control Neural Networks to Solve High-Dimensional Stochastic Mean-Field Games ( http://arxiv.org/abs/2002.10113v4 )

ライセンス: Link先を確認
Alex Tong Lin, Samy Wu Fung, Wuchen Li, Levon Nurbekyan, Stanley J. Osher(参考訳) 本稿では,確率的平均場ゲーム(MFG)を解くための交互人口とエージェント制御ニューラルネットワークであるAPAC-Netを提案する。 提案アルゴリズムは,既存の解法に到達できないMFGの高次元例を対象としている。 これを2つのステップで達成します。 第一に,MFGsが発現する基本・双対構造の変動を利用して,凸凹型サドル点問題と表現する。 次に、2つのニューラルネットワークでそれぞれ値と密度関数をパラメータ化する。 この方法で問題を表現することにより、MFGを解くことは、生成的敵ネットワーク(GAN)を訓練する特別なケースと解釈できる。 最大100次元MFG問題に対する本手法の可能性を示す。

We present APAC-Net, an alternating population and agent control neural network for solving stochastic mean field games (MFGs). Our algorithm is geared toward high-dimensional instances of MFGs that are beyond reach with existing solution methods. We achieve this in two steps. First, we take advantage of the underlying variational primal-dual structure that MFGs exhibit and phrase it as a convex-concave saddle point problem. Second, we parameterize the value and density functions by two neural networks, respectively. By phrasing the problem in this manner, solving the MFG can be interpreted as a special case of training a generative adversarial network (GAN). We show the potential of our method on up to 100-dimensional MFG problems.
翻訳日:2023-07-17 17:47:21 公開日:2023-07-14
# $\Phi$-DVAE:非構造化データ同化のための物理インフォームド動的変分オートエンコーダ

$\Phi$-DVAE: Physics-Informed Dynamical Variational Autoencoders for Unstructured Data Assimilation ( http://arxiv.org/abs/2209.15609v2 )

ライセンス: Link先を確認
Alex Glyn-Davies, Connor Duffin, \"O. Deniz Akyildiz, Mark Girolami(参考訳) 物理モデルに非構造化データを組み込むことは、データ同化において難しい問題である。 伝統的なアプローチは、機能形式が一般に知られていると仮定されるよく定義された観測作用素に焦点を当てている。 これにより、データ空間からモデル空間へのマッピングが未知な設定で、一貫性のあるモデルデータ合成が達成できない。 これらの欠点に対処するために、微分方程式によって記述される時間進化物理系に多様なデータストリームを埋め込む物理インフォームな動的変分オートエンコーダ(DVAE)を開発する。 我々の手法は、非構造化データを潜在力学系に同化するために、潜在状態空間モデルのための標準的な非線形フィルタとVOEを組み合わせたものである。 我々の例では、非構造化データはビデオデータと速度場測定の形式で提供されるが、この手法は任意の未知の観測演算子を許容するのに適している。 変分ベイズフレームワークは、符号化、潜時状態、未知のシステムパラメータの合同推定に使用される。 本手法を実証するために,lorenz-63 常微分方程式と advection および korteweg-de vries 偏微分方程式を用いたケーススタディを提供する。 合成データを用いた結果,$\Phi$-DVAEは標準手法と競合するデータ効率のよいダイナミックス符号化手法を提供することがわかった。 不確実性定量化により未知のパラメータを復元し、未知のデータを正確に予測する。

Incorporating unstructured data into physical models is a challenging problem that is emerging in data assimilation. Traditional approaches focus on well-defined observation operators whose functional forms are typically assumed to be known. This prevents these methods from achieving a consistent model-data synthesis in configurations where the mapping from data-space to model-space is unknown. To address these shortcomings, in this paper we develop a physics-informed dynamical variational autoencoder ($\Phi$-DVAE) to embed diverse data streams into time-evolving physical systems described by differential equations. Our approach combines a standard, possibly nonlinear, filter for the latent state-space model and a VAE, to assimilate the unstructured data into the latent dynamical system. Unstructured data, in our example systems, comes in the form of video data and velocity field measurements, however the methodology is suitably generic to allow for arbitrary unknown observation operators. A variational Bayesian framework is used for the joint estimation of the encoding, latent states, and unknown system parameters. To demonstrate the method, we provide case studies with the Lorenz-63 ordinary differential equation, and the advection and Korteweg-de Vries partial differential equations. Our results, with synthetic data, show that $\Phi$-DVAE provides a data efficient dynamics encoding methodology which is competitive with standard approaches. Unknown parameters are recovered with uncertainty quantification, and unseen data are accurately predicted.
翻訳日:2023-07-17 17:41:03 公開日:2023-07-14
# Tavis-Cummings-Hubbardモデルの修正版を用いて中性水素分子の形成をシミュレートする

Using a modified version of the Tavis-Cummings-Hubbard model to simulate the formation of neutral hydrogen molecule ( http://arxiv.org/abs/2209.09607v6 )

ライセンス: Link先を確認
Miao Hui-hui and Ozhigov Yuri Igorevich(参考訳) 中性水素分子の結合解離モデルと呼ばれる光学キャビティに位置する量子ドット上に2つの2レベル人工原子を持つ有限次元化学モデルを記述する。 合成中性水素分子の形成に繋がる初期の状況が説明される。 量子形式では、核の運動性が描写される。 分子内の原子の結合は量子マスター方程式によってシミュレートされ、原子軌道の分子へのハイブリッド化は核の位置に依存する。 電子スピン遷移についても考慮される。 研究対象は、様々なフォトニックモードの温度変化が量子進化と中性水素分子形成に及ぼす影響である。 最後に、共有結合と単純な調和振動子(フォノン)を含むより正確なモデルを提案する。

A finite-dimensional chemistry model with two two-level artificial atoms on quantum dots positioned in optical cavities, called the association-dissociation model of neutral hydrogen molecule, is described. The initial circumstances that led to the formation of the synthetic neutral hydrogen molecule are explained. In quantum form, nuclei's mobility is portrayed. The association of atoms in the molecule is simulated through a quantum master equation, incorporating hybridization of atomic orbitals into molecular - depending on the position of the nuclei. Consideration is also given to electron spin transitions. Investigated are the effects of temperature variation of various photonic modes on quantum evolution and neutral hydrogen molecule formation. Finally, a more precise model including covalent bond and simple harmonic oscillator (phonon) is proposed.
翻訳日:2023-07-17 17:40:35 公開日:2023-07-14
# CodeQueries: コード上のセマンティッククエリのデータセット

CodeQueries: A Dataset of Semantic Queries over Code ( http://arxiv.org/abs/2209.08372v2 )

ライセンス: Link先を確認
Surya Prakash Sahu, Madhurima Mandal, Shikhar Bharadwaj, Aditya Kanade, Petros Maniatis, Shirish Shevade(参考訳) 例えば、“親クラスが矛盾する属性を宣言するクラスはあるか? それらに答えるには、属性やクラスの継承関係などのコードの意味を理解する必要がある。 そのような質問に対する答えは、答えを構成するコード(例えば、サブクラスの宣言)と、事実(例えば、矛盾する属性の定義)を識別するべきである。 コードに対する質問回答に関する既存の作業は、イエス/ノー質問やメソッドレベルのコンテキストを考慮に入れています。 我々はPythonコードにセマンティッククエリーのラベル付きデータセットであるCodeQueriesをコントリビュートする。 既存のデータセットと比較して、CodeQueriesでは、クエリはコードセマンティクスであり、コンテキストはファイルレベルであり、答えはコードスパンである。 広く使われている静的分析ツールであるCodeQLがサポートするクエリに基づいてデータセットをキュレートし、ポジティブとネガティブの両方の例と、シングルホップとマルチホップの推論を必要とするクエリを含む。 データセットの価値を評価するために,ベースラインニューラルアプローチを評価する。 CodeQueriesのサブセット上で,ゼロショットおよび少数ショット設定において,大規模言語モデル(GPT3.5-Turbo)について検討する。 また,細調整によるBERTスタイルモデル (CuBERT) の評価を行った。 これらのモデルはCodeQueries上では限定的な成功を収めています。 CodeQueriesは、抽出された質問回答設定において、ニューラルネットワークの能力をテストし、コードセマンティクスを理解するための難しいデータセットである。

Developers often have questions about semantic aspects of code they are working on, e.g., "Is there a class whose parent classes declare a conflicting attribute?". Answering them requires understanding code semantics such as attributes and inheritance relation of classes. An answer to such a question should identify code spans constituting the answer (e.g., the declaration of the subclass) as well as supporting facts (e.g., the definitions of the conflicting attributes). The existing work on question-answering over code has considered yes/no questions or method-level context. We contribute a labeled dataset, called CodeQueries, of semantic queries over Python code. Compared to the existing datasets, in CodeQueries, the queries are about code semantics, the context is file level and the answers are code spans. We curate the dataset based on queries supported by a widely-used static analysis tool, CodeQL, and include both positive and negative examples, and queries requiring single-hop and multi-hop reasoning. To assess the value of our dataset, we evaluate baseline neural approaches. We study a large language model (GPT3.5-Turbo) in zero-shot and few-shot settings on a subset of CodeQueries. We also evaluate a BERT style model (CuBERT) with fine-tuning. We find that these models achieve limited success on CodeQueries. CodeQueries is thus a challenging dataset to test the ability of neural models, to understand code semantics, in the extractive question-answering setting.
翻訳日:2023-07-17 17:40:23 公開日:2023-07-14
# 低雑音による個人性確率勾配の差

Differentially Private Stochastic Gradient Descent with Low-Noise ( http://arxiv.org/abs/2209.04188v2 )

ライセンス: Link先を確認
Puyu Wang, Yunwen Lei, Yiming Ying, Ding-Xuan Zhou(参考訳) 現代の機械学習アルゴリズムは、データからきめ細かい情報を抽出して正確な予測を提供することを目標としている。 本稿では,プライバシを維持しながら良好なパフォーマンスを保証するプライバシ保存型機械学習アルゴリズムの開発に関する実践的かつ理論的重要性について述べる。 本稿では,確率的凸最適化の設定における微分的確率的勾配降下(sgd)アルゴリズムのプライバシーと有用性(過大なリスク境界による測定)に着目する。 具体的には、微分プライベートなsgdアルゴリズムの過大なリスク境界を求める低雑音設定におけるポイントワイズ問題について検討する。 ペアワイズ学習環境では、勾配摂動に基づく単純な微分プライベートなSGDアルゴリズムを提案する。 さらに,提案アルゴリズムの新たな効用限度を開発し,非スムース損失においても最適余剰リスク率を達成することを証明した。 特に,プライバシ保護のためのペアワイズ学習において,低雑音条件下での高速学習率を確立する。

Modern machine learning algorithms aim to extract fine-grained information from data to provide accurate predictions, which often conflicts with the goal of privacy protection. This paper addresses the practical and theoretical importance of developing privacy-preserving machine learning algorithms that ensure good performance while preserving privacy. In this paper, we focus on the privacy and utility (measured by excess risk bounds) performances of differentially private stochastic gradient descent (SGD) algorithms in the setting of stochastic convex optimization. Specifically, we examine the pointwise problem in the low-noise setting for which we derive sharper excess risk bounds for the differentially private SGD algorithm. In the pairwise learning setting, we propose a simple differentially private SGD algorithm based on gradient perturbation. Furthermore, we develop novel utility bounds for the proposed algorithm, proving that it achieves optimal excess risk rates even for non-smooth losses. Notably, we establish fast learning rates for privacy-preserving pairwise learning under the low-noise condition, which is the first of its kind.
翻訳日:2023-07-17 17:39:58 公開日:2023-07-14
# 多粒子量子ウォーク : トポロジカル多体励起の動的プローブ

Multiparticle quantum walk: a dynamical probe of topological many-body excitations ( http://arxiv.org/abs/2209.03569v3 )

ライセンス: Link先を確認
Bogdan Ostahie, Doru Sticlet, C\u{a}t\u{a}lin Pa\c{s}cu Moca, Bal\'azs D\'ora, Mikl\'os Antal Werner, J\'anos K. Asb\'oth, Gergely Zar\'and(参考訳) 最近の実験では、単一粒子の量子ウォークが単一粒子状態の位相的性質を明らかにすることが示されている。 ここでは、強く相互作用するフェルミオンの多粒子量子ウォークに着目して、この図を多体領域に一般化する。 相互作用するSU$(N)$ Su-Schrieffer-Heeger鎖に複数のフレーバーを持つ$N$粒子を注入した後、その多粒子連続時間量子ウォークは様々な方法で監視される。 スペクトルの$N$-body部分の多体ベリー相は、単一粒子の場合と同様、二量体化の変化に伴う位相遷移を示す。 このトポロジカルな遷移は、量子ウォーク中の単体および多体平均キラル変位によって捉えられ、強い相互作用と中等度障害のために今も残っている。 我々の予測は、低温の原子ガスに対する実験的な到達範囲内であり、動的プローブによる多体励起のトポロジー特性の検出に利用できる。

Recent experiments demonstrated that single-particle quantum walks can reveal the topological properties of single-particle states. Here, we generalize this picture to the many-body realm by focusing on multiparticle quantum walks of strongly interacting fermions. After injecting $N$ particles with multiple flavors in the interacting SU$(N)$ Su-Schrieffer-Heeger chain, their multiparticle continuous-time quantum walk is monitored by a variety of methods. We find that the many-body Berry phase in the $N$-body part of the spectrum signals a topological transition upon varying the dimerization, similarly to the single-particle case. This topological transition is captured by the single- and many-body mean chiral displacement during the quantum walk and remains present for strong interaction as well as for moderate disorder. Our predictions are well within experimental reach for cold atomic gases and can be used to detect the topological properties of many-body excitations through dynamical probes.
翻訳日:2023-07-17 17:39:41 公開日:2023-07-14
# テキストに基づく人物探索における画像固有情報抑圧と暗黙的局所アライメント

Image-Specific Information Suppression and Implicit Local Alignment for Text-based Person Search ( http://arxiv.org/abs/2208.14365v2 )

ライセンス: Link先を確認
Shuanglin Yan, Hao Tang, Liyan Zhang and Jinhui Tang(参考訳) テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一人物の歩行者画像を検索することを目的とした課題である。 近年,TBPSは画像とテキストの局所的な微粒化対応を学習することで,最先端の手法で優れた性能を実現している。 しかし、既存の手法の多くは、コンテキスト情報やノイズの潜在的導入の欠如により信頼できないモダリティ間のきめ細かい対応をモデル化するために、明示的に生成された局所的な部分に依存している。 さらに,既存の手法では,画像固有情報によるモダリティ間の情報不等式問題をほとんど考慮していない。 そこで本研究では,複数の階層間における画像/テキストの特徴表現を学習し,高速かつ効果的な人物探索を実現するtbps用統合多レベルアライメントネットワーク(manet)を提案する。 具体的には,画像固有の情報抑圧モジュールをまず設計し,画像の背景と環境要因を関連づけた位置推定とチャネル注意ろ過によってそれぞれ抑制する。 このモジュールは、情報不平等問題を効果的に軽減し、画像とテキスト間の情報ボリュームのアライメントを実現する。 次に,画像/テキストのすべての画素/単語特徴を一組のモダリティ共有セマンティクストピックセンタに適応的に集約し,追加の監督やクロスモーダルインタラクションを伴わずに局所的な細粒度対応を暗黙的に学習する暗黙的局所アライメントモジュールを提案する。 そして、地域視点の補足としてグローバルアライメントが導入される。 グローバルアライメントモジュールとローカルアライメントモジュールの協調は、モダリティ間のセマンティックアライメントを改善する。 複数のデータベースに対する大規模な実験は、MANetの有効性と優位性を示している。

Text-based person search (TBPS) is a challenging task that aims to search pedestrian images with the same identity from an image gallery given a query text. In recent years, TBPS has made remarkable progress and state-of-the-art methods achieve superior performance by learning local fine-grained correspondence between images and texts. However, most existing methods rely on explicitly generated local parts to model fine-grained correspondence between modalities, which is unreliable due to the lack of contextual information or the potential introduction of noise. Moreover, existing methods seldom consider the information inequality problem between modalities caused by image-specific information. To address these limitations, we propose an efficient joint Multi-level Alignment Network (MANet) for TBPS, which can learn aligned image/text feature representations between modalities at multiple levels, and realize fast and effective person search. Specifically, we first design an image-specific information suppression module, which suppresses image background and environmental factors by relation-guided localization and channel attention filtration respectively. This module effectively alleviates the information inequality problem and realizes the alignment of information volume between images and texts. Secondly, we propose an implicit local alignment module to adaptively aggregate all pixel/word features of image/text to a set of modality-shared semantic topic centers and implicitly learn the local fine-grained correspondence between modalities without additional supervision and cross-modal interactions. And a global alignment is introduced as a supplement to the local perspective. The cooperation of global and local alignment modules enables better semantic alignment between modalities. Extensive experiments on multiple databases demonstrate the effectiveness and superiority of our MANet.
翻訳日:2023-07-17 17:39:00 公開日:2023-07-14
# パラメトリックpdesの前方および逆問題に対する完全確率的深層モデル

Fully probabilistic deep models for forward and inverse problems in parametric PDEs ( http://arxiv.org/abs/2208.04856v2 )

ライセンス: Link先を確認
Arnaud Vadeboncoeur, \"Omer Deniz Akyildiz, Ieva Kazlauskaite, Mark Girolami, Fehmi Cirak(参考訳) パラメトリック偏微分方程式(pdes)のパラメータ対解(前方)と解対パラメータ(逆)マップを同時に学習する物理駆動深潜変数モデル(pddlvm)を提案する。 本稿では,従来のpde離散化手法,ディープニューラルネットワーク,確率的モデリング,変分推論を活用し,完全確率的コヒーレントフレームワークを構築する。 仮定された確率モデルでは、フォワードおよび逆写像は、ディープニューラルネットワークによってパラメータ化された平均と共分散を持つガウス分布として近似される。 PDE残差は値 0 の観測されたランダムベクトルであると仮定し、ゼロ平均とユーザ予測共分散を持つランダムベクトルとしてモデル化する。 このモデルは、証拠の下限(ELBO)を最大化することによりゼロの残差を観測する確率、すなわち証拠または限界確率を最大化することで訓練される。 その結果、提案手法は独立なPDE解決を必要とせず、トレーニング時に物理インフォームドされ、PDEのリアルタイム解とトレーニング後の逆解が実現する。 提案フレームワークは、観測データをシームレスに統合し、逆問題の解決や生成モデルの構築に容易に拡張できる。 本稿では,線形および非線形ポアソン問題,複素3次元ジオメトリを持つ弾性シェル,および物理インフォームドニューラルネットワーク(pinn)離散化を用いた時間依存非線形および不均質pdeなどの有限要素離散パラメトリックpde問題に対する提案手法の効率とロバスト性を示す。 従来の有限要素法 (FEM) と比較して, トレーニング後の最大3桁の高速化を実現し, 一貫性のある不確実性推定を出力する。

We introduce a physics-driven deep latent variable model (PDDLVM) to learn simultaneously parameter-to-solution (forward) and solution-to-parameter (inverse) maps of parametric partial differential equations (PDEs). Our formulation leverages conventional PDE discretization techniques, deep neural networks, probabilistic modelling, and variational inference to assemble a fully probabilistic coherent framework. In the posited probabilistic model, both the forward and inverse maps are approximated as Gaussian distributions with a mean and covariance parameterized by deep neural networks. The PDE residual is assumed to be an observed random vector of value zero, hence we model it as a random vector with a zero mean and a user-prescribed covariance. The model is trained by maximizing the probability, that is the evidence or marginal likelihood, of observing a residual of zero by maximizing the evidence lower bound (ELBO). Consequently, the proposed methodology does not require any independent PDE solves and is physics-informed at training time, allowing the real-time solution of PDE forward and inverse problems after training. The proposed framework can be easily extended to seamlessly integrate observed data to solve inverse problems and to build generative models. We demonstrate the efficiency and robustness of our method on finite element discretized parametric PDE problems such as linear and nonlinear Poisson problems, elastic shells with complex 3D geometries, and time-dependent nonlinear and inhomogeneous PDEs using a physics-informed neural network (PINN) discretization. We achieve up to three orders of magnitude speed-up after training compared to traditional finite element method (FEM), while outputting coherent uncertainty estimates.
翻訳日:2023-07-17 17:38:27 公開日:2023-07-14
# 機械学習におけるランクベースの分解可能な損失:調査

Rank-based Decomposable Losses in Machine Learning: A Survey ( http://arxiv.org/abs/2207.08768v3 )

ライセンス: Link先を確認
Shu Hu, Xin Wang, Siwei Lyu(参考訳) 最近の研究で、個々の損失と集約損失を区別する損失関数を設計する上で不可欠なパラダイムが明らかになった。 個々の損失はサンプルのモデルの品質を測定し、集合的損失は各トレーニングサンプルに対する個々の損失/スコアを結合する。 どちらも、個々の値の集合を単一の数値に集約する共通の手順を持っている。 ランキング順は、設計損失における個々の値の最も基本的な関係を反映している。 さらに、損失を個々の項の集合に分解できる分解可能性(decomposability)は、損失/スコアを整理する重要な特性となる。 この調査は、機械学習におけるランクベースの分解可能な損失の体系的で包括的なレビューを提供する。 具体的には,集合的損失と個人的損失の観点に従う損失関数の新しい分類法を提案する。 集合関数の例であるそのような損失を形成するためにアグリゲータを識別する。 ランクベースの分解可能な損失を8つのカテゴリに分類する。 これらのカテゴリに従い、ランクベース総損失とランクベースの個人損失に関する文献をレビューする。 これらの損失の一般式を記述し,既存の研究課題と結びつける。 また,非探索的・残存的・新たな課題にまたがる今後の研究の方向性も提案する。

Recent works have revealed an essential paradigm in designing loss functions that differentiate individual losses vs. aggregate losses. The individual loss measures the quality of the model on a sample, while the aggregate loss combines individual losses/scores over each training sample. Both have a common procedure that aggregates a set of individual values to a single numerical value. The ranking order reflects the most fundamental relation among individual values in designing losses. In addition, decomposability, in which a loss can be decomposed into an ensemble of individual terms, becomes a significant property of organizing losses/scores. This survey provides a systematic and comprehensive review of rank-based decomposable losses in machine learning. Specifically, we provide a new taxonomy of loss functions that follows the perspectives of aggregate loss and individual loss. We identify the aggregator to form such losses, which are examples of set functions. We organize the rank-based decomposable losses into eight categories. Following these categories, we review the literature on rank-based aggregate losses and rank-based individual losses. We describe general formulas for these losses and connect them with existing research topics. We also suggest future research directions spanning unexplored, remaining, and emerging issues in rank-based decomposable losses.
翻訳日:2023-07-17 17:37:38 公開日:2023-07-14
# 統一光マッターフロッケ理論とその量子通信への応用

Unified Light-Matter Floquet Theory and its Application to Quantum Communication ( http://arxiv.org/abs/2207.08558v2 )

ライセンス: Link先を確認
Georg Engelhardt, Sayan Choudhury, and W. Vincent Liu(参考訳) 周期的に駆動される量子系は、フロケ理論を用いて解析できる興味深い非平衡現象の多元性を示すことができる。 当然、フロケ理論は強いレーザー場と相互作用する原子の力学を記述するために用いられる。 しかし、この半古典的解析は、光の量子化の性質に依存する量子光学現象を説明できない。 本稿では、フルカウンティング統計の枠組みを用いてフロッケ理論と量子光学を統合することにより、原子-光子結合系の半古典的記述を超越する大きな一歩を踏み出す。 これは、フォトニックダイナミクスを追跡するカウントフィールドを導入することで達成される。 この形式論は「photon-resolved floquet theory」(prft)と呼ばれ、標準的な全数統計で使われる2点の射影計測ではなく、2点の断層計測に基づいている。 PRFTは、マルチモード電磁場と相互作用する原子がFloquet状態に基づいて原子サブシステムを完全にデコヒーレンスするときに、マクロマターの絡み合いが発生することを予測している。 このデコヒーレンスは光周波数系では急速に発生するが、無線周波数系では無視される。 その結果,効率的な量子記憶と量子演算の設計への道が開けた。 最後に、prftを用いて、最先端の少数光子プロトコルを2桁以上大きく上回る量子通信プロトコルを提案する。 PRFTは、分光、熱力学、量子力学、量子シミュレーションなど、様々なフロケット設定における新たな洞察をもたらす可能性がある。

Periodically-driven quantum systems can exhibit a plethora of intriguing non-equilibrium phenomena that can be analyzed using Floquet theory. Naturally, Floquet theory is employed to describe the dynamics of atoms interacting with intense laser fields. However, this semiclassical analysis can not account for quantum-optical phenomena that rely on the quantized nature of light. In this paper, we take a significant step to go beyond the semiclassical description of atom-photon coupled systems by unifying Floquet theory with quantum optics using the framework of Full-Counting Statistics. This is achieved by introducing counting fields that keep track of the photonic dynamics. This formalism, which is dubbed ``Photon-resolved Floquet theory" (PRFT), is based on two-point tomographic measurements, instead of the two-point projective measurements used in standard Full-Counting Statistics. Strikingly, the PRFT predicts the generation of macroscopic light-matter entanglement when atoms interact with multimode electromagnetic fields, thereby leading to complete decoherence of the atomic subsystem in the basis of the Floquet states. This decoherence occurs rapidly in the optical frequency regime, but is negligible in the radio frequency regime. Our results thus pave the way for the design of efficient quantum memories and quantum operations. Finally, employing the PRFT, we propose a quantum communication protocol that can significantly outperform the state-of-art few-photon protocols by two orders of magnitude or better. The PRFT potentially leads to new insights in various Floquet settings including spectroscopy, thermodynamics, quantum metrology, and quantum simulations.
翻訳日:2023-07-17 17:37:20 公開日:2023-07-14
# 一般化カテゴリー発見のためのパラメトリック情報最大化

Parametric Information Maximization for Generalized Category Discovery ( http://arxiv.org/abs/2212.00334v3 )

ライセンス: Link先を確認
Florent Chiaroni, Jose Dolz, Ziko Imtiaz Masud, Amar Mitiche, Ismail Ben Ayed(参考訳) 一般化カテゴリー発見(GCD)問題に対するパラメトリック情報最大化(PIM)モデルを提案する。 具体的には,各特徴量と潜在ラベル間の重み付き相互情報を評価し,ラベル付きサンプルからの監督制約を受ける目的関数のパラメタライズド族を探索する2レベル最適化定式化を提案する。 本稿では,標準情報最大化手法で符号化されたクラスバランスバイアスを緩和し,短尾データセットと長尾データセットの両方を効果的に扱う。 我々は、PIMモデルが6つの異なるデータセットにまたがってGCDに新しい最先端のパフォーマンスを一貫して設定していることを示す広範な実験と比較を行った。

We introduce a Parametric Information Maximization (PIM) model for the Generalized Category Discovery (GCD) problem. Specifically, we propose a bi-level optimization formulation, which explores a parameterized family of objective functions, each evaluating a weighted mutual information between the features and the latent labels, subject to supervision constraints from the labeled samples. Our formulation mitigates the class-balance bias encoded in standard information maximization approaches, thereby handling effectively both short-tailed and long-tailed data sets. We report extensive experiments and comparisons demonstrating that our PIM model consistently sets new state-of-the-art performances in GCD across six different datasets, more so when dealing with challenging fine-grained problems.
翻訳日:2023-07-17 17:31:29 公開日:2023-07-14
# 相関変数を持つニューラルマニフォールドの線形分類

Linear Classification of Neural Manifolds with Correlated Variability ( http://arxiv.org/abs/2211.14961v2 )

ライセンス: Link先を確認
Albert J. Wakhloo, Tamara J. Sussman, SueYeon Chung(参考訳) 神経活動の統計的および幾何学的性質とパフォーマンスの関係を理解することは、理論神経科学とディープラーニングの重要な問題である。 ここでは,対象表現間の相関がキャパシティ,すなわち線形分離性に与える影響を計算する。 球面多様体では, 中心体間の相関が効果的に球面を近づける一方で, 軸間の相関を導入すると半径が効果的に縮小し, 分類問題に関して相関と幾何学の双対性が明らかになる。 この結果を用いて,深層ネットワークデータの容量を正確に推定する。

Understanding how the statistical and geometric properties of neural activity relate to performance is a key problem in theoretical neuroscience and deep learning. Here, we calculate how correlations between object representations affect the capacity, a measure of linear separability. We show that for spherical object manifolds, introducing correlations between centroids effectively pushes the spheres closer together, while introducing correlations between the axes effectively shrinks their radii, revealing a duality between correlations and geometry with respect to the problem of classification. We then apply our results to accurately estimate the capacity of deep network data.
翻訳日:2023-07-17 17:31:15 公開日:2023-07-14
# 予測が読書時間に及ぼす影響について

On the Effect of Anticipation on Reading Times ( http://arxiv.org/abs/2211.14301v2 )

ライセンス: Link先を確認
Tiago Pimentel, Clara Meister, Ethan G. Wilcox, Roger Levy, Ryan Cotterell(参考訳) 過去20年間に渡り、多くの研究が予測可能な単語(すなわち、高次の単語)が読まれるのにどれだけ時間がかかるかを示した。 一般に、これらの研究は、読み取りプロセスが純粋に応答していると暗黙的に仮定している: 読者は新しい単語を観察し、必要に応じて処理する時間を割り当てる。 読者は、将来の単語について予測を行い、その予測に基づいて処理する時間を割り当てることができる。 本研究では,この予測を単語の文脈エントロピーとして運用する。 本研究では,2つの自己ペースデータと2つの視線追跡データを用いて,主観的および文脈的エントロピーが読書時間をどのように予測するかを比較検討した。 実験により,単語の読解時間(RT)に対する文脈的エントロピーの影響が,単語の読解時間(RT)に与える影響を示す重要な証拠が得られた。 しかし、スプリンクラー効果は一般にエントロピーではなく、サープリサールによってのみ捕獲される。 さらに、コンテキストエントロピーがRTに影響を与える4つの認知メカニズムを仮説化します。 全体として、私たちの結果は、応答性だけでなく予測性もサポートする。

Over the past two decades, numerous studies have demonstrated how less predictable (i.e., higher surprisal) words take more time to read. In general, these studies have implicitly assumed the reading process is purely responsive: Readers observe a new word and allocate time to process it as required. We argue that prior results are also compatible with a reading process that is at least partially anticipatory: Readers could make predictions about a future word and allocate time to process it based on their expectation. In this work, we operationalize this anticipation as a word's contextual entropy. We assess the effect of anticipation on reading by comparing how well surprisal and contextual entropy predict reading times on four naturalistic reading datasets: two self-paced and two eye-tracking. Experimentally, across datasets and analyses, we find substantial evidence for effects of contextual entropy over surprisal on a word's reading time (RT): in fact, entropy is sometimes better than surprisal in predicting a word's RT. Spillover effects, however, are generally not captured by entropy, but only by surprisal. Further, we hypothesize four cognitive mechanisms through which contextual entropy could impact RTs -- three of which we are able to design experiments to analyze. Overall, our results support a view of reading that is not just responsive, but also anticipatory.
翻訳日:2023-07-17 17:31:04 公開日:2023-07-14
# global $k$-means$++$:グローバル$k$-meansクラスタリングアルゴリズムの効果的な緩和

Global $k$-means$++$: an effective relaxation of the global $k$-means clustering algorithm ( http://arxiv.org/abs/2211.12271v3 )

ライセンス: Link先を確認
Georgios Vardakas and Aristidis Likas(参考訳) k$-meansアルゴリズムは、その単純さ、有効性、スピードのため、一般的なクラスタリング手法である。 しかし、その主な欠点は、クラスター中心の初期位置に対する高い感度である。 global $k$-means は k-means のランダム初期化問題に対処するために提案された決定論的アルゴリズムであるが、高い計算コストを必要とするよく知られたアルゴリズムである。 データを$k$クラスタに分割し、$k=1,\ldots, k$すべての$k$-meansサブプロイムを段階的に解決する。 k$クラスタ問題ごとに、このメソッドは$k$-meansアルゴリズム$n$ timesを実行し、$n$はデータポイントの数である。 本稿では,計算負荷を低減したグローバル$k$-meansに類似した,高品質クラスタリングソリューションを効果的に取得する手法として,emph{global $k$-means\texttt{++}}クラスタリングアルゴリズムを提案する。 これは、$k$-means\texttt{++}アルゴリズムで効果的に使用される中心選択確率を利用する。 提案手法は,様々なベンチマークデータセットでテスト,比較を行い,クラスタリング品質と実行速度の点で非常に満足できる結果を得た。

The $k$-means algorithm is a prevalent clustering method due to its simplicity, effectiveness, and speed. However, its main disadvantage is its high sensitivity to the initial positions of the cluster centers. The global $k$-means is a deterministic algorithm proposed to tackle the random initialization problem of k-means but its well-known that requires high computational cost. It partitions the data to $K$ clusters by solving all $k$-means sub-problems incrementally for all $k=1,\ldots, K$. For each $k$ cluster problem, the method executes the $k$-means algorithm $N$ times, where $N$ is the number of datapoints. In this paper, we propose the \emph{global $k$-means\texttt{++}} clustering algorithm, which is an effective way of acquiring quality clustering solutions akin to those of global $k$-means with a reduced computational load. This is achieved by exploiting the center selection probability that is effectively used in the $k$-means\texttt{++} algorithm. The proposed method has been tested and compared in various benchmark datasets yielding very satisfactory results in terms of clustering quality and execution speed.
翻訳日:2023-07-17 17:30:44 公開日:2023-07-14
# 2+1)D結晶状態とホフスタッター蝶の多体不変量としての量子化電荷偏極

Quantized charge polarization as a many-body invariant in (2+1)D crystalline topological states and Hofstadter butterflies ( http://arxiv.org/abs/2211.09127v2 )

ライセンス: Link先を確認
Yuxuan Zhang, Naren Manjunath, Gautam Nambiar, and Maissam Barkeshli(参考訳) 非ゼロチャーン数や磁場の存在下でも、(2+1)Dのトポロジカル位相に対して量子化された多体電荷偏極$\vec{\mathscr{P}}$を定義する方法を示す。 可逆位相状態に対して、$\vec{\mathscr{p}}$ は$\mathbb{z}_2 \times \mathbb{z}_2$,$\mathbb{z}_3$,$\mathbb{z}_2$,$\mathbb{z}_1$ であり、m = 2$, $3$, $4$ または$$$$$$$ の回転対称性、格子(磁気)変換対称性、電荷保存がある。 システムの大部分において、$\vec{\mathscr{p}}$ が現れる。 i) $\vec{\mathscr{P}} \cdot \vec{b} \text{ mod 1}$ の分数量子化された寄与を、バーガースベクトル $\vec{b}$ で格子の微分と転位に束縛された電荷に対する。 (ii)磁束の線形運動量、及び (iii)シリンダ上の有効1次元偏光に対する振動系の大きさ依存性 磁場中のスピンレス自由フェルミオンの格子模型における$\vec{\mathscr{p}}$の研究を行った。 我々は、その効果の数値計算と一致する位相場理論から予測を導出する。 (i)- (iii) 顕微鏡モデルから本質的に多体的な方法で$\vec{\mathscr{p}}$を抽出するために使用できることを示す。 高対称性点 $\text{o}$ が与えられたとき、離散シフト $\mathscr{S}_{\text{o}}$ が存在して、$\vec{\mathscr{P}}$ が $\mathscr{S}_{\text{o}}$ の依存性を$\text{o}$ に指定することを示す。 色付きホフシュタッターバターは、チャーン数と離散シフトからさらに色付き蝶を精製する$\vec{\mathscr{p}}$の量子化値に対応する。

We show how to define a quantized many-body charge polarization $\vec{\mathscr{P}}$ for (2+1)D topological phases of matter, even in the presence of non-zero Chern number and magnetic field. For invertible topological states, $\vec{\mathscr{P}}$ is a $\mathbb{Z}_2 \times \mathbb{Z}_2$, $\mathbb{Z}_3$, $\mathbb{Z}_2$, or $\mathbb{Z}_1$ topological invariant in the presence of $M = 2$, $3$, $4$, or $6$-fold rotational symmetry, lattice (magnetic) translational symmetry, and charge conservation. $\vec{\mathscr{P}}$ manifests in the bulk of the system as (i) a fractional quantized contribution of $\vec{\mathscr{P}} \cdot \vec{b} \text{ mod 1}$ to the charge bound to lattice disclinations and dislocations with Burgers vector $\vec{b}$, (ii) a linear momentum for magnetic flux, and (iii) an oscillatory system size dependent contribution to the effective 1d polarization on a cylinder. We study $\vec{\mathscr{P}}$ in lattice models of spinless free fermions in a magnetic field. We derive predictions from topological field theory, which we match to numerical calculations for the effects (i)-(iii), demonstrating that these can be used to extract $\vec{\mathscr{P}}$ from microscopic models in an intrinsically many-body way. We show how, given a high symmetry point $\text{o}$, there is a topological invariant, the discrete shift $\mathscr{S}_{\text{o}}$, such that $\vec{\mathscr{P}}$ specifies the dependence of $\mathscr{S}_{\text{o}}$ on $\text{o}$. We derive colored Hofstadter butterflies, corresponding to the quantized value of $\vec{\mathscr{P}}$, which further refine the colored butterflies from the Chern number and discrete shift.
翻訳日:2023-07-17 17:30:13 公開日:2023-07-14
# r-pred:チューブ問合せによる2段階運動予測

R-Pred: Two-Stage Motion Prediction Via Tube-Query Attention-Based Trajectory Refinement ( http://arxiv.org/abs/2211.08609v6 )

ライセンス: Link先を確認
Sehwan Choi, Jungho Kim, Junyong Yun, Jun Won Choi(参考訳) 動的エージェントの将来の動きを予測することは、自律ロボットの運動計画における安全性の確保とリスク評価において最重要となる。 本研究では,初期軌道提案と軌道修正ネットワークのカスケードを用いて,シーンとインタラクションの両方のコンテキストを効果的に活用する,r-predと呼ばれる2段階運動予測手法を提案する。 初期軌道提案ネットワークは、将来の軌道分布のmモードに対応するm軌道提案を生成する。 軌道改善ネットワークは、各M提案を拡張します。 1)チューブ検索シーンアテンション(tqsa)および 2)提案レベルのインタラクションアテンション(PIA)機構。 TQSAは、興味のある軌道上の提案に近接してプールされたローカルシーンコンテキストの特徴を集約するためにチューブクエリを使用する。 PIAはさらに、隣接するエージェントからの距離で選択された軌道提案のグループを用いて、エージェント間相互作用をモデル化することで、軌道提案をさらに強化する。 Argoverse と nuScenes のデータセットを用いて行った実験により,提案する改良ネットワークは,単段ベースラインと比較して大きな性能向上を実現し,R-Pred がベンチマークのいくつかのカテゴリで最先端のパフォーマンスを達成することを示した。

Predicting the future motion of dynamic agents is of paramount importance to ensuring safety and assessing risks in motion planning for autonomous robots. In this study, we propose a two-stage motion prediction method, called R-Pred, designed to effectively utilize both scene and interaction context using a cascade of the initial trajectory proposal and trajectory refinement networks. The initial trajectory proposal network produces M trajectory proposals corresponding to the M modes of the future trajectory distribution. The trajectory refinement network enhances each of the M proposals using 1) tube-query scene attention (TQSA) and 2) proposal-level interaction attention (PIA) mechanisms. TQSA uses tube-queries to aggregate local scene context features pooled from proximity around trajectory proposals of interest. PIA further enhances the trajectory proposals by modeling inter-agent interactions using a group of trajectory proposals selected by their distances from neighboring agents. Our experiments conducted on Argoverse and nuScenes datasets demonstrate that the proposed refinement network provides significant performance improvements compared to the single-stage baseline and that R-Pred achieves state-of-the-art performance in some categories of the benchmarks.
翻訳日:2023-07-17 17:29:21 公開日:2023-07-14
# 41量子ビット超伝導プロセッサにおける位相零モードの量子シミュレーション

Quantum simulation of topological zero modes on a 41-qubit superconducting processor ( http://arxiv.org/abs/2211.05341v2 )

ライセンス: Link先を確認
Yun-Hao Shi, Yu Liu, Yu-Ran Zhang, Zhongcheng Xiang, Kaixuan Huang, Tao Liu, Yong-Yi Wang, Jia-Chi Zhang, Cheng-Lin Deng, Gui-Han Liang, Zheng-Yang Mei, Hao Li, Tian-Ming Li, Wei-Guo Ma, Hao-Tian Liu, Chi-Tong Chen, Tong Liu, Ye Tian, Xiaohui Song, S. P. Zhao, Kai Xu, Dongning Zheng, Franco Nori, and Heng Fan(参考訳) ノイズの多い中間スケール量子(NISQ)プロセッサ上での量子物質の異方性位相の量子シミュレーションが注目されている。 ここでは,創発的トポロジー状態をシミュレートし特徴付けるため,1次元43量子ビット超伝導量子プロセッサ chuang-tzu を開発した。 工学的対角線Aubry-Andr$\acute{\mathrm{e}}$-Harper (AAH)モデルにより、ホフスタッター蝶エネルギースペクトルを実験的に実証する。 Floquet 工学を用いて,これまでに実験的に実現されたことのない非対角型 AAH モデルにおける位相零モードの存在を検証する。 驚くべきことに、量子プロセッサ内の40以上の量子ビット数は、ディラック点、エネルギーギャップの閉包、偶数と奇数の違い、エッジとバルク状態の区別を含む複雑なバンド構造から量子システムの実質的なトポロジー的特徴を捉えるのに十分な大きさである。 NISQ時代における量子トポロジカルシステム探索のための多用途ハイブリッド量子シミュレーション手法を確立した。

Quantum simulation of different exotic topological phases of quantum matter on a noisy intermediate-scale quantum (NISQ) processor is attracting growing interest. Here, we develop a one-dimensional 43-qubit superconducting quantum processor, named as Chuang-tzu, to simulate and characterize emergent topological states. By engineering diagonal Aubry-Andr$\acute{\mathrm{e}}$-Harper (AAH) models, we experimentally demonstrate the Hofstadter butterfly energy spectrum. Using Floquet engineering, we verify the existence of the topological zero modes in the commensurate off-diagonal AAH models, which have never been experimentally realized before. Remarkably, the qubit number over 40 in our quantum processor is large enough to capture the substantial topological features of a quantum system from its complex band structure, including Dirac points, the energy gap's closing, the difference between even and odd number of sites, and the distinction between edge and bulk states. Our results establish a versatile hybrid quantum simulation approach to exploring quantum topological systems in the NISQ era.
翻訳日:2023-07-17 17:29:01 公開日:2023-07-14
# 画像集合をストーリーとして記述するための視覚トランスフォーマーモデル

Vision Transformer Based Model for Describing a Set of Images as a Story ( http://arxiv.org/abs/2210.02762v3 )

ライセンス: Link先を確認
Zainy M. Malakan and Ghulam Mubashar Hassan and Ajmal Mian(参考訳) ビジュアルストーリーテリング(Visual Story-Telling)は、画像の集合から多文ストーリーを形成するプロセスである。 入力画像内の視覚的変化やコンテキスト情報を含めることは、視覚的ストーリーテリングの最も難しい側面の1つである。 その結果、一連の画像から発展したストーリーは、結束性、関連性、意味関係を欠くことが多い。 本稿では,画像の集合を物語として記述するための新しい視覚変換器ベースモデルを提案する。 提案手法は視覚変換器(ViT)を用いて入力画像の特徴を抽出する。 まず、入力画像を16×16パッチに分割し、フラット化されたパッチの線形投影に束ねる。 単一のイメージから複数のイメージパッチへの変換は、入力された視覚パターンの視覚的多様性をキャプチャする。 これらの機能は、シーケンスエンコーダの一部である双方向LSTMへの入力として使用される。 これはすべてのイメージパッチの過去と将来のイメージコンテキストをキャプチャする。 次に、注意機構を実装して、言語モデル、すなわちMogrifier-LSTMに入力されたデータの識別能力を高める。 提案モデルの性能はVisual Story-Telling dataset (VIST) を用いて評価し,本モデルが現在の技術モデルよりも優れていることを示す。

Visual Story-Telling is the process of forming a multi-sentence story from a set of images. Appropriately including visual variation and contextual information captured inside the input images is one of the most challenging aspects of visual storytelling. Consequently, stories developed from a set of images often lack cohesiveness, relevance, and semantic relationship. In this paper, we propose a novel Vision Transformer Based Model for describing a set of images as a story. The proposed method extracts the distinct features of the input images using a Vision Transformer (ViT). Firstly, input images are divided into 16X16 patches and bundled into a linear projection of flattened patches. The transformation from a single image to multiple image patches captures the visual variety of the input visual patterns. These features are used as input to a Bidirectional-LSTM which is part of the sequence encoder. This captures the past and future image context of all image patches. Then, an attention mechanism is implemented and used to increase the discriminatory capacity of the data fed into the language model, i.e. a Mogrifier-LSTM. The performance of our proposed model is evaluated using the Visual Story-Telling dataset (VIST), and the results show that our model outperforms the current state of the art models.
翻訳日:2023-07-17 17:28:13 公開日:2023-07-14
# 明るい自発パラメトリックダウンコンバージョン源の最適焦点条件

Optimal focusing conditions for bright spontaneous parametric down-conversion sources ( http://arxiv.org/abs/2302.01118v2 )

ライセンス: Link先を確認
Lorenzo Coccia, Alberto Santamato, Giuseppe Vallone, Paolo Villoresi(参考訳) 自然パラメトリックダウン変換(SPDC)の輝度を最適化することは、多くの量子情報アプリケーションにとって重要な課題である。 本研究では,SPDCプロセスで生成し,単一モードファイバと結合する光子数を最大化するための最適焦点条件について検討する。 2光子波動関数の一般表現を提供し、コリニアおよび非線形発光を考慮し、既知結果を一般化する。 本研究は, 薄結晶限界における解析式を示し, 文献にすでに存在する異なる焦点条件の関係を明らかにする。 これまで報告されたものと異なるのは、ポンプのウエストと生成された光子の間の最適比が放出角度に依存することである: 共線形縮退放出には1/\sqrt2$、より大きな集束角には1//2$である。 スペクトルフィルタの役割も分析される。 我々は,バリウムホウ酸バリウム結晶のタイプI SPDCにおける数値シミュレーションによる議論を支援し,強化する。 この種の発光には, 結晶層外における横ウォークオフの役割についても検討する。

Optimizing the brightness of a spontaneous parametric down conversion (SPDC) source is an important task for many quantum information applications. We investigate the optimal focusing conditions to maximize the number of photons produced in an SPDC process and coupled with single-mode fibers. We provide a general expression for the two-photon wavefunction, generalizing previous known results, by considering collinear and non-collinear emission. We present analytical expressions for our results in the thin crystal limit and clarify the relation between different focusing conditions already existing in the literature. Differently from what was previously reported, we show that the optimal ratio between the pump waist and the generated photons waist depends on the emission angle: It is $1/\sqrt2$ for collinear degenerate emission and approaches $1/2$ for larger collection angles. The role of spectral filters is also analyzed. We support and enrich our discussion with numerical simulations, performed for type-I SPDC in a $\beta$ barium borate crystal. For this type of emission, we also investigate the role of the transverse walk-off outside the thin crystal regime.
翻訳日:2023-07-17 17:21:08 公開日:2023-07-14
# マージナルコントリビューションを伴わないシェープリー値の近似

Approximating the Shapley Value without Marginal Contributions ( http://arxiv.org/abs/2302.00736v3 )

ライセンス: Link先を確認
Patrick Kolpaczki, Viktor Bengs, Maximilian Muschalik, Eyke H\"ullermeier(参考訳) Shapley値は、最近説明可能な人工知能で集中的に使用されている協調ゲームにおいて、プレイヤーに有意義な貢献価値を割り当てる最も一般的なアプローチであることは間違いない。 意味性は、シャプリー値のみが満足する公理的性質によるものであるが、エージェントの数で指数関数的に増加する正確な計算を犠牲にしている。 したがって、多くの研究がシェープリーの値の効率的な近似に費やされており、そのほとんどはエージェントの限界貢献の概念に反するものである。 本稿では,余剰貢献の概念から分離されたShapley値の表現に基づいて,SVARM と Stratified SVARM の2つのパラメータフリーおよびドメイン非依存近似アルゴリズムを提案する。 我々は,その近似的品質に関する不一致の理論的保証を証明し,合成ゲームを含む経験的結果と,最先端手法と比較する一般的な説明可能性ユースケースを提供する。

The Shapley value is arguably the most popular approach for assigning a meaningful contribution value to players in a cooperative game, which has recently been used intensively in explainable artificial intelligence. The meaningfulness is due to axiomatic properties that only the Shapley value satisfies, which, however, comes at the expense of an exact computation growing exponentially with the number of agents. Accordingly, a number of works are devoted to the efficient approximation of the Shapley values, most of them revolve around the notion of an agent's marginal contribution. In this paper, we propose with SVARM and Stratified SVARM two parameter-free and domain-independent approximation algorithms based on a representation of the Shapley value detached from the notion of marginal contributions. We prove unmatched theoretical guarantees regarding their approximation quality and provide empirical results including synthetic games as well as common explainability use cases comparing ourselves with state-of-the-art methods.
翻訳日:2023-07-17 17:20:27 公開日:2023-07-14
# ジェット生成の実時間非摂動力学:量子エンタングルメントと真空修正

Real-time non-perturbative dynamics of jet production: quantum entanglement and vacuum modification ( http://arxiv.org/abs/2301.11991v2 )

ライセンス: Link先を確認
Adrien Florio, David Frenklakh, Kazuki Ikeda, Dmitri Kharzeev, Vladimir Korepin, Shuzhe Shi, Kwangmin Yu(参考訳) ジェット機の製造は、高モメンムカラーチャージの伝搬によるQCD真空のリアルタイム応答の試験を可能にする必要がある。 この問題に理論的に対処するには、リアルタイムで非摂動的な方法が必要である。 シュウィンガーモデル [QED in $(1+1)$ dimensions] は、閉じ込め、カイラル対称性の破れ、真空フェルミオン凝縮の存在を含む多くの共通性質をQCDと共有していることはよく知られている。 このようなアプローチを開発するためのステップとして、ここでは、e^+e^-$消滅で生成されたクォークと古クォークジェットを表す外部ソースに結合した巨大なシュウィンガーモデルの完全な量子シミュレーションについて報告する。 本研究では, プロパゲーティングジェットによる真空キラル凝縮体の変化と, 分裂ジェット間の量子的絡み合いについて検討した。 以上の結果から, 2つの噴流の分裂生成物は, qcdにも存在し, 実験で研究できる速さ分離値$\delta \eta \leq 2$ において強い絡み合いを示した。

The production of jets should allow testing the real-time response of the QCD vacuum disturbed by the propagation of high-momentum color charges. Addressing this problem theoretically requires a real-time, non-perturbative method. It is well known that the Schwinger model [QED in $(1+1)$ dimensions] shares many common properties with QCD, including confinement, chiral symmetry breaking, and the existence of vacuum fermion condensate. As a step in developing such an approach, we report here on fully quantum simulations of a massive Schwinger model coupled to external sources representing quark and antiquark jets as produced in $e^+e^-$ annihilation. We study, for the first time, the modification of the vacuum chiral condensate by the propagating jets and the quantum entanglement between the fragmenting jets. Our results indicate strong entanglement between the fragmentation products of the two jets at rapidity separations $\Delta \eta \leq 2$, which can potentially exist also in QCD and can be studied in experiments.
翻訳日:2023-07-17 17:19:54 公開日:2023-07-14
# FemtoDet: エネルギーバーサス性能トレードオフのためのオブジェクト検出ベースライン

FemtoDet: An Object Detection Baseline for Energy Versus Performance Tradeoffs ( http://arxiv.org/abs/2301.06719v3 )

ライセンス: Link先を確認
Peng Tu, Xu Xie, Guo AI, Yuexiang Li, Yawen Huang, Yefeng Zheng(参考訳) エッジデバイスの効率的な検出器は、しばしばパラメータや速度カウントなどの指標に最適化され、検出器のエネルギーとの相関が弱いままである。 しかし、畳み込みニューラルネットワーク(CNN)の視覚的応用では、常時オンの監視カメラなど一部のものはエネルギー制約に欠かせない。 本稿では,2つの視点からエネルギーと性能のトレードオフに到達するための検出器を設計し,ベースラインとして機能することを目的とする。 1) 活性化関数の選択, 畳み込み演算子, ネック上の特徴融合構造などの低エネルギーアーキテクチャを同定するために, 様々なCNNを広範囲に分析する。 これらの未承認の詳細は、検出器のエネルギー消費に深刻な影響を及ぼす。 2) 二段式エネルギー性能問題を打破するために,低エネルギー成分であるtextit{FemtoDet} を用いた平衡検出器を提案する。 新たな構成に加えて,畳み込みとトレーニング戦略最適化を考慮し,FemtoDetをさらに改良する。 具体的には,様々な空間表現におけるcnnの限られた容量と検出タスクの矛盾を克服する畳み込み最適化のための新しいインスタンス境界拡張(ibe)モジュールを開発し,一般の増補で生成されたデータシフトを考慮した軽量検出器のサブ最適化から逃れるトレーニング戦略を最適化する再帰的ウォームリスタート(recwr)を提案する。 その結果、68.77kのパラメータしか持たないFemtoDetは、PASCAL VOCで46.3 AP50、RTX 3090で7.83Wの競争スコアを達成した。 COCOとTJU-DHDデータセットの大規模な実験は、提案手法が多様な場面で競合する結果をもたらすことを示している。

Efficient detectors for edge devices are often optimized for metrics like parameters or speed counts, which remain weak correlation with the energy of detectors. However, among vision applications of convolutional neural networks (CNNs), some, such as always-on surveillance cameras, are critical for energy constraints. This paper aims to serve as a baseline by designing detectors to reach tradeoffs between energy and performance from two perspectives: 1) We extensively analyze various CNNs to identify low-energy architectures, including the selection of activation functions, convolutions operators, and feature fusion structures on necks. These underappreciated details in past works seriously affect the energy consumption of detectors; 2) To break through the dilemmatic energy-performance problem, we propose a balanced detector driven by energy using discovered low-energy components named \textit{FemtoDet}. In addition to the novel construction, we further improve FemtoDet by considering convolutions and training strategy optimizations. Specifically, we develop a new instance boundary enhancement (IBE) module for convolution optimization to overcome the contradiction between the limited capacity of CNNs and detection tasks in diverse spatial representations, and propose a recursive warm-restart (RecWR) for optimizing training strategy to escape the sub-optimization of light-weight detectors, considering the data shift produced in popular augmentations. As a result, FemtoDet with only 68.77k parameters achieves a competitive score of 46.3 AP50 on PASCAL VOC and power of 7.83W on RTX 3090. Extensive experiments on COCO and TJU-DHD datasets indicate that the proposed method achieves competitive results in diverse scenes.
翻訳日:2023-07-17 17:19:13 公開日:2023-07-14
# NV-Center Relaxometry における電荷変換の影響

Impact of Charge Conversion on NV-Center Relaxometry ( http://arxiv.org/abs/2301.01063v3 )

ライセンス: Link先を確認
Isabel Cardoso Barbosa, Jonas Gutsche, Artur Widera(参考訳) ダイヤモンド中の窒素空孔(NV)中心を用いるリラクサメトリーは、近傍の常磁性分子によって引き起こされる色中心の特徴的スピン緩和(T_1$)の減少を検出するために、生物学や物理学において不可欠である。 しかし、このパルスレーザー測定では負電荷のnv中心のみが検出されるが、レーザー励起の必然的な結果は中性電荷のnv状態への変換であり、負電荷のnv中心の$t_1$時間や応答信号を支配することさえある。 本研究では,520,$nmの励起レーザとマイクロ波励起を併用したナノダイアモンド中のNVアンサンブルの緩和測定を行い,両電荷状態の蛍光信号を独立ビームパスで同時に記録する。 レーザーパワー毎の蛍光スペクトルに対する蛍光強度比を関連づけて,$T_1$-time測定における両電荷状態の比をモニタし,励起パワー依存電荷変換を系統的に開示する。 飽和度以下のレーザー強度でも電荷変換は観察され、高い強度では電荷変換はスピン緩和よりも優れている。 これらの結果は、緩和時間前における低励起パワーと蛍光正規化の必要性を浮き彫りにして、T_1$時刻を正確に決定し、センシングダイヤモンドに近い常磁性種を特徴付ける。

Relaxometry schemes employing nitrogen-vacancy (NV) centers in diamonds are essential in biology and physics to detect a reduction of the color centers' characteristic spin relaxation ($T_1$) time caused by, e.g., paramagnetic molecules in proximity. However, while only the negatively-charged NV center is to be probed in these pulsed-laser measurements, an inevitable consequence of the laser excitation is the conversion to the neutrally-charged NV state, interfering with the result for the negatively-charged NV centers' $T_1$ time or even dominating the response signal. In this work, we perform relaxometry measurements on an NV ensemble in nanodiamond combining a $520\,$nm excitation laser and microwave excitation while simultaneously recording the fluorescence signals of both charge states via independent beam paths. Correlating the fluorescence intensity ratios to the fluorescence spectra at each laser power, we monitor the ratios of both charge states during the $T_1$-time measurement and systematically disclose the excitation-power-dependent charge conversion. Even at laser intensities below saturation, we observe charge conversion, while at higher intensities, charge conversion outweighs spin relaxation. These results underline the necessity of low excitation power and fluorescence normalization before the relaxation time to accurately determine the $T_1$ time and characterize paramagnetic species close to the sensing diamond.
翻訳日:2023-07-17 17:18:40 公開日:2023-07-14
# 多段テキスト分類におけるコントラスト学習の効果的な展開

An Effective Deployment of Contrastive Learning in Multi-label Text Classification ( http://arxiv.org/abs/2212.00552v3 )

ライセンス: Link先を確認
Nankai Lin, Guanqiu Qin, Jigang Wang, Aimin Yang, Dong Zhou(参考訳) 自然言語処理タスクにおけるコントラスト学習技術の有効性はまだ探究・分析されていない。 正と負のサンプルを正しくかつ合理的に構築する方法は、コントラスト学習の核となる課題である。 複数ラベルのテキスト分類タスクで対照的なオブジェクトを見つけるのはさらに難しい。 以前提案された対照的な損失はほとんどない。 本稿では,複数ラベルのテキスト分類タスクに対して,新しいコントラスト損失を5つ提案することにより,問題を異なる角度から検討する。 これらは、SCL(Strict Contrastive Loss)、ICL(Intra-label Contrastive Loss)、JSCL(Jaccard similarity Contrastive Loss)、JSPCL(Jaccard similarity Probability Contrastive Loss)、SLCL(Stepwise Label Contrastive Loss)である。 本稿では,これら新たな損失の雇用によるマルチラベルテキスト分類タスクにおけるコントラスト学習の有効性について検討し,コントラスト学習手法を特定のタスクに展開するためのベースラインモデルを提案する。 さらに,このアプローチの解釈可能な分析を行い,コントラスト学習損失の異なる要素がどのように役割を担っているかを示す。 実験結果から,提案したコントラスト損失は,複数ラベルテキスト分類タスクの改善につながることが示された。 また,マルチラベルテキスト分類タスクにコントラスト学習をどのように適用すべきかについても検討した。

The effectiveness of contrastive learning technology in natural language processing tasks is yet to be explored and analyzed. How to construct positive and negative samples correctly and reasonably is the core challenge of contrastive learning. It is even harder to discover contrastive objects in multi-label text classification tasks. There are very few contrastive losses proposed previously. In this paper, we investigate the problem from a different angle by proposing five novel contrastive losses for multi-label text classification tasks. These are Strict Contrastive Loss (SCL), Intra-label Contrastive Loss (ICL), Jaccard Similarity Contrastive Loss (JSCL), Jaccard Similarity Probability Contrastive Loss (JSPCL), and Stepwise Label Contrastive Loss (SLCL). We explore the effectiveness of contrastive learning for multi-label text classification tasks by the employment of these novel losses and provide a set of baseline models for deploying contrastive learning techniques on specific tasks. We further perform an interpretable analysis of our approach to show how different components of contrastive learning losses play their roles. The experimental results show that our proposed contrastive losses can bring improvement to multi-label text classification tasks. Our work also explores how contrastive learning should be adapted for multi-label text classification tasks.
翻訳日:2023-07-17 17:17:54 公開日:2023-07-14
# 協調型多エージェント強化学習のための条件付き最適探索

Conditionally Optimistic Exploration for Cooperative Deep Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2303.09032v2 )

ライセンス: Link先を確認
Xutong Zhao, Yangchen Pan, Chenjun Xiao, Sarath Chandar, Janarthanan Rajendran(参考訳) MARL(Multi-Agent Reinforcement Learning)では,効率的な探索が重要である。 本研究では,逐次行動計算方式の考え方に基づく協調探索を効果的に促進する探索手法を提案する。 高いレベルの直感は、オプティミズムに基づく探索を実行するために、各エージェントのオプティミズム推定が他のエージェントとの構造化された依存関係関係を捉えている場合、エージェントは協調戦略を探求する、ということである。 エージェントをtextit{each environment timestep} で逐次順序で処理すると仮定すると、MARL を木探索の繰り返しと見なすことができ、エージェントを探索木の異なる深さのノードとして考えることができる。 理論的に正当化された木探索アルゴリズムUTT (Upper Confidence bounds applied to Trees) に着想を得て, 条件最適化探索法(COE)を開発した。 COEは、前のエージェントのグローバル状態の訪問数と共同行動から導かれる行動条件付き楽観的なボーナスで、各エージェントの状態-行動値の推定を増大させる。 coeはトレーニング中に実行され、デプロイ時に無効にされ、分散実行を伴う集中型トレーニングの任意の値分解方法と互換性がある。 様々な共同MARLベンチマークによる実験により、COEはハード探索タスクにおける現在の最先端探査手法よりも優れていることが示された。

Efficient exploration is critical in cooperative deep Multi-Agent Reinforcement Learning (MARL). In this work, we propose an exploration method that effectively encourages cooperative exploration based on the idea of sequential action-computation scheme. The high-level intuition is that to perform optimism-based exploration, agents would explore cooperative strategies if each agent's optimism estimate captures a structured dependency relationship with other agents. Assuming agents compute actions following a sequential order at \textit{each environment timestep}, we provide a perspective to view MARL as tree search iterations by considering agents as nodes at different depths of the search tree. Inspired by the theoretically justified tree search algorithm UCT (Upper Confidence bounds applied to Trees), we develop a method called Conditionally Optimistic Exploration (COE). COE augments each agent's state-action value estimate with an action-conditioned optimistic bonus derived from the visitation count of the global state and joint actions of preceding agents. COE is performed during training and disabled at deployment, making it compatible with any value decomposition method for centralized training with decentralized execution. Experiments across various cooperative MARL benchmarks show that COE outperforms current state-of-the-art exploration methods on hard-exploration tasks.
翻訳日:2023-07-17 17:11:50 公開日:2023-07-14
# 条件付きカテゴリー拡散モデルによる確率的セグメンテーション

Stochastic Segmentation with Conditional Categorical Diffusion Models ( http://arxiv.org/abs/2303.08888v4 )

ライセンス: Link先を確認
Lukas Zbinden, Lars Doorenbos, Theodoros Pissas, Adrian Thomas Huber, Raphael Sznitman, Pablo M\'arquez-Neila(参考訳) 深層ニューラルネットワークのおかげで、セマンティックセグメンテーションは近年大きく進歩しているが、画像の内容と正確に一致する単一のセグメンテーション出力を生成するという共通の目的は、医療診断や自律運転のような安全クリティカルな領域には適さないかもしれない。 代わりに、アノテーションマップの真の分布を反映するために、複数の可能な正しいセグメンテーション写像が必要である。 この文脈では、確率的セマンティックセグメンテーション法は、画像が与えられたラベルの条件分布を予測することを学ばなければならないが、これは典型的なマルチモーダル分布、高次元出力空間、限られたアノテーションデータのために難しい。 これらの課題に対処するため,Denoising Diffusion Probabilistic Models に基づくセグメンテーションのための条件カテゴリー拡散モデル (CCDM) を提案する。 本モデルは入力画像に対して条件付けされ,異なる基底的真理のアノテーションから生じるアレエータ的不確実性を考慮した複数のセグメンテーションラベルマップを生成することができる。 実験の結果,ccdmは統計的意味セグメンテーションデータセットであるlidcで最先端のパフォーマンスを達成し,従来のセグメンテーションデータセットでは確立されたベースラインを上回った。

Semantic segmentation has made significant progress in recent years thanks to deep neural networks, but the common objective of generating a single segmentation output that accurately matches the image's content may not be suitable for safety-critical domains such as medical diagnostics and autonomous driving. Instead, multiple possible correct segmentation maps may be required to reflect the true distribution of annotation maps. In this context, stochastic semantic segmentation methods must learn to predict conditional distributions of labels given the image, but this is challenging due to the typically multimodal distributions, high-dimensional output spaces, and limited annotation data. To address these challenges, we propose a conditional categorical diffusion model (CCDM) for semantic segmentation based on Denoising Diffusion Probabilistic Models. Our model is conditioned to the input image, enabling it to generate multiple segmentation label maps that account for the aleatoric uncertainty arising from divergent ground truth annotations. Our experimental results show that CCDM achieves state-of-the-art performance on LIDC, a stochastic semantic segmentation dataset, and outperforms established baselines on the classical segmentation dataset Cityscapes.
翻訳日:2023-07-17 17:11:24 公開日:2023-07-14
# 偏光伝達の統一化に向けて --パルスDNPと化学的に等価なPHIP

Towards a unified picture of polarization transfer -- pulsed DNP and chemically equivalent PHIP ( http://arxiv.org/abs/2303.07478v2 )

ライセンス: Link先を確認
Martin C. Korzeczek, Laurynas Dagys, Christoph M\"uller, Benedikt Tratzmiller, Alon Salhov, Tim Eichhorn, Jochen Scheuer, Stephan Knecht, Martin B. Plenio, Ilai Schwartz(参考訳) dnp(dynamic nuclear polarization)やphip(parahydrogen-induced polarization)といった核スピンハイパーポーライゼーション技術は、核磁気共鳴や磁気共鳴イメージングに革命をもたらした。 これらの方法では、高スピン秩序のソース(DNPの電子スピンまたはPHIPの水素中の一重項状態)が核スピンターゲットと近接し、外部量子制御下でのスピン秩序の効率的な移動を可能にする。 DNPの電子スピンとPHIPの核一重項状態の間の相互作用機構とエネルギースケールの相違にもかかわらず、擬似スピン形式は興味深い等価性を確立することができる。 その結果、PHIPの重要な低磁場偏光伝達系をパルスDNPと同等の類似系にマッピングすることができる。 これにより、phip と dnp におけるキー偏極転送シーケンス間の対応が確立され、シーケンス展開の概念の伝達が容易になる。 これにより、新たな洞察と、DNPとPHIP分極シークエンス開発者間の重要な相互補間が実現される。

Nuclear spin hyperpolarization techniques, such as dynamic nuclear polarization (DNP) and parahydrogen-induced polarization (PHIP), have revolutionized nuclear magnetic resonance and magnetic resonance imaging. In these methods, a readily available source of high spin order, either electron spins in DNP or singlet states in hydrogen for PHIP, is brought into close proximity with nuclear spin targets, enabling efficient transfer of spin order under external quantum control. Despite vast disparities in energy scales and interaction mechanisms between electron spins in DNP and nuclear singlet states in PHIP, a pseudo-spin formalism allows us to establish an intriguing equivalence. As a result, the important low-field polarization transfer regime of PHIP can be mapped onto an analogous system equivalent to pulsed-DNP. This establishes a correspondence between key polarization transfer sequences in PHIP and DNP, facilitating the transfer of sequence development concepts. This promises fresh insights and significant cross-pollination between DNP and PHIP polarization sequence developers.
翻訳日:2023-07-17 17:10:54 公開日:2023-07-14
# icl-d3ie: ドキュメント情報抽出のためのさまざまなデモによるインコンテキスト学習

ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction ( http://arxiv.org/abs/2303.05063v3 )

ライセンス: Link先を確認
Jiabang He, Lei Wang, Yi Hu, Ning Liu, Hui Liu, Xing Xu, and Heng Tao Shen(参考訳) GPT-3 や ChatGPT のような大規模言語モデル (LLM) は、いくつかの実例に基づく推論を含む、文脈内学習を伴う様々な自然言語処理 (NLP) タスクにおいて顕著な結果を示している。 NLPタスクの成功にもかかわらず、LLMが文脈内学習を用いて文書情報抽出(DIE)を行う能力を評価するための調査は行われていない。 LLMをDIEに適用することは、モダリティとタスクギャップという2つの課題をもたらす。 そこで本研究では,様々な種類の実演例を用いてllmによるダイ実行を可能にするicl-d3ieという,シンプルかつ効果的なインコンテキスト学習フレームワークを提案する。 具体的には、すべてのテストインスタンスのメリットを享受するためのハードトレーニングドキュメントから、最も困難で明確なセグメントを抽出する。 我々は、LLMが位置関係を理解することができる関係を記述するデモンストレーションを設計する。 簡単な解答抽出のためのフォーマッティングデモを導入する。 さらに、フレームワークは繰り返し更新することで様々なデモを改善している。 In-distribution (ID) 設定とout-of-distribution (OOD) 設定の両方でフルトレーニングを施した従来の事前学習手法と比較して, ICL-D3IE フレームワークは優れた性能が得られることを示す。

Large language models (LLMs), such as GPT-3 and ChatGPT, have demonstrated remarkable results in various natural language processing (NLP) tasks with in-context learning, which involves inference based on a few demonstration examples. Despite their successes in NLP tasks, no investigation has been conducted to assess the ability of LLMs to perform document information extraction (DIE) using in-context learning. Applying LLMs to DIE poses two challenges: the modality and task gap. To this end, we propose a simple but effective in-context learning framework called ICL-D3IE, which enables LLMs to perform DIE with different types of demonstration examples. Specifically, we extract the most difficult and distinct segments from hard training documents as hard demonstrations for benefiting all test instances. We design demonstrations describing relationships that enable LLMs to understand positional relationships. We introduce formatting demonstrations for easy answer extraction. Additionally, the framework improves diverse demonstrations by updating them iteratively. Our experiments on three widely used benchmark datasets demonstrate that the ICL-D3IE framework enables GPT-3/ChatGPT to achieve superior performance when compared to previous pre-trained methods fine-tuned with full training in both the in-distribution (ID) setting and in the out-of-distribution (OOD) setting.
翻訳日:2023-07-17 17:10:16 公開日:2023-07-14
# 多モード共振器を用いた深い結合回路QEDシステムにおける極大ラムシフト

Extremely large Lamb shift in a deep-strongly coupled circuit QED system with a multimode resonator ( http://arxiv.org/abs/2303.04114v2 )

ライセンス: Link先を確認
Ziqiao Ao, Sahel Ashhab, Fumiki Yoshihara, Tomoko Fuse, Kosuke Kakuyanagi, Shiro Saito, Takao Aoki, and Kouichi Semba(参考訳) 本稿では, 量子共振器結合強度が量子ビットおよび共振器周波数に匹敵する, 深部結合(DSC)系における多モード回路量子電磁力学(QED)系のラムシフトに関する実験および理論的結果について報告する。 本システムは、超伝導束量子ビット(FQ)と、Josephson接合を含む共有エッジを介して誘導的に結合されてDSC体制を実現する4分の1波長コプラナー導波管共振器(\lambda/4$ CPWR)を備える。 分光はCPWRの基本モードの周波数の周囲で行われ、スペクトルは単一モードの量子ラビハミルトニアンによって調整され、系パラメータを得る。 量子ビットは共振器内の多くの高次モードと結合されているため、単一モードのフィッティングは素の量子ビットエネルギーを供給せず、他の全てのモードからの正規化を組み込んだ値となる。 マルチモード共振器系におけるラムシフトの理論式を導出する。 以前の研究で示されているように、cpwrのfqとモードのカップリングには、カットオフ周波数$\omega_{\rm{cutoff}}$があり、結合は$\sqrt{\omega_n}$で$\omega_n/\omega_{\rm{cutoff}}\ll 1$となり、1/\sqrt{\omega_n}$で$\omega_n/\omega_{\rm{cutoff}}\gg 1$となる。 ここで$\omega_n$は$n$thモードの周波数です。 遮断効果は、量子ビットが共振器内の電流の障害となり、量子ビットの位置において$\omega_{\rm{cutoff}}$以上のモードの電流が抑制され、結合強度が低下するため起こる。 観測されたスペクトルと理論式を用いて,基本モードからのラムシフトは82.3\%,全モードからのラムシフトは96.5\%と推定した。

We report experimental and theoretical results on the extremely large Lamb shift in a multimode circuit quantum electrodynamics (QED) system in the deep-strong coupling (DSC) regime, where the qubit-resonator coupling strength is comparable to or larger than the qubit and resonator frequencies. The system comprises a superconducting flux qubit (FQ) and a quarter-wavelength coplanar waveguide resonator ($\lambda/4$ CPWR) that are coupled inductively through a shared edge that contains a Josephson junction to achieve the DSC regime. Spectroscopy is performed around the frequency of the fundamental mode of the CPWR, and the spectrum is fitted by the single-mode quantum Rabi Hamiltonian to obtain the system parameters. Since the qubit is also coupled to a large number of higher modes in the resonator, the single-mode fitting does not provide the bare qubit energy but a value that incorporates the renormalization from all the other modes. We derive theoretical formulas for the Lamb shift in the multimode resonator system. As shown in previous studies, there is a cut-off frequency $\omega_{\rm{cutoff}}$ for the coupling between the FQ and the modes in the CPWR, where the coupling grows as $\sqrt{\omega_n}$ for $\omega_n/\omega_{\rm{cutoff}}\ll 1$ and decreases as $1/\sqrt{\omega_n}$ for $\omega_n/\omega_{\rm{cutoff}}\gg 1$. Here $\omega_n$ is the frequency of the $n$th mode. The cut-off effect occurs because the qubit acts as an obstacle for the current in the resonator, which suppresses the current of the modes above $\omega_{\rm{cutoff}}$ at the location of the qubit and results in a reduced coupling strength. Using our observed spectrum and theoretical formulas, we estimate that the Lamb shift from the fundamental mode is 82.3\% and the total Lamb shift from all the modes is 96.5\%.
翻訳日:2023-07-17 17:09:53 公開日:2023-07-14
# 3次元点雲における開ボキャブラリーアフォーアンス検出

Open-Vocabulary Affordance Detection in 3D Point Clouds ( http://arxiv.org/abs/2303.02401v3 )

ライセンス: Link先を確認
Toan Nguyen, Minh Nhat Vu, An Vuong, Dzung Nguyen, Thieu Vo, Ngan Le, Anh Nguyen(参考訳) 加速度検出は様々なロボット応用において難しい問題である。 従来のアフォーアンス検出手法は、予め定義されたアフォーアンスラベルに制限されており、複雑な動的環境でのインテリジェントロボットの適応性を制限する可能性がある。 そこで,本稿では,3次元点雲内の無拘束数を検出できるopen-vocabulary affordance detection (openad)法を提案する。 OpenADは、手当テキストとポイント特徴を同時に学習することで、手当間の意味的関係をうまく活用する。 したがって,提案手法はゼロショット検出が可能であり,単一アノテーションの例を使わずに,事前の認識不能を検出できる。 集中的な実験結果から,OpenADは幅広いアベイランス検出装置で効果的に機能し,他のベースラインよりも大きなマージンで優れていた。 さらに,高速な推論速度(約100ms)を持つ実世界のロボットアプリケーションにおいて,提案するOpenADの実用性を示す。 私たちのプロジェクトはhttps://openad2023.github.ioで利用可能です。

Affordance detection is a challenging problem with a wide variety of robotic applications. Traditional affordance detection methods are limited to a predefined set of affordance labels, hence potentially restricting the adaptability of intelligent robots in complex and dynamic environments. In this paper, we present the Open-Vocabulary Affordance Detection (OpenAD) method, which is capable of detecting an unbounded number of affordances in 3D point clouds. By simultaneously learning the affordance text and the point feature, OpenAD successfully exploits the semantic relationships between affordances. Therefore, our proposed method enables zero-shot detection and can be able to detect previously unseen affordances without a single annotation example. Intensive experimental results show that OpenAD works effectively on a wide range of affordance detection setups and outperforms other baselines by a large margin. Additionally, we demonstrate the practicality of the proposed OpenAD in real-world robotic applications with a fast inference speed (~100ms). Our project is available at https://openad2023.github.io.
翻訳日:2023-07-17 17:09:12 公開日:2023-07-14
# 小児虫垂炎に対するインタープリタブル・インターベンタブル超音波ベース機械学習モデル

Interpretable and Intervenable Ultrasonography-based Machine Learning Models for Pediatric Appendicitis ( http://arxiv.org/abs/2302.14460v2 )

ライセンス: Link先を確認
Ri\v{c}ards Marcinkevi\v{c}s, Patricia Reis Wolfertstetter, Ugne Klimiene, Kieran Chin-Cheong, Alyssia Paschke, Julia Zerres, Markus Denzinger, David Niederberger, Sven Wellmann, Ece Ozkan, Christian Knorr, Julia E. Vogt(参考訳) 虫垂炎は小児腹部手術の最も多い原因の一つである。 機械学習の最近の進歩により、データ駆動意思決定サポートは、患者を診断し管理し、非クリティカルな手術の数を減らすのに役立つ。 虫垂炎の診断支援システムは, 腹部超音波を主に無視し, 臨床, 検査, 採点, およびCTデータに重点を置いていた。 そこで我々は,超音波画像を用いた虫垂炎の診断,管理,重症度を予測するための解釈可能な機械学習モデルを開発した。 対象は小児579例, 超音波画像1709例, 臨床・臨床データ, 検査データであった。 我々の方法論的貢献は,複数の視点と不完全概念集合を用いた予測問題に対する概念ボトルネックモデルの一般化である。 特に、そのようなモデルは、パフォーマンスを犠牲にしたり、デプロイ時に時間を要する画像アノテーションを必要とせずに、臨床医に理解可能な高レベルな概念による解釈と相互作用に役立ちます。

Appendicitis is among the most frequent reasons for pediatric abdominal surgeries. With recent advances in machine learning, data-driven decision support could help clinicians diagnose and manage patients while reducing the number of non-critical surgeries. Previous decision support systems for appendicitis focused on clinical, laboratory, scoring and computed tomography data, mainly ignoring abdominal ultrasound, a noninvasive and readily available diagnostic modality. To this end, we developed and validated interpretable machine learning models for predicting the diagnosis, management and severity of suspected appendicitis using ultrasound images. Our models were trained on a dataset comprising 579 pediatric patients with 1709 ultrasound images accompanied by clinical and laboratory data. Our methodological contribution is the generalization of concept bottleneck models to prediction problems with multiple views and incomplete concept sets. Notably, such models lend themselves to interpretation and interaction via high-level concepts understandable to clinicians without sacrificing performance or requiring time-consuming image annotation when deployed.
翻訳日:2023-07-17 17:08:54 公開日:2023-07-14
# 未取得オンライン試験における結束検出のためのデータマイニング手法

A Data Mining Approach for Detecting Collusion in Unproctored Online Exams ( http://arxiv.org/abs/2302.07014v3 )

ライセンス: Link先を確認
Janine Langerbein, Till Massing, Jens Klenke, Natalie Reckmann, Michael Striewe, Michael Goedicke, and Christoph Hanck(参考訳) 新型コロナウイルスのパンデミックで予防措置が講じられたため、多くの大学が未熟な在宅試験を提供した。 パンデミック時の家庭内受験のイベントログデータに対して,学生間の潜在的な結束を検知し,そのアプローチを適用する手法を提案する。 疑わしいほどよく似た試験を受けた学生のグループを見つけます。 また,本研究の結果をプロクター制御群と比較した。 これにより、どのケースが「明らかに類似している」か、すなわち疑わしいケースを評価するための親指の規則を確立する。

Due to the precautionary measures during the COVID-19 pandemic many universities offered unproctored take-home exams. We propose methods to detect potential collusion between students and apply our approach on event log data from take-home exams during the pandemic. We find groups of students with suspiciously similar exams. In addition, we compare our findings to a proctored control group. By this, we establish a rule of thumb for evaluating which cases are "outstandingly similar", i.e., suspicious cases.
翻訳日:2023-07-17 17:08:37 公開日:2023-07-14
# データ中心機械学習のための再ラベル法

The Re-Label Method For Data-Centric Machine Learning ( http://arxiv.org/abs/2302.04391v4 )

ライセンス: Link先を確認
Tong Guo(参考訳) 業界深層学習アプリケーションでは、手作業でラベル付けしたデータは、一定の数のノイズデータを持っています。 この問題を解決し、開発データセットで90以上のスコアを達成するために、人間のラベル付けにおける参照としてモデル予測を考慮し、ノイズデータを見つけ、ノイズデータを再ラベルする簡単な方法を提案する。 本稿では,分類,シーケンスタグ付け,オブジェクト検出,シーケンス生成,クリックスルー率予測など,幅広いディープラーニングタスクのセットについて述べる。 実験結果と人体評価結果は,我々の考えを検証する。

In industry deep learning application, our manually labeled data has a certain number of noisy data. To solve this problem and achieve more than 90 score in dev dataset, we present a simple method to find the noisy data and re-label the noisy data by human, given the model predictions as references in human labeling. In this paper, we illustrate our idea for a broad set of deep learning tasks, includes classification, sequence tagging, object detection, sequence generation, click-through rate prediction. The experimental results and human evaluation results verify our idea.
翻訳日:2023-07-17 17:08:29 公開日:2023-07-14
# 無質量ディラックフェルミオンの有限温度負性ハミルトニアン

Finite temperature negativity Hamiltonians of the massless Dirac fermion ( http://arxiv.org/abs/2304.09906v2 )

ライセンス: Link先を確認
Federico Rottoli, Sara Murciano and Pasquale Calabrese(参考訳) 部分的に転置された密度行列の対数として定義される負性ハミルトニアンは、混合状態の絡み合いの演算的特徴付けを提供する。 しかし、これまでのところ、グローバル純粋状態のサブシステムに対応する混合状態密度行列についてのみ研究されている。 ここでは、有限温度と大きさの系における1次元質量を持たないディラックフェルミオンの混合状態の真の例と考える。 サブシステムとして、任意の連続した間隔の集合を考える。 対応するネガティビティ・ハミルトニアンの構造は同じ幾何学における絡み合いハミルトニアンの構造に似ている: 応力-エネルギーテンソルに比例する局所項に加えて、各点は他の点の無限だが離散的な集合に非局所結合である。 しかし、転置区間と非転置区間の長さが一致すると、構造が著しく単純化され、基底状態陰性ハミルトニアンの軽度非局所性が得られる。 また、ツイストされた部分転位に付随する負性ハミルトニアンの正確な式、すなわちエルミートフェルミオン行列も予想する。 自由フェルミオン鎖の正確な数値計算から最終的に局所作用素と双局所作用素の連続限界を得る。

The negativity Hamiltonian, defined as the logarithm of a partially transposed density matrix, provides an operatorial characterisation of mixed-state entanglement. However, so far, it has only been studied for the mixed-state density matrices corresponding to subsystems of globally pure states. Here, we consider as a genuine example of a mixed state the one-dimensional massless Dirac fermions in a system at finite temperature and size. As subsystems, we consider an arbitrary set of disjoint intervals. The structure of the corresponding negativity Hamiltonian resembles the one for the entanglement Hamiltonian in the same geometry: in addition to a local term proportional to the stress-energy tensor, each point is non-locally coupled to an infinite but discrete set of other points. However, when the lengths of the transposed and non-transposed intervals coincide, the structure remarkably simplifies and we retrieve the mild non-locality of the ground state negativity Hamiltonian. We also conjecture an exact expression for the negativity Hamiltonian associated to the twisted partial transpose, which is a Hermitian fermionic matrix. We finally obtain the continuum limit of both the local and bi-local operators from exact numerical computations in free-fermionic chains.
翻訳日:2023-07-17 17:00:58 公開日:2023-07-14
# 深い説明可能な関係強化学習:ニューロシンボリックアプローチ

Deep Explainable Relational Reinforcement Learning: A Neuro-Symbolic Approach ( http://arxiv.org/abs/2304.08349v2 )

ライセンス: Link先を確認
Rishi Hazra and Luc De Raedt(参考訳) 深層強化学習(DRL)の成功にもかかわらず、学習方針は解釈できない。 さらに、drlはシンボリックリレーショナル表現を利用していないため、その環境の構造の変化(オブジェクト数の増加など)に対処するのが困難である。 一方、リレーショナル強化学習は、再利用可能な政策を学ぶためのシンボリックプランニングからリレーショナル表現を継承する。 しかし、これまでのところ、ディープニューラルネットワークのパワーをスケールアップして活用することはできない。 本稿では,ニューラル世界とシンボリック世界の両方を最大限に活用するフレームワークであるDeep Explainable Relational Reinforcement Learning (DERRL)を提案する。 ニューロシンボリックアプローチを利用することで、DERRLはリレーショナル表現とシンボリックプランニングからの制約を深層学習と組み合わせ、解釈可能なポリシーを抽出する。 これらのポリシーは、各決定(または行動)がどのように到達されるかを説明する論理規則の形式である。 いくつかの実験を通じて、Countdown Game、Blocks World、Gridworld、Trafficといった設定において、DERRLが学んだポリシーが異なる構成や状況に適用できることを示し、それによって環境修正が一般化される。

Despite numerous successes in Deep Reinforcement Learning (DRL), the learned policies are not interpretable. Moreover, since DRL does not exploit symbolic relational representations, it has difficulties in coping with structural changes in its environment (such as increasing the number of objects). Relational Reinforcement Learning, on the other hand, inherits the relational representations from symbolic planning to learn reusable policies. However, it has so far been unable to scale up and exploit the power of deep neural networks. We propose Deep Explainable Relational Reinforcement Learning (DERRL), a framework that exploits the best of both -- neural and symbolic worlds. By resorting to a neuro-symbolic approach, DERRL combines relational representations and constraints from symbolic planning with deep learning to extract interpretable policies. These policies are in the form of logical rules that explain how each decision (or action) is arrived at. Through several experiments, in setups like the Countdown Game, Blocks World, Gridworld, and Traffic, we show that the policies learned by DERRL can be applied to different configurations and contexts, hence generalizing to environmental modifications.
翻訳日:2023-07-17 17:00:05 公開日:2023-07-14
# ハイブリッド畳み込みに基づくデュアルドメインネットワークによるハイパースペクトル画像超解像

Hyperspectral Image Super-Resolution via Dual-domain Network Based on Hybrid Convolution ( http://arxiv.org/abs/2304.04589v9 )

ライセンス: Link先を確認
Tingting Liu, Yuan Liu, Chuncheng Zhang, Yuan Liyin, Xiubao Sui, Qian Chen(参考訳) 入射エネルギーは限られているため,空間分解能の高いハイパースペクトル画像(HSI)を直接取得することは困難である。 HSIの高次元性と相関性を考えると、HSIの超解像(SR)は補助高分解能画像がない場合の課題である。 さらに,空間的特徴を効果的に抽出し,スペクトル情報を十分に活用することが重要である。 本稿では,ハイブリッド畳み込み(srdnet)に基づくデュアルドメインネットワークと呼ばれる,新しいhsiスーパーレゾリューションアルゴリズムを提案する。 具体的には、双対領域ネットワークは、超スペクトルデータの空間スペクトルと周波数情報をフル活用するように設計されている。 スペクトル間自己相似性を捉えるため、空間領域に自己注意学習機構(HSL)を考案する。 一方、ピラミッド構造は注意の受容領域を高めるために適用され、ネットワークの特徴表現能力をさらに強化する。 さらに、HSIの知覚品質をさらに向上するため、周波数領域のモデルを最適化するために周波数損失(HFL)を導入する。 動的重み付け機構は、空間損失に起因する発生周波数と過度な平滑化を徐々に改善するネットワークを駆動する。 最後に, 高分解能空間と低分解能空間のマッピング関係をよりよく把握するために, 漸進的なアップサンプリング戦略を持つ2dおよび3dユニットのハイブリッドモジュールを用いた。 ベンチマークデータセットを用いた実験では,提案手法がhsiのテクスチャ情報を強化し,最先端の手法よりも優れていることを示す。

Since the number of incident energies is limited, it is difficult to directly acquire hyperspectral images (HSI) with high spatial resolution. Considering the high dimensionality and correlation of HSI, super-resolution (SR) of HSI remains a challenge in the absence of auxiliary high-resolution images. Furthermore, it is very important to extract the spatial features effectively and make full use of the spectral information. This paper proposes a novel HSI super-resolution algorithm, termed dual-domain network based on hybrid convolution (SRDNet). Specifically, a dual-domain network is designed to fully exploit the spatial-spectral and frequency information among the hyper-spectral data. To capture inter-spectral self-similarity, a self-attention learning mechanism (HSL) is devised in the spatial domain. Meanwhile the pyramid structure is applied to increase the acceptance field of attention, which further reinforces the feature representation ability of the network. Moreover, to further improve the perceptual quality of HSI, a frequency loss(HFL) is introduced to optimize the model in the frequency domain. The dynamic weighting mechanism drives the network to gradually refine the generated frequency and excessive smoothing caused by spatial loss. Finally, In order to better fully obtain the mapping relationship between high-resolution space and low-resolution space, a hybrid module of 2D and 3D units with progressive upsampling strategy is utilized in our method. Experiments on a widely used benchmark dataset illustrate that the proposed SRDNet method enhances the texture information of HSI and is superior to state-of-the-art methods.
翻訳日:2023-07-17 16:59:41 公開日:2023-07-14
# 貯水池を有する量子ドットにおける量子mpemba効果

Quantum Mpemba effect in a quantum dot with reservoirs ( http://arxiv.org/abs/2304.02411v2 )

ライセンス: Link先を確認
Amit Kumar Chatterjee, Satoshi Takada, Hisao Hayakawa(参考訳) アンダーソンモデルによって記述された2つの貯水池に結合した量子ドットにおける量子Mpemba効果を実証する。 2つの異なる初期値(ホット値とコールド値)から始まり、有限時間に相互に交差し(したがって、そのアイデンティティを逆転させる)、熱量子化mpemba効果を発生させる。 マルコフ系におけるmpemba効果における支配的役割を果たすと考えられる最も遅い緩和モードは、このモデルにおけるそのような異常緩和には寄与しない。 この結果から, 量子ドットの密度行列要素における量子mpemba効果を, 残留緩和モードの組合せ効果として生成するために必要な条件が得られた。

We demonstrate the quantum Mpemba effect in a quantum dot coupled to two reservoirs, described by the Anderson model. We show that the system temperatures starting from two different initial values (hot and cold), cross each other at finite time (and thereby reverse their identities i.e. hot becomes cold and vice versa) to generate thermal quantam Mpemba effect. The slowest relaxation mode believed to play the dominating role in Mpemba effect in Markovian systems, does not contribute to such anomalous relaxation in the present model. In this connection, our analytical result provides necessary condition for producing quantum Mpemba effect in the density matrix elements of the quantum dot, as a combined effect of the remaining relaxation modes.
翻訳日:2023-07-17 16:59:16 公開日:2023-07-14
# adamおよびadamwオプティマイザによる深層ニューラルネットワークの一般化性能に及ぼす損失関数のリプシッツ性の影響

Lipschitzness Effect of a Loss Function on Generalization Performance of Deep Neural Networks Trained by Adam and AdamW Optimizers ( http://arxiv.org/abs/2303.16464v2 )

ライセンス: Link先を確認
Mohammad Lashkari and Amin Gheibi(参考訳) 最適化アルゴリズムに関するディープニューラルネットワークの一般化性能は、機械学習における主要な関心事の一つである。 このパフォーマンスはさまざまな要因に影響を受けます。 本稿では,損失関数のリプシッツ定数がAdamやAdamWによって得られた出力モデルの一般化誤差を減少させる重要な要因であることを理論的に証明する。 この結果は、最適化アルゴリズムがAdamまたはAdamWであるときに損失関数を選択するためのガイドラインとして使用できる。 また,現実的な環境下での理論的境界を評価するために,コンピュータビジョンにおける年齢推定問題を選択する。 一般化をよりよく評価するために、トレーニングとテストデータセットは異なる分布から引き出される。 実験により,リプシッツ定数が低く最大値の損失関数はadamやadamwによって訓練されたモデルの一般化を改善できることを示した。

The generalization performance of deep neural networks with regard to the optimization algorithm is one of the major concerns in machine learning. This performance can be affected by various factors. In this paper, we theoretically prove that the Lipschitz constant of a loss function is an important factor to diminish the generalization error of the output model obtained by Adam or AdamW. The results can be used as a guideline for choosing the loss function when the optimization algorithm is Adam or AdamW. In addition, to evaluate the theoretical bound in a practical setting, we choose the human age estimation problem in computer vision. For assessing the generalization better, the training and test datasets are drawn from different distributions. Our experimental evaluation shows that the loss function with a lower Lipschitz constant and maximum value improves the generalization of the model trained by Adam or AdamW.
翻訳日:2023-07-17 16:59:03 公開日:2023-07-14
# DiffTAD:拡散を考慮した時間的行動検出

DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion ( http://arxiv.org/abs/2303.14863v2 )

ライセンス: Link先を確認
Sauradip Nag, Xiatian Zhu, Jiankang Deng, Yi-Zhe Song and Tao Xiang(参考訳) 本稿では,時間的行動検出(TAD)の新しい定式化について提案する。 入力ランダムな時間的提案として、不適切な長いビデオが与えられた場合に、アクションの提案を精度良く得ることができる。 これは、従来の差別的な学習方法に対する生成的モデリングの視点を示す。 この能力は、まずランダムな提案(フォワード/ノイズ化過程)に地道的提案を拡散し、次にノイズ化過程(すなわち後方/デノイング過程)を逆転させることによって達成される。 具体的には,より高速に収束する時間的位置問合せ設計を導入することで,変圧器デコーダ(例: detr)のデノージングプロセスを確立する。 さらに,推定加速度のためのクロスステップ選択条件付けアルゴリズムを提案する。 ActivityNet と THUMOS の広範囲な評価から,DiffTAD が従来の代替技術と比較して最高のパフォーマンスを達成していることがわかる。 コードはhttps://github.com/sauradip/diffusiontadで入手できる。

We propose a new formulation of temporal action detection (TAD) with denoising diffusion, DiffTAD in short. Taking as input random temporal proposals, it can yield action proposals accurately given an untrimmed long video. This presents a generative modeling perspective, against previous discriminative learning manners. This capability is achieved by first diffusing the ground-truth proposals to random ones (i.e., the forward/noising process) and then learning to reverse the noising process (i.e., the backward/denoising process). Concretely, we establish the denoising process in the Transformer decoder (e.g., DETR) by introducing a temporal location query design with faster convergence in training. We further propose a cross-step selective conditioning algorithm for inference acceleration. Extensive evaluations on ActivityNet and THUMOS show that our DiffTAD achieves top performance compared to previous art alternatives. The code will be made available at https://github.com/sauradip/DiffusionTAD.
翻訳日:2023-07-17 16:58:29 公開日:2023-07-14
# MaxSATによる量子色符号の復号

Decoding quantum color codes with MaxSAT ( http://arxiv.org/abs/2303.14237v2 )

ライセンス: Link先を確認
Lucas Berent, Lukas Burgholzer, Peter-Jan H.S. Derks, Jens Eisert, Robert Wille(参考訳) 古典コンピューティングでは、誤り訂正符号は十分に確立されており、理論と実用の両方においてユビキタスである。 量子コンピューティングにとって、エラー補正は必須であるが、実現が困難であり、リソースのオーバーヘッドがかなり高く、また、現実の古典的コンピューティングの必要性と相容れない。 量子誤り訂正符号は、推定された短期的応用を超えて、フォールトトレラントな量子計算への道に中心的な役割を果たす。 その中でも、色コードは特に重要な量子符号のクラスであり、他の符号よりも有利な性質のために近年関心を集めている。 古典計算と同様に、復号化は、破損した状態から破損しない状態を復元する操作を推論する問題であり、フォールトトレラント量子デバイスの開発の中心である。 本稿では,カラーコードの復号化問題を,よく知られたLightsOutパズルのわずかなバリエーションに還元する方法について述べる。 量子カラーコードのための新しいデコーダを提案し,その類似性に基づいて定式化をマックスSAT問題として用いた。 さらに、MaxSATの構成を最適化し、提案した復号器の復号性能がカラーコード上で最先端の復号性能を実現することを示す。 デコーダの実装と、数値実験を自動的に実行するツールは、GitHubのMunge Quantum Toolkit(MQT)の一部として公開されている。

In classical computing, error-correcting codes are well established and are ubiquitous both in theory and practical applications. For quantum computing, error-correction is essential as well, but harder to realize, coming along with substantial resource overheads and being concomitant with needs for substantial classical computing. Quantum error-correcting codes play a central role on the avenue towards fault-tolerant quantum computation beyond presumed near-term applications. Among those, color codes constitute a particularly important class of quantum codes that have gained interest in recent years due to favourable properties over other codes. As in classical computing, decoding is the problem of inferring an operation to restore an uncorrupted state from a corrupted one and is central in the development of fault-tolerant quantum devices. In this work, we show how the decoding problem for color codes can be reduced to a slight variation of the well-known LightsOut puzzle. We propose a novel decoder for quantum color codes using a formulation as a MaxSAT problem based on this analogy. Furthermore, we optimize the MaxSAT construction and show numerically that the decoding performance of the proposed decoder achieves state-of-the-art decoding performance on color codes. The implementation of the decoder as well as tools to automatically conduct numerical experiments are publicly available as part of the Munich Quantum Toolkit (MQT) on GitHub.
翻訳日:2023-07-17 16:58:09 公開日:2023-07-14
# すべてを支配する1つのプロトコル? 相互運用可能なメッセージングのセキュリティについて

One Protocol to Rule Them All? On Securing Interoperable Messaging ( http://arxiv.org/abs/2303.14178v2 )

ライセンス: Link先を確認
Jenny Blessing and Ross Anderson(参考訳) 欧州の議員は、異なるプラットフォーム上のユーザーが互いにメッセージを交換できるべきだと裁定した。 しかし、メッセージングの相互運用性は、Pandoraのセキュリティとプライバシの課題の箱を開く。 反トラスト対策としてだけでなく、エンドユーザにより良いエクスペリエンスを提供する手段としても支持されているが、相互運用性は、貧弱な実行時にユーザエクスペリエンスを悪化させるリスクを負う。 実際のメッセージ交換を有効にする方法と、あるサービスプロバイダから別のサービスプロバイダに渡される暗号化メッセージから生じる多数の残余の課題にどのように対処するか – コンテンツモデレーション、ユーザ認証、キー管理、プロバイダ間のメタデータ共有など – という2つの基本的な疑問がある。 本研究では、エンドツーエンドの暗号化メッセージにおける相互運用可能な通信に関する特定のオープンな質問と課題を特定し、これらの課題に取り組むためのハイレベルな提案を示す。

European lawmakers have ruled that users on different platforms should be able to exchange messages with each other. Yet messaging interoperability opens up a Pandora's box of security and privacy challenges. While championed not just as an anti-trust measure but as a means of providing a better experience for the end user, interoperability runs the risk of making the user experience worse if poorly executed. There are two fundamental questions: how to enable the actual message exchange, and how to handle the numerous residual challenges arising from encrypted messages passing from one service provider to another -- including but certainly not limited to content moderation, user authentication, key management, and metadata sharing between providers. In this work, we identify specific open questions and challenges around interoperable communication in end-to-end encrypted messaging, and present high-level suggestions for tackling these challenges.
翻訳日:2023-07-17 16:57:50 公開日:2023-07-14
# UNITE: テキストからSQL評価のための統一ベンチマーク

UNITE: A Unified Benchmark for Text-to-SQL Evaluation ( http://arxiv.org/abs/2305.16265v3 )

ライセンス: Link先を確認
Wuwei Lan, Zhiguo Wang, Anuj Chauhan, Henghui Zhu, Alexander Li, Jiang Guo, Sheng Zhang, Chung-Wei Hang, Joseph Lilien, Yiqun Hu, Lin Pan, Mingwen Dong, Jun Wang, Jiarong Jiang, Stephen Ash, Vittorio Castelli, Patrick Ng and Bing Xiang(参考訳) 実用的なテキスト-SQLシステムは、さまざまな自然言語の質問、見えないデータベーススキーマ、新しいSQLクエリ構造をうまく一般化する必要がある。 テキストからSQLまでを総合的に評価するために,UNIfied benchmark for Text-to-SQL Evaluation (UNITE)を導入する。 12ドメイン以上の自然言語質問、3.9Kパターン以上のSQLクエリ、29Kデータベースを含む、公開されているテキストからSQLまでのデータセットで構成されている。 広く使われているSpiderベンチマークと比較して、$\sim$120Kの追加例と、比較やブール問題などのSQLパターンの3倍の増加を紹介します。 我々は、新しいベンチマークで6つの最先端(SOTA)テキスト-SQLパーサの体系的研究を行い、そのことを示す。 1) Codexはドメイン外のデータセットで驚くほどよく機能します。 2) 特別に設計された復号法(例えば制約ビーム探索)は、ドメイン内設定と外部設定の両方のパフォーマンスを向上させることができる。 3) 質問とスキーマの関係を明示的にモデル化することで、Seq2Seqモデルをさらに改善する。 さらに重要なことは、我々のベンチマークは構成の一般化とロバストネスの問題に対する重要な課題を示しており、これらSOTAモデルはうまく対応できない。 私たちのコードとデータ処理スクリプトはhttps://github.com/awslabs/unified-text2sql-benchmarkで利用可能です。

A practical text-to-SQL system should generalize well on a wide variety of natural language questions, unseen database schemas, and novel SQL query structures. To comprehensively evaluate text-to-SQL systems, we introduce a UNIfied benchmark for Text-to-SQL Evaluation (UNITE). It is composed of publicly available text-to-SQL datasets, containing natural language questions from more than 12 domains, SQL queries from more than 3.9K patterns, and 29K databases. Compared to the widely used Spider benchmark, we introduce $\sim$120K additional examples and a threefold increase in SQL patterns, such as comparative and boolean questions. We conduct a systematic study of six state-of-the-art (SOTA) text-to-SQL parsers on our new benchmark and show that: 1) Codex performs surprisingly well on out-of-domain datasets; 2) specially designed decoding methods (e.g. constrained beam search) can improve performance for both in-domain and out-of-domain settings; 3) explicitly modeling the relationship between questions and schemas further improves the Seq2Seq models. More importantly, our benchmark presents key challenges towards compositional generalization and robustness issues -- which these SOTA models cannot address well. Our code and data processing script are available at https://github.com/awslabs/unified-text2sql-benchmark
翻訳日:2023-07-17 16:53:07 公開日:2023-07-14
# ゼロショット低線量ct画像の拡散確率的事前推定

Diffusion Probabilistic Priors for Zero-Shot Low-Dose CT Image Denoising ( http://arxiv.org/abs/2305.15887v2 )

ライセンス: Link先を確認
Xuan Liu, Yaoqin Xie, Jun Cheng, Songhui Diao, Shan Tan, Xiaokun Liang(参考訳) 低線量CT画像のデノイングは医用画像処理において重要な課題である。 近年,深層学習を基盤としたアプローチは,この領域で大きな進歩を遂げている。 しかし、これらの方法は、通常、トレーニングのために低用量と正常用量のCT画像のペアを必要とする。 既存の教師なしのディープラーニングベースの手法では、大量の低用量CT画像によるトレーニングや、訓練データを得るために特別に設計されたデータ取得プロセスに依存することが多い。 これらの制約に対処するために、トレーニング中に正常なCT画像のみを利用する新しい教師なし手法を提案し、低用量CT画像のゼロショット復調を可能にする。 本手法は, 拡散モデル, 強力な生成モデルを利用する。 我々は,低解像度から高解像度まで高画質の正常線量CT画像を生成することができるカスケード非条件拡散モデルの訓練から始める。 カスケードアーキテクチャは、高分解能拡散モデルのトレーニングをより実現可能にする。 その後,拡散モデルの逆過程に低線量CT画像を導入し,拡散モデルが提供する先行値と組み合わせて,複数の最大アポジトリ(MAP)問題を反復的に解き,復調を実現する。 さらに、MAP推定における確率と事前のバランスの係数を適応的に調整し、低線量CT画像の異なるノイズレベルへの適応を可能にする手法を提案する。 異なる領域の低用量CTデータセットに対して,線量レベルの異なる試験を行った。 その結果,本手法は最先端の教師なし手法を上回り,複数の教師付き深層学習法を上回った。 コードはhttps://github.com/DeepXuan/Dn-Dp.comで入手できる。

Denoising low-dose computed tomography (CT) images is a critical task in medical image computing. Supervised deep learning-based approaches have made significant advancements in this area in recent years. However, these methods typically require pairs of low-dose and normal-dose CT images for training, which are challenging to obtain in clinical settings. Existing unsupervised deep learning-based methods often require training with a large number of low-dose CT images or rely on specially designed data acquisition processes to obtain training data. To address these limitations, we propose a novel unsupervised method that only utilizes normal-dose CT images during training, enabling zero-shot denoising of low-dose CT images. Our method leverages the diffusion model, a powerful generative model. We begin by training a cascaded unconditional diffusion model capable of generating high-quality normal-dose CT images from low-resolution to high-resolution. The cascaded architecture makes the training of high-resolution diffusion models more feasible. Subsequently, we introduce low-dose CT images into the reverse process of the diffusion model as likelihood, combined with the priors provided by the diffusion model and iteratively solve multiple maximum a posteriori (MAP) problems to achieve denoising. Additionally, we propose methods to adaptively adjust the coefficients that balance the likelihood and prior in MAP estimations, allowing for adaptation to different noise levels in low-dose CT images. We test our method on low-dose CT datasets of different regions with varying dose levels. The results demonstrate that our method outperforms the state-of-the-art unsupervised method and surpasses several supervised deep learning-based methods. Codes are available in https://github.com/DeepXuan/Dn-Dp.
翻訳日:2023-07-17 16:52:46 公開日:2023-07-14
# I Spy a Metaphor: 大規模言語モデルと拡散モデル

I Spy a Metaphor: Large Language Models and Diffusion Models Co-Create Visual Metaphors ( http://arxiv.org/abs/2305.14724v2 )

ライセンス: Link先を確認
Tuhin Chakrabarty, Arkadiy Saakyan, Olivia Winn, Artemis Panagopoulou, Yue Yang, Marianna Apidianaki, Smaranda Muresan(参考訳) 視覚的メタファーは、画像を通じて創造的なアイデアを説得または伝達するために使用される強力な修辞装置である。 言語的メタファーと同様に、記号主義や記号の並置を通じて暗黙的に意味を伝える。 言語メタファーから視覚的メタファーを生成する新しい課題を提案する。 DALL$\cdot$E 2のような拡散ベースのテキスト-画像モデルでは、暗黙的な意味と構成性をモデル化する必要があるため、これは難しいタスクである。 We propose to solve the task through the collaboration between Large Language Models (LLMs) and Diffusion Models: Instruct GPT-3 (davinci-002) with Chain-of-Thought prompting generates text that represents a visual elaboration of the linguistic metaphor containing the implicit meaning and relevant objects, which is then used as input to the diffusion-based text-to-image models.Using a human-AI collaboration framework, where humans interact both with the LLM and the top-performing diffusion model, we create a high-quality dataset containing 6,476 visual metaphors for 1,540 linguistic metaphors and their associated visual elaborations. プロのイラストレーターによる評価は, LLM-Diffusion Model による協調作業の可能性を示唆している。 我々は,人間とAIの協調フレームワークの有用性とデータセットの品質を評価するために,本質的な人間による評価と,視覚的エンテーメントを下流タスクとして用いた外在的評価の両方を行う。

Visual metaphors are powerful rhetorical devices used to persuade or communicate creative ideas through images. Similar to linguistic metaphors, they convey meaning implicitly through symbolism and juxtaposition of the symbols. We propose a new task of generating visual metaphors from linguistic metaphors. This is a challenging task for diffusion-based text-to-image models, such as DALL$\cdot$E 2, since it requires the ability to model implicit meaning and compositionality. We propose to solve the task through the collaboration between Large Language Models (LLMs) and Diffusion Models: Instruct GPT-3 (davinci-002) with Chain-of-Thought prompting generates text that represents a visual elaboration of the linguistic metaphor containing the implicit meaning and relevant objects, which is then used as input to the diffusion-based text-to-image models.Using a human-AI collaboration framework, where humans interact both with the LLM and the top-performing diffusion model, we create a high-quality dataset containing 6,476 visual metaphors for 1,540 linguistic metaphors and their associated visual elaborations. Evaluation by professional illustrators shows the promise of LLM-Diffusion Model collaboration for this task . To evaluate the utility of our Human-AI collaboration framework and the quality of our dataset, we perform both an intrinsic human-based evaluation and an extrinsic evaluation using visual entailment as a downstream task.
翻訳日:2023-07-17 16:52:20 公開日:2023-07-14
# 関心領域制御による変圧器による可変レート画像圧縮

Transformer-based Variable-rate Image Compression with Region-of-interest Control ( http://arxiv.org/abs/2305.10807v2 )

ライセンス: Link先を確認
Chia-Hao Kao, Ying-Chieh Weng, Yi-Hsin Chen, Wei-Chen Chiu, Wen-Hsiao Peng(参考訳) 本稿では,トランスベース学習画像圧縮システムを提案する。 関心の領域(ROI)機能をサポートしながら、単一のモデルで可変レート圧縮を実現することができる。 即時チューニングにインスパイアされ、圧縮のトランスフォーマーベースのオートエンコーダを条件に、プロンプト生成ネットワークを導入する。 プロンプト生成ネットワークは、入力画像、roiマスク、レートパラメータに応じてコンテンツ適応トークンを生成する。 ROIマスクとレートパラメータの分離により、可変レートとROIのコーディングを同時に行う直感的な方法が可能になる。 提案手法の有効性を検証し,他の競合手法よりも優れていることを確認する。

This paper proposes a transformer-based learned image compression system. It is capable of achieving variable-rate compression with a single model while supporting the region-of-interest (ROI) functionality. Inspired by prompt tuning, we introduce prompt generation networks to condition the transformer-based autoencoder of compression. Our prompt generation networks generate content-adaptive tokens according to the input image, an ROI mask, and a rate parameter. The separation of the ROI mask and the rate parameter allows an intuitive way to achieve variable-rate and ROI coding simultaneously. Extensive experiments validate the effectiveness of our proposed method and confirm its superiority over the other competing methods.
翻訳日:2023-07-17 16:51:37 公開日:2023-07-14
# LLMを用いたRCTレポートからの介入, 成果, 発見の同時抽出

Jointly Extracting Interventions, Outcomes, and Findings from RCT Reports with LLMs ( http://arxiv.org/abs/2305.03642v2 )

ライセンス: Link先を確認
Somin Wadhwa and Jay DeYoung and Benjamin Nye and Silvio Amir and Byron C. Wallace(参考訳) ランダム化対照試験(rcts)の結果は、介入の比較効果を確立し、証拠に基づくケアにおいて重要なインプットとなる。 しかし、rctsの結果は、試験の設計、実行、結果を記述する(しばしば非構造化)自然言語記事に提示され、臨床医は、そのような記事から興味のある介入や結果に関する知見を手作業で抽出しなければならない。 この面倒な手作業は、裁判報告から構造化された証拠の抽出(半自動抽出)を動機付けている。 本研究は, 臨床抽象概念から介入, 結果, 比較者(ico要素)を共同抽出し, 関連する結果を推測するために, 命令調整型大規模言語モデル(llms)に基づいて構築したテキスト対テキストモデルを提案し, 評価する。 手動(専門家)と自動評価は、フレーミングエビデンス抽出を条件生成タスクとし、この目的のための微調整LDMは、以前のSOTAよりも相当な(\sim$20point absolute F1 score)ゲインを実現することを示している。 我々は、モデル性能に寄与する側面を評価するためにアブレーションとエラー解析を行い、さらなる改善のための潜在的な方向性を強調する。 我々は2022年中頃に公開されたRCTの集合にモデルを適用し、構造化された結果の検索可能なデータベースを公開している。

Results from Randomized Controlled Trials (RCTs) establish the comparative effectiveness of interventions, and are in turn critical inputs for evidence-based care. However, results from RCTs are presented in (often unstructured) natural language articles describing the design, execution, and outcomes of trials; clinicians must manually extract findings pertaining to interventions and outcomes of interest from such articles. This onerous manual process has motivated work on (semi-)automating extraction of structured evidence from trial reports. In this work we propose and evaluate a text-to-text model built on instruction-tuned Large Language Models (LLMs) to jointly extract Interventions, Outcomes, and Comparators (ICO elements) from clinical abstracts, and infer the associated results reported. Manual (expert) and automated evaluations indicate that framing evidence extraction as a conditional generation task and fine-tuning LLMs for this purpose realizes considerable ($\sim$20 point absolute F1 score) gains over the previous SOTA. We perform ablations and error analyses to assess aspects that contribute to model performance, and to highlight potential directions for further improvements. We apply our model to a collection of published RCTs through mid-2022, and release a searchable database of structured findings: bit.ly/joint-relations-extraction-mlhc
翻訳日:2023-07-17 16:51:27 公開日:2023-07-14
# OCTによる中型AMDの分類における網膜領域と関心領域の比較

Comparison of retinal regions-of-interest imaged by OCT for the classification of intermediate AMD ( http://arxiv.org/abs/2305.02832v2 )

ライセンス: Link先を確認
Danilo A. Jesus, Eric F. Thee, Tim Doekemeijer, Daniel Luttikhuizen, Caroline Klaver, Stefan Klein, Theo van Walsum, Hans Vingerling, Luisa Sanchez(参考訳) 部分光コヒーレンストモグラフィー(OCT)データ、すなわち入力されたBスキャンを特定の関心領域(ROIs)に制限することにより、中間年齢関連黄斑変性(AMD)と健康的な制御とを区別できるかどうかを検討する。 269名の中間amd患者と115名の健常者から15744名のb-scanを用いた(80%の列車で被験者レベル、10%のバリデーション、10%の試験)。 各OCTBスキャンから網膜,網膜色素上皮(RPE)とBruch膜(BM)の複合体,脈絡膜(CHO)の3つのROIを抽出した。 これらのROIはマスキングと収穫の2つの異なる方法を用いて得られた。 6つのROIに加えて,ORTBスキャン全体とRAP-BM複合体のセグメンテーションに対応する2次マスクが用いられた。 各サブセットについて、畳み込みニューラルネットワーク(VGG16アーキテクチャに基づいて、ImageNetで事前トレーニングされた)をトレーニングし、テストした。 モデルの性能は, 受信動作特性(AUROC), 精度, 感度, 特異性に基づいて評価した。 訓練された全てのモデルは、それぞれ0.884、0.816、0.685、0.644以上の精度、感度、特異性を示した。 OCT Bスキャン全体で訓練されたモデルは最高の性能を示した(AUROC = 0.983, 精度 = 0.927, 感度 = 0.862, 特異性 = 0.913)。 クロッピング法で得られたroisを用いたモデルでは、クロッピングとクロッピングの間に統計的に有意な差がみられなかった網膜組織を除き、マスキングで得られたモデルよりも有意に高い結果が得られた(p = 0.47)。 本研究は, 完全OCT Bスキャンを用いて中間AMDの分類において高い精度が得られたが, RPE-BM複合体やコロイドなどの特定のROIで訓練したモデルでは高い性能が得られることを示した。

To study whether it is possible to differentiate intermediate age-related macular degeneration (AMD) from healthy controls using partial optical coherence tomography (OCT) data, that is, restricting the input B-scans to certain pre-defined regions of interest (ROIs). A total of 15744 B-scans from 269 intermediate AMD patients and 115 normal subjects were used in this study (split on subject level in 80% train, 10% validation and 10% test). From each OCT B-scan, three ROIs were extracted: retina, complex between retinal pigment epithelium (RPE) and Bruch membrane (BM), and choroid (CHO). These ROIs were obtained using two different methods: masking and cropping. In addition to the six ROIs, the whole OCT B-scan and the binary mask corresponding to the segmentation of the RPE-BM complex were used. For each subset, a convolutional neural network (based on VGG16 architecture and pre-trained on ImageNet) was trained and tested. The performance of the models was evaluated using the area under the receiver operating characteristic (AUROC), accuracy, sensitivity, and specificity. All trained models presented an AUROC, accuracy, sensitivity, and specificity equal to or higher than 0.884, 0.816, 0.685, and 0.644, respectively. The model trained on the whole OCT B-scan presented the best performance (AUROC = 0.983, accuracy = 0.927, sensitivity = 0.862, specificity = 0.913). The models trained on the ROIs obtained with the cropping method led to significantly higher outcomes than those obtained with masking, with the exception of the retinal tissue, where no statistically significant difference was observed between cropping and masking (p = 0.47). This study demonstrated that while using the complete OCT B-scan provided the highest accuracy in classifying intermediate AMD, models trained on specific ROIs such as the RPE-BM complex or the choroid can still achieve high performance.
翻訳日:2023-07-17 16:51:00 公開日:2023-07-14
# ARBEx:ロバスト表情学習のための信頼性バランスを考慮した注意的特徴抽出

ARBEx: Attentive Feature Extraction with Reliability Balancing for Robust Facial Expression Learning ( http://arxiv.org/abs/2305.01486v3 )

ライセンス: Link先を確認
Azmine Toushik Wasi, Karlo \v{S}erbetar, Raima Islam, Taki Hasan Rafi, Dong-Kyu Chae(参考訳) 本稿では,表情学習(fel)タスクにおけるクラス分布,バイアス,不確実性に対処すべく,信頼性のバランスをとるビジョントランスフォーマによって駆動される,新しい注意的特徴抽出フレームワークであるarbexを提案する。 ウィンドウベースのクロスアテンションvitと共に,データの事前処理とリファインメントの手法を補強し,最善のデータを絞り込む。 また,ラベル分布を持つ埋め込み空間における学習可能なアンカー点とマルチヘッド自己アテンション機構を用いて,アンカー点,注意点,信頼度値を活用し,ラベル予測のレジリエンスを高める,信頼性バランスを伴う弱い予測に対するパフォーマンスを最適化する。 適切なラベル分類とモデルの識別能力向上のために,アンカー損失を導入し,アンカーポイント間のマージンを増大させる。 さらに、トレーニング可能なマルチヘッド自己認識機構は、正確なラベルを特定する上で重要な役割を果たす。 このアプローチは予測の信頼性を向上させるための重要な要素を提供し、最終的な予測能力にかなりのポジティブな影響を及ぼす。 我々の適応モデルは、あらゆるディープニューラルネットワークと統合して、様々な認識タスクにおける課題をフォレストする。 我々の戦略は、様々な文脈で実施された広範な実験により、現在の最先端の方法論よりも優れています。

In this paper, we introduce a framework ARBEx, a novel attentive feature extraction framework driven by Vision Transformer with reliability balancing to cope against poor class distributions, bias, and uncertainty in the facial expression learning (FEL) task. We reinforce several data pre-processing and refinement methods along with a window-based cross-attention ViT to squeeze the best of the data. We also employ learnable anchor points in the embedding space with label distributions and multi-head self-attention mechanism to optimize performance against weak predictions with reliability balancing, which is a strategy that leverages anchor points, attention scores, and confidence values to enhance the resilience of label predictions. To ensure correct label classification and improve the models' discriminative power, we introduce anchor loss, which encourages large margins between anchor points. Additionally, the multi-head self-attention mechanism, which is also trainable, plays an integral role in identifying accurate labels. This approach provides critical elements for improving the reliability of predictions and has a substantial positive effect on final prediction capabilities. Our adaptive model can be integrated with any deep neural network to forestall challenges in various recognition tasks. Our strategy outperforms current state-of-the-art methodologies, according to extensive experiments conducted in a variety of contexts.
翻訳日:2023-07-17 16:50:21 公開日:2023-07-14
# 量子制御マシン:データとしての量子プログラムの限界

Quantum Control Machine: The Limits of Quantum Programs as Data ( http://arxiv.org/abs/2304.15000v2 )

ライセンス: Link先を確認
Charles Yuan, Agnes Villanyi, Michael Carbin(参考訳) 因子化、探索、シミュレーションのための量子アルゴリズムは、重ね合わせにおける量子データの値に基づいて分岐や反復などの制御フローを実行することで計算上の利点を得る。 これらのアルゴリズムの複雑な実現は、支配的な量子マシンモデルにおいて、プログラムカウンタによって具現化された全ての制御フローが古典的であり、重ね合わせには存在しないという事実である。 本研究では,プログラムカウンタを重畳する代替モデルが障害に直面していることを確認し,従来の条件ジャンプを含む非インジェクティブなセマンティクスによる制御フロー構造を正しくサポートすることはできない。 実際、この命令を支持する以前の試みは、プログラムがデータの重ね合わせを不適切に崩壊させ、つまり量子アドバンテージが失われる。 一般に、従来の条件付きジャンプや$\lambda$-calculusのような非インジェクティブな遷移意味論を持つ制御フロー抽象化は、その重ね合わせと量子アルゴリズムの計算上の利点を保ちながら量子データ上では操作できないことが証明される。 この定理は、量子プログラミング言語が古典プログラミングで知られているリッチな制御フロー抽象化をサポートするデータとしてプログラムの古典的な概念を直接利用できない理由を説明している。 代案として、本論文では、不合理性定理を助長し、データに対する量子効果とデータ依存制御フローの両方を正しく実現する条件分岐の変種を特徴とする新しい量子マシンモデルを提案する。 本研究では,データの重ね合わせを保存するためのプログラムに必要な条件を特定し,表現可能なプログラムが位相推定,量子ウォーク,物理シミュレーションなどの一元的量子回路と一致することを示す。

Quantum algorithms for factorization, search, and simulation obtain computational advantage by performing control flow such as branching and iteration based on the value of quantum data in superposition. Complicating realization of these algorithms is the fact that in predominant quantum machine models, all control flow as embodied by the program counter is classical, and cannot exist in superposition. In this work, we identify that an alternative model to enable a program counter in superposition faces an obstacle -- no such machine can correctly support control flow constructs with non-injective semantics, including the conventional conditional jump. In fact, prior attempts to support this instruction cause programs to inappropriately collapse the superposition of data, meaning that quantum advantage is lost. We prove that in general, control flow abstractions with non-injective transition semantics, such as the conventional conditional jump or the $\lambda$-calculus, cannot operate over quantum data while preserving its superposition and the computational advantage of the quantum algorithm. This theorem explains why quantum programming languages to date have been unable to directly leverage the classical concept of programs as data to support the rich control flow abstractions known in classical programming. As an alternative, we present a new quantum machine model featuring variants of conditional jump with inherently injective semantics, which sidesteps our impossibility theorem and correctly enables both quantum effects on data and data-dependent control flow. We identify the necessary condition for programs for such a machine to preserve superposition of data, and show that expressible programs coincide with the unitary quantum circuits, with examples for phase estimation, quantum walk, and physical simulation.
翻訳日:2023-07-17 16:49:56 公開日:2023-07-14
# LiDAR-NeRF:ニューラルネットワークによる新しいLiDARビュー合成

LiDAR-NeRF: Novel LiDAR View Synthesis via Neural Radiance Fields ( http://arxiv.org/abs/2304.10406v2 )

ライセンス: Link先を確認
Tang Tao, Longfei Gao, Guangrun Wang, Yixing Lao, Peng Chen, Hengshuang Zhao, Dayang Hao, Xiaodan Liang, Mathieu Salzmann, Kaicheng Yu(参考訳) 我々は,新しいタスクであるlidarセンサのビュー合成を提案する。 スタイルトランスファーニューラルネットワークを用いた従来のモデルベースのLiDARシミュレータは、新しいビューのレンダリングに応用できるが、レンダラーは、LiDARポイントの重要な属性を無視した、明示的な3D再構成とゲームエンジンを利用するため、正確で現実的なLiDARパターンを生成できない。 我々は、この課題に、我々の知る限り、最初の識別可能なエンドツーエンドLiDARレンダリングフレームワークであるLiDAR-NeRFを定式化し、ニューラル放射場(NeRF)を活用して幾何学と3D点の属性の合同学習を容易にする。 しかし、nerfを単純に使用するだけでは、個々のピクセルの学習にのみ焦点を合わせ、特に低テクスチャ領域において局所的な情報を無視するので、十分な結果が得られない。 そこで我々は,局所的な構造的詳細を保存するための構造的正規化手法を導入することで,この問題に対処する措置を講じた。 提案手法の有効性を評価するため,NeRF-MVLと呼ばれるオブジェクト中心の多視点LiDARデータセットを構築した。 それは、複数のLiDARセンサーで捉えた360度視点から見る9つのカテゴリの物体の観測を含んでいる。 シーンレベルのKITTI-360データセットとオブジェクトレベルのNeRF-MVLに関する広範な実験により、LiDAR-NeRFがモデルベースアルゴリズムを大幅に上回っていることが示された。

We introduce a new task, novel view synthesis for LiDAR sensors. While traditional model-based LiDAR simulators with style-transfer neural networks can be applied to render novel views, they fall short of producing accurate and realistic LiDAR patterns because the renderers rely on explicit 3D reconstruction and exploit game engines, that ignore important attributes of LiDAR points. We address this challenge by formulating, to the best of our knowledge, the first differentiable end-to-end LiDAR rendering framework, LiDAR-NeRF, leveraging a neural radiance field (NeRF) to facilitate the joint learning of geometry and the attributes of 3D points. However, simply employing NeRF cannot achieve satisfactory results, as it only focuses on learning individual pixels while ignoring local information, especially at low texture areas, resulting in poor geometry. To this end, we have taken steps to address this issue by introducing a structural regularization method to preserve local structural details. To evaluate the effectiveness of our approach, we establish an object-centric multi-view LiDAR dataset, dubbed NeRF-MVL. It contains observations of objects from 9 categories seen from 360-degree viewpoints captured with multiple LiDAR sensors. Our extensive experiments on the scene-level KITTI-360 dataset, and on our object-level NeRF-MVL show that our LiDAR-NeRF surpasses the model-based algorithms significantly.
翻訳日:2023-07-17 16:49:11 公開日:2023-07-14
# hrnetによるリハビリテーションモニタリングシステム

A HRNet-based Rehabilitation Monitoring System ( http://arxiv.org/abs/2306.10756v4 )

ライセンス: Link先を確認
Yi-Ching Hung, Yu-Qing Jiang, Fong-Syuan Liou, Yu-Hsuan Tsao, Zi-Cing Chiang, MIn-Te Sun(参考訳) リハビリテーション治療は、マイナースポーツや職業的外傷の治癒に役立つ。 従来のリハビリテーションプロセスでは、セラピストは患者に特定のアクションを割り当てて病院の訪問の間に実行し、患者は正しいアクションを記憶し、それを実行するためのスケジュールに依存する。 残念なことに、多くの患者はアクションを忘れたり、詳細でアクションを思い出すのに失敗する。 その結果、リハビリテーション治療が阻害されるか、最悪の場合、不適切な行動によって追加の怪我を負う可能性がある。 これらの課題を解決するため,患者のスマートフォンを介して患者の行動をいつ実行すべきかを患者に知らせるHRNetベースのリハビリテーション監視システムを提案する。 さらに、セラピストが患者のリハビリテーションの進捗を監視するのに役立つ。 私たちのシステムはiOSアプリとサーバ側のいくつかのコンポーネントで構成されています。 アプリはアクションビデオの表示と収集を担当している。 サーバは、各アクションの反復回数を追跡するために、セラピストのアクションとビデオ中の患者の類似度スコアを算出する。 これらの統計は、患者とセラピストの両方に表示される。 実験により, 類似度計算のF1スコアは0.9以上であり, 繰り返し回数のソフト精度は90%以上であった。

The rehabilitation treatment helps to heal minor sports and occupational injuries. In a traditional rehabilitation process, a therapist will assign certain actions to a patient to perform in between hospital visits, and it will rely on the patient to remember actions correctly and the schedule to perform them. Unfortunately, many patients forget to perform actions or fail to recall actions in detail. As a consequence, the rehabilitation treatment is hampered or, in the worst case, the patient may suffer from additional injury caused by performing incorrect actions. To resolve these issues, we propose a HRNet-based rehabilitation monitoring system, which can remind a patient when to perform the actions and display the actions for the patient to follow via the patient's smartphone. In addition, it helps the therapist to monitor the progress of the rehabilitation for the patient. Our system consists of an iOS app and several components at the server side. The app is in charge of displaying and collecting action videos. The server computes the similarity score between the therapist's actions and the patient's in the videos to keep track of the number of repetitions of each action. Theses stats will be shown to both of the patient and therapist. The extensive experiments show that the F1-Score of the similarity calculation is as high as 0.9 and the soft accuracy of the number of repetitions is higher than 90%.
翻訳日:2023-07-17 16:40:50 公開日:2023-07-14
# DVIS: 分離されたビデオインスタンスセグメンテーションフレームワーク

DVIS: Decoupled Video Instance Segmentation Framework ( http://arxiv.org/abs/2306.03413v3 )

ライセンス: Link先を確認
Tao Zhang, Xingye Tian, Yu Wu, Shunping Ji, Xuebo Wang, Yuan Zhang, Pengfei Wan(参考訳) ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。 既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。 まず、オフライン手法は、全てのフレームを等しく扱い、隣接するフレーム間の相互依存性を無視する密結合モデリングパラダイムによって制限される。 これにより、長期の時間的アライメント中に過度のノイズが発生する。 第二に、オンライン手法は時間情報の不十分な利用に悩まされる。 これらの課題に取り組むため,我々はvisをセグメンテーション,トラッキング,リファインメントという3つの独立したサブタスクに分割することにより,分離戦略を提案する。 分離戦略の有効性は2つの重要な要素に依存している。 1)追跡中のフレーム・バイ・フレーム・アソシエーションによる正確な長期的アライメントの達成 2) 上述の正確なアライメント結果に基づく時間情報の有効性について検討した。 本稿では,新しいレファレンストラッカーとテンポラリファインダを導入し,それを用いて \textbf{D}ecoupled \textbf{VIS} framework (\textbf{DVIS})を構築する。 DVISは、VISとVPSの両方で新しいSOTAパフォーマンスを実現し、現在のSOTAメソッドを7.3 APと9.6 VPQのOVISとVIPSegデータセットで上回っている。 さらに、デカップリング戦略により、参照トラッカーと時間精製器は超軽量(セグメンタFLOPのわずか1.69\%)であり、11Gメモリを持つ単一のGPU上で効率的なトレーニングと推論を可能にする。 コードは \href{https://github.com/zhang-tao-whu/DVIS}{https://github.com/zhang-tao-whu/DVIS} で公開されている。

Video instance segmentation (VIS) is a critical task with diverse applications, including autonomous driving and video editing. Existing methods often underperform on complex and long videos in real world, primarily due to two factors. Firstly, offline methods are limited by the tightly-coupled modeling paradigm, which treats all frames equally and disregards the interdependencies between adjacent frames. Consequently, this leads to the introduction of excessive noise during long-term temporal alignment. Secondly, online methods suffer from inadequate utilization of temporal information. To tackle these challenges, we propose a decoupling strategy for VIS by dividing it into three independent sub-tasks: segmentation, tracking, and refinement. The efficacy of the decoupling strategy relies on two crucial elements: 1) attaining precise long-term alignment outcomes via frame-by-frame association during tracking, and 2) the effective utilization of temporal information predicated on the aforementioned accurate alignment outcomes during refinement. We introduce a novel referring tracker and temporal refiner to construct the \textbf{D}ecoupled \textbf{VIS} framework (\textbf{DVIS}). DVIS achieves new SOTA performance in both VIS and VPS, surpassing the current SOTA methods by 7.3 AP and 9.6 VPQ on the OVIS and VIPSeg datasets, which are the most challenging and realistic benchmarks. Moreover, thanks to the decoupling strategy, the referring tracker and temporal refiner are super light-weight (only 1.69\% of the segmenter FLOPs), allowing for efficient training and inference on a single GPU with 11G memory. The code is available at \href{https://github.com/zhang-tao-whu/DVIS}{https://github.com/zhang-tao-whu/DVIS}.
翻訳日:2023-07-17 16:40:01 公開日:2023-07-14
# RNNTデコードのための編集距離ベースRL

Edit Distance based RL for RNNT decoding ( http://arxiv.org/abs/2306.01789v2 )

ライセンス: Link先を確認
Dongseong Hwang, Changwan Ryu, Khe Chai Sim(参考訳) RNN-Tは現在、様々なベンチマークテストにおける例外的なWERと、シームレスなストリーミングと長文の書き起こしをサポートする能力のために、ASRの業界標準と考えられている。 しかし、最大の欠点は、そのトレーニングと推論の目的が著しく異なることである。 訓練中、rnn-tは教師の強制によって全てのアライメント確率を最大化するが、推論では最大アライメントを見つけるとは限らないビーム探索を用いる。 さらに、RNN-Tが教師の強制訓練中にミスを経験できないことは、推論におけるミスの発生をより問題にする。 そこで本研究では,トレーニング時間と推論時間とのギャップを最小化する強化学習手法を提案する。 我々のEDRL(Edit Distance based RL)アプローチは、編集距離に基づいて報酬を計算し、各アクションレベルでネットワークを訓練する。 提案手法は600M Conformer RNN-TモデルのLibriSpeech上でSoTA WERを出力する。

RNN-T is currently considered the industry standard in ASR due to its exceptional WERs in various benchmark tests and its ability to support seamless streaming and longform transcription. However, its biggest drawback lies in the significant discrepancy between its training and inference objectives. During training, RNN-T maximizes all alignment probabilities by teacher forcing, while during inference, it uses beam search which may not necessarily find the maximum probable alignment. Additionally, RNN-T's inability to experience mistakes during teacher forcing training makes it more problematic when a mistake occurs in inference. To address this issue, this paper proposes a Reinforcement Learning method that minimizes the gap between training and inference time. Our Edit Distance based RL (EDRL) approach computes rewards based on the edit distance, and trains the network at every action level. The proposed approach yielded SoTA WERs on LibriSpeech for the 600M Conformer RNN-T model.
翻訳日:2023-07-17 16:39:28 公開日:2023-07-14
# 代理分類損失を用いた仮説伝達学習:アルゴリズム的安定性による一般化境界

Hypothesis Transfer Learning with Surrogate Classification Losses: Generalization Bounds through Algorithmic Stability ( http://arxiv.org/abs/2305.19694v2 )

ライセンス: Link先を確認
Anass Aghbalou, Guillaume Staerman(参考訳) 仮説伝達学習(htl)は、ソースを名付ける前のタスクレバレッジを、ソースデータへのアクセスを必要とせずに、新しいタスク、ターゲットにすることで、ドメイン適応を対比する。 実際、HTLはそのようなデータから学んだ仮説にのみ依存し、拡張データストレージのハードルを軽減し、非常に実用的な利点を提供する。 したがって、htlはビッグデータに依存する実世界のアプリケーションにとって非常に有益である。 このような手法を理論的観点から分析することは、特に分類タスクにおいて、複数の課題に直面している。 本稿では,機械学習アルゴリズム解析のための魅力的な理論フレームワークであるアルゴリズム安定性を通じて,htlの学習理論を研究することにより,この問題に対処する。 特に,二分分類の場合の正規化経験的リスク最小化器の統計的挙動に関心がある。 私たちの安定性分析は、穏やかな仮定の下での学習の保証を提供します。 その結果,訓練誤差,過剰リスク,相互評価推定など,本質的な統計量に対する複雑性フリーな一般化境界を導出する。 これらの洗練された境界は、トランスファー学習の利点を理解し、異なるシナリオにおける標準損失の振る舞いを比較することを可能にし、実践者にとって貴重な洞察をもたらす。

Hypothesis transfer learning (HTL) contrasts domain adaptation by allowing for a previous task leverage, named the source, into a new one, the target, without requiring access to the source data. Indeed, HTL relies only on a hypothesis learnt from such source data, relieving the hurdle of expansive data storage and providing great practical benefits. Hence, HTL is highly beneficial for real-world applications relying on big data. The analysis of such a method from a theoretical perspective faces multiple challenges, particularly in classification tasks. This paper deals with this problem by studying the learning theory of HTL through algorithmic stability, an attractive theoretical framework for machine learning algorithms analysis. In particular, we are interested in the statistical behaviour of the regularized empirical risk minimizers in the case of binary classification. Our stability analysis provides learning guarantees under mild assumptions. Consequently, we derive several complexity-free generalization bounds for essential statistical quantities like the training error, the excess risk and cross-validation estimates. These refined bounds allow understanding the benefits of transfer learning and comparing the behaviour of standard losses in different scenarios, leading to valuable insights for practitioners.
翻訳日:2023-07-17 16:39:12 公開日:2023-07-14
# リモートセンシング画像生成のためのマニフォールドアライメントに関する統一GANフレームワーク

A Unified GAN Framework Regarding Manifold Alignment for Remote Sensing Images Generation ( http://arxiv.org/abs/2305.19507v2 )

ライセンス: Link先を確認
Xingzhe Su, Wenwen Qiang, Zeen Song, Changwen Zheng, Fengge Wu, Fuchun Sun(参考訳) GAN(Generative Adversarial Networks)とその変種は自然画像において顕著な成功を収めている。 しかし、その性能はリモートセンシング(rs)画像に適用すると劣化し、判別器はしばしば過フィッティング問題に苦しむ。 本稿では,自然画像と自然画像の差異を調べ,rs画像の固有寸法が自然画像のそれよりもずっと低いことを明らかにする。 判別器は、本質的な次元の低いデータに過度に適合する傾向にあるため、RSトレーニングデータの局所的特性に過度に焦点を合わせ、分布の全体構造を無視し、不良生成モデルに繋がる。 そこで本研究では,実データを用いた判別器の制約とモデル性能の向上を目的とした新しい手法を提案する。 具体的には、実データ多様体を捉えるための学習可能な情報理論測度を導入する。 この尺度に基づいて, 判別器の過度適合を緩和し, 生成サンプルの品質を向上させる多様体アライメント正則化を提案する。 さらに,教師付きおよび教師なしのrs画像生成タスクに適用可能な,多様体アライメントのための統一ganフレームワークを構築した。

Generative Adversarial Networks (GANs) and their variants have achieved remarkable success on natural images. However, their performance degrades when applied to remote sensing (RS) images, and the discriminator often suffers from the overfitting problem. In this paper, we examine the differences between natural and RS images and find that the intrinsic dimensions of RS images are much lower than those of natural images. As the discriminator is more susceptible to overfitting on data with lower intrinsic dimension, it focuses excessively on local characteristics of RS training data and disregards the overall structure of the distribution, leading to a faulty generation model. In respond, we propose a novel approach that leverages the real data manifold to constrain the discriminator and enhance the model performance. Specifically, we introduce a learnable information-theoretic measure to capture the real data manifold. Building upon this measure, we propose manifold alignment regularization, which mitigates the discriminator's overfitting and improves the quality of generated samples. Moreover, we establish a unified GAN framework for manifold alignment, applicable to both supervised and unsupervised RS image generation tasks.
翻訳日:2023-07-17 16:38:53 公開日:2023-07-14
# Dink-Net: 大きなグラフ上のニューラルクラスタリング

Dink-Net: Neural Clustering on Large Graphs ( http://arxiv.org/abs/2305.18405v3 )

ライセンス: Link先を確認
Yue Liu, Ke Liang, Jun Xia, Sihang Zhou, Xihong Yang, Xinwang Liu, Stan Z. Li(参考訳) ディープグラフクラスタリング(ディープグラフクラスタリング)は、グラフのノードをディープニューラルネットワークで結合しないクラスタにグループ化することを目的としている。 しかし、既存の方法は百万のノードを持つ大きなグラフにスケールできない。 この問題を解決するために,拡張と縮小という概念を用いてスケーラブルなディープグラフクラスタリング手法(Dink-Net)を提案する。 まず、ノードを識別することにより、拡張によって劣化しても、自己教師された方法で表現が学習される。 一方、クラスタセンターは学習可能なニューラルネットワークパラメータとして初期化される。 次に、提案するクラスタ拡張損失とクラスタ縮小損失を逆方向に最小化することにより、クラスタリング分布を最適化する。 これらの設定により、2段階のクラスタリング、すなわち表現学習とクラスタリング最適化をエンドツーエンドフレームワークに統合し、ネットワークにクラスタリングに優しい機能を学習させる。 さらに、dink-netは、設計された損失関数がミニバッチデータを採用して、パフォーマンス低下なしにもクラスタリング分布を最適化するため、大きなグラフによくスケールする。 実験結果と理論的解析はともに本手法の優越性を示している。 ランナアップと比較して、Dink-Netは1億1100万ノードと16億エッジを持つogbn-papers100Mデータセットで9.62%のNMI改善を達成した。 ソースコードはhttps://github.com/yueliu 1999/Dink-Netで公開されている。 さらに、ディープグラフクラスタリングのコレクション(ペーパー、コード、データセット)はhttps://github.com/yueliu 1999/Awesome-Deep-Graph-Clusteringで共有されている。

Deep graph clustering, which aims to group the nodes of a graph into disjoint clusters with deep neural networks, has achieved promising progress in recent years. However, the existing methods fail to scale to the large graph with million nodes. To solve this problem, a scalable deep graph clustering method (Dink-Net) is proposed with the idea of dilation and shrink. Firstly, by discriminating nodes, whether being corrupted by augmentations, representations are learned in a self-supervised manner. Meanwhile, the cluster centres are initialized as learnable neural parameters. Subsequently, the clustering distribution is optimized by minimizing the proposed cluster dilation loss and cluster shrink loss in an adversarial manner. By these settings, we unify the two-step clustering, i.e., representation learning and clustering optimization, into an end-to-end framework, guiding the network to learn clustering-friendly features. Besides, Dink-Net scales well to large graphs since the designed loss functions adopt the mini-batch data to optimize the clustering distribution even without performance drops. Both experimental results and theoretical analyses demonstrate the superiority of our method. Compared to the runner-up, Dink-Net achieves 9.62% NMI improvement on the ogbn-papers100M dataset with 111 million nodes and 1.6 billion edges. The source code is released at https://github.com/yueliu1999/Dink-Net. Besides, a collection (papers, codes, and datasets) of deep graph clustering is shared at https://github.com/yueliu1999/Awesome-Deep-Graph-Clustering.
翻訳日:2023-07-17 16:38:31 公開日:2023-07-14
# 神経エージェントの注意スキーマ

Attention Schema in Neural Agents ( http://arxiv.org/abs/2305.17375v3 )

ライセンス: Link先を確認
Dianbo Liu, Samuele Bolotta, He Zhu, Yoshua Bengio, Guillaume Dumas(参考訳) ディープラーニングアーキテクチャでは、注意が一般的な要素になっている。 重み付けによってサポートされている情報の静的な選択の上に、情報の動的選択を追加している。 同様に、注意の上に構築された高次情報フィルタを想像することができる:注意スキーマ(as)、すなわち注意の記述と予測モデル。 認知神経科学において、注意スキーマ理論(AST)は、注意をASと区別するこの考え方を支持している。 この理論の強い予測は、エージェントが自身のASを使用して他のエージェントの注意を推論し、結果として他のエージェントとの協調を強化することができるということである。 このように、多エージェント強化学習は、ASTの有効性を実験的に検証するのに理想的な設定である。 我々は、注意とアソシエーションが互いに相互作用する方法を探究する。 予備結果は,asをリカレント内部制御として実装したエージェントが最高の性能を得ることを示す。 一般に、これらの探索実験は、注意モデルによる人工エージェントの装備が、彼らの社会的知性を高めることを示唆している。

Attention has become a common ingredient in deep learning architectures. It adds a dynamical selection of information on top of the static selection of information supported by weights. In the same way, we can imagine a higher-order informational filter built on top of attention: an Attention Schema (AS), namely, a descriptive and predictive model of attention. In cognitive neuroscience, Attention Schema Theory (AST) supports this idea of distinguishing attention from AS. A strong prediction of this theory is that an agent can use its own AS to also infer the states of other agents' attention and consequently enhance coordination with other agents. As such, multi-agent reinforcement learning would be an ideal setting to experimentally test the validity of AST. We explore different ways in which attention and AS interact with each other. Our preliminary results indicate that agents that implement the AS as a recurrent internal control achieve the best performance. In general, these exploratory experiments suggest that equipping artificial agents with a model of attention can enhance their social intelligence.
翻訳日:2023-07-17 16:38:05 公開日:2023-07-14
# 深層学習に基づく走査心電図デジタル化を実現するための心電図画像生成ツールボックス

A Synthetic Electrocardiogram (ECG) Image Generation Toolbox to Facilitate Deep Learning-Based Scanned ECG Digitization ( http://arxiv.org/abs/2307.01946v2 )

ライセンス: Link先を確認
Kshama Kodthalu Shivashankara and Afagh Mehri Shervedani and Reza Sameni(参考訳) 心電図(Electrocardiogram、ECG)は、心血管疾患の正確な診断ツールである。 ECGは何十年にもわたって印刷形式に記録されており、そのデジタル化はアルゴリズムECG診断において機械学習(ML)モデルをトレーニングする大きな可能性を秘めている。 物理ECGアーカイブは劣化の危険性があり、印刷されたECGのみをスキャンするには不十分である。 したがって、紙ECGアーカイブの時系列データへのデジタル化と変換が最も重要である。 画像処理のためのディープラーニングモデルは、この点に関して有望である。 しかし、参照時系列によるecgアーカイブの不足は課題である。 textit{digital twins} を利用したデータ拡張技術は潜在的な解決策となる。 本稿では,紙状ECGの背景をリアルなアーティファクトを用いて合成ECG画像を生成する新しい手法を提案する。 生成画像には、手書きのテキストアーティファクト、しわ、折り目、パースペクティブ変換を含む歪みが、個人識別可能な情報なしで適用される。 ユースケースとして、12リードのPTB-XL ECG時系列データセットから、21,801レコードのECG画像データセットを生成した。 合成データセット上で深部心電図画像デジタイズモデルを構築し訓練し,合成画像から時系列データへの変換を行い,評価を行った。 snr(signal-to-noise ratio)を算出し,画像のデジタル化品質とグラウンド・トゥルータのecg時系列を比較した。 その結果,27$\pm$2.8\,dBの平均信号回復SNRが示され,深層学習モデルのトレーニングのための合成ECG画像データセットの重要性が示された。 コードベースはECG研究用のオープンアクセスツールボックスとして利用できる。

The electrocardiogram (ECG) is an accurate and widely available tool for diagnosing cardiovascular diseases. ECGs have been recorded in printed formats for decades and their digitization holds great potential for training machine learning (ML) models in algorithmic ECG diagnosis. Physical ECG archives are at risk of deterioration and scanning printed ECGs alone is insufficient, as ML models require ECG time-series data. Therefore, the digitization and conversion of paper ECG archives into time-series data is of utmost importance. Deep learning models for image processing show promise in this regard. However, the scarcity of ECG archives with reference time-series is a challenge. Data augmentation techniques utilizing \textit{digital twins} present a potential solution. We introduce a novel method for generating synthetic ECG images on standard paper-like ECG backgrounds with realistic artifacts. Distortions including handwritten text artifacts, wrinkles, creases and perspective transforms are applied to the generated images, without personally identifiable information. As a use case, we generated an ECG image dataset of 21,801 records from the 12-lead PhysioNet PTB-XL ECG time-series dataset. A deep ECG image digitization model was built and trained on the synthetic dataset, and was employed to convert the synthetic images to time-series data for evaluation. The signal-to-noise ratio (SNR) was calculated to assess the image digitization quality vs the ground truth ECG time-series. The results show an average signal recovery SNR of 27$\pm$2.8\,dB, demonstrating the significance of the proposed synthetic ECG image dataset for training deep learning models. The codebase is available as an open-access toolbox for ECG research.
翻訳日:2023-07-17 16:31:44 公開日:2023-07-14
# 非線形schr\"odinger方程式の統一理論

Unified theory of the nonlinear Schr\"odinger equation ( http://arxiv.org/abs/2306.17720v2 )

ライセンス: Link先を確認
David B. Reinhardt, Dean Lee, Wolfgang P. Schleich and Matthias Meister(参考訳) 非線形 schr\"odinger 方程式(英語版)(nlse)はリッチで多用途なモデルであり、1つの空間次元において線型 schr\"odinger 方程式のような定常解と孤立波や量子滴のようなよりエキゾチックな解を持つ。 我々は NLSE の統一理論を示し、立方晶 NLSE の定常解はすべて、クロス比と呼ばれる単数で分類できることを示した。 同じクロス比を持つ任意の2つの解は共形変換を用いて互いに変換することができ、進行波解も同様に成り立つ。 このようにして、立方晶NLSEと低次NLSEの解の共形双対性を示す。 同じ解析は、多項式ポテンシャルを持つ古典粒子のニュートン力学にも応用できる。 我々のフレームワークは、NLSEの物理学と代数曲線と共形対称性の数学との間の関係をより深く理解する。

The nonlinear Schr\"odinger equation (NLSE) is a rich and versatile model, which in one spatial dimension has stationary solutions similar to those of the linear Schr\"odinger equation as well as more exotic solutions such as solitary waves and quantum droplets. We present a unified theory of the NLSE, showing that all stationary solutions of the cubic-quintic NLSE can be classified according to a single number called the cross-ratio. Any two solutions with the same cross-ratio can be converted into one another using a conformal transformation, and the same also holds true for traveling wave solutions. In this way we demonstrate a conformal duality between solutions of cubic-quintic NLSEs and lower-order NLSEs. The same analysis can be applied to the Newtonian dynamics of classical particles with polynomial potentials. Our framework provides a deeper understanding of the connections between the physics of the NLSE and the mathematics of algebraic curves and conformal symmetry.
翻訳日:2023-07-17 16:30:56 公開日:2023-07-14
# Schr\"odinger's cat with Artificial Intelligence: Emergent Classicality from Information Bottleneck

Observing Schr\"odinger's Cat with Artificial Intelligence: Emergent Classicality from Information Bottleneck ( http://arxiv.org/abs/2306.14838v2 )

ライセンス: Link先を確認
Zhelun Zhang, Yi-Zhuang You(参考訳) 我々はSchr\"odingerの猫量子状態から収集したランダムな局所測定データに基づいて生成言語モデルを訓練する。 私たちのトレーニングデータには、Schr\"odinger's catに関する完全な量子情報が含まれていますが、弱い言語モデルは、データから猫の古典的な現実を捉えることしか学べません。 量子古典的境界を量子系の大きさと古典知的エージェントの情報処理能力の両方の観点から同定し、より強力なエージェントが量子系を取り巻く環境雑音においてより量子的性質を実現できることを示す。 我々のアプローチは、ノイズの多い中間スケール量子(NISQ)デバイスで生成されたビッグデータを使用して、量子演算子の表現学習のための生成モデルを訓練するための新たな道を開く。

We train a generative language model on the randomized local measurement data collected from Schr\"odinger's cat quantum state. We demonstrate that the classical reality emerges in the language model due to the information bottleneck: although our training data contains the full quantum information about Schr\"odinger's cat, a weak language model can only learn to capture the classical reality of the cat from the data. We identify the quantum-classical boundary in terms of both the size of the quantum system and the information processing power of the classical intelligent agent, which indicates that a stronger agent can realize more quantum nature in the environmental noise surrounding the quantum system. Our approach opens up a new avenue for using the big data generated on noisy intermediate-scale quantum (NISQ) devices to train generative models for representation learning of quantum operators, which might be a step toward our ultimate goal of creating an artificial intelligence quantum physicist.
翻訳日:2023-07-17 16:30:39 公開日:2023-07-14
# 量子ウォークと絶対ゼータ関数の関係について

On the relation between quantum walks and absolute zeta functions ( http://arxiv.org/abs/2306.14625v2 )

ライセンス: Link先を確認
Norio Konno(参考訳) 量子ウォーク(quantum walk)は、古典的ランダムウォークの量子ウォークである。 一方、絶対ゼータ函数は F_1 上のゼータ函数とみなすことができる。 本稿では,量子ウォークと絶対ゼータ関数の接続について述べる。 まず,グラフ上のグローバーウォークの時間発展行列によって決定されるゼータ関数を扱う。 グロバーウォークは量子ウォークの典型的なモデルである。 次に、量子ウォークによって与えられるゼータ函数が、グラフの辺の数に依存する絶対保型形式であることを示す。 さらに,量子ウォークに基づくゼータ関数に対する絶対ゼータ関数を考える。 例えば、サイクルグラフの絶対ゼータ関数を計算し、次数2の多重ガンマ関数として表されることを示す。

The quantum walk is a quantum counterpart of the classical random walk. On the other hand, the absolute zeta function can be considered as a zeta function over F_1. This paper presents a connection between the quantum walk and the absolute zeta function. First we deal with a zeta function determined by a time evolution matrix of the Grover walk on a graph. The Grover walk is a typical model of the quantum walk. Then we prove that the zeta function given by the quantum walk is an absolute automorphic form of weight depending on the number of edges of the graph. Furthermore we consider an absolute zeta function for the zeta function based on a quantum walk. As an example, we compute an absolute zeta function for the cycle graph and show that it is expressed as the multiple gamma function of order 2.
翻訳日:2023-07-17 16:30:22 公開日:2023-07-14
# フラット・ツー・ワイドアプローチによる単発連続学習

Few-Shot Continual Learning via Flat-to-Wide Approaches ( http://arxiv.org/abs/2306.14369v2 )

ライセンス: Link先を確認
Muhammad Anwar Ma'sum, Mahardhika Pratama, Edwin Lughofer, Lin Liu, Habibullah, Ryszard Kowalczyk(参考訳) 継続学習における既存のアプローチは、トレーニングプロセスで多くのサンプルを要求する。 このようなアプローチは、オーバーフィッティング問題のためにサンプルが限られている多くの実世界の問題では実用的ではない。 本稿では,フラット・ツー・ワイド・アプローチ(flower:flat-to-wide approach)と呼ばれる,数発連続学習手法を提案し,フラット・ワイド・ミニマ(flat-wide minima)を探索するフラット・ツー・ワイド・ラーニングプロセスを提案する。 データ不足の問題は、最小の囲い球へのサンプリング空間を制限するために、ボールジェネレータの概念を用いてデータ拡張アプローチによって克服される。 本研究は,小規模のベースタスクにおいて,先行技術よりも著しく性能が向上したフラワーの利点を実証する。 さらなる研究のために、FLOWERのソースコード、競合アルゴリズム、実験ログは \url{https://github.com/anwarmaxsum/FLOWER} で公開されている。

Existing approaches on continual learning call for a lot of samples in their training processes. Such approaches are impractical for many real-world problems having limited samples because of the overfitting problem. This paper proposes a few-shot continual learning approach, termed FLat-tO-WidE AppRoach (FLOWER), where a flat-to-wide learning process finding the flat-wide minima is proposed to address the catastrophic forgetting problem. The issue of data scarcity is overcome with a data augmentation approach making use of a ball generator concept to restrict the sampling space into the smallest enclosing ball. Our numerical studies demonstrate the advantage of FLOWER achieving significantly improved performances over prior arts notably in the small base tasks. For further study, source codes of FLOWER, competitor algorithms and experimental logs are shared publicly in \url{https://github.com/anwarmaxsum/FLOWER}.
翻訳日:2023-07-17 16:30:11 公開日:2023-07-14
# 人工知能と生物学的誤用:言語モデルと生物学的デザインツールの差別化リスク

Artificial intelligence and biological misuse: Differentiating risks of language models and biological design tools ( http://arxiv.org/abs/2306.13952v3 )

ライセンス: Link先を確認
Jonas B. Sandbrink(参考訳) 人工知能が生命科学の進歩を促進するにつれ、生物エージェントの兵器化や誤用も可能となるかもしれない。 本稿では,大規模言語モデル (LLM) と生物設計ツール (BDT) の2種類のAIツールを区別する。 gpt-4のようなllmはすでに、歴史的な生物学的兵器開発が成功するためのデュアルユース情報を提供することができる。 LLMを研究室のアシスタントや自律科学ツールに変えることで、研究を支援する能力はさらに向上する。 したがって、LDMは特に生物学的誤用に対する障壁を低くする。 対照的に、BDTは高度なアクターの能力を拡大する。 具体的には、BDTはパンデミックの病原体をこれまで見たことよりもはるかに悪化させ、予測可能で標的となる生物兵器の形式を可能にする可能性がある。 LLMとBDTが組み合わさると、生物剤による害の天井が上がり、広くアクセスできるようになる。 LLMとBDTの異なるリスクプロファイルは、リスク軽減に重要な意味を持つ。 LLMリスクは緊急行動を必要とし、危険な能力へのアクセスを制御することによって効果的に軽減される可能性がある。 開発者が危険な機能をなくすためには、必須のプレリリース評価が不可欠である可能性がある。 科学に特化したaiツールは、正当なユーザーへのアクセスを許可しながら誤用を防止するための差別化戦略を要求する。 一方、BDTからのリスクは定義されておらず、開発者や政策立案者による監視が必要である。 これらのリスクを減らす鍵は、遺伝子合成のスクリーニングを強化すること、高度なアクターによる生物学的誤用を防ぐための介入、BDTの特定の制御の探索である。

As advancements in artificial intelligence propel progress in the life sciences, they may also enable the weaponisation and misuse of biological agents. This article differentiates two classes of AI tools that pose such biosecurity risks: large language models (LLMs) and biological design tools (BDTs). LLMs, such as GPT-4, are already able to provide dual-use information that could have enabled historical biological weapons efforts to succeed. As LLMs are turned into lab assistants and autonomous science tools, this will further increase their ability to support research. Thus, LLMs will in particular lower barriers to biological misuse. In contrast, BDTs will expand the capabilities of sophisticated actors. Concretely, BDTs may enable the creation of pandemic pathogens substantially worse than anything seen to date and could enable forms of more predictable and targeted biological weapons. In combination, LLMs and BDTs could raise the ceiling of harm from biological agents and could make them broadly accessible. The differing risk profiles of LLMs and BDTs have important implications for risk mitigation. LLM risks require urgent action and might be effectively mitigated by controlling access to dangerous capabilities. Mandatory pre-release evaluations could be critical to ensure that developers eliminate dangerous capabilities. Science-specific AI tools demand differentiated strategies to allow access to legitimate users while preventing misuse. Meanwhile, risks from BDTs are less defined and require monitoring by developers and policymakers. Key to reducing these risks will be enhanced screening of gene synthesis, interventions to deter biological misuse by sophisticated actors, and exploration of specific controls of BDTs.
翻訳日:2023-07-17 16:29:53 公開日:2023-07-14
# マルチモーダルデュアルアテンション変換器を用いた言語間音声認識

Cross-Language Speech Emotion Recognition Using Multimodal Dual Attention Transformers ( http://arxiv.org/abs/2306.13804v3 )

ライセンス: Link先を確認
Syed Aun Muhammad Zaidi, Siddique Latif, Junaid Qadir(参考訳) 近年の音声感情認識(SER)の進歩にもかかわらず、最先端のシステムではクロス言語環境での性能向上が達成できない。 本稿では,多言語SERを改善するためのマルチモーダルデュアルアテンショントランス(MDAT)モデルを提案する。 本モデルでは,マルチモーダル特徴抽出のための事前学習モデルを利用し,グラフ注意とコアテンションを含む2重注意機構を備え,異なるモーダル性にまたがる複雑な依存関係をキャプチャし,最小のターゲット言語データを用いて言語横断型ser結果の改善を実現する。 さらに,このモデルでは,高レベル特徴表現のためのトランスフォーマーエンコーダ層を利用して感情分類精度を向上させる。 このように、MDATは様々な段階で特徴表現の洗練を行い、分類層に感情的な健全な特徴を提供する。 この新たなアプローチは、モダリティ特有の感情情報の保存と、モダリティ間および言語間インタラクションの強化も保証する。 我々は,4つの公開SERデータセット上でのモデルの性能を評価し,最近のアプローチやベースラインモデルと比較して優れた有効性を示す。

Despite the recent progress in speech emotion recognition (SER), state-of-the-art systems are unable to achieve improved performance in cross-language settings. In this paper, we propose a Multimodal Dual Attention Transformer (MDAT) model to improve cross-language SER. Our model utilises pre-trained models for multimodal feature extraction and is equipped with a dual attention mechanism including graph attention and co-attention to capture complex dependencies across different modalities and achieve improved cross-language SER results using minimal target language data. In addition, our model also exploits a transformer encoder layer for high-level feature representation to improve emotion classification accuracy. In this way, MDAT performs refinement of feature representation at various stages and provides emotional salient features to the classification layer. This novel approach also ensures the preservation of modality-specific emotional information while enhancing cross-modality and cross-language interactions. We assess our model's performance on four publicly available SER datasets and establish its superior effectiveness compared to recent approaches and baseline models.
翻訳日:2023-07-17 16:29:28 公開日:2023-07-14
# CHiME-7 DASRチャレンジ: 異種シナリオにおける複数デバイスによる遠隔会議記録

The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios ( http://arxiv.org/abs/2306.13734v2 )

ライセンス: Link先を確認
Samuele Cornell, Matthew Wiesner, Shinji Watanabe, Desh Raj, Xuankai Chang, Paola Garcia, Matthew Maciejewski, Yoshiki Masuyama, Zhong-Qiu Wang, Stefano Squartini, Sanjeev Khudanpur(参考訳) CHiME課題は、ロバスト自動音声認識(ASR)システムの開発と評価において重要な役割を果たしている。 第7回CHiMEチャレンジにおいて,CHiME-7 遠隔 ASR (DASR) タスクを導入する。 このタスクは、複数の異種記録装置を備えた遠方フィールド設定における統合asrおよびダイアリゼーションを含む。 従来の課題と異なり、CHiME-6、DiPCo、Mixer 6の3つのシナリオでシステムを評価する。 目的は、参加者がアプリオリ情報なしで異なる配列のジオメトリやユースケースをまたいで一般化できる単一のシステムを考案することである。 以前のCHiMEのイテレーションとは別の相違点として、参加者はオープンソースで事前トレーニングされたモデルとデータセットを使用することができる。 本稿では,課題設計,モチベーション,基本的な研究課題について詳述する。 また,完全アレートポロジーに依存しないベースラインシステムを提案し,マルチチャネルダイアリゼーション,チャネル選択,誘導ソース分離,自己教師付き音声表現(SSLR)を利用した堅牢なASRモデルを提案する。

The CHiME challenges have played a significant role in the development and evaluation of robust automatic speech recognition (ASR) systems. We introduce the CHiME-7 distant ASR (DASR) task, within the 7th CHiME challenge. This task comprises joint ASR and diarization in far-field settings with multiple, and possibly heterogeneous, recording devices. Different from previous challenges, we evaluate systems on 3 diverse scenarios: CHiME-6, DiPCo, and Mixer 6. The goal is for participants to devise a single system that can generalize across different array geometries and use cases with no a-priori information. Another departure from earlier CHiME iterations is that participants are allowed to use open-source pre-trained models and datasets. In this paper, we describe the challenge design, motivation, and fundamental research questions in detail. We also present the baseline system, which is fully array-topology agnostic and features multi-channel diarization, channel selection, guided source separation and a robust ASR model that leverages self-supervised speech representations (SSLR).
翻訳日:2023-07-17 16:29:08 公開日:2023-07-14
# 画像インテンシティフィルタを用いた量子コンピュータにおける測定ノイズ緩和

Measurement Noise Mitigation in a Quantum Computer Using Image Intensity Filters ( http://arxiv.org/abs/2307.04867v2 )

ライセンス: Link先を確認
Wladimir Silva(参考訳) 画像コントラストフィルタを用いた量子コンピュータの分布数における測定誤差を軽減する手法を提案する。 この研究は、ガンベッタと同僚が[1]で記述した手法に似ているが、この手法は線形方程式系ではなく、画像コントラストフィルタを用いて測定ノイズを緩和するものである。 さらに, この手法は, [1] を基礎とする Qiskit の行列フリー測定緩和 (M3) ライブラリに記述された実験の集合に対して実証される。 提案手法は,IBM-Qの全ての実験において,M3よりも広いマージンで優れていることを示す。 さらに,本手法はプラットフォーム非依存であり,IonQクラウド上で同様の実験を行うことでこれを実証する。 最後に、さらなる調査のために結果、ドキュメント、詳細なテストおよびソースコードを提供します。

We propose a method to mitigate measurement errors in the distribution counts of a Quantum computer using image contrast filters. This work is similar to the method described by Gambetta and colleagues in [1]; however our technique does not use a linear system of equations, but an image contrast filter to mitigate the measurement noise. Furthermore this method is demonstrated against the same set of experiments described in the matrix-free measurement mitigation (M3) library from Qiskit from which [1] is based upon. Our results show our method outperforming M3 by a wide margin in all experiments on IBM-Q. Furthermore, our method is platform agnostic; we demonstrate this by running some experiments on the IonQ cloud with similar results. Finally, we provide results, documentation and detailed test and source code for further investigation.
翻訳日:2023-07-17 16:21:34 公開日:2023-07-14
# LINFA: フローとアニールの正規化を伴う変分推論のためのPythonライブラリ

LINFA: a Python library for variational inference with normalizing flow and annealing ( http://arxiv.org/abs/2307.04675v2 )

ライセンス: Link先を確認
Yu Wang, Emma R. Cobian, Jubilee Lee, Fang Liu, Jonathan D. Hauenstein and Daniele E. Schiavazzi(参考訳) 変分推論は確率分布を近似する統計学や機械学習において、ますます普及している手法である。 LINFA (Library for Inference with Normalizing Flow and Annealing) は,計算コストのかかるモデルや,依存パラメータを持つ難しい分布に対応するPythonライブラリである。 様々なベンチマークにおいて,LINFAの理論的背景,能力,性能について論じる。 LINFAはGitHubでhttps://github.com/desResLab/LINFAで公開されている。

Variational inference is an increasingly popular method in statistics and machine learning for approximating probability distributions. We developed LINFA (Library for Inference with Normalizing Flow and Annealing), a Python library for variational inference to accommodate computationally expensive models and difficult-to-sample distributions with dependent parameters. We discuss the theoretical background, capabilities, and performance of LINFA in various benchmarks. LINFA is publicly available on GitHub at https://github.com/desResLab/LINFA.
翻訳日:2023-07-17 16:21:22 公開日:2023-07-14
# 全身性糖尿病網膜症への展開

Towards Generalizable Diabetic Retinopathy Grading in Unseen Domains ( http://arxiv.org/abs/2307.04378v2 )

ライセンス: Link先を確認
Haoxuan Che, Yuhan Cheng, Haibo Jin, Hao Chen(参考訳) 糖尿病網膜症(英: Diabetic Retinopathy, DR)は、糖尿病の合併症の一つであり、世界中の視覚障害の主要な原因である。 早期かつ正確な重症度評価は疾患管理に不可欠である。 ディープラーニングは自動DRグレーディングに大きな可能性を示しているが、ドメイン一般化問題として知られるソースとターゲットドメイン間の分散シフトのため、実際のデプロイメントは依然として困難である。 既存の作業は主に、複雑な現実世界のシナリオを処理できない単純な視覚的相違に起因する限られたドメインシフトによるパフォーマンス低下に起因する。 代わりに,視覚と劣化のスタイルシフト,診断パターンの多様性,データの不均衡という,3次元の一般化問題の存在を示唆する予備的な証拠を示す。 これらの課題に対処するため、我々はGeneralizable Diabetic Retinopathy Grading Network (GDRNet) という新しい統合フレームワークを提案する。 GDRNetは、Fundus visual-artifact augmentation (FundusAug), dynamic hybrid-supervised loss (DahLoss), domain-class-aware re-balancing (DCR)の3つの重要なコンポーネントで構成されている。 FundusAugは、視覚変換と画像劣化によって現実的な拡張現実画像を生成する一方、DahLossはピクセルレベルの一貫性と画像レベルのセマンティクスを併用して、多様な診断パターンをキャプチャし、一般化可能な特徴表現を構築する。 さらに、dcrは、ドメインクラスビューからのデータ不均衡を緩和し、まれなドメインクラスペアに対する望ましくない過剰強調を回避する。 最後に、公正な評価のための公開ベンチマークを設計する。 GDRNetの有効性と一般化能力について,先進的手法と徹底的アブレーション法との比較実験を行った。

Diabetic Retinopathy (DR) is a common complication of diabetes and a leading cause of blindness worldwide. Early and accurate grading of its severity is crucial for disease management. Although deep learning has shown great potential for automated DR grading, its real-world deployment is still challenging due to distribution shifts among source and target domains, known as the domain generalization problem. Existing works have mainly attributed the performance degradation to limited domain shifts caused by simple visual discrepancies, which cannot handle complex real-world scenarios. Instead, we present preliminary evidence suggesting the existence of three-fold generalization issues: visual and degradation style shifts, diagnostic pattern diversity, and data imbalance. To tackle these issues, we propose a novel unified framework named Generalizable Diabetic Retinopathy Grading Network (GDRNet). GDRNet consists of three vital components: fundus visual-artifact augmentation (FundusAug), dynamic hybrid-supervised loss (DahLoss), and domain-class-aware re-balancing (DCR). FundusAug generates realistic augmented images via visual transformation and image degradation, while DahLoss jointly leverages pixel-level consistency and image-level semantics to capture the diverse diagnostic patterns and build generalizable feature representations. Moreover, DCR mitigates the data imbalance from a domain-class view and avoids undesired over-emphasis on rare domain-class pairs. Finally, we design a publicly available benchmark for fair evaluations. Extensive comparison experiments against advanced methods and exhaustive ablation studies demonstrate the effectiveness and generalization ability of GDRNet.
翻訳日:2023-07-17 16:20:47 公開日:2023-07-14
# 量子スターリング熱エンジンの臨界挙動

The Critical Behavior of Quantum Stirling Heat Engine ( http://arxiv.org/abs/2307.03895v2 )

ライセンス: Link先を確認
Yuan-Sheng Wang, Man-Hong Yung, Dazhi Xu, Maoxin Liu, Xiaosong Chen(参考訳) 量子ラビモデル (QRM) をモデルとした作業物質 (WS) を用いたスターリングサイクルの性能について検討し, 臨界が効率に与える影響について検討した。 以上の結果から,QRMの臨界値がスターリングサイクルの効率向上に有効であることが示唆された。 さらに, 高温貯水池の温度が有限であっても, WS パラメータが臨界点に近づくと, カルノー効率が漸近的に達成可能であることが観察された。 さらに、スターリングサイクルの効率に対する臨界挙動を導出し、WSパラメータが臨界点に近づくにつれて、効率がカルノー効率に漸近的に近づいたかを示す。 我々の研究は、スターリング熱エンジンの性能に対する臨界の影響の理解を深めている。

We investigate the performance of a Stirling cycle with a working substance (WS) modeled as the quantum Rabi model (QRM), exploring the impact of criticality on its efficiency. Our findings indicate that the criticality of the QRM has a positive effect on improving the efficiency of the Stirling cycle. Furthermore, we observe that the Carnot efficiency is asymptotically achievable as the WS parameter approaches the critical point, even when both the temperatures of the cold and hot reservoirs are finite. Additionally, we derive the critical behavior for the efficiency of the Stirling cycle, demonstrating how the efficiency asymptotically approaches the Carnot efficiency as the WS parameter approaches the critical point. Our work deepens the understanding of the impact of criticality on the performance of a Stirling heat engine.
翻訳日:2023-07-17 16:19:52 公開日:2023-07-14
# HUMS2023 データチャレンジ結果提出

HUMS2023 Data Challenge Result Submission ( http://arxiv.org/abs/2307.03871v2 )

ライセンス: Link先を確認
Dhiraj Neupane, Lakpa Dorje Tamang, Ngoc Dung Huynh, Mohamed Reda Bouadjenek and Sunil Aryal(参考訳) 本研究では,早期発見のための簡単な手法を実装した。 実装された手法は、与えられたマットファイルをプロットし、サンプル上で連続ウェーブレット変換(cwt)を行うことで生成されたスカルグラム画像を分析する。 また、各信号の平均値、標準偏差(STD)、ピーク対ピーク(P2P)値も故障信号の検出に役立った。 我々は,自動回帰統合移動平均(ARIMA)法を実装した。

We implemented a simple method for early detection in this research. The implemented methods are plotting the given mat files and analyzing scalogram images generated by performing Continuous Wavelet Transform (CWT) on the samples. Also, finding the mean, standard deviation (STD), and peak-to-peak (P2P) values from each signal also helped detect faulty signs. We have implemented the autoregressive integrated moving average (ARIMA) method to track the progression.
翻訳日:2023-07-17 16:19:37 公開日:2023-07-14
# SAR: 相乗的行動表現による生理的アジリティとデクスタリティの一般化

SAR: Generalization of Physiological Agility and Dexterity via Synergistic Action Representation ( http://arxiv.org/abs/2307.03716v2 )

ライセンス: Link先を確認
Cameron Berg, Vittorio Caggiano, Vikash Kumar(参考訳) 筋骨格剤を含む高次元システムにおける効果的な連続制御政策の学習は依然として重要な課題である。 生物進化の過程で、生物はこの複雑さを克服し、高度に洗練された運動制御戦略を学ぶためのロバストなメカニズムを開発してきた。 この堅牢な行動の柔軟性の原因は何でしょう? 筋シナジー、すなわち協調筋のココントラクションによる調節は、生物がシンプルで一般化可能な行動空間で筋肉の制御を学習することを可能にする1つの機構であると考えられている。 この進化した運動制御戦略からインスピレーションを得て、より単純なタスクから獲得したSAR(Synergistic Action Representation)がより複雑なタスクを学習しやすくするためのテストベッドとして、生理学的に正確な人手と足のモデルを使用する。 いずれの場合も,SAR公開政策がエンドツーエンドの強化学習を著しく上回ることがわかった。 SARで訓練された政策は、サンプル効率の高い広い地形で堅牢な移動を達成することができ、ベースラインアプローチは意味のある行動を学ぶことができなかった。 さらに、マルチオブジェクト操作タスクでsarでトレーニングされたポリシーは、ベースラインアプローチ(70%以上の成功)を大きく上回っている(20%の成功)。 これらのSAR-Exploitingポリシーはどちらもゼロショットをドメイン外の環境条件に一般化するが、SARを採用しないポリシーは一般化しなかった。 最後に,ロボット操作タスクセットとフルボディヒューマノイド移動タスクを用いて,より広い高次元制御問題に対するSARの一般性を確立する。 我々の知る限りでは、この研究は、シナジーを発見し、この表現を用いて幅広いタスクにわたる高次元連続制御を学習するためのエンドツーエンドパイプラインを初めて提示するものである。

Learning effective continuous control policies in high-dimensional systems, including musculoskeletal agents, remains a significant challenge. Over the course of biological evolution, organisms have developed robust mechanisms for overcoming this complexity to learn highly sophisticated strategies for motor control. What accounts for this robust behavioral flexibility? Modular control via muscle synergies, i.e. coordinated muscle co-contractions, is considered to be one putative mechanism that enables organisms to learn muscle control in a simplified and generalizable action space. Drawing inspiration from this evolved motor control strategy, we use physiologically accurate human hand and leg models as a testbed for determining the extent to which a Synergistic Action Representation (SAR) acquired from simpler tasks facilitates learning more complex tasks. We find in both cases that SAR-exploiting policies significantly outperform end-to-end reinforcement learning. Policies trained with SAR were able to achieve robust locomotion on a wide set of terrains with high sample efficiency, while baseline approaches failed to learn meaningful behaviors. Additionally, policies trained with SAR on a multiobject manipulation task significantly outperformed (>70% success) baseline approaches (<20% success). Both of these SAR-exploiting policies were also found to generalize zero-shot to out-of-domain environmental conditions, while policies that did not adopt SAR failed to generalize. Finally, we establish the generality of SAR on broader high-dimensional control problems using a robotic manipulation task set and a full-body humanoid locomotion task. To the best of our knowledge, this investigation is the first of its kind to present an end-to-end pipeline for discovering synergies and using this representation to learn high-dimensional continuous control across a wide diversity of tasks.
翻訳日:2023-07-17 16:19:29 公開日:2023-07-14
# 形式的特徴属性とその近似について

On Formal Feature Attribution and Its Approximation ( http://arxiv.org/abs/2307.03380v2 )

ライセンス: Link先を確認
Jinqiang Yu, Alexey Ignatiev, Peter J. Stuckey(参考訳) 近年、人工知能(AI)アルゴリズムと機械学習(ML)モデルの普及が見られた。 その大きな成功にもかかわらず、MLモデルの脆さ、その公正さ、解釈可能性の欠如といった多くの重要な問題により、説明可能な人工知能(XAI)と形式的なMLモデルの検証において、アクティブな開発の必要性が保証される。 XAIにおける2つの主要な仕事は、例えばアンカーのような特徴選択法と、LIMEやSHAPといった特徴帰属技術である。 約束にもかかわらず、既存の機能選択と帰属アプローチのほとんどは、説明の不健全さや分散サンプリングなど、さまざまな重要な問題に影響を受けやすい。 XAI(FXAI)に対する最近の公式なアプローチは、上記の代替として機能し、これらの問題から解放されているが、他のいくつかの制限に悩まされている。 例えば、スケーラビリティの制限に加えて、正式なアプローチでは、機能帰属問題に取り組めません。 加えて、正式な音であるにもかかわらず正式な説明は概して非常に大きく、実際的な環境での適用性を損なう。 そこで本稿では,形式的xaiの装置を,形式的説明列挙に基づく特徴帰属に応用する方法を提案する。 形式的特徴属性(FFA)は、形式的および非形式的の両方において、既存の方法よりも有利であると主張する。 この問題の実際的な複雑さを考慮し, 正確なFFAを近似する効率的な手法を提案する。 最後に,提案する近似ffaの有効性を,特徴量だけでなく相対的順序も考慮した既存の特徴帰属アルゴリズムと比較し,実験的に証明する。

Recent years have witnessed the widespread use of artificial intelligence (AI) algorithms and machine learning (ML) models. Despite their tremendous success, a number of vital problems like ML model brittleness, their fairness, and the lack of interpretability warrant the need for the active developments in explainable artificial intelligence (XAI) and formal ML model verification. The two major lines of work in XAI include feature selection methods, e.g. Anchors, and feature attribution techniques, e.g. LIME and SHAP. Despite their promise, most of the existing feature selection and attribution approaches are susceptible to a range of critical issues, including explanation unsoundness and out-of-distribution sampling. A recent formal approach to XAI (FXAI) although serving as an alternative to the above and free of these issues suffers from a few other limitations. For instance and besides the scalability limitation, the formal approach is unable to tackle the feature attribution problem. Additionally, a formal explanation despite being formally sound is typically quite large, which hampers its applicability in practical settings. Motivated by the above, this paper proposes a way to apply the apparatus of formal XAI to the case of feature attribution based on formal explanation enumeration. Formal feature attribution (FFA) is argued to be advantageous over the existing methods, both formal and non-formal. Given the practical complexity of the problem, the paper then proposes an efficient technique for approximating exact FFA. Finally, it offers experimental evidence of the effectiveness of the proposed approximate FFA in comparison to the existing feature attribution algorithms not only in terms of feature importance and but also in terms of their relative order.
翻訳日:2023-07-17 16:18:34 公開日:2023-07-14
# 大規模言語モデルにおける認知シナジーの解き放つ:マルチペソナ・セルフコラボレーションによるタスクソルビングエージェント

Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration ( http://arxiv.org/abs/2307.05300v2 )

ライセンス: Link先を確認
Zhenhailong Wang, Shaoguang Mao, Wenshan Wu, Tao Ge, Furu Wei, Heng Ji(参考訳) 人間の知性は認知シナジーの概念に基づいて成長し、異なる認知プロセス間の協調と情報統合が、独立した認知プロセスよりも優れた結果をもたらす。 大規模言語モデル(LLM)は一般的なタスク解決エージェントとして有望な性能を示してきたが、ドメイン知識の集中と複雑な推論を必要とするタスクに苦戦している。 本研究では,Solo Performance Prompting(SPP)を提案し,複数のペルソナと多ターンの自己コラボレーションを行うことにより,単一のLLMを認知的シナジストに変換する。 認知シナジスト(英: Cognitive Synergist)は、複雑なタスクにおける問題解決と全体的なパフォーマンスを高めるために、複数の心と協調し、個々の強みと知識を組み合わせるインテリジェントエージェントである。 タスク入力に基づいて異なるペルソナを動的に識別し、シミュレーションすることにより、SPPはLLMにおける認知シナジーの可能性を解き放つ。 LLMに複数の微粒なペルソナを割り当てることによって,単一あるいは固定数のペルソナよりも優れた問題解決能力が得られることがわかった。 我々は,3つの課題 – Trivia Creative Writing, Codenames Collaborative, Logic Grid Puzzle – について,知識集約型と推論集約型の両方を含む評価を行った。 llmの推論能力を単に強化するchain-of-thoughtのような以前の作品とは異なり、sppは内部知識獲得能力を効果的に導き、幻覚を減少させ、強力な推論能力を維持する。 コード、データ、プロンプトはhttps://github.com/MikeWangWZHL/Solo-Performance-Prompting.gitにある。

Human intelligence thrives on the concept of cognitive synergy, where collaboration and information integration among different cognitive processes yield superior outcomes compared to individual cognitive processes in isolation. Although Large Language Models (LLMs) have demonstrated promising performance as general task-solving agents, they still struggle with tasks that require intensive domain knowledge and complex reasoning. In this work, we propose Solo Performance Prompting (SPP), which transforms a single LLM into a cognitive synergist by engaging in multi-turn self-collaboration with multiple personas. A cognitive synergist refers to an intelligent agent that collaborates with multiple minds, combining their individual strengths and knowledge, to enhance problem-solving and overall performance in complex tasks. By dynamically identifying and simulating different personas based on task inputs, SPP unleashes the potential of cognitive synergy in LLMs. We have discovered that assigning multiple, fine-grained personas in LLMs elicits better problem-solving abilities compared to using a single or fixed number of personas. We evaluate SPP on three challenging tasks: Trivia Creative Writing, Codenames Collaborative, and Logic Grid Puzzle, encompassing both knowledge-intensive and reasoning-intensive types. Unlike previous works, such as Chain-of-Thought, that solely enhance the reasoning abilities in LLMs, SPP effectively elicits internal knowledge acquisition abilities, reduces hallucination, and maintains strong reasoning capabilities. Code, data, and prompts can be found at: https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git.
翻訳日:2023-07-17 16:10:34 公開日:2023-07-14
# 線形回帰を用いたニューラルネットワークの反復学習

Using Linear Regression for Iteratively Training Neural Networks ( http://arxiv.org/abs/2307.05189v2 )

ライセンス: Link先を確認
Harshad Khadilkar(参考訳) ニューラルネットワークの重みとバイアスを学習するための単純な線形回帰に基づくアプローチを,標準勾配に基づくバックプロパゲーションの代替として提案する。 本研究は自然界において探索的であり,説明と実験に限定する。 (i)単純なフィードフォワードニューラルネットワーク。 (ii)スカラー(単一出力)回帰問題、及び (iii)可逆活性化機能。 しかし、このアプローチはより大きな、より複雑なアーキテクチャに拡張可能であることを意図している。 重要なアイデアは、ニューラルネットワーク内の各ニューロンへの入力が、前層におけるニューロンの活性化と、その層のパラメータ(重みとバイアス)の線形結合である、という観察である。 出力から逆向きに処理することで、各ニューロンに対する理想的な総入力値を計算することができれば、学習問題をパラメータの更新とアクティベーション値を繰り返す線形最小二乗問題として定式化することができる。 我々はこの考え方を実装する明示的なアルゴリズムを提案し、(少なくとも小さな問題に対して)アプローチが勾配に基づく手法よりも安定で高速であることを示す。

We present a simple linear regression based approach for learning the weights and biases of a neural network, as an alternative to standard gradient based backpropagation. The present work is exploratory in nature, and we restrict the description and experiments to (i) simple feedforward neural networks, (ii) scalar (single output) regression problems, and (iii) invertible activation functions. However, the approach is intended to be extensible to larger, more complex architectures. The key idea is the observation that the input to every neuron in a neural network is a linear combination of the activations of neurons in the previous layer, as well as the parameters (weights and biases) of the layer. If we are able to compute the ideal total input values to every neuron by working backwards from the output, we can formulate the learning problem as a linear least squares problem which iterates between updating the parameters and the activation values. We present an explicit algorithm that implements this idea, and we show that (at least for small problems) the approach is more stable and faster than gradient-based methods.
翻訳日:2023-07-17 16:10:03 公開日:2023-07-14
# 最適輸送を用いたデコレーション

Decorrelation using Optimal Transport ( http://arxiv.org/abs/2307.05187v2 )

ライセンス: Link先を確認
Malte Algren, John Andrew Raine and Tobias Golling(参考訳) 特徴空間と保護属性を区別できる領域は、倫理学、公正性、そして自然科学の活発な研究と研究の分野である。 本稿では,保護属性に対する連続的特徴空間を最適伝達で復号化できるconvex neural optimal transport solvers(cnots)を用いた新しい相関法を提案する。 高エネルギー物理学におけるジェットの分類の文脈において、ジェットの質量と非相関性を持つように分類器のスコアが望ましいことを実証する。 二項分類で達成された非相関は条件付き正規化フローを用いて最先端の技術によって達成されたレベルに近づく。 マルチクラス出力に移行する際には、最適輸送手法は最先端技術よりも大幅に向上し、多次元特徴空間のデコレーションにおいてかなりの利益が期待できる。

Being able to decorrelate a feature space from protected attributes is an area of active research and study in ethics, fairness, and also natural sciences. We introduce a novel decorrelation method using Convex Neural Optimal Transport Solvers (Cnots) that is able to decorrelate a continuous feature space against protected attributes with optimal transport. We demonstrate how well it performs in the context of jet classification in high energy physics, where classifier scores are desired to be decorrelated from the mass of a jet. The decorrelation achieved in binary classification approaches the levels achieved by the state-of-the-art using conditional normalising flows. When moving to multiclass outputs the optimal transport approach performs significantly better than the state-of-the-art, suggesting substantial gains at decorrelating multidimensional feature spaces.
翻訳日:2023-07-17 16:09:46 公開日:2023-07-14
# min-max多重販売マン問題に対するハイブリッド遺伝的アルゴリズム

A Hybrid Genetic Algorithm for the min-max Multiple Traveling Salesman Problem ( http://arxiv.org/abs/2307.07120v1 )

ライセンス: Link先を確認
Sasan Mahmoudinazlou and Changhyun Kwon(参考訳) 本稿では,長期ツアーの長さを最小化するために,Multiple Traveling Salesman Problem (mTSP) を解くハイブリッド遺伝的アルゴリズムを提案する。 遺伝的アルゴリズムは、TSPシーケンスを個々の表現として利用し、動的プログラミングアルゴリズムを用いて、その個人を評価し、与えられた都市のシーケンスに対して最適なmTSPソリューションを求める。 新たなクロスオーバーオペレーターは、2人の親からの同様のツアーを組み合わせるように設計されており、人口に対して大きな多様性を提供する。 生成した子孫のいくつかは、交差のない解を得るためにツアー間の交差点を検出して除去する。 これはmin-max mTSPに特に有用である。 生成した子孫は、自己適応型ランダム局所探索と完全近傍探索により改善される。 我々のアルゴリズムは、文献にある複数のベンチマークセットに対して、同様のカットオフ時間しきい値で、すべての既存のアルゴリズムを平均で上回る。 さらに、4つのベンチマークセットで89のインスタンス中21の既知のソリューションを改善します。

This paper proposes a hybrid genetic algorithm for solving the Multiple Traveling Salesman Problem (mTSP) to minimize the length of the longest tour. The genetic algorithm utilizes a TSP sequence as the representation of each individual, and a dynamic programming algorithm is employed to evaluate the individual and find the optimal mTSP solution for the given sequence of cities. A novel crossover operator is designed to combine similar tours from two parents and offers great diversity for the population. For some of the generated offspring, we detect and remove intersections between tours to obtain a solution with no intersections. This is particularly useful for the min-max mTSP. The generated offspring are also improved by a self-adaptive random local search and a thorough neighborhood search. Our algorithm outperforms all existing algorithms on average, with similar cutoff time thresholds, when tested against multiple benchmark sets found in the literature. Additionally, we improve the best-known solutions for 21 out of 89 instances on four benchmark sets.
翻訳日:2023-07-17 15:14:00 公開日:2023-07-14
# DataAssist: データクリーニングと準備のための機械学習アプローチ

DataAssist: A Machine Learning Approach to Data Cleaning and Preparation ( http://arxiv.org/abs/2307.07119v1 )

ライセンス: Link先を確認
Kartikay Goyle, Quin Xie and Vakul Goyle(参考訳) 現在の自動機械学習(ML)ツールはモデル中心であり、モデル選択とパラメータ最適化に重点を置いている。 しかし、データ分析のほとんどの時間はデータのクリーニングとラングリングに費やされており、限られたツールが利用可能である。 ここでは、MLインフォームド手法を用いてデータセットの品質を向上させる自動データ準備およびクリーニングプラットフォームであるDataAssistを紹介する。 データAssistは、ユーザ選択変数の可視化生成、データアノテーションの統一、異常除去の提案、データの事前処理など、探索データ分析とデータのクリーニングのためのパイプラインを提供する。 エクスポートされたデータセットは、ダウンストリーム分析のために他のautomlツールやユーザ指定モデルと容易に統合できる。 データ中心のツールは、経済学、ビジネス、予測アプリケーションなど、さまざまな分野に適用できます。

Current automated machine learning (ML) tools are model-centric, focusing on model selection and parameter optimization. However, the majority of the time in data analysis is devoted to data cleaning and wrangling, for which limited tools are available. Here we present DataAssist, an automated data preparation and cleaning platform that enhances dataset quality using ML-informed methods. We show that DataAssist provides a pipeline for exploratory data analysis and data cleaning, including generating visualization for user-selected variables, unifying data annotation, suggesting anomaly removal, and preprocessing data. The exported dataset can be readily integrated with other autoML tools or user-specified model for downstream analysis. Our data-centric tool is applicable to a variety of fields, including economics, business, and forecasting applications saving over 50\% time of the time spent on data cleansing and preparation.
翻訳日:2023-07-17 15:13:44 公開日:2023-07-14
# 分散還元法による分散確率的二重正規化非凸強凸ミニマックス問題の解法

Variance-reduced accelerated methods for decentralized stochastic double-regularized nonconvex strongly-concave minimax problems ( http://arxiv.org/abs/2307.07113v1 )

ライセンス: Link先を確認
Gabriel Mancino-Ball and Yangyang Xu(参考訳) 本稿では,プライマリ変数と双対変数の両方に対して非滑らかな正規化項を持つ分散型,確率的非凸型(NCSC)のミニマックス問題について考察する。 カップリング関数が期待値または有限和形式であり、二重正則化子が凸関数であるとき、原始変数と双対変数に別々に適用される。 アルゴリズムフレームワークでは,双対変数のコンセンサス制約を解消するためにラグランジアン乗算器を導入する。 これを分散還元(VR)技術と組み合わせることで、提案手法は1回に1回の隣接通信により、一般的な確率的条件の下で、$\mathcal{O}(\kappa^3\varepsilon^{-3})$サンプル複雑性を達成でき、大バッチまたは小バッチのVRオプションで、$\kappa$は問題の条件番号であり、$\varepsilon$は所望の解精度である。 ビッグバッチVRでは、$\mathcal{O}(\kappa^2\varepsilon^{-2})$通信複雑性も達成できます。 特別な有限サム設定の下では、大バッチVRを用いた我々の方法は、$\mathcal{O}(n + \sqrt{n} \kappa^2\varepsilon^{-2})$サンプル複雑性と$\mathcal{O}(\kappa^2\varepsilon^{-2})$通信複雑性を達成できる。 すべての複雑さの結果は、我々が考慮している問題の特別なケースを解決するためのいくつかの既存の方法によって達成された最もよく知られた結果と一致する。 我々の知る限り、これは、分散確率環境における原始変数と双対変数の両方に適用される一般凸非平滑正規化器によるNCSCミニマックス問題に対する収束保証を提供する最初の研究である。 2つの機械学習問題に対して数値実験を行った。 私たちのコードはhttps://github.com/RPI-OPT/VRLMからダウンロードできます。

In this paper, we consider the decentralized, stochastic nonconvex strongly-concave (NCSC) minimax problem with nonsmooth regularization terms on both primal and dual variables, wherein a network of $m$ computing agents collaborate via peer-to-peer communications. We consider when the coupling function is in expectation or finite-sum form and the double regularizers are convex functions, applied separately to the primal and dual variables. Our algorithmic framework introduces a Lagrangian multiplier to eliminate the consensus constraint on the dual variable. Coupling this with variance-reduction (VR) techniques, our proposed method, entitled VRLM, by a single neighbor communication per iteration, is able to achieve an $\mathcal{O}(\kappa^3\varepsilon^{-3})$ sample complexity under the general stochastic setting, with either a big-batch or small-batch VR option, where $\kappa$ is the condition number of the problem and $\varepsilon$ is the desired solution accuracy. With a big-batch VR, we can additionally achieve $\mathcal{O}(\kappa^2\varepsilon^{-2})$ communication complexity. Under the special finite-sum setting, our method with a big-batch VR can achieve an $\mathcal{O}(n + \sqrt{n} \kappa^2\varepsilon^{-2})$ sample complexity and $\mathcal{O}(\kappa^2\varepsilon^{-2})$ communication complexity, where $n$ is the number of components in the finite sum. All complexity results match the best-known results achieved by a few existing methods for solving special cases of the problem we consider. To the best of our knowledge, this is the first work which provides convergence guarantees for NCSC minimax problems with general convex nonsmooth regularizers applied to both the primal and dual variables in the decentralized stochastic setting. Numerical experiments are conducted on two machine learning problems. Our code is downloadable from https://github.com/RPI-OPT/VRLM.
翻訳日:2023-07-17 15:13:29 公開日:2023-07-14
# グラフ位置と構造エンコーダ

Graph Positional and Structural Encoder ( http://arxiv.org/abs/2307.07107v1 )

ライセンス: Link先を確認
Renming Liu, Semih Cant\"urk, Olivier Lapointe-Gagn\'e, Vincent L\'etourneau, Guy Wolf, Dominique Beaini, Ladislav Ramp\'a\v{s}ek(参考訳) 位置符号化および構造符号化(pse)は、一般的なグラフでは標準ノード順序が欠けているため、グラフ内のノードの識別性が向上する。 これにより、PSEは最新のGNN、特にグラフトランスフォーマーの強化に不可欠なツールとなる。 しかし、様々なグラフ予測タスクに最適なpseを設計することは、困難で未解決な問題である。 本稿では,グラフ位置および構造エンコーダ(GPSE)について述べる。これはグラフエンコーダを訓練し,リッチなPSE表現をキャプチャして任意のGNNを増強する試みである。 GPSEは複数のPSEに対して共通の潜在表現を効果的に学習でき、高い転送性を持つ。 特定のグラフデータセットでトレーニングされたエンコーダは、大きく異なる分布やモダリティから引き出されたデータセットに効果的に使用できる。 gpse-enhancedモデルでは,幅広いベンチマークにおいて,特定のタスクにおけるパフォーマンスを著しく向上させると同時に,他のケースで明示的に計算されたpssを使用するモデルと同等の性能を発揮できることを示す。 本研究は,グラフの位置および構造情報を抽出する大規模事前学習モデルの開発への道を開くとともに,既存の自己教師型事前学習アプローチと同様に,明示的に計算されたPSEの代替としての可能性を強調した。

Positional and structural encodings (PSE) enable better identifiability of nodes within a graph, as in general graphs lack a canonical node ordering. This renders PSEs essential tools for empowering modern GNNs, and in particular graph Transformers. However, designing PSEs that work optimally for a variety of graph prediction tasks is a challenging and unsolved problem. Here, we present the graph positional and structural encoder (GPSE), a first-ever attempt to train a graph encoder that captures rich PSE representations for augmenting any GNN. GPSE can effectively learn a common latent representation for multiple PSEs, and is highly transferable. The encoder trained on a particular graph dataset can be used effectively on datasets drawn from significantly different distributions and even modalities. We show that across a wide range of benchmarks, GPSE-enhanced models can significantly improve the performance in certain tasks, while performing on par with those that employ explicitly computed PSEs in other cases. Our results pave the way for the development of large pre-trained models for extracting graph positional and structural information and highlight their potential as a viable alternative to explicitly computed PSEs as well as to existing self-supervised pre-training approaches.
翻訳日:2023-07-17 15:12:49 公開日:2023-07-14
# 量子セルオートマトンにおけるゼータ関数の絶対ゼータ関数

Absolute zeta functions for zeta functions of quantum cellular automata ( http://arxiv.org/abs/2307.07106v1 )

ライセンス: Link先を確認
Jir\^o Akahori, Norio Konno, Iwao Sato(参考訳) 従来の研究は、相互作用する粒子系(IPS)のゼータ関数と融合し、量子セルオートマトン(QCA)を「IPS/ゼータ対応」研究の典型的なモデルとして用いた。 一方、絶対ゼータ函数は絶対自己形式を満たす関数によって定義されるF_1上のゼータ函数である。 本稿では, qca が与える新たなゼータ関数が, 構成空間の大きさに依存した絶対保型形式であることを示す。 例えば、テンソル型QCAの絶対ゼータ関数を計算し、それが多重ガンマ関数として表されることを示す。 さらに,多重正弦関数による関数式を得る。

Our previous work delt with the zeta function for the interacting particle system (IPS) including quantum cellular automaton (QCA) as a typical model in the study of ``IPS/Zeta Correspondence". On the other hand, the absolute zeta function is a zeta function over F_1 defined by a function satisfying an absolute automorphy. This paper proves that a new zeta function given by QCA is an absolute automorphic form of weight depending on the size of the configuration space. As an example, we calculate an absolute zeta function for a tensor-type QCA, and show that it is expressed as the multiple gamma function. In addition, we obtain its functional equation by the multiple sine function.
翻訳日:2023-07-17 15:12:13 公開日:2023-07-14
# 物理観測可能なスピン1/2質量場用ローレンツ共変スピン演算子

Lorentz-Covariant Spin Operator for Spin 1/2 Massive Fields As a Physical Observable ( http://arxiv.org/abs/2307.07105v1 )

ライセンス: Link先を確認
Taeseung Choi and Yeong Deok Han(参考訳) ミンコフスキー時空における時空対称性から直接大規模ケースに対する相対論的共変スピン作用素を導出し、導出スピン作用素の物理的性質を調べる。 導出では、2つの条件しか必要としない: まず、スピン作用素はポインケア群のSU(2)小群の生成元でなければならない。 第二に、スピン作用素はローレンツ変換の下で共変変換をすべきである。 空間反転変換は、一意相対論的共変スピン作用素を導出する役割を担っていることが示され、その固有値がポインケア群の既約表現空間を提供する大体(古典的)場のスピンをラベル付けする場スピン作用素と呼ぶ。 場スピンは共変ディラック表現における共変スピンとなり、これは共変ディラック表現においてウィグナー回転を適切に記述する唯一のスピンであることが示されている。 驚くべきことに、場のスピンはまた、正のエネルギー状態に対するFWスピンである非共変スピンを与える。 また、場のスピン作用素がポアンケア群の(内部) SU(2)小群変換を適切に生成する唯一のスピン作用素であることを示す。

We derive a relativistic-covariant spin operator for massive case directly from space-time symmetry in Minkowski space-time and investigate the physical properties of a derived spin operator. In the derivation we require only two conditions: First, a spin operator should be the generator of the SU(2) little group of the Poincare group. Second, a spin operator should covariantly transform under the Lorentz transformation. A space inversion transformation is shown to play a role to derive a unique relativistic-covariant spin operator, we call the field spin operator, whose eigenvalue labels the spin of a massive (classical) field that provides the irreducible representation space of the Poincare group. The field spin becomes the covariant spin in the covariant Dirac representation, which is shown to be the only spin that describes the Wigner rotation properly in the covariant Dirac representation. Surprisingly, the field spin also gives the non-covariant spin, which is the FW spin for the positive energy state. We also show that the field spin operator is the unique spin operator that generate the (internal) SU(2) little group transformation of the Poincare group properly.
翻訳日:2023-07-17 15:11:55 公開日:2023-07-14
# Vasicekモデルによるバリアオプション価格の経路積分法

Path Integral Method for Barrier Option Pricing Under Vasicek Model ( http://arxiv.org/abs/2307.07103v1 )

ライセンス: Link先を確認
Qi Chen and Chao Guo(参考訳) 量子論におけるパス積分法は、時間依存オプション価格の新しい考え方を提供する。 バリアオプションの場合、オプション価格変更プロセスは量子力学における無限大バリア散乱問題と類似しており、二重バリアオプションの場合、オプション価格変更プロセスは無限二乗ポテンシャル井戸で移動する粒子と類似している。 パス積分法を用いて,vasicek確率金利モデルに基づく価格カーネルとオプション価格の表現を導出することができた。 基本価格の関数としてのオプション価格の数値結果も示す。

Path integral method in quantum theory provides a new thinking for time dependent option pricing. For barrier options, the option price changing process is similar to the infinite high barrier scattering problem in quantum mechanics; for double barrier options, the option price changing process is analogous to a particle moving in a infinite square potential well. Using path integral method, the expressions of pricing kernel and option price under Vasicek stochastic interest rate model could be derived. Numerical results of options price as functions of underlying prices are also shown.
翻訳日:2023-07-17 15:11:05 公開日:2023-07-14
# Achelous:モノクラーカメラと4Dmm波レーダを融合した高速統一水面パノプティカル知覚フレームワーク

Achelous: A Fast Unified Water-surface Panoptic Perception Framework based on Fusion of Monocular Camera and 4D mmWave Radar ( http://arxiv.org/abs/2307.07102v1 )

ライセンス: Link先を確認
Runwei Guan, Shanliang Yao, Xiaohui Zhu, Ka Lok Man, Eng Gee Lim, Jeremy Smith, Yong Yue, Yutao Yue(参考訳) 異なるタスクに対する現在の知覚モデルは、通常、無人表面車両(USV)のモジュラー形式に存在するが、これはエッジデバイス上で非常にゆっくりと平行に推論し、知覚結果とUSV位置の同期を引き起こし、自律的なナビゲーションの誤判定を引き起こす。 無人地上車両(UGV)と比較すると、USVの強い認識は比較的ゆっくりと発達する。 さらに、現在のマルチタスク知覚モデルのほとんどはパラメータが大きく、推論が遅く、スケーラブルではない。 そこで本研究では,単眼カメラと4次元mm波レーダの融合に基づく水面知覚のための低コスト・高速統一型汎視知覚フレームワーク achelous を提案する。 achelousは、視覚ターゲットの検出とセグメンテーション、ドリブル領域セグメンテーション、ウォーターラインセグメンテーション、レーダーポイントクラウドセグメンテーションの5つのタスクを同時に行うことができる。 さらに、Achelousファミリーのモデルは約500万パラメータ未満で、NVIDIA Jetson AGX Xavierで約18FPS、HybridNetsで11FPS、収集したデータセットで約5mAP$_{\text{50-95}}$と0.7mIoUでYOLOX-TinyとSegformer-B0を超えています。 我々の知る限り、Achelousは水面認識のための視覚レベルとポイントクラウドレベルのタスクを組み合わせた初めての総合的な汎視知覚フレームワークである。 インテリジェントな輸送コミュニティの開発を促進するために、私たちはコードを \url{https://github.com/guanrunwei/achelous} でリリースします。

Current perception models for different tasks usually exist in modular forms on Unmanned Surface Vehicles (USVs), which infer extremely slowly in parallel on edge devices, causing the asynchrony between perception results and USV position, and leading to error decisions of autonomous navigation. Compared with Unmanned Ground Vehicles (UGVs), the robust perception of USVs develops relatively slowly. Moreover, most current multi-task perception models are huge in parameters, slow in inference and not scalable. Oriented on this, we propose Achelous, a low-cost and fast unified panoptic perception framework for water-surface perception based on the fusion of a monocular camera and 4D mmWave radar. Achelous can simultaneously perform five tasks, detection and segmentation of visual targets, drivable-area segmentation, waterline segmentation and radar point cloud segmentation. Besides, models in Achelous family, with less than around 5 million parameters, achieve about 18 FPS on an NVIDIA Jetson AGX Xavier, 11 FPS faster than HybridNets, and exceed YOLOX-Tiny and Segformer-B0 on our collected dataset about 5 mAP$_{\text{50-95}}$ and 0.7 mIoU, especially under situations of adverse weather, dark environments and camera failure. To our knowledge, Achelous is the first comprehensive panoptic perception framework combining vision-level and point-cloud-level tasks for water-surface perception. To promote the development of the intelligent transportation community, we release our codes in \url{https://github.com/GuanRunwei/Achelous}.
翻訳日:2023-07-17 15:10:55 公開日:2023-07-14
# 離散分数フーリエ変換と位相変調によるユニバーサルユニタリフォトニック回路

Universal Unitary Photonic Circuits by Interlacing Discrete Fractional Fourier Transform and Phase Modulation ( http://arxiv.org/abs/2307.07101v1 )

ライセンス: Link先を確認
Matthew Markowitz and Mohammad-Ali Miri(参考訳) 任意の線形離散ユニタリ作用素の効率的なフォトニック実装を可能にする複素ユニタリ行列の新しいパラメータ化を提案する。 提案されたアーキテクチャは、$n \times n$ユニタリ行列をインターレース離散分数フーリエ変換と$n$-パラメータ対角位相シフトに分解する。 このような構成は、n+1$の位相層を持つ任意のユニタリ作用素を表現できることを示す。 与えられたユニタリ行列を実装するための最適な位相パラメータを求めるための勾配に基づくアルゴリズムについて述べる。 N+1$の臨界値を超える位相層の数を増やすことで、最適化はシステムが過度に決定されるにつれて、常に速く収束する。 本稿では、導波路アレイと再構成可能な位相変調器を組み合わせた集積フォトニック回路の実現を提案する。 提案アーキテクチャは、光学古典および量子情報処理のためのプログラマブルフォトニック回路の新たなファミリーを開発するための道を開くことができる。

We introduce a novel parameterization of complex unitary matrices, which allows for the efficient photonic implementation of arbitrary linear discrete unitary operators. The proposed architecture is built on factorizing an $N \times N$ unitary matrix into interlaced discrete fractional Fourier transforms and $N$-parameter diagonal phase shifts. We show that such a configuration can represent arbitrary unitary operators with $N+1$ phase layers. We discuss a gradient-based algorithm for finding the optimal phase parameters for implementing a given unitary matrix. By increasing the number of phase layers beyond the critical value of $N+1$, the optimization consistently converges faster as the system becomes over-determined. We propose an integrated photonic circuit realization of this architecture with coupled waveguide arrays and reconfigurable phase modulators. The proposed architecture can pave the way for developing novel families of programmable photonic circuits for optical classical and quantum information processing.
翻訳日:2023-07-17 15:10:14 公開日:2023-07-14
# LLMに基づく属性操作による効率的な学習データ生成

Generating Efficient Training Data via LLM-based Attribute Manipulation ( http://arxiv.org/abs/2307.07099v1 )

ライセンス: Link先を確認
Letian Peng, Yuwei Zhang, Jingbo Shang(参考訳) 本稿では,大規模言語モデル (LLM) から慎重に構築されたデータを用いて,少数ショット学習を指導するための新しい手法であるCoTAMを提案する。 主なアイデアは、タスクがターゲットとする属性のみの変更を伴うデータを作成することです。 顔属性の操作にインスパイアされ,LLMを利用してタスク固有の属性を操作し,新しい文を制御的に再構築することでラベル変更データを生成する。 従来の潜在表現制御の代わりに,LLMに適応するために連鎖分解と再構成を実装した。 テキスト分類やその他のタスクの広範な結果は、同じトレーニング例数で他のLLMベースのテキスト生成方法よりもCoTAMの利点を検証している。 分析はcotamの属性操作効果を可視化し、さらに少ない監督でllm誘導学習の可能性を示す。

In this paper, we propose a novel method, Chain-of-Thoughts Attribute Manipulation (CoTAM), to guide few-shot learning by carefully crafted data from Large Language Models (LLMs). The main idea is to create data with changes only in the attribute targeted by the task. Inspired by facial attribute manipulation, our approach generates label-switched data by leveraging LLMs to manipulate task-specific attributes and reconstruct new sentences in a controlled manner. Instead of conventional latent representation controlling, we implement chain-of-thoughts decomposition and reconstruction to adapt the procedure to LLMs. Extensive results on text classification and other tasks verify the advantage of CoTAM over other LLM-based text generation methods with the same number of training examples. Analysis visualizes the attribute manipulation effectiveness of CoTAM and presents the potential of LLM-guided learning with even less supervision.
翻訳日:2023-07-17 15:09:57 公開日:2023-07-14
# Do Not Mask Randomly:masking In-domain Keywordsによる効果的なドメイン適応型事前学習

Do not Mask Randomly: Effective Domain-adaptive Pre-training by Masking In-domain Keywords ( http://arxiv.org/abs/2307.07160v1 )

ライセンス: Link先を確認
Shahriar Golchin, Mihai Surdeanu, Nazgol Tavabi, Ata Kiapour(参考訳) 汎用的な事前学習と微調整の中間に位置するタスク非依存のドメイン事前学習手法を提案する。 提案手法はドメイン内のキーワード,すなわちターゲットドメインのコンパクトな表現を提供する単語を選択的にマスキングする。 このようなキーワードをkeyBERT (Grootendorst, 2020) を用いて同定する。 3つのデータセットと2つの異なる事前学習言語モデル(PLM)を組み合わせることで、アプローチを6つの異なる設定で評価する。 本研究の結果から,本手法を応用した微調整 PLM は,ランダムマスキングとドメイン内事前トレーニングを用いた PLM よりも優れた性能を示した。 さらに、INドメインキーワードを特定するオーバーヘッドは、例えばBERT Large (Devlin et al., 2019)の事前トレーニング時間(2つのエポック)の7-15%など、合理的である。

We propose a novel task-agnostic in-domain pre-training method that sits between generic pre-training and fine-tuning. Our approach selectively masks in-domain keywords, i.e., words that provide a compact representation of the target domain. We identify such keywords using KeyBERT (Grootendorst, 2020). We evaluate our approach using six different settings: three datasets combined with two distinct pre-trained language models (PLMs). Our results reveal that the fine-tuned PLMs adapted using our in-domain pre-training strategy outperform PLMs that used in-domain pre-training with random masking as well as those that followed the common pre-train-then-fine-tune paradigm. Further, the overhead of identifying in-domain keywords is reasonable, e.g., 7-15% of the pre-training time (for two epochs) for BERT Large (Devlin et al., 2019).
翻訳日:2023-07-17 15:02:20 公開日:2023-07-14
# ライドバーグ原子の暗経路を通る幾何学的量子ゲート

Geometric quantum gates via dark paths in Rydberg atoms ( http://arxiv.org/abs/2307.07148v1 )

ライセンス: Link先を確認
Zhu-yao Jin and Jun Jing(参考訳) 非断熱ホロノミック量子計算は、高速幾何学的量子ゲートを構築するための有望な方法を提供した。 外部ノイズに対するほぼ完全なレジリエンスを特徴とするが、体系的な誤りに感受性がある。 後者は、クローズドシステムシナリオにおけるダークパススキームによって部分的に緩和される可能性がある。 有効な4レベル構成に基づいて,リドバーグ原子の暗黒経路を経由する非断熱的ホロノミック制御ゲートの普遍的集合を構築する。 既存のダークパス方式とは違い,我々のゲートは制御原子とターゲット原子の両方の非共振駆動場によって便利に実現し,操作することができる。 制御原子の駆動は、外部ノイズに対するレジリエンスを維持しながら、系統的なエラーに対して量子ゲートの堅牢性を大幅に向上させることができる。 我々のスキームは簡単に$N$-qubitの状況に一般化できる。 3量子ビットゲートは2量子ビットゲートよりもエラーの影響を受けやすい。

Nonadiabatic holonomic quantum computation provided a promising method to construct high-speed geometric quantum gates. It is featured with a near-perfect resilience to external noises, yet is found to be susceptible to systematic errors. The latter could be partially relieved by the dark-path scheme in the closed-system scenario. Based on an effective four-level configuration, we here construct a universal set of nonadiabatic holonomic controlled gates via dark paths in Rydberg atoms. Distinct from the existing dark-path scheme, our gates can be conveniently realized and manipulated by the off-resonant driving fields on both control atom and target atom. The driving on the control atom can enhance significantly the robustness of the quantum gates against systematic errors while maintaining the resilience to external noises. Our scheme can be straightforwardly generalized to the $N$-qubit situation. And the three-qubit gate is less susceptible to errors than the double-qubit one.
翻訳日:2023-07-17 15:02:00 公開日:2023-07-14
# 自己教師対象中心知覚のためのリンク視覚と運動

Linking vision and motion for self-supervised object-centric perception ( http://arxiv.org/abs/2307.07147v1 )

ライセンス: Link先を確認
Kaylene C. Stocking, Zak Murez, Vijay Badrinarayanan, Jamie Shotton, Alex Kendall, Claire Tomlin, Christopher P. Burgess(参考訳) オブジェクト中心の表現により、自律運転アルゴリズムは多くの独立したエージェントとシーンの特徴の間の相互作用を推論することができる。 伝統的にこれらの表現は教師付き学習によって得られるが、これは下流の運転タスクから知覚を分離し、一般化を損なう可能性がある。 本研究では、RGBビデオと車両のポーズを入力として、自己教師対象中心の視覚モデルを用いてオブジェクト分解を行う。 提案手法はWaymo Open認識データセット上で有望な結果が得られることを示す。 オブジェクトマスクの品質は、より特権的な情報を使用する監視方法や代替手段に遅れているが、我々のモデルは、時間とともに複数のカメラ視点を融合させる表現を学び、データセット内の多くの車両や歩行者を追跡することに成功した。 私たちのモデルのコードはhttps://github.com/wayveai/socsで利用可能です。

Object-centric representations enable autonomous driving algorithms to reason about interactions between many independent agents and scene features. Traditionally these representations have been obtained via supervised learning, but this decouples perception from the downstream driving task and could harm generalization. In this work we adapt a self-supervised object-centric vision model to perform object decomposition using only RGB video and the pose of the vehicle as inputs. We demonstrate that our method obtains promising results on the Waymo Open perception dataset. While object mask quality lags behind supervised methods or alternatives that use more privileged information, we find that our model is capable of learning a representation that fuses multiple camera viewpoints over time and successfully tracks many vehicles and pedestrians in the dataset. Code for our model is available at https://github.com/wayveai/SOCS.
翻訳日:2023-07-17 15:01:46 公開日:2023-07-14
# 無線ネットワークにおける連合学習型ai生成コンテンツ

Federated Learning-Empowered AI-Generated Content in Wireless Networks ( http://arxiv.org/abs/2307.07146v1 )

ライセンス: Link先を確認
Xumin Huang, Peichun Li, Hongyang Du, Jiawen Kang, Dusit Niyato, Dong In Kim, Yuan Wu(参考訳) 人工知能生成コンテンツ(AIGC)は、さまざまな生成AIモデルを採用することで、コンテンツ作成プロセスの効率、品質、多様性、柔軟性を向上させるための有望な技術として登場した。 無線ネットワークにAIGCサービスをデプロイすることで、ユーザエクスペリエンスが向上することが期待されている。 しかし、既存のAIGCサービス提供には、事前トレーニング、微調整、推論プロセスにおける集中トレーニング、特にプライバシ保護を備えた無線ネットワークにおける実装など、いくつかの制限がある。 データ共有を必要とせずに、協調的なデータ所有者にモデルトレーニングを配布する協調学習フレームワークであるフェデレートラーニング(FL)は、学習効率を同時に向上し、AIGCのプライバシー保護を達成するために利用することができる。 そこで我々は,AIGCの強化を目的としたFLベースの技術を提案し,ユーザが多様でパーソナライズされた高品質なコンテンツを作成できるようにすることを目的とする。 さらに,最新のAIGCモデル,すなわち安定拡散モデルを用いて,FL支援型AIGCファインチューニングのケーススタディを行う。 その結果,提案手法は通信コストを効果的に削減し,レイテンシとプライバシ保護のトレーニングを実現する。 最後に,FLとAIGCの収束に向けたいくつかの主要な研究方針と課題について述べる。

Artificial intelligence generated content (AIGC) has emerged as a promising technology to improve the efficiency, quality, diversity and flexibility of the content creation process by adopting a variety of generative AI models. Deploying AIGC services in wireless networks has been expected to enhance the user experience. However, the existing AIGC service provision suffers from several limitations, e.g., the centralized training in the pre-training, fine-tuning and inference processes, especially their implementations in wireless networks with privacy preservation. Federated learning (FL), as a collaborative learning framework where the model training is distributed to cooperative data owners without the need for data sharing, can be leveraged to simultaneously improve learning efficiency and achieve privacy protection for AIGC. To this end, we present FL-based techniques for empowering AIGC, and aim to enable users to generate diverse, personalized, and high-quality content. Furthermore, we conduct a case study of FL-aided AIGC fine-tuning by using the state-of-the-art AIGC model, i.e., stable diffusion model. Numerical results show that our scheme achieves advantages in effectively reducing the communication cost and training latency and privacy protection. Finally, we highlight several major research directions and open issues for the convergence of FL and AIGC.
翻訳日:2023-07-17 15:01:32 公開日:2023-07-14
# CFI2P:イメージ・ツー・ポイント・クラウド登録のための粗大なモーダル対応学習

CFI2P: Coarse-to-Fine Cross-Modal Correspondence Learning for Image-to-Point Cloud Registration ( http://arxiv.org/abs/2307.07142v1 )

ライセンス: Link先を確認
Gongxin Yao, Yixin Xuan, Yiwei Chen and Yu Pan(参考訳) 画像対点クラウド登録の文脈では、個々の点と画素の類似性はデータモダリティの視覚的な差異のために曖昧であるため、ポイント対画素対応の取得は困難な課題となる。 それでも、2つのデータフォーマットに存在する同じオブジェクトは、ポイントセットとピクセルパッチのローカルな視点から容易に識別できる。 この直観に動機づけられて,局所点集合と画素パッチの対応関係の確立を強調し,さらに点と画素レベルでの結果の精細化を強調する粗いto-fineフレームワークを提案する。 粗いスケールでは、古典的なVisual Transformerを模倣して、画像と点の雲を2つの局所的な表現、すなわち点と画素のプロキシに変換し、グローバルなコンテキストとクロスモーダルなコンテキストを捉える。 粗いマッチングを監督するために、より多くの点を投影できる画素パッチと一致する点集合を導出する新規な投影された点比損失を提案する。 より細かいスケールでは、サンプリングのマイナス効果を緩和するためにサンプリングマスクを最後の2ステップに埋め込む、適切に設計されたサンプリング、注意学習、ファインマッチングを通じて、より小さな探索空間(つまり粗いマッチングセットとパッチ)からポイント・ツー・ピクセル対応を洗練する。 高品質な対応により、登録問題はRANSAC内のEPnPアルゴリズムによって解決される。 大規模屋外ベンチマーク実験の結果,既存の手法よりも優れた結果が得られた。

In the context of image-to-point cloud registration, acquiring point-to-pixel correspondences presents a challenging task since the similarity between individual points and pixels is ambiguous due to the visual differences in data modalities. Nevertheless, the same object present in the two data formats can be readily identified from the local perspective of point sets and pixel patches. Motivated by this intuition, we propose a coarse-to-fine framework that emphasizes the establishment of correspondences between local point sets and pixel patches, followed by the refinement of results at both the point and pixel levels. On a coarse scale, we mimic the classic Visual Transformer to translate both image and point cloud into two sequences of local representations, namely point and pixel proxies, and employ attention to capture global and cross-modal contexts. To supervise the coarse matching, we propose a novel projected point proportion loss, which guides to match point sets with pixel patches where more points can be projected into. On a finer scale, point-to-pixel correspondences are then refined from a smaller search space (i.e., the coarsely matched sets and patches) via well-designed sampling, attentional learning and fine matching, where sampling masks are embedded in the last two steps to mitigate the negative effect of sampling. With the high-quality correspondences, the registration problem is then resolved by EPnP algorithm within RANSAC. Experimental results on large-scale outdoor benchmarks demonstrate our superiority over existing methods.
翻訳日:2023-07-17 15:01:10 公開日:2023-07-14
# SLSSNN:時空間変換を用いた高エネルギー効率スパイクトレインレベルスパイキングニューラルネットワーク

SLSSNN: High energy efficiency spike-train level spiking neural networks with spatio-temporal conversion ( http://arxiv.org/abs/2307.07136v1 )

ライセンス: Link先を確認
Changqing Xu, Yi Liu, and Yintang Yang(参考訳) 脳にインスパイアされたスパイクニューロンネットワーク(SNN)は、低電力特性、高い生物学的可視性、強い時空間情報処理能力により、広く研究の関心を集めている。 代理勾配(SG)を採用することで、SNNの非微分性は訓練可能であるが、ANNと同等の精度を達成し、低消費電力機能を同時に維持することは依然として難しい。 本稿では,エネルギー効率の高いスパイクトレインレベルのスパイクニューラルネットワーク(SLSSNN)を提案する。 SLSSNNでは、SNNの低消費電力特性を維持し、精度を向上させるために、畳み込み層とReLU層を置き換えるために時空間変換ブロック(STCB)が適用される。 しかし、SLSSNNはスパイク列車の非微分性の性質のため、バックプロパゲーションアルゴリズムを直接採用することはできない。 そこで本研究では,STCBの勾配を推定し,SLSSNNに適した学習規則を提案する。 Fashion-Mnist, Cifar10, Cifar100, TinyImageNet, DVS-Cifar10など, 静的およびニューロモルフィックなデータセットを用いたSLSSNNの評価を行った。 実験の結果,提案したSLSSNNは,時間ステップが少なく,エネルギー効率も高いため,ほぼすべてのデータセットにおいて最先端の精度よりも優れていた。

Brain-inspired spiking neuron networks (SNNs) have attracted widespread research interest due to their low power features, high biological plausibility, and strong spatiotemporal information processing capability. Although adopting a surrogate gradient (SG) makes the non-differentiability SNN trainable, achieving comparable accuracy for ANNs and keeping low-power features simultaneously is still tricky. In this paper, we proposed an energy-efficient spike-train level spiking neural network (SLSSNN) with low computational cost and high accuracy. In the SLSSNN, spatio-temporal conversion blocks (STCBs) are applied to replace the convolutional and ReLU layers to keep the low power features of SNNs and improve accuracy. However, SLSSNN cannot adopt backpropagation algorithms directly due to the non-differentiability nature of spike trains. We proposed a suitable learning rule for SLSSNNs by deducing the equivalent gradient of STCB. We evaluate the proposed SLSSNN on static and neuromorphic datasets, including Fashion-Mnist, Cifar10, Cifar100, TinyImageNet, and DVS-Cifar10. The experiment results show that our proposed SLSSNN outperforms the state-of-the-art accuracy on nearly all datasets, using fewer time steps and being highly energy-efficient.
翻訳日:2023-07-17 15:00:44 公開日:2023-07-14
# MMSD2.0:信頼性の高いマルチモーダルサーカスム検出システムを目指して

MMSD2.0: Towards a Reliable Multi-modal Sarcasm Detection System ( http://arxiv.org/abs/2307.07135v1 )

ライセンス: Link先を確認
Libo Qin, Shijue Huang, Qiguang Chen, Chenran Cai, Yudi Zhang, Bin Liang, Wanxiang Che and Ruifeng Xu(参考訳) マルチモーダルサーカズム検出は近年注目を集めている。 それにもかかわらず、既存のベンチマーク(MMSD)には、信頼性の高いマルチモーダルサルカズム検出システムの開発を妨げる欠点がいくつかある。 上記の問題を解決するために,MMSDの欠点を修正する修正データセットであるMMSD2.0を導入する。 また,複数視点(テキスト,画像,テキスト画像のインタラクションビューなど)からマルチモーダルサルカズム検出に活用可能な,マルチビューCLIPという新しいフレームワークを提案する。 MMSD2.0は信頼性の高いマルチモーダルサルカズム検出システムを構築する上で貴重なベンチマークであり、Multi-view CLIPは以前の最高のベースラインを大幅に上回っている。

Multi-modal sarcasm detection has attracted much recent attention. Nevertheless, the existing benchmark (MMSD) has some shortcomings that hinder the development of reliable multi-modal sarcasm detection system: (1) There are some spurious cues in MMSD, leading to the model bias learning; (2) The negative samples in MMSD are not always reasonable. To solve the aforementioned issues, we introduce MMSD2.0, a correction dataset that fixes the shortcomings of MMSD, by removing the spurious cues and re-annotating the unreasonable samples. Meanwhile, we present a novel framework called multi-view CLIP that is capable of leveraging multi-grained cues from multiple perspectives (i.e., text, image, and text-image interaction view) for multi-modal sarcasm detection. Extensive experiments show that MMSD2.0 is a valuable benchmark for building reliable multi-modal sarcasm detection systems and multi-view CLIP can significantly outperform the previous best baselines.
翻訳日:2023-07-17 15:00:20 公開日:2023-07-14
# 機械学習アルゴリズムの多次元能力診断

Multi-Dimensional Ability Diagnosis for Machine Learning Algorithms ( http://arxiv.org/abs/2307.07134v1 )

ライセンス: Link先を確認
Qi Liu, Zheng Gong, Zhenya Huang, Chuanren Liu, Hengshu Zhu, Zhi Li, Enhong Chen and Hui Xiong(参考訳) 機械学習アルゴリズムは多くのアプリケーション(画像分類など)においてユビキタスになっている。 しかし、従来の測定値(例えば、各分類器の粗い粒度の精度)が不十分なため、これらのアルゴリズムの実際の性能と標準化された評価におけるスコアとの間には、かなりのギャップが通常観察される。 本稿では,人間の測定から得られる心理測定理論に着想を得て,機械学習アルゴリズムの多面的強度を協調的に測定する多次元診断計量能力を定義するタスク非依存評価フレームワークCamillaを提案する。 具体的には、異なるアルゴリズムからデータサンプルへの応答ログを考えると、認知診断の仮定とニューラルネットワークを利用して、各サンプルのアルゴリズム、サンプル、スキル(説明的または暗黙的に定義された)間の複雑なインタラクションを学習する。 このようにして、複数のスキルにおける各アルゴリズムの能力といくつかのサンプル要因(サンプル難易度など)を同時に定量化することができる。 4つの公開データセット上で数百の機械学習アルゴリズムを用いた広範囲な実験を行い,各アルゴリズムの長所と短所をより正確に把握できるだけでなく,メートル法信頼性,ランク一貫性,ランク安定性において最先端のベースラインを上回っていることを示した。

Machine learning algorithms have become ubiquitous in a number of applications (e.g. image classification). However, due to the insufficient measurement of traditional metrics (e.g. the coarse-grained Accuracy of each classifier), substantial gaps are usually observed between the real-world performance of these algorithms and their scores in standardized evaluations. In this paper, inspired by the psychometric theories from human measurement, we propose a task-agnostic evaluation framework Camilla, where a multi-dimensional diagnostic metric Ability is defined for collaboratively measuring the multifaceted strength of each machine learning algorithm. Specifically, given the response logs from different algorithms to data samples, we leverage cognitive diagnosis assumptions and neural networks to learn the complex interactions among algorithms, samples and the skills (explicitly or implicitly pre-defined) of each sample. In this way, both the abilities of each algorithm on multiple skills and some of the sample factors (e.g. sample difficulty) can be simultaneously quantified. We conduct extensive experiments with hundreds of machine learning algorithms on four public datasets, and our experimental results demonstrate that Camilla not only can capture the pros and cons of each algorithm more precisely, but also outperforms state-of-the-art baselines on the metric reliability, rank consistency and rank stability.
翻訳日:2023-07-17 14:59:59 公開日:2023-07-14
# CeRF:光モデリングの導出による新しいビュー合成のための畳み込みニューラルラジアンス場

CeRF: Convolutional Neural Radiance Fields for New View Synthesis with Derivatives of Ray Modeling ( http://arxiv.org/abs/2307.07125v1 )

ライセンス: Link先を確認
Xiaoyan Yang, Dingbo Lu, Yang Li, Chenhui Li, Changbo Wang(参考訳) 近年,高忠実度画像の生成において,新しいビュー合成が普及している。 新規なビューを合成するタスクにおいて優れた性能を示す一方で、これらの手法の大部分は、シーン埋め込みのための従来の多層パーセプトロンに基づいている。 さらに、光電界モデルでは画素レンダリング中に幾何的なぼやけが生じ、放射場に基づくボリュームレンダリング法は密度分布積分の特定のターゲットに対して複数の解を持つ。 これらの問題に対処するために、光線に沿った放射の微分をモデル化する畳み込みニューラルレイディアンス場を導入する。 提案手法は, 1次元畳み込み演算に基づいて, 構造化ニューラルネットワークアーキテクチャによる潜在的光線表現を効果的に抽出する。 さらに,提案するレイモデリングでは,完全なニューラルネットワークレンダリングプロセスにおける幾何学的曖昧さを解決するために,再帰的モジュールが用いられる。 既存の最先端手法と比較して,提案手法の有望な結果を示した。

In recent years, novel view synthesis has gained popularity in generating high-fidelity images. While demonstrating superior performance in the task of synthesizing novel views, the majority of these methods are still based on the conventional multi-layer perceptron for scene embedding. Furthermore, light field models suffer from geometric blurring during pixel rendering, while radiance field-based volume rendering methods have multiple solutions for a certain target of density distribution integration. To address these issues, we introduce the Convolutional Neural Radiance Fields to model the derivatives of radiance along rays. Based on 1D convolutional operations, our proposed method effectively extracts potential ray representations through a structured neural network architecture. Besides, with the proposed ray modeling, a proposed recurrent module is employed to solve geometric ambiguity in the fully neural rendering process. Extensive experiments demonstrate the promising results of our proposed model compared with existing state-of-the-art methods.
翻訳日:2023-07-17 14:59:36 公開日:2023-07-14
# フラッドインサイトの改善:拡散型SARからEO画像への変換

Improved Flood Insights: Diffusion-Based SAR to EO Image Translation ( http://arxiv.org/abs/2307.07123v1 )

ライセンス: Link先を確認
Minseok Seo, Youngtack Oh, Doyi Kim, Dongmin Kang, Yeji Choi(参考訳) 急速な気候変動によって、洪水の頻度と強度が増加している。 エレクトロオプティカル(EO)衛星画像は、迅速な応答に一般的に使用される。 しかし、洪水時の実用性は、夜間の雲の覆いや制限などの問題によって妨げられ、損傷の正確な評価は困難である。 合成開口レーダ(SAR)データを用いた洪水検出手法が提案されている。 上記の状況では、SARがEOよりも優れているが、SARには明確な欠点がある。 この問題に対処するために,Deffusion-based SAR to EO Image Translation (DSE) という新しいフレームワークを提案する。 DSEフレームワークは,SAR画像をEO画像に変換することにより,洪水の洞察の解釈可能性を高める。 Sen1Floods11とSEN12-FLOODデータセットの実験結果は、DSEフレームワークが拡張された視覚情報を提供するだけでなく、テストされたすべてのフラッドセグメンテーションベースラインのパフォーマンスも向上することを確認した。

Driven by rapid climate change, the frequency and intensity of flood events are increasing. Electro-Optical (EO) satellite imagery is commonly utilized for rapid response. However, its utilities in flood situations are hampered by issues such as cloud cover and limitations during nighttime, making accurate assessment of damage challenging. Several alternative flood detection techniques utilizing Synthetic Aperture Radar (SAR) data have been proposed. Despite the advantages of SAR over EO in the aforementioned situations, SAR presents a distinct drawback: human analysts often struggle with data interpretation. To tackle this issue, this paper introduces a novel framework, Diffusion-Based SAR to EO Image Translation (DSE). The DSE framework converts SAR images into EO images, thereby enhancing the interpretability of flood insights for humans. Experimental results on the Sen1Floods11 and SEN12-FLOOD datasets confirm that the DSE framework not only delivers enhanced visual information but also improves performance across all tested flood segmentation baselines.
翻訳日:2023-07-17 14:59:20 公開日:2023-07-14
# safe dreamerv3: 世界モデルによる安全強化学習

Safe DreamerV3: Safe Reinforcement Learning with World Models ( http://arxiv.org/abs/2307.07176v1 )

ライセンス: Link先を確認
Weidong Huang, Jiaming Ji, Borong Zhang, Chunhe Xia, Yaodong Yang(参考訳) 現実世界の状況における強化学習(rl)の広範な適用は、その必然的な安全性要求を満たせなかったため、まだ成果を上げていない。 既存の安全強化学習(SafeRL)手法は、安全性を高めるためにコスト関数を使用し、包括的なデータサンプリングやトレーニングでさえも、視覚のみのタスクを含む複雑なシナリオでゼロコストを達成することができない。 そこで我々は,世界モデルにラグランジアンと計画に基づく手法を統合する新しいアルゴリズムであるsafe dreamerv3を提案する。 本手法は,Safe-Gymnasiumベンチマークにおける低次元および視覚のみのタスクにおいて,ほぼゼロコストで実現した最初のアルゴリズムとして,SafeRLの大幅な進歩を示す。 プロジェクトのwebサイトは、https://sites.google.com/view/safedreamerv3.comで見ることができる。

The widespread application of Reinforcement Learning (RL) in real-world situations is yet to come to fruition, largely as a result of its failure to satisfy the essential safety demands of such systems. Existing safe reinforcement learning (SafeRL) methods, employing cost functions to enhance safety, fail to achieve zero-cost in complex scenarios, including vision-only tasks, even with comprehensive data sampling and training. To address this, we introduce Safe DreamerV3, a novel algorithm that integrates both Lagrangian-based and planning-based methods within a world model. Our methodology represents a significant advancement in SafeRL as the first algorithm to achieve nearly zero-cost in both low-dimensional and vision-only tasks within the Safety-Gymnasium benchmark. Our project website can be found in: https://sites.google.com/view/safedreamerv3.
翻訳日:2023-07-17 14:53:36 公開日:2023-07-14
# 偏微分方程式の変分量子シミュレーション:コロイド輸送への応用

Variational Quantum Simulation of Partial Differential Equations: Applications in Colloidal Transport ( http://arxiv.org/abs/2307.07173v1 )

ライセンス: Link先を確認
Fong Yew Leong, Dax Enshan Koh, Wei-Bin Ewe and Jian Feng Kong(参考訳) 偏微分方程式の解法として,変分量子想像時間進化法を応用した。 その結果, 全円形絡み込み層を有する実振幅アンザレーツは, 部分絡み層や線形絡み込み層に比べて高い忠実度解をもたらすことがわかった。 インパルス関数を効率的にエンコードするために、パラメトリックゲートの1ビットフリップのみを必要とする量子状態のグラフィカルマッピング手法を提案する。 概念実証として,derjaguin-landau-verwey-overbeek (dlvo) ポテンシャルエネルギーを含むsmoluchowski方程式を解いて,平面壁上のコロイド沈着をシミュレートする。 オーバーパラメータ化は境界条件を満たすために必要であり,高次時間ステップは正規誤差を効果的に低減できる。 近距離量子デバイスを用いた偏微分方程式を解くための変分量子シミュレーションの可能性について考察した。

We assess the use of variational quantum imaginary time evolution for solving partial differential equations. Our results demonstrate that real-amplitude ansaetze with full circular entangling layers lead to higher-fidelity solutions compared to those with partial or linear entangling layers. To efficiently encode impulse functions, we propose a graphical mapping technique for quantum states that often requires only a single bit-flip of a parametric gate. As a proof of concept, we simulate colloidal deposition on a planar wall by solving the Smoluchowski equation including the Derjaguin-Landau-Verwey-Overbeek (DLVO) potential energy. We find that over-parameterization is necessary to satisfy certain boundary conditions and that higher-order time-stepping can effectively reduce norm errors. Together, our work highlights the potential of variational quantum simulation for solving partial differential equations using near-term quantum devices.
翻訳日:2023-07-17 14:53:19 公開日:2023-07-14
# FedBIAD:ベイズ推論に基づく適応型ドロップアウトによるコミュニケーション効率と正確性を考慮したフェデレーション学習

FedBIAD: Communication-Efficient and Accuracy-Guaranteed Federated Learning with Bayesian Inference-Based Adaptive Dropout ( http://arxiv.org/abs/2307.07172v1 )

ライセンス: Link先を確認
Jingjing Xue and Min Liu and Sheng Sun and Yuwei Wang and Hui Jiang and Xuefeng Jiang(参考訳) federated learning(fl)は、エンドユーザのデータ送信を伴わない分散機械学習パラダイムとして登場し、プライバシリークを効果的に回避する。 FLの参加デバイスは通常帯域幅が制限されており、アップリンクは無線ネットワークのダウンリンクよりもはるかに遅いため、アップリンク通信のボトルネックが深刻になる。 この問題を緩和するための顕著な方向は、局所モデルの分数重みを落とすフェデレーション・ドロップアウトである。 しかし、既存のフェデレーテッド・ドロップアウトの研究は、ランダムまたは順序づけられたドロップアウトに焦点を合わせ、理論的なサポートを欠いているため、あいまいなパフォーマンスをもたらす。 本稿では,局所モデルの重み行を確率分布とみなし,局所的なトレーニング損失傾向に相関した重要指標に基づいて部分的な重み行を適応的にドロップする,ベイズ推論に基づく適応型学習(FedBIAD)を提案する。 FedBIADを適用することで、各クライアントは正確な近似で高品質なドロップパターンを適応的に選択し、非ドロップ重み列のパラメータのみを送信し、アップリンクコストを低減し、精度を向上させる。 理論的解析により、FedBIADの平均一般化誤差の収束率は2乗対数係数まで極小であることが示された。 画像分類と次の単語予測に関する大規模な実験により、FedBIADはステータスクオアプローチと比較して、非独立およびIdentically Distributed(非IID)データでも最大2.41%の精度で2倍のアップリンク削減を実現し、トレーニング時間を最大72%削減することを示した。

Federated Learning (FL) emerges as a distributed machine learning paradigm without end-user data transmission, effectively avoiding privacy leakage. Participating devices in FL are usually bandwidth-constrained, and the uplink is much slower than the downlink in wireless networks, which causes a severe uplink communication bottleneck. A prominent direction to alleviate this problem is federated dropout, which drops fractional weights of local models. However, existing federated dropout studies focus on random or ordered dropout and lack theoretical support, resulting in unguaranteed performance. In this paper, we propose Federated learning with Bayesian Inference-based Adaptive Dropout (FedBIAD), which regards weight rows of local models as probability distributions and adaptively drops partial weight rows based on importance indicators correlated with the trend of local training loss. By applying FedBIAD, each client adaptively selects a high-quality dropping pattern with accurate approximations and only transmits parameters of non-dropped weight rows to mitigate uplink costs while improving accuracy. Theoretical analysis demonstrates that the convergence rate of the average generalization error of FedBIAD is minimax optimal up to a squared logarithmic factor. Extensive experiments on image classification and next-word prediction show that compared with status quo approaches, FedBIAD provides 2x uplink reduction with an accuracy increase of up to 2.41% even on non-Independent and Identically Distributed (non-IID) data, which brings up to 72% decrease in training time.
翻訳日:2023-07-17 14:53:02 公開日:2023-07-14
# 自己否定型大規模言語モデルのロバスト性

Certified Robustness for Large Language Models with Self-Denoising ( http://arxiv.org/abs/2307.07171v1 )

ライセンス: Link先を確認
Zhen Zhang, Guanhua Zhang, Bairu Hou, Wenqi Fan, Qing Li, Sijia Liu, Yang Zhang, Shiyu Chang(参考訳) 大規模な言語モデル(llm)は、膨大な実世界アプリケーションで大きな成功を収めているが、ノイズの多い入力に対する脆弱性は、特に高スループット環境での使用を著しく制限している。 これらの文脈において、大きな言語モデルによってなされる全ての予測が安定であることを保証することが重要である。 このことは、LLMの全ての予測が入力の周囲の局所領域で正しいと認定される、証明された堅牢なLSMの研究に大きく影響する。 ランダムな平滑化はLLMの堅牢性と予測安定性を証明する大きな可能性を示している。 しかし、ランダム化平滑化には、モデル予測の前に入力にノイズを加える必要があり、その認証性能は、破損したデータに対するモデルの性能に大きく依存する。 結果として、LSMへの直接適用は依然として困難であり、しばしば小さな認証半径となる。 この問題に対処するために, LLM のマルチタスク特性を活用し, 劣化した入力を自己復号化方式で復号化することを提案する。 LLMの堅牢化のために個別のモデルを訓練する必要があるような従来の手法とは異なり、我々の手法ははるかに優れた効率と柔軟性を享受できる。 実験の結果,本手法は,証明された堅牢性と実証的堅牢性の両方の下で,既存の認証手法よりも優れていることがわかった。 コードはhttps://github.com/UCSB-NLP-Chang/SelfDenoiseで公開されている。

Although large language models (LLMs) have achieved great success in vast real-world applications, their vulnerabilities towards noisy inputs have significantly limited their uses, especially in high-stake environments. In these contexts, it is crucial to ensure that every prediction made by large language models is stable, i.e., LLM predictions should be consistent given minor differences in the input. This largely falls into the study of certified robust LLMs, i.e., all predictions of LLM are certified to be correct in a local region around the input. Randomized smoothing has demonstrated great potential in certifying the robustness and prediction stability of LLMs. However, randomized smoothing requires adding noise to the input before model prediction, and its certification performance depends largely on the model's performance on corrupted data. As a result, its direct application to LLMs remains challenging and often results in a small certification radius. To address this issue, we take advantage of the multitasking nature of LLMs and propose to denoise the corrupted inputs with LLMs in a self-denoising manner. Different from previous works like denoised smoothing, which requires training a separate model to robustify LLM, our method enjoys far better efficiency and flexibility. Our experiment results show that our method outperforms the existing certification methods under both certified robustness and empirical robustness. The codes are available at https://github.com/UCSB-NLP-Chang/SelfDenoise.
翻訳日:2023-07-17 14:52:30 公開日:2023-07-14
# 計測専用量子回路における位相遷移と高速スクランブル位相の証拠

Phase transition and evidence of fast-scrambling phase in measurement-only quantum circuit ( http://arxiv.org/abs/2307.07170v1 )

ライセンス: Link先を確認
Yoshihito Kuno, Takahiro Orito, Ikuo Ichinose(参考訳) 情報スクランブルは、現在様々な研究分野において最も重要なトピックの1つである。 測定専用回路(MoC)は、射影測定の種類と相互の反共性度に応じて、特定の情報スクランブルダイナミックスを示す。 MoCsにおける射影測定の空間範囲は、回路力学に大きな影響を及ぼす。 本研究では,長距離MOCを紹介し,その力学に興味深い挙動を示す。 特に、長距離測定は、長距離 MoC に特有の測定の反可換的フラストレーションから生じる、単位時間進化のない MoC の体積-法則位相を誘導することができる。 この現象は、2体測定のみからなるmocにおいても起こり、絡み合い相転移を伴う。 重要なことに、我々の数字は、MoCsが高速スクランブラになりうる証拠を見つける。 測定値間の高い反可換性の相互作用とその長距離特性は、線形光円錐拡散を超えて系全体の高速な絡み合い成長をもたらす。

Information scrambling is nowadays one of the most important topics in various fields of research. Measurement-only circuit (MoC) exhibits specific information scrambling dynamics, depending on the types of projective measurements and their mutual anti-commutativity. The spatial range of the projective measurements in MoCs gives significant influences on circuit dynamics. In this work, we introduce and study long-range MoCs, which exhibit an interesting behavior in their dynamics. In particular, the long-range measurements can induce volume-law phases in MoCs without unitary time evolution, which come from anti-commutative frustration of measurements specific to the long-range MoCs. This phenomenon occurs even in MoCs composed of solely two-body measurements, and it accompanies an entanglement phase transition. Crucially, our numerics find evidences that MoCs can be a fast scrambler. Interplay of high anti-commutativity among measurements and their long-range properties generates fast entanglement growth in the whole system beyond linear-light-cone spreading.
翻訳日:2023-07-17 14:52:05 公開日:2023-07-14
# 全スライド画像セマンティクスセグメンテーションにおけるアクティブラーニングのための適応領域選択

Adaptive Region Selection for Active Learning in Whole Slide Image Semantic Segmentation ( http://arxiv.org/abs/2307.07168v1 )

ライセンス: Link先を確認
Jingna Qiu, Frauke Wilm, Mathias \"Ottl, Maja Schlereth, Chang Liu, Tobias Heimann, Marc Aubreville, and Katharina Breininger(参考訳) 教師付きセグメンテーションモデルのトレーニングを目的とした,組織学的ギガピクセルサイズ全スライド画像(wsis)を画素レベルでアノテートするプロセスは,時間を要する。 領域ベースアクティブラーニング(AL)では、画像全体のアノテーションを要求する代わりに、限られた数の注釈付き画像領域でモデルをトレーニングする。 アノテーション領域は反復的に選択され、アノテーション領域を最小限に抑えながらモデル性能を最適化する。 領域選択の標準方法は、所定のサイズのすべての平方領域の情報量を評価し、最も情報量の多い領域の特定量を選択する。 本手法の効率は、alステップサイズ(すなわち、領域サイズとwsiごとの選択された領域数の組み合わせ)の選択に大きく依存しており、alステップのサブ最適サイズは、冗長なアノテーション要求または膨らんだ計算コストをもたらす可能性がある。 本稿では,このALハイパーパラメータに依存するアノテーション領域を適応的に選択する手法を提案する。 具体的には,まず情報領域を特定し,次にその最適境界ボックスを検出することで各領域を動的に決定する。 CAMELYON16データセットの乳がん転移セグメンテーションのタスクを用いて本手法の評価を行い,各種ALステップサイズの標準手法よりも高いサンプリング効率が得られることを示す。 組織領域の2.6\%のみをアノテートすることで、完全なアノテーション性能を実現し、wsiデータセットにアノテートするコストを大幅に削減します。 ソースコードはhttps://github.com/DeepMicroscopy/AdaptiveRegionSelectionで入手できる。

The process of annotating histological gigapixel-sized whole slide images (WSIs) at the pixel level for the purpose of training a supervised segmentation model is time-consuming. Region-based active learning (AL) involves training the model on a limited number of annotated image regions instead of requesting annotations of the entire images. These annotation regions are iteratively selected, with the goal of optimizing model performance while minimizing the annotated area. The standard method for region selection evaluates the informativeness of all square regions of a specified size and then selects a specific quantity of the most informative regions. We find that the efficiency of this method highly depends on the choice of AL step size (i.e., the combination of region size and the number of selected regions per WSI), and a suboptimal AL step size can result in redundant annotation requests or inflated computation costs. This paper introduces a novel technique for selecting annotation regions adaptively, mitigating the reliance on this AL hyperparameter. Specifically, we dynamically determine each region by first identifying an informative area and then detecting its optimal bounding box, as opposed to selecting regions of a uniform predefined shape and size as in the standard method. We evaluate our method using the task of breast cancer metastases segmentation on the public CAMELYON16 dataset and show that it consistently achieves higher sampling efficiency than the standard method across various AL step sizes. With only 2.6\% of tissue area annotated, we achieve full annotation performance and thereby substantially reduce the costs of annotating a WSI dataset. The source code is available at https://github.com/DeepMicroscopy/AdaptiveRegionSelection.
翻訳日:2023-07-17 14:51:48 公開日:2023-07-14
# 逆行訓練における脆弱性認識型インスタンス再重み付け

Vulnerability-Aware Instance Reweighting For Adversarial Training ( http://arxiv.org/abs/2307.07167v1 )

ライセンス: Link先を確認
Olukorede Fakorede, Ashutosh Kumar Nirala, Modeste Atsague, Jin Tian(参考訳) 対人訓練(AT)は、対人攻撃に対する深層学習分類器の堅牢性を大幅に向上させる。 atは分類器の訓練に敵の例を含めることで堅牢性を得る。 ATアルゴリズムのほとんどの変種は、全てのトレーニング例を等しく扱う。 しかし、近年の研究では、それらを不平等に扱うことで、より良いパフォーマンスが達成できることが示されている。 さらに、ATはトレーニングセット内の異なるクラスに不均一な影響を及ぼし、本質的に分類が難しいクラスに対応する例を不公平に傷つけていることが観察されている。 その結果、トレーニングセットにおける個々の例のロバストな損失に不等重みを割り当てる様々な再重み付けスキームが提案されている。 本稿では,新しいインスタンス毎の重み付け方式を提案する。 それは、それぞれの自然例の脆弱性と、敵の攻撃によって引き起こされる敵側の情報損失を考える。 実験により,提案手法は既存の再重み付け方式,特に強大な白黒箱攻撃に対して有意に改善することを示した。

Adversarial Training (AT) has been found to substantially improve the robustness of deep learning classifiers against adversarial attacks. AT involves obtaining robustness by including adversarial examples in training a classifier. Most variants of AT algorithms treat every training example equally. However, recent works have shown that better performance is achievable by treating them unequally. In addition, it has been observed that AT exerts an uneven influence on different classes in a training set and unfairly hurts examples corresponding to classes that are inherently harder to classify. Consequently, various reweighting schemes have been proposed that assign unequal weights to robust losses of individual examples in a training set. In this work, we propose a novel instance-wise reweighting scheme. It considers the vulnerability of each natural example and the resulting information loss on its adversarial counterpart occasioned by adversarial attacks. Through extensive experiments, we show that our proposed method significantly improves over existing reweighting schemes, especially against strong white and black-box attacks.
翻訳日:2023-07-17 14:51:19 公開日:2023-07-14
# Fetch-and-Carryタスクによる二重参照表現理解のためのヘッドテールファンネルUNITERの切り替え

Switching Head-Tail Funnel UNITER for Dual Referring Expression Comprehension with Fetch-and-Carry Tasks ( http://arxiv.org/abs/2307.07166v1 )

ライセンス: Link先を確認
Ryosuke Korekata, Motonari Kambara, Yu Yoshida, Shintaro Ishikawa, Yosuke Kawasaki, Masaki Takahashi, Komei Sugiura(参考訳) 本稿では,日常的な対象物を収集し,自然言語の指示に従って特定の目的地へ搬送するホームサービスロボットについて述べる。 dsrは「プレートの左側のボトルを空の椅子に移動する」などの指示を受けて、環境中の複数の候補からボトルと椅子を識別し、対象物を目的地に運ぶことが期待されている。 既存のマルチモーダル言語理解手法の多くは、対象対象候補と宛先候補の組合せに対する推論を必要とするため、計算複雑性の観点からは実用的ではない。 対象物と宛先を1つのモデルで個別に予測することでタスクを解決できるスイッチングヘッドタイルファンネルUNITERを提案する。 提案手法は,オブジェクト操作命令と,標準のEmbodied AIシミュレータでキャプチャされた半写真リアル画像からなる,新たに構築されたデータセット上で検証される。 その結果,本手法は言語理解の精度でベースライン法を上回っていることがわかった。 また,dsrが標準化された国内環境において,表現を指示する形で標準化された日常オブジェクトを届ける物理実験を行う。 実験の結果,物体の把握と配置動作は90%以上の成功率で達成された。

This paper describes a domestic service robot (DSR) that fetches everyday objects and carries them to specified destinations according to free-form natural language instructions. Given an instruction such as "Move the bottle on the left side of the plate to the empty chair," the DSR is expected to identify the bottle and the chair from multiple candidates in the environment and carry the target object to the destination. Most of the existing multimodal language understanding methods are impractical in terms of computational complexity because they require inferences for all combinations of target object candidates and destination candidates. We propose Switching Head-Tail Funnel UNITER, which solves the task by predicting the target object and the destination individually using a single model. Our method is validated on a newly-built dataset consisting of object manipulation instructions and semi photo-realistic images captured in a standard Embodied AI simulator. The results show that our method outperforms the baseline method in terms of language comprehension accuracy. Furthermore, we conduct physical experiments in which a DSR delivers standardized everyday objects in a standardized domestic environment as requested by instructions with referring expressions. The experimental results show that the object grasping and placing actions are achieved with success rates of more than 90%.
翻訳日:2023-07-17 14:51:03 公開日:2023-07-14
# 大規模言語モデルにおける文脈内例検索の学習

Learning to Retrieve In-Context Examples for Large Language Models ( http://arxiv.org/abs/2307.07164v1 )

ライセンス: Link先を確認
Liang Wang, Nan Yang, Furu Wei(参考訳) 大規模言語モデル(LLM)は、コンテキスト内で学習する能力を示し、いくつかの入力出力例に基づいて様々なタスクを実行できる。 しかし、文脈内学習の有効性は、選択した例の品質に大きく依存している。 本稿では,LLMの高品質なインコンテキスト例を識別可能な高密度検索を反復的に学習するフレームワークを提案する。 まず, llmフィードバックに基づく報酬モデルを訓練し, 候補例の品質評価を行い, 次いで, bi-encoderベースの高密度検索機を訓練するための知識蒸留を行った。 30のタスクからなるスイートの実験により,本フレームワークは文脈内学習性能を著しく向上させることが示された。 さらに、トレーニング中のタスクを検知するフレームワークの一般化能力を示す。 奥行き分析により,類似したパターンのサンプルを検索することで,モデルの性能が向上し,異なるサイズのLCM間で利得が整合していることが明らかになった。

Large language models (LLMs) have demonstrated their ability to learn in-context, allowing them to perform various tasks based on a few input-output examples. However, the effectiveness of in-context learning is heavily reliant on the quality of the selected examples. In this paper, we propose a novel framework to iteratively train dense retrievers that can identify high-quality in-context examples for LLMs. Our framework initially trains a reward model based on LLM feedback to evaluate the quality of candidate examples, followed by knowledge distillation to train a bi-encoder based dense retriever. Our experiments on a suite of 30 tasks demonstrate that our framework significantly enhances in-context learning performance. Furthermore, we show the generalization ability of our framework to unseen tasks during training. An in-depth analysis reveals that our model improves performance by retrieving examples with similar patterns, and the gains are consistent across LLMs of varying sizes.
翻訳日:2023-07-17 14:50:39 公開日:2023-07-14
# 人間のように運転する:大きな言語モデルで自動運転を再考する

Drive Like a Human: Rethinking Autonomous Driving with Large Language Models ( http://arxiv.org/abs/2307.07162v1 )

ライセンス: Link先を確認
Daocheng Fu, Xin Li, Licheng Wen, Min Dou, Pinlong Cai, Botian Shi, Yu Qiao(参考訳) 本稿では,大規模言語モデル(llm)を用いて運転環境を人間のような方法で理解し,複雑なシナリオに対して推論,解釈,記憶する能力を分析する。 従来の最適化ベースおよびモジュール型自律運転(AD)システムは、長いコーナーケースを扱う際に固有の性能制限に直面している、と我々は主張する。 この問題に対処するために、理想的なADシステムは人間のように運転し、連続運転を通じて経験を蓄積し、共通の感覚を用いて問題を解決するべきである。 この目的を達成するために、我々はADシステムに必要な3つの重要な能力、すなわち推論、解釈、記憶を識別する。 閉ループシステムの構築により, LLMを用いた運転シナリオの実現可能性を示し, その理解と環境相互作用能力を示す。 我々の広範な実験は、LLMが長い尾のケースを推論し解決する素晴らしい能力を示しており、人間のような自動運転の開発に貴重な洞察を与えていることを示している。 関連コードはhttps://github.com/PJLab-ADG/DriveLikeAHuman で公開されている。

In this paper, we explore the potential of using a large language model (LLM) to understand the driving environment in a human-like manner and analyze its ability to reason, interpret, and memorize when facing complex scenarios. We argue that traditional optimization-based and modular autonomous driving (AD) systems face inherent performance limitations when dealing with long-tail corner cases. To address this problem, we propose that an ideal AD system should drive like a human, accumulating experience through continuous driving and using common sense to solve problems. To achieve this goal, we identify three key abilities necessary for an AD system: reasoning, interpretation, and memorization. We demonstrate the feasibility of employing an LLM in driving scenarios by building a closed-loop system to showcase its comprehension and environment-interaction abilities. Our extensive experiments show that the LLM exhibits the impressive ability to reason and solve long-tailed cases, providing valuable insights for the development of human-like autonomous driving. The related code are available at https://github.com/PJLab-ADG/DriveLikeAHuman .
翻訳日:2023-07-17 14:50:21 公開日:2023-07-14
# LightFormer:交通信号とアテンション機構を用いた道路右端認識のためのエンド・ツー・エンドモデル

LightFormer: An End-to-End Model for Intersection Right-of-Way Recognition Using Traffic Light Signals and an Attention Mechanism ( http://arxiv.org/abs/2307.07196v1 )

ライセンス: Link先を確認
Zhenxing Ming, Julie Stephany Berrio, Mao Shan, Eduardo Nebot and Stewart Worrall(参考訳) 信号交差点を走行するスマートカーにとって、信号機の状態から車両が正しいかどうかを判断することが不可欠である。 この問題に対処するために、カメラベースのセンサーを使用して、車両がまっすぐ進むか、左に曲がるか、右に曲がるかを判断することができる。 本稿では,複雑な都市交差点において利用可能な運転経路に対して,経路認識モデルであるlightformerの終端交差点を新たに生成する手法を提案する。 このモデルは、過去の画像の特徴を取り入れた注意機構を備えた空間的時間的内部構造を含み、現在のフレームの状態の分類に寄与する。 また, モデル分類性能を向上させるために, 改良された多重アークフェース損失を導入した。 最後に、提案するlightformerは、手動でラベルを付加した2つの公開トラフィックライトデータセットでトレーニングとテストを行い、その効果を実証する。

For smart vehicles driving through signalised intersections, it is crucial to determine whether the vehicle has right of way given the state of the traffic lights. To address this issue, camera based sensors can be used to determine whether the vehicle has permission to proceed straight, turn left or turn right. This paper proposes a novel end to end intersection right of way recognition model called LightFormer to generate right of way status for available driving directions in complex urban intersections. The model includes a spatial temporal inner structure with an attention mechanism, which incorporates features from past image to contribute to the classification of the current frame right of way status. In addition, a modified, multi weight arcface loss is introduced to enhance the model classification performance. Finally, the proposed LightFormer is trained and tested on two public traffic light datasets with manually augmented labels to demonstrate its effectiveness.
翻訳日:2023-07-17 14:42:45 公開日:2023-07-14
# 機械学習を用いた複雑なターゲット状態への動的システム制御--次世代対古典型貯水池計算

Controlling dynamical systems to complex target states using machine learning: next-generation vs. classical reservoir computing ( http://arxiv.org/abs/2307.07195v1 )

ライセンス: Link先を確認
Alexander Haluszczynski, Daniel K\"oglmayr, Christoph R\"ath(参考訳) 機械学習による非線形力学系の制御は、システムを周期性のような単純な振る舞いに導くだけでなく、より複雑な任意のダイナミクスへと導くことができる。 そのため、機械学習システムは、ターゲットのダイナミクスを十分に再現するために訓練できることが不可欠である。 ロレンツ系のカオス的パラメトリゼーションを断続力学に強制する例において、古典的な貯水池計算がこの課題に優れていることを示す。 次のステップでは、これらの結果を異なるトレーニングデータに基づいて比較し、代わりに次世代貯水池コンピューティングを使用する別のセットアップと比較する。 その結果、通常のトレーニングデータに対して同等のパフォーマンスを提供する一方で、非常に限られたデータしか利用できない状況では、次世代rcが大幅に優れています。 これにより、データ制限のある実世界の問題において、さらに実用的な制御応用が開かれる。

Controlling nonlinear dynamical systems using machine learning allows to not only drive systems into simple behavior like periodicity but also to more complex arbitrary dynamics. For this, it is crucial that a machine learning system can be trained to reproduce the target dynamics sufficiently well. On the example of forcing a chaotic parametrization of the Lorenz system into intermittent dynamics, we show first that classical reservoir computing excels at this task. In a next step, we compare those results based on different amounts of training data to an alternative setup, where next-generation reservoir computing is used instead. It turns out that while delivering comparable performance for usual amounts of training data, next-generation RC significantly outperforms in situations where only very limited data is available. This opens even further practical control applications in real world problems where data is restricted.
翻訳日:2023-07-17 14:42:28 公開日:2023-07-14
# 金融取引決済最適化における指数ビット削減

Exponential Qubit Reduction in Optimization for Financial Transaction Settlement ( http://arxiv.org/abs/2307.07193v1 )

ライセンス: Link先を確認
Elias X. Huber, Benjamin Y. L. Tan, Paul R. Griffin, Dimitris G. Angelakis(参考訳) 我々は, [tan et al., quantum 5, 454 (2021)] で提示されるクビット効率のよいエンコーディングを拡張し,規制された金融取引所が提供するデータから構築された金融取引決済問題に適用する。 本手法は線形不等式制約のある任意のqubo問題に直接適用できる。 従来提案した手法の拡張は,相関を符号化する量子ビット数の変化の単純化と,対称性を組み込んだ新しい種類の変分回路により,サンプリングオーバーヘッドを低減し,数値安定性を向上し,Hermitianオブザーバブルとしてのコスト目標表現を回復する。 また,実世界のデータの分散を低減し,連続スラック変数を置換する最適保存法を提案する。 16のトランザクションからなる問題に対して,本手法を標準QAOAに対してベンチマークし,競争結果を得た。 提案する変分 ansatz は全体として最適である。 実量子ハードウェア上で128トランザクションを扱う問題に対して,nisqハードウェアがバウンドした従来の結果よりも約2桁大きく対処することを示す。

We extend the qubit-efficient encoding presented in [Tan et al., Quantum 5, 454 (2021)] and apply it to instances of the financial transaction settlement problem constructed from data provided by a regulated financial exchange. Our methods are directly applicable to any QUBO problem with linear inequality constraints. Our extension of previously proposed methods consists of a simplification in varying the number of qubits used to encode correlations as well as a new class of variational circuits which incorporate symmetries, thereby reducing sampling overhead, improving numerical stability and recovering the expression of the cost objective as a Hermitian observable. We also propose optimality-preserving methods to reduce variance in real-world data and substitute continuous slack variables. We benchmark our methods against standard QAOA for problems consisting of 16 transactions and obtain competitive results. Our newly proposed variational ansatz performs best overall. We demonstrate tackling problems with 128 transactions on real quantum hardware, exceeding previous results bounded by NISQ hardware by almost two orders of magnitude.
翻訳日:2023-07-17 14:42:12 公開日:2023-07-14
# 電気負荷予測のためのベンチマークとカスタムパッケージ

Benchmarks and Custom Package for Electrical Load Forecasting ( http://arxiv.org/abs/2307.07191v1 )

ライセンス: Link先を確認
Zhixian Wang, Qingsong Wen, Chaoli Zhang, Liang Sun, Leandro Von Krannichfeldt, and Yi Wang(参考訳) 負荷予測は電力業界において非常に重要なものであり、電力グリッドディスパッチのようなその後のタスクへの参照を提供することができるため、大きな経済的利益をもたらす。 しかし、負荷予測と従来の時系列予測には多くの違いがある。 一方、負荷予測は、単に予測精度を追求するのではなく、電力グリッドディスパッチのようなその後のタスクのコストを最小化することを目的としている。 一方、負荷は温度やカレンダー変数など、多くの外部要因に影響されている。 さらに、予測の規模(ビルレベルの負荷や集約レベルの負荷など)も予測結果に大きく影響する可能性がある。 本稿では、負荷領域固有の特徴工学を含む包括的負荷予測アーカイブを提供し、モデルのモデル負荷データ予測を支援する。 また,精度を目標とする従来の損失関数とは違い,予測誤差に基づいて損失関数をカスタマイズし,予測フレームワークに統合する手法も提供する。 そこで我々は,異なるレベルの負荷データについて広範な実験を行い,異なる負荷予測モデルを比較するための参考資料を提供した。

Load forecasting is of great significance in the power industry as it can provide a reference for subsequent tasks such as power grid dispatch, thus bringing huge economic benefits. However, there are many differences between load forecasting and traditional time series forecasting. On the one hand, load forecasting aims to minimize the cost of subsequent tasks such as power grid dispatch, rather than simply pursuing prediction accuracy. On the other hand, the load is largely influenced by many external factors, such as temperature or calendar variables. In addition, the scale of predictions (such as building-level loads and aggregated-level loads) can also significantly impact the predicted results. In this paper, we provide a comprehensive load forecasting archive, which includes load domain-specific feature engineering to help forecasting models better model load data. In addition, different from the traditional loss function which only aims for accuracy, we also provide a method to customize the loss function based on the forecasting error, integrating it into our forecasting framework. Based on this, we conducted extensive experiments on load data at different levels, providing a reference for researchers to compare different load forecasting models.
翻訳日:2023-07-17 14:41:52 公開日:2023-07-14
# 深層学習の促進と堅牢性向上のための乗算的更新規則

Multiplicative update rules for accelerating deep learning training and increasing robustness ( http://arxiv.org/abs/2307.07189v1 )

ライセンス: Link先を確認
Manos Kirtas, Nikolaos Passalis, Anastasios Tefas(参考訳) 現在でも、Deep Learning (DL)は、幅広い研究領域において最先端のパフォーマンスを達成しており、トレーニングの加速と堅牢なDLモデルの構築は難しい課題である。 この目的のために、数世代にわたる研究者が、重量分布、モデルアーキテクチャ、損失景観に敏感でないDLアーキテクチャをトレーニングするための堅牢な方法の開発を試みている。 しかし、これらの手法は、パラメータ更新の基本ルールを調査することなく、適応学習率オプティマイザ、初期化スキーム、クリッピング勾配に制限される。 乗算的更新は、機械学習の初期の発展に大きく貢献し、強力な理論的主張を持っているが、私たちの知識を最大限活用するために、DLトレーニングアクセラレーションとロバストネスの文脈でそれらを調査する最初の研究である。 本研究では,幅広い最適化アルゴリズムに適合し,代替の更新ルールを適用することができる最適化フレームワークを提案する。 この目的のために,新しい乗法アップデートルールを提案し,新しいハイブリッド更新法の下で,従来の増分更新項と組み合わせることでその能力を拡張する。 提案手法は,従来の追加更新ルールとは対照的に,より頑健なモデルを導いながら,学習を加速すると主張し,幅広いタスクおよび最適化手法でその効果を実験的に実証した。 凸最適化や非凸最適化から、従来の最適化手法やディープニューラルネットワーク(Deep Neural Network, DNN)アーキテクチャを適用した難しい画像分類ベンチマークまで、様々なタスクがある。

Even nowadays, where Deep Learning (DL) has achieved state-of-the-art performance in a wide range of research domains, accelerating training and building robust DL models remains a challenging task. To this end, generations of researchers have pursued to develop robust methods for training DL architectures that can be less sensitive to weight distributions, model architectures and loss landscapes. However, such methods are limited to adaptive learning rate optimizers, initialization schemes, and clipping gradients without investigating the fundamental rule of parameters update. Although multiplicative updates have contributed significantly to the early development of machine learning and hold strong theoretical claims, to best of our knowledge, this is the first work that investigate them in context of DL training acceleration and robustness. In this work, we propose an optimization framework that fits to a wide range of optimization algorithms and enables one to apply alternative update rules. To this end, we propose a novel multiplicative update rule and we extend their capabilities by combining it with a traditional additive update term, under a novel hybrid update method. We claim that the proposed framework accelerates training, while leading to more robust models in contrast to traditionally used additive update rule and we experimentally demonstrate their effectiveness in a wide range of task and optimization methods. Such tasks ranging from convex and non-convex optimization to difficult image classification benchmarks applying a wide range of traditionally used optimization methods and Deep Neural Network (DNN) architectures.
翻訳日:2023-07-17 14:41:36 公開日:2023-07-14
# 失認者再確認のための消去・変換・通知防御ネットワーク

Erasing, Transforming, and Noising Defense Network for Occluded Person Re-Identification ( http://arxiv.org/abs/2307.07187v1 )

ライセンス: Link先を確認
Neng Dong, Liyan Zhang, Shuanglin Yan, Hao Tang and Jinhui Tang(参考訳) 排他的摂動は、人物の再識別(re-ID)において重大な課題を示し、外部の視覚的手がかりに依存する既存の手法では、追加の計算資源を必要とし、排他的情報の欠落の問題のみを考慮する。 本稿では, 騒音障害としてオクルージョンを扱い, 敵防御の観点から隠蔽された人物のre-IDを解消する, 消去, トランスフォーミング, 騒音防御ネットワーク (ETNDNet) という, シンプルで効果的なフレームワークを提案する。 提案するETNDNetでは,まず特徴マップをランダムに消去し,不完全な情報を持つ敵表現を生成する。 第2に,オクルージョンによる位置ずれをシミュレートするランダムな変換を導入し,抽出器と分類器を逆さまに訓練し,不整合情報に対する堅牢な表現を学習する。 第3に,障害物や非目標歩行者が導入した騒音情報に対処するために,ランダムな値で特徴マップを摂動させ,re-IDシステムにおいて敵ゲーミングを採用し,閉塞音に対する耐性を高める。 ETNDNetには3つの重要なハイライトがある。 (i)パラメータを持つ外部モジュールを一切必要としない。 (ii)障害物や非目標歩行者からの閉塞による諸問題を効果的に処理し、 三 隠蔽者再IDのための最初のGANベースの敵防衛パラダイムを設計する。 5つの公開データセットに対する大規模な実験は、提案したETNDNetの有効性、優位性、実用性を完全に証明している。 コードは \url{https://github.com/nengdong96/ETNDNet} でリリースされる。

Occlusion perturbation presents a significant challenge in person re-identification (re-ID), and existing methods that rely on external visual cues require additional computational resources and only consider the issue of missing information caused by occlusion. In this paper, we propose a simple yet effective framework, termed Erasing, Transforming, and Noising Defense Network (ETNDNet), which treats occlusion as a noise disturbance and solves occluded person re-ID from the perspective of adversarial defense. In the proposed ETNDNet, we introduce three strategies: Firstly, we randomly erase the feature map to create an adversarial representation with incomplete information, enabling adversarial learning of identity loss to protect the re-ID system from the disturbance of missing information. Secondly, we introduce random transformations to simulate the position misalignment caused by occlusion, training the extractor and classifier adversarially to learn robust representations immune to misaligned information. Thirdly, we perturb the feature map with random values to address noisy information introduced by obstacles and non-target pedestrians, and employ adversarial gaming in the re-ID system to enhance its resistance to occlusion noise. Without bells and whistles, ETNDNet has three key highlights: (i) it does not require any external modules with parameters, (ii) it effectively handles various issues caused by occlusion from obstacles and non-target pedestrians, and (iii) it designs the first GAN-based adversarial defense paradigm for occluded person re-ID. Extensive experiments on five public datasets fully demonstrate the effectiveness, superiority, and practicality of the proposed ETNDNet. The code will be released at \url{https://github.com/nengdong96/ETNDNet}.
翻訳日:2023-07-17 14:41:10 公開日:2023-07-14
# tvpr: テキストからビデオへの人物検索と新しいベンチマーク

TVPR: Text-to-Video Person Retrieval and a New Benchmark ( http://arxiv.org/abs/2307.07184v1 )

ライセンス: Link先を確認
Fan Ni, Xu Zhang, Jianhui Wu, Guan-Nan Dong, Aichun Zhu, Hui Liu, Yue Zhang(参考訳) 既存のテキストベース人物検索の方法は、テキストから画像への人物検索に重点を置いている。 それでも、孤立フレームが提供する動的情報が欠如していることから、孤立フレームに隠れている場合や、テキスト記述に変動運動の詳細が記載されている場合、パフォーマンスが損なわれる。 本稿では,分離フレームの制約を効果的に克服することを目的とした,text-to-video person retrieval(tvpr)と呼ばれる新しいタスクを提案する。 自然言語による人的ビデオを記述するデータセットやベンチマークは存在しないため、人の出現、行動、環境との相互作用など、詳細な自然言語アノテーションを含む大規模なクロスモーダルな人的ビデオデータセットを構築しており、そのデータセットは「Text-to-Video Person Re-identification (TVPReid)」と呼ばれる。 この目的のために,tvprn(text-to-video person retrieval network)を提案する。 特に、tvprnは、個人ビデオの視覚的および動きの表現を融合してビデオ表現を取得しており、これは、時間的閉塞と、分離されたフレーム内の可変動き詳細の欠如に対処することができる。 一方,プレトレーニングされたBERTを用いてキャプション表現とキャプションとビデオ表現の関係を抽出し,最も関連性の高い人物映像を明らかにする。 提案するTVPRNの有効性を評価するため,TVPReidデータセットを用いた広範な実験を行った。 我々の知る限り、TVPRNは、テキストベースの人物検索タスクにビデオを使用した最初の試みであり、TVPReidデータセットで最先端のパフォーマンスを達成した。 TVPReidデータセットは、将来の研究のために公開されます。

Most existing methods for text-based person retrieval focus on text-to-image person retrieval. Nevertheless, due to the lack of dynamic information provided by isolated frames, the performance is hampered when the person is obscured in isolated frames or variable motion details are given in the textual description. In this paper, we propose a new task called Text-to-Video Person Retrieval(TVPR) which aims to effectively overcome the limitations of isolated frames. Since there is no dataset or benchmark that describes person videos with natural language, we construct a large-scale cross-modal person video dataset containing detailed natural language annotations, such as person's appearance, actions and interactions with environment, etc., termed as Text-to-Video Person Re-identification (TVPReid) dataset, which will be publicly available. To this end, a Text-to-Video Person Retrieval Network (TVPRN) is proposed. Specifically, TVPRN acquires video representations by fusing visual and motion representations of person videos, which can deal with temporal occlusion and the absence of variable motion details in isolated frames. Meanwhile, we employ the pre-trained BERT to obtain caption representations and the relationship between caption and video representations to reveal the most relevant person videos. To evaluate the effectiveness of the proposed TVPRN, extensive experiments have been conducted on TVPReid dataset. To the best of our knowledge, TVPRN is the first successful attempt to use video for text-based person retrieval task and has achieved state-of-the-art performance on TVPReid dataset. The TVPReid dataset will be publicly available to benefit future research.
翻訳日:2023-07-17 14:40:41 公開日:2023-07-14
# DISPEL: ドメイン特化解放によるドメインの一般化

DISPEL: Domain Generalization via Domain-Specific Liberating ( http://arxiv.org/abs/2307.07181v1 )

ライセンス: Link先を確認
Chia-Yuan Chang, Yu-Neng Chuang, Guanchu Wang, Mengnan Du, Zou Na(参考訳) ドメイン一般化(domain generalization)は、限られたソースドメインのみをトレーニングすることで、未発見のテストドメインでうまく機能する一般化モデルを学ぶことを目的としている。 しかし、既存のドメイン一般化アプローチは、しばしば予測不能なノイズをもたらすか、ドメインラベルの収集を必要とする。 これらの課題に対処するために、基礎となる特徴群をドメイン共有機能とドメイン固有機能に分類することで、異なる視点からドメイン一般化問題を考察する。 それでも、ドメイン固有の特徴は、入力データと区別することが困難である。 本研究では,埋め込み空間における未定義かつ識別不能なドメイン特有な特徴をフィルタする,処理後の細粒度マスキング手法であるdomain-specific liberating (dispel)を提案する。 具体的には、disPELは、各入力データに固有のマスクを生成するマスクジェネレータを使用して、ドメイン固有の特徴をフィルタリングする。 DISPELフレームワークは、どの微調整モデルにも非常に柔軟に適用できる。 我々は,設計対象の損失を最適化することにより,一般化性能を保証するための一般化誤差を導出する。 5つのベンチマーク実験の結果は、DIPSELが既存の手法より優れており、様々なアルゴリズムをさらに一般化できることを示している。

Domain generalization aims to learn a generalization model that can perform well on unseen test domains by only training on limited source domains. However, existing domain generalization approaches often bring in prediction-irrelevant noise or require the collection of domain labels. To address these challenges, we consider the domain generalization problem from a different perspective by categorizing underlying feature groups into domain-shared and domain-specific features. Nevertheless, the domain-specific features are difficult to be identified and distinguished from the input data. In this work, we propose DomaIn-SPEcific Liberating (DISPEL), a post-processing fine-grained masking approach that can filter out undefined and indistinguishable domain-specific features in the embedding space. Specifically, DISPEL utilizes a mask generator that produces a unique mask for each input data to filter domain-specific features. The DISPEL framework is highly flexible to be applied to any fine-tuned models. We derive a generalization error bound to guarantee the generalization performance by optimizing a designed objective loss. The experimental results on five benchmarks demonstrate DISPEL outperforms existing methods and can further generalize various algorithms.
翻訳日:2023-07-17 14:40:13 公開日:2023-07-14
# 限られた領域における動的システムの推定のためのサロゲートデータ同化モデル

A Surrogate Data Assimilation Model for the Estimation of Dynamical System in a Limited Area ( http://arxiv.org/abs/2307.07178v1 )

ライセンス: Link先を確認
Wei Kang and Liang Xu and Hong Zhou(参考訳) 限られた領域における効率的な状態推定のための新しい学習型サロゲートデータ同化(da)モデルを提案する。 本モデルは,オンライン計算にfeedforwardニューラルネットワークを用いており,高次元の限定領域モデルの統合は不要である。 このアプローチは従来のdaアルゴリズムよりも大きな計算上の利点を提供する。 さらに,オンラインとオフラインの両方の計算において,限定領域モデルに対する境界条件の必要性を回避した。 我々の代理DAモデルの設計は、観測可能性と有効領域という2つの基本的な概念を生かした堅牢な理論的枠組みに基づいている。 観測可能性の概念により,正確なDAに必要な観測データの定量化が可能となる。 一方、有効領域の概念は、観測可能性の計算とトレーニングデータの生成に関連する計算負荷を大幅に削減する。

We propose a novel learning-based surrogate data assimilation (DA) model for efficient state estimation in a limited area. Our model employs a feedforward neural network for online computation, eliminating the need for integrating high-dimensional limited-area models. This approach offers significant computational advantages over traditional DA algorithms. Furthermore, our method avoids the requirement of lateral boundary conditions for the limited-area model in both online and offline computations. The design of our surrogate DA model is built upon a robust theoretical framework that leverages two fundamental concepts: observability and effective region. The concept of observability enables us to quantitatively determine the optimal amount of observation data necessary for accurate DA. Meanwhile, the concept of effective region substantially reduces the computational burden associated with computing observability and generating training data.
翻訳日:2023-07-17 14:39:50 公開日:2023-07-14
# TriFormer: 軽度認知障害変換予測のためのマルチモーダル変圧器フレームワーク

TriFormer: A Multi-modal Transformer Framework For Mild Cognitive Impairment Conversion Prediction ( http://arxiv.org/abs/2307.07177v1 )

ライセンス: Link先を確認
Linfeng Liu, Junyan Lyu, Siyu Liu, Xiaoying Tang, Shekhar S. Chandra, Fatima A. Nasrallah(参考訳) 軽度認知障害(mci)からアルツハイマー病(ad)への転換の予測は、adの進行を予防または遅らせるために早期治療に重要である。 安定なMCIやプログレッシブなMCIへのMCI変換を正確に予測するために、3つの特殊変換器を備えた新しいトランスフォーマーベースのフレームワークであるTriformerを提案する。 triformerは、医用スキャンから多視点画像の特徴を抽出するために画像トランスフォーマーを使用し、ii)多モード臨床データを埋め込み、関連付ける臨床トランスフォーマー、iii)画像および臨床トランスからの出力を融合して正確な予測を生成するモダリティ融合トランスフォーマーを使用する。 Triformer は Alzheimer's Disease Neuroimaging Initiative (ANDI)1 と ADNI2 のデータセットで評価され、従来の最先端の単一および多モードの手法よりも優れている。

The prediction of mild cognitive impairment (MCI) conversion to Alzheimer's disease (AD) is important for early treatment to prevent or slow the progression of AD. To accurately predict the MCI conversion to stable MCI or progressive MCI, we propose Triformer, a novel transformer-based framework with three specialized transformers to incorporate multi-model data. Triformer uses I) an image transformer to extract multi-view image features from medical scans, II) a clinical transformer to embed and correlate multi-modal clinical data, and III) a modality fusion transformer that produces an accurate prediction based on fusing the outputs from the image and clinical transformers. Triformer is evaluated on the Alzheimer's Disease Neuroimaging Initiative (ANDI)1 and ADNI2 datasets and outperforms previous state-of-the-art single and multi-modal methods.
翻訳日:2023-07-17 14:39:38 公開日:2023-07-14
# FreeCOS: 曲線オブジェクトセグメンテーションのためのフラクタルとラベルなし画像からの自己教師付き学習

FreeCOS: Self-Supervised Learning from Fractals and Unlabeled Images for Curvilinear Object Segmentation ( http://arxiv.org/abs/2307.07245v1 )

ライセンス: Link先を確認
Tianyi Shi, Xiaohuan Ding, Liang Zhang, Xin Yang(参考訳) 線形オブジェクトのセグメンテーションは多くの応用に不可欠である。 しかし、手動でカービリニアオブジェクトをアノテートするのは非常に時間がかかり、エラーが発生しやすいため、既存の教師付きメソッドやドメイン適応メソッドのアノテートデータセットが不十分である。 本稿では, フラクタルや未ラベル画像(FreeCOS)から頑健で独特な特徴を学習する自己教師付きカービリニアオブジェクトセグメンテーション法を提案する。 主な貢献は、新しいフラクタル-FDA合成(FFS)モジュールと幾何学情報アライメント(GIA)アプローチである。 ffsはパラメトリックフラクタルl系に基づいて曲線構造を生成し、生成した構造をラベルなし画像に統合し、フーリエ領域適応により合成訓練画像を得る。 GIAは、与えられたピクセルの強度順序と近隣の値を比較することにより、合成画像とラベルなし画像の強度差を低減する。 このような画像アライメントは、絶対強度値への依存性を明確に取り除き、合成画像と実画像の両方に共通する固有の幾何学的特徴を高めることができる。 さらに、GAAは、予測空間適応損失(PSAL)とカービリナーマスクコントラスト損失(CMCL)を介して合成画像と実画像の特徴を整列する。 XCAD,DRIVE,STARE,CrackTreeの4つの公開データセットに対する大規模な実験結果から,我々の手法は最先端の教師なし手法,自己管理手法,従来の手法を大きなマージンで上回ることを示した。 この作業のソースコードはhttps://github.com/ty-shi/freecosで入手できる。

Curvilinear object segmentation is critical for many applications. However, manually annotating curvilinear objects is very time-consuming and error-prone, yielding insufficiently available annotated datasets for existing supervised methods and domain adaptation methods. This paper proposes a self-supervised curvilinear object segmentation method that learns robust and distinctive features from fractals and unlabeled images (FreeCOS). The key contributions include a novel Fractal-FDA synthesis (FFS) module and a geometric information alignment (GIA) approach. FFS generates curvilinear structures based on the parametric Fractal L-system and integrates the generated structures into unlabeled images to obtain synthetic training images via Fourier Domain Adaptation. GIA reduces the intensity differences between the synthetic and unlabeled images by comparing the intensity order of a given pixel to the values of its nearby neighbors. Such image alignment can explicitly remove the dependency on absolute intensity values and enhance the inherent geometric characteristics which are common in both synthetic and real images. In addition, GIA aligns features of synthetic and real images via the prediction space adaptation loss (PSAL) and the curvilinear mask contrastive loss (CMCL). Extensive experimental results on four public datasets, i.e., XCAD, DRIVE, STARE and CrackTree demonstrate that our method outperforms the state-of-the-art unsupervised methods, self-supervised methods and traditional methods by a large margin. The source code of this work is available at https://github.com/TY-Shi/FreeCOS.
翻訳日:2023-07-17 14:33:56 公開日:2023-07-14
# 巡回セールスマン問題の量子近似最適化アルゴリズムにおける変動の比較研究

Comparative study of variations in quantum approximate optimization algorithms for the Traveling Salesman Problem ( http://arxiv.org/abs/2307.07243v1 )

ライセンス: Link先を確認
Wenyang Qian, Robert A. M. Basili, Mary Eshaghian-Wilner, Ashfaq Khokhar, Glenn Luecke, James P. Vary(参考訳) トラベリングセールスマン問題(TSP)は、コンピュータ科学においてコンピュータモデルとハードウェアプラットフォームの有効性を研究するために最もよく用いられるNP-Hard問題の一つである。 この点に関しては、この種の問題に対する量子コンピューティングパラダイムの実現可能性を研究する手段としても多用されている。 本稿では、量子近似最適化アルゴリズム(QAOA)を用いて、TSPを最適化問題として定式化する。 改良された量子ビット符号化戦略と階層学習最適化プロトコルを用いることで,3,4,5都市のtspインスタンスを対象とするゲート型ディジタル量子シミュレータから得られた数値結果を示す。 本稿では,3種類のQAOAミキサーの設計について,数値的精度と最適化コストの観点から評価する。 特に、バランスの取れたqaoaミキサーの設計は、長期にわたってゲートベースのシミュレータと現実的な量子デバイスに有望な可能性を示しており、ノイズモデルシミュレーションによりさらに支持されている。 さらに,シミュレーションのTSPグラフに対する感度について検討した。 シミュレーションの結果,問題にインスパイアされたアンサッツのディジタル量子シミュレーションが最適解の候補となることが示された。

The Traveling Salesman Problem (TSP) is one of the most often-used NP-Hard problems in computer science to study the effectiveness of computing models and hardware platforms. In this regard, it is also heavily used as a vehicle to study the feasibility of the quantum computing paradigm for this class of problems. In this paper, we tackle the TSP using the quantum approximate optimization algorithm (QAOA) approach by formulating it as an optimization problem. By adopting an improved qubit encoding strategy and a layerwise learning optimization protocol, we present numerical results obtained from the gate-based digital quantum simulator, specifically targeting TSP instances with 3, 4, and 5 cities. We focus on the evaluations of three distinctive QAOA mixer designs, considering their performances in terms of numerical accuracy and optimization cost. Notably, we find a well-balanced QAOA mixer design exhibits more promising potential for gate-based simulators and realistic quantum devices in the long run, an observation further supported by our noise model simulations. Furthermore, we investigate the sensitivity of the simulations to the TSP graph. Overall, our simulation results show the digital quantum simulation of problem-inspired ansatz is a successful candidate for finding optimal TSP solutions.
翻訳日:2023-07-17 14:33:25 公開日:2023-07-14
# MaxSR: 改良されたMaxViTによる画像超解像

MaxSR: Image Super-Resolution Using Improved MaxViT ( http://arxiv.org/abs/2307.07240v1 )

ライセンス: Link先を確認
Bincheng Yang and Gangshan Wu(参考訳) トランスモデルは自然言語処理タスクや高レベル視覚タスクに有効であることが示されているが、単一画像の超解像に強力なトランスフォーマーモデルを使用する試みはわずかである。 トランスモデルには強力な表現能力があり,入力された低解像度画像の自己相似性を活かし,単一画像超解像の性能向上に寄与するので,MaxViT のハイブリッドビジョン変換器である MaxSR をベースとした単一画像超解像モデルを提案する。 MaxSRは、4つの部分から構成されており、浅い特徴抽出ブロック、複数のカスケード適応MaxViTブロックで階層的な特徴を抽出し、低レベルの特徴から効率的にグローバルな自己相似性をモデル化する。 MaxSRのキーコンポーネント、すなわちアダプティブMaxViTブロックは、MBConvと圧縮・励起、ブロックアテンション、グリッドアテンションを混合したMaxViTブロックに基づいている。 入力された低解像度画像における自己相似性のより優れたグローバルなモデリングを実現するため、MaxViTブロックにおけるブロックアテンションとグリッドアテンションを改善し、各ウィンドウ内のすべてのグリッドとグリッド間の自己アテンションを、最も効率的な方法で調整する。 従来の単一画像超解像(MaxSR)と軽量単一画像超解像(MaxSR-light)のモデルを提案する。 実験により,我々のMaxSRとMaxSR-lightは,新しい最先端性能を効率的に確立することを示した。

While transformer models have been demonstrated to be effective for natural language processing tasks and high-level vision tasks, only a few attempts have been made to use powerful transformer models for single image super-resolution. Because transformer models have powerful representation capacity and the in-built self-attention mechanisms in transformer models help to leverage self-similarity prior in input low-resolution image to improve performance for single image super-resolution, we present a single image super-resolution model based on recent hybrid vision transformer of MaxViT, named as MaxSR. MaxSR consists of four parts, a shallow feature extraction block, multiple cascaded adaptive MaxViT blocks to extract deep hierarchical features and model global self-similarity from low-level features efficiently, a hierarchical feature fusion block, and finally a reconstruction block. The key component of MaxSR, i.e., adaptive MaxViT block, is based on MaxViT block which mixes MBConv with squeeze-and-excitation, block attention and grid attention. In order to achieve better global modelling of self-similarity in input low-resolution image, we improve block attention and grid attention in MaxViT block to adaptive block attention and adaptive grid attention which do self-attention inside each window across all grids and each grid across all windows respectively in the most efficient way. We instantiate proposed model for classical single image super-resolution (MaxSR) and lightweight single image super-resolution (MaxSR-light). Experiments show that our MaxSR and MaxSR-light establish new state-of-the-art performance efficiently.
翻訳日:2023-07-17 14:33:05 公開日:2023-07-14
# 2成分スパイクニューロンによる長期記憶

Long Short-term Memory with Two-Compartment Spiking Neuron ( http://arxiv.org/abs/2307.07231v1 )

ライセンス: Link先を確認
Shimin Zhang, Qu Yang, Chenxiang Ma, Jibin Wu, Haizhou Li, Kay Chen Tan(参考訳) 潜在的な機会や危険に関連する感覚的手がかりの同定は、長期間の遅延によって有用な手がかりを分離する無関係な出来事によってしばしば複雑になる。 その結果、時間ギャップのブリッジ化は拡張メモリ容量を必要とするため、snn(state-of-the-art spiking neural networks)による長期的な時間依存性の特定が課題となっている。 この課題に対処するため,我々はlstm-lifと呼ばれる,生物にインスパイアされた長期記憶リーク型統合・ファイアスパイキングニューロンモデルを提案する。 本モデルでは,短期記憶と長期記憶の保持に適した身体的,樹状的コンパートメントを慎重に設計した。 理論解析は、悪名高い消滅勾配問題に対処する効果をさらに確認する。 実験結果は,時間的分類タスクの多種多様な範囲において,優れた時間的分類能力,迅速な訓練収束,ネットワークの一般化性,LSTM-LIFモデルの高エネルギー化を実証した。 したがって、この研究は、新しいニューロモルフィック・コンピューティング・マシンにおいて、困難な時間的処理タスクを解決するための、無数の機会を開放する。

The identification of sensory cues associated with potential opportunities and dangers is frequently complicated by unrelated events that separate useful cues by long delays. As a result, it remains a challenging task for state-of-the-art spiking neural networks (SNNs) to identify long-term temporal dependencies since bridging the temporal gap necessitates an extended memory capacity. To address this challenge, we propose a novel biologically inspired Long Short-Term Memory Leaky Integrate-and-Fire spiking neuron model, dubbed LSTM-LIF. Our model incorporates carefully designed somatic and dendritic compartments that are tailored to retain short- and long-term memories. The theoretical analysis further confirms its effectiveness in addressing the notorious vanishing gradient problem. Our experimental results, on a diverse range of temporal classification tasks, demonstrate superior temporal classification capability, rapid training convergence, strong network generalizability, and high energy efficiency of the proposed LSTM-LIF model. This work, therefore, opens up a myriad of opportunities for resolving challenging temporal processing tasks on emerging neuromorphic computing machines.
翻訳日:2023-07-17 14:32:28 公開日:2023-07-14
# 挑戦の結果は再現できない

Challenge Results Are Not Reproducible ( http://arxiv.org/abs/2307.07226v1 )

ライセンス: Link先を確認
Annika Reinke, Georg Grab, Lena Maier-Hein(参考訳) 臨床試験は、新しい医薬品の効果を比較的に評価するための最先端の手法であるが、医療画像解析の分野におけるベンチマークは、いわゆる課題によって行われる。 近年, バイオメディカル画像解析における課題の包括的分析により, 課題の影響と設計・報告基準の品質管理の相違が明らかとなった。 本研究は,これらの結果を追従し,参加者メソッドの再現性に関する具体的な疑問に対処しようとするものである。 方法記述の代替解釈が課題ランキングを変えるかどうかを判断するために,2019年ロバスト医用画像分割チャレンジ(ROBUST-MIS)に提出されたアルゴリズムを再現した。 リーダーボードは、元の挑戦と再実装とは大きく異なり、挑戦のランキングが十分に再現できない可能性があることを示している。

While clinical trials are the state-of-the-art methods to assess the effect of new medication in a comparative manner, benchmarking in the field of medical image analysis is performed by so-called challenges. Recently, comprehensive analysis of multiple biomedical image analysis challenges revealed large discrepancies between the impact of challenges and quality control of the design and reporting standard. This work aims to follow up on these results and attempts to address the specific question of the reproducibility of the participants methods. In an effort to determine whether alternative interpretations of the method description may change the challenge ranking, we reproduced the algorithms submitted to the 2019 Robust Medical Image Segmentation Challenge (ROBUST-MIS). The leaderboard differed substantially between the original challenge and reimplementation, indicating that challenge rankings may not be sufficiently reproducible.
翻訳日:2023-07-17 14:32:07 公開日:2023-07-14
# オープンセット微細画像認識のための補完周波数可変アウェアネスネットワーク

Complementary Frequency-Varying Awareness Network for Open-Set Fine-Grained Image Recognition ( http://arxiv.org/abs/2307.07214v1 )

ライセンス: Link先を確認
Jiayin Sun and Hong Wang and Qiulei Dong(参考訳) オープンセット画像認識はコンピュータビジョンにおける課題である。 文献における既存の研究の多くは、入力画像からより識別的な特徴を学習することに焦点を当てているが、通常は高周波数成分や低周波数成分に敏感であり、微粒な画像認識の性能は低下する。 この問題を解決するために、CFANと呼ばれる高周波情報と低周波情報の両方をよりよく捉えることができる補完周波数変化認識ネットワークを提案する。 提案したCFANは3つの逐次モジュールから構成される。 (i)入力画像から予備的特徴を学ぶために特徴抽出モジュールを導入する。 二 周波数調整可能なフィルタにより、周波数領域の予備的特徴から高周波成分と低周波成分の両方を分離するように設計された周波数変動フィルタリングモジュール (iii)2つの長期短期記憶ネットワークを介して高周波・低周波成分を識別的特徴に集約するための相補的時間集約モジュールが設計されている。 さらに,CFANを用いて画像特徴を学習し,線形分類器を用いて分類する,CFAN-OSFGRと呼ばれるオープンセットのきめ細かい画像認識手法を提案する。 3つの細粒度データセットと2つの粗粒度データセットの実験結果から、ほとんどの場合、cfan-osfgrは9つの最先端メソッドよりも優れた性能を示す。

Open-set image recognition is a challenging topic in computer vision. Most of the existing works in literature focus on learning more discriminative features from the input images, however, they are usually insensitive to the high- or low-frequency components in features, resulting in a decreasing performance on fine-grained image recognition. To address this problem, we propose a Complementary Frequency-varying Awareness Network that could better capture both high-frequency and low-frequency information, called CFAN. The proposed CFAN consists of three sequential modules: (i) a feature extraction module is introduced for learning preliminary features from the input images; (ii) a frequency-varying filtering module is designed to separate out both high- and low-frequency components from the preliminary features in the frequency domain via a frequency-adjustable filter; (iii) a complementary temporal aggregation module is designed for aggregating the high- and low-frequency components via two Long Short-Term Memory networks into discriminative features. Based on CFAN, we further propose an open-set fine-grained image recognition method, called CFAN-OSFGR, which learns image features via CFAN and classifies them via a linear classifier. Experimental results on 3 fine-grained datasets and 2 coarse-grained datasets demonstrate that CFAN-OSFGR performs significantly better than 9 state-of-the-art methods in most cases.
翻訳日:2023-07-17 14:31:51 公開日:2023-07-14
# Bose-Hubbard鎖におけるボゾンキャリアの不整合輸送における量子カオスのシグナルとフェルミオン化

Signatures of Quantum Chaos and fermionization in the incoherent transport of bosonic carriers in the Bose-Hubbard chain ( http://arxiv.org/abs/2307.07208v1 )

ライセンス: Link先を確認
P. S. Muraev, D. N. Maksimov, A. R. Kolovsky(参考訳) 電池に接続されたBose-Hubbard系におけるBose粒子の定常電流を解析し,粒子間相互作用の影響に着目した。 粒子間相互作用の強さがボース・ハバード・ハミルトンの量子カオスへの移行を示す臨界値を超えると、現在の大きさは劇的に減少する。 この遷移は系の非平衡多体密度行列によく反映されていることがわかった。 すなわち、密度行列の固有値のレベル空間分布は、Poisson から Wigner-Dyson 分布に変化する。 相互作用強度がさらに増加すると、ウィグナー・ダイソンスペクトル統計はポアソン統計に変化し、現在ではボソニック粒子のフェルミオン化を示す。 定常電流に関して、これは粒子数に対する電流の大きさの逆直観的な依存性をもたらす。

We analyse the stationary current of Bose particles across the Bose-Hubbard chain connected to a battery, focusing on the effect of inter-particle interactions. It is shown that the current magnitude drastically decreases as the strength of inter-particle interactions exceeds the critical value which marks the transition to quantum chaos in the Bose-Hubbard Hamiltonian. We found that this transition is well reflected in the non-equilibrium many-body density matrix of the system. Namely, the level-spacing distribution for eigenvalues of the density matrix changes from Poisson to Wigner-Dyson distributions. With the further increase of the interaction strength, the Wigner-Dyson spectrum statistics changes back to the Poisson statistics which now marks fermionization of the bosonic particles. With respect to the stationary current, this leads to the counter-intuitive dependence of the current magnitude on the particle number.
翻訳日:2023-07-17 14:31:28 公開日:2023-07-14
# 骨格型ビデオ異常検出のためのマルチモーダル運動条件拡散モデル

Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection ( http://arxiv.org/abs/2307.07205v1 )

ライセンス: Link先を確認
Alessandro Flaborea, Luca Collorone, Guido D'Amely, Stefano D'Arrigo, Bardh Prenkaj, Fabio Galasso(参考訳) 異常は稀であり、異常検出はしばしば一級分類 (one-class classification, occ) として分類される。 OCCをリードする手法は、正常な動きの潜在的な表現を限られたボリュームに制限し、外部の異常なものを検知する。 しかし、ノーマルシーは同じオープンセット性を持ち、人間はいくつかの方法で同じ動作をすることができるため、主要なテクニックは無視できる。 本稿では,ビデオ異常検出(VAD)のための新しい生成モデルを提案する。 骨格表現を考察し,最先端の拡散確率モデルを用いて多変量的未来の人間のポーズを生成する。 我々は,過去の人々の動作に関する新しい条件付けを提案し,拡散過程のモードカバレッジ能力を改善し,異なるが印象的な将来の動きを生成する。 将来モードの統計的集計では、生成した動きセットが実際の未来に関係しない場合に異常を検出する。 提案手法は, UBnormal, HR-UBnormal, HR-STC, HR-Avenueの4つのベンチマークで検証した。

Anomalies are rare and anomaly detection is often therefore framed as One-Class Classification (OCC), i.e. trained solely on normalcy. Leading OCC techniques constrain the latent representations of normal motions to limited volumes and detect as abnormal anything outside, which accounts satisfactorily for the openset'ness of anomalies. But normalcy shares the same openset'ness property, since humans can perform the same action in several ways, which the leading techniques neglect. We propose a novel generative model for video anomaly detection (VAD), which assumes that both normality and abnormality are multimodal. We consider skeletal representations and leverage state-of-the-art diffusion probabilistic models to generate multimodal future human poses. We contribute a novel conditioning on the past motion of people, and exploit the improved mode coverage capabilities of diffusion processes to generate different-but-plausible future motions. Upon the statistical aggregation of future modes, anomaly is detected when the generated set of motions is not pertinent to the actual future. We validate our model on 4 established benchmarks: UBnormal, HR-UBnormal, HR-STC, and HR-Avenue, with extensive experiments surpassing state-of-the-art results.
翻訳日:2023-07-17 14:31:14 公開日:2023-07-14
# ed-fed:エッジデバイスのためのリソース対応クライアント選択を備えた汎用連合学習フレームワーク

Ed-Fed: A generic federated learning framework with resource-aware client selection for edge devices ( http://arxiv.org/abs/2307.07199v1 )

ライセンス: Link先を確認
Zitha Sasindran, Harsha Yelchuri, T. V. Prabhakar(参考訳) 連合学習(federated learning, fl)は、エッジデバイスがデバイスにローカルに機密性の高いトレーニングデータを確保しながら、協調的に統一予測モデルを作成するための顕著な方法として進化してきた。 flアルゴリズムをシミュレートするための多くの研究フレームワークが存在するにもかかわらず、ヘテロジニアスエッジデバイス上での自動音声認識タスクの包括的な展開は容易ではない。 そこでEd-Fed氏は、将来の実用FLシステム研究の基礎として、包括的で汎用的なFLフレームワークを紹介した。 また,fl設定における待ち時間を最適化する新しいリソース対応クライアント選択アルゴリズムを提案する。 本手法はストラグラー装置を処理でき,選択した機器のトレーニング時間を動的に設定できることを示す。 提案手法は従来のランダムクライアント選択法と比較してFLの待ち時間を大幅に最適化することを示した。

Federated learning (FL) has evolved as a prominent method for edge devices to cooperatively create a unified prediction model while securing their sensitive training data local to the device. Despite the existence of numerous research frameworks for simulating FL algorithms, they do not facilitate comprehensive deployment for automatic speech recognition tasks on heterogeneous edge devices. This is where Ed-Fed, a comprehensive and generic FL framework, comes in as a foundation for future practical FL system research. We also propose a novel resource-aware client selection algorithm to optimise the waiting time in the FL settings. We show that our approach can handle the straggler devices and dynamically set the training time for the selected devices in a round. Our evaluation has shown that the proposed approach significantly optimises waiting time in FL compared to conventional random client selection methods.
翻訳日:2023-07-17 14:30:51 公開日:2023-07-14
# 中性窒素空洞中心における軌道状態のコヒーレント電界制御

Coherent Electric-Field Control of Orbital state in a Neutral Nitrogen-Vacancy Center ( http://arxiv.org/abs/2307.07198v1 )

ライセンス: Link先を確認
Hodaka Kurokawa, Keidai Wakamatsu, Shintaro Nakazato, Toshiharu Makino, Hiromitsu Kato, Yuhei Sekiguchi, and Hideo Kosaka(参考訳) 軌道状態のコヒーレント制御は、ダイヤモンドの色中心において極めて低電力操作を実現するために重要である。 ここでは、電場による軌道制御の理想的なシステムとして、中和された窒素空孔中心であるNV$^0$を提案する。 我々は、NV$^0$の基底状態における電気感受性を、NV$^-$の励起状態における電気感受性と同等に推定する。 また、NV$^0$の軌道状態のコヒーレント制御を示す。 軌道制御に必要な電力はスピン制御よりも3桁小さく、希釈冷凍機で作動する超伝導量子ビットと対面する可能性を強調している。

The coherent control of the orbital state is crucial for color centers in diamonds for realizing extremely low-power manipulation. Here, we propose the neutrally charged nitrogen-vacancy center, NV$^0$, as an ideal system for orbital control through electric fields. We estimate electric susceptibility in the ground state of NV$^0$ to be comparable to that in the excited state of NV$^-$. Also, we demonstrate coherent control of the orbital states of NV$^0$. The required power for orbital control is three orders of magnitude smaller than that for spin control, highlighting the potential for interfacing a superconducting qubit operated in a dilution refrigerator.
翻訳日:2023-07-17 14:30:36 公開日:2023-07-14
# AudioInceptionNeXt: TCL AI LAB Submission to EPIC-SOUND Audio-Based-Interaction-Recognition Challenge 2023

AudioInceptionNeXt: TCL AI LAB Submission to EPIC-SOUND Audio-Based-Interaction-Recognition Challenge 2023 ( http://arxiv.org/abs/2307.07265v1 )

ライセンス: Link先を確認
Kin Wai Lau, Yasar Abbas Ur Rehman, Yuyang Xie, Lan Ma(参考訳) 本稿では,2023年のEpic-Kitchen EPIC-SOUNDS Audio-Based Interaction Recognition Challengeへの参加について述べる。 課題は、音声サンプルから対応するアクションラベルへのマッピングを学習することである。 この目的を達成するために,音声サンプルの時間周波数ログメルスペクトログラムで動作する,単純かつ効果的な単一ストリームcnnベースのアーキテクチャであるaudioinceptionnextを提案する。 インセプションnextの設計に動機づけられ、モデルが時間と周波数情報をより効果的に学習できるオーディオインセプションnextブロックにおいて、マルチスケールの深さ方向分離可能な畳み込みカーネルを提案する。 大規模セパラブルカーネルは活動の長い期間とグローバル周波数の意味情報を捉え、小規模セパラブルカーネルは活動の短い期間と周波数情報の局所的な詳細を捉えている。 我々のアプローチは、チャレンジテストセットにおけるtop-1の精度の55.43%を達成し、公開リーダーボードで1位にランクされた。 コードはhttps://github.com/StevenLauHKK/AudioInceptionNeXt.gitで匿名で公開されている。

This report presents the technical details of our submission to the 2023 Epic-Kitchen EPIC-SOUNDS Audio-Based Interaction Recognition Challenge. The task is to learn the mapping from audio samples to their corresponding action labels. To achieve this goal, we propose a simple yet effective single-stream CNN-based architecture called AudioInceptionNeXt that operates on the time-frequency log-mel-spectrogram of the audio samples. Motivated by the design of the InceptionNeXt, we propose parallel multi-scale depthwise separable convolutional kernels in the AudioInceptionNeXt block, which enable the model to learn the time and frequency information more effectively. The large-scale separable kernels capture the long duration of activities and the global frequency semantic information, while the small-scale separable kernels capture the short duration of activities and local details of frequency information. Our approach achieved 55.43% of top-1 accuracy on the challenge test set, ranked as 1st on the public leaderboard. Codes are available anonymously at https://github.com/StevenLauHKHK/AudioInceptionNeXt.git.
翻訳日:2023-07-17 14:24:28 公開日:2023-07-14
# 補間専門家とマルチアーマッドバンドについて

On Interpolating Experts and Multi-Armed Bandits ( http://arxiv.org/abs/2307.07264v1 )

ライセンス: Link先を確認
Houshuang Chen, Yuchen He, Chihao Zhang(参考訳) 専門家のアドバイスとマルチアームの盗賊による学習は、ゲームの各ラウンドでどのように情報が観察されるかが異なる2つの古典的なオンライン決定問題である。 我々はその2つを補間する問題の家系を研究する。 ベクトル $\mathbf{m}=(m_1,\dots,m_K)\in \mathbb{N}^K$ に対して、$\mathbf{m}$-MAB の例は、腕が$K$グループに分割され、$i$-th 群は$m_i$アームを含むことを示す。 一度腕を引っ張ると、同じグループのすべての腕の損失が観察される。 我々は、$\mathbf{m}$-MABに対して厳密なミニマックス後悔境界を証明し、純粋な探索バージョンである$\mathbf{m}$-BAIに対して最適なPACアルゴリズムを設計する。 我々は、$\mathbf{m}$-mabのミニマックスの後悔は$\theta\left(\sqrt{t\sum_{k=1}^k\log (m_k+1)}\right)であり、$(\epsilon,0.05)$-pacアルゴリズムの最小プル数は$\theta\left(\frac{1}{\epsilon^2}\cdot \sum_{k=1}^k\log (m_k+1)\right)であることを示した。 上限と下限はいずれも、クランクカバーと関連するグラフパラメータの観点から、より一般的な設定、すなわち、グラフフィードバックを伴うバンディットに拡張できます。 その結果、フィードバックグラフのいくつかのファミリに対して、厳密なミニマックス後悔境界を得た。

Learning with expert advice and multi-armed bandit are two classic online decision problems which differ on how the information is observed in each round of the game. We study a family of problems interpolating the two. For a vector $\mathbf{m}=(m_1,\dots,m_K)\in \mathbb{N}^K$, an instance of $\mathbf{m}$-MAB indicates that the arms are partitioned into $K$ groups and the $i$-th group contains $m_i$ arms. Once an arm is pulled, the losses of all arms in the same group are observed. We prove tight minimax regret bounds for $\mathbf{m}$-MAB and design an optimal PAC algorithm for its pure exploration version, $\mathbf{m}$-BAI, where the goal is to identify the arm with minimum loss with as few rounds as possible. We show that the minimax regret of $\mathbf{m}$-MAB is $\Theta\left(\sqrt{T\sum_{k=1}^K\log (m_k+1)}\right)$ and the minimum number of pulls for an $(\epsilon,0.05)$-PAC algorithm of $\mathbf{m}$-BAI is $\Theta\left(\frac{1}{\epsilon^2}\cdot \sum_{k=1}^K\log (m_k+1)\right)$. Both our upper bounds and lower bounds for $\mathbf{m}$-MAB can be extended to a more general setting, namely the bandit with graph feedback, in terms of the clique cover and related graph parameters. As consequences, we obtained tight minimax regret bounds for several families of feedback graphs.
翻訳日:2023-07-17 14:24:06 公開日:2023-07-14
# MorphPiece : 統計的言語表現から離れて

MorphPiece : Moving away from Statistical Language Representation ( http://arxiv.org/abs/2307.07262v1 )

ライセンス: Link先を確認
Haris Jabbar(参考訳) トークン化は現代のNLPパイプラインの重要な部分である。 しかし, 大規模言語モデルの代用トークンは, 言語的特徴を考慮せずに, テキストコーパスの統計的解析に基づいている。 そこで本研究では,下位文の形態的セグメンテーションにもとづく,言語に動機づけられたトークン化スキーム morphpiece を提案する。 このトークン化器(MorphGPT)で訓練されたGPTスタイルの因果言語モデルは、標準的なBPEトークン化器で訓練されたのと同じアーキテクチャと比較して、優れた収束性を示している。 具体的には、言語モデリングのパフォーマンスが6倍のモデルに匹敵します。 さらに,様々なnlpタスクにおけるmorphgptを教師なしおよび教師なし設定で評価し,gpt-2モデルと比較して,ボード全体で優れた性能を見出した。

Tokenization is a critical part of modern NLP pipelines. However, contemporary tokenizers for Large Language Models are based on statistical analysis of text corpora, without much consideration to the linguistic features. We propose a linguistically motivated tokenization scheme, MorphPiece, which is based partly on morphological segmentation of the underlying text. A GPT-style causal language model trained on this tokenizer (called MorphGPT) shows superior convergence compared to the same architecture trained on a standard BPE tokenizer. Specifically we get Language Modeling performance comparable to a 6 times larger model. Additionally, we evaluate MorphGPT on a variety of NLP tasks in supervised and unsupervised settings and find superior performance across the board, compared to GPT-2 model.
翻訳日:2023-07-17 14:23:18 公開日:2023-07-14
# ポイントクラウドマップにおける動的点除去ベンチマーク

A Dynamic Points Removal Benchmark in Point Cloud Maps ( http://arxiv.org/abs/2307.07260v1 )

ライセンス: Link先を確認
Qingwen Zhang, Daniel Duberg, Ruoyu Geng, Mingkai Jia, Lujia Wang, Patric Jensfelt(参考訳) ロボット工学の分野では、点雲は重要な地図表現となっている。 ローカライゼーションやグローバルパス計画といった下流タスクの観点からすると、動的オブジェクトに対応するポイントはパフォーマンスに悪影響を及ぼす。 点雲中の動的点を除去する既存の方法は、比較評価や包括的分析において明確性に欠けることが多い。 そこで本研究では,地図中の動的点を除去する手法を評価するためのベンチマークフレームワークを提案する。 これには、これらのアプローチの限界を分析するためのリファクタリングされた最先端メソッドと新しいメトリクスが含まれる。 これによって研究者は、これらの制限の背後にある根本的な理由を深く掘り下げることができる。 ベンチマークでは、センサタイプが異なる複数のデータセットを使用している。 私たちの研究に関連するコードとデータセットはすべて、さらなる開発と利用のために公開されています。

In the field of robotics, the point cloud has become an essential map representation. From the perspective of downstream tasks like localization and global path planning, points corresponding to dynamic objects will adversely affect their performance. Existing methods for removing dynamic points in point clouds often lack clarity in comparative evaluations and comprehensive analysis. Therefore, we propose an easy-to-extend unified benchmarking framework for evaluating techniques for removing dynamic points in maps. It includes refactored state-of-art methods and novel metrics to analyze the limitations of these approaches. This enables researchers to dive deep into the underlying reasons behind these limitations. The benchmark makes use of several datasets with different sensor types. All the code and datasets related to our study are publicly available for further development and utilization.
翻訳日:2023-07-17 14:23:06 公開日:2023-07-14
# ハイブリッドポーリングネットワークとドロップマスクによるBERTの改善

Improving BERT with Hybrid Pooling Network and Drop Mask ( http://arxiv.org/abs/2307.07258v1 )

ライセンス: Link先を確認
Qian Chen, Wen Wang, Qinglin Zhang, Chong Deng, Ma Yukun, Siqi Zheng(参考訳) BERTのようなトランスフォーマーベースの事前学習言語モデルは、様々な自然言語理解タスクで大きな成功を収めている。 以前の研究では、BERTは言語情報のリッチな階層を異なる層で捉えていた。 しかしながら、バニラBERTは各レイヤに対して同じ自己認識メカニズムを使用して、異なるコンテキスト特徴をモデル化する。 本稿では,各レイヤの異なるコンテキスト特徴を符号化するために,自己アテンションとプーリングネットワークを組み合わせたHybridBERTモデルを提案する。 さらに,マスクモデルにおける特殊マスクトークンの過剰使用による事前学習と微調整のミスマッチに対処するための簡易ドロップマスク法を提案する。 実験の結果、HybridBERTはBERTよりも低損失、高速なトレーニング速度(8%相対)、低メモリコスト(13%相対)、下流タスクの1.5%高い精度で転送学習に優れていた。 さらにDropMaskは、さまざまなマスキングレートで下流タスクにおけるBERTの精度を改善している。

Transformer-based pre-trained language models, such as BERT, achieve great success in various natural language understanding tasks. Prior research found that BERT captures a rich hierarchy of linguistic information at different layers. However, the vanilla BERT uses the same self-attention mechanism for each layer to model the different contextual features. In this paper, we propose a HybridBERT model which combines self-attention and pooling networks to encode different contextual features in each layer. Additionally, we propose a simple DropMask method to address the mismatch between pre-training and fine-tuning caused by excessive use of special mask tokens during Masked Language Modeling pre-training. Experiments show that HybridBERT outperforms BERT in pre-training with lower loss, faster training speed (8% relative), lower memory cost (13% relative), and also in transfer learning with 1.5% relative higher accuracies on downstream tasks. Additionally, DropMask improves accuracies of BERT on downstream tasks across various masking rates.
翻訳日:2023-07-17 14:22:57 公開日:2023-07-14
# 対話エージェント101 : 効果的な会話システム設計のための批判的問題へのベジナーガイド

Dialogue Agents 101: A Beginner's Guide to Critical Ingredients for Designing Effective Conversational Systems ( http://arxiv.org/abs/2307.07255v1 )

ライセンス: Link先を確認
Shivani Kumar, Sumit Bhatia, Milan Aggarwal, Tanmoy Chakraborty(参考訳) 仲間とのコミュニケーションを通じてアイデアを共有することが、人間のインタラクションの主要な方法である。 その結果、会話型AIの領域で広範な研究が行われ、会話型タスク、データセット、メソッドの可用性と多様性が向上した。 しかし、同時に多くのタスクが探索されているため、会話型AIの現在の状況は断片化される。 したがって、対話エージェントのためのよく考えられたモデルを開始することは、実践者にとって重要な課題となる。 実践者が対話エージェントをゼロから設計するために必要な重要な要素を強調するために,本研究では,対話エージェントの主要な特徴,サポートタスク,対応するオープンドメインデータセット,これらのデータセットのベンチマークに使用する方法などについて概説する。 我々は異なる対話課題に取り組むために異なる手法が用いられてきたことを観察する。 しかし、各タスクごとに別々のモデルを構築するのはコストがかかり、対話エージェントの複数のタスク間の相関を活用できない。 結果として、最近の傾向は統合基盤モデルの構築へのシフトを示唆している。 そこで本研究では,それぞれのニュアンスをキャプチャする異なる対話タスクのための既存のデータセットの対話から構築した統一対話データセットであるunitを提案する。 また,対話エージェントの性能測定に使用する評価戦略についても検討し,対話型AI分野における今後の研究対象を明らかにする。

Sharing ideas through communication with peers is the primary mode of human interaction. Consequently, extensive research has been conducted in the area of conversational AI, leading to an increase in the availability and diversity of conversational tasks, datasets, and methods. However, with numerous tasks being explored simultaneously, the current landscape of conversational AI becomes fragmented. Therefore, initiating a well-thought-out model for a dialogue agent can pose significant challenges for a practitioner. Towards highlighting the critical ingredients needed for a practitioner to design a dialogue agent from scratch, the current study provides a comprehensive overview of the primary characteristics of a dialogue agent, the supporting tasks, their corresponding open-domain datasets, and the methods used to benchmark these datasets. We observe that different methods have been used to tackle distinct dialogue tasks. However, building separate models for each task is costly and does not leverage the correlation among the several tasks of a dialogue agent. As a result, recent trends suggest a shift towards building unified foundation models. To this end, we propose UNIT, a UNified dIalogue dataseT constructed from conversations of existing datasets for different dialogue tasks capturing the nuances for each of them. We also examine the evaluation strategies used to measure the performance of dialogue agents and highlight the scope for future research in the area of conversational AI.
翻訳日:2023-07-17 14:22:39 公開日:2023-07-14
# cOOpD:コントラスト表現を用いた胸部CTスキャンのPD分類の異常検出

cOOpD: Reformulating COPD classification on chest CT scans as anomaly detection using contrastive representations ( http://arxiv.org/abs/2307.07254v1 )

ライセンス: Link先を確認
Silvia D. Almeida, Carsten T. L\"uth, Tobias Norajitra, Tassilo Wald, Marco Nolden, Paul F. Jaeger, Claus P. Heussel, J\"urgen Biederer, Oliver Weinheimer, Klaus Maier-Hein(参考訳) 異種疾患の分類は、その複雑さ、症状の多様性、画像所見により困難である。 慢性閉塞性肺疾患(COPD)は3番目の死因であるにもかかわらず診断されていない主要な例である。 コンピューター断層撮影の課題におけるばらばらで拡散的で不均質な外観は二分分類を監督する。 copdの2値分類を異常検出タスクとして再構成し、coopd: 異種病理領域を正常な均質肺領域からout-of-distribution(ood)として検出する。 この目的のために, 自己教師付きコントラストプリテキストモデルを用いて肺野の非ラベル領域の表現を学習し, 疾患領域と健常領域の特異な特徴を捉えることができる。 生成モデルが健康表現の分布を学習し、(copdから生じる)異常を偏差として識別する。 患者レベルスコアは、領域OODスコアを集約することで得られる。 coopdは2つのパブリックデータセットで最高のパフォーマンスを達成しており、以前の監視された状態と比較して、aurocの8.2%と7.7%の増加を示している。 さらに,cOOpDは,進行初期における個人識別に付加価値があることが示される,よく解釈可能な空間異常マップと患者レベルスコアを得る。 人工的に設計された実世界の有病率設定の実験は、異常検出がCOPD分類に取り組む強力な方法であることを示す。

Classification of heterogeneous diseases is challenging due to their complexity, variability of symptoms and imaging findings. Chronic Obstructive Pulmonary Disease (COPD) is a prime example, being underdiagnosed despite being the third leading cause of death. Its sparse, diffuse and heterogeneous appearance on computed tomography challenges supervised binary classification. We reformulate COPD binary classification as an anomaly detection task, proposing cOOpD: heterogeneous pathological regions are detected as Out-of-Distribution (OOD) from normal homogeneous lung regions. To this end, we learn representations of unlabeled lung regions employing a self-supervised contrastive pretext model, potentially capturing specific characteristics of diseased and healthy unlabeled regions. A generative model then learns the distribution of healthy representations and identifies abnormalities (stemming from COPD) as deviations. Patient-level scores are obtained by aggregating region OOD scores. We show that cOOpD achieves the best performance on two public datasets, with an increase of 8.2% and 7.7% in terms of AUROC compared to the previous supervised state-of-the-art. Additionally, cOOpD yields well-interpretable spatial anomaly maps and patient-level scores which we show to be of additional value in identifying individuals in the early stage of progression. Experiments in artificially designed real-world prevalence settings further support that anomaly detection is a powerful way of tackling COPD classification.
翻訳日:2023-07-17 14:22:04 公開日:2023-07-14
# 逆2重機械学習による因果パラメータ推定による敵意脆弱性の軽減

Mitigating Adversarial Vulnerability through Causal Parameter Estimation by Adversarial Double Machine Learning ( http://arxiv.org/abs/2307.07250v1 )

ライセンス: Link先を確認
Byung-Kwan Lee, Junho Kim, Yong Man Ro(参考訳) 視覚入力に対する意図的な摂動から導かれる逆例は、ディープニューラルネットワークの決定プロセスに容易に害を与える可能性がある。 潜在的な脅威を防ぐため、様々な対向訓練ベースの防御手法が急速に成長し、堅牢性のデファクトスタンダードアプローチとなった。 近年の競争的成果にもかかわらず、敵意の脆弱性はターゲットによって異なり、特定の脆弱性は依然として一般的である。 興味深いことに、このような特異な現象は、より深いアーキテクチャと高度な防御方法によっても緩和できない。 この問題に対処するため,我々はadversarial Double Machine Learning (ADML) と呼ばれる因果的アプローチを導入し,ネットワーク予測に対する敵の脆弱性の程度を定量化し,治療の効果が利害関係に与える影響を捉える。 ADMLは、逆境の摂動の因果パラメータを直接推定し、強靭性を損なう可能性のある負の効果を緩和し、逆境の脆弱性への因果的視点をブリッジすることができる。 各種CNNおよびTransformerアーキテクチャの広範な実験を通じて,ADMLは対向ロバスト性を大きく向上し,経験的観察を緩和することを示す。

Adversarial examples derived from deliberately crafted perturbations on visual inputs can easily harm decision process of deep neural networks. To prevent potential threats, various adversarial training-based defense methods have grown rapidly and become a de facto standard approach for robustness. Despite recent competitive achievements, we observe that adversarial vulnerability varies across targets and certain vulnerabilities remain prevalent. Intriguingly, such peculiar phenomenon cannot be relieved even with deeper architectures and advanced defense methods. To address this issue, in this paper, we introduce a causal approach called Adversarial Double Machine Learning (ADML), which allows us to quantify the degree of adversarial vulnerability for network predictions and capture the effect of treatments on outcome of interests. ADML can directly estimate causal parameter of adversarial perturbations per se and mitigate negative effects that can potentially damage robustness, bridging a causal perspective into the adversarial vulnerability. Through extensive experiments on various CNN and Transformer architectures, we corroborate that ADML improves adversarial robustness with large margins and relieve the empirical observation.
翻訳日:2023-07-17 14:21:12 公開日:2023-07-14
# gsemoによるoneminmax上のダイバーシティ最適化の厳密な実行時解析

Rigorous Runtime Analysis of Diversity Optimization with GSEMO on OneMinMax ( http://arxiv.org/abs/2307.07248v1 )

ライセンス: Link先を確認
Denis Antipov, Aneta Neumann, Frank Neumann(参考訳) 進化的多様性の最適化は、適合性に一定の制約を満たす多様なソリューションを見つけることを目的としている。 多目的最適化の文脈では、この制約はパレート最適解を必要とする。 本稿では,2目的ベンチマーク問題であるOneMinMaxにおいて,GSEMOアルゴリズムが多様性を持つヒューリスティックアルゴリズムをどのように最適化するかを検討する。 最適化の最後のステップの厳密な実行時間解析を行い、アルゴリズムが2番目に高い多様性を持つ集団から始めると、問題のサイズがn$が奇数である場合に、最適な多様性を持つ集団が期待時間であるo(n^2)$で見つかることを証明します。 目的を達成するために,人口の変化頻度とその結果を反映したランダムウォークの分析を行った。

The evolutionary diversity optimization aims at finding a diverse set of solutions which satisfy some constraint on their fitness. In the context of multi-objective optimization this constraint can require solutions to be Pareto-optimal. In this paper we study how the GSEMO algorithm with additional diversity-enhancing heuristic optimizes a diversity of its population on a bi-objective benchmark problem OneMinMax, for which all solutions are Pareto-optimal. We provide a rigorous runtime analysis of the last step of the optimization, when the algorithm starts with a population with a second-best diversity, and prove that it finds a population with optimal diversity in expected time $O(n^2)$, when the problem size $n$ is odd. For reaching our goal, we analyse the random walk of the population, which reflects the frequency of changes in the population and their outcomes.
翻訳日:2023-07-17 14:20:37 公開日:2023-07-14
# 知識強化:医学的コントラストビジョン-言語前訓練の再考

Knowledge Boosting: Rethinking Medical Contrastive Vision-Language Pre-Training ( http://arxiv.org/abs/2307.07246v1 )

ライセンス: Link先を確認
Xiaofei Chen, Yuting He, Cheng Xue, Rongjun Ge, Shuo Li, Guanyu Yang(参考訳) 事前学習技術に基づく基礎モデルは、理論的から実用的な応用へと大幅に進歩した。 これらのモデルにより、コンピュータ支援診断が普及しやすくなっている。 人間のアノテーションを必要としない医用コントラスト言語事前学習は、診断報告における記述情報を用いた表現学習の指導に有効な手法である。 しかし,前訓練の有効性は,医療分野における意味の重なりや問題の変化によって制限される。 そこで本研究では, 臨床知識と視覚言語意味的一貫性の学習を融合した知識ブースティング・コントラスト・ビジョン言語事前学習フレームワーク(kobo)を提案する。 このフレームワークは、負のサンプルノイズを測定し、視覚言語間の相互情報と臨床知識の対応を補うために、バイアスのないオープンセットのサンプル知識表現を使用する。 広範な実験により,分類,セグメンテーション,検索,意味的関連性を含む8つのタスクに対するフレームワークの効果を検証し,ゼロショットあるいは少数ショット設定で同等あるいは優れたパフォーマンスを実現する。 私たちのコードはhttps://github.com/ChenXiaoFei-CS/KoBo.comで公開されています。

The foundation models based on pre-training technology have significantly advanced artificial intelligence from theoretical to practical applications. These models have facilitated the feasibility of computer-aided diagnosis for widespread use. Medical contrastive vision-language pre-training, which does not require human annotations, is an effective approach for guiding representation learning using description information in diagnostic reports. However, the effectiveness of pre-training is limited by the large-scale semantic overlap and shifting problems in medical field. To address these issues, we propose the Knowledge-Boosting Contrastive Vision-Language Pre-training framework (KoBo), which integrates clinical knowledge into the learning of vision-language semantic consistency. The framework uses an unbiased, open-set sample-wise knowledge representation to measure negative sample noise and supplement the correspondence between vision-language mutual information and clinical knowledge. Extensive experiments validate the effect of our framework on eight tasks including classification, segmentation, retrieval, and semantic relatedness, achieving comparable or better performance with the zero-shot or few-shot settings. Our code is open on https://github.com/ChenXiaoFei-CS/KoBo.
翻訳日:2023-07-17 14:20:19 公開日:2023-07-14
# ポイントクラウド分類ネットワークを用いた3次元形状型心筋梗塞予測

3D Shape-Based Myocardial Infarction Prediction Using Point Cloud Classification Networks ( http://arxiv.org/abs/2307.07298v1 )

ライセンス: Link先を確認
Marcel Beetz, Yilong Yang, Abhirup Banerjee, Lei Li, Vicente Grau(参考訳) 心筋梗塞 (MI) は心血管疾患の1つであり, 単値画像バイオマーカーによる臨床診断が一般的である。 しかし、これらの指標は心臓の複雑な3D構造と生理学にのみ近似し、MI結果の理解と予測を妨げている。 そこで本研究では,MIイベントの検出精度を向上させるために,点雲による完全3次元心臓形状の有用性について検討する。 そこで本研究では,3次元心表面再構成ステップと点雲分類ネットワークを組み合わせた完全自動多段階パイプラインを提案する。 本手法は,ポイントクラウドにおける幾何学的深層学習の最近の進歩を利用して,心臓解剖学の高分解能表面モデル上での直接的かつ効率的なマルチスケール学習を実現する。 提案手法は,先行mi検出とインシデントmi予測のタスクを1068名の英国バイオバンク被験者に対して評価し,臨床ベンチマークよりそれぞれ13%,5%改善した。 さらに,3次元形状MI検出における心室・心室相の役割を解析し,典型的にはMIの結果に関連する形態的および生理的パターンの視覚的分析を行う。

Myocardial infarction (MI) is one of the most prevalent cardiovascular diseases with associated clinical decision-making typically based on single-valued imaging biomarkers. However, such metrics only approximate the complex 3D structure and physiology of the heart and hence hinder a better understanding and prediction of MI outcomes. In this work, we investigate the utility of complete 3D cardiac shapes in the form of point clouds for an improved detection of MI events. To this end, we propose a fully automatic multi-step pipeline consisting of a 3D cardiac surface reconstruction step followed by a point cloud classification network. Our method utilizes recent advances in geometric deep learning on point clouds to enable direct and efficient multi-scale learning on high-resolution surface models of the cardiac anatomy. We evaluate our approach on 1068 UK Biobank subjects for the tasks of prevalent MI detection and incident MI prediction and find improvements of ~13% and ~5% respectively over clinical benchmarks. Furthermore, we analyze the role of each ventricle and cardiac phase for 3D shape-based MI detection and conduct a visual analysis of the morphological and physiological patterns typically associated with MI outcomes.
翻訳日:2023-07-17 14:14:37 公開日:2023-07-14
# 自律環境を利用したフロンティア探索による強化学習

Reinforcement Learning with Frontier-Based Exploration via Autonomous Environment ( http://arxiv.org/abs/2307.07296v1 )

ライセンス: Link先を確認
Kenji Leong(参考訳) Active Simultaneous Localisation and Mapping (SLAM)は、自律ロボット工学において重要な問題であり、ロボットが周囲の正確なモデルを構築しながら、新しい領域への移動を可能にする。 Visual SLAMは、仮想要素を使用してエクスペリエンスを向上する一般的なテクニックです。 しかし、既存のフロンティアベースの探索戦略は、同じ距離の複数のフロンティアが存在するシナリオにおいて、非最適経路につながる可能性がある。 この問題は、探索や救助、探索、マッピングなど、幅広いロボットアプリケーションに不可欠なVisual SLAMの効率と正確性に影響を与える可能性がある。 この問題を解決するために、ExploreORBとして知られる既存のVisual-Graph SLAMと強化学習を組み合わせる。 提案アルゴリズムにより、ロボットは報酬に基づく探索経路を学習し、最適化し、適切なフロンティア選択による環境の正確なマップを作成することができる。 辺境に基づく探索は未探索領域の検出に使用され、強化学習は最適な辺境点に対する報酬を割り当てることでロボットの動きを最適化する。 次にグラフSLAMを使用して、ロボットの知覚データを統合し、環境の正確なマップを構築する。 提案アルゴリズムは、フロンティアの探索プロセスを最適化し、より正確な地図を作成することにより、ExploreORBの効率と精度を向上させることを目的としている。 提案手法の有効性を評価するため,ロボットシミュレーションソフトウェアであるGazeboを用いて,様々な仮想環境で実験を行う。 これらの実験の結果は、自律ロボット工学におけるSLAMの最適解として提案されたアプローチの可能性を示す既存の手法と比較される。

Active Simultaneous Localisation and Mapping (SLAM) is a critical problem in autonomous robotics, enabling robots to navigate to new regions while building an accurate model of their surroundings. Visual SLAM is a popular technique that uses virtual elements to enhance the experience. However, existing frontier-based exploration strategies can lead to a non-optimal path in scenarios where there are multiple frontiers with similar distance. This issue can impact the efficiency and accuracy of Visual SLAM, which is crucial for a wide range of robotic applications, such as search and rescue, exploration, and mapping. To address this issue, this research combines both an existing Visual-Graph SLAM known as ExploreORB with reinforcement learning. The proposed algorithm allows the robot to learn and optimize exploration routes through a reward-based system to create an accurate map of the environment with proper frontier selection. Frontier-based exploration is used to detect unexplored areas, while reinforcement learning optimizes the robot's movement by assigning rewards for optimal frontier points. Graph SLAM is then used to integrate the robot's sensory data and build an accurate map of the environment. The proposed algorithm aims to improve the efficiency and accuracy of ExploreORB by optimizing the exploration process of frontiers to build a more accurate map. To evaluate the effectiveness of the proposed approach, experiments will be conducted in various virtual environments using Gazebo, a robot simulation software. Results of these experiments will be compared with existing methods to demonstrate the potential of the proposed approach as an optimal solution for SLAM in autonomous robotics.
翻訳日:2023-07-17 14:14:19 公開日:2023-07-14
# 低リソース言語における方言排他的認識に向けて:バランスの取れたコーパスは答えか?

Towards dialect-inclusive recognition in a low-resource language: are balanced corpora the answer? ( http://arxiv.org/abs/2307.07295v1 )

ライセンス: Link先を確認
Liam Lonergan, Mengjie Qian, Neasa N\'i Chiar\'ain, Christer Gobl, Ailbhe N\'i Chasaide(参考訳) ASRシステムは通常、話し言葉の'標準'のために構築され、その性能は標準でない方言/変種で低下する。 これはアイルランド語のような言語では問題であり、単一の話し言葉の標準はないが、ulster (ul)、connacht (co)、muster (mu)の3つの主要な方言がある。 話者の方言が認識性能に与える影響を定量化する診断法として、まずベースライン方言バランス訓練コーパスを用いて12のASRシステムを訓練し、次にベースラインコーパスの修正版を用いて方言固有の材料を抽出または追加した。 結果は、方言バランスの取れたコーパスは、方言全体で同様のパフォーマンスを得られないことを示している。 Co と Mu の方言の間には密接な関係があるが、対称ではないものが存在する。 これらの結果は,クロスダイアレクティブ・パフォーマンス・エクイティを最適化するための今後のコーパス収集とシステム構築戦略を導くものである。

ASR systems are generally built for the spoken 'standard', and their performance declines for non-standard dialects/varieties. This is a problem for a language like Irish, where there is no single spoken standard, but rather three major dialects: Ulster (Ul), Connacht (Co) and Munster (Mu). As a diagnostic to quantify the effect of the speaker's dialect on recognition performance, 12 ASR systems were trained, firstly using baseline dialect-balanced training corpora, and then using modified versions of the baseline corpora, where dialect-specific materials were either subtracted or added. Results indicate that dialect-balanced corpora do not yield a similar performance across the dialects: the Ul dialect consistently underperforms, whereas Mu yields lowest WERs. There is a close relationship between Co and Mu dialects, but one that is not symmetrical. These results will guide future corpus collection and system building strategies to optimise for cross-dialect performance equity.
翻訳日:2023-07-17 14:13:53 公開日:2023-07-14
# ロバストなビデオ圧縮センシングのためのサンプリング優先型ディープアンフォールディングネットワーク

Sampling-Priors-Augmented Deep Unfolding Network for Robust Video Compressive Sensing ( http://arxiv.org/abs/2307.07291v1 )

ライセンス: Link先を確認
Yuhao Huang, Gangrong Qu and Youran Ge(参考訳) Video Compressed Sensing (VCS) は、1つのキャプチャー計測から複数のフレームを再構築することを目的としており、低フレームレートのセンサーで高速なシーン記録を実現する。 最近のVCSには目覚ましい進歩があったが、最新のSOTA(State-of-the-art)手法はモデルの複雑さを著しく増加させ、汎用性や堅牢性に欠ける。 このような制限は、リアルタイムイメージングとモデルの実用的な展開を妨げる。 本稿では,SPA-DUN(Samping-Priors-Augmented Deep Unfolding Network)を提案する。 最適化にインスパイアされたディープ展開フレームワークでは、軽量で効率的なU-netを使用してモデルのサイズを縮小し、全体的なパフォーマンスを改善している。 さらに,サンプリングモデルからの事前知識を利用してネットワーク特性を動的に変調し,任意のサンプリング設定を処理し,解釈可能性と汎用性を高める。 SPA-DUNは1つのモデルで様々なサンプリング設定に適用可能であるだけでなく、SOTAの性能を信じられないほど効率的に達成できることを示す。

Video Compressed Sensing (VCS) aims to reconstruct multiple frames from one single captured measurement, thus achieving high-speed scene recording with a low-frame-rate sensor. Although there have been impressive advances in VCS recently, those state-of-the-art (SOTA) methods also significantly increase model complexity and suffer from poor generality and robustness, which means that those networks need to be retrained to accommodate the new system. Such limitations hinder the real-time imaging and practical deployment of models. In this work, we propose a Sampling-Priors-Augmented Deep Unfolding Network (SPA-DUN) for efficient and robust VCS reconstruction. Under the optimization-inspired deep unfolding framework, a lightweight and efficient U-net is exploited to downsize the model while improving overall performance. Moreover, the prior knowledge from the sampling model is utilized to dynamically modulate the network features to enable single SPA-DUN to handle arbitrary sampling settings, augmenting interpretability and generality. Extensive experiments on both simulation and real datasets demonstrate that SPA-DUN is not only applicable for various sampling settings with one single model but also achieves SOTA performance with incredible efficiency.
翻訳日:2023-07-17 14:13:32 公開日:2023-07-14
# マルチスペクトラル・ハイパースペクトラル画像融合のための暗黙的ニューラル特徴融合関数

Implicit Neural Feature Fusion Function for Multispectral and Hyperspectral Image Fusion ( http://arxiv.org/abs/2307.07288v1 )

ライセンス: Link先を確認
ShangQi Deng, RuoCheng Wu, Liang-Jian Deng, Ran Ran, Tai-Xiang Jiang(参考訳) MHIFは高分解能マルチスペクトル画像(HR-MSI)と高分解能ハイパースペクトル画像(LR-HSI)を融合して高分解能ハイパースペクトル画像(HR-HSI)を得るための実用的課題である。 強力なインダクティブバイアス能力の恩恵を受け、cnnベースの手法はmhifタスクで大きな成功を収めた。 しかし、特定の解釈可能性がなく、性能を高めるために畳み込み構造を積み重ねる必要がある。 近年,Inlicit Neural Representation (INR) は,局所的にサンプルを補間し,画素や座標などのマルチモーダルコンテンツを利用する能力により,2次元タスクにおいて優れた性能と解釈性を実現している。 inrベースのアプローチは期待できるが、高周波情報(例えば位置符号化)を余分に構築する必要がある。 本稿では,従来のMHIFタスクの成果に触発されて,HR-MSIが高周波詳細補助入力として機能することを認識し,インプリシットニューラルフィーチャーフュージョン関数(INF)と呼ばれる新しいINRベースのハイパースペクトル融合関数を提案する。 精巧な構造として、MHIFタスクを解決し、INRベースのアプローチにおける欠陥に対処する。 具体的には,hr-msi と lr-hsi の2倍の高周波情報を得る2重高周波融合 (dhff) 構造の設計を行った。 さらに、提案したINFは、コサイン類似性を用いて特徴ベクトルを介して局所的な重みを生成する、コサイン類似性(INR-CS)を持つパラメータフリーなINRを組み込んだ。 INFに基づいて、我々は2つの公開データセットである \emph{i.e.,} CAVEとHarvardのMHIFタスクの最先端性能を実現するインプリシトニューラルネットワーク(INFN)を構築した。 コードは間もなくGitHubで公開される予定だ。

Multispectral and Hyperspectral Image Fusion (MHIF) is a practical task that aims to fuse a high-resolution multispectral image (HR-MSI) and a low-resolution hyperspectral image (LR-HSI) of the same scene to obtain a high-resolution hyperspectral image (HR-HSI). Benefiting from powerful inductive bias capability, CNN-based methods have achieved great success in the MHIF task. However, they lack certain interpretability and require convolution structures be stacked to enhance performance. Recently, Implicit Neural Representation (INR) has achieved good performance and interpretability in 2D tasks due to its ability to locally interpolate samples and utilize multimodal content such as pixels and coordinates. Although INR-based approaches show promise, they require extra construction of high-frequency information (\emph{e.g.,} positional encoding). In this paper, inspired by previous work of MHIF task, we realize that HR-MSI could serve as a high-frequency detail auxiliary input, leading us to propose a novel INR-based hyperspectral fusion function named Implicit Neural Feature Fusion Function (INF). As an elaborate structure, it solves the MHIF task and addresses deficiencies in the INR-based approaches. Specifically, our INF designs a Dual High-Frequency Fusion (DHFF) structure that obtains high-frequency information twice from HR-MSI and LR-HSI, then subtly fuses them with coordinate information. Moreover, the proposed INF incorporates a parameter-free method named INR with cosine similarity (INR-CS) that uses cosine similarity to generate local weights through feature vectors. Based on INF, we construct an Implicit Neural Fusion Network (INFN) that achieves state-of-the-art performance for MHIF tasks of two public datasets, \emph{i.e.,} CAVE and Harvard. The code will soon be made available on GitHub.
翻訳日:2023-07-17 14:13:10 公開日:2023-07-14
# マルチスケール空間時間骨格マッチングによるワンショット行動認識

One-Shot Action Recognition via Multi-Scale Spatial-Temporal Skeleton Matching ( http://arxiv.org/abs/2307.07286v1 )

ライセンス: Link先を確認
Siyuan Yang, Jun Liu, Shijian Lu, Er Meng Hwa, Alex C. Kot(参考訳) 単一トレーニングサンプルで骨格行動認識モデルを学習することを目的としたワンショット骨格行動認識は,大規模な骨格行動データの収集と注釈付けの難しさから注目されている。 しかし、既存のほとんどの研究は、空間構造や骨格データの時間順序を無視する特徴ベクトルを直接比較することで骨格配列と一致している。 本稿では,マルチスケールな時空間特徴マッチングによる骨格行動認識を行う一発骨格行動認識技術を提案する。 複数の空間的および時間的スケールでスケルトンデータを表現し、2つの視点から最適な特徴マッチングを実現する。 ひとつはマルチスケールマッチングで、複数の空間的および時間的スケールでスケルトンデータのスケールワイドな意味関係を同時にキャプチャする。 2つ目はクロススケールマッチングで、複数のスケールにまたがるサンプルワイドの関連性を捉えることで、異なる動きの大きさと速度を扱う。 大規模な3つのデータセット(NTU RGB+D, NTU RGB+D 120, PKU-MMD)に対する大規模な実験により, 本手法は優れた単発骨格の動作認識を達成し, 高いマージンで一貫した性能を発揮することが示された。

One-shot skeleton action recognition, which aims to learn a skeleton action recognition model with a single training sample, has attracted increasing interest due to the challenge of collecting and annotating large-scale skeleton action data. However, most existing studies match skeleton sequences by comparing their feature vectors directly which neglects spatial structures and temporal orders of skeleton data. This paper presents a novel one-shot skeleton action recognition technique that handles skeleton action recognition via multi-scale spatial-temporal feature matching. We represent skeleton data at multiple spatial and temporal scales and achieve optimal feature matching from two perspectives. The first is multi-scale matching which captures the scale-wise semantic relevance of skeleton data at multiple spatial and temporal scales simultaneously. The second is cross-scale matching which handles different motion magnitudes and speeds by capturing sample-wise relevance across multiple scales. Extensive experiments over three large-scale datasets (NTU RGB+D, NTU RGB+D 120, and PKU-MMD) show that our method achieves superior one-shot skeleton action recognition, and it outperforms the state-of-the-art consistently by large margins.
翻訳日:2023-07-17 14:12:28 公開日:2023-07-14
# 量子カーネルを用いたサポートベクトルマシンによるマルチスペクトル衛星画像の雲検出

Cloud Detection in Multispectral Satellite Images Using Support Vector Machines With Quantum Kernels ( http://arxiv.org/abs/2307.07281v1 )

ライセンス: Link先を確認
Artur Miroszewski, Jakub Mielczarek, Filip Szczepanek, Grzegorz Czelusta, Bartosz Grabowski, Bertrand Le Saux, and Jakub Nalepa(参考訳) サポートベクターマシン(svm)は、パターン認識と分類タスクの配列に効果的にデプロイされる、確立された分類器である。 本研究では,従来のSVMを量子カーネルで拡張し,衛星データ解析に適用することを検討する。 量子カーネル(ハイブリッドSVM)を用いたSVMの設計と実装について述べる。 これは量子カーネル推定 (qke) 手順と古典的なsvmトレーニングルーチンを組み合わせたものである。 ピクセルデータはパラメータ化されたアンサッツ状態で動作するzz特徴写像を用いてヒルベルト空間にマッピングされる。 パラメータはカーネルターゲットアライメントを最大化するために最適化される。 我々は,衛星画像データにおける雲検出の問題にアプローチし,地上およびオンボードの衛星画像解析チェーンにおける重要なステップの1つである。 ベンチマークランドサット-8のマルチスペクトルデータセットで行った実験により、svmは従来のsvmと同等の精度で衛星画像の分類に成功した。

Support vector machines (SVMs) are a well-established classifier effectively deployed in an array of pattern recognition and classification tasks. In this work, we consider extending classic SVMs with quantum kernels and applying them to satellite data analysis. The design and implementation of SVMs with quantum kernels (hybrid SVMs) is presented. It consists of the Quantum Kernel Estimation (QKE) procedure combined with a classic SVM training routine. The pixel data are mapped to the Hilbert space using ZZ-feature maps acting on the parameterized ansatz state. The parameters are optimized to maximize the kernel target alignment. We approach the problem of cloud detection in satellite image data, which is one of the pivotal steps in both on-the-ground and on-board satellite image analysis processing chains. The experiments performed over the benchmark Landsat-8 multispectral dataset revealed that the simulated hybrid SVM successfully classifies satellite images with accuracy on par with classic SVMs.
翻訳日:2023-07-17 14:12:04 公開日:2023-07-14
# リプレイ・トゥ・メモリ:ドイツ音声認識のための連続層特異的微調整

Replay to Remember: Continual Layer-Specific Fine-tuning for German Speech Recognition ( http://arxiv.org/abs/2307.07280v1 )

ライセンス: Link先を確認
Theresa Pekarek Rosin, Stefan Wermter(参考訳) 自動音声認識(ASR)モデルは、教師なしまたは教師なしの訓練技術の導入によって大きな進歩を見せているが、これらの改善は言語と話者のサブセクションに限られている。 転送学習により、大規模多言語モデルの低リソース言語だけでなく、より特定の話者グループにも適応することができる。 しかし、新しいドメインからのデータの微調整は通常、元のドメインのパフォーマンスが低下する。 そこで本研究では,大規模asrモデルの性能を,ドイツ上級音声コマンド(svc-de)のデータセットを用いて,より小さな領域で近似し,訓練中にモデルを選択的に凍結することにより,一般音声認識性能がどの程度保持できるかを検証した。 細調整領域外の語彙や話者に対するASRモデルの堅牢性をさらに高めるため,連続学習にエクスペリエンス・リプレイを適用した。 元のドメインからほんのわずかなデータを追加することで、新しいドメインで単語誤り率(wers)が5\%未満になると同時に、許容可能なwerで一般的な音声認識のパフォーマンスを安定させることができる。

While Automatic Speech Recognition (ASR) models have shown significant advances with the introduction of unsupervised or self-supervised training techniques, these improvements are still only limited to a subsection of languages and speakers. Transfer learning enables the adaptation of large-scale multilingual models to not only low-resource languages but also to more specific speaker groups. However, fine-tuning on data from new domains is usually accompanied by a decrease in performance on the original domain. Therefore, in our experiments, we examine how well the performance of large-scale ASR models can be approximated for smaller domains, with our own dataset of German Senior Voice Commands (SVC-de), and how much of the general speech recognition performance can be preserved by selectively freezing parts of the model during training. To further increase the robustness of the ASR model to vocabulary and speakers outside of the fine-tuned domain, we apply Experience Replay for continual learning. By adding only a fraction of data from the original domain, we are able to reach Word-Error-Rates (WERs) below 5\% on the new domain, while stabilizing performance for general speech recognition at acceptable WERs.
翻訳日:2023-07-17 14:11:50 公開日:2023-07-14
# 音声と音声の視覚的理解において、言葉は等しく驚くか?

Are words equally surprising in audio and audio-visual comprehension? ( http://arxiv.org/abs/2307.07277v1 )

ライセンス: Link先を確認
Pranava Madhyastha, Ye Zhang, Gabriella Vigliocco(参考訳) 本稿では,視覚情報(話者を見ること)が音声言語理解に与える影響について検討した。 同一音声刺激の音声のみおよび音声視覚提示において,各単語に関連するERPシグネチャ(N400)を比較した。 各単語に対するn400応答を予測した言語モデル(特にn-gramとtransformerモデル)の異なるタイプに基づいて、単語の予測可能性を定量化する超越的尺度(語彙的文脈における単語の予測可能性)が生成される程度を評価する。 以上の結果から,認知活動はマルチモーダル・アンモダル・セッティングと大きく異なることが示唆された。 さらに,より大きな語彙文脈にアクセスできるトランスフォーマーモデルでは,音声のみの設定に適合するが,マルチモーダル設定では2グラムの言語モデルの方が有効であることが示唆された。 これは、マルチモーダル環境における認知処理に対する局所語彙文脈の影響を強調する。

We report a controlled study investigating the effect of visual information (i.e., seeing the speaker) on spoken language comprehension. We compare the ERP signature (N400) associated with each word in audio-only and audio-visual presentations of the same verbal stimuli. We assess the extent to which surprisal measures (which quantify the predictability of words in their lexical context) are generated on the basis of different types of language models (specifically n-gram and Transformer models) that predict N400 responses for each word. Our results indicate that cognitive effort differs significantly between multimodal and unimodal settings. In addition, our findings suggest that while Transformer-based models, which have access to a larger lexical context, provide a better fit in the audio-only setting, 2-gram language models are more effective in the multimodal setting. This highlights the significant impact of local lexical context on cognitive processing in a multimodal environment.
翻訳日:2023-07-17 14:11:29 公開日:2023-07-14
# ロバスト容積分節化のための周波数領域adversarial training

Frequency Domain Adversarial Training for Robust Volumetric Medical Segmentation ( http://arxiv.org/abs/2307.07269v1 )

ライセンス: Link先を確認
Asif Hanif, Muzammal Naseer, Salman Khan, Mubarak Shah, Fahad Shahbaz Khan(参考訳) 医療などの重要な応用において、ディープラーニングモデルの堅牢性を確保することが不可欠である。 近年の深層学習の進歩により, ボリューム画像分割モデルの性能は向上しているが, 敵攻撃に対する脆弱性のため, 現実のアプリケーションに即時に展開することはできない。 本稿では,3次元周波数領域対向攻撃をボリューム画像分割モデルに適用し,従来型の入力領域やボクセル領域攻撃に対する利点を示す。 提案手法を用いて,voxelおよび周波数領域攻撃に対するロバストモデルを最適化する新しい周波数領域敵訓練手法を提案する。 さらに, クリーンサンプルと逆サンプルのモデル性能のトレードオフを改善するために, 周波数領域敵訓練を規制するために, 周波数一貫性の損失を提案する。 コードはhttps://github.com/asif-hanif/vafaで公開されている。

It is imperative to ensure the robustness of deep learning models in critical applications such as, healthcare. While recent advances in deep learning have improved the performance of volumetric medical image segmentation models, these models cannot be deployed for real-world applications immediately due to their vulnerability to adversarial attacks. We present a 3D frequency domain adversarial attack for volumetric medical image segmentation models and demonstrate its advantages over conventional input or voxel domain attacks. Using our proposed attack, we introduce a novel frequency domain adversarial training approach for optimizing a robust model against voxel and frequency domain attacks. Moreover, we propose frequency consistency loss to regulate our frequency domain adversarial training that achieves a better tradeoff between model's performance on clean and adversarial samples. Code is publicly available at https://github.com/asif-hanif/vafa.
翻訳日:2023-07-17 14:11:12 公開日:2023-07-14
# 学習可能な中毒サンプル選択戦略によるバックドア攻撃の促進

Boosting Backdoor Attack with A Learnable Poisoning Sample Selection Strategy ( http://arxiv.org/abs/2307.07328v1 )

ライセンス: Link先を確認
Zihao Zhu, Mingda Zhang, Shaokui Wei, Li Shen, Yanbo Fan, Baoyuan Wu(参考訳) データポジショニングベースのバックドア攻撃は、ターゲットモデルのトレーニングプロセスを制御することなく、トレーニングデータセットを操作してバックドアをモデルに挿入することを目的としている。 既存の攻撃方法は、主にトリガーの設計やトリガーと良性サンプルの融合戦略に焦点を当てている。 しかし、彼らはしばしば無作為に毒を盛るサンプルを選び、バックドア注射の観点で各毒のサンプルの重要性を無視する。 最近の選択戦略では, 忘れ物イベントを記録することで, 固定サイズの汚染サンプルプールをフィルタするが, プール外の残留サンプルをグローバルな視点で検討することは困難である。 さらに、イベントを忘れるコンピューティングには、重要なコンピューティングリソースが必要です。 したがって、データセット全体から毒素サンプルを効率的かつ効果的に選択する方法は、バックドア攻撃において緊急の課題であり、まず、通常のバックドアトレーニングロスに毒素マスクを導入する。 ハード中毒サンプルを用いたバックドアモデルトレーニングは,通常のトレーニングプロセス(\ie,最大ロス\wrtマスク)を阻害することで実現可能な,簡単なモデルよりもバックドア効果が高いと仮定する。 さらに, 通常のトレーニングプロセスと統合するために, モデルパラメータとともにマスクを学ぶための学習可能な毒素サンプル選択戦略を提案する。具体的には, 外部ループは, 選択したサンプルに基づいて損失を最小化することでバックドア攻撃目標を達成し, 内部ループは, 損失を最大化することでこの目標を阻害する硬毒素サンプルを選択する。 数回の逆行訓練の後, 最終的に有効毒素試料を高い寄与で選択した。 ベンチマークデータセットに関する広範囲な実験は、バックドア攻撃性能向上における我々のアプローチの有効性と効率を示している。

Data-poisoning based backdoor attacks aim to insert backdoor into models by manipulating training datasets without controlling the training process of the target model. Existing attack methods mainly focus on designing triggers or fusion strategies between triggers and benign samples. However, they often randomly select samples to be poisoned, disregarding the varying importance of each poisoning sample in terms of backdoor injection. A recent selection strategy filters a fixed-size poisoning sample pool by recording forgetting events, but it fails to consider the remaining samples outside the pool from a global perspective. Moreover, computing forgetting events requires significant additional computing resources. Therefore, how to efficiently and effectively select poisoning samples from the entire dataset is an urgent problem in backdoor attacks.To address it, firstly, we introduce a poisoning mask into the regular backdoor training loss. We suppose that a backdoored model training with hard poisoning samples has a more backdoor effect on easy ones, which can be implemented by hindering the normal training process (\ie, maximizing loss \wrt mask). To further integrate it with normal training process, we then propose a learnable poisoning sample selection strategy to learn the mask together with the model parameters through a min-max optimization.Specifically, the outer loop aims to achieve the backdoor attack goal by minimizing the loss based on the selected samples, while the inner loop selects hard poisoning samples that impede this goal by maximizing the loss. After several rounds of adversarial training, we finally select effective poisoning samples with high contribution. Extensive experiments on benchmark datasets demonstrate the effectiveness and efficiency of our approach in boosting backdoor attack performance.
翻訳日:2023-07-17 14:02:55 公開日:2023-07-14
# 低リソース音声アプリケーションのための隠れ単位クラスタリングによる表現学習

Representation Learning With Hidden Unit Clustering For Low Resource Speech Applications ( http://arxiv.org/abs/2307.07325v1 )

ライセンス: Link先を確認
Varun Krishna, Tarun Sai, Sriram Ganapathy(参考訳) テキスト的資源を持たない音声表現学習は、多くの低資源音声アプリケーションにとって重要な関心事となっている。 本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師型表現学習のアプローチについて述べる。 モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成される。 畳み込みニューラルネットワーク(CNN)モジュールから得られた"時間周波数"表現は、さらに長期記憶(LSTM)レイヤで処理され、ウィンドウ化されたセグメント毎にコンテキストベクトル表現を生成する。 HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。 ターゲットは音声セグメント毎に音素ライクな擬似ラベルで構成され、反復k-meansアルゴリズムによって生成される。 学習した表現の話者不変性を改善する手法を検討し、提案手法の有効性を2つの設定で示す。 i)ZeroSpeech 2021チャレンジの一部として記載されたサブタスクに関する完全に教師なしの音声アプリケーション 二)timitデータセット及びgramvaani challenge hindiデータセットにおける半教師付き自動音声認識(asr)の応用 これらの実験では,ZeroSpeechタスクの最先端化を実現する。 さらに、ASR実験では、HUC表現は、Wav2vec、HuBERT、Best-RQに基づく他の確立されたベンチマークよりも大幅に改善されている。

The representation learning of speech, without textual resources, is an area of significant interest for many low resource speech applications. In this paper, we describe an approach to self-supervised representation learning from raw audio using a hidden unit clustering (HUC) framework. The input to the model consists of audio samples that are windowed and processed with 1-D convolutional layers. The learned "time-frequency" representations from the convolutional neural network (CNN) module are further processed with long short term memory (LSTM) layers which generate a contextual vector representation for every windowed segment. The HUC framework, allowing the categorization of the representations into a small number of phoneme-like units, is used to train the model for learning semantically rich speech representations. The targets consist of phoneme-like pseudo labels for each audio segment and these are generated with an iterative k-means algorithm. We explore techniques that improve the speaker invariance of the learned representations and illustrate the effectiveness of the proposed approach on two settings, i) completely unsupervised speech applications on the sub-tasks described as part of the ZeroSpeech 2021 challenge and ii) semi-supervised automatic speech recognition (ASR) applications on the TIMIT dataset and on the GramVaani challenge Hindi dataset. In these experiments, we achieve state-of-art results for various ZeroSpeech tasks. Further, on the ASR experiments, the HUC representations are shown to improve significantly over other established benchmarks based on Wav2vec, HuBERT and Best-RQ.
翻訳日:2023-07-17 14:02:26 公開日:2023-07-14
# 混合整数計画のための文脈対応切削平面選択アルゴリズム

A Context-Aware Cutting Plane Selection Algorithm for Mixed-Integer Programming ( http://arxiv.org/abs/2307.07322v1 )

ライセンス: Link先を確認
Mark Turner, Timo Berthold, Mathieu Besan\c{c}on(参考訳) 混合整数型プログラムソルバで使われる現在のカット選択アルゴリズムは、その作成以来ほとんど変わっていない。 本稿では,最先端アルゴリズムを拡張し,miplib 2017ベンチマークセット上でのscip性能向上を実現するため,新たなカットスコア尺度,カットフィルタリング手法,停止基準を提案する。

The current cut selection algorithm used in mixed-integer programming solvers has remained largely unchanged since its creation. In this paper, we propose a set of new cut scoring measures, cut filtering techniques, and stopping criteria, extending the current state-of-the-art algorithm and obtaining a 4\% performance improvement for SCIP over the MIPLIB 2017 benchmark set.
翻訳日:2023-07-17 14:02:03 公開日:2023-07-14
# 適応線形推定方程式

Adaptive Linear Estimating Equations ( http://arxiv.org/abs/2307.07320v1 )

ライセンス: Link先を確認
Mufang Ying, Koulik Khamaru, Cun-Hui Zhang(参考訳) シークエンシャルデータ収集は,データ収集プロセスの効率を高める手法として広く採用されている。 その利点にもかかわらず、このようなデータ収集メカニズムは、しばしば統計的推論手順に複雑性をもたらす。 例えば、適応線形回帰モデルにおける通常の最小二乗(ols)推定器は非正規漸近的振る舞いを示し、正確な推論と解釈に挑戦する。 本稿では,この問題を修復する脱バイアス推定器の汎用的構築法を提案する。 適応線形推定方程式の考え方を利用し、近似的漸近分散を達成するための議論によって補足される漸近正規性の理論的保証を確立する。 我々の推定器の健全な特徴は、マルチアームバンディットの文脈では、最小二乗推定器の非漸近性能を保ちつつ、漸近正規性が得られることである。 この研究は、適応推論の2つの実りあるパラダイムを結びつけるのに役立つ。 a)濃度不等式を用いた非漸近的推論 b) 漸近的正常性による漸近的推論

Sequential data collection has emerged as a widely adopted technique for enhancing the efficiency of data gathering processes. Despite its advantages, such data collection mechanism often introduces complexities to the statistical inference procedure. For instance, the ordinary least squares (OLS) estimator in an adaptive linear regression model can exhibit non-normal asymptotic behavior, posing challenges for accurate inference and interpretation. In this paper, we propose a general method for constructing debiased estimator which remedies this issue. It makes use of the idea of adaptive linear estimating equations, and we establish theoretical guarantees of asymptotic normality, supplemented by discussions on achieving near-optimal asymptotic variance. A salient feature of our estimator is that in the context of multi-armed bandits, our estimator retains the non-asymptotic performance of the least square estimator while obtaining asymptotic normality property. Consequently, this work helps connect two fruitful paradigms of adaptive inference: a) non-asymptotic inference using concentration inequalities and b) asymptotic inference via asymptotic normality.
翻訳日:2023-07-17 14:01:57 公開日:2023-07-14
# ニュースルームにおけるハイブリッドモデレーション:コンテンツモデレーターにフィーチャー投稿を推薦する

Hybrid moderation in the newsroom: Recommending featured posts to content moderators ( http://arxiv.org/abs/2307.07317v1 )

ライセンス: Link先を確認
Cedric Waterschoot, Antal van den Bosch(参考訳) オンラインニュースメディアはコメント欄でユーザー生成コンテンツのモデレーションに不満を抱いている。 そこで本稿では,モデレーターが時間消費課題であるフィーチャーポストを選択できるよう,ランキングクラス確率に基づく推薦システムを提案する。 ユーザとテキストのコンテンツ特徴を組み合わせることで、テストセット上の最適な分類F1スコアが0.44になる。 さらに, 検証項目の集合に対して, 0.87 の NDCG@5 を最適平均とする。 専門的な評価として、コンテンツモデレーターは、レコメンデーションに基づいてコメントを特徴に選択することで、ランダムな記事選択のアウトプットを評価し、NDCGスコアは0.83となった。 まず、テキスト機能を加えることで、最高のスコアと2番目のスコアが得られるが、フィーチャーされたコンテンツの選択は、幾分主観的でありながら、コンテンツモデレーターは、評価されたレコメンデーションを除いて、適切なコメントを見出した。 この論文は、当社のベストパフォーマンスモデルを分析し、ハイブリッドコンテンツモデレーションにおける透明性と説明可能性への一歩を踏み出します。

Online news outlets are grappling with the moderation of user-generated content within their comment section. We present a recommender system based on ranking class probabilities to support and empower the moderator in choosing featured posts, a time-consuming task. By combining user and textual content features we obtain an optimal classification F1-score of 0.44 on the test set. Furthermore, we observe an optimum mean NDCG@5 of 0.87 on a large set of validation articles. As an expert evaluation, content moderators assessed the output of a random selection of articles by choosing comments to feature based on the recommendations, which resulted in a NDCG score of 0.83. We conclude that first, adding text features yields the best score and second, while choosing featured content remains somewhat subjective, content moderators found suitable comments in all but one evaluated recommendations. We end the paper by analyzing our best-performing model, a step towards transparency and explainability in hybrid content moderation.
翻訳日:2023-07-17 14:01:40 公開日:2023-07-14
# HEAL-SWIN: 球面の視覚変換器

HEAL-SWIN: A Vision Transformer On The Sphere ( http://arxiv.org/abs/2307.07313v1 )

ライセンス: Link先を確認
Oscar Carlsson, Jan E. Gerken, Hampus Linander, Heiner Spie{\ss}, Fredrik Ohlsson, Christoffer Petersson, Daniel Persson(参考訳) 高分解能広角魚眼画像は、自動運転などのロボティクス応用においてますます重要になっている。 しかし、このデータ上で通常の畳み込みニューラルネットワークや視覚変換器を用いることは、平面上の矩形格子に投影する際に生じる投影や歪みの損失によって問題となる。 天体物理学や宇宙論で用いられる高度に均一な階層的等方性領域等方性幾何格子 (HEALPix) と階層的シフト・ウィンドウ変換器 (SWIN) を組み合わせることで、高分解能で歪みのない球面データをトレーニングできる効率的で柔軟なモデルを生成する。 HEAL-SWINでは、HEALPixグリッドのネスト構造を用いてSWINトランスのパッチ処理とウィンドウ処理を行い、計算オーバーヘッドを最小限にした球面データの1次元表現を行う。 合成および実自動車のデータセット上でのセマンティックセグメンテーションおよび深度回帰タスクにおいて,本モデルの優れた性能を示す。 私たちのコードはhttps://github.com/JanEGerken/HEAL-SWIN.comで公開されています。

High-resolution wide-angle fisheye images are becoming more and more important for robotics applications such as autonomous driving. However, using ordinary convolutional neural networks or vision transformers on this data is problematic due to projection and distortion losses introduced when projecting to a rectangular grid on the plane. We introduce the HEAL-SWIN transformer, which combines the highly uniform Hierarchical Equal Area iso-Latitude Pixelation (HEALPix) grid used in astrophysics and cosmology with the Hierarchical Shifted-Window (SWIN) transformer to yield an efficient and flexible model capable of training on high-resolution, distortion-free spherical data. In HEAL-SWIN, the nested structure of the HEALPix grid is used to perform the patching and windowing operations of the SWIN transformer, resulting in a one-dimensional representation of the spherical data with minimal computational overhead. We demonstrate the superior performance of our model for semantic segmentation and depth regression tasks on both synthetic and real automotive datasets. Our code is available at https://github.com/JanEGerken/HEAL-SWIN.
翻訳日:2023-07-17 14:01:22 公開日:2023-07-14
# 知識グラフからのゼロショット自然言語生成のための大規模言語モデルの利用

Using Large Language Models for Zero-Shot Natural Language Generation from Knowledge Graphs ( http://arxiv.org/abs/2307.07312v1 )

ライセンス: Link先を確認
Agnes Axelsson and Gabriel Skantze(参考訳) 構造化知識グラフ(kg)データを基礎知識表現として使用するシステムでは、kg-to-text生成は、グラフデータの一部を人間が理解できるテキストに変換するのに有用なツールである。 近年の研究では,KG-to-textタスクにおいて,特定のグラフ-to-textタスクのトレーニングデータセットが比較的小さい場合でも,大量のテキストデータに対する事前学習を利用するモデルが良好に動作できることが示されている。 本稿では,この概念を大規模言語モデルを用いて構築し,モデルが読み取ることのできる3重構造に対する理解のみに基づいてゼロショット生成を行う。 私たちは、chatgptがwebnlg 2020チャレンジのいくつかの尺度で最先端のパフォーマンスを達成していることを示しています。 さらに、事実、反事実、虚偽の文を比較し、LLMが解析しているデータと出力テキストの品質について既に知っているものの間に有意な関連性があることを示します。

In any system that uses structured knowledge graph (KG) data as its underlying knowledge representation, KG-to-text generation is a useful tool for turning parts of the graph data into text that can be understood by humans. Recent work has shown that models that make use of pretraining on large amounts of text data can perform well on the KG-to-text task even with relatively small sets of training data on the specific graph-to-text task. In this paper, we build on this concept by using large language models to perform zero-shot generation based on nothing but the model's understanding of the triple structure from what it can read. We show that ChatGPT achieves near state-of-the-art performance on some measures of the WebNLG 2020 challenge, but falls behind on others. Additionally, we compare factual, counter-factual and fictional statements, and show that there is a significant connection between what the LLM already knows about the data it is parsing and the quality of the output text.
翻訳日:2023-07-17 14:01:04 公開日:2023-07-14
# バリア認証を用いた量子システムの検証

Verification of Quantum Systems using Barrier Certificates ( http://arxiv.org/abs/2307.07307v1 )

ライセンス: Link先を確認
Marco Lewis, Paolo Zuliani, Sadegh Soudjani(参考訳) 近年、量子コンピュータの検証、すなわち量子コンピュータ/システムが与えられた正しさの正式な仕様を満たすかどうかを決定するために様々な技術が用いられている。 バリア証明は、動的システムの特性を検証するために開発された最近の新しい概念である。 本稿では,量子システムの振る舞いを検証する手段としてのバリア証明書の利用について検討する。 これを実現するために、障壁証明書の概念を実変数から複素変数へと拡張する。 次に,線形計画法に基づく計算手法を開発し,複素変数が実値を取る多項式障壁証明書を自動的に生成する。 最後に,本手法をいくつかの単純な量子システムに適用し,その利用例を示す。

Various techniques have been used in recent years for verifying quantum computers, that is, for determining whether a quantum computer/system satisfies a given formal specification of correctness. Barrier certificates are a recent novel concept developed for verifying properties of dynamical systems. In this article, we investigate the usage of barrier certificates as a means for verifying behaviours of quantum systems. To do this, we extend the notion of barrier certificates from real to complex variables. We then develop a computational technique based on linear programming to automatically generate polynomial barrier certificates with complex variables taking real values. Finally, we apply our technique to several simple quantum systems to demonstrate their usage.
翻訳日:2023-07-17 14:00:46 公開日:2023-07-14
# C3: ChatGPTを使ったゼロショットテキストからSQL

C3: Zero-shot Text-to-SQL with ChatGPT ( http://arxiv.org/abs/2307.07306v1 )

ライセンス: Link先を確認
Xuemei Dong, Chao Zhang, Yuhang Ge, Yuren Mao, Yunjun Gao, lu Chen, Jinshu Lin, Dongfang Lou(参考訳) 本稿では、C3と呼ばれるChatGPTベースのゼロショットテキスト・トゥ・SQL方式を提案し、スパイダーのホールドアウトテストセット上での実行精度82.3\%を達成し、スパイダーチャレンジにおける最先端のゼロショットテキスト・トゥ・SQL方式となる。 C3は、Clear Prompting (CP)、Calibration with Hints (CH)、Consistent Output (CO)の3つの主要なコンポーネントで構成され、それぞれモデル入力、モデルバイアス、モデル出力に対応する。 ゼロショットテキストからsqlへの体系的な処理を提供する。 提案手法の有効性と有効性を検証するため, 大規模な実験を行った。

This paper proposes a ChatGPT-based zero-shot Text-to-SQL method, dubbed C3, which achieves 82.3\% in terms of execution accuracy on the holdout test set of Spider and becomes the state-of-the-art zero-shot Text-to-SQL method on the Spider Challenge. C3 consists of three key components: Clear Prompting (CP), Calibration with Hints (CH), and Consistent Output (CO), which are corresponding to the model input, model bias and model output respectively. It provides a systematic treatment for zero-shot Text-to-SQL. Extensive experiments have been conducted to verify the effectiveness and efficiency of our proposed method.
翻訳日:2023-07-17 14:00:37 公開日:2023-07-14
# 物理に変形したニューラルネットワークを用いた高次レーン・エムデン・フローラー型方程式の解法:ソフト制約とハード制約の比較ベンチマークテスト

Solving higher-order Lane-Emden-Fowler type equations using physics-informed neural networks: benchmark tests comparing soft and hard constraints ( http://arxiv.org/abs/2307.07302v1 )

ライセンス: Link先を確認
Hubert Baty(参考訳) 本稿では,高次常微分方程式(ODE)の解法として物理情報ニューラルネットワーク(PINN)を用いた数値計算法を提案する。 実際、このディープラーニング技術は、よく知られた二階レーン・エムデン方程式、三階エムデン・フォーラー方程式、四階レーン・エムデン・フォーラー方程式といった、特異なodeの異なるクラスを解くのにうまく応用できる。 2種類のPINN技術が検討・比較されている。 まず、方程式の残差をある程度の重みで考慮し、物理ベースの損失を形成し、初期/境界条件を含むトレーニングデータ損失に追加するニューラルネットワークの損失関数の最小化手順を用いる。 第二に、これらの条件を厳密な制約として保証する試行的な解の特定の選択は、その制約が柔らかく見える訓練データに基づく最初の変種とは対照的に、微分方程式を満たすために行われる。 PINNの利点と欠点が強調されている。

In this paper, numerical methods using Physics-Informed Neural Networks (PINNs) are presented with the aim to solve higher-order ordinary differential equations (ODEs). Indeed, this deep-learning technique is successfully applied for solving different classes of singular ODEs, namely the well known second-order Lane-Emden equations, third order-order Emden-Fowler equations, and fourth-order Lane-Emden-Fowler equations. Two variants of PINNs technique are considered and compared. First, a minimization procedure is used to constrain the total loss function of the neural network, in which the equation residual is considered with some weight to form a physics-based loss and added to the training data loss that contains the initial/boundary conditions. Second, a specific choice of trial solutions ensuring these conditions as hard constraints is done in order to satisfy the differential equation, contrary to the first variant based on training data where the constraints appear as soft ones. Advantages and drawbacks of PINNs variants are highlighted.
翻訳日:2023-07-17 14:00:24 公開日:2023-07-14
# 空洞QEDモデルにおける量子絡み合いと量子不協和の研究

Studying quantum entanglement and quantum discord in the cavity QED models ( http://arxiv.org/abs/2307.07352v1 )

ライセンス: Link先を確認
Miao Hui-hui and Li Wang-shun(参考訳) 2キュービットのJaynes-Cummingsモデル(共通キャビティ量子電磁力学モデル)と3キュービットのTavis-Cummingsモデルの変更により、二部量子系における光と物質間の量子相関について検討する。 量子マスター方程式の解法により、開系における散逸ダイナミクスを導出することができる。 2ビット系の量子エンタングルメントの度合いを測るために、フォン・ノイマンエントロピーと共起を導入する。 閉システムと開システムの両方で量子相関を適切に測定できる量子ディスコードも導入されている。 さらに、量子ディスコードに対する初期絡み合いと散逸強度の影響についても考察する。 最後に、量子と古典の2つの異なる原子運動のケースについて議論した。

Based on the two-qubit Jaynes-Cummings model - a common cavity quantum electrodynamics model, and extending to modification of the three-qubit Tavis-Cummings model, we investigate the quantum correlation between light and matter in bipartite quantum systems. By resolving the quantum master equation, we are able to derive the dissipative dynamics in open systems. To gauge the degree of quantum entanglement in the two-qubit system, von Neumann entropy and concurrence are introduced. Quantum discord, which can properly measure the quantum correlation in both closed and open systems, is also introduced. In addition, consideration is given to the impacts of initial entanglement and dissipation strength on quantum discord. Finally we discussed two different cases of nuclei motion: quantum and classical.
翻訳日:2023-07-17 13:54:41 公開日:2023-07-14
# 分類データのクラスタビリティ評価のためのテストベースアプローチ

A testing-based approach to assess the clusterability of categorical data ( http://arxiv.org/abs/2307.07346v1 )

ライセンス: Link先を確認
Lianyu Hu, Junjie Dong, Mudi Jiang, Yan Liu, Zengyou He(参考訳) クラスタビリティ評価の目的は、データセット内にクラスタリング構造が存在するかどうかを確認することである。 クラスタ分析において重要でありながら見過ごされがちな問題であるため、クラスタリングアルゴリズムを適用する前にそのようなテストを実施することが不可欠である。 データセットがクラスタ化できない場合、その後のクラスタリング分析では有効な結果が得られない。 その重要性にもかかわらず、既存の研究の大半は数値データに重点を置いており、分類データのクラスタビリティ評価問題をオープン問題として残している。 ここでは、分析的な$p$-valueの観点から分類データのクラスタビリティを評価するテストベースのアプローチであるTestCatを紹介する。 testcatの基礎となる重要なアイデアは、クラスタ可能な分類データは、多くの強い相関のある属性ペアを持ち、従ってすべての属性ペアのchi-squared統計の和は、$p$-value計算のテスト統計として使われる。 提案手法をベンチマーク分類データセットに適用し,既存のクラスタビリティ評価手法により,TestCatがそれらの解より優れていることを示す。 我々の知識を最大限に活用するために、我々の研究は、統計的に健全な方法で分類データのクラスタビリティを効果的に認識する方法を提供する。

The objective of clusterability evaluation is to check whether a clustering structure exists within the data set. As a crucial yet often-overlooked issue in cluster analysis, it is essential to conduct such a test before applying any clustering algorithm. If a data set is unclusterable, any subsequent clustering analysis would not yield valid results. Despite its importance, the majority of existing studies focus on numerical data, leaving the clusterability evaluation issue for categorical data as an open problem. Here we present TestCat, a testing-based approach to assess the clusterability of categorical data in terms of an analytical $p$-value. The key idea underlying TestCat is that clusterable categorical data possess many strongly correlated attribute pairs and hence the sum of chi-squared statistics of all attribute pairs is employed as the test statistic for $p$-value calculation. We apply our method to a set of benchmark categorical data sets, showing that TestCat outperforms those solutions based on existing clusterability evaluation methods for numeric data. To the best of our knowledge, our work provides the first way to effectively recognize the clusterability of categorical data in a statistically sound manner.
翻訳日:2023-07-17 13:54:27 公開日:2023-07-14
# 逆進化層:ディープニューラルネットワークのための物理インフォームド正規化器

Inverse Evolution Layers: Physics-informed Regularizers for Deep Neural Networks ( http://arxiv.org/abs/2307.07344v1 )

ライセンス: Link先を確認
Chaoyu Liu, Zhonghua Qiao, Chao Li and Carola-Bibiane Sch\"onlieb(参考訳) 本稿では, 偏微分方程式(PDE)に基づく進化モデルをニューラル・ネットワークに統合するための新しい手法を提案する。 具体的には、進化方程式に基づく逆進化層(IEL)を提案する。 これらの層は特定の正規化目標を達成し、ニューラルネットワークの出力に進化モデルの特性を付与することができる。 さらに、IELは簡単に構築および実装でき、様々な物理的進化やニューラルネットワークのために容易に設計できる。 さらに、これらのレイヤの設計プロセスは、直感的かつ数学的解釈性を備えたニューラルネットワークを提供し、アプローチの透明性と説明可能性を高めることができる。 提案手法の有効性, 効率性, 簡易性を示すため, 熱拡散モデルに基づく滑らかさ特性を有する内在的意味セグメンテーションモデルの例を示す。 この目的を達成するために、熱拡散IELを設計し、ノイズラベルを用いたセマンティックセグメンテーションの課題に対処する。 実験の結果, 熱拡散ielはノイズラベルによる過給問題を効果的に軽減できることがわかった。

This paper proposes a novel approach to integrating partial differential equation (PDE)-based evolution models into neural networks through a new type of regularization. Specifically, we propose inverse evolution layers (IELs) based on evolution equations. These layers can achieve specific regularization objectives and endow neural networks' outputs with corresponding properties of the evolution models. Moreover, IELs are straightforward to construct and implement, and can be easily designed for various physical evolutions and neural networks. Additionally, the design process for these layers can provide neural networks with intuitive and mathematical interpretability, thus enhancing the transparency and explainability of the approach. To demonstrate the effectiveness, efficiency, and simplicity of our approach, we present an example of endowing semantic segmentation models with the smoothness property based on the heat diffusion model. To achieve this goal, we design heat-diffusion IELs and apply them to address the challenge of semantic segmentation with noisy labels. The experimental results demonstrate that the heat-diffusion IELs can effectively mitigate the overfitting problem caused by noisy labels.
翻訳日:2023-07-17 13:54:06 公開日:2023-07-14
# MaxMin-L2-SVC-NCH:モデルパラメータの選択によるサポートベクトル分類器の学習方法

MaxMin-L2-SVC-NCH: A New Method to Train Support Vector Classifier with the Selection of Model's Parameters ( http://arxiv.org/abs/2307.07343v1 )

ライセンス: Link先を確認
Linkai Luo, Qiaoling Yang, Hong Peng, Yiding Wang, Ziyang Chen(参考訳) モデルパラメータの選択は、サポートベクトル分類(SVC)の適用において重要な役割を果たす。 モデルのパラメータを選択する一般的な方法は、k-fold cross validation with grid search (cv)である。 多数のSVCモデルをトレーニングする必要があるため、非常に時間がかかります。 本稿では,モデルパラメータの選択によってsvcを訓練する新しい手法を提案する。 まず、モデルパラメータの選択によるSVCのトレーニングを最小化問題(MaxMin-L2-SVC-NCH)としてモデル化し、最小化問題は2つの通常の凸殻(L2-SVC-NCH)間の最も近い点を求める最適化問題であり、最大化問題は最適モデルのパラメータを求める最適化問題である。 CVは放棄されているため、MaxMin-L2-SVC-NCHでは低時間の複雑さが期待できる。 そこで,L2-SVC-NCHを投影勾配アルゴリズム (PGA) で解き,最大化を動的学習率で解き,L2-SVC-NCHを解き,勾配に基づくアルゴリズムを提案する。 L2-SVC-NCHの解法におけるPGAの利点を示すために、SMOアルゴリズムの後、PGAと有名なシーケンシャル最小最適化(SMO)アルゴリズムの比較を行い、L2-SVC-NCHのKKT条件について述べる。 SMOアルゴリズムがPGAの特殊な場合であることが判明した。 したがって、PGAはより柔軟性を提供することができる。 公開データセット上でのMaxMin-L2-SVC-NCHと古典パラメータ選択モデルの比較実験により、MaxMin-L2-SVC-NCHはトレーニング対象モデルの数を大幅に削減し、古典モデルではテスト精度が失われないことを示す。 これはmaxmin-l2-svc-nchが他のモデルよりも優れた性能を示す。 我々はSVCタスクの望ましいモデルとしてMaxMin-L2-SVC-NCHを強く推奨する。

The selection of model's parameters plays an important role in the application of support vector classification (SVC). The commonly used method of selecting model's parameters is the k-fold cross validation with grid search (CV). It is extremely time-consuming because it needs to train a large number of SVC models. In this paper, a new method is proposed to train SVC with the selection of model's parameters. Firstly, training SVC with the selection of model's parameters is modeled as a minimax optimization problem (MaxMin-L2-SVC-NCH), in which the minimization problem is an optimization problem of finding the closest points between two normal convex hulls (L2-SVC-NCH) while the maximization problem is an optimization problem of finding the optimal model's parameters. A lower time complexity can be expected in MaxMin-L2-SVC-NCH because CV is abandoned. A gradient-based algorithm is then proposed to solve MaxMin-L2-SVC-NCH, in which L2-SVC-NCH is solved by a projected gradient algorithm (PGA) while the maximization problem is solved by a gradient ascent algorithm with dynamic learning rate. To demonstrate the advantages of the PGA in solving L2-SVC-NCH, we carry out a comparison of the PGA and the famous sequential minimal optimization (SMO) algorithm after a SMO algorithm and some KKT conditions for L2-SVC-NCH are provided. It is revealed that the SMO algorithm is a special case of the PGA. Thus, the PGA can provide more flexibility. The comparative experiments between MaxMin-L2-SVC-NCH and the classical parameter selection models on public datasets show that MaxMin-L2-SVC-NCH greatly reduces the number of models to be trained and the test accuracy is not lost to the classical models. It indicates that MaxMin-L2-SVC-NCH performs better than the other models. We strongly recommend MaxMin-L2-SVC-NCH as a preferred model for SVC task.
翻訳日:2023-07-17 13:53:49 公開日:2023-07-14
# pitl:プロンプトによる視覚言語事前学習によるクロスモーダル検索

PiTL: Cross-modal Retrieval with Weakly-supervised Vision-language Pre-training via Prompting ( http://arxiv.org/abs/2307.07341v1 )

ライセンス: Link先を確認
Zixin Guo, Tzu-Jui Julius Wang, Selen Pehlivan, Abduljalil Radman, Jorma Laaksonen(参考訳) 視覚言語 (VL) 事前学習 (VLP) は、特にクロスモーダル検索において、広範囲のVL下流タスクにおいて、VLモデルを適切に一般化することを示した。 しかし、大量の画像とテキストのペアを頼りにしており、面倒で高価なキュレーションが必要です。 逆に、弱い教師付きVLP(W-VLP)は、画像から事前訓練対象検出器(OD)によって生成されたオブジェクトタグで手段を探索する。 しかし、ODを訓練するためには、イメージやオブジェクトレベルのアノテーションといったペア情報が必要である。 画像記述のために,大規模言語モデル (LLM) から知識を誘導する Prompts-in-The-Loop (PiTL) を提案する。 具体的には、例えば製油所のような画像のカテゴリラベルが与えられた場合、LLMによって抽出された大きな貯蔵タンクやパイプワーク、...といった知識が言語として使用される。 知識は、例えば、シーンに現れる可能性が高いエンティティ間の共通関係を補う。 In14Kは9M画像の新しいVLデータセットであり、ImageNet21KとPiTLから14Kカテゴリの1M記述である。 実証的に、PiTL生成ペアで事前訓練されたVLモデルは、イメージ・トゥ・テキスト(I2T)およびテキスト・トゥ・イメージ(T2I)検索タスクにおける他のW-VLP作業よりも、監督の少ないものに強く好まれる。 その結果,VLPに対するPiTL生成ペアの有効性が示された。

Vision-language (VL) Pre-training (VLP) has shown to well generalize VL models over a wide range of VL downstream tasks, especially for cross-modal retrieval. However, it hinges on a huge amount of image-text pairs, which requires tedious and costly curation. On the contrary, weakly-supervised VLP (W-VLP) explores means with object tags generated by a pre-trained object detector (OD) from images. Yet, they still require paired information, i.e. images and object-level annotations, as supervision to train an OD. To further reduce the amount of supervision, we propose Prompts-in-The-Loop (PiTL) that prompts knowledge from large language models (LLMs) to describe images. Concretely, given a category label of an image, e.g. refinery, the knowledge, e.g. a refinery could be seen with large storage tanks, pipework, and ..., extracted by LLMs is used as the language counterpart. The knowledge supplements, e.g. the common relations among entities most likely appearing in a scene. We create IN14K, a new VL dataset of 9M images and 1M descriptions of 14K categories from ImageNet21K with PiTL. Empirically, the VL models pre-trained with PiTL-generated pairs are strongly favored over other W-VLP works on image-to-text (I2T) and text-to-image (T2I) retrieval tasks, with less supervision. The results reveal the effectiveness of PiTL-generated pairs for VLP.
翻訳日:2023-07-17 13:53:12 公開日:2023-07-14
# リスク制御画像検索

Risk Controlled Image Retrieval ( http://arxiv.org/abs/2307.07336v1 )

ライセンス: Link先を確認
Kaiwen Cai, Chris Xiaoxuan Lu, Xingyu Zhao, Xiaowei Huang(参考訳) ほとんどの画像検索研究は予測性能の向上に重点を置いているが、予測の信頼性が重要なシナリオでは不足する可能性がある。 不確実性定量化は、クエリやデータベース画像の不確実性を評価するのに役立つが、この手法は保証ではなくヒューリスティックな推定のみを提供することができる。 これらの制約に対処するため,リスク制御画像検索(RCIR)を提案する。 RCIRは任意の画像検索手法に簡単に接続でき、データ分布やモデル選択に依存しない。 私たちの知る限りでは、これは画像検索のカバレッジ保証を提供する最初の仕事です。 RCIRの有効性と効率は、Stanford CAR-196(Krause et al. 2013)、CUB-200(Wah et al. 2011)、ピッツバーグデータセット(Torii et al. 2013)、チェストX-Detデータセット(Lian et al. 2021)の4つの実世界の画像検索データセットで実証されている。

Most image retrieval research focuses on improving predictive performance, but they may fall short in scenarios where the reliability of the prediction is crucial. Though uncertainty quantification can help by assessing uncertainty for query and database images, this method can provide only a heuristic estimate rather than an guarantee. To address these limitations, we present Risk Controlled Image Retrieval (RCIR), which generates retrieval sets that are guaranteed to contain the ground truth samples with a predefined probability. RCIR can be easily plugged into any image retrieval method, agnostic to data distribution and model selection. To the best of our knowledge, this is the first work that provides coverage guarantees for image retrieval. The validity and efficiency of RCIR is demonstrated on four real-world image retrieval datasets, including the Stanford CAR-196 (Krause et al. 2013), CUB-200 (Wah et al. 2011), the Pittsburgh dataset (Torii et al. 2013) and the ChestX-Det dataset (Lian et al. 2021).
翻訳日:2023-07-17 13:52:40 公開日:2023-07-14
# デジタルアナログ量子計算のベンチマーク

Benchmarking Digital-Analog Quantum Computation ( http://arxiv.org/abs/2307.07335v1 )

ライセンス: Link先を確認
Vicente Pina Canelles, Manuel G. Algaba, Hermanni Heimonen, Miha Papi\v{c}, Mario Ponce, Jami R\"onkk\"o, Manish J. Thapa, In\'es de Vega, Adrian Auer(参考訳) デジタルアナログ量子計算(DAQC)は近年,デジタル量子計算の標準パラダイムの代替として提案されている。 DAQCは2キュービットゲートを適用するのではなく、デバイス全体の連続的またはアナログ的進化を通じて絡み合いを生み出す。 本論文では,DAQCの実装を任意の接続性に拡張し,スケーリング特性に関する最初の系統的研究を行うことにより,DAQCの詳細な解析を行う。 量子アルゴリズムの3つの例について解析を行い、いくつかの特定のケースを除いて、DAQCは実際にデジタルケースに関して不利であることを示す。

Digital-Analog Quantum Computation (DAQC) has recently been proposed as an alternative to the standard paradigm of digital quantum computation. DAQC creates entanglement through a continuous or analog evolution of the whole device, rather than by applying two-qubit gates. This manuscript describes an in-depth analysis of DAQC by extending its implementation to arbitrary connectivities and by performing the first systematic study of its scaling properties. We specify the analysis for three examples of quantum algorithms, showing that except for a few specific cases, DAQC is in fact disadvantageous with respect to the digital case.
翻訳日:2023-07-17 13:52:19 公開日:2023-07-14
# syntable: 乱雑なテーブルトップシーンのオブジェクトアモーダルインスタンスセグメンテーションのための合成データ生成パイプライン

SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal Instance Segmentation of Cluttered Tabletop Scenes ( http://arxiv.org/abs/2307.07333v1 )

ライセンス: Link先を確認
Zhili Ng, Haozhe Wang, Zhengshen Zhang, Francis Tay Eng Hock, and Marcelo H. Ang Jr(参考訳) 本稿では、NVIDIAのIsaac Sim Replicator Composerを使って構築された、統一的で柔軟なPythonベースのデータセットジェネレータであるSynTableを紹介します。 私たちのデータセット生成ツールは、オブジェクトメッシュ、材料、テクスチャ、照明、背景を含む複雑な3dシーンをレンダリングできます。 モーダルやアモーダルインスタンスのセグメンテーションマスク、オクルージョンマスク、深度マップ、バウンディングボックス、マテリアルプロパティなどのメタデータを生成して、ユーザの要求に応じてシーンを自動的にアノテートすることができる。 当社のツールは、データセットの品質と精度を確保しつつ、データセット生成プロセスで手動ラベリングを不要にする。 本稿では,設計目標,フレームワークアーキテクチャ,ツールの性能について論じる。 レイトレーシングによりSynTableを用いて生成されたサンプルデータセットを用いて、最先端モデルのUOAIS-Netをトレーニングする。 その結果, osd-amodalデータセット上で評価した場合, sim-to-real転送の性能は著しく向上した。 私たちはこのツールを、ディープラーニングと合成データ生成の研究を進めるための、オープンソースで使いやすいフォトリアリスティックなデータセットジェネレータとして提供しています。

In this work, we present SynTable, a unified and flexible Python-based dataset generator built using NVIDIA's Isaac Sim Replicator Composer for generating high-quality synthetic datasets for unseen object amodal instance segmentation of cluttered tabletop scenes. Our dataset generation tool can render a complex 3D scene containing object meshes, materials, textures, lighting, and backgrounds. Metadata, such as modal and amodal instance segmentation masks, occlusion masks, depth maps, bounding boxes, and material properties, can be generated to automatically annotate the scene according to the users' requirements. Our tool eliminates the need for manual labeling in the dataset generation process while ensuring the quality and accuracy of the dataset. In this work, we discuss our design goals, framework architecture, and the performance of our tool. We demonstrate the use of a sample dataset generated using SynTable by ray tracing for training a state-of-the-art model, UOAIS-Net. The results show significantly improved performance in Sim-to-Real transfer when evaluated on the OSD-Amodal dataset. We offer this tool as an open-source, easy-to-use, photorealistic dataset generator for advancing research in deep learning and synthetic data generation.
翻訳日:2023-07-17 13:52:09 公開日:2023-07-14
# 量子コンピューティングと量子機械学習の時代の核物理学

Nuclear Physics in the Era of Quantum Computing and Quantum Machine Learning ( http://arxiv.org/abs/2307.07332v1 )

ライセンス: Link先を確認
J.E. Garc\'ia-Ramos, A. S\'aiz, J.M. Arias, L. Lamata, P. P\'erez-Fern\'andez(参考訳) 本稿では,低エネルギー核物理学問題に対する量子シミュレーションと量子機械学習の応用について検討する。 核物理学問題に対する量子コンピューティングの利用は、一般に、その初期段階において、特に低エネルギーでの核物理学の領域における量子機械学習の使用はほとんど存在しない。 ここでは、量子コンピューティングと量子機械学習の使用が将来、計算上の優位性をもたらす可能性がある3つの具体的な例を示す。 一 図式核模型における相/形状の決定 二 核殻模型型ハミルトンの基底状態エネルギーの計算 三 核物理学実験における粒子の特定又は軌道の決定

In this paper, the application of quantum simulations and quantum machine learning to solve low-energy nuclear physics problems is explored. The use of quantum computing to deal with nuclear physics problems is, in general, in its infancy and, in particular, the use of quantum machine learning in the realm of nuclear physics at low energy is almost nonexistent. We present here three specific examples where the use of quantum computing and quantum machine learning provides, or could provide in the future, a possible computational advantage: i) the determination of the phase/shape in schematic nuclear models, ii) the calculation of the ground state energy of a nuclear shell model-type Hamiltonian and iii) the identification of particles or the determination of trajectories in nuclear physics experiments.
翻訳日:2023-07-17 13:51:45 公開日:2023-07-14
# 言語間のステレオタイプバイアスはどの程度異なるのか?

How Different Is Stereotypical Bias Across Languages? ( http://arxiv.org/abs/2307.07331v1 )

ライセンス: Link先を確認
Ibrahim Tolga \"Ozt\"urk and Rostislav Nedelchev and Christian Heumann and Esteban Garces Arias and Marius Roger and Bernd Bischl and Matthias A{\ss}enmacher(参考訳) 近年の研究では、事前学習した英語モデルのステレオタイプバイアスを評価する方法が実証されている。 本研究では,この研究分野を多次元に拡張し,系統的に研究する。 a)単言語および多言語モデルのモデル (b)そのバイアスに関して異なる基盤となるアーキテクチャ (c)複数の異なる言語。 そのために、私たちはドイツ語、フランス語、スペイン語、トルコ語に半自動翻訳する英語ステレオセットデータセット(nadeem et al., 2021)を使用します。 我々の実験は、英語のみの分析と顕著な相違だけでなく、よりニュアンスな図式を示すので、多言語的な環境でこの種の分析を行うことが重要である。 分析から得られた主な特徴は、mGPT-2(一部)は言語間の驚くべき反ステレオタイプ的挙動を示し、英語(モノリンガル)モデルは最も強いバイアスを示し、データセットに反映されるステレオタイプはトルコのモデルにはほとんど存在しないことである。 最後に、翻訳されたデータセットと半自動翻訳の実践的ガイドラインとともにコードベースをリリースし、他の言語へのさらなる拡張を奨励します。

Recent studies have demonstrated how to assess the stereotypical bias in pre-trained English language models. In this work, we extend this branch of research in multiple different dimensions by systematically investigating (a) mono- and multilingual models of (b) different underlying architectures with respect to their bias in (c) multiple different languages. To that end, we make use of the English StereoSet data set (Nadeem et al., 2021), which we semi-automatically translate into German, French, Spanish, and Turkish. We find that it is of major importance to conduct this type of analysis in a multilingual setting, as our experiments show a much more nuanced picture as well as notable differences from the English-only analysis. The main takeaways from our analysis are that mGPT-2 (partly) shows surprising anti-stereotypical behavior across languages, English (monolingual) models exhibit the strongest bias, and the stereotypes reflected in the data set are least present in Turkish models. Finally, we release our codebase alongside the translated data sets and practical guidelines for the semi-automatic translation to encourage a further extension of our work to other languages.
翻訳日:2023-07-17 13:51:35 公開日:2023-07-14
# 識別層を用いたスパースニューラルネットワークの学習

Learning Sparse Neural Networks with Identity Layers ( http://arxiv.org/abs/2307.07389v1 )

ライセンス: Link先を確認
Mingjian Ni, Guangyao Chen, Xiawu Zheng, Peixi Peng, Li Yuan, Yonghong Tian(参考訳) ニューラルネットワークの性能を最大化し、過パラメータ化ネットワークのサイズを極力小さくするために、Deep Neural Networksのスパーシリティをよく研究している。 既存の方法は、しきい値とメトリクスを使ってトレーニングプロセスのパラメータを刈り取ることに重点を置いている。 一方, 異なる層間の特徴的類似性については, これまで十分に議論されていないが, 本論文ではネットワークの疎結合性に高い相関性があることが厳密に証明されている。 過パラメータ化モデルにおける層間特徴類似性に着想を得て,ネットワーク空間と層間特徴類似性の関係について検討した。 具体的には,集中型カーネルアライメント(cka)に基づく層間特徴の類似性の低減により,情報ボトルネック理論を用いてネットワークのスパース性が向上することを示す。 このような理論を適用し、CKA-SRと呼ばれるスパースネットワークトレーニングのためのプラグアンドプレイCKAベースのスペーサ性正規化を提案し、CKAを用いて層間の特徴的類似性を低減し、ネットワークのスペーサ性を高める。 言い換えれば、スパースネットワークの層は互いに独自のアイデンティティを持つ傾向があるのです。 実験では,提案するcka-srをスパースネットワークトレーニング手法のトレーニングプロセスに挿入し,cka-srが,特に高いスパース性において,最先端スパーストレーニング手法の性能を一貫して向上させることを確認した。 コードは補足資料に含まれている。

The sparsity of Deep Neural Networks is well investigated to maximize the performance and reduce the size of overparameterized networks as possible. Existing methods focus on pruning parameters in the training process by using thresholds and metrics. Meanwhile, feature similarity between different layers has not been discussed sufficiently before, which could be rigorously proved to be highly correlated to the network sparsity in this paper. Inspired by interlayer feature similarity in overparameterized models, we investigate the intrinsic link between network sparsity and interlayer feature similarity. Specifically, we prove that reducing interlayer feature similarity based on Centered Kernel Alignment (CKA) improves the sparsity of the network by using information bottleneck theory. Applying such theory, we propose a plug-and-play CKA-based Sparsity Regularization for sparse network training, dubbed CKA-SR, which utilizes CKA to reduce feature similarity between layers and increase network sparsity. In other words, layers of our sparse network tend to have their own identity compared to each other. Experimentally, we plug the proposed CKA-SR into the training process of sparse network training methods and find that CKA-SR consistently improves the performance of several State-Of-The-Art sparse training methods, especially at extremely high sparsity. Code is included in the supplementary materials.
翻訳日:2023-07-17 13:43:27 公開日:2023-07-14
# 量子計算による高次トポロジカルカーネル

Higher-order topological kernels via quantum computation ( http://arxiv.org/abs/2307.07383v1 )

ライセンス: Link先を確認
Massimiliano Incudini, Francesco Martini, Alessandra Di Pierro(参考訳) トポロジカルデータ分析(TDA)は、複雑なデータから意味のある洞察を抽出する強力なツールとして登場した。 TDAは、それらを単純な複素体に埋め込んで、ベッチ数、すなわち既存の機械学習アルゴリズムと容易に統合可能なカーネルメソッドを定義するために使用できる多次元ホールの数のような有用なグローバルな特性を抽出することによって、オブジェクトの分析を強化する。 これらのカーネルメソッドは、その性能を理論的に保証する強力な数学的フレームワークに依存しているため、幅広い応用を見出している。 しかし、高次元ベッチ数の計算は古典的ハードウェアでは違法にコストがかかるが、量子アルゴリズムはインスタンスサイズでそれらを多項式時間で近似することができる。 本研究では,ベッチ曲線,すなわち次数増加を伴う濾過のトポロジカルフィンガーを構築することに基づくトポロジカルカーネルを定義するための量子的アプローチを提案する。 我々は,ノイズレスシミュレータに実装した手法の動作プロトタイプを示し,トポロジカルな手法が量子機械学習の利点をもたらす可能性を示唆する実験結果を用いて,その頑健性を示す。

Topological data analysis (TDA) has emerged as a powerful tool for extracting meaningful insights from complex data. TDA enhances the analysis of objects by embedding them into a simplicial complex and extracting useful global properties such as the Betti numbers, i.e. the number of multidimensional holes, which can be used to define kernel methods that are easily integrated with existing machine-learning algorithms. These kernel methods have found broad applications, as they rely on powerful mathematical frameworks which provide theoretical guarantees on their performance. However, the computation of higher-dimensional Betti numbers can be prohibitively expensive on classical hardware, while quantum algorithms can approximate them in polynomial time in the instance size. In this work, we propose a quantum approach to defining topological kernels, which is based on constructing Betti curves, i.e. topological fingerprint of filtrations with increasing order. We exhibit a working prototype of our approach implemented on a noiseless simulator and show its robustness by means of some empirical results suggesting that topological approaches may offer an advantage in quantum machine learning.
翻訳日:2023-07-17 13:43:01 公開日:2023-07-14
# 文埋め込みのための合成結合学習

Composition-contrastive Learning for Sentence Embeddings ( http://arxiv.org/abs/2307.07380v1 )

ライセンス: Link先を確認
Sachin J. Chanchani, Ruihong Huang(参考訳) 自然言語のベクトル表現は検索アプリケーションにおいてユビキタスである。 近年,非ラベルデータからテキスト表現を学習するためのコントラスト学習に基づく様々な手法が提案されており,同一テキストの最小摂動埋め込み間のアライメントを最大化し,広いコーパスにまたがる埋め込みの均一な分布を奨励している。 そこで本研究では,テキストと文の合成を最大化する手法を提案する。 この目的のいくつかの実現を考察し、各事例における表現への影響を詳しく考察する。 意味的テキスト類似性タスクの実験結果は、最先端のアプローチに匹敵するベースラインの改善を示す。 さらに、この研究は補助的なトレーニング目標や追加のネットワークパラメータのコストを発生させることなく、初めて実施される。

Vector representations of natural language are ubiquitous in search applications. Recently, various methods based on contrastive learning have been proposed to learn textual representations from unlabelled data; by maximizing alignment between minimally-perturbed embeddings of the same text, and encouraging a uniform distribution of embeddings across a broader corpus. Differently, we propose maximizing alignment between texts and a composition of their phrasal constituents. We consider several realizations of this objective and elaborate the impact on representations in each case. Experimental results on semantic textual similarity tasks show improvements over baselines that are comparable with state-of-the-art approaches. Moreover, this work is the first to do so without incurring costs in auxiliary training objectives or additional network parameters.
翻訳日:2023-07-17 13:42:43 公開日:2023-07-14
# CNNに基づく視覚処理を用いた添加物製造における欠陥分類

Defect Classification in Additive Manufacturing Using CNN-Based Vision Processing ( http://arxiv.org/abs/2307.07378v1 )

ライセンス: Link先を確認
Xiao Liu and Alessandra Mileo and Alan F. Smeaton(参考訳) コンピュータビジョンの開発と視覚センサを用いたその場監視により、添加性製造(AM)プロセスからの大規模なデータセットの収集が可能となる。 このようなデータセットは、機械学習技術を使ってAMの品質を向上させることができる。 本稿では、まず、畳み込みニューラルネットワーク(CNN)を用いて、画像データセットの欠陥をAMから第2に正確に分類し、発達した分類モデルにアクティブラーニング技術を適用する。 これにより、ヒューマン・イン・ザ・ループ機構の構築により、トレーニングデータのトレーニングと生成に必要なデータのサイズを削減できる。

The development of computer vision and in-situ monitoring using visual sensors allows the collection of large datasets from the additive manufacturing (AM) process. Such datasets could be used with machine learning techniques to improve the quality of AM. This paper examines two scenarios: first, using convolutional neural networks (CNNs) to accurately classify defects in an image dataset from AM and second, applying active learning techniques to the developed classification model. This allows the construction of a human-in-the-loop mechanism to reduce the size of the data required to train and generate training data.
翻訳日:2023-07-17 13:42:31 公開日:2023-07-14
# 2-Way量子時間移動:時空間地球リンクの方法

Two-Way Quantum Time Transfer: A Method for Daytime Space-Earth Links ( http://arxiv.org/abs/2307.07371v1 )

ライセンス: Link先を確認
Randy Lafler, Mark L. Eickhoff, Scott C. Newey, Yamil Nieves Gonzalez, Kurt E. Stoltenburg, J. Frank Camacho, Mark A. Harris, Denis W. Oesch, and R. Nicholas Lanning(参考訳) リモートクロック同期は、多くの古典的および量子ネットワークアプリケーションにとって不可欠である。 現在の最先端の遠隔クロック同期技術は、量子ネットワークハードウェアの補助となる周波数コムを利用してフェムト秒スケールのクロック安定性を実現する。 代替法を実証し、双方向量子時間転送(QTT)と呼ばれる手法を用いて、自由空間テストベッド上で2つのリモートクロックを同期する。 1秒でピコ秒スケールのタイミング精度に到達し、日中の宇宙-地球リンクと市販の量子光子源と検出装置を代表する、非常に損失が多くノイズの多いチャネル条件下で到達する。 この研究は、QTTが日中の宇宙空間における量子ネットワークや、GPSを用いた環境での高精度なセキュアなタイミングにどのように関係しているかを示す。

Remote clock synchronization is crucial for many classical and quantum network applications. Current state-of-the-art remote clock synchronization techniques achieve femtosecond-scale clock stability utilizing frequency combs, which are supplementary to quantum-networking hardware. Demonstrating an alternative, we synchronize two remote clocks across our freespace testbed using a method called two-way quantum time transfer (QTT). In one second we reach picosecond-scale timing precision under very lossy and noisy channel conditions representative of daytime space-Earth links with commercial off-the-shelf quantum-photon sources and detection equipment. This work demonstrates how QTT is potentially relevant for daytime space-Earth quantum networking and/or providing high-precision secure timing in GPS-denied environments.
翻訳日:2023-07-17 13:42:21 公開日:2023-07-14
# AIC-AB NET:空間的注意とテキスト属性による画像キャプションのためのニューラルネットワーク

AIC-AB NET: A Neural Network for Image Captioning with Spatial Attention and Text Attributes ( http://arxiv.org/abs/2307.07370v1 )

ライセンス: Link先を確認
Guoyun Tu, Ying Liu, Vladimir Vlassov(参考訳) 画像キャプションはコンピュータビジョンと自然言語処理において重要な分野である。 エンコーダデコーダにおける空間的注意アーキテクチャとテキスト属性を組み合わせた,新たな属性情報結合型注意型ネットワーク aic-ab net の提案と提案を行う。 キャプション生成において、適応的空間注意は、画像の最も表現のよい画像領域と、視覚特徴や視覚センチネルに出席するか否かを決定する。 テキスト属性情報はデコーダに同期して入力され、画像認識と不確実性を低減する。 我々は、MS COCOデータセットと新しいFashionデータセットを用いて、AICAB NETを試験、評価した。 Fashionデータセットは、単一オブジェクトイメージのベンチマークとして使用される。 その結果,MSCOCO画像と単対象画像の両方において,最先端のベースラインと短縮モデルと比較して,提案モデルの方が優れた性能を示した。 aic-abネットは,ms cocoデータセットでは0.017(サイダースコア),ファッションデータセットでは0.095(サイダースコア)でベースライン適応アテンションネットワークを上回っている。

Image captioning is a significant field across computer vision and natural language processing. We propose and present AIC-AB NET, a novel Attribute-Information-Combined Attention-Based Network that combines spatial attention architecture and text attributes in an encoder-decoder. For caption generation, adaptive spatial attention determines which image region best represents the image and whether to attend to the visual features or the visual sentinel. Text attribute information is synchronously fed into the decoder to help image recognition and reduce uncertainty. We have tested and evaluated our AICAB NET on the MS COCO dataset and a new proposed Fashion dataset. The Fashion dataset is employed as a benchmark of single-object images. The results show the superior performance of the proposed model compared to the state-of-the-art baseline and ablated models on both the images from MSCOCO and our single-object images. Our AIC-AB NET outperforms the baseline adaptive attention network by 0.017 (CIDEr score) on the MS COCO dataset and 0.095 (CIDEr score) on the Fashion dataset.
翻訳日:2023-07-17 13:42:09 公開日:2023-07-14
# 大型言語モデルはデジタル公共財に対する脅威か? スタックオーバーフローのアクティビティからの証拠

Are Large Language Models a Threat to Digital Public Goods? Evidence from Activity on Stack Overflow ( http://arxiv.org/abs/2307.07367v1 )

ライセンス: Link先を確認
Maria del Rio-Chanona, Nadzeya Laurentsyeva, Johannes Wachs(参考訳) ChatGPTのような大きな言語モデルは、ユーザーが様々なトピックに関する情報を効率的に提供し、ウェブを検索し、オンラインで助けを求めるための代替手段を提供する。 しかし、ユーザーはモデルとプライベートにやりとりするので、これらのモデルは、公開された人為的なデータと知識リソースの量を大幅に削減する可能性がある。 この代替は将来のモデルのトレーニングデータを確保する上で重要な問題となる可能性がある。 本稿では,コンピュータプログラミングにおける主要なオンラインq\&aプラットフォームであるstack overflowのアクティビティを分析し,chatgptのリリースによってweb上で生成されたオープンデータがどのように変化したかを検討する。 また,ChatGPT へのアクセスが制限されているロシアや中国と,ChatGPT の能力が低い数学フォーラムでは,Stack Overflow 上での活動が大幅に減少した。 差分差分モデルでは、Stack Overflowの週記事の16倍の減少を見積もっている。 この効果は時間とともに大きくなり、最も広く使われているプログラミング言語に関する記事の方が大きい。 ChatGPT以降の投稿は、以前と同様の投票スコアを得ており、ChatGPTは単に重複や低品質のコンテンツを削除しているだけではないことを示唆している。 これらの結果から,より多くのトレーニングデータを持つ言語に対して,Stack Overflowの代替として,大きな言語モデルを採用するユーザが増えることが示唆されている。 chatgptのようなモデルを使うことは、特定のプログラミング問題を解決するのに効率的かもしれないが、広く採用され、web上の公開交換から遠ざかることによって、人々やモデルが将来学べるオープンデータを制限することになる。

Large language models like ChatGPT efficiently provide users with information about various topics, presenting a potential substitute for searching the web and asking people for help online. But since users interact privately with the model, these models may drastically reduce the amount of publicly available human-generated data and knowledge resources. This substitution can present a significant problem in securing training data for future models. In this work, we investigate how the release of ChatGPT changed human-generated open data on the web by analyzing the activity on Stack Overflow, the leading online Q\&A platform for computer programming. We find that relative to its Russian and Chinese counterparts, where access to ChatGPT is limited, and to similar forums for mathematics, where ChatGPT is less capable, activity on Stack Overflow significantly decreased. A difference-in-differences model estimates a 16\% decrease in weekly posts on Stack Overflow. This effect increases in magnitude over time, and is larger for posts related to the most widely used programming languages. Posts made after ChatGPT get similar voting scores than before, suggesting that ChatGPT is not merely displacing duplicate or low-quality content. These results suggest that more users are adopting large language models to answer questions and they are better substitutes for Stack Overflow for languages for which they have more training data. Using models like ChatGPT may be more efficient for solving certain programming problems, but its widespread adoption and the resulting shift away from public exchange on the web will limit the open data people and models can learn from in the future.
翻訳日:2023-07-17 13:41:46 公開日:2023-07-14
# 生体画像とテキストにおけるマルチモーダル深層学習についての一考察

A scoping review on multimodal deep learning in biomedical images and texts ( http://arxiv.org/abs/2307.07362v1 )

ライセンス: Link先を確認
Zhaoyi Sun, Mingquan Lin, Qingqing Zhu, Qianqian Xie, Fei Wang, Zhiyong Lu, Yifan Peng(参考訳) 将来のコンピュータ支援診断・予後システムは、マルチモーダルデータを同時に処理できるべきである。 画像やテキストなどの複数のデータソースの統合を含むMDL(Multimodal Deep Learning)は、バイオメディカルデータの分析と解釈に革命をもたらす可能性がある。 しかし、近年は研究者の注意を引いただけである。 この目的のために、このトピックを体系的にレビューし、現在の作業の限界を特定し、今後の方向性を探求する必要がある。 本稿では,この分野の現状を総合的に概観し,生物医学的イメージとテキスト共同学習に焦点をあてた,重要な概念,研究の種類,研究ギャップを明らかにすることを目的としている。 本研究では,(1)レポート生成,(2)ビジュアル質問応答,(3)クロスモーダル検索,(4)コンピュータ支援診断,(5)意味セグメンテーションの5つの課題について,マルチモーダル深層学習の現状について検討した。 本結果はMDLの多様な応用と可能性を強調し,今後の研究の方向性を示唆するものである。 我々は,自然言語処理(nlp)と医療画像コミュニティの連携を促進し,次世代の意思決定とコンピュータ支援診断システム開発を支援することを期待する。

Computer-assisted diagnostic and prognostic systems of the future should be capable of simultaneously processing multimodal data. Multimodal deep learning (MDL), which involves the integration of multiple sources of data, such as images and text, has the potential to revolutionize the analysis and interpretation of biomedical data. However, it only caught researchers' attention recently. To this end, there is a critical need to conduct a systematic review on this topic, identify the limitations of current work, and explore future directions. In this scoping review, we aim to provide a comprehensive overview of the current state of the field and identify key concepts, types of studies, and research gaps with a focus on biomedical images and texts joint learning, mainly because these two were the most commonly available data types in MDL research. This study reviewed the current uses of multimodal deep learning on five tasks: (1) Report generation, (2) Visual question answering, (3) Cross-modal retrieval, (4) Computer-aided diagnosis, and (5) Semantic segmentation. Our results highlight the diverse applications and potential of MDL and suggest directions for future research in the field. We hope our review will facilitate the collaboration of natural language processing (NLP) and medical imaging communities and support the next generation of decision-making and computer-assisted diagnostic system development.
翻訳日:2023-07-17 13:41:20 公開日:2023-07-14
# Gloss Attention for Gloss-free手話翻訳

Gloss Attention for Gloss-free Sign Language Translation ( http://arxiv.org/abs/2307.07361v1 )

ライセンス: Link先を確認
Aoxiong Yin, Tianyun Zhong, Li Tang, Weike Jin, Tao Jin, Zhou Zhao(参考訳) 多くの手話翻訳(SLT)手法は、追加の監視情報を提供するためにグロスアノテーションを使用する必要があるが、グロス獲得は容易ではない。 この問題を解決するために,我々はまず既存のモデルの解析を行い,光沢アノテーションがSLTをより容易にすることを示す。 モデルに対する情報の2つの側面を提供できることが分かりました。 1) 連続手話ビデオにおける意味境界の位置を暗黙的に学習するのに役立つ。 2) モデルが手話映像をグローバルに理解するのに役立つ。 次に,glossが既存のモデルに役立つように,同じセマンティクスをローカルに持つビデオセグメント内で,モデルの注意を維持できる「emph{gloss attention}」を提案する。 さらに,文章間の類似性に関する知識を自然言語モデルからgloss attention SLT Network(GASLT)に転送し,文レベルでの手話ビデオの理解を支援する。 複数の大規模手話データセットに対する実験結果から,提案したGASLTモデルは既存手法よりも優れていた。 コードは \url{https://github.com/yinaoxiong/gaslt} で提供される。

Most sign language translation (SLT) methods to date require the use of gloss annotations to provide additional supervision information, however, the acquisition of gloss is not easy. To solve this problem, we first perform an analysis of existing models to confirm how gloss annotations make SLT easier. We find that it can provide two aspects of information for the model, 1) it can help the model implicitly learn the location of semantic boundaries in continuous sign language videos, 2) it can help the model understand the sign language video globally. We then propose \emph{gloss attention}, which enables the model to keep its attention within video segments that have the same semantics locally, just as gloss helps existing models do. Furthermore, we transfer the knowledge of sentence-to-sentence similarity from the natural language model to our gloss attention SLT network (GASLT) to help it understand sign language videos at the sentence level. Experimental results on multiple large-scale sign language datasets show that our proposed GASLT model significantly outperforms existing methods. Our code is provided in \url{https://github.com/YinAoXiong/GASLT}.
翻訳日:2023-07-17 13:40:57 公開日:2023-07-14
# 量子回路最適化のためのモンテカルログラフ探索

Monte Carlo Graph Search for Quantum Circuit Optimization ( http://arxiv.org/abs/2307.07353v1 )

ライセンス: Link先を確認
Bodo Rosenhahn, Tobias J. Osborne(参考訳) 量子アルゴリズムとソフトウェアの構築ブロックは量子ゲートであり、量子ゲートの適切な組み合わせは、所望の量子回路につながる。 特定のタスクを解決するための望ましい量子アルゴリズムを達成するために、量子ゲートの効果的な組み合わせを見つけるには、深い専門知識が必要である。 これは量子機械学習や信号処理では特に難しい。 例えば、スクラッチから量子フーリエ変換を設計することは自明ではない。 本研究はモンテカルログラフ探索に基づく量子アーキテクチャ探索アルゴリズムと重要サンプリングの尺度を提案する。 これは、離散ゲートと連続変数を含むゲートの両方に対するゲート順序の最適化に適用できる。 提案手法が量子回路の自動発見に適用可能であることを示す数値実験を行った。

The building blocks of quantum algorithms and software are quantum gates, with the appropriate combination of quantum gates leading to a desired quantum circuit. Deep expert knowledge is necessary to discover effective combinations of quantum gates to achieve a desired quantum algorithm for solving a specific task. This is especially challenging for quantum machine learning and signal processing. For example, it is not trivial to design a quantum Fourier transform from scratch. This work proposes a quantum architecture search algorithm which is based on a Monte Carlo graph search and measures of importance sampling. It is applicable to the optimization of gate order, both for discrete gates, as well as gates containing continuous variables. Several numerical experiments demonstrate the applicability of the proposed method for the automatic discovery of quantum circuits.
翻訳日:2023-07-17 13:40:36 公開日:2023-07-14
# 部分ラベルを用いたアクティブラーニングにおける反例の活用

Exploiting Counter-Examples for Active Learning with Partial labels ( http://arxiv.org/abs/2307.07413v1 )

ライセンス: Link先を確認
Fei Zhang, Yunjie Ye, Lei Feng, Zhongwen Rao, Jieming Zhu, Marcus Kalander, Chen Gong, Jianye Hao, Bo Han(参考訳) 本稿では,部分ラベル付きemph{active learning} (ALPL) という新しい問題について検討する。 この設定では、oracleはクエリサンプルに部分ラベルを付け、要求される正確なラベリングプロセスからoracleをリラックスさせる。 ALPLに対処するために、私たちはまず、既存のALフレームワークにシームレスに組み込むことができる直感的なベースラインを構築します。 有効ではあるが、このベースラインは依然として \emph{overfitting} に影響を受けやすく、クエリプロセス中の代表的な部分ラベルベースのサンプルには及ばない。 認知科学における人間の推論からインスピレーションを得た場合、正確な推論は「emph{counter-examples} (CEs)」から明示的に導き出すことができ、この人間の学習パターンを利用して「emph{overfitting"」に取り組み、ALPLの代表的なサンプルを選択するプロセスを強化することが目的である。 具体的には,各インスタンスの部分ラベルを反転させてCEを構築し,この補完パターンから直接学習するための,シンプルだが効果的なWorseNetを提案する。 worsenetと予測器の分布ギャップを利用することで、この逆評価手法は予測器自体とサンプル選択プロセスの両方の性能を向上させることができ、予測器はデータのより正確なパターンを捉えることができる。 実世界の5つのデータセットと4つのベンチマークデータセットの実験結果から,提案手法は10のALフレームワークに対して包括的な改善を実現し,WorseNetの優位性を強調した。 ソースコードは \url{https://github.com/Ferenas/APLL} で入手できる。

This paper studies a new problem, \emph{active learning with partial labels} (ALPL). In this setting, an oracle annotates the query samples with partial labels, relaxing the oracle from the demanding accurate labeling process. To address ALPL, we first build an intuitive baseline that can be seamlessly incorporated into existing AL frameworks. Though effective, this baseline is still susceptible to the \emph{overfitting}, and falls short of the representative partial-label-based samples during the query process. Drawing inspiration from human inference in cognitive science, where accurate inferences can be explicitly derived from \emph{counter-examples} (CEs), our objective is to leverage this human-like learning pattern to tackle the \emph{overfitting} while enhancing the process of selecting representative samples in ALPL. Specifically, we construct CEs by reversing the partial labels for each instance, and then we propose a simple but effective WorseNet to directly learn from this complementary pattern. By leveraging the distribution gap between WorseNet and the predictor, this adversarial evaluation manner could enhance both the performance of the predictor itself and the sample selection process, allowing the predictor to capture more accurate patterns in the data. Experimental results on five real-world datasets and four benchmark datasets show that our proposed method achieves comprehensive improvements over ten representative AL frameworks, highlighting the superiority of WorseNet. The source code will be available at \url{https://github.com/Ferenas/APLL}.
翻訳日:2023-07-17 13:36:15 公開日:2023-07-14
# HuCurl:人間によるカリキュラム発見

HuCurl: Human-induced Curriculum Discovery ( http://arxiv.org/abs/2307.07412v1 )

ライセンス: Link先を確認
Mohamed Elgaar, Hadi Amiri(参考訳) 本稿では,カリキュラム発見の問題を紹介し,サンプルの難易度に関する事前知識に基づいて,カリキュラム空間で有効なカリキュラムを発見できるカリキュラム学習フレームワークについて述べる。 アノテーションのエントロピーと損失を困難さの尺度として使うと (i)あるモデルとデータセットで発見された最高パフォーマンスのカリキュラムは、既存の文献における単調のカリキュラムとは対照的に、しばしば非単調である。 (ii)一般的に普及している難易度または難易度の高い遷移曲線は、しばしば過度なパフォーマンスのリスクに晒される。 (iii)より小さなデータセットとモデルで発見されたカリキュラムは、より大きなデータセットとモデルでそれぞれうまく機能する。 提案フレームワークは,既存のカリキュラム学習のアプローチを包含し,複数のNLPタスクにまたがってそれらを上回るキュリキュラを発見できる。

We introduce the problem of curriculum discovery and describe a curriculum learning framework capable of discovering effective curricula in a curriculum space based on prior knowledge about sample difficulty. Using annotation entropy and loss as measures of difficulty, we show that (i): the top-performing discovered curricula for a given model and dataset are often non-monotonic as opposed to monotonic curricula in existing literature, (ii): the prevailing easy-to-hard or hard-to-easy transition curricula are often at the risk of underperforming, and (iii): the curricula discovered for smaller datasets and models perform well on larger datasets and models respectively. The proposed framework encompasses some of the existing curriculum learning approaches and can discover curricula that outperform them across several NLP tasks.
翻訳日:2023-07-17 13:35:47 公開日:2023-07-14
# 雑音下での連合学習のための収束解析とsnr制御戦略の改善

Improved Convergence Analysis and SNR Control Strategies for Federated Learning in the Presence of Noise ( http://arxiv.org/abs/2307.07406v1 )

ライセンス: Link先を確認
Antesh Upadhyay and Abolfazl Hashemi(参考訳) 本稿では,不完全/ノイズのアップリンク通信とダウンリンク通信によるフェデレーション学習(FL)の分散学習パラダイムを特徴付ける改良された収束解析手法を提案する。 このような不完全な通信シナリオは、新興の通信システムやプロトコルにおけるflの実用的な展開において生じる。 本稿では,FLにおけるアップリンクおよびダウンリンク通信の劣化効果に非対称性があることを初めて示す。 特に、ダウンリンクノイズの悪影響はflアルゴリズムの収束により重大である。 この知見を用いて,信号対雑音(SNR)制御手法を改良し,無視可能な高次項を排除し,完全かつノイズのない通信チャネルの場合と同様の収束率を実現するとともに,既存のソリューションに比べて電力資源を著しく削減する。 特に、ノイズのないflの場合のように、$o(\frac{1}{\sqrt{k}})$の収束率を維持するためには、アップリンクノイズとダウンリンクノイズをそれぞれ$\omega({\sqrt{k}})$と$\omega({k})$でスケールダウンする必要がある。 ひとつは、有界なクライアントの相似性のやや非現実的な仮定を前提とせず、もうひとつは、現代的な機械学習やディープラーニングモデルに適した関数クラスであるスムーズな非凸損失関数のみを必要とすることである。 また,理論的な結果の妥当性を検証するため,広範な実証分析を行った。

We propose an improved convergence analysis technique that characterizes the distributed learning paradigm of federated learning (FL) with imperfect/noisy uplink and downlink communications. Such imperfect communication scenarios arise in the practical deployment of FL in emerging communication systems and protocols. The analysis developed in this paper demonstrates, for the first time, that there is an asymmetry in the detrimental effects of uplink and downlink communications in FL. In particular, the adverse effect of the downlink noise is more severe on the convergence of FL algorithms. Using this insight, we propose improved Signal-to-Noise (SNR) control strategies that, discarding the negligible higher-order terms, lead to a similar convergence rate for FL as in the case of a perfect, noise-free communication channel while incurring significantly less power resources compared to existing solutions. In particular, we establish that to maintain the $O(\frac{1}{\sqrt{K}})$ rate of convergence like in the case of noise-free FL, we need to scale down the uplink and downlink noise by $\Omega({\sqrt{k}})$ and $\Omega({k})$ respectively, where $k$ denotes the communication round, $k=1,\dots, K$. Our theoretical result is further characterized by two major benefits: firstly, it does not assume the somewhat unrealistic assumption of bounded client dissimilarity, and secondly, it only requires smooth non-convex loss functions, a function class better suited for modern machine learning and deep learning models. We also perform extensive empirical analysis to verify the validity of our theoretical findings.
翻訳日:2023-07-17 13:35:06 公開日:2023-07-14
# スパース凸最適化のための$\ell_1$正規化の性能

Performance of $\ell_1$ Regularization for Sparse Convex Optimization ( http://arxiv.org/abs/2307.07405v1 )

ライセンス: Link先を確認
Kyriakos Axiotis, Taisuke Yasuda(参考訳) 実際に広く採用されているにもかかわらず、LASSO と Group LASSO の保証は統計的問題以外の設定に著しく欠けており、これらのアルゴリズムは通常、決定論的入力に対するスパース凸最適化の文脈においてヒューリスティックであると考えられている。 ベクトル値特徴を持つスパース凸最適化のためのグループLASSOの最初のリカバリ保証を与える。 厳密な凸関数 $l$ を最小化するとき、十分に大きな Group LASSO 正規化が適用されるなら、最小化子は勾配の最大$\ell_2$ノルムを持つベクトル値の特徴で支えられるスパースベクトルである。 したがって、この手順を繰り返すと直交マッチング追従アルゴリズムと同じ特徴が選択され、弱い部分モジュラリティの引数によって制限された強い凸性と滑らかさを持つ任意の関数に対して回復保証が与えられる。 tibshirani et al. and yasuda et al.の疑問に答える。 その結果、一般入力条件下での凸関数に対するラッソ群の経験的成功を理論上初めて説明し、強い凸性と滑らかさのみを仮定した。 また,安田らによって提案された注意機構にインスパイアされた特徴選択アルゴリズムであるSequential Attentionアルゴリズムの証明保証を一般化した。 この結果の適用例として、損失がフロベニウスノルムあるいは他のエントリーワイズ行列損失であるときによく研究されるカラム部分集合選択問題に対する新しい結果を与える。 この問題に対する一般損失関数の第一結果は、強い凸性や滑らか性のみを必要とするものである。

Despite widespread adoption in practice, guarantees for the LASSO and Group LASSO are strikingly lacking in settings beyond statistical problems, and these algorithms are usually considered to be a heuristic in the context of sparse convex optimization on deterministic inputs. We give the first recovery guarantees for the Group LASSO for sparse convex optimization with vector-valued features. We show that if a sufficiently large Group LASSO regularization is applied when minimizing a strictly convex function $l$, then the minimizer is a sparse vector supported on vector-valued features with the largest $\ell_2$ norm of the gradient. Thus, repeating this procedure selects the same set of features as the Orthogonal Matching Pursuit algorithm, which admits recovery guarantees for any function $l$ with restricted strong convexity and smoothness via weak submodularity arguments. This answers open questions of Tibshirani et al. and Yasuda et al. Our result is the first to theoretically explain the empirical success of the Group LASSO for convex functions under general input instances assuming only restricted strong convexity and smoothness. Our result also generalizes provable guarantees for the Sequential Attention algorithm, which is a feature selection algorithm inspired by the attention mechanism proposed by Yasuda et al. As an application of our result, we give new results for the column subset selection problem, which is well-studied when the loss is the Frobenius norm or other entrywise matrix losses. We give the first result for general loss functions for this problem that requires only restricted strong convexity and smoothness.
翻訳日:2023-07-17 13:34:33 公開日:2023-07-14
# 合成プロンプトによるCLIPのゼロショット一般化の改善

Improving Zero-Shot Generalization for CLIP with Synthesized Prompts ( http://arxiv.org/abs/2307.07397v1 )

ライセンス: Link先を確認
Zhengbo Wang, Jian Liang, Ran He, Nan Xu, Zilei Wang, Tieniu Tan(参考訳) CLIPのような事前訓練された視覚言語モデルへの関心が高まり、最近の研究は、これらのモデルを下流タスクに適応することに焦点を当てている。 有望な結果を得たにもかかわらず、ほとんどの既存のメソッドは全てのクラスに対してラベル付きデータを必要とし、ロングテールとzipfの法則のため実世界のアプリケーションでは保持されない。 例えば、新しい概念のようなラベル付きデータを完全に欠くクラスもある。 この問題に対処するため,既存の微調整法を改善するために, プラグアンドプレイ生成手法である \textbf{S}ynt\textbf{H}es\textbf{I}zed \textbf{P}rompts~(\textbf{SHIP})を提案する。 具体的には,可変オートエンコーダに従い,合成されたプロンプトと対応するクラス名をクリップのテキストエンコーダに入力して視覚特徴を再構成するジェネレータを導入する。 このようにして、残りのラベルのみのクラスに対する合成特徴を容易に得る。 その後,ラベル付きおよび合成された特徴を組み合わせることで,市販のCLIPを微調整する。 ベース・ツー・ニュー一般化、クロスデータセット転送学習、一般化ゼロショット学習に関する広範な実験は、このアプローチの優位性を示している。 コードは \url{https://github.com/mrflogs/ship} で入手できる。

With the growing interest in pretrained vision-language models like CLIP, recent research has focused on adapting these models to downstream tasks. Despite achieving promising results, most existing methods require labeled data for all classes, which may not hold in real-world applications due to the long tail and Zipf's law. For example, some classes may lack labeled data entirely, such as emerging concepts. To address this problem, we propose a plug-and-play generative approach called \textbf{S}ynt\textbf{H}es\textbf{I}zed \textbf{P}rompts~(\textbf{SHIP}) to improve existing fine-tuning methods. Specifically, we follow variational autoencoders to introduce a generator that reconstructs the visual features by inputting the synthesized prompts and the corresponding class names to the textual encoder of CLIP. In this manner, we easily obtain the synthesized features for the remaining label-only classes. Thereafter, we fine-tune CLIP with off-the-shelf methods by combining labeled and synthesized features. Extensive experiments on base-to-new generalization, cross-dataset transfer learning, and generalized zero-shot learning demonstrate the superiority of our approach. The code is available at \url{https://github.com/mrflogs/SHIP}.
翻訳日:2023-07-17 13:34:07 公開日:2023-07-14
# 重なり合うビクラスタリングとブール行列分解の可視化

Visualizing Overlapping Biclusterings and Boolean Matrix Factorizations ( http://arxiv.org/abs/2307.07396v1 )

ライセンス: Link先を確認
Thibault Marette, Pauli Miettinen and Stefan Neumann(参考訳) 2部グラフで(bi-)クラスタを見つけることは、一般的なデータ分析アプローチである。 アナリストは一般的にクラスタを視覚化することを望んでおり、クラスタが切断されている限りは単純である。 しかし、現代の多くのアルゴリズムは重なり合うクラスタを見つけ、可視化をより複雑にする。 本稿では,2部グラフにおける重なり合うクラスタの \emph{a given clustering} を可視化する問題と,ブール行列分解を可視化する問題について検討する。 我々は,(1)クラスタ要素の近接,(2)同一クラスタからの要素の大規模連続領域,(3)クラスタメンバシップに関係なく,可視化における大きな未断領域の3つの異なる目的を概念化した。 これらの目的を捉える客観的関数と、目的関数を最適化するアルゴリズムを提供する。 興味深いことに、実世界のデータセットの実験では、これらの競合する目標間の最良のトレードオフは、局所的に同じクラスタメンバシップを持つ行と列の配置を目標とする、新しいヒューリスティックによって達成されている。

Finding (bi-)clusters in bipartite graphs is a popular data analysis approach. Analysts typically want to visualize the clusters, which is simple as long as the clusters are disjoint. However, many modern algorithms find overlapping clusters, making visualization more complicated. In this paper, we study the problem of visualizing \emph{a given clustering} of overlapping clusters in bipartite graphs and the related problem of visualizing Boolean Matrix Factorizations. We conceptualize three different objectives that any good visualization should satisfy: (1) proximity of cluster elements, (2) large consecutive areas of elements from the same cluster, and (3) large uninterrupted areas in the visualization, regardless of the cluster membership. We provide objective functions that capture these goals and algorithms that optimize these objective functions. Interestingly, in experiments on real-world datasets, we find that the best trade-off between these competing goals is achieved by a novel heuristic, which locally aims to place rows and columns with similar cluster membership next to each other.
翻訳日:2023-07-17 13:33:39 公開日:2023-07-14
# テンソルネットワークの資源理論

The resource theory of tensor networks ( http://arxiv.org/abs/2307.07394v1 )

ライセンス: Link先を確認
Matthias Christandl, Vladimir Lysikov, Vincent Steffan, Albert H. Werner, Freek Witteveen(参考訳) テンソルネットワークは、量子多体状態の簡潔な表現を提供し、強い相関量子系の重要な計算ツールである。 それらの表現力と計算力は、格子またはより一般的には(ハイパー)グラフ上の下層の絡み合い構造によって特徴づけられ、仮想絡み合いペアまたは(ハイパー)エッジに関連付けられた多部絡み合い状態を持つ。 この基盤となる絡み合い構造を別の構造に変えることは、理論的および計算的利益をもたらす。 結合次元の概念を多部交絡を用いた絡み合い構造に一般化する自然資源理論について検討する。 これは多部交絡と代数的複雑性理論の文脈で研究されたテンソルの資源理論の直接拡張であり、これらの分野で開発された洗練された手法をテンソルネットワークに適用することができる。 テンソルネットワークの資源理論は、量子多体状態の局所的絡み合い構造と、この絡み合い構造を用いたテンソルネットワーク収縮の(代数的)複雑さの両方に関係している。 より優れた行列乗算アルゴリズムの探索で得られたものを反映した資源理論の効率向上を強調し, エッジ・バイ・エッジ変換を超えた絡み合い構造間の変換が存在することを示す。 また、代数的複雑性理論でもともと開発された様々な方法を拡張して、複雑性の低い境界を求めることによって、そのような変換の存在を阻害する。

Tensor networks provide succinct representations of quantum many-body states and are an important computational tool for strongly correlated quantum systems. Their expressive and computational power is characterized by an underlying entanglement structure, on a lattice or more generally a (hyper)graph, with virtual entangled pairs or multipartite entangled states associated to (hyper)edges. Changing this underlying entanglement structure into another can lead to both theoretical and computational benefits. We study a natural resource theory which generalizes the notion of bond dimension to entanglement structures using multipartite entanglement. It is a direct extension of resource theories of tensors studied in the context of multipartite entanglement and algebraic complexity theory, allowing for the application of the sophisticated methods developed in these fields to tensor networks. The resource theory of tensor networks concerns both the local entanglement structure of a quantum many-body state and the (algebraic) complexity of tensor network contractions using this entanglement structure. We show that there are transformations between entanglement structures which go beyond edge-by-edge conversions, highlighting efficiency gains of our resource theory that mirror those obtained in the search for better matrix multiplication algorithms. We also provide obstructions to the existence of such transformations by extending a variety of methods originally developed in algebraic complexity theory for obtaining complexity lower bounds.
翻訳日:2023-07-17 13:33:21 公開日:2023-07-14
# L-DAWA:Federated Self-Supervised Visual Representation Learningにおけるレイヤーワイド・ダイバージェンス・アウェアウェイト・アグリゲーション

L-DAWA: Layer-wise Divergence Aware Weight Aggregation in Federated Self-Supervised Visual Representation Learning ( http://arxiv.org/abs/2307.07393v1 )

ライセンス: Link先を確認
Yasar Abbas Ur Rehman, Yan Gao, Pedro Porto Buarque de Gusm\~ao, Mina Alibeigi, Jiajun Shen, Nicholas D. Lane(参考訳) カメラ搭載デバイスの普及により、エッジで大量のラベルなしの画像データが生成されるようになった。 自己教師付き学習(SSL)とフェデレーション付き学習(FL)をひとつのコヒーレントシステムに統合することで、データのプライバシーを保証すると同時に、データを移動することなく、学習された視覚表現の品質と堅牢性を向上させることが可能になる。 しかし、データの不均一性によるFLアグリゲーション時のクライアントバイアスとばらつきにより、下流タスクにおける学習された視覚表現の性能が制限される。 本稿では,flアグリゲーション中のクライアントバイアスと発散の影響を軽減するために,層別発散認識重みアグリゲーション(l-dawa)と呼ばれる新しいアグリゲーション戦略を提案する。 提案手法は,クライアントモデルとグローバルモデルとの角偏差の測定値に基づいて,層レベルで重みを集約する。 CIFAR-10/100およびTiny ImageNetデータセット上でのクロスサイロおよびクロスデバイス設定による広範囲な実験により、我々の手法が有効であり、対照的かつ非対照的なSSLアプローチにおいて新しいSOTA性能が得られることを示した。

The ubiquity of camera-enabled devices has led to large amounts of unlabeled image data being produced at the edge. The integration of self-supervised learning (SSL) and federated learning (FL) into one coherent system can potentially offer data privacy guarantees while also advancing the quality and robustness of the learned visual representations without needing to move data around. However, client bias and divergence during FL aggregation caused by data heterogeneity limits the performance of learned visual representations on downstream tasks. In this paper, we propose a new aggregation strategy termed Layer-wise Divergence Aware Weight Aggregation (L-DAWA) to mitigate the influence of client bias and divergence during FL aggregation. The proposed method aggregates weights at the layer-level according to the measure of angular divergence between the clients' model and the global model. Extensive experiments with cross-silo and cross-device settings on CIFAR-10/100 and Tiny ImageNet datasets demonstrate that our methods are effective and obtain new SOTA performance on both contrastive and non-contrastive SSL approaches.
翻訳日:2023-07-17 13:32:55 公開日:2023-07-14
# Ranking-based Approach による Bengali Text Summarization の強化

Rank Your Summaries: Enhancing Bengali Text Summarization via Ranking-based Approach ( http://arxiv.org/abs/2307.07392v1 )

ライセンス: Link先を確認
G. M. Shahariar, Tonmoy Talukder, Rafin Alam Khan Sotez, Md. Tanvir Rouf Shawon(参考訳) 効率的かつ高精度なテキスト要約技術の必要性が高まっており、ベンガル語テキストの要約に適した事前学習モデルの品質と精度を高めるための道を探究することが重要である。 テキスト要約タスクに関しては、事前に訓練されたトランスフォーマーモデルが数多く存在する。 その結果、これらの事前学習された要約モデルによって生成された様々な選択肢のうち、与えられたテキストの最も有益で関連する要約を識別することが非常に困難となる。 本稿では,4種類の学習済みベンガルテキスト要約モデルの出力を比較する単純かつ効果的なランキングベースアプローチを用いて,与えられたテキストの最も正確かつ有益な要約を同定することを目的とする。 このプロセスは、特殊文字や句読点などの不要な要素を排除する入力テキストの前処理を実行することから始まります。 次に、4つの事前学習した要約モデルを用いて要約を生成し、次いでテキストランキングアルゴリズムを用いて最も適切な要約を識別する。 最終的に、最高順位の要約が最終スコアとして選ばれる。 提案手法の有効性を評価するため, BLEU, ROUGE, BERTScore, WIL, WER, METEOR などの標準 NLG メトリクスを用いて, 人間の注釈付き要約と比較した。 提案手法は, 予め学習したトランスフォーマーモデルの強みを活用し, ランキングに基づく手法を組み合わせることで, ベンガルテキスト要約の精度と有効性を大幅に向上させることが示唆された。

With the increasing need for text summarization techniques that are both efficient and accurate, it becomes crucial to explore avenues that enhance the quality and precision of pre-trained models specifically tailored for summarizing Bengali texts. When it comes to text summarization tasks, there are numerous pre-trained transformer models at one's disposal. Consequently, it becomes quite a challenge to discern the most informative and relevant summary for a given text among the various options generated by these pre-trained summarization models. This paper aims to identify the most accurate and informative summary for a given text by utilizing a simple but effective ranking-based approach that compares the output of four different pre-trained Bengali text summarization models. The process begins by carrying out preprocessing of the input text that involves eliminating unnecessary elements such as special characters and punctuation marks. Next, we utilize four pre-trained summarization models to generate summaries, followed by applying a text ranking algorithm to identify the most suitable summary. Ultimately, the summary with the highest ranking score is chosen as the final one. To evaluate the effectiveness of this approach, the generated summaries are compared against human-annotated summaries using standard NLG metrics such as BLEU, ROUGE, BERTScore, WIL, WER, and METEOR. Experimental results suggest that by leveraging the strengths of each pre-trained transformer model and combining them using a ranking-based approach, our methodology significantly improves the accuracy and effectiveness of the Bengali text summarization.
翻訳日:2023-07-17 13:32:20 公開日:2023-07-14
# マヨラナエッジモードへの渦の注入の動的シミュレーション

Dynamical simulation of the injection of vortices into a Majorana edge mode ( http://arxiv.org/abs/2307.07447v1 )

ライセンス: Link先を確認
I. M. Flor, A. Donis Vela, C. W. J. Beenakker and G. Lemut(参考訳) 位相超伝導体のキラルエッジモードは、アーベル交換統計量を持つフェルミオン準粒子を輸送できるが、非可換なアノン(マヨルダナのゼロモードは境界に沿って伝播する「pi」相のドメインウォールに束縛される)も輸送できる。 このようなエッジ渦は、ジョセフソン接合上のh/2e流束バイアスの適用により注入される。 射出過程の既存の説明は、ジョゼフソン接合の内部ダイナミクスを無視する断熱系の瞬時散乱近似に依存する。 ここでは, 誘導過程の時間依存多体シミュレーションにおいて, この近似を超越し, 超伝導体の大部分に非移動型アブリコソフ渦を用いた移動端渦のブレイディングを行う。 我々のシミュレーションは、飛行するMajorana qubitの実装に必要とされるジョセフソン接合の特性に光を当てる。

The chiral edge modes of a topological superconductor can transport fermionic quasiparticles, with Abelian exchange statistics, but they can also transport non-Abelian anyons: Majorana zero-modes bound to a {\pi}-phase domain wall that propagates along the boundary. Such an edge vortex is injected by the application of an h/2e flux bias over a Josephson junction. Existing descriptions of the injection process rely on the instantaneous scattering approximation of the adiabatic regime, where the internal dynamics of the Josephson junction is ignored. Here we go beyond that approximation in a time-dependent many-body simulation of the injection process, followed by a braiding of the mobile edge vortex with an immobile Abrikosov vortex in the bulk of the superconductor. Our simulation sheds light on the properties of the Josephson junction needed for a successful implementation of a flying Majorana qubit.
翻訳日:2023-07-17 13:24:14 公開日:2023-07-14
# 大規模言語モデルは分子特性予測を活用できるか?

Can Large Language Models Empower Molecular Property Prediction? ( http://arxiv.org/abs/2307.07443v1 )

ライセンス: Link先を確認
Chen Qian, Huayi Tang, Zhirui Yang, Hong Liang, Yong Liu(参考訳) 分子特性予測は、複数の科学分野における変化可能性によって、大きな注目を集めている。 従来、分子グラフはグラフ構造化データまたはSMILESテキストとして表現できる。 近年,Large Language Models (LLM) の急速な発展がNLPの分野に革命をもたらした。 LLMを用いてSMILESで表される分子の理解を支援することは自然であるが、LLMが分子特性予測にどのように影響するかの探索はまだ初期段階にある。 本研究では,0/fewショット分子分類と,llmsが生成する分子の表現として用いる新しい説明という2つの視点を通して,この目標に向けて前進する。 具体的には、まず LLM にインコンテキスト分子分類をするよう促し、その性能を評価する。 その後、LSMを用いて、元のSMILESのセマンティックにリッチな説明を生成し、それを活用して、複数の下流タスクのための小規模LMモデルを微調整する。 実験結果は、複数のベンチマークデータセットにまたがる分子表現としてのテキスト説明の優位性を強調し、分子特性予測タスクにおけるLLMの潜在可能性を確認する。 コードは \url{https://github.com/chnq/llm4mol} で入手できる。

Molecular property prediction has gained significant attention due to its transformative potential in multiple scientific disciplines. Conventionally, a molecule graph can be represented either as a graph-structured data or a SMILES text. Recently, the rapid development of Large Language Models (LLMs) has revolutionized the field of NLP. Although it is natural to utilize LLMs to assist in understanding molecules represented by SMILES, the exploration of how LLMs will impact molecular property prediction is still in its early stage. In this work, we advance towards this objective through two perspectives: zero/few-shot molecular classification, and using the new explanations generated by LLMs as representations of molecules. To be specific, we first prompt LLMs to do in-context molecular classification and evaluate their performance. After that, we employ LLMs to generate semantically enriched explanations for the original SMILES and then leverage that to fine-tune a small-scale LM model for multiple downstream tasks. The experimental results highlight the superiority of text explanations as molecular representations across multiple benchmark datasets, and confirm the immense potential of LLMs in molecular property prediction tasks. Codes are available at \url{https://github.com/ChnQ/LLM4Mol}.
翻訳日:2023-07-17 13:23:55 公開日:2023-07-14
# アトラスに基づく解釈可能な年齢予測

Atlas-Based Interpretable Age Prediction ( http://arxiv.org/abs/2307.07439v1 )

ライセンス: Link先を確認
Sophie Starck, Yadunandan Vivekanand Kini, Jessica Johanna Maria Ritter, Rickmer Braren, Daniel Rueckert and Tamara Mueller(参考訳) 年齢予測は医療評価と研究の重要な部分である。 慢性期と生物学的年齢の相違を強調することにより、疾患の検出や異常な老化を支援できる。 様々な部位で観察される年齢変化の包括的理解を得るために,全体像を用いて大規模に調査を行った。 人の年齢を最も予測する身体領域を決定するために, grad-cam の解釈可能性を用いた。 我々は,人口全体にわたる解釈可能性マップの作成に登録技術を用いることにより,個々の対象にまたがって分析を展開する。 さらに,平均絶対誤差を2.76年とするモデルを用いて,最先端の全身年齢予測を行う。 以上の結果より, 脊椎, 自家背筋, 心臓領域の3つの主要な関心領域が明らかとなった。

Age prediction is an important part of medical assessments and research. It can aid in detecting diseases as well as abnormal ageing by highlighting the discrepancy between chronological and biological age. To gain a comprehensive understanding of age-related changes observed in various body parts, we investigate them on a larger scale by using whole-body images. We utilise the Grad-CAM interpretability method to determine the body areas most predictive of a person's age. We expand our analysis beyond individual subjects by employing registration techniques to generate population-wide interpretability maps. Furthermore, we set state-of-the-art whole-body age prediction with a model that achieves a mean absolute error of 2.76 years. Our findings reveal three primary areas of interest: the spine, the autochthonous back muscles, and the cardiac region, which exhibits the highest importance.
翻訳日:2023-07-17 13:23:36 公開日:2023-07-14
# アイルランド語の方言識別に向けて

Towards spoken dialect identification of Irish ( http://arxiv.org/abs/2307.07436v1 )

ライセンス: Link先を確認
Liam Lonergan, Mengjie Qian, Neasa N\'i Chiar\'ain, Christer Gobl, Ailbhe N\'i Chasaide(参考訳) アイルランド語は方言やアクセントの多様性に富んでいる。 これは低リソース言語のための音声認識システムを構築することの難しさを複雑にしている。 最近のアイルランド語ASRにおける方言バイアスの調査では、バランスの取れた訓練コーパスは不平等な方言のパフォーマンスをもたらし、アルスター方言のパフォーマンスはコンナヒト方言やマンスター方言よりも一貫して悪化している。 そこで本研究では,アイルランド語の方言識別について検討し,そのようなシステムを音声認識パイプラインに組み込むことを目的とした。 XLS-R と ECAPA-TDNN の2つの音響分類モデルと事前訓練されたアイルランド語 BERT モデルを用いたテキストベース分類器を併用して実験を行った。 ecapa-tdnn(特にvoxlingua107データセットで言語識別のために事前訓練されたモデル)は、総合的に73%の精度で最高性能を発揮した。 これは、モデルの出力をテキストベースモデルと融合することで、76%に改善された。 アルスター方言は94%の精度で最も正確に同定されたが、このモデルはコンナヒト方言とマンスター方言のあいまいさに苦慮しており、アイルランド語の方言をしっかり区別するためにはよりニュアンスなアプローチが必要であることを示唆している。

The Irish language is rich in its diversity of dialects and accents. This compounds the difficulty of creating a speech recognition system for the low-resource language, as such a system must contend with a high degree of variability with limited corpora. A recent study investigating dialect bias in Irish ASR found that balanced training corpora gave rise to unequal dialect performance, with performance for the Ulster dialect being consistently worse than for the Connacht or Munster dialects. Motivated by this, the present experiments investigate spoken dialect identification of Irish, with a view to incorporating such a system into the speech recognition pipeline. Two acoustic classification models are tested, XLS-R and ECAPA-TDNN, in conjunction with a text-based classifier using a pretrained Irish-language BERT model. The ECAPA-TDNN, particularly a model pretrained for language identification on the VoxLingua107 dataset, performed best overall, with an accuracy of 73%. This was further improved to 76% by fusing the model's outputs with the text-based model. The Ulster dialect was most accurately identified, with an accuracy of 94%, however the model struggled to disambiguate between the Connacht and Munster dialects, suggesting a more nuanced approach may be necessary to robustly distinguish between the dialects of Irish.
翻訳日:2023-07-17 13:23:25 公開日:2023-07-14
# BiLSTMネットワークを用いたLAI計算のためのマルチテンポラル光とSARデータの組み合わせ

Combining multitemporal optical and SAR data for LAI imputation with BiLSTM network ( http://arxiv.org/abs/2307.07434v1 )

ライセンス: Link先を確認
W. Zhao, F. Yin, H. Ma, Q. Wu, J. Gomez-Dans, P. Lewis(参考訳) リーフ地域指数(LAI)は冬の小麦収量の予測に不可欠である。 Sentinel-2リモートセンシング画像による収穫条件の取得は、持続的な雲によって妨げられ、収量予測に影響を及ぼす。 SAR(Synthetic Aperture Radar)は全天候画像を提供し,Cバンドとクロスポーラライズされたチャネルの比率は冬のコムギ地域での時系列LAIと高い相関を示した。 本研究では,laiインプテーションにおける時系列sentinel-1 vh/vvの利用を評価し,空間-時空間密度の増大を目標とした。 我々は、双方向LSTM(BiLSTM)ネットワークを用いて時系列LAIをインプットし、損失関数として各ステップの半平均2乗誤差を使用する。 我々は、Sentinel-1 VH/VVとSentinel-2で生成されたLAIデータのみを用いて、南ドイツと北中国平原のデータに関するモデルを訓練した。 実験により、BiLSTMは従来の回帰法よりも優れており、複数の時系列間の非線形ダイナミクスを捉えることができる。 様々な成長条件下で堅牢であり、Sentinel-2の限られた画像でも有効である。 BiLSTMの性能は、特に老化期においてLSTMを上回る。 したがって、BiLSTMは、時系列Sentinel-1 VH/VVおよびSentinel-2データでLAIをインプットするために使用することができ、他の時系列インプット問題にも適用することができる。

The Leaf Area Index (LAI) is vital for predicting winter wheat yield. Acquisition of crop conditions via Sentinel-2 remote sensing images can be hindered by persistent clouds, affecting yield predictions. Synthetic Aperture Radar (SAR) provides all-weather imagery, and the ratio between its cross- and co-polarized channels (C-band) shows a high correlation with time series LAI over winter wheat regions. This study evaluates the use of time series Sentinel-1 VH/VV for LAI imputation, aiming to increase spatial-temporal density. We utilize a bidirectional LSTM (BiLSTM) network to impute time series LAI and use half mean squared error for each time step as the loss function. We trained models on data from southern Germany and the North China Plain using only LAI data generated by Sentinel-1 VH/VV and Sentinel-2. Experimental results show BiLSTM outperforms traditional regression methods, capturing nonlinear dynamics between multiple time series. It proves robust in various growing conditions and is effective even with limited Sentinel-2 images. BiLSTM's performance surpasses that of LSTM, particularly over the senescence period. Therefore, BiLSTM can be used to impute LAI with time-series Sentinel-1 VH/VV and Sentinel-2 data, and this method could be applied to other time-series imputation issues.
翻訳日:2023-07-17 13:22:58 公開日:2023-07-14
# 位相空間における開量子系の変分ダイナミクス

Variational dynamics of open quantum systems in phase space ( http://arxiv.org/abs/2307.07429v1 )

ライセンス: Link先を確認
Debbie Eeltink, Filippo Vicentini and Vincenzo Savona(参考訳) 本稿では,Wigner あるいは Husimi-Q 準確率分布の変分符号化を用いて,大容量駆動散逸多体開量子系の力学をシミュレートする手法を提案する。 この方法は、数量を効率的に推定できる一方で、多項式計算の複雑さを維持するためにモンテカルロサンプリングに依存する。 第一の応用として,非線形性が弱い駆動散逸型ボース・ハバード模型の物理学に関する原理的考察を行い,位相空間変分アプローチの高効率性を示す。

We present a method to simulate the dynamics of large driven-dissipative many-body open quantum systems using a variational encoding of the Wigner or Husimi-Q quasi-probability distributions. The method relies on Monte-Carlo sampling to maintain a polynomial computational complexity while allowing for several quantities to be estimated efficiently. As a first application, we present a proof of principle investigation into the physics of the driven-dissipative Bose-Hubbard model with weak nonlinearity, providing evidence for the high efficiency of the phase space variational approach.
翻訳日:2023-07-17 13:22:33 公開日:2023-07-14
# エゴセントリックな行動認識のためのマルチモーダル蒸留

Multimodal Distillation for Egocentric Action Recognition ( http://arxiv.org/abs/2307.07483v1 )

ライセンス: Link先を確認
Gorjan Radevski, Dusan Grujicic, Marie-Francine Moens, Matthew Blaschko, Tinne Tuytelaars(参考訳) エゴセントリックビデオ理解の焦点は、手とオブジェクトの相互作用のモデリングである。 CNNやVision Transformersなどの標準モデルは、入力としてRGBフレームを受信する。 しかし、オブジェクト検出、光フロー、オーディオなど、補完的なヒントを提供する追加の入力モードを使用することで、パフォーマンスはさらに向上する。 一方、モダリティ固有のモジュールの複雑さが増すことで、これらのモデルはデプロイに非現実的になる。 この研究の目的は、RGBフレームのみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。 我々は,epic-kitchens と something-something データセットにおける自己中心的行動認識において,マルチモーダル教師が指導する学生は,単モーダルあるいはマルチモーダルの手法で基底真理ラベルで訓練されたアーキテクチャ的に等価なモデルよりも正確かつより校正される傾向があることを実証する。 我々はさらに,マルチモーダル知識蒸留をナイーブな方法で適用する際に生じる問題に対処するための,原則付きマルチモーダル知識蒸留フレームワークも採用している。 最後に,計算複雑性の低減を実証し,本手法が入力ビューの削減とともに高い性能を維持していることを示す。

The focal point of egocentric video understanding is modelling hand-object interactions. Standard models, e.g. CNNs or Vision Transformers, which receive RGB frames as input perform well. However, their performance improves further by employing additional input modalities that provide complementary cues, such as object detections, optical flow, audio, etc. The added complexity of the modality-specific modules, on the other hand, makes these models impractical for deployment. The goal of this work is to retain the performance of such a multimodal approach, while using only the RGB frames as input at inference time. We demonstrate that for egocentric action recognition on the Epic-Kitchens and the Something-Something datasets, students which are taught by multimodal teachers tend to be more accurate and better calibrated than architecturally equivalent models trained on ground truth labels in a unimodal or multimodal fashion. We further adopt a principled multimodal knowledge distillation framework, allowing us to deal with issues which occur when applying multimodal knowledge distillation in a naive manner. Lastly, we demonstrate the achieved reduction in computational complexity, and show that our approach maintains higher performance with the reduction of the number of input views.
翻訳日:2023-07-17 13:16:08 公開日:2023-07-14
# 動的メタ埋め込みに基づく腫瘍分類のためのデュアルクエリ多重インスタンス学習

Dual-Query Multiple Instance Learning for Dynamic Meta-Embedding based Tumor Classification ( http://arxiv.org/abs/2307.07482v1 )

ライセンス: Link先を確認
Simon Holdenried-Krafft and Peter Somers and Ivonne A. Montes-Majarro and Diana Silimon and Cristina Tar\'in and Falko Fend and Hendrik P. A. Lensch(参考訳) 全スライド画像(WSI)の評価は、がんの診断と治療計画において困難かつ重要なステップである。 WSIは細胞内分析を容易にするために高い倍率を必要とする。 ギガピクセルwsisのコンテキストにおけるパッチやピクセルレベルの分類の正確なアノテーションは、ドメインの専門家の獲得と要求が面倒です。 一方、粒度の粗いラベルは簡単にアクセスでき、wsi分類は複数インスタンス学習(mil)の理想的なユースケースとなる。 本稿では,新しい組込み型Dual-Query MILパイプライン(DQ-MIL)を提案する。 私たちは埋め込みと集約の両方のステップに貢献します。 汎用的な視覚的特徴表現はまだ利用できないため、埋め込みモデルは一般化性の観点から制限されている。 本研究では,MILの文脈における最先端の自己教師付き事前学習モデルに基づく動的メタ埋め込みの可能性を探る。 さらに,MILアテンションと相関自己アテンションを組み合わせた新しいMILアーキテクチャを提案する。 提案手法のDual-Query Perceiver設計により、自己蒸留の概念を活用でき、低データ構造における小さなモデルの利点とより大きなモデルのリッチな特徴表現を組み合わせることができる。 我々は3つの病理組織学的データセットに対するアプローチの優れた性能を示し、最先端のアプローチよりも最大10%改善したことを示す。

Whole slide image (WSI) assessment is a challenging and crucial step in cancer diagnosis and treatment planning. WSIs require high magnifications to facilitate sub-cellular analysis. Precise annotations for patch- or even pixel-level classifications in the context of gigapixel WSIs are tedious to acquire and require domain experts. Coarse-grained labels, on the other hand, are easily accessible, which makes WSI classification an ideal use case for multiple instance learning (MIL). In our work, we propose a novel embedding-based Dual-Query MIL pipeline (DQ-MIL). We contribute to both the embedding and aggregation steps. Since all-purpose visual feature representations are not yet available, embedding models are currently limited in terms of generalizability. With our work, we explore the potential of dynamic meta-embedding based on cutting-edge self-supervised pre-trained models in the context of MIL. Moreover, we propose a new MIL architecture capable of combining MIL-attention with correlated self-attention. The Dual-Query Perceiver design of our approach allows us to leverage the concept of self-distillation and to combine the advantages of a small model in the context of a low data regime with the rich feature representation of a larger model. We demonstrate the superior performance of our approach on three histopathological datasets, where we show improvement of up to 10% over state-of-the-art approaches.
翻訳日:2023-07-17 13:15:43 公開日:2023-07-14
# 量子化による量子コンピュータのモード解析

Modal analysis on quantum computers via qubitization ( http://arxiv.org/abs/2307.07478v1 )

ライセンス: Link先を確認
Yasunori Lee, Keita Kanno(参考訳) 自然周波数と正規モードは、振動特性の解析において重要な役割を果たす構造の基本特性である。 その計算が固有値問題に還元されるので、特に大規模システムにおいて量子位相推定アルゴリズムの適用には自然な分野である。 本稿では、(古典的)結合振動子の簡単な例を取り上げ、行列のスパース構造に基づく量子化法を用いてアルゴリズムがどのように動作するかを示す。 その過程でブロックエンコーディングのオーラクルを明示的に構築し、初期状態を作成する方法を提案し、繰り返し構造を持つシステムのより一般的なオーラクル構築に短時間触れる。 実演として、フォールトトレラントな量子コンピュータで実行する際に必要となる物理量子ビットの数と実際のランタイムを大まかに見積もる。

Natural frequencies and normal modes are basic properties of a structure which play important roles in analyses of its vibrational characteristics. As their computation reduces to solving eigenvalue problems, it is a natural arena for application of quantum phase estimation algorithms, in particular for large systems. In this note, we take up some simple examples of (classical) coupled oscillators and show how the algorithm works by using qubitization methods based on a sparse structure of the matrix. We explicitly construct block-encoding oracles along the way, propose a way to prepare initial states, and briefly touch on a more generic oracle construction for systems with repetitive structure. As a demonstration, we also give rough estimates of the necessary number of physical qubits and actual runtime it takes when carried out on a fault-tolerant quantum computer.
翻訳日:2023-07-17 13:15:22 公開日:2023-07-14
# 個人フェデレーション学習を用いた教育用言語モデルの人口拡大

Population Expansion for Training Language Models with Private Federated Learning ( http://arxiv.org/abs/2307.07477v1 )

ライセンス: Link先を確認
Tatsuki Koga, Congzheng Song, Martin Pelikan, Mona Chitnis(参考訳) Federated Learning(FL)と差分プライバシ(DP)を組み合わせることで、分散デバイスと正式なプライバシ保証を備えた機械学習(ML)トレーニングが提供される。 デバイスが多ければ、DPを持つFLは、タイムリーな方法でパフォーマンスモデルを生成する。 しかし、人口が少ないアプリケーションでは、dpノイズが人口に逆比例しているため、モデルユーティリティが劣化するだけでなく、より小さなプールから十分なクライアントが利用可能になるのを待つのが遅いため、トレーニング遅延が増加する。 そこで本研究では,学習を高速化するために,ドメイン適応技術に基づく人口拡大を提案し,少人数での訓練時の最終的なモデル品質を向上させる。 実世界の言語モデリングデータセットにおいて,我々の技術が有効性を13%から30%改善できることを実証的に実証した。

Federated learning (FL) combined with differential privacy (DP) offers machine learning (ML) training with distributed devices and with a formal privacy guarantee. With a large population of devices, FL with DP produces a performant model in a timely manner. However, for applications with a smaller population, not only does the model utility degrade as the DP noise is inversely proportional to population, but also the training latency increases since waiting for enough clients to become available from a smaller pool is slower. In this work, we thus propose expanding the population based on domain adaptation techniques to speed up the training and improves the final model quality when training with small populations. We empirically demonstrate that our techniques can improve the utility by 13% to 30% on real-world language modeling datasets.
翻訳日:2023-07-17 13:15:08 公開日:2023-07-14
# 骨格に基づく一般対話行動認識のための対話時空間トークン注意ネットワーク

Interactive Spatiotemporal Token Attention Network for Skeleton-based General Interactive Action Recognition ( http://arxiv.org/abs/2307.07469v1 )

ライセンス: Link先を確認
Yuhang Wen, Zixuan Tang, Yunsheng Pang, Beichen Ding, Mengyuan Liu(参考訳) インタラクティブなアクションを認識することは、人間とロボットのインタラクションとコラボレーションにおいて重要な役割を果たす。 従来の手法では、より相互作用するエンティティに適応するための学習能力や非効率性が制限された対話的関係を捉えるためにレイト・フュージョンとコ・アテンション・メカニズムを使用する。 それぞれのエンティティの優先順位がすでに知られていると仮定すると、それらはさらに一般的な設定で主題の多様性に取り組む評価も欠落している。 そこで本稿では,空間的,時間的,インタラクティブな関係を同時にモデル化するインタラクティブな時空間トークンアテンションネットワーク(ista-net)を提案する。 具体的には,対話型時空間トークン(IST)を分割するトークンをネットワークに含んでおり,多種多様なエンティティの動作を表現する統一的な方法である。 エンティティの次元を拡張することで、ISTはより良いインタラクティブな表現を提供する。 ISTの3次元に沿って共同学習するために、3次元畳み込みと統合されたマルチヘッド自己認識ブロックは、トークン間の相関を捉えるように設計されている。 相関をモデル化する場合、厳密なエンティティ順序付けは、通常、対話的なアクションを認識するために無関係である。 この目的のために、交換可能なエンティティに対するISTの順序をなくすためにEntity Rearrangementが提案されている。 4つのデータセットに対する大規模な実験により、ISTA-Netの有効性が実証された。 私たちのコードはhttps://github.com/Necolizer/ISTA-Netで公開されています。

Recognizing interactive action plays an important role in human-robot interaction and collaboration. Previous methods use late fusion and co-attention mechanism to capture interactive relations, which have limited learning capability or inefficiency to adapt to more interacting entities. With assumption that priors of each entity are already known, they also lack evaluations on a more general setting addressing the diversity of subjects. To address these problems, we propose an Interactive Spatiotemporal Token Attention Network (ISTA-Net), which simultaneously model spatial, temporal, and interactive relations. Specifically, our network contains a tokenizer to partition Interactive Spatiotemporal Tokens (ISTs), which is a unified way to represent motions of multiple diverse entities. By extending the entity dimension, ISTs provide better interactive representations. To jointly learn along three dimensions in ISTs, multi-head self-attention blocks integrated with 3D convolutions are designed to capture inter-token correlations. When modeling correlations, a strict entity ordering is usually irrelevant for recognizing interactive actions. To this end, Entity Rearrangement is proposed to eliminate the orderliness in ISTs for interchangeable entities. Extensive experiments on four datasets verify the effectiveness of ISTA-Net by outperforming state-of-the-art methods. Our code is publicly available at https://github.com/Necolizer/ISTA-Net
翻訳日:2023-07-17 13:14:53 公開日:2023-07-14
# 構造量子衝突モデル:熱資源とのコヒーレンスの生成

Structured quantum collision models: generating coherence with thermal resources ( http://arxiv.org/abs/2307.07463v1 )

ライセンス: Link先を確認
Stefano Cusumano and Gabriele De Chiara(参考訳) 量子衝突モデルは通常、環境を表す一連の補助単位と相互作用するシステムで構成される。 これらの補助系は通常2レベル系(TLS)または調和振動子のいずれかと仮定されるが、この研究ではさらに進み、各補助系を2つ以上のサブシステムからなる構造系として表現する。 このシナリオは、オープンシステムの進化のために得られるマスター方程式の種類をいかに修正するかを示す。 さらに,アシラ状態が熱的かつある程度のコヒーレンスを有する状況を考えることができる。 これにより、オープンシステムの定常状態におけるコヒーレンスの生成が可能になり、衝突モデルの単純さにより、システム内でコヒーレンスを作成するための熱力学的コストをよりよく理解することができる。 具体的には、系をコヒーレントな自由度と相互作用させるには作業コストが必要であり、熱力学の第1法則と第2法則を自然に満たすことができることを示した。

Quantum collision models normally consist of a system interacting with a set of ancillary units representing the environment. While these ancillary systems are usually assumed to be either two level systems (TLS) or harmonic oscillators, in this work we move further and represent each ancillary system as a structured system, i.e., a system made out of two or more subsystems. We show how this scenario modifies the kind of master equation that one can obtain for the evolution of the open systems. Moreover, we are able to consider a situation where the ancilla state is thermal yet has some coherence. This allows the generation of coherence in the steady state of the open system and, thanks to the simplicity of the collision model, this allows us to better understand the thermodynamic cost of creating coherence in a system. Specifically, we show that letting the system interact with the coherent degrees of freedom requires a work cost, leading to the natural fulfillment of the first and second law of thermodynamics without the necessity of {\it ad hoc} formulations.
翻訳日:2023-07-17 13:14:34 公開日:2023-07-14
# 制約学習のためのニューラルネットワークの構造的プルーニング

Structured Pruning of Neural Networks for Constraints Learning ( http://arxiv.org/abs/2307.07457v1 )

ライセンス: Link先を確認
Matteo Cacciola and Antonio Frangioni and Andrea Lodi(参考訳) 近年、機械学習(ML)モデルとオペレーティングリサーチ(OR)ツールの統合は、がん治療、アルゴリズム構成、化学プロセス最適化など、さまざまなアプリケーションで人気を集めている。 このドメインでは、MLとORの組み合わせは、しばしばMIP(Mixed Integer Programming)の定式化を使用してMLモデルの出力を表現することに依存する。 文献における多くの研究は、多くのml予測器のためのそのような定式化を開発しており、特に人工知能ネットワーク(anns)に重点を置いている。 しかし、ANNは頻繁に多数のパラメータを含むため、解けないMIPの定式化によってスケーラビリティが阻害される。 実際、MLコミュニティはすでに、ANNのパラメータ数を減らし、パフォーマンスを損なうことなく、いくつかのテクニックを導入している。 本稿では,これらの手法の1つであるプルーニング(pruning)が,mipsに統合される前にannに適用される場合の有効性について紹介する。 ANNを刈り取ることで、ソリューションプロセスのスピードを大幅に改善します。 我々は,他のML圧縮手法と比較して,この文脈でプルーニングが適している理由を論じ,最も適切なプルーニング戦略を特定する。 このアプローチの可能性を強調するために,複数の層を有するフィードフォワードニューラルネットワークを用いて,逆の例を構築する実験を行う。 以上の結果から,プルーニングは最終決定の質を損なうことなく解時間を大幅に短縮し,未解決インスタンスの解決を可能にした。

In recent years, the integration of Machine Learning (ML) models with Operation Research (OR) tools has gained popularity across diverse applications, including cancer treatment, algorithmic configuration, and chemical process optimization. In this domain, the combination of ML and OR often relies on representing the ML model output using Mixed Integer Programming (MIP) formulations. Numerous studies in the literature have developed such formulations for many ML predictors, with a particular emphasis on Artificial Neural Networks (ANNs) due to their significant interest in many applications. However, ANNs frequently contain a large number of parameters, resulting in MIP formulations that are impractical to solve, thereby impeding scalability. In fact, the ML community has already introduced several techniques to reduce the parameter count of ANNs without compromising their performance, since the substantial size of modern ANNs presents challenges for ML applications as it significantly impacts computational efforts during training and necessitates significant memory resources for storage. In this paper, we showcase the effectiveness of pruning, one of these techniques, when applied to ANNs prior to their integration into MIPs. By pruning the ANN, we achieve significant improvements in the speed of the solution process. We discuss why pruning is more suitable in this context compared to other ML compression techniques, and we identify the most appropriate pruning strategies. To highlight the potential of this approach, we conduct experiments using feed-forward neural networks with multiple layers to construct adversarial examples. Our results demonstrate that pruning offers remarkable reductions in solution times without hindering the quality of the final decision, enabling the resolution of previously unsolvable instances.
翻訳日:2023-07-17 13:14:14 公開日:2023-07-14
# データスカーススペクトル応用のための生成逆ネットワーク

Generative adversarial networks for data-scarce spectral applications ( http://arxiv.org/abs/2307.07454v1 )

ライセンス: Link先を確認
Juan Jos\'e Garc\'ia-Esteban, Juan Carlos Cuevas, Jorge Bravo-Abad(参考訳) generative adversarial networks (gans)は、生成型人工知能の分野で最も堅牢で多用途な技術の一つである。 本稿では,合成スペクトルデータ生成分野におけるGANの応用について報告する。 提案手法は, 多層ハイパーボリックメタマテリアルを含む近接場放射熱伝達領域における実証的な問題に適用することで実証する。 スペクトルデータの生成には,従来のGANの2つの修正が必要である。 (i)モード崩壊を回避するためのwasserstein gans(wgans)の導入、 (ii)生成されたデータの正確なラベルを取得するためのwganの条件付け。 本研究では,単純なフィードフォワードニューラルネットワーク(ffnn)をcwganが生成するデータで拡張することで,データ可用性が制限された条件下での性能が大幅に向上することを示す。 さらに,CWGANは,単純なFFNNに対して,低データ方式の性能向上を図り,サロゲートモデルとして機能することを示す。 全体として、この研究は画像生成と最適化を超えて科学的応用における生成的機械学習アルゴリズムの可能性を強調している。

Generative adversarial networks (GANs) are one of the most robust and versatile techniques in the field of generative artificial intelligence. In this work, we report on an application of GANs in the domain of synthetic spectral data generation, offering a solution to the scarcity of data found in various scientific contexts. We demonstrate the proposed approach by applying it to an illustrative problem within the realm of near-field radiative heat transfer involving a multilayered hyperbolic metamaterial. We find that a successful generation of spectral data requires two modifications to conventional GANs: (i) the introduction of Wasserstein GANs (WGANs) to avoid mode collapse, and, (ii) the conditioning of WGANs to obtain accurate labels for the generated data. We show that a simple feed-forward neural network (FFNN), when augmented with data generated by a CWGAN, enhances significantly its performance under conditions of limited data availability, demonstrating the intrinsic value of CWGAN data augmentation beyond simply providing larger datasets. In addition, we show that CWGANs can act as a surrogate model with improved performance in the low-data regime with respect to simple FFNNs. Overall, this work highlights the potential of generative machine learning algorithms in scientific applications beyond image generation and optimization.
翻訳日:2023-07-17 13:13:45 公開日:2023-07-14
# 動的対称性を有する3レベル量子システムの計測支援遷移確率の制御景観

Control landscape of measurement-assisted transition probability for a three-level quantum system with dynamical symmetry ( http://arxiv.org/abs/2307.07450v1 )

ライセンス: Link先を確認
Maria Elovenkova and Alexander Pechen(参考訳) 力学対称性を持つ量子系は、コヒーレント制御下で保存される量を持つ。 したがって、このようなシステムはコヒーレント制御のみで完全に制御することはできない。 特に、そのような系では、全てのコヒーレント制御に対する状態のペア間の極大遷移確率は1より小さい。 しかし、非コヒーレント制御はこの力学対称性を破り、最大到達可能な遷移確率を高めることができる。 そのような状況の最も単純な例は、動的対称性を持つ3段階の量子システムであり、コヒーレント制御のみによる基底と中間状態の遷移の最大確率は1/2$であり、コヒーレント制御は、以前に解析的に計算されたように、基底状態の非選択的測定によって実施される非コヒーレント制御によって支援される。 本研究では,キネマティック制御パラメータ(オイラー角)の関数と見なされるこの測定支援遷移確率について,キネマティック量子制御の全ての臨界点を研究し,完全に特徴付けする。 この研究で使われる測定駆動制御は、量子フィードバックとゼノタイプの制御の両方とは異なる。 すべての臨界点は、大域最大値、大域最小値、サドル点、第二次トラップである。 比較のために, 接地状態と最高励起状態の遷移確率と, これらの遷移確率が, 中間状態の測定により実現される非一貫性制御によって支援される場合について検討した。

Quantum systems with dynamical symmetries have conserved quantities which are preserved under coherent controls. Therefore such systems can not be completely controlled by means of only coherent control. In particular, for such systems maximal transition probability between some pair of states over all coherent controls can be less than one. However, incoherent control can break this dynamical symmetry and increase the maximal attainable transition probability. Simplest example of such situation occurs in a three-level quantum system with dynamical symmetry, for which maximal probability of transition between the ground and the intermediate state by only coherent control is $1/2$, and by coherent control assisted by incoherent control implemented by non-selective measurement of the ground state is about $0.687$, as was previously analytically computed. In this work we study and completely characterize all critical points of the kinematic quantum control landscape for this measurement-assisted transition probability, which is considered as a function of the kinematic control parameters (Euler angles). This used in this work measurement-driven control is different both from quantum feedback and Zeno-type control. We show that all critical points are global maxima, global minima, saddle points and second order traps. For comparison, we study the transition probability between the ground and highest excited state, as well as the case when both these transition probabilities are assisted by incoherent control implemented by measurement of the intermediate state.
翻訳日:2023-07-17 13:13:28 公開日:2023-07-14
# データストリームにおける異なるプライベートクラスタリング

Differentially Private Clustering in Data Streams ( http://arxiv.org/abs/2307.07449v1 )

ライセンス: Link先を確認
Alessandro Epasto, Tamalika Mukherjee, Peilin Zhong(参考訳) ストリーミングモデルは大規模データストリーム上のコンピューティングの抽象化であり、大規模データ分析を扱う一般的な方法である。 このモデルでは、データポイントのストリームが次々に存在します。 ストリーミングアルゴリズムは、データストリームをパスする唯一の方法であり、可能な限り小さなスペースを使用して、ストリーム中にいくつかの分析を行うことが目標である。 クラスタリング問題($k$-meansや$k$-medianなど)は基本的な教師なし機械学習プリミティブであり、ストリーミングクラスタリングアルゴリズムは過去に広く研究されてきた。 しかし、データプライバシが多くの現実世界アプリケーションにおいて中心的な関心事になっているため、プライベートでないクラスタリングアルゴリズムは多くのシナリオでは適用できない。 本研究では,$k$-meansおよび$k$-medianクラスタリングにおいて,最大で$T$のストリーム上のEuclideanデータポイントを,最大で$poly(k,d,\log(T))$スペースを用いて,最大で$ply(k,d,\log(T))と$poly(k,d,\log(T))$加算誤差を達成するための最初の微分プライベートストリーミングアルゴリズムを提供する。 特に,オフラインDPコアセットアルゴリズムをブラックボックスとしてのみ必要とする,差分プライベートなストリーミングクラスタリングフレームワークを提案する。 Ghazi, Kumar, Manurangsi 2020 and Kaplan, Stemmer 2018 を通じて既存のDPコアセットの結果をプラグインすることで、(1) a $(1+\gamma)$-multiplicative approximation with $\tilde{O}_\gamma(poly(k,d,\log(T)))$ space for any $\gamma>0$, and the additive error is $poly(k,d,\log(T))$ or (2) a $O(1)$-multiplicative approximation with $\tilde{O}(k \cdot poly(d,\log(T)))$ space and $poly(k,d,\log(T))$ $ additive error が得られる。 さらに、我々のアルゴリズムフレームワークは、連続的なリリース設定の下で微分プライベートであり、すなわち、各タイムスタンプにおけるアルゴリズムの出力の統一は常に微分プライベートである。

The streaming model is an abstraction of computing over massive data streams, which is a popular way of dealing with large-scale modern data analysis. In this model, there is a stream of data points, one after the other. A streaming algorithm is only allowed one pass over the data stream, and the goal is to perform some analysis during the stream while using as small space as possible. Clustering problems (such as $k$-means and $k$-median) are fundamental unsupervised machine learning primitives, and streaming clustering algorithms have been extensively studied in the past. However, since data privacy becomes a central concern in many real-world applications, non-private clustering algorithms are not applicable in many scenarios. In this work, we provide the first differentially private streaming algorithms for $k$-means and $k$-median clustering of $d$-dimensional Euclidean data points over a stream with length at most $T$ using $poly(k,d,\log(T))$ space to achieve a {\it constant} multiplicative error and a $poly(k,d,\log(T))$ additive error. In particular, we present a differentially private streaming clustering framework which only requires an offline DP coreset algorithm as a blackbox. By plugging in existing DP coreset results via Ghazi, Kumar, Manurangsi 2020 and Kaplan, Stemmer 2018, we achieve (1) a $(1+\gamma)$-multiplicative approximation with $\tilde{O}_\gamma(poly(k,d,\log(T)))$ space for any $\gamma>0$, and the additive error is $poly(k,d,\log(T))$ or (2) an $O(1)$-multiplicative approximation with $\tilde{O}(k \cdot poly(d,\log(T)))$ space and $poly(k,d,\log(T))$ additive error. In addition, our algorithmic framework is also differentially private under the continual release setting, i.e., the union of outputs of our algorithms at every timestamp is always differentially private.
翻訳日:2023-07-17 13:13:00 公開日:2023-07-14
# 表現型単調ニューラルネットワーク

Expressive Monotonic Neural Networks ( http://arxiv.org/abs/2307.07512v1 )

ライセンス: Link先を確認
Ouail Kitouni, Niklas Nolte, Michael Williams(参考訳) ニューラルネットワークの出力のいくつかの入力に対する単調な依存は、ドメイン知識がそのような振る舞いを決定づける多くのシナリオにおいて重要な帰納的バイアスである。 これは解釈可能性や公平な考慮において特に重要である。 広い文脈において、単調性が重要なシナリオは金融、医学、物理学、その他の分野に見ることができる。 したがって、この帰納バイアスを確実に実装するニューラルネットワークアーキテクチャを構築することが望ましい。 本研究では,入力の任意の部分集合における正確な単調依存を実現するために,単一の残差接続を持つ重み制約アーキテクチャを提案する。 重み制約スキームはニューラルネットワークのリプシッツ定数を直接制御し、ロバスト性の付加的な利点を提供する。 現在使用されているモノトニック性技術と比較して,本手法は実装が簡単であり,理論上は計算オーバーヘッドが無視され,モノトニック依存の生成が保証され,表現性が高い。 このアルゴリズムは、社会応用からCERN大型ハドロン衝突型加速器で生成されたサブ原子粒子の崩壊の分類に至るまで、様々なベンチマークにおける最先端の手法と比較して、競争力のある、強力で解釈可能な判別器の訓練にどのように使われているかを示す。

The monotonic dependence of the outputs of a neural network on some of its inputs is a crucial inductive bias in many scenarios where domain knowledge dictates such behavior. This is especially important for interpretability and fairness considerations. In a broader context, scenarios in which monotonicity is important can be found in finance, medicine, physics, and other disciplines. It is thus desirable to build neural network architectures that implement this inductive bias provably. In this work, we propose a weight-constrained architecture with a single residual connection to achieve exact monotonic dependence in any subset of the inputs. The weight constraint scheme directly controls the Lipschitz constant of the neural network and thus provides the additional benefit of robustness. Compared to currently existing techniques used for monotonicity, our method is simpler in implementation and in theory foundations, has negligible computational overhead, is guaranteed to produce monotonic dependence, and is highly expressive. We show how the algorithm is used to train powerful, robust, and interpretable discriminators that achieve competitive performance compared to current state-of-the-art methods across various benchmarks, from social applications to the classification of the decays of subatomic particles produced at the CERN Large Hadron Collider.
翻訳日:2023-07-17 13:05:00 公開日:2023-07-14
# NIFTY:人間行動合成のための神経物体相互作用場

NIFTY: Neural Object Interaction Fields for Guided Human Motion Synthesis ( http://arxiv.org/abs/2307.07511v1 )

ライセンス: Link先を確認
Nilesh Kulkarni, Davis Rempe, Kyle Genova, Abhijit Kundu, Justin Johnson, David Fouhey, Leonidas Guibas(参考訳) シーン内の物体と対話する人間のリアルな3Dモーションを生成する問題に対処する。 私たちのキーとなるアイデアは、人間のポーズを入力として与えられた有効な相互作用多様体に距離を出力する、特定のオブジェクトに付随する神経相互作用場を作ることです。 この相互作用場は、オブジェクト条件付き人間の運動拡散モデルのサンプリングを誘導し、妥当な接触と余裕のセマンティクスを促進する。 利用可能なデータとのインタラクションを支援するために,自動合成データパイプラインを提案する。 そこで本研究では,人間の動作の基本に先行する事前学習された動作モデルと,限られたモーションキャプチャデータから抽出したインタラクション特異的アンカーポーズをシードする。 生成した合成データに基づいて学習した誘導拡散モデルを用いて、複数の物体の座位と昇降のための現実的な動きを合成し、動作品質と動作完了の点で代替的アプローチより優れる。 我々はこのフレームワークを NIFTY: Neural Interaction Fields for Trajectory sYnthesis と呼んでいる。

We address the problem of generating realistic 3D motions of humans interacting with objects in a scene. Our key idea is to create a neural interaction field attached to a specific object, which outputs the distance to the valid interaction manifold given a human pose as input. This interaction field guides the sampling of an object-conditioned human motion diffusion model, so as to encourage plausible contacts and affordance semantics. To support interactions with scarcely available data, we propose an automated synthetic data pipeline. For this, we seed a pre-trained motion model, which has priors for the basics of human movement, with interaction-specific anchor poses extracted from limited motion capture data. Using our guided diffusion model trained on generated synthetic data, we synthesize realistic motions for sitting and lifting with several objects, outperforming alternative approaches in terms of motion quality and successful action completion. We call our framework NIFTY: Neural Interaction Fields for Trajectory sYnthesis.
翻訳日:2023-07-17 13:04:37 公開日:2023-07-14
# MGit: モデルバージョニングと管理システム

MGit: A Model Versioning and Management System ( http://arxiv.org/abs/2307.07507v1 )

ライセンス: Link先を確認
Wei Hao and Daniel Mendoza and Rafael da Silva and Deepak Narayanan and Amar Phanishaye(参考訳) 機械学習(ml)では、他のモデルから派生したモデルが極めて一般的である。 例えば、転送学習は、微調整によって"事前訓練"モデルからタスク固有のモデルを作成するために使用される。 これはモデルが相互に関連し、構造を共有し、しばしばパラメータ値を共有するエコシステムにつながった。 しかし、これらのモデルデリバティブを管理することは困難であり、すべての派生モデルを保存するストレージオーバーヘッドは、すぐに面倒になるため、ユーザーはさらなる分析に役立つ可能性のある中間モデルを取り除くことができる。 さらに、モデル内の望ましくない動作は追跡が難しい(例えば、上流モデルからバグが継承されているか? 本稿では,モデルデリバティブの保存,テスト,更新,コラボレーションを容易にするMGitと呼ばれるモデルバージョン管理システムを提案する。 MGitは、モデル間の実績とバージョニング情報を記録するライングラフ、モデルパラメータを効率的に保存する最適化、関連するテスト、更新、コラボレーション機能を容易にするこのライングラフの抽象化を導入している。 MGitは、ライングラフのストレージフットプリントを最大7倍に削減し、上流モデルの更新に応じて、下流モデルを自動的に更新する。

Models derived from other models are extremely common in machine learning (ML) today. For example, transfer learning is used to create task-specific models from "pre-trained" models through finetuning. This has led to an ecosystem where models are related to each other, sharing structure and often even parameter values. However, it is hard to manage these model derivatives: the storage overhead of storing all derived models quickly becomes onerous, prompting users to get rid of intermediate models that might be useful for further analysis. Additionally, undesired behaviors in models are hard to track down (e.g., is a bug inherited from an upstream model?). In this paper, we propose a model versioning and management system called MGit that makes it easier to store, test, update, and collaborate on model derivatives. MGit introduces a lineage graph that records provenance and versioning information between models, optimizations to efficiently store model parameters, as well as abstractions over this lineage graph that facilitate relevant testing, updating and collaboration functionality. MGit is able to reduce the lineage graph's storage footprint by up to 7x and automatically update downstream models in response to updates to upstream models.
翻訳日:2023-07-17 13:04:02 公開日:2023-07-14
# スキップ接続を有する畳み込みニューラルネットワークを用いた脳腫瘍検出

Brain Tumor Detection using Convolutional Neural Networks with Skip Connections ( http://arxiv.org/abs/2307.07503v1 )

ライセンス: Link先を確認
Aupam Hamran, Marzieh Vaeztourshizi, Amirhossein Esmaili, Massoud Pedram(参考訳) 本稿では、磁気共鳴イメージング(MRI)技術を用いて、脳腫瘍を良性および悪性のタイプに分類し分類するために、畳み込みニューラルネットワーク(CNN)の異なるアーキテクチャを提案する。 ネットワークの拡張や深化,スキップ接続の追加といった,CNNアーキテクチャの最適化手法を適用し,ネットワークの精度を向上させる。 その結果、これらの手法のサブセットは、同じ目的に使用されるベースラインCNNモデルよりも優れていることがわかった。

In this paper, we present different architectures of Convolutional Neural Networks (CNN) to analyze and classify the brain tumors into benign and malignant types using the Magnetic Resonance Imaging (MRI) technique. Different CNN architecture optimization techniques such as widening and deepening of the network and adding skip connections are applied to improve the accuracy of the network. Results show that a subset of these techniques can judiciously be used to outperform a baseline CNN model used for the same purpose.
翻訳日:2023-07-17 13:03:42 公開日:2023-07-14
# TALL:ディープフェイクビデオ検出のためのThumbnailレイアウト

TALL: Thumbnail Layout for Deepfake Video Detection ( http://arxiv.org/abs/2307.07494v1 )

ライセンス: Link先を確認
Yuting Xu, Jian Liang, Gengyun Jia, Ziming Yang, Yanhao Zhang, Ran He(参考訳) 社会やサイバーセキュリティに対するディープフェイクの脅威が高まり、公衆の懸念が高まり、ディープフェイクビデオ検出のこの重要な話題に努力が注がれている。 既存のビデオ手法は優れた性能を発揮するが、計算量が多い。 本稿では,ビデオクリップを予め定義されたレイアウトに変換することで,空間的および時間的依存関係の保存を実現する,Thumbnail Layout (TALL) というシンプルな手法を提案する。 具体的には、連続したフレームを各フレーム内の一定の位置にマスクして一般化を改善し、サブイメージにリサイズし、サムネイルとして予め定義されたレイアウトに再構成する。 TALLは、数行のコードだけを変更することで、モデルに依存しない、非常に単純です。 視覚変換器の成功に触発されて,我々はTALLをSwin Transformerに組み込み,効率的かつ効果的なTALL-Swin法を構築した。 TALLとSOTA TALL-Swinの有効性と優位性を検証した。 TALL-Swinは、挑戦的なクロスデータセットタスク、FaceForensics++ $\to$ Celeb-DFで90.79$\%$AUCを達成した。 コードはhttps://github.com/rainy-xu/tall4 deepfakeで入手できる。

The growing threats of deepfakes to society and cybersecurity have raised enormous public concerns, and increasing efforts have been devoted to this critical topic of deepfake video detection. Existing video methods achieve good performance but are computationally intensive. This paper introduces a simple yet effective strategy named Thumbnail Layout (TALL), which transforms a video clip into a pre-defined layout to realize the preservation of spatial and temporal dependencies. Specifically, consecutive frames are masked in a fixed position in each frame to improve generalization, then resized to sub-images and rearranged into a pre-defined layout as the thumbnail. TALL is model-agnostic and extremely simple by only modifying a few lines of code. Inspired by the success of vision transformers, we incorporate TALL into Swin Transformer, forming an efficient and effective method TALL-Swin. Extensive experiments on intra-dataset and cross-dataset validate the validity and superiority of TALL and SOTA TALL-Swin. TALL-Swin achieves 90.79$\%$ AUC on the challenging cross-dataset task, FaceForensics++ $\to$ Celeb-DF. The code is available at https://github.com/rainy-xu/TALL4Deepfake.
翻訳日:2023-07-17 13:03:32 公開日:2023-07-14
# 持続的ホモロジーによる多成分絡み合いの探索

Probing multipartite entanglement through persistent homology ( http://arxiv.org/abs/2307.07492v1 )

ライセンス: Link先を確認
Gregory A. Hamilton and Felix Leditzky(参考訳) 本研究では,位相データ解析のツールである永続ホモロジーを用いて,多成分の絡み合いの研究を行う。 永続ホモロジーにおいて、永続複体と呼ばれる単体錯体の1パラメータの濾過は、基礎となるデータセットの永続的な位相的特徴を明らかにするために用いられる。 これは、すべての関連する位相情報をエンコードするパーシステンスバーコードとして可視化できるホモロジー不変量の計算によって達成される。 本研究では, この手法を, 個々の系を単体錯体の頂点として解釈することにより, 多部量子系の研究に応用する。 与えられた多成分量子状態からパーシステンス複合体を構築するために、変形全相関と呼ばれる二成分相互情報の一般化を用いる。 この複合体のパーシステンスバーコードを計算すると、量子状態における多成分の絡み合いの可視化または「トポロジカルフィンガープリント」が得られる。 バーコードは、永続複体の統合オイラー特性と呼ばれる位相的要約を計算するのにも使うことができる。 我々の場合、この統合されたオイラー特性は、相互情報の別の多部版である変形された相互作用情報と等しいことを示す。 線形エントロピーを基礎となるエントロピーとして選ぶとき、この変形した相互作用情報は、よく知られた絡み合い測度である$n$-tangleと一致する。 したがって、永続バーコードは、そのトポロジ的要約である$n$-tangle単独よりも、絡み合い構造に関するよりきめ細かい情報を提供し、これは同一の$n$-tangleであるが異なるバーコードを持つ状態のペアの例を示す。 さらに、固定部分集合に対して計算される永続ホモロジーの変種は、強い部分加法的およびエントロピーの不等式に対する興味深い接続を与える。 また、任意の資源理論へのアプローチの一般化の可能性についてもコメントする。

We propose a study of multipartite entanglement through persistent homology, a tool used in topological data analysis. In persistent homology, a 1-parameter filtration of simplicial complexes called persistence complex is used to reveal persistent topological features of the underlying data set. This is achieved via the computation of homological invariants that can be visualized as a persistence barcode encoding all relevant topological information. In this work, we apply this technique to study multipartite quantum systems by interpreting the individual systems as vertices of a simplicial complex. To construct a persistence complex from a given multipartite quantum state, we use a generalization of the bipartite mutual information called the deformed total correlation. Computing the persistence barcodes of this complex yields a visualization or `topological fingerprint' of the multipartite entanglement in the quantum state. The barcodes can also be used to compute a topological summary called the integrated Euler characteristic of a persistence complex. We show that in our case this integrated Euler characteristic is equal to the deformed interaction information, another multipartite version of mutual information. When choosing the linear entropy as the underlying entropy, this deformed interaction information coincides with the $n$-tangle, a well-known entanglement measure. The persistence barcodes thus provide more fine-grained information about the entanglement structure than its topological summary, the $n$-tangle, alone, which we illustrate with examples of pairs of states with identical $n$-tangle but different barcodes. Furthermore, a variant of persistent homology computed relative to a fixed subset yields an interesting connection to strong subadditivity and entropy inequalities. We also comment on a possible generalization of our approach to arbitrary resource theories.
翻訳日:2023-07-17 13:03:12 公開日:2023-07-14
# PseudoCal:ドメイン適応における教師なし不確実性校正へのソースフリーアプローチ

PseudoCal: A Source-Free Approach to Unsupervised Uncertainty Calibration in Domain Adaptation ( http://arxiv.org/abs/2307.07489v1 )

ライセンス: Link先を確認
Dapeng Hu, Jian Liang, Xinchao Wang, Chuan-Sheng Foo(参考訳) 非教師なしドメイン適応(UDA)は、未ラベルのターゲットドメインのモデルの精度を向上する顕著な進歩を目撃している。 しかし、UDAモデルの安全な配置の重要な側面であるターゲット領域における予測不確実性の校正は、あまり注目されていない。 従来のドメイン内キャリブレーション手法である‘textit{temperature scaling}(TempScal)は,ドメイン分布のシフトやラベル付き対象ドメインデータの欠如による問題に遭遇する。 近年のアプローチでは、再重み付きラベル付き音源データに基づいて目標最適温度を推定するために重要重み付け手法が採用されている。 それでも、これらの手法はソースデータを必要とし、厳しいドメインシフトの下で信頼性の低い密度推定に苦しむため、ソースフリーなUDA設定には適さない。 これらの制約を克服するため、未ラベルのターゲットデータのみに依存するソースフリーキャリブレーション手法であるPseudoCalを提案する。 udaキャリブレーションを \textit{covariate shift} 問題として扱う従来のアプローチとは異なり、対象領域特有の教師なしキャリブレーション問題であると考える。 本研究では,TempScalにおける負の対数類似度(NLL)の係数化により,実ターゲットの構造を捉えるラベル付き擬似ターゲットセットを生成する。 これにより,教師なしキャリブレーション問題を教師付きキャリブレーションに変換し,tempscalのような広く使用されているドメイン内メソッドを用いて効果的に対処できる。 最後に,従来のUDA設定と最近のソースフリーなUDAシナリオの両方を考慮して,10UDA手法の広範な実験を行うことで,PseudoCalの校正性能を徹底的に評価する。 実験結果はPseudoCalの優れた性能を示し,既存の校正法と比較して校正誤差を著しく低減した。

Unsupervised domain adaptation (UDA) has witnessed remarkable advancements in improving the accuracy of models for unlabeled target domains. However, the calibration of predictive uncertainty in the target domain, a crucial aspect of the safe deployment of UDA models, has received limited attention. The conventional in-domain calibration method, \textit{temperature scaling} (TempScal), encounters challenges due to domain distribution shifts and the absence of labeled target domain data. Recent approaches have employed importance-weighting techniques to estimate the target-optimal temperature based on re-weighted labeled source data. Nonetheless, these methods require source data and suffer from unreliable density estimates under severe domain shifts, rendering them unsuitable for source-free UDA settings. To overcome these limitations, we propose PseudoCal, a source-free calibration method that exclusively relies on unlabeled target data. Unlike previous approaches that treat UDA calibration as a \textit{covariate shift} problem, we consider it as an unsupervised calibration problem specific to the target domain. Motivated by the factorization of the negative log-likelihood (NLL) objective in TempScal, we generate a labeled pseudo-target set that captures the structure of the real target. By doing so, we transform the unsupervised calibration problem into a supervised one, enabling us to effectively address it using widely-used in-domain methods like TempScal. Finally, we thoroughly evaluate the calibration performance of PseudoCal by conducting extensive experiments on 10 UDA methods, considering both traditional UDA settings and recent source-free UDA scenarios. The experimental results consistently demonstrate the superior performance of PseudoCal, exhibiting significantly reduced calibration error compared to existing calibration methods.
翻訳日:2023-07-17 13:02:41 公開日:2023-07-14
# DreamTeacher: 深層生成モデルによるイメージバックボーンの事前トレーニング

DreamTeacher: Pretraining Image Backbones with Deep Generative Models ( http://arxiv.org/abs/2307.07487v1 )

ライセンス: Link先を確認
Daiqing Li, Huan Ling, Amlan Kar, David Acuna, Seung Wook Kim, Karsten Kreis, Antonio Torralba, Sanja Fidler(参考訳) 本稿では,下流画像バックボーンの事前学習に生成ネットワークを利用する自己教師付き特徴表現学習フレームワークdreamteacherを提案する。 本稿では,訓練された生成モデルからの知識を,特定の知覚タスクによく設計された標準画像バックボーンに抽出する。 我々は2種類の知識蒸留について検討する。 1)imagenetのような大きなラベル付きデータセット上でこれらのバックボーンを事前トレーニングする代わりに、学習した生成機能をターゲットイメージバックボーンに蒸留する。 2) 対象バックボーンのロジット上にタスクヘッドを有する生成ネットワークから得られるラベルを蒸留する。 我々は、複数の生成モデル、密度予測ベンチマーク、およびいくつかの事前学習体制について広範な分析を行う。 私たちのDreamTeacherは、ボード全体で、既存の自己教師型表現学習アプローチよりも大幅に優れています。 dreamteacherによる教師なしのimagenet事前トレーニングは、ダウンストリームデータセットでのimagenet分類の事前トレーニング、生成モデルの拡張、および拡散生成モデルよりも大幅に改善され、手動のアノテーションを必要とせず、大規模で多様なデータセットでの表現学習に有望なアプローチとなる。

In this work, we introduce a self-supervised feature representation learning framework DreamTeacher that utilizes generative networks for pre-training downstream image backbones. We propose to distill knowledge from a trained generative model into standard image backbones that have been well engineered for specific perception tasks. We investigate two types of knowledge distillation: 1) distilling learned generative features onto target image backbones as an alternative to pretraining these backbones on large labeled datasets such as ImageNet, and 2) distilling labels obtained from generative networks with task heads onto logits of target backbones. We perform extensive analyses on multiple generative models, dense prediction benchmarks, and several pre-training regimes. We empirically find that our DreamTeacher significantly outperforms existing self-supervised representation learning approaches across the board. Unsupervised ImageNet pre-training with DreamTeacher leads to significant improvements over ImageNet classification pre-training on downstream datasets, showcasing generative models, and diffusion generative models specifically, as a promising approach to representation learning on large, diverse datasets without requiring manual annotation.
翻訳日:2023-07-17 13:02:05 公開日:2023-07-14
# 量子リセットによる絡み合いの生成

Generating Entanglement by Quantum Resetting ( http://arxiv.org/abs/2307.07485v1 )

ライセンス: Link先を確認
Manas Kulkarni, Satya N. Majumdar(参考訳) 量子系のサブシステムのフォン・ノイマンのエンタングルメントエントロピーを計算するための一般的なフレームワークを提供し、その初期状態への確率的再設定をレート $r$ で行う。 この枠組みを用いて、2スピン系における1つのスピンの絡み合いエントロピーを正確に計算する。 この系は、横磁場の存在下で強磁性結合された一対のスピンから構成され、r$の$\mid \downarrow\downarrow \rangle$状態に確率的リセットされる。 リセットは、リセット速度と相互作用強度の関数としてフォン・ノイマンエントロピーがリッチな振る舞いを示す非平衡定常状態へとシステムを駆動することを示す。 特に、非相互作用極限においても、少量のリセットがシステムを最大絡み合った状態へと誘導する。 また、フォン・ノイマンエントロピーの時間的成長を解析的に計算する。 その結果,量子リセットは,量子系の2つの部分間の絡み合いを高めるための,単純かつ効果的なメカニズムであることがわかった。

We provide a general framework to compute the von Neumann entanglement entropy of a subsystem of a quantum system subject to stochastic resetting to its initial state with rate $r$. Using this framework we compute exactly the entanglement entropy of a single spin in a two-spin system. This system consists of a pair of ferromagnetically coupled spins in the presence of a transverse magnetic field and subjected to stochastic resetting to the $\mid \downarrow\downarrow \rangle$ state with rate $r$. We show that resetting drives the system to a non-equilibrium steady state where the von Neumann entropy exhibits rich behaviour as a function of the resetting rate and the interaction strength. In particular, even in the noninteracting limit, a small amount of resetting drives the system to a maximally entangled state. We also calculate analytically the temporal growth of the von Neumann entropy. Our results show that quantum resetting provides a simple and effective mechanism to enhance entanglement between two parts of a quantum system.
翻訳日:2023-07-17 13:01:44 公開日:2023-07-14
# 潜在空間分解による一意概念ベクトルの解明

Uncovering Unique Concept Vectors through Latent Space Decomposition ( http://arxiv.org/abs/2307.06913v2 )

ライセンス: Link先を確認
Mara Graziani, Laura O' Mahony, An-Phi Nguyen, Henning M\"uller, Vincent Andrearczyk(参考訳) ディープラーニングモデルの内部動作を解釈することは、信頼の確立とモデルの安全性の確保に不可欠である。 概念に基づく説明は、pixel saliencyのような特徴帰属推定よりも解釈しやすい優れたアプローチとして現れてきた。 しかし,解釈可能性分析の概念の定義は,概念に対するユーザの期待による説明に偏っている。 そこで本研究では,学習中に深層モデルから学んだ概念を自動的に発見するポストホックな教師なし手法を提案する。 特異ベクトルにおける層の潜伏空間を分解し、教師なしクラスタリングによりそれらを精製することにより、モデル予測と関連する高分散方向と意味論的に異なる概念に整合した概念ベクトルを明らかにする。 広範な実験によって、私たちの概念の大部分は、容易に人間に理解でき、一貫性を示し、目の前のタスクに関連があることが明らかになりました。 さらに,データセット探索における本手法の実用的有用性を示すとともに,様々な要因による外乱学習サンプルの同定に成功している。 この新しい探索手法は,データタイプやモデルアーキテクチャに極めて汎用性があり,バイアスの識別や,トレーニングデータ内のエラー発生源の発見が容易になる。

Interpreting the inner workings of deep learning models is crucial for establishing trust and ensuring model safety. Concept-based explanations have emerged as a superior approach that is more interpretable than feature attribution estimates such as pixel saliency. However, defining the concepts for the interpretability analysis biases the explanations by the user's expectations on the concepts. To address this, we propose a novel post-hoc unsupervised method that automatically uncovers the concepts learned by deep models during training. By decomposing the latent space of a layer in singular vectors and refining them by unsupervised clustering, we uncover concept vectors aligned with directions of high variance that are relevant to the model prediction, and that point to semantically distinct concepts. Our extensive experiments reveal that the majority of our concepts are readily understandable to humans, exhibit coherency, and bear relevance to the task at hand. Moreover, we showcase the practical utility of our method in dataset exploration, where our concept vectors successfully identify outlier training samples affected by various confounding factors. This novel exploration technique has remarkable versatility to data types and model architectures and it will facilitate the identification of biases and the discovery of sources of error within training data.
翻訳日:2023-07-17 11:21:31 公開日:2023-07-14
# PC-Droid:高速拡散と粒子雲生成の品質向上

PC-Droid: Faster diffusion and improved quality for particle cloud generation ( http://arxiv.org/abs/2307.06836v2 )

ライセンス: Link先を確認
Matthew Leigh, Debajyoti Sengupta, John Andrew Raine, Guillaume Qu\'etant, Tobias Golling(参考訳) PC-JeDiの成功に基づいて,ジェット粒子雲の生成のための拡散モデルであるPC-Droidを導入する。 新しい拡散定式化、より最近の積分解法の研究、および全てのジェット種を同時に訓練することにより、あらゆる評価指標のあらゆる種類のジェットに対して最先端の性能を達成することができる。 2つの注意に基づくアーキテクチャを比較して、生成速度と品質のトレードオフと、拡散ステップ数を減らすための一貫性蒸留の可能性について検討した。 より高速なアーキテクチャモデルと一貫性モデルの両方が、PC-JeDiよりも最大2桁高速な生成時間を持つ多くの競合モデルを上回る性能を示している。

Building on the success of PC-JeDi we introduce PC-Droid, a substantially improved diffusion model for the generation of jet particle clouds. By leveraging a new diffusion formulation, studying more recent integration solvers, and training on all jet types simultaneously, we are able to achieve state-of-the-art performance for all types of jets across all evaluation metrics. We study the trade-off between generation speed and quality by comparing two attention based architectures, as well as the potential of consistency distillation to reduce the number of diffusion steps. Both the faster architecture and consistency models demonstrate performance surpassing many competing models, with generation time up to two orders of magnitude faster than PC-JeDi.
翻訳日:2023-07-17 11:21:10 公開日:2023-07-14
# アンサンブル深層強化学習による人工膵のハイブリッド制御

Hybrid Control Policy for Artificial Pancreas via Ensemble Deep Reinforcement Learning ( http://arxiv.org/abs/2307.06501v2 )

ライセンス: Link先を確認
Wenzhou Lv, Tianyu Wu, Luolin Xiong, Liang Wu, Jian Zhou, Yang Tang, Feng Qian(参考訳) 目的: 人工膵 (ap) は, 1型糖尿病 (t1dm) 患者に対する閉ループ血糖コントロールを実現する可能性を示した。 しかし, apの効果的な制御方針の設計は, 複雑な生理的プロセス, インスリン応答の遅延, グルコース測定の不正確なため, 依然として困難である。 モデル予測制御(MPC)は、動的モデルと安全制約を通じて安全性と安定性を提供するが、個別化が欠如し、未発表の食事に悪影響を及ぼす。 逆に、深層強化学習(DRL)はパーソナライズされた適応的な戦略を提供するが、分散シフトや実質的なデータ要求といった課題に直面している。 方法: 以上の課題に対処するため, 人工膵(HyCPAP)のハイブリッド制御ポリシーを提案する。 hycpapはmpcポリシーとdrlポリシーを組み合わせることで、それぞれの制限を補償しながら両方のポリシーの強みを活用する。 実環境におけるAPシステムの迅速な展開を容易にするため,HyCPAPにメタラーニング技術を取り入れ,既往の経験と患者が共有した知識を活用して,限られたデータを持つ新規患者への迅速な適応を可能にする。 結果: FDA が承認した UVA/Padova T1DM シミュレータを用いて, 広範囲にわたる実験を行った。 提案手法は, 所望のeuglycemic rangeにおける最多使用時間と低血糖発生率を達成する。 結論: t1dm患者においてクローズドループグルコース管理法が優れていることが明らかとなった。 意義:本研究は,効率的なクローズドループグルコース制御法の可能性を確認し,APシステムの新しい制御方針を示す。

Objective: The artificial pancreas (AP) has shown promising potential in achieving closed-loop glucose control for individuals with type 1 diabetes mellitus (T1DM). However, designing an effective control policy for the AP remains challenging due to the complex physiological processes, delayed insulin response, and inaccurate glucose measurements. While model predictive control (MPC) offers safety and stability through the dynamic model and safety constraints, it lacks individualization and is adversely affected by unannounced meals. Conversely, deep reinforcement learning (DRL) provides personalized and adaptive strategies but faces challenges with distribution shifts and substantial data requirements. Methods: We propose a hybrid control policy for the artificial pancreas (HyCPAP) to address the above challenges. HyCPAP combines an MPC policy with an ensemble DRL policy, leveraging the strengths of both policies while compensating for their respective limitations. To facilitate faster deployment of AP systems in real-world settings, we further incorporate meta-learning techniques into HyCPAP, leveraging previous experience and patient-shared knowledge to enable fast adaptation to new patients with limited available data. Results: We conduct extensive experiments using the FDA-accepted UVA/Padova T1DM simulator across three scenarios. Our approaches achieve the highest percentage of time spent in the desired euglycemic range and the lowest occurrences of hypoglycemia. Conclusion: The results clearly demonstrate the superiority of our methods for closed-loop glucose management in individuals with T1DM. Significance: The study presents novel control policies for AP systems, affirming the great potential of proposed methods for efficient closed-loop glucose control.
翻訳日:2023-07-17 11:20:53 公開日:2023-07-14
# 組合せ分布シフトに取り組む:行列完全性の観点から

Tackling Combinatorial Distribution Shift: A Matrix Completion Perspective ( http://arxiv.org/abs/2307.06457v2 )

ライセンス: Link先を確認
Max Simchowitz and Abhishek Gupta and Kaiqing Zhang(参考訳) 分布シフト下での一般化のための厳密な統計的保証を得ることは、オープンかつアクティブな研究領域である。 私たちはコンビネート的分布シフトという設定を研究し (a) テストおよびトレーニング配信の下では、ラベル$z$ は機能対 $(x,y)$ によって決定される。 b) トレーニング分布は、x$ と y$ を別にして、一定の限界分布をカバーするが、 (c) テスト分布は、トレーニング分布でカバーされている {not} である $(x,y)$ 以上の製品分布からの例を含む。 ラベルが双線型埋め込みによってヒルベルト空間 $H$: $\mathbb{E}[z \mid x,y]=\langle f_{\star} に与えられる特別な場合に着目して x,g_{\star (複数形 x,g_{\stars) (y)\rangle_{{H}}$、トレーニングでカバーされる$not$のテスト分布領域、すなわち双線形組合せ外挿を達成することを目指している。 本設定では,非ランダムデータから行列完備化の特別な事例を一般化し,既存の結果のすべてにおいて,地上構造行列を正確に低ランクにするか,あるいは非常にシャープなスペクトルカットオフを示す必要がある。 本研究では, 新アルゴリズム, 一般化保証, 線形代数的結果など, 典型的な高次元データに見られるような, 漸進的スペクトル崩壊下での双線形組合せ外挿を可能にする一連の理論的結果を開発する。 鍵となるツールは、絶対スペクトルギャップよりも相対スペクトルギャップに依存する2つの行列の間のランク-$k$ 特異値分解近似に対して束縛された新しい摂動である。

Obtaining rigorous statistical guarantees for generalization under distribution shift remains an open and active research area. We study a setting we call combinatorial distribution shift, where (a) under the test- and training-distributions, the labels $z$ are determined by pairs of features $(x,y)$, (b) the training distribution has coverage of certain marginal distributions over $x$ and $y$ separately, but (c) the test distribution involves examples from a product distribution over $(x,y)$ that is {not} covered by the training distribution. Focusing on the special case where the labels are given by bilinear embeddings into a Hilbert space $H$: $\mathbb{E}[z \mid x,y ]=\langle f_{\star}(x),g_{\star}(y)\rangle_{{H}}$, we aim to extrapolate to a test distribution domain that is $not$ covered in training, i.e., achieving bilinear combinatorial extrapolation. Our setting generalizes a special case of matrix completion from missing-not-at-random data, for which all existing results require the ground-truth matrices to be either exactly low-rank, or to exhibit very sharp spectral cutoffs. In this work, we develop a series of theoretical results that enable bilinear combinatorial extrapolation under gradual spectral decay as observed in typical high-dimensional data, including novel algorithms, generalization guarantees, and linear-algebraic results. A key tool is a novel perturbation bound for the rank-$k$ singular value decomposition approximations between two matrices that depends on the relative spectral gap rather than the absolute spectral gap, a result that may be of broader independent interest.
翻訳日:2023-07-17 11:20:06 公開日:2023-07-14
# 超低消費電力エッジシステムのためのフレキシブル・フル量子化チニシモヨロ

Flexible and Fully Quantized Ultra-Lightweight TinyissimoYOLO for Ultra-Low-Power Edge Systems ( http://arxiv.org/abs/2307.05999v2 )

ライセンス: Link先を確認
Julian Moosmann, Hanna Mueller, Nicky Zimmerman, Georg Rutishauser, Luca Benini, Michele Magno(参考訳) 本稿では,非常に柔軟で完全に量子化された超軽量物体検出ネットワークであるtinyissimoyoloを,数ミリワットの電力包絡を有するエッジシステム向けに設計した。 実験により,ネットワークの検知性能を包括的に評価し,入力解像度,オブジェクトクラス数,隠蔽層調整など,様々なパラメータの影響について検討した。 我々は、TinyissimoYOLOの変種を最先端の超低消費電力極端プラットフォームにデプロイし、レイテンシ、エネルギー効率、ワークロードを効率的に並列化する能力の詳細な比較を示す。 特に、新しい並列RISC-Vプロセッサ(グリーンウェーブのGAP9)と、そのオンチップハードウェアアクセラレータの使用の有無を比較し、ARM Cortex-M7コア(STマイクロエレクトロニクスのSTM32H7)、2つのARM Cortex-M4コア(STMのSTM32L4とAmbiqのApollo4b)とCNNハードウェアアクセラレータのマルチコアプラットフォーム(Analog Devices MAX78000)を比較した。 実験の結果、GAP9のハードウェアアクセラレータは、それぞれ2.12msと150uJで最低推論遅延とエネルギーを達成しており、これは次の最高のプラットフォームであるMAX78000よりも約2倍高速で20%効率が高い。 GAP9のハードウェアアクセラレータは、TinyissimoYOLOの112x112ピクセルと10の検出クラスを3.2msで実行し、245uJを消費する。 また,多目的汎用システムの競争力を示すため,GAP9のマルチコア実装を異なる動作点に展開・プロファイルし,低レイテンシで11.3ms,エネルギー効率で490uJを実現した。 本稿では,リアルタイム超低消費電力エッジ推論のための最先端検出データセットに対するTinyissimoYOLOの適合性と柔軟性を示す。

This paper deploys and explores variants of TinyissimoYOLO, a highly flexible and fully quantized ultra-lightweight object detection network designed for edge systems with a power envelope of a few milliwatts. With experimental measurements, we present a comprehensive characterization of the network's detection performance, exploring the impact of various parameters, including input resolution, number of object classes, and hidden layer adjustments. We deploy variants of TinyissimoYOLO on state-of-the-art ultra-low-power extreme edge platforms, presenting an in-depth a comparison on latency, energy efficiency, and their ability to efficiently parallelize the workload. In particular, the paper presents a comparison between a novel parallel RISC-V processor (GAP9 from Greenwaves) with and without use of its on-chip hardware accelerator, an ARM Cortex-M7 core (STM32H7 from ST Microelectronics), two ARM Cortex-M4 cores (STM32L4 from STM and Apollo4b from Ambiq), and a multi-core platform with a CNN hardware accelerator (Analog Devices MAX78000). Experimental results show that the GAP9's hardware accelerator achieves the lowest inference latency and energy at 2.12ms and 150uJ respectively, which is around 2x faster and 20% more efficient than the next best platform, the MAX78000. The hardware accelerator of GAP9 can even run an increased resolution version of TinyissimoYOLO with 112x112 pixels and 10 detection classes within 3.2ms, consuming 245uJ. To showcase the competitiveness of a versatile general-purpose system we also deployed and profiled a multi-core implementation on GAP9 at different operating points, achieving 11.3ms with the lowest-latency and 490uJ with the most energy-efficient configuration. With this paper, we demonstrate the suitability and flexibility of TinyissimoYOLO on state-of-the-art detection datasets for real-time ultra-low-power edge inference.
翻訳日:2023-07-17 11:19:17 公開日:2023-07-14
# LLMが物質科学と化学を変換する14の例:大規模言語モデルハッカソンのリフレクション

14 Examples of How LLMs Can Transform Materials Science and Chemistry: A Reflection on a Large Language Model Hackathon ( http://arxiv.org/abs/2306.06283v4 )

ライセンス: Link先を確認
Kevin Maik Jablonka, Qianxiang Ai, Alexander Al-Feghali, Shruti Badhwar, Joshua D. Bocarsly, Andres M Bran, Stefan Bringuier, L. Catherine Brinson, Kamal Choudhary, Defne Circi, Sam Cox, Wibe A. de Jong, Matthew L. Evans, Nicolas Gastellu, Jerome Genzling, Mar\'ia Victoria Gil, Ankur K. Gupta, Zhi Hong, Alishba Imran, Sabine Kruschwitz, Anne Labarre, Jakub L\'ala, Tao Liu, Steven Ma, Sauradeep Majumdar, Garrett W. Merz, Nicolas Moitessier, Elias Moubarak, Beatriz Mouri\~no, Brenden Pelkie, Michael Pieler, Mayk Caldas Ramos, Bojana Rankovi\'c, Samuel G. Rodriques, Jacob N. Sanders, Philippe Schwaller, Marcus Schwarting, Jiale Shi, Berend Smit, Ben E. Smith, Joren Van Herck, Christoph V\"olker, Logan Ward, Sean Warren, Benjamin Weiser, Sylvester Zhang, Xiaoqi Zhang, Ghezal Ahmad Zia, Aristana Scourtas, KJ Schmidt, Ian Foster, Andrew D. White, Ben Blaiszik(参考訳) GPT-4のような大規模言語モデル(LLM)は多くの科学者の関心を集めた。 最近の研究では、これらのモデルが化学と材料科学に有用であることが示唆されている。 これらの可能性を探るため、ハッカソンを組織した。 この記事では、このハッカソンで構築されたプロジェクトについて紹介する。 参加者は、分子や材料の特性の予測、ツールの新しいインターフェースの設計、構造化されていないデータからの知識の抽出、新しい教育アプリケーションの開発など、様々な用途にLLMを使用した。 多様なトピックや作業プロトタイプが2日以内で生成されるという事実は、LLMが私たちの分野の将来に大きな影響を与えることを浮き彫りにします。 アイデアとプロジェクトの豊富な収集は、LLMの応用は物質科学や化学に限らず、幅広い科学分野に潜在的利益をもたらすことを示している。

Large-language models (LLMs) such as GPT-4 caught the interest of many scientists. Recent studies suggested that these models could be useful in chemistry and materials science. To explore these possibilities, we organized a hackathon. This article chronicles the projects built as part of this hackathon. Participants employed LLMs for various applications, including predicting properties of molecules and materials, designing novel interfaces for tools, extracting knowledge from unstructured data, and developing new educational applications. The diverse topics and the fact that working prototypes could be generated in less than two days highlight that LLMs will profoundly impact the future of our fields. The rich collection of ideas and projects also indicates that the applications of LLMs are not limited to materials science and chemistry but offer potential benefits to a wide range of scientific disciplines.
翻訳日:2023-07-17 11:18:29 公開日:2023-07-14