このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231014となっている論文です。

PDF登録状況(公開日: 20231014)

TitleAuthorsAbstract論文公表日・翻訳日
# モバイルクラウド型IoTセンサのためのゼロトラストリアルタイムアクセス制御プロトコル

Zero Trust Real-Time Lightweight Access Control Protocol for Mobile Cloud-Based IoT Sensors ( http://arxiv.org/abs/2309.01293v2 )

ライセンス: Link先を確認
Atefeh Mohseni-Ejiyeh, (参考訳) IoTでは、スマートセンサーによってデータ収集、リアルタイム監視、意思決定、自動化が可能になるが、その拡散はサイバーセキュリティの脅威にさらされる。 Zero Trust Architectureは、従来の信頼モデルに挑戦し、2025年に計画された合計875.0億ドルのIoT市場における継続的信頼検証を強調することで、IoTセキュリティを強化する。 本稿では、クラウド中心の動的IoTセンサネットワークのための、新しいゼロトラストリアルタイムアクセス制御プロトコルを提案する。 このプロトコルは、センサーコーディネータと呼ばれるデータ所有者に、複雑なアクセスポリシーを定義し、受信者識別子とデータ暗号化に関するデータ関連属性をブレンドする権限を与える。 さらに、プロトコルには効率的な暗号化プリミティブが組み込まれており、信頼できるパーティに依存する必要がなくなる。 さらに、クラウドにシームレスにアップロードされたデータと、リソースに制限されたデータ所有者とセンサーから計算集約的なタスクをオフロードすることで、データの機密性とユーザのプライバシを保護しながら、リアルタイムのデータアクセスを保証します。 このプロトコルは、センサの軽量かつ継続的な信頼度測定にMerkle Treesを使用し、センサコーディネータによる効率的な信頼度評価を確実にする。 同時に、クラウドはユーザを含むネットワークエンティティに対して、徹底的な信頼評価を行う。 包括的なセキュリティ分析とパフォーマンス評価は、IoTエコシステムの多面的なセキュリティ課題に対処する上で、スケーラビリティと高可用性を確保しながら、プロトコルの有効性を強調している。

In IoT, smart sensors enable data collection, real-time monitoring, decision-making, and automation, but their proliferation exposes them to cybersecurity threats. Zero Trust Architecture enhances IoT security by challenging conventional trust models and emphasizing continuous trust verification in the overall \$875.0 billion IoT market projected by 2025. This paper presents a new zero-trust real-time lightweight access control protocol for Cloud-centric dynamic IoT sensor networks. This protocol empowers data owners, referred to as sensor coordinators, to define intricate access policies, blending recipient identifiers and data-related attributes for data encryption. Additionally, the protocol incorporates efficient cryptographic primitives, eliminating the need for reliance on a trusted party. Furthermore, it ensures real-time data access while preserving data confidentiality and user privacy through seamless data upload to the cloud and the offloading of computationally intensive tasks from resource-constrained data owners and sensors. The protocol utilizes Merkle Trees for lightweight, ongoing trust measurement of sensors, ensuring efficient trust assessment by sensor coordinators. Simultaneously, the cloud conducts thorough trust evaluations for network entities including users. Comprehensive security analysis and performance evaluation highlight the protocol's effectiveness in tackling the multifaceted security challenges of IoT ecosystems while ensuring scalability and high availability.
翻訳日:2024-03-25 23:19:22 公開日:2023-10-14
# コンパニオンプロジェクトによるサイバーセキュリティのためのセキュリティシステム管理コースの設計

Designing a Security System Administration Course for Cybersecurity with a Companion Project ( http://arxiv.org/abs/2309.01839v2 )

ライセンス: Link先を確認
Fei Zuo, Junghwan Rhee, Myungah Park, Gang Qian, (参考訳) 過去数年間、オクラホマ大学において、インシデント対応指向のサイバーセキュリティプログラムが構築されている。 Secure System Administrationは、新設されたカリキュラムの中核的なコースとして、システム管理に必要な知識とスキルセットに焦点を当てている。 学生のハンズオン体験を充実させるため,PowerGraderという共同コースワークプロジェクトも開発している。 本稿では,コース構造と協調プロジェクト設計について述べる。 さらに,広く認知されている認定単位から,関連する基準とカリキュラム要件を調査した。 これにより、サイバーセキュリティ教育の文脈において、セキュアなシステム管理コースの重要性が示される。

In the past few years, an incident response-oriented cybersecurity program has been constructed at University of Central Oklahoma. As a core course in the newly-established curricula, Secure System Administration focuses on the essential knowledge and skill set for system administration. To enrich students with hands-on experience, we also develop a companion coursework project, named PowerGrader. In this paper, we present the course structure as well as the companion project design. Additionally, we survey the pertinent criterion and curriculum requirements from the widely recognized accreditation units. By this means, we demonstrate the importance of a secure system administration course within the context of cybersecurity education.
翻訳日:2024-03-25 23:19:21 公開日:2023-10-14
# 連系・自律型車両システムにおけるセキュリティアタックの実態調査

Survey on Security Attacks in Connected and Autonomous Vehicular Systems ( http://arxiv.org/abs/2310.09510v1 )

ライセンス: Link先を確認
S M Mostaq Hossain, Shampa Banik, Trapa Banik, Ashfak Md Shibli, (参考訳) CAVとして知られるコネクテッド・自動運転車は、自動車産業の進化における一般的なトレンドであり、交通機関をより安全にし、利用可能な移動手段の数を改善し、ユーザーコストを下げ、新しい雇用が創出される。 しかし、我々の社会がより自動化されネットワーク化されていくにつれて、刑事俳優は様々な攻撃を行う機会を与え、CAVのセキュリティを危険にさらすことになる。 CAVs環境におけるサイバーセキュリティの現状を概観することにより,セキュリティに関する問題や懸念に注意を向けることを目的としている。 まず、CAVのコンテキストにおける複数のサイバーセキュリティの脅威と弱点を、車両ネットワークに対する攻撃、インターネットに対する大規模な攻撃、その他の3つのグループに分類する。 これは様々な通信ネットワークや攻撃対象に応じて行われる。 次に、CAVの環境によって引き起こされる脅威としてサイバー攻撃の可能性を検討する。 その後、CAVを確保するための最も最新の防衛戦術を詳述し、その効果を分析する。 さらに、現在利用可能になっているCAVの様々なサイバーセキュリティと安全要件について、いくつかの結論を導いている。 最後に,自律走行車に対する敵攻撃について考察した。 結論として、今後の研究の難しさと未解決の問題を分析し、検討する。

Connected and autonomous vehicles, also known as CAVs, are a general trend in the evolution of the automotive industry that can be utilized to make transportation safer, improve the number of mobility options available, user costs will go down and new jobs will be created. However, as our society grows more automated and networked, criminal actors will have additional opportunities to conduct a variety of attacks, putting CAV security in danger. By providing a brief review of the state of cyber security in the CAVs environment, this study aims to draw attention to the issues and concerns associated with security. The first thing it does is categorize the multiple cybersecurity threats and weaknesses in the context of CAVs into three groups: attacks on the vehicles network, attacks on the Internet at large, and other attacks. This is done in accordance with the various communication networks and targets under attack. Next, it considers the possibility of cyber attacks to be an additional form of threat posed by the environment of CAVs. After that, it details the most uptodate defense tactics for securing CAVs and analyzes how effective they are. In addition, it draws some conclusions about the various cyber security and safety requirements of CAVs that are now available, which is beneficial for the use of CAVs in the real world. At the end, we discussed some implications on Adversary Attacks on Autonomous Vehicles. In conclusion, a number of difficulties and unsolved issues for future research are analyzed and explored.
翻訳日:2024-03-19 02:33:12 公開日:2023-10-14
# Prime Match:プライバシ保護型インベントリマッチングシステム

Prime Match: A Privacy-Preserving Inventory Matching System ( http://arxiv.org/abs/2310.09621v1 )

ライセンス: Link先を確認
Antigoni Polychroniadou, Gilad Asharov, Benjamin Diamond, Tucker Balch, Hans Buehler, Richard Hua, Suwen Gu, Greg Gimler, Manuela Veloso, (参考訳) 在庫マッチングは、買い手と売り手をペアにできる金融株を取引するための標準的なメカニズム/オークションである。 金融業界では、銀行はしばしば顧客同士のマッチングを見つける仕事を引き受ける。 関連株はいずれの顧客も市場価格に悪影響を及ぼすことなく取引できる。 顧客同士の一致が見つかれば、銀行は有利なレートで取引を行うことができる。 一致しない場合、当事者は株式を公開市場で売買する必要があるため、追加費用がかかる。 現在実施されているプロセスの問題点は、関係者が特定の株式を、意図した金額(株数)とともに、銀行に購入または販売する命令を共有しなければならないことである。 クライアントは、もしこの情報が何らかの形で漏洩した場合、他の市場参加者は彼らの意図に気付き、取引が完了する前に価格が悪くなることを心配する。 プライバシを維持しながら市場への影響を低減しつつ、クライアントの注文を効率的にマッチングできるソリューションであるPrime Matchを提供しています。 試合がない場合は情報がない。 我々の暗号技術の主な革新は、2ラウンドのセキュアな線形比較プロトコルで、プリプロセッシングなしで最小2つの量で計算し、悪意のあるセキュリティを持つ。 J.P. Morganが採用しているPrime Matchシステムのベンチマークを報告する。 このシステムはスタートポロジネットワークを利用して設計されており、クライアントにポイント・ツー・ポイント接続の理想化された仮定の代替として集中ノード(バンク)を提供する。 Prime Matchは、従来の金融業界で稼働している、最初のセキュアなマルチパーティ計算ソリューションである。

Inventory matching is a standard mechanism/auction for trading financial stocks by which buyers and sellers can be paired. In the financial world, banks often undertake the task of finding such matches between their clients. The related stocks can be traded without adversely impacting the market price for either client. If matches between clients are found, the bank can offer the trade at advantageous rates. If no match is found, the parties have to buy or sell the stock in the public market, which introduces additional costs. A problem with the process as it is presently conducted is that the involved parties must share their order to buy or sell a particular stock, along with the intended quantity (number of shares), to the bank. Clients worry that if this information were to leak somehow, then other market participants would become aware of their intentions and thus cause the price to move adversely against them before their transaction finalizes. We provide a solution, Prime Match, that enables clients to match their orders efficiently with reduced market impact while maintaining privacy. In the case where there are no matches, no information is revealed. Our main cryptographic innovation is a two-round secure linear comparison protocol for computing the minimum between two quantities without preprocessing and with malicious security, which can be of independent interest. We report benchmarks of our Prime Match system, which runs in production and is adopted by J.P. Morgan. The system is designed utilizing a star topology network, which provides clients with a centralized node (the bank) as an alternative to the idealized assumption of point-to-point connections, which would be impractical and undesired for the clients to implement in reality. Prime Match is the first secure multiparty computation solution running live in the traditional financial world.
翻訳日:2024-03-19 02:23:27 公開日:2023-10-14
# BufferSearch:低いクエリでブラックボックス対応テキストを生成する

BufferSearch: Generating Black-Box Adversarial Texts With Lower Queries ( http://arxiv.org/abs/2310.09652v1 )

ライセンス: Link先を確認
Wenjie Lv, Zhen Wang, Yitao Zheng, Zhehua Zhong, Qi Xuan, Tianyi Chen, (参考訳) 機械学習のセキュリティは、最近自然言語処理(NLP)分野において顕著なトピックとなっている。 既存のブラックボックスの敵攻撃は、高いモデルクエリの複雑さに極度に悩まされ、反攻撃モニターによって容易に捕獲される。 一方、冗長なモデルクエリを除去する方法はめったに検討されない。 本稿では,問合せ要求を最小限に抑えながら,一般的な知的NLPシステムを効果的に攻撃するための問合せ効率のアプローチであるBufferSearchを提案する。 一般的に、BufferSearchは履歴情報を利用して統計テストを行い、頻繁にモデルクエリを発生させないようにする。 バッファ検索が様々なベンチマークテキスト分類実験において,競合攻撃性能を達成し,クエリ量を大幅に削減できることを示す。 さらに、BufferSearchは制限されたクエリ予算内の競合よりも複数倍パフォーマンスが向上する。 我々の研究は、NLP攻撃におけるクエリ効率の今後の研究のための強力なベンチマークを確立している。

Machine learning security has recently become a prominent topic in the natural language processing (NLP) area. The existing black-box adversarial attack suffers prohibitively from the high model querying complexity, resulting in easily being captured by anti-attack monitors. Meanwhile, how to eliminate redundant model queries is rarely explored. In this paper, we propose a query-efficient approach BufferSearch to effectively attack general intelligent NLP systems with the minimal number of querying requests. In general, BufferSearch makes use of historical information and conducts statistical test to avoid incurring model queries frequently. Numerically, we demonstrate the effectiveness of BufferSearch on various benchmark text-classification experiments by achieving the competitive attacking performance but with a significant reduction of query quantity. Furthermore, BufferSearch performs multiple times better than competitors within restricted query budget. Our work establishes a strong benchmark for the future study of query-efficiency in NLP adversarial attacks.
翻訳日:2024-03-19 02:23:27 公開日:2023-10-14
# ハードウェアトロイの木馬検出の安全性確保のためのリスク意識と説明可能なフレームワーク

Risk-Aware and Explainable Framework for Ensuring Guaranteed Coverage in Evolving Hardware Trojan Detection ( http://arxiv.org/abs/2312.00009v1 )

ライセンス: Link先を確認
Rahul Vishwakarma, Amin Rezaei, (参考訳) 半導体産業がファブレスパラダイムに移行したことにより、様々な生産段階においてハードウェアトロイの木馬が挿入されるリスクも増大した。 近年、ハードウェアのトロイの木馬をより効率的に検出するための機械学習ソリューションの利用が増加傾向にあり、評価指標としてモデルの精度に焦点が当てられている。 しかし、リスクが高くセンシティブなドメインでは、小さな誤分類さえ受け入れることができない。 さらに、特にトロイの木馬が時間とともに進化するとき、理想的なモデルを期待することは非現実的である。 したがって、検出されたトロイの木馬の信頼性を評価するためのメトリクスと、目に見えないものをシミュレートするメカニズムが必要である。 本稿では,新たに提案した共形生成逆数ネットワークを用いてハードウェアトロイの木馬を生成するとともに,モンドリアン型共形予測器を利用した非侵襲的アルゴリズムに依存しない統計的推論フレームワークに基づいて,その検出に効率的なアプローチを提案する。 この手法は、機械学習モデルのいずれかのラッパーとして機能し、より堅牢な意思決定のために、新たに検出されたトロイの木馬ごとに不確実な定量化とともにセット予測を生成する。 NULL セットの場合、キャリブレーションされた説明可能性を提供することで決定を拒否する新しい方法について議論する。 提案されたアプローチは、合成と実際のチップレベルのベンチマークの両方で検証され、ハードウェアセキュリティ問題に対する機械学習のソリューションを見つけようとする研究者の道を開くことが証明された。

As the semiconductor industry has shifted to a fabless paradigm, the risk of hardware Trojans being inserted at various stages of production has also increased. Recently, there has been a growing trend toward the use of machine learning solutions to detect hardware Trojans more effectively, with a focus on the accuracy of the model as an evaluation metric. However, in a high-risk and sensitive domain, we cannot accept even a small misclassification. Additionally, it is unrealistic to expect an ideal model, especially when Trojans evolve over time. Therefore, we need metrics to assess the trustworthiness of detected Trojans and a mechanism to simulate unseen ones. In this paper, we generate evolving hardware Trojans using our proposed novel conformalized generative adversarial networks and offer an efficient approach to detecting them based on a non-invasive algorithm-agnostic statistical inference framework that leverages the Mondrian conformal predictor. The method acts like a wrapper over any of the machine learning models and produces set predictions along with uncertainty quantification for each new detected Trojan for more robust decision-making. In the case of a NULL set, a novel method to reject the decision by providing a calibrated explainability is discussed. The proposed approach has been validated on both synthetic and real chip-level benchmarks and proven to pave the way for researchers looking to find informed machine learning solutions to hardware security problems.
翻訳日:2024-03-18 13:35:06 公開日:2023-10-14
# itssql:sqlのインテリジェントな指導システム

ItsSQL: Intelligent Tutoring System for SQL ( http://arxiv.org/abs/2311.10730v1 )

ライセンス: Link先を確認
S\"oren Aguirre Reid, Frank Kammer, Johannes Kunz, Timon Pellekoorne, Markus Siepermann, Jonas W\"olfer(参考訳) SQLはあらゆるデータベースコースの中心的なコンポーネントです。 SQLコマンドが少なくても、学生はコンセプトを実践するのに苦労します。 この課題を克服するために,講師の少ない努力で学習プロセスを指導する知的学習システム(ITS)を開発した。 他のシステムは、しばしば基本的なフィードバック(正しくも正しくも)のみを与えるか、講師によって定義された数百のインスタンス固有のルールを必要とする。 対照的に,本システムは,半自動的かつインテリジェントな参照ソリューションプール,すなわち賢明なアプローチに基づいて,個々のフィードバックを提供することができる。 さらに、良い参照ソリューションと悪い参照ソリューションの概念を導入しました。 本システムは,デザインサイエンス研究ガイドラインに基づく3段階の開発と評価を行った。 本研究の結果は,複数の参照ソリューションを提供することが,個人とリアルタイムのフィードバックを提供し,学生の学習プロセスを改善するための調和の支援に有用であることを示す。

SQL is a central component of any database course. Despite the small number of SQL commands, students struggle to practice the concepts. To overcome this challenge, we developed an intelligent tutoring system (ITS) to guide the learning process with a small effort by the lecturer. Other systems often give only basic feedback (correct or incorrect) or require hundreds of instance specific rules defined by a lecturer. In contrast, our system can provide individual feedback based on a semi-automatically/intelligent growing pool of reference solutions, i.e., sensible approaches. Moreover, we introduced the concept of good and bad reference solutions. The system was developed and evaluated in three steps based on Design Science research guidelines. The results of the study demonstrate that providing multiple reference solutions are useful with the support of harmonization to provide individual and real-time feedback and thus improve the learning process for students.
翻訳日:2024-01-15 15:57:03 公開日:2023-10-14
# Chatbotによる論文執筆:オートエスノグラフィー

Chatbot-supported Thesis Writing: An Autoethnographic Report ( http://arxiv.org/abs/2311.10729v1 )

ライセンス: Link先を確認
Nicolas Schwenke, Heinrich S\"obke, and Eckhard Kraft(参考訳) 2022年11月に大規模な言語モデルベースのチャットボットChatGPTがリリースされたことで、人工知能の話題に注目が集まるようになった。 高等教育の観点からは、chatgptは学習と評価機能の有効性を著しく低下させるため、様々な学習と評価形式に挑戦している。 特に、ChatGPTは、学士論文や学生研究論文など、学習者がテキストを生成する必要があるフォーマットに適用される。 したがって、研究の疑問は、独身論文の執筆が依然として有効な学習と評価の形式であるかどうかである。 そこで本研究では,チャットgptを活用した学士論文の執筆を第一著者に依頼した。 ChatGPTの影響の追跡には,手法的にオートエスノグラフィー手法が用いられた。 まず、ChatGPTの可能性に関するすべての考察をログに記録し、次に、すべてのChatGPTチャットをログ化した。 ログとチャット履歴はともに分析され,Gimpel et al. (2023) が提案したChatGPTの使用に関する勧告とともに提示される。 結論として、chatgptはブレインストーミング、構造化、テキストリビジョンなど様々な活動中の論文執筆において有益である。 しかし、参照において、例えば、制限が生じる。 したがって、ChatGPTは学習を促進するために生成された結果の継続的な検証を必要とする。 現在、chatgptは論文執筆の有益なツールとして評価されている。 しかし、決定的な論文を書くには、学習者の有意義な関与が必要である。 したがって、論文を書くことは依然として有効な学習および評価フォーマットである。 ChatGPTのさらなるリリースでは、能力の向上が期待され、調査質問は時々再評価される必要がある。

The release of the large language model based chatbot ChatGPT in November 2022 has brought considerable attention to the subject of artificial intelligence, not only in the public. From the perspective of higher education, ChatGPT challenges various learning and assessment formats as it significantly reduces the effectiveness of their learning and assessment functionalities. In particular, ChatGPT might be applied to formats that require learners to generate text, such as bachelor theses or student research papers. Accordingly, the research question arises to what extent writing of bachelor theses is still a valid learning and assessment format. Correspondingly, in this study, the first author was asked to write his bachelor's thesis exploiting ChatGPT. For tracing the impact of ChatGPT, methodically an autoethnographic approach was used. First, all considerations on the potential use of ChatGPT were documented in logs and secondly, all ChatGPT chats were logged. Both logs and chat histories were analyzed and are presented along to the recommendations for students regarding the use of ChatGPT suggested by Gimpel et al. (2023). In conclusion, ChatGPT is beneficial in thesis writing during various activities, such as brainstorming, structuring and text revision. However, there arise limitations, e.g., in referencing. Thus, ChatGPT requires a continuous validation of the outcomes generated fostering learning. Currently, ChatGPT is to be valued as a beneficial tool in thesis writing. However, writing a conclusive thesis still requires the learner's meaningful engagement. Accordingly, writing a thesis is still a valid learning and assessment format. With further releases of ChatGPT, an increase in capabilities is to be expected and the research question needs to be reevaluated from time to time.
翻訳日:2024-01-15 15:56:48 公開日:2023-10-14
# 学生用スプレッドシートの自動レビューからのフィードバック改善

Improving Feedback from Automated Reviews of Student Spreadsheets ( http://arxiv.org/abs/2311.10728v1 )

ライセンス: Link先を確認
S\"oren Aguirre Reid, Frank Kammer, Jonas-Ian Kuche, Pia-Doreen Ritzke, Markus Siepermann, Max Stephan, Armin Wagenknecht(参考訳) スプレッドシートはエンドユーザにとって最も広く使われているツールの1つである。 その結果、Excelのようなスプレッドシートは多くのカリキュラムに含まれている。 しかし、スプレッドシートの割り当てを評価するためのデジタルソリューションは、まだ教育の文脈では不十分である。 そこで我々は,学生のExcel投稿をレビューし,個別化されたフィードバックを自動で提供する知能学習システム(ITS)を開発した。 講師は1つの参照解のみを提供する必要があるが、学生の提出は、値マッチング、公式の詳細な分析、ソリューションの品質評価など、いくつかの方法で自動的に分析される。 学生の学習レベルを考慮に入れるため,異なる分析手法の1つを用いて,段階的にエラーに関する情報を提供するITSのフィードバックレベルを開発した。 高いレベルのフィードバックは、正しい投稿の割合が高くなることや、学生が理解し、役に立つと感じていることが示されている。

Spreadsheets are one of the most widely used tools for end users. As a result, spreadsheets such as Excel are now included in many curricula. However, digital solutions for assessing spreadsheet assignments are still scarce in the teaching context. Therefore, we have developed an Intelligent Tutoring System (ITS) to review students' Excel submissions and provide individualized feedback automatically. Although the lecturer only needs to provide one reference solution, the students' submissions are analyzed automatically in several ways: value matching, detailed analysis of the formulas, and quality assessment of the solution. To take the students' learning level into account, we have developed feedback levels for an ITS that provide gradually more information about the error by using one of the different analyses. Feedback at a higher level has been shown to lead to a higher percentage of correct submissions and was also perceived as well understandable and helpful by the students.
翻訳日:2024-01-15 15:56:26 公開日:2023-10-14
# 神経聴覚マシンインテリジェンス(NEURO-AMI)の展望

Neuronal Auditory Machine Intelligence (NEURO-AMI) In Perspective ( http://arxiv.org/abs/2401.02421v1 )

ライセンス: Link先を確認
Emmanuel Ndidi Osegi(参考訳) ソフトコンピューティングの最近の進歩は、人間の脳で起こる実際の皮質組織やプロセスからインスピレーションを得た人工ニューラル機械学習システムの貢献を意識せずには完了できない。 このようなニューラルネットワークの普遍的な近似性は広範に普及し、この進化する技術における新たな発展は、ソフトコンピューティング分野におけるこのような人工知能(AI)技術には明るい未来があることを示している。 実際、人工知能システムの大規模かつ非常に深いネットワークの増殖と、それに対応するニューラルネットワークアルゴリズムの強化と開発は、lecun、bengio、および hintonのよく記録された研究成果に見られるように、現代のディープラーニング分野の発展に大きく貢献している。 しかし、複雑さの低減とデータ学習サイズの削減に加えて、エンドユーザの可利用性の鍵となる要件は、依然としてよりコスト効率が高く、データ不足の少ない人工ニューラルネットワークの合成の必要性である。 本稿では,ニューラル・オーディトリー・マシン・インテリジェンス(Neuro-AMI)を,その機能的・構造的詳細,適切な適用性に関する重要な側面,最近の応用事例,現在および将来的な機械学習専門家やデータサイエンティストのための今後の研究方向など,新たな競合するバイオインスピレーション付き連続学習神経ツールの概要を紹介する。

The recent developments in soft computing cannot be complete without noting the contributions of artificial neural machine learning systems that draw inspiration from real cortical tissue or processes that occur in human brain. The universal approximability of such neural systems has led to its wide spread use, and novel developments in this evolving technology has shown that there is a bright future for such Artificial Intelligent (AI) techniques in the soft computing field. Indeed, the proliferation of large and very deep networks of artificial neural systems and the corresponding enhancement and development of neural machine learning algorithms have contributed immensely to the development of the modern field of Deep Learning as may be found in the well documented research works of Lecun, Bengio and Hinton. However, the key requirements of end user affordability in addition to reduced complexity and reduced data learning size requirement means there still remains a need for the synthesis of more cost-efficient and less data-hungry artificial neural systems. In this report, we present an overview of a new competing bio-inspired continual learning neural tool Neuronal Auditory Machine Intelligence (Neuro-AMI) as a predictor detailing its functional and structural details, important aspects on right applicability, some recent application use cases and future research directions for current and prospective machine learning experts and data scientists.
翻訳日:2024-01-15 09:59:07 公開日:2023-10-14
# 生成aiを活用する: 生成コード-コミットペアによるソフトウェアメタデータの分類を改善する

Leveraging Generative AI: Improving Software Metadata Classification with Generated Code-Comment Pairs ( http://arxiv.org/abs/2311.03365v1 )

ライセンス: Link先を確認
Samah Syed and Angel Deborah S(参考訳) ソフトウェア開発において、コードコメントはコードの理解とコラボレーションを強化する上で重要な役割を果たす。 本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。 本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。 生成されたコードとコメントペアを組み込むことで、この問題に対処する。 最初のデータセットは9048対のコードとCで書かれたコメントで構成されており、UsefulかNot Usefulとラベル付けられている。 このデータセットを補強するために、私たちはさらに739行のコードコミットペアと生成されたラベルを、大きな言語モデルアーキテクチャ、特にbertを使ってオープンソース化しました。 主な目的は、有用なコードコメントと役に立たないコードコメントを効果的に区別できる分類モデルを構築することだった。 Logistic Regression, Decision Tree, K-Nearest Neighbors (KNN), Support Vector Machine (SVM), Gradient Boosting, Random Forest, Neural Networkなど,さまざまな機械学習アルゴリズムが採用されている。 各アルゴリズムは、元のシードデータセットと拡張データセットの両方を用いて、精度、リコール、およびf1-scoreメトリックを用いて評価された。 この研究は、バイナリコードコメント品質分類モデルを強化するための生成AIの可能性を示し、自然言語処理とソフトウェア工学の分野におけるソフトウェア開発者と研究者に貴重な洞察を提供する。

In software development, code comments play a crucial role in enhancing code comprehension and collaboration. This research paper addresses the challenge of objectively classifying code comments as "Useful" or "Not Useful." We propose a novel solution that harnesses contextualized embeddings, particularly BERT, to automate this classification process. We address this task by incorporating generated code and comment pairs. The initial dataset comprised 9048 pairs of code and comments written in C, labeled as either Useful or Not Useful. To augment this dataset, we sourced an additional 739 lines of code-comment pairs and generated labels using a Large Language Model Architecture, specifically BERT. The primary objective was to build classification models that can effectively differentiate between useful and not useful code comments. Various machine learning algorithms were employed, including Logistic Regression, Decision Tree, K-Nearest Neighbors (KNN), Support Vector Machine (SVM), Gradient Boosting, Random Forest, and a Neural Network. Each algorithm was evaluated using precision, recall, and F1-score metrics, both with the original seed dataset and the augmented dataset. This study showcases the potential of generative AI for enhancing binary code comment quality classification models, providing valuable insights for software developers and researchers in the field of natural language processing and software engineering.
翻訳日:2023-11-12 19:47:03 公開日:2023-10-14
# 生成型人工知能に基づくソフトウェアメタデータ分類

Software Metadata Classification based on Generative Artificial Intelligence ( http://arxiv.org/abs/2310.13006v1 )

ライセンス: Link先を確認
Seetharam Killivalavan, Durairaj Thenmozhi(参考訳) 本稿では、生成人工知能(AI)を用いたバイナリコードコメント品質分類モデルの性能向上のための新しいアプローチを提案する。 openai apiを活用することで、さまざまなgithubリポジトリやオープンソースプロジェクトから抽出された1239のcode-commentペアからなるデータセットが"useful"あるいは"not useful"としてラベル付けされ、c言語の既存の9048ペアのコーパスに統合されている。 最先端の大規模言語モデルアーキテクチャを使用して,生成されたデータセットは,モデルの精度が著しく向上している。 具体的には、サポートベクターマシン(svm)モデルに組み込むと、精度が0.79から0.85に上昇して6%向上する。 さらに、artificial neural network (ann) モデルでは、リコールが 0.731 から 0.746 に1.5%増加した。 本稿では,コードコメント品質分類モデルの拡張における生成AIの可能性について述べる。 その結果,ソフトウェア開発分野や品質保証分野の幅広い文脈における適用性を示すとともに,本手法の有効性を確認した。 この結果は、実用的なソフトウェアエンジニアリングシナリオにおける機械学習モデルの精度と有効性を向上させるために、生成技術を統合することの重要性を浮き彫りにした。

This paper presents a novel approach to enhance the performance of binary code comment quality classification models through the application of Generative Artificial Intelligence (AI). By leveraging the OpenAI API, a dataset comprising 1239 newly generated code-comment pairs, extracted from various GitHub repositories and open-source projects, has been labelled as "Useful" or "Not Useful", and integrated into the existing corpus of 9048 pairs in the C programming language. Employing a cutting-edge Large Language Model Architecture, the generated dataset demonstrates notable improvements in model accuracy. Specifically, when incorporated into the Support Vector Machine (SVM) model, a 6% increase in precision is observed, rising from 0.79 to 0.85. Additionally, the Artificial Neural Network (ANN) model exhibits a 1.5% increase in recall, climbing from 0.731 to 0.746. This paper sheds light on the potential of Generative AI in augmenting code comment quality classification models. The results affirm the effectiveness of this methodology, indicating its applicability in broader contexts within software development and quality assurance domains. The findings underscore the significance of integrating generative techniques to advance the accuracy and efficacy of machine learning models in practical software engineering scenarios.
翻訳日:2023-10-29 16:09:59 公開日:2023-10-14
# メタ認知しきい値:計算会計

Metacognitive threshold: a computational account ( http://arxiv.org/abs/2310.13005v1 )

ライセンス: Link先を確認
Brendan Conway-Smith and Robert L. West(参考訳) 本稿では、精神状態が知覚されるのに必要な最小の刺激量であるメタ認知的閾値を計算的に計算し、この閾値がメタ認知的訓練や想起によって影響を受ける潜在的な認知メカニズムについて考察する。

This paper will explore ways of computationally accounting for the metacognitive threshold -- the minimum amount of stimulus needed for a mental state to be perceived -- and discuss potential cognitive mechanisms by which this threshold can be influenced through metacognitive training and meditation.
翻訳日:2023-10-29 16:09:38 公開日:2023-10-14
# ヘビアン学習と自由エネルギー最小化による認知共通モデルの神経模倣的実現

A Neuro-Mimetic Realization of the Common Model of Cognition via Hebbian Learning and Free Energy Minimization ( http://arxiv.org/abs/2310.15177v1 )

ライセンス: Link先を確認
Alexander Ororbia, Mary Alexandria Kelly(参考訳) ここ数年、複雑な単語列を合成したり、複雑な画像パターンを生成できる大規模なニューラル生成モデルは、最近「生成人工知能(generative Artificial Intelligence)」として知られるようになったものの一般的な表現として登場した。 新たな機会への扉を開くだけでなく、統計的機械学習の領域の課題にも目を向けるだけでなく、生成型aiの人気が高まるにつれて、認知科学にも興味深い疑問が持ち上がっている。 この目標を念頭に置いて、有望な長期的な経路は認知アーキテクチャの作り方であり、この分野の長年の伝統であり、基本的にはニューロ・ミメティック・ジェネレーティブ・ビルディング・ブロック(英語版)という観点から鋳造されていると論じている。 具体的には,多変量自由エネルギー関数の最適化に有効なヘビアン適応法を用いて,認知の共通モデルを示すアーキテクチャであるCOGnitive Neural GENerativeシステムについて論じる。

Over the last few years, large neural generative models, capable of synthesizing intricate sequences of words or producing complex image patterns, have recently emerged as a popular representation of what has come to be known as "generative artificial intelligence" (generative AI). Beyond opening the door to new opportunities as well as challenges for the domain of statistical machine learning, the rising popularity of generative AI brings with it interesting questions for Cognitive Science, which seeks to discover the nature of the processes that underpin minds and brains as well as to understand how such functionality might be acquired and instantiated in biological (or artificial) substrate. With this goal in mind, we argue that a promising long-term pathway lies in the crafting of cognitive architectures, a long-standing tradition of the field, cast fundamentally in terms of neuro-mimetic generative building blocks. Concretely, we discuss the COGnitive Neural GENerative system, which is an architecture that casts the Common Model of Cognition in terms of Hebbian adaptation operating in service of optimizing a variational free energy functional.
翻訳日:2023-10-29 15:59:26 公開日:2023-10-14
# 生成AIに基づくデータ拡張がソフトウェアメタデータ分類に及ぼす影響に関する研究

A study of the impact of generative AI-based data augmentation on software metadata classification ( http://arxiv.org/abs/2310.13714v1 )

ライセンス: Link先を確認
Tripti Kumari, Chakali Sai Charan and Ayan Das(参考訳) 本稿では、FIRE IRSE 2023共有タスク1において、IIT(ISM) Dhanbadチームから提出されたシステムについて、コード・コンポジションペアの自動有用性予測と、関連するソースコードに対するLarge Language Model(LLM)生成データの影響について述べる。 本研究では,コメントとその対応コードのニューラル・コンテクスト表現を用いて,機械学習ベースのモデルを学習し,コードベースペアの有用性とベースデータを用いたllm生成データによるパフォーマンス解析を予測できるフレームワークを開発した。 公式評価では, ベースラインからF1スコアが4%増加し, 生成データの品質が向上した。

This paper presents the system submitted by the team from IIT(ISM) Dhanbad in FIRE IRSE 2023 shared task 1 on the automatic usefulness prediction of code-comment pairs as well as the impact of Large Language Model(LLM) generated data on original base data towards an associated source code. We have developed a framework where we train a machine learning-based model using the neural contextual representations of the comments and their corresponding codes to predict the usefulness of code-comments pair and performance analysis with LLM-generated data with base data. In the official assessment, our system achieves a 4% increase in F1-score from baseline and the quality of generated data.
翻訳日:2023-10-29 15:56:53 公開日:2023-10-14
# MCRepair: Buggy Blockによるパッチ最適化によるマルチチャンクプログラムの修正

MCRepair: Multi-Chunk Program Repair via Patch Optimization with Buggy Block ( http://arxiv.org/abs/2310.08157v2 )

ライセンス: Link先を確認
Jisung Kim and Byeongjung Lee(参考訳) 自動プログラム修復(APR)は、バグを特定し、自動的に修復する技術である。 しかし、APR技術は依存関係を考慮し、大きなパッチスペースを減らす必要があるため、マルチチャンクバグの修正は長く、困難な問題である。 さらに、マルチチャンクのバグには組み合わせが必要だが、個々の候補パッチを組み合わせる方法についてはほとんど知られていない。 そこで本研究では,マルチチャンクバグに対してバギーブロック,パッチ最適化,コードバートを適用するマルチコード修復(mcrepair)という新しい手法を提案する。 バグジーブロックは、バグギーチャンクをマルチバグギーチャンクにバギーチャンクを結合し、パッチスペースの削減と依存性の問題に対するバグギーコンテキストでチャンクを前処理する新しい方法である。 パッチ最適化は、生成された候補パッチとパッチ空間の削減を効果的に組み合わせた新しい戦略である。 さらに、ソースコードデータセット用のBERTであるCodeBERTは、データセットの欠如と語彙外問題に対処するように微調整されている。 我々は,Defects4Jの6つのプロジェクトモジュールに対するアプローチを評価するために,いくつかの実験を行った。 Defects4Jを使った実験では、MCRepairが65のバグを修復した。 さらに、8つのマルチチャンクバグを含む18のユニークなバグを修正し、ベースラインよりも40%から250パーセントのパフォーマンスを改善した。

Automated program repair (APR) is a technology that identifies and repairs bugs automatically. However, repairing multi-chunk bugs remains a long-standing and challenging problem because an APR technique must consider dependencies and then reduce the large patch space. In addition, little is known about how to combine individual candidate patches even though multi-chunk bugs require combinations. Therefore, we propose a novel APR technique called multi-code repair (MCRepair), which applies a buggy block, patch optimization, and CodeBERT to target multi-chunk bugs. A buggy block is a novel method that binds buggy chunks into a multi-buggy chunk and preprocesses the chunk with its buggy contexts for patch space reduction and dependency problems. Patch optimization is a novel strategy that effectively combines the generated candidate patches with patch space reduction. In addition, CodeBERT, a BERT for source code datasets, is fine-tuned to address the lack of datasets and out-of-vocabulary problems. We conducted several experiments to evaluate our approach on six project modules of Defects4J. In the experiments using Defects4J, MCRepair repaired 65 bugs, including 21 multi-chunk bugs. Moreover, it fixed 18 unique bugs, including eight multi-chunk bugs, and improved 40 to 250 percent performance than the baselines.
翻訳日:2023-10-23 03:02:21 公開日:2023-10-14
# 深層強化学習アプリケーション開発における共通課題--実証的研究

Common Challenges of Deep Reinforcement Learning Applications Development: An Empirical Study ( http://arxiv.org/abs/2310.09575v1 )

ライセンス: Link先を確認
Mohammad Mehdi Morovati, Florian Tambon, Mina Taraghi, Amin Nikanjam, Foutse Khomh(参考訳) 機械学習(ML)はさまざまな業界で採用されている。 深層強化学習(Deep Reinforcement Learning, DRL)は、インテリジェントエージェントを生成するためのMLのサブドメインである。 近年のDRL技術の発展にもかかわらず、開発者がDRLアプリケーション開発で直面する主な課題はまだ不明である。 このギャップを埋めるため,本稿では,ソフトウェアコミュニティで最もポピュラーなq&aプラットフォームであるstack overflowから抽出した927のdrl関連ポストに関する大規模実証研究を行う。 抽出されたポストのラベル付けと分類のプロセスを通じて、DRLアプリケーションの開発において直面する共通の課題の分類と、それに対応する人気レベルを作成しました。 この分類は59人のdrl開発者による調査によって検証されている。 その結果,少なくとも45%の開発者が,分類学で特定された21の課題のうち18を経験していることがわかった。 DRLアプリケーションの開発において最も困難な原因は、理解、API使用、設計の問題であるが、並列処理、DRLライブラリ/フレームワークは、受け入れられた回答を受け取るのに必要な時間に関して、最も難しい課題に分類されている。 我々は、この分類を利用して、特定された課題に対処し、DRLアプリケーションの品質を向上させる効率的な戦略を開発することを望んでいる。

Machine Learning (ML) is increasingly being adopted in different industries. Deep Reinforcement Learning (DRL) is a subdomain of ML used to produce intelligent agents. Despite recent developments in DRL technology, the main challenges that developers face in the development of DRL applications are still unknown. To fill this gap, in this paper, we conduct a large-scale empirical study of 927 DRL-related posts extracted from Stack Overflow, the most popular Q&A platform in the software community. Through the process of labeling and categorizing extracted posts, we created a taxonomy of common challenges encountered in the development of DRL applications, along with their corresponding popularity levels. This taxonomy has been validated through a survey involving 59 DRL developers. Results show that at least 45% of developers experienced 18 of the 21 challenges identified in the taxonomy. The most frequent source of difficulty during the development of DRL applications are Comprehension, API usage, and Design problems, while Parallel processing, and DRL libraries/frameworks are classified as the most difficult challenges to address, with respect to the time required to receive an accepted answer. We hope that the research community will leverage this taxonomy to develop efficient strategies to address the identified challenges and improve the quality of DRL applications.
翻訳日:2023-10-23 02:42:25 公開日:2023-10-14
# npmおよびPyPIにおける悪性パッケージのクロスランゲージ検出の可能性について

On the Feasibility of Cross-Language Detection of Malicious Packages in npm and PyPI ( http://arxiv.org/abs/2310.09571v1 )

ライセンス: Link先を確認
Piergiorgio Ladisa and Serena Elisa Ponta and Nicola Ronzoni and Matias Martinez and Olivier Barais(参考訳) 現在のソフトウェアサプライチェーンは、パブリックリポジトリにホストされているオープンソースパッケージに大きく依存している。 npmやpypiといったエコシステムの人気を考えると、悪意のあるユーザーは悪意のあるコードを含むオープンソースパッケージを公開することでマルウェアを拡散し始めた。 最近の研究は、npmエコシステム内の悪意あるパッケージを検出する機械学習技術を適用している。 しかし、サンプルの不足は、他のエコシステムにおける機械学習技術の適用に課題をもたらす。 javascriptとpythonの違いにもかかわらず、そのような言語をターゲットにしたオープンソースソフトウェアサプライチェーン攻撃は目立った類似性を示している(例えば、インストールスクリプト、難読化文字列、urlなど)。 本稿では,言語に依存しない特徴の集合と,npm と PyPI の悪意あるパッケージを,共通性を捉えることによって検出できるモデルの訓練を含む新しいアプローチを提案する。 この手法により、複数の言語を含む多様なデータセット上でモデルをトレーニングし、限られたサンプル可用性の課題を克服することができる。 我々は、npmとpypiの両方で新たにアップロードされたパッケージを10日間スキャンすることで、制御された実験(データラベルが知られている)と野放しでモデルを評価する。 このアプローチはnpmとPyPIの両方の悪意のあるパッケージを検出できた。 31,292のパッケージを解析した結果,58件の既知の悪質パッケージ(npmは38件,PyPIは20件)が各リポジトリから削除された。

Current software supply chains heavily rely on open-source packages hosted in public repositories. Given the popularity of ecosystems like npm and PyPI, malicious users started to spread malware by publishing open-source packages containing malicious code. Recent works apply machine learning techniques to detect malicious packages in the npm ecosystem. However, the scarcity of samples poses a challenge to the application of machine learning techniques in other ecosystems. Despite the differences between JavaScript and Python, the open-source software supply chain attacks targeting such languages show noticeable similarities (e.g., use of installation scripts, obfuscated strings, URLs). In this paper, we present a novel approach that involves a set of language-independent features and the training of models capable of detecting malicious packages in npm and PyPI by capturing their commonalities. This methodology allows us to train models on a diverse dataset encompassing multiple languages, thereby overcoming the challenge of limited sample availability. We evaluate the models both in a controlled experiment (where labels of data are known) and in the wild by scanning newly uploaded packages for both npm and PyPI for 10 days. We find that our approach successfully detects malicious packages for both npm and PyPI. Over an analysis of 31,292 packages, we reported 58 previously unknown malicious packages (38 for npm and 20 for PyPI), which were consequently removed from the respective repositories.
翻訳日:2023-10-23 02:42:05 公開日:2023-10-14
# Webセッションのセキュリティを探求する - 体系的な文献レビュー

An Exploration Into Web Session Security- A Systematic Literature Review ( http://arxiv.org/abs/2310.10687v1 )

ライセンス: Link先を確認
Md. Imtiaz Habib, Abdullah Al Maruf, Md. Jobair Ahmed Nabil(参考訳) Webセッションに対する最も一般的な攻撃は、例えば、信頼されたWebブラウザアプリケーションで法的にセッションを作成しようとするWebブラウザの正直なユーザに対する攻撃である。 我々は、既存のセキュリティソリューションをレビューすることで、特定のソリューションの有効性を判断する4つの異なる方法を評価した。 そして、レビューした提案の設計者が考慮したいくつかのガイドラインを指摘した。 私たちが特定したガイドラインは、より構造化され包括的な方法でWebセキュリティを進める創造的なソリューションに役立ちます。

The most common attacks against web sessions are reviewed in this paper, for example, some attacks against web browsers' honest users attempting to create session with trusted web browser application legally. We have assessed with four different ways to judge the viability of a certain solution by reviewing existing security solutions which prevent or halt the different attacks. Then we have pointed out some guidelines that have been taken into account by the designers of the proposals we reviewed. The guidelines we have identified will be helpful for the creative solutions proceeding web security in a more structured and holistic way.
翻訳日:2023-10-23 02:21:12 公開日:2023-10-14
# バイナリコードコメントの品質分類の強化: 精度向上のための生成AIの統合

Enhancing Binary Code Comment Quality Classification: Integrating Generative AI for Improved Accuracy ( http://arxiv.org/abs/2310.11467v1 )

ライセンス: Link先を確認
Rohith Arumugam S, Angel Deborah S(参考訳) 本報告では,生成コードとコメントペアを統合したバイナリコードコメント品質分類モデルを改良し,モデルの精度を向上させることに焦点を当てる。 データセットは、C言語で書かれた9048のコードとコメントで構成され、それぞれが"Useful"または"Not Useful"と注釈付けされている。 さらに、コードとコメントのペアはLarge Language Model Architectureを使って生成され、生成されたペアはそれらのユーティリティを示すようにラベル付けされる。 この取り組みの成果は、2つの分類モデルで構成されている。1つはオリジナルのデータセットを利用し、もう1つは新しく生成されたコードコメントペアとラベルを付加した拡張データセットである。

This report focuses on enhancing a binary code comment quality classification model by integrating generated code and comment pairs, to improve model accuracy. The dataset comprises 9048 pairs of code and comments written in the C programming language, each annotated as "Useful" or "Not Useful." Additionally, code and comment pairs are generated using a Large Language Model Architecture, and these generated pairs are labeled to indicate their utility. The outcome of this effort consists of two classification models: one utilizing the original dataset and another incorporating the augmented dataset with the newly generated code comment pairs and labels.
翻訳日:2023-10-19 18:57:44 公開日:2023-10-14
# 蛋白質3dグラフ構造学習によるロバスト構造に基づくタンパク質特性予測

Protein 3D Graph Structure Learning for Robust Structure-based Protein Property Prediction ( http://arxiv.org/abs/2310.11466v1 )

ライセンス: Link先を確認
Yufei Huang, Siyuan Li, Jin Su, Lirong Wu, Odin Zhang, Haitao Lin, Jingqi Qi, Zihan Liu, Zhangyang Gao, Jiangbin Zheng, Stan.ZQ.Li(参考訳) タンパク質構造に基づく特性予測は、タンパク質の機能予測や細胞内位置推定など、様々な生物学的タスクに有望なアプローチとして現れてきた。 既存の手法は実験的なタンパク質構造データに強く依存しており、これらのデータが利用できないシナリオでは失敗する。 AIツール(例えばAlphaFold2)からの予測されたタンパク質構造を代替として利用した。 しかし,現在の手法では予測精度が著しく低下する傾向がみられ,予測精度が低下する傾向がみられた。 同様の現象は一般の分野(コンピュータビジョンなど)でモデルロバスト性として広く研究されているが、タンパク質の性質予測への影響は未解明である。 本稿では,まず,予測構造を利用した場合の性能低下の原因を,構造表現学習の観点からバイアスを埋め込む構造に関連づけて検討する。 そこで本研究では,ロバストなタンパク質特性予測(pgsl-rp3)のためのタンパク質3dグラフ構造学習問題を特定し,ベンチマークデータセットを収集し,タンパク質構造埋め込みアライメント最適化フレームワーク(sao)を提案する。 大規模実験により,本フレームワークはモデルに依存しず,予測構造と実験構造の両方の特性予測の改善に有効であることが確認された。 ベンチマークデータセットとコードはコミュニティのためにリリースされる予定だ。

Protein structure-based property prediction has emerged as a promising approach for various biological tasks, such as protein function prediction and sub-cellular location estimation. The existing methods highly rely on experimental protein structure data and fail in scenarios where these data are unavailable. Predicted protein structures from AI tools (e.g., AlphaFold2) were utilized as alternatives. However, we observed that current practices, which simply employ accurately predicted structures during inference, suffer from notable degradation in prediction accuracy. While similar phenomena have been extensively studied in general fields (e.g., Computer Vision) as model robustness, their impact on protein property prediction remains unexplored. In this paper, we first investigate the reason behind the performance decrease when utilizing predicted structures, attributing it to the structure embedding bias from the perspective of structure representation learning. To study this problem, we identify a Protein 3D Graph Structure Learning Problem for Robust Protein Property Prediction (PGSL-RP3), collect benchmark datasets, and present a protein Structure embedding Alignment Optimization framework (SAO) to mitigate the problem of structure embedding bias between the predicted and experimental protein structures. Extensive experiments have shown that our framework is model-agnostic and effective in improving the property prediction of both predicted structures and experimental structures. The benchmark datasets and codes will be released to benefit the community.
翻訳日:2023-10-19 18:57:32 公開日:2023-10-14
# ニューラルネットワークの可塑性に関する研究

A study on the plasticity of neural networks ( http://arxiv.org/abs/2106.00042v2 )

ライセンス: Link先を確認
Tudor Berariu, Wojciech Czarnecki, Soham De, Jorg Bornschein, Samuel Smith, Razvan Pascanu and Claudia Clopath(参考訳) 連続学習や転帰学習といった複数の設定で共有される目的のひとつは、以前取得した知識を活用して、現在のタスクにより早く収束させることである。 通常、これは微調整によって行われるが、暗黙の仮定では、ネットワークはその可塑性を維持している。 近年, 微調整したデータと同じ分布から得られたデータに対する事前学習モデルが, 新たな初期化モデルと同じ一般化に達しない可能性が指摘されている。 私たちはこの観察を構築、拡張し、背後にある力学の仮説を提供します。 本稿では,事前学習モデルの最適化に大きく依存する連続学習における可塑性喪失の意義について考察する。

One aim shared by multiple settings, such as continual learning or transfer learning, is to leverage previously acquired knowledge to converge faster on the current task. Usually this is done through fine-tuning, where an implicit assumption is that the network maintains its plasticity, meaning that the performance it can reach on any given task is not affected negatively by previously seen tasks. It has been observed recently that a pretrained model on data from the same distribution as the one it is fine-tuned on might not reach the same generalisation as a freshly initialised one. We build and extend this observation, providing a hypothesis for the mechanics behind it. We discuss the implication of losing plasticity for continual learning which heavily relies on optimising pretrained models.
翻訳日:2023-10-19 01:02:01 公開日:2023-10-14
# 微生物生合成の効率と範囲を改善するための機械学習の応用--最先端技術の再検討

Applications of machine Learning to improve the efficiency and range of microbial biosynthesis: a review of state-of-art techniques ( http://arxiv.org/abs/2308.13877v2 )

ライセンス: Link先を確認
Akshay Bhalla, Suraj Rajendran(参考訳) 現代の世界では、テクノロジーが最盛期にある。 データ分析、自動化、ロボティクスなど、プログラミングと技術における様々な道が検討されている。 機械学習は、データ分析を最適化し、正確な予測を行い、既存の機能を急いで改善する鍵となる。 現在、人工知能における機械学習の分野が開発され、様々な分野における機械学習の利用が検討されている。 その利用が際立っている分野は微生物生合成である。 本稿では, 生物合成における異なる機械学習プログラムの概要を概説するとともに, 機械学習と微生物生合成の分野を別々に解説する。 この情報には、過去のトレンド、モダンな開発、将来の改善、プロセスの説明、そして彼らが直面する現在の問題が含まれる。 そこで本稿では,開発を蒸留し,2つの重要な分野とその産業・研究への適用性について総合的な説明を行う。 課題や研究の方向性も強調し、成長する分野におけるさらなる研究と開発を推し進めている。 最後に, 研究を行う研究者, 産業専門家のプロセス改善, 生合成における機械学習概念の理解を目指す学生の参考となることを目的とした。

In the modern world, technology is at its peak. Different avenues in programming and technology have been explored for data analysis, automation, and robotics. Machine learning is key to optimize data analysis, make accurate predictions, and hasten/improve existing functions. Thus, presently, the field of machine learning in artificial intelligence is being developed and its uses in varying fields are being explored. One field in which its uses stand out is that of microbial biosynthesis. In this paper, a comprehensive overview of the differing machine learning programs used in biosynthesis is provided, alongside brief descriptions of the fields of machine learning and microbial biosynthesis separately. This information includes past trends, modern developments, future improvements, explanations of processes, and current problems they face. Thus, this paper's main contribution is to distill developments in, and provide a holistic explanation of, 2 key fields and their applicability to improve industry/research. It also highlights challenges and research directions, acting to instigate more research and development in the growing fields. Finally, the paper aims to act as a reference for academics performing research, industry professionals improving their processes, and students looking to understand the concept of machine learning in biosynthesis.
翻訳日:2023-10-18 20:48:47 公開日:2023-10-14
# Google BardとGPT-Visionのマルチモーダル分析:ビジュアル推論実験

Multimodal Analysis Of Google Bard And GPT-Vision: Experiments In Visual Reasoning ( http://arxiv.org/abs/2309.16705v2 )

ライセンス: Link先を確認
David Noever and Samantha Elizabeth Miller Noever(参考訳) 大規模言語モデル (LLM) における視覚的理解のギャップに対処するため,我々は,Google Bard と GPT-Vision を 64 の視覚タスクに従属させる挑戦応答型研究を設計した。 GPT4のような以前のモデルはTesseractのような光学的文字認識ツールに大きく依存していたが、BardやGPT-VisionはGoogle LensやVisual APIと同様、ビジュアルテキスト認識にディープラーニング技術を採用している。 視覚的CAPTCHAの解法はChatGPTだけに精通しているが、ASCIIアートのような視覚的要素を再現したり、Tic Tac Toeグリッドを解析したりすることで、教育された視覚的推測への過度な依存を示唆している。 ビジュアル入力に基づく予測問題は、現在の"next-token"マルチモーダルモデルに基づく次のシーン予測の常識的な推測がなければ、特に困難に思える。 本研究は,マルチモーダルLLMの現在の容量と改善領域に関する実験的知見を提供する。

Addressing the gap in understanding visual comprehension in Large Language Models (LLMs), we designed a challenge-response study, subjecting Google Bard and GPT-Vision to 64 visual tasks, spanning categories like "Visual Situational Reasoning" and "Next Scene Prediction." Previous models, such as GPT4, leaned heavily on optical character recognition tools like Tesseract, whereas Bard and GPT-Vision, akin to Google Lens and Visual API, employ deep learning techniques for visual text recognition. However, our findings spotlight both vision-language model's limitations: while proficient in solving visual CAPTCHAs that stump ChatGPT alone, it falters in recreating visual elements like ASCII art or analyzing Tic Tac Toe grids, suggesting an over-reliance on educated visual guesses. The prediction problem based on visual inputs appears particularly challenging with no common-sense guesses for next-scene forecasting based on current "next-token" multimodal models. This study provides experimental insights into the current capacities and areas for improvement in multimodal LLMs.
翻訳日:2023-10-18 20:17:46 公開日:2023-10-14
# 量子力学の概念論的解釈の物理とメタ物理

The physics and metaphysics of the conceptuality interpretation of quantum mechanics ( http://arxiv.org/abs/2310.10684v1 )

ライセンス: Link先を確認
Diederik Aerts and Massimiliano Sassoli de Bianchi(参考訳) 量子力学は長年にわたって「最も曖昧な理論」という評判を維持してきた。 完璧に機能するが、その理由を誰も知らないようだ。 量子論を理解することの難しさは、理論のオブジェクトを、正確にはオブジェクト、すなわち、連続的に実際の時空間特性を持つエンティティとして、あらゆるコストで考えることを望んで、間違った概念的スキームに強制しようとする失敗である、と論じられている。 このあまりに制限の厳しい時空間的スキームは、おそらく問題の核心であり、アインシュタイン革命の根底にあるが、それに代わるものは何か。 多くの思想家は、我々の物理的な世界は無限の力と力の1つであるという事実に屈しなければならないと示唆している。 アリストテレスは、ハイゼンベルク、プリマス、シニー、ピロン、カストナー、カウフマン、ド・ロンデのような学者が、ジュネーヴのピロンの学生である著者を含む数名を挙げて、量子リッテラム(英語版)を作った。 しかし、もし潜在性オントロジーが変化の過程にアクセントを置き、実際の性質と潜在的特性の間の必然的な変化に責任を負うならば、他方で、これらの変化がどのようなものであるかは分かっていない。 言い換えれば、メタ物理的な疑問は、これらの効力、またはポテンシャル、そしてそれらを実現可能な実体の性質を特定することである。 本論文の目的は, 量子力学の最近の概念性解釈において, 理論を完全に理解し, 直感的にすることを可能にするオントロジーとメタ物理学の欠如について, 上述の疑問が考えられることを強調することである。

Quantum mechanics has maintained over the years the reputation of being "the most obscure theory." It works perfectly well, but nobody seems to know why. It has been argued that the difficulty in understanding quantum theory is our failed attempt to force onto it a wrong conceptual scheme, wanting at all costs to think about the objects of the theory as, precisely, objects, i.e., entities having continuously actual spatiotemporal properties. This too restrictive spatiotemporal scheme is most probably at the heart of the problem, as also underlined by the Einsteinian revolution, but then what could be an alternative? Many thinkers have suggested that we must surrender to the fact that our physical world is one of immanent powers and potencies. Aristotle did so ante quantum litteram, followed by scholars like Heisenberg, Primas, Shimony, Piron, Kastner, Kauffman, de Ronde, just to name a few, including the authors, who were both students of Piron in Geneva. However, if on the one hand a potentiality ontology puts the accent on the processes of change, responsible for the incessant shifts between actual and potential properties, on the other hand it does not tell what these changes are all about. In other words, the metaphysical question remains of identifying the nature of the bearer of these potencies, or potentialities, and of the entities that can actualize them. It is the purpose of the present article to emphasize that the above question has found a possible answer in the recent Conceptuality Interpretation of Quantum Mechanics, which we believe offers the missing ontology and metaphysics that can make the theory fully intelligible, and even intuitive.
翻訳日:2023-10-18 20:01:18 公開日:2023-10-14
# 大規模言語モデル学習

Large Language Model Unlearning ( http://arxiv.org/abs/2310.10683v1 )

ライセンス: Link先を確認
Yuanshun Yao, Xiaojun Xu, Yang Liu(参考訳) 我々は,大言語モデル(llm)上で,望ましくない(誤用)動作を忘れる,未学習の実行方法を研究する。 1) 有害な応答の除去, (2) 著作権保護コンテンツの削除,(3) 幻覚の除去の3つのシナリオを示す。 アンラーニングはアライメントテクニックとして3つの利点がある。 1) ネガティブな例(有害な例など)しか必要とせず、RLHF(人間からのフィードバックからRL)に必要な例(例えば、有益でしばしば人手書きの例)よりも、収集がずっと簡単で安価である(例えば、レッドチームやユーザー報告による)。 (2)計算効率が高い。 3)どのトレーニングサンプルが誤動作を引き起こすかを知る場合,特に有効である。 私たちの知識を最大限に活用するために、私たちの研究はLLMアンラーニングを初めて探求するものです。 LLMアンラーニングにおける設定、目標、評価を定式化した最初の一人です。 実践者が限られたリソースしか持たなければ、望ましいアウトプットを生成しようとするよりも、望ましくないアウトプットを生成するのをやめることが最優先であることを示す。 負のサンプルしか持たないにも関わらず,非学習によるアライメント性能は,計算時間のわずか2%でrlhfよりも向上した。

We study how to perform unlearning, i.e. forgetting undesirable (mis)behaviors, on large language models (LLMs). We show at least three scenarios of aligning LLMs with human preferences can benefit from unlearning: (1) removing harmful responses, (2) erasing copyright-protected content as requested, and (3) eliminating hallucinations. Unlearning, as an alignment technique, has three advantages. (1) It only requires negative (e.g. harmful) examples, which are much easier and cheaper to collect (e.g. via red teaming or user reporting) than positive (e.g. helpful and often human-written) examples required in RLHF (RL from human feedback). (2) It is computationally efficient. (3) It is especially effective when we know which training samples cause the misbehavior. To the best of our knowledge, our work is among the first to explore LLM unlearning. We are also among the first to formulate the settings, goals, and evaluations in LLM unlearning. We show that if practitioners only have limited resources, and therefore the priority is to stop generating undesirable outputs rather than to try to generate desirable outputs, unlearning is particularly appealing. Despite only having negative samples, our ablation study shows that unlearning can still achieve better alignment performance than RLHF with just 2% of its computational time.
翻訳日:2023-10-18 20:00:46 公開日:2023-10-14
# 時系列予測のためのデコーダ専用基礎モデル

A decoder-only foundation model for time-series forecasting ( http://arxiv.org/abs/2310.10688v1 )

ライセンス: Link先を確認
Abhimanyu Das, Weihao Kong, Rajat Sen, Yichen Zhou(参考訳) 自然言語処理のための大規模言語モデル(nlp)の最近の進歩に動機づけられ、様々なパブリックデータセットにおけるゼロショット性能が各データセットに対する最先端の教師付き予測モデルの精度に近い予測のための時系列基礎モデルを設計する。 提案モデルは,大規模時系列コーパス上でパッチドデコーダ方式の注意モデルを事前学習し,予測履歴長,予測長,時間的粒度など,様々な予測にまたがってうまく機能する。

Motivated by recent advances in large language models for Natural Language Processing (NLP), we design a time-series foundation model for forecasting whose out-of-the-box zero-shot performance on a variety of public datasets comes close to the accuracy of state-of-the-art supervised forecasting models for each individual dataset. Our model is based on pretraining a patched-decoder style attention model on a large time-series corpus, and can work well across different forecasting history lengths, prediction lengths and temporal granularities.
翻訳日:2023-10-18 19:45:34 公開日:2023-10-14
# 大規模言語モデルの自律木探索能力

Autonomous Tree-search Ability of Large Language Models ( http://arxiv.org/abs/2310.10686v1 )

ライセンス: Link先を確認
Zheyu Zhang and Zhuorui Ye and Yikang Shen and Chuang Gan(参考訳) 大規模言語モデルは高度なプロンプト技術によって顕著な推論能力に優れてきたが、探索、戦略的展望、逐次的な意思決定を必要とするタスクには不足している。 近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、外部プログラムを用いて探索論理を定義することを提案する。 素晴らしい結果が得られたが、これらのアプローチにはいくつかの基本的な制限がある。 まず、受動的木探索は、通常1つの問題を解決するために複数のLLM API呼び出しを必要とするため、効率的ではない。 さらに、タスク固有のプログラム設計を必要とするため、パッシブ検索手法は柔軟性がない。 外部プログラムを使わずにLLMのツリー検索能力を維持し、ツリー構造探索のプロセスを明確に示す応答を生成することができるのか? この目的のために,llmの自律的木探索能力という新しい概念を提案し,正しい回答に対する探索軌跡を含む応答を自動生成する。 具体的には、固定されたシステムプロンプトを介して有能なLLM APIを用いて探索軌道を実行し、自動木探索(ATS)をすぐに実行できるようにする。 4つのパズルゲームの実験は、我々の手法が大幅に改善できることを示した。 ats-bfs法は平均精度を33%向上させることで思考アプローチの連鎖を上回る。 Tree of Thoughtsと比較すると、65.6%または47.7%のGPT-apiコストで同等の精度が得られる。 さらに、ATSプロンプト法と微調整LLaMAを用いてデータを収集した。 このアプローチは、CoTデータに微調整されたものよりも改善されている。 具体的には、LLaMA2-7Bは平均40.6%、LLaMA2-13Bは38.5%である。

Large Language Models have excelled in remarkable reasoning capabilities with advanced prompting techniques, but they fall short on tasks that require exploration, strategic foresight, and sequential decision-making. Recent works propose to utilize external programs to define search logic, such that LLMs can perform passive tree search to solve more challenging reasoning tasks. Though impressive results have been achieved, there are several fundamental limitations of these approaches. First, passive tree searches are not efficient as they usually require multiple rounds of LLM API calls to solve one single problem. Moreover, passive search methods are not flexible since they need task-specific program designs. Then a natural question arises: can we maintain the tree-search capability of LLMs without the aid of external programs, and can still generate responses that clearly demonstrate the process of a tree-structure search? To this end, we propose a new concept called autonomous tree-search ability of LLM, which can automatically generate a response containing search trajectories for the correct answer. Concretely, we perform search trajectories using capable LLM API via a fixed system prompt, allowing them to perform autonomous tree-search (ATS) right out of the box. Experiments on 4 puzzle games demonstrate our method can achieve huge improvements. The ATS-BFS method outperforms the Chain of Thought approach by achieving an average accuracy improvement of 33%. Compared to Tree of Thoughts, it requires 65.6% or 47.7% less GPT-api cost to attain a comparable level of accuracy. Moreover, we have collected data using the ATS prompt method and fine-tuned LLaMA. This approach yield a greater improvement compared to the ones fine-tuned on CoT data. Specifically, it outperforms CoT-tuned LLaMAs by an average of 40.6% and 38.5% for LLaMA2-7B and LLaMA2-13B, respectively.
翻訳日:2023-10-18 19:45:21 公開日:2023-10-14
# PS-AAS:ブラックボックス最適化における自動アルゴリズム選択のためのポートフォリオ選択

PS-AAS: Portfolio Selection for Automated Algorithm Selection in Black-Box Optimization ( http://arxiv.org/abs/2310.10685v1 )

ライセンス: Link先を確認
Ana Kostovska, Gjorgjina Cenikj, Diederick Vermetten, Anja Jankovic, Ana Nikolikj, Urban Skvorc, Peter Korosec, Carola Doerr, Tome Eftimov(参考訳) 自動アルゴリズム選択(aas)の性能は、選択するアルゴリズムのポートフォリオに大きく依存する。 ポートフォリオの選択は、大規模なポートフォリオの柔軟性とAASタスクの複雑さの増大との間のトレードオフのバランスを必要とする、自明なタスクである。 実際には、ポートフォリオのアルゴリズムを選択する最も一般的な方法は、関心のあるいくつかの参照タスクでうまく機能するアルゴリズムの欲張りな選択である。 私たちはこの研究で、データ駆動のポートフォリオ選択の代替手法を調査しました。 提案手法はアルゴリズム行動メタ表現を作成し,そのメタ表現類似性に基づいて一連のアルゴリズムからグラフを構築し,多様,代表的,非冗長なアルゴリズムの最終ポートフォリオを選択するグラフアルゴリズムを適用する。 我々は,324種類のCMA-ESから相補的ポートフォリオを選択するための2つの異なるメタ表現手法(SHAPとPerformance2vec)を,次元5,30のBBOB単目的問題を異なるカットオフ予算で最適化するタスクとして評価した。 我々は,アルゴリズムの全体動作に関連するポートフォリオと,各問題ごとのアルゴリズム動作に関連する‘個人化’ポートフォリオの2種類のポートフォリオをテストする。 性能2vecに基づく表現に基づいて構築されたアプローチは、選択されたポートフォリオの仮想最適解法と比較してAASタスクにおいて無視可能な誤差を持つ小さなポートフォリオを好んでおり、一方、SHAPに基づく表現から構築したポートフォリオは、AASの性能低下による柔軟性の向上から得られる。 ほとんどの考慮されたシナリオにおいて、パーソナライズされたポートフォリオは、古典的な欲望のアプローチと同等あるいはわずかに優れたパフォーマンスをもたらす。 すべてのシナリオにおいて、ポートフォリオ全体のパフォーマンスを上回ります。

The performance of automated algorithm selection (AAS) strongly depends on the portfolio of algorithms to choose from. Selecting the portfolio is a non-trivial task that requires balancing the trade-off between the higher flexibility of large portfolios with the increased complexity of the AAS task. In practice, probably the most common way to choose the algorithms for the portfolio is a greedy selection of the algorithms that perform well in some reference tasks of interest. We set out in this work to investigate alternative, data-driven portfolio selection techniques. Our proposed method creates algorithm behavior meta-representations, constructs a graph from a set of algorithms based on their meta-representation similarity, and applies a graph algorithm to select a final portfolio of diverse, representative, and non-redundant algorithms. We evaluate two distinct meta-representation techniques (SHAP and performance2vec) for selecting complementary portfolios from a total of 324 different variants of CMA-ES for the task of optimizing the BBOB single-objective problems in dimensionalities 5 and 30 with different cut-off budgets. We test two types of portfolios: one related to overall algorithm behavior and the `personalized' one (related to algorithm behavior per each problem separately). We observe that the approach built on the performance2vec-based representations favors small portfolios with negligible error in the AAS task relative to the virtual best solver from the selected portfolio, whereas the portfolios built from the SHAP-based representations gain from higher flexibility at the cost of decreased performance of the AAS. Across most considered scenarios, personalized portfolios yield comparable or slightly better performance than the classical greedy approach. They outperform the full portfolio in all scenarios.
翻訳日:2023-10-18 19:44:54 公開日:2023-10-14
# 時系列モデリングのための時間畳み込み注意型ネットワーク

Temporal Convolutional Attention-based Network For Sequence Modeling ( http://arxiv.org/abs/2002.12530v3 )

ライセンス: Link先を確認
Hongyan Hao, Yan Wang, Siqiao Xue, Yudi Xia, Jian Zhao, Furao Shen(参考訳) フィードフォワードモデルの開発により、シーケンスモデリングのデフォルトモデルが徐々に進化し、リカレントネットワークを置き換えるようになった。 畳み込みネットワークと注意機構に基づく多くの強力なフィードフォワードモデルが提案され、シーケンスモデリングタスクを扱う可能性を示した。 再帰ネットワークの近似置換を実現できるだけでなく、フィードフォワードモデルの利点を吸収できるアーキテクチャが存在するのかどうか疑問である。 そこで我々は,時間的畳み込みネットワークと注意機構を組み合わせた,時間的畳み込み型ネットワーク(TCAN)と呼ばれる探索的アーキテクチャを提案する。 tcanには、シーケンス内の関連する特徴をキャプチャするtemporal attention(ta)と、浅い層の重要な情報を抽出して深層に転送するextrestent(er)という2つの部分が含まれている。 単語レベルのptbではbpc/perplexityが30.28、文字レベルのptbでは1.092、wikitext-2では9.20である。

With the development of feed-forward models, the default model for sequence modeling has gradually evolved to replace recurrent networks. Many powerful feed-forward models based on convolutional networks and attention mechanism were proposed and show more potential to handle sequence modeling tasks. We wonder that is there an architecture that can not only achieve an approximate substitution of recurrent network, but also absorb the advantages of feed-forward models. So we propose an exploratory architecture referred to Temporal Convolutional Attention-based Network (TCAN) which combines temporal convolutional network and attention mechanism. TCAN includes two parts, one is Temporal Attention (TA) which captures relevant features inside the sequence, the other is Enhanced Residual (ER) which extracts shallow layer's important information and transfers to deep layers. We improve the state-of-the-art results of bpc/perplexity to 30.28 on word-level PTB, 1.092 on character-level PTB, and 9.20 on WikiText-2.
翻訳日:2023-10-18 07:26:28 公開日:2023-10-14
# ALA:自然界を意識した対光攻撃

ALA: Naturalness-aware Adversarial Lightness Attack ( http://arxiv.org/abs/2201.06070v2 )

ライセンス: Link先を確認
Yihao Huang, Liangru Sun, Qing Guo, Felix Juefei-Xu, Jiayi Zhu, Jincao Feng, Yang Liu, Geguang Pu(参考訳) ほとんどの研究者は、DNNの脆弱性を特殊な逆例で明らかにし、修復することで、DNNの堅牢性を高めようとしてきた。 攻撃例の一部にはLpノルムに制限された知覚できない摂動がある。 しかし、その高周波性から、その逆の例は消音法によって防御され、物理的世界では実現しにくい。 欠陥を避けるために、いくつかの研究はより堅牢で実用性の高い攻撃を提案している。 これらの例が通常不自然に見え、警備員に警告できることは残念である。 本稿では,画像の光度変化に着目したホワイトボックスの非拘束型光度攻撃であるadversarial lightness attack (ala)を提案する。 人間の知覚に不可欠なサンプルの形状と色は、ほとんど影響を受けない。 攻撃成功率の高い敵対的例を得るため,画像中の光と陰影の関係の観点から,制約のない拡張を提案する。 画像の自然性を高めるため,光の範囲や分布に応じて自然性認識正規化を行う。 ALAの有効性は、異なるタスクのための2つの一般的なデータセット(画像分類のためのImageNetとシーン認識のためのPlaces-365)で検証される。

Most researchers have tried to enhance the robustness of DNNs by revealing and repairing the vulnerability of DNNs with specialized adversarial examples. Parts of the attack examples have imperceptible perturbations restricted by Lp norm. However, due to their high-frequency property, the adversarial examples can be defended by denoising methods and are hard to realize in the physical world. To avoid the defects, some works have proposed unrestricted attacks to gain better robustness and practicality. It is disappointing that these examples usually look unnatural and can alert the guards. In this paper, we propose Adversarial Lightness Attack (ALA), a white-box unrestricted adversarial attack that focuses on modifying the lightness of the images. The shape and color of the samples, which are crucial to human perception, are barely influenced. To obtain adversarial examples with a high attack success rate, we propose unconstrained enhancement in terms of the light and shade relationship in images. To enhance the naturalness of images, we craft the naturalness-aware regularization according to the range and distribution of light. The effectiveness of ALA is verified on two popular datasets for different tasks (i.e., ImageNet for image classification and Places-365 for scene recognition).
翻訳日:2023-10-18 07:20:48 公開日:2023-10-14
# IAC:AIによる医療利用における患者機関支援の枠組み

IAC: A Framework for Enabling Patient Agency in the Use of AI-Enabled Healthcare ( http://arxiv.org/abs/2111.04456v3 )

ライセンス: Link先を確認
Chinasa T. Okolo, Michelle Gonz\'alez Amador(参考訳) 医療において、aiの役割は継続的に進化し続けており、その導入が医療提供者と患者の関係に直面する課題を理解するには、関与するすべてのユーザーに指針となるような規制と行動のアプローチが必要である。 本稿では,ICC(Informing, Assessment, and Consent)を,医療環境におけるAI対応デジタル技術の導入に対する患者の反応を評価するためのフレームワークとして紹介する。 我々は、医療の提供に重点を置いた、人間中心の分野におけるAIの課題と認識に関する一般的な導入により、IACの必要性を正当化する。 このフレームワークは、医療従事者が医療におけるAIの使用についてどのように患者に知らせるか、実践者がAIの使用による患者の受容性と快適性をどのように評価するか、そしてこのプロセス後に患者の同意を得る方法についての3つの基本原則で構成されている。 本稿では、この枠組みを構成する原則を、実践者と患者との関係を改善するガイドラインに翻訳し、同時に、医療におけるAIの使用に関する患者機関に翻訳し、この話題に関する議論を広げることを提案する。

In healthcare, the role of AI is continually evolving, and understanding the challenges its introduction poses on relationships between healthcare providers and patients will require a regulatory and behavioral approach that can provide a guiding base for all users involved. In this paper, we present IAC (Informing, Assessment, and Consent), a framework for evaluating patient response to the introduction of AI-enabled digital technologies in healthcare settings. We justify the need for IAC with a general introduction of the challenges with and perceived relevance of AI in human-welfare-centered fields, with an emphasis on the provision of healthcare. The framework is composed of three core principles that guide how healthcare practitioners can inform patients about the use of AI in their healthcare, how practitioners can assess patients' acceptability and comfortability with the use of AI, and how patient consent can be gained after this process. We propose that the principles composing this framework can be translated into guidelines that improve practitioner-patient relationships and, concurrently, patient agency regarding the use of AI in healthcare while broadening the discourse on this topic.
翻訳日:2023-10-18 07:20:12 公開日:2023-10-14
# 変化は至る所にある:リモートセンシング画像における単一時間監視対象変化検出

Change is Everywhere: Single-Temporal Supervised Object Change Detection in Remote Sensing Imagery ( http://arxiv.org/abs/2108.07002v3 )

ライセンス: Link先を確認
Zhuo Zheng, Ailong Ma, Liangpei Zhang, Yanfei Zhong(参考訳) 高空間分解能 (hsr) リモートセンシング画像では、バイチンポラル教師付き学習は、常に多くの対のラベル付きバイチンポラル画像を用いた変化検出を支配している。 しかし、大規模なバイテンポラルHSRリモートセンシング画像のラベル付けは非常に高価で時間を要する。 本稿では,非ペア画像の物体変化を監視信号として活用する新たな視点から,変化検出のための単時間教師付き学習(star)を提案する。 STARは, {textbf{unpaired} ラベル付き画像のみを用いて高精度な変化検出装置を訓練し,実世界のバイテンポラル画像に一般化する。 STARの有効性を評価するため,ChangeStarと呼ばれるシンプルな変更検出器を設計し,ChangeMixinモジュールによる深いセマンティックセグメンテーションアーキテクチャを再利用する。 包括的実験の結果,changestarは単一時間監督下では大きなマージンでベースラインを上回っており,バイテンポラル監督下では優れたパフォーマンスを達成していることがわかった。 コードはhttps://github.com/Z-Zheng/ChangeStarで入手できる。

For high spatial resolution (HSR) remote sensing images, bitemporal supervised learning always dominates change detection using many pairwise labeled bitemporal images. However, it is very expensive and time-consuming to pairwise label large-scale bitemporal HSR remote sensing images. In this paper, we propose single-temporal supervised learning (STAR) for change detection from a new perspective of exploiting object changes in unpaired images as supervisory signals. STAR enables us to train a high-accuracy change detector only using \textbf{unpaired} labeled images and generalize to real-world bitemporal images. To evaluate the effectiveness of STAR, we design a simple yet effective change detector called ChangeStar, which can reuse any deep semantic segmentation architecture by the ChangeMixin module. The comprehensive experimental results show that ChangeStar outperforms the baseline with a large margin under single-temporal supervision and achieves superior performance under bitemporal supervision. Code is available at https://github.com/Z-Zheng/ChangeStar
翻訳日:2023-10-18 07:19:16 公開日:2023-10-14
# グラフニューラルネットワークによる影響の最大化

Maximizing Influence with Graph Neural Networks ( http://arxiv.org/abs/2108.04623v7 )

ライセンス: Link先を確認
George Panagopoulos, Nikolaos Tziortziotis, Michalis Vazirgiannis, Fragkiskos D. Malliaros(参考訳) ネットワーク上に広がる影響を最大化するシードセットを見つけることは、よく知られたNPハード問題である。 グリーディアルゴリズムは最適に近い解を与えることができるが、影響推定のサブ確率は解を非効率にする。 本研究では,独立カスケードの影響拡散を推定する方法を学習するグラフニューラルネットワークである \textsc{glie} を提案する。 \textsc{glie} は教師付きトレーニングによって引き締められる理論上の上限に依存する。 実験の結果,列車セットの最大10倍の実際のグラフに対する正確な影響推定が得られた。 次に,2つの影響最大化手法に組み込む。 まず,モンテカルロシミュレーションを<textsc{glie} で置換するコスト効率の高い遅延フォワード最適化を行い,計算オーバーヘッドではベンチマークを上回った。 計算効率を向上させるために, 種子集合を適応的に構築しながら, ノードのランク付けを行うために, \textsc{glie} 表現に基づく有意なサブモジュラー的影響を展開する。 提案されたアルゴリズムはインダクティブであり、300ノード未満のグラフと最大5シードのグラフでトレーニングされ、数百万ノードと最大200シードのグラフでテストされる。 最後の方法は、時間効率と影響品質の最も有望な組み合わせを示し、いくつかのベースラインを上回っている。

Finding the seed set that maximizes the influence spread over a network is a well-known NP-hard problem. Though a greedy algorithm can provide near-optimal solutions, the subproblem of influence estimation renders the solutions inefficient. In this work, we propose \textsc{Glie}, a graph neural network that learns how to estimate the influence spread of the independent cascade. \textsc{Glie} relies on a theoretical upper bound that is tightened through supervised training. Experiments indicate that it provides accurate influence estimation for real graphs up to 10 times larger than the train set. Subsequently, we incorporate it into two influence maximization techniques. We first utilize Cost Effective Lazy Forward optimization substituting Monte Carlo simulations with \textsc{Glie}, surpassing the benchmarks albeit with a computational overhead. To improve computational efficiency we develop a provably submodular influence spread based on \textsc{Glie}'s representations, to rank nodes while building the seed set adaptively. The proposed algorithms are inductive, meaning they are trained on graphs with less than 300 nodes and up to 5 seeds, and tested on graphs with millions of nodes and up to 200 seeds. The final method exhibits the most promising combination of time efficiency and influence quality, outperforming several baselines.
翻訳日:2023-10-18 07:18:57 公開日:2023-10-14
# ファウショット動作認識のための複合プロトタイプマッチング

Compound Prototype Matching for Few-shot Action Recognition ( http://arxiv.org/abs/2207.05515v6 )

ライセンス: Link先を確認
Yifei Huang, Lijin Yang, Yoichi Sato(参考訳) アクション認識は,少数のラベル付きトレーニングサンプルのみを用いて,新しいアクションクラスを認識することを目的としている。 そこで本研究では,まず各映像を,グローバルプロトタイプ群とフォーカスプロトタイプ群からなる複合プロトタイプ群に要約し,そのプロトタイプに基づく映像類似度を比較する新しい手法を提案する。 それぞれのグローバルプロトタイプは、ビデオ全体、例えばアクションの開始/進化から特定の側面を要約することが推奨されている。 グローバルプロトタイプには明確なアノテーションが提供されないため、ビデオ内の特定のタイムスタンプに集中するために、焦点を絞ったプロトタイプのグループを使用します。 サポートと問い合わせビデオの複合プロトタイプをマッチングすることで,ビデオの類似度を比較する。 例えば、グローバルプロトタイプは、同じ視点の動画を比較するために直接マッチングされ、2つのアクションが同じように開始されるかどうかを比較する。 焦点を絞ったプロトタイプでは、アクションはビデオに様々な時間的変化をもたらすため、時間的位置とシフトの異なるアクションを比較するために2部マッチングを適用する。 提案手法は,複数のベンチマークで最新の結果が得られることを示す実験である。

Few-shot action recognition aims to recognize novel action classes using only a small number of labeled training samples. In this work, we propose a novel approach that first summarizes each video into compound prototypes consisting of a group of global prototypes and a group of focused prototypes, and then compares video similarity based on the prototypes. Each global prototype is encouraged to summarize a specific aspect from the entire video, for example, the start/evolution of the action. Since no clear annotation is provided for the global prototypes, we use a group of focused prototypes to focus on certain timestamps in the video. We compare video similarity by matching the compound prototypes between the support and query videos. The global prototypes are directly matched to compare videos from the same perspective, for example, to compare whether two actions start similarly. For the focused prototypes, since actions have various temporal variations in the videos, we apply bipartite matching to allow the comparison of actions with different temporal positions and shifts. Experiments demonstrate that our proposed method achieves state-of-the-art results on multiple benchmarks.
翻訳日:2023-10-18 07:12:11 公開日:2023-10-14
# アクティブな例を通して間接的に非プログラマによるプログラムラベリング:text-to-sqlを用いたケーススタディ

Labeling Programs with Non-Programmers Indirectly via Active Examples: A Case Study with Text-to-SQL ( http://arxiv.org/abs/2205.12422v2 )

ライセンス: Link先を確認
Ruiqi Zhong, Charlie Snell, Dan Klein, Jason Eisner(参考訳) 非プログラマは、その意味を表現する複雑なプログラムで自然言語発話に注釈を付けることができるか? 非プログラマがシードセマンティックパーサ(例えばCodex)によって生成される候補プログラムの中から選択するフレームワークであるAPELを紹介する。 候補プログラムは理解できないため,プログラムの入力-出力例を調べて間接的に選択するよう依頼する。 各発話に対してAPELは、候補プログラムが異なる出力を生成する傾向がある単純な入力を積極的に検索する。 そして、プログラマ以外の者が適切な出力だけを選択するように要求するので、どのプログラムが正しいかを推測することができ、パーサを微調整することができる。 最初のケーススタディとして、APELを使ってテキストからSQLへのデータセットであるSPIDERを再注釈するために、人間の非プログラマを採用しました。 提案手法は,元のエキスパートアノテーションと同じアノテーション精度(75%)を達成し,元のアノテーションに多くの微妙な誤りを露呈した。

Can non-programmers annotate natural language utterances with complex programs that represent their meaning? We introduce APEL, a framework in which non-programmers select among candidate programs generated by a seed semantic parser (e.g., Codex). Since they cannot understand the candidate programs, we ask them to select indirectly by examining the programs' input-ouput examples. For each utterance, APEL actively searches for a simple input on which the candidate programs tend to produce different outputs. It then asks the non-programmers only to choose the appropriate output, thus allowing us to infer which program is correct and could be used to fine-tune the parser. As a first case study, we recruited human non-programmers to use APEL to re-annotate SPIDER, a text-to-SQL dataset. Our approach achieved the same annotation accuracy as the original expert annotators (75%) and exposed many subtle errors in the original annotations.
翻訳日:2023-10-18 07:10:39 公開日:2023-10-14
# 量子内部エネルギーの局所的定義に関する制約

A constraint on local definitions of quantum internal energy ( http://arxiv.org/abs/2205.04457v3 )

ライセンス: Link先を確認
Luis Rodrigo Torres Neves, Frederico Brito(参考訳) 量子熱力学の最近の進歩は、1つの量子ビットの限界に近づき、相関関係、強いカップリング、非平衡環境が成立しつつある。 このようなシナリオでは、基本的な物理量を再訪する必要があることは明らかである。 本稿は、オープン量子システムの内部エネルギーの普遍的な定義が考案されるかどうかに疑問を呈し、その可能な性質の限界を設定する。 そのような定義を局所的と見なすためには、開系の還元密度作用素とその時間微分の関数として実装されるべきである。 次に、二階微分を少なくとも含むことを示し、そうでなければ「ユニバース」の既知内部エネルギーを回復することができない。 この一般的な結果の可能性を議論する。

Recent advances in quantum thermodynamics have been focusing on ever more elementary systems of interest, approaching the limit of a single qubit, with correlations, strong coupling and non-equilibrium environments coming into play. Under such scenarios, it is clear that fundamental physical quantities must be revisited. This article questions whether a universal definition of internal energy for open quantum systems may be devised, setting limits on its possible properties. We argue that, for such a definition to be regarded as local, it should be implemented as a functional of the open system's reduced density operator and its time derivatives. Then we show that it should involve at least up to the second-order derivative, otherwise failing to recover the previously-known internal energy of the "universe". Possible implications of this general result are discussed.
翻訳日:2023-10-18 07:10:21 公開日:2023-10-14
# zetar: 戦略的および適応的コンプライアンスポリシーのモデリングと計算設計

ZETAR: Modeling and Computational Design of Strategic and Adaptive Compliance Policies ( http://arxiv.org/abs/2204.02294v2 )

ライセンス: Link先を確認
Linan Huang and Quanyan Zhu(参考訳) コンプライアンス管理はインサイダーの脅威を軽減する上で重要な役割を果たしている。 インセンティブデザイン(Incentive Design)は、インサイダーのインセンティブとディフェンダーのセキュリティ目標を整合させることによってコンプライアンスを達成するための、積極的に非侵襲的なアプローチである。 人口レベルのコンプライアンスに対するインサイダーのインセンティブのコントロールは、正確には知られておらず直接制御できないため、難しい。 この目的のために、ゼロトラスト監査・レコメンデーションフレームワークであるZETARを開発し、インサイダーのインセンティブをモデル化するための定量的アプローチを提供し、コンプライアンスを改善するためにカスタマイズされたレコメンデーションポリシーを設計する。 予備と双対の凸プログラムを定式化し,最適な推奨方針を計算する。 私たちは、信頼、コンプライアンス、満足度を理解するための理論的基盤を作り、インサイダーのコンプライアンスと説得力の度合いを評価するメカニズムを生み出します。 インサイダーを、ディフェンダーとのインセンティブミスアライメントレベルに基づいて、悪意、利害、あるいは快適に分類した後、異なるインサイダーカテゴリのインサイダーに対して、個別の情報開示原則を確立します。 我々は,インサイダーのインセンティブが不明な場合に,有限ステップアルゴリズムが完全に信頼に値する(ct)ポリシーを効率的に学習できる,方針分離性原理と集合凸性を特定する。 最後に,設計の裏付けとなるケーススタディを提案する。 以上の結果から,ZETARはリスクやコンプライアンスの態度の異なるインサイダーに適応でき,コンプライアンスを大幅に改善できることがわかった。 さらに、信頼できるレコメンデーションは、サイバー衛生とインサイダーの満足を促進することができる。

Compliance management plays an important role in mitigating insider threats. Incentive design is a proactive and non-invasive approach to achieving compliance by aligning an insider's incentive with the defender's security objective, which motivates (rather than commands) an insider to act in the organization's interests. Controlling insiders' incentives for population-level compliance is challenging because they are neither precisely known nor directly controllable. To this end, we develop ZETAR, a zero-trust audit and recommendation framework, to provide a quantitative approach to model insiders' incentives and design customized recommendation policies to improve their compliance. We formulate primal and dual convex programs to compute the optimal bespoke recommendation policies. We create the theoretical underpinning for understanding trust, compliance, and satisfaction, which leads to scoring mechanisms of how compliant and persuadable an insider is. After classifying insiders as malicious, self-interested, or amenable based on their incentive misalignment levels with the defender, we establish bespoke information disclosure principles for these insiders of different incentive categories. We identify the policy separability principle and the set convexity, which enable finite-step algorithms to efficiently learn the Completely Trustworthy (CT) policy set when insiders' incentives are unknown. Finally, we present a case study to corroborate the design. Our results show that ZETAR can well adapt to insiders with different risk and compliance attitudes and significantly improve compliance. Moreover, trustworthy recommendations can provably promote cyber hygiene and insiders' satisfaction.
翻訳日:2023-10-18 07:10:09 公開日:2023-10-14
# マルチエージェント強化学習における平衡選択のためのパレートアクタクリティカル

Pareto Actor-Critic for Equilibrium Selection in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2209.14344v3 )

ライセンス: Link先を確認
Filippos Christianos, Georgios Papoudakis, Stefano V. Albrecht(参考訳) 本研究は, 競合しないマルチエージェントゲームにおける平衡選択に焦点をあて, そこでは, パレート最適ナッシュ均衡を選択する問題について検討する。 多くの最先端マルチエージェント強化学習(MARL)アルゴリズムは、トレーニング中に各エージェントが他のエージェントのポリシーについて持っている不確実性のため、パレート支配均衡に収束する傾向にある。 我々は,非競合ゲーム(協調ゲームのスーパーセット)の単純特性を利用するアクター-批判アルゴリズムであるpareto actor-critic (pareto-ac)を提案する。 マルチエージェントゲームにおいてpareto-acを評価し,7つの最先端marlアルゴリズムと比較して高いエピソディックリターンに収束し,様々な行列ゲームにおいてpareto-optimal equilibriumに収束することを示した。 最後に,Pareto-ACのグラフニューラルネットワーク拡張であるPACDCGを提案する。

This work focuses on equilibrium selection in no-conflict multi-agent games, where we specifically study the problem of selecting a Pareto-optimal Nash equilibrium among several existing equilibria. It has been shown that many state-of-the-art multi-agent reinforcement learning (MARL) algorithms are prone to converging to Pareto-dominated equilibria due to the uncertainty each agent has about the policy of the other agents during training. To address sub-optimal equilibrium selection, we propose Pareto Actor-Critic (Pareto-AC), which is an actor-critic algorithm that utilises a simple property of no-conflict games (a superset of cooperative games): the Pareto-optimal equilibrium in a no-conflict game maximises the returns of all agents and, therefore, is the preferred outcome for all agents. We evaluate Pareto-AC in a diverse set of multi-agent games and show that it converges to higher episodic returns compared to seven state-of-the-art MARL algorithms and that it successfully converges to a Pareto-optimal equilibrium in a range of matrix games. Finally, we propose PACDCG, a graph neural network extension of Pareto-AC, which is shown to efficiently scale in games with a large number of agents.
翻訳日:2023-10-18 07:02:03 公開日:2023-10-14
# 信号時相論理述語のモデル予測ロバスト性

Model Predictive Robustness of Signal Temporal Logic Predicates ( http://arxiv.org/abs/2209.07881v3 )

ライセンス: Link先を確認
Yuanfei Lin, Haoxuan Li and Matthias Althoff(参考訳) 信号時相論理のロバスト性は、信号が仕様に準拠しているかを評価するだけでなく、式がどの程度満たされるか違反しているかの指標を提供する。 ロバスト性の計算は、基礎となる述語のロバスト性の評価に基づいている。 しかしながら、述語のロバスト性は通常、システムダイナミクスを含まずに、モデルフリーな方法で定義される。 さらに、複雑な述語の堅牢性を定義することはしばしば自明である。 これらの問題に対処するために,モデルに基づく予測を考慮し,従来の手法に比べて頑健性を評価する体系的な方法を提供するモデル予測頑健性の概念を提案する。 特にガウス過程回帰を用いて事前計算された予測に基づいてロバストネスを学習し、ロバストネス値をオンライン上で効率的に計算する。 記録されたデータセット上での交通規則の定式化に使用される述語を用いた自動運転のユースケースに対する我々のアプローチを評価し、従来の精度のアプローチと比較して、我々のアプローチの利点を強調する。 堅牢性の定義をトラジェクティブプランナーに組み込むことで、自動運転車はデータセットの人間ドライバーよりもロバストな交通規則に従う。

The robustness of signal temporal logic not only assesses whether a signal adheres to a specification but also provides a measure of how much a formula is fulfilled or violated. The calculation of robustness is based on evaluating the robustness of underlying predicates. However, the robustness of predicates is usually defined in a model-free way, i.e., without including the system dynamics. Moreover, it is often nontrivial to define the robustness of complicated predicates precisely. To address these issues, we propose a notion of model predictive robustness, which provides a more systematic way of evaluating robustness compared to previous approaches by considering model-based predictions. In particular, we use Gaussian process regression to learn the robustness based on precomputed predictions so that robustness values can be efficiently computed online. We evaluate our approach for the use case of autonomous driving with predicates used in formalized traffic rules on a recorded dataset, which highlights the advantage of our approach compared to traditional approaches in terms of precision. By incorporating our robustness definitions into a trajectory planner, autonomous vehicles obey traffic rules more robustly than human drivers in the dataset.
翻訳日:2023-10-18 07:01:31 公開日:2023-10-14
# ハイパーグラフSBMにおけるコミュニティ検出 : 類似行列を用いたエクササイズリカバリ

Community Detection in the Hypergraph SBM: Exact Recovery Given the Similarity Matrix ( http://arxiv.org/abs/2208.12227v3 )

ライセンス: Link先を確認
Julia Gaudio, Nirmit Joshi(参考訳) コミュニティ検出はネットワーク科学における根本的な問題である。 本稿では,hypergraph$$$stochastic$ $block$$model$ (hsbm) を用いたハイパーグラフにおけるコミュニティ検出について考察する。 我々は$similarity$$matrix$$W$で動作する多項式時間アルゴリズムの性能を調査し、$W_{ij}$は$i$と$j$の両方を含むハイパーエッジの数を報告する。 この情報モデルの下では、正確な情報理論の限界は分かっていないが、Kim, Bandeira, Goemans は、W$の自然な分節推定器が成功するまでの鋭い閾値を導出した。 最悪の場合、min-bisectionはNP-hardであるため、半定値プログラミング(SDP)緩和も提案し、min-bisection 推定器と同じ回復しきい値に達すると推測した。 本稿では,この予想を確認する。 また、ほぼ線形な実行時間を持つ単純かつ高効率なスペクトルアルゴリズムを設計し、min-bisection閾値を達成することを示す。 さらに、スペクトルアルゴリズムはより高密度な状態でも成功し、従来の手法よりもかなり効率的であり、選択方法として確立されている。 スペクトルアルゴリズムの解析は、$W$の固有ベクトルの強い$entrywise$境界に決定的に依存する。 我々の境界は、abbe、fan、wang、zhongの業績に触発され、彼は独立なエントリを持つ対称行列の固有ベクトルのエントリワイズ境界を開発した。 類似度行列の複雑な依存性構造にもかかわらず、類似のエントリワイズ保証が証明される。

Community detection is a fundamental problem in network science. In this paper, we consider community detection in hypergraphs drawn from the $hypergraph$ $stochastic$ $block$ $model$ (HSBM), with a focus on exact community recovery. We study the performance of polynomial-time algorithms which operate on the $similarity$ $matrix$ $W$, where $W_{ij}$ reports the number of hyperedges containing both $i$ and $j$. Under this information model, while the precise information-theoretic limit is unknown, Kim, Bandeira, and Goemans derived a sharp threshold up to which the natural min-bisection estimator on $W$ succeeds. As min-bisection is NP-hard in the worst case, they additionally proposed a semidefinite programming (SDP) relaxation and conjectured that it achieves the same recovery threshold as the min-bisection estimator. In this paper, we confirm this conjecture. We also design a simple and highly efficient spectral algorithm with nearly linear runtime and show that it achieves the min-bisection threshold. Moreover, the spectral algorithm also succeeds in denser regimes and is considerably more efficient than previous approaches, establishing it as the method of choice. Our analysis of the spectral algorithm crucially relies on strong $entrywise$ bounds on the eigenvectors of $W$. Our bounds are inspired by the work of Abbe, Fan, Wang, and Zhong, who developed entrywise bounds for eigenvectors of symmetric matrices with independent entries. Despite the complex dependency structure in similarity matrices, we prove similar entrywise guarantees.
翻訳日:2023-10-18 06:59:59 公開日:2023-10-14
# 最適AdaBoost収束

Optimal AdaBoost Converges ( http://arxiv.org/abs/2210.07808v4 )

ライセンス: Link先を確認
Conor Snedeker(参考訳) 以下の研究は、adaboost機械学習アルゴリズムの分類器とマージンの収束特性に関する形式的証明のプレプリントコレクションである。 様々な数学や計算機科学の論文が、これらの収束特性の予想や特別な場合について書かれている。 さらに、アルゴリズムを取り巻く研究において、AdaBoostのマージンは顕著である。 本稿では、AdaBoostの分類器とマージンが数十年の研究と一致する値にどのように収束するかを示す。 この後,複合分類器に関連付けられた様々な量がどのように収束するかを示す。

The following work is a preprint collection of formal proofs regarding the convergence properties of the AdaBoost machine learning algorithm's classifier and margins. Various math and computer science papers have been written regarding conjectures and special cases of these convergence properties. Furthermore, the margins of AdaBoost feature prominently in the research surrounding the algorithm. At the zenith of this paper we present how AdaBoost's classifier and margins converge on a value that agrees with decades of research. After this, we show how various quantities associated with the combined classifier converge.
翻訳日:2023-10-18 06:52:33 公開日:2023-10-14
# インベントリは暗く、誤った情報で溢れている:広告技術サプライチェーンにおける広告インベントリプールの濫用を理解する

The Inventory is Dark and Full of Misinformation: Understanding the Abuse of Ad Inventory Pooling in the Ad-Tech Supply Chain ( http://arxiv.org/abs/2210.06654v3 )

ライセンス: Link先を確認
Yash Vekaria (1), Rishab Nithyanand (2), Zubair Shafiq (1) ((1) University of California, Davis, (2) University of Iowa)(参考訳) 広告技術により、パブリッシャーは複雑なサプライチェーンを通じて何百万もの需要パートナーに広告インベントリをプログラム的に販売できる。 Bogusや低品質パブリッシャーは、広告技術の不透明な性質を利用して、広告在庫を欺いて収益化することができる。 本稿では,広告技術の透明性基準に反する誤報サイトが,無関係サイトと広告インベントリを結びつけてブランドの安全性を回避した事例を初めて調査する。 誤情報サイトによって悪用されるダークプールに対して、いくつかの主要な広告取引所が不当に責任を負っていることがわかった。 さらに、ダークプーリングによって偽情報サイトが広告の在庫を信用できるブランドに偽装できるという証拠も見つかる。 最後に、広告交換パートナーのベッティングの改善、広告技術サプライチェーンのエンドツーエンド検証を可能にする新しい広告技術透明性標準の採用、および当社のような独立した監査の広範な展開といった潜在的な対策について論じる。

Ad-tech enables publishers to programmatically sell their ad inventory to millions of demand partners through a complex supply chain. Bogus or low quality publishers can exploit the opaque nature of the ad-tech to deceptively monetize their ad inventory. In this paper, we investigate for the first time how misinformation sites subvert the ad-tech transparency standards and pool their ad inventory with unrelated sites to circumvent brand safety protections. We find that a few major ad exchanges are disproportionately responsible for the dark pools that are exploited by misinformation websites. We further find evidence that dark pooling allows misinformation sites to deceptively sell their ad inventory to reputable brands. We conclude with a discussion of potential countermeasures such as better vetting of ad exchange partners, adoption of new ad-tech transparency standards that enable end-to-end validation of the ad-tech supply chain, as well as widespread deployment of independent audits like ours.
翻訳日:2023-10-18 06:52:06 公開日:2023-10-14
# 近接地平線不安定性による地平線の温度特性:経路積分的アプローチ

Thermality of horizon through near horizon instability: a path integral approach ( http://arxiv.org/abs/2210.04056v2 )

ライセンス: Link先を確認
Gaurang Ramakant Kane, Bibhas Ranjan Majhi(参考訳) 最近の研究では、質量のない無電荷の放出粒子の近傍の地平線ハミルトンが、静止したブラックホールと同様に、その特定の運動に対して有効に$\sim xp$であることが明らかになった。 これは自然によって不安定であり、いくつかの興味深い物理現象を説明する可能性がある。 経路積分カーネルから、まず状態の密度を計算する。 また, [phys. rev. d 85, 025011 (2012)] という考え方に従うと, 地平線近傍では, 経路積分アプローチにより, シュロディンガー版のハミルトニアンに対応する有効経路を計算する。 後者の結果は自然に複雑で、地平線を通って粒子の確率を逃がす情報を持っているように見える。 どちらの方法でも、ホーキング温度の正しい表現を同定する。 さらに、複素経路アプローチをカー時空のようなより一般的なブラックホールに拡張することに成功した。 このような複雑な経路は地平線によって与えられる近地平線不安定性の性質の結果であると考え、地平線の熱化機構は予兆的な局所不安定性を通じて説明できるという事実を再び補強した。

Recent investigations revealed that the near horizon Hamiltonian of a massless, chargeless outgoing particle, for its particular motion in static as well as stationary black holes, is effectively $\sim xp$ kind. This is unstable by nature and has the potential to explain a few interesting physical phenomena. From the path integral kernel, we first calculate the density of states. Also, following the idea of [Phys. Rev. D 85, 025011 (2012)] here, in the vicinity of the horizon, we calculate the effective path corresponding to its Schrodinger version of Hamiltonian through the path integral approach. The latter result appears to be complex in nature and carries the information of escaping the probability of the particle through the horizon. In both ways, we identify the correct expression of Hawking temperature. Moreover, here we successfully extend the complex path approach to a more general black hole like Kerr spacetime. We feel that such a complex path is an outcome of the nature of near horizon instability provided by the horizon and, therefore, once again bolstered the fact that the thermalization mechanism of the horizon may be explained through the aforesaid local instability.
翻訳日:2023-10-18 06:49:38 公開日:2023-10-14
# 0-1多次元クナップサック問題の探索空間の探索と探索

Finding and Exploring Promising Search Space for the 0-1 Multidimensional Knapsack Problem ( http://arxiv.org/abs/2210.03918v2 )

ライセンス: Link先を確認
Jitao Xu, Hongbo Li, and Minghao Yin(参考訳) 0-1 Multidimensional Knapsack Problem (MKP) は古典的なNPハード組合せ最適化問題である。 本稿では,0-1 MKPを解くために,進化計算と正確なアルゴリズムを組み合わせた新しいアルゴリズムを提案する。 一連のソリューションを維持し、人口の情報を利用して優れた部分的割り当てを抽出する。 高品質な解を見つけるために、優れた部分代入によって指定された有望な探索空間を探索するために正確なアルゴリズムを適用した。 新しいソリューションは人口を更新するために使われます。 このように、良い部分的な割り当ては、人口の改善とともにより良い方向に進化する。 一般的なベンチマークセットによる大規模な実験により、我々のアルゴリズムは、アートヒューリスティックアルゴリズムであるPTEAとDQPSOの状態を上回ります。 既存のアルゴリズムよりも優れたソリューションを見つけ、8つの大規模およびハードインスタンスに新しい下限を提供する。

The 0-1 Multidimensional Knapsack Problem (MKP) is a classical NP-hard combinatorial optimization problem with many engineering applications. In this paper, we propose a novel algorithm combining evolutionary computation with exact algorithm to solve the 0-1 MKP. It maintains a set of solutions and utilizes the information from the population to extract good partial assignments. To find high-quality solutions, an exact algorithm is applied to explore the promising search space specified by the good partial assignments. The new solutions are used to update the population. Thus, the good partial assignments evolve towards a better direction with the improvement of the population. Extensive experimentation with commonly used benchmark sets shows that our algorithm outperforms the state of the art heuristic algorithms, TPTEA and DQPSO. It finds better solutions than the existing algorithms and provides new lower bounds for 8 large and hard instances.
翻訳日:2023-10-18 06:49:16 公開日:2023-10-14
# CoCoNet:マルチモード画像融合のためのマルチレベル特徴アンサンブルを用いたコントラスト学習ネットワーク

CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion ( http://arxiv.org/abs/2211.10960v2 )

ライセンス: Link先を確認
Jinyuan Liu, Runjia Lin, Guanyao Wu, Risheng Liu, Zhongxuan Luo, Xin Fan(参考訳) 赤外線および可視画像融合ターゲットは、異なるセンサからの相補的な情報を組み合わせて情報画像を提供する。 既存の学習ベースの融合アプローチは相補的な特徴を保存するために様々な損失関数を構築しようとするが、2つのモダリティ間の相互関係の発見を怠り、融合結果の冗長あるいは無効な情報をもたらす。 さらに,ほとんどの手法は,特徴伝達の重要性を無視しつつ,深度を増してネットワークの強化に重点を置いている。 これらの問題を緩和するために、我々はCoCoNetと呼ばれるコントラスト学習ネットワークを提案し、エンドツーエンドで赤外線と可視画像の融合を実現する。 具体的には、両モードの典型的特徴を同時に保持し、融合した結果に現れるアーティファクトを避けるため、損失関数にコントラスト的制約を併せ持つ。 融合画像において、その前景目標/背景詳細部は、赤外線/可視光源の近くに引き寄せられ、表示空間内の可視/赤外線源から遠方へ押し出される。 さらに、画像特性を利用して、データ感度の重み付けを行い、損失関数がソース画像とより信頼性の高い関係を構築することができる。 マルチレベルアテンションモジュールは、リッチな階層的特徴表現を学習し、融合過程における特徴を包括的に伝達する。 また, 磁気共鳴画像, ポジトロン放射トモグラフィ画像, 単一光子放射CT画像など, 異なる種類の医用画像融合に対して, 提案したCoCoNetを適用した。 広範な実験により,本手法は主観的評価と客観的評価の両方において最先端(sota)性能を達成できることが証明された。

Infrared and visible image fusion targets to provide an informative image by combining complementary information from different sensors. Existing learning-based fusion approaches attempt to construct various loss functions to preserve complementary features, while neglecting to discover the inter-relationship between the two modalities, leading to redundant or even invalid information on the fusion results. Moreover, most methods focus on strengthening the network with an increase in depth while neglecting the importance of feature transmission, causing vital information degeneration. To alleviate these issues, we propose a coupled contrastive learning network, dubbed CoCoNet, to realize infrared and visible image fusion in an end-to-end manner. Concretely, to simultaneously retain typical features from both modalities and to avoid artifacts emerging on the fused result, we develop a coupled contrastive constraint in our loss function. In a fused image, its foreground target / background detail part is pulled close to the infrared / visible source and pushed far away from the visible / infrared source in the representation space. We further exploit image characteristics to provide data-sensitive weights, allowing our loss function to build a more reliable relationship with source images. A multi-level attention module is established to learn rich hierarchical feature representation and to comprehensively transfer features in the fusion process. We also apply the proposed CoCoNet on medical image fusion of different types, e.g., magnetic resonance image, positron emission tomography image, and single photon emission computed tomography image. Extensive experiments demonstrate that our method achieves state-of-the-art (SOTA) performance under both subjective and objective evaluation, especially in preserving prominent targets and recovering vital textural details.
翻訳日:2023-10-18 06:39:57 公開日:2023-10-14
# 腫瘍空間プロテオームの相反的説明の生成と免疫浸潤促進のための効果的な戦略

Generating counterfactual explanations of tumor spatial proteomes to discover effective strategies for enhancing immune infiltration ( http://arxiv.org/abs/2211.04020v2 )

ライセンス: Link先を確認
Zitong Jerry Wang, Alexander M. Xu, Aman Bhargava, Matt W. Thomson(参考訳) 腫瘍微小環境(TME)は免疫組成により癌予後に大きな影響を及ぼす。 免疫療法を含む免疫組成を変える治療法は、血液学的がんの治療にはエキサイティングな結果を示しているが、免疫学的に凝固した固形腫瘍には効果が低い。 空間的オミクス技術はtmeの空間的構造を前例のない分子的詳細で捉え、免疫細胞局在と分子シグナルの関係を明らかにする。 そこで我々は,T細胞浸潤予測を自己教師型機械学習問題として定式化し,T細胞浸潤を促進させると予測される腫瘍の摂動を設計するために,患者腫瘍の大規模空間オミクスプロファイルを利用する対物最適化戦略を開発した。 畳み込みニューラルネットワークは、質量サイトメトリーによって提供されるTMEのシグナル分子に基づいてT細胞分布を予測する。 グラディエントベースの反ファクト生成は、T細胞量の増大を予測した摂動を計算する。 われわれは, 悪性黒色腫, 大腸癌肝転移, 乳腺腫瘍データに枠組みを適用し, 数十~数百の患者にT細胞浸潤が認められた。 本研究は,空間オミクスデータを用いたがん治療の予防的予測と設計のためのパラダイムを提案する。

The tumor microenvironment (TME) significantly impacts cancer prognosis due to its immune composition. While therapies for altering the immune composition, including immunotherapies, have shown exciting results for treating hematological cancers, they are less effective for immunologically-cold, solid tumors. Spatial omics technologies capture the spatial organization of the TME with unprecedented molecular detail, revealing the relationship between immune cell localization and molecular signals. Here, we formulate T-cell infiltration prediction as a self-supervised machine learning problem and develop a counterfactual optimization strategy that leverages large scale spatial omics profiles of patient tumors to design tumor perturbations predicted to boost T-cell infiltration. A convolutional neural network predicts T-cell distribution based on signaling molecules in the TME provided by imaging mass cytometry. Gradient-based counterfactual generation, then, computes perturbations predicted to boost T-cell abundance. We apply our framework to melanoma, colorectal cancer liver metastases, and breast tumor data, discovering combinatorial perturbations predicted to support T-cell infiltration across tens to hundreds of patients. This work presents a paradigm for counterfactual-based prediction and design of cancer therapeutics using spatial omics data.
翻訳日:2023-10-18 06:38:29 公開日:2023-10-14
# 調整可能な内部スピン構造とスピン磁化生成を有する光制御単一バレー励起子ダブルト状態

Optically controlled single-valley exciton doublet states with tunable internal spin structures and spin magnetization generation ( http://arxiv.org/abs/2211.03334v2 )

ライセンス: Link先を確認
Jiawei Ruan, Zhenglu Li, Chin Shen Ong, Steven G. Louie(参考訳) 光間相互作用による量子状態の操作は二次元(2次元)材料研究において活発に研究されている。 相互空間における2つの異なる谷から2重縮退した励起子に基づく半導単層遷移金属ジアルコゲナイド(TMD)のバレー自由度を光学的に制御するための重要な進展が見られた。 ここでは,単一谷からの2重縮退励起子状態としてsvxd(single-valley exciton doublet)状態を導入する。 それらの構成孔は、同じ原子価帯に由来するため、励起構成電子のスピン構造の直接光学的制御が可能となる。 ab initio GW と Bethe-Salpeter 方程式 (GW-BSE) の計算と、新たに開発された理論解析法を組み合わせることで、分子線エピタキシー法を用いて成長した基板担持単層ビスムテン中の新たなSVXDを実証する。 ブリルアンゾーンの2つの異なる谷のそれぞれにおいて、強いスピン軌道結合と$C_{3v}$対称性は、反対のスピン配置を持つ退化1s励起子状態(SVXD状態)のペアにつながる。 単一の谷におけるSVXDのコヒーレントな線形結合は、特定の偏光を持つ光によって励起され、内部のスピン配置を完全に操作することができる。 特に、光励起により制御可能なネットスピン磁化を生成することができる。 我々の発見は、量子自由度を制御する新しい経路を開き、スピントロニクスと量子情報科学の応用の道を開いた。

Manipulating quantum states through light-matter interactions has been actively pursued in two-dimensional (2D) materials research. Significant progress has been made towards the optical control of the valley degrees of freedom in semiconducting monolayer transition-metal dichalcogenides (TMD), based on doubly degenerate excitons from their two distinct valleys in reciprocal space. Here, we introduce a novel kind of optically controllable doubly degenerate exciton states that come from a single valley, dubbed as single-valley exciton doublet (SVXD) states. They are unique in that their constituent holes originate from the same valence band, making possible the direct optical control of the spin structure of the excited constituent electrons. Combining ab initio GW plus Bethe-Salpeter equation (GW-BSE) calculations and a newly developed theoretical analysis method, we demonstrate such novel SVXD in substrate-supported monolayer bismuthene -- which has been successfully grown using molecular beam epitaxy. In each of the two distinct valleys in the Brillouin zone, strong spin-orbit coupling and $C_{3v}$ symmetry lead to a pair of degenerate 1s exciton states (the SVXD states) with opposite spin configurations. Any coherent linear combinations of the SVXD in a single valley can be excited by light with a specific polarization, enabling full manipulation of their internal spin configurations. In particular, a controllable net spin magnetization can be generated through light excitation. Our findings open new routes to control quantum degrees of freedom, paving the way for applications in spintronics and quantum information science.
翻訳日:2023-10-18 06:38:07 公開日:2023-10-14
# クリフォードデコーダによる量子情報のスクランブル化

Unscrambling quantum information with Clifford decoders ( http://arxiv.org/abs/2212.11337v4 )

ライセンス: Link先を確認
Salvatore F.E. Oliviero, Lorenzo Leone, Seth Lloyd and Alioscia Hamma(参考訳) 量子情報スクランブル(quantum information scrambling)は、局所的な相関を破壊し、システム全体に情報を拡散し、非局所的な自由度にそれを効果的に隠蔽する単一プロセスである。 原則として、この情報はユニタリダイナミクス(arxiv:1710.03363])の完全な知識によって解くことができる。 しかし,本研究では,従来の内部ダイナミクスの知識がなくても,ローカルサブシステムの出力情報を監視することで,未知のスクランブラから情報を効率的に復号できることを示す。 驚くべきことに、未知の内部ダイナミクスを持つスクランブラは、急速に混合されているが完全にカオスではないため、クリフォードデコーダを用いて復号化可能である。 スクランブルユニタリの本質的性質は指数関数的に複雑であっても効率的に回復することができる。 特に、$t$非クリフォードゲートからなるユニタリ演算子は、$t\le n$までクリフォードデコーダを認めている。

Quantum information scrambling is a unitary process that destroys local correlations and spreads information throughout the system, effectively hiding it in nonlocal degrees of freedom. In principle, unscrambling this information is possible with perfect knowledge of the unitary dynamics[arXiv:1710.03363]. However, this work demonstrates that even without previous knowledge of the internal dynamics, information can be efficiently decoded from an unknown scrambler by monitoring the outgoing information of a local subsystem. Surprisingly, we show that scramblers with unknown internal dynamics, which are rapidly mixing but not fully chaotic, can be decoded using Clifford decoders. The essential properties of a scrambling unitary can be efficiently recovered, even if the process is exponentially complex. Specifically, we establish that a unitary operator composed of $t$ non-Clifford gates admits a Clifford decoder up to $t\le n$.
翻訳日:2023-10-18 06:31:28 公開日:2023-10-14
# 低資源音声言語理解のための双方向表現

Bidirectional Representations for Low Resource Spoken Language Understanding ( http://arxiv.org/abs/2211.14320v2 )

ライセンス: Link先を確認
Quentin Meeus, Marie-Francine Moens, Hugo Van hamme(参考訳) ほとんどの音声言語理解システムは、自動音声認識インタフェースと自然言語理解モジュールからなるパイプラインアプローチを使用している。 このアプローチは、連続入力を離散言語記号に変換する際に難しい決定を迫る。 その代わりに、意図予測などの下流タスクに使用できるリッチな双方向符号化で音声を符号化する表現モデルを提案する。 このアプローチでは、表現を学ぶためにマスク付き言語モデリングの目的を用いるため、左右のコンテキストの両方から恩恵を受ける。 提案手法では,複数のデータセットにおいて,符号化前の符号化結果のパフォーマンスが同等のモデルよりも優れており,表現モデルの上位層を微調整することで,学習に限られたラベル付きデータを使用する場合,Fluent Speech Commandデータセット上の技術の現状が向上することを示す。 さらに,音声言語理解モジュールとして,速度とパラメータ数の両方において効率的であるクラスアテンションを提案する。 クラスの注意は、モデルの予測を視覚的に説明するために使用できます。 私たちは英語とオランダ語で実験を行います。

Most spoken language understanding systems use a pipeline approach composed of an automatic speech recognition interface and a natural language understanding module. This approach forces hard decisions when converting continuous inputs into discrete language symbols. Instead, we propose a representation model to encode speech in rich bidirectional encodings that can be used for downstream tasks such as intent prediction. The approach uses a masked language modelling objective to learn the representations, and thus benefits from both the left and right contexts. We show that the performance of the resulting encodings before fine-tuning is better than comparable models on multiple datasets, and that fine-tuning the top layers of the representation model improves the current state of the art on the Fluent Speech Command dataset, also in a low-data regime, when a limited amount of labelled data is used for training. Furthermore, we propose class attention as a spoken language understanding module, efficient both in terms of speed and number of parameters. Class attention can be used to visually explain the predictions of our model, which goes a long way in understanding how the model makes predictions. We perform experiments in English and in Dutch.
翻訳日:2023-10-18 06:28:57 公開日:2023-10-14
# 音声保存ゼロショット多重アクセント変換

Voice-preserving Zero-shot Multiple Accent Conversion ( http://arxiv.org/abs/2211.13282v2 )

ライセンス: Link先を確認
Mumin Jin, Prashant Serai, Jilong Wu, Andros Tjandra, Vimal Manohar, Qing He(参考訳) 外国語を学ぼうとしたほとんどの人は、母語話者のアクセントを理解したり話すのに苦労していただろう。 ネイティブスピーカーにとって、新しいアクセントを理解したり、話すことは、同様に難しい作業である。 アクセント変換システムは話者のアクセントを変化させるが、音色やピッチといった話者の声のアイデンティティを保ちながら、コミュニケーション、言語学習、娯楽といった様々な応用の可能性を持っている。 既存のアクセント変換モデルは、話者のアイデンティティとアクセントを同時に変える傾向がある。 ここでは,他の音響特性を保ちながら,アクセント依存特徴をアンタングル化するために,対角学習を用いる。 既存のアクセント変換モデルと違うのは、意図しない話者の発話を複数のアクセントに変換しながら、元の音声のアイデンティティを保ちながら、複数のアクセントに変換する能力です。 主観評価では,本モデルがターゲットアクセントに近づき,元の話者に近い音声を生成することを示す。

Most people who have tried to learn a foreign language would have experienced difficulties understanding or speaking with a native speaker's accent. For native speakers, understanding or speaking a new accent is likewise a difficult task. An accent conversion system that changes a speaker's accent but preserves that speaker's voice identity, such as timbre and pitch, has the potential for a range of applications, such as communication, language learning, and entertainment. Existing accent conversion models tend to change the speaker identity and accent at the same time. Here, we use adversarial learning to disentangle accent dependent features while retaining other acoustic characteristics. What sets our work apart from existing accent conversion models is the capability to convert an unseen speaker's utterance to multiple accents while preserving its original voice identity. Subjective evaluations show that our model generates audio that sound closer to the target accent and like the original speaker.
翻訳日:2023-10-18 06:28:38 公開日:2023-10-14
# ニューラルネットワークは意思決定境界付近の領域を拡大する

Neural networks learn to magnify areas near decision boundaries ( http://arxiv.org/abs/2301.11375v3 )

ライセンス: Link先を確認
Jacob A. Zavatone-Veth and Sheng Yang and Julian A. Rubinfien and Cengiz Pehlevan(参考訳) 機械学習では、強力な幾何学的前提で焼くことで、より少ないサンプルデータから学習できるニューラルネットワークを構築しようとする長い歴史がある。 しかし、与えられたタスクにどのような幾何学的制約が適しているかは、必ずしも明確ではない。 ここでは、制約のないニューラルネットワーク特徴写像によって誘導されるリーマン幾何学の型をいかに訓練するかを研究することによって、有用な幾何学的帰納バイアスを発見できる可能性を検討する。 まず,無限幅において,ランダムパラメータを持つニューラルネットワークが入力空間に高度に対称なメトリクスを誘導することを示す。 分類タスクを実行するために訓練されたネットワークは、決定境界に沿った地域を拡大するために学習する。 これは、高次元画像分類タスクで訓練されたディープネットワークや、自己教師付き表現学習にも当てはまる。 これらの結果は、トレーニングが、制約のないニューラルネットワークの特徴マップによって引き起こされる幾何学をいかに形作るかを解明し始め、このリッチで非線形な特徴学習の理解の基礎となる。

In machine learning, there is a long history of trying to build neural networks that can learn from fewer example data by baking in strong geometric priors. However, it is not always clear a priori what geometric constraints are appropriate for a given task. Here, we consider the possibility that one can uncover useful geometric inductive biases by studying how training molds the Riemannian geometry induced by unconstrained neural network feature maps. We first show that at infinite width, neural networks with random parameters induce highly symmetric metrics on input space. This symmetry is broken by feature learning: networks trained to perform classification tasks learn to magnify local areas along decision boundaries. This holds in deep networks trained on high-dimensional image classification tasks, and even in self-supervised representation learning. These results begins to elucidate how training shapes the geometry induced by unconstrained neural network feature maps, laying the groundwork for an understanding of this richly nonlinear form of feature learning.
翻訳日:2023-10-18 06:19:03 公開日:2023-10-14
# マルコフのスライスなワッサースタイン距離:独立の予測を超える

Markovian Sliced Wasserstein Distances: Beyond Independent Projections ( http://arxiv.org/abs/2301.03749v2 )

ライセンス: Link先を確認
Khai Nguyen and Tongzheng Ren and Nhat Ho(参考訳) Sliced Wasserstein (SW) 距離は、独立な一様ランダム射影方向による冗長な投影に悩まされる。 問題を部分的に克服するために、マックス K はワッサーシュタイン (Max-K-SW) 距離 (K\geq 1$) をスライスした。 射影数を減らすことができるにもかかわらず、最適化の非最適性のため、Max-K-SWの計量性は保証できない。 さらに、直交制約もまた計算コストが高く、効果的ではないかもしれない。 この問題に対処するために、我々は、射影方向に対して1次マルコフ構造を課すマルコフスライスドワッサースタイン距離(msw)と呼ばれる新しいsw距離の族を導入する。 先行分布,遷移分布,燃焼・薄肉化技術を含むマルコフ構造を同定し,MSWの様々な部材について考察する。 さらに,mswの理論特性として,位相特性(計量性,弱収束性,他距離との接続性),統計特性(サンプル複雑性,モンテカルロ推定誤差),計算特性(計算複雑性とメモリ複雑性)について検討した。 最後に, 勾配流, 色転移, 深部生成モデルなどの様々な応用において, msw 距離とこれまでの sw 変種を比較し, msw の良好な性能を示す。

Sliced Wasserstein (SW) distance suffers from redundant projections due to independent uniform random projecting directions. To partially overcome the issue, max K sliced Wasserstein (Max-K-SW) distance ($K\geq 1$), seeks the best discriminative orthogonal projecting directions. Despite being able to reduce the number of projections, the metricity of Max-K-SW cannot be guaranteed in practice due to the non-optimality of the optimization. Moreover, the orthogonality constraint is also computationally expensive and might not be effective. To address the problem, we introduce a new family of SW distances, named Markovian sliced Wasserstein (MSW) distance, which imposes a first-order Markov structure on projecting directions. We discuss various members of MSW by specifying the Markov structure including the prior distribution, the transition distribution, and the burning and thinning technique. Moreover, we investigate the theoretical properties of MSW including topological properties (metricity, weak convergence, and connection to other distances), statistical properties (sample complexity, and Monte Carlo estimation error), and computational properties (computational complexity and memory complexity). Finally, we compare MSW distances with previous SW variants in various applications such as gradient flows, color transfer, and deep generative modeling to demonstrate the favorable performance of MSW.
翻訳日:2023-10-18 06:17:38 公開日:2023-10-14
# Co-ヒポモノトン包有物に対する$\mathcal{O} (1/k)$Last-Iterate Convergence Ratesの漸進型法

Extragradient-Type Methods with $\mathcal{O} (1/k)$ Last-Iterate Convergence Rates for Co-Hypomonotone Inclusions ( http://arxiv.org/abs/2302.04099v2 )

ライセンス: Link先を確認
Quoc Tran-Dinh(参考訳) 2つの演算子の和によって構成される共ハイポモノトン包含の解を近似するために、よく知られた超勾配法の2つの「ネステロフ加速」変種を開発し、一方はリプシッツ連続であり、もう一方は多値である可能性がある。 第1のスキームは tseng の forward-backward-forward split (fbfs) 法の高速化変種と見なすことができ、第2のスキームは "past" fbfs のネステロフの加速変種であり、リプシッツ作用素の1つの評価と多値写像の1つの解法のみを必要とする。 パラメータの適切な条件の下で、理論上、両方のアルゴリズムが残差ノルム上で$\mathcal{o}(1/k)$ last-iterate convergence rate を達成することを証明している。 この結果は,近年の根探り問題に対するhalpern型手法の代替案と見なすことができる。 比較のために, 共ハイポモノトン包含物を解くために, 最近の2つのアンコレード勾配型手法の新しい収束解析も提供する。

We develop two "Nesterov's accelerated" variants of the well-known extragradient method to approximate a solution of a co-hypomonotone inclusion constituted by the sum of two operators, where one is Lipschitz continuous and the other is possibly multivalued. The first scheme can be viewed as an accelerated variant of Tseng's forward-backward-forward splitting (FBFS) method, while the second one is a Nesterov's accelerated variant of the "past" FBFS scheme, which requires only one evaluation of the Lipschitz operator and one resolvent of the multivalued mapping. Under appropriate conditions on the parameters, we theoretically prove that both algorithms achieve $\mathcal{O}(1/k)$ last-iterate convergence rates on the residual norm, where $k$ is the iteration counter. Our results can be viewed as alternatives of a recent class of Halpern-type methods for root-finding problems. For comparison, we also provide a new convergence analysis of the two recent extra-anchored gradient-type methods for solving co-hypomonotone inclusions.
翻訳日:2023-10-18 06:10:05 公開日:2023-10-14
# 統計的類似性を超えて:エンジニアリング設計における深層生成モデルのためのメトリクス再考

Beyond Statistical Similarity: Rethinking Metrics for Deep Generative Models in Engineering Design ( http://arxiv.org/abs/2302.02913v4 )

ライセンス: Link先を確認
Lyle Regenwetter, Akash Srivastava, Dan Gutfreund, Faez Ahmed(参考訳) 可変オートエンコーダ(VAE)、GAN(Generative Adversarial Networks)、拡散モデル(Diffusion Models)、トランスフォーマー(Transformers)といった深層生成モデルは、画像や音声合成、自然言語処理、薬物発見など、様々な分野で大きな可能性を示してきた。 しかし, 工学的設計問題に適用すると, 従来の統計指標が工学的応用の要件を完全に把握できないため, これらのモデルの性能評価は困難である。 本稿では, 工学設計における深層生成モデル(dgms)の評価指標のレビューと実践の指針を兼ね備える。 まず,機械学習理論を基礎とした深層生成モデルの古典的評価指標について概説する。 ケーススタディを使用して、これらのメトリクスが設計問題にうまく変換できない理由を強調すると同時に、確立された代替手段の欠如による頻繁な使用を見出す。 次に、異なる研究コミュニティにまたがって提案された設計特化指標のセットをキュレートし、深層生成モデルの評価に使用することができる。 これらのメトリクスは、制約満足度、機能性能、新規性、条件付けなど、設計とエンジニアリングにおけるユニークな要件に焦点を当てている。 議論を通じて、簡単な視覚的2次元例問題に基づいて訓練されたモデルにメトリクスを適用する。 最後に,自転車フレーム設計問題と構造トポロジー生成問題の4つの深層生成モデルを評価する。 特に,性能目標達成度,設計新しさ,幾何学的制約を定量化するために提案するメトリクスの利用について紹介する。 データセット、モデル、メトリクスのコードは、https://decode.mit.edu/projects/metrics/で公開しています。

Deep generative models such as Variational Autoencoders (VAEs), Generative Adversarial Networks (GANs), Diffusion Models, and Transformers, have shown great promise in a variety of applications, including image and speech synthesis, natural language processing, and drug discovery. However, when applied to engineering design problems, evaluating the performance of these models can be challenging, as traditional statistical metrics based on likelihood may not fully capture the requirements of engineering applications. This paper doubles as a review and practical guide to evaluation metrics for deep generative models (DGMs) in engineering design. We first summarize the well-accepted `classic' evaluation metrics for deep generative models grounded in machine learning theory. Using case studies, we then highlight why these metrics seldom translate well to design problems but see frequent use due to the lack of established alternatives. Next, we curate a set of design-specific metrics which have been proposed across different research communities and can be used for evaluating deep generative models. These metrics focus on unique requirements in design and engineering, such as constraint satisfaction, functional performance, novelty, and conditioning. Throughout our discussion, we apply the metrics to models trained on simple-to-visualize 2-dimensional example problems. Finally, we evaluate four deep generative models on a bicycle frame design problem and structural topology generation problem. In particular, we showcase the use of proposed metrics to quantify performance target achievement, design novelty, and geometric constraints. We publicly release the code for the datasets, models, and metrics used throughout the paper at https://decode.mit.edu/projects/metrics/.
翻訳日:2023-10-18 06:09:38 公開日:2023-10-14
# Defensive ML: 対向難読化によるアーキテクチャサイドチャネルの防御

Defensive ML: Defending Architectural Side-channels with Adversarial Obfuscation ( http://arxiv.org/abs/2302.01474v2 )

ライセンス: Link先を確認
Hyoungwook Nam, Raghavendra Pradyumna Pothukuchi, Bo Li, Nam Sung Kim, Josep Torrellas(参考訳) 信号分析に機械学習(ML)を使用するサイドチャネル攻撃は、MLモデルが信号のパターンを容易に見つけるため、コンピュータセキュリティに対する顕著な脅威となっている。 この問題に対処するために,コンピュータアーキテクチャ層における防御手段としてAdversarial Machine Learning (AML) 法を用いて,サイドチャネルを難読化する手法を提案する。 私たちはこのアプローチをDefensive MLと呼び、ジェネレータは信号やディフェンダーを難読化する。 Defensive MLは、さまざまな環境でディフェンダを設計、実装、トレーニング、デプロイするためのワークフローである。 まず,サイドチャネルの物理的特性とハードウェア制約を考慮したディフェンダーアーキテクチャを設計する。 次に、DefenderGAN構造を使ってディフェンダーをトレーニングします。 最後に,2つのサイドチャネル攻撃(メモリ競合に基づく攻撃とアプリケーションパワーに基づく攻撃)を回避するために,防御mlを適用する。 前者はnsレベルの応答時間を持つハードウェアディフェンダーを使用し、従来のスキームの性能への影響の半分で高いレベルのセキュリティを達成する。

Side-channel attacks that use machine learning (ML) for signal analysis have become prominent threats to computer security, as ML models easily find patterns in signals. To address this problem, this paper explores using Adversarial Machine Learning (AML) methods as a defense at the computer architecture layer to obfuscate side channels. We call this approach Defensive ML, and the generator to obfuscate signals, defender. Defensive ML is a workflow to design, implement, train, and deploy defenders for different environments. First, we design a defender architecture given the physical characteristics and hardware constraints of the side-channel. Next, we use our DefenderGAN structure to train the defender. Finally, we apply defensive ML to thwart two side-channel attacks: one based on memory contention and the other on application power. The former uses a hardware defender with ns-level response time that attains a high level of security with half the performance impact of a traditional scheme; the latter uses a software defender with ms-level response time that provides better security than a traditional scheme with only 70% of its power overhead.
翻訳日:2023-10-18 06:08:12 公開日:2023-10-14
# トークン化画像合成のための正規化ベクトル量子化

Regularized Vector Quantization for Tokenized Image Synthesis ( http://arxiv.org/abs/2303.06424v2 )

ライセンス: Link先を確認
Jiahui Zhang, Fangneng Zhan, Christian Theobalt, Shijian Lu(参考訳) 画像の離散表現への量子化は、統一生成モデリングにおける根本的な問題である。 先行的アプローチは、ベストマッチトークンを選択して決定論的に、あるいは予測された分布からサンプリングして確率的に、離散表現を学習する。 しかし、決定論的量子化は、厳密なコードブックの崩壊と推論段階との不一致に悩まされ、確率的量子化は、低いコードブック利用と摂動的再構成の目的に悩まされる。 本稿では,2つの視点から正規化を適用することで,上記の問題を効果的に緩和できる正規化ベクトル量子化フレームワークを提案する。 1つ目は、コードブックの崩壊やコードブックの利用率の低下を避けるために、先行トークン分布と予測トークン分布とのずれを測定する事前分布正規化である。 2つ目は確率マスクの正規化であり、量子化中に確率性を導入し、推論段階のミスアライメントと未摂動再建目標とのバランスを良くする。 さらに, キャリブレーション指標として機能する確率的コントラスト損失を設計し, 摂動再建の目的をさらに緩和する。 拡張実験により、提案手法は自己回帰モデルや拡散モデルを含む様々な生成モデルにおいて、ベクトル量子化法を一貫して上回ることを示した。

Quantizing images into discrete representations has been a fundamental problem in unified generative modeling. Predominant approaches learn the discrete representation either in a deterministic manner by selecting the best-matching token or in a stochastic manner by sampling from a predicted distribution. However, deterministic quantization suffers from severe codebook collapse and misalignment with inference stage while stochastic quantization suffers from low codebook utilization and perturbed reconstruction objective. This paper presents a regularized vector quantization framework that allows to mitigate above issues effectively by applying regularization from two perspectives. The first is a prior distribution regularization which measures the discrepancy between a prior token distribution and the predicted token distribution to avoid codebook collapse and low codebook utilization. The second is a stochastic mask regularization that introduces stochasticity during quantization to strike a good balance between inference stage misalignment and unperturbed reconstruction objective. In addition, we design a probabilistic contrastive loss which serves as a calibrated metric to further mitigate the perturbed reconstruction objective. Extensive experiments show that the proposed quantization framework outperforms prevailing vector quantization methods consistently across different generative models including auto-regressive models and diffusion models.
翻訳日:2023-10-18 06:00:08 公開日:2023-10-14
# FinXABSA:Aspect-Based Sentiment Analysisによる説明可能な財務

FinXABSA: Explainable Finance through Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2303.02563v4 )

ライセンス: Link先を確認
Keane Ong, Wihan van der Heever, Ranjan Satapathy, Erik Cambria and Gianmarco Mengaldo(参考訳) 本稿では, アスペクトベース感情分析, ピアソン相関, グレンジャー因果関係, 不確実性係数を用いて, 財務的に説明可能な統計関係を導出することにより, 金融分析における説明可能性の新たなアプローチを提案する。 提案手法は,金融文献からのアスペクトリストを構築し,ソーシャルメディアテキストにアスペクトベースの感情分析を適用し,各側面の感情スコアを計算する。 ピアソン相関は、アスペクト感情スコアと株価の間の財務的に説明可能な関係を明らかにするために適用される。 派生関係の発見は、Granger因果関係を適用して、各アスペクトのセンチメントスコアの株価予測能力を決定することによって、堅牢化される。 最後に、アスペクト感情スコアと株価の間の不確実性係数スコアを評価することにより、解釈可能性の付加層を追加する。 これにより、株価に対して最も統計的に重要な感情スコアが決定できる。 他の手法と比較して、我々のアプローチは感情分析と株価の関係をより情報的かつ正確な理解を提供する。 具体的には、アスペクトベースの感情スコアと株価の統計的関係の解釈を可能にし、AIによる財務意思決定の説明可能性を提供する。

This paper presents a novel approach for explainability in financial analysis by deriving financially-explainable statistical relationships through aspect-based sentiment analysis, Pearson correlation, Granger causality & uncertainty coefficient. The proposed methodology involves constructing an aspect list from financial literature and applying aspect-based sentiment analysis on social media text to compute sentiment scores for each aspect. Pearson correlation is then applied to uncover financially explainable relationships between aspect sentiment scores and stock prices. Findings for derived relationships are made robust by applying Granger causality to determine the forecasting ability of each aspect sentiment score for stock prices. Finally, an added layer of interpretability is added by evaluating uncertainty coefficient scores between aspect sentiment scores and stock prices. This allows us to determine the aspects whose sentiment scores are most statistically significant for stock prices. Relative to other methods, our approach provides a more informative and accurate understanding of the relationship between sentiment analysis and stock prices. Specifically, this methodology enables an interpretation of the statistical relationship between aspect-based sentiment scores and stock prices, which offers explainability to AI-driven financial decision-making.
翻訳日:2023-10-18 05:59:10 公開日:2023-10-14
# ニューラルアテンション記憶

Neural Attention Memory ( http://arxiv.org/abs/2302.09422v2 )

ライセンス: Link先を確認
Hyoungwook Nam, Seung Byum Seo(参考訳) 本稿では,ニューラルネットワーク,すなわちニューラルアテンションメモリ(NAM)のメモリアーキテクチャとして再発明することで,アテンションメカニズムの新たな視点を提案する。 NAM は可読性と可読性の両方を持つメモリ構造である。 namの3つのユースケースについて検討した: メモリ型ニューラルネットワーク(mann)、少数ショット学習、効率的な長距離注意。 まず,長い短期記憶(lsam)とnamチューリングマシン(nam-tm)の2つのnamベースのマントを設計し,アルゴリズムによるゼロショット一般化タスクにおいて,微分可能ニューラルネットワーク(dnc)などの他のベースラインと比較して優れた計算能力を示す。 次に、n-way k-shot学習タスクにnamを適用し、ベースラインコサイン分類器と比較して偽陽性の低減に有効であることを示す。 最後に, NAMを用いた効率的なトランスフォーマーを実装し, 長距離アリーナタスクを用いて評価し, NAMが大規模ドット製品に対する効率的な代替手段であることを示す。

We propose a novel perspective of the attention mechanism by reinventing it as a memory architecture for neural networks, namely Neural Attention Memory (NAM). NAM is a memory structure that is both readable and writable via differentiable linear algebra operations. We explore three use cases of NAM: memory-augmented neural network (MANN), few-shot learning, and efficient long-range attention. First, we design two NAM-based MANNs of Long Short-term Memory (LSAM) and NAM Turing Machine (NAM-TM) that show better computational powers in algorithmic zero-shot generalization tasks compared to other baselines such as differentiable neural computer (DNC). Next, we apply NAM to the N-way K-shot learning task and show that it is more effective at reducing false positives compared to the baseline cosine classifier. Finally, we implement an efficient Transformer with NAM and evaluate it with long-range arena tasks to show that NAM can be an efficient and effective alternative for scaled dot-product attention.
翻訳日:2023-10-18 05:58:05 公開日:2023-10-14
# 構造化動的価格:グローバル収縮モデルにおける最適後悔

Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model ( http://arxiv.org/abs/2303.15652v2 )

ライセンス: Link先を確認
Rashmi Ranjan Bhuyan, Adel Javanmard, Sungchul Kim, Gourab Mukherjee, Ryan A. Rossi, Tong Yu, Handong Zhao(参考訳) 我々は,多数の顧客セグメントにまたがる累積利益を最大化することが目的のストリーム縦型データ集合における動的価格戦略を検討する。 消費者の好みや価格の感度が時間とともに変化する動的モデルを考える。 類似した特性を共有する消費者が同様の方法で行動するというよく知られた発見に基づき、異なるセグメントをまたいだ消費者の嗜好を空間的自己回帰(sar)モデルによってよく近似できると仮定するグローバルな収縮構造を考える。 このようなストリーム型縦型設定では,モデルパラメータのシーケンスを事前に知っている透視型と比較して,予測した収益損失を後悔して,動的価格政策のパフォーマンスを計測する。 本稿では,ペナルティ化された確率的勾配降下(psgd)に基づく価格政策を提案し,その後悔を時間関数,モデルパラメータの時間変動性,および顧客セグメントにまたがる自己相関ネットワーク構造の強度として明確に特徴付ける。 提案した政策の漸近的最適性を示すだけでなく,未解決モデルに基づく政策として利用可能な構造情報を組み込むことが,上記の設定において極めて最適であることを示す。 提案手法を応用したシミュレーション実験と実世界ネットワークを用いた実験を行い,提案手法の性能向上を報告した。

We consider dynamic pricing strategies in a streamed longitudinal data set-up where the objective is to maximize, over time, the cumulative profit across a large number of customer segments. We consider a dynamic model with the consumers' preferences as well as price sensitivity varying over time. Building on the well-known finding that consumers sharing similar characteristics act in similar ways, we consider a global shrinkage structure, which assumes that the consumers' preferences across the different segments can be well approximated by a spatial autoregressive (SAR) model. In such a streamed longitudinal set-up, we measure the performance of a dynamic pricing policy via regret, which is the expected revenue loss compared to a clairvoyant that knows the sequence of model parameters in advance. We propose a pricing policy based on penalized stochastic gradient descent (PSGD) and explicitly characterize its regret as functions of time, the temporal variability in the model parameters as well as the strength of the auto-correlation network structure spanning the varied customer segments. Our regret analysis results not only demonstrate asymptotic optimality of the proposed policy but also show that for policy planning it is essential to incorporate available structural information as policies based on unshrunken models are highly sub-optimal in the aforementioned set-up. We conduct simulation experiments across a wide range of regimes as well as real-world networks based studies and report encouraging performance for our proposed method.
翻訳日:2023-10-18 05:51:54 公開日:2023-10-14
# 機械翻訳におけるChatGPTの活用に向けて

Towards Making the Most of ChatGPT for Machine Translation ( http://arxiv.org/abs/2303.13780v2 )

ライセンス: Link先を確認
Keqin Peng, Liang Ding, Qihuang Zhong, Li Shen, Xuebo Liu, Min Zhang, Yuanxin Ouyang, Dacheng Tao(参考訳) ChatGPTは機械翻訳(MT)の優れた機能を示す。 いくつかの先行研究は、高リソース言語の商用システムに匹敵する結果が得られたが、低リソースや遠言語対訳といった複雑なタスクでは遅れていることを示している。 しかし、彼らは通常、ChatGPTの能力を十分に引き出すことができない単純なプロンプトを採用する。 本稿では,ChatGPTの翻訳能力について,温度,タスク情報,ドメイン情報といったいくつかの側面を再考し,最適温度設定と,タスク特化プロンプト(TSP)とドメイン特化プロンプト(DSP)の2つのプロンプトを提案する。 ご覧の通りです 1)ChatGPTの性能は温度に大きく依存し,低い温度では高い性能が得られる。 2)タスク情報の強調は,特に複雑なMTタスクにおいて,ChatGPTの性能をさらに向上させる。 3) ドメイン情報の導入により,chatgptの一般化能力が向上し,そのドメインにおける性能が向上する。 4)ChatGPTは非英語中心のMTタスクに対して幻覚を引き起こす傾向があり,これは提案したプロンプトによって部分的に対処できるが,MT/NLPコミュニティでは強調する必要がある。 また、高度な文脈内学習戦略の効果を探究し、(否定的だが興味深い)観察を見出す: 強力な連鎖的プロンプトは、単語毎の翻訳行動につながり、翻訳の大幅な低下をもたらす。

ChatGPT shows remarkable capabilities for machine translation (MT). Several prior studies have shown that it achieves comparable results to commercial systems for high-resource languages, but lags behind in complex tasks, e.g., low-resource and distant-language-pairs translation. However, they usually adopt simple prompts which can not fully elicit the capability of ChatGPT. In this paper, we aim to further mine ChatGPT's translation ability by revisiting several aspects: temperature, task information, and domain information, and correspondingly propose an optimal temperature setting and two (simple but effective) prompts: Task-Specific Prompts (TSP) and Domain-Specific Prompts (DSP). We show that: 1) The performance of ChatGPT depends largely on temperature, and a lower temperature usually can achieve better performance; 2) Emphasizing the task information can further improve ChatGPT's performance, particularly in complex MT tasks; 3) Introducing domain information can elicit ChatGPT's generalization ability and improve its performance in the specific domain; 4) ChatGPT tends to generate hallucinations for non-English-centric MT tasks, which can be partially addressed by our proposed prompts but still need to be highlighted for the MT/NLP community. We also explore the effects of advanced in-context learning strategies and find a (negative but interesting) observation: the powerful chain-of-thought prompt leads to word-by-word translation behavior, thus bringing significant translation degradation.
翻訳日:2023-10-18 05:51:07 公開日:2023-10-14
# QDP:ロボットの衣服操作のための準静的および動的マニピュレーションプリミティブを逐次最適化する学習

QDP: Learning to Sequentially Optimise Quasi-Static and Dynamic Manipulation Primitives for Robotic Cloth Manipulation ( http://arxiv.org/abs/2303.13320v2 )

ライセンス: Link先を確認
David Blanco-Mulero, Gokhan Alcan, Fares J. Abu-Dakka, Ville Kyrki(参考訳) 定義済みの操作プリミティブは布の操作に広く使われている。 しかし、その硬さや密度などの布質特性は、これらのプリミティブの性能に大きな影響を及ぼす可能性がある。 既存の解はピック位置と位置のパラメータ化に取り組んでいるが、準静的および動的操作プリミティブの速度や軌道などの要因の影響は無視されている。 これらのパラメータの適切な値を選択することは、ハウスホルドの布地に存在する材料の範囲に対処するために重要である。 この課題に対処するために,準静的および動的操作プリミティブのピック位置と位置位置に加えて,運動速度などのパラメータを最適化する準動的パラメータ可能法(qdp)を提案する。 本研究では,逐次強化学習の枠組みを利用して,プリミティブを構成するパラメータを逐次的に分離する。 本手法の有効性を評価するため,シミュレーションおよび実世界実験において,ロボットアームによる布の折り畳み作業に注目する。 シミュレーションの結果,プリミティブの最適パラメータを決定することにより,サブ最適パラメータに比べて性能が20%向上することが示された。 実世界の結果は、異なる質量、剛性、形状、大きさの布に対する操作プリミティブの速度と高さを変更する利点を示す。 追加資料、ビデオ、コードはhttps://sites.google.com/view/qdp-srl.comで見ることができる。

Pre-defined manipulation primitives are widely used for cloth manipulation. However, cloth properties such as its stiffness or density can highly impact the performance of these primitives. Although existing solutions have tackled the parameterisation of pick and place locations, the effect of factors such as the velocity or trajectory of quasi-static and dynamic manipulation primitives has been neglected. Choosing appropriate values for these parameters is crucial to cope with the range of materials present in house-hold cloth objects. To address this challenge, we introduce the Quasi-Dynamic Parameterisable (QDP) method, which optimises parameters such as the motion velocity in addition to the pick and place positions of quasi-static and dynamic manipulation primitives. In this work, we leverage the framework of Sequential Reinforcement Learning to decouple sequentially the parameters that compose the primitives. To evaluate the effectiveness of the method we focus on the task of cloth unfolding with a robotic arm in simulation and real-world experiments. Our results in simulation show that by deciding the optimal parameters for the primitives the performance can improve by 20% compared to sub-optimal ones. Real-world results demonstrate the advantage of modifying the velocity and height of manipulation primitives for cloths with different mass, stiffness, shape and size. Supplementary material, videos, and code, can be found at https://sites.google.com/view/qdp-srl.
翻訳日:2023-10-18 05:50:39 公開日:2023-10-14
# NF-ULA:画像逆問題に先立って正規化フローを持つランジェヴィン・モンテカルロ

NF-ULA: Langevin Monte Carlo with Normalizing Flow Prior for Imaging Inverse Problems ( http://arxiv.org/abs/2304.08342v2 )

ライセンス: Link先を確認
Ziruo Cai, Junqi Tang, Subhadip Mukherjee, Jinglai Li, Carola Bibiane Sch\"onlieb, Xiaoqun Zhang(参考訳) 逆問題の解法は、ベイズ的手法が解の不確実性を定量化する能力を提供するので、古典的な方法の強力な代替手段である。 近年、逆問題を解くためのデータ駆動手法も、その優れた表現能力のために著しく成功している。 本研究では,画像逆問題におけるベイズ推定のためのランジュバンに基づくサンプリングアルゴリズムのクラスにデータベースモデルを導入する。 特に,画像として正規化フロー(nf)を学習するnf-ula(normalizing flow-based unadjusted langevin algorithm)を導入する。 私たちはnfを使って事前学習します。なぜなら、ログの扱いやすいクローズドフォーム式は、autogradライブラリを使ってそれを区別できるからです。 提案アルゴリズムは,逆問題やフォワード演算子とは独立に事前学習可能な,フローベース生成ネットワークの正規化のみを必要とする。 結果のnf-ulaアルゴリズムの well-posedness と non-asymptotic convergence を調査して理論的解析を行う。 nf-ulaアルゴリズムの有効性は,画像デブラリング,画像インパインティング,有限角x線ct再構成などの様々な画像復元問題において実証された。 NF-ULAは、深刻な逆問題に対して競合する手法よりも優れていた。

Bayesian methods for solving inverse problems are a powerful alternative to classical methods since the Bayesian approach offers the ability to quantify the uncertainty in the solution. In recent years, data-driven techniques for solving inverse problems have also been remarkably successful, due to their superior representation ability. In this work, we incorporate data-based models into a class of Langevin-based sampling algorithms for Bayesian inference in imaging inverse problems. In particular, we introduce NF-ULA (Normalizing Flow-based Unadjusted Langevin algorithm), which involves learning a normalizing flow (NF) as the image prior. We use NF to learn the prior because a tractable closed-form expression for the log prior enables the differentiation of it using autograd libraries. Our algorithm only requires a normalizing flow-based generative network, which can be pre-trained independently of the considered inverse problem and the forward operator. We perform theoretical analysis by investigating the well-posedness and non-asymptotic convergence of the resulting NF-ULA algorithm. The efficacy of the proposed NF-ULA algorithm is demonstrated in various image restoration problems such as image deblurring, image inpainting, and limited-angle X-ray computed tomography (CT) reconstruction. NF-ULA is found to perform better than competing methods for severely ill-posed inverse problems.
翻訳日:2023-10-18 05:40:24 公開日:2023-10-14
# TPMCF:マルチソース協調機能を用いた時間QoS予測

TPMCF: Temporal QoS Prediction using Multi-Source Collaborative Features ( http://arxiv.org/abs/2303.18201v2 )

ライセンス: Link先を確認
Suraj Kumar, Soumi Chattopadhyay, Chandranath Adak(参考訳) 近年,サービスAPIの迅速な展開により,eコマース産業の成長において,パーソナライズされたサービスレコメンデーションが重要な役割を担っている。 サービスパフォーマンスを決定するqos(quality-of-service)パラメータは、レコメンデーションによく使用されるが、時間とともに変動する。 したがって、qos予測は、時間とともに機能的に等価なサービス間で適切なサービスを特定するために不可欠である。 現在の時間的qos予測手法では,データスパーシティや異常値の処理が不可能であり,ユーザサービス間インタラクション間の高次時間的関係を捉えるなど,さまざまな制限により所望の精度が得られなかった。 最近のリカレントニューラルネットワークベースのアーキテクチャでは、QoSデータ間の時間的関係をモデル化することができるが、他の機能(例えば協調的な機能)がないために予測精度が低下し、ユーザサービス間のインタラクション間の関係が理解される。 本稿では、上記の課題に対処し、TPMCF(Multi-source Collaborative-Features)を用いた時間的QoS予測のためのスケーラブルな戦略を提案する。 TPMCFは、グラフ畳み込みとトランスフォーマーエンコーダとマルチヘッド自己アテンションを用いて、時空間の自動抽出機能とユーザサービスの関係を利用して、ユーザ/サービスの協調機能を組み合わせる。 提案手法をWS-DREAM-2データセット上で検証した。 大規模な実験により、TPMCFは高いスケーラビリティと応答性を確保するとともに、予測精度に関する最先端のアプローチよりも優れていた。

Recently, with the rapid deployment of service APIs, personalized service recommendations have played a paramount role in the growth of the e-commerce industry. Quality-of-Service (QoS) parameters determining the service performance, often used for recommendation, fluctuate over time. Thus, the QoS prediction is essential to identify a suitable service among functionally equivalent services over time. The contemporary temporal QoS prediction methods hardly achieved the desired accuracy due to various limitations, such as the inability to handle data sparsity and outliers and capture higher-order temporal relationships among user-service interactions. Even though some recent recurrent neural-network-based architectures can model temporal relationships among QoS data, prediction accuracy degrades due to the absence of other features (e.g., collaborative features) to comprehend the relationship among the user-service interactions. This paper addresses the above challenges and proposes a scalable strategy for Temporal QoS Prediction using Multi-source Collaborative-Features (TPMCF), achieving high prediction accuracy and faster responsiveness. TPMCF combines the collaborative-features of users/services by exploiting user-service relationship with the spatio-temporal auto-extracted features by employing graph convolution and transformer encoder with multi-head self-attention. We validated our proposed method on WS-DREAM-2 datasets. Extensive experiments showed TPMCF outperformed major state-of-the-art approaches regarding prediction accuracy while ensuring high scalability and reasonably faster responsiveness.
翻訳日:2023-10-18 05:38:38 公開日:2023-10-14
# 複数の知識モダリティを備えた統合AI創薬に向けて

Towards Unified AI Drug Discovery with Multiple Knowledge Modalities ( http://arxiv.org/abs/2305.01523v2 )

ライセンス: Link先を確認
Yizhen Luo, Xing Yi Liu, Kai Yang, Kui Huang, Massimo Hong, Jiahuan Zhang, Yushuai Wu, Zaiqing Nie(参考訳) 近年、分子構造やタンパク質配列から本質的なパターンを抽出するAIモデルは、薬物発見の加速を約束している。 しかし、これらの手法は、知識ベースから構造化知識を把握し、バイオメディカル文献から非構造化知識を付加する、人間の専門家による現実世界の薬学アプローチの遅れがある。 このギャップを埋めるため,我々は,構造化された知識と非構造化知識の両方を,巨大なai薬物発見タスクに最適な統合型,エンドツーエンド、マルチモーダルなディープラーニングフレームワークであるkeddを提案する。 このフレームワークは、まず異種入力から基礎となる特性を抽出し、その後、正確な予測にマルチモーダル融合を適用する。 モダリティの欠如を緩和するために,マルチヘッドスパースアテンションとモダリティマスキング機構を活用し,関連情報を堅牢に抽出する。 統合的な知識の恩恵を受け、我々のフレームワークは分子の実体をより深く理解し、幅広いタスクやベンチマークにおいて最先端の手法よりも大幅な改善をもたらし、現実世界の薬物発見を支援する有望な可能性を明らかにする。

In recent years, AI models that mine intrinsic patterns from molecular structures and protein sequences have shown promise in accelerating drug discovery. However, these methods partly lag behind real-world pharmaceutical approaches of human experts that additionally grasp structured knowledge from knowledge bases and unstructured knowledge from biomedical literature. To bridge this gap, we propose KEDD, a unified, end-to-end, and multimodal deep learning framework that optimally incorporates both structured and unstructured knowledge for vast AI drug discovery tasks. The framework first extracts underlying characteristics from heterogeneous inputs, and then applies multimodal fusion for accurate prediction. To mitigate the problem of missing modalities, we leverage multi-head sparse attention and a modality masking mechanism to extract relevant information robustly. Benefiting from integrated knowledge, our framework achieves a deeper understanding of molecule entities, brings significant improvements over state-of-the-art methods on a wide range of tasks and benchmarks, and reveals its promising potential in assisting real-world drug discovery.
翻訳日:2023-10-18 05:30:24 公開日:2023-10-14
# サーベイランスに対する身体的敵対攻撃:調査

Physical Adversarial Attacks for Surveillance: A Survey ( http://arxiv.org/abs/2305.01074v3 )

ライセンス: Link先を確認
Kien Nguyen, Tharindu Fernando, Clinton Fookes, Sridha Sridharan(参考訳) 現代の自動監視技術は、ディープラーニング手法に大きく依存している。 優れたパフォーマンスにもかかわらず、これらの学習システムは本質的に敵対的な攻撃に弱い。 敵は、敵のTシャツ、眼鏡、帽子、あるいは特定の行動により、身体的に外見を変えることができ、監視システムの様々な形態の検出、追跡、認識を回避し、安全資産や資産への不正アクセスを得ることができる。 これは現代の監視システムのセキュリティと安全性に深刻な脅威をもたらす。 本稿では,監視アプリケーションに対する物理敵攻撃の学習と設計における最近の試みと成果についてレビューする。 特に,身体的敵意攻撃を解析するためのフレームワークを提案し,このフレームワークに基づく4つの重要な監視課題である検出,識別,追跡,行動認識に対する物理的な敵意攻撃の包括的な調査を行う。 さらに, 物理的攻撃に対する防御戦略と防御の強さを評価する方法について検討し, 分析を行った。 本稿では,物理的な攻撃に対する監視システム内でのレジリエンスを構築するための重要なステップを示す。

Modern automated surveillance techniques are heavily reliant on deep learning methods. Despite the superior performance, these learning systems are inherently vulnerable to adversarial attacks - maliciously crafted inputs that are designed to mislead, or trick, models into making incorrect predictions. An adversary can physically change their appearance by wearing adversarial t-shirts, glasses, or hats or by specific behavior, to potentially avoid various forms of detection, tracking and recognition of surveillance systems; and obtain unauthorized access to secure properties and assets. This poses a severe threat to the security and safety of modern surveillance systems. This paper reviews recent attempts and findings in learning and designing physical adversarial attacks for surveillance applications. In particular, we propose a framework to analyze physical adversarial attacks and provide a comprehensive survey of physical adversarial attacks on four key surveillance tasks: detection, identification, tracking, and action recognition under this framework. Furthermore, we review and analyze strategies to defend against the physical adversarial attacks and the methods for evaluating the strengths of the defense. The insights in this paper present an important step in building resilience within surveillance systems to physical adversarial attacks.
翻訳日:2023-10-18 05:29:37 公開日:2023-10-14
# 風力エネルギーにおけるデジタルツイン : 新興技術と産業インフォームド・フューチャー

Digital Twins in Wind Energy: Emerging Technologies and Industry-Informed Future Directions ( http://arxiv.org/abs/2304.11405v2 )

ライセンス: Link先を確認
Florian Stadtman, Adil Rasheed, Trond Kvamsdal, Kjetil Andr\'e Johannessen, Omer San, Konstanze K\"olle, John Olav Gi{\ae}ver Tande, Idar Barstad, Alexis Benhamou, Thomas Brathaug, Tore Christiansen, Anouk-Letizia Firle, Alexander Fjeldly, Lars Fr{\o}yd, Alexander Gleim, Alexander H{\o}iberget, Catherine Meissner, Guttorm Nyg{\aa}rd, J{\o}rgen Olsen, H{\aa}vard Paulshus, Tore Rasmussen, Elling Rishoff, Francesco Scibilia, John Olav Skog{\aa}s(参考訳) 本稿では,デジタルツイン技術とその能力レベルを包括的に概観するとともに,風力エネルギー産業におけるツイン技術の応用について述べる。 デジタル双生児の定義と能力レベルを0-5; 0-standalone, 1-descriptive, 2-diagnostic, 3-predictive, 4-prescriptive, 5-autonomousから統合する。 そして、産業的な見地から、風力エネルギー分野における技術と研究ニーズの現況を特定する。 本稿は、研究機関の観点から特定課題へのアプローチを提案し、技術受容を促進するために多様な利害関係者に一連の勧告を提供する。 この論文の貢献は、現在の知識の状態の合成と、産業の観点からの今後の研究ニーズと課題の同定であり、最終的には、デジタルツインの分野における将来の研究開発とその風力エネルギー産業への応用のロードマップを提供するものである。

This article presents a comprehensive overview of the digital twin technology and its capability levels, with a specific focus on its applications in the wind energy industry. It consolidates the definitions of digital twin and its capability levels on a scale from 0-5; 0-standalone, 1-descriptive, 2-diagnostic, 3-predictive, 4-prescriptive, 5-autonomous. It then, from an industrial perspective, identifies the current state of the art and research needs in the wind energy sector. The article proposes approaches to the identified challenges from the perspective of research institutes and offers a set of recommendations for diverse stakeholders to facilitate the acceptance of the technology. The contribution of this article lies in its synthesis of the current state of knowledge and its identification of future research needs and challenges from an industry perspective, ultimately providing a roadmap for future research and development in the field of digital twin and its applications in the wind energy industry.
翻訳日:2023-10-18 05:28:29 公開日:2023-10-14
# 説明可能なAI研究における不正なサンプルサイズと一般化:より包括的なユーザ研究の原則

Unjustified Sample Sizes and Generalizations in Explainable AI Research: Principles for More Inclusive User Studies ( http://arxiv.org/abs/2305.09477v2 )

ライセンス: Link先を確認
Uwe Peters, Mary Carman(参考訳) 多くの倫理的枠組みは、説明可能な人工知能(AI)システムを必要とする。 説明可能なai(xai)モデルは、ユーザー研究の適性について頻繁にテストされる。 異なる人が異なる説明ニーズを持つ可能性があるため、ユーザ研究の参加者サンプルが、一般化を可能にするためにターゲット人口を表すのに十分な大きさであることは重要である。 しかし、xaiの研究者がどの程度サンプルサイズを反映し、正当化するか、あるいは広範囲にわたる一般化を避けるかは定かではない。 2012年から2022年にかけて発行されたXAIユーザスタディ(n = 220)を分析した。 ほとんどの研究はサンプルサイズについて根拠を示さなかった。 さらに、ほとんどの論文は対象とする個体群以上の結論を一般化しており、定量研究における広範な結論がより大きな標本と相関しているという証拠は存在しなかった。 これらの方法論的問題は、倫理的枠組みに求められる説明可能性を実装するかどうかの評価を妨げる可能性がある。 より包括的なXAIユーザ研究の原則を概説する。

Many ethical frameworks require artificial intelligence (AI) systems to be explainable. Explainable AI (XAI) models are frequently tested for their adequacy in user studies. Since different people may have different explanatory needs, it is important that participant samples in user studies are large enough to represent the target population to enable generalizations. However, it is unclear to what extent XAI researchers reflect on and justify their sample sizes or avoid broad generalizations across people. We analyzed XAI user studies (n = 220) published between 2012 and 2022. Most studies did not offer rationales for their sample sizes. Moreover, most papers generalized their conclusions beyond their target population, and there was no evidence that broader conclusions in quantitative studies were correlated with larger samples. These methodological problems can impede evaluations of whether XAI systems implement the explainability called for in ethical frameworks. We outline principles for more inclusive XAI user studies.
翻訳日:2023-10-18 05:18:53 公開日:2023-10-14
# DPMLBench: 微分プライベート機械学習の全体的評価

DPMLBench: Holistic Evaluation of Differentially Private Machine Learning ( http://arxiv.org/abs/2305.05900v2 )

ライセンス: Link先を確認
Chengkun Wei, Minghu Zhao, Zhikun Zhang, Min Chen, Wenlong Meng, Bo Liu, Yuan Fan, Wenzhi Chen(参考訳) 差分プライバシー(DP)は、プライバシー漏洩を定量化する厳密な数学的定義として、プライバシー保護の標準として広く受け入れられている。 強力な機械学習技術と組み合わせることで、微分プライベート機械学習(DPML)がますます重要になる。 最も古典的なDPMLアルゴリズムとして、DP-SGDは実用性に大きな損失をもたらし、DPMLの実際の展開を妨げる。 近年,DP-SGDに基づくアルゴリズムの改良が提案されている。 しかし、これらの研究は孤立しており、アルゴリズムで提案される改善の性能を包括的に測定することはできない。 さらに重要なのは、これらのDPMLアルゴリズムの改善を実用性、防御能力、一般化可能性で比較する包括的な研究が欠如していることだ。 このギャップを,画像分類タスクにおけるメンバーシップ推論攻撃(MIA)に対する実用性と防御能力に関する改良DPMLアルゴリズムの総合的な測定によって埋める。 まず,機械学習のライフサイクルにおける改善点の分類について述べる。 分類学に基づいて,改良されたDPMLアルゴリズムの広範な測定を共同で行う。 また,その評価において,最先端ラベル差分プライバシー (label dp) アルゴリズムについても取り上げる。 実験結果によると,DPはMIAに対して効果的に防御でき,サンプルごとの勾配クリッピングなどの感度バウンド技術は防御に重要な役割を担っている。 また、モデルユーティリティをメンテナンスし、miasに対してより効果的に防御できる改善も検討しています。 実験により、ラベルDPアルゴリズムは実用性損失が少なく、MIAに脆弱であることが示された。 我々は,DPMLアルゴリズムのデプロイを可能にするモジュール型再利用可能なソフトウェアDPMLBenchを実装し,研究者や実践者のためのベンチマークツールとして機能する。

Differential privacy (DP), as a rigorous mathematical definition quantifying privacy leakage, has become a well-accepted standard for privacy protection. Combined with powerful machine learning techniques, differentially private machine learning (DPML) is increasingly important. As the most classic DPML algorithm, DP-SGD incurs a significant loss of utility, which hinders DPML's deployment in practice. Many studies have recently proposed improved algorithms based on DP-SGD to mitigate utility loss. However, these studies are isolated and cannot comprehensively measure the performance of improvements proposed in algorithms. More importantly, there is a lack of comprehensive research to compare improvements in these DPML algorithms across utility, defensive capabilities, and generalizability. We fill this gap by performing a holistic measurement of improved DPML algorithms on utility and defense capability against membership inference attacks (MIAs) on image classification tasks. We first present a taxonomy of where improvements are located in the machine learning life cycle. Based on our taxonomy, we jointly perform an extensive measurement study of the improved DPML algorithms. We also cover state-of-the-art label differential privacy (Label DP) algorithms in the evaluation. According to our empirical results, DP can effectively defend against MIAs, and sensitivity-bounding techniques such as per-sample gradient clipping play an important role in defense. We also explore some improvements that can maintain model utility and defend against MIAs more effectively. Experiments show that Label DP algorithms achieve less utility loss but are fragile to MIAs. To support our evaluation, we implement a modular re-usable software, DPMLBench, which enables sensitive data owners to deploy DPML algorithms and serves as a benchmark tool for researchers and practitioners.
翻訳日:2023-10-18 05:17:30 公開日:2023-10-14
# ISP:無作為な縫製パターンで多層ガーメントドレーピング

ISP: Multi-Layered Garment Draping with Implicit Sewing Patterns ( http://arxiv.org/abs/2305.14100v2 )

ライセンス: Link先を確認
Ren Li, Beno\^it Guillard, Pascal Fua(参考訳) 人体モデルに個々の衣服を描く多くのアプローチは現実的であり、高速であり、ドレーピングされた身体形状に対して微分可能な出力を産出する。 しかし、日常的な服装で一般的な多層衣服を扱えないか、またはT目的の身体に限定されている。 本稿では,これらの制約に対処するパラメトリック衣服表現モデルを提案する。 衣料デザイナーが使用するモデルと同様に、各衣服は個々の2Dパネルで構成されている。 その2次元形状は、符号付き距離関数と2次元から3次元のマッピングによって定義される。 2Dパラメタライゼーションは潜在的な衝突の検出を容易にし、3Dパラメタライゼーションは複雑な形状を効果的に扱う。 この組み合わせは、純粋に暗黙的な表面表現よりも高速で高品質な再構成を実現し、その微分性により、画像からの層状衣服の回収を可能にする。 さらに、個々の2Dパネルを変更することで、衣服の形状やテクスチャの迅速な編集を支援する。

Many approaches to draping individual garments on human body models are realistic, fast, and yield outputs that are differentiable with respect to the body shape on which they are draped. However, they are either unable to handle multi-layered clothing, which is prevalent in everyday dress, or restricted to bodies in T-pose. In this paper, we introduce a parametric garment representation model that addresses these limitations. As in models used by clothing designers, each garment consists of individual 2D panels. Their 2D shape is defined by a Signed Distance Function and 3D shape by a 2D to 3D mapping. The 2D parameterization enables easy detection of potential collisions and the 3D parameterization handles complex shapes effectively. We show that this combination is faster and yields higher quality reconstructions than purely implicit surface representations, and makes the recovery of layered garments from images possible thanks to its differentiability. Furthermore, it supports rapid editing of garment shapes and texture by modifying individual 2D panels.
翻訳日:2023-10-18 05:10:33 公開日:2023-10-14
# プロアクティブ対話のための大規模言語モデルの提案と評価:明確化、目標誘導、非協調

Prompting and Evaluating Large Language Models for Proactive Dialogues: Clarification, Target-guided, and Non-collaboration ( http://arxiv.org/abs/2305.13626v2 )

ライセンス: Link先を確認
Yang Deng, Lizi Liao, Liang Chen, Hongru Wang, Wenqiang Lei, Tat-Seng Chua(参考訳) ChatGPTのようなLarge Language Models (LLM)に基づく会話システムは、文脈理解と応答生成において例外的な習熟度を示す。 しかし、その見事な能力にもかかわらず、あいまいなクエリに対してランダムにゲーミングされた回答を提供したり、ユーザの要求を拒否しなかったりといった制限がある。 これにより,LLMに基づく対話システムでは,対話の問題に対処できるかどうかが疑問視される。 本研究では,llmに基づく対話システムの包括的分析を行い,特に,対話の明確化,目標誘導,非協調対話の3つの側面に着目した。 LLMの能動性を高めるために,記述的推論チェーンよりも目標計画能力でLCMを増強するProactive Chain-of-Thought prompting schemeを提案する。 LLMに基づくプロアクティブ対話システムの今後の研究を促進するために,実証的な研究結果が議論されている。

Conversational systems based on Large Language Models (LLMs), such as ChatGPT, show exceptional proficiency in context understanding and response generation. However, despite their impressive capabilities, they still possess limitations, such as providing randomly-guessed answers to ambiguous queries or failing to refuse users' requests, both of which are considered aspects of a conversational agent's proactivity. This raises the question of whether LLM-based conversational systems are equipped to handle proactive dialogue problems. In this work, we conduct a comprehensive analysis of LLM-based conversational systems, specifically focusing on three aspects of proactive dialogue systems: clarification, target-guided, and non-collaborative dialogues. To trigger the proactivity of LLMs, we propose the Proactive Chain-of-Thought prompting scheme, which augments LLMs with the goal planning capability over descriptive reasoning chains. Empirical findings are discussed to promote future studies on LLM-based proactive dialogue systems.
翻訳日:2023-10-18 05:10:18 公開日:2023-10-14
# 適応型タスク特化プレフィックスを用いた汎用テキスト表現の学習

Learning Easily Updated General Purpose Text Representations with Adaptable Task-Specific Prefixes ( http://arxiv.org/abs/2305.13499v2 )

ライセンス: Link先を確認
Kuan-Hao Huang, Liang Tan, Rui Hou, Sinong Wang, Amjad Almahairi, Ruty Rinott(参考訳) 多くの現実世界のアプリケーションは、同じテキストから複数の予測を行う必要がある。 下流タスク毎に大きな事前学習された言語モデルを微調整することは、数回の前方パスによる推論時間の計算負荷を引き起こす。 計算コストを節約するためには、言語モデルを凍結し、固定テキスト表現に基づく下流タスクのための軽量モデルを構築することが一般的である。 したがって、ダウンストリームタスクをうまく一般化できる固定だが一般的なテキスト表現をどのように学ぶかが課題となる。 従来の研究では、事前学習された言語モデルを複数のタスクをマルチタスクで微調整することで、表現の一般化性を向上させることが示されている。 本研究では,ソースタスクで固定されたテキスト表現を学習するためのプレフィックスベース手法を提案する。 各ソースタスクに対して個別にタスク固有のプレフィックスを学び、それらを組み合わせて最終的な表現を得る。 実験の結果,プレフィックスベーストレーニングはマルチタスクトレーニングよりも優れており,マルチタスクトレーニングよりも少ない計算コストでテキスト表現を更新できることがわかった。

Many real-world applications require making multiple predictions from the same text. Fine-tuning a large pre-trained language model for each downstream task causes computational burdens in the inference time due to several times of forward passes. To amortize the computational cost, freezing the language model and building lightweight models for downstream tasks based on fixed text representations are common solutions. Accordingly, how to learn fixed but general text representations that can generalize well to unseen downstream tasks becomes a challenge. Previous works have shown that the generalizability of representations can be improved by fine-tuning the pre-trained language model with some source tasks in a multi-tasking way. In this work, we propose a prefix-based method to learn the fixed text representations with source tasks. We learn a task-specific prefix for each source task independently and combine them to get the final representations. Our experimental results show that prefix-based training performs better than multi-tasking training and can update the text representations at a smaller computational cost than multi-tasking training.
翻訳日:2023-10-18 05:09:44 公開日:2023-10-14
# Lion: プロプライエタリな大規模言語モデルの逆蒸留

Lion: Adversarial Distillation of Proprietary Large Language Models ( http://arxiv.org/abs/2305.12870v2 )

ライセンス: Link先を確認
Yuxin Jiang, Chunkit Chan, Mingyang Chen, Wei Wang(参考訳) 高度でプロプライエタリな大規模言語モデル (LLM) からコンパクトなオープンソース LLM に知識を移すことが注目されている。 従来の研究は、学生モデルの反応と教師モデルの反応を一連の指示に合わせることによって、一方向の知識蒸留方式に重点を置いてきた。 それにもかかわらず、学生モデルの性能が低下する難易度を識別し、生徒モデルの習熟度を反復的に向上させる「フィードバック」を組み込むことの可能性を見落としていた。 そこで本研究では,より効率的な知識伝達のための新しい逆蒸留フレームワークを提案する。 llmsの多用途な役割適応性を活用して,教師モデルに対して「ハード」命令を識別し,生徒モデルの新たな「ハード」命令を生成し,模倣,識別,生成の3段階の逆ループを作成する。 この敵対的枠組みを適用することで,チャットgptからわずか70kのトレーニングデータを用いて,知識を学生モデル(lion)に転送することに成功した。 我々の結果は、Lion-13BがChatGPTに匹敵するオープンエンド生成能力を達成するだけでなく、BIG-Bench Hard(BBH)やAGIEvalの16.7%といったゼロショット推論ベンチマークにおいて、Vicuna-13Bのような従来の最先端(SOTA)命令チューニングモデルを55.4%上回ることを示している。 コードとモデルはhttps://github.com/YJiangcm/Lion.orgにある。

The practice of transferring knowledge from a sophisticated, proprietary large language model (LLM) to a compact, open-source LLM has garnered considerable attention. Previous works have focused on a unidirectional knowledge distillation way by aligning the responses of the student model with those of the teacher model to a set of instructions. Nevertheless, they overlooked the possibility of incorporating any reciprocal "feedback"--identifying challenging instructions where the student model's performance falls short--to boost the student model's proficiency iteratively. To this end, we propose a novel adversarial distillation framework for a more efficient knowledge transfer. Leveraging the versatile role adaptability of LLMs, we prompt the teacher model to identify "hard" instructions and generate new "hard" instructions for the student model, creating a three-stage adversarial loop of imitation, discrimination, and generation. By applying this adversarial framework, we successfully transfer knowledge from ChatGPT to a student model (named Lion), using a mere 70k training data. Our results show that Lion-13B not only achieves comparable open-ended generation capabilities to ChatGPT but surpasses conventional state-of-the-art (SOTA) instruction-tuned models like Vicuna-13B by 55.4% in challenging zero-shot reasoning benchmarks such as BIG-Bench Hard (BBH) and 16.7% on AGIEval. Code and model can be found at https://github.com/YJiangcm/Lion.
翻訳日:2023-10-18 05:09:16 公開日:2023-10-14
# VQAにおける忠実で可視な視界計測

Measuring Faithful and Plausible Visual Grounding in VQA ( http://arxiv.org/abs/2305.15015v2 )

ライセンス: Link先を確認
Daniel Reich, Felix Putze, Tanja Schultz(参考訳) VQA(Visual Question Answering)システムにおける視覚的グラウンドリング(VG)のメトリクスは主に、与えられた質問に対する回答を推測する際の、画像の関連部分への依存度を測定することを目的としている。 VGの欠如は最先端のVQAシステムに共通する問題であり、無関係な画像部品に過度に依存したり、視覚的モダリティを完全に無視したりすることができる。 VQAモデルの推論能力はいくつかの定性的な図によって説明されることが多いが、ほとんどのシステムはVG特性について定量的に評価されていない。 我々は、システムのVGを有意に測定する簡単な計算基準は、この欠点を解消し、モデル評価と分析にもう1つの価値ある次元を加えるのに役立つと考えている。 この目的のために,モデルが成立するかどうかをキャプチャする新しいVGメトリックを提案する。 a)シーン内の質問対象を特定すること,及び b) 実際に,その回答を生成する際に,当該対象物に含まれる情報に依存する。すなわち,その視覚的接地が「不利」かつ「嘆かわしい」ものである場合 FPVG(Faithful and Plausible Visual Grounding)と呼ばれる我々のメトリクスは、ほとんどのVQAモデルの設計を簡単に決定できる。 FPVGの詳細な説明と,様々なVQAアーキテクチャにまたがる参照システムの評価を行う。 GQAデータセットのメトリック計算をサポートするコードはGitHubで公開されている。

Metrics for Visual Grounding (VG) in Visual Question Answering (VQA) systems primarily aim to measure a system's reliance on relevant parts of the image when inferring an answer to the given question. Lack of VG has been a common problem among state-of-the-art VQA systems and can manifest in over-reliance on irrelevant image parts or a disregard for the visual modality entirely. Although inference capabilities of VQA models are often illustrated by a few qualitative illustrations, most systems are not quantitatively assessed for their VG properties. We believe, an easily calculated criterion for meaningfully measuring a system's VG can help remedy this shortcoming, as well as add another valuable dimension to model evaluations and analysis. To this end, we propose a new VG metric that captures if a model a) identifies question-relevant objects in the scene, and b) actually relies on the information contained in the relevant objects when producing its answer, i.e., if its visual grounding is both "faithful" and "plausible". Our metric, called "Faithful and Plausible Visual Grounding" (FPVG), is straightforward to determine for most VQA model designs. We give a detailed description of FPVG and evaluate several reference systems spanning various VQA architectures. Code to support the metric calculations on the GQA data set is available on GitHub.
翻訳日:2023-10-18 04:58:26 公開日:2023-10-14
# ComSL: エンドツーエンド音声テキスト翻訳のための複合言語モデル

ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation ( http://arxiv.org/abs/2305.14838v2 )

ライセンス: Link先を確認
Chenyang Le, Yao Qian, Long Zhou, Shujie Liu, Yanmin Qian, Michael Zeng, Xuedong Huang(参考訳) 音声と言語間のモダリティギャップに加えて、トレーニングデータとgpu消費の需要が大きいため、音声と言語の合同トレーニングは困難である。 公立事前訓練された音声のみと言語のみの複合アーキテクチャ上に構築された音声言語モデルであるComSLについて述べる。 特に,トランスファー学習にクロスモダリティ学習を取り入れ,マルチタスク学習方式で下流タスクを同時に行うことを提案する。 提案手法は,21言語を対象とした多言語音声から英語への翻訳タスクにおいて,最先端の平均BLEUスコア31.5を達成し,エンドツーエンドの音声からテキストへの翻訳タスクに有効であることを示した。

Joint speech-language training is challenging due to the large demand for training data and GPU consumption, as well as the modality gap between speech and language. We present ComSL, a speech-language model built atop a composite architecture of public pretrained speech-only and language-only models and optimized data-efficiently for spoken language tasks. Particularly, we propose to incorporate cross-modality learning into transfer learning and conduct them simultaneously for downstream tasks in a multi-task learning manner. Our approach has demonstrated effectiveness in end-to-end speech-to-text translation tasks, achieving a new state-of-the-art average BLEU score of 31.5 on the multilingual speech to English text translation task for 21 languages, as measured on the public CoVoST2 evaluation set.
翻訳日:2023-10-18 04:58:03 公開日:2023-10-14
# vip5:レコメンデーションのためのマルチモーダル基礎モデルに向けて

VIP5: Towards Multimodal Foundation Models for Recommendation ( http://arxiv.org/abs/2305.14302v2 )

ライセンス: Link先を確認
Shijie Geng and Juntao Tan and Shuchang Liu and Zuohui Fu and Yongfeng Zhang(参考訳) Computer Vision(CV)、Natural Language Processing(NLP)、Recommender Systems(RecSys)は、伝統的に独立して開発された3つの著名なAIアプリケーションである。 このことは、これらの分野が互いの進歩から直接利益を得る能力を妨げている。 近年の基盤モデルの発展に伴い、様々なモダリティや問題定式化のための汎用インターフェースとして大きな言語モデルが登場している。 そこで本稿では,視覚,テキスト,パーソナライズモダリティを考慮した多モード基礎モデル(mfm)を開発し,vip5 (visual p5) と命名し,様々なモダリティとレコメンデーションタスクを統合する。 これにより、共有アーキテクチャにおける複数のモダリティの処理が可能になり、レコメンデーションが改善される。 これを実現するために、共有フォーマットで複数のモダリティに対応するマルチモーダルパーソナライズされたプロンプトを導入する。 さらに,p5バックボーンの凍結と軽量アダプタの微調整を含む基礎モデルのパラメータ効率のよいトレーニング手法を提案する。 vip5のコードとデータはhttps://github.com/jeykigung/vip5で入手できる。

Computer Vision (CV), Natural Language Processing (NLP), and Recommender Systems (RecSys) are three prominent AI applications that have traditionally developed independently, resulting in disparate modeling and engineering methodologies. This has impeded the ability for these fields to directly benefit from each other's advancements. With the recent development of foundation models, large language models have emerged as a potential general-purpose interface for unifying different modalities and problem formulations. In light of this, we propose the development of a multimodal foundation model (MFM) considering visual, textual, and personalization modalities under the P5 recommendation paradigm, thus named VIP5 (Visual P5), to unify various modalities and recommendation tasks. This will enable the processing of multiple modalities in a shared architecture for improved recommendations. To achieve this, we introduce multimodal personalized prompts to accommodate multiple modalities under a shared format. Additionally, we propose a parameter-efficient training method for foundation models, which involves freezing the P5 backbone and fine-tuning lightweight adapters, resulting in improved recommendation performance and increased efficiency in terms of training time and memory usage. Code and data of VIP5 are available at https://github.com/jeykigung/VIP5.
翻訳日:2023-10-18 04:57:22 公開日:2023-10-14
# LIBERO:生涯ロボット学習のための知識伝達のベンチマーク

LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning ( http://arxiv.org/abs/2306.03310v2 )

ライセンス: Link先を確認
Bo Liu, Yifeng Zhu, Chongkai Gao, Yihao Feng, Qiang Liu, Yuke Zhu, Peter Stone(参考訳) 生涯学習は、その寿命を学習し適応するジェネラリストエージェントを構築するという有望なパラダイムを提供する。 画像やテキスト領域における伝統的な生涯学習問題とは違い、主に実体や概念の宣言的知識の伝達を伴うが、意思決定における生涯学習は行動や行動などの手続き的知識の伝達も必要である。 LLDMの研究を進めるために,ロボット操作のための生涯学習のベンチマークであるLIBEROを紹介する。 特に、LIBEROはLLDMにおける5つの重要な研究トピックを強調している。 1) 宣言的知識,手続的知識又は両者の混在を効率的に伝達する方法 2 効果的な政策建築の設計方法及び方法 3) LLDMの有効なアルゴリズム 4)タスクの順序付けに関する生涯学習者の頑健性 5) lldmのモデル事前学習の効果について。 無限に多くのタスクを生成できる拡張可能な手続き生成パイプラインを開発した。 ベンチマークのために、上記の研究トピックを調査するために使用する4つのタスクスイート(合計130タスク)を作成します。 サンプル効率の学習を支援するため,全てのタスクに対して高品質な人間操作型実演データを提供する。 逐次微調整(Sequence Finetuning)は、既存の生涯学習法を前向きに上回り、単一の視覚エンコーダアーキテクチャは、あらゆる種類の知識伝達に優れず、教師付き事前学習は、その後のLLDMにおけるエージェントのパフォーマンスを阻害する。 コードとデータセットはhttps://libero-project.github.ioにある。

Lifelong learning offers a promising paradigm of building a generalist agent that learns and adapts over its lifespan. Unlike traditional lifelong learning problems in image and text domains, which primarily involve the transfer of declarative knowledge of entities and concepts, lifelong learning in decision-making (LLDM) also necessitates the transfer of procedural knowledge, such as actions and behaviors. To advance research in LLDM, we introduce LIBERO, a novel benchmark of lifelong learning for robot manipulation. Specifically, LIBERO highlights five key research topics in LLDM: 1) how to efficiently transfer declarative knowledge, procedural knowledge, or the mixture of both; 2) how to design effective policy architectures and 3) effective algorithms for LLDM; 4) the robustness of a lifelong learner with respect to task ordering; and 5) the effect of model pretraining for LLDM. We develop an extendible procedural generation pipeline that can in principle generate infinitely many tasks. For benchmarking purpose, we create four task suites (130 tasks in total) that we use to investigate the above-mentioned research topics. To support sample-efficient learning, we provide high-quality human-teleoperated demonstration data for all tasks. Our extensive experiments present several insightful or even unexpected discoveries: sequential finetuning outperforms existing lifelong learning methods in forward transfer, no single visual encoder architecture excels at all types of knowledge transfer, and naive supervised pretraining can hinder agents' performance in the subsequent LLDM. Check the website at https://libero-project.github.io for the code and the datasets.
翻訳日:2023-10-18 04:49:47 公開日:2023-10-14
# 量子力学写像の可逆性と非マルコフ性

Noninvertibility and non-Markovianity of quantum dynamical maps ( http://arxiv.org/abs/2306.12773v2 )

ライセンス: Link先を確認
Vinayak Jagadish, R. Srikanth and Francesco Petruccione(参考訳) 我々は、量子力学写像における2つの広範な非可逆性を同定する。 非可逆なパウリ写像を混合するプロセスにより、(非)マルコフ写像、可逆写像の生成を研究し、その分数の定量化を行う。 メモリカーネルの観点は、マップやマスター方程式に基づくアプローチよりも可逆性の問題に関して透明性が低いようである。 ここでは、よく定義された半群極限の存在に繋がる写像のパラメタライズド・ファミリーの基準の同定という、関連する潜在的に有用な問題を考える。

We identify two broad types of noninvertibilities in quantum dynamical maps, one necessarily associated with CP indivisibility and one not so. We study the production of (non-)Markovian, invertible maps by the process of mixing noninvertible Pauli maps, and quantify the fraction of the same. The memory kernel perspective appears to be less transparent on the issue of invertibility than the approaches based on maps or master equations. Here we consider a related and potentially helpful issue: the identification of criteria of parameterized families of maps leading to the existence of a well-defined semigroup limit.
翻訳日:2023-10-18 04:38:22 公開日:2023-10-14
# 構造に基づく薬物設計のための幾何学的深層学習の体系的調査

A Systematic Survey in Geometric Deep Learning for Structure-based Drug Design ( http://arxiv.org/abs/2306.11768v4 )

ライセンス: Link先を確認
Zaixi Zhang, Jiaxian Yan, Qi Liu, Enhong Chen, and Marinka Zitnik(参考訳) タンパク質の3次元形状を利用して潜在的な薬物候補を特定する構造に基づく薬物設計(SBDD)は、薬物発見においてますます重要になっている。 しかし、従来の物理化学モデリングと専門家のドメイン知識に基づく手法は時間と労力がかかる。 幾何学的深層学習の最近の進歩は、AlphaFoldのようなツールによる正確なタンパク質3D構造予測の可用性と相まって、構造に基づく薬物設計の進歩を著しく促進している。 本稿では,構造に基づく薬物設計における幾何深層学習の最近の進歩を体系的に概観する。 本稿では,構造に基づく薬物設計における基礎的課題,一般的な3dタンパク質表現と代表的な予測・生成モデルについて概説する。 次に、各タスクの詳細なレビュー(結合サイト予測、結合ポーズ生成、\emph{de novo}分子生成、リンカー設計、結合親和性予測)について、問題設定、代表メソッド、データセット、評価指標、ベンチマーク性能などについて検討する。 最後に,本調査の課題と,構造に基づく薬物設計における幾何学的深層学習の可能性を明らかにする。 私たちは、SBDDの最先端研究のリポジトリを \url{https://github.com/zaixizhang/Awesome-SBDD}でキュレートします。

Structure-based drug design (SBDD), which utilizes the three-dimensional geometry of proteins to identify potential drug candidates, is becoming increasingly vital in drug discovery. However, traditional methods based on physiochemical modeling and experts' domain knowledge are time-consuming and laborious. The recent advancements in geometric deep learning, which integrates and processes 3D geometric data, coupled with the availability of accurate protein 3D structure predictions from tools like AlphaFold, have significantly propelled progress in structure-based drug design. This paper systematically reviews the recent progress of geometric deep learning for structure-based drug design. We briefly discuss cornerstone tasks in structure-based drug design, commonly used 3D protein representations and representative predictive/generative models. Then, we delve into detailed reviews for each task (binding site prediction, binding pose generation, \emph{de novo} molecule generation, linker design, and binding affinity prediction), including the problem setup, representative methods, datasets, evaluation metrics, and benchmarking performance. Finally, we conclude this survey with the current challenges and highlight potential opportunities of geometric deep learning for structure-based drug design. We curate a repository of state-of-the-art studies in SBDD at \url{https://github.com/zaixizhang/Awesome-SBDD}.
翻訳日:2023-10-18 04:38:11 公開日:2023-10-14
# エゴセントリック行動認識のためのフリーフォーム合成ネットワーク

Free-Form Composition Networks for Egocentric Action Recognition ( http://arxiv.org/abs/2307.06527v2 )

ライセンス: Link先を確認
Haoran Wang, Qinghua Cheng, Baosheng Yu, Yibing Zhan, Dapeng Tao, Liang Ding, and Haibin Ling(参考訳) エゴセントリックな行動認識は、人間の行動認識の分野で大きな注目を集めている。 本稿では,合成一般化の観点から,自己中心型行動認識におけるデータ不足問題に対処する。 この問題に対処するために,不整形動詞,前置詞,名詞表現を同時に学習する自由形合成ネットワーク (FFCN) を提案し,これを用いて特徴空間に新たなサンプルを合成する。 まず、各アクションビデオにおける手/オブジェクトインスタンス間の空間的-時間的関係をグラフで捉える。 そこで我々は,各アクションを動詞の集合に分解し,グラフのエッジ特徴を用いた時空間表現を前置する。 時間分解は異なる映像フレームから動詞と前置表現を抽出し、空間分解は各フレームの動作関連インスタンスから動詞と前置表現を適応的に学習する。 これらの動詞と前置詞の時空間表現により、動詞と名詞の厳密な形式に制限されない、これらの稀なクラスに対する新しいサンプルを自由形式で作成することができる。 提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。 提案手法は,3つの一般的なエゴセントリックな行動認識データセットであるSomething V2, H2O, EPIC-KITCHENS-100を用いて評価し, 提案手法の有効性を実証した。

Egocentric action recognition is gaining significant attention in the field of human action recognition. In this paper, we address data scarcity issue in egocentric action recognition from a compositional generalization perspective. To tackle this problem, we propose a free-form composition network (FFCN) that can simultaneously learn disentangled verb, preposition, and noun representations, and then use them to compose new samples in the feature space for rare classes of action videos. First, we use a graph to capture the spatial-temporal relations among different hand/object instances in each action video. We thus decompose each action into a set of verb and preposition spatial-temporal representations using the edge features in the graph. The temporal decomposition extracts verb and preposition representations from different video frames, while the spatial decomposition adaptively learns verb and preposition representations from action-related instances in each frame. With these spatial-temporal representations of verbs and prepositions, we can compose new samples for those rare classes in a free-form manner, which is not restricted to a rigid form of a verb and a noun. The proposed FFCN can directly generate new training data samples for rare classes, hence significantly improve action recognition performance. We evaluated our method on three popular egocentric action recognition datasets, Something-Something V2, H2O, and EPIC-KITCHENS-100, and the experimental results demonstrate the effectiveness of the proposed method for handling data scarcity problems, including long-tailed and few-shot egocentric action recognition.
翻訳日:2023-10-18 04:30:42 公開日:2023-10-14
# 多粒性トポロジー保護のための差分分離グラフ畳み込み

Differentially Private Decoupled Graph Convolutions for Multigranular Topology Protection ( http://arxiv.org/abs/2307.06422v3 )

ライセンス: Link先を確認
Eli Chien, Wei-Ning Chen, Chao Pan, Pan Li, Ayfer \"Ozg\"ur, Olgica Milenkovic(参考訳) GNNは、モデル予測を通じて、機密性の高いユーザ情報やインタラクションを不注意に公開することができる。 これらのプライバシー問題に対処するため、差分プライバシー(dp)プロトコルは、証明可能なプライバシー保護とモデルユーティリティの間のトレードオフを制御するために使用される。 2つの主な理由から、GNNに標準のDPアプローチを適用することは推奨できない。 まず、グラフ畳み込みによる隣接ノード属性に依存するノードラベルの予測は、プライバシの漏洩につながる可能性がある。 第2に,実用的なアプリケーションでは,ノード属性とグラフトポロジのプライバシ要件が異なる場合がある。 後者の設定では、既存のDP-GNNモデルは、グラフトポロジのプライバシ、ノード属性のプライバシ、GNNユーティリティ間のマルチグラニュラトレードオフを提供していない。 両制約に対処するため,グラフ学習に適したグラフ微分プライバシー(GDP)という新しいフレームワークを提案する。 GDPは実証可能なプライベートモデルパラメータとプライベート予測の両方を保証する。 さらに、グラフトポロジのプライバシーの異なるレベルにおけるGDPの特性を分析するために、グラフデータセットの隣接性という新たな統一概念について述べる。 その結果,グラフ畳み込みに依存するDP-GNNは,多粒グラフトポロジプライバシーの要件を満たすだけでなく,最大ノード次数に少なくとも線形にスケールするDPノイズの注入も必要であることがわかった。 対照的に、我々の提案した差分分離グラフ畳み込み(DPDGC)は、GDPに必要な保証を提供するグラフ畳み込みよりも柔軟で効率的な代替手段である。 提案手法を検証するために,7つのノード分類ベンチマークとイラストレイティブ合成データセットについて広範な実験を行った。 その結果,PDGCはプライバシ・ユーティリティ・トレードオフの観点から既存のDP-GNNよりも大幅に優れていた。

GNNs can inadvertently expose sensitive user information and interactions through their model predictions. To address these privacy concerns, Differential Privacy (DP) protocols are employed to control the trade-off between provable privacy protection and model utility. Applying standard DP approaches to GNNs directly is not advisable due to two main reasons. First, the prediction of node labels, which relies on neighboring node attributes through graph convolutions, can lead to privacy leakage. Second, in practical applications, the privacy requirements for node attributes and graph topology may differ. In the latter setting, existing DP-GNN models fail to provide multigranular trade-offs between graph topology privacy, node attribute privacy, and GNN utility. To address both limitations, we propose a new framework termed Graph Differential Privacy (GDP), specifically tailored to graph learning. GDP ensures both provably private model parameters as well as private predictions. Additionally, we describe a novel unified notion of graph dataset adjacency to analyze the properties of GDP for different levels of graph topology privacy. Our findings reveal that DP-GNNs, which rely on graph convolutions, not only fail to meet the requirements for multigranular graph topology privacy but also necessitate the injection of DP noise that scales at least linearly with the maximum node degree. In contrast, our proposed Differentially Private Decoupled Graph Convolutions (DPDGCs) represent a more flexible and efficient alternative to graph convolutions that still provides the necessary guarantees of GDP. To validate our approach, we conducted extensive experiments on seven node classification benchmarking and illustrative synthetic datasets. The results demonstrate that DPDGCs significantly outperform existing DP-GNNs in terms of privacy-utility trade-offs.
翻訳日:2023-10-18 04:30:15 公開日:2023-10-14
# 医療研究における反現実的説明の爆発的展開

Beyond Known Reality: Exploiting Counterfactual Explanations for Medical Research ( http://arxiv.org/abs/2307.02131v5 )

ライセンス: Link先を確認
Toygar Tanyel, Serkan Ayvaz and Bilgin Keserci(参考訳) 人工知能(ai)における説明可能性の分野は、多くの研究と学術的関心の高まりを目の当たりにしている。 しかし、機械学習アルゴリズムの結果を説明する上での人間にやさしい個人的解釈の欠如は、臨床医による研究や臨床実践におけるこれらの方法の受容を著しく妨げている。 本研究は, 医療研究における「もし」シナリオの適用性を検討するために, 反事実的説明を用いた。 我々の目的は、既存の境界を越えて小児後頭葉腫瘍の診断に使用されるMRI(MRI)の機能の理解を深めることである。 本ケーススタディにおいて,提案手法は,多様な状況下での予測の検証と変動の明確化を可能にする,パーソナライズ・コンテキスト固有の洞察を提供する代替意思決定シナリオを検討する新しい方法を提供する。 さらに,データ拡張のための偽物の利用の可能性について検討し,医療研究における代替的アプローチとしてその実現可能性を評価する。 この結果は, 臨床研究におけるAI駆動手法の受容を促進するために, 反事実的説明を用いることの可能性を示すものである。

The field of explainability in artificial intelligence (AI) has witnessed a growing number of studies and increasing scholarly interest. However, the lack of human-friendly and individual interpretations in explaining the outcomes of machine learning algorithms has significantly hindered the acceptance of these methods by clinicians in their research and clinical practice. To address this issue, our study uses counterfactual explanations to explore the applicability of "what if?" scenarios in medical research. Our aim is to expand our understanding of magnetic resonance imaging (MRI) features used for diagnosing pediatric posterior fossa brain tumors beyond existing boundaries. In our case study, the proposed concept provides a novel way to examine alternative decision-making scenarios that offer personalized and context-specific insights, enabling the validation of predictions and clarification of variations under diverse circumstances. Additionally, we explore the potential use of counterfactuals for data augmentation and evaluate their feasibility as an alternative approach in our medical research case. The results demonstrate the promising potential of using counterfactual explanations to enhance acceptance of AI-driven methods in clinical research.
翻訳日:2023-10-18 04:28:41 公開日:2023-10-14
# 非線形多共振キャビティ量子フォトニクスジャイロスコープ 量子光ナビゲーション

Nonlinear Multi-Resonant Cavity Quantum Photonics Gyroscopes Quantum Light Navigation ( http://arxiv.org/abs/2307.12167v2 )

ライセンス: Link先を確認
Mengdi Sun, Marko Lon\v{c}ar, Vassilios Kovanis and Zin Lin(参考訳) 薄膜$\chi^{(2)}$共振器 -- 量子光学非線形ジャイロまたはqongにおける非線形多共振共振器量子フォトニクスに基づくオンチップ全光ジャイロスコープを提案する。 ジャイロスコープの鍵となる特徴は、量子相関、非線形波混合、非慣性信号の共分散と共蓄積であり、すべて同じセンサ共振器内にある。 理論的にはQONGのフィッシャー情報を基本量子ノイズ条件下で解析する。 ベイズ最適化を用いてフィッシャー情報を最大化し、同じフットプリント、本質的品質因子、電力予算を持つショットノイズ制限線形ジャイロスコープよりも$\sim 900\times$の改善が可能であることを示す。

We propose an on-chip all-optical gyroscope based on nonlinear multi-resonant cavity quantum photonics in thin film $\chi^{(2)}$ resonators -- Quantum-Optic Nonlinear Gyro or QONG in short. The key feature of our gyroscope is co-arisal and co-accumulation of quantum correlations, nonlinear wave mixing and non-inertial signals, all inside the same sensor-resonator. We theoretically analyze the Fisher Information of our QONGs under fundamental quantum noise conditions. Using Bayesian optimization, we maximize the Fisher Information and show that $\sim 900\times$ improvement is possible over the shot-noise limited linear gyroscope with the same footprint, intrinsic quality factors and power budget.
翻訳日:2023-10-18 04:17:31 公開日:2023-10-14
# 相関光子・マッターモデルにおける多重ビット系の二部分割による量子不協和ダイナミクスの研究

Investigating the quantum discord dynamics with a bipartite split of the multiqubit system in the correlated photon-matter model ( http://arxiv.org/abs/2307.08207v2 )

ライセンス: Link先を確認
Miao Hui-hui(参考訳) 本稿では,共役量子電磁力学モデルであるtavis-cummings-hubbardモデルから修正した複素相関光子マターモデルにおける量子不協和のダイナミクスについて検討する。 ターゲットモデルは2つの水素原子から構成される。 中性水素分子は結合反応によって得られ、解離反応によって崩壊する。 共有結合の形成と破断にはフォノンの生成と消滅が伴う。 以前の研究と比較すると、この複雑な系の量子ディスコードダイナミクスの研究は、1つの2レベル原子からなる単純な量子システムにとってより困難である。 便宜のために、観測サブシステム上のマルチキュービット系と2キュービットのフォン・ノイマン射影測定の2部分割を用いる。 我々は, 閉量子系のユニタリ進化に加えて, 開量子系の散逸ダイナミクスについて検討する。 我々は、量子相関の正則性を、より複雑な量子系、特に原子核トンネル効果、共有結合強度、量子ディスコドに対する光子とフォノンの散逸強度の影響に関する将来の研究の基盤として特定することに専念する。

In this paper, we try to study the quantum discord dynamics in a complex correlated photon-matter model, which is modified from the Tavis-Cummings-Hubbard model - a common cavity quantum electrodynamics model. The target model consists of two hydrogen atoms. A neutral hydrogen molecule can be obtained through an association reaction and disintegrated through dissociation reaction. The formation and breaking of covalent bond is accompanied by the creation and annihilation of phonon. Compared with previous efforts, studying the quantum discord dynamics of this complicated system is more challenging than it was for the simple quantum system, which consisted of a single two-level atom. For convenience, we adopt a bipartite split of the multiqubit system and the two-qubit von Neumann projective measurement on the observed subsystem. We attempt to examine the dissipative dynamics in open quantum system in addition to the unitary evolution of closed quantum system. We are dedicated to identifying the regularity of quantum correlation as the basis for future research on more complex quantum systems, specifically including the impacts of nuclei tunneling effect, covalent bond intensity, and dissipation strengths of photon and phonon on quantum discord.
翻訳日:2023-10-18 04:17:16 公開日:2023-10-14
# グリッド衛星とゲージ計測降水データを組み合わせたアンサンブル学習

Ensemble learning for blending gridded satellite and gauge-measured precipitation data ( http://arxiv.org/abs/2307.06840v2 )

ライセンス: Link先を確認
Georgia Papacharalampous, Hristos Tyralis, Nikolaos Doulamis, Anastasios Doulamis(参考訳) 回帰アルゴリズムは衛星降水の精度を向上させるために定期的に用いられる。 この文脈では、衛星の降水と地形データは予測変数であり、測定された降水データは依存変数である。 これに加えて、アンサンブル学習によるアルゴリズムの組み合わせが予測性能を大幅に向上させる可能性があると多くの分野において認識されている。 しかし,衛星沈殿物の精度を向上させるためのアンサンブル学習者の数は少なく,その大規模比較は文献に欠落している。 本研究では,11人の新たなアンサンブル学習者をフィールドで提案し,それらを広範囲に比較することによって,このギャップを埋めることを目指す。 我々は, PERSIANN (Precipitation Estimation from Remotely Sensed Information Using Artificial Neural Networks) とIMERG (Integrated Multi-SatellitE Retrievals for GPM) のグリッド付きデータセットから得られた月次データに対して, センブル学習者を適用した。 また,global historical climatology network monthly database, version 2 (ghcnm) からのゲージ測定降水データも使用する。 アンサンブル学習者は、6つの機械学習回帰アルゴリズム(ベース学習者)、すなわち、多変量適応回帰スプライン(MARS)、多変量適応多項式スプライン(poly-MARS)、ランダムフォレスト(RF)、勾配押し上げ機(GBM)、極勾配押し上げ機(XGBoost)、ベイズ正規化ニューラルネットワーク(BRNN)の予測を組み合わせる。 コンバインダーには、等重量コンバインダー、中央結合器、2つの最高の学習者、洗練された積み重ね法の7つの変種が含まれる。 後者は、ベース学習者の上に回帰アルゴリズムを積み重ねて、独立した予測を組み合わせる。

Regression algorithms are regularly used for improving the accuracy of satellite precipitation products. In this context, satellite precipitation and topography data are the predictor variables, and gauged-measured precipitation data are the dependent variables. Alongside this, it is increasingly recognised in many fields that combinations of algorithms through ensemble learning can lead to substantial predictive performance improvements. Still, a sufficient number of ensemble learners for improving the accuracy of satellite precipitation products and their large-scale comparison are currently missing from the literature. In this study, we work towards filling in this specific gap by proposing 11 new ensemble learners in the field and by extensively comparing them. We apply the ensemble learners to monthly data from the PERSIANN (Precipitation Estimation from Remotely Sensed Information using Artificial Neural Networks) and IMERG (Integrated Multi-satellitE Retrievals for GPM) gridded datasets that span over a 15-year period and over the entire the contiguous United States (CONUS). We also use gauge-measured precipitation data from the Global Historical Climatology Network monthly database, version 2 (GHCNm). The ensemble learners combine the predictions of six machine learning regression algorithms (base learners), namely the multivariate adaptive regression splines (MARS), multivariate adaptive polynomial splines (poly-MARS), random forests (RF), gradient boosting machines (GBM), extreme gradient boosting (XGBoost) and Bayesian regularized neural networks (BRNN), and each of them is based on a different combiner. The combiners include the equal-weight combiner, the median combiner, two best learners and seven variants of a sophisticated stacking method. The latter stacks a regression algorithm on top of the base learners to combine their independent predictions...
翻訳日:2023-10-18 04:16:54 公開日:2023-10-14
# PV-SSD: 射影特徴と可変場ボクセル特徴のためのマルチモーダルポイントクラウド特徴融合法

PV-SSD: A Multi-Modal Point Cloud Feature Fusion Method for Projection Features and Variable Receptive Field Voxel Features ( http://arxiv.org/abs/2308.06791v4 )

ライセンス: Link先を確認
Yongxin Shao, Aihong Tan, Zhetao Sun, Enhui Zheng, Tianhong Yan and Peng Liao(参考訳) LiDARに基づく3Dオブジェクトの検出と分類は、自動運転に不可欠である。 しかし、非常にスパースな3Dデータからのリアルタイム推論は、非常に難しい課題である。 この問題に対処するために、典型的なアプローチのクラスは、点雲のキャストを正規データ表現(ボクセルや投影マップ)に変換する。 次に,畳み込みニューラルネットワークを用いて特徴抽出を行う。 しかし、そのような手法は、ダウンサンプリングや過剰な特徴情報の圧縮によって、ある程度の情報損失をもたらすことが多い。 本稿では,情報損失問題の解法として,投射特性と可変受容野ボクセル特徴(PV-SSD)をベースとしたマルチモーダル点雲特徴融合法を提案する。 本研究では,2次元畳み込みニューラルネットワークを用いた2枝特徴抽出構造を設計し,局所特徴間の相関に着目した鳥眼視で点雲の投影特徴を抽出する。 ボクセル特徴抽出枝を用いて局所的な微細な特徴を抽出する。 一方,ボクセル枝のダウンサンプリングによる情報損失を低減するために,可変感覚場を有するボクセル特徴抽出法を提案する。 検出タスクの特徴点重みに基づいてより有用な特徴点を選択することにより、クリティカルポイント情報の欠落を回避する。 さらに,ポイントクラウドのためのマルチモーダル機能融合モジュールを提案する。 提案手法の有効性を検証するため,KITTIデータセットとONCEデータセットを用いて実験を行った。

LiDAR-based 3D object detection and classification is crucial for autonomous driving. However, real-time inference from extremely sparse 3D data is a formidable challenge. To address this problem, a typical class of approaches transforms the point cloud cast into a regular data representation (voxels or projection maps). Then, it performs feature extraction with convolutional neural networks. However, such methods often result in a certain degree of information loss due to down-sampling or over-compression of feature information. This paper proposes a multi-modal point cloud feature fusion method for projection features and variable receptive field voxel features (PV-SSD) based on projection and variable voxelization to solve the information loss problem. We design a two-branch feature extraction structure with a 2D convolutional neural network to extract the point cloud's projection features in bird's-eye view to focus on the correlation between local features. A voxel feature extraction branch is used to extract local fine-grained features. Meanwhile, we propose a voxel feature extraction method with variable sensory fields to reduce the information loss of voxel branches due to downsampling. It avoids missing critical point information by selecting more useful feature points based on feature point weights for the detection task. In addition, we propose a multi-modal feature fusion module for point clouds. To validate the effectiveness of our method, we tested it on the KITTI dataset and ONCE dataset.
翻訳日:2023-10-18 04:10:19 公開日:2023-10-14
# 弱教師付きビデオモーメント定位のための反事実的クロスモダリティ推論

Counterfactual Cross-modality Reasoning for Weakly Supervised Video Moment Localization ( http://arxiv.org/abs/2308.05648v2 )

ライセンス: Link先を確認
Zezhong Lv, Bing Su, Ji-Rong Wen(参考訳) ビデオモーメントローカライゼーションは、自然言語クエリに従って、未トリミングビデオのターゲットセグメントを検索することを目的としている。 ターゲットセグメントの正確な時間的位置が常に利用できるとは限らないため、弱い教師付き手法が最近注目を集めている。 しかし、弱教師付き手法が直面する最大の課題の一つは、粗い時間的アノテーションによって引き起こされるビデオと言語間のミスマッチである。 視覚言語アライメントを洗練するために、最近の研究は、ポジティブなビデオ提案とネガティブなビデオ提案の間のマスクされたクエリを再構築することで引き起こされる、相互モダリティの類似性を対比している。 しかし、この再構成は、マスク付き単語がクロスモーダル知識から完全に再構成されるわけではないため、復元過程を歪曲し、コントラスト学習の有効性を低下させる、マスク付き部分とマスク付き部分との潜伏的な相関に影響される可能性がある。 本稿では,提案する反事実的相互モダリティ推論法を用いて,このスプリアス相関を発見・緩和する。 具体的には、クロスモーダル性とクエリ知識の集約因果効果として、クエリ再構築を初めて定式化する。 そして, このアグリゲーションに反事実的相互モダリティ知識を導入することにより, 再建に寄与する未完成部分の急激な影響をモデル化する。 最後に,マスククエリによる一助効果を抑えることにより,ビデオ提案の再構成を補正し,合理的なコントラスト学習を行う。 提案手法の有効性を実験的に検証した。 コードは \href{https://github.com/sldz0306/ccr}{https://github.com/sldz0306/ccr} で入手できる。

Video moment localization aims to retrieve the target segment of an untrimmed video according to the natural language query. Weakly supervised methods gains attention recently, as the precise temporal location of the target segment is not always available. However, one of the greatest challenges encountered by the weakly supervised method is implied in the mismatch between the video and language induced by the coarse temporal annotations. To refine the vision-language alignment, recent works contrast the cross-modality similarities driven by reconstructing masked queries between positive and negative video proposals. However, the reconstruction may be influenced by the latent spurious correlation between the unmasked and the masked parts, which distorts the restoring process and further degrades the efficacy of contrastive learning since the masked words are not completely reconstructed from the cross-modality knowledge. In this paper, we discover and mitigate this spurious correlation through a novel proposed counterfactual cross-modality reasoning method. Specifically, we first formulate query reconstruction as an aggregated causal effect of cross-modality and query knowledge. Then by introducing counterfactual cross-modality knowledge into this aggregation, the spurious impact of the unmasked part contributing to the reconstruction is explicitly modeled. Finally, by suppressing the unimodal effect of masked query, we can rectify the reconstructions of video proposals to perform reasonable contrastive learning. Extensive experimental evaluations demonstrate the effectiveness of our proposed method. The code is available at \href{https://github.com/sLdZ0306/CCR}{https://github.com/sLdZ0306/CCR}.
翻訳日:2023-10-18 04:09:37 公開日:2023-10-14
# RoadScan: 道路における自動ポットホール検出のための新しいロバストトランスファー学習フレームワーク

RoadScan: A Novel and Robust Transfer Learning Framework for Autonomous Pothole Detection in Roads ( http://arxiv.org/abs/2308.03467v2 )

ライセンス: Link先を確認
Guruprasad Parasnis, Anmol Chokshi, Vansh Jain, Kailas Devadkar(参考訳) 本研究では,ディープラーニングと画像処理技術を用いたポットホール検出手法を提案する。 提案システムは,VGG16モデルを用いて特徴抽出を行い,RoadScanと呼ばれるトリプルト損失を持つカスタムのSiameseネットワークを利用する。 このシステムは、道路利用者に重大なリスクをもたらす道路上の穴の重大な問題に対処することを目的としている。 道路上の穴による事故は、多くの事故を引き起こした。 ポットホールを完全に取り除く必要があるが、時間のかかる工程である。 したがって、一般道路利用者は損傷を避けるため、安全な距離から穴を検知できる必要がある。 既存のポットホール検出法は、道路やポットホールの構造やテクスチャの類似性により故障の確率が高い物体検出アルゴリズムに大きく依存している。 さらに、これらのシステムは数百万のパラメータを利用するため、一般市民向けの小規模アプリケーションではモデルの使用が困難になる。 多様な画像処理手法と多種多様なハイパフォーマンスネットワークを解析することにより,ポットホールを正確に検出する際の優れた性能を実現する。 精度、EER、精度、リコール、AUROCなどの評価指標は、システムの有効性を検証する。 さらに,本モデルでは,少ないパラメータとデータを用いて計算効率と費用対効果を示す。 この研究は、交通分野における技術の重要性と、道路安全と利便性を高める可能性を強調している。 このモデルで提案されたネットワークは96.12 %の精度、3.89 %のEER、0.988のAUROC値で動作し、これは他の最先端技術と非常に競合する。

This research paper presents a novel approach to pothole detection using Deep Learning and Image Processing techniques. The proposed system leverages the VGG16 model for feature extraction and utilizes a custom Siamese network with triplet loss, referred to as RoadScan. The system aims to address the critical issue of potholes on roads, which pose significant risks to road users. Accidents due to potholes on the roads have led to numerous accidents. Although it is necessary to completely remove potholes, it is a time-consuming process. Hence, a general road user should be able to detect potholes from a safe distance in order to avoid damage. Existing methods for pothole detection heavily rely on object detection algorithms which tend to have a high chance of failure owing to the similarity in structures and textures of a road and a pothole. Additionally, these systems utilize millions of parameters thereby making the model difficult to use in small-scale applications for the general citizen. By analyzing diverse image processing methods and various high-performing networks, the proposed model achieves remarkable performance in accurately detecting potholes. Evaluation metrics such as accuracy, EER, precision, recall, and AUROC validate the effectiveness of the system. Additionally, the proposed model demonstrates computational efficiency and cost-effectiveness by utilizing fewer parameters and data for training. The research highlights the importance of technology in the transportation sector and its potential to enhance road safety and convenience. The network proposed in this model performs with a 96.12 % accuracy, 3.89 % EER, and a 0.988 AUROC value, which is highly competitive with other state-of-the-art works.
翻訳日:2023-10-18 04:08:53 公開日:2023-10-14
# 科学とエンジニアリングとは何か? 理科見本市における学生プロジェクトの大規模分析

Science and engineering for what? A large-scale analysis of students' projects in science fairs ( http://arxiv.org/abs/2308.02962v2 )

ライセンス: Link先を確認
Adelmo Eloy, Thomas Palmeira Ferraz, Fellip Silva Alves, Roseli de Deus Lopes(参考訳) 科学と工学の見本市は、K-12の学生が本物のSTEMの実践に参加する機会を提供している。 特に、学生は、どのテーマ、質問、アプローチが科学的取り組みを導くかを定義することによって、真正でオープンな調査プロセスを経験する機会を与えられる。 本研究では,過去20年間にブラジルで開催された全国科学見本市で開催されている5000以上のプロジェクトから,学生の探究とデザインを導く主要なトピックを特定するために,トピックモデリングを用いてデータを分析した。 分析の結果,時間,地域,学校設定など,幅広いトピックが探索されていることが明らかとなった。 これらの結果と提案手法は、科学フェアの文脈におけるさらなる研究を支援するだけでなく、異なる環境におけるオープンな調査経験の学生を支援するために、コンテキスト固有のリソースの指導と設計を通知する。

Science and Engineering fairs offer K-12 students opportunities to engage with authentic STEM practices. Particularly, students are given the chance to experience authentic and open inquiry processes, by defining which themes, questions and approaches will guide their scientific endeavors. In this study, we analyzed data from over 5,000 projects presented at a nationwide science fair in Brazil over the past 20 years using topic modeling to identify the main topics that have driven students' inquiry and design. Our analysis identified a broad range of topics being explored, with significant variations over time, region, and school setting. We argue those results and proposed methodology can not only support further research in the context of science fairs, but also inform instruction and design of contexts-specific resources to support students in open inquiry experiences in different settings.
翻訳日:2023-10-18 04:08:26 公開日:2023-10-14
# GPFL:個人化フェデレーション学習のためのグローバルおよびパーソナライズされた特徴情報同時学習

GPFL: Simultaneously Learning Global and Personalized Feature Information for Personalized Federated Learning ( http://arxiv.org/abs/2308.10279v3 )

ライセンス: Link先を確認
Jianqing Zhang, Yang Hua, Hao Wang, Tao Song, Zhengui Xue, Ruhui Ma, Jian Cao, Haibing Guan(参考訳) Federated Learning (FL)は、プライバシー保護と協調学習機能で人気がある。 近年、パーソナライズされたFL(pFL)は、統計的不均一性に対処し、FLにおけるパーソナライズを実現する能力に注目されている。 しかし, 特徴抽出の観点からは, 既存のpFL手法は, 地域訓練におけるグローバル・パーソナライズされた特徴情報の抽出にのみ焦点をあてており, pFLの協調学習とパーソナライゼーションの目標を達成できない。 そこで我々はGPFLと呼ばれる新しいpFL手法を提案し,各クライアントのグローバルかつパーソナライズされた特徴情報を同時に学習する。 3つの統計的に異質な環境で6つのデータセットについて広範な実験を行い、有効性、スケーラビリティ、公平性、安定性、プライバシに関する10の最先端手法に対するgpflの優位性を示す。 さらに、GPFLはオーバーフィッティングを軽減し、ベースラインの精度を最大8.99%向上させる。

Federated Learning (FL) is popular for its privacy-preserving and collaborative learning capabilities. Recently, personalized FL (pFL) has received attention for its ability to address statistical heterogeneity and achieve personalization in FL. However, from the perspective of feature extraction, most existing pFL methods only focus on extracting global or personalized feature information during local training, which fails to meet the collaborative learning and personalization goals of pFL. To address this, we propose a new pFL method, named GPFL, to simultaneously learn global and personalized feature information on each client. We conduct extensive experiments on six datasets in three statistically heterogeneous settings and show the superiority of GPFL over ten state-of-the-art methods regarding effectiveness, scalability, fairness, stability, and privacy. Besides, GPFL mitigates overfitting and outperforms the baselines by up to 8.99% in accuracy.
翻訳日:2023-10-18 04:00:25 公開日:2023-10-14
# Poison Dart Frog: トレーニングデータの存在下での低いポゾンレートと高い攻撃成功率を備えたクリーンラベル攻撃

Poison Dart Frog: A Clean-Label Attack with Low Poisoning Rate and High Attack Success Rate in the Absence of Training Data ( http://arxiv.org/abs/2308.09487v3 )

ライセンス: Link先を確認
Binhao Ma, Jiahui Wang, Dejun Wang, Bo Meng(参考訳) バックドア攻撃をうまく起動するには、インジェクトされたデータを正しくラベル付けする必要がある。 したがって、クリーンラベル攻撃の概念が導入され、注入されたデータのラベルを変更する必要がないため、より危険である。 私たちの知る限りでは、既存のクリーンレーベルのバックドア攻撃は、トレーニングセット全体またはその一部に対する理解に大きく依存しています。 しかし、実際には、複数の独立したソースからしばしば収集されるデータセットのトレーニングのため、攻撃者がそれを持つことは非常に難しい。 現在のすべてのクリーンラベル攻撃とは異なり、我々は'Poison Dart Frog'と呼ばれる新しいクリーンラベル手法を提案する。 Poison Dart Frogは、いかなるトレーニングデータへのアクセスも必要としない。 CIFAR10、Tiny-ImageNet、TSRDでは、トレーニングセットサイズが0.1\%、0.025\%、0.4\%であるのに対し、Poison Dart FrogはLC、HTBA、BadNets、Blendに比べて高い攻撃成功率を達成する。 さらに、最先端の攻撃であるNARCISSUSと比較して、Poison Dart Frogはトレーニングデータなしで同様の攻撃成功率を達成する。 最後に、4つの典型的なバックドア防御アルゴリズムがPoison Dart Frogに対抗するのに苦労していることを示す。

To successfully launch backdoor attacks, injected data needs to be correctly labeled; otherwise, they can be easily detected by even basic data filters. Hence, the concept of clean-label attacks was introduced, which is more dangerous as it doesn't require changing the labels of injected data. To the best of our knowledge, the existing clean-label backdoor attacks largely relies on an understanding of the entire training set or a portion of it. However, in practice, it is very difficult for attackers to have it because of training datasets often collected from multiple independent sources. Unlike all current clean-label attacks, we propose a novel clean label method called 'Poison Dart Frog'. Poison Dart Frog does not require access to any training data; it only necessitates knowledge of the target class for the attack, such as 'frog'. On CIFAR10, Tiny-ImageNet, and TSRD, with a mere 0.1\%, 0.025\%, and 0.4\% poisoning rate of the training set size, respectively, Poison Dart Frog achieves a high Attack Success Rate compared to LC, HTBA, BadNets, and Blend. Furthermore, compared to the state-of-the-art attack, NARCISSUS, Poison Dart Frog achieves similar attack success rates without any training data. Finally, we demonstrate that four typical backdoor defense algorithms struggle to counter Poison Dart Frog.
翻訳日:2023-10-18 03:59:37 公開日:2023-10-14
# 声道動態の超音波画像解析のための小語彙データベース

A small vocabulary database of ultrasound image sequences of vocal tract dynamics ( http://arxiv.org/abs/2308.13941v2 )

ライセンス: Link先を確認
Margareth Castillo, Felipe Rubio, Dagoberto Porras, Sonia H. Contreras-Ortiz, Alexander Sep\'ulveda(参考訳) 本稿では,音声データと調音データを組み合わせた新しいデータベースを提案する。 調音データは声道動態の超音波映像に対応しており,音声生成過程における舌上輪郭の可視化が可能である。 音響データは30の短い文からなり、指向性cardioidマイクロホンによって取得される。 このデータベースには、コロンビアのサンタンデール地域の17人の若年者(男性8人、女性9人)のデータが含まれている。

This paper presents a new database consisting of concurrent articulatory and acoustic speech data. The articulatory data correspond to ultrasound videos of the vocal tract dynamics, which allow the visualization of the tongue upper contour during the speech production process. Acoustic data is composed of 30 short sentences that were acquired by a directional cardioid microphone. This database includes data from 17 young subjects (8 male and 9 female) from the Santander region in Colombia, who reported not having any speech pathology.
翻訳日:2023-10-18 03:51:20 公開日:2023-10-14
# lmsanitator:タスクに依存しないバックドアに対するプロンプトチューニングの防御

LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors ( http://arxiv.org/abs/2308.13904v2 )

ライセンス: Link先を確認
Chengkun Wei, Wenlong Meng, Zhikun Zhang, Min Chen, Minghu Zhao, Wenjing Fang, Lei Wang, Zihui Zhang, Wenzhi Chen(参考訳) ダウンストリームのタスクパフォーマンスと効率的なマルチタスクサービス能力のため、プロンプトチューニングは大規模な言語モデルをデプロイするための魅力的なパラダイムとして登場した。 広く採用されているにも関わらず、プロンプトチューニングは、事前トレーニングされたモデルに存在し、任意のダウンストリームタスクに影響を及ぼすダウンストリームタスク非依存のバックドアに対して脆弱であることを実証的に示す。 最先端のバックドア検出アプローチは、バックドアのトリガーの反転にほとんど収束しないため、タスク非依存のバックドアに対して防御できない。 そこで本研究では,Transformer モデル上でタスクに依存しないバックドアの検出と除去を行う LMSanitator を提案する。 LMSanitatorは、直接トリガーを反転させる代わりに、タスク非依存のバックドアの事前定義された攻撃ベクトル(入力にトリガーが埋め込まれた場合の予測されたモデルの出力)を反転させることを目標としている。 LMSanitatorはさらに、事前訓練されたモデルを凍結する迅速なチューニング特性を活用して、推論フェーズ中に正確で高速な出力監視と入力浄化を行う。 複数の言語モデルとNLPタスクに関する大規模な実験は、LMSanitatorの有効性を示している。 例えば、LMSanitatorは960モデルで92.8%のバックドア検出精度を実現し、ほとんどのシナリオで攻撃成功率を1%未満に下げる。

Prompt-tuning has emerged as an attractive paradigm for deploying large-scale language models due to its strong downstream task performance and efficient multitask serving ability. Despite its wide adoption, we empirically show that prompt-tuning is vulnerable to downstream task-agnostic backdoors, which reside in the pretrained models and can affect arbitrary downstream tasks. The state-of-the-art backdoor detection approaches cannot defend against task-agnostic backdoors since they hardly converge in reversing the backdoor triggers. To address this issue, we propose LMSanitator, a novel approach for detecting and removing task-agnostic backdoors on Transformer models. Instead of directly inverting the triggers, LMSanitator aims to invert the predefined attack vectors (pretrained models' output when the input is embedded with triggers) of the task-agnostic backdoors, which achieves much better convergence performance and backdoor detection accuracy. LMSanitator further leverages prompt-tuning's property of freezing the pretrained model to perform accurate and fast output monitoring and input purging during the inference phase. Extensive experiments on multiple language models and NLP tasks illustrate the effectiveness of LMSanitator. For instance, LMSanitator achieves 92.8% backdoor detection accuracy on 960 models and decreases the attack success rate to less than 1% in most scenarios.
翻訳日:2023-10-18 03:51:12 公開日:2023-10-14
# 動的顔表情認識のための視覚言語モデルの提案

Prompting Visual-Language Models for Dynamic Facial Expression Recognition ( http://arxiv.org/abs/2308.13382v2 )

ライセンス: Link先を確認
Zengqun Zhao, Ioannis Patras(参考訳) 本稿では,クリップモデルに基づく動的表情認識(dfer)のための新しい視覚言語モデルであるdfer-clipを提案する。 具体的には、提案したDFER-CLIPは、視覚的部分とテキスト的部分からなる。 視覚的部分については、CLIP画像エンコーダに基づいて、複数のトランスフォーマーエンコーダからなる時間モデルを導入して、時間的表情特徴を抽出し、最終特徴埋め込みを学習可能な「クラス」トークンとして取得する。 テキストの部分は、私たちが認識したいクラス(表情)に関連する顔の振る舞いのテキスト記述を入力として使用します -- これらの記述は、chatgptのような大きな言語モデルを使って生成されるのです。 これは、クラス名のみを使用し、それらの関係をより正確に捉えた作品とは対照的である。 テキスト記述の他に、学習可能なトークンを導入し、トレーニング中の各表現に関する関連するコンテキスト情報を学習する。 提案手法の有効性を実証し、DFEW, FERV39k, MAFWベンチマークで現在管理されているDFER法と比較して、DFER-CLIPが最先端の結果を得ることを示す。 コードはhttps://github.com/zengqunzhao/DFER-CLIPで公開されている。

This paper presents a novel visual-language model called DFER-CLIP, which is based on the CLIP model and designed for in-the-wild Dynamic Facial Expression Recognition (DFER). Specifically, the proposed DFER-CLIP consists of a visual part and a textual part. For the visual part, based on the CLIP image encoder, a temporal model consisting of several Transformer encoders is introduced for extracting temporal facial expression features, and the final feature embedding is obtained as a learnable "class" token. For the textual part, we use as inputs textual descriptions of the facial behaviour that is related to the classes (facial expressions) that we are interested in recognising -- those descriptions are generated using large language models, like ChatGPT. This, in contrast to works that use only the class names and more accurately captures the relationship between them. Alongside the textual description, we introduce a learnable token which helps the model learn relevant context information for each expression during training. Extensive experiments demonstrate the effectiveness of the proposed method and show that our DFER-CLIP also achieves state-of-the-art results compared with the current supervised DFER methods on the DFEW, FERV39k, and MAFW benchmarks. Code is publicly available at https://github.com/zengqunzhao/DFER-CLIP.
翻訳日:2023-10-18 03:50:44 公開日:2023-10-14
# TCM舌の特徴を組み合わせた非侵襲的解釈型NAFLD診断法

A Non-Invasive Interpretable NAFLD Diagnostic Method Combining TCM Tongue Features ( http://arxiv.org/abs/2309.02959v2 )

ライセンス: Link先を確認
Shan Cao, Qunsheng Ruan, Qingfeng Wu(参考訳) 非アルコール性脂肪性肝疾患(Non-Alcoholic fat liver disease,NAFLD)は、アルコールを排除した肝脂肪症を特徴とする臨床病理学的症候群である。 世界中で慢性肝疾患の主要な原因となっている。 現在,従来のnafld検出手法は高価であり,日常的な診断には適していない。 本研究は,非侵襲的かつ解釈可能なnafld診断法を提案する。本研究の目的は,性別,年齢,身長,体重,腰周囲,股関節周囲,舌画像のみである。 この方法は、患者の生理的指標と舌の特徴を融合させ、SelectorNetと呼ばれる融合ネットワークに入力する。 selectornetはアテンション機構と特徴選択機構を組み合わせることで、重要な機能を選択する能力を自律的に学習することができる。 実験結果から,非侵襲的データのみを用いて77.22\%の精度を達成し,優れた解釈性行列を提供することがわかった。 本研究はNAFLDの早期診断とTCM舌診断の知的進歩に寄与する。 この論文のプロジェクトは、https://github.com/cshan-github/SelectorNet.comで公開されている。

Non-alcoholic fatty liver disease (NAFLD) is a clinicopathological syndrome characterized by hepatic steatosis resulting from the exclusion of alcohol and other identifiable liver-damaging factors. It has emerged as a leading cause of chronic liver disease worldwide. Currently, the conventional methods for NAFLD detection are expensive and not suitable for users to perform daily diagnostics. To address this issue, this study proposes a non-invasive and interpretable NAFLD diagnostic method, the required user-provided indicators are only Gender, Age, Height, Weight, Waist Circumference, Hip Circumference, and tongue image. This method involves merging patients' physiological indicators with tongue features, which are then input into a fusion network named SelectorNet. SelectorNet combines attention mechanisms with feature selection mechanisms, enabling it to autonomously learn the ability to select important features. The experimental results show that the proposed method achieves an accuracy of 77.22\% using only non-invasive data, and it also provides compelling interpretability matrices. This study contributes to the early diagnosis of NAFLD and the intelligent advancement of TCM tongue diagnosis. The project in this paper is available at: https://github.com/cshan-github/SelectorNet.
翻訳日:2023-10-18 03:40:12 公開日:2023-10-14
# 動的温度サンプリングによるコード生成の改善

Improving Code Generation by Dynamic Temperature Sampling ( http://arxiv.org/abs/2309.02772v2 )

ライセンス: Link先を確認
Yuqi Zhu, Jia Li, Ge Li, YunFei Zhao, Jia Li, Zhi Jin, Hong Mei(参考訳) 最近、Large Language Models (LLMs) はコード生成において驚くべき結果を示している。 しかし、既存のデコード戦略は自然言語(NL)生成のために設計されており、NLとプログラミング言語(PL)の違いを見越している。 この見落としのため、コード生成のためのより良いデコーディング戦略は、まだ未解決の問題である。 本稿では,コード生成に特化した復号化戦略を探求する最初の体系的研究を行う。 コードトークンの損失分布を分析することで、コードトークンを2つのカテゴリに分類できることが分かりました。 その中でも、難易度の高いトークンは、主にコードブロックの先頭に現れる。 この結果に触発されて,適応温度サンプリング(adapted temperature (adapt) sampling)という簡易かつ効果的な手法を提案し,異なるトークンの復号時に温度係数を動的に調整する手法を提案する。 難解なトークンをサンプリングする際には, LLMが多様な選択を探索できるように, より大きな温度を適用する。 我々は、テールランダムネスノイズの影響を避けるため、信頼性トークンに対してより小さい温度を用いる。 異なるサイズのllmに適応サンプリングを適用し,2つの人気のあるデータセット上で評価を行う。 その結果,適応サンプリングは最先端のデコーディング戦略を大きく上回ることがわかった。

Recently, Large Language Models (LLMs) have shown impressive results in code generation. However, existing decoding strategies are designed for Natural Language (NL) generation, overlooking the differences between NL and programming languages (PL). Due to this oversight, a better decoding strategy for code generation remains an open question. In this paper, we conduct the first systematic study to explore a decoding strategy specialized in code generation. With an analysis of loss distributions of code tokens, we find that code tokens can be divided into two categories: challenging tokens that are difficult to predict and confident tokens that can be easily inferred. Among them, the challenging tokens mainly appear at the beginning of a code block. Inspired by the above findings, we propose a simple yet effective method: Adaptive Temperature (AdapT) sampling, which dynamically adjusts the temperature coefficient when decoding different tokens. We apply a larger temperature when sampling for challenging tokens, allowing LLMs to explore diverse choices. We employ a smaller temperature for confident tokens avoiding the influence of tail randomness noises. We apply AdapT sampling to LLMs with different sizes and conduct evaluations on two popular datasets. Results show that AdapT sampling significantly outperforms state-of-the-art decoding strategy.
翻訳日:2023-10-18 03:39:52 公開日:2023-10-14
# MS23D:マルチスケール意味的特徴点を用いた3次元物体検出手法

MS23D: A 3D Object Detection Method Using Multi-Scale Semantic Feature Points to Construct 3D Feature Layer ( http://arxiv.org/abs/2308.16518v4 )

ライセンス: Link先を確認
Yongxin Shao, Aihong Tan, Tianhong Yan, Zhetao Sun, Yiyang Zhang and Jiaxin Liu(参考訳) ライダー点雲は、正確な距離知覚を持つデータの一種であり、3次元空間における物体の動きと姿勢を効果的に表すことができる。 しかし、点雲の広がりや乱れは、それらから直接特徴を引き出すのを困難にしている。 多くの研究が点雲を正則なボクセル表現に変換することでこの問題に対処している。 しかし、点雲の空間性は、ボクセルベースの2段階法による3D特徴層内の機能を効果的に集約する上での課題を生じさせる。 この問題を軽減するため,本稿ではms$^{2}$3dという2段階の3d検出フレームワークを提案する。 ms$^{2}$3d内では、マルチスケールなセマンティック特徴点を用いて3d特徴層を構築する新しいアプローチが導入され、スパース3d特徴層をよりコンパクトな表現に効果的に変換する。 さらに,3次元特徴層における特徴点と物体の遠心点とのオフセットを予測し,その特徴点を物体の中心に近い位置に置くことを目的とする。 この手法は特徴集約の効率を大幅に向上させる。 voxelベースの手法では、ダウンサンプリング中に粒度の細かい局所的な特徴情報が失われることが多い。 異なるスケールでvoxel符号化を利用することで、様々な受容野を持つ特徴情報を取得し、細粒度特徴情報の不足をある程度緩和する。 提案手法の有効性を検証するため,KITTIデータセットとONCEデータセットの両方を用いて評価を行った。

Lidar point clouds, as a type of data with accurate distance perception, can effectively represent the motion and posture of objects in three-dimensional space. However, the sparsity and disorderliness of point clouds make it challenging to extract features directly from them. Many studies have addressed this issue by transforming point clouds into regular voxel representations. However, the sparsity of point clouds poses challenges in effectively aggregating features within a 3D feature layer using voxel-based two-stage methods. To mitigate these issues, we propose a two-stage 3D detection framework named MS$^{2}$3D in this paper. Within MS$^{2}$3D, a novel approach is introduced to construct a 3D feature layer using multi-scale semantic feature points, effectively converting the sparse 3D feature layer into a more compact representation. Additionally, we predict the offset between the feature points in the 3D feature layer and the object's centroid, aiming to position the feature points as close to the object's center as possible. This method significantly enhances the efficiency of feature aggregation. Voxel-based methods often result in the loss of fine-grained local feature information during downsampling. By leveraging voxel encoding at different scales, we acquire feature information with varying receptive fields, mitigating the deficiency of fine-grained feature information to some extent. To validate the effectiveness of our approach, we conducted evaluations on both the KITTI dataset and the ONCE dataset.
翻訳日:2023-10-18 03:37:54 公開日:2023-10-14
# リンドブラディアンによる単層地盤準備

Single-ancilla ground state preparation via Lindbladians ( http://arxiv.org/abs/2308.15676v3 )

ライセンス: Link先を確認
Zhiyan Ding and Chi-Fang Chen and Lin Lin(参考訳) 我々は、早期耐故障状態における基底状態の準備のための量子アルゴリズムを設計する。 モンテカルロ型量子アルゴリズムとして,対象状態が定常なリンドブラジアンを特徴とし,その進化は1つのアンシラ量子ビットを用いて効率的に実装できる。 我々のアルゴリズムは、初期状態が基底状態と重複しない場合でも基底状態を作成することができ、量子位相推定のような手法の最も重要な制限を回避できる。 変種として、より優れた効率性を示し、所望の進化時間と精度に応じてほぼ最適なシミュレーションコストを提供する離散時間アルゴリズムを提案する。 イジングモデルとハバードモデルを用いた数値シミュレーションにより,本手法の有効性と適用性を示す。

We design a quantum algorithm for ground state preparation in the early fault tolerant regime. As a Monte Carlo-style quantum algorithm, our method features a Lindbladian where the target state is stationary, and its evolution can be efficiently implemented using just one ancilla qubit. Our algorithm can prepare the ground state even when the initial state has zero overlap with the ground state, bypassing the most significant limitation of methods like quantum phase estimation. As a variant, we also propose a discrete-time algorithm, demonstrating even better efficiency and providing a near-optimal simulation cost depending on the desired evolution time and precision. Numerical simulation using Ising models and Hubbard models demonstrates the efficacy and applicability of our method.
翻訳日:2023-10-18 03:37:08 公開日:2023-10-14
# 連続治療のための2重ロバストな近位因果学習

Doubly Robust Proximal Causal Learning for Continuous Treatments ( http://arxiv.org/abs/2309.12819v2 )

ライセンス: Link先を確認
Yong Wu, Yanwei Fu, Shouyan Wang, Xinwei Sun(参考訳) 近位因果学習は、測定されていない共同創設者の存在下で因果効果を特定するための有望な枠組みである。 このフレームワーク内では、二重ロバスト(DR)推定器が導出され、特にモデル仮定に違反した場合に、その推定の有効性が示された。 しかし、DR推定器の現在の形態はバイナリ処理に限定され、実際の多くの応用において連続的な処理が可能である。 連続処理の主な障害は、元のDR推定器に存在するデルタ関数に存在し、因果効果の推定が不可能となり、ニュアンス関数推定において重い計算負担が生じる。 これらの課題に対処するために,カーネルベースのDR推定器を提案する。 その滑らかさを備え、そのオラクル形式は影響関数の一貫した近似であることを示す。 さらに,ニュアンス関数を効率的に解くための新しい手法を提案する。 次に,平均二乗誤差の観点から包括的収束解析を行う。 我々は,合成データセットと実世界のアプリケーションにおける推定器の有用性を実証する。

Proximal causal learning is a promising framework for identifying the causal effect under the existence of unmeasured confounders. Within this framework, the doubly robust (DR) estimator was derived and has shown its effectiveness in estimation, especially when the model assumption is violated. However, the current form of the DR estimator is restricted to binary treatments, while the treatment can be continuous in many real-world applications. The primary obstacle to continuous treatments resides in the delta function present in the original DR estimator, making it infeasible in causal effect estimation and introducing a heavy computational burden in nuisance function estimation. To address these challenges, we propose a kernel-based DR estimator that can well handle continuous treatments. Equipped with its smoothness, we show that its oracle form is a consistent approximation of the influence function. Further, we propose a new approach to efficiently solve the nuisance functions. We then provide a comprehensive convergence analysis in terms of the mean square error. We demonstrate the utility of our estimator on synthetic datasets and real-world applications.
翻訳日:2023-10-18 03:31:34 公開日:2023-10-14
# クラスタ化feedstack:ベイズ情報基準を用いた中間的グローバルモデル

Clustered FedStack: Intermediate Global Models with Bayesian Information Criterion ( http://arxiv.org/abs/2309.11044v2 )

ライセンス: Link先を確認
Thanveer Shaik, Xiaohui Tao, Lin Li, Niall Higgins, Raj Gururajan, Xujuan Zhou, Jianming Yong(参考訳) フェデレーション学習(federated learning, fl)は、現在、人工知能(ai)の分野でもっともポピュラーなテクノロジの1つです。 しかし、非識別および非独立分散(非IID)や、ローカルクライアント間で不均衡なラベルを持つデータといった課題に直面している。 これらの制限に対処するため、研究コミュニティは、ローカルモデルパラメータ、フェデレーション生成逆学習、フェデレーション表現学習など、さまざまなアプローチを検討してきた。 本研究では、以前に公開されたStacked Federated Learning(FedStack)フレームワークに基づいた、新しいClustered FedStackフレームワークを提案する。 ローカルクライアントはモデル予測と出力層重みをサーバに送信し、堅牢なグローバルモデルを構築します。 このグローバルモデルは、クラスタリングメカニズムを使用して、出力層重みに基づいてローカルクライアントをクラスタ化する。 我々は,K-Means,Agglomerative,Gaussian Mixture Modelsという3つのクラスタリング機構をフレームワークに導入し,その性能を評価する。 クラスタ数を最大化するためにベイズ情報基準(BIC)を用いる。 Clustered FedStackモデルは、クラスタリングメカニズムでベースラインモデルを上回っます。 提案フレームワークの収束度を推定するために,循環学習率を用いる。

Federated Learning (FL) is currently one of the most popular technologies in the field of Artificial Intelligence (AI) due to its collaborative learning and ability to preserve client privacy. However, it faces challenges such as non-identically and non-independently distributed (non-IID) and data with imbalanced labels among local clients. To address these limitations, the research community has explored various approaches such as using local model parameters, federated generative adversarial learning, and federated representation learning. In our study, we propose a novel Clustered FedStack framework based on the previously published Stacked Federated Learning (FedStack) framework. The local clients send their model predictions and output layer weights to a server, which then builds a robust global model. This global model clusters the local clients based on their output layer weights using a clustering mechanism. We adopt three clustering mechanisms, namely K-Means, Agglomerative, and Gaussian Mixture Models, into the framework and evaluate their performance. We use Bayesian Information Criterion (BIC) with the maximum likelihood function to determine the number of clusters. The Clustered FedStack models outperform baseline models with clustering mechanisms. To estimate the convergence of our proposed framework, we use Cyclical learning rates.
翻訳日:2023-10-18 03:30:05 公開日:2023-10-14
# 安全チップのプラグ:LLM駆動型ロボットエージェントの制約を強制する

Plug in the Safety Chip: Enforcing Constraints for LLM-driven Robot Agents ( http://arxiv.org/abs/2309.09919v2 )

ライセンス: Link先を確認
Ziyi Yang and Shreyas S. Raman and Ankit Shah and Stefanie Tellex(参考訳) 大規模言語モデル(LLM)の最近の進歩により、ロボット工学を解くための新しい研究領域であるLLMエージェントが、事前訓練中に得られたLLMの世界の知識と一般的な推論能力を活用して実現されている。 しかし、ロボットに"dos"を教えるためにかなりの努力がなされているが、"Don'ts"は比較的あまり注目されなかった。 我々は、いかなる実践的利用においても、禁止された行為に関する明確な指示を伝えること、これらの制限に対するロボットの理解を評価すること、そして最も重要なのはコンプライアンスを確保すること、をロボットに教えることが重要であると主張する。 さらに、検証可能な安全な運用は、世界中の産業工場環境で安全にロボットを配備するための標準を定義するiso 61508のような世界的な標準を満たす展開には不可欠である。 本研究では,LLMエージェントを協調環境に配置することを目的とした,線形時間論理(LTL)に基づくクエリ可能な安全制約モジュールを提案する。 本システムの有効性を実証するため,バーチャルホーム環境と実ロボットを用いて実験を行った。 実験の結果,本システムは安全制約に厳格に準拠し,複雑な安全制約とともにスケールし,実用性の可能性を強調した。

Recent advancements in large language models (LLMs) have enabled a new research domain, LLM agents, for solving robotics and planning tasks by leveraging the world knowledge and general reasoning abilities of LLMs obtained during pretraining. However, while considerable effort has been made to teach the robot the "dos," the "don'ts" received relatively less attention. We argue that, for any practical usage, it is as crucial to teach the robot the "don'ts": conveying explicit instructions about prohibited actions, assessing the robot's comprehension of these restrictions, and, most importantly, ensuring compliance. Moreover, verifiable safe operation is essential for deployments that satisfy worldwide standards such as ISO 61508, which defines standards for safely deploying robots in industrial factory environments worldwide. Aiming at deploying the LLM agents in a collaborative environment, we propose a queryable safety constraint module based on linear temporal logic (LTL) that simultaneously enables natural language (NL) to temporal constraints encoding, safety violation reasoning and explaining, and unsafe action pruning. To demonstrate the effectiveness of our system, we conducted experiments in VirtualHome environment and on a real robot. The experimental results show that our system strictly adheres to the safety constraints and scales well with complex safety constraints, highlighting its potential for practical utility.
翻訳日:2023-10-18 03:29:24 公開日:2023-10-14
# レプリケーション:flowpic入力表現を用いたトラヒック分類におけるコントラスト学習とデータ拡張

Replication: Contrastive Learning and Data Augmentation in Traffic Classification Using a Flowpic Input Representation ( http://arxiv.org/abs/2309.09733v2 )

ライセンス: Link先を確認
Alessandro Finamore, Chao Wang, Jonatan Krolikowski, Jose M. Navarro, Fuxing Chen, Dario Rossi(参考訳) 過去数年間、私たちは、ディープラーニング(DL)の台頭により、トラフィック分類(TC)に対する新たな関心を目の当たりにしました。 しかし、TCの文献の大部分は、コードアーティファクト、データセット間のパフォーマンス評価、機械学習(ML)メソッドに対する参照比較を欠いている。 IMC22 [16]の最近の研究は、いくつかのサンプルから学び、データセット間での転送を可能にするネットワークに訴える最近のDL方法論(すなわち、対照的な学習とデータ拡張による自己監督)を採用するので、注目に値する。 UCDAVIS19, ISCX-VPN, ISCX-Torデータセットの [16] の主な結果は、そのようなDL手法により、100個の入力サンプルが「フローピック」と呼ばれる入力表現を用いて非常に高い精度を達成するのに十分であることである。 この論文では i)同じデータセット上で[16]を再生し、 (II)3つの公開データセット(MIRAGE19、MIRAGE22、UTMOBILENET21)上で、最も健全な側面(データ拡張の重要性)を再現する。 元の結果の大部分は確認していますが、調査したシナリオの20%の精度低下は、私たちが発見した元のデータセットのデータシフトによるものです。 さらに, [16] で研究したデータ拡張戦略が,他のデータセットでも有効であることを検証した。 再現性と再現性という意味では、すべてのアーティファクト(コードとデータ)をhttps://tcbenchstack.github.io/tcbench/で研究コミュニティに公開しています。

Over the last years we witnessed a renewed interest toward Traffic Classification (TC) captivated by the rise of Deep Learning (DL). Yet, the vast majority of TC literature lacks code artifacts, performance assessments across datasets and reference comparisons against Machine Learning (ML) methods. Among those works, a recent study from IMC22 [16] is worth of attention since it adopts recent DL methodologies (namely, few-shot learning, self-supervision via contrastive learning and data augmentation) appealing for networking as they enable to learn from a few samples and transfer across datasets. The main result of [16] on the UCDAVIS19, ISCX-VPN and ISCX-Tor datasets is that, with such DL methodologies, 100 input samples are enough to achieve very high accuracy using an input representation called "flowpic" (i.e., a per-flow 2d histograms of the packets size evolution over time). In this paper (i) we reproduce [16] on the same datasets and (ii) we replicate its most salient aspect (the importance of data augmentation) on three additional public datasets (MIRAGE19, MIRAGE22 and UTMOBILENET21). While we confirm most of the original results, we also found a 20% accuracy drop on some of the investigated scenarios due to a data shift in the original dataset that we uncovered. Additionally, our study validates that the data augmentation strategies studied in [16] perform well on other datasets too. In the spirit of reproducibility and replicability we make all artifacts (code and data) available to the research community at https://tcbenchstack.github.io/tcbench/
翻訳日:2023-10-18 03:29:01 公開日:2023-10-14
# 有界更新を伴う反復学習アルゴリズムの一般化誤差境界

Generalization error bounds for iterative learning algorithms with bounded updates ( http://arxiv.org/abs/2309.05077v3 )

ライセンス: Link先を確認
Jingwen Fu and Nanning Zheng(参考訳) 本稿では,非凸損失関数の有界更新による反復学習アルゴリズムの一般化特性について,情報理論的手法を用いて検討する。 我々の重要な貢献は、境界更新を伴うこれらのアルゴリズムの一般化誤差に対する新しいバウンドである。 私たちのアプローチは2つの大きなノベルティを導入します。 1) 相互情報を更新の不確実性として改定し、新たな視点を提供する。 2) 相互情報の連鎖規則を使う代わりに, 分散分解法を用いて反復的に情報を分解し, より単純な代理プロセスを実現する。 我々は,様々な条件下での一般化を解析し,改良された境界を示す。 理論と実践のギャップを埋めるため,前述した大規模言語モデルのスケーリング挙動についても検討した。 究極的には、我々の研究は実用的な一般化理論を開発するためのさらなる一歩を踏み出します。

This paper explores the generalization characteristics of iterative learning algorithms with bounded updates for non-convex loss functions, employing information-theoretic techniques. Our key contribution is a novel bound for the generalization error of these algorithms with bounded updates. Our approach introduces two main novelties: 1) we reformulate the mutual information as the uncertainty of updates, providing a new perspective, and 2) instead of using the chaining rule of mutual information, we employ a variance decomposition technique to decompose information across iterations, allowing for a simpler surrogate process. We analyze our generalization bound under various settings and demonstrate improved bounds. To bridge the gap between theory and practice, we also examine the previously observed scaling behavior in large language models. Ultimately, our work takes a further step for developing practical generalization theories.
翻訳日:2023-10-18 03:28:12 公開日:2023-10-14
# 深部強化学習に基づく制御の信頼性定量化

Reliability Quantification of Deep Reinforcement Learning-based Control ( http://arxiv.org/abs/2309.16977v2 )

ライセンス: Link先を確認
Hitoshi Yoshioka, Hirotada Hashimoto(参考訳) 深部強化学習(DRL)に基づく制御の信頼性定量化は、安全クリティカルシステムにおける人工知能(AI)の実用化において重要な課題である。 本研究ではDRL制御の信頼性を定量化する手法を提案する。 まず, 従来手法であるランダムノイズ蒸留法を信頼性評価に適用し, 解決すべき課題を明らかにした。 第二に、これらの問題を解決するために信頼性定量化の新しい手法が提案された。 信頼性は、参照と評価の2つのニューラルネットワークを使用して定量化される。 それらは同じ初期パラメータを持つ同じ構造を持つ。 2つのネットワークの出力はトレーニング前に同じでした。 トレーニング中、評価器ネットワークパラメータを更新し、トレーニングされたデータに対する基準と評価器ネットワークの違いを最大化する。 これにより、2つのネットワーク間の出力差に基づいて、状態に対するDRLベースの制御の信頼性を評価することができる。 簡単なタスクの例としてDQNに基づく制御に適用し,その有効性を実証した。 最後に, 学習モデルの状態に応じて切り換える問題に対して, 提案手法を適用した。 その結果,drl制御の性能は,信頼性に応じてモデルの切り替えにより向上した。

Reliability quantification of deep reinforcement learning (DRL)-based control is a significant challenge for the practical application of artificial intelligence (AI) in safety-critical systems. This study proposes a method for quantifying the reliability of DRL-based control. First, an existing method, random noise distillation, was applied to the reliability evaluation to clarify the issues to be solved. Second, a novel method for reliability quantification was proposed to solve these issues. The reliability is quantified using two neural networks: reference and evaluator. They have the same structure with the same initial parameters. The outputs of the two networks were the same before training. During training, the evaluator network parameters were updated to maximize the difference between the reference and evaluator networks for trained data. Thus, the reliability of the DRL-based control for a state can be evaluated based on the difference in output between the two networks. The proposed method was applied to DQN-based control as an example of a simple task, and its effectiveness was demonstrated. Finally, the proposed method was applied to the problem of switching trained models depending on the state. Con-sequently, the performance of the DRL-based control was improved by switching the trained models according to their reliability.
翻訳日:2023-10-18 03:18:05 公開日:2023-10-14
# バイオメディカルタブラリデータを用いた半教師付き学習のための潜時グラフ

Latent Graphs for Semi-Supervised Learning on Biomedical Tabular Data ( http://arxiv.org/abs/2309.15757v3 )

ライセンス: Link先を確認
Boshko Koloski and Nada Lavra\v{c} and Senja Pollak and Bla\v{z} \v{S}krlj(参考訳) 半教師付き学習の分野では、現在のアプローチでは、(未)ラベル付きデータ間のインスタンス間関係を十分に考慮することができない。 本研究では,固有データ関係をキャプチャする潜在グラフを推論する手法を提供することで,この制限に対処する。 グラフに基づく表現を活用することにより,グラフ全体の情報をシームレスに伝達し,グローバルな知識とローカルな知識を効果的に取り入れることができる。 バイオメディカルな表型データセットの評価を通して、我々のアプローチの能力を他の現代の手法と比較する。 本研究は,半教師付き学習手法を強化するための頑健な潜在グラフを構築するための実践的手法として,インスタンス間関係発見の重要性を示す。 実験の結果,提案手法は3つの生体医学データセットを用いた(半)教師付き学習法よりも優れていた。

In the domain of semi-supervised learning, the current approaches insufficiently exploit the potential of considering inter-instance relationships among (un)labeled data. In this work, we address this limitation by providing an approach for inferring latent graphs that capture the intrinsic data relationships. By leveraging graph-based representations, our approach facilitates the seamless propagation of information throughout the graph, effectively incorporating global and local knowledge. Through evaluations on biomedical tabular datasets, we compare the capabilities of our approach to other contemporary methods. Our work demonstrates the significance of inter-instance relationship discovery as practical means for constructing robust latent graphs to enhance semi-supervised learning techniques. The experiments show that the proposed methodology outperforms contemporary state-of-the-art methods for (semi-)supervised learning on three biomedical datasets.
翻訳日:2023-10-18 03:17:26 公開日:2023-10-14
# SpaceRank:時空間データに基づくNDCG最適化による都市イベントランキング

SpatialRank: Urban Event Ranking with NDCG Optimization on Spatiotemporal Data ( http://arxiv.org/abs/2310.00270v4 )

ライセンス: Link先を確認
Bang An, Xun Zhou, Yongjian Zhong, Tianbao Yang(参考訳) 都市イベントランキングの問題は、交通事故や犯罪などの将来のイベントの最もリスクの高い場所を予測することを目的としている。 この問題は公共の安全と都市行政にとって、特に資源が限られている場合には、重要な問題である。 しかし、この問題は、場所間の複雑でダイナミックな時空間相関、空間における都市イベントの不均一な分布、および類似した特徴で近くの場所を正しくランク付けすることが難しいため、困難である。 イベント予測に関する先行研究は主に、すべての場所における実際のリスクスコアやイベントのカウントを正確に予測することを目的としている。 このようなランク付けは通常、予測誤差により品質が低い。 正規化カウント累積ゲイン (NDCG) などの手法を直接最適化する学習 to ランク法は, 場所間の時空間自己相関を扱えない。 本稿では,空間ランクと呼ばれる新しい空間イベントランキング手法を提案することで,そのギャップを橋渡しする。 spatialrankは適応型グラフ畳み込み層を特徴とし、データから場所間の時空間依存性を動的に学習する。 さらに, このモデルでは, NDCGのハイブリッド損失を空間成分で補うことで, 近傍の空間位置のランク付けを最適化する。 トレーニング中の損失を効果的に評価するために,空間フィルタリングアルゴリズムを用いた重要サンプリングを設計する。 3つの実世界のデータセットに関する総合的な実験により、SpatialRankは犯罪や交通事故の最も危険な場所を効果的に特定でき、NDCGの観点では最先端の手法を最大12.7%上回っている。

The problem of urban event ranking aims at predicting the top-k most risky locations of future events such as traffic accidents and crimes. This problem is of fundamental importance to public safety and urban administration especially when limited resources are available. The problem is, however, challenging due to complex and dynamic spatio-temporal correlations between locations, uneven distribution of urban events in space, and the difficulty to correctly rank nearby locations with similar features. Prior works on event forecasting mostly aim at accurately predicting the actual risk score or counts of events for all the locations. Rankings obtained as such usually have low quality due to prediction errors. Learning-to-rank methods directly optimize measures such as Normalized Discounted Cumulative Gain (NDCG), but cannot handle the spatiotemporal autocorrelation existing among locations. In this paper, we bridge the gap by proposing a novel spatial event ranking approach named SpatialRank. SpatialRank features adaptive graph convolution layers that dynamically learn the spatiotemporal dependencies across locations from data. In addition, the model optimizes through surrogates a hybrid NDCG loss with a spatial component to better rank neighboring spatial locations. We design an importance-sampling with a spatial filtering algorithm to effectively evaluate the loss during training. Comprehensive experiments on three real-world datasets demonstrate that SpatialRank can effectively identify the top riskiest locations of crimes and traffic accidents and outperform state-of-art methods in terms of NDCG by up to 12.7%.
翻訳日:2023-10-18 03:08:51 公開日:2023-10-14
# 自律走行車評価のための人間のリスク認知を組み込んだ対人運転行動生成

Adversarial Driving Behavior Generation Incorporating Human Risk Cognition for Autonomous Vehicle Evaluation ( http://arxiv.org/abs/2310.00029v2 )

ライセンス: Link先を確認
Zhen Liu, Hang Gao, Hao Ma, Shuo Cai, Yunfeng Hu, Ting Qu, Hong Chen, Xun Gong(参考訳) 自律走行車(AV)の評価は近年,産業とアカデミックの両方において関心が高まっている。 本稿では,AVに対して干渉する背景車両の対向運転行動を生成し,効果的かつ合理的な危険事象を明らかにする新しい枠組みの開発に焦点をあてる。 具体的には、人間のリスク認知の表現を可能にする累積予測理論(CPT)を組み込んだ強化学習(RL)アプローチによって、敵対行動が学習される。 次に, CPT アクション値関数の活用によるトレーニング安定性を確保しつつ, 対角政策の訓練にDDPG(Deep Deterministic Policy gradient)法の拡張版を提案する。 高忠実度ハードウェア・イン・ザ・ループ(hil)プラットフォーム上で,カットインシナリオに関する比較ケーススタディを行い,テストavの弱さを推定する逆効果を示す。

Autonomous vehicle (AV) evaluation has been the subject of increased interest in recent years both in industry and in academia. This paper focuses on the development of a novel framework for generating adversarial driving behavior of background vehicle interfering against the AV to expose effective and rational risky events. Specifically, the adversarial behavior is learned by a reinforcement learning (RL) approach incorporated with the cumulative prospect theory (CPT) which allows representation of human risk cognition. Then, the extended version of deep deterministic policy gradient (DDPG) technique is proposed for training the adversarial policy while ensuring training stability as the CPT action-value function is leveraged. A comparative case study regarding the cut-in scenario is conducted on a high fidelity Hardware-in-the-Loop (HiL) platform and the results demonstrate the adversarial effectiveness to infer the weakness of the tested AV.
翻訳日:2023-10-18 03:08:22 公開日:2023-10-14
# 汎用モデルによる自由データ選択に向けて

Towards Free Data Selection with General-Purpose Models ( http://arxiv.org/abs/2309.17342v2 )

ライセンス: Link先を確認
Yichen Xie, Mingyu Ding, Masayoshi Tomizuka, Wei Zhan(参考訳) 望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。 しかし、アクティブな学習手法で表される現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータの選択を繰り返し繰り返す面倒なパイプラインに従う。 本稿では,既存の汎用モデルを用いて,追加のトレーニングや監督を必要とせずに,単一パス推論を用いて各種データセットからデータを選択する,独自のデータ選択パイプラインを設計することにより,この現状に挑戦する。 このパイプラインに続き、新しい自由データ選択法(FreeSel)が提案されている。 具体的には,汎用モデルの中間的特徴から抽出した意味的パターンを定義し,各画像内の微妙な局所情報をキャプチャする。 次に、細粒度のセマンティックパターンレベルで、距離に基づくサンプリングを通した単一パスにおける全データサンプルの選択を可能にする。 FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。 様々なコンピュータビジョンタスクにおけるfreeselの有効性を検証する広範な実験。 私たちのコードはhttps://github.com/yichen928/FreeSelで利用可能です。

A desirable data selection algorithm can efficiently choose the most informative samples to maximize the utility of limited annotation budgets. However, current approaches, represented by active learning methods, typically follow a cumbersome pipeline that iterates the time-consuming model training and batch data selection repeatedly. In this paper, we challenge this status quo by designing a distinct data selection pipeline that utilizes existing general-purpose models to select data from various datasets with a single-pass inference without the need for additional training or supervision. A novel free data selection (FreeSel) method is proposed following this new pipeline. Specifically, we define semantic patterns extracted from inter-mediate features of the general-purpose model to capture subtle local information in each image. We then enable the selection of all data samples in a single pass through distance-based sampling at the fine-grained semantic pattern level. FreeSel bypasses the heavy batch selection process, achieving a significant improvement in efficiency and being 530x faster than existing active learning methods. Extensive experiments verify the effectiveness of FreeSel on various computer vision tasks. Our code is available at https://github.com/yichen928/FreeSel.
翻訳日:2023-10-18 03:08:06 公開日:2023-10-14
# 治療効果評価における複数治療法の祝福と成果

The Blessings of Multiple Treatments and Outcomes in Treatment Effect Estimation ( http://arxiv.org/abs/2309.17283v2 )

ライセンス: Link先を確認
Yong Wu, Mingzhou Liu, Jing Yan, Yanwei Fu, Shouyan Wang, Yizhou Wang, Xinwei Sun(参考訳) 観測されていないコンバウンディングの存在による因果効果を評価することは難しい問題である。 既存の研究ではプロキシ変数や複数の治療を利用してバイアスを調整している。 特に後者のアプローチは、単一の結果に対する影響を複数の治療に起因し、境界制御のための潜伏変数を推定できる。 それにもかかわらず、これらの手法は主に一つの結果に焦点をあてるが、多くの現実のシナリオでは、複数の結果に対する影響の研究に大きな関心がある。 さらに、これらの結果はしばしば複数の治療と結合される。 例えば集中治療室(icu)では、医療提供者が複数の健康指標に対する治療の有効性を評価する。 これらのシナリオに対応するために、複数の治療法と複数の結果と呼ばれる新しい設定を検討する。 この設定に関係した複数の結果の並列研究は、それぞれの治療効果のプロキシとして他の治療法や成果を活用できるという意味で、因果同定において互いに助け合うことが示される。 因果推定のために,このようなプロキシを効果的に識別できる因果発見法を提案する。 本法の有用性は, 合成データと敗血症疾患において実証された。

Assessing causal effects in the presence of unobserved confounding is a challenging problem. Existing studies leveraged proxy variables or multiple treatments to adjust for the confounding bias. In particular, the latter approach attributes the impact on a single outcome to multiple treatments, allowing estimating latent variables for confounding control. Nevertheless, these methods primarily focus on a single outcome, whereas in many real-world scenarios, there is greater interest in studying the effects on multiple outcomes. Besides, these outcomes are often coupled with multiple treatments. Examples include the intensive care unit (ICU), where health providers evaluate the effectiveness of therapies on multiple health indicators. To accommodate these scenarios, we consider a new setting dubbed as multiple treatments and multiple outcomes. We then show that parallel studies of multiple outcomes involved in this setting can assist each other in causal identification, in the sense that we can exploit other treatments and outcomes as proxies for each treatment effect under study. We proceed with a causal discovery method that can effectively identify such proxies for causal estimation. The utility of our method is demonstrated in synthetic data and sepsis disease.
翻訳日:2023-10-18 03:07:32 公開日:2023-10-14
# Raze to the Ground: マシン学習型フィッシングWebページ検出器に対するクエリ効率の良いHTML攻撃

Raze to the Ground: Query-Efficient Adversarial HTML Attacks on Machine-Learning Phishing Webpage Detectors ( http://arxiv.org/abs/2310.03166v2 )

ライセンス: Link先を確認
Biagio Montaruli, Luca Demetrio, Maura Pintor, Luca Compagna, Davide Balzarotti, Battista Biggio(参考訳) 機械学習フィッシングWebページ検出器(ML-PWD)は,入力WebページのHTMLコードの逆操作に悩まされている。 それにもかかわらず、最近提案された攻撃は、採用されている操作の使用を最適化しないため、限られた有効性を示しており、HTMLコードの特定の要素のみに焦点を当てている。 本研究では,入力フィッシングWebページのHTMLコードを,その悪意や視覚的外観を損なうことなく変更可能な,一連の細かな操作を設計することで,これらの制限を克服する。 次に,問合せ効率のよいブラックボックス最適化アルゴリズムにより,対象検出器をバイパスするために適用すべき操作を選択する。 実験の結果,現在のML-PWDの性能は30クエリに過ぎず,従来より弱い攻撃を克服し,ML-PWDのより公平な堅牢性評価を可能にした。

Machine-learning phishing webpage detectors (ML-PWD) have been shown to suffer from adversarial manipulations of the HTML code of the input webpage. Nevertheless, the attacks recently proposed have demonstrated limited effectiveness due to their lack of optimizing the usage of the adopted manipulations, and they focus solely on specific elements of the HTML code. In this work, we overcome these limitations by first designing a novel set of fine-grained manipulations which allow to modify the HTML code of the input phishing webpage without compromising its maliciousness and visual appearance, i.e., the manipulations are functionality- and rendering-preserving by design. We then select which manipulations should be applied to bypass the target detector by a query-efficient black-box optimization algorithm. Our experiments show that our attacks are able to raze to the ground the performance of current state-of-the-art ML-PWD using just 30 queries, thus overcoming the weaker attacks developed in previous work, and enabling a much fairer robustness evaluation of ML-PWD.
翻訳日:2023-10-18 02:57:42 公開日:2023-10-14
# 3次元物理系における対称性の破断学習のための緩和オクタヘドラル群畳み込み

Relaxed Octahedral Group Convolution for Learning Symmetry Breaking in 3D Physical Systems ( http://arxiv.org/abs/2310.02299v2 )

ライセンス: Link先を確認
Rui Wang, Robin Walters, Tess E.Smidt(参考訳) 深部等変モデルでは、サンプル効率と一般化を改善するために対称性を用いる。 しかし、これらのモデルの多くにおける完全対称性の仮定は、特にデータがそのような対称性と完全に一致しない場合に制限的である。 そこで本稿では,3次元物理系をモデル化するための緩和八面体群畳み込みを導入する。 このフレキシブルな畳み込み法は、モデルがデータと整合する最も高いレベルの等値を維持し、物理的システムの微妙な対称性を破る要因を発見できるようにする。 実験により,本手法は相転移における対称性破壊要因の洞察を与えるだけでなく,流体超解像タスクにおいて優れた性能を達成できることを示す。

Deep equivariant models use symmetries to improve sample efficiency and generalization. However, the assumption of perfect symmetry in many of these models can sometimes be restrictive, especially when the data does not perfectly align with such symmetries. Thus, we introduce relaxed octahedral group convolution for modeling 3D physical systems in this paper. This flexible convolution technique provably allows the model to both maintain the highest level of equivariance that is consistent with data and discover the subtle symmetry-breaking factors in the physical systems. Empirical results validate that our approach can not only provide insights into the symmetry-breaking factors in phase transitions but also achieves superior performance in fluid super-resolution tasks.
翻訳日:2023-10-18 02:56:31 公開日:2023-10-14
# なぜオートエンコーダが機能するのか?

Why do autoencoders work? ( http://arxiv.org/abs/2310.02250v2 )

ライセンス: Link先を確認
Matthew D. Kvalheim and Eduardo D. Sontag(参考訳) ディープニューラルネットワークオートエンコーダは、モデル削減のために計算的に使用される。 それらは入力ユークリッド空間 $\mathbb{R}^n$ の$k$-次元部分集合 $K$ にあるデータの本質的な次元を認識することができる。 基本的な考え方は、$\mathbb{r}^n$を$\mathbb{r}^k$(ボトルネック層または潜在変数の空間と呼ばれる)にマッピングする符号化層と、$\mathbb{r}^k$を$\mathbb{r}^n$に戻す復号層の両方を得ることである。 これは、入力と再構成された出力との差を最小限に抑えるために、ネットワーク内のパラメータ(重み)を調整することで達成される。 ニューラルネットワーク(連続活性化関数を持つ)は連続写像を計算するので、完全再構成を達成するネットワークの存在は、$K$が$\mathbb{R}^k$の$k$-次元部分集合に同型であることを意味する。 一方、実際には、このテクニックは"うまく働く"ことが分かり、この効果を説明する方法があるかどうかを尋ねることになる。 私たちは、小さなエラーまで、実際にそのメソッドが機能することを保証していることを示す。 これは微分幾何学からある事実に訴えることによって行われる。 アイデアを説明するための計算例も含んでいる。

Deep neural network autoencoders are routinely used computationally for model reduction. They allow recognizing the intrinsic dimension of data that lie in a $k$-dimensional subset $K$ of an input Euclidean space $\mathbb{R}^n$. The underlying idea is to obtain both an encoding layer that maps $\mathbb{R}^n$ into $\mathbb{R}^k$ (called the bottleneck layer or the space of latent variables) and a decoding layer that maps $\mathbb{R}^k$ back into $\mathbb{R}^n$, in such a way that the input data from the set $K$ is recovered when composing the two maps. This is achieved by adjusting parameters (weights) in the network to minimize the discrepancy between the input and the reconstructed output. Since neural networks (with continuous activation functions) compute continuous maps, the existence of a network that achieves perfect reconstruction would imply that $K$ is homeomorphic to a $k$-dimensional subset of $\mathbb{R}^k$, so clearly there are topological obstructions to finding such a network. On the other hand, in practice the technique is found to "work" well, which leads one to ask if there is a way to explain this effectiveness. We show that, up to small errors, indeed the method is guaranteed to work. This is done by appealing to certain facts from differential geometry. A computational example is also included to illustrate the ideas.
翻訳日:2023-10-18 02:56:18 公開日:2023-10-14
# LanguageBind: 言語に基づくセマンティックアライメントによるN-モダリティへのビデオ言語事前学習

LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment ( http://arxiv.org/abs/2310.01852v3 )

ライセンス: Link先を確認
Bin Zhu, Bin Lin, Munan Ning, Yang Yan, Jiaxi Cui, HongFa Wang, Yatian Pang, Wenhao Jiang, Junwu Zhang, Zongwei Li, Wancai Zhang, Zhifeng Li, Wei Liu, and Li Yuan(参考訳) ビデオ言語(VL)プレトレーニングは、複数の下流タスクにおいて著しく改善されている。 しかしながら、現在のVL事前学習フレームワークは、視覚や言語を超えた複数のモーダル(Nモダリティ、N>=3)にまで拡張するのは難しい。 そこで我々は言語bindを提案し,言語モダリティは十分に探索され,豊富な意味論を含んでいるため,言語を異なるモダリティのバインドとして捉える。 具体的には、VL事前学習によって得られた言語エンコーダを凍結し、コントラスト学習を伴う他のモダリティのためのエンコーダを訓練する。 その結果、すべてのモダリティは共有機能空間にマッピングされ、マルチモーダルなセマンティックアライメントを実装する。 LanguageBindは、VLモダリティをNモダリティに拡張できることを保証する一方で、言語を中心としたデータペアをアライメントする高品質なデータセットも必要です。 そこで我々は,VIDAL-10Mをビデオ,赤外線,深度,オーディオおよびそれに対応する言語として提案し,VIDAL-10Mと命名した。 我々のVIDAL-10Mでは、すべてのビデオは長いビデオから切り離されたセグメントではなく、完全な意味を持った短いビデオプラットフォームから作成されています。 vidal-10mをプリトレーニングした後、ゼロショットビデオテキスト検索タスクのパラメータの15%しか持たないmsr-vttデータセットで、imagebindを5.8%r@1に上回った。 さらに、LanguageBindはゼロショットビデオ、オーディオ、奥行き、赤外線理解タスクを大幅に改善しました。 例えば、LanguageBindがInterVideoを1.9%、MSVDが8.8%、DiDeMoが6.3%、ActivityNetが4.4%上回った。 LLVIPとNYU-Dデータセットでは、LanguageBindがImageBindを23.8%、11.1%で上回っている。 コードアドレスはhttps://github.com/PKU-YuanGroup/LanguageBind。

The video-language (VL) pretraining has achieved remarkable improvement in multiple downstream tasks. However, the current VL pretraining framework is hard to extend to multiple modalities (N modalities, N>=3) beyond vision and language. We thus propose LanguageBind, taking the language as the bind across different modalities because the language modality is well-explored and contains rich semantics. Specifically, we freeze the language encoder acquired by VL pretraining, then train encoders for other modalities with contrastive learning. As a result, all modalities are mapped to a shared feature space, implementing multi-modal semantic alignment. While LanguageBind ensures that we can extend VL modalities to N modalities, we also need a high-quality dataset with alignment data pairs centered on language. We thus propose VIDAL-10M with Video, Infrared, Depth, Audio and their corresponding Language, naming as VIDAL-10M. In our VIDAL-10M, all videos are from short video platforms with complete semantics rather than truncated segments from long videos, and all the video, depth, infrared, and audio modalities are aligned to their textual descriptions. After pretraining on VIDAL-10M, we outperform ImageBind by 5.8% R@1 on the MSR-VTT dataset with only 15% of the parameters in the zero-shot video-text retrieval task. Beyond this, our LanguageBind has greatly improved in the zero-shot video, audio, depth, and infrared understanding tasks. For instance, LanguageBind surpassing InterVideo by 1.9% on MSR-VTT, 8.8% on MSVD, 6.3% on DiDeMo, and 4.4% on ActivityNet. On the LLVIP and NYU-D datasets, LanguageBind outperforms ImageBind with 23.8% and 11.1% top-1 accuracy. Code address: https://github.com/PKU-YuanGroup/LanguageBind.
翻訳日:2023-10-18 02:55:50 公開日:2023-10-14
# テキストから画像への拡散によるドメインの変換:ドメイン適応へのソースフリーアプローチ

Transcending Domains through Text-to-Image Diffusion: A Source-Free Approach to Domain Adaptation ( http://arxiv.org/abs/2310.01701v3 )

ライセンス: Link先を確認
Shivang Chopra, Suraj Kothawade, Houda Aynaou, Aman Chadha(参考訳) ドメイン適応(da)は、モデルが関連するソースドメインから取得した情報を十分なラベル付きデータで適用することにより、不適切なアノテートデータを持つ対象ドメインにおけるモデルの性能を向上させる手法である。 HIPAA、COPPA、FERPAなどのデータプライバシ規制の実施が、ソースデータに直接アクセスする必要を回避しつつ、新しいドメインにモデルを適用することへの関心を高め、ソースフリードメイン適応(Source-free Domain Adaptation、SFDA)と呼ばれる問題を引き起こした。 本稿では,対象ドメインのサンプルに基づいて訓練されたテキスト・画像拡散モデルを用いて,ソースデータを生成する新しいSFDAフレームワークを提案する。 提案手法は,ラベル付き対象領域のサンプルに対してテキスト間拡散モデルをトレーニングし,事前学習したソースモデルを用いて微調整を行い,ソースデータに近いサンプルを生成する。 最後に、ドメイン適応技術を用いて、人工的に生成されたソースデータを対象のドメインデータと整合させることにより、ターゲットのドメイン上でのモデルの性能が大幅に向上する。 標準のoffice-31, office-home, visdaベンチマークにおける複数のベースラインとの比較を行い,sfdaタスクに対するアプローチの有効性を実証した。

Domain Adaptation (DA) is a method for enhancing a model's performance on a target domain with inadequate annotated data by applying the information the model has acquired from a related source domain with sufficient labeled data. The escalating enforcement of data-privacy regulations like HIPAA, COPPA, FERPA, etc. have sparked a heightened interest in adapting models to novel domains while circumventing the need for direct access to the source data, a problem known as Source-Free Domain Adaptation (SFDA). In this paper, we propose a novel framework for SFDA that generates source data using a text-to-image diffusion model trained on the target domain samples. Our method starts by training a text-to-image diffusion model on the labeled target domain samples, which is then fine-tuned using the pre-trained source model to generate samples close to the source data. Finally, we use Domain Adaptation techniques to align the artificially generated source data with the target domain data, resulting in significant performance improvements of the model on the target domain. Through extensive comparison against several baselines on the standard Office-31, Office-Home, and VisDA benchmarks, we demonstrate the effectiveness of our approach for the SFDA task.
翻訳日:2023-10-18 02:55:14 公開日:2023-10-14
# タスク適応トークン化によるメンタルヘルスにおける長文テキスト生成の促進

Enhancing Long-form Text Generation in Mental Health with Task-adaptive Tokenization ( http://arxiv.org/abs/2310.05317v3 )

ライセンス: Link先を確認
Siyang Liu, Naihao Deng, Sahand Sabour, Yilin Jia, Minlie Huang, Rada Mihalcea(参考訳) 本稿では,ダウンストリームタスクの仕様に生成パイプラインを適用する方法としてタスク適応トークン化を提案し,メンタルヘルスにおける長期的生成の促進を図る。 認知科学の知見に触発されて、タスク適応型トークンーザは複数の結果から可変セグメンテーションをサンプリングし、タスク固有データに基づいてサンプリング確率を最適化した。 本稿では,専門用語構築のための戦略と,事前学習したモデルのトークン化ステップへのタスク固有のトークンの統合を可能にする語彙統合プロトコルを提案する。 中国語と英語の心理学的質問応答タスクに関する広範な実験を通して、我々のタスク適応型トークン化アプローチは、最大60%のトークンを使用しながら、生成性能を大幅に改善することを発見した。 予備実験は、非常に大きな言語モデルでトークン化アプローチを使用する場合に有望な結果を示す。

We propose task-adaptive tokenization as a way to adapt the generation pipeline to the specifics of a downstream task and enhance long-form generation in mental health. Inspired by insights from cognitive science, our task-adaptive tokenizer samples variable segmentations from multiple outcomes, with sampling probabilities optimized based on task-specific data. We introduce a strategy for building a specialized vocabulary and introduce a vocabulary merging protocol that allows for the integration of task-specific tokens into the pre-trained model's tokenization step. Through extensive experiments on psychological question-answering tasks in both Chinese and English, we find that our task-adaptive tokenization approach brings a significant improvement in generation performance while using up to 60% fewer tokens. Preliminary experiments point to promising results when using our tokenization approach with very large language models.
翻訳日:2023-10-18 02:48:57 公開日:2023-10-14
# 動的半群の生成子の一意分解の理解と一般化

Understanding & Generalizing Unique Decompositions of Generators of Dynamical Semigroups ( http://arxiv.org/abs/2310.04037v2 )

ライセンス: Link先を確認
Frederik vom Ende(参考訳) 我々は、gorini, kossakowski, sudarshan [j. math. phys. 17:821, 1976]の結果を一般化し、量子力学半群のすべての生成元が一意的に閉じた部分と散逸部分に分割され、両者の痕跡が消えることを仮定する。 より正確には、任意の生成元 $L$ が完全正の動的半群で任意の行列 $B$ が与えられたとき、一意の行列 $K$ と一意の正の写像 $Phi$ が存在することを示す。 (i)$L=K(\cdot)+(\cdot)K^*+\Phi$, (ii)超演算子 $\phi(b^*(\cdot)b)$ はトレースゼロであり、 (iii)${\rm tr}(B^*K)$は実数である。 これを証明する鍵となるのは、完全正の写像のトレース、クラス作用素のトレース、チェイ行列の期待値の関係である。 さらに、上記の分解は、ある$B$重み付き内積に対して直交的であることを示す。

We generalize the result of Gorini, Kossakowski, and Sudarshan [J. Math. Phys. 17:821, 1976] that every generator of a quantum-dynamical semigroup decomposes uniquely into a closed and a dissipative part, assuming the trace of both vanishes. More precisely, we show that given any generator $L$ of a completely positive dynamical semigroup and any matrix $B$ there exists a unique matrix $K$ and a unique completely positive map $\Phi$ such that (i) $L=K(\cdot)+(\cdot)K^*+\Phi$, (ii) the superoperator $\Phi(B^*(\cdot)B)$ has trace zero, and (iii) ${\rm tr}(B^*K)$ is a real number. The key to proving this is the relation between the trace of a completely positive map, the trace of its Kraus operators, and expectation values of its Choi matrix. Moreover, we show that the above decomposition is orthogonal with respect to some $B$-weighted inner product.
翻訳日:2023-10-18 02:47:21 公開日:2023-10-14
# 分類モデルの修正のためのルールマイニング

Rule Mining for Correcting Classification Models ( http://arxiv.org/abs/2310.06446v2 )

ライセンス: Link先を確認
Hirofumi Suzuki, Hiroaki Iwashita, Takuya Takagi, Yuta Fujishige, Satoshi Hara(参考訳) 予測精度が一貫して高いことを保証するためには、機械学習モデルを継続的に更新または修正する必要がある。 本研究では,モデルが複雑なシステムやソフトウェアの一部である場合など,モデル修正によって予測結果を変更することを注意すべきシナリオを検討する。 このようなシナリオでは、開発者は修正の仕様を制御したい。 これを達成するためには、入力のどのサブポピュレーションがモデルによって不正確な予測を受けるかを理解する必要がある。 そこで本研究では,不正確な亜集団を記述した規則の包括的リストを取得するために,補正規則マイニングを提案する。 また、頻繁なアイテムセットマイニングと、補正ルールに対するユニークなプルーニング技術を組み合わせた効率的な補正ルールマイニングアルゴリズムを開発した。 提案アルゴリズムは,学習したデータを収集し,モデル出力を直接補正し,概念ドリフトを解析するための様々なルールを発見した。

Machine learning models need to be continually updated or corrected to ensure that the prediction accuracy remains consistently high. In this study, we consider scenarios where developers should be careful to change the prediction results by the model correction, such as when the model is part of a complex system or software. In such scenarios, the developers want to control the specification of the corrections. To achieve this, the developers need to understand which subpopulations of the inputs get inaccurate predictions by the model. Therefore, we propose correction rule mining to acquire a comprehensive list of rules that describe inaccurate subpopulations and how to correct them. We also develop an efficient correction rule mining algorithm that is a combination of frequent itemset mining and a unique pruning technique for correction rules. We observed that the proposed algorithm found various rules which help to collect data insufficiently learned, directly correct model outputs, and analyze concept drift.
翻訳日:2023-10-18 02:37:58 公開日:2023-10-14
# MRフィンガープリンティング改善のためのマニフォールド構造データ先行処理

Exploiting Manifold Structured Data Priors for Improved MR Fingerprinting Reconstruction ( http://arxiv.org/abs/2310.05647v2 )

ライセンス: Link先を確認
Peng Li, Yuping Ji, Yue Hu(参考訳) 組織パラメータマップを高精度かつ高精度に推定することはMRフィンガープリント(MRF)における大きな課題の1つとなる。 多くの既存の研究は、復元されたボクセル指紋をブロッホ多様体に投影し、復元性能を向上させる。 しかし、指紋間の潜在多様体構造を利用した研究はほとんどない。 このギャップを埋めるために,多様体構造データに基づく新しいMDF再構成フレームワークを提案する。 指紋多様体構造を直接推定することは困難であるため,組織パラメータを低次元パラメータ多様体上の点としてモデル化する。 フィンガープリント多様体は、異なるユークリッド空間に埋め込まれているにもかかわらず、パラメータ多様体と同じ固有位相を持つ。 mrfデータの非線形および非局所冗長性を利用するため、mrfデータを空間パッチに分割し、パラメータ多様体内の対応するパッチ間のユークリッド距離を用いてデータパッチ間の類似度測定を正確に得ることができる。 測定された類似性は、指紋多様体構造を表すグラフラプラシアン作用素を構成するために使われる。 従って、低次元パラメータ多様体を用いて、再構築フレームワークに指紋多様体構造を導入する。 さらに,各パッチの局所的相関を活用し,復元性能を向上させるために,復元フレームワークに先行する局所的低ランクを組み込んだ。 また,非カーテシアンサンプリングシナリオの再構成を高速化するために,gpuによるnufftライブラリも採用した。 実験の結果,本手法は最先端手法よりも計算時間を短縮し,復元性能を大幅に向上できることがわかった。

Estimating tissue parameter maps with high accuracy and precision from highly undersampled measurements presents one of the major challenges in MR fingerprinting (MRF). Many existing works project the recovered voxel fingerprints onto the Bloch manifold to improve reconstruction performance. However, little research focuses on exploiting the latent manifold structure priors among fingerprints. To fill this gap, we propose a novel MRF reconstruction framework based on manifold structured data priors. Since it is difficult to directly estimate the fingerprint manifold structure, we model the tissue parameters as points on a low-dimensional parameter manifold. We reveal that the fingerprint manifold shares the same intrinsic topology as the parameter manifold, although being embedded in different Euclidean spaces. To exploit the non-linear and non-local redundancies in MRF data, we divide the MRF data into spatial patches, and the similarity measurement among data patches can be accurately obtained using the Euclidean distance between the corresponding patches in the parameter manifold. The measured similarity is then used to construct the graph Laplacian operator, which represents the fingerprint manifold structure. Thus, the fingerprint manifold structure is introduced in the reconstruction framework by using the low-dimensional parameter manifold. Additionally, we incorporate the locally low-rank prior in the reconstruction framework to further utilize the local correlations within each patch for improved reconstruction performance. We also adopt a GPU-accelerated NUFFT library to accelerate reconstruction in non-Cartesian sampling scenarios. Experimental results demonstrate that our method can achieve significantly improved reconstruction performance with reduced computational time over the state-of-the-art methods.
翻訳日:2023-10-18 02:36:14 公開日:2023-10-14
# retseg: 保持型大腸ポリープセグメンテーションネットワーク

RetSeg: Retention-based Colorectal Polyps Segmentation Network ( http://arxiv.org/abs/2310.05446v3 )

ライセンス: Link先を確認
Khaled ELKarazle, Valliappan Raman, Caslon Chua and Patrick Then(参考訳) ビジョントランスフォーマー(ViT)は医療画像解析に革命をもたらし、ポリープ分類、検出、セグメンテーションといった重要なタスクにおいて従来の畳み込みニューラルネットワーク(CNN)よりも優れた効果を示した。 注意のメカニズムを利用して特定の画像領域に集中し、vitsは視覚データの処理において文脈的意識を示し、複雑な医療画像であっても、堅牢で正確な予測が可能となる。 さらに、トランスフォーマにおける固有の自己着脱機構は、様々な入力サイズと解像度に対応し、従来のcnnにない前例のない柔軟性をもたらす。 しかし、トランスフォーマーは過度のメモリ使用やセルフアテンションによるトレーニング並列性の制限といった課題に対処し、リソース制約のあるデバイスでのリアルタイム疾患検出には実用的でない。 本研究では,最近導入された保持機構をポリプセグメンテーションに統合し,マルチヘッド保持ブロックを備えたエンコーダデコーダネットワークRetSegを導入することで,これらのハードルに対処する。 RetNet(RetNet)からインスピレーションを得たRetSegは,特に大腸内視鏡画像に適した,正確なポリープ分割と資源利用のギャップを埋めるように設計されている。 我々は、Kvasir-SEGとCVC-ClinicDBという2つの公開データセットを使用して、ポリプセグメンテーションのためのRetSegをトレーニングし、検証する。 さらに、CVC-ColonDB、ETIS-LaribPolypDB、CVC-300、BKAI-IGH NeoPolypなど、さまざまなパブリックデータセットにわたるRetSegの有望なパフォーマンスを紹介します。 我々の研究は初期段階の探査を表しているが、さらなる深い研究はこれらの有望な発見を前進させるのに不可欠である。

Vision Transformers (ViTs) have revolutionized medical imaging analysis, showcasing superior efficacy compared to conventional Convolutional Neural Networks (CNNs) in vital tasks such as polyp classification, detection, and segmentation. Leveraging attention mechanisms to focus on specific image regions, ViTs exhibit contextual awareness in processing visual data, culminating in robust and precise predictions, even for intricate medical images. Moreover, the inherent self-attention mechanism in Transformers accommodates varying input sizes and resolutions, granting an unprecedented flexibility absent in traditional CNNs. However, Transformers grapple with challenges like excessive memory usage and limited training parallelism due to self-attention, rendering them impractical for real-time disease detection on resource-constrained devices. In this study, we address these hurdles by investigating the integration of the recently introduced retention mechanism into polyp segmentation, introducing RetSeg, an encoder-decoder network featuring multi-head retention blocks. Drawing inspiration from Retentive Networks (RetNet), RetSeg is designed to bridge the gap between precise polyp segmentation and resource utilization, particularly tailored for colonoscopy images. We train and validate RetSeg for polyp segmentation employing two publicly available datasets: Kvasir-SEG and CVC-ClinicDB. Additionally, we showcase RetSeg's promising performance across diverse public datasets, including CVC-ColonDB, ETIS-LaribPolypDB, CVC-300, and BKAI-IGH NeoPolyp. While our work represents an early-stage exploration, further in-depth studies are imperative to advance these promising findings.
翻訳日:2023-10-18 02:35:30 公開日:2023-10-14
# 直接ロジット帰属の逆例:gelu-4lにおけるメモリ管理

An Adversarial Example for Direct Logit Attribution: Memory Management in gelu-4l ( http://arxiv.org/abs/2310.07325v2 )

ライセンス: Link先を確認
James Dao, Yeu-Tong Lau, Can Rager, Jett Janiak(参考訳) 4層トランスにおけるメモリ管理の具体的な証拠を提供する。 具体的には、モデルコンポーネントが前方通過時の受入部品の出力を一貫して除去するクリーンアップ動作を特定する。 以上の結果から, 直接ロジット属性は誤帰的な結果をもたらすことが示唆された。 クリーンアップ動作を考慮しないため,この手法が不正確な場合の明確な例を示す。

We provide concrete evidence for memory management in a 4-layer transformer. Specifically, we identify clean-up behavior, in which model components consistently remove the output of preceeding components during a forward pass. Our findings suggest that the interpretability technique Direct Logit Attribution provides misleading results. We show explicit examples where this technique is inaccurate, as it does not account for clean-up behavior.
翻訳日:2023-10-18 02:29:09 公開日:2023-10-14
# BraTSデータセットにおけるジェネレーティブ・ディバイザ・ネットワークを用いたモードからの欠落MRI系列の合成

Synthesizing Missing MRI Sequences from Available Modalities using Generative Adversarial Networks in BraTS Dataset ( http://arxiv.org/abs/2310.07250v2 )

ライセンス: Link先を確認
Ibrahim Ethem Hamamci(参考訳) グリオ芽腫は、非常に攻撃的で致命的な脳腫瘍である。 mriは,非侵襲的かつ放射線のない性質のため,グリオブラスト腫の診断,治療計画,経過観察において重要な役割を担っている。 国際脳腫瘍セグメンテーション(BraTS)チャレンジは、4つの構造(T1, T1Gd, T2, T2-FLAIR)MRIスキャンを用いてグリオ芽腫のサブコンパートメントを正確かつ効率的に分割するための多数のAIアルゴリズムの生成に貢献した。 しかし、これらの4つのMRIシーケンスは必ずしも利用できない。 この問題を解決するために、GAN(Generative Adversarial Networks)を使用して、欠落したMRIシーケンスを合成する。 本稿では、3つのMRIシーケンスを入力として取り出して、欠落した4番目の構造シーケンスを生成する、オープンソースのGANアプローチの実装と利用を行う。 提案手法は, コミュニティ主導の汎用ディープラーニングフレームワークGaNDLF(General nuanced Deep Learning framework)に寄与し, 高品質で現実的なMRIシークエンスを合成し, 臨床医が診断能力を向上し, 脳腫瘍MRI定量化へのAI手法の適用を支援できることを示す。

Glioblastoma is a highly aggressive and lethal form of brain cancer. Magnetic resonance imaging (MRI) plays a significant role in the diagnosis, treatment planning, and follow-up of glioblastoma patients due to its non-invasive and radiation-free nature. The International Brain Tumor Segmentation (BraTS) challenge has contributed to generating numerous AI algorithms to accurately and efficiently segment glioblastoma sub-compartments using four structural (T1, T1Gd, T2, T2-FLAIR) MRI scans. However, these four MRI sequences may not always be available. To address this issue, Generative Adversarial Networks (GANs) can be used to synthesize the missing MRI sequences. In this paper, we implement and utilize an open-source GAN approach that takes any three MRI sequences as input to generate the missing fourth structural sequence. Our proposed approach is contributed to the community-driven generally nuanced deep learning framework (GaNDLF) and demonstrates promising results in synthesizing high-quality and realistic MRI sequences, enabling clinicians to improve their diagnostic capabilities and support the application of AI methods to brain tumor MRI quantification.
翻訳日:2023-10-18 02:29:03 公開日:2023-10-14
# IBoxCLA: 改良されたボックスダイスとコントラスト遅延アンカーによるポリープのロバストボックス制御セグメンテーションを目指して

IBoxCLA: Towards Robust Box-supervised Segmentation of Polyp via Improved Box-dice and Contrastive Latent-anchors ( http://arxiv.org/abs/2310.07248v2 )

ライセンス: Link先を確認
Zhiwei Wang, Qiang Hu, Hongkuan Shi, Li He, Man He, Wenxuan Dai, Ting Li, Yitong Zhang, Dun Li, Mei Liu, and Qiang Li(参考訳) 箱型ポリープセグメンテーションは、そのコスト効果の可能性に注目が集まる。 既存のソリューションは、しばしば学習のない方法や事前訓練されたモデルに頼り、疑似マスクを生成する。 本稿では,最も単純な箱詰めマスクで誘導されたモデルが,ポリプの位置やサイズを正確に予測できるが,形状の崩壊に苦しむことを発見した。 そこで我々は,IBox-dice (IBox) とContrastive Latent-Anchors (CLA) の2つの革新的な学習手法を提案し,それらを組み合わせて頑健な箱教師モデルIBoxCLAを訓練する。 IBoxCLAの背景にある基本的な考え方は、位置/サイズと形状の学習を分離し、それぞれに制約を集中させることである。 具体的には、IBoxは分割マップをシェイプデカップリングと混乱領域スワップを用いてプロキシマップに変換する。 プロキシマップ内では、形状が乱れ、位置/サイズがボックスライクな応答としてエンコードされる。 生の予測ではなくプロキシマップを制約することで、ボックス満載のマスクは形状学習を誤解することなく、iboxclaを適切に監視することができる。 さらに、CLAは2種類の潜伏アンカーを生成し、モーメントとセグメンテーションポリープを用いて学習・更新し、ポリプとバックグラウンドの特徴を着実に表現することで形状学習に寄与する。 潜伏アンカーは、IBoxCLAが箱内および外部の識別的特徴を対照的に捉え、より明確な境界をもたらす。 IBoxCLAを5つの公開ポリプデータセットでベンチマークする。 実験の結果,IBoxCLAの競合性能は,最近の完全教師付きポリープセグメンテーション法と比較して,mDiceとmIoUをそれぞれ6.5%以上,mIoUを7.5%以上増加させた他のボックス管理状態よりも優れていた。

Box-supervised polyp segmentation attracts increasing attention for its cost-effective potential. Existing solutions often rely on learning-free methods or pretrained models to laboriously generate pseudo masks, triggering Dice constraint subsequently. In this paper, we found that a model guided by the simplest box-filled masks can accurately predict polyp locations/sizes, but suffers from shape collapsing. In response, we propose two innovative learning fashions, Improved Box-dice (IBox) and Contrastive Latent-Anchors (CLA), and combine them to train a robust box-supervised model IBoxCLA. The core idea behind IBoxCLA is to decouple the learning of location/size and shape, allowing for focused constraints on each of them. Specifically, IBox transforms the segmentation map into a proxy map using shape decoupling and confusion-region swapping sequentially. Within the proxy map, shapes are disentangled, while locations/sizes are encoded as box-like responses. By constraining the proxy map instead of the raw prediction, the box-filled mask can well supervise IBoxCLA without misleading its shape learning. Furthermore, CLA contributes to shape learning by generating two types of latent anchors, which are learned and updated using momentum and segmented polyps to steadily represent polyp and background features. The latent anchors facilitate IBoxCLA to capture discriminative features within and outside boxes in a contrastive manner, yielding clearer boundaries. We benchmark IBoxCLA on five public polyp datasets. The experimental results demonstrate the competitive performance of IBoxCLA compared to recent fully-supervised polyp segmentation methods, and its superiority over other box-supervised state-of-the-arts with a relative increase of overall mDice and mIoU by at least 6.5% and 7.5%, respectively.
翻訳日:2023-10-18 02:28:36 公開日:2023-10-14
# 人のフィードバックのオフポリティ評価

Off-Policy Evaluation for Human Feedback ( http://arxiv.org/abs/2310.07123v2 )

ライセンス: Link先を確認
Qitong Gao, Ge Gao, Juncheng Dong, Vahid Tarokh, Min Chi, Miroslav Pajic(参考訳) オフライン軌道のみを用いた目標(評価)政策の評価と評価を行うことにより、オフライン学習と強化学習(RL)のギャップを埋めるためには、オフ政治評価(OPE)が重要である。 医療などのオンラインデプロイメントが高価である状況において、データ収集とポリシーテスト手順の安全性と効率を改善することができる。 しかし、既存のOPE法は、HFが複数の基本的な要因に対して条件付けられているため、人間のフィードバック(HF)信号を推定するのに不足しており、通常はパラメトリック関数や分布上で決定されるエージェント定義の環境報酬(ポリシー最適化で使用される)とは対照的に、わずかにしか利用できない。 したがって、HF信号の性質により、正確なOPE推定が困難になる。 この問題を解決するために,既存のOPE手法を復元し,HF信号の正確な評価を行うHF(OPEHF)フレームワークのOPEを導入する。 具体的には, 潜在空間に蒸留した環境知識によって規則化され, 状態遷移の基盤となるダイナミクスを捉え, hf信号の発行を行う, 即時人的報酬(ihr)再構成手法を開発した。 本手法は,適応的生体内神経刺激と知的指導の2つの実世界実験とシミュレーション環境(視覚q&a)を用いて実験を行った。 提案手法は,既存のOPE法を直接適用した場合と比較して,HF信号の正確な推定性能を著しく向上することを示す。

Off-policy evaluation (OPE) is important for closing the gap between offline training and evaluation of reinforcement learning (RL), by estimating performance and/or rank of target (evaluation) policies using offline trajectories only. It can improve the safety and efficiency of data collection and policy testing procedures in situations where online deployments are expensive, such as healthcare. However, existing OPE methods fall short in estimating human feedback (HF) signals, as HF may be conditioned over multiple underlying factors and is only sparsely available; as opposed to the agent-defined environmental rewards (used in policy optimization), which are usually determined over parametric functions or distributions. Consequently, the nature of HF signals makes extrapolating accurate OPE estimations to be challenging. To resolve this, we introduce an OPE for HF (OPEHF) framework that revives existing OPE methods in order to accurately evaluate the HF signals. Specifically, we develop an immediate human reward (IHR) reconstruction approach, regularized by environmental knowledge distilled in a latent space that captures the underlying dynamics of state transitions as well as issuing HF signals. Our approach has been tested over two real-world experiments, adaptive in-vivo neurostimulation and intelligent tutoring, as well as in a simulation environment (visual Q&A). Results show that our approach significantly improves the performance toward estimating HF signals accurately, compared to directly applying (variants of) existing OPE methods.
翻訳日:2023-10-18 02:27:33 公開日:2023-10-14
# ニューラル予測アンサンブルサンプリングによる非定常文脈バンディット学習

Non-Stationary Contextual Bandit Learning via Neural Predictive Ensemble Sampling ( http://arxiv.org/abs/2310.07786v2 )

ライセンス: Link先を確認
Zheqing Zhu, Yueyang Liu, Xu Kuang, Benjamin Van Roy(参考訳) 文脈的包帯の現実世界の応用は、季節性、セレンディピティー、進化する社会的傾向によって、しばしば非定常性を示す。 文献では、多くの非定常文脈帯域学習アルゴリズムが提案されているが、持続的価値の情報に対する優先順位付けの欠如による過度な探索や、高次元のユーザ固有の特徴と大きなアクションセットを持つ現代のアプリケーションではスケールしない方法で設計されている。 本稿では,これらの問題に対処する新しい非定常文脈バンディットアルゴリズムを提案する。 スケーラブルでディープニューラルネットワークベースのアーキテクチャと、非定常環境において最も永続的な価値を持つ情報収集を戦略的に優先する、注意深く設計された探索メカニズムを組み合わせる。 非定常性を示す2つの実世界のレコメンデーションデータセットの実証評価を通じて、我々のアプローチが最先端のベースラインを大きく上回っていることを示す。

Real-world applications of contextual bandits often exhibit non-stationarity due to seasonality, serendipity, and evolving social trends. While a number of non-stationary contextual bandit learning algorithms have been proposed in the literature, they excessively explore due to a lack of prioritization for information of enduring value, or are designed in ways that do not scale in modern applications with high-dimensional user-specific features and large action set, or both. In this paper, we introduce a novel non-stationary contextual bandit algorithm that addresses these concerns. It combines a scalable, deep-neural-network-based architecture with a carefully designed exploration mechanism that strategically prioritizes collecting information with the most lasting value in a non-stationary environment. Through empirical evaluations on two real-world recommendation datasets, which exhibit pronounced non-stationarity, we demonstrate that our approach significantly outperforms the state-of-the-art baselines.
翻訳日:2023-10-18 02:14:21 公開日:2023-10-14
# 社会福祉の適応的最大化

Adaptive maximization of social welfare ( http://arxiv.org/abs/2310.09597v1 )

ライセンス: Link先を確認
Nicolo Cesa-Bianchi and Roberto Colomboni and Maximilian Kasy(参考訳) 社会福祉を最大化するための政策を繰り返し選択する問題を考える。 福祉は民間の公益と公益の重み付けである。 初期の結果は後続の政策を知らせる。 実用性は観察されていないが、間接的に推測される。 応答関数は実験を通じて学習される。 我々は, Exp3アルゴリズムの変形に対して, 後悔に対する低い境界と, 一致する逆上界を導出する。 累積的な後悔は$t^{2/3}$で増加する。 これが意味する。 (i)福祉の最大化は、多武装バンディット問題(有限政策集合に対して$t^{1/2}$)よりも困難である。 (ii)このアルゴリズムは最適速度を達成する。 確率的な設定では、社会福祉が凹凸であれば、dyadic searchアルゴリズムを用いて、(連続的な政策集合に対して)$t^{1/2}$ の率を達成できる。 我々は、非線形所得課税の拡張を分析し、商品課税の拡張をスケッチする。 我々は、われわれの設定を独占価格(これは簡単)と二国間貿易(より難しい)の価格設定と比較する。

We consider the problem of repeatedly choosing policies to maximize social welfare. Welfare is a weighted sum of private utility and public revenue. Earlier outcomes inform later policies. Utility is not observed, but indirectly inferred. Response functions are learned through experimentation. We derive a lower bound on regret, and a matching adversarial upper bound for a variant of the Exp3 algorithm. Cumulative regret grows at a rate of $T^{2/3}$. This implies that (i) welfare maximization is harder than the multi-armed bandit problem (with a rate of $T^{1/2}$ for finite policy sets), and (ii) our algorithm achieves the optimal rate. For the stochastic setting, if social welfare is concave, we can achieve a rate of $T^{1/2}$ (for continuous policy sets), using a dyadic search algorithm. We analyze an extension to nonlinear income taxation, and sketch an extension to commodity taxation. We compare our setting to monopoly pricing (which is easier), and price setting for bilateral trade (which is harder).
翻訳日:2023-10-18 02:08:30 公開日:2023-10-14
# 複素量子系における遷移状態理論の微視的導出

Microscopic derivation of transition-state theory for complex quantum systems ( http://arxiv.org/abs/2310.09537v1 )

ライセンス: Link先を確認
K. Hagino and G.F. Bertsch(参考訳) ポテンシャル障壁による量子複雑系の崩壊は、化学においてRRKM理論とも呼ばれる遷移状態理論でしばしば説明される。 ここでは、一般構成-相互作用ハミルトニアンに基づく遷移状態理論の基本公式を導出する。 この目的のために、障壁の中間配置に結合した2つのランダムハミルトニアンを考える。 開水路へのポストバリア配置の総崩壊確率が大きいという条件の下で、第1ランダムハミルトニアンから第2ランダムハミルトニアンへの伝達係数が遷移状態の形成と崩壊確率の分解形式として与えられることを示す。 この極限において、伝達係数はランダムハミルトニアンにおける構成の減衰幅とは独立である。 また、伝送係数をブライト・ウィグナー形式に還元し、共振トンネル状態による電子伝導でよく知られていることを示す。

The decay of quantum complex systems through a potential barrier is often described with transition-state theory, which is also known as RRKM theory in chemistry. Here we derive the basic formula for transition-state theory based on a generic configuration-interaction Hamiltonian. To this end, we consider two random Hamiltonians, which are coupled to intermediate configurations at a barrier. Under a condition that the total decay probability of the post-barrier configurations to open channels is large, we show that the transmission coefficient from the first random Hamiltonian to the second is given as a factorized form of the formation and the decay probabilities of transition states. In that limit the transmission coefficient is found to be independent of the decay widths of the configurations in the random Hamiltonians. We also show that the transmission coefficient is reduced to a Breit-Wigner form, which is well known for electronic conductance through resonant tunneling states.
翻訳日:2023-10-18 02:08:16 公開日:2023-10-14
# 低ランク物理形ニューラルネットワークのためのハイパーネットワークに基づくメタラーニング

Hypernetwork-based Meta-Learning for Low-Rank Physics-Informed Neural Networks ( http://arxiv.org/abs/2310.09528v1 )

ライセンス: Link先を確認
Woojin Cho, Kookjin Lee, Donsub Rim, Noseong Park(参考訳) 様々な工学や応用科学の応用において、様々な入力パラメータに対する偏微分方程式(PDE)の繰り返し数値シミュレーションが必要とされる(例えば、多くの設計パラメータに対する航空機形状の最適化)。 本研究では,物理インフォームドニューラルネットワーク(PINN)が新たに出現する深層学習型解法を,そのような解法の一つとみなす可能性を秘めている。 PINNは、ディープラーニングと科学計算の適切な統合を開拓してきたが、多くのクエリシナリオには適さないニューラルネットワークの反復的な時間的トレーニングを必要としている。 この問題に対処するために、数百のモデルパラメータと関連するハイパーネットワークベースのメタラーニングアルゴリズムを含む軽量な低ランクPINNを提案し、PDE入力パラメータの様々な範囲に対するPDEの解の効率的な近似を可能にする。 さらに,提案手法は,PINNの「障害モード」として知られる課題の克服に有効であることを示す。

In various engineering and applied science applications, repetitive numerical simulations of partial differential equations (PDEs) for varying input parameters are often required (e.g., aircraft shape optimization over many design parameters) and solvers are required to perform rapid execution. In this study, we suggest a path that potentially opens up a possibility for physics-informed neural networks (PINNs), emerging deep-learning-based solvers, to be considered as one such solver. Although PINNs have pioneered a proper integration of deep-learning and scientific computing, they require repetitive time-consuming training of neural networks, which is not suitable for many-query scenarios. To address this issue, we propose a lightweight low-rank PINNs containing only hundreds of model parameters and an associated hypernetwork-based meta-learning algorithm, which allows efficient approximation of solutions of PDEs for varying ranges of PDE input parameters. Moreover, we show that the proposed method is effective in overcoming a challenging issue, known as "failure modes" of PINNs.
翻訳日:2023-10-18 02:07:59 公開日:2023-10-14
# 汎用非協力ゲームのオンラインパラメータ同定

Online Parameter Identification of Generalized Non-cooperative Game ( http://arxiv.org/abs/2310.09511v1 )

ライセンス: Link先を確認
Jianguo Chen and Jinlong Lei and Hongsheng Qi and Yiguang Hong(参考訳) 本研究は、各プレイヤーのコスト関数が観測可能な信号と未知のパラメータによって影響を受ける一般化された非協力ゲームにおけるパラメータ識別問題を研究する。 観測可能な信号におけるゲームの平衡がノイズで観測できるシナリオを考察する一方、我々の目標は未知のパラメータを観測データで識別することである。 このパラメータ識別問題をオンライン最適化として構築し,新しいオンラインパラメータ識別アルゴリズムを導入する。 具体的には、保守性と補正性のバランスをとる正規化損失関数を構築し、保守性項は、新しい推定値が現在の推定値から大きくずれないように保証し、補正性項はカルス=クーン=タッカー条件によってキャプチャされる。 次に,オンラインパラメータ同定アルゴリズムの未知パラメータと学習率についてプレイヤーのコスト関数が線形である場合,他の仮定とともに,提案アルゴリズムの後悔境界は o(\sqrt{k}) であることを示す。 最後に,nash-cournot問題に対する数値シミュレーションを行い,オンライン同定アルゴリズムの性能がオフライン設定と同等であることを示す。

This work studies the parameter identification problem of a generalized non-cooperative game, where each player's cost function is influenced by an observable signal and some unknown parameters. We consider the scenario where equilibrium of the game at some observable signals can be observed with noises, whereas our goal is to identify the unknown parameters with the observed data. Assuming that the observable signals and the corresponding noise-corrupted equilibriums are acquired sequentially, we construct this parameter identification problem as online optimization and introduce a novel online parameter identification algorithm. To be specific, we construct a regularized loss function that balances conservativeness and correctiveness, where the conservativeness term ensures that the new estimates do not deviate significantly from the current estimates, while the correctiveness term is captured by the Karush-Kuhn-Tucker conditions. We then prove that when the players' cost functions are linear with respect to the unknown parameters and the learning rate of the online parameter identification algorithm satisfies \mu_k \propto 1/\sqrt{k}, along with other assumptions, the regret bound of the proposed algorithm is O(\sqrt{K}). Finally, we conduct numerical simulations on a Nash-Cournot problem to demonstrate that the performance of the online identification algorithm is comparable to that of the offline setting.
翻訳日:2023-10-18 02:07:41 公開日:2023-10-14
# オープンワールドシフトにおける音響基礎モデルの試験時間適応化

Advancing Test-Time Adaptation for Acoustic Foundation Models in Open-World Shifts ( http://arxiv.org/abs/2310.09505v1 )

ライセンス: Link先を確認
Hongfu Liu, Hengguan Huang, Ye Wang(参考訳) テスト時間適応(tta)は、特に視覚認識タスクにおいて、推論中に分布シフトに取り組むための重要なパラダイムである。 しかし、テスト時間音声の分布変化による音響モデルも同様の課題に直面しているが、オープンワールドデータシフトの文脈における音響モデリングに特化したTTA技術は依然として乏しい。 このギャップは、音響基礎モデルの独特な特性を考慮するとさらに悪化する。 1) 主に層正規化を伴うトランスアーキテクチャ上に構築されている。 2) 異なる長さの試験時間音声データを非定常的に処理する。 これらの側面は、主にバッチ正規化に依存し、独立したサンプルを仮定する視覚に焦点を当てたtta法を直接適用する。 本稿では,オープンワールドデータシフトに直面する事前学習音響モデルのTTAについて検討する。 ノイズの多い高エントロピーな音声フレームは、しばしば非サイレントで、キーセマンティックな内容を持っている。 従来のTTAメソッドは、潜在的な欠陥のあるヒューリスティックを使って、この情報を不注意にフィルタリングする。 そこで我々は,信頼度向上に富んだヒューリスティックな学習型適応を導入する。 また,音声信号の短期的整合性に留意し,テスト時間最適化時の整合性正則化も適用する。 合成および実世界のデータセットに関する我々の実験は、既存のベースラインよりもメソッドの優位性を確認した。

Test-Time Adaptation (TTA) is a critical paradigm for tackling distribution shifts during inference, especially in visual recognition tasks. However, while acoustic models face similar challenges due to distribution shifts in test-time speech, TTA techniques specifically designed for acoustic modeling in the context of open-world data shifts remain scarce. This gap is further exacerbated when considering the unique characteristics of acoustic foundation models: 1) they are primarily built on transformer architectures with layer normalization and 2) they deal with test-time speech data of varying lengths in a non-stationary manner. These aspects make the direct application of vision-focused TTA methods, which are mostly reliant on batch normalization and assume independent samples, infeasible. In this paper, we delve into TTA for pre-trained acoustic models facing open-world data shifts. We find that noisy, high-entropy speech frames, often non-silent, carry key semantic content. Traditional TTA methods might inadvertently filter out this information using potentially flawed heuristics. In response, we introduce a heuristic-free, learning-based adaptation enriched by confidence enhancement. Noting that speech signals' short-term consistency, we also apply consistency regularization during test-time optimization. Our experiments on synthetic and real-world datasets affirm our method's superiority over existing baselines.
翻訳日:2023-10-18 02:07:19 公開日:2023-10-14
# MAC: オブジェクト検出のためのModAlityキャリブレーション

MAC: ModAlity Calibration for Object Detection ( http://arxiv.org/abs/2310.09461v1 )

ライセンス: Link先を確認
Yutian Lei, Jun Liu, Dong Huang(参考訳) RGB入力知覚タスクにおけるディープニューラルネットワーク(DNN)の成功は、無線信号からのオブジェクト検出、ライダースキャン、赤外線画像など、RGB入力認識タスクの非バウンドな可能性を開いた。 RGBインプット(ソースモダリティ)モデルの成熟した開発パイプラインと比較して、非RGBインプット(ターゲットモダリティ)モデルをスクラッチから開発することは、モダリティ固有のネットワーク設計/トレーニングのトリックやターゲットモダリティアノテーションの労力において過度な問題を引き起こす。 本稿では,RGBモダリティに基づくDNNオブジェクト検出モデルに対して,目標モダリティ入力を校正する効率的なパイプラインであるModAlity Calibration(MAC)を提案する。 我々は,ソースモダリティモデルの前に小さなキャリブレータモジュールを追加してターゲットモダリティ入力モデルを作成し,キャリブレータに密着した監督を課すためにmacトレーニング技術を導入する。 1) ソースモダリティモデルから合成された事前知識と(2) 手動アノテーションなしの<target, source}データを活用することにより, 対象モダリティモデルは100%手動アノテーションを必要とするベースラインモデルと同等あるいは優れたメトリクスに到達できる。 事前学習したRGB入力モデルに対して,WiFi入力,Lidar入力,熱赤外線入力モデルをそれぞれ構成し,MACの有効性を示す。

The flourishing success of Deep Neural Networks(DNNs) on RGB-input perception tasks has opened unbounded possibilities for non-RGB-input perception tasks, such as object detection from wireless signals, lidar scans, and infrared images. Compared to the matured development pipeline of RGB-input (source modality) models, developing non-RGB-input (target-modality) models from scratch poses excessive challenges in the modality-specific network design/training tricks and labor in the target-modality annotation. In this paper, we propose ModAlity Calibration (MAC), an efficient pipeline for calibrating target-modality inputs to the DNN object detection models developed on the RGB (source) modality. We compose a target-modality-input model by adding a small calibrator module ahead of a source-modality model and introduce MAC training techniques to impose dense supervision on the calibrator. By leveraging (1) prior knowledge synthesized from the source-modality model and (2) paired {target, source} data with zero manual annotations, our target-modality models reach comparable or better metrics than baseline models that require 100% manual annotations. We demonstrate the effectiveness of MAC by composing the WiFi-input, Lidar-input, and Thermal-Infrared-input models upon the pre-trained RGB-input models respectively.
翻訳日:2023-10-18 02:07:03 公開日:2023-10-14
# 複素構造における局所対称性による連続体における境界状態

Bound states in the continuum induced via local symmetries in complex structures ( http://arxiv.org/abs/2310.09682v1 )

ライセンス: Link先を確認
Cheng-Zhen Wang, Ulrich Kuhl, Adin Dowling, Holger Schanz, Tsampikos Kottos(参考訳) 連続体(BIC)における境界状態は、伝播波と離散周波数に対応する空間的局所波との間のスペクトル分離を仮定する従来の知恵を無視する。 これらは無限寿命の共振状態、すなわちリークゼロのリークモードとして記述することができる。 メタマテリアルやナノフォトニクスの出現により、様々なシステムでBICが作られるようになった。 主に、BICは、外部共振モード間の破壊的な干渉や、周囲の放射モードから対称性非互換な境界モードの分離を強制するエンジニアリングされたグローバル対称性によって実現されている。 ここでは、理論上、BICは異なるメカニズム、すなわち、大域対称性を含まない複素系の一部に場集中を強制する局所対称性に依存している。 本研究では,マイクロ波を1次元フォトニックネットワークに実装し,測定した散乱行列の2つの位相特異点,零点と極点の消滅から生じることを示す。 複雑な波動系におけるBICを実現する代替手段は、高いQ$モードを必要とする非線形相互作用のセンシング、ラシング、強化といった応用に有用である。

Bound states in the continuum (BICs) defy conventional wisdom that assumes a spectral separation between propagating waves, that carry energy away, and spatially localized waves corresponding to discrete frequencies. They can be described as resonance states with infinite lifetime, i.e., leaky modes with zero leakage. The advent of metamaterials and nanophotonics allowed the creation of BICs in a variety of systems. Mainly, BICs have been realized by destructive interference between outgoing resonant modes or exploiting engineered global symmetries that enforce the decoupling of a symmetry-incompatible bound mode from the surrounding radiation modes. Here, we introduce theoretically BICs relying on a different mechanism, namely local symmetries that enforce a field concentration on a part of a complex system without implying any global symmetry. We experimentally implement such BICs using microwaves in a compact one-dimensional photonic network and show that they emerge from the annihilation of two topological singularities, a zero and a pole, of the measured scattering matrix. Our alternative for achieving BICs in complex wave systems may be useful for applications like sensing, lasing, and enhancement of nonlinear interactions that require high-$Q$ modes.
翻訳日:2023-10-18 01:55:24 公開日:2023-10-14
# 深層強化学習最適化を用いたエッジコンピューティングにおけるブロックチェーン型マルチアグリゲータフェデレーション学習アーキテクチャ

A Blockchain-empowered Multi-Aggregator Federated Learning Architecture in Edge Computing with Deep Reinforcement Learning Optimization ( http://arxiv.org/abs/2310.09665v1 )

ライセンス: Link先を確認
Xiao Li and Weili Wu(参考訳) フェデレーテッド・ラーニング(FL)は、生データを直接露出することなく、モデルトレーニングの利点を提供する分散型機械学習アーキテクチャとして、求められている。 ネットワークインフラストラクチャの進歩により、flはエッジコンピューティングにシームレスに統合されている。 しかし、エッジデバイス上の限られたリソースは、FLのコンテキストにセキュリティ上の脆弱性をもたらす。 ブロックチェーン技術はセキュリティを強化することを約束するが、リソース制約のあるエッジデバイスへの実践的なデプロイは依然として課題だ。 さらに、エッジコンピューティングにおける複数のアグリゲータによるFLの探索は、文献ではまだ新しいものである。 これらのギャップに対処するために,我々は,ブロックチェーンによるマルチアグリゲータ・フェデレーション学習アーキテクチャ(bma-fl)を紹介する。 我々は,BMA-FLにおけるセキュアで高速なモデルアグリゲーションと同期を実現するために,新しい軽量ビザンチンコンセンサス機構PBCMを設計する。 また,BMA-FLにおける不均一性問題として,非IIDデータ分布と多種多様なトレーニング速度を持つ多種多様なコネクテッドトレーナーとアグリゲータを関連づける。 我々は,アグリゲータが最善のトレーニング戦略を決定するのに役立つマルチエージェント深層強化学習アルゴリズムを提案する。 実単語データセットを用いた実験では,BMA-FLがベースラインよりも高速なモデルの実現に有効であることを示し,PBCMの有効性と深層強化学習アルゴリズムを提案する。

Federated learning (FL) is emerging as a sought-after distributed machine learning architecture, offering the advantage of model training without direct exposure of raw data. With advancements in network infrastructure, FL has been seamlessly integrated into edge computing. However, the limited resources on edge devices introduce security vulnerabilities to FL in the context. While blockchain technology promises to bolster security, practical deployment on resource-constrained edge devices remains a challenge. Moreover, the exploration of FL with multiple aggregators in edge computing is still new in the literature. Addressing these gaps, we introduce the Blockchain-empowered Heterogeneous Multi-Aggregator Federated Learning Architecture (BMA-FL). We design a novel light-weight Byzantine consensus mechanism, namely PBCM, to enable secure and fast model aggregation and synchronization in BMA-FL. We also dive into the heterogeneity problem in BMA-FL that the aggregators are associated with varied number of connected trainers with Non-IID data distributions and diverse training speed. We proposed a multi-agent deep reinforcement learning algorithm to help aggregators decide the best training strategies. The experiments on real-word datasets demonstrate the efficiency of BMA-FL to achieve better models faster than baselines, showing the efficacy of PBCM and proposed deep reinforcement learning algorithm.
翻訳日:2023-10-18 01:55:04 公開日:2023-10-14
# フェデレーションバッテリ診断と予後

Federated Battery Diagnosis and Prognosis ( http://arxiv.org/abs/2310.09628v1 )

ライセンス: Link先を確認
Nur Banu Altinpulluk, Deniz Altinpulluk, Paritosh Ramanan, Noah Paulson, Feng Qiu, Susan Babinec, and Murat Yildirim(参考訳) バッテリー診断,予後,健康管理モデルは,エネルギー・移動分野における電池システムの統合において重要な役割を担っている。 しかしながら、これらのモデルの大規模展開は、データオーナシップ、プライバシ、通信、処理を中心とした数多くの課題によって妨げられています。 最先端のバッテリー診断と予後診断には、集中的なデータの収集が必要である。 本稿では,バッテリ標準電流電圧時間使用データをプライバシ保存方式で処理するフェデレーションバッテリ予後モデルを提案する。 我々のモデルは、標準の電流-電圧-時間-使用データを交換する代わりに、モデルパラメータのみを通信し、通信負荷を低減し、データの機密性を維持する。 提案モデルは,バッテリデータ処理と持続寿命予測のためのプライバシ保存分散手法によるバッテリヘルス管理のパラダイムシフトを提供する。

Battery diagnosis, prognosis and health management models play a critical role in the integration of battery systems in energy and mobility fields. However, large-scale deployment of these models is hindered by a myriad of challenges centered around data ownership, privacy, communication, and processing. State-of-the-art battery diagnosis and prognosis methods require centralized collection of data, which further aggravates these challenges. Here we propose a federated battery prognosis model, which distributes the processing of battery standard current-voltage-time-usage data in a privacy-preserving manner. Instead of exchanging raw standard current-voltage-time-usage data, our model communicates only the model parameters, thus reducing communication load and preserving data confidentiality. The proposed model offers a paradigm shift in battery health management through privacy-preserving distributed methods for battery data processing and remaining lifetime prediction.
翻訳日:2023-10-18 01:54:44 公開日:2023-10-14
# インテリジェントネットワーク管理に向けて: ネットワークサービス検出にaiを活用する

Towards Intelligent Network Management: Leveraging AI for Network Service Detection ( http://arxiv.org/abs/2310.09609v1 )

ライセンス: Link先を確認
Khuong N. Nguyen (1), Abhishek Sehgal (1), Yuming Zhu (1), Junsu Choi (2), Guanbo Chen (1), Hao Chen (1), Boon Loong Ng (1), Charlie Zhang (1) ((1) Standards and Mobility Innovation Laboratory - Samsung Research America, (2) Samsung Electronics Co., Ltd)(参考訳) 現代のコンピュータネットワークの複雑さと規模が増大し続けており、最先端の無線接続技術において重要な役割を果たす正確なトラフィック分析が緊急に必要となってきた。 本研究では,高度なネットワークトラフィック分類システムを構築するために機械学習手法を活用することに焦点を当てた。 ネットワークトラフィック内のパターンを解析することにより,さまざまなネットワークサービスタイプをリアルタイムに識別する,新たなデータ駆動型アプローチを提案する。 本手法は,遅延要求に基づいて,類似のネットワークトラフィックをネットワークサービスと呼ばれるカテゴリに分類する。 さらに、ネットワークトラフィックストリームを複数のより小さなトラフィックフローに分解し、それぞれのフローが特定のサービスを一意に保持する。 私たちのmlモデルは、さまざまなwi-fiネットワーク条件で収集された異なるネットワークサービスタイプを表すラベル付き例からなるデータセットでトレーニングされます。 評価を行った結果,ネットワークサービスの識別精度が著しく向上した。 これらの結果は、ワイヤレス技術に人工知能を統合するという大きな約束を強調している。 このようなアプローチは、より効率的なエネルギー消費を促進し、Quality of Service Assuranceを強化し、ネットワークリソースの割り当てを最適化する。

As the complexity and scale of modern computer networks continue to increase, there has emerged an urgent need for precise traffic analysis, which plays a pivotal role in cutting-edge wireless connectivity technologies. This study focuses on leveraging Machine Learning methodologies to create an advanced network traffic classification system. We introduce a novel data-driven approach that excels in identifying various network service types in real-time, by analyzing patterns within the network traffic. Our method organizes similar kinds of network traffic into distinct categories, referred to as network services, based on latency requirement. Furthermore, it decomposes the network traffic stream into multiple, smaller traffic flows, with each flow uniquely carrying a specific service. Our ML models are trained on a dataset comprised of labeled examples representing different network service types collected on various Wi-Fi network conditions. Upon evaluation, our system demonstrates a remarkable accuracy in distinguishing the network services. These results emphasize the substantial promise of integrating Artificial Intelligence in wireless technologies. Such an approach encourages more efficient energy consumption, enhances Quality of Service assurance, and optimizes the allocation of network resources, thus laying a solid groundwork for the development of advanced intelligent networks.
翻訳日:2023-10-18 01:54:31 公開日:2023-10-14
# 質問応答のためのモーメントコントラスト事前学習

Momentum Contrastive Pre-training for Question Answering ( http://arxiv.org/abs/2212.05762v3 )

ライセンス: Link先を確認
Minda Hu, Muzhi Li, Yasheng Wang and Irwin King(参考訳) 既存の抽出質問回答(QA)の事前学習手法は、構文構造において自然質問とは異なるクローゼのようなクエリを生成する。 そこで本研究では,抽出QAのための新しいMomentum Contrastive pRe-training fOr queStion anSwering(MCROSS)法を提案する。 具体的には、MCROSSはモーメントコントラスト学習フレームワークを導入し、クローゼのような解答確率と自然な問合せのサンプルペアを一致させる。 したがって、事前訓練されたモデルは、クローゼのようなサンプルで学んだ知識を自然の疑問に答えることができる。 3つのベンチマークQAデータセットによる実験結果から,本手法は教師付きシナリオとゼロショットシナリオの両方のベースラインと比較して顕著な改善が得られた。

Existing pre-training methods for extractive Question Answering (QA) generate cloze-like queries different from natural questions in syntax structure, which could overfit pre-trained models to simple keyword matching. In order to address this problem, we propose a novel Momentum Contrastive pRe-training fOr queStion anSwering (MCROSS) method for extractive QA. Specifically, MCROSS introduces a momentum contrastive learning framework to align the answer probability between cloze-like and natural query-passage sample pairs. Hence, the pre-trained models can better transfer the knowledge learned in cloze-like samples to answering natural questions. Experimental results on three benchmarking QA datasets show that our method achieves noticeable improvement compared with all baselines in both supervised and zero-shot scenarios.
翻訳日:2023-10-17 23:38:05 公開日:2023-10-14
# 胸部X線写真を用いたDense Convolutional Networkを用いた胸部疾患のマルチラベル分類

Multi-Label Classification of Thoracic Diseases using Dense Convolutional Network on Chest Radiographs ( http://arxiv.org/abs/2202.03583v3 )

ライセンス: Link先を確認
Dipkamal Bhusal, Sanjeeb Prasad Panday(参考訳) X線画像の病理を識別する伝統的な方法は、熟練した人間の解釈に大きく依存しており、しばしば時間を要する。 ディープラーニング技術の出現により、自動疾患診断システムの開発が可能となったが、そのようなシステムの性能は、モデルの品質とそれが提供する解釈可能性のレベルに依存する。 本稿では,高密度畳み込みニューラルネットワーク(DenseNet)とGRADCAMを用いたモデル解釈可能性を用いた胸部X線診断モデルを提案する。 我々は,前頭前頭X線を用いてモデルを訓練し,受信器動作特性曲線 (AUC) の下の領域を含む様々な定量的指標を用いて評価した。 提案モデルでは,NoduleのAUCスコアは0.655,精度0.66のAUCスコアは0.826で,AUCスコアは0.896,Noduleは0.655であった。 モデル解釈可能性の向上と意思決定における信頼構築のために,X線上にヒートマップを作成し,モデルが注意を払って予測を行う領域を可視化した。 さらに,モデル予測の不確かさを,測定結果の信頼区間を提示することによって推定した。 提案する疾患診断モデルでは,マルチラベル疾患診断タスクにおいて高性能な指標が得られ,モデル解釈可能性に対するモデル予測の可視化が可能であった。

Traditional methods of identifying pathologies in X-ray images rely heavily on skilled human interpretation and are often time-consuming. The advent of deep learning techniques has enabled the development of automated disease diagnosis systems, but the performance of such systems is dependent on the quality of the model and the level of interpretability it provides. In this paper, we propose a multi-label disease diagnosis model for chest X-rays using a dense convolutional neural network (DenseNet) and model interpretability using GRADCAM. We trained our model using frontal X-rays and evaluated its performance using various quantitative metrics, including the area under the receiver operating characteristic curve (AUC). Our proposed model achieved the highest AUC score of 0.896 for the condition Cardiomegaly with an accuracy of 0.826, while the lowest AUC score was obtained for Nodule, at 0.655 with an accuracy of 0.66. To promote model interpretability and build trust in decision making, we generated heatmaps on X-rays to visualize the regions where the model paid attention to make certain predictions. Additionally, we estimated the uncertainty in model predictions by presenting the confidence interval of our measurements. Our proposed automated disease diagnosis model obtained high performance metrics in multi-label disease diagnosis tasks and provided visualization of model predictions for model interpretability.
翻訳日:2023-10-17 23:36:11 公開日:2023-10-14
# 億規模のプレトレーニングにおけるMAEプレトレーニングの有効性

The effectiveness of MAE pre-pretraining for billion-scale pretraining ( http://arxiv.org/abs/2303.13496v2 )

ライセンス: Link先を確認
Mannat Singh, Quentin Duval, Kalyan Vasudev Alwala, Haoqi Fan, Vaibhav Aggarwal, Aaron Adcock, Armand Joulin, Piotr Doll\'ar, Christoph Feichtenhofer, Ross Girshick, Rohit Girdhar, Ishan Misra(参考訳) 本稿では,コンピュータビジョンで視覚認識タスクに使用される標準プリトレイン・テン・フィニチューンパラダイムを再考する。 通常、最先端の基礎モデルは何十億もの画像を持つ大規模な(弱く)教師付きデータセットを使用して事前訓練される。 我々は,モデルの初期化に自己教師付きmae技術を用いた,簡易な事前トレーニングステージを新たに導入する。 maeはモデルのサイズでしかスケールできないことが示されていますが、トレーニングデータセットのサイズに合わせてもスケールすることが分かっています。 したがって、maeベースの事前トレーニングは、モデルとデータサイズの両方でスケールし、基礎モデルのトレーニングに適用できます。 事前トレーニングは、モデルスケール(数百万から数十億のパラメータ)とデータセットサイズ(数百万から数十億のイメージ)にわたって、モデル収束と下流転送のパフォーマンスを一貫して改善します。 画像分類,映像認識,物体検出,低ショット分類,ゼロショット認識にまたがる10種類の視覚認識タスクにおける事前学習の有効性を計測した。 我々の最大のモデルは、iNaturalist-18(91.3%)、1ショット ImageNet-1k(62.1%)、およびFood-101(96.2%)のゼロショット転送に関する新しい最先端結果を達成する。 本研究は,数十億枚の画像を用いたWebスケール事前学習においても,モデル初期化が重要な役割を担っていることを明らかにした。

This paper revisits the standard pretrain-then-finetune paradigm used in computer vision for visual recognition tasks. Typically, state-of-the-art foundation models are pretrained using large scale (weakly) supervised datasets with billions of images. We introduce an additional pre-pretraining stage that is simple and uses the self-supervised MAE technique to initialize the model. While MAE has only been shown to scale with the size of models, we find that it scales with the size of the training dataset as well. Thus, our MAE-based pre-pretraining scales with both model and data size making it applicable for training foundation models. Pre-pretraining consistently improves both the model convergence and the downstream transfer performance across a range of model scales (millions to billions of parameters), and dataset sizes (millions to billions of images). We measure the effectiveness of pre-pretraining on 10 different visual recognition tasks spanning image classification, video recognition, object detection, low-shot classification and zero-shot recognition. Our largest model achieves new state-of-the-art results on iNaturalist-18 (91.3%), 1-shot ImageNet-1k (62.1%), and zero-shot transfer on Food-101 (96.2%). Our study reveals that model initialization plays a significant role, even for web-scale pretraining with billions of images.
翻訳日:2023-10-17 23:26:09 公開日:2023-10-14
# 分散シフトを超えて - トレーニングダイナミクスのレンズを通したスプリアスな機能

Beyond Distribution Shift: Spurious Features Through the Lens of Training Dynamics ( http://arxiv.org/abs/2302.09344v2 )

ライセンス: Link先を確認
Nihal Murali, Aahlad Puli, Ke Yu, Rajesh Ranganath, Kayhan Batmanghelich(参考訳) ディープニューラルネットワーク(DNN)は、トレーニング中にラベルと相関するが学習の問題とは無関係な、刺激的な特徴を学ぶ傾向がある。 これはモデルの一般化を損ね、安全クリティカルなアプリケーションにデプロイするときに問題を引き起こす。 本研究の目的は、学習過程における内ニューロンの学習ダイナミクスのレンズを通して、散発的特徴の効果をよりよく理解することである。 1)DNNの一般化能力に対する突発的特徴の有害な影響を強調しながら,すべての突発的特徴が有害であるとは限らないことを強調した。 厳格な機能は、与えられたモデルのコア機能よりも"より硬い"か"より学習しやすい"かによって、"良心"あるいは"有害"になる可能性がある。 この定義はモデルとデータセットに依存します。 2)この前提に基づいてインスタンス難易度法(baldock et al., 2021)を用いて,与えられたモデルに対する「不安度」を定量化し,その動作を訓練段階で識別する。 (3)DNNの初期階層の学習動態を観察することにより有害な突発的特徴を検出することを実証的に示す。 言い換えれば、トレーニングの初期からDNNの初期レイヤで学んだ簡単な機能は、(潜在的に)モデルの一般化を損なう可能性がある。 医用データセットと視覚データセットの双方において,予測深度と情報理論的な概念 (ethayarajh et al., 2021) との理論的関係を示し,仮説の実証的成功を正当化する。 最後に、我々の実験は、トレーニング中のみの正確さ(機械学習パイプラインで一般的なもの)のモニタリングが不十分であることを示す。 したがって,適切なインスタンス難易度メトリクスを用いた早期トレーニングダイナミクスの監視の必要性を強調する。

Deep Neural Networks (DNNs) are prone to learning spurious features that correlate with the label during training but are irrelevant to the learning problem. This hurts model generalization and poses problems when deploying them in safety-critical applications. This paper aims to better understand the effects of spurious features through the lens of the learning dynamics of the internal neurons during the training process. We make the following observations: (1) While previous works highlight the harmful effects of spurious features on the generalization ability of DNNs, we emphasize that not all spurious features are harmful. Spurious features can be "benign" or "harmful" depending on whether they are "harder" or "easier" to learn than the core features for a given model. This definition is model and dataset-dependent. (2) We build upon this premise and use instance difficulty methods (like Prediction Depth (Baldock et al., 2021)) to quantify "easiness" for a given model and to identify this behavior during the training phase. (3) We empirically show that the harmful spurious features can be detected by observing the learning dynamics of the DNN's early layers. In other words, easy features learned by the initial layers of a DNN early during the training can (potentially) hurt model generalization. We verify our claims on medical and vision datasets, both simulated and real, and justify the empirical success of our hypothesis by showing the theoretical connections between Prediction Depth and information-theoretic concepts like V-usable information (Ethayarajh et al., 2021). Lastly, our experiments show that monitoring only accuracy during training (as is common in machine learning pipelines) is insufficient to detect spurious features. We, therefore, highlight the need for monitoring early training dynamics using suitable instance difficulty metrics.
翻訳日:2023-10-17 23:24:57 公開日:2023-10-14
# ZeroSCROLLS: 長文理解のためのゼロショットベンチマーク

ZeroSCROLLS: A Zero-Shot Benchmark for Long Text Understanding ( http://arxiv.org/abs/2305.14196v2 )

ライセンス: Link先を確認
Uri Shaham and Maor Ivgi and Avia Efrat and Jonathan Berant and Omer Levy(参考訳) 我々は、テストセットと小さな検証セットのみを含む、長いテキストに対する自然言語理解のためのゼロショットベンチマークであるZeroSCROLLSを紹介した。 scrollsベンチマークから6つのタスクを適応させ、ポジティブレビューのパーセンテージを集約するなど、2つの新しい情報融合タスクを含む4つの新しいデータセットを追加します。 ZeroSCROLLS を用いて,オープンソースおよびクローズドな大言語モデルの総合評価を行い,Claude が ChatGPT を上回り,GPT-4 が最高スコアを達成していることを確認した。 しかし、アグリゲーションタスクのようなゼロスクロールにおける複数のオープンチャレンジを改善する余地はまだ残っており、モデルが単純なベースラインを通すのに苦労している。 現状は動きのターゲットであり、ZeroSCROLLSのリーダーボード上で彼らのアイデアを評価するために研究者を招待する。

We introduce ZeroSCROLLS, a zero-shot benchmark for natural language understanding over long texts, which contains only test and small validation sets, without training data. We adapt six tasks from the SCROLLS benchmark, and add four new datasets, including two novel information fusing tasks, such as aggregating the percentage of positive reviews. Using ZeroSCROLLS, we conduct a comprehensive evaluation of both open-source and closed large language models, finding that Claude outperforms ChatGPT, and that GPT-4 achieves the highest average score. However, there is still room for improvement on multiple open challenges in ZeroSCROLLS, such as aggregation tasks, where models struggle to pass the naive baseline. As the state of the art is a moving target, we invite researchers to evaluate their ideas on the live ZeroSCROLLS leaderboard.
翻訳日:2023-10-17 23:19:18 公開日:2023-10-14
# CoTコレクション:Chain-of-Thoughtファインチューニングによるゼロショット学習とFew-shot学習の改善

The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning ( http://arxiv.org/abs/2305.14045v2 )

ライセンス: Link先を確認
Seungone Kim, Se June Joo, Doyoung Kim, Joel Jang, Seonghyeon Ye, Jamin Shin, Minjoon Seo(参考訳) 100B未満のパラメータを持つ言語モデル(LM)は、目に見えないタスクを解くときの大きなLMとは対照的に、チェーン・オブ・ソート(CoT)の推論では不十分であることが知られている。 本研究は,CoTの有理量を用いた命令チューニングにより,段階的推論機能を備えた小型LMを実現することを目的とする。 この目標を達成するために、我々はまずCoT Collectionと呼ばれる新しい命令チューニングデータセットを導入しました。これは既存のFlan Collection(9つのCoTタスクを含む)を拡張し、1,060タスクに148万の合理性を追加します。 CoT CollectionによるFlan-T5(3Bと11B)の微調整により,小型のLMが未確認タスクに対してCoT機能を向上できることを示す。 BIG-Bench-Hard (BBH) ベンチマークでは、ゼロショットタスクの精度の観点から、平均的な改善は+4.34%(Flan-T5 3B)と+2.60%(Flan-T5 11B)である。 さらに、CoT Collectionを用いた命令チューニングにより、LMが4つのドメイン固有のタスクに対してより強力な少ショット学習能力を保持できることを示し、その結果、+2.24%(Flan-T5 3B)と+2.37%(Flan-T5 11B)が改善され、さらに、最大長が+13.98%になるまで、ChatGPTよりも優れていた。 私たちのコード、CoT Collectionデータ、モデルチェックポイントが公開されています。

Language models (LMs) with less than 100B parameters are known to perform poorly on chain-of-thought (CoT) reasoning in contrast to large LMs when solving unseen tasks. In this work, we aim to equip smaller LMs with the step-by-step reasoning capability by instruction tuning with CoT rationales. In order to achieve this goal, we first introduce a new instruction-tuning dataset called the CoT Collection, which augments the existing Flan Collection (including only 9 CoT tasks) with additional 1.84 million rationales across 1,060 tasks. We show that CoT fine-tuning Flan-T5 (3B & 11B) with CoT Collection enables smaller LMs to have better CoT capabilities on unseen tasks. On the BIG-Bench-Hard (BBH) benchmark, we report an average improvement of +4.34% (Flan-T5 3B) and +2.60% (Flan-T5 11B), in terms of zero-shot task accuracy. Furthermore, we show that instruction tuning with CoT Collection allows LMs to possess stronger few-shot learning capabilities on 4 domain-specific tasks, resulting in an improvement of +2.24% (Flan-T5 3B) and +2.37% (Flan-T5 11B), even outperforming ChatGPT utilizing demonstrations until the max length by a +13.98% margin. Our code, the CoT Collection data, and model checkpoints are publicly available.
翻訳日:2023-10-17 23:19:01 公開日:2023-10-14
# 論理駆動データ拡張による大規模言語モデルの論理推論の強化

Enhancing Logical Reasoning of Large Language Models through Logic-Driven Data Augmentation ( http://arxiv.org/abs/2305.12599v2 )

ライセンス: Link先を確認
Qiming Bao, Alex Yuxuan Peng, Zhenyun Deng, Wanjun Zhong, Gael Gendron, Timothy Pistotti, Neset Tan, Nathan Young, Yang Chen, Yonghua Zhu, Paul Denny, Michael Witbrock, Jiamou Liu(参考訳) 大きな言語モデルと論理的推論を組み合わせることで、堅牢で信頼性の高い方法で問題に取り組む能力が向上する。 それでも、論理的推論の複雑な性質は、総合的なトレーニングデータセットを構築するためにWebから信頼できるデータを集め、その後下流タスクのパフォーマンスに影響を及ぼす。 そこで我々はAMR-LDAという新しい論理駆動型データ拡張手法を提案する。 amr-ldaは、原文を抽象意味表現(amr)グラフに変換し、文の論理構造をカプセル化した構造的意味表現で、その操作によって論理的に修正されたamrグラフを生成する。 修正されたAMRグラフは、拡張データを生成するためにテキストに変換される。 特に,本手法はアーキテクチャに依存しないため,GPT-3.5やGPT-4などの生成的大規模言語モデルや,論理駆動型データ拡張によるコントラスト学習による微調整による識別的大規模言語モデルを改善する。 経験的エビデンスは,論理推論読解,テキストの補足,自然言語推論など,7つの下流タスクにおける性能改善による提案手法の有効性を裏付けるものである。 さらに、この手法はReClor Leaderboard \url{https://eval.ai/web/challenges/challenge-page/503/ Leaderboard/1347} にランクインした。 ソースコードとデータは公開されている。 \url{https://github.com/Strong-AI-Lab/Logical-Equivalence-driven-AMR-Data-Augmentation-for-Representation -Learning}。

Combining large language models with logical reasoning enhance their capacity to address problems in a robust and reliable manner. Nevertheless, the intricate nature of logical reasoning poses challenges to gathering reliable data from web for building comprehensive training datasets, subsequently affecting the performance on downstream tasks. To address this, we introduce a novel logic-driven data augmentation approach, AMR-LDA. AMR-LDA converts the original text into an Abstract Meaning Representation (AMR) graph, a structured semantic representation that encapsulates the logic structure of the sentence, upon which operations are performed to generate logically modified AMR graphs. The modified AMR graphs are subsequently converted back into texts to create augmented data. Notably, our methodology is architecture-agnostic and enhances generative large language models, such as GPT-3.5 and GPT-4, through prompt augmentation, and fine-tuning discriminative large language models through contrastive learning with logic-driven data augmentation. Empirical evidence underscores the efficacy of our proposed method with improvement in performance across seven downstream tasks, such as logical reasoning reading comprehension, textual entailment, and natural language inference. Furthermore, our method ranked first on the ReClor leaderboard \url{https://eval.ai/web/challenges/challenge-page/503/leaderboard/1347}. The source code and data are publicly available \url{https://github.com/Strong-AI-Lab/Logical-Equivalence-driven-AMR-Data-Augmentation-for-Representation -Learning}.
翻訳日:2023-10-17 23:17:15 公開日:2023-10-14
# 弁護士LLaMA技術報告

Lawyer LLaMA Technical Report ( http://arxiv.org/abs/2305.15062v2 )

ライセンス: Link先を確認
Quzhe Huang, Mingxu Tao, Chen Zhang, Zhenwei An, Cong Jiang, Zhibin Chen, Zirui Wu, Yansong Feng(参考訳) LLaMAのような大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示している。 それでも、法律や医学などの特定の領域に展開する場合、モデルはまだドメイン固有の知識の不足や、ドメイン関連の問題を解決するためにその知識を活用する能力の不足という課題に直面しています。 本稿では,特定のドメインにLLMを適用するための新しいフレームワークを提案し,このフレームワークをベースとした法的ドメインLLMであるLawyer LLaMAを構築する。 具体的には、継続トレーニング段階でドメイン知識を注入し、適切に設計された教師付き微調整タスクを用いて専門的スキルを学ぶモデルを教える。 さらに,モデル生成時の幻覚問題を緩和するために,検索モジュールを追加し,モデルがクエリに答える前に関連する法的項目を抽出する。 ドメイン固有のスキルを学ぶとき、専門家の経験は、何百もの専門家が書いたデータが、何万ものchatgptが生成するスキルよりもずっと役に立つことが分かりました。 モデルとデータをリリースします。

Large Language Models (LLMs), like LLaMA, have exhibited remarkable performance across various tasks. Nevertheless, when deployed to specific domains such as law or medicine, the models still confront the challenge of a deficiency in domain-specific knowledge and an inadequate capability to leverage that knowledge to resolve domain-related problems. In this paper, we propose a new framework to adapt LLMs to specific domains and build Lawyer LLaMA, a legal domain LLM, based on this framework. Specifically, we inject domain knowledge during the continual training stage and teach the model to learn professional skills using properly designed supervised fine-tuning tasks. Moreover, to alleviate the hallucination problem during the model's generation, we add a retrieval module and extract relevant legal articles before the model answers any queries. When learning domain-specific skills, we find that experts' experience is much more useful than experiences distilled from ChatGPT, where hundreds of expert-written data outperform tens of thousands of ChatGPT-generated ones. We will release our model and data.
翻訳日:2023-10-17 23:04:51 公開日:2023-10-14
# 大規模言語モデルに対する敵対的デモンストレーション攻撃

Adversarial Demonstration Attacks on Large Language Models ( http://arxiv.org/abs/2305.14950v2 )

ライセンス: Link先を確認
Jiongxiao Wang, Zichen Liu, Keun Hee Park, Zhuojun Jiang, Zhaoheng Zheng, Zhuofeng Wu, Muhao Chen, Chaowei Xiao(参考訳) ChatGPT や GPT-4 のようなより強力な大規模言語モデル (LLM) の出現に伴い、インコンテキスト学習 (ICL) はプレコンディションのプロンプトとしてデータラベルペアを活用することで、これらのモデルを特定のタスクに活用する上で大きな注目を集めている。 デモを組み込むことで、さまざまなタスクにわたるLLMのパフォーマンスを大幅に向上させることができるが、新たなセキュリティ上の懸念が生じている。 本稿では,実演の効果に着目し,敵対的視点からiclのセキュリティ上の懸念について検討する。 モデルを誤解させる入力を変更することなく,デモンストレーションのみを操作することを目的とした新しい攻撃手法adviclを提案する。 その結果,実演回数が増加するにつれて,文脈内学習の堅牢性が低下することが示された。 さらに、デモの固有の特性として、異なる入力で(前もって)使用できることも確認します。 結果として、アタッカーが知識や操作をせずにテスト入力サンプルを攻撃できる、より実用的な脅威モデルが導入された。 そこで本研究では,Transferable-advICL と呼ばれる advICL の転送可能バージョンを提案する。 提案実験では,transportable-advicl が生成する敵対的デモが,未発見のテスト入力例を効果的に攻撃できることを実証する。 本研究はICLに関連する重大なセキュリティリスクを明らかにし,特にLSMの進展においてその重要性が増大していることから,ICLの堅牢性に関する広範な研究の必要性を浮き彫りにすることを願っている。

With the emergence of more powerful large language models (LLMs), such as ChatGPT and GPT-4, in-context learning (ICL) has gained significant prominence in leveraging these models for specific tasks by utilizing data-label pairs as precondition prompts. While incorporating demonstrations can greatly enhance the performance of LLMs across various tasks, it may introduce a new security concern: attackers can manipulate only the demonstrations without changing the input to perform an attack. In this paper, we investigate the security concern of ICL from an adversarial perspective, focusing on the impact of demonstrations. We propose a novel attack method named advICL, which aims to manipulate only the demonstration without changing the input to mislead the models. Our results demonstrate that as the number of demonstrations increases, the robustness of in-context learning would decrease. Additionally, we also identify the intrinsic property of the demonstrations is that they can be used (prepended) with different inputs. As a result, it introduces a more practical threat model in which an attacker can attack the test input example even without knowing and manipulating it. To achieve it, we propose the transferable version of advICL, named Transferable-advICL. Our experiment shows that the adversarial demonstration generated by Transferable-advICL can successfully attack the unseen test input examples. We hope that our study reveals the critical security risks associated with ICL and underscores the need for extensive research on the robustness of ICL, particularly given its increasing significance in the advancement of LLMs.
翻訳日:2023-10-17 23:04:34 公開日:2023-10-14
# グーグルの「画像攻撃」はどんなものか?

How Robust is Google's Bard to Adversarial Image Attacks? ( http://arxiv.org/abs/2309.11751v2 )

ライセンス: Link先を確認
Yinpeng Dong, Huanran Chen, Jiawei Chen, Zhengwei Fang, Xiao Yang, Yichi Zhang, Yu Tian, Hang Su, Jun Zhu(参考訳) テキストや他のモダリティ(特に視覚)を統合するマルチモーダル大規模言語モデル(MLLM)は、様々なマルチモーダルタスクにおいて前例のない性能を達成している。 しかし、視覚モデルの非解決対向ロバスト性問題により、MLLMは視覚入力を導入することにより、より厳しい安全性とセキュリティリスクを持つことができる。 本研究では,ChatGPTの競合チャットボットであるGoogleのBardの対角的堅牢性について検討し,そのマルチモーダル機能を最近リリースし,商用MLLMの脆弱性の理解を深めた。 ホワイトボックス・サロゲート・ビジョンエンコーダ(MLLM)を攻撃することにより、生成した敵の例は、トランスファービリティのみに基づいて、間違った画像記述を22%の成功率で出力することを誤解させる可能性がある。 例えば、Bing Chatに対する攻撃成功率26%、ERNIEボットに対する攻撃成功率86%などである。 さらに,画像の顔検出と毒性検出を含むBardの2つの防御機構を同定した。 我々は、これらの防御を回避するために対応する攻撃をデザインし、bardの現在の防御も脆弱であることを実証する。 本研究がMLLMの堅牢性に対する理解を深め、今後の防衛研究を促進することを願っている。 私たちのコードはhttps://github.com/thu-ml/Attack-Bard.comで利用可能です。 アップデート: GPT-4Vは2023年10月発売。 また,攻撃成功率の45%を達成し,敵の同一事例群でその頑健さを更に評価した。

Multimodal Large Language Models (MLLMs) that integrate text and other modalities (especially vision) have achieved unprecedented performance in various multimodal tasks. However, due to the unsolved adversarial robustness problem of vision models, MLLMs can have more severe safety and security risks by introducing the vision inputs. In this work, we study the adversarial robustness of Google's Bard, a competitive chatbot to ChatGPT that released its multimodal capability recently, to better understand the vulnerabilities of commercial MLLMs. By attacking white-box surrogate vision encoders or MLLMs, the generated adversarial examples can mislead Bard to output wrong image descriptions with a 22% success rate based solely on the transferability. We show that the adversarial examples can also attack other MLLMs, e.g., a 26% attack success rate against Bing Chat and a 86% attack success rate against ERNIE bot. Moreover, we identify two defense mechanisms of Bard, including face detection and toxicity detection of images. We design corresponding attacks to evade these defenses, demonstrating that the current defenses of Bard are also vulnerable. We hope this work can deepen our understanding on the robustness of MLLMs and facilitate future research on defenses. Our code is available at https://github.com/thu-ml/Attack-Bard. Update: GPT-4V is available at October 2023. We further evaluate its robustness under the same set of adversarial examples, achieving a 45% attack success rate.
翻訳日:2023-10-17 22:58:19 公開日:2023-10-14
# Med-HALT:大規模言語モデルのための医学領域幻覚テスト

Med-HALT: Medical Domain Hallucination Test for Large Language Models ( http://arxiv.org/abs/2307.15343v2 )

ライセンス: Link先を確認
Ankit Pal, Logesh Kumar Umapathi and Malaikannan Sankarasubbu(参考訳) 本研究では,大規模言語モデル(LLM)における幻覚による課題,特に医学領域における課題に焦点を当てた。 幻覚(hallucination)は、これらのモデルが妥当で検証されていない、あるいは誤った情報を生成する場合に、医療アプリケーションにおいて深刻な結果をもたらす可能性がある。 我々は,幻覚の評価と低減を目的とした新しいベンチマークとデータセット,Med-HALT (Medical Domain Hallucination Test) を提案する。 Med-HALTは、様々な国の医学検査から派生した多様な多国籍データセットを提供し、複数の革新的な試験モダリティを含んでいる。 Med-HALTには、LSMの問題解決能力と情報検索能力を評価するために設計された、メモリベースの幻覚テストと2つのカテゴリがある。 本研究は,Text Davinci, GPT-3.5, LlaMa-2, MPT, Falconなどの主要なLCMについて検討した。 論文はデータセットに関する詳細な洞察を提供し、透明性と再現性を促進する。 本研究は,医療における安全で信頼性の高い言語モデルの開発に貢献することを目的としている。 ベンチマークは medhalt.github.io で確認できます。

This research paper focuses on the challenges posed by hallucinations in large language models (LLMs), particularly in the context of the medical domain. Hallucination, wherein these models generate plausible yet unverified or incorrect information, can have serious consequences in healthcare applications. We propose a new benchmark and dataset, Med-HALT (Medical Domain Hallucination Test), designed specifically to evaluate and reduce hallucinations. Med-HALT provides a diverse multinational dataset derived from medical examinations across various countries and includes multiple innovative testing modalities. Med-HALT includes two categories of tests reasoning and memory-based hallucination tests, designed to assess LLMs's problem-solving and information retrieval abilities. Our study evaluated leading LLMs, including Text Davinci, GPT-3.5, LlaMa-2, MPT, and Falcon, revealing significant differences in their performance. The paper provides detailed insights into the dataset, promoting transparency and reproducibility. Through this work, we aim to contribute to the development of safer and more reliable language models in healthcare. Our benchmark can be found at medhalt.github.io
翻訳日:2023-10-17 22:56:00 公開日:2023-10-14
# swin-tempo : swin transformer-enhanced unetを用いたctスキャンによる肺結節の検出

Swin-Tempo: Temporal-Aware Lung Nodule Detection in CT Scans as Video Sequences Using Swin Transformer-Enhanced UNet ( http://arxiv.org/abs/2310.03365v2 )

ライセンス: Link先を確認
Hossein Jafari, Karim Faez, Hamidreza Amindavar(参考訳) 肺癌は非常に致命的であり、早期発見の必要性を強調する。 しかし、正確な診断に専門知識を多く依存する放射線科医にとって、肺結節の同定は大きな課題となる。 この問題に対処するために,ctスキャンによる肺結節の同定を支援するために,機械学習技術に基づくcadシステム(computer-assisted diagnosis)が登場している。 残念ながら、この領域の既存のネットワークは、しばしば計算の複雑さに悩まされ、偽陰性や偽陽性の頻度が高くなり、その効果が制限される。 これらの課題に対処するために,畳み込みニューラルネットワークと視覚トランスフォーマーの両方の長所を利用する革新的なモデルを提案する。 映像中の物体検出に触発されて,各3次元ct画像をビデオとして,個々のスライスをフレームとして,肺結節をオブジェクトとして扱い,時系列アプリケーションを可能にする。 本研究の主な目的は、モデルトレーニング中のハードウェアの限界を克服し、スライス間情報を利用して2次元データの効率的な処理を可能にすることである。 2016年の肺結節解析データセットに10倍のクロスバリデーション手法を適用し,提案ネットワークの検証を行った。 提案アーキテクチャは,平均感度基準が97.84%,競合性能指標(cpm)が96.0%であり,パラメータは少ない。 肺結節同定における最先端の進歩との比較分析は,提案モデルが達成した有意な精度を示している。

Lung cancer is highly lethal, emphasizing the critical need for early detection. However, identifying lung nodules poses significant challenges for radiologists, who rely heavily on their expertise for accurate diagnosis. To address this issue, computer-aided diagnosis (CAD) systems based on machine learning techniques have emerged to assist doctors in identifying lung nodules from computed tomography (CT) scans. Unfortunately, existing networks in this domain often suffer from computational complexity, leading to high rates of false negatives and false positives, limiting their effectiveness. To address these challenges, we present an innovative model that harnesses the strengths of both convolutional neural networks and vision transformers. Inspired by object detection in videos, we treat each 3D CT image as a video, individual slices as frames, and lung nodules as objects, enabling a time-series application. The primary objective of our work is to overcome hardware limitations during model training, allowing for efficient processing of 2D data while utilizing inter-slice information for accurate identification based on 3D image context. We validated the proposed network by applying a 10-fold cross-validation technique to the publicly available Lung Nodule Analysis 2016 dataset. Our proposed architecture achieves an average sensitivity criterion of 97.84% and a competition performance metrics (CPM) of 96.0% with few parameters. Comparative analysis with state-of-the-art advancements in lung nodule identification demonstrates the significant accuracy achieved by our proposed model.
翻訳日:2023-10-17 22:47:25 公開日:2023-10-14
# 圧縮llmの修復に必要なのは(動的)プロンプトだけかもしれない

(Dynamic) Prompting might be all you need to repair Compressed LLMs ( http://arxiv.org/abs/2310.00867v2 )

ライセンス: Link先を確認
Duc N.M Hoang, Minsik Cho, Thomas Merth, Mohammad Rastegari, Zhangyang Wang(参考訳) 大規模言語モデル (LLMs) は NLP に変換されるが、計算処理の要求が大きくなり、効率的でトレーニング不要な圧縮の必要性を浮き彫りにしている。 llms最大値のトレーニングフリー圧縮が著しく改善されたにもかかわらず、llama-7bとopt-6.7bを使ったテストでは、いくつかの現実的なダウンストリームタスクで大幅なパフォーマンス低下が見られた。 資源集約的な圧縮後再訓練のトレードオフの調査は、軽量適応ツールとしての即時回復の可能性を強調している。 しかし、主にパープレキシティ評価と単純なタスクに焦点を絞った既存の研究は、プロンプトのスケーラビリティと一般化性に対する絶対的な信頼を提供できない。 私たちはこの不確実性に2つの重要な方法で取り組みます。 まず,入力毎の特異なプロンプトに対する過度な依存として,llm圧縮におけるナイーブプロンプトの脆弱性を明らかにする。 そこで本研究では,各入力のコンテキストに基づいて,各プロンプトの集合から自律的に選択する機構である推論時動的プロンプト(IDP)を提案する。 第2に、なぜ「LLM後の圧縮が全てであるかもしれない」のかという科学的理解を掘り下げる。 以上の結果から,圧縮はLLMモデルの知識を必然的に消し去るのではなく,新たな推論経路を必要とすることが示唆された。 IDPは、このパスを効果的にリダイレクトし、モデル固有の知識をタップすることで、パフォーマンスを回復する。 実証テストでは、複数の知識領域にまたがる9つのタスクで平均1.24%のパフォーマンス改善が示された。

Large language models (LLMs), while transformative for NLP, come with significant computational demands, underlining the need for efficient, training-free compression. Notably, despite the marked improvement in training-free compression for the largest of LLMs, our tests using LLaMA-7B and OPT-6.7b highlight a significant performance drop in several realistic downstream tasks. Investigation into the trade-off between resource-intensive post-compression re-training highlights the prospect of prompt-driven recovery as a lightweight adaption tool. However, existing studies, confined mainly to perplexity evaluations and simple tasks, fail to offer unequivocal confidence in the scalability and generalizability of prompting. We tackle this uncertainty in two key ways. First, we uncover the vulnerability of naive prompts in LLM compression as an over-reliance on a singular prompt per input. In response, we propose inference-time dynamic prompting (IDP), a mechanism that autonomously chooses from a set of curated prompts based on the context of each individual input. Second, we delve into a scientific understanding of why "prompting might be all you need post-LLM compression." Our findings suggest that compression does not irretrievably erase LLM model knowledge but displace it, necessitating a new inference path. IDP effectively redirects this path, enabling the model to tap into its inherent yet displaced knowledge and thereby recover performance. Empirical tests affirm the value of IDP, demonstrating an average performance improvement of 1.24% across nine varied tasks spanning multiple knowledge domains.
翻訳日:2023-10-17 22:45:46 公開日:2023-10-14
# アンロックバイアス検出:コンテンツ分析のためのトランスフォーマーモデルを活用する

Unlocking Bias Detection: Leveraging Transformer-Based Models for Content Analysis ( http://arxiv.org/abs/2310.00347v2 )

ライセンス: Link先を確認
Shaina Raza, Oluwanifemi Bamgbose, Veronica Chatrath, Shardul Ghuge, Yan Sidyakin, Abdullah Y Muaad(参考訳) テキストにおけるバイアス検出は、負のステレオタイプを強化し、誤報を広め、決定に影響を与えるために必須である。 現在の言語モデルは、トレーニングセットを超えた一般化において不足することが多い。 これに対して,CBDT(Contextualized Bi-Directional Dual Transformer)分類法を提案する。 このアーキテクチャでは、コンテキスト変換器とエンティティ変換器という2つの相乗変換器ネットワークを利用し、バイアス検出の強化を目指している。 データセットの準備は、FAIRの原則に従い、倫理データの使用を保証する。 CBDTは、さまざまなデータセットの厳密なテストを通じて、中立的なステートメントと偏見を区別する能力を示し、正確な偏見を指摘している。 この手法は既存の手法よりも優れており、ベンチマーク性能よりも2-4\%向上している。 これにより、CBDTモデルを様々な言語や文化の風景に適応する道が開ける。

Bias detection in text is imperative due to its role in reinforcing negative stereotypes, disseminating misinformation, and influencing decisions. Current language models often fall short in generalizing beyond their training sets. In response, we introduce the Contextualized Bi-Directional Dual Transformer (CBDT) Classifier. This novel architecture utilizes two synergistic transformer networks: the Context Transformer and the Entity Transformer, aiming for enhanced bias detection. Our dataset preparation follows the FAIR principles, ensuring ethical data usage. Through rigorous testing on various datasets, CBDT showcases its ability in distinguishing biased from neutral statements, while also pinpointing exact biased lexemes. Our approach outperforms existing methods, achieving a 2-4\% increase over benchmark performances. This opens avenues for adapting the CBDT model across diverse linguistic and cultural landscapes.
翻訳日:2023-10-17 22:45:18 公開日:2023-10-14
# 説明可能な画像類似性: シームズネットワークとGrad-CAMの統合

Explainable Image Similarity: Integrating Siamese Networks and Grad-CAM ( http://arxiv.org/abs/2310.07678v2 )

ライセンス: Link先を確認
Ioannis E. Livieris, Emmanuel Pintelas, Niki Kiriakidou, Panagiotis Pintelas(参考訳) 様々な領域における画像ベースアプリケーションの普及に伴い、正確かつ解釈可能な画像類似度対策の必要性が高まっている。 既存の画像類似性モデルは透明性を欠くことが多く、2つの画像が類似していると考えられる理由を理解することは困難である。 本稿では,視覚的事実と反現実的説明とともに類似度スコアを提供するアプローチの開発を目標とする,説明可能な画像類似性の概念を提案する。 本稿では,siameseネットワークとgrad-camを統合し,説明可能な画像類似性を提供し,このアプローチを採用する際の潜在的メリットと課題について議論する新しいフレームワークを提案する。 また,提案する意思決定支援枠組みによる事実と反事実の説明について,総合的な議論を行う。 提案手法は,実世界の画像類似性アプリケーションにおける画像ベースシステムの解釈可能性,信頼性,ユーザ受容性を向上する可能性がある。 実装コードはhttps://github.com/ioannislivieris/Grad_CAM_Siamese.gitにある。

With the proliferation of image-based applications in various domains, the need for accurate and interpretable image similarity measures has become increasingly critical. Existing image similarity models often lack transparency, making it challenging to understand the reasons why two images are considered similar. In this paper, we propose the concept of explainable image similarity, where the goal is the development of an approach, which is capable of providing similarity scores along with visual factual and counterfactual explanations. Along this line, we present a new framework, which integrates Siamese Networks and Grad-CAM for providing explainable image similarity and discuss the potential benefits and challenges of adopting this approach. In addition, we provide a comprehensive discussion about factual and counterfactual explanations provided by the proposed framework for assisting decision making. The proposed approach has the potential to enhance the interpretability, trustworthiness and user acceptance of image-based systems in real-world image similarity applications. The implementation code can be found in https://github.com/ioannislivieris/Grad_CAM_Siamese.git.
翻訳日:2023-10-17 22:35:21 公開日:2023-10-14
# 例とラベル:階層型マルチラベルテキスト分類のための教師付きコントラスト学習

Instances and Labels: Hierarchy-aware Joint Supervised Contrastive Learning for Hierarchical Multi-Label Text Classification ( http://arxiv.org/abs/2310.05128v2 )

ライセンス: Link先を確認
Simon Chi Lok U, Jie He, V\'ictor Guti\'errez-Basulto, Jeff Z. Pan(参考訳) 階層型多ラベルテキスト分類(HMTC)は,多ラベル分類におけるラベル階層の活用を目的としている。 HMTCへの最近のアプローチは、テキストとラベルの埋め込みを近接させる半教師付き方法で生成されたサンプルのコントラスト学習を使用することにより、出力空間に過剰に制約された前提を課すことの問題に対処する。 しかし、サンプルの生成は、同じバッチ内の類似したサンプル間の相関を無視してノイズを起こす傾向がある。 この問題の1つの解決策は、教師付きコントラスト学習であるが、複雑な構造化ラベルのため、HMTCでは未探索のトピックである。 この課題を克服するため,我々は,教師付きコントラスト学習とhmtcのギャップを埋める$\textbf{hjcl}$,$\textbf{h}$ierarchy-aware $\textbf{j}$ointを教師付き$\textbf{c}$ontrastive$\textbf{l}$earningメソッドを提案する。 具体的には,インスタンス単位とラベル単位の両方のコントラスト学習技術を採用し,コントラスト学習目標を達成するために注意深くバッチを構成する。 4つのマルチパスHMTCデータセットに対する実験により、HJCLが有望な結果とHMTCにおけるコントラスト学習の有効性を実証した。

Hierarchical multi-label text classification (HMTC) aims at utilizing a label hierarchy in multi-label classification. Recent approaches to HMTC deal with the problem of imposing an over-constrained premise on the output space by using contrastive learning on generated samples in a semi-supervised manner to bring text and label embeddings closer. However, the generation of samples tends to introduce noise as it ignores the correlation between similar samples in the same batch. One solution to this issue is supervised contrastive learning, but it remains an underexplored topic in HMTC due to its complex structured labels. To overcome this challenge, we propose $\textbf{HJCL}$, a $\textbf{H}$ierarchy-aware $\textbf{J}$oint Supervised $\textbf{C}$ontrastive $\textbf{L}$earning method that bridges the gap between supervised contrastive learning and HMTC. Specifically, we employ both instance-wise and label-wise contrastive learning techniques and carefully construct batches to fulfill the contrastive learning objective. Extensive experiments on four multi-path HMTC datasets demonstrate that HJCL achieves promising results and the effectiveness of Contrastive Learning on HMTC.
翻訳日:2023-10-17 22:34:29 公開日:2023-10-14
# 変分量子系に対する局所ゼロ階最適化器のランダムベンチマーク

Randomized Benchmarking of Local Zeroth-Order Optimizers for Variational Quantum Systems ( http://arxiv.org/abs/2310.09468v1 )

ライセンス: Link先を確認
Lucas Tecot, Cho-Jui Hsieh(参考訳) 量子情報の分野では、古典的最適化が重要な役割を果たす。 物理装置を最適化する実験家から変分量子アルゴリズムを探求する理論家まで、量子情報の多くの側面は古典的最適化器の使用を必要とする。 このため、特定の量子最適化タスクに対する異なる最適化器の有効性とパラメータ化アルゴリズムの選択をベンチマークする論文が多数存在する。 しかし、新しいアルゴリズムや物理デバイスを探索する研究者にとって、これらの研究の洞察は必ずしも翻訳されない。 この問題に対処するため、量子最適化問題の空間をより広くサンプリングするために、古典最適化器の性能を半ランダム化された一連のタスクで比較する。 量子システムの性能とクエリ効率が概ね良好であることから、局所ゼロ階最適化に着目する。 我々は、これらの実験から得られた洞察を議論し、量子システムで使用する最適化器を改善するための将来の研究の動機付けに役立てる。

In the field of quantum information, classical optimizers play an important role. From experimentalists optimizing their physical devices to theorists exploring variational quantum algorithms, many aspects of quantum information require the use of a classical optimizer. For this reason, there are many papers that benchmark the effectiveness of different optimizers for specific quantum optimization tasks and choices of parameterized algorithms. However, for researchers exploring new algorithms or physical devices, the insights from these studies don't necessarily translate. To address this concern, we compare the performance of classical optimizers across a series of partially-randomized tasks to more broadly sample the space of quantum optimization problems. We focus on local zeroth-order optimizers due to their generally favorable performance and query-efficiency on quantum systems. We discuss insights from these experiments that can help motivate future works to improve these optimizers for use on quantum systems.
翻訳日:2023-10-17 20:25:29 公開日:2023-10-14
# HIO-SDF:階層的インクリメンタルオンライン署名距離場

HIO-SDF: Hierarchical Incremental Online Signed Distance Fields ( http://arxiv.org/abs/2310.09463v1 )

ライセンス: Link先を確認
Vasileios Vasilopoulos, Suveer Garg, Jinwook Huh, Bhoram Lee, Volkan Isler(参考訳) 巨大で複雑な移動ロボットの作業空間のよい表現は、空間効率が良いが、関連する幾何学的詳細を符号化できる必要がある。 未知の環境を探索する場合、オンライン形式で段階的に更新する必要がある。 本稿では,環境をSDF(Signed Distance Field)として表現する新しい手法であるHIO-SDFを紹介する。 sdfのアート表現の状態は、ニューラルネットワークまたはvoxelグリッドに基づいている。 ニューラルネットワークはSDFを継続的に表現することができる。 しかし、ニューラルネットワークは、トレーニングのために広範なセンサー履歴が保存されない限り、以前観測された環境の部分を忘れる傾向があるため、段階的な更新は難しい。 ボクセルに基づく表現はこの問題を持たないが、特に詳細な大きな環境では空間効率が良くない。 HIO-SDFは、ニューラルネットワークをトレーニングするための高解像度のローカル情報とともに、環境の観測部分をキャプチャする粗いボクセルグリッドを使用する階層的アプローチを用いて、これらの表現の利点を組み合わせる。 HIO-SDFは,全テストシーンの平均SDF誤差をアート連続表現の状態よりも46%低くし,粗大なSDFグリッドと同じ解像度で離散表現よりも30%低い誤差を達成している。

A good representation of a large, complex mobile robot workspace must be space-efficient yet capable of encoding relevant geometric details. When exploring unknown environments, it needs to be updatable incrementally in an online fashion. We introduce HIO-SDF, a new method that represents the environment as a Signed Distance Field (SDF). State of the art representations of SDFs are based on either neural networks or voxel grids. Neural networks are capable of representing the SDF continuously. However, they are hard to update incrementally as neural networks tend to forget previously observed parts of the environment unless an extensive sensor history is stored for training. Voxel-based representations do not have this problem but they are not space-efficient especially in large environments with fine details. HIO-SDF combines the advantages of these representations using a hierarchical approach which employs a coarse voxel grid that captures the observed parts of the environment together with high-resolution local information to train a neural network. HIO-SDF achieves a 46% lower mean global SDF error across all test scenes than a state of the art continuous representation, and a 30% lower error than a discrete representation at the same resolution as our coarse global SDF grid.
翻訳日:2023-10-17 20:25:13 公開日:2023-10-14
# 因果解析による強化学習エージェントの強化のためのフレームワーク:自動暗号取引の強化

A Framework for Empowering Reinforcement Learning Agents with Causal Analysis: Enhancing Automated Cryptocurrency Trading ( http://arxiv.org/abs/2310.09462v1 )

ライセンス: Link先を確認
Rasoul Amirzadeh, Dhananjay Thiruvady, Asef Nazari, Mong Shan Ee(参考訳) 人工知能による取引手法の進歩にもかかわらず、急速に発展する暗号通貨市場では、利益の出る自動取引システムの開発が困難なままである。 本研究は,Binance Coin, Ethereum, Litecoin, Ripple, Tetherの5つの人気アルトコイン(ビットコイン以外の暗号通貨)を対象とした強化学習ベースの自動取引システムを開発することで,これらの課題に対処することを目的とする。 そこで我々は,意思決定支援システムとしてのフレームワークCausalReinforceNetを提案する。 取引システムの基盤アーキテクチャとして設計されたcausalreinforcenetフレームワークは、因果分析を通じて強化学習エージェントの能力を高める。 このフレームワークでは、機能エンジニアリングプロセスでベイズネットワークを使用して、暗号通貨の価格変動に影響を与える因果関係を持つ最も関連する特徴を特定します。 さらに,動的ベイズネットワークからの確率的価格方向シグナルを取り入れ,強化学習エージェントの意思決定を強化する。 暗号通貨市場の高ボラティリティのため、我々はリスク管理のために販売と購入を制限する保守的なアプローチを採用するための枠組みを設計します。 我々はCausalReinforceNetフレームワークを用いて,それぞれ異なる強化学習アルゴリズムに基づいて2つのエージェントを開発する。 その結果、当社のフレームワークは利益率における買い持ちベンチマーク戦略を大幅に上回っていることがわかった。 さらに、両エージェントはbinance coinとethereumの投資に対して顕著なリターンを生み出した。

Despite advances in artificial intelligence-enhanced trading methods, developing a profitable automated trading system remains challenging in the rapidly evolving cryptocurrency market. This study aims to address these challenges by developing a reinforcement learning-based automated trading system for five popular altcoins~(cryptocurrencies other than Bitcoin): Binance Coin, Ethereum, Litecoin, Ripple, and Tether. To this end, we present CausalReinforceNet, a framework framed as a decision support system. Designed as the foundational architecture of the trading system, the CausalReinforceNet framework enhances the capabilities of the reinforcement learning agent through causal analysis. Within this framework, we use Bayesian networks in the feature engineering process to identify the most relevant features with causal relationships that influence cryptocurrency price movements. Additionally, we incorporate probabilistic price direction signals from dynamic Bayesian networks to enhance our reinforcement learning agent's decision-making. Due to the high volatility of the cryptocurrency market, we design our framework to adopt a conservative approach that limits sell and buy position sizes to manage risk. We develop two agents using the CausalReinforceNet framework, each based on distinct reinforcement learning algorithms. The results indicate that our framework substantially surpasses the Buy-and-Hold benchmark strategy in profitability. Additionally, both agents generated notable returns on investment for Binance Coin and Ethereum.
翻訳日:2023-10-17 20:24:52 公開日:2023-10-14
# PaintHuman:Denoized Score蒸留による高忠実テキストから3次元ヒューマンテクスチャを目指して

PaintHuman: Towards High-fidelity Text-to-3D Human Texturing via Denoised Score Distillation ( http://arxiv.org/abs/2310.09458v1 )

ライセンス: Link先を確認
Jianhui Yu, Hao Zhu, Liming Jiang, Chen Change Loy, Weidong Cai, Wayne Wu(参考訳) 事前学習されたテキストから画像への拡散モデルを用いたヒトモデルpre(smpl)またはスコア蒸留サンプリング(sds)を用いたゼロショットテキストから3次元ヒト世代における最近の進歩は画期的である。 しかしながら、SDSは、過度に平滑な結果を生成し、詳細なメッシュ形状と矛盾する身体テクスチャを生成する傾向があるため、弱い拡散誘導の下で不正確な勾配方向を提供することができる。 したがって、高忠実度テキストから3dテキストへの既存の戦略を直接活用することは困難である。 そこで本研究では,painthumanというモデルを提案し,その課題を2つの側面から解決する。 まず, 負の勾配成分を導入して, 傾斜方向を反復的に補正し, 高品質なテクスチャを生成することによって, SDSを直接修正する新しいスコア関数Denoized Score Distillation (DSD)を提案する。 さらに,テクスチャが人間のメッシュ表面とセマンティックに整合していることを確認するため,幾何学的ガイダンスとして深度マップを用いる。 レンダリング結果の品質を保証するため,我々は幾何学的認識ネットワークを用いて表面物質を予測し,リアルな人間のテクスチャを描画する。 最先端の手法に対してベンチマークを行い,提案手法の有効性を検証した。

Recent advances in zero-shot text-to-3D human generation, which employ the human model prior (eg, SMPL) or Score Distillation Sampling (SDS) with pre-trained text-to-image diffusion models, have been groundbreaking. However, SDS may provide inaccurate gradient directions under the weak diffusion guidance, as it tends to produce over-smoothed results and generate body textures that are inconsistent with the detailed mesh geometry. Therefore, directly leverage existing strategies for high-fidelity text-to-3D human texturing is challenging. In this work, we propose a model called PaintHuman to addresses the challenges from two aspects. We first propose a novel score function, Denoised Score Distillation (DSD), which directly modifies the SDS by introducing negative gradient components to iteratively correct the gradient direction and generate high-quality textures. In addition, we use the depth map as a geometric guidance to ensure the texture is semantically aligned to human mesh surfaces. To guarantee the quality of rendered results, we employ geometry-aware networks to predict surface materials and render realistic human textures. Extensive experiments, benchmarked against state-of-the-art methods, validate the efficacy of our approach.
翻訳日:2023-10-17 20:24:29 公開日:2023-10-14
# UCM-Net:MLPとCNNを用いた皮膚病変分割のための軽量かつ効率的な解法

UCM-Net: A Lightweight and Efficient Solution for Skin Lesion Segmentation using MLP and CNN ( http://arxiv.org/abs/2310.09457v1 )

ライセンス: Link先を確認
Chunyu Yuan, Dongfang Zhao and Sos S. Agaian(参考訳) 皮膚がんは公衆の健康に重大な問題であり、コンピュータ診断はがんの予防と治療に役立つ。 コンピュータ支援診断の重要なステップは、画像中の皮膚病変を正確に分割し、病変の検出、分類、分析を可能にすることである。 しかし, この課題は, 外観, 形状, 形状, 色, テクスチャ, 位置, およびノイズ, アーティファクト, 閉塞などの画像品質の問題など, 病変の多様な特徴により困難である。 深層学習モデルは、最近、皮膚病変のセグメンテーションに応用されているが、パラメータ数と計算要求が高く、モバイル健康アプリケーションには適さない。 本稿では,MLP(Multi-Layer Perceptions)とCNN(Convolutional Neural Networks)を統合した,新しい,効率的で軽量なソリューションであるUCM-Netを提案する。 従来のUCMNetアーキテクチャとは異なり、UCMNet-Blockはパラメータのオーバーヘッドを減らし、UCM-Netの学習能力を向上し、堅牢なセグメンテーション性能をもたらす。 isic2017とisic2018データセットに関する広範な実験を通じて、umm-netの競争力を検証する。 注目すべきは、UCM-Netは50KB未満のパラメータと0.05ギガ秒未満のGiga-Operations Per Second (GLOPs)を持ち、皮膚病変のセグメンテーションの効率性のための新しい標準となることである。 ソースコードは公開される予定だ。

Skin cancer is a significant public health problem, and computer-aided diagnosis can help to prevent and treat it. A crucial step for computer-aided diagnosis is accurately segmenting skin lesions in images, which allows for lesion detection, classification, and analysis. However, this task is challenging due to the diverse characteristics of lesions, such as appearance, shape, size, color, texture, and location, as well as image quality issues like noise, artifacts, and occlusions. Deep learning models have recently been applied to skin lesion segmentation, but they have high parameter counts and computational demands, making them unsuitable for mobile health applications. To address this challenge, we propose UCM-Net, a novel, efficient, and lightweight solution that integrates Multi-Layer Perceptions (MLP) and Convolutional Neural Networks (CNN). Unlike conventional UNet architectures, our UCMNet-Block reduces parameter overhead and enhances UCM-Net's learning capabilities, leading to robust segmentation performance. We validate UCM-Net's competitiveness through extensive experiments on isic2017 and isic2018 datasets. Remarkably, UCM-Net has less than 50KB parameters and less than 0.05 Giga-Operations Per Second (GLOPs), setting a new possible standard for efficiency in skin lesion segmentation. The source code will be publicly available.
翻訳日:2023-10-17 20:24:03 公開日:2023-10-14
# LgTS:強化学習エージェントのためのLLM生成サブゴールを用いた動的タスクサンプリング

LgTS: Dynamic Task Sampling using LLM-generated sub-goals for Reinforcement Learning Agents ( http://arxiv.org/abs/2310.09454v1 )

ライセンス: Link先を確認
Yash Shukla, Wenchang Gao, Vasanth Sarathy, Alvaro Velasquez, Robert Wright, Jivko Sinapov(参考訳) 大規模言語モデル(llm)の推論能力の最近の進歩は、ロボットや人工エージェントの高レベルな計画を必要とする問題での利用を促進する。 しかし、これらの計画タスクにLLMを利用する現在の技術は、微調整を許可するデータセットへのアクセス、LLMに関連性があり不可欠な情報しか提供しない厳密に設計されたプロンプト、そして最も重要なのは、既存のポリシーまたはプランオペレーターの形式でLLM応答の実行を可能にする決定論的アプローチなどの重要な仮定を成している。 本研究では,LgTS(LLM-Guided Teacher-Student Learning)を提案する。LgTS(LLM-Guided Teacher-Student Learning)は,LLMの計画能力を探求し,環境の遷移力学にアクセスできない強化学習(RL)エージェントにサブゴールのグラフィカルな表現を提供する。 RLエージェントは、Teacher-Student学習アルゴリズムを使用して、開始状態から目標状態に到達するための一連の成功ポリシーを学習し、同時に環境相互作用の数を最小限にする。 LLMを利用する従来の方法とは違い,提案手法ではプロペトリタリーや微調整LDMへのアクセスを前提とせず,LLMが提案するサブゴールを達成するための事前訓練されたポリシーも必要としない。 グリッドワールドベースのドアキードメインと検索・アンド・リスパイアされたドメインの実験を通して、サブゴールのグラフィカルな構造を生成することは、llmが提案したサブゴールの学習方針に役立ち、教師・学生学習アルゴリズムは、遷移ダイナミクスが未知である場合の環境相互作用の数を最小化することを示した。

Recent advancements in reasoning abilities of Large Language Models (LLM) has promoted their usage in problems that require high-level planning for robots and artificial agents. However, current techniques that utilize LLMs for such planning tasks make certain key assumptions such as, access to datasets that permit finetuning, meticulously engineered prompts that only provide relevant and essential information to the LLM, and most importantly, a deterministic approach to allow execution of the LLM responses either in the form of existing policies or plan operators. In this work, we propose LgTS (LLM-guided Teacher-Student learning), a novel approach that explores the planning abilities of LLMs to provide a graphical representation of the sub-goals to a reinforcement learning (RL) agent that does not have access to the transition dynamics of the environment. The RL agent uses Teacher-Student learning algorithm to learn a set of successful policies for reaching the goal state from the start state while simultaneously minimizing the number of environmental interactions. Unlike previous methods that utilize LLMs, our approach does not assume access to a propreitary or a fine-tuned LLM, nor does it require pre-trained policies that achieve the sub-goals proposed by the LLM. Through experiments on a gridworld based DoorKey domain and a search-and-rescue inspired domain, we show that generating a graphical structure of sub-goals helps in learning policies for the LLM proposed sub-goals and the Teacher-Student learning algorithm minimizes the number of environment interactions when the transition dynamics are unknown.
翻訳日:2023-10-17 20:23:33 公開日:2023-10-14
# 補助学習機能融合による知覚強化:頭部検出のための修正yolov8

Perception Reinforcement Using Auxiliary Learning Feature Fusion: A Modified Yolov8 for Head Detection ( http://arxiv.org/abs/2310.09492v1 )

ライセンス: Link先を確認
Jiezhou Chen, Guankun Wang, Weixiang Liu, Xiaopin Zhong, Yibin Tian, ZongZe Wu(参考訳) 頭部検出は歩行者の分布情報を提供し、シーン統計分析、交通管理、リスクアセスメント、早期警戒に不可欠である。 しかし、実世界のシーンの複雑さと大規模な変動により、正確な検出がより困難になる。 そこで本研究では,目標知覚の強化により頭部検出性能を向上させる改良型Yolov8を提案する。 LSTMと畳み込みブロックで構成される補助学習機能融合(ALFF)モジュールが、モデルがターゲットを認識するのを助ける補助タスクとして使用される。 また,分散焦点損失にノイズ校正を導入することで,モデルフィッティングの容易化と検出精度の向上を図る。 本手法は,頭部検出タスクの精度と速度を考慮し,Yolov8nとYolov8mの2種類のバックボーンに適応する。 その結果,検出精度とロバスト性の向上に有効な手法が得られた。

Head detection provides distribution information of pedestrian, which is crucial for scene statistical analysis, traffic management, and risk assessment and early warning. However, scene complexity and large-scale variation in the real world make accurate detection more difficult. Therefore, we present a modified Yolov8 which improves head detection performance through reinforcing target perception. An Auxiliary Learning Feature Fusion (ALFF) module comprised of LSTM and convolutional blocks is used as the auxiliary task to help the model perceive targets. In addition, we introduce Noise Calibration into Distribution Focal Loss to facilitate model fitting and improve the accuracy of detection. Considering the requirements of high accuracy and speed for the head detection task, our method is adapted with two kinds of backbone, namely Yolov8n and Yolov8m. The results demonstrate the superior performance of our approach in improving detection accuracy and robustness.
翻訳日:2023-10-17 20:13:22 公開日:2023-10-14
# arm:適応型時空間学習による多変量予測

ARM: Refining Multivariate Forecasting with Adaptive Temporal-Contextual Learning ( http://arxiv.org/abs/2310.09488v1 )

ライセンス: Link先を確認
Jiecheng Lu, Xu Han, Shihao Yang(参考訳) 長期時系列予測(LTSF)は、様々な領域において重要であるが、複雑な時間的・文脈的関係を扱う際の課題に直面している。 多変量入力モデルが最近の一変量入力モデルよりも優れているため、この問題は既存の多変量LTSF変換器が直列関係をモデル化する非効率性にあると仮定する。 そこで本研究では,多変量 ltsf モデリング専用に設計された拡張アーキテクチャである多変量時空間適応学習法 arm を提案する。 ARMはAUEL(Adaptive Univariate Effect Learning)、RD(Random Dropping)のトレーニング戦略、MKLS(Multi-kernel Local Smoothing)を採用し、個々の時系列の時間パターンをよりよく扱い、シリーズ間の依存関係を正しく学習する。 ARMは、バニラトランスフォーマーに比べて計算コストを大幅に増大させることなく、複数のベンチマークで優れた性能を示し、LTSFの最先端を推し進める。 ARMは一般に、バニラトランスフォーマー以外のLTSFアーキテクチャにも適用できる。

Long-term time series forecasting (LTSF) is important for various domains but is confronted by challenges in handling the complex temporal-contextual relationships. As multivariate input models underperforming some recent univariate counterparts, we posit that the issue lies in the inefficiency of existing multivariate LTSF Transformers to model series-wise relationships: the characteristic differences between series are often captured incorrectly. To address this, we introduce ARM: a multivariate temporal-contextual adaptive learning method, which is an enhanced architecture specifically designed for multivariate LTSF modelling. ARM employs Adaptive Univariate Effect Learning (AUEL), Random Dropping (RD) training strategy, and Multi-kernel Local Smoothing (MKLS), to better handle individual series temporal patterns and correctly learn inter-series dependencies. ARM demonstrates superior performance on multiple benchmarks without significantly increasing computational costs compared to vanilla Transformer, thereby advancing the state-of-the-art in LTSF. ARM is also generally applicable to other LTSF architecture beyond vanilla Transformer.
翻訳日:2023-10-17 20:13:09 公開日:2023-10-14
# Mirage: グラフ分類のためのモデル非依存グラフ蒸留

Mirage: Model-Agnostic Graph Distillation for Graph Classification ( http://arxiv.org/abs/2310.09486v1 )

ライセンス: Link先を確認
Mridul Gupta and Sahil Manchanda and Sayan Ranu and Hariprasad Kodamana(参考訳) 他のディープラーニングモデルと同様、GNNもデータと計算に飢えている。 低リソース環境での使用を可能にするため、大規模なデータセット上でGNNのトレーニングをスケールする必要がある。 グラフ蒸留は、モデル性能を著しく損なうことなく、元のトレーニングデータからより小さな合成訓練セットを構築することを目的としている。 1)既存のグラフ蒸留アルゴリズム自体が、グラフ蒸留の前提を損なう完全なデータセットによるトレーニングに依存している。 2) 蒸留プロセスは, ターゲットのGNNアーキテクチャやハイパーパラメータに特有であり, モデリングパイプラインの変化に対して堅牢ではない。 グラフ分類のためのMirageと呼ばれる蒸留アルゴリズムを設計することで,これらの制限を回避する。 MirageはメッセージパスGNNが入力グラフを複数の計算ツリーに分解するという知見に基づいて構築されている。 さらに, 計算木の周波数分布は自然に歪んでいて, このデータを簡潔な蒸留要約にまとめることができる。 計算データ自体を圧縮することにより、元のトレーニングセット上の勾配流をエミュレートする代わりに、日付ミレージ変換を教師なしかつアーキテクチャに依存しない蒸留アルゴリズムに変換する。 実世界のデータセットに対する広範囲なベンチマークは、Mirageの優位性を強調し、最先端のベースラインと比較して、一般化の正確さ、データ圧縮、蒸留効率の向上を示している。

GNNs, like other deep learning models, are data and computation hungry. There is a pressing need to scale training of GNNs on large datasets to enable their usage on low-resource environments. Graph distillation is an effort in that direction with the aim to construct a smaller synthetic training set from the original training data without significantly compromising model performance. While initial efforts are promising, this work is motivated by two key observations: (1) Existing graph distillation algorithms themselves rely on training with the full dataset, which undermines the very premise of graph distillation. (2) The distillation process is specific to the target GNN architecture and hyper-parameters and thus not robust to changes in the modeling pipeline. We circumvent these limitations by designing a distillation algorithm called Mirage for graph classification. Mirage is built on the insight that a message-passing GNN decomposes the input graph into a multiset of computation trees. Furthermore, the frequency distribution of computation trees is often skewed in nature, enabling us to condense this data into a concise distilled summary. By compressing the computation data itself, as opposed to emulating gradient flows on the original training set-a prevalent approach to date-Mirage transforms into an unsupervised and architecture-agnostic distillation algorithm. Extensive benchmarking on real-world datasets underscores Mirage's superiority, showcasing enhanced generalization accuracy, data compression, and distillation efficiency when compared to state-of-the-art baselines.
翻訳日:2023-10-17 20:12:46 公開日:2023-10-14
# ウイルス重症度予測におけるベイズリッジ回帰aiモデルの適用

Applying Bayesian Ridge Regression AI Modeling in Virus Severity Prediction ( http://arxiv.org/abs/2310.09485v1 )

ライセンス: Link先を確認
Jai Pal, Bryan Hong(参考訳) 人工知能(AI)は医療システムを再構築するための強力なツールである。 医療分野では、AIは膨大な量のデータを管理する能力があるため、より正確で迅速な診断につながる可能性があるため、最終的には医療専門家の労働負担を軽減できる。 その結果、AIは様々な産業にまたがる強力なツールであることが証明され、複雑なタスクやパターン認識を単純化し、人間や従来のコンピュータアルゴリズムでは圧倒的なものになった。 本稿では,世界中の医療従事者を対象に,最先端ウイルス分析に使用できるAIモデルであるBayesian Ridge Regressionの長所と短所を概説する。 モデルの精度評価の結果は有望な結果を示し、改善の余地は主にデータ組織に関するものだった。 さらに、重症度指数は、患者ケアのニーズを広範囲に概観するための貴重なツールであり、医療専門家の幅広い分類に対する好みと一致している。

Artificial intelligence (AI) is a powerful tool for reshaping healthcare systems. In healthcare, AI is invaluable for its capacity to manage vast amounts of data, which can lead to more accurate and speedy diagnoses, ultimately easing the workload on healthcare professionals. As a result, AI has proven itself to be a power tool across various industries, simplifying complex tasks and pattern recognition that would otherwise be overwhelming for humans or traditional computer algorithms. In this paper, we review the strengths and weaknesses of Bayesian Ridge Regression, an AI model that can be used to bring cutting edge virus analysis to healthcare professionals around the world. The model's accuracy assessment revealed promising results, with room for improvement primarily related to data organization. In addition, the severity index serves as a valuable tool to gain a broad overview of patient care needs, aligning with healthcare professionals' preference for broader categorizations.
翻訳日:2023-10-17 20:12:20 公開日:2023-10-14
# 顔認識用拡散オートエンコーダの設計空間の探索

Exploring the Design Space of Diffusion Autoencoders for Face Morphing ( http://arxiv.org/abs/2310.09484v1 )

ライセンス: Link先を確認
Zander Blasingame, Chen Liu(参考訳) Diffusion Autoencodersによって作成された顔形態は最近のイノベーションであり、そのようなアプローチの設計空間は十分に研究されていない。 デザインスペースの3つの軸、すなわち 1)サンプリングアルゴリズム 2)リバースDDIM解決器,及び 3) 少量の付加雑音による部分的サンプリング。

Face morphs created by Diffusion Autoencoders are a recent innovation and the design space of such an approach has not been well explored. We explore three axes of the design space, i.e., 1) sampling algorithms, 2) the reverse DDIM solver, and 3) partial sampling through small amounts of added noise.
翻訳日:2023-10-17 20:12:06 公開日:2023-10-14
# 非条件画像生成モデルのための統一高結合透かし

Unified High-binding Watermark for Unconditional Image Generation Models ( http://arxiv.org/abs/2310.09479v1 )

ライセンス: Link先を確認
Ruinan Ma, Yu-an Tan, Shangbo Wu, Tian Chen, Yajie Wang, Yuanzhang Li(参考訳) ディープラーニング技術は、GANや拡散モデルなど、多くの無条件画像生成(UIG)モデルを実装している。 これらのモデルによって生成された非常に現実的な画像(AI-Generated Content、略してAIGC)は、データトレーサビリティや著作権認定のような知的財産権保護に対する緊急の要求をもたらす。 攻撃者はターゲットモデルの出力画像を盗み、トレーニングデータの一部として使用して、プライベート代理UIGモデルをトレーニングすることができる。 UIGモデルの実装メカニズムは多様で複雑であり、現在、統一的で効果的な保護と検証方法が存在しない。 そこで本研究では,このようなモデルに対して高い拘束力を持つ2段階の統一透かし検証機構を提案する。 第1段階では、エンコーダを用いて、元のAIGCツールの出力画像に透かし画像を書き込むとともに、対応する復号器を介して透かし画像の逆抽出を行う。 第2段階ではデコーダの微調整プロセスを設計し、微調整デコーダは疑わしいモデルが元のAIGCツールデータを盗むかどうかを正確に判断することができる。 実験では,モデル出力画像のみを用いることで,ほぼゼロの偽陽性率で検証作業を完了できることを示した。 さらに,提案手法は,異なるタイプのUIGモデル間でデータステルス検証を実現することができるため,本手法の実用性はさらに向上する。

Deep learning techniques have implemented many unconditional image generation (UIG) models, such as GAN, Diffusion model, etc. The extremely realistic images (also known as AI-Generated Content, AIGC for short) produced by these models bring urgent needs for intellectual property protection such as data traceability and copyright certification. An attacker can steal the output images of the target model and use them as part of the training data to train a private surrogate UIG model. The implementation mechanisms of UIG models are diverse and complex, and there is no unified and effective protection and verification method at present. To address these issues, we propose a two-stage unified watermark verification mechanism with high-binding effects for such models. In the first stage, we use an encoder to invisibly write the watermark image into the output images of the original AIGC tool, and reversely extract the watermark image through the corresponding decoder. In the second stage, we design the decoder fine-tuning process, and the fine-tuned decoder can make correct judgments on whether the suspicious model steals the original AIGC tool data. Experiments demonstrate our method can complete the verification work with almost zero false positive rate under the condition of only using the model output images. Moreover, the proposed method can achieve data steal verification across different types of UIG models, which further increases the practicality of the method.
翻訳日:2023-10-17 20:12:01 公開日:2023-10-14
# MiniGPT-v2:視覚言語多タスク学習のための統一インターフェースとしての大規模言語モデル

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning ( http://arxiv.org/abs/2310.09478v1 )

ライセンス: Link先を確認
Jun Chen, Deyao Zhu, Xiaoqian Shen, Xiang Li, Zechun Liu, Pengchuan Zhang, Raghuraman Krishnamoorthi, Vikas Chandra, Yunyang Xiong, Mohamed Elhoseiny(参考訳) 大規模言語モデルは、様々な言語関連アプリケーションのための汎用インターフェースとして、目覚ましい能力を示している。 そこで我々は,画像記述や視覚的質問応答,視覚的接地など,多くの視覚言語タスクを完遂するための統一インターフェースの構築を目標としている。 課題は、単純なマルチモーダル命令で視覚言語タスクを効果的に実行するために単一のモデルを使用することである。 この目的のために,様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるMiniGPT-v2を導入する。 モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。 これらの識別子により、各タスク命令を無益に識別し、各タスクのモデル学習効率を向上させることができる。 3段階の学習の結果,MiniGPT-v2は他の視覚言語モデルと比較して,多くの視覚的質問応答および視覚的グラウンド化ベンチマークにおいて高い性能を示した。 私たちのモデルとコードはhttps://minigpt-v2.github.io/で利用可能です。

Large language models have shown their remarkable capabilities as a general interface for various language-related applications. Motivated by this, we target to build a unified interface for completing many vision-language tasks including image description, visual question answering, and visual grounding, among others. The challenge is to use a single model for performing diverse vision-language tasks effectively with simple multi-modal instructions. Towards this objective, we introduce MiniGPT-v2, a model that can be treated as a unified interface for better handling various vision-language tasks. We propose using unique identifiers for different tasks when training the model. These identifiers enable our model to better distinguish each task instruction effortlessly and also improve the model learning efficiency for each task. After the three-stage training, the experimental results show that MiniGPT-v2 achieves strong performance on many visual question-answering and visual grounding benchmarks compared to other vision-language generalist models. Our model and codes are available at https://minigpt-v2.github.io/
翻訳日:2023-10-17 20:11:36 公開日:2023-10-14
# CNNは人間の感情を正確に分類できるのか? ディープラーニングによる表情認識に関する研究

Can CNNs Accurately Classify Human Emotions? A Deep-Learning Facial Expression Recognition Study ( http://arxiv.org/abs/2310.09473v1 )

ライセンス: Link先を確認
Ashley Jisue Hong, David DiStefano, Sejal Dua(参考訳) 感情人工知能は現在、AIの最も期待されている開発の一つだ。 成功すれば、これらのAIは、人間と機械を区別する主要な要因である知覚を持つ、最も複雑で知的な非人間的な実体の1つに分類される。 AIを「感情的」と分類するには、人間と通常対話できない能力がないため、他者と共感し、感情を分類することができるべきである。 本研究では,CNNモデルがヒトの表情(陽性,中性,陰性)を認識・分類する能力について検討した。 この研究のために作られたcnnモデルはpythonでプログラムされ、chicago face databaseから事前処理されたデータでトレーニングされる。 モデルは、その能力をさらに調査するために、より少ない複雑さで意図的に設計されている。 我々は、入力データの各感情クラスを分類する際に、モデルが偶然(33.3%)より優れていると仮定した。 モデル精度を新しい画像で検証した。 精度は、パーセンテージレポート、比較プロット、および混乱マトリクスにまとめられた。 このモデルは1万画像(データ)以上で75%の精度を有しており、人間の感情を正確に分析するaisの可能性と、生存可能な感情aiの可能性を強調している。

Emotional Artificial Intelligences are currently one of the most anticipated developments of AI. If successful, these AIs will be classified as one of the most complex, intelligent nonhuman entities as they will possess sentience, the primary factor that distinguishes living humans and mechanical machines. For AIs to be classified as "emotional," they should be able to empathize with others and classify their emotions because without such abilities they cannot normally interact with humans. This study investigates the CNN model's ability to recognize and classify human facial expressions (positive, neutral, negative). The CNN model made for this study is programmed in Python and trained with preprocessed data from the Chicago Face Database. The model is intentionally designed with less complexity to further investigate its ability. We hypothesized that the model will perform better than chance (33.3%) in classifying each emotion class of input data. The model accuracy was tested with novel images. Accuracy was summarized in a percentage report, comparative plot, and confusion matrix. Results of this study supported the hypothesis as the model had 75% accuracy over 10,000 images (data), highlighting the possibility of AIs that accurately analyze human emotions and the prospect of viable Emotional AIs.
翻訳日:2023-10-17 20:11:22 公開日:2023-10-14
# ファウショット医用画像分類のためのプラグアンドプレイ特徴生成

Plug-and-Play Feature Generation for Few-Shot Medical Image Classification ( http://arxiv.org/abs/2310.09471v1 )

ライセンス: Link先を確認
Qianyu Guo, Huifang Du, Xing Jia, Shuyong Gao, Yan Teng, Haofen Wang, Wenqiang Zhang(参考訳) 少数ショット学習(英語版)(fsl)は、限られたトレーニングデータで医用画像分類のモデルの一般化と実用性を高める大きな可能性を示しているが、不足したトレーニングサンプルによる分布バイアスによる分類訓練の過度な過剰化の課題に直面している。 この問題を解決するために,限られたサンプルから十分なクラス識別機能を生成するための,柔軟で軽量なプラグアンドプレイ方式であるMedMFGを提案する。 特に、MedMFGは、より重要な情報機能のために、より重いものを割り当てるために、まず限定されたプロトタイプを再表現する。 そして、プロトタイプは、豊富な有効機能に変異的に生成される。 最後に、生成された機能とプロトタイプが一緒になり、より一般化された分類器を訓練する。 実験により、MedMFGは、自然画像から医療画像への移行や、病変の異なる医療画像を含むクロスドメインベンチマークにおいて、これまでの最先端の手法よりも優れていることが示された。 特に本手法は,複数のベースラインと比較して10%以上の性能向上を達成している。 核融合実験により、MedMFGは様々なバックボーンやベースラインにシームレスに統合され、全ての結果に対して2.9%以上の改善をもたらすため、さらに適合性を検証することができる。

Few-shot learning (FSL) presents immense potential in enhancing model generalization and practicality for medical image classification with limited training data; however, it still faces the challenge of severe overfitting in classifier training due to distribution bias caused by the scarce training samples. To address the issue, we propose MedMFG, a flexible and lightweight plug-and-play method designed to generate sufficient class-distinctive features from limited samples. Specifically, MedMFG first re-represents the limited prototypes to assign higher weights for more important information features. Then, the prototypes are variationally generated into abundant effective features. Finally, the generated features and prototypes are together to train a more generalized classifier. Experiments demonstrate that MedMFG outperforms the previous state-of-the-art methods on cross-domain benchmarks involving the transition from natural images to medical images, as well as medical images with different lesions. Notably, our method achieves over 10% performance improvement compared to several baselines. Fusion experiments further validate the adaptability of MedMFG, as it seamlessly integrates into various backbones and baselines, consistently yielding improvements of over 2.9% across all results.
翻訳日:2023-10-17 20:11:02 公開日:2023-10-14
# 時間ステップアライナーを用いたより高精度な拡散モデル加速法

Towards More Accurate Diffusion Model Acceleration with A Timestep Aligner ( http://arxiv.org/abs/2310.09469v1 )

ライセンス: Link先を確認
Mengfei Xia, Yujun Shen, Changsong Lei, Yu Zhou, Ran Yi, Deli Zhao, Wenping Wang, Yong-jin Liu(参考訳) 数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。 既存の加速アルゴリズムは、ほとんどのステップをスキップすることでサンプリングを単純化するが、かなりの性能劣化を示す。 拡散モデルの生成を離散積分過程として見ることにより,不正確な積分方向を時間間隔に印加することによって品質低下が生じると主張している。 この問題を正すため,我々は,最小コストで特定の区間に対してより正確な積分方向を求めるのに役立つ時間ステップ調整器を提案する。 具体的には, サンプリング分布を実分布に整合させて得られる新しい時間ステップでネットワークを条件付けすることで, 分別ステップ毎に元のパラメータ化を置き換える。 大規模な実験により, プラグイン設計を効率的に訓練し, 各種の最先端加速度法の推論性能を向上できることが判明した。 例えば、一般的なLSUN Bedroomデータセットの10のデノイングステップを使用する場合、DDIMのFIDを9.65から6.07に改善します。 コードは公開される予定だ。

A diffusion model, which is formulated to produce an image using thousands of denoising steps, usually suffers from a slow inference speed. Existing acceleration algorithms simplify the sampling by skipping most steps yet exhibit considerable performance degradation. By viewing the generation of diffusion models as a discretized integrating process, we argue that the quality drop is partly caused by applying an inaccurate integral direction to a timestep interval. To rectify this issue, we propose a timestep aligner that helps find a more accurate integral direction for a particular interval at the minimum cost. Specifically, at each denoising step, we replace the original parameterization by conditioning the network on a new timestep, which is obtained by aligning the sampling distribution to the real distribution. Extensive experiments show that our plug-in design can be trained efficiently and boost the inference performance of various state-of-the-art acceleration methods, especially when there are few denoising steps. For example, when using 10 denoising steps on the popular LSUN Bedroom dataset, we improve the FID of DDIM from 9.65 to 6.07, simply by adopting our method for a more appropriate set of timesteps. Code will be made publicly available.
翻訳日:2023-10-17 20:10:40 公開日:2023-10-14
# 負サンプリングによるgnn層経由の効率的なリンク予測

Efficient Link Prediction via GNN Layers Induced by Negative Sampling ( http://arxiv.org/abs/2310.09516v1 )

ライセンス: Link先を確認
Yuxin Wang, Xiannian Hu, Quan Gan, Xuanjing Huang, Xipeng Qiu, David Wipf(参考訳) リンク予測のためのグラフニューラルネットワーク(GNN)は、緩やかに2つの広いカテゴリに分けられる。 まず、 \emph{node-wise}アーキテクチャは各ノードの個別の埋め込みを事前に計算し、後に単純なデコーダと組み合わせて予測を行う。 推定時に非常に効率的であるが(ノード埋め込みは一度だけ計算され、繰り返し再利用される)、モデル表現性は限定的であり、候補エッジに寄与する同型ノードは区別できない。 対照的に、 \emph{edge-wise} 法は、対関係の表現を豊かにする辺固有の部分グラフ埋め込みの形成に依存し、同型ノードを曖昧にせずに精度を向上させるが、モデルの複雑さが増大する。 このトレードオフをよりうまくナビゲートするために、新しいGNNアーキテクチャを提案する。ここでは、より柔軟で安価なノード単位の埋め込みを知らせるために、 \emph{forward pass} は \emph{both} 正(典型的には)と負(アプローチに共通)のエッジに明示的に依存する。 これは、埋め込み自身を正と負のサンプルの分離を好む前方パス固有のエネルギー関数の最小値(実際のトレーニング損失と区別)として再キャストすることで達成される。 広範な経験的評価によって示されるように、結果として得られるアーキテクチャはノードワイドモデルの推論速度を維持しつつ、エッジワイドの代替品と競合する精度を生み出す。

Graph neural networks (GNNs) for link prediction can loosely be divided into two broad categories. First, \emph{node-wise} architectures pre-compute individual embeddings for each node that are later combined by a simple decoder to make predictions. While extremely efficient at inference time (since node embeddings are only computed once and repeatedly reused), model expressiveness is limited such that isomorphic nodes contributing to candidate edges may not be distinguishable, compromising accuracy. In contrast, \emph{edge-wise} methods rely on the formation of edge-specific subgraph embeddings to enrich the representation of pair-wise relationships, disambiguating isomorphic nodes to improve accuracy, but with the cost of increased model complexity. To better navigate this trade-off, we propose a novel GNN architecture whereby the \emph{forward pass} explicitly depends on \emph{both} positive (as is typical) and negative (unique to our approach) edges to inform more flexible, yet still cheap node-wise embeddings. This is achieved by recasting the embeddings themselves as minimizers of a forward-pass-specific energy function (distinct from the actual training loss) that favors separation of positive and negative samples. As demonstrated by extensive empirical evaluations, the resulting architecture retains the inference speed of node-wise models, while producing competitive accuracy with edge-wise alternatives.
翻訳日:2023-10-17 20:06:39 公開日:2023-10-14
# 非自己回帰生成のための注意型多層パーセプトロン

Attentive Multi-Layer Perceptron for Non-autoregressive Generation ( http://arxiv.org/abs/2310.09512v1 )

ライセンス: Link先を確認
Shuyang Jiang and Jun Zhang and Jiangtao Feng and Lin Zheng and Lingpeng Kong(参考訳) 自己回帰~(AR)生成は、その効果のためにほとんどシーケンス生成を支配している。 近年,非自己回帰的〜(NAR)生成は効率性や有効性の向上で人気が高まっている。 しかし、その効率は、長いシーケンス生成へのスケーリングが禁じられているシークエンス長さの二次的な複雑さによっていまだボトルネックになっている。 本稿では,線形時間と空間の複雑さを持つ生成モデルを生成するために,新しい MLP 変種である \textbf{A}ttentive \textbf{M}ulti-\textbf{L}ayer \textbf{P}erceptron~(AMLP)を提案する。 静的および学習可能な射影行列を持つ古典的MLPとは異なり、AMLPは注意モードで入力から計算された適応射影を利用する。 サンプル対応適応プロジェクションは、シーケンス内のトークン間の通信を可能にし、クエリとキー空間の間の測定をモデル化する。 さらに、AMLPと一般的なNARモデルを組み合わせることにより、線形時間と空間の複雑さを持つ高効率なNAR-AMLPアーキテクチャを導出する。 このような結婚アーキテクチャは,テキスト音声合成と機械翻訳において,競争効率のよいNARモデルを上回ることが実証された。 また,AMLPの自己および横断的アテンション能力を広範囲にわたるアブレーション実験で別々にテストし,他の効率的なモデルに匹敵するか,さらに優れているかを見出した。 効率分析により、AMLPは長いシーケンスに対するバニラ非自己回帰モデルに対するメモリコストを著しく削減することが示された。

Autoregressive~(AR) generation almost dominates sequence generation for its efficacy. Recently, non-autoregressive~(NAR) generation gains increasing popularity for its efficiency and growing efficacy. However, its efficiency is still bottlenecked by quadratic complexity in sequence lengths, which is prohibitive for scaling to long sequence generation and few works have been done to mitigate this problem. In this paper, we propose a novel MLP variant, \textbf{A}ttentive \textbf{M}ulti-\textbf{L}ayer \textbf{P}erceptron~(AMLP), to produce a generation model with linear time and space complexity. Different from classic MLP with static and learnable projection matrices, AMLP leverages adaptive projections computed from inputs in an attentive mode. The sample-aware adaptive projections enable communications among tokens in a sequence, and model the measurement between the query and key space. Furthermore, we marry AMLP with popular NAR models, deriving a highly efficient NAR-AMLP architecture with linear time and space complexity. Empirical results show that such marriage architecture surpasses competitive efficient NAR models, by a significant margin on text-to-speech synthesis and machine translation. We also test AMLP's self- and cross-attention ability separately with extensive ablation experiments, and find them comparable or even superior to the other efficient models. The efficiency analysis further shows that AMLP extremely reduces the memory cost against vanilla non-autoregressive models for long sequences.
翻訳日:2023-10-17 20:06:11 公開日:2023-10-14
# foundation ark: 優れたパフォーマンスと堅牢性のための知識の探求と再利用

Foundation Ark: Accruing and Reusing Knowledge for Superior and Robust Performance ( http://arxiv.org/abs/2310.09507v1 )

ライセンス: Link先を確認
DongAo Ma, Jiaxuan Pang, Michael B. Gotway, Jianming Liang(参考訳) ディープラーニングは現在では専門家レベルであり、時には超熟練レベルのパフォーマンスも提供しているが、そのようなパフォーマンスを達成するには、トレーニングのための膨大なアノテートデータを必要とする(例えば、Googleの独自CXRファンデーションモデル(CXR-FM)は、ラベル付き821,544個の胸部X線(CXR)でトレーニングされている)。 医療画像では多くのデータセットが公開されているが、専門家ラベルでは個別に小さく異種である。 多数の小さな公開データセットを集約することでトレーニングできる、強力で堅牢な基盤モデルを構想する。 このビジョンを実現するために、さまざまなデータセットにおける異種専門家アノテーションからの知識を蓄積し再利用するフレームワークであるArkを開発した。 概念実証として,2つのarkモデルを335,484,704,363cxrで訓練し,stox-ray14,chexpert,mimeme-ii,vindr-cxrなど複数のデータセットを融合し,精細なチューニング,線形検出,ジェンダーバイアス分析を通じて分類とセグメンテーションの両面をカバーする幅広い撮像課題について評価し,sota完全教師付きベースラインとgoogle独自のcxr-fmに対して,arkの優れている,堅牢な性能を実証した。 このパフォーマンスの向上は、多くの公開データセットを集約することで、患者人口を多様化し、さまざまな専門家の知識を蓄積し、前例のないパフォーマンスを実現し、アノテーションコストを節約した、という単純な観測によるものです。 github.com/jlianglab/arkでリリースされたすべてのコードと事前トレーニングされたモデルにより、arkはオープンサイエンスに重要な影響を与えることを願っている。パブリックデータセットにおける専門家アノテーションからの知識の収集と再利用は、異常な規模のデータでトレーニングされたプロプライエタリなモデルのパフォーマンスを潜在的に超越し、世界中の多くの研究者がコードとデータセットを共有し、オープンファウンデーションモデルを構築し、オープンサイエンスを加速し、医学画像のためのディープラーニングを民主化する。

Deep learning nowadays offers expert-level and sometimes even super-expert-level performance, but achieving such performance demands massive annotated data for training (e.g., Google's proprietary CXR Foundation Model (CXR-FM) was trained on 821,544 labeled and mostly private chest X-rays (CXRs)). Numerous datasets are publicly available in medical imaging but individually small and heterogeneous in expert labels. We envision a powerful and robust foundation model that can be trained by aggregating numerous small public datasets. To realize this vision, we have developed Ark, a framework that accrues and reuses knowledge from heterogeneous expert annotations in various datasets. As a proof of concept, we have trained two Ark models on 335,484 and 704,363 CXRs, respectively, by merging several datasets including ChestX-ray14, CheXpert, MIMIC-II, and VinDr-CXR, evaluated them on a wide range of imaging tasks covering both classification and segmentation via fine-tuning, linear-probing, and gender-bias analysis, and demonstrated our Ark's superior and robust performance over the SOTA fully/self-supervised baselines and Google's proprietary CXR-FM. This enhanced performance is attributed to our simple yet powerful observation that aggregating numerous public datasets diversifies patient populations and accrues knowledge from diverse experts, yielding unprecedented performance yet saving annotation cost. With all codes and pretrained models released at GitHub.com/JLiangLab/Ark, we hope that Ark exerts an important impact on open science, as accruing and reusing knowledge from expert annotations in public datasets can potentially surpass the performance of proprietary models trained on unusually large data, inspiring many more researchers worldwide to share codes and datasets to build open foundation models, accelerate open science, and democratize deep learning for medical imaging.
翻訳日:2023-10-17 20:05:40 公開日:2023-10-14
# 6Gのセマンティック通信プロトコルに向けて:プロトコル学習から言語指向アプローチへ

Towards Semantic Communication Protocols for 6G: From Protocol Learning to Language-Oriented Approaches ( http://arxiv.org/abs/2310.09506v1 )

ライセンス: Link先を確認
Jihong Park, Seung-Woo Ko, Jinho Choi, Seong-Lyun Kim, Mehdi Bennis(参考訳) 近く登場する6Gシステムは、幅広い非定常タスクに対処する予定である。 これは、静的で事前定義された従来のメディアアクセス制御(MAC)プロトコルに課題をもたらす。 応答として、データ駆動MACプロトコルが最近登場し、特定のタスクのためにシグナリングメッセージをカスタマイズする機能を提供する。 本稿では、これらのデータ駆動MACプロトコルを3つのレベルに分類する。 マルチエージェント深層強化学習(madrl)を用いたタスク指向ニューラルプロトコルの構築 : レベル2 mac レベル1のmac出力を明示的なシンボルに変換し、レベル3のmacに変換するニューラルネットワーク指向のシンボリックプロトコル。 大規模言語モデル(llm)と生成モデルを利用した言語指向意味プロトコル。 この分類により,我々は,各レベルの機会と課題を基礎的手法に掘り下げて探究することを目指している。 本研究は,情報理論と関連する原則,および選択された事例研究から,データ駆動MACプロトコルの軌道に関する知見を提供し,今後の研究方向性に光を当てる。

The forthcoming 6G systems are expected to address a wide range of non-stationary tasks. This poses challenges to traditional medium access control (MAC) protocols that are static and predefined. In response, data-driven MAC protocols have recently emerged, offering ability to tailor their signaling messages for specific tasks. This article presents a novel categorization of these data-driven MAC protocols into three levels: Level 1 MAC. task-oriented neural protocols constructed using multi-agent deep reinforcement learning (MADRL); Level 2 MAC. neural network-oriented symbolic protocols developed by converting Level 1 MAC outputs into explicit symbols; and Level 3 MAC. language-oriented semantic protocols harnessing large language models (LLMs) and generative models. With this categorization, we aim to explore the opportunities and challenges of each level by delving into their foundational techniques. Drawing from information theory and associated principles as well as selected case studies, this study provides insights into the trajectory of data-driven MAC protocols and sheds light on future research directions.
翻訳日:2023-10-17 20:04:47 公開日:2023-10-14
# JM3DとJM3D-LLM:ジョイントマルチモーダルキューによる3次元表現の向上

JM3D & JM3D-LLM: Elevating 3D Representation with Joint Multi-modal Cues ( http://arxiv.org/abs/2310.09503v1 )

ライセンス: Link先を確認
Jiayi Ji, Haowei Wang, Changli Wu, Yiwei Ma, Xiaoshuai Sun, Rongrong Ji(参考訳) コンピュータビジョン、自動運転、ロボット工学において重要な3d表現学習の重要性が高まっていることは明らかだ。 しかし,2次元のアライメント戦略を3次元領域へ直接移行する傾向は,(1)情報劣化:これは単に1次元の2次元画像と一般的なテキストとのアライメントから生じるものであり,マルチビュー画像や詳細なサブカテゴリテキストの必要性を無視している。 2) 不十分なシナジー: これらの戦略は3次元モデル全体の最適化を妨げ、画像とテキストの特徴を個別に3次元表現に整合させる。 3) 活用不足: 学習表現に内在する細かな情報は、しばしば十分に活用されず、詳細が失われる可能性がある。 これらの問題に対処するために、ポイントクラウド、テキスト、イメージを統合する包括的なアプローチであるJM3Dを紹介します。 SMO(Structured Multimodal Organizer)、複数のビューと階層的なテキストによる視覚言語表現の充実、および言語理解と視覚表現を組み合わせたJMA(Joint Multi-modal Alignment)などである。 我々の高度なモデルであるJM3D-LLMは、効率的な微調整により、大規模言語モデルと3D表現を結合する。 ModelNet40とScanObjectNNの評価はJM3Dの優位性を確立する。 JM3D-LLMの優れた性能は、表現伝達手法の有効性をさらに強調する。 私たちのコードとモデルはhttps://github.com/mr-neko/jm3dで利用可能です。

The rising importance of 3D representation learning, pivotal in computer vision, autonomous driving, and robotics, is evident. However, a prevailing trend, which straightforwardly resorted to transferring 2D alignment strategies to the 3D domain, encounters three distinct challenges: (1) Information Degradation: This arises from the alignment of 3D data with mere single-view 2D images and generic texts, neglecting the need for multi-view images and detailed subcategory texts. (2) Insufficient Synergy: These strategies align 3D representations to image and text features individually, hampering the overall optimization for 3D models. (3) Underutilization: The fine-grained information inherent in the learned representations is often not fully exploited, indicating a potential loss in detail. To address these issues, we introduce JM3D, a comprehensive approach integrating point cloud, text, and image. Key contributions include the Structured Multimodal Organizer (SMO), enriching vision-language representation with multiple views and hierarchical text, and the Joint Multi-modal Alignment (JMA), combining language understanding with visual representation. Our advanced model, JM3D-LLM, marries 3D representation with large language models via efficient fine-tuning. Evaluations on ModelNet40 and ScanObjectNN establish JM3D's superiority. The superior performance of JM3D-LLM further underscores the effectiveness of our representation transfer approach. Our code and models are available at https://github.com/Mr-Neko/JM3D.
翻訳日:2023-10-17 20:04:33 公開日:2023-10-14
# DepNeCTI:サンスクリットの依存型ネスト化合物型同定

DepNeCTI: Dependency-based Nested Compound Type Identification for Sanskrit ( http://arxiv.org/abs/2310.09501v1 )

ライセンス: Link先を確認
Jivnesh Sandhan, Yaswanth Narsupalli, Sreevatsa Muppirala, Sriram Krishnan, Pavankumar Satuluri, Amba Kulkarni and Pawan Goyal(参考訳) 多成分複合化はサンスクリットで一般的な現象であり、その意味を解読するには化合物の暗黙の構造を理解することが不可欠である。 サンスクリットの初期のアプローチは二成分化合物に焦点を当てており、多成分化合物の設定を無視していた。 本研究は,nested compound type Identification (NeCTI) の新たな課題を紹介し,Nested spans of a multi-component compoundを同定し,それら間の暗黙的な意味関係をデコードすることを目的とする。 我々の知る限りでは、これはこの課題を提案する語彙意味論の分野における最初の試みである。 このタスクのために、ドメイン外データセットを含む2つの新しいアノテートデータセットを提案する。 また,ネスト付き名前付きエンティティ認識や構成構文解析,seq2seqなどの標準問題定式化の有効性を検討することで,これらのデータセットのベンチマークを行った。 ラベル付きスパンスコア(lss)と5倍の推論効率向上で,13.1ポイントのf1-scoreを平均的に絶対的に改善し,最高のベースラインのパフォーマンスを上回った,依存性ベースのネスト型識別子であるdepnectiという新しいフレームワークを提案する。 バイナリサンスクリット複合識別タスクにおける以前の発見と並行して、コンテキストはNeCTIタスクに利益をもたらす。 コードベースとデータセットは、https://github.com/yaswanth-iitkgp/DepNeCTIで公開されている。

Multi-component compounding is a prevalent phenomenon in Sanskrit, and understanding the implicit structure of a compound's components is crucial for deciphering its meaning. Earlier approaches in Sanskrit have focused on binary compounds and neglected the multi-component compound setting. This work introduces the novel task of nested compound type identification (NeCTI), which aims to identify nested spans of a multi-component compound and decode the implicit semantic relations between them. To the best of our knowledge, this is the first attempt in the field of lexical semantics to propose this task. We present 2 newly annotated datasets including an out-of-domain dataset for this task. We also benchmark these datasets by exploring the efficacy of the standard problem formulations such as nested named entity recognition, constituency parsing and seq2seq, etc. We present a novel framework named DepNeCTI: Dependency-based Nested Compound Type Identifier that surpasses the performance of the best baseline with an average absolute improvement of 13.1 points F1-score in terms of Labeled Span Score (LSS) and a 5-fold enhancement in inference efficiency. In line with the previous findings in the binary Sanskrit compound identification task, context provides benefits for the NeCTI task. The codebase and datasets are publicly available at: https://github.com/yaswanth-iitkgp/DepNeCTI
翻訳日:2023-10-17 20:04:05 公開日:2023-10-14
# 大規模言語モデルのためのワンショット感度認識混合スパルシティプラニング

One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models ( http://arxiv.org/abs/2310.09499v1 )

ライセンス: Link先を確認
Hang Shao, Bei Liu, Yanmin Qian(参考訳) Generative Pretrained Transformer~(GPT)ファミリーの様々な大規模言語モデル(LLM)は、幅広いテキスト生成タスクにおいて優れたパフォーマンスを実現している。 しかし、膨大なモデルサイズは、高い推論遅延のため、現実のアプリケーションでの使用を妨げている。 したがって, LLM の量子化, プルーニング, その他の手法による効率性の向上は, LLM 研究において重要な課題となっている。 本研究では,リトレーニングを必要とせず,少なくとも 50 % のスパルシティにprune llm に散布する hessian sensitivity-aware mixed sparsity pruning に基づく手法を提案する。 感度に基づいて空間を適応的に割り当てることで、全体空間レベルを維持しながらプルーニングによる誤差を低減することができる。 提案手法の利点は, 空間が極めて高い場合にさらに顕著である。 さらに,本手法は量子化と互換性があり,LLMのさらなる圧縮が可能となる。

Various Large Language Models(LLMs) from the Generative Pretrained Transformer~(GPT) family have achieved outstanding performances in a wide range of text generation tasks. However, the enormous model sizes have hindered their practical use in real-world applications due to high inference latency. Therefore, improving the efficiencies of LLMs through quantization, pruning, and other means has been a key issue in LLM studies. In this work, we propose a method based on Hessian sensitivity-aware mixed sparsity pruning to prune LLMs to at least 50\% sparsity without the need of any retraining. It allocates sparsity adaptively based on sensitivity, allowing us to reduce pruning-induced error while maintaining the overall sparsity level. The advantages of the proposed method exhibit even more when the sparsity is extremely high. Furthermore, our method is compatible with quantization, enabling further compression of LLMs.
翻訳日:2023-10-17 20:03:39 公開日:2023-10-14
# 大規模言語モデルを用いた効率良く高効率なゼロショットランキングのための集合的アプローチ

A Setwise Approach for Effective and Highly Efficient Zero-shot Ranking with Large Language Models ( http://arxiv.org/abs/2310.09497v1 )

ライセンス: Link先を確認
Shengyao Zhuang, Honglei Zhuang, Bevan Koopman, Guido Zuccon(参考訳) 大言語モデル(LLM)は、ゼロショット文書ランキングタスクにおいて顕著な効果を示す。 LLMベースのゼロショットランキングでは、ポイントワイズ、ペアワイズ、リストワイズといったアプローチが提案されている。 本研究は,モデルサイズ,トークン使用量,レイテンシなどの要因を考慮して,一貫した実験フレームワーク内で既存のアプローチを徹底的に評価することから始まる。 これらのアプローチの第一種比較評価により、各アプローチに固有の有効性と効率との間のトレードオフを特定することができる。 ポイントワイズアプローチが効率を高く評価する一方で、効果が低いことが分かりました。 逆に、Pairwiseアプローチは優れた効果を示すが、高い計算オーバーヘッドをもたらす。 LLMに基づくゼロショットランキングの効率をさらに高めるために,新しいSetwise promptingアプローチを提案する。 提案手法は,LSMを用いたゼロショットランキングの効率を著しく向上させるため,ランキング手順中のLSM推測数とトークン消費量を削減する。 TREC DLデータセットとBEIRゼロショット文書ランキングベンチマークを用いて本手法を検証した。 実験の結果,提案手法は計算コストを大幅に削減し,高いゼロショットランキングの有効性を維持した。

Large Language Models (LLMs) demonstrate impressive effectiveness in zero-shot document ranking tasks. Pointwise, Pairwise, and Listwise prompting approaches have been proposed for LLM-based zero-shot ranking. Our study begins by thoroughly evaluating these existing approaches within a consistent experimental framework, considering factors like model size, token consumption, latency, among others. This first-of-its-kind comparative evaluation of these approaches allows us to identify the trade-offs between effectiveness and efficiency inherent in each approach. We find that while Pointwise approaches score high on efficiency, they suffer from poor effectiveness. Conversely, Pairwise approaches demonstrate superior effectiveness but incur high computational overhead. To further enhance the efficiency of LLM-based zero-shot ranking, we propose a novel Setwise prompting approach. Our approach reduces the number of LLM inferences and the amount of prompt token consumption during the ranking procedure, significantly improving the efficiency of LLM-based zero-shot ranking. We test our method using the TREC DL datasets and the BEIR zero-shot document ranking benchmark. The empirical results indicate that our approach considerably reduces computational costs while also retaining high zero-shot ranking effectiveness.
翻訳日:2023-10-17 20:03:13 公開日:2023-10-14
# 物理ラテント空間を用いた画像内ダイナミクスの学習

Learning In-between Imagery Dynamics via Physical Latent Spaces ( http://arxiv.org/abs/2310.09495v1 )

ライセンス: Link先を確認
Jihun Han, Yoonsang Lee, Anne Gelb(参考訳) 我々は,連続する時間ステップで観測される2つの画像間の基盤となるダイナミクスを学ぶために設計されたフレームワークを提案する。 画像データの複雑な性質と時間情報の欠如は、ユニークな進化パターンを捉える上で大きな課題となる。 提案手法は画像進化の中間段階を推定することに焦点を当て,画像との空間的相関を保ちながら潜時ダイナミクスによる解釈性を実現する。 偏微分方程式 (pdes) で表される物理モデルに従う潜在変数を組み込むことにより, 学習モデルの解釈可能性を確保し, 対応する画像ダイナミクスに対する洞察を与える。 地質画像データを用いた数値実験により,学習フレームワークの堅牢性と有効性を示す。

We present a framework designed to learn the underlying dynamics between two images observed at consecutive time steps. The complex nature of image data and the lack of temporal information pose significant challenges in capturing the unique evolving patterns. Our proposed method focuses on estimating the intermediary stages of image evolution, allowing for interpretability through latent dynamics while preserving spatial correlations with the image. By incorporating a latent variable that follows a physical model expressed in partial differential equations (PDEs), our approach ensures the interpretability of the learned model and provides insight into corresponding image dynamics. We demonstrate the robustness and effectiveness of our learning framework through a series of numerical tests using geoscientific imagery data.
翻訳日:2023-10-17 20:02:41 公開日:2023-10-14
# 精神分裂病と自閉症の特徴と形式的思考障害の言語学的特徴の計算論的解析

Computational analyses of linguistic features with schizophrenic and autistic traits along with formal thought disorders ( http://arxiv.org/abs/2310.09494v1 )

ライセンス: Link先を確認
Takeshi Saga, Hiroki Tanaka, Satoshi Nakamura(参考訳) [pdfの完全な要約を参照)形式的思考障害(ftd)は、言語や思考に影響を与える認知の症状群であり、言語を通して観察することができます。 FTDは自閉症スペクトラム障害 (ASD) や統合失調症 (Schizophrenia) などの発達・精神疾患や、その関連疾患であるSchizotypal Personality disorder (SPD) にまたがっている。 本稿では,一般市民からのクラウドソーシングサービスを通じて,ASDとSPDに関連するスコアラベルを用いた日本語音声レポートデータセットを収集した。 第2版social responsiveness scale (srs2) と統合失調症性パーソナリティアンケート (spq) を用いて言語特性を測定し,spqからの奇妙な音声サブスケールを用いてftd症状を定量化した。 機械学習に基づくスコア予測を通して,以下の4つの研究課題を検討した。 (RQ1) スキゾティパールと自閉症の尺度はどのように相関しているか。 (RQ2) FTD症状を誘発する最も適した課題は何か? (RQ3) 音声の長さはFTD症状の誘発に影響を与えるか? (RQ4) FTDの症状を捉えるにはどの特徴が重要か? その結果,ftd関連サブスケールであるodd speechはspq値とsrs値の両方と有意な相関を示したが,両者は有意な相関は認められなかった。 我々の回帰分析では、負の記憶に関する長いスピーチはFTDの症状を多く引き起こした。 アブレーション研究により,ftd関連奇語推定における機能語の重要性と抽象的特徴と時間的特徴が確認された。 対照的に,コンテンツ語はsrs予測にのみ有効であり,コンテンツ語はspq予測にのみ有効であり,spd様症状とasd様症状の相違が示唆された。 この論文で使用されるデータとプログラムは以下の通りである。

[See full abstract in the pdf] Formal Thought Disorder (FTD), which is a group of symptoms in cognition that affects language and thought, can be observed through language. FTD is seen across such developmental or psychiatric disorders as Autism Spectrum Disorder (ASD) or Schizophrenia, and its related Schizotypal Personality Disorder (SPD). This paper collected a Japanese audio-report dataset with score labels related to ASD and SPD through a crowd-sourcing service from the general population. We measured language characteristics with the 2nd edition of the Social Responsiveness Scale (SRS2) and the Schizotypal Personality Questionnaire (SPQ), including an odd speech subscale from SPQ to quantify the FTD symptoms. We investigated the following four research questions through machine-learning-based score predictions: (RQ1) How are schizotypal and autistic measures correlated? (RQ2) What is the most suitable task to elicit FTD symptoms? (RQ3) Does the length of speech affect the elicitation of FTD symptoms? (RQ4) Which features are critical for capturing FTD symptoms? We confirmed that an FTD-related subscale, odd speech, was significantly correlated with both the total SPQ and SRS scores, although they themselves were not correlated significantly. Our regression analysis indicated that longer speech about a negative memory elicited more FTD symptoms. The ablation study confirmed the importance of function words and both the abstract and temporal features for FTD-related odd speech estimation. In contrast, content words were effective only in the SRS predictions, and content words were effective only in the SPQ predictions, a result that implies the differences between SPD-like and ASD-like symptoms. Data and programs used in this paper can be found here: https://sites.google.com/view/sagatake/resource.
翻訳日:2023-10-17 20:02:12 公開日:2023-10-14
# 局所特徴を用いたシーンテキスト認識モデルの説明可能性

Scene Text Recognition Models Explainability Using Local Features ( http://arxiv.org/abs/2310.09549v1 )

ライセンス: Link先を確認
Mark Vincent Ty, Rowel Atienza(参考訳) 説明可能なAI(XAI)は、人間がモデルの予測の原因を理解する方法の研究である。 本研究では, STRモデルの予測の原因を理解するために, XAI を用いたScene Text Recognition (STR) Explainability が注目されている。 STRに関する最近のXAI文献は、単純な分析のみを提供しており、他のXAI手法を完全には探求していない。 本研究では,深層学習モデルにおける入力データの重要部分を説明するアトリビューションベース手法(attribution-based methods)と呼ばれるデータ説明可能性フレームワークを特に研究する。 しかし、これらをSTRに組み込むことは、グローバルな文脈でのみモデルを説明するため、一貫性のない非効率な説明をもたらす。 そこで本研究では,局所的な説明,すなわち個々のキャラクタ予測説明を考慮に入れたSTRExpという手法を提案する。 次に、異なるSTRデータセット上のさまざまな属性ベースのメソッドをベンチマークし、異なるSTRモデルで評価する。

Explainable AI (XAI) is the study on how humans can be able to understand the cause of a model's prediction. In this work, the problem of interest is Scene Text Recognition (STR) Explainability, using XAI to understand the cause of an STR model's prediction. Recent XAI literatures on STR only provide a simple analysis and do not fully explore other XAI methods. In this study, we specifically work on data explainability frameworks, called attribution-based methods, that explain the important parts of an input data in deep learning models. However, integrating them into STR produces inconsistent and ineffective explanations, because they only explain the model in the global context. To solve this problem, we propose a new method, STRExp, to take into consideration the local explanations, i.e. the individual character prediction explanations. This is then benchmarked across different attribution-based methods on different STR datasets and evaluated across different STR models.
翻訳日:2023-10-17 19:53:22 公開日:2023-10-14
# 半パラメトリックな差分差分法による政策学習

A Semiparametric Instrumented Difference-in-Differences Approach to Policy Learning ( http://arxiv.org/abs/2310.09545v1 )

ライセンス: Link先を確認
Pan Zhao, Yifan Cui(参考訳) 近年,ディファレンス・イン・ディファレンス(did)アプローチによる因果効果評価の方法論開発が急増している。 文献の標準的な方法は、治療効果の平均を識別するために平行傾向の仮定に依存する。 しかし, 並列傾向の仮定は, 非測定的共起の存在下では違反する可能性があり, 治療に対する平均的治療効果は, 全人口に対する治療割当政策の学習には有用ではない。 本稿では,最適治療方針を学習するための汎用的なDD手法を提案する。 具体的には,並列傾向の仮定が持たない場合,二項インストゥルメンタル変数(iv)を用いて識別結果を確立する。 さらに,不規則パラメータ推定のためのフレキシブルな機械学習アルゴリズムに依存する場合でも,一貫性と漸近正規性に関する理論的保証を備えた,ウォルド推定器,新しい逆確率重み付け(ipw)推定器,半パラメトリック効率的かつ多重ロバスト推定器のクラスを構築した。 さらに、計装されたDiDをパネルデータ設定に拡張する。 提案手法を広範囲なシミュレーションと実データアプリケーションで評価する。

Recently, there has been a surge in methodological development for the difference-in-differences (DiD) approach to evaluate causal effects. Standard methods in the literature rely on the parallel trends assumption to identify the average treatment effect on the treated. However, the parallel trends assumption may be violated in the presence of unmeasured confounding, and the average treatment effect on the treated may not be useful in learning a treatment assignment policy for the entire population. In this article, we propose a general instrumented DiD approach for learning the optimal treatment policy. Specifically, we establish identification results using a binary instrumental variable (IV) when the parallel trends assumption fails to hold. Additionally, we construct a Wald estimator, novel inverse probability weighting (IPW) estimators, and a class of semiparametric efficient and multiply robust estimators, with theoretical guarantees on consistency and asymptotic normality, even when relying on flexible machine learning algorithms for nuisance parameters estimation. Furthermore, we extend the instrumented DiD to the panel data setting. We evaluate our methods in extensive simulations and a real data application.
翻訳日:2023-10-17 19:53:07 公開日:2023-10-14
# 衣服操作におけるSim-to-Realギャップのベンチマーク

Benchmarking the Sim-to-Real Gap in Cloth Manipulation ( http://arxiv.org/abs/2310.09543v1 )

ライセンス: Link先を確認
David Blanco-Mulero, Oriol Barbany, Gokhan Alcan, Adri\`a Colom\'e, Carme Torras, Ville Kyrki(参考訳) リアルな物理エンジンは、シミュレーションにおいて衣服などの変形可能な物体を操作するために重要な役割を果たす。 そうすることで、研究者は現実世界の物体の変形を感知するといった困難を回避できる。 この課題に対するシミュレーションの広範な使用にもかかわらず、変形可能なオブジェクトシミュレータと実世界のデータの間の現実のギャップを評価する研究はほとんどない。 布の操作におけるシム・トゥ・リアルギャップを評価するためのベンチマークデータセットを提案する。 剛性テーブルとの接触を伴う動的布操作タスクを実行してデータセットを収集する。 このデータセットを用いて、MuJoCo、Bullet、Flex、SOFAの4つの一般的な変形可能なオブジェクトシミュレータの現実的ギャップ、計算時間、シミュレーション安定性を評価する。 さらに,各シミュレータの利点と欠点について考察する。 ベンチマークデータセットはオープンソースである。 補足資料、ビデオ、コードはhttps://sites.google.com/view/cloth-sim2real-benchmark.com にある。

Realistic physics engines play a crucial role for learning to manipulate deformable objects such as garments in simulation. By doing so, researchers can circumvent challenges such as sensing the deformation of the object in the real-world. In spite of the extensive use of simulations for this task, few works have evaluated the reality gap between deformable object simulators and real-world data. We present a benchmark dataset to evaluate the sim-to-real gap in cloth manipulation. The dataset is collected by performing a dynamic cloth manipulation task involving contact with a rigid table. We use the dataset to evaluate the reality gap, computational time, and simulation stability of four popular deformable object simulators: MuJoCo, Bullet, Flex, and SOFA. Additionally, we discuss the benefits and drawbacks of each simulator. The benchmark dataset is open-source. Supplementary material, videos, and code, can be found at https://sites.google.com/view/cloth-sim2real-benchmark.
翻訳日:2023-10-17 19:52:47 公開日:2023-10-14
# マルチモードホン・ウー・マンデル干渉とマルチスリット干渉の比較

Comparison of multi-mode Hong-Ou-Mandel interference and multi-slit interference ( http://arxiv.org/abs/2310.09538v1 )

ライセンス: Link先を確認
Yan Guo, Zi-Xiang Yang, Zi-Qi Zeng, Chunling Ding, Ryosuke Shimizu, Rui-Bo Jin(参考訳) 多モード周波数絡み状態のHong-Ou-Mandel(HOM)干渉は量子力学において重要な役割を果たす。 しかしモード数が増加するにつれて、hom干渉パターンはますます複雑になり、直感的に理解することが難しくなる。 この問題を克服するために,マルチモードhom干渉(mm-homi)の理論とシミュレーションを行い,マルチスリット干渉(msi)と比較する。 これらの2つの干渉は強いマッピング関係を持ち、エンベロープ因子と詳細因子の2つの因子によって決定される。 エンベロープ因子は、MM-HOMI(MSI)に対する単一モードHOM干渉(シングルスリット回折)によって寄与される。 詳細は$\sin(nx)/ \sin(x)$ ($[\sin(nv)/\sin(v)]^2$) for mm-homi (msi) ここで$n$はモード(スリット)番号、$x (v)$は隣接する2つのスペクトルモード(スリット)の位相間隔である。 MM-HOMIの最大フィッシャー情報の平方根はモード数とともに直線的に増加し,MM-HOMIは時間推定の精度を高める強力なツールであることを示す。 また,マルチモードmach-zehnder干渉,マルチモードnoon-state干渉,拡張wiener-khinchin定理についても述べる。 この研究は、MM-HOMIパターンの直感的な理解を提供し、量子気象学におけるMM-HOMIの適用を促進する可能性がある。

Hong-Ou-Mandel (HOM) interference of multi-mode frequency entangled states plays a crucial role in quantum metrology. However, as the number of modes increases, the HOM interference pattern becomes increasingly complex, making it challenging to comprehend intuitively. To overcome this problem, we present the theory and simulation of multi-mode-HOM interference (MM-HOMI) and compare it to multi-slit interference (MSI). We find that these two interferences have a strong mapping relationship and are determined by two factors: the envelope factor and the details factor. The envelope factor is contributed by the single-mode HOM interference (single-slit diffraction) for MM-HOMI (MSI). The details factor is given by $\sin(Nx)/ \sin(x)$ ($[\sin(Nv)/\sin(v)]^2$) for MM-HOMI (MSI), where $N$ is the mode (slit) number and $x (v)$ is the phase spacing of two adjacent spectral modes (slits). As a potential application, we demonstrate that the square root of the maximal Fisher information in MM-HOMI increases linearly with the number of modes, indicating that MM-HOMI is a powerful tool for enhancing precision in time estimation. We also discuss multi-mode Mach-Zehnder interference, multi-mode NOON-state interference, and the extended Wiener-Khinchin theorem. This work may provide an intuitive understanding of MM-HOMI patterns and promote the application of MM-HOMI in quantum metrology.
翻訳日:2023-10-17 19:52:31 公開日:2023-10-14
# carexpert: 車内会話質問応答に大規模言語モデルを活用する

CarExpert: Leveraging Large Language Models for In-Car Conversational Question Answering ( http://arxiv.org/abs/2310.09536v1 )

ライセンス: Link先を確認
Md Rashad Al Hasan Rony, Christian Suess, Sinchana Ramakanth Bhat, Viju Sudhi, Julia Schneider, Maximilian Vogel, Roman Teucher, Ken E. Friedl, Soumya Sahoo(参考訳) 大規模言語モデル(LLM)は、ドメイン固有のタスクやデータを微調整することなく、自然言語命令に従うことで、顕著な性能を示した。 しかし、LLMをドメイン固有の質問応答に活用することは、厳しい制限に悩まされる。 生成された回答は、トレーニングデータ収集時間(オフザシェルフを使用する場合)、複雑なユーザ発話、誤った検索(検索強化世代)によって幻覚する傾向がある。 さらに、ドメインに対する認識の欠如と期待される出力のため、そのようなLCMは、ターゲットドメインに適合しない予期せぬ、安全でない回答を生成する可能性がある。 本稿では,様々なタスクにllmを利用する車内検索型対話型質問応答システムであるcarexpertを提案する。 具体的には、carexpertは入力を制御するためにllmを使用し、抽出および生成的な応答コンポーネントにドメイン固有のドキュメントを提供し、安全かつドメイン固有の応答を保証するために出力を制御する。 総合的な経験的評価では、CarExpertは、自然、安全、および自動車固有の回答を生成する上で、最先端のLLMよりも優れています。

Large language models (LLMs) have demonstrated remarkable performance by following natural language instructions without fine-tuning them on domain-specific tasks and data. However, leveraging LLMs for domain-specific question answering suffers from severe limitations. The generated answer tends to hallucinate due to the training data collection time (when using off-the-shelf), complex user utterance and wrong retrieval (in retrieval-augmented generation). Furthermore, due to the lack of awareness about the domain and expected output, such LLMs may generate unexpected and unsafe answers that are not tailored to the target domain. In this paper, we propose CarExpert, an in-car retrieval-augmented conversational question-answering system leveraging LLMs for different tasks. Specifically, CarExpert employs LLMs to control the input, provide domain-specific documents to the extractive and generative answering components, and controls the output to ensure safe and domain-specific answers. A comprehensive empirical evaluation exhibits that CarExpert outperforms state-of-the-art LLMs in generating natural, safe and car-specific answers.
翻訳日:2023-10-17 19:52:01 公開日:2023-10-14
# 自己監督型トップダウンコンテキストによるエンド・ツー・エンド非教師型残差検出に向けて

Towards End-to-End Unsupervised Saliency Detection with Self-Supervised Top-Down Context ( http://arxiv.org/abs/2310.09533v1 )

ライセンス: Link先を確認
Yicheng Song, Shuyong Gao, Haozhe Xing, Yiting Cheng, Yan Wang, Wenqiang Zhang(参考訳) 教師なしのsalient object detectionは、手作業でsalient objectsをラベル付けする面倒なタスクを排除する監督信号を使用することなく、salient objectsを検出することを目的としている。 トレーニング効率を向上させるため,USODのエンドツーエンド手法が有望な代替手段として提案されている。 しかし、現在のソリューションはノイズの多いハンドクラフトラベルに依存しており、深い機能から豊富な意味情報を抽出できていない。 本稿では,トップダウンコンテキストを介し,自己教師付きエンドツーエンドなオブジェクト検出フレームワークを提案する。 具体的には、対照的な学習に動機づけられ、最も深い特徴から自己局所化を利用して位置マップを構築し、最も指示的なセグメンテーションガイダンスを学ぶ。 さらに,最も深い特徴の詳細な情報がないことを考慮し,詳細な位置ラベルを詳細化するために,詳細強調型リファインダモジュールを利用する。 さらに, 監視が欠如しているため, 現行の非教師なしサリエンシモデルでは, 対応するシナリオの他のサンプルで顕著な非サリエントオブジェクトを検出する傾向にある。 この課題に対処するため,非定常オブジェクトを無視する機能を開発するunsupervised Non-Salient Suppression (UNSS) 手法を考案した。 ベンチマークデータセットに関する広範な実験は、最近のエンドツーエンドメソッドと多段階ソリューションのほとんどにおいて、この手法が主要な性能を達成していることを示している。 コードは利用可能です。

Unsupervised salient object detection aims to detect salient objects without using supervision signals eliminating the tedious task of manually labeling salient objects. To improve training efficiency, end-to-end methods for USOD have been proposed as a promising alternative. However, current solutions rely heavily on noisy handcraft labels and fail to mine rich semantic information from deep features. In this paper, we propose a self-supervised end-to-end salient object detection framework via top-down context. Specifically, motivated by contrastive learning, we exploit the self-localization from the deepest feature to construct the location maps which are then leveraged to learn the most instructive segmentation guidance. Further considering the lack of detailed information in deepest features, we exploit the detail-boosting refiner module to enrich the location labels with details. Moreover, we observe that due to lack of supervision, current unsupervised saliency models tend to detect non-salient objects that are salient in some other samples of corresponding scenarios. To address this widespread issue, we design a novel Unsupervised Non-Salient Suppression (UNSS) method developing the ability to ignore non-salient objects. Extensive experiments on benchmark datasets demonstrate that our method achieves leading performance among the recent end-to-end methods and most of the multi-stage solutions. The code is available.
翻訳日:2023-10-17 19:51:43 公開日:2023-10-14
# TS-ENAS:セルベースネットワークアーキテクチャ検索のための2段階進化

TS-ENAS:Two-Stage Evolution for Cell-based Network Architecture Search ( http://arxiv.org/abs/2310.09525v1 )

ライセンス: Link先を確認
Juan Zou, Shenghong Wu, Yizhang Xia, Weiwei Jiang, Zeping Wu, Jinhua Zheng(参考訳) ニューラルネットワークアーキテクチャ探索は、ネットワーク構造の自動設計に対する解決策を提供する。 しかし,ネットワークアーキテクチャ全体を直接検索することは困難である。 ニューラルネットワークアーキテクチャを探索するためにスタックセルを使用することは、探索の複雑さを減らす効果的な方法であるが、層数、セル数、接続方法が固定されているため、これらの方法はグローバル最適ニューラルネットワーク構造を見つけることができない。 本稿では,セルベースネットワークアーキテクチャ探索(TS-ENAS)のための2段階進化法を提案する。 提案アルゴリズムでは,新たなセルベース検索空間と2段階符号化方式を設計し,セルとニューラルネットワーク構造を表現する。 さらに、ネットワークの重みを初期化するためにセルベースの重み継承戦略が設計されており、アルゴリズムの実行時間を大幅に削減している。 提案手法は,4つの画像分類データセットである fashion-mnist, cifar10, cifar100, imagenet を比較し,手作りネットワークとnasネットワークを含む22の最先端アルゴリズムと比較した。 実験により、TS-ENASは、比較性能でニューラルネットワークアーキテクチャをより効果的に見つけることができることが示された。

Neural network architecture search provides a solution to the automatic design of network structures. However, it is difficult to search the whole network architecture directly. Although using stacked cells to search neural network architectures is an effective way to reduce the complexity of searching, these methods do not able find the global optimal neural network structure since the number of layers, cells and connection methods is fixed. In this paper, we propose a Two-Stage Evolution for cell-based Network Architecture Search(TS-ENAS), including one-stage searching based on stacked cells and second-stage adjusting these cells. In our algorithm, a new cell-based search space and an effective two-stage encoding method are designed to represent cells and neural network structures. In addition, a cell-based weight inheritance strategy is designed to initialize the weight of the network, which significantly reduces the running time of the algorithm. The proposed methods are extensively tested and compared on four image classification dataset, Fashion-MNIST, CIFAR10, CIFAR100 and ImageNet and compared with 22 state-of-the-art algorithms including hand-designed networks and NAS networks. The experimental results show that TS-ENAS can more effectively find the neural network architecture with comparative performance.
翻訳日:2023-10-17 19:51:19 公開日:2023-10-14
# Reward-Augmented Decoding:一方向リワードモデルによる効率的なテキスト生成

Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model ( http://arxiv.org/abs/2310.09520v1 )

ライセンス: Link先を確認
Haikang Deng, Colin Raffel(参考訳) 大規模な言語モデルは、ダウンストリームアプリケーションで効果的であることが証明されているが、しばしば問題のあるテキストを生成したり、望ましい属性を欠いたりする。 本稿では,小さな一方向報酬モデルを用いたテキスト生成手法であるReward-Augmented Decoding(RAD)を紹介する。 具体的には、RADは報酬モデルを使用して、生成した世代をスコアし、サンプリング確率を再スケールし、ハイリワードトークンを好む。 一方向の報酬モデルを使用することで、RADは前世代からのアクティベーションをキャッシュすることで、計算オーバーヘッドを低減できる。 非有毒で感情制御されたテキストを生成する実験を通じて、radは生成手順のみを変更し、言語モデルの再学習を伴う最先端のメソッドのパフォーマンスに合致する手法の中で最高の性能を示す。 さらに、RADは計算オーバーヘッドを最小限に抑えつつ、非常に大きな言語モデルに有効であることを示す。

While large language models have proven effective in a huge range of downstream applications, they often generate text that is problematic or lacks a desired attribute. In this paper, we introduce Reward-Augmented Decoding (RAD), a text generation procedure that uses a small unidirectional reward model to encourage a language model to generate text that has certain properties. Specifically, RAD uses the reward model to score generations as they are produced and rescales sampling probabilities to favor high-reward tokens. By using a unidirectional reward model, RAD can cache activations from prior generation steps to decrease computational overhead. Through experiments on generating non-toxic and sentiment-controlled text, we demonstrate that RAD performs best among methods that change only the generation procedure and matches the performance of state-of-the-art methods that involve re-training the language model. We further validate that RAD is effective on very large language models while incurring a minimal computational overhead.
翻訳日:2023-10-17 19:50:55 公開日:2023-10-14
# 人間カリキュラムによる授業チューニング

Instruction Tuning with Human Curriculum ( http://arxiv.org/abs/2310.09518v1 )

ライセンス: Link先を確認
Bruce W. Lee, Hyunsoo Cho, Kang Min Yoo(参考訳) 命令チューニングの主要なパラダイムは、最大多様な命令応答対のランダムシャッフルトレーニングである。 本稿では,ChatGPT や GPT-4 といった現代大規模言語モデルにおいて,構造化認知学習アプローチを指導指導に応用する可能性について検討する。 従来のランダム化命令データセットとは異なり、人間教育の進歩的かつ組織化された性質を模倣した高度に構造化された合成データセットを提案する。 我々は、データセットを教育フレームワークと整合させて、そのトピックや各サンプルの認知リガーレベルを含むメタ情報を組み込むことで、データセットをキュレートする。 本データセットは, 多様な教育段階(中学校から大学院まで)にまたがる包括的ききめ細かなトピックを網羅し, 概念の認知レベルを識別するブルームの分類体系を用いて, 概念の深度を高めるための様々な質問を行った。 その結果、この認知厳密なトレーニングアプローチは、MMLUベンチマークで+3.06、AI2推論チャレンジ(ハードセット)で+1.28という大幅なパフォーマンス向上をもたらし、計算コストの増大を回避しつつ、従来のランダム化トレーニングと比較した。 本研究は、複雑な指示やタスクの理解・対応において、人間の学習原理を活用して言語モデルの能力を高める可能性を強調する。

The dominant paradigm for instruction tuning is the random-shuffled training of maximally diverse instruction-response pairs. This paper explores the potential benefits of applying a structured cognitive learning approach to instruction tuning in contemporary large language models like ChatGPT and GPT-4. Unlike the previous conventional randomized instruction dataset, we propose a highly structured synthetic dataset that mimics the progressive and organized nature of human education. We curate our dataset by aligning it with educational frameworks, incorporating meta information including its topic and cognitive rigor level for each sample. Our dataset covers comprehensive fine-grained topics spanning diverse educational stages (from middle school to graduate school) with various questions for each topic to enhance conceptual depth using Bloom's taxonomy-a classification framework distinguishing various levels of human cognition for each concept. The results demonstrate that this cognitive rigorous training approach yields significant performance enhancements - +3.06 on the MMLU benchmark and an additional +1.28 on AI2 Reasoning Challenge (hard set) - compared to conventional randomized training, all while avoiding additional computational costs. This research highlights the potential of leveraging human learning principles to enhance the capabilities of language models in comprehending and responding to complex instructions and tasks.
翻訳日:2023-10-17 19:50:37 公開日:2023-10-14
# obsum : リモートセンシング画像の時空間融合のためのオブジェクトベース空間混合モデル

OBSUM: An object-based spatial unmixing model for spatiotemporal fusion of remote sensing images ( http://arxiv.org/abs/2310.09517v1 )

ライセンス: Link先を確認
Houcai Guo, Dingqi Ye, Lorenzo Bruzzone(参考訳) 時空間融合は、リモートセンシング画像の空間分解能と時間分解能の両方を改善することを目的としている。 しかし、現在の時空間融合法の適用を制限する重要な問題がいくつかある。 第一に、ほとんどの時空間融合法は、土地表面の貴重なオブジェクトレベル情報を無視したピクセルレベルの計算に基づいている。 さらに,多くの既存手法では,高分解能画像と予測画像との間の時間的変化を正確に検索することはできない。 本研究では、オブジェクトベース画像解析と空間アンミックスを組み込んだオブジェクトベース空間アンミックスモデル(OBSUM)を提案し、上記の2つの問題を克服する。 OBSUMは1つの前処理ステップと3つの融合ステップ、すなわちオブジェクトレベルのアンミックス、オブジェクトレベルの残差補償、ピクセルレベルの残差補償から構成される。 OBSUMは、ベース日における1つの微細画像と予測日に1つの粗い画像のみを用いて適用でき、ベース日における粗い画像は不要である。 OBSUMの性能を5種類の時空間融合法と比較した。 実験の結果,obsumは他の手法よりも精度指標と視覚効果の両方において優れていた。 さらに、OBSUMは2つの典型的なリモートセンシングアプリケーションで満足な結果を得た。 そのため、様々なリモートセンシングアプリケーションをサポートするために、高精度で高解像度の時系列観測を生成することができる。

Spatiotemporal fusion aims to improve both the spatial and temporal resolution of remote sensing images, thus facilitating time-series analysis at a fine spatial scale. However, there are several important issues that limit the application of current spatiotemporal fusion methods. First, most spatiotemporal fusion methods are based on pixel-level computation, which neglects the valuable object-level information of the land surface. Moreover, many existing methods cannot accurately retrieve strong temporal changes between the available high-resolution image at base date and the predicted one. This study proposes an Object-Based Spatial Unmixing Model (OBSUM), which incorporates object-based image analysis and spatial unmixing, to overcome the two abovementioned problems. OBSUM consists of one preprocessing step and three fusion steps, i.e., object-level unmixing, object-level residual compensation, and pixel-level residual compensation. OBSUM can be applied using only one fine image at the base date and one coarse image at the prediction date, without the need of a coarse image at the base date. The performance of OBSUM was compared with five representative spatiotemporal fusion methods. The experimental results demonstrated that OBSUM outperformed other methods in terms of both accuracy indices and visual effects over time-series. Furthermore, OBSUM also achieved satisfactory results in two typical remote sensing applications. Therefore, it has great potential to generate accurate and high-resolution time-series observations for supporting various remote sensing applications.
翻訳日:2023-10-17 19:50:11 公開日:2023-10-14
# 結合型高調波発振器のショートカット・トゥ・アディバティティ

Shortcut-to-adiabaticity for coupled harmonic oscillators ( http://arxiv.org/abs/2310.09576v1 )

ライセンス: Link先を確認
Jonas F. G. Santos(参考訳) 状態の生成と操作における高い制御は、多くの量子プロトコルにおいて実験的かつ理論的に重要なタスクである。 断熱法へのショートカットは、断熱力学の望ましい状態を得るが、短時間で得られる。 本研究では,この手法を2結合ボソニックモードに適用する問題に対処する。 シンプレクティック変換を用いることで、モードを分離し、有限時間で遷移のない力学を通してシステムを駆動する駆動ハミルトニアンを見つけることができる。 位置位置結合と磁場カップリングの2つのパラダイム的な例を考察し、各ケースの駆動ハミルトニアンはそれぞれエネルギー基底におけるコヒーレンスと絡み合い効果を考慮した局所的および大域的寄与を含むことを示した。

High control in the preparation and manipulation of states is an experimental and theoretical important task in many quantum protocols. Shortcuts to adiabaticity methods allow to obtain desirable states of a adiabatic dynamics but in short time scales. In this work the problem of considering this technique for two-coupled bosonic modes is addressed. By using a symplectic transformation it is possible to decouple the modes and find the driving Hamiltonian that drives the system through a transitionless dynamics in a finite time. Two paradigmatic examples are discusses, the position-position and the magnetic field couplings, as well as it is shown that the driving Hamiltonian for each case contains local and global contributions accounting for coherence in the energy basis and entanglement effects, respectively.
翻訳日:2023-10-17 19:44:17 公開日:2023-10-14
# 制約付き連続制御のための緩和政策最適化

Reduced Policy Optimization for Continuous Control with Hard Constraints ( http://arxiv.org/abs/2310.09574v1 )

ライセンス: Link先を確認
Shutong Ding, Jingya Wang, Yali Du, Ye Shi(参考訳) 拘束強化学習(RL)の最近の進歩は、一定の安全性を確保した強化学習を授けている。 しかし, 従来の制約付きRLアルゴリズムを, 一般的な制約付き連続制御タスクにデプロイすることは, 特に非凸制約のある状況では困難である。 従来の制約付き最適化手法である一般化還元勾配(grg)アルゴリズムに着想を得て,rlとgrgを併用して一般的な制約に対処する還元ポリシー最適化(rpo)アルゴリズムを提案する。 RPOは、アクションをGRGメソッドに従って基本アクションと非基本アクションに分割し、ポリシーネットワークを介して基本アクションを出力する。 その後、RPOは得られた基本作用を用いて等式制約に基づいて方程式を解くことによって非基本作用を計算する。 ポリシーネットワークは、基本アクションに関する非基本アクションを暗黙的に区別することで更新される。 さらに,減少勾配に基づく動作投影手順を導入し,不等式制約を満たすために修正されたラグランジュ緩和手法を適用する。 我々の知る限りでは、RPOはGRGをRLに導入する最初の試みであり、等式制約と不等式制約の両方を効率的に扱う方法である。 2つのロボティクス操作タスクとスマートグリッド操作制御タスクという、3つの新しいベンチマークを開発する動機となっている。 これらのベンチマークにより、RPOは累積報酬と制約違反の両方の観点から、従来の制約付きRLアルゴリズムよりも優れた性能を達成する。 RPOは、新しいベンチマークとともに、複雑な制約のある実世界の問題にRLを適用する新たな機会を開くだろうと考えています。

Recent advances in constrained reinforcement learning (RL) have endowed reinforcement learning with certain safety guarantees. However, deploying existing constrained RL algorithms in continuous control tasks with general hard constraints remains challenging, particularly in those situations with non-convex hard constraints. Inspired by the generalized reduced gradient (GRG) algorithm, a classical constrained optimization technique, we propose a reduced policy optimization (RPO) algorithm that combines RL with GRG to address general hard constraints. RPO partitions actions into basic actions and nonbasic actions following the GRG method and outputs the basic actions via a policy network. Subsequently, RPO calculates the nonbasic actions by solving equations based on equality constraints using the obtained basic actions. The policy network is then updated by implicitly differentiating nonbasic actions with respect to basic actions. Additionally, we introduce an action projection procedure based on the reduced gradient and apply a modified Lagrangian relaxation technique to ensure inequality constraints are satisfied. To the best of our knowledge, RPO is the first attempt that introduces GRG to RL as a way of efficiently handling both equality and inequality hard constraints. It is worth noting that there is currently a lack of RL environments with complex hard constraints, which motivates us to develop three new benchmarks: two robotics manipulation tasks and a smart grid operation control task. With these benchmarks, RPO achieves better performance than previous constrained RL algorithms in terms of both cumulative reward and constraint violation. We believe RPO, along with the new benchmarks, will open up new opportunities for applying RL to real-world problems with complex constraints.
翻訳日:2023-10-17 19:44:01 公開日:2023-10-14
# toxification reversal による自己デトキシング言語モデル

Self-Detoxifying Language Models via Toxification Reversal ( http://arxiv.org/abs/2310.09573v1 )

ライセンス: Link先を確認
Chak Tou Leong, Yi Cheng, Jiashuo Wang, Jian Wang, Wenjie Li(参考訳) 言語モデルの解毒は、より安全なデプロイメントのために、事前訓練された言語モデル(PLM)で攻撃的または有害なコンテンツを生成するリスクを最小限にすることを目的としている。 既存の方法は、微調整ベースおよび復号ベースに大まかに分類できる。 しかしながら、前者はリソース集約的な場合が多いが、後者は追加のコンポーネントに依存しており、世代間の拡散を損なう可能性がある。 本稿では,plm自体が「自己デトキシフィケーション」を実現するための,より軽量なアプローチを提案する。 本手法は, 負のステアリングプロンプトがplmを効果的に誘導し, 有害成分を発生させるという観察に基づく。 同時に,plm内で進化する文脈化表現を,注意層によって促進される情報ストリームとして定式化する,解釈可能性分野の最近の研究から着想を得た。 このアイデアに基づいて、通常の生成プロセスから負の接頭辞で誘導されるものへのトックス化方向を特定する方法を考案し、注目層内の情報移動を操作することにより、その生成を逆向きに制御する。 実験の結果, 微調整や余分なコンポーネントを使わずに, 最先端の手法と同等の性能を実現することができた。

Language model detoxification aims to minimize the risk of generating offensive or harmful content in pretrained language models (PLMs) for safer deployment. Existing methods can be roughly categorized as finetuning-based and decoding-based. However, the former is often resource-intensive, while the latter relies on additional components and potentially compromises the generation fluency. In this paper, we propose a more lightweight approach that enables the PLM itself to achieve "self-detoxification". Our method is built upon the observation that prepending a negative steering prompt can effectively induce PLMs to generate toxic content. At the same time, we are inspired by the recent research in the interpretability field, which formulates the evolving contextualized representations within the PLM as an information stream facilitated by the attention layers. Drawing on this idea, we devise a method to identify the toxification direction from the normal generation process to the one prompted with the negative prefix, and then steer the generation to the reversed direction by manipulating the information movement within the attention layers. Experimental results show that our approach, without any fine-tuning or extra components, can achieve comparable performance with state-of-the-art methods.
翻訳日:2023-10-17 19:43:34 公開日:2023-10-14
# マルチレゾリューション顔認識のための統一表現の学習

Learning Unified Representations for Multi-Resolution Face Recognition ( http://arxiv.org/abs/2310.09563v1 )

ライセンス: Link先を確認
Hulingxiao He, Wu Yuan, Yidian Huang, Shilong Zhao, Wen Yuan, Hanqing Li(参考訳) 本研究では,マルチレゾリューション顔認識のための表現学習手法であるbranch-to-trunk network (btnet)を提案する。 トランクネットワーク(tnet)、すなわち統一エンコーダ(unified encoder)、および複数のブランチネットワーク(bnets)、すなわちレゾリューションアダプタで構成される。 入力に従って、解像度固有のBNetを使用し、出力は同じ解像度の層にTNetの機能ピラミッドに特徴マップとして埋め込む。 再スケーリング、特にアップサンプリングによって生じる補間誤差が入力に対して緩和されるため、小さな顔の識別性が大幅に向上する。 分枝蒸留と後方互換性トレーニングにより、BTNetは、表現互換性を確保しつつ、差別的な高解像度情報を複数の分枝に転送する。 本実験は,マルチレゾリューションIDマッチングと特徴集約の両面において,高い性能を示し,計算量やパラメータ記憶量を大幅に削減した。 難解なqmul-survface 1: n face identificationタスクについて,新たな最先端技術を確立する。 私たちのコードはhttps://github.com/StevenSmith2000/BTNet.comから入手可能です。

In this work, we propose Branch-to-Trunk network (BTNet), a representation learning method for multi-resolution face recognition. It consists of a trunk network (TNet), namely a unified encoder, and multiple branch networks (BNets), namely resolution adapters. As per the input, a resolution-specific BNet is used and the output are implanted as feature maps in the feature pyramid of TNet, at a layer with the same resolution. The discriminability of tiny faces is significantly improved, as the interpolation error introduced by rescaling, especially up-sampling, is mitigated on the inputs. With branch distillation and backward-compatible training, BTNet transfers discriminative high-resolution information to multiple branches while guaranteeing representation compatibility. Our experiments demonstrate strong performance on face recognition benchmarks, both for multi-resolution identity matching and feature aggregation, with much less computation amount and parameter storage. We establish new state-of-the-art on the challenging QMUL-SurvFace 1: N face identification task. Our code is available at https://github.com/StevenSmith2000/BTNet.
翻訳日:2023-10-17 19:43:10 公開日:2023-10-14
# CLIPの一般化性能は、高信頼度テストの類似性から重視されるか?

Does CLIP's Generalization Performance Mainly Stem from High Train-Test Similarity? ( http://arxiv.org/abs/2310.09562v1 )

ライセンス: Link先を確認
Prasanna Mayilvahanan, Thadd\"aus Wiedemer, Evgenia Rusak, Matthias Bethge, Wieland Brendel(参考訳) clipのようなファンデーションモデルは数億のサンプルで訓練され、新しいタスクやインプットに無益に一般化される。 最初からCLIPは、幅広いアウト・オブ・ディストリビューション(OOD)ベンチマークで、スターゼロショットと少数ショットの機能を提供する。 しかし、CLIPのアウト・オブ・ディストリビューション(out-of-distriion)の一般化のような意味のある用語は、LAIONのようなWebスケールのデータセットが、ImageNet用にもともと設計された一般的なOODベンチマークに類似した多くのサンプルを含んでいる可能性が高いため、疑問視されている。 この仮説をテストするために、共通のoodベンチマークに対するimagenetのトレインテストの類似性を再現したpruned laion splitのクリップを再トレーニングした。 いくつかのベンチマークのパフォーマンス低下を観察する一方で、驚くべきことに、CLIP全体のパフォーマンスは高いままです。 これは、CLIPのOODパフォーマンスを説明するには高いトレインテストの類似性が不十分であることを示している。 さらに、OODベンチマークと異なるデータポイントを抽出することで、CLIPがオリジナルのOODパフォーマンスに合わせてトレーニングできるLAION($\frac{1}{4}$th)の1億の分割が明らかになった。

Foundation models like CLIP are trained on hundreds of millions of samples and effortlessly generalize to new tasks and inputs. Out of the box, CLIP shows stellar zero-shot and few-shot capabilities on a wide range of out-of-distribution (OOD) benchmarks, which prior works attribute mainly to today's large and comprehensive training dataset (like LAION). However, it is questionable how meaningful terms like out-of-distribution generalization are for CLIP as it seems likely that web-scale datasets like LAION simply contain many samples that are similar to common OOD benchmarks originally designed for ImageNet. To test this hypothesis, we retrain CLIP on pruned LAION splits that replicate ImageNet's train-test similarity with respect to common OOD benchmarks. While we observe a performance drop on some benchmarks, surprisingly, CLIP's overall performance remains high. This shows that high train-test similarity is insufficient to explain CLIP's OOD performance, and other properties of the training data must drive CLIP to learn more generalizable representations. Additionally, by pruning data points that are dissimilar to the OOD benchmarks, we uncover a 100M split of LAION ($\frac{1}{4}$th of its original size) on which CLIP can be trained to match its original OOD performance.
翻訳日:2023-10-17 19:42:52 公開日:2023-10-14
# 単一セルデータに対するグラフニューラルネットワークのアプローチ:最近の展望

Graph Neural Network approaches for single-cell data: A recent overview ( http://arxiv.org/abs/2310.09561v1 )

ライセンス: Link先を確認
Konstantinos Lazaros, Dimitris E. Koumadorakis, Panagiotis Vlamos, Aristidis G. Vrahatis(参考訳) グラフニューラルネットワーク(GNN)は、遺伝子と細胞間の深いつながりを明らかにすることで、生医学と病気の理解を再構築している。 アルゴリズムとバイオメディカルの技術はどちらも大きく進歩しているので、パーソナライズされた医療の転換段階に入りつつある。 graph attention networks(gat)やgraph convolutional neural networks(graph cnn)といった先駆的なツールがグラフベースの学習を前進させている一方で、シングルセルシーケンシング技術の台頭は、細胞の多様性と機能に関する洞察を再構築している。 多くの研究がGNNとシングルセルデータを組み合わせて、有望な結果を示している。 本稿では,近年のシングルセルデータに適したGNN手法について紹介する。 GAT方法論を中心とした多種多様なグラフ深層学習アーキテクチャについて概説する。 さらに、細胞型アノテーション、データ統合とインプット、遺伝子制御ネットワーク再構築、クラスタリングなど、単一セルデータコンテキストにおけるGNN戦略のいくつかの目的を概観する。 このレビューは、GNNが単一細胞分析の取り組みの中心となる未来を予測しており、特に巨大なオミクスデータセットが連続的に生成され、細胞と遺伝子の相互接続性が生医学における知識の深みを高める。

Graph Neural Networks (GNN) are reshaping our understanding of biomedicine and diseases by revealing the deep connections among genes and cells. As both algorithmic and biomedical technologies have advanced significantly, we're entering a transformative phase of personalized medicine. While pioneering tools like Graph Attention Networks (GAT) and Graph Convolutional Neural Networks (Graph CNN) are advancing graph-based learning, the rise of single-cell sequencing techniques is reshaping our insights on cellular diversity and function. Numerous studies have combined GNNs with single-cell data, showing promising results. In this work, we highlight the GNN methodologies tailored for single-cell data over the recent years. We outline the diverse range of graph deep learning architectures that center on GAT methodologies. Furthermore, we underscore the several objectives of GNN strategies in single-cell data contexts, ranging from cell-type annotation, data integration and imputation, gene regulatory network reconstruction, clustering and many others. This review anticipates a future where GNNs become central to single-cell analysis efforts, particularly as vast omics datasets are continuously generated and the interconnectedness of cells and genes enhances our depth of knowledge in biomedicine.
翻訳日:2023-10-17 19:42:22 公開日:2023-10-14
# UNIQA: 完全な参照と非参照の画像品質評価のための統一フレームワーク

UNIQA: A Unified Framework for Both Full-Reference and No-Reference Image Quality Assessment ( http://arxiv.org/abs/2310.09560v1 )

ライセンス: Link先を確認
Yi Ke Yun, Weisi Lin(参考訳) 人間の視覚システム(HVS)は、歪みレベルと結果として生じる意味的影響を感知する能力により、低品質の画像の識別に有効である。 先行研究は, プリスタン画像の存在と欠如に基づく専用ネットワークの開発に重点を置いており, NRからFR IQAへ切り替える際の適用範囲と潜在的な性能の不整合が限定されている。 加えて、ほとんどの手法は差分マップや重み付け特徴による空間的歪みモデリングに大きく依存しており、歪みとそれが引き起こす意味的影響の相関を適切に把握できない可能性がある。 そこで本研究では,意味的影響モデルを用いて,全参照(FR)と非参照(NR)のIQAのための統一ネットワークを設計することを目的とする。 具体的には,入力画像から多レベル特徴を抽出するエンコーダを用いる。 次に,各エンコーダにおける空間歪みレベルをモデル化するために,FR入力とNR入力の共通アダプタとして階層自己注意(HSA)モジュールを提案する。 さらに, エンコーダ段の歪みと損傷画像の意味が異なることを考慮し, 浅い段の歪みと深い段の歪みとの相関を調べるために, クロススケールクロス・アテンション(csca)モジュールを提案する。 HSA と CSCA を採用することにより,提案ネットワークは FR と NR IQA の両方を効果的に実行することができる。 広範な実験により,提案手法が有効であることが証明され,4つの合成データ集合と3つの真偽データ集合において,関連するfrおよびnr法を上回った。

The human visual system (HVS) is effective at distinguishing low-quality images due to its ability to sense the distortion level and the resulting semantic impact. Prior research focuses on developing dedicated networks based on the presence and absence of pristine images, respectively, and this results in limited application scope and potential performance inconsistency when switching from NR to FR IQA. In addition, most methods heavily rely on spatial distortion modeling through difference maps or weighted features, and this may not be able to well capture the correlations between distortion and the semantic impact it causes. To this end, we aim to design a unified network for both Full-Reference (FR) and No-Reference (NR) IQA via semantic impact modeling. Specifically, we employ an encoder to extract multi-level features from input images. Then a Hierarchical Self-Attention (HSA) module is proposed as a universal adapter for both FR and NR inputs to model the spatial distortion level at each encoder stage. Furthermore, considering that distortions contaminate encoder stages and damage image semantic meaning differently, a Cross-Scale Cross-Attention (CSCA) module is proposed to examine correlations between distortion at shallow stages and deep ones. By adopting HSA and CSCA, the proposed network can effectively perform both FR and NR IQA. Extensive experiments demonstrate that the proposed simple network is effective and outperforms the relevant state-of-the-art FR and NR methods on four synthetic-distorted datasets and three authentic-distorted datasets.
翻訳日:2023-10-17 19:42:02 公開日:2023-10-14
# 効率的な計算のためのニューラルネットワークスコアリング

Neural network scoring for efficient computing ( http://arxiv.org/abs/2310.09554v1 )

ライセンス: Link先を確認
Hugo Waltsburger, Erwan Libessart, Chengfang Ren, Anthony Kolar, Regis Guinvarc'h(参考訳) ハイパフォーマンスコンピューティング(HPC)とディープラーニングにおけるワークロードの推定と最適化に多くの作業が費やされています。 しかし、研究者は通常、これらの手法の効率を評価するための指標をほとんど頼りにしていない。 最も注目すべきは、gpuまたは/およびcpu特性に関する精度、予測の損失、計算時間である。 正確な電力の読み取りが困難であることから、消費電力の数値を見ることは稀である。 本稿では,ニューラルネットワークの推論中に測定された精度と消費電力のトレードオフを特徴付ける合成スコアを提案する。 この目的のために、研究者はより詳細な電力消費だけでなく、RAM/CPU/GPU利用、ストレージ、ネットワークインプット/アウトプット(I/O)といったメトリクスを考慮できる新しいオープンソースツールを提案する。 私たちの知る限りでは、ハードウェアアーキテクチャ上のニューラルアーキテクチャに対する最初の適合テストです。 これは再現可能な電力効率の測定によって実現される。 この手順を,様々なハードウェア上の最先端のニューラルネットワークアーキテクチャに適用した。 主な応用と斬新さの1つはアルゴリズムによる電力効率の測定である。 目標は、研究者がアルゴリズムの効率をよりよく把握できるようにすることだ。 この手法は、ニューラルネットワークにおけるエネルギー使用量と精度のトレードオフを研究するために開発された。 特定のタスクにハードウェアを適合させたり、2つのアーキテクチャをより正確に比較したり、アーキテクチャの探索を念頭に置いたりするのにも便利です。

Much work has been dedicated to estimating and optimizing workloads in high-performance computing (HPC) and deep learning. However, researchers have typically relied on few metrics to assess the efficiency of those techniques. Most notably, the accuracy, the loss of the prediction, and the computational time with regard to GPUs or/and CPUs characteristics. It is rare to see figures for power consumption, partly due to the difficulty of obtaining accurate power readings. In this paper, we introduce a composite score that aims to characterize the trade-off between accuracy and power consumption measured during the inference of neural networks. For this purpose, we present a new open-source tool allowing researchers to consider more metrics: granular power consumption, but also RAM/CPU/GPU utilization, as well as storage, and network input/output (I/O). To our best knowledge, it is the first fit test for neural architectures on hardware architectures. This is made possible thanks to reproducible power efficiency measurements. We applied this procedure to state-of-the-art neural network architectures on miscellaneous hardware. One of the main applications and novelties is the measurement of algorithmic power efficiency. The objective is to allow researchers to grasp their algorithms' efficiencies better. This methodology was developed to explore trade-offs between energy usage and accuracy in neural networks. It is also useful when fitting hardware for a specific task or to compare two architectures more accurately, with architecture exploration in mind.
翻訳日:2023-10-17 19:41:33 公開日:2023-10-14
# ARTree:系統推論のための深部自己回帰モデル

ARTree: A Deep Autoregressive Model for Phylogenetic Inference ( http://arxiv.org/abs/2310.09553v1 )

ライセンス: Link先を確認
Tianyu Xie, Cheng Zhang(参考訳) 樹木トポロジー上の柔軟な確率モデルを設計することは、効率的な系統推定法を開発する上で重要である。 それを実現するために、以前の研究はしばしば手動のヒューリスティックな特徴によってツリートポロジの類似性を利用しており、それは事前サンプリングされたツリートポロジを必要とし、限られた近似能力に悩まされる可能性がある。 本稿では,グラフニューラルネットワーク(GNN)に基づく系統的推論の深部自己回帰モデル(ARTree)を提案する。 ツリートポロジを葉ノード付加操作のシーケンスに分解し、GNNを通して学習可能なトポロジ特徴に基づいて関連する条件分布をモデル化することにより、ARTreeは、単純なサンプリングアルゴリズムと密度推定手順を持つツリートポロジ空間全体に豊富な分布を、ヒューリスティックな特徴を用いることなく提供することができる。 本手法の有効性と有効性を実データ木トポロジー密度推定と変分ベイズ型系統推定問題のベンチマークで実証する。

Designing flexible probabilistic models over tree topologies is important for developing efficient phylogenetic inference methods. To do that, previous works often leverage the similarity of tree topologies via hand-engineered heuristic features which would require pre-sampled tree topologies and may suffer from limited approximation capability. In this paper, we propose a deep autoregressive model for phylogenetic inference based on graph neural networks (GNNs), called ARTree. By decomposing a tree topology into a sequence of leaf node addition operations and modeling the involved conditional distributions based on learnable topological features via GNNs, ARTree can provide a rich family of distributions over the entire tree topology space that have simple sampling algorithms and density estimation procedures, without using heuristic features. We demonstrate the effectiveness and efficiency of our method on a benchmark of challenging real data tree topology density estimation and variational Bayesian phylogenetic inference problems.
翻訳日:2023-10-17 19:41:11 公開日:2023-10-14
# 大言語モデルは古代中国語を補完できるのか? ACLUEの予備試験

Can Large Language Model Comprehend Ancient Chinese? A Preliminary Test on ACLUE ( http://arxiv.org/abs/2310.09550v1 )

ライセンス: Link先を確認
Yixuan Zhang and Haonan Li(参考訳) 大規模言語モデル(llm)は、言語の理解と生成において顕著な能力を示している。 しかし、古代言語、特に古代中国語の理解能力はほとんど未解明のままである。 このギャップを埋めるために、古代中国語を解釈する際の言語モデルの有効性を評価するための評価ベンチマークACLUEを提案する。 ACLUEは、音声、語彙、構文、意味、推論、知識など、様々なスキルをカバーする15のタスクで構成されている。 8つの最先端のllmの評価を通して、現代中国人と古代中国人の業績に明らかな差が見られた。 評価されたモデルの中で、ChatGLM2が最も顕著なパフォーマンスを示し、平均スコアは37.4%である。 コードとデータを公開しました。

Large language models (LLMs) have showcased remarkable capabilities in understanding and generating language. However, their ability in comprehending ancient languages, particularly ancient Chinese, remains largely unexplored. To bridge this gap, we present ACLUE, an evaluation benchmark designed to assess the capability of language models in comprehending ancient Chinese. ACLUE consists of 15 tasks cover a range of skills, spanning phonetic, lexical, syntactic, semantic, inference and knowledge. Through the evaluation of eight state-of-the-art LLMs, we observed a noticeable disparity in their performance between modern Chinese and ancient Chinese. Among the assessed models, ChatGLM2 demonstrates the most remarkable performance, achieving an average score of 37.4%. We have made our code and data public available.
翻訳日:2023-10-17 19:40:49 公開日:2023-10-14
# ディープニューラルネットワークは、一般化可能な同じ異なる視覚関係を学習できる

Deep Neural Networks Can Learn Generalizable Same-Different Visual Relations ( http://arxiv.org/abs/2310.09612v1 )

ライセンス: Link先を確認
Alexa R. Tartaglini, Sheridan Feucht, Michael A. Lepori, Wai Keen Vong, Charles Lovering, Brenden M. Lake, and Ellie Pavlick(参考訳) ディープニューラルネットワークは、多くのオブジェクト認識ベンチマークで人間レベルのパフォーマンスを達成することができるが、以前の研究は、これらのモデルが2つのオブジェクトが同じか異なるかなどの単純な抽象的関係を学習できないことを示唆していた。 この以前の研究の多くは、2つの異なる抽象形状の画像を分類するために畳み込みニューラルネットワークを訓練することに焦点を当て、分布内刺激の一般化をテストする。 本稿では,ディープニューラルネットワークが,さまざまなアーキテクチャ,事前学習形式,微調整データセットを用いて,分散内外における同一性関係を取得・一般化できるかどうかを包括的に検討する。 ある事前学習された変換器は、ほぼ完全な精度で分布外刺激に一般化する同じ微分関係を学習できる。 さらに,テクスチャや色彩を欠く抽象形状の微調整が,最も強い分散一般化をもたらすことがわかった。 その結果、ディープニューラルネットワークは、正しいアプローチで、一般化可能な同じ異なる視覚関係を学習できることが示唆された。

Although deep neural networks can achieve human-level performance on many object recognition benchmarks, prior work suggests that these same models fail to learn simple abstract relations, such as determining whether two objects are the same or different. Much of this prior work focuses on training convolutional neural networks to classify images of two same or two different abstract shapes, testing generalization on within-distribution stimuli. In this article, we comprehensively study whether deep neural networks can acquire and generalize same-different relations both within and out-of-distribution using a variety of architectures, forms of pretraining, and fine-tuning datasets. We find that certain pretrained transformers can learn a same-different relation that generalizes with near perfect accuracy to out-of-distribution stimuli. Furthermore, we find that fine-tuning on abstract shapes that lack texture or color provides the strongest out-of-distribution generalization. Our results suggest that, with the right approach, deep neural networks can learn generalizable same-different visual relations.
翻訳日:2023-10-17 19:33:10 公開日:2023-10-14
# penetrative ai: llmを物理的世界を理解する

Penetrative AI: Making LLMs Comprehend the Physical World ( http://arxiv.org/abs/2310.09605v1 )

ライセンス: Link先を確認
Huatao Xu, Liying Han, Mo Li, Mani Srivastava(参考訳) 近年のLLM(Large Language Models)は,様々なタスクにまたがってその顕著な能力を実証している。 しかし、LLMの性質と、現実世界に関する情報を含むタスクを実行する際に、常識的な人間の知識を統合する可能性について疑問が残る。 本稿は,IoTセンサやアクチュエータを通じて,LLMをどのように拡張して物理世界と対話し,理屈を定めるか,という,“\textit{Penetrative AI}”という概念を探求する。 本稿では,知覚信号の処理によって物理世界へ浸透するLLMの2つのレベルにおける拡張について検討する。 予備的な結果から,私たちの探索においてChatGPTが代表的な例として挙げられるLCMは,IoTセンサデータの解釈や物理領域におけるタスクの推論に学んだ知識を活用する上で,極めて有能な能力を持っていることが示唆された。 これは、従来のテキストベースのタスクを超えて、llmの新しいアプリケーションを開くだけでなく、サイバー物理システムに人間の知識を組み込む新しい方法を可能にする。

Recent developments in Large Language Models (LLMs) have demonstrated their remarkable capabilities across a range of tasks. Questions, however, persist about the nature of LLMs and their potential to integrate common-sense human knowledge when performing tasks involving information about the real physical world. This paper delves into these questions by exploring how LLMs can be extended to interact with and reason about the physical world through IoT sensors and actuators, a concept that we term "\textit{Penetrative AI}". The paper explores such an extension at two levels of LLMs' ability to penetrate into the physical world via the processing of sensory signals. Our preliminary findings indicate that LLMs, with ChatGPT being the representative example in our exploration, have considerable and unique proficiency in employing the knowledge they learned during training for interpreting IoT sensor data and reasoning over them about tasks in the physical realm. Not only this opens up new applications for LLMs beyond traditional text-based tasks, but also enables new ways of incorporating human knowledge in cyber-physical systems.
翻訳日:2023-10-17 19:32:50 公開日:2023-10-14
# 宇宙エネルギーを前提とした協調型階層的特徴学習

Learning Hierarchical Features with Joint Latent Space Energy-Based Prior ( http://arxiv.org/abs/2310.09604v1 )

ライセンス: Link先を確認
Jiali Cui, Ying Nian Wu, Tian Han(参考訳) 本稿では階層表現の学習における多層生成モデルの基本問題について述べる。 トップダウンアーキテクチャで構成された複数の遅延変数からなる多層ジェネレータモデルは、複数のレベルのデータ抽象化を学ぶ傾向がある。 しかし、そのような多層潜伏変数は一般にガウス変数としてパラメータ化され、複雑な抽象化を捉える際には情報が少なく、階層的表現学習において限られた成功をもたらす。 一方で、エネルギベース(ebm)のプリエントは、データのレギュレーションをキャプチャする上では表現的であることが知られているが、階層的な表現の異なるレベルをキャプチャする階層構造が欠如していることが多い。 本稿では,階層的表現学習のための多層潜在変数を用いた統合潜在空間ebm事前モデルを提案する。 我々は,効率的な推論のために推論モデルをシームレスに統合した変分ジョイント学習スキームを開発した。 実験の結果,提案手法は階層的表現の獲得やデータ分布のモデル化に有効で表現力が高いことがわかった。

This paper studies the fundamental problem of multi-layer generator models in learning hierarchical representations. The multi-layer generator model that consists of multiple layers of latent variables organized in a top-down architecture tends to learn multiple levels of data abstraction. However, such multi-layer latent variables are typically parameterized to be Gaussian, which can be less informative in capturing complex abstractions, resulting in limited success in hierarchical representation learning. On the other hand, the energy-based (EBM) prior is known to be expressive in capturing the data regularities, but it often lacks the hierarchical structure to capture different levels of hierarchical representations. In this paper, we propose a joint latent space EBM prior model with multi-layer latent variables for effective hierarchical representation learning. We develop a variational joint learning scheme that seamlessly integrates an inference model for efficient inference. Our experiments demonstrate that the proposed joint EBM prior is effective and expressive in capturing hierarchical representations and modelling data distribution.
翻訳日:2023-10-17 19:32:32 公開日:2023-10-14
# B-Spine:ロバストおよび解釈可能な脊椎曲率推定のためのB-Spline Curve Representationの学習

B-Spine: Learning B-Spline Curve Representation for Robust and Interpretable Spinal Curvature Estimation ( http://arxiv.org/abs/2310.09603v1 )

ライセンス: Link先を確認
Hao Wang, Qiang Song, Ruofeng Yin, Rui Ma, Yizhou Yu, Yi Chang(参考訳) 脊柱管狭窄の診断と治療には脊柱湾曲率推定が重要である。 既存の方法は、脊椎のランドマークに高価なアノテーションが必要であり、画像の品質に敏感であるなど、いくつかの問題に直面している。 特にぼやけてぼやけている低品質画像に対して、ロバストな推定と解釈可能な結果を得ることは困難である。 本稿では,脊椎のb-スプライン曲線表現を学習し,低画質x線画像から脊椎曲率推定のためのコブ角度を推定する,新しい深層学習パイプラインであるb-spineを提案する。 低品質な入力が与えられた場合、未ペア画像-画像変換を用いた新しいSegRefineネットワークを提案し、初期セグメンテーション結果から高品質なスピンマスクを生成する。 次に,脊椎中心線のb-スプライン曲線を予測するために,新しいマスクベースb-スプライン予測モデルを提案する。 最後に、曲線傾斜解析と曲線に基づく回帰モデルを組み合わせたハイブリッドアプローチによりコブ角を推定する。 我々は、AASCE2019データセットと、より挑戦的な低品質画像を含む新しいCJUH-JLUデータセットにおいて、代表者およびSOTA学習ベースの手法と定量的、質的な比較を行う。 両データセットの優れた性能は,脊髄曲率推定におけるロバスト性と解釈性の両方を実現できることを示す。

Spinal curvature estimation is important to the diagnosis and treatment of the scoliosis. Existing methods face several issues such as the need of expensive annotations on the vertebral landmarks and being sensitive to the image quality. It is challenging to achieve robust estimation and obtain interpretable results, especially for low-quality images which are blurry and hazy. In this paper, we propose B-Spine, a novel deep learning pipeline to learn B-spline curve representation of the spine and estimate the Cobb angles for spinal curvature estimation from low-quality X-ray images. Given a low-quality input, a novel SegRefine network which employs the unpaired image-to-image translation is proposed to generate a high quality spine mask from the initial segmentation result. Next, a novel mask-based B-spline prediction model is proposed to predict the B-spline curve for the spine centerline. Finally, the Cobb angles are estimated by a hybrid approach which combines the curve slope analysis and a curve-based regression model. We conduct quantitative and qualitative comparisons with the representative and SOTA learning-based methods on the public AASCE2019 dataset and our new proposed CJUH-JLU dataset which contains more challenging low-quality images. The superior performance on both datasets shows our method can achieve both robustness and interpretability for spinal curvature estimation.
翻訳日:2023-10-17 19:32:15 公開日:2023-10-14
# Hawkeye:ディープラーニングによる微細画像認識のためのPyTorchベースのライブラリ

Hawkeye: A PyTorch-based Library for Fine-Grained Image Recognition with Deep Learning ( http://arxiv.org/abs/2310.09600v1 )

ライセンス: Link先を確認
Jiabei He, Yang Shen, Xiu-Shen Wei, Ye Wu(参考訳) ファイングラインド画像認識(FGIR)は、コンピュータビジョンとマルチメディアにおける基本的な課題であり、知的経済と産業インターネットアプリケーションにおいて重要な役割を果たす。 しかし、FGIRの様々なパラダイムをカバーする統一されたオープンソースソフトウェアライブラリが存在しないことは、この分野の研究者や実践者にとって大きな課題となっている。 このギャップに対処するために、深層学習を備えたFGIRのためのPyTorchベースのライブラリであるHawkeyeを紹介する。 Hawkeyeはモジュラーアーキテクチャで設計され、高品質なコードと人間可読な構成を強調し、FGIRタスクの包括的なソリューションを提供する。 ホークアイでは、6つの異なるパラダイムをカバーし、FGIRの様々なアプローチを探索できる16の最先端の細粒度メソッドを実装した。 私たちの知る限りでは、hawkeyeはfgir専用のオープンソースのpytorchベースのライブラリです。 https://github.com/Hawkeye-FineGrained/Hawkeye/で公開されており、研究者や実践者にFGIRの分野での研究と開発を進める強力なツールを提供する。

Fine-Grained Image Recognition (FGIR) is a fundamental and challenging task in computer vision and multimedia that plays a crucial role in Intellectual Economy and Industrial Internet applications. However, the absence of a unified open-source software library covering various paradigms in FGIR poses a significant challenge for researchers and practitioners in the field. To address this gap, we present Hawkeye, a PyTorch-based library for FGIR with deep learning. Hawkeye is designed with a modular architecture, emphasizing high-quality code and human-readable configuration, providing a comprehensive solution for FGIR tasks. In Hawkeye, we have implemented 16 state-of-the-art fine-grained methods, covering 6 different paradigms, enabling users to explore various approaches for FGIR. To the best of our knowledge, Hawkeye represents the first open-source PyTorch-based library dedicated to FGIR. It is publicly available at https://github.com/Hawkeye-FineGrained/Hawkeye/, providing researchers and practitioners with a powerful tool to advance their research and development in the field of FGIR.
翻訳日:2023-10-17 19:31:50 公開日:2023-10-14
# rethinkingtmsc:ターゲット指向マルチモーダル感情分類の実証的研究

RethinkingTMSC: An Empirical Study for Target-Oriented Multimodal Sentiment Classification ( http://arxiv.org/abs/2310.09596v1 )

ライセンス: Link先を確認
Junjie Ye, Jie Zhou, Junfeng Tian, Rui Wang, Qi Zhang, Tao Gui, Xuanjing Huang(参考訳) 近年,ターゲット指向型マルチモーダル感性分類 (TMSC) が注目されている。 しかし、現在のマルチモーダルモデルはパフォーマンスボトルネックに達している。 この問題の原因を調査するために、データセットの広範な実験的評価と詳細な分析を行い、以下の質問に答える。 Q2: どのマルチモーダル融合モジュールがより効果的か? Q3: 既存のデータセットは研究を適切にサポートしていますか? 我々の実験と分析により、現在のtmscシステムは主にテキストモダリティに依存しており、ターゲットの感情の大部分はテキストのみによって決定できることが明らかとなった。 そこで本研究では,モデル設計とデータセット構築の観点から,TMSCタスクの取り組み方について述べる。 コードとデータはhttps://github.com/Junjie-Ye/RethinkingTMSCにある。

Recently, Target-oriented Multimodal Sentiment Classification (TMSC) has gained significant attention among scholars. However, current multimodal models have reached a performance bottleneck. To investigate the causes of this problem, we perform extensive empirical evaluation and in-depth analysis of the datasets to answer the following questions: Q1: Are the modalities equally important for TMSC? Q2: Which multimodal fusion modules are more effective? Q3: Do existing datasets adequately support the research? Our experiments and analyses reveal that the current TMSC systems primarily rely on the textual modality, as most of targets' sentiments can be determined solely by text. Consequently, we point out several directions to work on for the TMSC task in terms of model design and dataset construction. The code and data can be found in https://github.com/Junjie-Ye/RethinkingTMSC.
翻訳日:2023-10-17 19:31:29 公開日:2023-10-14
# グラフニューラルネットワークを用いたコンテキスト対応セッションベースレコメンデーション

Context-aware Session-based Recommendation with Graph Neural Networks ( http://arxiv.org/abs/2310.09593v1 )

ライセンス: Link先を確認
Zhihui Zhang, JianXiang Yu, Xiang Li(参考訳) セッションベースレコメンデーション(sbr)は、セッション内のユーザ動作の匿名シーケンスに基づいてアイテムを予測することを目的としたタスクである。 SBRのセッションにはリッチなコンテキスト情報を利用する方法があるが、そのほとんどは以下の制限がある。 1) クロスセッションコンテキストを利用するグローバルグラフを構築する際に,項目単位のエッジタイプを区別することができない。 2)各項目に固定された埋め込みベクトルを学習し,セッション間のユーザ関心の変動を反映する柔軟性に欠ける。 3) 一般的にターゲット項目の1ホット符号化ベクターをハードラベルとして使用し,真のユーザの嗜好を捉えることができない。 これらの問題を解決するために,我々は,セッション内のさまざまなタイプのコンテキストを利用してユーザの興味を捉える,グラフニューラルネットワークを用いた,コンテキスト対応セッションベースの新しいレコメンデーションモデルCARESを提案する。 具体的には,まずマルチリレーショナル・クロスセッショングラフを構築し,アイテム内およびクロスセッション・アイテムレベルのコンテキストに応じてアイテムを接続する。 さらに,ユーザの興味の変動をエンコードするために,パーソナライズされた項目表現を設計する。 最後に,ラベルとしてソフトユーザ嗜好分布を生成するためにラベル協調戦略を用いる。 3つのベンチマークデータセットの実験では、CARESはP@20とMRR@20の観点から、一貫して最先端モデルを上回っている。 我々のデータとコードはhttps://github.com/brilliantZhang/CARES.comで公開されています。

Session-based recommendation (SBR) is a task that aims to predict items based on anonymous sequences of user behaviors in a session. While there are methods that leverage rich context information in sessions for SBR, most of them have the following limitations: 1) they fail to distinguish the item-item edge types when constructing the global graph for exploiting cross-session contexts; 2) they learn a fixed embedding vector for each item, which lacks the flexibility to reflect the variation of user interests across sessions; 3) they generally use the one-hot encoded vector of the target item as the hard label to predict, thus failing to capture the true user preference. To solve these issues, we propose CARES, a novel context-aware session-based recommendation model with graph neural networks, which utilizes different types of contexts in sessions to capture user interests. Specifically, we first construct a multi-relation cross-session graph to connect items according to intra- and cross-session item-level contexts. Further, to encode the variation of user interests, we design personalized item representations. Finally, we employ a label collaboration strategy for generating soft user preference distribution as labels. Experiments on three benchmark datasets demonstrate that CARES consistently outperforms state-of-the-art models in terms of P@20 and MRR@20. Our data and codes are publicly available at https://github.com/brilliantZhang/CARES.
翻訳日:2023-10-17 19:31:18 公開日:2023-10-14
# 再検討による数学単語問題の解法

Solving Math Word Problems with Reexamination ( http://arxiv.org/abs/2310.09590v1 )

ライセンス: Link先を確認
Yi Bin, Wenhao Shi, Yujuan Ding, Yang Yang, See-Kiong Ng(参考訳) 数学語問題 (MWP) は、記述的な数学問題を理解し、その結果を計算することを目的としている。 本稿では,MWP問題解決のための擬似双対タスクを導入することにより,トレーニング中の「textit{reexamination process}」の異なる視点を提供する。 そこで本研究では,モデルに依存しない擬似双対学習方式を提案し,既存のMWP解法に適用可能である。 擬似双対タスクは、表現の数値を元の単語問題にマスクした数字で埋めることとして、特に定義される。 さらに,2つのタスクの効果的な共同学習を容易にするために,数値埋込みタスクの計画的融合戦略を設計し,その結果から予測されたタスクへの入力を円滑に切り替える。 提案手法は,複数の代表MWPソルバを実証実験により適用した場合に有効であることが確認された。 \textit{The codes and trained model are available at:} \url{https://github.com/steven640pixel/PsedualMWP}. \end{abstract}

Math word problem (MWP) solving aims to understand the descriptive math problem and calculate the result, for which previous efforts are mostly devoted to upgrade different technical modules. This paper brings a different perspective of \textit{reexamination process} during training by introducing a pseudo-dual task to enhance the MWP solving. We propose a pseudo-dual (PseDual) learning scheme to model such process, which is model-agnostic thus can be adapted to any existing MWP solvers. The pseudo-dual task is specifically defined as filling the numbers in the expression back into the original word problem with numbers masked. To facilitate the effective joint learning of the two tasks, we further design a scheduled fusion strategy for the number infilling task, which smoothly switches the input from the ground-truth math expressions to the predicted ones. Our pseudo-dual learning scheme has been tested and proven effective when being equipped in several representative MWP solvers through empirical studies. \textit{The codes and trained models are available at:} \url{https://github.com/steven640pixel/PsedualMWP}. \end{abstract}
翻訳日:2023-10-17 19:30:55 公開日:2023-10-14
# バイアスノード分類における因果性と独立性向上

Causality and Independence Enhancement for Biased Node Classification ( http://arxiv.org/abs/2310.09586v1 )

ライセンス: Link先を確認
Guoxin Chen, Yongqing Wang, Fangda Guo, Qinglang Guo, Jiangli Shao, Huawei Shen and Xueqi Cheng(参考訳) グラフ上のノード分類のアウト・オブ・ディストリビューション(ood)一般化に対処する既存の手法のほとんどは、主にラベル選択バイアスや構造バイアスといった特定の種類のデータバイアスに焦点を当てている。 しかし、事前にバイアスの種類を予測することは極めて困難であり、特定の型のみを対象としたモデルの設計は必ずしも全体的な一般化性能を改善するとは限らない。 さらに、限定的な研究は、現実世界のシナリオでより普及し要求される混合バイアスの影響に焦点を当てている。 これらの制約に対処するために,様々なグラフニューラルネットワーク(GNN)に適用可能な,Causality and Independence Enhancement(CIE)フレームワークを提案する。 提案手法は,ノード表現レベルにおける因果的特徴とスプリアス的特徴を推定し,バックドア調整によるスプリアス相関の影響を緩和する。 一方、複雑なバイアス環境下での因果的特徴と刺激的特徴の識別性と安定性を改善するために独立制約が導入されている。 本質的にcieは、バイアスごとに別々のメソッドを設計する必要なしに、統一的な観点から異なる種類のデータバイアスを取り除きます。 特定の種類のデータバイアス、混合バイアス、低リソースシナリオでの性能を評価するため、5つの公開データセットで包括的な実験を行った。 実験の結果,提案手法はGNNの性能を著しく向上させるだけでなく,最先端のデバイアスノード分類法よりも優れていた。

Most existing methods that address out-of-distribution (OOD) generalization for node classification on graphs primarily focus on a specific type of data biases, such as label selection bias or structural bias. However, anticipating the type of bias in advance is extremely challenging, and designing models solely for one specific type may not necessarily improve overall generalization performance. Moreover, limited research has focused on the impact of mixed biases, which are more prevalent and demanding in real-world scenarios. To address these limitations, we propose a novel Causality and Independence Enhancement (CIE) framework, applicable to various graph neural networks (GNNs). Our approach estimates causal and spurious features at the node representation level and mitigates the influence of spurious correlations through the backdoor adjustment. Meanwhile, independence constraint is introduced to improve the discriminability and stability of causal and spurious features in complex biased environments. Essentially, CIE eliminates different types of data biases from a unified perspective, without the need to design separate methods for each bias as before. To evaluate the performance under specific types of data biases, mixed biases, and low-resource scenarios, we conducted comprehensive experiments on five publicly available datasets. Experimental results demonstrate that our approach CIE not only significantly enhances the performance of GNNs but outperforms state-of-the-art debiased node classification methods.
翻訳日:2023-10-17 19:30:32 公開日:2023-10-14
# 同じコインの2つの側面:ホモトピー継続による深い平衡モデルと神経オデムの橋渡し

Two Sides of The Same Coin: Bridging Deep Equilibrium Models and Neural ODEs via Homotopy Continuation ( http://arxiv.org/abs/2310.09583v1 )

ライセンス: Link先を確認
Shutong Ding, Tianyu Cui, Jingya Wang, Ye Shi(参考訳) 深部平衡モデル(deqs)と神経常微分方程式(neural ordinary differential equation,neural odes)は、その優れた性能とメモリ消費の低さにより顕著な成功を収めた暗黙のモデルの2つの分野である。 どちらも暗黙のモデルであるが、DECとNeural ODEは異なる数学的定式化から派生している。 ホモトピー連続性に着想を得て、これらの2つのモデル間の接続を確立し、それらが実際に同じコインの2つの側面であることを示す。 ホモトピー継続は、対応するODEに基づいて非線形方程式を解く古典的な方法である。 この関係を前提に,deqsから高精度な性質と神経odesからの安定性を継承するhomoodeと呼ばれる新しい暗黙的モデルを提案した。 フォワードパスにおけるニュートン法による平衡点フィニング問題を明示的に解くDECとは異なり、ホモトピー継続を通じて修正されたニューラルODEを用いて暗黙的に平衡点フィニング問題を解く。 さらに,共有学習可能な初期点を持つhomoodeの高速化手法を開発した。 私たちのモデルは、拡張部が発見すべき平衡点である限り、Augmented Neural ODEsがなぜ機能するのかをよりよく理解している点にも注意が必要だ。 複数の画像分類タスクによる総合的な実験により、HomoODEは精度とメモリ消費の両方の観点から既存の暗黙のモデルを上回ることを示した。

Deep Equilibrium Models (DEQs) and Neural Ordinary Differential Equations (Neural ODEs) are two branches of implicit models that have achieved remarkable success owing to their superior performance and low memory consumption. While both are implicit models, DEQs and Neural ODEs are derived from different mathematical formulations. Inspired by homotopy continuation, we establish a connection between these two models and illustrate that they are actually two sides of the same coin. Homotopy continuation is a classical method of solving nonlinear equations based on a corresponding ODE. Given this connection, we proposed a new implicit model called HomoODE that inherits the property of high accuracy from DEQs and the property of stability from Neural ODEs. Unlike DEQs, which explicitly solve an equilibrium-point-finding problem via Newton's methods in the forward pass, HomoODE solves the equilibrium-point-finding problem implicitly using a modified Neural ODE via homotopy continuation. Further, we developed an acceleration method for HomoODE with a shared learnable initial point. It is worth noting that our model also provides a better understanding of why Augmented Neural ODEs work as long as the augmented part is regarded as the equilibrium point to find. Comprehensive experiments with several image classification tasks demonstrate that HomoODE surpasses existing implicit models in terms of both accuracy and memory consumption.
翻訳日:2023-10-17 19:30:08 公開日:2023-10-14
# 地すべりのトポロジーが失敗運動を発見

Landslide Topology Uncovers Failure Movements ( http://arxiv.org/abs/2310.09631v1 )

ライセンス: Link先を確認
Kamal Rana, Kushanav Bhuyan, Joaquin Vicente Ferrer, Fabrice Cotton, Ugur Ozturk, Filippo Catani, and Nishant Malik(参考訳) 地すべりによる死者数と金融被害は、予測モデリングの進歩にもかかわらず増加を続けている。 これらのモデルの予測能力は、トレーニングやモデルの評価に使用される地すべりデータベースが、基礎となる障害タイプのような重要な情報を欠いているため制限される。 本稿では, 3次元地すべりトポロジーを利用して, すべりや流れなどの動作に基づいて, 故障タイプを特定する手法を提案する。 地すべりの形状や形状に埋もれた質量運動力学の一般的な特徴である,複雑な地すべり内の連成運動様式の検出など,トポロジカルなプロキシを観察した。 同一の障害タイプが類似したトポロジー特性を示すことを発見し,これを用いて,イタリア,米国太平洋北西部地域,デンマーク,トルコ,中国など,地形・気候のさまざまな状況から,歴史的・事象特異的な地すべりデータベース(多時期を含む)の障害タイプを80~94%精度で識別することができる。 この手法の現実的な応用を実証するため、中国からの文書化されていない2つのデータセットに実装し、データセットを公開している。 これらの新たな洞察は地すべり予測モデルの性能と影響評価を大幅に改善することができる。 さらに,地すべりトポロジーのレンズによる基礎過程を理解するために,地すべり形状を研究する新たなパラダイムを導入する。

The death toll and monetary damages from landslides continue to rise despite advancements in predictive modeling. The predictive capability of these models is limited as landslide databases used in training and assessing the models often have crucial information missing, such as underlying failure types. Here, we present an approach for identifying failure types based on their movements, e.g., slides and flows by leveraging 3D landslide topology. We observe topological proxies reveal prevalent signatures of mass movement mechanics embedded in the landslide's morphology or shape, such as detecting coupled movement styles within complex landslides. We find identical failure types exhibit similar topological properties, and by using them as predictors, we can identify failure types in historic and event-specific landslide databases (including multi-temporal) from various geomorphological and climatic contexts such as Italy, the US Pacific Northwest region, Denmark, Turkey, and China with 80 to 94 % accuracy. To demonstrate the real-world application of the method, we implement it in two undocumented datasets from China and publicly release the datasets. These new insights can considerably improve the performance of landslide predictive models and impact assessments. Moreover, our work introduces a new paradigm for studying landslide shapes to understand underlying processes through the lens of landslide topology.
翻訳日:2023-10-17 19:24:27 公開日:2023-10-14
# リアルタイム交通信号検出:サンタクララ郊外地区を事例として

Real-Time Traffic Sign Detection: A Case Study in a Santa Clara Suburban Neighborhood ( http://arxiv.org/abs/2310.09630v1 )

ライセンス: Link先を確認
Harish Loghashankar, Hieu Nguyen(参考訳) 本研究の目的は,yolov5アーキテクチャを用いたリアルタイムトラヒックサイン検出システムの構築と,郊外ドライブ中の効率的なトラヒックサイン認識のためのデプロイである。 プロジェクトの主な目的は、さまざまなトラフィックサインイメージのデータセット上でyolov5モデルをトレーニングし、リアルタイム推論が可能な適切なハードウェアプラットフォームにモデルをデプロイすることである。 このプロジェクトには、交通標識画像の包括的なデータセットの収集が含まれる。 訓練されたyolov5モデルを活用することで、システムは車両内のダッシュボード上のリアルタイムカメラから交通標識を検出し、分類する。 本システムの性能は,交通信号の検出精度,リアルタイム処理速度,全体的な信頼性に基づいて評価する。 郊外地区でのケーススタディでは、交通標識の検出において顕著な96%の精度を示した。 本研究は,交通標識のリアルタイム情報提供によって道路安全と交通管理を改善する可能性があり,自動運転のさらなる研究の道を開くことができる。

This research project aims to develop a real-time traffic sign detection system using the YOLOv5 architecture and deploy it for efficient traffic sign recognition during a drive in a suburban neighborhood. The project's primary objectives are to train the YOLOv5 model on a diverse dataset of traffic sign images and deploy the model on a suitable hardware platform capable of real-time inference. The project will involve collecting a comprehensive dataset of traffic sign images. By leveraging the trained YOLOv5 model, the system will detect and classify traffic signs from a real-time camera on a dashboard inside a vehicle. The performance of the deployed system will be evaluated based on its accuracy in detecting traffic signs, real-time processing speed, and overall reliability. During a case study in a suburban neighborhood, the system demonstrated a notable 96% accuracy in detecting traffic signs. This research's findings have the potential to improve road safety and traffic management by providing timely and accurate real-time information about traffic signs and can pave the way for further research into autonomous driving.
翻訳日:2023-10-17 19:24:01 公開日:2023-10-14
# 光学フローベース距離非依存不変量を用いた移動物体の検出

Detecting Moving Objects Using a Novel Optical-Flow-Based Range-Independent Invariant ( http://arxiv.org/abs/2310.09627v1 )

ライセンス: Link先を確認
Daniel Raviv, Juan D. Yepes, Ayush Gowda(参考訳) 本稿では,カメラ動作中の移動物体を検出する新しい手法について述べる。 本稿では,時間的瞬間や3次元の点の範囲,カメラの速度に関わらず,一貫した2次元不変画像出力が得られる光フロー変換を提案する。 言い換えると、この変換は3dシーンの投影やカメラの動きが変化しても不変のままのルックアップ画像を生成する。 新しい領域では、予め定義されたルックアップ画像の値から逸脱した3dポイントの投影は、静止3d環境に対する移動と明確に識別でき、シームレスに検出することができる。 この方法は、カメラの運動方向や速度について事前に知る必要はなく、3Dポイント範囲の情報も必要としない。 リアルタイム並列処理に適しており、実装に非常に実用的である。 シミュレーションと実験を通じて,新しい領域の有効性を検証し,シミュレーションと実世界データの両方において,直線的カメラ動作を含むシナリオにおける頑健性を示す。 このアプローチは、カメラモーション中の物体検出の新しい方法を導入し、また6自由度カメラモーション中の物体検出の文脈における将来の研究の基盤となる。

This paper focuses on a novel approach for detecting moving objects during camera motion. We present an optical-flow-based transformation that yields a consistent 2D invariant image output regardless of time instants, range of points in 3D, and the speed of the camera. In other words, this transformation generates a lookup image that remains invariant despite the changing projection of the 3D scene and camera motion. In the new domain, projections of 3D points that deviate from the values of the predefined lookup image can be clearly identified as moving relative to the stationary 3D environment, making them seamlessly detectable. The method does not require prior knowledge of the direction of motion or speed of the camera, nor does it necessitate 3D point range information. It is well-suited for real-time parallel processing, rendering it highly practical for implementation. We have validated the effectiveness of the new domain through simulations and experiments, demonstrating its robustness in scenarios involving rectilinear camera motion, both in simulations and with real-world data. This approach introduces new ways for moving objects detection during camera motion, and also lays the foundation for future research in the context of moving object detection during six-degrees-of-freedom camera motion.
翻訳日:2023-10-17 19:23:44 公開日:2023-10-14
# JSMoCo : 自己校正スコアベース拡散モデルを用いた並列MRIにおける関節コイル感度と運動補正

JSMoCo: Joint Coil Sensitivity and Motion Correction in Parallel MRI with a Self-Calibrating Score-Based Diffusion Model ( http://arxiv.org/abs/2310.09625v1 )

ライセンス: Link先を確認
Lixuan Chen, Xuanyu Tian, Jiangjie Wu, Ruimin Feng, Guoyan Lao, Yuyao Zhang, Hongjiang Wei(参考訳) mri(mri)は臨床診断における強力なモダリティである。 しかし、MRIは、長い取得時間やモーション誘発アーティファクトの脆弱性といった課題に直面していることが知られている。 既存の多くの動き補正アルゴリズムの成功にもかかわらず、高速mri再構成のために推定コイル感度マップの運動アーチファクトの修正に焦点を絞った研究は限られている。 既存の手法では,不正確なコイル感度マップ推定による誤差伝搬による性能劣化が生じる可能性がある。 本研究では、JSMoCoと呼ばれるアンダーサンプルMRI再構成のための動きパラメータとコイル感度マップを共同で推定する。 しかし, 運動パラメータとコイル感度の同時推定により, 未知数の増加による逆問題が発生する。 そこで本研究では,mriの物理原理を活用し,この最適化問題に対する解空間を効率的に制約する手法を提案する。 具体的には、3つの学習可能な変数として剛体運動をパラメータ化し、モデルコイル感度マップを多項式関数とする。 物理的知識を活かしてgibbs samplerを共同推定に活用し,感度マップと所望の画像とのシステム一貫性を確保し,推定感度マップから再構成画像への誤り伝播を回避した。 我々は、高速MRIデータセット上でJSMoCoの性能を評価するための総合的な実験を行う。 提案手法は, 動きの影響を受けない, スパースサンプリングしたk空間データから, 高品質MRI画像の再構成が可能なことを示す。 運動パラメータとコイル感度を高精度に推定し,mri再構成時の運動関連課題を効果的に軽減する。

Magnetic Resonance Imaging (MRI) stands as a powerful modality in clinical diagnosis. However, it is known that MRI faces challenges such as long acquisition time and vulnerability to motion-induced artifacts. Despite the success of many existing motion correction algorithms, there has been limited research focused on correcting motion artifacts on the estimated coil sensitivity maps for fast MRI reconstruction. Existing methods might suffer from severe performance degradation due to error propagation resulting from the inaccurate coil sensitivity maps estimation. In this work, we propose to jointly estimate the motion parameters and coil sensitivity maps for under-sampled MRI reconstruction, referred to as JSMoCo. However, joint estimation of motion parameters and coil sensitivities results in a highly ill-posed inverse problem due to an increased number of unknowns. To address this, we introduce score-based diffusion models as powerful priors and leverage the MRI physical principles to efficiently constrain the solution space for this optimization problem. Specifically, we parameterize the rigid motion as three trainable variables and model coil sensitivity maps as polynomial functions. Leveraging the physical knowledge, we then employ Gibbs sampler for joint estimation, ensuring system consistency between sensitivity maps and desired images, avoiding error propagation from pre-estimated sensitivity maps to the reconstructed images. We conduct comprehensive experiments to evaluate the performance of JSMoCo on the fastMRI dataset. The results show that our method is capable of reconstructing high-quality MRI images from sparsely-sampled k-space data, even affected by motion. It achieves this by accurately estimating both motion parameters and coil sensitivities, effectively mitigating motion-related challenges during MRI reconstruction.
翻訳日:2023-10-17 19:23:26 公開日:2023-10-14
# assert: 大規模言語モデルのロバスト性評価のための自動安全シナリオred teaming

ASSERT: Automated Safety Scenario Red Teaming for Evaluating the Robustness of Large Language Models ( http://arxiv.org/abs/2310.09624v1 )

ライセンス: Link先を確認
Alex Mei, Sharon Levy, William Yang Wang(参考訳) 大規模言語モデルが社会へ統合されるにつれ,高分散環境において信頼性を維持する上で,一組のプロンプトに対する堅牢性がますます重要になってきており,利用者がインテリジェントシステムを呼び出す様々な設定を包括的にカプセル化する必要がある。 本稿では,ASSERT(Automated Safety Scenario Red Teaming)を提案する。3つの手法 – セマンティックアライメント,ターゲットブートストラップ,対人的知識注入 – から構成される。堅牢な安全性評価のために,これらの手法をAI安全の重要な領域に適用し,多種多様なロバスト性設定,関連するシナリオ,敵対的シナリオを含むテストスイートをアルゴリズム的に生成する。 このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能に与える影響を詳細に分析する。 既存の最先端モデルでは特に安全対策を講じているが,意味的関連シナリオにおける絶対的分類精度の最大11%,ゼロショットの敵意設定では最大19%の絶対エラー率の統計的に有意な性能差が見出され,ユーザの身体的安全性への懸念が高まった。

As large language models are integrated into society, robustness toward a suite of prompts is increasingly important to maintain reliability in a high-variance environment.Robustness evaluations must comprehensively encapsulate the various settings in which a user may invoke an intelligent system. This paper proposes ASSERT, Automated Safety Scenario Red Teaming, consisting of three methods -- semantically aligned augmentation, target bootstrapping, and adversarial knowledge injection. For robust safety evaluation, we apply these methods in the critical domain of AI safety to algorithmically generate a test suite of prompts covering diverse robustness settings -- semantic equivalence, related scenarios, and adversarial. We partition our prompts into four safety domains for a fine-grained analysis of how the domain affects model performance. Despite dedicated safeguards in existing state-of-the-art models, we find statistically significant performance differences of up to 11% in absolute classification accuracy among semantically related scenarios and error rates of up to 19% absolute error in zero-shot adversarial settings, raising concerns for users' physical safety.
翻訳日:2023-10-17 19:23:00 公開日:2023-10-14
# 認知症モニタリングのためのデジタル言語コヒーレンスマーカー

A Digital Language Coherence Marker for Monitoring Dementia ( http://arxiv.org/abs/2310.09623v1 )

ライセンス: Link先を確認
Dimitris Gkoumas, Adam Tsakalidis and Maria Liakata(参考訳) 適切なデジタルマーカーを導出するための自発的言語の使用は、認知症を診断し監視するための創発的で有望で非意図的な方法となった。 本稿では,認知症患者の認知的変化を監視するための費用対効果の高い,人間解釈可能なデジタルマーカーとして,言語コヒーレンスを捉える手法を提案する。 短い書き起こし物語における発話の時間的論理的一貫性を学習する新しいタスクを導入し,様々なニューラルアプローチについて検討する。 認知症と健常者の言語コヒーレンスパターンを比較し,3つの臨床バイオマーカーに対して縦断評価を行い,提案するデジタルコヒーレンスマーカーの信頼性について検討した。 コヒーレンスマーカーは、軽度認知障害患者、アルツハイマー病患者、健康管理者の間で有意な差を示している。 さらに,コヒーレンスマーカーと臨床バイオマーカーの関連性が高く,他の関連疾患に対する一般可能性も高い。

The use of spontaneous language to derive appropriate digital markers has become an emergent, promising and non-intrusive method to diagnose and monitor dementia. Here we propose methods to capture language coherence as a cost-effective, human-interpretable digital marker for monitoring cognitive changes in people with dementia. We introduce a novel task to learn the temporal logical consistency of utterances in short transcribed narratives and investigate a range of neural approaches. We compare such language coherence patterns between people with dementia and healthy controls and conduct a longitudinal evaluation against three clinical bio-markers to investigate the reliability of our proposed digital coherence marker. The coherence marker shows a significant difference between people with mild cognitive impairment, those with Alzheimer's Disease and healthy controls. Moreover our analysis shows high association between the coherence marker and the clinical bio-markers as well as generalisability potential to other related conditions.
翻訳日:2023-10-17 19:22:34 公開日:2023-10-14
# 都市空気質分析のための機械学習:調査

Machine Learning for Urban Air Quality Analytics: A Survey ( http://arxiv.org/abs/2310.09620v1 )

ライセンス: Link先を確認
Jindong Han, Weijia Zhang, Hao Liu, Hui Xiong(参考訳) 大気汚染の増加は、早世や収穫量の減少など、我々の日常生活の様々な側面に大きな影響を与える広範囲な結果に緊急の世界的な懸念をもたらす。 大気汚染の正確かつタイムリーな分析は、その根底にあるメカニズムを理解し、社会経済的損失を軽減させるために必要な予防措置を実施する上で不可欠である。 大気モデリングのような従来の分析手法は、ドメインの専門知識に大きく依存しており、複雑な大気汚染問題に適用できないような単純な仮定をすることも多い。 対照的に、機械学習(ml)モデルは、大量の歴史的観測データから自動的に学習することで、内在的な物理的および化学的ルールを捉えることができ、様々な空気質分析タスクにおいて大きな期待を示す。 本稿では,データ取得から前処理までのロードマップに従い,汚染パターンマイニング,大気質推定,予測といった様々な分析タスクを網羅する,mlに基づく空気品質分析の総合的な調査を行う。 さらに、既存の方法論や応用の体系的な分類と概要を提示するとともに、この方向の研究を容易にするために、公開されている大気質データセットのリストも提供する。 最後に,将来有望な研究の方向性を明らかにした。 この調査は、特定の課題に対して適切な解決策を求め、最先端で研究を進めるプロフェッショナルにとって貴重なリソースとなる。

The increasing air pollution poses an urgent global concern with far-reaching consequences, such as premature mortality and reduced crop yield, which significantly impact various aspects of our daily lives. Accurate and timely analysis of air pollution is crucial for understanding its underlying mechanisms and implementing necessary precautions to mitigate potential socio-economic losses. Traditional analytical methodologies, such as atmospheric modeling, heavily rely on domain expertise and often make simplified assumptions that may not be applicable to complex air pollution problems. In contrast, Machine Learning (ML) models are able to capture the intrinsic physical and chemical rules by automatically learning from a large amount of historical observational data, showing great promise in various air quality analytical tasks. In this article, we present a comprehensive survey of ML-based air quality analytics, following a roadmap spanning from data acquisition to pre-processing, and encompassing various analytical tasks such as pollution pattern mining, air quality inference, and forecasting. Moreover, we offer a systematic categorization and summary of existing methodologies and applications, while also providing a list of publicly available air quality datasets to ease the research in this direction. Finally, we identify several promising future research directions. This survey can serve as a valuable resource for professionals seeking suitable solutions for their specific challenges and advancing their research at the cutting edge.
翻訳日:2023-10-17 19:22:17 公開日:2023-10-14
# 数式生成のための表現木デコード戦略

An Expression Tree Decoding Strategy for Mathematical Equation Generation ( http://arxiv.org/abs/2310.09619v1 )

ライセンス: Link先を確認
Wenqi Zhang, Yongliang Shen, Qingpeng Nong, Zeqi Tan Yanna Ma, Weiming Lu(参考訳) 自然言語から数学的方程式を生成するには、式間の関係を正確に理解する必要がある。 既存のアプローチはトークンレベルと式レベルの生成に大まかに分類できる。 前者は方程式を数学的言語として扱い、連続して数学トークンを生成する。 式レベルメソッドは、各式を1つずつ生成する。 しかしながら、各式は解決ステップを表しており、これらのステップの間に自然に平行あるいは依存的な関係が存在し、これは現在のシーケンシャルな方法によって無視される。 そこで,木構造を表現レベル生成に統合し,表現ツリー復号戦略を提唱する。 各層で複数の独立した式(リーフノード)を並列にデコードし、レイヤ毎に並列デコード層を繰り返して、他の層に依存するこれらの親ノード式を順次生成する。 さらに、複数の予測を各レイヤのアノテーションに合わせるために、二部マッチングアルゴリズムが採用されている。 実験により, 複素構造を持つこれらの方程式に対して, 本手法は他のベースラインよりも優れることが示された。

Generating mathematical equations from natural language requires an accurate understanding of the relations among math expressions. Existing approaches can be broadly categorized into token-level and expression-level generation. The former treats equations as a mathematical language, sequentially generating math tokens. Expression-level methods generate each expression one by one. However, each expression represents a solving step, and there naturally exist parallel or dependent relations between these steps, which are ignored by current sequential methods. Therefore, we integrate tree structure into the expression-level generation and advocate an expression tree decoding strategy. To generate a tree with expression as its node, we employ a layer-wise parallel decoding strategy: we decode multiple independent expressions (leaf nodes) in parallel at each layer and repeat parallel decoding layer by layer to sequentially generate these parent node expressions that depend on others. Besides, a bipartite matching algorithm is adopted to align multiple predictions with annotations for each layer. Experiments show our method outperforms other baselines, especially for these equations with complex structures.
翻訳日:2023-10-17 19:21:54 公開日:2023-10-14
# 党派言語使用におけるモラルコンセンサスと多様性

Moral consensus and divergence in partisan language use ( http://arxiv.org/abs/2310.09618v1 )

ライセンス: Link先を確認
Nakwon Rim, Marc G. Berman and Yuan Chang Leong(参考訳) 政治的議論では分極化が著しく増加し、党派分裂の拡大に寄与した。 本稿では,Redditコミュニティ(294,476,146コメント)とニュースメディア(6,749,781記事)の大規模実世界の言語利用を分析し,パルチザン言語を分割した心理的次元を明らかにする。 膨大なテキストコーパスにおける単語の共起に基づく意味的関連を捉えた単語埋め込みモデルを用いて,自然政治談話における感情分極パターンを同定した。 次に、道徳(道徳と不道徳)、脅威(安全を脅かす)、原子価(不快から不快)の次元に沿って、7つの政治トピック(中絶、移民など)に関連する単語の意味的関連を調査した。 Redditコミュニティとニュースメディアの両方で、異なるパルチザンの傾きを持つテキストソース間の言葉の道徳的関連において、小さなが体系的な違いが見つかった。 単語の道徳的な関係は、保守的およびリベラルなテキストソース(平均で$\rho$ = 0.96)の間で高い相関関係があったが、これらの違いは、パルチザンラインに沿って85%以上の精度でテキストソースを識別できる信頼性は保たれていた。 これらの結果は、政治的スペクトルに共通する道徳的理解にもかかわらず、パルチザン言語を形作る一貫した相違があり、政治的分極が悪化する可能性を示唆している。 ソーシャルメディア上での非公式な対話とニュースメディアにおける物語のキュレーションの両方から得られた結果から,これらの傾向が広まっていることが示唆された。 先進的な計算技術を活用することで、政治態度における伝統的な手法を補完する新しい視点を提供する。

Polarization has increased substantially in political discourse, contributing to a widening partisan divide. In this paper, we analyzed large-scale, real-world language use in Reddit communities (294,476,146 comments) and in news outlets (6,749,781 articles) to uncover psychological dimensions along which partisan language is divided. Using word embedding models that captured semantic associations based on co-occurrences of words in vast textual corpora, we identified patterns of affective polarization present in natural political discourse. We then probed the semantic associations of words related to seven political topics (e.g., abortion, immigration) along the dimensions of morality (moral-to-immoral), threat (threatening-to-safe), and valence (pleasant-to-unpleasant). Across both Reddit communities and news outlets, we identified a small but systematic divergence in the moral associations of words between text sources with different partisan leanings. Moral associations of words were highly correlated between conservative and liberal text sources (average $\rho$ = 0.96), but the differences remained reliable to enable us to distinguish text sources along partisan lines with above 85% classification accuracy. These findings underscore that despite a shared moral understanding across the political spectrum, there are consistent differences that shape partisan language and potentially exacerbate political polarization. Our results, drawn from both informal interactions on social media and curated narratives in news outlets, indicate that these trends are widespread. Leveraging advanced computational techniques, this research offers a fresh perspective that complements traditional methods in political attitudes.
翻訳日:2023-10-17 19:21:39 公開日:2023-10-14
# STORM:強化学習のための効率的な確率変換器に基づく世界モデル

STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning ( http://arxiv.org/abs/2310.09615v1 )

ライセンス: Link先を確認
Weipu Zhang, Gang Wang, Jian Sun, Yetian Yuan, Gao Huang(参考訳) 近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な効果を示した。 これらのアプローチは、自己教師付き学習を通じて実環境のパラメータ化シミュレーションワールドモデルを構築することから始まる。 世界モデルの想像力を活用することにより、エージェントのポリシーは実環境からのサンプリングの制約なしに強化される。 これらのアルゴリズムの性能は、世界モデルのシーケンスモデリングと生成能力に大きく依存している。 しかし、複雑な未知環境の完全正確なモデルを構築することはほぼ不可能である。 モデルと現実の間の不一致はエージェントが仮想目標を追求し、結果として実際の環境でのパフォーマンスが劣る可能性がある。 モデルに基づく強化学習にランダムノイズを導入することは有益であることが証明されている。 本稿では,Stochastic Transformer-based wORld Model (STORM)を紹介する。これは,Stochastic Transformerの強いシーケンスモデリングと生成能力と変分オートエンコーダの確率的性質を組み合わせた,効率的な世界モデルアーキテクチャである。 STORMは、Atari 100$kベンチマークで平均126.7\%の人的パフォーマンスを達成し、ルックアヘッド検索技術を使用しない最先端のメソッドの中で、新しい記録を樹立した。 さらに、NVIDIA GeForce RTX 3090グラフィックスカード1枚に1.85ドルのリアルタイムインタラクション体験を持つエージェントをトレーニングするには、わずか4.3ドルの時間しか必要とせず、従来の手法と比べて効率が向上したことを示している。

Recently, model-based reinforcement learning algorithms have demonstrated remarkable efficacy in visual input environments. These approaches begin by constructing a parameterized simulation world model of the real environment through self-supervised learning. By leveraging the imagination of the world model, the agent's policy is enhanced without the constraints of sampling from the real environment. The performance of these algorithms heavily relies on the sequence modeling and generation capabilities of the world model. However, constructing a perfectly accurate model of a complex unknown environment is nearly impossible. Discrepancies between the model and reality may cause the agent to pursue virtual goals, resulting in subpar performance in the real environment. Introducing random noise into model-based reinforcement learning has been proven beneficial. In this work, we introduce Stochastic Transformer-based wORld Model (STORM), an efficient world model architecture that combines the strong sequence modeling and generation capabilities of Transformers with the stochastic nature of variational autoencoders. STORM achieves a mean human performance of $126.7\%$ on the Atari $100$k benchmark, setting a new record among state-of-the-art methods that do not employ lookahead search techniques. Moreover, training an agent with $1.85$ hours of real-time interaction experience on a single NVIDIA GeForce RTX 3090 graphics card requires only $4.3$ hours, showcasing improved efficiency compared to previous methodologies.
翻訳日:2023-10-17 19:21:08 公開日:2023-10-14
# テスタのバイアスを超えて: llmを使ったモデルテストの知識ベースによるガイド

Beyond Testers' Biases: Guiding Model Testing with Knowledge Bases using LLMs ( http://arxiv.org/abs/2310.09668v1 )

ライセンス: Link先を確認
Chenyang Yang, Rishabh Rustogi, Rachel Brower-Sinning, Grace A. Lewis, Christian K\"astner, Tongshuang Wu(参考訳) 現在のモデルテストの作業は主にテストケースの作成に重点を置いています。 テスト対象を特定することは、ほとんど無視され、サポートされていないステップです。 ウィーバーは、モデルテストの指針となる要求の導出をサポートする対話型ツールである。 weaverは、大きな言語モデルを使用して知識ベースを生成し、対話的に概念を推奨する。 Weaverはテスタに豊富な外部知識を提供し、テスタが自身のバイアスを越えてさまざまな概念を体系的に探求することを奨励する。 ユーザスタディでは、NLPの専門家と非専門家の両方が、Weaverを使用する際にテストする価値のある、より多様な概念を特定した。 合計すると、ゼロショットチャットgptによるスタンス検出で200件以上のテストケースが失敗した。 私たちのケーススタディでは、Weaverが実践者が実世界の環境でモデルをテストするのに役立ち、開発者はLSMを使ってよりニュアンスなアプリケーションシナリオ(例えば、コード理解と書き起こしの要約)を定義することができます。

Current model testing work has mostly focused on creating test cases. Identifying what to test is a step that is largely ignored and poorly supported. We propose Weaver, an interactive tool that supports requirements elicitation for guiding model testing. Weaver uses large language models to generate knowledge bases and recommends concepts from them interactively, allowing testers to elicit requirements for further testing. Weaver provides rich external knowledge to testers and encourages testers to systematically explore diverse concepts beyond their own biases. In a user study, we show that both NLP experts and non-experts identified more, as well as more diverse concepts worth testing when using Weaver. Collectively, they found more than 200 failing test cases for stance detection with zero-shot ChatGPT. Our case studies further show that Weaver can help practitioners test models in real-world settings, where developers define more nuanced application scenarios (e.g., code understanding and transcript summarization) using LLMs.
翻訳日:2023-10-17 19:13:22 公開日:2023-10-14
# 医療におけるマルチモーダルフェデレート学習の展望

Multimodal Federated Learning in Healthcare: a review ( http://arxiv.org/abs/2310.09650v1 )

ライセンス: Link先を確認
Jacob Thrasher, Alina Devkota, Prasiddha Siwakotai, Rohit Chivukula, Pranav Poudel, Chaunbo Hu, Binod Bhattarai, Prashnna Gyawali(参考訳) マルチモーダル機械学習の最近の進歩は、医療領域、特に集中型データベースシステムにおいて、正確で堅牢なAIシステムの開発を促進する。 同時に、フェデレートラーニング(FL)が進展し、データを統合する必要のない分散メカニズムを提供し、機密性の高い医療データのプライバシーとセキュリティを高める。 これら2つの概念の統合は、医療におけるマルチモーダル学習の継続的な進歩をサポートしながら、ローカルなデータ保持機関内の患者の記録のセキュリティとプライバシを確保する。 本稿では、医療におけるFLの重要性を簡潔に概説し、医療領域におけるMMFL(Multimodal Federated Learning)の最先端のアプローチについて概説する。 この分野における既存の課題を包括的に調査し、現在のモデルの限界に光を当てる。 最後に,最先端のai技術と医療アプリケーションにおける患者データプライバシの必要性とのギャップを埋めることを目的とした,この分野の今後の進歩への可能性について概説する。

Recent advancements in multimodal machine learning have empowered the development of accurate and robust AI systems in the medical domain, especially within centralized database systems. Simultaneously, Federated Learning (FL) has progressed, providing a decentralized mechanism where data need not be consolidated, thereby enhancing the privacy and security of sensitive healthcare data. The integration of these two concepts supports the ongoing progress of multimodal learning in healthcare while ensuring the security and privacy of patient records within local data-holding agencies. This paper offers a concise overview of the significance of FL in healthcare and outlines the current state-of-the-art approaches to Multimodal Federated Learning (MMFL) within the healthcare domain. It comprehensively examines the existing challenges in the field, shedding light on the limitations of present models. Finally, the paper outlines potential directions for future advancements in the field, aiming to bridge the gap between cutting-edge AI technology and the imperative need for patient data privacy in healthcare applications.
翻訳日:2023-10-17 19:13:06 公開日:2023-10-14
# ポイントDynRF:単眼ビデオからの点ベース動的放射場

Point-DynRF: Point-based Dynamic Radiance Fields from a Monocular Video ( http://arxiv.org/abs/2310.09647v1 )

ライセンス: Link先を確認
Byeongjun Park, Changick Kim(参考訳) 動的放射場は単眼ビデオから新しいビューを生成するための有望なアプローチとして現れてきた。 しかし, 従来の手法では, 隣接する入力フレーム間のみの動的放射場に対する幾何的整合性を強制し, 大域的なシーン形状を表現し, 入力カメラ軌道から時空間離れた視点で退化させることが困難であった。 この問題を解決するために、我々は、大域的幾何学情報とボリュームレンダリングプロセスがそれぞれニューラルネットワークと動的放射場によってトレーニングされる新しいフレームワークである点ベース動的放射場(\textbf{Point-DynRF})を導入する。 具体的には,幾何学的プロキシから直接ニューラルポイント雲を再構成し,提案する損失を用いて放射場と幾何学的プロキシの両方を最適化し,相互補完を可能にした。 提案手法の有効性をNVIDIA Dynamic Scenes Datasetと因果的に捉えたモノクロビデオクリップを用いて検証した。

Dynamic radiance fields have emerged as a promising approach for generating novel views from a monocular video. However, previous methods enforce the geometric consistency to dynamic radiance fields only between adjacent input frames, making it difficult to represent the global scene geometry and degenerates at the viewpoint that is spatio-temporally distant from the input camera trajectory. To solve this problem, we introduce point-based dynamic radiance fields (\textbf{Point-DynRF}), a novel framework where the global geometric information and the volume rendering process are trained by neural point clouds and dynamic radiance fields, respectively. Specifically, we reconstruct neural point clouds directly from geometric proxies and optimize both radiance fields and the geometric proxies using our proposed losses, allowing them to complement each other. We validate the effectiveness of our method with experiments on the NVIDIA Dynamic Scenes Dataset and several causally captured monocular video clips.
翻訳日:2023-10-17 19:12:35 公開日:2023-10-14
# 相互に偏りのない基底を持つ古典的シャドウトモグラフィ

classical shadow tomography with mutually unbiased bases ( http://arxiv.org/abs/2310.09644v1 )

ライセンス: Link先を確認
Yu Wang and Wei Cui(参考訳) 古典的シャドウトモグラフィーは、ランダム化された情報完全(IC)測定を利用して、未知の量子状態の多くの特性をサンプル効率の精度で予測する有効な方法を提供する。 2^n+1$の相互偏差ベース(mub)への投影は、トモグラフィの最小かつ最適な測定として広く認識されている。 mubsを用いた古典的シャドウトモグラフィの理論的枠組みの確立を目指す。 このアプローチはランダムクリフォード測定にいくつかの利点をもたらすかもしれない[nat. phys. 16, 1050 (2020)]。 第一に、2^n+1$ MUBs 回路はすべての$O(2^{n^2})$ Clifford 回路のサブセットであるため、ランダムな測定プロセスを単純化し、可能な古典的スナップショットの数を大幅に削減する。 第二に、MUBはクリフォードと同じ再構成チャネルを共有しているが、より低い影ノルム平方 (<2\mathrm{tr}(O_0^2)$) を持ち、サンプリングの複雑さを減らした等価な特性予測を可能にする(3分の2)。 第3に、MUBは均一な回路構造を示し、クリフォード回路よりも単純な$-CZ-P-H-$のような一貫したゲートシーケンスとのコヒーレンスを高める。

Classical shadow tomography, harnessing randomized informationally complete (IC) measurements, provides an effective avenue for predicting many properties of unknown quantum states with sample-efficient precision. Projections onto $2^n+1$ mutually unbiased bases (MUBs) are widely recognized as minimal and optimal measurements for tomography. We aim to establish a theoretical framework for conducting classical shadow tomography with MUBs. This approach may offer several advantages over random Clifford measurements [Nat. Phys. 16, 1050 (2020)]. Firstly, it simplifies the random measurement process since $2^n+1$ MUBs circuits are a subset of all $O(2^{n^2})$ Clifford circuits, and significantly reducing the number of all possible classical snapshots. Secondly, MUBs share the same reconstruction channel as Cliffords but with a lower shadow norm square ($< 2\mathrm{tr}(O_0^2)$), enabling equivalent property predictions with reduced sampling complexity (two-thirds). Thirdly, MUBs exhibit a uniform circuit structure, enhancing coherence with a consistent gate sequence like $-CZ-P-H-$, which is simpler than that of the Clifford circuits.
翻訳日:2023-10-17 19:12:06 公開日:2023-10-14
# DPZero:次元独立・微分プライベートゼロ階最適化

DPZero: Dimension-Independent and Differentially Private Zeroth-Order Optimization ( http://arxiv.org/abs/2310.09639v1 )

ライセンス: Link先を確認
Liang Zhang, Kiran Koshy Thekumparampil, Sewoong Oh, Niao He(参考訳) ドメイン固有データに対する微調整済みの大規模言語モデル(LLM)の広範な実践は、メモリとプライバシの2つの大きな課題に直面している。 第一に、LLMのサイズが数十億のパラメータを包含して成長し続けるにつれて、バックプロパゲーションによる勾配に基づくトレーニング手法のメモリ要求は禁じられるほど高くなる。 第2に,llmがセンシティブなトレーニングデータを記憶し開示する傾向から,微調整データのプライバシを尊重する必要がある。 この目的のために、微調整LDMの微分プライベート最適化におけるゼロ階法の可能性について検討する。 前方パスのみに依存するゼロ次メソッドは、トレーニング中のメモリ消費を大幅に削減する。 しかし、それらを標準微分プライバシー機構と直接結合することは次元依存の複雑さをもたらす。 このギャップを埋めるために,次元非依存率の差動的ゼロ次アルゴリズムdpzeroを導入する。 理論解析により,その複雑性は主として問題の固有次元に依存し,周囲の次元に対する対数依存性しか示さないことが明らかとなった。 これにより、DPZeroは現実のLLMデプロイメントに非常に実用的な選択肢となる。

The widespread practice of fine-tuning pretrained large language models (LLMs) on domain-specific data faces two major challenges in memory and privacy. First, as the size of LLMs continue to grow, encompassing billions of parameters, the memory demands of gradient-based training methods via backpropagation become prohibitively high. Second, given the tendency of LLMs to memorize and disclose sensitive training data, the privacy of fine-tuning data must be respected. To this end, we explore the potential of zeroth-order methods in differentially private optimization for fine-tuning LLMs. Zeroth-order methods, which rely solely on forward passes, substantially reduce memory consumption during training. However, directly combining them with standard differential privacy mechanism poses dimension-dependent complexity. To bridge the gap, we introduce DPZero, a novel differentially private zeroth-order algorithm with nearly dimension-independent rates. Our theoretical analysis reveals that its complexity hinges primarily on the problem's intrinsic dimension and exhibits only a logarithmic dependence on the ambient dimension. This renders DPZero a highly practical option for real-world LLMs deployments.
翻訳日:2023-10-17 19:11:10 公開日:2023-10-14
# 原音入力と明示的韻律モデルに基づくテキスト音声合成のための生成逆学習

Generative Adversarial Training for Text-to-Speech Synthesis Based on Raw Phonetic Input and Explicit Prosody Modelling ( http://arxiv.org/abs/2310.09636v1 )

ライセンス: Link先を確認
Tiberiu Boros and Stefan Daniel Dumitrescu and Ionut Mironica and Radu Chivereanu(参考訳) 生成的対角学習を用いたエンドツーエンド音声合成システムについて述べる。 音素・音素変換のためのVocoderを明示的な音韻・ピッチ・持続時間モデルを用いて訓練する。 文脈化・非文脈化単語埋め込みのための事前学習モデルをいくつか実験し,離散型トークンに基づく表現力の高い音声マッチング手法を提案する。

We describe an end-to-end speech synthesis system that uses generative adversarial training. We train our Vocoder for raw phoneme-to-audio conversion, using explicit phonetic, pitch and duration modeling. We experiment with several pre-trained models for contextualized and decontextualized word embeddings and we introduce a new method for highly expressive character voice matching, based on discreet style tokens.
翻訳日:2023-10-17 19:10:47 公開日:2023-10-14
# 超ビットについて

On superqubits ( http://arxiv.org/abs/2310.09635v1 )

ライセンス: Link先を確認
Steven Duplij and Raimund Vogl(参考訳) 我々はまず、超ビット理論の数学的背景を再考し、通常注目されない超空間や超行列の重要な特異点を記述する。 そして、スーパーブラ/スーパーケット形式を詳細に研究する。 qubit (qudit) と superqubit (superqudit) は対応するヒルベルト部分空間の線型スパンとして定義される。 奇異なパリティを担ぐ新しい種類の超量子ビットを導入する。 マルチスーパーキュービット状態を研究し,分離可能な状態を区別するスーパーコンカージェンスを提案する。

We first reconsider the mathematical background of superqubit theory and describe important peculiarities of superspaces and supermatrices which are usually out of attention. Then we study states in super Hilbert spaces using super-bra/super-ket formalism in details. The qubit (qudit) and superqubit (superqudit) are defined as linear spans in the corresponding Hilbert subspaces. A new kind of superqubit carring the odd parity is introduced. The multi-superqubit states are studied, and the superconcurrence which distinguishes separable states is proposed.
翻訳日:2023-10-17 19:10:36 公開日:2023-10-14
# ソースコードリポジトリの読み書きによる再現性評価のためのエンドツーエンドシステム

An End-to-End System for Reproducibility Assessment of Source Code Repositories via Their Readmes ( http://arxiv.org/abs/2310.09634v1 )

ライセンス: Link先を確認
Ey\"up Kaan Akdeniz, Selma Tekir, Malik Nizar Asad Al Hinnawi(参考訳) 機械学習研究の再現性の向上は、学習性能を劇的に向上させる原動力となった。 科学的コミュニティは、レビュアーフォームに再現性評価を組み込むことにより、この取り組みをさらに促進し、それらが論文の全体評価の重要な要素であると考えている。 ソースコードを伴って作業を再現するには不十分です。 共有コードは、ML再現性チェックリストも満たすべきである。 本研究は,ソースコードを用いた論文の再現性評価を支援することを目的とする。 本稿では,ソースコードリポジトリのReadmeファイルで動作するエンドツーエンドシステムを提案する。 このシステムは、研究のソースコードを共有するために広く使用されているプラットフォームによって提案されたテンプレートに対する、所定のreadmeの準拠をチェックする。 本システムは,セクションスコアを組み合わせたカスタム関数に基づいてスコアを生成する。 また、与えられたReadmeにクラスラベルを割り当てるために階層変換モデルをトレーニングします。 実験の結果,断面類似度に基づくシステムは階層変換器よりも優れた性能を示した。 さらに、readmeファイルのセクションに直接スコアを関連付けることができるため、説明可能性に関しても利点がある。

Increased reproducibility of machine learning research has been a driving force for dramatic improvements in learning performances. The scientific community further fosters this effort by including reproducibility ratings in reviewer forms and considering them as a crucial factor for the overall evaluation of papers. Accompanying source code is not sufficient to make a work reproducible. The shared codes should meet the ML reproducibility checklist as well. This work aims to support reproducibility evaluations of papers with source codes. We propose an end-to-end system that operates on the Readme file of the source code repositories. The system checks the compliance of a given Readme to a template proposed by a widely used platform for sharing source codes of research. Our system generates scores based on a custom function to combine section scores. We also train a hierarchical transformer model to assign a class label to a given Readme. The experimental results show that the section similarity-based system performs better than the hierarchical transformer. Moreover, it has an advantage regarding explainability since one can directly relate the score to the sections of Readme files.
翻訳日:2023-10-17 19:10:22 公開日:2023-10-14
# Dimma: 適応ディミングによる半教師付き低光画像強調

Dimma: Semi-supervised Low Light Image Enhancement with Adaptive Dimming ( http://arxiv.org/abs/2310.09633v1 )

ライセンス: Link先を確認
Wojciech Koz{\l}owski, Micha{\l} Szachniewicz, Micha{\l} Stypu{\l}kowski, Maciej Zi\k{e}ba(参考訳) 自然色を維持しながら低照度画像の強調は、カメラ処理のバリエーションや、地中光条件のある写真へのアクセス制限により難しい問題である。 後者は、ペアのデータセットで良い結果を得るがドメイン外のデータをうまく処理しない教師付きメソッドにとって重要な要素である。 一方、教師なしのメソッドは一般化できるが、しばしば低品質の強化をもたらす。 このギャップを埋めるため,我々は,特定のカメラで撮影された極端な照明条件下で撮影されたシーンを,少数の画像ペアを用いて再現することで,任意のカメラと整合する半教師付きアプローチであるdimmを提案する。 そこで我々は,照明の違いに基づいて,シーンの歪み色を生成する畳み込み混合密度ネットワークを導入する。 さらに,本手法は,低照度画像強調プロセスにおける輝度レベル調整において,広い範囲の制御と柔軟性を提供するディミング係数の精度向上を可能にする。 結果の質をさらに向上するため,条件付きUNetに基づくアーキテクチャを導入する。 ユーザが提供する明度値は条件入力として機能し、所望の明度で画像を生成する。 画像ペア数が少ないアプローチは,完全教師付き手法と比較して競合的な結果が得られる。 さらに、完全なデータセットでトレーニングする場合、私たちのモデルはいくつかのメトリクスで最先端のメソッドを超え、他のメトリクスに密にアプローチします。

Enhancing low-light images while maintaining natural colors is a challenging problem due to camera processing variations and limited access to photos with ground-truth lighting conditions. The latter is a crucial factor for supervised methods that achieve good results on paired datasets but do not handle out-of-domain data well. On the other hand, unsupervised methods, while able to generalize, often yield lower-quality enhancements. To fill this gap, we propose Dimma, a semi-supervised approach that aligns with any camera by utilizing a small set of image pairs to replicate scenes captured under extreme lighting conditions taken by that specific camera. We achieve that by introducing a convolutional mixture density network that generates distorted colors of the scene based on the illumination differences. Additionally, our approach enables accurate grading of the dimming factor, which provides a wide range of control and flexibility in adjusting the brightness levels during the low-light image enhancement process. To further improve the quality of our results, we introduce an architecture based on a conditional UNet. The lightness value provided by the user serves as the conditional input to generate images with the desired lightness. Our approach using only few image pairs achieves competitive results compared to fully supervised methods. Moreover, when trained on the full dataset, our model surpasses state-of-the-art methods in some metrics and closely approaches them in others.
翻訳日:2023-10-17 19:10:07 公開日:2023-10-14
# 視覚運動不変量を用いた時空間マッピング

Time-based Mapping of Space Using Visual Motion Invariants ( http://arxiv.org/abs/2310.09632v1 )

ライセンス: Link先を確認
Juan D. Yepes, Daniel Raviv(参考訳) 本稿では,静止環境が不変のままである3次元点を表現し,形状定数を確保する視覚運動に基づく不変量に着目した。 これは、カメラの動きによって画像が変化しても達成される。 幾何学的3次元不変量に関連する可測光流の非線形関数を用いて新しい表現を生成する。 得られた光フローに基づく不変量は、"Time-Clearance"とよく知られた"Time-to-Contact"(TTC)と呼ぶ。 これらの不変量は時間とともに一定となるため、期待される定数に従わない移動点を検出することは容易になる。 3dオブジェクトに対して相対的に移動するカメラのシミュレーション、直線的に動くカメラで撮影された投影画像のスナップショット、そして新しい領域で時間とともに変化するオブジェクトのシミュレーションを行う。 さらに、Unityをベースとしたシミュレーションでは、投影された3Dシーンのカラーコード変換が示され、移動物体の識別が容易にできることを示す。 この表現は単純で、単純な光フロー関数に依存する。 カメラは1つしか必要とせず、カメラの速度ベクトルの大きさを決定する必要はない。 さらに、この表現はピクセルベースであり、並列処理に適している。

This paper focuses on visual motion-based invariants that result in a representation of 3D points in which the stationary environment remains invariant, ensuring shape constancy. This is achieved even as the images undergo constant change due to camera motion. Nonlinear functions of measurable optical flow, which are related to geometric 3D invariants, are utilized to create a novel representation. We refer to the resulting optical flow-based invariants as 'Time-Clearance' and the well-known 'Time-to-Contact' (TTC). Since these invariants remain constant over time, it becomes straightforward to detect moving points that do not adhere to the expected constancy. We present simulations of a camera moving relative to a 3D object, snapshots of its projected images captured by a rectilinearly moving camera, and the object as it appears unchanged in the new domain over time. In addition, Unity-based simulations demonstrate color-coded transformations of a projected 3D scene, illustrating how moving objects can be readily identified. This representation is straightforward, relying on simple optical flow functions. It requires only one camera, and there is no need to determine the magnitude of the camera's velocity vector. Furthermore, the representation is pixel-based, making it suitable for parallel processing.
翻訳日:2023-10-17 19:09:43 公開日:2023-10-14
# 効率的なモデル非依存多群同変ネットワーク

Efficient Model-Agnostic Multi-Group Equivariant Networks ( http://arxiv.org/abs/2310.09675v1 )

ライセンス: Link先を確認
Razan Baltaji and Sourya Basu and Lav R. Varshney(参考訳) 等式 (Basu et al., 2023b) や一般化 (Kim et al., 2023) のようなモデルに依存しない群同変ネットワークの構築は、大規模製品群にとって計算的に高価である。 ネットワークが複数の入力を持ち、異なるグループが作用する場合と、その上に作用する群が大きな積群である場合の2つの問題に対して、効率的なモデルに依存しない同変設計を提供することにより、この問題に対処する。 最初の設計では、まず線形モデルを検討し、この制約を満たす同変空間全体を特徴づける。 この特徴付けにより、IS層と呼ばれる不変対称性(IS)制約を満たす異なるチャネル間の新たな融合層が生まれる。 この設計は、同変層とIS層からなる等高線と同様の線形モデルを超えて拡張する。 また、IS層は不変対称関数の普遍近似器であることを示す。 第一の設計に触発されて、我々は1つの入力に作用する大きな積群に対して第二の効率的なモデル非依存同変設計を設計するために、is特性の概念を用いる。 最初の設計では、各ビューが回転などの変換と独立に変換されるマルチイメージ分類の実験を行う。 等変モデルはそのような変換に対して堅牢であり、それ以外は競合する。 第2の設計では、SCANデータセットから製品グループへの言語構成性、GPT-2から交叉性に対処する自然言語生成の公平性、CLIPを用いた堅牢なゼロショット画像分類の3つの応用について検討する。 全体として、我々の手法は単純で一般的なもので、等級やその変種と競合しますが、計算効率も優れています。

Constructing model-agnostic group equivariant networks, such as equitune (Basu et al., 2023b) and its generalizations (Kim et al., 2023), can be computationally expensive for large product groups. We address this by providing efficient model-agnostic equivariant designs for two related problems: one where the network has multiple inputs each with potentially different groups acting on them, and another where there is a single input but the group acting on it is a large product group. For the first design, we initially consider a linear model and characterize the entire equivariant space that satisfies this constraint. This characterization gives rise to a novel fusion layer between different channels that satisfies an invariance-symmetry (IS) constraint, which we call an IS layer. We then extend this design beyond linear models, similar to equitune, consisting of equivariant and IS layers. We also show that the IS layer is a universal approximator of invariant-symmetric functions. Inspired by the first design, we use the notion of the IS property to design a second efficient model-agnostic equivariant design for large product groups acting on a single input. For the first design, we provide experiments on multi-image classification where each view is transformed independently with transformations such as rotations. We find equivariant models are robust to such transformations and perform competitively otherwise. For the second design, we consider three applications: language compositionality on the SCAN dataset to product groups; fairness in natural language generation from GPT-2 to address intersectionality; and robust zero-shot image classification with CLIP. Overall, our methods are simple and general, competitive with equitune and its variants, while also being computationally more efficient.
翻訳日:2023-10-17 19:03:31 公開日:2023-10-14
# ツリーベースコントラスト学習による半構造化icd符号化

Towards Semi-Structured Automatic ICD Coding via Tree-based Contrastive Learning ( http://arxiv.org/abs/2310.09672v1 )

ライセンス: Link先を確認
Chang Lu, Chandan K. Reddy, Ping Wang, Yue Ning(参考訳) 国際疾病分類(icd)の自動コーディングは、臨床ノートから疾患や手順コードを抽出することを含む多段テキスト分類タスクである。 最先端自然言語処理(NLP)技術の適用にもかかわらず、プライバシの制約によるデータの可用性の制限や、医療専門家の異なる筆記習慣による臨床ノートの高変動、患者の様々な病理学的特徴など、依然として課題がある。 本研究では,臨床ノートの半構造化的性質を調査し,それらを区分する自動アルゴリズムを提案する。 制限データを用いた既存ICD符号化モデルの変動性問題に対処するため,木編集距離に基づくソフトなマルチラベル類似度尺度を用いて,セクションに対する対照的な事前学習手法を提案する。 さらに、ICD符号化モデルがICDコードに関連するセクションを特定できるように、マスク付きセクショントレーニング戦略を設計する。 実験の結果,提案手法は既存のICD符号化手法の性能を効果的に向上することが示された。

Automatic coding of International Classification of Diseases (ICD) is a multi-label text categorization task that involves extracting disease or procedure codes from clinical notes. Despite the application of state-of-the-art natural language processing (NLP) techniques, there are still challenges including limited availability of data due to privacy constraints and the high variability of clinical notes caused by different writing habits of medical professionals and various pathological features of patients. In this work, we investigate the semi-structured nature of clinical notes and propose an automatic algorithm to segment them into sections. To address the variability issues in existing ICD coding models with limited data, we introduce a contrastive pre-training approach on sections using a soft multi-label similarity metric based on tree edit distance. Additionally, we design a masked section training strategy to enable ICD coding models to locate sections related to ICD codes. Extensive experimental results demonstrate that our proposed training strategies effectively enhance the performance of existing ICD coding methods.
翻訳日:2023-10-17 19:03:00 公開日:2023-10-14
# Edge-InversionNet:エッジデバイス上でのInversionNetの効率的な推論を実現する

Edge-InversionNet: Enabling Efficient Inference of InversionNet on Edge Devices ( http://arxiv.org/abs/2310.09667v1 )

ライセンス: Link先を確認
Zhepeng Wang, Isaacshubhanand Putla, Weiwen Jiang, Youzuo Lin(参考訳) フルウェーブフォームインバージョン(FWI)は、地震データから地下構造を推定するための地球物理学において広く用いられている手法である。 そして、InversionNetは、地震波FWIに適用される最も成功したデータ駆動機械学習モデルの1つである。 しかし、InversionNetを実行するための高いコンピューティングコストは、通常リソース制約のあるエッジデバイスに効率的にデプロイすることを困難にしている。 そこで我々は,inversionnetの軽量化に構造化pruningアルゴリズムを応用し,エッジデバイス上で効率的な推論を実現することを提案する。 また、軽量のInversionNetを動かすためにRaspberry Piでプロトタイプを作りました。 実験の結果,pruned inversionnetは,モデル性能の低下を伴う計算資源の98.2 %削減を達成できることがわかった。

Seismic full waveform inversion (FWI) is a widely used technique in geophysics for inferring subsurface structures from seismic data. And InversionNet is one of the most successful data-driven machine learning models that is applied to seismic FWI. However, the high computing costs to run InversionNet have made it challenging to be efficiently deployed on edge devices that are usually resource-constrained. Therefore, we propose to employ the structured pruning algorithm to get a lightweight version of InversionNet, which can make an efficient inference on edge devices. And we also made a prototype with Raspberry Pi to run the lightweight InversionNet. Experimental results show that the pruned InversionNet can achieve up to 98.2 % reduction in computing resources with moderate model performance degradation.
翻訳日:2023-10-17 19:02:42 公開日:2023-10-14
# araievalにおけるレジェンド共有タスク:言語非依存テキスト表現モデルを用いた説得技術検出

Legend at ArAIEval Shared Task: Persuasion Technique Detection using a Language-Agnostic Text Representation Model ( http://arxiv.org/abs/2310.09661v1 )

ライセンス: Link先を確認
Olumide E. Ojo, Olaronke O. Adebanji, Hiram Calvo, Damian O. Dieke, Olumuyiwa E. Ojo, Seye E. Akinsanya, Tolulope O. Abiola, Anna Feldman(参考訳) 本稿では,アラビアNLP 2023において,アラビアAIタスク評価チャレンジ(ArAIEval)への最高の成果を公表する。 私たちの焦点はタスク1で、ツイートやニュース記事からの抜粋の中で説得技術を特定することにあります。 アラビア文字の説得法は,言語に依存しないテキスト表現モデルであるXLM-RoBERTaを用いて訓練ループを用いて検出された。 このアプローチは、多言語モデルの微調整を活用して、強力であることが証明された。 テストセットの評価では,コンペティションのサブタスクAに対して,マイクロF1スコア0.64を達成した。

In this paper, we share our best performing submission to the Arabic AI Tasks Evaluation Challenge (ArAIEval) at ArabicNLP 2023. Our focus was on Task 1, which involves identifying persuasion techniques in excerpts from tweets and news articles. The persuasion technique in Arabic texts was detected using a training loop with XLM-RoBERTa, a language-agnostic text representation model. This approach proved to be potent, leveraging fine-tuning of a multilingual language model. In our evaluation of the test set, we achieved a micro F1 score of 0.64 for subtask A of the competition.
翻訳日:2023-10-17 19:02:30 公開日:2023-10-14
# 一般化された拡張形架空のプレイアルゴリズム

A Generalized Extensive-Form Fictitious Play Algorithm ( http://arxiv.org/abs/2310.09658v1 )

ライセンス: Link先を確認
Tim P. Schulze(参考訳) 両プレイヤー・ゼロサムゲームの平衡を求めるための単純な拡張形式アルゴリズムを提案する。 このアルゴリズムは、一般化されたFictitious Playと等価である。 我々は,その性能を,類似の広義の虚偽プレイアルゴリズムと反実的後悔最小化アルゴリズムとを比較した。 3つのアルゴリズムは、ストレージの要件と計算の複雑さを減らすという点で、通常の架空の遊びよりも同じ利点を持っている。 新しいアルゴリズムは直感的で実装も簡単で、素早く簡単に解けるツールを探している人にとっては魅力的な選択肢だ。

We introduce a simple extensive-form algorithm for finding equilibria of two-player, zero-sum games. The algorithm is realization equivalent to a generalized form of Fictitious Play. We compare its performance to that of a similar extensive-form fictitious play algorithm and a counter-factual regret minimization algorithm. All three algorithms share the same advantages over normal-form fictitious play in terms of reducing storage requirements and computational complexity. The new algorithm is intuitive and straightforward to implement, making it an appealing option for those looking for a quick and easy game solving tool.
翻訳日:2023-10-17 19:02:21 公開日:2023-10-14
# トポロジー誘導型ハイパーグラフトランスネットワーク:表現改善のための構造的考察

Topology-guided Hypergraph Transformer Network: Unveiling Structural Insights for Improved Representation ( http://arxiv.org/abs/2310.09657v1 )

ライセンス: Link先を確認
Khaled Mohammed Saifuddin, Mehmet Emin Aktas, Esra Akbas(参考訳) 高階関係を描く能力を持つハイパーグラフは、従来のグラフの重要な拡張として現れてきた。 グラフニューラルネットワーク(GNN)はグラフ表現学習において顕著な性能を持つが、ハイパーグラフへの拡張はその複雑な構造のために困難に直面する。 さらに、GNNの特殊な変種である現在のハイパーグラフトランスフォーマーは、ノードやハイパーエッジのトポロジ特性を無視し、意味的特徴に基づく自己アテンションを利用する。 これらの課題に対処するため,Topology-Guided Hypergraph Transformer Network (THTN)を提案する。 このモデルでは、まずグラフからハイパーグラフを定式化し、その構造的本質を保持してグラフ内の高次関係を学習する。 そこで我々は,ノードのトポロジ的,空間的情報を表現に組み込むシンプルな構造的,空間的エンコーディングモジュールを設計した。 さらに,セマンティクスと構造の両方の観点から重要なノードやハイパーエッジを検出する,構造認識型セルフアテンション機構を提案する。 これら2つのモジュールを活用することで、THTNはノード表現を改善し、局所的およびグローバルなトポロジ表現をキャプチャする。 ノード分類タスクで実施された大規模な実験は、提案モデルの性能が既存の手法よりも常に高いことを示す。

Hypergraphs, with their capacity to depict high-order relationships, have emerged as a significant extension of traditional graphs. Although Graph Neural Networks (GNNs) have remarkable performance in graph representation learning, their extension to hypergraphs encounters challenges due to their intricate structures. Furthermore, current hypergraph transformers, a special variant of GNN, utilize semantic feature-based self-attention, ignoring topological attributes of nodes and hyperedges. To address these challenges, we propose a Topology-guided Hypergraph Transformer Network (THTN). In this model, we first formulate a hypergraph from a graph while retaining its structural essence to learn higher-order relations within the graph. Then, we design a simple yet effective structural and spatial encoding module to incorporate the topological and spatial information of the nodes into their representation. Further, we present a structure-aware self-attention mechanism that discovers the important nodes and hyperedges from both semantic and structural viewpoints. By leveraging these two modules, THTN crafts an improved node representation, capturing both local and global topological expressions. Extensive experiments conducted on node classification tasks demonstrate that the performance of the proposed model consistently exceeds that of the existing approaches.
翻訳日:2023-10-17 19:02:14 公開日:2023-10-14
# Score-based Diffusion を用いた混合型語彙データ合成

Mixed-Type Tabular Data Synthesis with Score-based Diffusion in Latent Space ( http://arxiv.org/abs/2310.09656v1 )

ライセンス: Link先を確認
Hengrui Zhang, Jiani Zhang, Balasubramaniam Srinivasan, Zhengyuan Shen, Xiao Qin, Christos Faloutsos, Huzefa Rangwala and George Karypis(参考訳) 表データ生成の最近の進歩は、合成データの品質を大幅に向上させた。 しかし,表データへの拡散モデルの拡張は,複雑に変化する分布とデータ型の組み合わせにより困難である。 本稿では,変分オートエンコーダ(VAE)における拡散モデルを利用して,表層データを合成する手法であるTABSYNを紹介する。 提案したTABSYNの主な利点は,(1) 汎用性: 単一統一空間に変換してカラム間関係を明示的に捉えることによって,データ型を広い範囲で扱える能力;(2) 品質: 潜伏埋め込みの分布を最適化し,その後の拡散モデルのトレーニングを強化すること,(3) 高品質な合成データの生成を支援すること,(3) 速度: 逆ステップの数が少ないこと,および既存の拡散法よりも高速な合成速度。 5つのメトリクスによる6つのデータセットに関する広範な実験は、tabsynが既存のメソッドを上回ることを示している。 具体的には、最も競争の激しいベースラインと比較して、列間分布とペア間相関推定のエラー率を86%と67%削減する。

Recent advances in tabular data generation have greatly enhanced synthetic data quality. However, extending diffusion models to tabular data is challenging due to the intricately varied distributions and a blend of data types of tabular data. This paper introduces TABSYN, a methodology that synthesizes tabular data by leveraging a diffusion model within a variational autoencoder (VAE) crafted latent space. The key advantages of the proposed TABSYN include (1) Generality: the ability to handle a broad spectrum of data types by converting them into a single unified space and explicitly capture inter-column relations; (2) Quality: optimizing the distribution of latent embeddings to enhance the subsequent training of diffusion models, which helps generate high-quality synthetic data, (3) Speed: much fewer number of reverse steps and faster synthesis speed than existing diffusion-based methods. Extensive experiments on six datasets with five metrics demonstrate that TABSYN outperforms existing methods. Specifically, it reduces the error rates by 86% and 67% for column-wise distribution and pair-wise column correlation estimations compared with the most competitive baselines.
翻訳日:2023-10-17 19:01:51 公開日:2023-10-14
# SelfVC:自己変換を用いた反復リファインメントによる音声変換

SelfVC: Voice Conversion With Iterative Refinement using Self Transformations ( http://arxiv.org/abs/2310.09653v1 )

ライセンス: Link先を確認
Paarth Neekhara, Shehzeen Hussain, Rafael Valle, Boris Ginsburg, Rishabh Ranjan, Shlomo Dubnov, Farinaz Koushanfar, Julian McAuley(参考訳) 自己合成例を用いて音声変換モデルを反復的に改善する学習戦略であるselfvcを提案する。 音声変換における従来の取り組みは、話者特性と言語内容とを別々に符号化するために、音声表現を明示的に切り離すことに重点を置いていた。 しかし、タスク固有の損失項を用いてそのような属性をキャプチャするために音声表現を分離することは、元の信号の微妙なニュアンスを捨てることで情報損失につながる可能性がある。 本研究では,自己教師型学習モデルと話者検証モデルから導かれる絡み合った音声表現に基づいて,制御可能な音声変換モデルを学習するための枠組みを提案する。 まず,音声信号とSSL表現から韻律情報を引き出す手法を開発し,合成モデルにおける予測サブモジュールの訓練を行う。 次に,自己合成例を用いて挑戦的な学習目標を作成することにより,音声変換のための合成モデルを反復的に改善する学習戦略を提案する。 この学習アプローチでは,音声変換された発話の変動を生成できる合成モデルの現況を用いて,復元作業の入力として機能し,連続的かつ目的的にモデルの洗練が図られる。 このような自己合成例を訓練中に組み込むことで、ヒューリスティックに摂動した入力のみに訓練されたベースライン音声変換モデルと比較して、生成音声の話者類似性が向上することを示す。 SelfVCはテキストなしで訓練されており、ゼロショット音声変換、言語間音声変換、ピッチやペース修正による制御可能な音声合成など、様々なタスクに適用できる。 selfvcは、自然性、話者の類似性、合成音声の知性を評価する指標でゼロショット音声変換を実現する。

We propose SelfVC, a training strategy to iteratively improve a voice conversion model with self-synthesized examples. Previous efforts on voice conversion focus on explicitly disentangling speech representations to separately encode speaker characteristics and linguistic content. However, disentangling speech representations to capture such attributes using task-specific loss terms can lead to information loss by discarding finer nuances of the original signal. In this work, instead of explicitly disentangling attributes with loss terms, we present a framework to train a controllable voice conversion model on entangled speech representations derived from self-supervised learning and speaker verification models. First, we develop techniques to derive prosodic information from the audio signal and SSL representations to train predictive submodules in the synthesis model. Next, we propose a training strategy to iteratively improve the synthesis model for voice conversion, by creating a challenging training objective using self-synthesized examples. In this training approach, the current state of the synthesis model is used to generate voice-converted variations of an utterance, which serve as inputs for the reconstruction task, ensuring a continuous and purposeful refinement of the model. We demonstrate that incorporating such self-synthesized examples during training improves the speaker similarity of generated speech as compared to a baseline voice conversion model trained solely on heuristically perturbed inputs. SelfVC is trained without any text and is applicable to a range of tasks such as zero-shot voice conversion, cross-lingual voice conversion, and controllable speech synthesis with pitch and pace modifications. SelfVC achieves state-of-the-art results in zero-shot voice conversion on metrics evaluating naturalness, speaker similarity, and intelligibility of synthesized audio.
翻訳日:2023-10-17 19:01:30 公開日:2023-10-14
# 会話システムのための語彙エントレインメント

Lexical Entrainment for Conversational Systems ( http://arxiv.org/abs/2310.09651v1 )

ライセンス: Link先を確認
Zhengxiang Shi, Procheta Sen, Aldo Lipani(参考訳) 会話エージェントは日常的なタスクを支援するためにユビキタスになり、人間のような機能を持つことが期待されている。 そのような特徴の1つは、人間と人間の会話の話者が自然かつ潜在意識的に語彙の選択と対話者の選択を一致させ、より成功し、魅力的な会話へと繋がる現象であるレキシカル・エントレーメント(le)である。 例えば、デジタルアシスタントが「今日、ジンリングヌードルバーの予約はいつですか?」という質問に「ジンリングヌードルパブの予約は午後7時です」と答えると、アシスタントがスピーカーを正そうとしているように感じるのに対して、「ジンリングヌードルバーの予約は午後7時です」という反応は、よりポジティブなものになる可能性が高い。 このことは、会話における最大明快さと曖昧さの低減のための共通用語を確立する上で、LEの重要性を強調している。 しかし,本研究では,現在の応答生成モデルが,この重要な人間的現象に十分対応していないことを実証する。 そこで我々は,MultiWOZ-ENTRという新しいデータセットと,会話システムのためのLE尺度を提案する。 さらに、LE抽出タスクとLE生成タスクという2つの新しいタスクで、LEを会話システムに明示的に統合する方法を提案する。 また,対話コンテキストからのle表現の検出を目的とした,le抽出タスクに対する2つのベースラインアプローチを提案する。

Conversational agents have become ubiquitous in assisting with daily tasks, and are expected to possess human-like features. One such feature is lexical entrainment (LE), a phenomenon in which speakers in human-human conversations tend to naturally and subconsciously align their lexical choices with those of their interlocutors, leading to more successful and engaging conversations. As an example, if a digital assistant replies 'Your appointment for Jinling Noodle Pub is at 7 pm' to the question 'When is my reservation for Jinling Noodle Bar today?', it may feel as though the assistant is trying to correct the speaker, whereas a response of 'Your reservation for Jinling Noodle Bar is at 7 pm' would likely be perceived as more positive. This highlights the importance of LE in establishing a shared terminology for maximum clarity and reducing ambiguity in conversations. However, we demonstrate in this work that current response generation models do not adequately address this crucial humanlike phenomenon. To address this, we propose a new dataset, named MULTIWOZ-ENTR, and a measure for LE for conversational systems. Additionally, we suggest a way to explicitly integrate LE into conversational systems with two new tasks, a LE extraction task and a LE generation task. We also present two baseline approaches for the LE extraction task, which aim to detect LE expressions from dialogue contexts.
翻訳日:2023-10-17 19:00:59 公開日:2023-10-14
# 意味格子解析による自動音声認識システムにおける文脈認識の改善

Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring ( http://arxiv.org/abs/2310.09680v1 )

ライセンス: Link先を確認
Ankitha Sudarshan, Vinay Samuel, Parth Patwa, Ibtihel Amara, Aman Chadha(参考訳) 自動音声認識(asr)は大きな研究の関心を集めている。 近年のブレークスルーは、会話エージェントの構築において重要な進歩である音声言語を忠実に翻訳するなど、ASRシステムに異なる見通しを与えている。 しかし、文脈依存の単語や句を正確に識別するという課題はいまだに差し迫っている。 本研究では,多種多様な語彙や話し言葉の書き起こしを正確に配信する深層学習モデルの力を活用した意味的格子処理により,ASRシステム内の文脈認識を強化する新しい手法を提案する。 提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,より高精度な言語モデルと音響モデルを統合する。 我々は,変換器モデルを用いて,単語誤り率(WER)を低下させることで,単語格子が優れた能力を発揮することを適切に評価した。 実験分析により,提案フレームワークがlibrispeechデータセット上で有効であることを示す。

Automatic Speech Recognition (ASR) has witnessed a profound research interest. Recent breakthroughs have given ASR systems different prospects such as faithfully transcribing spoken language, which is a pivotal advancement in building conversational agents. However, there is still an imminent challenge of accurately discerning context-dependent words and phrases. In this work, we propose a novel approach for enhancing contextual recognition within ASR systems via semantic lattice processing leveraging the power of deep learning models in accurately delivering spot-on transcriptions across a wide variety of vocabularies and speaking styles. Our solution consists of using Hidden Markov Models and Gaussian Mixture Models (HMM-GMM) along with Deep Neural Networks (DNN) models integrating both language and acoustic modeling for better accuracy. We infused our network with the use of a transformer-based model to properly rescore the word lattice achieving remarkable capabilities with a palpable reduction in Word Error Rate (WER). We demonstrate the effectiveness of our proposed framework on the LibriSpeech dataset with empirical analyses.
翻訳日:2023-10-17 18:49:19 公開日:2023-10-14
# ディープラーニングモデルは視覚的注意について何を学ぶか?

What Do Deep Saliency Models Learn about Visual Attention? ( http://arxiv.org/abs/2310.09679v1 )

ライセンス: Link先を確認
Shi Chen, Ming Jiang, Qi Zhao(参考訳) 近年,人間の視覚注意の予測において,深いサリエンシーモデルが大きな進歩を遂げている。 しかし、その成功の裏にあるメカニズムは、ディープニューラルネットワークの不透明な性質のため、ほとんど説明されていない。 本稿では,サリエンシーモデルによって学習された暗黙的特徴に光を当て,サリエンシー予測への貢献の原理的解釈と定量化を提供する,新たな分析フレームワークを提案する。 提案手法は,これらの暗黙的特徴を意味的属性に明示的に整合した解釈可能なベースに分解し,サリエンシ予測をベースとサリエンシを接続する確率マップの重み付け結合として再構成する。 本フレームワークの適用により、セマンティクスの肯定的および否定的な重み付け、トレーニングデータとアーキテクチャ設計の影響、微調整の進歩的影響、最先端の深層顧客モデルの一般的な失敗パターンなど、さまざまな観点から分析を行う。 さらに,自閉症スペクトラム障害者の非定型的注意,感情刺激への注意,時間経過に伴う注意進化など,様々な応用シナリオにおいて視覚的注意の特徴を探求することにより,フレームワークの有効性を実証する。 私たちのコードは、 \url{https://github.com/szzexpoi/saliency_analysis}で公開されています。

In recent years, deep saliency models have made significant progress in predicting human visual attention. However, the mechanisms behind their success remain largely unexplained due to the opaque nature of deep neural networks. In this paper, we present a novel analytic framework that sheds light on the implicit features learned by saliency models and provides principled interpretation and quantification of their contributions to saliency prediction. Our approach decomposes these implicit features into interpretable bases that are explicitly aligned with semantic attributes and reformulates saliency prediction as a weighted combination of probability maps connecting the bases and saliency. By applying our framework, we conduct extensive analyses from various perspectives, including the positive and negative weights of semantics, the impact of training data and architectural designs, the progressive influences of fine-tuning, and common failure patterns of state-of-the-art deep saliency models. Additionally, we demonstrate the effectiveness of our framework by exploring visual attention characteristics in various application scenarios, such as the atypical attention of people with autism spectrum disorder, attention to emotion-eliciting stimuli, and attention evolution over time. Our code is publicly available at \url{https://github.com/szzexpoi/saliency_analysis}.
翻訳日:2023-10-17 18:49:07 公開日:2023-10-14
# プレトレーニングとマルチタスクファインチューニングによるマルチモーダルプロンプトによるマスタリングロボット操作

Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning ( http://arxiv.org/abs/2310.09676v1 )

ライセンス: Link先を確認
Jiachen Li, Qiaozi Gao, Michael Johnston, Xiaofeng Gao, Xuehai He, Suhaila Shakiah, Hangjie Shi, Reza Ghanadan, William Yang Wang(参考訳) プロンプトに基づく学習は、大規模言語モデルの素晴らしい成功(LLM)に寄与する魅力的なパラダイムとして実証されてきた。 言語タスクの成功に触発されて、既存の研究はLLMを具体的指導とタスクプランニングに活用してきた。 しかし、視覚信号とテキスト記述を組み合わせたマルチモーダルプロンプトを具現化したタスクにはあまり注意が払われていない。 このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。 本研究では,マルチタスクの専門家軌道からのマルチモーダルプロンプトによるロボット操作のポリシーを学習する効果的なフレームワークを提案する。 本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階トレーニングパイプラインからなる。 マルチモーダル理解を容易にするために,事前学習したlmを視覚入力への残留接続で拡張し,動作次元間の依存関係をモデル化し,マルチモーダルプロンプトエンコーダの設計を行う。 実験では,vima-bench法の有効性を評価し,新たな最先端(成功率10%向上)を確立した。 さらに,本モデルはテキスト内学習能力に優れることを示した。

Prompt-based learning has been demonstrated as a compelling paradigm contributing to large language models' tremendous success (LLMs). Inspired by their success in language tasks, existing research has leveraged LLMs in embodied instruction following and task planning. However, not much attention has been paid to embodied tasks with multimodal prompts, combining vision signals with text descriptions. This type of task poses a major challenge to robots' capability to understand the interconnection and complementarity between vision and language signals. In this work, we introduce an effective framework that learns a policy to perform robot manipulation with multimodal prompts from multi-task expert trajectories. Our methods consist of a two-stage training pipeline that performs inverse dynamics pretraining and multi-task finetuning. To facilitate multimodal understanding, we design our multimodal prompt encoder by augmenting a pretrained LM with a residual connection to the visual input and model the dependencies among action dimensions. Empirically, we evaluate the efficacy of our method on the VIMA-BENCH and establish a new state-of-the-art (10% improvement in success rate). Moreover, we demonstrate that our model exhibits remarkable in-context learning ability.
翻訳日:2023-10-17 18:48:45 公開日:2023-10-14
# sentinel:分散連合学習をセキュアにするための集約関数

Sentinel: An Aggregation Function to Secure Decentralized Federated Learning ( http://arxiv.org/abs/2310.08097v2 )

ライセンス: Link先を確認
Chao Feng, Alberto Huertas Celdran, Janosch Baltensperger, Enrique Tomas Martinez Beltran, Gerome Bovet, Burkhard Stiller(参考訳) ネットワークへのフェデレーション学習(fl)の迅速な統合は、データプライバシを維持しながら、ネットワーク管理、サービス品質、サイバーセキュリティといったさまざまな側面を包含する。 この文脈において、分散連合学習(dfl)は、単一障害点の制限に対処する協調モデルを訓練するための革新的パラダイムとして出現する。 しかし、FLとDFLの安全性と信頼性は、毒性攻撃によって損なわれ、その性能に悪影響を及ぼす。 既存の防御機構は集中型FLのために設計されており、DFLの特異性を十分に活用していない。 そこで本研究では,DFLの毒殺対策戦略であるSentinelを紹介した。 Sentinelはローカルデータのアクセシビリティを活用し、類似性のフィルタリング、ブートストラップ検証、悪意のあるモデル更新に対する保護のための正規化からなる3段階のアグリゲーションプロトコルを定義する。 sentinelは、さまざまなデータセットとさまざまな毒殺攻撃タイプと脅威レベルで評価されており、標的とターゲットの両方の毒殺攻撃に対する最先端のパフォーマンスを改善している。

The rapid integration of Federated Learning (FL) into networking encompasses various aspects such as network management, quality of service, and cybersecurity while preserving data privacy. In this context, Decentralized Federated Learning (DFL) emerges as an innovative paradigm to train collaborative models, addressing the single point of failure limitation. However, the security and trustworthiness of FL and DFL are compromised by poisoning attacks, negatively impacting its performance. Existing defense mechanisms have been designed for centralized FL and they do not adequately exploit the particularities of DFL. Thus, this work introduces Sentinel, a defense strategy to counteract poisoning attacks in DFL. Sentinel leverages the accessibility of local data and defines a three-step aggregation protocol consisting of similarity filtering, bootstrap validation, and normalization to safeguard against malicious model updates. Sentinel has been evaluated with diverse datasets and various poisoning attack types and threat levels, improving the state-of-the-art performance against both untargeted and targeted poisoning attacks.
翻訳日:2023-10-17 10:27:16 公開日:2023-10-14
# 位相検索アルゴリズムによる2光子干渉パターンからの位相定数の回復

Recovery of phase constant from two-photon interference pattern by phase retrieval algorithm ( http://arxiv.org/abs/2310.07988v2 )

ライセンス: Link先を確認
Yuhang Lei, Wen Zhao, Liang cui, Xiaoyin Li(参考訳) 2つの独立した入射パルスを持つhom干渉計では、入射方向の1つに分散媒体を追加することで干渉パターンに影響を与えることができるが、干渉パターンから媒体の位相定数を再構成する方法は存在しない。 そこで我々は, 2つの位相探索アルゴリズムを適用し, 位相定数の導出が可能な2つの入射フィールド間の位相差関数の復元を行った。 シミュレーションにより, アルゴリズムの収束, 精度, 堅牢性を検証し, この位相回復過程が無視可能な誤差で良好に完了することを示した。 本研究では,2光子干渉を用いた高次分散計測のためのアルゴリズムツールを提供し,高分解能・位相感受性量子トモグラフィへの道を開く。

For a HOM interferometer with two independent incident pulses, the interference pattern can be affected by adding a dispersion medium on one of the incident directions, but there hasn't been a method to reconstruct the phase constant of the medium from the interference pattern. To solve it, we adapted two phase retrieval algorithms and used them to recover the phase difference function between the two incident fields, from which the phase constant can be derived. Through simulations, we verified the convergence, accuracy, and robustness of the algorithms, indicating that this phase recovery process can be completed well with negligible error. Our research finds a new application direction for the phase recovery algorithm, provides an algorithmic tool for high-order dispersion measurement using two-photon interference, and paves the way for a higher resolution and phase-sensitive quantum tomography.
翻訳日:2023-10-17 10:26:58 公開日:2023-10-14